CN110134923A - 一种电子文稿修改痕迹的查找方法 - Google Patents

一种电子文稿修改痕迹的查找方法 Download PDF

Info

Publication number
CN110134923A
CN110134923A CN201810126774.7A CN201810126774A CN110134923A CN 110134923 A CN110134923 A CN 110134923A CN 201810126774 A CN201810126774 A CN 201810126774A CN 110134923 A CN110134923 A CN 110134923A
Authority
CN
China
Prior art keywords
article
sentence
word
section
revision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810126774.7A
Other languages
English (en)
Inventor
陈虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201810126774.7A priority Critical patent/CN110134923A/zh
Publication of CN110134923A publication Critical patent/CN110134923A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种电子文稿修改痕迹的查找方法。它属计算机技术领域。本发明采用了对修改稿和原稿中的文章段、文章语句或字进行对应关系对比确认,并根据对应关系对比确认的结果查找出修改痕迹的方法,使本发明可准确快速查找出电子文稿的修改痕迹。

Description

一种电子文稿修改痕迹的查找方法
技术领域
本发明属计算机技术领域,具体地说它涉及一种电子文稿修改痕迹的查找方法。
背景技术
文稿起草完成后,一般需要经过修改才能定稿。对于纸质文稿,修改痕迹一目了然。但对于电子文稿,需要通过具有纪录修改痕迹功能的编辑软件才能查看修改痕迹。申请号为200610007218.5的我国发明专利申请公开说明书中介绍了一种编辑文档并记录修改痕迹的方法,该方法采用开放的XML格式进行文档编辑和记录修改痕迹,并将XML文档统一转换为普通编辑软件支持的编辑文档,并在XML文档与转换后的文档之间建立一一对应关系,在利用普通编辑软件编辑该文档时可以同步修改XML文档,记录修改痕迹。采用该方法,使用XML格式文档进行编辑文档和记录修改痕迹,方便数据交换,不拘泥于特定编辑器。随着计算机网络的发展,多人协同处理电子文稿的情况已成常态。在绝大部分情况下,由于不可能采用统一的编辑软件,因此修改痕迹并没有被纪录。往往看到的只是电子文稿的原稿和修改稿,但要在修改稿中查找修改内容,只能通过人工方式对原稿和修改稿进行比较查找,非常耗时耗力,并且容易漏查。经查,未检索到只通过电子文稿的原稿和修改稿进行比较而查找出修改痕迹的相关方法。
发明内容
本发明的目的是提供一种电子文稿修改痕迹的查找方法,在没有纪录修改痕迹的情况下,该方法只需通过对原稿和修改稿进行比较就可以查找出修改痕迹或修改内容,这样就可直接查看或纪录修改稿的修改痕迹。
为了更清楚的叙述和理解本发明,下面对本发明使用的几个用词进行定义,在本发明中,这几个用词只能理解为所定义的内容和范围。
文章段:文章段是由一个或多个文章语句组成,它可以是一个文章自然段,它还可以是包含一个或多个文章自然段的段块,它甚至还可以是整个文章。它可以是这几种当中的一种或多种,但不仅限于此。
文章语句:文章语句是由一个或多个字组成,它可以是一个文章自然句,它也可以是根据语法关系而分解出的词句,它还可以是包含有标点符号的语句块,甚至它还可以是包含有一个或几个文章自然段的语句块,或者是整个文章,它可以是这几种当中的一种或多种,但不仅限于此。
文章自然句:本发明所述的文章自然句是指,以逗号、句号、问号结尾的语句。当然,这里不仅限于逗号、句号、问号,还可以包括一些具有分句功能的符号或标记,如空格、换行等。一些其它的标点符号也可包括进来,这在实施本发明时,是可以达到相同的结果的。
字:本发明所述的文章语句中的字,可以是汉字或字母,也可以是各种标点符号,还可以是文章中的空格、换行等各种标记,但不仅限于这些。
修改痕迹:一般是指对文稿修改过程的纪录。但本发明所述的修改痕迹是指:修改稿相对于原稿的修改结果的痕迹数据,其包括但不限于:增加的内容为增加痕迹;删除的内容为删除痕迹,移动的内容为移动痕迹。
对应关系对比确认:是在修改稿和原稿中,根据文字、语句、文章段、上下文关系、位置等信息,对每一个文章段或文章语句或字进行对应关系对比确认。也就是说,要对修改稿中的每一个文章段或文章语句或字在原稿中对比确认是否有对应的文章段或文章语句或字。可采取逐段逐句逐字对比的方法来确认修改稿和原稿的文章段或文章语句或字是否相同或相似,对相同或相似度高的两个文章段或文章语句或字可确认为对应文章段或文章语句或字,这是一种常见的方法,但本发明不仅限于这种方法。修改稿中的文章段或文章语句或字最多只能在原稿中确认一个对应文章段或文章语句或字。这里的文章段或文章语句或字的对应关系只能理解为:修改稿中的文章段对应原稿中的文章段,修改稿中的文章语句对应原稿中的文章语句,修改稿中的字对应原稿中的字。这里的位置信息不仅包括绝对位置信息,同时还包括根据上下文关系而确定的相对位置信息。这里的上下文关系,它不仅包括相邻的上下文内容,同时包括上下文的语句、文章段内容,还包括这些内容的字、句、段进行对应查找产生的对应数据,它可以是这些其中的一种或多种,但不仅限于这些。
本发明的目的可通过下述的方法来达到。一种电子文稿修改痕迹的查找方法,有一修改前的原稿,还有一修改后的修改稿,本发明的要点在于对修改稿与原稿的每一个文章段、每一个文章语句、每一个字这三种中至少进行一种对应关系对比确认,在对比确认完成后,如果修改稿中的某一文章段或文章语句或字在原稿中没有对应的文章段或文章语句或字,则该文章段或文章语句或字为增加的文章段或文章语句或字,可对该文章段或文章语句或字标记为增加痕迹;如果原稿中的某一文章段或文章语句或字在修改稿中没有对应的文章段或文章语句或字,则该文章段或文章语句或字为删除的文章段或文章语句或字,可对该文章段或文章语句或字标记为删除痕迹;如果修改稿中的某一文章段或文章语句或字在原稿中有对应的文章段或文章语句或字,但相对位置不同,则该文章段或文章语句或字为移动的文章段或文章语句或字,可对该文章段或文章语句或字标记为移动痕迹。
上述的将修改稿与原稿的每一个文章段、每一个文章语句、每一个字这三种中至少进行一种对应关系对比确认,可以是只进行文章段的对应关系对比确认,可以是只进行文章语句的对应关系对比确认,可以是只进行字的对应关系对比确认,也可以是只对文章段、文章语句和字三种中的任意两种进行对应关系对比确认,还可以是对文章段、文章语句和字全部进行对应关系对比确认。对文章段、文章语句或字这三种均进行对应关系对比确认,这样得到的修改痕迹数据全面。当然,只对文章段、文章语句或字三种中的一种或两种进行对应关系对比确认,这样虽然得到的修改痕迹数据可能不够全面,但也能达到本发明的目的。
电子文稿的修改痕迹查找出来后,可将结果输出到修改痕迹文档中。修改痕迹文档可以是展示修改痕迹的文档,也可以是纪录数据的数据文档,可以是供展示或传输的临时文档,也可以是长期保存的文档,当然不仅限于这些。
为了适合人们对文档查看的习惯,本发明的文章段可为文章的自然段。这样,本发明通过对修改稿与原稿的每一个文章自然段进行对应关系对比确认,就可查找出文章自然段的修改痕迹。当然为了这一习惯,本发明的文章语句可为文章的自然语句。这样,本发明通过对修改稿中的每一个文章自然语句在原稿中进行对应关系对比确认,就可查找出文章自然语句的修改痕迹。对这样的结果进行展示或纪录,人们会感到更直观。
在绝大部分情况下,两个对应的文章语句一般只会出现在两个对应的文章段中,两个对应的字一般只会出现在两个对应的文章语句中,因此为了减少查找对比的工作量,本发明在进行文章语句的对应关系对比确认时,在进行了文章段的对应关系对比确认后,可对修改稿中的文章语句只在原稿的对应文章段中对比确认是否有对应的文章语句。同样,本发明的对字进行对应关系对比确认,在进行了文章语句的对应关系对比确认后,可对修改稿中的字只在原稿的对应文章语句中对比确认是否有对应的字。这样,可大大加快对应关系对比确认的速度。
在实际修改中,会出现把错别字修改成正确字的情况,本发明处理方式是:先将错别字标记为删除痕迹,再把正确的字标记为增加痕迹。当然,如果有人把这种情况增加定义为修正痕迹或其它名称,这只是名称的重新定义,同样应当属于本发明的范围。
对于较长的文稿,也可以先将文稿分成对应的多个文稿部分,再对每个对应的文稿部分进行文章段、文章语句、字的对应关系对比确认。这对应的文稿部分只是较大的文章段,也应当属于本发明的范围。
为了便于理解和叙述方便,本发明的对文章段、文章语句或字进行对应关系对比确认,采用了对修改稿中的文章段、文章语句或字在原稿中对比确认是否有对应的文章段、文章语句或字的叙述方式。反之,对原稿中的文章段、文章语句或字在修改稿中对比确认是否有对应的文章段、文章语句或字的方法,可得到相同的结果,只是叙述方式不同,同样属于本发明的范畴。
这样,本发明由于采用了对修改稿和原稿中的文章段、文章语句或字进行对应关系对比确认,并根据对应关系对比确认的结果查找出修改痕迹的方法,使本发明可准确快速查找出电子文稿的修改痕迹,从而达到了本发明的目的。
具体实施方式
下面是本发明的一个实施例,通过实施例可进一步理解本发明,但本发明的内容并不局限于例举的实施例。
实施例1:有一电子文稿原稿,还有一电子文稿修改稿,从修改稿第一文章自然段开始进行如下A所述循环操作;
A:顺序依次取修改稿中的一个文章自然段,与原稿中的所有没有确认对应关系的文章自然段依次分别进行对应关系对比确认,对应关系对比确认完成后,所取修改稿中的文章自然段如果与原稿中的某一文章自然段相同或相似度高,则这两个文章自然段可确认为对应文章自然段;循环本A操作直至取完所有修改稿中的文章自然段;
B:完成A所述循环操作后,如果修改稿中的某一文章自然段在原稿中没有对应文章自然段,则该文章自然段为增加的文章自然段,可对该文章自然段标记为增加痕迹;如果原稿中的某一文章自然段在修改稿中没有对应文章自然段,则该文章自然段为删除的文章自然段,可对该文章自然段标记为删除痕迹;如果修改稿中的某一文章自然段在原稿中有对应文章自然段,但相对位置不同,则该文章自然段为移动的文章自然段,可对该文章自然段标记为移动痕迹;如果修改稿中的某一文章自然段在原稿中有对应文章自然段,但两文章自然段不相同,则进行如下C所述的循环操作;
C:从修改稿对应文章自然段第一文章自然语句开始,顺序依次取修改稿对应文章自然段中的一个文章自然语句,与原稿中对应文章自然段的所有没有确认对应关系的文章自然语句依次分别进行对应关系对比确认,对应关系对比确认完成后,所取修改稿中的文章自然语句如果与原稿中的某一文章自然语句相同或相似度高,则这两个文章自然语句可确认为对应文章自然语句;循环本C操作直至取完所有修改稿对应文章自然段中的文章自然语句;
D:完成C所述循环操作后,如果修改稿对应文章自然段中的某一文章自然语句在原稿对应文章自然段中没有对应文章自然语句,则该文章自然语句为增加的文章自然语句,可对该文章自然语句标记为增加痕迹;如果原稿对应文章自然段中的某一文章自然语句在修改稿对应文章自然段中没有对应文章自然语句,则该文章自然语句为删除的文章自然语句,可对该文章自然语句标记为删除痕迹;如果修改稿对应文章自然段中的某一文章自然语句在原稿对应文章自然段中有对应文章自然语句,但相对位置不同,则该文章自然语句为移动的文章自然语句,可对该文章自然语句标记为移动痕迹;如果修改稿对应文章自然段中的某一文章自然语句在原稿对应文章自然段中有对应文章自然语句,但两文章自然语句不相同,则进行如下E所述的循环操作;
E:从修改稿对应文章自然语句第一个字开始,顺序依次取修改稿对应文章自然语句中的一个字,与原稿中对应文章自然语句中的所有没有确认对应关系的字依次分别进行对应关系对比确认,对应关系对比确认完成后,所取修改稿中的字如果与原稿中的某一字相同并且相对位置也相同,则这两个字可确认为对应字;循环本E操作直至取完所有修改稿对应文章自然语句中的字;
F:完成E所述循环操作后,如果修改稿对应文章自然语句中的某一字在原稿对应文章自然语句中没有对应字,则该字为增加的字,可对该字标记为增加痕迹;如果原稿对应文章自然语句中的某一字在修改稿对应文章自然语句中没有对应字,则该字为删除的字,可对该字标记为删除痕迹;
G:完成上述的A-F操作后,将结果生成一个可由浏览器显示的网页文档;生成方法为:从原稿和修改稿的开始到结尾顺序输出到网页文档:对没有标记修改痕迹的文章自然段或文章自然语句或字直接输出到网页文档,对标记为增加痕迹的文章自然段或文章自然语句或字加红色下划线后输出到网页文档,对标记为删除痕迹的文章自然段或文章自然语句或字加红色删除线后输出到网页文档,对标记为移动痕迹的文章自然段或文章自然语句加红色框线后输出到网页文档。
这样当生成的网页文档在浏览器中显示时,电子文稿的修改痕迹就以人们熟悉的纸质文稿修改痕迹的习惯方式展现出来。

Claims (7)

1.一种电子文稿修改痕迹的查找方法,有一修改前的原稿,还有一修改后的修改稿,本发明的要点在于对修改稿与原稿的每一个文章段、每一个文章语句、每一个字这三种中至少进行一种对应关系对比确认,在对比确认完成后,如果修改稿中的某一文章段或文章语句或字在原稿中没有对应的文章段或文章语句或字,则该文章段或文章语句或字为增加的文章段或文章语句或字;如果原稿中的某一文章段或文章语句或字在修改稿中没有对应的文章段或文章语句或字,则该文章段或文章语句或字为删除的文章段或文章语句或字;如果修改稿中的某一文章段或文章语句或字在原稿中有对应的文章段或文章语句或字,但相对位置不同,则该文章段或文章语句或字为移动的文章段或文章语句或字。
2.根据权利要求1所述的方法,其要点是对修改稿中的文章语句只在原稿的对应文章段的所有文章语句中进行对应关系对比确认。
3.根据权利要求1所述的方法,其要点是对修改稿中的字只在原稿的对应文章语句中对比确认是否有对应的字。
4.根据权利要求2所述的方法,其要点是对修改稿中的字只在原稿的对应文章语句中对比确认是否有对应的字。
5.根据权利要求1、2、3或4所述的方法,其要点是文章段为文章自然段。
6.根据权利要求1、2、3或4所述的方法,其要点是文章语句为文章自然语句。
7.根据权利要求5所述的方法,其要点是文章语句为文章自然语句。
CN201810126774.7A 2018-02-08 2018-02-08 一种电子文稿修改痕迹的查找方法 Pending CN110134923A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810126774.7A CN110134923A (zh) 2018-02-08 2018-02-08 一种电子文稿修改痕迹的查找方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810126774.7A CN110134923A (zh) 2018-02-08 2018-02-08 一种电子文稿修改痕迹的查找方法

Publications (1)

Publication Number Publication Date
CN110134923A true CN110134923A (zh) 2019-08-16

Family

ID=67567567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810126774.7A Pending CN110134923A (zh) 2018-02-08 2018-02-08 一种电子文稿修改痕迹的查找方法

Country Status (1)

Country Link
CN (1) CN110134923A (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09198409A (ja) * 1996-01-19 1997-07-31 Hitachi Ltd 酷似文書抽出方法
CN1514348A (zh) * 2003-07-23 2004-07-21 新 李 字处理软件修订处理方式的改进
CN1838111A (zh) * 2006-02-14 2006-09-27 北京北大方正电子有限公司 一种编辑文档并记录修改痕迹的方法
CN102043762A (zh) * 2009-10-15 2011-05-04 北大方正集团有限公司 一种版面比对的方法及装置
CN102096660A (zh) * 2009-12-15 2011-06-15 北大方正集团有限公司 一种文档并行处理方法及系统
CN102193907A (zh) * 2010-03-12 2011-09-21 新奥特(北京)视频技术有限公司 一种基于b/s结构的文稿对比方法及系统
CN102375807A (zh) * 2010-08-27 2012-03-14 汉王科技股份有限公司 文字校对方法和装置
CN103092821A (zh) * 2011-10-27 2013-05-08 镇江金软计算机科技有限责任公司 一种电子合同修改痕迹记录方法的实现
CN104699785A (zh) * 2015-03-10 2015-06-10 中国石油大学(华东) 一种论文相似度检测方法
CN105589838A (zh) * 2015-12-24 2016-05-18 中国电子科技集团公司第三十三研究所 一种基于文件比较的电子公文痕迹保留方法
CN105630751A (zh) * 2015-12-28 2016-06-01 厦门优芽网络科技有限公司 一种快速比对文本内容的方法与系统
CN106682533A (zh) * 2017-01-13 2017-05-17 上海鹰谷信息科技有限公司 电子实验记录中对于记录痕迹内容修改的方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09198409A (ja) * 1996-01-19 1997-07-31 Hitachi Ltd 酷似文書抽出方法
CN1514348A (zh) * 2003-07-23 2004-07-21 新 李 字处理软件修订处理方式的改进
CN1838111A (zh) * 2006-02-14 2006-09-27 北京北大方正电子有限公司 一种编辑文档并记录修改痕迹的方法
CN102043762A (zh) * 2009-10-15 2011-05-04 北大方正集团有限公司 一种版面比对的方法及装置
CN102096660A (zh) * 2009-12-15 2011-06-15 北大方正集团有限公司 一种文档并行处理方法及系统
CN102193907A (zh) * 2010-03-12 2011-09-21 新奥特(北京)视频技术有限公司 一种基于b/s结构的文稿对比方法及系统
CN102375807A (zh) * 2010-08-27 2012-03-14 汉王科技股份有限公司 文字校对方法和装置
CN103092821A (zh) * 2011-10-27 2013-05-08 镇江金软计算机科技有限责任公司 一种电子合同修改痕迹记录方法的实现
CN104699785A (zh) * 2015-03-10 2015-06-10 中国石油大学(华东) 一种论文相似度检测方法
CN105589838A (zh) * 2015-12-24 2016-05-18 中国电子科技集团公司第三十三研究所 一种基于文件比较的电子公文痕迹保留方法
CN105630751A (zh) * 2015-12-28 2016-06-01 厦门优芽网络科技有限公司 一种快速比对文本内容的方法与系统
CN106682533A (zh) * 2017-01-13 2017-05-17 上海鹰谷信息科技有限公司 电子实验记录中对于记录痕迹内容修改的方法

Similar Documents

Publication Publication Date Title
US10706218B2 (en) Extracting information from tables embedded within documents
US10169036B2 (en) Synchronizing comments in source code with text documents
US8140969B2 (en) Displaying synchronously documents to a user
US9965472B2 (en) Content revision using question and answer generation
Edhlund et al. Nvivo 11 essentials
US11314807B2 (en) Methods and systems for comparison of structured documents
WO2015184554A1 (en) System and method for generating task-embedded documents
CN103093252B (zh) 信息输出装置以及信息输出方法
US9817887B2 (en) Universal text representation with import/export support for various document formats
CN110770735A (zh) 具有嵌入式数学表达式的文档的编码转换
US10621194B2 (en) Automated harmonization of data
US8214198B2 (en) Translation supporting program, apparatus, and method
JP5747698B2 (ja) 要件管理支援装置
CN110134923A (zh) 一种电子文稿修改痕迹的查找方法
US20070220439A1 (en) Information Management Device
CN114186554A (zh) 脚本数据处理方法、装置、计算机设备及存储介质
CN102262617A (zh) 一种书版小样处理方法及装置
CN105808783B (zh) 一种不同域名格式的大文件数据差异性分析方法
KR102075874B1 (ko) 전자책 변환 방법 및 이러한 방법을 수행하는 장치
Anastasiou et al. Localisation standards and metadata
US20220414336A1 (en) Semantic Difference Characterization for Documents
Ogrodniczuk et al. Error Correction Environment for the Polish Parliamentary Corpus
CN104063386B (zh) 一种内容对象复用的方法和装置
JP2005031813A (ja) 抄録作成支援システム、プログラム、抄録作成支援方法及び特許文献検索システム並びにその検索方法
Liu et al. Parallel Bilingual CI Corpus Construction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination