CN105589838A - 一种基于文件比较的电子公文痕迹保留方法 - Google Patents

一种基于文件比较的电子公文痕迹保留方法 Download PDF

Info

Publication number
CN105589838A
CN105589838A CN201510980945.9A CN201510980945A CN105589838A CN 105589838 A CN105589838 A CN 105589838A CN 201510980945 A CN201510980945 A CN 201510980945A CN 105589838 A CN105589838 A CN 105589838A
Authority
CN
China
Prior art keywords
text
character
length
method based
longest common
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510980945.9A
Other languages
English (en)
Other versions
CN105589838B (zh
Inventor
张游杰
吴伟
张清萍
马俊明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 33 Research Institute
Original Assignee
CETC 33 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 33 Research Institute filed Critical CETC 33 Research Institute
Priority to CN201510980945.9A priority Critical patent/CN105589838B/zh
Publication of CN105589838A publication Critical patent/CN105589838A/zh
Application granted granted Critical
Publication of CN105589838B publication Critical patent/CN105589838B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及电子政务技术领域,更具体而言,涉及一种基于文件比较的电子公文痕迹保留方法;提供一种基于最长公共子串匹配的文本比较的电子公文痕迹保留方法。该方法可以有效解决过度标记的问题,并且算法简单,各种编程语言都比较容易实现,可适用于各种操作系统和软件环境;一种基于文件比较的电子公文痕迹保留方法,首先比较原文本和修改后的文本,得出修改后的文本是在原文本基础上插入了哪些字符串,删除了哪些字符串,最后将插入和删除的字符串分别做出标记,进而实现痕迹保留;本发明主要应用在修改电子文本方面。

Description

一种基于文件比较的电子公文痕迹保留方法
技术领域
本发明涉及电子政务技术领域,更具体而言,涉及一种基于文件比较的电子公文痕迹保留方法。
背景技术
随着我国信息化进程的不断推进,电子政务已成为政务部门提升履行职责能力和水平的重要途径。电子公文流转作为电子政务建设的核心和基础,已成为政务部门信息化的重要内容。在电子公文流转过程中,根据业务需求,会有不同环节的人员对其内容进行修改。基于信息完整性、安全性方面的要求,每个人的修改痕迹必须保留。
目前,最常用的痕迹保留方法是在客户端使用MicrosoftWord进行文档编辑,并将公文保存为Word文档,利用Word自带的文档修订功能实现公文流转过程中各个环节的痕迹保留;第二种方法是在客户端安装WebOffice控件,公文同样以Word文档形式保存,利用WebOffice提供的在线修订功能,实现痕迹保留;第三种方法是基于ZEN的痕迹保留方法,其原理是利用JavaScript脚本分析客户端所有对文档的修改操作,并将这些操作归纳为增加和删除两种类型,然后对增加和删除的内容分别做出标记,从而达到痕迹保留的目的。
这些方法有一个共同特点:保留的痕迹是用户的操作过程,即用户删除一段文本时,做一个删除标记,用户增加一段文本时,做一个插入标记。经常有这种情况:用户删除一个字,然后发现删除错误,又重新输入这个字。虽然用户在实质上并没有更改这些文字,但其痕迹保留的结果将显示删除和插入两个标记,这就造成了过度标记。当用户对文本做频繁修改时,其痕迹保留结果将显得十分混乱。
为解决此问题,提出了一种基于文本比较的痕迹保留方法。常用的文本比较方法有编辑距离算法(LevenshteinDistance,LD)、最长公共子序列(LongestCommonSubsequences,LCS)算法、Nakatsu算法等。其中LD算法的需要构建一个M+2行N+2列的矩阵(其中m和n分别为需比较的两个文本的长度),并且从矩阵的左上依次迭代计算到右下,其空间复杂度为O(MN),其时间复杂度也为O(MN);LCS算法与LD算法思想上一致,其空间复杂度也为O(mn),其时间复杂度不小O(Mlog(N))。这两种方法在两个文本均较短时比较有用,但当文本较长时,其占用空间太大,难以适用。而Nakatsu相较前两种算法在时间和空间上有了很大的改善,但只能求解部分最长的公共子串,不能求解所有最佳匹配。
这些方法常用于字符串相似度分析,不适于电子公文痕迹保留中的文本比较。因此,有必要对其进行改进。
发明内容
为了克服现有技术中所存在的不足,提供一种基于最长公共子串匹配的文本比较的电子公文痕迹保留方法。该方法可以有效解决过度标记的问题,并且算法简单,各种编程语言都比较容易实现,可适用于各种操作系统和软件环境。
为了解决上述技术问题,本发明所采用的技术方案为:
一种基于文件比较的电子公文痕迹保留方法,首先比较原文本和修改后的文本,得出修改后的文本是在原文本基础上插入了哪些字符串,删除了哪些字符串,最后将插入和删除的字符串分别做出标记,进而实现痕迹保留。
所述比较原文本和修改后的文本具体为,首先将原文本记为Str_1,修改后的文本记为Str_2,然后按照下述步骤进行:
第一步,将Str_1作为文本1,Str_2作为文本2;
第二步,用S_1存储文本1,S_2存储文本2,采用最长公共子串匹配算法找出S_1和S_2中最长的公共子串P,并记录P分别在S_1和S_2中所处的开始位置和长度,此时,P将S_1分割为L_S_1和R_S_1两个子串,将S_2分割为L_S_2和R_S_2两个子串;
第三步,将L_S_1和L_S_2分别作为新的文本1和文本2,重复第二步的过程,继续查找其最长公共子串,并将其再次分割为两部分,直到没有剩余部分或剩余部分没有公共子串,同理,R_S_1和R_S_2也按照上述步骤进行;
按照第二步和第三步的原理循环进行,最终将产生S_1和S_2的一系列公共子串,将这些子串按其在S_1中的位置顺序进行从小到大排列,表示为P1,P2...Pk,此时,其在S_2中的位置也是按从小到大的顺序排列;S_1中,Pi(1≤i≤k)将字符串分割为k+1段,记为D1,D2...Dk+1,同理,S_2中,Pi(1≤i≤k)也将字符串分割为k+1段,记为A1,A2...Ak+1,其中,Di(1≤i≤k+1)和Ai(1≤i≤k+1)可以是空字符串;
通过Di、Ai和Pi,就可以表示出从S_1到S_2的修改痕迹,其中:Di是删除的部分,Ai是增加的部分,Pi是保留的部分。
所述最长公共子串匹配算法,是一种基于逐字交错的最长公共子串匹配算法,具体为,有两个字符串S_1和S_2,其中S_1的长度为m,S_2的长度为n,m≤n,若S_1的长度比S_2的长度大,将两个字符串进行交换;假设P为S_1与S_2的最长公共子串,那么求取其P的步骤如下:
第一步,从S_1的起始位置和S_2的起始位置开始,一个字符一个字符逐一比较,对应位置的字符相同则记录下来,连续相同的字符就构成了公共子串,逐一比较完成后,可找出这种对应关系下的所有子串,记录其最长的一个Pmax_1,并将Pmax_1赋给P;
第二步,将S_1向右移一个字符位置,则S_1与S_2的对应关系变成S_1的第1个字符对应S_2的第2个字符,然后按照第一步所述方法逐一比较,得到这种对应关系下的最长公共子串Pmax_2;然后S_1继续右移,并计算Pmax_i,其中i为S_1右移的次数减1,直到S_1与S_2没有对应字符或对应字符的总数小于等于P的长度。在此过程中,每得出一个Pmax_i,都需要比较其长度是否大于P的长度,如果大于则将Pmax_i赋给P,以保证P中保存了S_1和S_2的最长公共子串。
与现有技术相比本发明所具有的有益效果为:
本发明是比较原文本和修改后的文本,得出修改后的文本是在修改前的文本基础上插入了哪些字符串,删除了哪些字符串,最后将插入和删除的部分分别做出标记,进而实现痕迹保留,有效的解决了过度标记的问题,所得结果能更清晰地反映用户的修改内容,且算法简单,各种编程语言都比较容易实现,适用于各种操作系统和软件环境。
附图说明
下面通过附图对本发明的具体实施方式作进一步详细的说明。
图1a、图1b和图1c为本发明的工作过程图;
图2为本发明的工作流程图;
图3a和图3b为本发明最长公共子串匹配原理图。
具体实施方式
下面实施例结合附图对本发明作进一步的描述。
为表述方便以及与LCS算法的区别,本发明的方法命名为LCSS(LongestCommonSubstring)算法。
假设将修改前的文本(源文本)记为Str_1,修改后的文本(目标文本)记为Str_2。
如图1a-图1c所示,本方法的工作流程如下:
第一步,将Str_1作为文本1,Str_2作为文本2。
第二步,用S_1存储文本1,S_2存储文本2(图1a中以细实线表示),利用最长公共子串匹配算法找出S_1和S_2中最长的公共子串P(图1a中以粗实线表示),并记录P分别在S_1和S_2中所处的开始位置和长度。此时,P会将S_1分割为L_S_1和R_S_1两个子串,将S_2分割为L_S_2和R_S_2两个子串。
第三步,如图1b,将L_S_1和L_S_2分别作为文本1和文本2,重复第二步的过程,继续查找其最长公共子串,并将其再次分割为两部分,直到没有剩余部分或剩余部分没有公共子串。同理R_S_1和R_S_2也如此处理。
第二步和第三步循环进行,最终将产生S_1和S_2的一系列公共子串,如图1c。将这些子串按其在S_1中的位置顺序进行从小到大排列,表示为P1,P2....Pk,此时,其在S_2中的位置也是按符合从小到大的顺序。S_1中,Pi(1≤i≤k)将字符串分割为k+1段,记为D1,D2....Dk+1,同理,S_2中,Pi(1≤i≤k)也将字符串分割为k+1段,记为A1,A2....Ak+1。其中,Di(1≤i≤k+1)和Ai(1≤i≤k+1)可以是空字符串。如图1c中A1、A4和Dk+1就是空字符串。
通过Di、Ai和Pi,就可以表示出从S_1到S_2的修改痕迹:Di是被删除的部分,Ai是被增加的部分,而Pi则是被保留的部分。
如图2所示,LCSS()为本图所示流程所表示的过程,通过递归调用实现所有公共子串的查找;MaxSub()为最长公共子串匹配函数,MaxSub(S_1,S_2)可求得S_1与S_2的最长公共子字符;Len()为获取字符串长度的函数,Len(P)可求得P的长度;SubStr()为获取子串的函数,SubStr(S_1,0,Sp2)可求得S_1的从开始到Sp1的子串,SubStr(S_1,Sp1)可求得S_1的从Sp1开始直到末尾的子串;InsertPnt()是一个过程,用于记录Sp1,Sp2以及P的长度。
为了保存每一次查找的结果,定义一个结构体。然后,定义一个动态链表,该链表的每个节点都是一个MAXSAMEPOINT。每执行一次InsertPnt()将向动态链表中插入一个节点P,其过程是:首先根据P.s1的大小找到动态链表中的适当的位置,保证动态链表中每个节点的s1按从小到大的顺序排列,然后将P插入到该位置。
图2所示流程执行完毕后,该动态链表中的节点就按顺序保存了前文所述的Pi(1≤i≤n),根据每个节点中的s1和len,就可得到Di(1≤i≤n+1),同理,根据每个节点的s2和len也可得到Ai(1≤i≤n+1)。最后,利用Pi、Di和Ai对Str_2做标记,就可以展现出从Str_1至Str_2的变化,从而实现痕迹保留。
采用一种比较易于理解和程序实现的基于逐字交错的最长公共子串匹配算法实现最长公共子串匹配。如图3a和图3b所示,有两个字符串S_1和S_2(图3a和图3b中以细实线表示),其中S_1的长度为m,S_2的长度为n,m<=n(在实际中,如果S_1的长度比S_2的长度大,可将两个字符串进行交换,以满足此条件)。假设P为S_1与S_2的最长公共子串,那么求取其P的步骤如下。
第一步,如图3a所示,从S_1的起始位置和S_2的起始位置开始,一个字符一个字符逐一比较,对应位置的字符相同则记录下来,连续相同的字符就构成了公共子串。逐一比较完成后,可找出这种对应关系下的所有子串,记录其最长的一个Pmax_1,并将Pmax_1赋给P。
第二步,如图3b所示,将S_1向右移一个字符位置,则S_1与S_2的对应关系变成S_1的第1个字符对应S_2的第2个字符,然后按照第一步所述方法逐一比较,得到这种对应关系下的最长公共子串Pmax_2。然后S_1继续右移,并计算Pmax_i(i为S_1右移的次数减1),直到S_1与S_2没有对应字符或对应字符的总数小于等于P的长度。在此过程中,每得出一个Pmax_i,都需要比较其长度是否大于P的长度,如果大于则将Pmax_i赋给P,以保证P中保存了S_1和S_2的最长公共子串。
为更好的理解,本发明列举如下实施例。
源文本为:ABBCCCDDDDEEEFFG
目标文本为:AXXCCCXDDDXEEXFFXXG
痕迹保留结果为:ABBXXCCCXDDDDXEEEXFFXXG
该结果中,有下划线的是被增加的文本,有删除线的是被删除的文本。由此结果可看出,本发明的方法反映了对文本修改的真实情况,克服了过度标记的问题,且清晰地反映用户的修改内容,算法简单,各种编程语言都容易实现,适用于各种操作系统和软件环境。

Claims (3)

1.一种基于文件比较的电子公文痕迹保留方法,其特征在于:首先比较原文本和修改后的文本,得出修改后的文本是在原文本基础上插入了哪些字符串,删除了哪些字符串,最后将插入和删除的字符串分别做出标记,进而实现痕迹保留。
2.根据权利要求1所述的一种基于文件比较的电子公文痕迹保留方法,其特征在于:所述比较原文本和修改后的文本具体为,首先将原文本记为Str_1,修改后的文本记为Str_2,然后按照下述步骤进行:
第一步,将Str_1作为文本1,Str_2作为文本2;
第二步,用S_1存储文本1,S_2存储文本2,采用最长公共子串匹配算法找出S_1和S_2中最长的公共子串P,并记录P分别在S_1和S_2中所处的开始位置和长度,此时,P将S_1分割为L_S_1和R_S_1两个子串,将S_2分割为L_S_2和R_S_2两个子串;
第三步,将L_S_1和L_S_2分别作为新的文本1和文本2,重复第二步的过程,继续查找其最长公共子串,并将其再次分割为两部分,直到没有剩余部分或剩余部分没有公共子串,同理,R_S_1和R_S_2也按照上述步骤进行;
按照第二步和第三步的原理循环进行,最终将产生S_1和S_2的一系列公共子串,将这些子串按其在S_1中的位置顺序进行从小到大排列,表示为P1,P2...Pk,此时,其在S_2中的位置也是按从小到大的顺序排列;S_1中,Pi(1≤i≤k)将字符串分割为k+1段,记为D1,D2...Dk+1,同理,S_2中,Pi(1≤i≤k)也将字符串分割为k+1段,记为A1,A2...Ak+1,其中,Di(1≤i≤k+1)和Ai(1≤i≤k+1)可以是空字符串;
通过Di、Ai和Pi,就可以表示出从S_1到S_2的修改痕迹,其中:Di是删除的部分,Ai是增加的部分,Pi是保留的部分。
3.根据权利要求2所述的一种基于文件比较的电子公文痕迹保留方法,其特征在于:所述最长公共子串匹配算法,是一种基于逐字交错的最长公共子串匹配算法,具体为,有两个字符串S_1和S_2,其中S_1的长度为m,S_2的长度为n,m≤n,若S_1的长度比S_2的长度大,将两个字符串进行交换;假设P为S_1与S_2的最长公共子串,那么求取其P的步骤如下:
第一步,从S_1的起始位置和S_2的起始位置开始,一个字符一个字符逐一比较,对应位置的字符相同则记录下来,连续相同的字符就构成了公共子串,逐一比较完成后,可找出这种对应关系下的所有子串,记录其最长的一个Pmax_1,并将Pmax_1赋给P;
第二步,将S_1向右移一个字符位置,则S_1与S_2的对应关系变成S_1的第1个字符对应S_2的第2个字符,然后按照第一步所述方法逐一比较,得到这种对应关系下的最长公共子串Pmax_2;然后S_1继续右移,并计算Pmax_i,其中i为S_1右移的次数减1,直到S_1与S_2没有对应字符或对应字符的总数小于等于P的长度,在此过程中,每得出一个Pmax_i,都需要比较其长度是否大于P的长度,如果大于则将Pmax_i赋给P,以保证P中保存了S_1和S_2的最长公共子串。
CN201510980945.9A 2015-12-24 2015-12-24 一种基于文件比较的电子公文痕迹保留方法 Expired - Fee Related CN105589838B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510980945.9A CN105589838B (zh) 2015-12-24 2015-12-24 一种基于文件比较的电子公文痕迹保留方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510980945.9A CN105589838B (zh) 2015-12-24 2015-12-24 一种基于文件比较的电子公文痕迹保留方法

Publications (2)

Publication Number Publication Date
CN105589838A true CN105589838A (zh) 2016-05-18
CN105589838B CN105589838B (zh) 2018-06-12

Family

ID=55929429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510980945.9A Expired - Fee Related CN105589838B (zh) 2015-12-24 2015-12-24 一种基于文件比较的电子公文痕迹保留方法

Country Status (1)

Country Link
CN (1) CN105589838B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682533A (zh) * 2017-01-13 2017-05-17 上海鹰谷信息科技有限公司 电子实验记录中对于记录痕迹内容修改的方法
CN107977342A (zh) * 2016-10-25 2018-05-01 阿里巴巴集团控股有限公司 一种文档对比方法及装置
CN108197166A (zh) * 2017-12-15 2018-06-22 重庆数字城市科技有限公司 一种跨浏览器办公审批留痕方法及系统
CN109684610A (zh) * 2018-11-30 2019-04-26 东软集团股份有限公司 文本分块方法,装置,存储介质及电子设备
CN109684437A (zh) * 2018-11-16 2019-04-26 东软集团股份有限公司 用于文件比较的内容对齐方法、装置、存储介质和设备
CN109740125A (zh) * 2018-12-28 2019-05-10 东软集团股份有限公司 用于文件比较的更新查找方法、装置、存储介质和设备
CN109815452A (zh) * 2018-12-25 2019-05-28 东软集团股份有限公司 文本比较方法、装置、存储介质及电子设备
CN109858008A (zh) * 2017-11-30 2019-06-07 南京大学 基于深度学习的文书判决结果倾向性的方法及装置
CN109933754A (zh) * 2019-01-31 2019-06-25 平安科技(深圳)有限公司 查找合同修改部分的方法、装置、计算机设备和存储介质
CN110134923A (zh) * 2018-02-08 2019-08-16 陈虎 一种电子文稿修改痕迹的查找方法
CN110457660A (zh) * 2019-07-31 2019-11-15 安徽赛迪信息技术有限公司 一种政策法规自动对比系统
CN111223545A (zh) * 2020-01-08 2020-06-02 智业软件股份有限公司 电子病历痕迹保留的方法
CN112085045A (zh) * 2020-04-07 2020-12-15 昆明理工大学 一种基于改进最长公共子串的线型痕迹相似度匹配算法
CN112149402A (zh) * 2020-09-23 2020-12-29 创新奇智(青岛)科技有限公司 文档对比方法、装置、电子设备和计算机可读存储介质
CN113807072A (zh) * 2020-06-12 2021-12-17 深圳市迪博企业风险管理技术有限公司 一种线上审批文档的修订前后差异快速识别方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020089436A1 (en) * 2001-01-11 2002-07-11 Shalom Yariv Delta data compression and transport
WO2003096211A1 (en) * 2002-05-13 2003-11-20 Innopath Software, Inc. Byte-level file differencing and updating algorithms
CN102063510A (zh) * 2011-01-17 2011-05-18 珠海全志科技有限公司 字符串的匹配查找方法
CN102682127A (zh) * 2012-05-16 2012-09-19 北京像素软件科技股份有限公司 一种数据版本的控制方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020089436A1 (en) * 2001-01-11 2002-07-11 Shalom Yariv Delta data compression and transport
WO2003096211A1 (en) * 2002-05-13 2003-11-20 Innopath Software, Inc. Byte-level file differencing and updating algorithms
CN102063510A (zh) * 2011-01-17 2011-05-18 珠海全志科技有限公司 字符串的匹配查找方法
CN102682127A (zh) * 2012-05-16 2012-09-19 北京像素软件科技股份有限公司 一种数据版本的控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曾波 等: "改进的LCS方法在测试脚本序列比对中的应用", 《计算机工程与应用》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977342B (zh) * 2016-10-25 2021-05-18 阿里巴巴集团控股有限公司 一种文档对比方法及装置
CN107977342A (zh) * 2016-10-25 2018-05-01 阿里巴巴集团控股有限公司 一种文档对比方法及装置
CN106682533A (zh) * 2017-01-13 2017-05-17 上海鹰谷信息科技有限公司 电子实验记录中对于记录痕迹内容修改的方法
CN109858008A (zh) * 2017-11-30 2019-06-07 南京大学 基于深度学习的文书判决结果倾向性的方法及装置
CN108197166A (zh) * 2017-12-15 2018-06-22 重庆数字城市科技有限公司 一种跨浏览器办公审批留痕方法及系统
CN108197166B (zh) * 2017-12-15 2021-09-07 重庆数字城市科技有限公司 一种跨浏览器办公审批留痕方法及系统
CN110134923A (zh) * 2018-02-08 2019-08-16 陈虎 一种电子文稿修改痕迹的查找方法
CN109684437A (zh) * 2018-11-16 2019-04-26 东软集团股份有限公司 用于文件比较的内容对齐方法、装置、存储介质和设备
CN109684610A (zh) * 2018-11-30 2019-04-26 东软集团股份有限公司 文本分块方法,装置,存储介质及电子设备
CN109684610B (zh) * 2018-11-30 2023-06-16 东软集团股份有限公司 文本分块方法,装置,存储介质及电子设备
CN109815452A (zh) * 2018-12-25 2019-05-28 东软集团股份有限公司 文本比较方法、装置、存储介质及电子设备
CN109815452B (zh) * 2018-12-25 2023-04-07 东软集团股份有限公司 文本比较方法、装置、存储介质及电子设备
CN109740125A (zh) * 2018-12-28 2019-05-10 东软集团股份有限公司 用于文件比较的更新查找方法、装置、存储介质和设备
CN109740125B (zh) * 2018-12-28 2023-06-27 东软集团股份有限公司 用于文件比较的更新查找方法、装置、存储介质和设备
CN109933754A (zh) * 2019-01-31 2019-06-25 平安科技(深圳)有限公司 查找合同修改部分的方法、装置、计算机设备和存储介质
CN109933754B (zh) * 2019-01-31 2023-12-29 平安科技(深圳)有限公司 查找合同修改部分的方法、装置、计算机设备和存储介质
CN110457660A (zh) * 2019-07-31 2019-11-15 安徽赛迪信息技术有限公司 一种政策法规自动对比系统
CN111223545A (zh) * 2020-01-08 2020-06-02 智业软件股份有限公司 电子病历痕迹保留的方法
CN112085045A (zh) * 2020-04-07 2020-12-15 昆明理工大学 一种基于改进最长公共子串的线型痕迹相似度匹配算法
CN113807072A (zh) * 2020-06-12 2021-12-17 深圳市迪博企业风险管理技术有限公司 一种线上审批文档的修订前后差异快速识别方法及系统
CN112149402A (zh) * 2020-09-23 2020-12-29 创新奇智(青岛)科技有限公司 文档对比方法、装置、电子设备和计算机可读存储介质
CN112149402B (zh) * 2020-09-23 2023-05-23 创新奇智(青岛)科技有限公司 文档对比方法、装置、电子设备和计算机可读存储介质

Also Published As

Publication number Publication date
CN105589838B (zh) 2018-06-12

Similar Documents

Publication Publication Date Title
CN105589838A (zh) 一种基于文件比较的电子公文痕迹保留方法
US8554561B2 (en) Efficient indexing of documents with similar content
Gu et al. DeepAM: Migrate APIs with multi-modal sequence to sequence learning
JP5796494B2 (ja) 情報処理装置、情報処理方法、及びプログラム
CN102867049B (zh) 一种基于单词查找树实现的汉语拼音快速分词方法
CN110737466A (zh) 基于静态程序分析的源代码编码序列表示方法
JP2007531115A (ja) 永続的でユーザアクセス可能なビットマップ値を有するデータベース管理システム
CN105550171A (zh) 一种垂直搜索引擎的查询信息纠错方法和系统
CN102650992A (zh) 用于二进制xml数据的生成及其节点定位的方法和装置
JP5978393B2 (ja) 計算機、記録媒体及びデータ検索方法
US10984050B2 (en) Method, apparatus, and computer program product for managing storage system
CN105488471A (zh) 一种字形识别方法及装置
Machanavajjhala et al. Collective extraction from heterogeneous web lists
CN110795526A (zh) 一种用于检索系统的数学公式索引创建方法与系统
US20140172897A1 (en) Device, method, and program for processing data with tree structure
Antila et al. A hierarchic diff algorithm for collaborative music document editing
CN102193907A (zh) 一种基于b/s结构的文稿对比方法及系统
Babur et al. Towards Distributed Model Analytics with Apache Spark.
CN112100989A (zh) 文档编辑方法、文档编辑系统以及计算机存储介质
Kopelowitz The property suffix tree with dynamic properties
US20180089329A1 (en) Method and device for managing index
CN103823842A (zh) 一种erwin模型软件更新方法和装置
CN102982036A (zh) 一种语料结构化的方法及装置
CN110674254B (zh) 基于深度学习和统计提取模型的智能合同信息提取方法
US7840583B2 (en) Search device and recording medium

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180612

Termination date: 20191224