CN105589838A

CN105589838A - 一种基于文件比较的电子公文痕迹保留方法

Info

Publication number: CN105589838A
Application number: CN201510980945.9A
Authority: CN
Inventors: 张游杰; 吴伟; 张清萍; 马俊明
Original assignee: CETC 33 Research Institute
Current assignee: CETC 33 Research Institute
Priority date: 2015-12-24
Filing date: 2015-12-24
Publication date: 2016-05-18
Anticipated expiration: 2035-12-24
Also published as: CN105589838B

Abstract

本发明涉及电子政务技术领域，更具体而言，涉及一种基于文件比较的电子公文痕迹保留方法；提供一种基于最长公共子串匹配的文本比较的电子公文痕迹保留方法。该方法可以有效解决过度标记的问题，并且算法简单，各种编程语言都比较容易实现，可适用于各种操作系统和软件环境；一种基于文件比较的电子公文痕迹保留方法，首先比较原文本和修改后的文本，得出修改后的文本是在原文本基础上插入了哪些字符串，删除了哪些字符串，最后将插入和删除的字符串分别做出标记，进而实现痕迹保留；本发明主要应用在修改电子文本方面。

Description

一种基于文件比较的电子公文痕迹保留方法

技术领域

本发明涉及电子政务技术领域，更具体而言，涉及一种基于文件比较的电子公文痕迹保留方法。

背景技术

随着我国信息化进程的不断推进，电子政务已成为政务部门提升履行职责能力和水平的重要途径。电子公文流转作为电子政务建设的核心和基础，已成为政务部门信息化的重要内容。在电子公文流转过程中，根据业务需求，会有不同环节的人员对其内容进行修改。基于信息完整性、安全性方面的要求，每个人的修改痕迹必须保留。

目前，最常用的痕迹保留方法是在客户端使用MicrosoftWord进行文档编辑，并将公文保存为Word文档，利用Word自带的文档修订功能实现公文流转过程中各个环节的痕迹保留；第二种方法是在客户端安装WebOffice控件，公文同样以Word文档形式保存，利用WebOffice提供的在线修订功能，实现痕迹保留；第三种方法是基于ZEN的痕迹保留方法，其原理是利用JavaScript脚本分析客户端所有对文档的修改操作，并将这些操作归纳为增加和删除两种类型，然后对增加和删除的内容分别做出标记，从而达到痕迹保留的目的。

这些方法有一个共同特点：保留的痕迹是用户的操作过程，即用户删除一段文本时，做一个删除标记，用户增加一段文本时，做一个插入标记。经常有这种情况：用户删除一个字，然后发现删除错误，又重新输入这个字。虽然用户在实质上并没有更改这些文字，但其痕迹保留的结果将显示删除和插入两个标记，这就造成了过度标记。当用户对文本做频繁修改时，其痕迹保留结果将显得十分混乱。

为解决此问题，提出了一种基于文本比较的痕迹保留方法。常用的文本比较方法有编辑距离算法（LevenshteinDistance,LD）、最长公共子序列(LongestCommonSubsequences，LCS)算法、Nakatsu算法等。其中LD算法的需要构建一个M+2行N+2列的矩阵（其中m和n分别为需比较的两个文本的长度），并且从矩阵的左上依次迭代计算到右下，其空间复杂度为O(MN)，其时间复杂度也为O(MN)；LCS算法与LD算法思想上一致，其空间复杂度也为O(mn),其时间复杂度不小O(Mlog(N))。这两种方法在两个文本均较短时比较有用，但当文本较长时，其占用空间太大，难以适用。而Nakatsu相较前两种算法在时间和空间上有了很大的改善，但只能求解部分最长的公共子串，不能求解所有最佳匹配。

这些方法常用于字符串相似度分析，不适于电子公文痕迹保留中的文本比较。因此，有必要对其进行改进。

发明内容

为了克服现有技术中所存在的不足，提供一种基于最长公共子串匹配的文本比较的电子公文痕迹保留方法。该方法可以有效解决过度标记的问题，并且算法简单，各种编程语言都比较容易实现，可适用于各种操作系统和软件环境。

为了解决上述技术问题，本发明所采用的技术方案为：

一种基于文件比较的电子公文痕迹保留方法，首先比较原文本和修改后的文本，得出修改后的文本是在原文本基础上插入了哪些字符串，删除了哪些字符串，最后将插入和删除的字符串分别做出标记，进而实现痕迹保留。

所述比较原文本和修改后的文本具体为，首先将原文本记为Str_1，修改后的文本记为Str_2，然后按照下述步骤进行：

第一步，将Str_1作为文本1，Str_2作为文本2；

第二步，用S_1存储文本1，S_2存储文本2，采用最长公共子串匹配算法找出S_1和S_2中最长的公共子串P，并记录P分别在S_1和S_2中所处的开始位置和长度，此时，P将S_1分割为L_S_1和R_S_1两个子串，将S_2分割为L_S_2和R_S_2两个子串；

第三步，将L_S_1和L_S_2分别作为新的文本1和文本2，重复第二步的过程，继续查找其最长公共子串，并将其再次分割为两部分,直到没有剩余部分或剩余部分没有公共子串，同理，R_S_1和R_S_2也按照上述步骤进行；

按照第二步和第三步的原理循环进行，最终将产生S_1和S_2的一系列公共子串，将这些子串按其在S_1中的位置顺序进行从小到大排列，表示为P1，P2...Pk，此时，其在S_2中的位置也是按从小到大的顺序排列；S_1中，Pi(1≤i≤k)将字符串分割为k+1段，记为D1，D2...Dk+1，同理，S_2中，Pi(1≤i≤k)也将字符串分割为k+1段，记为A1,A2...Ak+1，其中，Di(1≤i≤k+1)和Ai(1≤i≤k+1)可以是空字符串；

通过Di、Ai和Pi，就可以表示出从S_1到S_2的修改痕迹，其中：Di是删除的部分，Ai是增加的部分，Pi是保留的部分。

所述最长公共子串匹配算法，是一种基于逐字交错的最长公共子串匹配算法，具体为，有两个字符串S_1和S_2，其中S_1的长度为m，S_2的长度为n，m≤n，若S_1的长度比S_2的长度大，将两个字符串进行交换；假设P为S_1与S_2的最长公共子串，那么求取其P的步骤如下：

第一步，从S_1的起始位置和S_2的起始位置开始，一个字符一个字符逐一比较，对应位置的字符相同则记录下来，连续相同的字符就构成了公共子串，逐一比较完成后，可找出这种对应关系下的所有子串，记录其最长的一个Pmax_1，并将Pmax_1赋给P；

第二步，将S_1向右移一个字符位置，则S_1与S_2的对应关系变成S_1的第1个字符对应S_2的第2个字符，然后按照第一步所述方法逐一比较，得到这种对应关系下的最长公共子串Pmax_2；然后S_1继续右移，并计算Pmax_i，其中i为S_1右移的次数减1，直到S_1与S_2没有对应字符或对应字符的总数小于等于P的长度。在此过程中，每得出一个Pmax_i，都需要比较其长度是否大于P的长度，如果大于则将Pmax_i赋给P，以保证P中保存了S_1和S_2的最长公共子串。

与现有技术相比本发明所具有的有益效果为：

本发明是比较原文本和修改后的文本，得出修改后的文本是在修改前的文本基础上插入了哪些字符串，删除了哪些字符串，最后将插入和删除的部分分别做出标记，进而实现痕迹保留，有效的解决了过度标记的问题，所得结果能更清晰地反映用户的修改内容，且算法简单，各种编程语言都比较容易实现，适用于各种操作系统和软件环境。

附图说明

下面通过附图对本发明的具体实施方式作进一步详细的说明。

图1a、图1b和图1c为本发明的工作过程图；

图2为本发明的工作流程图；

图3a和图3b为本发明最长公共子串匹配原理图。

具体实施方式

下面实施例结合附图对本发明作进一步的描述。

为表述方便以及与LCS算法的区别，本发明的方法命名为LCSS（LongestCommonSubstring)算法。

假设将修改前的文本(源文本)记为Str_1，修改后的文本(目标文本)记为Str_2。

如图1a-图1c所示，本方法的工作流程如下：

第一步，将Str_1作为文本1，Str_2作为文本2。

第二步，用S_1存储文本1，S_2存储文本2（图1a中以细实线表示），利用最长公共子串匹配算法找出S_1和S_2中最长的公共子串P(图1a中以粗实线表示)，并记录P分别在S_1和S_2中所处的开始位置和长度。此时，P会将S_1分割为L_S_1和R_S_1两个子串，将S_2分割为L_S_2和R_S_2两个子串。

第三步，如图1b，将L_S_1和L_S_2分别作为文本1和文本2，重复第二步的过程，继续查找其最长公共子串，并将其再次分割为两部分,直到没有剩余部分或剩余部分没有公共子串。同理R_S_1和R_S_2也如此处理。

第二步和第三步循环进行，最终将产生S_1和S_2的一系列公共子串，如图1c。将这些子串按其在S_1中的位置顺序进行从小到大排列，表示为P₁,P₂....P_k，此时，其在S_2中的位置也是按符合从小到大的顺序。S_1中，P_i(1≤i≤k)将字符串分割为k+1段，记为D₁,D₂....D_k+1,同理，S_2中，P_i(1≤i≤k)也将字符串分割为k+1段，记为A₁,A₂....A_k+1。其中，D_i(1≤i≤k+1)和A_i(1≤i≤k+1)可以是空字符串。如图1c中A₁、A₄和D_k+1就是空字符串。

通过D_i、A_i和P_i，就可以表示出从S_1到S_2的修改痕迹：D_i是被删除的部分，A_i是被增加的部分，而P_i则是被保留的部分。

如图2所示，LCSS()为本图所示流程所表示的过程，通过递归调用实现所有公共子串的查找；MaxSub()为最长公共子串匹配函数，MaxSub(S_1,S_2)可求得S_1与S_2的最长公共子字符；Len()为获取字符串长度的函数，Len(P)可求得P的长度；SubStr()为获取子串的函数，SubStr(S_1,0,Sp2)可求得S_1的从开始到Sp1的子串，SubStr(S_1,Sp1)可求得S_1的从Sp1开始直到末尾的子串；InsertPnt()是一个过程，用于记录Sp1,Sp2以及P的长度。

为了保存每一次查找的结果，定义一个结构体。然后，定义一个动态链表，该链表的每个节点都是一个MAXSAMEPOINT。每执行一次InsertPnt()将向动态链表中插入一个节点P，其过程是：首先根据P.s1的大小找到动态链表中的适当的位置,保证动态链表中每个节点的s1按从小到大的顺序排列，然后将P插入到该位置。

图2所示流程执行完毕后，该动态链表中的节点就按顺序保存了前文所述的P_i(1≤i≤n)，根据每个节点中的s1和len，就可得到D_i(1≤i≤n+1)，同理，根据每个节点的s2和len也可得到A_i(1≤i≤n+1)。最后，利用P_i、D_i和A_i对Str_2做标记，就可以展现出从Str_1至Str_2的变化，从而实现痕迹保留。

采用一种比较易于理解和程序实现的基于逐字交错的最长公共子串匹配算法实现最长公共子串匹配。如图3a和图3b所示，有两个字符串S_1和S_2(图3a和图3b中以细实线表示)，其中S_1的长度为m,S_2的长度为n，m<=n(在实际中，如果S_1的长度比S_2的长度大，可将两个字符串进行交换，以满足此条件)。假设P为S_1与S_2的最长公共子串，那么求取其P的步骤如下。

第一步，如图3a所示，从S_1的起始位置和S_2的起始位置开始，一个字符一个字符逐一比较，对应位置的字符相同则记录下来，连续相同的字符就构成了公共子串。逐一比较完成后，可找出这种对应关系下的所有子串，记录其最长的一个P_{max_1}，并将P_{max_1}赋给P。

第二步，如图3b所示，将S_1向右移一个字符位置，则S_1与S_2的对应关系变成S_1的第1个字符对应S_2的第2个字符，然后按照第一步所述方法逐一比较，得到这种对应关系下的最长公共子串P_{max_2}。然后S_1继续右移，并计算P_{max_i}(i为S_1右移的次数减1)，直到S_1与S_2没有对应字符或对应字符的总数小于等于P的长度。在此过程中，每得出一个P_{max_i},都需要比较其长度是否大于P的长度，如果大于则将P_{max_i}赋给P，以保证P中保存了S_1和S_2的最长公共子串。

为更好的理解，本发明列举如下实施例。

源文本为：ABBCCCDDDDEEEFFG

目标文本为：AXXCCCXDDDXEEXFFXXG

痕迹保留结果为：ABBXXCCCXDDDDXEEEXFFXXG

该结果中，有下划线的是被增加的文本，有删除线的是被删除的文本。由此结果可看出，本发明的方法反映了对文本修改的真实情况，克服了过度标记的问题，且清晰地反映用户的修改内容，算法简单，各种编程语言都容易实现，适用于各种操作系统和软件环境。

Claims

1.一种基于文件比较的电子公文痕迹保留方法，其特征在于：首先比较原文本和修改后的文本，得出修改后的文本是在原文本基础上插入了哪些字符串，删除了哪些字符串，最后将插入和删除的字符串分别做出标记，进而实现痕迹保留。

2.根据权利要求1所述的一种基于文件比较的电子公文痕迹保留方法，其特征在于：所述比较原文本和修改后的文本具体为，首先将原文本记为Str_1，修改后的文本记为Str_2，然后按照下述步骤进行：

第一步，将Str_1作为文本1，Str_2作为文本2；

3.根据权利要求2所述的一种基于文件比较的电子公文痕迹保留方法，其特征在于：所述最长公共子串匹配算法，是一种基于逐字交错的最长公共子串匹配算法，具体为，有两个字符串S_1和S_2，其中S_1的长度为m，S_2的长度为n，m≤n，若S_1的长度比S_2的长度大，将两个字符串进行交换；假设P为S_1与S_2的最长公共子串，那么求取其P的步骤如下：

第二步，将S_1向右移一个字符位置，则S_1与S_2的对应关系变成S_1的第1个字符对应S_2的第2个字符，然后按照第一步所述方法逐一比较，得到这种对应关系下的最长公共子串Pmax_2；然后S_1继续右移，并计算Pmax_i，其中i为S_1右移的次数减1，直到S_1与S_2没有对应字符或对应字符的总数小于等于P的长度，在此过程中，每得出一个Pmax_i，都需要比较其长度是否大于P的长度，如果大于则将Pmax_i赋给P，以保证P中保存了S_1和S_2的最长公共子串。