CN112001161A

CN112001161A - 一种文本查重方法

Info

Publication number: CN112001161A
Application number: CN202010864029.XA
Authority: CN
Inventors: 程永新; 林小勇; 高健光
Original assignee: Shanghai New Torch Network Information Technology Ltd By Share Ltd
Current assignee: Shanghai New Torch Network Information Technology Ltd By Share Ltd
Priority date: 2020-08-25
Filing date: 2020-08-25
Publication date: 2020-11-27
Anticipated expiration: 2040-08-25
Also published as: CN112001161B

Abstract

本发明公开了一种文本查重方法，包括如下步骤：S1)首先指定一个最小匹配长度，并定义存放源文本和目标文本相关联的重复文本信息的数据结构；S2)接着设置一个长度为目标文本长度的公共子串长度表，使用两层遍历查询公共子串，外层顺序遍历源文本的每个字符，里层倒序遍历目标文本的每个字符；判断源字符和目标字符是否相同，如果相同，公共子串长度表索引位置为前一位置的值加一，否则设为零；S3)收集大于最小匹配长度的最长公共子串信息；S4)采用软件图形界面显示文本查重结果。本发明提供的文本查重方法，能够灵活设置查重的最小长度，提升整体文档查重准确度，让查重变得简单、灵活。

Description

一种文本查重方法

技术领域

本发明涉及一种文本处理方法，尤其涉及一种文本查重方法。

背景技术

文本查重是根据一定相似度模型从大量文本中发现重复文本的过程，通过判断目标文本与源文本相似度是否大于阀值，从而得出目标文本是否为重复文本的结论。它在搜索引擎构建、抄袭检测、新闻分类等领域有广泛的应用。

在两份文本材料查重过程中，重复文本是连续的长度最大的片段。文本材料中一般包含很多相同语素，如果不限制匹配长度，可能搜索出长度为一或二的大量重复文本，这些重复文本并没有实际用处。

作为解决方案编写人员，在编写和审阅技术方案时，需要在不同的文档材料中准确识别并定位重复文本，目前常用做法如下：

1)借助文档搜索功能，人工以一定长度关键词检索是否存在重复情况；

2)使用word文档比较功能，比对查重文本；

3)使用现有文本查重比较工具，整段对比，查找并显示重复文本。

尽管借助现有本文查重比较工具可以识别两份文档的相似度，但仍然存在以下不足：

1)通过人工搜索查重的方式，容易受到人员自身状态、周围环境等因素影响，存在出错、遗漏风险；

2)现有的文本查重比较工具只能整段对比，无法根据指定长度内容监测文档中所有匹配改内容的重复文本和位置；

3)现有工具不支持指定文本内容不进行查重。

由上可见，现有的文本查重工具均基于文本段落对比，对于段落内部的文本无法查重，也无法展示多处重复文本的位置。

发明内容

本发明所要解决的技术问题是提供一种文本查重方法，能够灵活设置查重的最小长度，提升整体文档查重准确度，让查重变得简单、灵活。

本发明为解决上述技术问题而采用的技术方案是提供一种文本查重方法，包括如下步骤：S1)首先指定一个最小匹配长度，并定义存放源文本和目标文本相关联的重复文本信息的数据结构；S2)接着设置一个长度为目标文本长度的公共子串长度表，使用两层遍历查询公共子串，外层顺序遍历源文本的每个字符，里层倒序遍历目标文本的每个字符；判断源字符和目标字符是否相同，如果相同，公共子串长度表索引位置为前一位置的值加一，否则设为零；S3)收集大于最小匹配长度的最长公共子串信息；S4)采用软件图形界面显示文本查重结果。

上述的文本查重方法，其中，所述步骤S1中的结构体中包含源重复文本的开始索引表、目标重复文本的开始索引表、重复文本长度和重复文本内容；所述步骤S2通过源重复文本的开始索引和重复文本长度，获取到重复文本内容，并建立重复文本内容到源重复文本的开始索引表和目标重复文本的开始索引表的映射关系。

上述的文本查重方法，其中，所述步骤S3中最长公共子串信息包括源文本的开始索引、重复文本长度和目标文本的开始索引表。

上述的文本查重方法，其中，所述步骤S3包括：设置一个键为源重复文本的开始索引，值为重复文本结构体的映射对象，收集大于最小匹配长度的重复文本信息，重复文本结构体的属性包括重复文本长度和目标重复文本的开始索引表；如果在下一轮迭代中获取到源重复文本的开始索引相同但重复文本长度更长，则清除重复文本结构体中的目标重复文本的开始索引表，重新记录新的重复文本长度和目标重复文本的开始索引表。

上述的文本查重方法，其中，所述步骤S3包括：设置一个键为重复文本内容，值为重复文本结构体的映射对象，遍历之前的映射对象，重复文本内容通过源重复文本开始索引和重复文本长度在源文本中获取，源重复文本的开始索引表通过遍历叠加到第一个重复文本结构对象中。

上述的文本查重方法，其中，所述步骤S3还包括将所有映射对象转换为列表对象，并按重复文本长度倒序排序。

上述的文本查重方法，其中，所述步骤S4中的图形界面的工作区域分为三列，左边一列包括过滤重复文本列表项的面板、显示重复文本列表信息的列表框和展示重复文本内容的文本域，支持通过窗扇拖动调整宽度大小；中间一列包括显示源文档路径的文本框、点击弹出选择源文档对话框的按钮、展示源文档内容与高亮显示重复文本的样式文本域、展示重复文本数量与索引和向前/后定位下一重复文本的按钮；右边一列与中间一列包括的控件一致，用于展示目标文档的内容。

上述的文本查重方法，其中，所述步骤S4中的图形界面包括工具栏，所述工具栏包括填写最小匹配长度的文本框、是否忽略大小写的复选框、对比按钮和反馈查重进度的进度条；所述过滤重复文本列表项的面板包括填写过滤条件的文本框、正/反向过滤按钮和导出重复文本列表信息的按钮；文本查重过程是通过新建一个线程执行，并将处理进度实时地反馈到进度条上，分析处理结束后将收集到的重复文本列表信息展现到工作区域左边第一列的列表框中；点击列表框中的项时，将重复文本内容展现到下方的文本域中，并高亮显示源文本域和目标文本域中重复文本内容且定位到该位置；点击源/目标的向前/后按钮定位到源/目标的前/后一个重复文本位置并高亮显示。

上述的文本查重方法，其中，所述步骤S4中的图形界面包括底部状态栏，所述底部状态栏包括文本查重结果的匹配信息和执行时长。

本发明对比现有技术有如下的有益效果：本发明提供的文本查重方法，通过最长公共子串算法计算所有匹配长度的公共子串，根据公共子串遍历源和目标文本，将与源文本和目标文本相关联的位置信息记录到数据结构里，再通过图形界面展示源文本和目标文本相关联的重复文本信息，从而解决了现有查重工具只能段落查重而无法根据指定长度查重的问题。本发明可以精准查找重复文本在源端和目标端的对应位置并通过图形界面按照查重出来的重复文本分类高亮显示，使得文本查重人员对于源和目标的重复内容及对应关系一目了然；并且可以通过调整查重的长度，排除指定长度的文本对查重的干扰，有助于提升整体文档查重准确度，让查重变得简单、灵活。

附图说明

图1为本发明文本查重流程图；

图2为本发明文本查重界面图。

具体实施方式

下面结合附图和实施例对本发明作进一步的描述。

图1为本发明文本查重流程图。

请参见图1，本发明提供的文本查重方法，首先指定一个最小匹配长度和定义存放源文本和目标文本相关联的重复文本信息的数据结构(R)，结构体中包含源重复文本的开始索引表、目标重复文本的开始索引表、重复文本长度和重复文本内容。

接下来定义一个长度为目标文本长度的公共子串长度表(L_d)，使用两层遍历查询公共子串，外层顺序遍历源文本的每个字符(T_s、游标S)，里层倒序遍历目标文本的每个字符(T_d、游标D)。内部判断源字符和目标字符是否相同(T_s[S]＝＝T_d[D])，如果相同，公共子串长度表索引位置为目标文本游标的值，等于前一位置的值加一(L_d[D]＝D>＝1？L_d[D-1]+1:1)，否则值等于零(L_d[D]＝0)。

每轮迭代过程中公共子串信息都会发生变化，需要收集大于最小匹配长度的最长公共子串信息，包括源文本的开始索引、重复文本长度和目标文本的开始索引表。定义一个键为源重复文本的开始索引，值为重复文本结构体的映射对象(M_IR)，收集大于最小匹配长度的重复文本信息，重复文本结构体的属性包括重复文本长度和目标重复文本的开始索引表。如果在下一轮迭代中获取到源重复文本的开始索引相同但重复文本长度更长，先清除重复文本结构体中的目标重复文本的开始索引表，重新记录新的重复文本长度和目标重复文本的开始索引表。

源文本和目标文本遍历结束后，已经收集到了源重复文本的开始索引到目标重复文本的开始索引表的映射关系。通过源重复文本的开始索引和重复文本长度，可以获取到重复文本内容，建立重复文本内容到源重复文本的开始索引表和目标重复文本的开始索引表的映射关系。定义一个键为重复文本内容，值为重复文本结构体的映射对象(M_TR)，遍历之前的映射对象(M_IR)，重复文本内容通过源重复文本开始索引和重复文本长度在源文本中获取，源重复文本的开始索引表通过遍历叠加到第一个重复文本结构对象中。新的映射对象(M_TR)的值列表包含了所有源文本与目标文本的重复文本信息，把它转换为列表对象(L)，按重复文本长度倒序排序。

本发明的文本查重软件图形界面设计如图2所示。工具栏包括填写最小匹配长度的文本框、是否忽略大小写的复选框、对比按钮和反馈查重进度的进度条。工作区域分为三列，左边一列包括过滤重复文本列表项的面板、显示重复文本列表信息的列表框和展示重复文本内容的文本域，支持通过窗扇拖动调整宽度大小。过滤重复文本列表项的面板包括填写过滤条件的文本框、正/反向过滤按钮和导出重复文本列表信息的按钮。中间一列包括显示源文档路径的文本框、点击弹出选择源文档对话框的按钮、展示源文档内容与高亮显示重复文本的样式文本域、展示重复文本数量与索引和向前/后定位下一重复文本的按钮。右边一列与中间一列包括的控件是一致的，它展示的是目标文档的内容。底部状态栏包括文本查重结果的匹配信息和执行时长。

文本查重过程是通过新建一个线程执行，并将处理进度实时地反馈到进度条上，分析处理结束后将收集到的重复文本列表信息展现到工作区域左边第一列的列表框中；点击列表框中的项时，将重复文本内容展现到下方的文本域中，并高亮显示源文本域和目标文本域中重复文本内容且定位到该位置；点击源/目标的向前/后按钮定位到源/目标的前/后一个重复文本位置并高亮显示。

实施例一：源文档文本内容为“abcFabctqabc”，目标文档文本内容为“aaabcdeftabcooabcfooaaaaAbc”。在文本查重软件界面上，点击选择源文档按钮，在弹出的打开文件对话框中选择源文档文件，点击选择目标文档按钮，在弹出的打开文件对话框中选择目标文档文件。源文档路径文本框和目标文档路径文本框显示对应打开文档的路径，源文档文本域和目标文档文本域显示对应打开文档的文本内容，填写匹配长度为2，勾选忽略大小写复选框，点击对比按钮。开始执行文本查重过程，处理进度显示在进度条上。分析完成后，在重复文本信息列表框中显示的项为：“00000000002:所有片段”、“00004-01-01:abcF”、“00003-02-04:abc”，表示找到了两个重复文本片段，其中一个的重复文本内容为“abcF”，在源文档文本中有一处，在目标文档文本中也有一处，另一个的重复文本内容为“abc”，在源文档文本中有两处，在目标文档文本中有四处。点击列表框的项，在源文本域中将高亮显示重复文本内容并定位到该处，目标文本域和源文本域一样高亮显示重复文本内容并定位到该处，如果有多处重复文本可通过向前和向后按钮切换定位位置。

实施例二：源文档文本内容为“tAbcAbcfabctAbc”，目标文档文本内容为“aaabcdeftAbcooabcgooaaaaabc”。在文本查重软件界面上，点击选择源文档按钮，在弹出的打开文件对话框中选择源文档文件，点击选择目标文档按钮，在弹出的打开文件对话框中选择目标文档文件。源文档路径文本框和目标文档路径文本框显示对应打开文档的路径，源文档文本域和目标文档文本域显示对应打开文档的文本内容，填写匹配长度为3，不勾选忽略大小写复选框，点击对比按钮。开始执行文本查重过程，处理进度显示在进度条上。分析完成后，在重复文本信息列表框中显示的项为：“00000000003:所有片段”、“00004-02-01:tAbc”、“00003-01-03:abc”、“00003-01-01:Abc”，表示找到了三个重复文本片段，第一个重复文本内容为“tAbc”，在源文档文本中有两处，在目标文档文本中有一处，第二个重复文本内容为“abc”，在源文档文本中有一处，在目标文档文本中有三处，第三个重复文本内容为“Abc”，在源文档文本中有一处，在目标文档文本中也有一处。点击列表框的项，在源文本域中将高亮显示重复文本内容并定位到该处，目标文本域和源文本域一样高亮显示重复文本内容并定位到该处，如果有多处重复文本可通过向前和向后按钮切换定位位置。

虽然本发明已以较佳实施例揭示如上，然其并非用以限定本发明，任何本领域技术人员，在不脱离本发明的精神和范围内，当可作些许的修改和完善，因此本发明的保护范围当以权利要求书所界定的为准。

Claims

1.一种文本查重方法，其特征在于，包括如下步骤：

S1)首先指定一个最小匹配长度，并定义存放源文本和目标文本相关联的重复文本信息的数据结构；

S2)接着设置一个长度为目标文本长度的公共子串长度表，使用两层遍历查询公共子串，外层顺序遍历源文本的每个字符，里层倒序遍历目标文本的每个字符；判断源字符和目标字符是否相同，如果相同，公共子串长度表索引位置为前一位置的值加一，否则设为零；

S3)收集大于最小匹配长度的最长公共子串信息；

S4)采用软件图形界面显示文本查重结果。

2.如权利要求1所述的文本查重方法，其特征在于，所述步骤S1中的结构体中包含源重复文本的开始索引表、目标重复文本的开始索引表、重复文本长度和重复文本内容；所述步骤S2通过源重复文本的开始索引和重复文本长度，获取到重复文本内容，并建立重复文本内容到源重复文本的开始索引表和目标重复文本的开始索引表的映射关系。

3.如权利要求1所述的文本查重方法，其特征在于，所述步骤S3中最长公共子串信息包括源文本的开始索引、重复文本长度和目标文本的开始索引表。

4.如权利要求3所述的文本查重方法，其特征在于，所述步骤S3包括：

设置一个键为源重复文本的开始索引，值为重复文本结构体的映射对象，收集大于最小匹配长度的重复文本信息，重复文本结构体的属性包括重复文本长度和目标重复文本的开始索引表；如果在下一轮迭代中获取到源重复文本的开始索引相同但重复文本长度更长，则清除重复文本结构体中的目标重复文本的开始索引表，重新记录新的重复文本长度和目标重复文本的开始索引表。

5.如权利要求1所述的文本查重方法，其特征在于，所述步骤S3包括：

设置一个键为重复文本内容，值为重复文本结构体的映射对象，遍历之前的映射对象，重复文本内容通过源重复文本开始索引和重复文本长度在源文本中获取，源重复文本的开始索引表通过遍历叠加到第一个重复文本结构对象中。

6.如权利要求5所述的文本查重方法，其特征在于，所述步骤S3还包括将所有映射对象转换为列表对象，并按重复文本长度倒序排序。

7.如权利要求1所述的文本查重方法，其特征在于，所述步骤S4中的图形界面的工作区域分为三列，左边一列包括过滤重复文本列表项的面板、显示重复文本列表信息的列表框和展示重复文本内容的文本域，支持通过窗扇拖动调整宽度大小；中间一列包括显示源文档路径的文本框、点击弹出选择源文档对话框的按钮、展示源文档内容与高亮显示重复文本的样式文本域、展示重复文本数量与索引和向前/后定位下一重复文本的按钮；右边一列与中间一列包括的控件一致，用于展示目标文档的内容。

8.如权利要求7所述的文本查重方法，其特征在于，所述步骤S4中的图形界面包括工具栏，所述工具栏包括填写最小匹配长度的文本框、是否忽略大小写的复选框、对比按钮和反馈查重进度的进度条；所述过滤重复文本列表项的面板包括填写过滤条件的文本框、正/反向过滤按钮和导出重复文本列表信息的按钮；文本查重过程是通过新建一个线程执行，并将处理进度实时地反馈到进度条上，分析处理结束后将收集到的重复文本列表信息展现到工作区域左边第一列的列表框中；点击列表框中的项时，将重复文本内容展现到下方的文本域中，并高亮显示源文本域和目标文本域中重复文本内容且定位到该位置；点击源/目标的向前/后按钮定位到源/目标的前/后一个重复文本位置并高亮显示。

9.如权利要求8所述的文本查重方法，其特征在于，所述步骤S4中的图形界面包括底部状态栏，所述底部状态栏包括文本查重结果的匹配信息和执行时长。