CN112668301A

CN112668301A - 一种环评文件重复度检测方法及系统

Info

Publication number: CN112668301A
Application number: CN202011191636.0A
Authority: CN
Inventors: 易爱华; 赵晓宏; 李飒; 左文浩; 陈陆霞; 马卫国; 金珂
Original assignee: Environmental Engineering Evaluation Center Of Ministry Of Ecology And Environment
Current assignee: Environmental Engineering Evaluation Center Of Ministry Of Ecology And Environment
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2021-04-16

Abstract

本发明提出一种环评文件重复度检测方法及系统，包括：建立包含历史环评文件的数据库；读取待查重环评文件，并在读取过程中将该待查重环评文件中表格的单元格以固定字符加以分隔，得到该待查重环评文件的第二字符文本，根据该预设字符范围对该第二字符文本进行分段，得到多个第二文本段；计算第二文本段和数据库中第一文本段的相似度，得到相似度大于阈值的多个文本对，根据各文本对的重复字数，得到各文本对中第一文本段在第二文本段的重复率，将所有文本对中第一文本段依据文件名进行分组，并将各分组结果中的重复率求和，选择重复率求和最大的分组结果对应的历史环评文件作为该待查重环评文件的查重结果。

Description

一种环评文件重复度检测方法及系统

技术领域

本发明涉及检索查重领域，并特别涉及一种环评文件重复度检测方法及系统。

背景技术

环评书没有固定的模板，并且书写不规范，同一行业、同一地区在特定情况下允许抄袭个别段落或章节。环评局对项目进行审批时，根据环评报告判断其对项目情况的整体评估是否符合行业标准规范，相关段落或章节是否可以抄袭，筛选出不合规的环评报告。

每个月都有成千上万份环评文件汇聚到环保局，现有的技术方案是通过人工方式去一一阅读、与库内已有的环评文件进行比较、审批、记录不合规文件，工作量巨大。现有技术中也出现了一些使用查重的技术方案，例如简历查重方法(CN202010597834.0)和文本查重处理方法(CN202010605505.6)，但是环评报告不同于一般文档，它有统一的行业标准规范，且环评报告篇幅长，而且在特定条件某些些段落或章节允许抄袭，环评文件底库的文件量大，现有技术很难适用环评领域。因此，亟需设计一种环评文件重复度检测方法及系统。

发明内容

针对现有技术的不足，本发明提出一种环评文件重复度检测方法，其中包括：

步骤1、读取多个历史环评文件，并在读取过程中将该历史环评文件中表格的单元格以固定字符加以分隔，得到该历史环评文件的第一字符文本，根据预设字符范围对该第一字符文本进行分段，得到多个第一文本段，并将该第一文本段和该第一文本段对应的文件名存入数据库；

步骤2、读取待查重环评文件，并在读取过程中将该待查重环评文件中表格的单元格以固定字符加以分隔，得到该待查重环评文件的第二字符文本，根据该预设字符范围对该第二字符文本进行分段，得到多个第二文本段；

步骤3、根据第二文本段和各第一文本段的相似度，得到相似度大于阈值的多个文本对，根据各文本对的重复字数，得到各文本对中第一文本段在第二文本段的重复率，将所有文本对中第一文本段依据文件名进行分组，并将各分组结果中的重复率求和，选择重复率求和最大的分组结果对应的历史环评文件作为该待查重环评文件的查重结果。

所述的环评文件重复度检测方法，其中该步骤1和该步骤2中的分段过程包括：依次遍历全文段落，计算每段字数，少于300字符则向下合并，合并到该预设字符范围内停止合并；多于500字符则按照400字符的长度拆分。

所述的环评文件重复度检测方法，其中该步骤3包括：该待查重环评文件中所有第二文本段和数据库中所有第一文本段做笛卡尔积，所有的配对返回对应simhash值的汉明距离作为第二文本段和各第一文本段的相似度。

所述的环评文件重复度检测方法，其中该步骤3包括：对每个文本对，找到连续的重复字符并统计该重复字符字数作为文本对的重复字数。

所述的环评文件重复度检测方法，其中找到连续的重复字符的过程具体包括：

依次寻找文本对中第二文本段的字符，判断其是否在文本对中第一文本段中连续重复，若是则保存连续重复字符至候选集，并删除文本对中第二文本段中该连续重复字符，继续寻找文本对中第二文本段的字符，判断其是否在文本对中第一文本段中连续重复，直到对文本对中第二文本段的全部字符均完成判断，将该候选集中字符最多的连续重复字符进行左右延伸，查看文本对中第一文本段中是否依然有与之一致的内容，若有则保存延伸后的连续重复字符并将其字符数作为文本对的重复字数，否则保存未延伸的连续重复字符并将其字符数作为文本对的重复字数。

本发明还提出了一种环评文件重复度检测系统，其中包括：

模块1，用于读取多个历史环评文件，并在读取过程中将该历史环评文件中表格的单元格以固定字符加以分隔，得到该历史环评文件的第一字符文本，根据预设字符范围对该第一字符文本进行分段，得到多个第一文本段，并将该第一文本段和该第一文本段对应的文件名存入数据库；

模块2，用于读取待查重环评文件，并在读取过程中将该待查重环评文件中表格的单元格以固定字符加以分隔，得到该待查重环评文件的第二字符文本，根据该预设字符范围对该第二字符文本进行分段，得到多个第二文本段；

模块3，用于根据第二文本段和各第一文本段的相似度，得到相似度大于阈值的多个文本对，根据各文本对的重复字数，得到各文本对中第一文本段在第二文本段的重复率，将所有文本对中第一文本段依据文件名进行分组，并将各分组结果中的重复率求和，选择重复率求和最大的分组结果对应的历史环评文件作为该待查重环评文件的查重结果。

所述的环评文件重复度检测系统，其中该模块1和该模块2中的分段过程包括：依次遍历全文段落，计算每段字数，少于300字符则向下合并，合并到该预设字符范围内停止合并；多于500字符则按照400字符的长度拆分。

所述的环评文件重复度检测系统，其中该模块3包括：该待查重环评文件中所有第二文本段和数据库中所有第一文本段做笛卡尔积，所有的配对返回对应simhash值的汉明距离作为第二文本段和各第一文本段的相似度。

所述的环评文件重复度检测系统，其中该模块3包括：对每个文本对，找到连续的重复字符并统计该重复字符字数作为文本对的重复字数。

所述的环评文件重复度检测系统，其中找到连续的重复字符的过程具体包括：

附图说明

图1为本发明系统框图。

具体实施方式

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

1.1文档读取

读取word/pdf文档：读成txt，即直接读成一个长字符，不处理其中字符和表格。

表格会读成一个段落，以固定的字符(例如空格)分隔每个单元格，解决了现有技术中由于和普通段落是混在一起的，且原本格式不固定，导致读取到的内容很难规范，所以不能100％识别所有表格的技术问题。

1.2分段+simhash+入库

分段：

目标：通过将每段长度卡在300到500字符的预设范围内，以保留一部分原始段落信息；可能拆分句子。

流程：从上往下依次遍历全文段落，计算每段字数，少于300则向下合并，合并到规定范围内停止合并；多于500则拆分，拆分是按照400的长度拆分。(举例：1,2,3段字数均小于300且合并后小于300，合并到第4段，第4段400字，合并后1,2,3,4段600字大于500，则前400字拆成一段，后200字向下合并，以此类推)。

涉及逻辑：段落在300-500字符之间。且300长度的段落和500长度的段落几乎不会影响simhash结果。

-每段计算simhash值。

-段落入库，入库内容：段落内容；simhash值；段落在文本中的序号；段落字符长度；段落对应文章id；(预留一些额外字段方便后续扩展)。

1.3相似段落匹配筛选

匹配筛选前的准备：所有文件均已按照上面的逻辑分段入库。目标文件A分段完毕。

-粗筛：A中所有段落和库中所有段落做笛卡尔积，所有的配对返回对应simhash值的汉明距离，筛选距离小于28的配对(小于28相当于相似度25％以上)。举例：A有100段，库里有n段，生成100n对，每对的汉明距离计算后保留其中距离小于等于28的配对。

-细筛：每个配对段落的重复率计算：此时得到的每个配对都是1:1的段落，针对每个配对，找到重复的长字符串(连续的重复字符)及其所在的位置，记录这个位置的目的是前端界面要把重复的字符串进行特殊标识展示。

输出结果：两段文字中匹配到的所有重复字符串的位置。

计算逻辑(假设对A,B段)：

1.A中的所有字符在B中查找到索引位置。

2.一次寻找A中的每个字符，判断是否连续重复，找最长的连续重复作为输出结果。

3.A中找到的连续重复的字符串删除，剩下的字符串中继续找连续重复的最长字符串。(不删除B中重复的字符串是为了防止A的多处与B的同一处重复)

4.找到的最长字符串继续左右延伸判断是否有遗漏。例如找到最长字符串一致的，都往左走一个字符，查看B中是否依然有与之一致的内容，都往右走一个字符看看是否一致，依此类推，直到左右都不一致为止。

5.针对文本过长时时间过慢的问题，提出改进版本，每次不找连续最长的字符串，而是找大于指定阈值的字符串。

优选实施例的阈值是30个字符，即认为只有当连续重复的字符数达到30的时候才算重复。

1.4分组排序

-分组：基于粗筛的结果，以及配对段落细筛的计算结果，针对A的段落，所有配对按照A中的段落序号进行分组，得到每个A的段落对应库中相似的若干段落。举例：生成结果可能是A1对应B5,C2,D3,B6等等、A7对应C3,E5,F7等等。

-排序：排序分为A中筛选后的段落排序，A中某一段落Ai对应的所有匹配段落。(即A中的A1,A7…进行排序，然后是A1对应的B5,C2,D3,B6进行排序)

A中的段落排序：排序依据：A1的重复字数，即A1和B5的重复位置，A1和C2的重复位置等等，都会得到重复字数，取最大的重复字数最为A1的重复字数。(即假设A1和B5重复的字数最多，就算做A1的重复字数)

A1对应的所有段落的排序：即B5,C2,D3,B6的排序，排序依据是每个段落对应的A1的重复率。

后期可调优空间：目前A1的重复字数是按照与某一段最大的重复字数算的。后期可以求与所有段落重复位置的并集。即A1和B5重复的字数，A1和C2重复的字数等等，得到的总字数。

此时就得到文档A的查重结果

1.5找与A最相似的前几个文档

之前是针对A中的段落，按照段落序号分组，现在针对与A匹配筛选得到的库中所有段落，依据文件名进行分组。

根据之前计算的段落重复率求和，找最大的B，作为最相似的文件。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

如图1所示本发明还提出了一种环评文件重复度检测系统，其中包括：

依次寻找文本对中第二文本段的字符，判断其是否在文本对中第一文本段中连续重复，若是则保存连续重复字符至候选集，并删除文本对中第二文本段中该连续重复字符，继续寻找文本对中第二文本段的字符，判断其是否在文本对中第一文本段中连续重复，直到对文本对中第二文本段的全部字符均完成判断，将该候选集中字符最多的连续重复字符进行左右延伸，查看文本对中第一文本段中是否依然有与之一致的内容，若有则保存延伸后的连续重复字符并将其字符数作为文本对的重复字数，否则保存未延伸的连续重复字符并将其字符数作为文本对的重复字数。通过上述过程可以精准得出重复字数，为查重精度提供保障。

Claims

1.一种环评文件重复度检测方法，其特征在于，包括：

2.如权利要求1所述的环评文件重复度检测方法，其特征在于，该步骤1和该步骤2中的分段过程包括：依次遍历全文段落，计算每段字数，少于300字符则向下合并，合并到该预设字符范围内停止合并；多于500字符则按照400字符的长度拆分。

3.如权利要求1所述的环评文件重复度检测方法，其特征在于，该步骤3包括：该待查重环评文件中所有第二文本段和数据库中所有第一文本段做笛卡尔积，所有的配对返回对应simhash值的汉明距离作为第二文本段和各第一文本段的相似度。

4.如权利要求1所述的环评文件重复度检测方法，其特征在于，该步骤3包括：对每个文本对，找到连续的重复字符并统计该重复字符字数作为文本对的重复字数。

5.如权利要求4所述的环评文件重复度检测方法，其特征在于，找到连续的重复字符的过程具体包括：

6.一种环评文件重复度检测系统，其特征在于，包括：

7.如权利要求1所述的环评文件重复度检测系统，其特征在于，该模块1和该模块2中的分段过程包括：依次遍历全文段落，计算每段字数，少于300字符则向下合并，合并到该预设字符范围内停止合并；多于500字符则按照400字符的长度拆分。

8.如权利要求1所述的环评文件重复度检测系统，其特征在于，该模块3包括：该待查重环评文件中所有第二文本段和数据库中所有第一文本段做笛卡尔积，所有的配对返回对应simhash值的汉明距离作为第二文本段和各第一文本段的相似度。

9.如权利要求1所述的环评文件重复度检测系统，其特征在于，该模块3包括：对每个文本对，找到连续的重复字符并统计该重复字符字数作为文本对的重复字数。

10.如权利要求4所述的环评文件重复度检测系统，其特征在于，找到连续的重复字符的过程具体包括：