CN112668301A - 一种环评文件重复度检测方法及系统 - Google Patents

一种环评文件重复度检测方法及系统 Download PDF

Info

Publication number
CN112668301A
CN112668301A CN202011191636.0A CN202011191636A CN112668301A CN 112668301 A CN112668301 A CN 112668301A CN 202011191636 A CN202011191636 A CN 202011191636A CN 112668301 A CN112668301 A CN 112668301A
Authority
CN
China
Prior art keywords
text
characters
review
repeated
pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011191636.0A
Other languages
English (en)
Inventor
易爱华
赵晓宏
李飒
左文浩
陈陆霞
马卫国
金珂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Environmental Engineering Evaluation Center Of Ministry Of Ecology And Environment
Original Assignee
Environmental Engineering Evaluation Center Of Ministry Of Ecology And Environment
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Environmental Engineering Evaluation Center Of Ministry Of Ecology And Environment filed Critical Environmental Engineering Evaluation Center Of Ministry Of Ecology And Environment
Priority to CN202011191636.0A priority Critical patent/CN112668301A/zh
Publication of CN112668301A publication Critical patent/CN112668301A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明提出一种环评文件重复度检测方法及系统,包括:建立包含历史环评文件的数据库;读取待查重环评文件,并在读取过程中将该待查重环评文件中表格的单元格以固定字符加以分隔,得到该待查重环评文件的第二字符文本,根据该预设字符范围对该第二字符文本进行分段,得到多个第二文本段;计算第二文本段和数据库中第一文本段的相似度,得到相似度大于阈值的多个文本对,根据各文本对的重复字数,得到各文本对中第一文本段在第二文本段的重复率,将所有文本对中第一文本段依据文件名进行分组,并将各分组结果中的重复率求和,选择重复率求和最大的分组结果对应的历史环评文件作为该待查重环评文件的查重结果。

Description

一种环评文件重复度检测方法及系统
技术领域
本发明涉及检索查重领域,并特别涉及一种环评文件重复度检测方法及系统。
背景技术
环评书没有固定的模板,并且书写不规范,同一行业、同一地区在特定情况下允许抄袭个别段落或章节。环评局对项目进行审批时,根据环评报告判断其对项目情况的整体评估是否符合行业标准规范,相关段落或章节是否可以抄袭,筛选出不合规的环评报告。
每个月都有成千上万份环评文件汇聚到环保局,现有的技术方案是通过人工方式去一一阅读、与库内已有的环评文件进行比较、审批、记录不合规文件,工作量巨大。现有技术中也出现了一些使用查重的技术方案,例如简历查重方法(CN202010597834.0)和文本查重处理方法(CN202010605505.6),但是环评报告不同于一般文档,它有统一的行业标准规范,且环评报告篇幅长,而且在特定条件某些些段落或章节允许抄袭,环评文件底库的文件量大,现有技术很难适用环评领域。因此,亟需设计一种环评文件重复度检测方法及系统。
发明内容
针对现有技术的不足,本发明提出一种环评文件重复度检测方法,其中包括:
步骤1、读取多个历史环评文件,并在读取过程中将该历史环评文件中表格的单元格以固定字符加以分隔,得到该历史环评文件的第一字符文本,根据预设字符范围对该第一字符文本进行分段,得到多个第一文本段,并将该第一文本段和该第一文本段对应的文件名存入数据库;
步骤2、读取待查重环评文件,并在读取过程中将该待查重环评文件中表格的单元格以固定字符加以分隔,得到该待查重环评文件的第二字符文本,根据该预设字符范围对该第二字符文本进行分段,得到多个第二文本段;
步骤3、根据第二文本段和各第一文本段的相似度,得到相似度大于阈值的多个文本对,根据各文本对的重复字数,得到各文本对中第一文本段在第二文本段的重复率,将所有文本对中第一文本段依据文件名进行分组,并将各分组结果中的重复率求和,选择重复率求和最大的分组结果对应的历史环评文件作为该待查重环评文件的查重结果。
所述的环评文件重复度检测方法,其中该步骤1和该步骤2中的分段过程包括:依次遍历全文段落,计算每段字数,少于300字符则向下合并,合并到该预设字符范围内停止合并;多于500字符则按照400字符的长度拆分。
所述的环评文件重复度检测方法,其中该步骤3包括:该待查重环评文件中所有第二文本段和数据库中所有第一文本段做笛卡尔积,所有的配对返回对应simhash值的汉明距离作为第二文本段和各第一文本段的相似度。
所述的环评文件重复度检测方法,其中该步骤3包括:对每个文本对,找到连续的重复字符并统计该重复字符字数作为文本对的重复字数。
所述的环评文件重复度检测方法,其中找到连续的重复字符的过程具体包括:
依次寻找文本对中第二文本段的字符,判断其是否在文本对中第一文本段中连续重复,若是则保存连续重复字符至候选集,并删除文本对中第二文本段中该连续重复字符,继续寻找文本对中第二文本段的字符,判断其是否在文本对中第一文本段中连续重复,直到对文本对中第二文本段的全部字符均完成判断,将该候选集中字符最多的连续重复字符进行左右延伸,查看文本对中第一文本段中是否依然有与之一致的内容,若有则保存延伸后的连续重复字符并将其字符数作为文本对的重复字数,否则保存未延伸的连续重复字符并将其字符数作为文本对的重复字数。
本发明还提出了一种环评文件重复度检测系统,其中包括:
模块1,用于读取多个历史环评文件,并在读取过程中将该历史环评文件中表格的单元格以固定字符加以分隔,得到该历史环评文件的第一字符文本,根据预设字符范围对该第一字符文本进行分段,得到多个第一文本段,并将该第一文本段和该第一文本段对应的文件名存入数据库;
模块2,用于读取待查重环评文件,并在读取过程中将该待查重环评文件中表格的单元格以固定字符加以分隔,得到该待查重环评文件的第二字符文本,根据该预设字符范围对该第二字符文本进行分段,得到多个第二文本段;
模块3,用于根据第二文本段和各第一文本段的相似度,得到相似度大于阈值的多个文本对,根据各文本对的重复字数,得到各文本对中第一文本段在第二文本段的重复率,将所有文本对中第一文本段依据文件名进行分组,并将各分组结果中的重复率求和,选择重复率求和最大的分组结果对应的历史环评文件作为该待查重环评文件的查重结果。
所述的环评文件重复度检测系统,其中该模块1和该模块2中的分段过程包括:依次遍历全文段落,计算每段字数,少于300字符则向下合并,合并到该预设字符范围内停止合并;多于500字符则按照400字符的长度拆分。
所述的环评文件重复度检测系统,其中该模块3包括:该待查重环评文件中所有第二文本段和数据库中所有第一文本段做笛卡尔积,所有的配对返回对应simhash值的汉明距离作为第二文本段和各第一文本段的相似度。
所述的环评文件重复度检测系统,其中该模块3包括:对每个文本对,找到连续的重复字符并统计该重复字符字数作为文本对的重复字数。
所述的环评文件重复度检测系统,其中找到连续的重复字符的过程具体包括:
依次寻找文本对中第二文本段的字符,判断其是否在文本对中第一文本段中连续重复,若是则保存连续重复字符至候选集,并删除文本对中第二文本段中该连续重复字符,继续寻找文本对中第二文本段的字符,判断其是否在文本对中第一文本段中连续重复,直到对文本对中第二文本段的全部字符均完成判断,将该候选集中字符最多的连续重复字符进行左右延伸,查看文本对中第一文本段中是否依然有与之一致的内容,若有则保存延伸后的连续重复字符并将其字符数作为文本对的重复字数,否则保存未延伸的连续重复字符并将其字符数作为文本对的重复字数。
附图说明
图1为本发明系统框图。
具体实施方式
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
1.1文档读取
读取word/pdf文档:读成txt,即直接读成一个长字符,不处理其中字符和表格。
表格会读成一个段落,以固定的字符(例如空格)分隔每个单元格,解决了现有技术中由于和普通段落是混在一起的,且原本格式不固定,导致读取到的内容很难规范,所以不能100%识别所有表格的技术问题。
1.2分段+simhash+入库
分段:
目标:通过将每段长度卡在300到500字符的预设范围内,以保留一部分原始段落信息;可能拆分句子。
流程:从上往下依次遍历全文段落,计算每段字数,少于300则向下合并,合并到规定范围内停止合并;多于500则拆分,拆分是按照400的长度拆分。(举例:1,2,3段字数均小于300且合并后小于300,合并到第4段,第4段400字,合并后1,2,3,4段600字大于500,则前400字拆成一段,后200字向下合并,以此类推)。
涉及逻辑:段落在300-500字符之间。且300长度的段落和500长度的段落几乎不会影响simhash结果。
-每段计算simhash值。
-段落入库,入库内容:段落内容;simhash值;段落在文本中的序号;段落字符长度;段落对应文章id;(预留一些额外字段方便后续扩展)。
1.3相似段落匹配筛选
匹配筛选前的准备:所有文件均已按照上面的逻辑分段入库。目标文件A分段完毕。
-粗筛:A中所有段落和库中所有段落做笛卡尔积,所有的配对返回对应simhash值的汉明距离,筛选距离小于28的配对(小于28相当于相似度25%以上)。举例:A有100段,库里有n段,生成100n对,每对的汉明距离计算后保留其中距离小于等于28的配对。
-细筛:每个配对段落的重复率计算:此时得到的每个配对都是1:1的段落,针对每个配对,找到重复的长字符串(连续的重复字符)及其所在的位置,记录这个位置的目的是前端界面要把重复的字符串进行特殊标识展示。
输出结果:两段文字中匹配到的所有重复字符串的位置。
计算逻辑(假设对A,B段):
1.A中的所有字符在B中查找到索引位置。
2.一次寻找A中的每个字符,判断是否连续重复,找最长的连续重复作为输出结果。
3.A中找到的连续重复的字符串删除,剩下的字符串中继续找连续重复的最长字符串。(不删除B中重复的字符串是为了防止A的多处与B的同一处重复)
4.找到的最长字符串继续左右延伸判断是否有遗漏。例如找到最长字符串一致的,都往左走一个字符,查看B中是否依然有与之一致的内容,都往右走一个字符看看是否一致,依此类推,直到左右都不一致为止。
5.针对文本过长时时间过慢的问题,提出改进版本,每次不找连续最长的字符串,而是找大于指定阈值的字符串。
优选实施例的阈值是30个字符,即认为只有当连续重复的字符数达到30的时候才算重复。
1.4分组排序
-分组:基于粗筛的结果,以及配对段落细筛的计算结果,针对A的段落,所有配对按照A中的段落序号进行分组,得到每个A的段落对应库中相似的若干段落。举例:生成结果可能是A1对应B5,C2,D3,B6等等、A7对应C3,E5,F7等等。
-排序:排序分为A中筛选后的段落排序,A中某一段落Ai对应的所有匹配段落。(即A中的A1,A7…进行排序,然后是A1对应的B5,C2,D3,B6进行排序)
A中的段落排序:排序依据:A1的重复字数,即A1和B5的重复位置,A1和C2的重复位置等等,都会得到重复字数,取最大的重复字数最为A1的重复字数。(即假设A1和B5重复的字数最多,就算做A1的重复字数)
A1对应的所有段落的排序:即B5,C2,D3,B6的排序,排序依据是每个段落对应的A1的重复率。
后期可调优空间:目前A1的重复字数是按照与某一段最大的重复字数算的。后期可以求与所有段落重复位置的并集。即A1和B5重复的字数,A1和C2重复的字数等等,得到的总字数。
此时就得到文档A的查重结果
1.5找与A最相似的前几个文档
之前是针对A中的段落,按照段落序号分组,现在针对与A匹配筛选得到的库中所有段落,依据文件名进行分组。
根据之前计算的段落重复率求和,找最大的B,作为最相似的文件。
以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
如图1所示本发明还提出了一种环评文件重复度检测系统,其中包括:
模块1,用于读取多个历史环评文件,并在读取过程中将该历史环评文件中表格的单元格以固定字符加以分隔,得到该历史环评文件的第一字符文本,根据预设字符范围对该第一字符文本进行分段,得到多个第一文本段,并将该第一文本段和该第一文本段对应的文件名存入数据库;
模块2,用于读取待查重环评文件,并在读取过程中将该待查重环评文件中表格的单元格以固定字符加以分隔,得到该待查重环评文件的第二字符文本,根据该预设字符范围对该第二字符文本进行分段,得到多个第二文本段;
模块3,用于根据第二文本段和各第一文本段的相似度,得到相似度大于阈值的多个文本对,根据各文本对的重复字数,得到各文本对中第一文本段在第二文本段的重复率,将所有文本对中第一文本段依据文件名进行分组,并将各分组结果中的重复率求和,选择重复率求和最大的分组结果对应的历史环评文件作为该待查重环评文件的查重结果。
所述的环评文件重复度检测系统,其中该模块1和该模块2中的分段过程包括:依次遍历全文段落,计算每段字数,少于300字符则向下合并,合并到该预设字符范围内停止合并;多于500字符则按照400字符的长度拆分。
所述的环评文件重复度检测系统,其中该模块3包括:该待查重环评文件中所有第二文本段和数据库中所有第一文本段做笛卡尔积,所有的配对返回对应simhash值的汉明距离作为第二文本段和各第一文本段的相似度。
所述的环评文件重复度检测系统,其中该模块3包括:对每个文本对,找到连续的重复字符并统计该重复字符字数作为文本对的重复字数。
所述的环评文件重复度检测系统,其中找到连续的重复字符的过程具体包括:
依次寻找文本对中第二文本段的字符,判断其是否在文本对中第一文本段中连续重复,若是则保存连续重复字符至候选集,并删除文本对中第二文本段中该连续重复字符,继续寻找文本对中第二文本段的字符,判断其是否在文本对中第一文本段中连续重复,直到对文本对中第二文本段的全部字符均完成判断,将该候选集中字符最多的连续重复字符进行左右延伸,查看文本对中第一文本段中是否依然有与之一致的内容,若有则保存延伸后的连续重复字符并将其字符数作为文本对的重复字数,否则保存未延伸的连续重复字符并将其字符数作为文本对的重复字数。通过上述过程可以精准得出重复字数,为查重精度提供保障。

Claims (10)

1.一种环评文件重复度检测方法,其特征在于,包括:
步骤1、读取多个历史环评文件,并在读取过程中将该历史环评文件中表格的单元格以固定字符加以分隔,得到该历史环评文件的第一字符文本,根据预设字符范围对该第一字符文本进行分段,得到多个第一文本段,并将该第一文本段和该第一文本段对应的文件名存入数据库;
步骤2、读取待查重环评文件,并在读取过程中将该待查重环评文件中表格的单元格以固定字符加以分隔,得到该待查重环评文件的第二字符文本,根据该预设字符范围对该第二字符文本进行分段,得到多个第二文本段;
步骤3、根据第二文本段和各第一文本段的相似度,得到相似度大于阈值的多个文本对,根据各文本对的重复字数,得到各文本对中第一文本段在第二文本段的重复率,将所有文本对中第一文本段依据文件名进行分组,并将各分组结果中的重复率求和,选择重复率求和最大的分组结果对应的历史环评文件作为该待查重环评文件的查重结果。
2.如权利要求1所述的环评文件重复度检测方法,其特征在于,该步骤1和该步骤2中的分段过程包括:依次遍历全文段落,计算每段字数,少于300字符则向下合并,合并到该预设字符范围内停止合并;多于500字符则按照400字符的长度拆分。
3.如权利要求1所述的环评文件重复度检测方法,其特征在于,该步骤3包括:该待查重环评文件中所有第二文本段和数据库中所有第一文本段做笛卡尔积,所有的配对返回对应simhash值的汉明距离作为第二文本段和各第一文本段的相似度。
4.如权利要求1所述的环评文件重复度检测方法,其特征在于,该步骤3包括:对每个文本对,找到连续的重复字符并统计该重复字符字数作为文本对的重复字数。
5.如权利要求4所述的环评文件重复度检测方法,其特征在于,找到连续的重复字符的过程具体包括:
依次寻找文本对中第二文本段的字符,判断其是否在文本对中第一文本段中连续重复,若是则保存连续重复字符至候选集,并删除文本对中第二文本段中该连续重复字符,继续寻找文本对中第二文本段的字符,判断其是否在文本对中第一文本段中连续重复,直到对文本对中第二文本段的全部字符均完成判断,将该候选集中字符最多的连续重复字符进行左右延伸,查看文本对中第一文本段中是否依然有与之一致的内容,若有则保存延伸后的连续重复字符并将其字符数作为文本对的重复字数,否则保存未延伸的连续重复字符并将其字符数作为文本对的重复字数。
6.一种环评文件重复度检测系统,其特征在于,包括:
模块1,用于读取多个历史环评文件,并在读取过程中将该历史环评文件中表格的单元格以固定字符加以分隔,得到该历史环评文件的第一字符文本,根据预设字符范围对该第一字符文本进行分段,得到多个第一文本段,并将该第一文本段和该第一文本段对应的文件名存入数据库;
模块2,用于读取待查重环评文件,并在读取过程中将该待查重环评文件中表格的单元格以固定字符加以分隔,得到该待查重环评文件的第二字符文本,根据该预设字符范围对该第二字符文本进行分段,得到多个第二文本段;
模块3,用于根据第二文本段和各第一文本段的相似度,得到相似度大于阈值的多个文本对,根据各文本对的重复字数,得到各文本对中第一文本段在第二文本段的重复率,将所有文本对中第一文本段依据文件名进行分组,并将各分组结果中的重复率求和,选择重复率求和最大的分组结果对应的历史环评文件作为该待查重环评文件的查重结果。
7.如权利要求1所述的环评文件重复度检测系统,其特征在于,该模块1和该模块2中的分段过程包括:依次遍历全文段落,计算每段字数,少于300字符则向下合并,合并到该预设字符范围内停止合并;多于500字符则按照400字符的长度拆分。
8.如权利要求1所述的环评文件重复度检测系统,其特征在于,该模块3包括:该待查重环评文件中所有第二文本段和数据库中所有第一文本段做笛卡尔积,所有的配对返回对应simhash值的汉明距离作为第二文本段和各第一文本段的相似度。
9.如权利要求1所述的环评文件重复度检测系统,其特征在于,该模块3包括:对每个文本对,找到连续的重复字符并统计该重复字符字数作为文本对的重复字数。
10.如权利要求4所述的环评文件重复度检测系统,其特征在于,找到连续的重复字符的过程具体包括:
依次寻找文本对中第二文本段的字符,判断其是否在文本对中第一文本段中连续重复,若是则保存连续重复字符至候选集,并删除文本对中第二文本段中该连续重复字符,继续寻找文本对中第二文本段的字符,判断其是否在文本对中第一文本段中连续重复,直到对文本对中第二文本段的全部字符均完成判断,将该候选集中字符最多的连续重复字符进行左右延伸,查看文本对中第一文本段中是否依然有与之一致的内容,若有则保存延伸后的连续重复字符并将其字符数作为文本对的重复字数,否则保存未延伸的连续重复字符并将其字符数作为文本对的重复字数。
CN202011191636.0A 2020-10-30 2020-10-30 一种环评文件重复度检测方法及系统 Pending CN112668301A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011191636.0A CN112668301A (zh) 2020-10-30 2020-10-30 一种环评文件重复度检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011191636.0A CN112668301A (zh) 2020-10-30 2020-10-30 一种环评文件重复度检测方法及系统

Publications (1)

Publication Number Publication Date
CN112668301A true CN112668301A (zh) 2021-04-16

Family

ID=75402822

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011191636.0A Pending CN112668301A (zh) 2020-10-30 2020-10-30 一种环评文件重复度检测方法及系统

Country Status (1)

Country Link
CN (1) CN112668301A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536759A (zh) * 2021-06-29 2021-10-22 北京清格科技有限公司 文本查重方法和装置及设备
CN115618843A (zh) * 2022-12-19 2023-01-17 成方金融科技有限公司 文本检测方法、装置、电子设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040223197A1 (en) * 2003-02-13 2004-11-11 Canon Kabushiki Kaisha Image processing method
US20060045386A1 (en) * 2003-01-31 2006-03-02 Shigeo Fukuoka Image processing method, system, program, program storage medium and information processing apparatus
US20130243263A1 (en) * 2012-03-06 2013-09-19 International Business Machines Corporation Information processor, method, and program for document proofreading
CN109359183A (zh) * 2018-10-11 2019-02-19 南京中孚信息技术有限公司 文本信息的查重方法、装置及电子设备
CN110347782A (zh) * 2019-07-18 2019-10-18 知者信息技术服务成都有限公司 文章查重方法、装置和电子设备
CN110874369A (zh) * 2019-10-25 2020-03-10 广州纳斯威尔信息技术有限公司 一种多维数据融合侦查系统及其方法
CN110990539A (zh) * 2019-12-24 2020-04-10 北大方正集团有限公司 稿件内部查重方法、装置、存储介质及电子设备
CN111625554A (zh) * 2020-07-30 2020-09-04 武大吉奥信息技术有限公司 一种基于深度学习语义理解的数据查询方法及装置
CN111737969A (zh) * 2020-07-27 2020-10-02 北森云计算有限公司 一种基于深度学习的简历解析方法和系统
CN111753516A (zh) * 2020-06-29 2020-10-09 平安国际智慧城市科技股份有限公司 文本查重处理方法、装置、计算机设备及计算机存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060045386A1 (en) * 2003-01-31 2006-03-02 Shigeo Fukuoka Image processing method, system, program, program storage medium and information processing apparatus
US20040223197A1 (en) * 2003-02-13 2004-11-11 Canon Kabushiki Kaisha Image processing method
US20130243263A1 (en) * 2012-03-06 2013-09-19 International Business Machines Corporation Information processor, method, and program for document proofreading
CN109359183A (zh) * 2018-10-11 2019-02-19 南京中孚信息技术有限公司 文本信息的查重方法、装置及电子设备
CN110347782A (zh) * 2019-07-18 2019-10-18 知者信息技术服务成都有限公司 文章查重方法、装置和电子设备
CN110874369A (zh) * 2019-10-25 2020-03-10 广州纳斯威尔信息技术有限公司 一种多维数据融合侦查系统及其方法
CN110990539A (zh) * 2019-12-24 2020-04-10 北大方正集团有限公司 稿件内部查重方法、装置、存储介质及电子设备
CN111753516A (zh) * 2020-06-29 2020-10-09 平安国际智慧城市科技股份有限公司 文本查重处理方法、装置、计算机设备及计算机存储介质
CN111737969A (zh) * 2020-07-27 2020-10-02 北森云计算有限公司 一种基于深度学习的简历解析方法和系统
CN111625554A (zh) * 2020-07-30 2020-09-04 武大吉奥信息技术有限公司 一种基于深度学习语义理解的数据查询方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
YE QING-WEI 等: "Duplicate Checking Algorithm of Document Partial Content Based on Particle Swarm Optimization", 《 COMPUTER ENGINEERING》, vol. 37, no. 20, 20 October 2011 (2011-10-20), pages 203 - 5 *
史旭荣 等: "全国2018~2019年秋冬季气象条件变化对PM2.5影响研究", 《中国环境科学》, vol. 40, no. 07, 20 July 2020 (2020-07-20), pages 2785 - 2793 *
潘理虎: "面向实践教学的作业查重系统", 《软件工程》, vol. 22, no. 5, 31 May 2019 (2019-05-31), pages 35 - 38 *
钱新梅: "政协提案的机器学习查重方法研究", 《福建电脑》, vol. 35, no. 08, 25 September 2019 (2019-09-25), pages 43 - 45 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536759A (zh) * 2021-06-29 2021-10-22 北京清格科技有限公司 文本查重方法和装置及设备
CN115618843A (zh) * 2022-12-19 2023-01-17 成方金融科技有限公司 文本检测方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US10095780B2 (en) Automatically mining patterns for rule based data standardization systems
CN108573045B (zh) 一种基于多阶指纹的比对矩阵相似度检索方法
CN105718506B (zh) 一种科技项目查重对比的方法
US20160012061A1 (en) Similar document detection and electronic discovery
CN104731976A (zh) 数据表中隐私数据的发现与分类方法
CN112463774B (zh) 文本数据的去重方法、设备及存储介质
CN112668301A (zh) 一种环评文件重复度检测方法及系统
CN110741376A (zh) 用于不同自然语言的自动文档分析
CN111125116B (zh) 定位业务表中代码字段及对应代码表的方法及系统
CN104750852A (zh) 中文地址数据的发现与分类方法
CN115935412A (zh) 一种非结构化数据自动分类分级方法及系统
CN111815162A (zh) 一种数字化审计工具及方法
CN111400446A (zh) 一种标准文本的查重方法及系统
CN109885641B (zh) 一种数据库中文全文检索的方法及系统
Silva Metrics for evaluating performance in document analysis: application to tables
CN110781673A (zh) 文档验收方法、装置、计算机设备及存储介质
KR101585644B1 (ko) 단어 연관성 분석을 이용한 문서 분류 장치, 방법 및 이를 위한 컴퓨터 프로그램
CN113642327A (zh) 一种标准知识库的构建方法及装置
CN114003750B (zh) 物料上线方法、装置、设备及存储介质
CN114511027B (zh) 通过大数据网络进行英语远程数据提取方法
US20220107919A1 (en) Computerized systems and methods of data compression
CN113254583B (zh) 一种基于语义向量的文档标记方法、装置及介质
CN115422125A (zh) 一种基于智能算法的电子文档自动归档方法与系统
CN115688788A (zh) 用于审计领域的命名实体识别模型的训练方法及相关设备
CN115964457A (zh) 一种文档字符串编码模糊匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination