CN112926314A - 文档的重复性识别方法、装置、电子设备以及存储介质 - Google Patents

文档的重复性识别方法、装置、电子设备以及存储介质 Download PDF

Info

Publication number
CN112926314A
CN112926314A CN202110341532.1A CN202110341532A CN112926314A CN 112926314 A CN112926314 A CN 112926314A CN 202110341532 A CN202110341532 A CN 202110341532A CN 112926314 A CN112926314 A CN 112926314A
Authority
CN
China
Prior art keywords
word
target
target document
document
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110341532.1A
Other languages
English (en)
Inventor
林妙真
陈文森
李木海
林倩
林宜领
朱富荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202110341532.1A priority Critical patent/CN112926314A/zh
Publication of CN112926314A publication Critical patent/CN112926314A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及人工智能技术领域,公开了一种文档的重复性识别方法、装置、电子设备以及存储介质。提取目标文档的至少两个目标词语,并根据所述至少两个目标词语,构建所述目标文档的目标词语序列;其中,所述目标词语至少包括所述目标文档中的名词、动词和数量词;确定所述目标词语序列中每个字的独热编码向量;根据所述目标词语序列中每个字的独热编码向量,确定所述目标文档的特征向量;根据其他文档的特征向量与所述目标文档的特征向量之间的距离,确定所述目标文档的重复性。上述技术方案,在平衡文档查重的时间复杂度和空间复杂度的前提下提高了文档查询的准确率,为文档的重复性识别提供了一种新思路。

Description

文档的重复性识别方法、装置、电子设备以及存储介质
技术领域
本申请实施例涉及人工智能技术领域,尤其涉及自然语言处理技术领域,具体涉及一种文档的重复性识别方法、装置、电子设备以及存储介质。
背景技术
随着互联网技术的发展,从互联网中可获取各行各业、各种各样的文档。例如,金融机构每天会从互联网接入大量的金融文档,包括市场快递,金融资讯,研究报告,政策解读,公告等,不同的数据来源有很多文档是相同或者相似的。如果不加以滤重,会涌入大量的重复文档或者相似的文档,大大的影响信息的准确传递,影响工作效率。因此,如何在大量的文档中,准确判断出重复的文档,并且兼顾执行的效率和精确度,尤为重要。
发明内容
本申请提供一种文档的重复性识别方法、装置、电子设备以及存储介质,以提高文档的查重准确率。
第一方面,本申请实施例提供了一种文档的重复性识别方法,包括:
提取目标文档的至少两个目标词语,并根据所述至少两个目标词语,构建所述目标文档的目标词语序列;其中,所述目标词语至少包括所述目标文档中的名词、动词和数量词;
确定所述目标词语序列中每个字的独热编码向量;
根据所述目标词语序列中每个字的独热编码向量,确定所述目标文档的特征向量;
根据其他文档的特征向量与所述目标文档的特征向量之间的距离,确定所述目标文档的重复性。
第二方面,本申请实施例还提供了一种文档的重复性识别装置,包括:
目标序列构建模块,用于提取目标文档的至少两个目标词语,并根据所述至少两个目标词语,构建所述目标文档的目标词语序列;其中,所述目标词至少包括所述目标文档中的名词、动词和数量词;
独热向量确定模块,用于确定所述目标词语序列中每个字的独热编码向量;
特征向量确定模块,用于根据所述目标词语序列中每个字的独热编码向量,确定所述目标文档的特征向量;
重复性确定模块,用于根据其他文档的特征向量与所述目标文档的目特征向量之间的距离,确定所述目标文档的重复性。
第三方面,本申请实施例还提供了一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本申请任一实施例中所提供的文档的重复性识别方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如本申请任一实施例中所提供的文档的重复性识别方法。
本申请的技术方案,通过提取目标文档的至少两个目标词语,并根据至少两个目标词语,构建目标文档的目标词语序列;其中,目标词语至少包括目标文档中的名词、动词和数量词,并确定目标词语序列中每个字的独热编码向量,之后根据目标词语序列中每个字的独热编码向量,确定目标文档的特征向量,进而根据其他文档的特征向量与目标文档的特征向量之间的距离,确定目标文档的重复性。上述技术方案,引入独热编码,解决了字符集编码不一致的问题,减小了空间分布,同时解决了同音字替代的问题,进而在平衡文档查重的时间复杂度和空间复杂度的前提下提高了文档查询的准确率,为文档的重复性识别提供了一种新思路。
附图说明
图1是本申请实施例一提供的一种文档的重复性识别方法的流程图;
图2是本申请实施例二提供的一种文档的重复性识别方法的流程图;
图3是本申请实施例三提供的一种文档的重复性识别方法的流程图;
图4是本申请实施例四提供的一种文档的重复性识别装置的结构示意图;
图5是本申请实施例五提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
实施例一
图1是本申请实施例一提供的一种文档的重复性识别方法的流程图;本实施例可适用于文档重复性识别的情况,尤其适用于金融文档重复性识别的情况。该方法可以由文档的重复性识别装置来执行,该装置由软件/硬件实现,并可集成于承载文档的重复性识别功能的电子设备中,如服务器中。
如图1所示,该方法具体可以包括:
S110、提取目标文档的至少两个目标词语,并根据至少两个目标词语,构建目标文档的目标词语序列。
其中,目标文档是指需要进行重复性识别的文档;目标词语是指目标文档中能表达文档主要含义的词语,目标词语至少包括目标文档中的名词、动词和数量词;目标词序列是指由目标词语构成的序列,用于表征目标文档。
本实施例中,可以基于分词技术,对目标文档进行分词,并根据分词结果过滤掉目标文档中没有实际含义的词(比如语气词、副词和形容词等)和标点符号,进而得到至少两个目标词语,并基于目标词语在目标文档中的顺序,将目标词语依次拼接,构建目标文档的目标词语序列。
S120、确定目标词语序列中每个字的独热编码向量。
本实施例中,对于目标词语序列中的每个字,基于设定字符序列,对该字关联的目标字符进行独热编码,得到该字的独热编码向量。
其中,独热编码,即One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由其独立的寄存器位,并且在任意时刻只有一位有效。设定字符序列包括声母和数字,进一步的,还包括单韵母;例如,设定字符序列可以由6个单韵母、23个声母和10个数字共39个字符组成,进而可以按照先单韵母后声母再数字的顺序排序(如:a、o、e、…、b、p、m、…、z、c、s、r、zh、ch、sh、y、w、0、1、…、9);进一步基于设定字符序列编码后的独热编码向量也是39维的。该字关联的目标字符可以是该字拼音中的声母,进一步的,对于单韵母的字,则取该字的单韵母作为目标字符;此外,在该字为数字的情况下,目标字符可以为数值,比如9。
具体的,对于目标词语序列中的每个字,获取该字关联的目标字符,基于设定字符序列,对该字关联的目标字符进行独热编码,得到该字的独热编码向量。例如,对“9”进行独热编码,“9”关联的目标字符分别为“9”则对“9”进行独热编码后,得到“9”的独热编码向量为“0000…000000001”(38个0和1个1)。
S130、根据目标词语序列中每个字的独热编码向量,确定目标文档的特征向量。
其中,目标文档的特征向量是指用于表征目标文档特征的向量。
本实施例中,可以将目标词语序列中每个字的独热编码向量,依次拼接起来,作为目标文档的特征向量。可选的,还可以将每个字按行拼接起来,例如,目标文档的目标词语序列中有m(m>1)个字,则最终拼接起来的目标文档的特征向量为m*39维的矩阵。
S140、根据其他文档的特征向量与目标文档的特征向量之间的距离,确定目标文档的重复性。
其中,其他文档是指需要与目标文档进行判重的文档,其数量可以是一篇,也可以是多篇;其他文档的特征向量同样也按照如S110-S130的步骤计算得到,并存储起来。
本实施例中,可以基于深度学习技术,将其他文档的特征向量和目标文档的特征向量输入到深度学习模型中,确定目标文档的重复性。
可选的,还可以计算其他文档的特征向量与目标文档的特征向量之间的距离,若距离小于设定阈值,则确定目标文档为重复文档。其中,设定阈值是本领域技术人员根据实际情况设定的。
可选的,还可以将其他文档的特征向量拼接成数字,得到其他文档的特征签名;将目标文档的特征向量拼接成数字,得到目标文档的特征签名;根据其他文档的特征签名和目标文档的特征签名之间的距离,确定目标文档的重复性。其中,特征签名用于表征文档的特征。具体的,将其他文档的特征向量按顺序依次拼接成一串数字,作为其他文档的特征签名;同理,将目标文档的特征向量按顺序依次拼接成一串数字,作为目标文档的特征签名;计算其他文档的特征签名和目标文档的特征签名之间的汉明距离,若汉明距离小于设定距离阈值,则确定目标文件为重复文件。其中设定距离阈值是本领域技术人员通过大量的数据实验确定的。
本申请的技术方案,通过提取目标文档的至少两个目标词语,并根据至少两个目标词语,构建目标文档的目标词语序列;其中,目标词语至少包括目标文档中的名词、动词和数量词,并确定目标词语序列中每个字的独热编码向量,之后根据目标词语序列中每个字的独热编码向量,确定目标文档的特征向量,进而根据其他文档的特征向量与目标文档的特征向量之间的距离,确定目标文档的重复性。上述技术方案,引入独热编码,解决了字符集编码不一致的问题,减小了空间分布,同时解决了同音字替代的问题,进而在平衡文档查重的时间复杂度和空间复杂度的前提下提高了文档查询的准确率,为文档的重复性识别提供了一种新思路。
在上述技术方案的基础上,为了更准确的判断目标文档的重复性,作为本实施例的一种可选方式,可以对目标文档进行格式清洗。具体的,清洗掉目标文档的超文本标记语言(HyperText Markup Language,html)标签、层叠样式表(Cascading Style Sheets,CSS)格式、图片、版权信息等额外信息。可以理解的是,通过对目标文档进行格式清洗,过滤掉干扰信息,只保留文本信息,为后续文档的重复性识别提供了保障。
实施例二
图2是本申请实施例二提供的一种文档的重复性识别方法的流程图;在上述实施例的基础上,对“根据目标词语序列中每个字的独热编码向量,确定目标文档的特征向量”进一步优化,提供一种可选方式。
如图2所示,该方法具体可以包括:
S210、提取目标文档的至少两个目标词语,并根据至少两个目标词语,构建目标文档的目标词语序列。
S220、确定目标词语序列中每个字的独热编码向量。
S230、基于设定滑动窗口,遍历目标词语序列,得到至少两个词语片段。
本实施例中,设定滑动窗口是本领域技术人员根据实际情况设定的。
本实施例中,基于设定滑动窗口,遍历目标词语序列,可以得到至少两个词语片段。例如,目标词语序列有m(m>1)个字,设定滑动窗口为2,则可以得到m-1个词语片段,每个词语片段包含2个字。
S240、根据目标词语序列中每个字的独热编码向量,确定至少两个词语片段的词语特征向量。
本实施例中,对于每一词语片段,确定该词语片段中每个字在目标文档中的出现频次,进而根据该词语片段中每个字在目标文档中的出现频次,以及该词语片段中每个字的独热编码向量,确定该词语片段的词语特征向量。具体的,对于该词语片段中的每个字,可以将该词语片段中每个字在目标文档的中的出现频次与该词语片段中每个字的独热编码向量按位相乘,得到该词语片段的词语特征向量。
可选的,还可以将该词语片段中每个字的独热编码向量进行映射变换,得到该词语片段中每个字的字特征向量;例如,将该词语片段中每个字的独热编码向量中的0映射为-1,得到该词语片段中每个字的字特征向量。
进而,根据该词语片段中每个字的字特征向量,以及该词语片段中每个字在目标文档中的出现频次,得到该词语片段的词语特征向量。具体的,对于该词语片段中的每个字,可以将该词语片段中每个字的字特征向量和该词语片段中每个字在目标文档中的出现频次按位相乘,得到该词语片段的词语特征向量。
S250、根据至少两个词语片段的词语特征向量,确定目标文档的特征向量。
本实施例中,将至少两个词语片段的词语特征向量,按顺序拼接起来,作为目标文档的特征向量。
可选的,还可以将至少两个词语片段的词语特征向量按行拼接,得到目标文档的中间向量;进而对目标文档的中间向量按列求和,得到目标文档的行向量;对行向量按位进行映射变换,得到目标文档的特征向量。
例如,目标词语序列有m(m>1)个字,设定滑动窗口为2,则可以得到m-1个词语片段,每个词语片段有2个字;每个字的字特征向量记为W,是一个39维的向量,进而m-1个词语片段的特征向量分别为(W1,W2),(W2,W3),(W3,W4)…(Wm-1,Wm),每个词语片段的向量特征为78维,将m-1个词语片段的特征向量按行拼接,得到是一个(m-1)*78的矩阵,即目标文档的中间向量;对该矩阵按列进行求和,得到一个78维的行向量;这个行向量按位进行映射变换,即正数映射为1,负数映射为0,得到目标文档的特征向量。
S260、根据其他文档的特征向量与目标文档的特征向量之间的距离,确定目标文档的重复性。
本实施例的技术方案,基于设定滑动窗口,遍历目标词语序列,得到至少两个词语片段,之后,根据目标词语序列中每个字的独热编码向量,确定至少两个词语片段的词语特征向量,进而根据至少两个词语片段的词语特征向量,确定目标文档的特征向量。上述技术方案,基于设定滑动窗口,引入词语特征向量,使得提取当的目标文档的特征保留了一定的文字顺序特征,提高了目标文档特征的准确性,进而提高了文档查重的准确性。
实施例三
图3是本申请实施例三提供的一种文档的重复性识别方法的流程图;在上述实施例的基础上,增加全局签名和局部签名,进一步优化文档的重复性识别方法。
如图3所示,该方法具体可以包括:
S310、确定目标文档的全局签名和局部签名。
本实施例中,全局签名是用于表征目标文档的整体特征;局部签名是用于表征目标文档显著的局部特征。
可选的,确定目标文档的全局签名,可以是对目标文档中的文字信息,进行哈希运算,得到目标文档的全局签名。具体的,可以对目标文档中的文本信息,采用安全哈希算法((Secure Hash Algorithm,SHA)进行哈希运算,得到目标文档的全局签名。其中,SHA是一种数据加密算法,该算法的思想是接收一段明文,然后以一种不可逆的方式将它转换成一段密文;也就是说,输入一串二进制码,并把它们转化为长度较短、位数固定的输出序列即散列值,也称为信息摘要或信息认证代码的过程。SHA是不可逆的、防冲突,并具有良好的雪崩效应。
可选的,确定目标文档的局部签名,可以是确定目标文档的至少两个关键词;其中,关键词用于表征目标文档的核心内容,至少包括名词和动词。具体的,可以基于分词技术,对目标文档进行分词,获取目标文档的核心词语(动词或名词),将获取到的核心词语作为目标词语的关键词。
进而,对至少两个关键词进行哈希运算,得到目标文档的局部签名。具体的,可以采用SHA算法,对至少两个关键词进行哈希运算,将哈希运算的结果作为目标文档的局部签名。
示例性的,对至少两个关键词进行哈希运算,得到目标文档的局部签名,还可以是,根据至少两个关键词在目标文档中的出现顺序,对至少两个关键词进行拼接,得到目标文档的关键词序列;对关键词序列进行哈希运算,得到目标文档的局部签名。
具体的,根据至少两个关键词在目标文档中的出现顺序,对至少两个关键词拼接成句子,得到目标文档的至少一个关键词序列;根据关键词序列的长短,按照从长到短的顺序选取设定数量的关键词序列;进而,可以采用SHA算法,将该设定数量的关键词序列进行哈希运算,将哈希运算的结果作为目标文档的局部签名。
S320、将文档集中与目标文档的全局签名不同且局部签名相同的文档,作为目标文档的其他文档。
本实施例中,将文档集中与目标文档的全局签名不同且局部签名相同的文档,作为目标文档的其他文档。
需要说明的是,文档集中的文档的全局签名和局部签名同样按照S310中的方法确定。
此外,还可以对文档集中的每篇文档的全局签名和局部签名做倒排索引,提高检索效率。当目标文档的全局签名和其他文档的全局签名相同时,则确定目标文档为重复文档;当目标文档的局部签名和其他文档的局部签名不相同时,则确定目标文档为不重复文档。
S330、提取目标文档的至少两个目标词语,并根据至少两个目标词语,构建目标文档的目标词语序列。
S340、确定目标词语序列中每个字的独热编码向量。
S350、根据目标词语序列中每个字的独热编码向量,确定目标文档的特征向量。
S360、根据其他文档的特征向量与目标文档的特征向量之间的距离,确定目标文档的重复性。
本实施例的技术方案,确定目标文档的全局签名和局部签名,之后将文档集中与目标文档的全局签名不同且局部签名相同的文档,作为目标文档的其他文档,引入全局签名和局部签名,对文档进行筛选,提高了文档查重的效率。
实施例四
图4是本申请实施例四提供的一种文档的重复性识别装置的结构示意图;本实施例可适用于文档重复性识别的情况,尤其适用于金融文档重复性识别的情况。该装置由软件/硬件实现,并可集成于承载文档的重复性识别功能的电子设备中,如服务器中。
如图4所示,该装置包括目标序列构建模块410、独热向量确定模块420、特征向量确定模块430和重复性确定模块440,其中,
目标序列构建模块410,用于提取目标文档的至少两个目标词语,并根据至少两个目标词语,构建目标文档的目标词语序列;其中,目标词至少包括目标文档中的名词、动词和数量词;
独热向量确定模块420,用于确定目标词语序列中每个字的独热编码向量;
特征向量确定模块430,用于根据目标词语序列中每个字的独热编码向量,确定目标文档的特征向量;
重复性确定模块440,用于根据其他文档的特征向量与目标文档的目特征向量之间的距离,确定目标文档的重复性。
本申请的技术方案,通过提取目标文档的至少两个目标词语,并根据至少两个目标词语,构建目标文档的目标词语序列;其中,目标词语至少包括目标文档中的名词、动词和数量词,并确定目标词语序列中每个字的独热编码向量,之后根据目标词语序列中每个字的独热编码向量,确定目标文档的特征向量,进而根据其他文档的特征向量与目标文档的特征向量之间的距离,确定目标文档的重复性。上述技术方案,引入独热编码,解决了字符集编码不一致的问题,减小了空间分布,同时解决了同音字替代的问题,进而在平衡文档查重的时间复杂度和空间复杂度的前提下提高了文档查询的准确率,为文档的重复性识别提供了一种新思路。
进一步地,独热向量确定模块420具体用于:
对于每个字,基于设定字符序列,对该字关联的目标字符进行独热编码,得到该字的独热编码向量;其中,设定字符序列包括声母和数字。
进一步地,特征向量确定模块430包括词语片段确定子模块、词语特征向量确定子模块和特征向量确定子模块,其中,
词语片段确定子模块,用于基于设定滑动窗口,遍历目标词语序列,得到至少两个词语片段;
词语特征向量确定子模块,用于根据目标词语序列中每个字的独热编码向量,确定至少两个词语片段的词语特征向量;
特征向量确定子模块,用于根据至少两个词语片段的词语特征向量,确定目标文档的特征向量。
进一步地,词语特征向量确定子模块包括出现频次确定单元和词语特征向量确定单元,其中,
出现频次确定单元,用于对于每一词语片段,确定该词语片段中每个字在目标文档中的出现频次;
词语特征向量确定单元,用于根据该词语片段中每个字在目标文档中的出现频次,以及该词语片段中每个字的独热编码向量,确定该词语片段的词语特征向量。
进一步地,词语特征向量确定单元包括字特征向量确定子单元和词语特征向量确定子单元,其中,
字特征向量确定子单元,用于将该词语片段中每个字的独热编码向量进行映射变换,得到该词语片段中每个字的字特征向量;
词语特征向量确定子单元,用于根据该词语片段中每个字的字特征向量,以及该词语片段中每个字在目标文档中的出现频次,得到该词语片段的词语特征向量。
进一步地,特征向量确定子模块包括中间向量确定单元、行向量确定单元和特征向量确定单元,其中,
中间向量确定单元,用于将至少两个词语片段的词语特征向量按行拼接,得到目标文档的中间向量;
行向量确定单元,用于对目标文档的中间向量按列求和,得到目标文档的行向量;
特征向量确定单元,用于对行向量按位进行映射变换,得到目标文档的特征向量。
进一步地,重复性确定模块440包括特征签名确定子模块和重复性确定子模块,其中,
特征签名确定子模块,用于将其他文档的特征向量拼接成数字,得到其他文档的特征签名;
特征签名确定子模块,还用于将目标文档的特征向量拼接成数字,得到目标文档的特征签名;
重复性确定子模块,用于根据其他文档的特征签名和目标文档的特征签名之间的距离,确定目标文档的重复性。
进一步地,该装置还包括签名确定模块和其他文档确定模块,其中
签名确定模块,用于确定目标文档的全局签名和局部签名;
其他文档确定模块,用于将文档集中与目标文档的全局签名不同且局部签名相同的文档,作为目标文档的其他文档。
进一步地,签名确定模块包括关键词确定子模块和局部签名确定子模块,其中,
关键词确定子模块,用于确定目标文档的至少两个关键词;其中,关键词至少包括名词和动词;
局部签名确定子模块,用于对至少两个关键词进行哈希运算,得到目标文档的局部签名。
进一步地,局部签名确定子模块包括关键词序列确定单元和局部签名确定单元,其中,
关键词序列确定单元,用于根据至少两个关键词在目标文档中的出现顺序,对至少两个关键词进行拼接,得到目标文档的关键词序列;
局部签名确定单元,用于对关键词序列进行哈希运算,得到目标文档的局部签名。
进一步地,签名确定模块还包括全局签名确定子模块,该模块具体用于:
对目标文档中的文字信息,进行哈希运算,得到目标文档的全局签名。
进一步地,该装置还包括清洗模块,该模块具体用于:
对目标文档进行格式清洗。
上述文档的重复性识别装置可执行本申请任意实施例所提供的文档的重复性识别方法,具备执行方法相应的功能模块和有益效果。
实施例五
图5是本申请实施例五提供的一种电子设备的结构示意图,图5示出了适于用来实现本申请实施例实施方式的示例性设备的框图。图5显示的设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请实施例各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请实施例所描述的实施例中的功能和/或方法。
电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该电子设备12交互的设备通信,和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与电子设备12的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本申请实施例所提供的文档的重复性识别方法。
实施例六
本申请实施例六还提供一种计算机可读存储介质,其上存储有计算机程序(或称为计算机可执行指令),该程序被处理器执行时用于执行本申请实施例所提供的文档的重复性识别方法。
本申请实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请实施例操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请实施例进行了较为详细的说明,但是本申请实施例不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。

Claims (15)

1.一种文档的重复性识别方法,其特征在于,包括:
提取目标文档的至少两个目标词语,并根据所述至少两个目标词语,构建所述目标文档的目标词语序列;其中,所述目标词语至少包括所述目标文档中的名词、动词和数量词;
确定所述目标词语序列中每个字的独热编码向量;
根据所述目标词语序列中每个字的独热编码向量,确定所述目标文档的特征向量;
根据其他文档的特征向量与所述目标文档的特征向量之间的距离,确定所述目标文档的重复性。
2.根据权利要求1所述的方法,其特征在于,确定所述目标词语序列中每个字的独热编码向量,包括:
对于每个字,基于设定字符序列,对该字关联的目标字符进行独热编码,得到该字的独热编码向量;其中,设定字符序列包括声母和数字。
3.根据权利要求1所述的方法,其特征在于,根据所述目标词语序列中每个字的独热编码向量,确定所述目标文档的特征向量,包括:
基于设定滑动窗口,遍历所述目标词语序列,得到至少两个词语片段;
根据所述目标词语序列中每个字的独热编码向量,确定至少两个词语片段的词语特征向量;
根据所述至少两个词语片段的词语特征向量,确定所述目标文档的特征向量。
4.根据权利要求3所述的方法,其特征在于,根据所述目标词语序列中每个字的独热编码向量,确定至少两个词语片段的词语特征向量,包括:
对于每一词语片段,确定该词语片段中每个字在所述目标文档中的出现频次;
根据该词语片段中每个字在所述目标文档中的出现频次,以及该词语片段中每个字的独热编码向量,确定该词语片段的词语特征向量。
5.根据权利要求4所述的方法,其特征在于,根据该词语片段中每个字在所述目标文档中的出现频次,以及该词语片段中每个字的独热编码向量,确定该词语片段的词语特征向量,包括:
将该词语片段中每个字的独热编码向量进行映射变换,得到该词语片段中每个字的字特征向量;
根据所述该词语片段中每个字的字特征向量,以及该词语片段中每个字在所述目标文档中的出现频次,得到该词语片段的词语特征向量。
6.根据权利要求3所述的方法,其特征在于,根据所述至少两个词语片段的词语特征向量,确定所述目标文档的特征向量,包括:
将所述至少两个词语片段的词语特征向量按行拼接,得到所述目标文档的中间向量;
对所述目标文档的中间向量按列求和,得到所述目标文档的行向量;
对所述行向量按位进行映射变换,得到所述目标文档的特征向量。
7.根据权利要求1所述的方法,其特征在于,根据其他文档的特征向量与所述目标文档的特征向量之前的距离,确定目标文档的重复性,包括:
将所述其他文档的特征向量拼接成数字,得到所述其他文档的特征签名;
将所述目标文档的特征向量拼接成数字,得到所述目标文档的特征签名;
根据所述其他文档的特征签名和所述目标文档的特征签名之间的距离,确定所述目标文档的重复性。
8.根据权利要求1所述的方法,其特征在于,还包括:
确定目标文档的全局签名和局部签名;
将文档集中与所述目标文档的全局签名不同且局部签名相同的文档,作为所述目标文档的其他文档。
9.根据权利要求8所述的方法,其特征在于,确定目标文档的局部签名,包括:
确定所述目标文档的至少两个关键词;其中,所述关键词至少包括名词和动词;
对所述至少两个关键词进行哈希运算,得到所述目标文档的局部签名。
10.根据权利要求9所述的方法,其特征在于,对所述至少两个关键词进行哈希运算,得到所述目标文档的局部签名,包括:
根据所述至少两个关键词在所述目标文档中的出现顺序,对所述至少两个关键词进行拼接,得到所述目标文档的关键词序列;
对所述关键词序列进行哈希运算,得到所述目标文档的局部签名。
11.根据权利要求8所述的方法,其特征在于,确定目标文档的全局签名,包括:
对目标文档中的文字信息,进行哈希运算,得到所述目标文档的全局签名。
12.根据权利要求1所述的方法,其特征在于,在提取目标文档的至少两个目标词,并根据所述至少两个目标词,构建所述目标文档的目标词语序列之前,还包括:
对所述目标文档进行格式清洗。
13.一种文档的重复性识别装置,其特征在于,包括:
目标序列构建模块,用于提取目标文档的至少两个目标词语,并根据所述至少两个目标词语,构建所述目标文档的目标词语序列;其中,所述目标词至少包括所述目标文档中的名词、动词和数量词;
独热向量确定模块,用于确定所述目标词语序列中每个字的独热编码向量;
特征向量确定模块,用于根据所述目标词语序列中每个字的独热编码向量,确定所述目标文档的特征向量;
重复性确定模块,用于根据其他文档的特征向量与所述目标文档的目特征向量之间的距离,确定所述目标文档的重复性。
14.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-12中任一项所述的文档的重复性识别方法。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-12中任一项所述的文档的重复性识别方法。
CN202110341532.1A 2021-03-30 2021-03-30 文档的重复性识别方法、装置、电子设备以及存储介质 Pending CN112926314A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110341532.1A CN112926314A (zh) 2021-03-30 2021-03-30 文档的重复性识别方法、装置、电子设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110341532.1A CN112926314A (zh) 2021-03-30 2021-03-30 文档的重复性识别方法、装置、电子设备以及存储介质

Publications (1)

Publication Number Publication Date
CN112926314A true CN112926314A (zh) 2021-06-08

Family

ID=76176615

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110341532.1A Pending CN112926314A (zh) 2021-03-30 2021-03-30 文档的重复性识别方法、装置、电子设备以及存储介质

Country Status (1)

Country Link
CN (1) CN112926314A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116776854A (zh) * 2023-08-25 2023-09-19 湖南汇智兴创科技有限公司 在线多版本文献内容关联方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116776854A (zh) * 2023-08-25 2023-09-19 湖南汇智兴创科技有限公司 在线多版本文献内容关联方法、装置、设备及介质
CN116776854B (zh) * 2023-08-25 2023-11-03 湖南汇智兴创科技有限公司 在线多版本文献内容关联方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US11636264B2 (en) Stylistic text rewriting for a target author
WO2022088672A1 (zh) 基于bert的机器阅读理解方法、装置、设备及存储介质
CN107220235B (zh) 基于人工智能的语音识别纠错方法、装置及存储介质
WO2020224219A1 (zh) 中文分词方法、装置、电子设备及可读存储介质
CN112633419B (zh) 小样本学习方法、装置、电子设备和存储介质
CN111814466A (zh) 基于机器阅读理解的信息抽取方法、及其相关设备
CN111985229B (zh) 一种序列标注方法、装置及计算机设备
CN112329465A (zh) 一种命名实体识别方法、装置及计算机可读存储介质
WO2021135469A1 (zh) 基于机器学习的信息抽取方法、装置、计算机设备及介质
CN113076739A (zh) 一种实现跨领域的中文文本纠错方法和系统
WO2021208727A1 (zh) 基于人工智能的文本错误检测方法、装置、计算机设备
CN111079432B (zh) 文本检测方法、装置、电子设备及存储介质
CN113987169A (zh) 基于语义块的文本摘要生成方法、装置、设备及存储介质
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
US20220139386A1 (en) System and method for chinese punctuation restoration using sub-character information
CN110704608A (zh) 文本主题生成方法、装置和计算机设备
CN111353311A (zh) 一种命名实体识别方法、装置、计算机设备及存储介质
CN110874536A (zh) 语料质量评估模型生成方法和双语句对互译质量评估方法
CN113986950A (zh) 一种sql语句处理方法、装置、设备及存储介质
CN113486178A (zh) 文本识别模型训练方法、文本识别方法、装置以及介质
CN115544560A (zh) 一种敏感信息的脱敏方法、装置、计算机设备及存储介质
CN113360654B (zh) 文本分类方法、装置、电子设备及可读存储介质
CN112926314A (zh) 文档的重复性识别方法、装置、电子设备以及存储介质
CN112949320A (zh) 基于条件随机场的序列标注方法、装置、设备及介质
CN109902162B (zh) 基于数字指纹的文本相似性的识别方法、存储介质及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination