CN108829780A - 文本检测方法、装置、计算设备及计算机可读存储介质 - Google Patents

文本检测方法、装置、计算设备及计算机可读存储介质 Download PDF

Info

Publication number
CN108829780A
CN108829780A CN201810546892.3A CN201810546892A CN108829780A CN 108829780 A CN108829780 A CN 108829780A CN 201810546892 A CN201810546892 A CN 201810546892A CN 108829780 A CN108829780 A CN 108829780A
Authority
CN
China
Prior art keywords
sentence
similar
list
text
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810546892.3A
Other languages
English (en)
Other versions
CN108829780B (zh
Inventor
于洋
刘磊
徐香义
柏少乾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wanfang Data Ltd By Share Ltd
Original Assignee
Beijing Wanfang Data Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wanfang Data Ltd By Share Ltd filed Critical Beijing Wanfang Data Ltd By Share Ltd
Priority to CN201810546892.3A priority Critical patent/CN108829780B/zh
Publication of CN108829780A publication Critical patent/CN108829780A/zh
Application granted granted Critical
Publication of CN108829780B publication Critical patent/CN108829780B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本检测方法、装置、计算设备及计算机可读存储介质,该文本检测方法包括:对待检测文本进行聚类预处理,得到所述待检测文本各分句中各分词对应的相似类列表;基于所述相似类列表确定所述待检测文本中所有分句对应的相似句子列表,并对所述相似句子列表中各相似句子进行合并,得到相似片段;基于所述相似片段确定所述待检测文本与所述相似片段所属文本的相似度。本申请中,实现了对文本的有效检测,提升了检测效率;并且通过采用TF_IDF值进行差值计算方式,不仅提高了计算的精确度,亦极大地提高了检测速度。

Description

文本检测方法、装置、计算设备及计算机可读存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种文本检测方法、装置、计算设备及计算机可读存储介质。
背景技术
在现有技术中,随着学术界造假事件频繁发生,知识产权保护的呼声日益高涨,文本查重技术的研究逐渐成为相关专家和学者的研究热点。目前,国内外有一些学者提出了文本查重方法。然而,对于这些文本查重方法而言,虽然能够实现文本的查重处理,但是操作复杂,耗时耗力,且效率低下,准确率也相对较低。
发明内容
本申请提供文本检测方法、装置、计算设备及计算机可读存储介质,以实现对文本的相似度检测,提升检测效率。
本申请提供了一种文本检测方法,包括:
对待检测文本进行聚类预处理,得到所述待检测文本各分句中各分词对应的相似类列表;
基于所述相似类列表确定所述待检测文本中所有分句对应的相似句子列表,并对所述相似句子列表中各相似句子进行合并,得到相似片段;
基于所述相似片段确定所述待检测文本与所述相似片段所属文本的相似度。
优选地,所述基于所述相似类列表确定所述待检测文本中所有分句对应的相似句子列表,并对所述相似句子列表中各相似句子进行合并,得到相似片段,包括:
基于所述相似类列表确定各分词对应的相似句子列表;
根据所述相似句子列表确定目标相似句子列表;其中,所述目标相似句子列表中的各目标相似句子与各分句一一对应;
根据所述目标相似句子列表中各目标相似句子间的关系进行合并,得到对应的相似片段。
优选地,所述基于所述相似类列表确定各分词对应的相似句子列表,包括:
基于所述相似类列表获取所述相似类列表对应分词在倒排中的字节位置;
根据所述字节位置确定所述分词对应的句子列表;
对所述分词与所述句子列表中各句子分别做TF_IDF差值计算,得到对应的TF_IDF值;
并根据大于预设阈值的TF_IDF值所对应的句子构建相似句子列表。
优选地,所述根据所述相似句子列表确定目标相似句子列表,包括:
根据所述相似句子列表中各相似句子的ID确定各相似句子所对应的相似文档;
并分别计算各相似文档的向量相似比;
基于所述相似文档的向量相似比确定各分句分别对应的目标相似句子。
优选地,所述根据所述目标相似句子列表中各目标相似句子间的关系进行合并,得到对应的相似片段,包括:
基于所述目标相似句子列表中各目标相似句子间的关系确定待补充目标相似句子;
将该确定的待补充目标相似句子添加到所述目标相似句子列表中;
并将所述目标相似句子列表中的目标相似句子与待补充目标相似句子进行合并,得到对应的相似片段。
优选地,所述基于所述目标相似句子列表中各目标相似句子间的关系确定待补充目标相似句子,包括:
确定所述目标相似句子列表中各目标相似句子间的对应关系;
获取具有对应关系的各目标相似句子的位置信息;
基于任意两个具有对应关系的目标相似句子的位置信息确定对应的第一相似文本范围;
并在所述第一相似文本范围中筛选出待补充目标相似句子。
优选地,还包括:
获取特定目标相似句子的位置信息,其中,所述特定目标相似句子为与其他目标相似句子不具有对应关系的句子;
基于所述位置信息确定所述特定目标相似句子与其在位置上相邻的目标相似句子间的第二相似文本范围;
并在所述第二相似文本范围中筛选出待补充目标相似句子。
优选地,所述对待检测文本进行聚类预处理,得到所述待检测文本各分句中各分词对应的相似类列表,包括:
对所述待检测文本进行文本切分,得到包含各分词及各分词对应的词频的词组列表;
基于所述词组列表中的词频计算各分词的TF_IDF值;
基于所述TF_IDF值确定所述分词的相似类列表。
优选地,所述对所述待检测文本进行文本切分,得到词组列表,包括:
对所述待检测文本进行文本切分,得到组成所述待检测文本的各分段;
并对各分段进行分句处理,得到各分句;
对各分句进行拆分,得到所述词组列表。
本申请还提供了一种文本检测装置,包括:
预处理单元,用于对待检测文本进行聚类预处理,得到所述待检测文本各分句中各分词对应的相似类列表;
第一处理单元,用于基于所述相似类列表确定所述待检测文本中所有分句对应的相似句子列表,并对所述相似句子列表中各相似句子进行合并,得到相似片段;
确定单元,用于基于所述相似片段确定所述待检测文本与所述相似片段所属文本的相似度。
优选地,所述第一处理单元,用于基于所述相似类列表确定各分词对应的相似句子列表;根据所述相似句子列表确定目标相似句子列表;其中,所述目标相似句子列表中的各目标相似句子与各分句一一对应;根据所述目标相似句子列表中各目标相似句子间的关系进行合并,得到对应的相似片段。
优选地,所述第一处理单元,具体用于基于所述相似类列表获取所述相似类列表对应分词在倒排中的字节位置;根据所述字节位置确定所述分词对应的句子列表;对所述分词与所述句子列表中各句子分别做TF_IDF差值计算,得到对应的TF_IDF值;并根据大于预设阈值的TF_IDF值所对应的句子构建相似句子列表。
优选地,所述第一处理单元,进一步用于根据所述相似句子列表中各相似句子的ID确定各相似句子所对应的相似文档;并分别计算各相似文档的向量相似比;基于所述相似文档的向量相似比确定各分句分别对应的目标相似句子。
优选地,所述第一处理单元,进一步用于基于所述目标相似句子列表中各目标相似句子间的关系确定待补充目标相似句子;将该确定的待补充目标相似句子添加到所述目标相似句子列表中;并将所述目标相似句子列表中的目标相似句子与待补充目标相似句子进行合并,得到对应的相似片段。
优选地,所述第一处理单元,还具体用于确定所述目标相似句子列表中各目标相似句子间的对应关系;获取具有对应关系的各目标相似句子的位置信息;基于任意两个具有对应关系的目标相似句子的位置信息确定对应的第一相似文本范围;并在所述第一相似文本范围中筛选出待补充目标相似句子。
优选地,还包括:
第二处理单元,用于获取特定目标相似句子的位置信息,其中,所述特定目标相似句子为与其他目标相似句子不具有对应关系的句子;基于所述位置信息确定所述特定目标相似句子与其在位置上相邻的目标相似句子间的第二相似文本范围;并在所述第二相似文本范围中筛选出待补充目标相似句子。
优选地,所述预处理单元,用于对所述待检测文本进行文本切分,得到包含各分词及各分词对应的词频的词组列表;基于所述词组列表中的词频计算各分词的TF_IDF值;基于所述TF_IDF值确定所述分词的相似类列表。
优选地,所述预处理单元,具体用于对所述待检测文本进行文本切分,得到组成所述待检测文本的各分段;并对各分段进行分句处理,得到各分句;对各分句进行拆分,得到所述词组列表。
本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述的方法。
本申请还提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述文本检测方法对应的操作。
与现有技术相比,本申请至少具有以下优点:
通过对待检测文本进行聚类预处理,得到所述待检测文本各分句中各分词对应的相似类列表;基于所述相似类列表确定所述待检测文本中所有分句对应的相似句子列表,并对所述相似句子列表中各相似句子进行合并,得到相似片段;基于所述相似片段确定所述待检测文本与所述相似片段所属文本的相似度,实现了对文本的有效检测,提升了检测效率;并且通过采用TF_IDF值进行差值计算方式,目的在于通过该计算方式既可以提高计算的精确度,亦可以极大地提高检测速度。
附图说明
图1是本申请实施例提供的文本检测方法的流程图;
图2是本申请实施例提供的文本检测方法的具体处理流程图;
图3是本申请实施例提供的文本检测装置的结构图。
具体实施方式
本申请提出一种文本检测方法、装置、计算设备及计算机可读存储介质,下面结合附图,对本申请具体实施方式进行详细说明。
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
如图1所示,为本申请实施例所提供的一种文本检测方法的流程图,包括如下步骤:
步骤101,对待检测文本进行聚类预处理,得到所述待检测文本各分句中各分词对应的相似类列表。
步骤102,基于所述相似类列表确定所述待检测文本中所有分句对应的相似句子列表,并对所述相似句子列表中各相似句子进行合并,得到相似片段。
步骤103,基于所述相似片段确定所述待检测文本与所述相似片段所属文本的相似度。
基于上述本申请实施例所提供的文本检测方法的流程图,下面对该文本检测方法进行具体阐述,如图2所示,为该方法的具体流程示意图,包括如下步骤:
步骤201,对待检测文本进行聚类预处理。
本步骤中,包括:
对待检测文本进行文本切分,得到包含各分词及各分词对应的词频的词组列表;
基于所述词组列表中的词频计算各分词的TF_IDF值;
基于所述TF_IDF值确定所述分词的相似类列表
具体的,该聚类预处理,可以包括:
1.遍历所有的送检文本;
2.选取出单个送检文本进行分段处理;
3.在一个段落内部,依据部分标点符号(句号、问号等)进行粗略分句处理。将切分好的粗分句子与最长句子长度阈值进行比较,如果超过最长句子长度阈值,则将该粗分句子进行精细切分(逗号等),将再次切分后的细分句子再按照最长句子长度阈值进行比对,如果细分句子低于最短句子长度阈值,则将该细分句子与后面的句子进行组合,直到达到该最短句子长度阈值。如果向后补齐后的句子达到了最短句子长度阈值,但补齐的那句(即最后添加的小句)不满足最短句子长度阈值时,则该后面的句子就会在下一个切分好的句子中重复出现。比如,前期切分的句子A,A不满足最短句子长度阈值,后面紧跟的句子是B,A+B的长度满足最短句子长度阈值,但B不满足最短句子长度阈值,则B还会跟后面的C进行组合。则切分后的句子是AB和BC,即B会出现两次,这里就是切句存在的滑动切分方式。
3.1.当前非常流行的切句方式是,将ABCDEF切分为ABC、BCD、CDE和DEF,然而这样会造成计算量增大。
3.2单纯的按照标点切分,但不进行组合就会出现每一个句子的长度不一致,造成句子尺度不一,对进行后续聚类预处理造成影响。
3.3进行滑动切分(即存在重复B的方式)是将小短句进行滑动出现,是为了增加命中概率。
其中,在上述进行切分后,会对每一个句子进行ID标注,以通过ID来表示该句子在当前送检文本中的位置,从而可以实现对每一个句子的精准定位。
4.将切分好的句子进行分词,保留名词等有效词。如果本句有效词少于阈值,就将这句抛弃。
在分词时,还会对各有效的分词所出现的次数进行标注,即词频;如词A在对比库的所有文档中出现了11次,则其词频为11。同时会生成一个句子信息文件,该句子信息文件(DI.txt)按行保存每一句,每一行内容是句子ID以及本句出现的词以及本词在本句出现的次数,在该文件中保留有句子ID和各分词及对应的词频。
5.在产生上述文件的同时生成文件路径文件和词典文件;前者用于通过ID来定位文本,后者用于对词进行向量化并计算衡量本词重要性的TF_IDF值。
6.依据句子信息文件和TF_IDF算法对句子进行向量化和归一化生成TD_IDF文件并统计分词的句频生成句子级词典文件。其中,该句子级词典,是词出现在有效句子(保留下来的句子都是有效句子)次数。如一共有100条句子出现过本词。在这100条句子中,词在有的句子出现过两次,有的句子里只出现一次,但我们计数时只按照句子为单位,所以本词(以词ID形式存在)的句子词典的句频是100,而不是更多。文件中包括了句子ID,分词ID和该分词TF_IDF值在与本句中其他分词TF_IDF值归一化后的值。
7.依据TF_IDF文件,分块读取,生成共现矩阵;
由于TF_IDF文件较大且内存有限,采用分块读取,分块建立矩阵,再合并策略。
其基本格式为:词A的ID与A共现词B的ID,共现次数与A共现的词C的ID,共现次数……。
8.利用深度搜索,寻找高连通度的点集;
9.以高连通度的点为起点,采用最小生成树算法寻找正交基,贡献度度量标准是本词(如B词)出现的次数与生成树词共现次数的比值。比值越大,说明贡献度越高,本词就越容易加入到生成树当中。
10.每一个基向量都是由最小生成树算法生成,终止条件是:本生成树包含的词达到阈值或本生成树包含词所出现的句子数达到阈值。本过程结束的标志是包含词少于某个阈值的正交基个数达到一个阈值或所有矩阵中的有效词遍历完毕。
11.将剩余词利用对每一个正交基贡献度不同,分配到不同的正交基当中。如果贡献度低于某个阈值,则不分配,最终将这些未分配的词按照词个数进行重新组正交基。对正交基的所有词的向量值进行归一化,每一个正交基的词的值为本正交基词个数的-1/2次方,最终生成对应的文件。
其中,正交基中正交的意思是每一个正交基之间包含的词互不重叠。
12.将TF_IDF文件中的句子与正交基进行内积,找到最相似的类,以及次相似的类。将句子分类到最相似的类中,如果本句在次相似类与在最相似类中的相似阈值差距在一定阈值内,即也将本句划分到次相似类汇总,从而实现软聚类。
其中,正交基的目的是将相似的句子放到一起,便于句子查找。在保证句子都能被找到的基础上,使得每一个分类中句子数大致一致,保证了查找速度。
13.将分类后的句子按照格式“词出现的句子A的ID,在句子A的本词的TFIDF出现的句子B的ID,在句子B的本词的TFIDF…..”进行输出。
当然,若该聚类处理过程是为了将文本归入到系统的比对库中时,还需要包括如下处理:
14.将本文件转化为二进制文件,依旧采用倒排词典和二进制倒排文件倒排的形式出现。
步骤202,基于相似类列表确定各分词对应的相似句子列表。
该步骤包括:
基于所述相似类列表获取所述相似类列表对应分词在倒排中的字节位置;
根据所述字节位置确定所述分词对应的句子列表;
对所述分词与所述句子列表中各句子分别做TF_IDF差值计算,得到对应的TF_IDF值;
并根据大于预设阈值的TF_IDF值所对应的句子构建相似句子列表。
步骤203,根据所述相似句子列表确定目标相似句子列表。
其中,所述目标相似句子列表中的各目标相似句子与各分句一一对应。
本步骤包括:
根据所述相似句子列表中各相似句子的ID确定各相似句子所对应的相似文档;
并分别计算各相似文档的向量相似比;
基于所述相似文档的向量相似比确定各分句分别对应的目标相似句子。
步骤204,根据所述目标相似句子列表中各目标相似句子间的关系进行合并,得到对应的相似片段。
本步骤包括:
基于所述目标相似句子列表中各目标相似句子间的关系确定待补充目标相似句子;
将该确定的待补充目标相似句子添加到所述目标相似句子列表中;
并将所述目标相似句子列表中的目标相似句子与待补充目标相似句子进行合并,得到对应的相似片段。
进一步地,所述基于所述目标相似句子列表中各目标相似句子间的关系确定待补充目标相似句子,包括:
确定所述目标相似句子列表中各目标相似句子间的对应关系;
获取具有对应关系的各目标相似句子的位置信息;
基于任意两个具有对应关系的目标相似句子的位置信息确定对应的第一相似文本范围;
并在所述第一相似文本范围中筛选出待补充目标相似句子。
还包括:
获取特定目标相似句子的位置信息,其中所述特定目标相似句子为与其他目标相似句子不具有对应关系的相似句子;
基于所述位置信息确定所述特定目标相似句子与其在位置上相邻的目标相似句子间的第二相似文本范围;
并在所述第二相似文本范围中筛选出待补充目标相似句子。
步骤205,基于所述相似片段确定所述待检测文本与所述相似片段所属文本的相似度。
基于上述本申请实施例所提供的文本检测方法,下面以一个具体实施例对该方法做具体阐释。
实施例一
第一步、初始化处理,从而加载后期所需要的内容:初始化分词系统,加载比对库词典(包括比对库的主词典以各分类的子类词典),类中心向量信息(各个分类信息),文档路径信息和初始化链接元数据库。
第二步、开始对送检文本进行分段(记录段落ID)、分句处理(分句方式与前期滑动切分方式一致),对每个分句进行分词处理,对每个分句所分出的分词与比对库主词典进行对比筛选,将主词典中存在的词筛选出来(即保证该送检的句子中的分词在对比库中存在)。此处还有同义词参与匹配功能,依据同义词表将分句中所对应的同义词也加入到待比对的队列中。这样就得到每个分句的词组列表(词,该词在该句的词频),并计算出每个分句中每个分词的TF_IDF值(向量值)。IDF是使用与聚类处理统一的值,TF是该词在该句中的词频。
第三步、利用上一步中得到的每个分句中每个分词的TF_IDF值与中心向量中每个类的TF_IDF值进行内积计算,从而选出最相似的类列表。
第四步、根据上一步中找到的相似类列表,获得分句中每个分词在类倒排中对应的字节位置,找到该词在比对库中对应的句子列表,并与相似句子列表中每个句子做TF_IDF差值计算,依据阈值进行判断,从而筛选出相似句子列表,此时只能对应找到相似句子的句子ID,并且依据句子ID可以解析出对应的文档ID以及对应文档的绝对路径。这样就得到每个分句对应的相似文档列表,并计算出每篇相似文档对应的向量相似比。
其中,在一种优选实施方式中,为提高检测速度,减少倒排读取时间内存消耗,该步骤只针对长度在15到60长度的分句进行操作。
之前的版本或是大多数相似性计算都会采用TF_IDF值做内积的情况,而这里之所以会选择采用TF_IDF值进行差值计算方式,目的在于通过该计算方式既可以提高计算的精确度,亦可以极大地提高检测速度。如比对库中高频词对应的句子列表可能会有很多,几万甚至几十万、几百万。如果进行普通的差值计算就需要将这些句子列表全部读出并进行一一差值计算,这样就会大大降低检测的速度,也会浪费内存空间。而如果采用上述本申请所提供的差计算值方式,在读取之间可以进行一个预判,只读取差值范围在指定阈值范围内的句子列表,这样就会大大加快检测的速度,提高检测内存的利用率。
对于第一至四步,在整个检测过程中统称为快速检测阶段,对送检文本进行拆分至段落,对段落进行分句、再分词查找文本库所形成倒排索引,使用向量相似度进行快速筛选,定位到可疑的相似文本列表。
第五步、根据上一步找到的相似文档列表,对应到数据库中读取每篇文档的元数据信息。
第六步、依据相似文档中向量相似比大小,按照阈值比例,可以选择通用精确匹配或全篇精确匹配。
通用精确匹配:遍历送检文本中每个分句读取对应句子信息文件,读取相似句子列表获得相似句子字符串,并与之进行CP&LCS计算,依据阈值选出真正的相似句子列表(也即选出一一对应的目标相似句子),并计算出CP&LCS相似比。
全篇精确匹配:如果相似文档向量相似比大于某个阈值,则认为该相似文档为送检文本原文,或是严重抄袭,则将该文档原文进行重新快速建索引,进行全文每个分句的CP&LCS操作,从而找到相似句子。
第七步、循环补齐匹配遗漏的句子。遍历送检文本每个段落,取出每个段落中所有切分句子中相似句子对应相似文章数量最多的作为补齐文本。以存在该篇的相似句子为基准,向前向后寻找指定步长或者相似句子不在该篇文本的句子,与对应相似句子的原文相应位置进行对比匹配。
如:送检文本第三个段落中,抄袭A篇文档5句,抄袭B篇文本3句,抄袭C篇文本2句,抄袭D篇文档1句,则该段落就会以A篇文本为单位进行补齐。
第八步、补充补齐,为防止有些段落中抄袭某几篇文本的概率相差不多,增加了补充补齐操作。当在上一步循环补齐操作中没有补到但依然存在相似句子的情况,则进行补充补齐(注意,补充补齐没有相似句子的情况,对于已经找到相似句子的送检句子不会在进行补齐)。
比如:送检文本第三个段落中,抄袭A篇文档5句,抄袭B篇文本3句,抄袭C篇文本2句,抄袭D篇文档1句,则该段落首先会以A篇文本为单位进行补齐,假如补齐后该段落的相似文档是A、B、C,则补充补齐就会以B、C两篇文档为基准进行补充补齐处理,但在此次补齐时不会对已有相似句子的送检句子进行补齐操作。
其中,对于循环补齐,既可以解决由于滑动切分造成没有识别的句子,亦可以尽可能让找到的相似句子尽量归到同篇文档中,减少相似片段相对分散的情况。
第九步、合并句子。
该合并中,不只是对送检文本中的句子进行合并,也需要对各目标相似句子进行合并处理。
其中,由于切分句子采用滑动切分,所以送检文本切分后的句子中存在有重叠的部分,需要将送检文本切分句子以及相似句子进行合并,避免滑动切分导致的文本内容重复。
第十步、合并段落,根据每个送检相似片段及对应的源文相似片段在原文中的位置,判断两个或多个相似片段是否可以合并成一个大的相似片段;该步骤可以规整相似片段,提升用户体验。
第十一步、生成检测结果。
根据合并结果,如果有多个相似片段时,计算每个相似片段的相似比,并计算总的各片段之和的相似比。
本申请中,通过对待检测文本进行聚类预处理,得到所述待检测文本各分句中各分词对应的相似类列表;基于所述相似类列表确定所述待检测文本中所有分句对应的相似句子列表,并对所述相似句子列表中各相似句子进行合并,得到相似片段;基于所述相似片段确定所述待检测文本与所述相似片段所属文本的相似度,实现了对文本的有效检测,提升了检测效率;并且通过采用TF_IDF值进行差值计算方式,目的在于通过该计算方式既可以提高计算的精确度,亦可以极大地提高检测速度。
基于本申请实施例所提供的文本检测方法,本申请还提供了一种文本检测装置,如图3所示,包括:
预处理单元31,用于对待检测文本进行聚类预处理,得到所述待检测文本各分句中各分词对应的相似类列表;
第一处理单元32,用于基于所述相似类列表确定所述待检测文本中所有分句对应的相似句子列表,并对所述相似句子列表中各相似句子进行合并,得到相似片段;
确定单元33,用于基于所述相似片段确定所述待检测文本与所述相似片段所属文本的相似度。
优选地,所述第一处理单元32,用于基于所述相似类列表确定各分词对应的相似句子列表;根据所述相似句子列表确定目标相似句子列表;其中,所述目标相似句子列表中的各目标相似句子与所述分句一一对应;根据所述目标相似句子列表中各目标相似句子间的关系进行合并,得到对应的相似片段。
优选地,所述第一处理单元32,具体用于基于所述相似类列表获取所述分词的字节位置;根据所述字节位置确定所述分词对应的句子列表;对所述分词与所述句子列表中各句子分别做TF_IDF差值计算,得到对应的TF_IDF值;并将大于预设阈值的TF_IDF值所对应的句子构建相似句子列表。
优选地,所述第一处理单元32,进一步用于根据所述相似句子列表中各相似句子的ID确定其所对应的相似文档;并分别计算各相似文档的向量相似比;基于所述相似文档的向量相似比确定所述分句对应的目标相似句子。
优选地,所述第一处理单元32,进一步用于基于所述目标相似句子列表中各目标相似句子间的关系确定待补充目标相似句子;将该确定的待补充目标相似句子添加到所述目标相似句子列表中;并将所述目标相似句子列表中所有目标相似句子进行合并,得到对应的相似片段。
优选地,所述第一处理单元32,还具体用于确定所述目标相似句子列表中各目标相似句子间的对应关系;获取具有对应关系的各目标相似句子的位置信息;基于任意两个具有对应关系的目标相似句子的位置信息确定对应的第一相似文本范围;并在所述第一相似文本范围中筛选出待补充目标相似句子。
优选地,还包括:
第二处理单元34,用于获取特定目标相似句子的位置信息,其中所述特定目标相似句子为与其他目标相似句子不具有对应关系的相似句子;基于所述位置信息确定所述特定目标相似句子与其在位置上相邻的目标相似句子间的第二相似文本范围;并在所述第二相似文本范围中筛选出待补充目标相似句子。
优选地,所述预处理单元31,用于对所述待检测文本进行文本切分,得到包含各分词及各分词对应的词频的词组列表;基于所述词组列表中的词频计算各分词的TF_IDF值;基于所述TF_IDF值确定所述分词的相似类列表。
优选地,所述预处理单元31,具体用于对所述待检测文本进行文本切分,得到组成所述待检测文本的各分段;并对各分段进行分句处理,得到各分句;对各分句进行拆分,得到所述词组列表。
本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述的方法。
本申请还提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述文本检测方法对应的操作。
本申请中,通过对待检测文本进行聚类预处理,得到所述待检测文本各分句中各分词对应的相似类列表;基于所述相似类列表确定所述待检测文本中所有分句对应的相似句子列表,并对所述相似句子列表中各相似句子进行合并,得到相似片段;基于所述相似片段确定所述待检测文本与所述相似片段所属文本的相似度,实现了对文本的有效检测,提升了检测效率;并且通过采用TF_IDF值进行差值计算方式,目的在于通过该计算方式既可以提高计算的精确度,亦可以极大地提高检测速度。
本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本申请公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
其中,本申请装置的各个模块可以集成于一体,也可以分离部署。上述模块可以合并为一个模块,也可以进一步拆分成多个子模块。
本领域技术人员可以理解附图只是一个优选实施例的示意图,附图中的模块或流程并不一定是实施本申请所必须的。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施例的优劣。
以上公开的仅为本申请的几个具体实施例,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (20)

1.一种文本检测方法,其特征在于,包括:
对待检测文本进行聚类预处理,得到所述待检测文本各分句中各分词对应的相似类列表;
基于所述相似类列表确定所述待检测文本中所有分句对应的相似句子列表,并对所述相似句子列表中各相似句子进行合并,得到相似片段;
基于所述相似片段确定所述待检测文本与所述相似片段所属文本的相似度。
2.如权利要求1所述的方法,其特征在于,所述基于所述相似类列表确定所述待检测文本中所有分句对应的相似句子列表,并对所述相似句子列表中各相似句子进行合并,得到相似片段,包括:
基于所述相似类列表确定各分词对应的相似句子列表;
根据所述相似句子列表确定目标相似句子列表;其中,所述目标相似句子列表中的各目标相似句子与各分句一一对应;
根据所述目标相似句子列表中各目标相似句子间的关系进行合并,得到对应的相似片段。
3.如权利要求2所述的方法,其特征在于,所述基于所述相似类列表确定各分词对应的相似句子列表,包括:
基于所述相似类列表获取所述相似类列表对应分词在倒排中的字节位置;
根据所述字节位置确定所述分词对应的句子列表;
对所述分词与所述句子列表中各句子分别做TF_IDF差值计算,得到对应的TF_IDF值;
并根据大于预设阈值的TF_IDF值所对应的句子构建相似句子列表。
4.如权利要求2或3所述的方法,其特征在于,所述根据所述相似句子列表确定目标相似句子列表,包括:
根据所述相似句子列表中各相似句子的ID确定各相似句子所对应的相似文档;
并分别计算各相似文档的向量相似比;
基于所述向量相似比确定各分句分别对应的目标相似句子。
5.如权利要求2-4中任一项所述的方法,其特征在于,所述根据所述目标相似句子列表中各目标相似句子间的关系进行合并,得到对应的相似片段,包括:
基于所述目标相似句子列表中各目标相似句子间的关系确定待补充目标相似句子;
将该确定的待补充目标相似句子添加到所述目标相似句子列表中;
并将所述目标相似句子列表中的目标相似句子与待补充目标相似句子进行合并,得到对应的相似片段。
6.如权利要求5所述的方法,其特征在于,所述基于所述目标相似句子列表中各目标相似句子间的关系确定待补充目标相似句子,包括:
确定所述目标相似句子列表中各目标相似句子间的对应关系;
获取具有对应关系的各目标相似句子的位置信息;
基于任意两个具有对应关系的目标相似句子的位置信息确定对应的第一相似文本范围;
并在所述第一相似文本范围中筛选出待补充目标相似句子。
7.如权利要求6所述的方法,其特征在于,还包括:
获取特定目标相似句子的位置信息,其中,所述特定目标相似句子为与其他目标相似句子不具有对应关系的句子;
基于所述位置信息确定所述特定目标相似句子与其在位置上相邻的目标相似句子间的第二相似文本范围;
并在所述第二相似文本范围中筛选出待补充目标相似句子。
8.如权利要求1-7中任一项所述的方法,其特征在于,所述对待检测文本进行聚类预处理,得到所述待检测文本各分句中各分词对应的相似类列表,包括:
对所述待检测文本进行文本切分,得到包含各分词及各分词对应的词频的词组列表;
基于所述词组列表中的词频计算各分词的TF_IDF值;
基于所述TF_IDF值确定所述分词的相似类列表。
9.如权利要求8所述的方法,其特征在于,所述对所述待检测文本进行文本切分,得到词组列表,包括:
对所述待检测文本进行文本切分,得到组成所述待检测文本的各分段;
并对各分段进行分句处理,得到各分句;
对各分句进行拆分,得到所述词组列表。
10.一种文本检测装置,其特征在于,包括:
预处理单元,用于对待检测文本进行聚类预处理,得到所述待检测文本各分句中各分词对应的相似类列表;
第一处理单元,用于基于所述相似类列表确定所述待检测文本中所有分句对应的相似句子列表,并对所述相似句子列表中各相似句子进行合并,得到相似片段;
确定单元,用于基于所述相似片段确定所述待检测文本与所述相似片段所属文本的相似度。
11.如权利要求10所述的装置,其特征在于,所述第一处理单元,用于基于所述相似类列表确定各分词对应的相似句子列表;根据所述相似句子列表确定目标相似句子列表;其中,所述目标相似句子列表中的各目标相似句子与各分句一一对应;根据所述目标相似句子列表中各目标相似句子间的关系进行合并,得到对应的相似片段。
12.如权利要求11所述的装置,其特征在于,所述第一处理单元,具体用于基于所述相似类列表获取所述相似类列表对应分词在倒排中的字节位置;根据所述字节位置确定所述分词对应的句子列表;对所述分词与所述句子列表中各句子分别做TF_IDF差值计算,得到对应的TF_IDF值;并根据大于预设阈值的TF_IDF值所对应的句子构建相似句子列表。
13.如权利要求11或12所述的装置,其特征在于,所述第一处理单元,进一步用于根据所述相似句子列表中各相似句子的ID确定各相似句子所对应的相似文档;并分别计算各相似文档的向量相似比;基于所述相似文档的向量相似比确定各分句分别对应的目标相似句子。
14.如权利要求11-13中任一项所述的装置,其特征在于,所述第一处理单元,进一步用于基于所述目标相似句子列表中各目标相似句子间的关系确定待补充目标相似句子;将该确定的待补充目标相似句子添加到所述目标相似句子列表中;并将所述目标相似句子列表中的目标相似句子与待补充目标相似句子进行合并,得到对应的相似片段。
15.如权利要求14所述的装置,其特征在于,所述第一处理单元,还具体用于确定所述目标相似句子列表中各目标相似句子间的对应关系;获取具有对应关系的各目标相似句子的位置信息;基于任意两个具有对应关系的目标相似句子的位置信息确定对应的第一相似文本范围;并在所述第一相似文本范围中筛选出待补充目标相似句子。
16.如权利要求15所述的方法,其特征在于,还包括:
第二处理单元,用于获取特定目标相似句子的位置信息,其中,所述特定目标相似句子为与其他目标相似句子不具有对应关系的句子;基于所述位置信息确定所述特定目标相似句子与其在位置上相邻的目标相似句子间的第二相似文本范围;并在所述第二相似文本范围中筛选出待补充目标相似句子。
17.如权利要求10-16中任一项所述的装置,其特征在于,所述预处理单元,用于对所述待检测文本进行文本切分,得到包含各分词及各分词对应的词频的词组列表;基于所述词组列表中的词频计算各分词的TF_IDF值;基于所述TF_IDF值确定所述分词的相似类列表。
18.如权利要求17所述的装置,其特征在于,所述预处理单元,具体用于对所述待检测文本进行文本切分,得到组成所述待检测文本的各分段;并对各分段进行分句处理,得到各分句;对各分句进行拆分,得到所述词组列表。
19.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现权利要求1-9中任一项所述的方法。
20.一种计算设备,其特征在于,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-9中任一项所述的文本检测方法对应的操作。
CN201810546892.3A 2018-05-31 2018-05-31 文本检测方法、装置、计算设备及计算机可读存储介质 Active CN108829780B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810546892.3A CN108829780B (zh) 2018-05-31 2018-05-31 文本检测方法、装置、计算设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810546892.3A CN108829780B (zh) 2018-05-31 2018-05-31 文本检测方法、装置、计算设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN108829780A true CN108829780A (zh) 2018-11-16
CN108829780B CN108829780B (zh) 2022-05-24

Family

ID=64145288

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810546892.3A Active CN108829780B (zh) 2018-05-31 2018-05-31 文本检测方法、装置、计算设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN108829780B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083808A (zh) * 2019-03-18 2019-08-02 平安科技(深圳)有限公司 基于用户答案的作弊判定方法、装置、设备及存储介质
CN110990539A (zh) * 2019-12-24 2020-04-10 北大方正集团有限公司 稿件内部查重方法、装置、存储介质及电子设备
CN111125313A (zh) * 2019-12-24 2020-05-08 武汉轻工大学 文本相同内容查询方法、装置、设备及存储介质
CN112182337A (zh) * 2020-10-14 2021-01-05 数库(上海)科技有限公司 从海量短新闻中识别相似新闻的方法及相关设备
CN112395385A (zh) * 2020-11-17 2021-02-23 中国平安人寿保险股份有限公司 基于人工智能的文本生成方法、装置、计算机设备及介质
CN113536759A (zh) * 2021-06-29 2021-10-22 北京清格科技有限公司 文本查重方法和装置及设备
CN113761928A (zh) * 2021-09-09 2021-12-07 深圳市大数据研究院 一种基于词频打分算法获取法律文书案件地点的方法
CN115618843A (zh) * 2022-12-19 2023-01-17 成方金融科技有限公司 文本检测方法、装置、电子设备及存储介质
CN116127942A (zh) * 2023-02-17 2023-05-16 北京思前软件有限公司 文本比对方法、装置、设备和存储介质
CN116166321A (zh) * 2023-04-26 2023-05-26 浙江鹏信信息科技股份有限公司 代码克隆检测方法、系统及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100094840A1 (en) * 2007-03-30 2010-04-15 Stuart Donnelly Method of searching text to find relevant content and presenting advertisements to users
CN102314418A (zh) * 2011-10-09 2012-01-11 北京航空航天大学 一种基于上下文关联的中文相似性比较方法
CN106250526A (zh) * 2016-08-05 2016-12-21 浪潮电子信息产业股份有限公司 一种基于内容及用户行为的文本类推荐方法和装置
CN106611041A (zh) * 2016-09-29 2017-05-03 四川用联信息技术有限公司 一种新的文本相似度求解方法
CN107015961A (zh) * 2016-01-27 2017-08-04 中文在线数字出版集团股份有限公司 一种文本相似性比对方法
CN107122340A (zh) * 2017-03-30 2017-09-01 浙江省科技信息研究院 一种基于同义词分析的科技项目申报书的相似度检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100094840A1 (en) * 2007-03-30 2010-04-15 Stuart Donnelly Method of searching text to find relevant content and presenting advertisements to users
CN102314418A (zh) * 2011-10-09 2012-01-11 北京航空航天大学 一种基于上下文关联的中文相似性比较方法
CN107015961A (zh) * 2016-01-27 2017-08-04 中文在线数字出版集团股份有限公司 一种文本相似性比对方法
CN106250526A (zh) * 2016-08-05 2016-12-21 浪潮电子信息产业股份有限公司 一种基于内容及用户行为的文本类推荐方法和装置
CN106611041A (zh) * 2016-09-29 2017-05-03 四川用联信息技术有限公司 一种新的文本相似度求解方法
CN107122340A (zh) * 2017-03-30 2017-09-01 浙江省科技信息研究院 一种基于同义词分析的科技项目申报书的相似度检测方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083808B (zh) * 2019-03-18 2024-04-02 平安科技(深圳)有限公司 基于用户答案的作弊判定方法、装置、设备及存储介质
CN110083808A (zh) * 2019-03-18 2019-08-02 平安科技(深圳)有限公司 基于用户答案的作弊判定方法、装置、设备及存储介质
CN110990539A (zh) * 2019-12-24 2020-04-10 北大方正集团有限公司 稿件内部查重方法、装置、存储介质及电子设备
CN111125313A (zh) * 2019-12-24 2020-05-08 武汉轻工大学 文本相同内容查询方法、装置、设备及存储介质
CN110990539B (zh) * 2019-12-24 2023-07-25 新方正控股发展有限责任公司 稿件内部查重方法、装置及电子设备
CN111125313B (zh) * 2019-12-24 2023-12-01 武汉轻工大学 文本相同内容查询方法、装置、设备及存储介质
CN112182337A (zh) * 2020-10-14 2021-01-05 数库(上海)科技有限公司 从海量短新闻中识别相似新闻的方法及相关设备
CN112182337B (zh) * 2020-10-14 2021-10-22 数库(上海)科技有限公司 从海量短新闻中识别相似新闻的方法及相关设备
CN112395385A (zh) * 2020-11-17 2021-02-23 中国平安人寿保险股份有限公司 基于人工智能的文本生成方法、装置、计算机设备及介质
CN112395385B (zh) * 2020-11-17 2023-07-25 中国平安人寿保险股份有限公司 基于人工智能的文本生成方法、装置、计算机设备及介质
CN113536759A (zh) * 2021-06-29 2021-10-22 北京清格科技有限公司 文本查重方法和装置及设备
CN113536759B (zh) * 2021-06-29 2024-05-07 北京清格科技有限公司 文本查重方法和装置及设备
CN113761928A (zh) * 2021-09-09 2021-12-07 深圳市大数据研究院 一种基于词频打分算法获取法律文书案件地点的方法
CN115618843A (zh) * 2022-12-19 2023-01-17 成方金融科技有限公司 文本检测方法、装置、电子设备及存储介质
CN115618843B (zh) * 2022-12-19 2023-04-28 成方金融科技有限公司 文本检测方法、装置、电子设备及存储介质
CN116127942B (zh) * 2023-02-17 2024-02-13 北京思前软件有限公司 文本比对方法、装置、设备和存储介质
CN116127942A (zh) * 2023-02-17 2023-05-16 北京思前软件有限公司 文本比对方法、装置、设备和存储介质
CN116166321B (zh) * 2023-04-26 2023-06-27 浙江鹏信信息科技股份有限公司 代码克隆检测方法、系统及计算机可读存储介质
CN116166321A (zh) * 2023-04-26 2023-05-26 浙江鹏信信息科技股份有限公司 代码克隆检测方法、系统及计算机可读存储介质

Also Published As

Publication number Publication date
CN108829780B (zh) 2022-05-24

Similar Documents

Publication Publication Date Title
CN108829780A (zh) 文本检测方法、装置、计算设备及计算机可读存储介质
US11475209B2 (en) Device, system, and method for extracting named entities from sectioned documents
US10268758B2 (en) Method and system of acquiring semantic information, keyword expansion and keyword search thereof
US8566303B2 (en) Determining word information entropies
US10002188B2 (en) Automatic prioritization of natural language text information
US20150006528A1 (en) Hierarchical data structure of documents
US9892110B2 (en) Automated discovery using textual analysis
CN103150381B (zh) 一种高精度汉语谓词识别方法
US20180060287A1 (en) Expanding input content utilizing previously-generated content
CN107357777B (zh) 提取标签信息的方法和装置
US11893537B2 (en) Linguistic analysis of seed documents and peer groups
CN111090731A (zh) 基于主题聚类的电力舆情摘要提取优化方法及系统
CN111753534B (zh) 标识文档中的序列标题
JP5373998B1 (ja) 辞書生成装置、方法、及びプログラム
CN109885641A (zh) 一种数据库中文全文检索的方法及系统
CN109902304A (zh) 信息处理方法、装置、存储介质和电子设备
CN116340617B (zh) 一种搜索推荐方法和装置
US9652526B2 (en) Text processing method, system and computer program
CN113449063B (zh) 一种构建文档结构信息检索库的方法及装置
EP3203384A1 (en) Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases
CN115495636A (zh) 网页搜索方法、装置及存储介质
Nitsche et al. Development of an end-to-end deep learning pipeline
Tryfou et al. Extraction of web image information: Semantic or visual cues?
US20090299997A1 (en) Grouping work support processing method and apparatus
JP6764973B1 (ja) 関連語辞書作成システム、関連語辞書作成方法及び関連語辞書作成プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant