CN115618843B

CN115618843B - 文本检测方法、装置、电子设备及存储介质

Info

Publication number: CN115618843B
Application number: CN202211630029.9A
Authority: CN
Inventors: 王梓凝; 郑玉玲; 王凌云; 刘兆蓬; 宋丹丹
Original assignee: Chengfang Financial Technology Co ltd
Current assignee: Chengfang Financial Technology Co ltd
Priority date: 2022-12-19
Filing date: 2022-12-19
Publication date: 2023-04-28
Anticipated expiration: 2042-12-19
Also published as: CN115618843A

Abstract

本发明涉及文本检测技术领域，提供一种文本检测方法、装置、电子设备及存储介质，其中方法包括：获取待检测文档；基于所述待检测文档的各段落文本，进行相似文本检测，得到与所述待检测文档存在相似段落的第一文档；基于所述待检测文档与所述第一文档中的共现字的共现次数，确定所述待检测文档与所述第一文档之间的文档相似度；基于所述文档相似度，从所述第一文档中选取出第二文档；基于所述待检测文档中的各语句与所述第二文档中的各语句之间的语义相似度，对所述待检测文档中的各语句进行相似文本检测，得到所述待检测文档中各语句的相似语句。本发明提供的方法、装置、电子设备及存储介质，提高了文本检测的准确性和可靠性。

Description

文本检测方法、装置、电子设备及存储介质

技术领域

本发明涉及文本检测技术领域，尤其涉及一种文本检测方法、装置、电子设备及存储介质。

背景技术

随着数据库技术的发展，越来越多的机构建立起了文档库，并将资料审核工作转移至线上系统中。

现有技术中，在资料审核过程中，最重要的一步就是查阅文档库并判断待检测文档是否涉嫌抄袭历史文档。而纸质材料时代所采用的繁琐的人工审核方式已不再实用，现今仅需依靠计算机将待检测文档与文档库中的历史文档进行一一比对即可输出文档相似结论。现有的文档相似度计算方法主要有基于哈希算法及海明距离的simhash方法。

然而，由于哈希算法的随机性，当一篇新文档被判定为与多篇历史文档同时相似时，无法给出其与哪一篇更为相似的确切结论，也无法计算出具体的文档重复率，并且，当新文档较长时，段落的抄袭也无法被检测出。

发明内容

本发明提供一种文本检测方法、装置、电子设备及存储介质，用以解决现有技术中当一篇新文档被判定为与多篇历史文档同时相似时，无法给出其与哪一篇更为相似的确切结论，也无法计算出具体的文档重复率，并且，当新文档较长时，段落的抄袭也无法被检测出的缺陷。

本发明提供一种文本检测方法，包括：

获取待检测文档；

基于所述待检测文档的各段落文本，进行相似文本检测，得到与所述待检测文档存在相似段落的第一文档；

基于所述待检测文档与所述第一文档中的共现字的共现次数，确定所述待检测文档与所述第一文档之间的文档相似度；

基于所述文档相似度，从所述第一文档中选取出第二文档；

基于所述待检测文档中的各语句与所述第二文档中的各语句之间的语义相似度，对所述待检测文档中的各语句进行相似文本检测，得到所述待检测文档中各语句的相似语句。

根据本发明提供的一种文本检测方法，所述基于所述待检测文档与所述第一文档中的共现字的共现次数，确定所述待检测文档与所述第一文档之间的文档相似度，包括：

基于所述待检测文档的总字数、所述第一文档的总字数，以及所述待检测文档与所述第一文档中的共现字的共现次数，确定所述待检测文档与所述第一文档之间的文档相似度。

根据本发明提供的一种文本检测方法，所述共现字的共现次数的确定步骤，包括：

基于所述待检测文档的中的任一共现字的出现次数，以及所述第一文档中的所述任一共现字的出现次数，确定所述任一共现字的共现次数。

根据本发明提供的一种文本检测方法，所述基于所述待检测文档的各段落文本，进行相似文本检测，得到与所述待检测文档存在相似段落的第一文档，包括：

基于所述待检测文档的各段落文本中各分词的逆向文件频率，生成所述各段落文本的段落签名；

基于所述各段落文本的段落签名，进行相似文本检测，得到与所述待检测文档存在相似段落的第一文档。

根据本发明提供的一种文本检测方法，所述基于所述待检测文档的各段落文本中各分词的逆向文件频率，生成所述各段落文本的段落签名，包括：

对所述待检测文档的各段落文本中各分词进行哈希，得到所述各段落文本中各分词的词向量；

基于所述待检测文档的各段落文本中各分词的逆向文件频率，以及所述各段落文本中各分词的词向量，确定所述各段落文本的段落向量；

对所述各段落文本的段落向量进行映射，得到所述各段落文本的段落签名。

根据本发明提供的一种文本检测方法，所述基于所述待检测文档中的各语句与所述第二文档中的各语句之间的语义相似度，对所述待检测文档中的各语句进行相似文本检测，包括：

基于文本编码模型，提取所述待检测文档中的各语句的第一语义特征，以及所述第二文档中的各语句的第二语义特征；

基于所述第一语义特征和所述第二语义特征，对所述待检测文档中的各语句进行相似文本检测；

所述文本编码模型是结合掩膜预测分支进行掩膜预测训练，并结合语句关系分类分支进行语句关系分类训练得到的；

所述掩膜预测训练是以携带掩膜的第一样本文本为样本，以预测所述第一样本文本中的掩膜部分为任务执行的，所述语句关系分类训练是以第二样本文本为样本，对所述第二样本文本中的语句关系进行分类为任务执行的。

根据本发明提供的一种文本检测方法，所述文本编码模型的训练步骤包括：

确定第一模型，所述第一模型包括第一编码器，以及分别与所述第一编码器连接的第一掩膜预测分支和第一语句关系分类分支；

基于所述第一编码器和所述第一掩膜预测分支，确定所述第一样本文本的掩膜预测结果；

基于所述第一编码器和所述第一语句关系分类分支，确定所述第二样本文本的语句关系分类预测结果；

基于所述掩膜预测结果和所述第一样本文本的掩膜部分，以及所述语句关系分类预测结果和所述第二样本文本的语句关系分类标签，对所述第一模型进行参数迭代，并基于参数迭代后的第一编码器，确定所述文本编码模型。

本发明还提供一种文本检测装置，包括：

获取单元，用于获取待检测文档；

段落检测单元，用于基于所述待检测文档的各段落文本，进行相似文本检测，得到与所述待检测文档存在相似段落的第一文档；

确定文档相似度单元，用于基于所述待检测文档与所述第一文档中的共现字的共现次数，确定所述待检测文档与所述第一文档之间的文档相似度；

选取单元，用于基于所述文档相似度，从所述第一文档中选取出第二文档；

文本检测单元，用于基于所述待检测文档中的各语句与所述第二文档中的各语句之间的语义相似度，对所述待检测文档中的各语句进行相似文本检测，得到所述待检测文档中各语句的相似语句。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述文本检测方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述文本检测方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述文本检测方法。

本发明提供的文本检测方法、装置、电子设备及存储介质，基于待检测文档的各段落文本，进行相似文本的初筛，再基于待检测文档与第一文档之间的文档相似度进行相似文本的二次筛选，由此，可以保证从第一文档中选取出的第二文档的准确性和可靠性，并且，基于文档相似度，可以确定哪个文档与待检测文档更为相似，并给出具体的文档重复率，并且待检测文档中各语句的相似语句可以逐句展示，提高了用户参考的便捷性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的文本检测方法的流程示意图之一；

图2是本发明提供的文本检测方法中步骤120的流程示意图；

图3是本发明提供的文本检测方法中步骤121的流程示意图；

图4是本发明提供的文本检测方法中步骤150的流程示意图；

图5是本发明提供的文本检测方法的流程示意图之二；

图6是本发明提供的文本检测装置的结构示意图；

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类。

相关技术中，现有的文档相似度计算方法主要有基于哈希算法及海明距离的simhash方法。基于哈希算法及海明距离的simhash方法的具体处理过程为：首先，对文档内容进行分词处理；其次，对分词处理后的各个特征词进行权重计算，并将特征词通过哈希函数映射为64位one-hot向量；再次，将文档中所有特征词对应的one-hot向量根据权重进行整合，生成64位文档签名；然后，将文档签名进行分块，并分块存储；最后，选取需对比的两个文档的64位签名进行海明距离计算，将海明距离小于初始设定阈值的文档判定为待检测文档的相似文档。

然而，由于哈希算法的随机性，当一篇新文档被判定为与多篇历史文档同时相似时，无法给出其与哪一篇更为相似的确切结论，也无法计算出具体的文档重复率，并且，当新文档较长时，段落的抄袭无法被检出。另外，当文档库规模较大时，也有较小概率使完全不相关的两篇文档生成出十分相近的签名，导致其被误判为相似文档。并且，此方法也无法为使用者展示文档相似或重复的部分，以供使用者后续参考并对文档进行修改。

针对上述问题，本发明提供一种文本检测方法，图1是本发明提供的文本检测方法的流程示意图之一，如图1所示，该方法包括：

步骤110，获取待检测文档。

具体地，可以获取待检测文档，此处的待检测文档即后续需要进行文本检测的文档，待检测文档可以是用户直接输入的文本形成的文档，也可以是将采集所得的音频进行语音转写后得到的文本形成的文档，还可以是通过扫描仪、手机、相机等图像采集设备采集得到图像，并对图像进行OCR（Optical Character Recognition，光学字符识别）得到的文本形成的文档，本发明实施例对此不作具体限定。

步骤120，基于所述待检测文档的各段落文本，进行相似文本检测，得到与所述待检测文档存在相似段落的第一文档。

具体地，在获取到待检测文档后，可以基于待检测文档的各段落文本，进行相似文本检测，得到与待检测文档存在相似段落的第一文档。此处的待检测文档的各段落文本是指待检测文档中各个段落的文本，例如，在获取到待检测文档后，若有分段模板，可以根据分段模板去除待检测文档中的模板内容，若无分段模板，可以自动将待检测文档中的200字分为一个段落，也可以自动将待检测文档中的400字分为一个段落，还可以将待检测文档中的600字分为一个段落等，本发明实施例对此不作具体限定。

由此，可以得到待检测文档的各段落文本，在得到待检测文档的各段落文本后，可以直接进行相似文本检测，也可以在对待检测文档的各段落文本进行分词，去除停用词后，再进行相似文本检测。此处的相似文本检测是指将待检测文档的各段落文本与历史文档库中的历史文档的各段落文本，进行相似文本检测。

例如，可以基于待检测文档的各段落签名与历史文档库中的历史文档的各段落签名，进行相似文本检测。

在进行相似文本检测后，可以得到与待检测文档存在相似段落的第一文档。此处的第一文档是指在历史文档库中的历史文档中，与待检测文档存在相似段落的文档，第一文档可以是多个，也可以是一个，本发明实施例对此不作具体限定。

可以理解的是，基于待检测文档的各段落文本，进行相似文本检测，相较于传统的基于整篇文档进行相似文本检测的粒度更细，更易于发现短篇幅文档的抄袭情况。

步骤130，基于所述待检测文档与所述第一文档中的共现字的共现次数，确定所述待检测文档与所述第一文档之间的文档相似度。

具体地，在得到与待检测文档存在相似段落的第一文档后，可以基于待检测文档与第一文档中的共现字的共现次数，确定待检测文档与第一文档之间的文档相似度。此处的共现字是指在待检测文档与第一文档中都出现的字符，共现字的共现次数是指在待检测文档与第一文档中都出现的字符的出现次数，共现字的共现次数可以是待检测文档中共现字的出现次数，也可以是第一文档中共现字的出现次数，还可以是基于待检测文档中共现字的出现次数与第一文档中同一共现字的出现次数确定的共现次数，本发明实施例对此不作具体限定。

此处，可以基于Jaccard（Jaccard similarity coefficient）算法，确定待检测文档与第一文档之间的文档相似度。

可以理解的是，待检测文档与第一文档之间的文档相似度越大，待检测文档与第一文档的差异越小；待检测文档与第一文档之间的文档相似度越小，待检测文档与第一文档的差异越大。

此外，若待检测文档与第一文档之间的文档相似度很小，则待检测文档误判为与第一文档相似；否则，可以将待检测文档与第一文档之间的文档相似度转化为百分比的形式输出。

步骤140，基于所述文档相似度，从所述第一文档中选取出第二文档。

具体地，在确定待检测文档与第一文档之间的文档相似度后，可以基于文档相似度，从第一文档中选取出第二文档。此处的第二文档是与待检测文档极为相似的文档，可以是一个，也可以是多个，本发明实施例对此不作具体限定。

步骤150，基于所述待检测文档中的各语句与所述第二文档中的各语句之间的语义相似度，对所述待检测文档中的各语句进行相似文本检测，得到所述待检测文档中各语句的相似语句。

具体地，在从第一文档中选取出第二文档后，可以基于待检测文档中的各语句与第二文档中的各语句之间的语义相似度，对待检测文档中的各语句进行相似文本检测。

例如，可以提取待检测文档中的各语句的语义特征，并提取第二文档中的各语句的语义特征，再基于待检测文档中的各语句的语义特征与第二文档中的各语句的语义特征，对待检测文档中的各语句进行相似文本检测。

此处，可以基于文本编码模型，提取待检测文档中的各语句的语义特征，可以基于文本编码模型，提取第二文档中的各语句的语义特征，此处的文本编码模型可以是BERT（Bidirectional Encoder Representations from Transformer）模型，也可以是级联结构的多层CNN（Convolutional Neural Network，卷积神经网络），还可以是CNN和DNN（DeepNeural Networks，深度神经网络）的组合结构等，本发明实施例对此不作具体限定。

此处的语义相似度可以是计算待检测文档中的各语句的语义特征与第二文档中的各语句的语义特征之间的余弦相似度得到，也可以是计算待检测文档中的各语句的语义特征与第二文档中的各语句的语义特征之间的Pearson相关系数得到，本发明实施例对此不作具体限定。

例如，待检测文档中的各语句的语义特征为，第二文档中的各语句的语义特征为，则待检测文档中的各语句的语义特征与第二文档中的各语句的语义特征之间的余弦相似度的公式为：

此处的相似文本检测是指将待检测文档中的各语句与第二文档中的各语句，进行相似文本检测。

在对待检测文档中的各语句进行相似文本检测后，可以得到待检测文档中各语句的相似语句，此处的相似语句是与第二文档中的语句相似的语句。此外，还可以逐句展示待检测文档中的各语句的相似语句，为用户提供参考，提高了用户参考的便捷性。

例如，第二文档中的语句为：“随着科学技术的快速发展，机器学习算法得到了快速的发展”，待检测文档中的语句为：“随着社会的进步，机器学习算法得到了快速的发展”，此时，第二文档中的语句“随着科学技术的快速发展，机器学习算法得到了快速的发展”为待检测文档中语句“随着社会的进步，机器学习算法得到了快速的发展”的相似语句。

本发明实施例提供的方法，基于待检测文档的各段落文本，进行相似文本的初筛，再基于待检测文档与第一文档之间的文档相似度进行相似文本的二次筛选，由此，可以保证从第一文档中选取出的第二文档的准确性和可靠性，并且，基于文档相似度，可以确定哪个文档与待检测文档更为相似，并给出具体的文档重复率，并且待检测文档中各语句的相似语句可以逐句展示，提高了用户参考的便捷性。

相关技术中，通常是基于Jaccard算法，确定待检测文档与第一文档之间的文档相似度，然而，Jaccard算法把一篇文档看作一个集合，无论某一个共现字出现多少次，都会将该共现字的出现次数计为1次，对于例如“计算两篇相似文档的文档相似程度”与“计算两篇程度相似的两篇计算文档”，由于各语句中共现字的词频并不相同，无法认定其为“计算两篇相似文档的文档相似程度”与“计算两篇程度相似的两篇计算文档”100%相似。针对这一问题，本发明实施例对Jaccard算法进行了改进。

基于上述实施例，步骤130包括：

具体地，在得到与待检测文档存在相似段落的第一文档后，可以基于待检测文档的总字数、第一文档的总字数，以及待检测文档与第一文档中的共现字的共现次数，确定待检测文档与第一文档之间的文档相似度，其中，文档相似度的公式如下：

其中，为待检测文档，为第一文档，为待检测文档的总字数，为第一文档的总字数，是指在待检测文档与第一文档中都出现的字符的出现次数。

本发明实施例提供的方法，基于待检测文档的总字数、第一文档的总字数，以及待检测文档与第一文档中的共现字的共现次数，确定待检测文档与第一文档之间的文档相似度，提高了文档相似度确定的准确性和可靠性。

基于上述实施例，所述共现字的共现次数的确定步骤，包括：

具体地，可以基于待检测文档的中的任一共现字的出现次数，以及第一文档中的任一共现字的出现次数，确定任一共现字的共现次数，其中，任一共现字的共现次数的公式如下：

其中，为待检测文档，为第一文档。

本发明实施例提供的方法，基于待检测文档的中的任一共现字的出现次数，以及第一文档中的任一共现字的出现次数，确定任一共现字的共现次数，提高了共现字的共现次数的准确性，从而提高了后续确定待检测文档与第一文档之间的文档相似度的准确性和可靠性。

基于上述实施例，图2是本发明提供的文本检测方法中步骤120的流程示意图，如图2所示，步骤120包括：

步骤121，基于所述待检测文档的各段落文本中各分词的逆向文件频率，生成所述各段落文本的段落签名；

步骤122，基于所述各段落文本的段落签名，进行相似文本检测，得到与所述待检测文档存在相似段落的第一文档。

具体地，在得到待检测文档的各段落文本后，可以对待检测文档的各段落文本进行分词，去除停用词，得到待检测文档的各段落文本中的各分词，再基于待检测文档的各段落文本中各分词的逆向文件频率（Inverse Document Frequency， IDF），生成各段落文本的段落签名。此处的各段落文本的段落签名是指各段落文本的Simhash签名。

其中，分词的逆向文件频率的公式如下：

在得到各段落文本的段落签名后，可以基于各段落文本的段落签名，进行相似文本检测，得到与待检测文档存在相似段落的第一文档。

例如，可以基于各段落文本的段落签名与历史文档库中的历史文档的各段落签名之间的海明距离（Hamming distance），进行相似文本检测，得到与待检测文档存在相似段落的第一文档。

此处，历史文档库中的历史文档的各段落签名可以是预先对历史文档库中的历史文档的各段落文本中各分词进行哈希，再对哈希后的各分词向量进行加权得到段落向量，并对历史文档库中的历史文档的各段落文本的段落向量进行映射得到的。

各段落文本的段落签名为，历史文档库中的历史文档的各段落签名为，则各段落文本的段落签名与历史文档库中的历史文档的各段落签名之间的海明距离为：

其中，表示对和进行异或运算，即海明距离计算的是和两个one-hot向量中编码不同的位数。

可以理解的是，各段落文本的段落签名与历史文档库中的历史文档的各段落签名之间的海明距离越大，各段落文本与历史文档库中的历史文档的各段落文本的差异越大；各段落文本的段落签名与历史文档库中的历史文档的各段落签名之间的海明距离越小，各段落文本与历史文档库中的历史文档的各段落文本的差异越小。

例如，当各段落文本的段落签名与历史文档库中的历史文档的段落签名之间的海明距离小于阈值m，则将该历史文档确定为与待检测文档存在相似段落的第一文档，否则，继续计算各段落文本的段落签名与历史文档库中的历史文档的下一段落签名的海明距离，依次类推，此处不再赘述。

基于上述实施例，图3是本发明提供的文本检测方法中步骤121的流程示意图，如图3所示，步骤121包括：

步骤310，对所述待检测文档的各段落文本中各分词进行哈希，得到所述各段落文本中各分词的词向量；

步骤320，基于所述待检测文档的各段落文本中各分词的逆向文件频率，以及所述各段落文本中各分词的词向量，确定所述各段落文本的段落向量；

步骤330，对所述各段落文本的段落向量进行映射，得到所述各段落文本的段落签名。

具体地，可以对待检测文档的各段落文本中各分词进行哈希，得到各段落文本中各分词的词向量，此处对待检测文档的各段落文本中各分词进行哈希可以使用MD5（Message-digest Algorithm5）算法，也可以使用SHA-1（Secure Hash Algorithm 1）算法，还可以使用SHA-256算法，本发明实施例对此不作具体限定。

此处的各段落文本中各分词的词向量的位数可以是64位，也可以是32位，还可以是16位，本发明实施例对此不作具体限定。

在得到各段落文本中各分词的词向量后，可以基于待检测文档的各段落文本中各分词的逆向文件频率，以及各段落文本中各分词的词向量，确定各段落文本的段落向量。

可以将待检测文档的各段落文本中各分词的逆向文件频率作为权重因素，在各段落文本中各分词的词向量中加入权重因素，即将待检测文档的各段落文本中各分词的逆向文件频率与各段落文本中各分词的词向量相乘，各段落文本中各分词的词向量中原本为1的位置映射为，原本为0的位置映射为，再将各段落文本中各分词的词向量的对应位置全部相加，得到各段落文本的段落向量。相应地，各段落文本的段落向量的位数可以是64位，也可以是32位，还可以是16位，本发明实施例对此不作具体限定。

在得到各段落文本的段落向量后，可以对各段落文本的段落向量进行映射，得到各段落文本的段落签名。

例如，各段落文本中一个分词的词向量为01100101，另一个分词的词向量为10100100，在各段落文本中各分词的词向量中加入权重因素后分别为-111-1-11-11，2-22-2-22-2-2。再将各段落文本中各分词的词向量的对应位置全部相加，得到各段落文本的段落向量为1-13-3-33-3-1，然后，可以对各段落文本的段落向量进行映射，即将段落向量中大于0的位置映射为1，段落向量中小于0的位置映射为0，得到10100100的段落签名。

基于上述实施例，图4是本发明提供的文本检测方法中步骤150的流程示意图，如图4所示，步骤150包括：

步骤151，基于文本编码模型，提取所述待检测文档中的各语句的第一语义特征，以及所述第二文档中的各语句的第二语义特征；

步骤152，基于所述第一语义特征和所述第二语义特征，对所述待检测文档中的各语句进行相似文本检测；

具体地，在针对文本编码模型进行训练时，本发明实施例采用了包括掩膜预测和语句关系分类训练在内的多任务学习的方式。此处的语句关系分类训练是指训练判断该语句是否为当前语句的下一句的能力。

此处，多任务学习至少包括掩膜预测任务和语句关系分类训练任务。掩膜预测训练是以携带掩膜的第一样本文本为样本，以预测第一样本文本中的掩膜部分为任务执行的，语句关系分类训练是以第二样本文本为样本，对第二样本文本中的语句关系进行分类为任务执行的。

具体在多任务学习过程中，可以预先收集携带掩膜的第一样本文本和第二样本文本，随后，可以将携带掩膜的第一样本文本作为第一模型的输入，以获取第一模型对第一样本文本的掩膜预测结果，并根据第一样本文本的掩膜预测结果和第一样本文本的掩膜部分之间的差异，对第一模型进行参数迭代，从而使得第一模型能够学习到针对各种自然语言处理任务的普适性的文本相关的特征，具备对于文本语义的理解能力。此外，还可以将第二样本文本作为第一模型的输入，以获取第一模型对第二样本文本的语句关系分类预测结果，并根据第二样本文本的语句关系分类预测结果与第二样本文本的语句关系分类标签之间的差异，对第一模型进行参数迭代，从而使得第一模型能够学习到预测该语句的下一语句的能力。

基于上述掩膜预测和语句关系分类两个任务训练完成的第一模型中的编码部分，即文本编码模型。

此处的第一样本文本和第二样本文本可以相同，也可以不同，第一样本文本所携带的掩膜用于遮盖第一样本文本中的某一个或者多个分词，第二样本文本的语句关系分类标签，用于表示第二样本文本的其中一语句是否为另一语句的下一句。

可以理解的是，在文本编码模型的多任务学习过程中，掩膜预测和语句关系分类可以是并行的，也可以是文本编码模型先学习到对于文本语义的理解能力后，再学习语句关系分类能力。由此训练得到的文本编码模型，本身具备优秀的语义理解能力，在此基础上进行语句关系分类，能够提取得到不同表达形式下的文本所涵盖的语义并据此进行语句关系分类，因此，极大程度提高了语句关系分类的准确性和可靠性。

然后，可以基于文本编码模型，提取待检测文档中的各语句的第一语义特征，以及第二文档中的各语句的第二语义特征，此处的第一语义特征和第二语义特征反映了语义层面的特征信息。

基于第一语义特征和第二语义特征，对待检测文档中的各语句进行相似文本检测，提高了相似文本检测的准确性和可靠性。

本发明实施例提供的方法，文本编码模型是结合掩膜预测分支进行掩膜预测训练，并结合语句关系分类分支进行语句关系分类训练得到的，基于文本编码模型，提取待检测文档中的各语句的第一语义特征，以及第二文档中的各语句的第二语义特征，提高了后续相似文本检测的准确性和可靠性。

基于上述实施例，所述文本编码模型的训练步骤包括：

具体地，第一模型包括第一编码器，以及分别与第一编码器连接的第一掩膜预测分支和第一语句关系分类分支，此处的第一编码器可以是BERT或者m-BERT等在语义理解等任务上具有突出表现的自然语言处理的预训练模型。此处的第一模型的参数可以是随机生成的，也可以是预先设置的。

在第一模型的训练过程中，可以将第一样本文本输入第一编码器中，由第一编码器对第一样本文本进行语义理解，得到并输出第一样本文本的样本语义特征。

随即，可以将样本语义特征输入第一掩膜预测分支，由第一掩膜预测分支对样本语义特征进行掩膜预测，得到并输出第一样本文本的掩膜预测结果，此处的第一掩膜预测分支可以包括掩码语言模型(Masked Language Model，MLM)，也可以包括注意力（Attention）模型等，本发明实施例对此不作具体限定。

例如，第一样本文本为“A quick brown fox jumps over the lazy dog”，随机掩膜后的文本为“A quick [MASK] fox jumps over the [MASK] dog”，预期掩膜预测分支可以预测出[MASK]部分的单词。

此外，也可以将样本语义特征输入第一语句关系分类分支，由第一语句关系分类分支对样本语义特征进行语句关系分类，得到并输出第二样本文本的语句关系分类预测结果。此处的第一语句关系分类分支用于输出第二样本文本中的第二个句子是否是第二样本文本中的第一个句子的后续句子，第一语句关系分类分支可以包括NSP（Next SentencePrediction)模型。

在得到第一编码器和第一掩膜预测分支输出的第一样本文本的掩膜预测结果，以及第一编码器和第一语句关系分类分支输出的第二样本文本的语句关系分类预测结果之后，可以基于掩膜预测结果以及第一样本文本的掩膜部分，确定第一损失函数，第一损失函数用于反映掩膜预测结果和第一样本文本的掩膜部分之间的差异，并且可以基于第二样本文本的语句关系分类预测结果和第二样本文本的语句关系分类标签，确定第二损失函数，第二损失函数用于反映第二样本文本的语句关系分类预测结果和第二样本文本的语句关系分类标签之间的差异，然后，可以基于第一损失函数对第一编码器和第一掩膜预测分支进行参数迭代，并基于第二损失函数对第一编码器和第一语句关系分类分支进行参数迭代，并基于参数迭代后的第一编码器，确定文本编码模型。

基于上述任一实施例，本发明提供一种文本检测方法，图5是本发明提供的文本检测方法的流程示意图之二，如图5所示，该方法包括：

步骤510，可以获取待检测文档。

步骤520，可以对待检测文档的各段落文本中各分词进行哈希，得到各段落文本中各分词的词向量。

步骤530，基于待检测文档的各段落文本中各分词的逆向文件频率，以及各段落文本中各分词的词向量，确定各段落文本的段落向量。

步骤540，对各段落文本的段落向量进行映射，得到各段落文本的段落签名，再基于各段落文本的段落签名，进行相似文本检测，得到与待检测文档存在相似段落的第一文档。

步骤550，可以基于待检测文档的总字数、第一文档的总字数，以及待检测文档与第一文档中的共现字的共现次数，确定待检测文档与第一文档之间的文档相似度。

其中，共现字的共现次数的确定步骤，包括：

基于待检测文档的中的任一共现字的出现次数，以及第一文档中的任一共现字的出现次数，确定任一共现字的共现次数。

步骤560，可以基于文档相似度，从第一文档中选取出第二文档。

步骤570，可以基于待检测文档中的各语句与第二文档中的各语句之间的语义相似度，对待检测文档中的各语句进行相似文本检测，得到待检测文档中各语句的相似语句。

下面对本发明提供的文本检测装置进行描述，下文描述的文本检测装置与上文描述的文本检测方法可相互对应参照。

基于上述任一实施例，本发明提供一种文本检测装置，图6是本发明提供的文本检测装置的结构示意图，如图6所示，该装置包括：

获取单元610，用于获取待检测文档；

段落检测单元620，用于基于所述待检测文档的各段落文本，进行相似文本检测，得到与所述待检测文档存在相似段落的第一文档；

确定文档相似度单元630，用于基于所述待检测文档与所述第一文档中的共现字的共现次数，确定所述待检测文档与所述第一文档之间的文档相似度；

选取单元640，用于基于所述文档相似度，从所述第一文档中选取出第二文档；

文本检测单元650，用于基于所述待检测文档中的各语句与所述第二文档中的各语句之间的语义相似度，对所述待检测文档中的各语句进行相似文本检测，得到所述待检测文档中各语句的相似语句。

本发明实施例提供的装置，基于待检测文档的各段落文本，进行相似文本的初筛，再基于待检测文档与第一文档之间的文档相似度进行相似文本的二次筛选，由此，可以保证从第一文档中选取出的第二文档的准确性和可靠性，并且，基于文档相似度，可以确定哪个文档与待检测文档更为相似，并给出具体的文档重复率，并且待检测文档中各语句的相似语句可以逐句展示，提高了用户参考的便捷性。

基于上述任一实施例，确定文档相似度单元具体用于：

基于上述任一实施例，所述共现字的共现次数的确定步骤，包括：

基于上述任一实施例，段落检测单元具体包括：

生成段落签名单元，用于基于所述待检测文档的各段落文本中各分词的逆向文件频率，生成所述各段落文本的段落签名；

确定第一文档单元，用于基于所述各段落文本的段落签名，进行相似文本检测，得到与所述待检测文档存在相似段落的第一文档。

基于上述任一实施例，生成段落签名单元具体用于：

基于上述任一实施例，文本检测单元具体包括：

基于上述任一实施例，所述文本编码模型的训练步骤包括：

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器（processor）710、通信接口（Communications Interface）720、存储器（memory）730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行文本检测方法，该方法包括：获取待检测文档；基于所述待检测文档的各段落文本，进行相似文本检测，得到与所述待检测文档存在相似段落的第一文档；基于所述待检测文档与所述第一文档中的共现字的共现次数，确定所述待检测文档与所述第一文档之间的文档相似度；基于所述文档相似度，从所述第一文档中选取出第二文档；基于所述待检测文档中的各语句与所述第二文档中的各语句之间的语义相似度，对所述待检测文档中的各语句进行相似文本检测，得到所述待检测文档中各语句的相似语句。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的文本检测方法，该方法包括：获取待检测文档；基于所述待检测文档的各段落文本，进行相似文本检测，得到与所述待检测文档存在相似段落的第一文档；基于所述待检测文档与所述第一文档中的共现字的共现次数，确定所述待检测文档与所述第一文档之间的文档相似度；基于所述文档相似度，从所述第一文档中选取出第二文档；基于所述待检测文档中的各语句与所述第二文档中的各语句之间的语义相似度，对所述待检测文档中的各语句进行相似文本检测，得到所述待检测文档中各语句的相似语句。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的文本检测方法，该方法包括：获取待检测文档；基于所述待检测文档的各段落文本，进行相似文本检测，得到与所述待检测文档存在相似段落的第一文档；基于所述待检测文档与所述第一文档中的共现字的共现次数，确定所述待检测文档与所述第一文档之间的文档相似度；基于所述文档相似度，从所述第一文档中选取出第二文档；基于所述待检测文档中的各语句与所述第二文档中的各语句之间的语义相似度，对所述待检测文档中的各语句进行相似文本检测，得到所述待检测文档中各语句的相似语句。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文本检测方法，其特征在于，包括：

获取待检测文档；

基于所述待检测文档的各段落文本，进行相似文本检测，得到与所述待检测文档存在相似段落的第一文档；所述相似文本检测使用Simhash算法；

基于所述文档相似度，从所述第一文档中选取出第二文档；

基于所述待检测文档中的各语句与所述第二文档中的各语句之间的语义相似度，对所述待检测文档中的各语句进行相似文本检测，得到所述待检测文档中各语句的相似语句；

所述文档相似度的公式如下：

；

其中，A为待检测文档，B为第一文档，为待检测文档的总字数，为第一文档的总字数，是指在待检测文档与第一文档中都出现的字符的出现次数；

所述共现次数的公式如下：

；

其中，A为待检测文档，B为第一文档；

所述基于所述待检测文档与所述第一文档中的共现字的共现次数，确定所述待检测文档与所述第一文档之间的文档相似度，包括：

基于所述待检测文档的总字数、所述第一文档的总字数，以及所述待检测文档与所述第一文档中的共现字的共现次数，确定所述待检测文档与所述第一文档之间的文档相似度；

所述基于所述待检测文档的各段落文本，进行相似文本检测，得到与所述待检测文档存在相似段落的第一文档，包括：

基于所述各段落文本的段落签名，进行相似文本检测，得到与所述待检测文档存在相似段落的第一文档；所述基于所述待检测文档的各段落文本中各分词的逆向文件频率，生成所述各段落文本的段落签名，包括：

2.根据权利要求1所述的文本检测方法，其特征在于，所述共现字的共现次数的确定步骤，包括：

3.根据权利要求1所述的文本检测方法，其特征在于，所述基于所述待检测文档中的各语句与所述第二文档中的各语句之间的语义相似度，对所述待检测文档中的各语句进行相似文本检测，包括：

4.根据权利要求3所述的文本检测方法，其特征在于，所述文本编码模型的训练步骤包括：

5.一种文本检测装置，其特征在于，包括：

获取单元，用于获取待检测文档；

段落检测单元，用于基于所述待检测文档的各段落文本，进行相似文本检测，得到与所述待检测文档存在相似段落的第一文档；所述相似文本检测使用Simhash算法；

文本检测单元，用于基于所述待检测文档中的各语句与所述第二文档中的各语句之间的语义相似度，对所述待检测文档中的各语句进行相似文本检测，得到所述待检测文档中各语句的相似语句；

所述文档相似度的公式如下：

；

所述共现次数的公式如下：

；

其中，A为待检测文档，B为第一文档；

基于所述各段落文本的段落签名，进行相似文本检测，得到与所述待检测文档存在相似段落的第一文档；

所述基于所述待检测文档的各段落文本中各分词的逆向文件频率，生成所述各段落文本的段落签名，包括：

6.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述文本检测方法。

7.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述文本检测方法。