CN109783778A

CN109783778A - 文本溯源方法、设备及存储介质

Info

Publication number: CN109783778A
Application number: CN201811577909.8A
Authority: CN
Inventors: 孔庆超; 白洁; 王磊; 曹家; 彭鑫; 汪小东; 罗引; 赵菲菲; 张西娜
Original assignee: Beijing Zhongke Song Polytron Technologies Inc
Current assignee: Beijing Zhongke Song Polytron Technologies Inc
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2019-05-21
Anticipated expiration: 2038-12-20
Also published as: CN109783778B

Abstract

本发明实施例涉及一种文本溯源方法、设备及存储介质，所述方法包括：根据待判定文本和源文本生成词袋模型，所述源文本包括多个文本；利用多种预设的相似度算法，分别对所述词袋模型进行相似度计算，确定在不同相似度算法的情况下，所述源文本中多个文本与所述待判定文本的多个第一相似度排序；基于第一公式和所述第一相似度排序确定所述源文本源文本中多个文本与所述待判定文本的第二相似度排序；基于所述第二相似度排序从所述源文本中选择符合同源条件的文本作为所述待判定文本的同源文本，采用多种相似度的算法，可以弥补单一算法的不足，减少因计算方式不同带来的偶然性，提升计算结果的全面性和准确性。

Description

文本溯源方法、设备及存储介质

技术领域

本发明实施例涉及文本数据处理领域，尤其涉及一种文本溯源方法、设备及存储介质。

背景技术

文本溯源主要应用于学术诚信检测、搜索引擎优化等领域，目的在于判断一个文本的内容是否复制或改编于另一个或多个文本，是指将溯源文本与已有的多个文本进行比较，从而获得同源文本，其原理主要利用文本相似度的比对进行判断。

现有方案中，通常采用Jaccard相似度或余弦相似度比对方式进行文本溯源，Jaccard相似度是一种衡量有限样本集之间的相似性和差异性的方法，Jaccard系数定义为相比较两者的交集与并集的比值，值越大证明其相似度越高；余弦相似度通过计算向量空间中两个向量夹角的余弦值来衡量两者差异，余弦值越大，两者的相似度越高。

然而，Jaccard相似度在对同一相似词的词频反应不敏感，余弦相似度对向量方向上能做出敏感判断，但其对于数字数据无法做出敏感判断。

因此，现有文本相似度的比对方法功能相对单一，只能在某一方面做出精准判断，而无法对文本进行全方面的比对，导致最终的结果不够精准。

发明内容

本发明实施例提供了一种文本溯源方法、设备及存储介质，可以对文本进行全方面筛查，更精准地从多个文本中确定同源文本。

第一方面，本发明实施例提供一种文本溯源方法，包括：

根据待判定文本和源文本生成词袋模型，所述源文本包括多个文本；

利用多种预设的相似度算法，分别对所述词袋模型进行相似度计算，确定在不同相似度算法的情况下，所述源文本中多个文本与所述待判定文本的多个第一相似度排序；

基于第一公式和所述第一相似度排序确定所述源文本源文本中多个文本与所述待判定文本的第二相似度排序；

基于所述第二相似度排序从所述源文本中选择符合同源条件的文本作为所述待判定文本的同源文本。

在一个可能的实施方式中，所述方法，还包括：

对所述源数据集进行预处理，生成目标数据集；

其中，所述预处理至少包括以下之一：

分词、文本整合或停用词过滤。

在一个可能的实施方式中，所述多种预设的相似度算法至少包括以下之一：

Common Words算法、Jaccard相似度算法、Cosine相似度算法或SimHash相似度算法。

在一个可能的实施方式中，所述利用多种预设的相似度算法，分别对所述词袋模型进行相似度计算，确定在不同相似度算法的情况下，所述源文本中多个文本与所述待判定文本的多个第一相似度排序，包括：

基于所述词袋模型采用Common Words算法，确定共有词数量，根据所述共有词数量以及设定的阈值确定所述源文本中多个文本的第一相似度排序R1。

在一个可能的实施方式中，所述利用多种预设的相似度算法，分别对所述词袋模型进行相似度计算，确定在不同相似度算法的情况下，所述源文本中多个文本与所述待判定文本的多个第一相似度排序，还包括：

基于所述词袋模型采用Jaccard相似度算法，确定共有词数量，根据所述共有词数量和总词数的Jaccard系数确定所述源文本中多个文本的第一相似度排序R2。

基于所述词袋模型采用Cosine相似度算法，确定TF-IDF向量，根据所述TF-IDF向量确定所述源文本中多个文本的第一相似度排序R3；

基于所述词袋模型采用SimHash相似度算法，确定签名值，根据所述签名值之间的差值确定所述源文本中多个文本的第一相似度排序R4。

在一个可能的实施方式中，所述第一公式为：

其中，S为所述源文本，T为所述待判定文本，K为常数，为所述源文本的第j个排序，sc(S,T)为第二相似度排序。

第二方面，本发明实施例提供一种文本溯源设备，所述文本溯源设备包括：处理器和存储器；所述处理器用于执行所述存储器中存储的文本溯源程序，以实现上述第一方面任一所述的文本溯源方法。

第三方面，本发明实施例提供一种存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述第一方面任一所述的文本溯源方法。

本发明实施例提供的文本溯源方案，通过根据待判定文本和源文本生成词袋模型；利用多种预设的相似度算法，分别对所述词袋模型进行相似度计算，确定在不同相似度算法的情况下，所述源文本中多个文本与所述待判定文本的多个第一相似度排序；基于第一公式和所述第一相似度排序确定所述源文本源文本中多个文本与所述待判定文本的第二相似度排序；基于所述第二相似度排序从所述源文本中选择符合同源条件的文本作为所述待判定文本的同源文本，采用多种相似度的算法，可以弥补单一算法的不足，减少因计算方式不同带来的偶然性，提升计算结果的全面性和准确性。

附图说明

图1为本发明实施例提供的一种文本溯源方法流程示意图；

图2为本发明实施例涉及的在不同相似度算法的情况下，源文本中多个文本与待判定文本的多个第一相似度排序的流程示意图；

图3为本发明实施例提供的一种文本溯源装置的结构示意图；

图4为本发明实施例提供的一种文本溯源设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本发明实施例的理解，下面将结合附图以具体实施例做进一步的解释说明，实施例并不构成对本发明实施例的限定。

图1为本发明实施例提供的一种文本溯源方法流程示意图，如图1所示，该方法具体包括：

S101、对所述源数据集进行预处理，生成目标数据集。

本实施例提供的文本溯源方法，可以应用于学术诚信检测、搜索引擎优化等领域，例如，论文查重，通过文本溯源可以找到同源文本，进而对待判定文本进行判定。本实施例涉及的文本包括待判定文本和源文本，其中，源文本为预先经过搜索或筛查获取到的与所述判定文本或与判定文本中关键词相关联的文本，待判定文本为需要进行文本溯源的文本，即通过待判定文本从源文本中匹配出同源文本。

在本实施例的一可选方案中，对源数据集进行预处理的步骤可以包括：分词、文本整合或停用词过滤。

具体地，可采用分词工具(如jieba、SnowNLP、THULAC、NLPIR等)对源数据集进行分词处理，对于文本中涉及的中文文本可以采用NLPIR汉语分词技术、英文文本可以采用空格分词；还可以通过积累的停用词库对分词过滤去除停用词，如去除语气词、助词等。

例如，源数据集可以是短文本数据，内容可以是：论文、期刊等学术文章，，源数据集的大小可以为5M，经本步骤的预处理后，生成目标数据集为4K，在目标数据集中包括源文本和溯源文本。

S102、根据待判定文本和源文本生成词袋模型。

在本实施例中，除对源文本进行预处理，还可以对待判定文本进行预处理，基于预处理后的数据生成词袋模型。

S103、利用多种预设的相似度算法，分别对所述词袋模型进行相似度计算，确定在不同相似度算法的情况下，所述源文本中多个文本与所述待判定文本的多个第一相似度排序。

本实施例中，采用多种预设的相似度算法融合的方式进行文本溯源，多种判断相似度的方式至少包括以下之一：Common Words算法、Jaccard相似度算法、Cosine相似度算法或SimHash相似度算法。

图2为本发明实施例涉及的在不同相似度算法的情况下，源文本中多个文本与待判定文本的多个第一相似度排序的流程示意图，具体包括：

S1031、基于所述词袋模型采用Common Words算法，确定共有词数量，根据所述共有词数量以及设定的阈值确定所述源文本中多个文本的第一相似度排序R1。

Common Words算法，主要通过计算两个文本中共有词的数量，再根据确定的共有词的数量与设定的阈值进行比较，得出源文本与待判定文本的同源概率，最后根据同源概率的大小确定源文本中多个文本的第一相似度排序R1。

S1032、基于所述词袋模型采用Jaccard相似度算法，确定共有词数量，根据所述共有词数量和总词数的Jaccard系数确定所述源文本中多个文本的第一相似度排序R2。

Jaccard相似度算法，主要通过对两个文本中共有词数量和总词数量进行Jaccard系数计算，根据Jaccard系数的大小确定源文本中多个文本的第一相似度排序R2。

其中，Jaccard系数可通过如下公式计算得出：

J(A,B)＝(|A∩B|)/(|A∪B|)＝(|A∩B|)/(|A|+|B|-|A∩B|)

其中，A和B分别是待判定文本和源文本的词袋模型，J(A,B为待判定文本和源文本的Jaccard系数。

S1033、基于所述词袋模型采用Cosine相似度算法，确定TF-IDF向量，根据所述TF-IDF向量确定所述源文本中多个文本的第一相似度排序R3。

Cosine相似度算法，主要对两个文本据进行词频(Term Frequency，TF)和逆向文档频率(Inverse Document Frequency，IDF)计算，进而得到对应的TF-IDF向量，再通过计算待判定文本和源文本的Cosine值来确定源文本中多个文本的第一相似度排序R3。

其中，TF可通过如下公式计算：

其中，n_i,j为词i在文档j中出现的次数，∑_kn_k,j为文档j中所有词的数量。

IDF可通过如下公式计算：

其中，D为文档的个数，{j,t_i∈d_j}为出现词i的总文档数。

TF-IDF向量可通过如下公式计算：

TF-IDF_i,j＝TF_i,j*IDF_i

S1034、基于所述词袋模型采用SimHash相似度算法，确定签名值，根据所述签名值之间的差值确定所述源文本中多个文本的第一相似度排序R4。

SimHash相似度算法，主要通过从待判定文本和源文本提取出特征和权重信息，采用hash函数计算其哈希值，再根据哈希值加权求和，得到签名值，最后根据签名值之间的差值确定源文本中多个文本的第一相似度排序R4。

需要说明的是，本实施例中的第一相似度排序R1、R2、R3和R4可以是排序列表的形式，还可以是其它形式，对此本实施不作具体限定。

需要说明的是，在本实施中，采用上述四种相似度算法的目的在于通过四种方式的结合相互弥补单重方式的不足，如，Common Words在长文本上的不足可以被Cosine相似度的结果得到一定程度的补足，而Jaccard因文本过短和阈值较难调整的特点借助CommonWords的结果得到一定弥补。

在本实施例中，对于上述四种方式的计算顺序可按照实际需求进行设定，还可以采用其它相似度算法来替代上述四种方式中的一种或多种实现上述四种方式的计算效果，对此，本实施例不作具体限定。

S104、基于第一公式和所述第一相似度排序确定所述源文本中多个文本与所述待判定文本的第二相似度排序。

在本实施例中，第一公式为：

其中，S为所述源文本，T为所述待判定文本，K为常数，为所述源文本的第j个排序，sc(S,T)为最终的排序结果。

具体地，在本步骤中，可以结合S103中通过四种方式获取到的第一相似度排序R1、R2、R3和R4确定所述源文本最终的排序结果。

S105、基于所述第二相似度从所述源文本中选择符合同源条件的文本作为所述待判定文本的同源文本。

在实施例中，可以按照设定的符合同源条件的规则，从最终的排序结果选择待判定文本的同源文本。

符合同源条件可以根据排序的优先级进行设定，如，选取排序优先级较高的30％的文本作为符合同源条件的同源文本(例如，排序结果中包括10个优先级别的文本，选取优先级最高的3个文本作为同源文本)。

本发明实施例提供的文本溯源方法，通过根据待判定文本和源文本生成词袋模型；利用多种预设的相似度算法，分别对所述词袋模型进行相似度计算，确定在不同相似度算法的情况下，所述源文本中多个文本与所述待判定文本的多个第一相似度排序；基于第一公式和所述第一相似度排序确定所述源文本源文本中多个文本与所述待判定文本的第二相似度排序；基于所述第二相似度排序从所述源文本中选择符合同源条件的文本作为所述待判定文本的同源文本，采用多种相似度的算法，可以弥补单一算法的不足，减少因计算方式不同带来的偶然性，提升计算结果的全面性和准确性。

图3为本发明实施例提供的一种文本溯源装置的结构示意图，如图3所示，该装置具体包括：

生成模块301，用于根据待判定文本和源文本生成词袋模型，所述源文本包括多个文本；

确定模块302，用于利用多种预设的相似度算法，分别对所述词袋模型进行相似度计算，确定在不同相似度算法的情况下，所述源文本中多个文本与所述待判定文本的多个第一相似度排序；

所示确定模块302，还用于基于第一公式和所述第一相似度排序确定所述源文本源文本中多个文本与所述待判定文本的第二相似度排序；

选择模块303，用于基于所述第二相似度排序从所述源文本中选择符合同源条件的文本作为所述待判定文本的同源文本。

可选地，所述装置还包括：预处理模块304，用于对所述源数据集进行预处理，生成目标数据集；其中，所述预处理至少包括以下之一：分词、文本整合或停用词过滤。

可选地，所述多种预设的相似度算法至少包括以下之一：

可选地，所述确定模块302，具体用于基于所述词袋模型采用Common Words算法，确定共有词数量，根据所述共有词数量以及设定的阈值确定所述源文本中多个文本的第一相似度排序R1。

可选地，所述确定模块302，具体用于基于所述词袋模型采用Jaccard相似度算法，确定共有词数量，根据所述共有词数量和总词数的Jaccard系数确定所述源文本中多个文本的第一相似度排序R2。

可选地，所述确定模块302，具体用于基于所述词袋模型采用Cosine相似度算法，确定TF-IDF向量，根据所述TF-IDF向量确定所述源文本中多个文本的第一相似度排序R3。

可选地，所述确定模块302，具体用于基于所述词袋模型采用SimHash相似度算法，确定签名值，根据所述签名值之间的差值确定所述源文本中多个文本的第一相似度排序R4。

可选地，所述第一公式为：

本实施例提供的文本溯源装置可以是如图3中所示的文本溯源装置，可执行如图1中文本溯源方法的所有步骤，进而实现图1所示文本溯源方法的技术效果，具体请参照图1相关描述，为简洁描述，在此不作赘述。

图4为本发明实施例提供的一种文本溯源设备的硬件结构示意图，如图4所示，该设备具体包括：

处理器410、存储器420、收发器430。

处理器410可以是中央处理器(central processing unit，CPU)，或者CPU和硬件芯片的组合。上述硬件芯片可以是专用集成电路(application-specific integratedcircuit，ASIC)，可编程逻辑器件(programmable logic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logic device，CPLD)，现场可编程门阵列(field-programmable gate array，FPGA)，通用阵列逻辑(generic array logic,GAL)或其任意组合。

存储器420用于存储各种应用，操作系统和数据。存储器420可以将存储的数据传输给处理器410。存储器420可以包括易失性存储器，非易失性动态随机存取内存(nonvolatile random access memory，NVRAM)、相变化随机存取内存(phase change RAM，PRAM)、磁阻式随机存取内存(magetoresistive RAM，MRAM)等，例如至少一个磁盘存储器件、电子可擦除可编程只读存储器(electrically erasable programmable read-onlymemory，EEPROM)、闪存器件，例如反或闪存(flash memory，NOR)或是反及闪存(flashmemory，NAND)、半导体器件，例如固态硬盘(solid state disk，SSD)等。存储器420还可以包括上述种类的存储器的组合。

收发器430，用于发送和/或接收数据，收发器430可以是天线等。

所述各器件的工作过程如下：

处理器410，用于根据待判定文本和源文本生成词袋模型，所述源文本包括多个文本；利用多种预设的相似度算法，分别对所述词袋模型进行相似度计算，确定在不同相似度算法的情况下，所述源文本中多个文本与所述待判定文本的多个第一相似度排序；基于第一公式和所述第一相似度排序确定所述源文本源文本中多个文本与所述待判定文本的第二相似度排序；基于所述第二相似度排序从所述源文本中选择符合同源条件的文本作为所述待判定文本的同源文本。

可选地，所述处理器410，还用于对所述源数据集进行预处理，生成目标数据集；其中，所述预处理至少包括以下之一：分词、文本整合或停用词过滤。

可选地，所述处理器410，还用于配置所述多种预设的相似度算法至少包括以下之一：

可选地，所述处理器410，具体用于基于所述词袋模型采用Common Words算法，确定共有词数量，根据所述共有词数量以及设定的阈值确定所述源文本中多个文本的第一相似度排序R1。

可选地，所述处理器410，具体用于基于所述词袋模型采用Jaccard相似度算法，确定共有词数量，根据所述共有词数量和总词数的Jaccard系数确定所述源文本中多个文本的第一相似度排序R2。

可选地，所述处理器410，具体用于基于所述词袋模型采用Cosine相似度算法，确定TF-IDF向量，根据所述TF-IDF向量确定所述源文本中多个文本的第一相似度排序R3。

可选地，所述处理器410，具体用于基于所述词袋模型采用SimHash相似度算法，确定签名值，根据所述签名值之间的差值确定所述源文本中多个文本的第一相似度排序R4。

可选地，所述处理器410，还用于配置所述第一公式为：

本实施例提供的文本溯源装置可以是如图4中所示的文本溯源设备，可执行如图1中文本溯源方法的所有步骤，进而实现图1所示文本溯源方法的技术效果，具体请参照图1相关描述，为简洁描述，在此不作赘述。

本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中，存储介质可以包括易失性存储器，例如随机存取存储器；存储器也可以包括非易失性存储器，例如只读存储器、快闪存储器、硬盘或固态硬盘；存储器还可以包括上述种类的存储器的组合。

当存储介质中一个或者多个程序可被一个或者多个处理器执行，以实现上述在文本溯源设备侧执行的文本溯源方法。

所述处理器用于执行存储器中存储的文本溯源程序，以实现以下在文本溯源设备侧执行的文本溯源方法的步骤：

在一个可能的实施方式中，所述方法，还包括：

对所述源文本进行预处理，生成目标数据集；

其中，所述预处理至少包括以下之一：

分词、文本整合或停用词过滤。

在一个可能的实施方式中，基于所述词袋模型采用Common Words算法，确定共有词数量，根据所述共有词数量以及设定的阈值确定所述源文本中多个文本的第一相似度排序R1。

在一个可能的实施方式中，基于所述词袋模型采用Jaccard相似度算法，确定共有词数量，根据所述共有词数量和总词数的Jaccard系数确定所述源文本中多个文本的第一相似度排序R2。

在一个可能的实施方式中，基于所述词袋模型采用Cosine相似度算法，确定TF-IDF向量，根据所述TF-IDF向量确定所述源文本中多个文本的第一相似度排序R3；

在一个可能的实施方式中，基于所述词袋模型采用SimHash相似度算法，确定签名值，根据所述签名值之间的差值确定所述源文本中多个文本的第一相似度排序R4。

在一个可能的实施方式中，所述第一公式为：

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本溯源方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法，还包括：

对所述源数据集进行预处理，生成目标数据集；

其中，所述预处理至少包括以下之一：

分词、文本整合或停用词过滤。

3.根据权利要求1或2所述的方法，其特征在于，所述多种预设的相似度算法至少包括以下之一：

4.根据权利要求3所述的方法，其特征在于，所述利用多种预设的相似度算法，分别对所述词袋模型进行相似度计算，确定在不同相似度算法的情况下，所述源文本中多个文本与所述待判定文本的多个第一相似度排序，包括：

5.根据权利要求3所述的方法，其特征在于，所述利用多种预设的相似度算法，分别对所述词袋模型进行相似度计算，确定在不同相似度算法的情况下，所述源文本中多个文本与所述待判定文本的多个第一相似度排序，还包括：

6.根据权利要求3所述的方法，其特征在于，所述利用多种预设的相似度算法，分别对所述词袋模型进行相似度计算，确定在不同相似度算法的情况下，所述源文本中多个文本与所述待判定文本的多个第一相似度排序，还包括：

基于所述词袋模型采用Cosine相似度算法，确定TF-IDF向量，根据所述TF-IDF向量确定所述源文本中多个文本的第一相似度排序R3。

7.根据权利要求3所述的方法，其特征在于，所述利用多种预设的相似度算法，分别对所述词袋模型进行相似度计算，确定在不同相似度算法的情况下，所述源文本中多个文本与所述待判定文本的多个第一相似度排序，还包括：

8.根据权利要求4-7任一所述的方法，其特征在于，所述第一公式为：

9.一种文本溯源设备，其特征在于，所述文本溯源设备包括：处理器和存储器；所述处理器用于执行所述存储器中存储的文本溯源程序，以实现权利要求1～8中任一所述的文本溯源方法。

10.一种存储介质，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1～8中任一所述的文本溯源方法。