CN106649273A

CN106649273A - 一种文本处理方法及装置

Info

Publication number: CN106649273A
Application number: CN201611220192.2A
Authority: CN
Inventors: 董超; 张霞; 赵立军; 崔朝辉
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2016-12-26
Filing date: 2016-12-26
Publication date: 2017-05-10
Anticipated expiration: 2036-12-26
Also published as: CN106649273B

Abstract

本发明提供一种文本处理方法及装置，在随机获取两个待检测文本后，至少根据第一相似度算法和第二相似度算法得到两个待检测文本之间的第一类型相似度和第二类型相似度，进而根据第一类型相似度、第二类型相似度、第一阈值和第二阈值，得到两个待检测文本之间的相似度，也就是说本发明根据至少两种算法得到两种类型相似度，并根据两种类型相似度和各自对应的阈值得到指示两个待检测文本是否相似的相似度，这种方式相对于现有通过一种相似度算法判定两个待检测文本是否相似的方式来说，本发明得到的指示两个待检测文本是否相似的相似度的准确度提高，进而提高检测的准确度。

Description

一种文本处理方法及装置

技术领域

本发明属于文本信息处理技术领域，更具体的说，尤其涉及一种文本处理方法及装置。

背景技术

随着计算机对文本信息等各种自然语言处理应用的普及，需要提供一个有效且准确的方法来计算待检测文本和已检测文本之间的文本相似度，文本(特别是短文本)相似度的计算方法在计算机文本相关的研究和应用领域中扮演着越来越重要的角色。如在文本检索领域(Text Retrieval)，短文本相似度可以改善搜索引擎的召回率(Recall)和准确度(Precision)；在文本挖掘领域(Text Mining)，短文本相似度作为一个测量方法用来发现文本数据库中潜在的知识；在基于网页的图像检索(Image Retrieval)领域，可以利用图像周围的描述性短文本来提高准确率，其中已检测文本是已经通过文本相似度进行检测的文本。

目前文本相似度的计算方法可以对两个待检测文本通过分词技术进行分词，分别得到两个待检测文本中的各个词，将得到的词映射到VSM(Virtual Switch Matrix，虚拟交换矩阵)中，通过VSM实现文本片段的向量化，再通过向量相似计算算法获取两个待检测文本之间的片段相似度，根据片段相似度得到两个待检测文本之间的相似度，但是这种通过向量化得到的相似度对词的缺失敏感度较强，使得相似度的准确度降低，其中对词的缺失敏感度较强是指计算相似度时，词的不同会使得相似度的取值变化很大。

发明内容

有鉴于此，本发明的目的在于提供一种文本处理方法及装置，用于提高相似度的准确度，进而提高检测的准确度。具体的，技术方案如下：

本发明提供一种文本处理方法，所述方法包括：

随机获取两个待检测文本；

至少根据第一相似度算法和第二相似度算法，计算所述两个待检测文本之间的第一类型相似度和所述两个待检测文本之间的第二类型相似度，其中所述第一类型相似度根据所述第一相似度算法计算得到，所述第二类型相似度根据所述第二相似度算法计算得到；

根据所述第一类型相似度、所述第二类型相似度、第一阈值和第二阈值，得到所述两个待检测文本之间的相似度，其中所述第一阈值是预先得到的与所述第一相似度算法对应的阈值，所述第二阈值是预先得到的与所述第二相似度算法对应的阈值；

当所述两个待检测文本之间的相似度在预设范围内时，确定所述两个待检测文本相似；

当所述两个待检测文本之间的相似度不在预设范围时，确定所述两个待检测文本不相似。

优选地，所述根据所述第一类型相似度、所述第二类型相似度、第一阈值和第二阈值，得到所述两个待检测文本之间的相似度，包括：

根据所述第一类型相似度和所述第一阈值，得到所述两个待检测文本之间的第一相似度；

根据所述第二类型相似度和所述第二阈值，得到所述两个待检测文本之间的第二相似度；

根据所述第一相似度、所述第二相似度、预设第一权重和预设第二权重，得到所述两个待检测文本之间的相似度。

优选地，所述方法还包括：预先得到与所述第一相似度算法对应的第一阈值和预先得到与所述第二相似度算法对应的第二阈值；

所述预先得到与所述第一相似度算法对应的第一阈值和预先得到与所述第二相似度算法对应的第二阈值，包括：

随机生成多组候选解，每组候选解包括一个与所述第一相似度算法对应的第三阈值和一个与所述第二相似度算法对应的第四阈值；

从所述多组候选解中得到多组最优候选解，其中多组最优候选解的获取过程是：获取每组候选解对应的适应度函数，通过所述每组候选解对应的适应度函数计算训练集中的每对训练样本之间的相似度，根据所述每对训练样本之间的相似度，得到每组候选解的适应度，并根据所述每组候选解的适应度，选取多组最优候选解，每对训练样本包括两篇由人工标注相似度的文本，最优候选解的适应度大于其他候选解的适应度；

对所述多组最优候选解中的第三阈值进行交叉变异，对所述多组最优候选解中的第四阈值进行交叉变异，得到多组新的候选解，并对所述多组新的候选解执行所述获取过程以从多组新的候选解中得到多组最优候选解直至满足预设条件；

选取适应度大于其他最优候选解的适应度的最优候选解，所选取的最优候选解中的第三阈值作为所述第一阈值，所选取的最优候选解中的第四阈值作为所述第二阈值。

优选地，所述根据所述每组候选解的适应度，选取多组最优候选解，包括：

获取所有候选解的适应度总和；

根据所述所有候选解的适应度总和和每组候选解的适应度，得到每组候选解的相对适应度；

随机生成一个介于0和1之间的数值，并根据随机生成的数值选取多组最优候选解。

优选地，所述第三阈值和所述第四阈值的取值介于0和1之间，且通过二进制编码方式表示，以使所述第三阈值对应的二进制字符串和所述第四阈值对应的二进制字符串分别作为一个染色体；

所述对所述多组最优候选解中的第三阈值进行交叉变异，对所述多组最优候选解中的第四阈值进行交叉变异，得到多组新的候选解，包括：

对所述多组最优候选解中的第三阈值对应的染色体进行随机配对；

根据所述第三阈值对应的染色体的长度，随机设置交叉点位置，并根据所述交叉点位置，交换随机配对的第三阈值对应的染色体之间的部分基因；

随机设置所述第三阈值对应的染色体中基因变异位置，并对所述基因变异位置处的基因进行取反操作；

在交换所述第三阈值对应的染色体之间的部分基因和对所述基因变异位置处的基因进行取反操作后，得到变化后的染色体对应的第三阈值；

对所述多组最优候选解中的第四阈值对应的染色体进行随机配对；

根据所述第四阈值对应的染色体的长度，随机设置交叉点位置，并根据所述交叉点位置，交换随机配对的第四阈值对应的染色体之间的部分基因；

随机设置所述第四阈值对应的染色体中基因变异位置，并对所述基因变异位置处的基因进行取反操作；

在交换所述第四阈值对应的染色体之间的部分基因和对所述基因变异位置处的基因进行取反操作后，得到变化后的染色体对应的第四阈值；

根据所述变化后的染色体对应的第三阈值和变化后的染色体对应的第四阈值，得到多组新的候选解。

本发明还提供一种文本处理装置，所述装置包括：

文本获取单元，用于随机获取两个待检测文本；

第一计算单元，用于至少根据第一相似度算法和第二相似度算法，计算所述两个待检测文本之间的第一类型相似度和所述两个待检测文本之间的第二类型相似度，其中所述第一类型相似度根据所述第一相似度算法计算得到，所述第二类型相似度根据所述第二相似度算法计算得到；

第二计算单元，用于根据所述第一类型相似度、所述第二类型相似度、第一阈值和第二阈值，得到所述两个待检测文本之间的相似度，其中所述第一阈值是预先得到的与所述第一相似度算法对应的阈值，所述第二阈值是预先得到的与所述第二相似度算法对应的阈值；

确定单元，用于当所述两个待检测文本之间的相似度在预设范围内时，确定所述两个待检测文本相似，以及用于当所述两个待检测文本之间的相似度不在预设范围时，确定所述两个待检测文本不相似。

优选地，所述第二计算单元，用于根据所述第一类型相似度和所述第一阈值，得到所述两个待检测文本之间的第一相似度，根据所述第二类型相似度和所述第二阈值，得到所述两个待检测文本之间的第二相似度，并根据所述第一相似度、所述第二相似度、预设第一权重和预设第二权重，得到所述两个待检测文本之间的相似度。

优选地，所述装置还包括：获得单元，用于预先得到与所述第一相似度算法对应的第一阈值和预先得到与所述第二相似度算法对应的第二阈值；

所述获得单元，包括：第一生成子单元、第一选取子单元、第二生成子单元和第二选取子单元；

所述第一生成子单元，用于随机生成多组候选解，每组候选解包括一个与所述第一相似度算法对应的第三阈值和一个与所述第二相似度算法对应的第四阈值；

所述第一选取子单元，用于从所述多组候选解中得到多组最优候选解，其中多组最优候选解的获取过程是：获取每组候选解对应的适应度函数，通过所述每组候选解对应的适应度函数计算训练集中的每对训练样本之间的相似度，根据所述每对训练样本之间的相似度，得到每组候选解的适应度，并根据所述每组候选解的适应度，选取多组最优候选解，每对训练样本包括两篇由人工标注相似度的文本，最优候选解的适应度大于其他候选解的适应度；

所述第二生成子单元，用于对所述多组最优候选解中的第三阈值进行交叉变异，对所述多组最优候选解中的第四阈值进行交叉变异，得到多组新的候选解，并对所述多组新的候选解执行所述获取过程以从多组新的候选解中得到多组最优候选解直至满足预设条件；

所述第二选取子单元，用于选取适应度大于其他最优候选解的适应度的最优候选解，所选取的最优候选解中的第三阈值作为所述第一阈值，所选取的最优候选解中的第四阈值作为所述第二阈值。

优选地，所述第一选取子单元根据所述每组候选解的适应度，选取多组最优候选解，包括：

获取所有候选解的适应度总和，根据所述所有候选解的适应度总和和每组候选解的适应度，得到每组候选解的相对适应度，随机生成一个介于0和1之间的数值，并根据随机生成的数值选取多组最优候选解。

所述第二生成子单元，包括：第一配对子单元、第一交换子单元、第一取反子单元、第一获得子单元、第二配对子单元、第二交换子单元、第二取反子单元、第二获得子单元和候选解获得子单元；

所述第一配对子单元，用于对所述多组最优候选解中的第三阈值对应的染色体进行随机配对；

所述第一交换子单元，用于根据所述第三阈值对应的染色体的长度，随机设置交叉点位置，并根据所述交叉点位置，交换随机配对的第三阈值对应的染色体之间的部分基因；

所述第一取反子单元，用于随机设置所述第三阈值对应的染色体中基因变异位置，并对所述基因变异位置处的基因进行取反操作；

所述第一获得子单元，用于在交换所述第三阈值对应的染色体之间的部分基因和对所述基因变异位置处的基因进行取反操作后，得到变化后的染色体对应的第三阈值；

所述第二配对子单元，用于对所述多组最优候选解中的第四阈值对应的染色体进行随机配对；

所述第二交换子单元，用于根据所述第四阈值对应的染色体的长度，随机设置交叉点位置，并根据所述交叉点位置，交换随机配对的第四阈值对应的染色体之间的部分基因；

所述第二取反子单元，用于随机设置所述第四阈值对应的染色体中基因变异位置，并对所述基因变异位置处的基因进行取反操作；

所述第二获得子单元，用于在交换所述第四阈值对应的染色体之间的部分基因和对所述基因变异位置处的基因进行取反操作后，得到变化后的染色体对应的第四阈值；

所述候选解获得子单元，用于根据所述变化后的染色体对应的第三阈值和变化后的染色体对应的第四阈值，得到多组新的候选解。

与现有技术相比，本发明提供的上述技术方案具有如下优点：

从上述技术方案可知，在随机获取两个待检测文本后，至少根据第一相似度算法和第二相似度算法得到两个待检测文本之间的第一类型相似度和第二类型相似度，进而根据第一类型相似度、第二类型相似度、第一阈值和第二阈值，得到两个待检测文本之间的相似度，也就是说本发明根据至少两种算法得到两种类型相似度，并根据两种类型相似度和各自对应的阈值得到指示两个待检测文本是否相似的相似度，这种方式相对于现有通过一种相似度算法判定两个待检测文本是否相似的方式来说，本发明得到的指示两个待检测文本是否相似的相似度的准确度提高，进而提高检测的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的文本处理方法的流程图；

图2是本发明实施例提供的获取阈值的流程图；

图3是本发明实施例提供的生成新的候选解的流程图；

图4是本发明实施例提供的文本处理装置的一种结构示意图；

图5是本发明实施例提供的文本处理装置的另一种结构示意图；

图6是本发明实施例提供的文本处理装置中获得单元的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明实施例提供的文本处理方法的流程图，用于提高相似度的准确度，进而提高检测的准确度。具体的，图1所述文本处理方法可以包括以下步骤：

101：随机获取两个待检测文本，其中两个待检测文本是需要进行文本是否相似的两个文本，这两个待检测文本可以是随机获取的两篇论文、著作或专利申请文件等，在本发明实施例中可以从提供这些文本的网站中下载。

102：至少根据第一相似度算法和第二相似度算法，计算两个待检测文本之间的第一类型相似度和两个检测文本之间的第二类型相似度，其中第一类型相似度根据第一相似度算法计算得到，第二类型相似度根据第二相似度算法计算得到。

也就是说本发明实施例中，至少通过两种相似度算法计算两个待检测文本之间的两种类型相似度。为提高两个待检测文本之间的相似度，第一相似度算法和第二相似度算法中至少有一种相似度算法对词的缺失不太敏感，并且根据对词的缺失不太敏感的算法得到的相似度的取值变化程度小于对词的缺失敏感的算法得到的相似度的取值变化程度。

目前相似度算法有：词频余弦相似度算法，TF-IDF(Term Frequency–InverseDocument Frequency，特征性频率-倒排文档频率加权法)余弦相似度算法，文本编辑距离相似度算法和SimHash相似度算法，发明人对这四种相似度算法进行研究，发现这四种相似度算法对词的缺失敏感按照大到小的排序为：词频余弦相似度算法，TF-IDF余弦相似度算法，文本编辑距离相似度算法和SimHash相似度算法，在本发明实施例中，可以将词频余弦相似度算法和TF-IDF余弦相似度算法分别视为第一相似度算法，将文本编辑距离相似度算法和SimHash相似度算法分别视为第二相似度算法。

当然还可以从这四种相似度算法中任意选取两种相似度算法，如选取词频余弦相似度算法为第一相似度算法，选取TF-IDF余弦相似度算法为第二相似度算法，又或者选取文本编辑距离相似度算法为第一相似度算法，选取SimHash相似度算法为第二相似度算法。

下面以第一相似度算法为词频余弦相似度算法，第二相似度算法为SimHash相似度算法为例，说明如何计算两个待检测文本的两种类型相似度：

词频余弦相似度算法的计算过程：对两个待检测文本通过分词技术进行分词，得到两个待检测文本中的各个词，计算这些词的词频形成一个N维向量，N为分词后的词数。两个待检测文本D₁和D₂对应的向量表示为：

V₁＝{t₁₁,t₁₂,...,t_1j...,t_1N}

V₂＝{t₂₁,t₂₂,...,t_2j...,t_2N}

其中，V₁是待检测文本D₁的向量，t_1j是待检测文本D₁中第j个词的词频，V₂是待检测文本D₂的向量，t_2j是待检测文本D₂中第j个词的词频。

在得到两个待检测文本的向量表示后，通过计算向量间的余弦值来得到两个待检测文本之间的词频余弦相似度：

例如两个待检测文本是：D₁＝“红色预警期间，按照相关工作预案，首都公安启动高等级勤务方案应对雾霾天气，做好重污染天气应对各项工作”，D₂＝“红色预警期间，北京公安启动高等级勤务方案，做好雾霾天气应对各项工作”，对这两个待检测文本进行分词，得到的各个词记录在词序列中＝{红色，预警，期间，按照，相关，工作，预案，首都，公安，启动，高等级，勤务，方案，应对，雾霾，天气，做，好，重污染，各项，北京}，然后统计词序列中的各个词在对应的待检测文本中的词频形成待检测文本对应的向量分别是：

V₁＝[1,1,1,1,1,2,1,1,1,1,1,1,1,2,1,2,1,1,1,1,0]

V₂＝[1,1,1,0,0,1,0,0,1,1,1,1,1,1,1,1,1,1,0,1,1]

然后根据得到两个待检测文本之间的词频余弦相似度Sim_tf＝0.8660。

词频余弦相似度算法能够从词表特征上很直观的反映两个待检测文本之间的差异性，然后这种算法对词的缺失敏感较高，使得在计算词频余弦相似度时选取的词不同会导致词频余弦相似度的取值发生较大变化，为此，本发明实施例可以引入一种对词的缺失不太敏感度的相似度算法，即上述SimHash相似度算法。

相应的，SimHash相似度算法的计算过程是：对两个待检测文本通过分词技术进行分词，得到两个待检测文本中的各个词，并将两个待检测文本中的各个词转换成一个K位的特征字，K位的特征字形成哈希值HashCode，两个待检测文本D₁和D₂对应的哈希值HashCode分别如下：

HashCode₁＝hash(w₁₁,w₁₂,...,w_1j,...,w_1p)

HashCode₂＝hash(w₂₁,w₂₂,...w_2j,...,w_2q)

其中，HashCode₁是待检测文本D₁的为文本哈希值，HashCode₂是待检测文本D₂的哈希值，HashCode₁和HashCode₂为长度为K的字节，K的取值预设设置，最优为64，在本发明实施例中不限定其取值，w_1j是待检测文本D₁中第j个词转换成的特征字，w_2j是待检测文本D₂中第j个词转换成的特征字为文本，然后根据这两个待检测文本之间的特征字的距离大小来得到SimHash相似度，具体公式为：

其中，Hamming(HashCode₁，HashCode₂)为字节之间的海明距离。

103：预先得到与第一相似度算法对应的第一阈值和预先得到与第二相似度算法对应的第二阈值。其中第一阈值和第二阈值通过预先标注好的训练样本计算得到，所谓预先标注好的训练样本是用户已手动标注出两个训练样本的比对结果(样本相似或样本不相似)，在计算第一阈值和第二阈值时，可以通过现有相似度算法得到已手动标注出比对结果的两个训练样本之间的相似度，并根据已标注出的两个训练样本的比对结果(样本相似或样本不相似)和这两个训练样本之间的相似度，计算第一阈值和第二阈值，如在本发明实施例中第一阈值α＝0.65，第二阈值β＝0.88。

104：根据第一类型相似度、第二类型相似度、第一阈值和第二阈值，得到两个待检测文本之间的相似度。以第一类型相似度是词频余弦相似度，第二类型相似度是SimHash相似度为例，两个待检测文本之间的相似度可以通过以下计算公式得到：

Score＝f(a*f(Sim_tf-α)+b*f(Sim_hash-β))

其中，a为预设第一权重，b为预设第二权重，一般可设置为0.5，α和β分别为词频余弦相似度算法对应的第一阈值和SimHash相似度算法对应的第二阈值，阈值的大小决定两个检测文本之间的相似度，以根据两个检测文本之间的相似度判断两个检测文本是否存在相似，进而可知两个检测文本是否存在抄袭现象。

105：当两个待检测文本之间的相似度在预设范围内时，确定两个待检测文本相似。

106：当两个待检测文本之间的相似度不在预设范围时，确定两个待检测文本不相似。

其中预设范围可以根据实际应用而定，如在两个待检测文本的相似度较高的情况下视两个待检测文本相似，此时预设范围可以是一个以相似度在90％至99％的范围，当然还可以采用其他方式，如相似度的计算公式为Score＝f(a*f(Sim_tf-α)+b*f(Sim_hash-β))和通过这个计算公式得到的Score的取值为-1或者1，当Score的取值为-1时，表示两个待检测文本不相似，两个待检测文本之间不存在抄袭现象；当Score的取值为1时，表示两个待检测文本很相似，两个待检测文本之间存在抄袭的可能性，为此在根据这个计算公式计算Score的情况下，预设范围可以仅包括一个数值1。

以上述两个待检测文本为例，在基于计算公式：Score＝f(a*f(Sim_tf-α)+b*f(sim_hash-β))和计算两个待检测文本之间的相似度时，a和b的取值为0.5，α＝0.65，β＝0.88，最终得到的两个待检测文本之间的相似度Score＝1，判定两个待检测文本相似，存在抄袭的可能性。

基于上述相似度的计算公式，可得出本发明实施例中根据第一类型相似度、第二类型相似度、第一阈值和第二阈值，得到两个待检测文本之间的相似度的可行方式包括：

根据第一类型相似度和第一阈值，得到两个待检测文本之间的第一相似度f(Sim_tf-α)。

根据第二类型相似度和第二阈值，得到两个待检测文本之间的第二相似度f(Sim_hash-β)。

根据第一相似度、第二相似度、预设第一权重和预设第二权重，得到两个待检测文本之间的相似度Score。

在本发明实施例中，预先得到与第一相似度算法对应的第一阈值和预先得到与第二相似度算法对应的第二阈值的过程可参阅图2所示，可以包括以下步骤：

201：随机生成多组候选解，每组候选解包括一个与第一相似度算法对应的第三阈值和一个与第二相似度算法对应的第四阈值。

202：从多组候选解中得到多组最优候选解，其中多组最优候选解的获取过程是：获取每组候选解对应的适应度函数，通过每组候选解对应的适应度函数计算训练集中的每对训练样本之间的相似度，根据每对训练样本之间的相似度，得到每组候选解的适应度，并根据每组候选解的适应度，选取多组最优候选解，每对训练样本包括两篇由人工标注相似度的文本，最优候选解的适应度大于其他候选解的适应度。

在本发明实施例中，适应度函数的标识方式如下：

Fit＝P(a*f(Sim_tf-α)+b*f(Sim_hash-β))

其中，a为预设第一权重，b为预设第二权重，一般可设置为0.5，α和β分别为第一相似度算法对应的第三阈值和第二相似度算法对应的第三阈值。针对训练集中N对训练样本，统计出每个候选解计算出每对训练样本的相似度，记为Fit_i,j，表示第i个候选解计算出的第j对训练样本的相似度，则适应度的计算公式如下：

可选的，根据每组候选解的适应度，选取多组最优候选解，包括：获取所有候选解的适应度总和；根据所有候选解的适应度总和和每组候选解的适应度，得到每组候选解的相对适应度；然后随机生成一个介于0和1之间的数值，并根据随机生成的数值选取多组最优候选解。

比如适应度总和为：F_total，第i个候选解的适应度为F_i，则相对适应度为F_i/F_total，该值为候选解被遗传到下一组候选解的概率，每组候选解的概率值组成一个区域，全部概率值之和为1。

当随机生成的数值小于或等于某个候选解的相对适应度，则可以选取出相对适应度大于等于这个随机生成的数值的候选解为最优候选解。比如生成三组候选解，这三组候选解的相对适应度为2/3，1/3和0，随机生成的数值为1/3，则选取相对适应度为2/3和1/3的候选解为最优候选解。若随机生成的数值为1/2，在根据相对适应度大于等于这个随机生成的数值的候选解为最优候选解的选取规则进行选取时，仅能选取一个最优候选解，为此本发明实施例可以对选取规则进行补充，若根据相对适应度大于等于这个随机生成的数值的候选解为最优候选解的选取规则选取出的最优候选解的数量为一个时，则可以进一步选取一个相对适应度小于且最贴近这个随机生成的数值的候选解为最优候选解。

203：对多组最优候选解中的第三阈值进行交叉变异，对多组最优候选解中的第四阈值进行交叉变异，得到多组新的候选解，并对多组新的候选解执行获取过程以从多组新的候选解中得到多组最优候选解直至满足预设条件。

所谓预设条件可以有两种可行条件：一种预设条件是上一候选解的适应度与上一候选解对应的当前候选解的适应度的差值在预设差值内，另一种预设条件是人为设置生成新的候选解的次数。在本发明实施例中，可以随意选取一种预设条件，并在满足预设条件的情况下视为收敛。

204：选取适应度大于其他最优候选解的适应度的最优候选解，所选取的最优候选解中的第三阈值作为第一阈值，所选取的最优候选解中的第四阈值作为第二阈值。

在本发明实施例中，第三阈值和第四阈值的取值介于0和1之间，且通过二进制编码方式表示，以使第三阈值对应的二进制字符串和第四阈值对应的二进制字符串分别作为一个染色体。如第三阈值对应的二进制字符串是0110，则其可以视为一个染色体，每个二进制字符视为染色体上的一个基因，相对应的，对第三阈值和第四阈值进行交叉变异，得到多组新的候选解的过程可参阅图3所示，可以包括以下步骤：

301：对多组最优候选解中的第三阈值对应的染色体进行随机配对。即从多组最优候选解中可以获取到多个第三阈值对应的染色体，对这些多个第三阈值对应的染色体进行随机的两两配对。

302：根据第三阈值对应的染色体的长度，随机设置交叉点位置，并根据交叉点位置，交换随机配对的第三阈值对应的染色体之间的部分基因。

比如随机配对的第三阈值对应的染色体分别是：0010和0100，随机设置的交叉点位置为第2个基因，则以第2个基因为分界，交换位于第2个基因之后的全部基因，交换后的染色体为：0000和0110。

303：随机设置第三阈值对应的染色体中基因变异位置，并对基因变异位置处的基因进行取反操作，所谓取反操作是：若基因变异位置处的基因为0，则将其变为1，若基因变异位置处的基因为1，则将其变为0。

304：在交换第三阈值对应的染色体之间的部分基因和对基因变异位置处的基因进行取反操作后，得到变化后的染色体对应的第三阈值。

305：多组最优候选解中的第四阈值对应的染色体进行随机配对。

306：根据第四阈值对应的染色体的长度，随机设置交叉点位置，并根据交叉点位置，交换随机配对的第四阈值对应的染色体之间的部分基因。

307：随机设置第四阈值对应的染色体中基因变异位置，并对基因变异位置处的基因进行取反操作。

308：在交换第四阈值对应的染色体之间的部分基因和对基因变异位置处的基因进行取反操作后，得到变化后的染色体对应的第四阈值。

309：根据变化后的染色体对应的第三阈值和变化后的染色体对应的第四阈值，得到多组新的候选解。

在这里需要说明的一点是：本发明实施例除可以按照上述顺序执行过程来对第三阈值和第四阈值进行交叉变异处理之外，还可以同时对第三阈值和第四阈值进行交叉变异处理，也可以对一个阈值进行交叉变异处理后，再对另一个阈值进行交叉变异处理，并且在对某个阈值进行交叉变异时可以同时进行交叉变化处理。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

请参阅图4，其示出了本发明实施例提供的文本处理装置的一种结构，用于降低相似度对词的缺失敏感度，以提高相似度的准确度。具体的，图4所述文本处理装置可以包括：文本获取单元11、第一计算单元12、第二计算单元13和确定单元14。

文本获取单元11，用于随机获取两个待检测文本，其中两个待检测文本是需要进行文本是否相似的两个文本，这两个待检测文本可以是随机获取的两篇论文、著作或专利申请文件等，在本发明实施例中可以从提供这些文本的网站中下载。

第一计算单元12，用于至少根据第一相似度算法和第二相似度算法，计算两个待检测文本之间的第一类型相似度和两个待检测文本之间的第二类型相似度，其中第一类型相似度根据第一相似度算法计算得到，第二类型相似度根据第二相似度算法计算得到。

也就是说本发明实施例中，第一计算单元12至少通过两种相似度算法计算两个待检测文本之间的两种类型相似度。为提高两个待检测文本之间的相似度，第一相似度算法和第二相似度算法中至少有一种相似度算法对词的缺失不太敏感，并且根据对词的缺失不太敏感的算法得到的相似度的取值变化程度小于对词的缺失敏感的算法得到的相似度的取值变化程度。

目前相似度算法有：词频余弦相似度算法，TF-IDF余弦相似度算法，文本编辑距离相似度算法和SimHash相似度算法，发明人对这四种相似度算法进行研究，发现这四种相似度算法对词的缺失敏感按照大到小的排序为：词频余弦相似度算法，TF-IDF余弦相似度算法，文本编辑距离相似度算法和SimHash相似度算法，在本发明实施例中，可以将词频余弦相似度算法和TF-IDF余弦相似度算法分别视为第一相似度算法，将文本编辑距离相似度算法和SimHash相似度算法分别视为第二相似度算法。

第二计算单元13，用于根据第一类型相似度、第二类型相似度、第一阈值和第二阈值，得到两个待检测文本之间的相似度，其中第一阈值是预先得到的与第一相似度算法对应的阈值，第二阈值是预先得到的与第二相似度算法对应的阈值，得到第一阈值和第二阈值的过程请参阅方法实施例部分的相关说明，对此本发明实施例不再阐述。

可选的，第二计算单元13，用于根据第一类型相似度和第一阈值，得到两个待检测文本之间的第一相似度，根据第二类型相似度和第二阈值，得到两个待检测文本之间的第二相似度，并根据第一相似度、第二相似度、预设第一权重和预设第二权重，得到两个待检测文本之间的相似度。

确定单元14，用于当两个待检测文本之间的相似度在预设范围内时，确定两个待检测文本相似，以及用于当两个待检测文本之间的相似度不在预设范围时，确定两个待检测文本不相似。

以上述两个待检测文本为例，在基于公式：Score＝f(a*f(Sim_tf-α)+b*f(Sim_hash-β))和计算两个待检测文本之间的相似度时，a和b的取值为0.5，α＝0.65，β＝0.88，最终得到的两个待检测文本之间的相似度Score＝1，判定两个待检测文本相似，存在抄袭的可能性。

请参阅图5，其示出了本发明实施例提供的文本处理装置的另一种结构，在图4基础上还可以包括：获得单元15，用于预先得到与第一相似度算法对应的第一阈值和预先得到与第二相似度算法对应的第二阈值。

在本发明实施例中，获得单元15的结构如图6所示，可以包括：第一生成子单元151、第一选取子单元152、第二生成子单元153和第二选取子单元154。

第一生成子单元151，用于随机生成多组候选解，每组候选解包括一个与第一相似度算法对应的第三阈值和一个与第二相似度算法对应的第四阈值。

第一选取子单元152，用于从多组候选解中得到多组最优候选解，其中多组最优候选解的获取过程是：获取每组候选解对应的适应度函数，通过每组候选解对应的适应度函数计算训练集中的每对训练样本之间的相似度，根据每对训练样本之间的相似度，得到每组候选解的适应度，并根据每组候选解的适应度，选取多组最优候选解，每对训练样本包括两篇由人工标注相似度的文本，最优候选解的适应度大于其他候选解的适应度。

可选的，第一选取子单元152根据每组候选解的适应度，选取多组最优候选解，包括：获取所有候选解的适应度总和，根据所有候选解的适应度总和和每组候选解的适应度，得到每组候选解的相对适应度，随机生成一个介于0和1之间的数值，并根据随机生成的数值选取多组最优候选解，对于其他过程可以参阅方法实施例部分的相关说明，对此本发明实施例不再阐述。

第二生成子单元153，用于对多组最优候选解中的第三阈值进行交叉变异，对多组最优候选解中的第四阈值进行交叉变异，得到多组新的候选解，并对多组新的候选解执行获取过程以从多组新的候选解中得到多组最优候选解直至满足预设条件。

第二选取子单元154，用于选取适应度大于其他最优候选解的适应度的最优候选解，所选取的最优候选解中的第三阈值作为第一阈值，所选取的最优候选解中的第四阈值作为第二阈值。

在本发明实施例中，第三阈值和第四阈值的取值介于0和1之间，且通过二进制编码方式表示，以使第三阈值对应的二进制字符串和第四阈值对应的二进制字符串分别作为一个染色体。如第三阈值对应的二进制字符串是0110，则其可以视为一个染色体，每个二进制字符视为染色体上的一个基因，相对应的，第二生成子单元可以包括：第一配对子单元、第一交换子单元、第一取反子单元、第一获得子单元、第二配对子单元、第二交换子单元、第二取反子单元、第二获得子单元和候选解获得子单元。

第一配对子单元，用于对多组最优候选解中的第三阈值对应的染色体进行随机配对。

第一交换子单元，用于根据第三阈值对应的染色体的长度，随机设置交叉点位置，并根据交叉点位置，交换随机配对的第三阈值对应的染色体之间的部分基因。

第一取反子单元，用于随机设置第三阈值对应的染色体中基因变异位置，并对基因变异位置处的基因进行取反操作。

第一获得子单元，用于在交换第三阈值对应的染色体之间的部分基因和对基因变异位置处的基因进行取反操作后，得到变化后的染色体对应的第三阈值。

第二配对子单元，用于对多组最优候选解中的第四阈值对应的染色体进行随机配对。

第二交换子单元，用于根据第四阈值对应的染色体的长度，随机设置交叉点位置，并根据交叉点位置，交换随机配对的第四阈值对应的染色体之间的部分基因。

第二取反子单元，用于随机设置第四阈值对应的染色体中基因变异位置，并对基因变异位置处的基因进行取反操作。

第二获得子单元，用于在交换第四阈值对应的染色体之间的部分基因和对基因变异位置处的基因进行取反操作后，得到变化后的染色体对应的第四阈值。

候选解获得子单元，用于根据变化后的染色体对应的第三阈值和变化后的染色体对应的第四阈值，得到多组新的候选解。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种文本处理方法，其特征在于，所述方法包括：

随机获取两个待检测文本；

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一类型相似度、所述第二类型相似度、第一阈值和第二阈值，得到所述两个待检测文本之间的相似度，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：预先得到与所述第一相似度算法对应的第一阈值和预先得到与所述第二相似度算法对应的第二阈值；

4.根据权利要求3所述的方法，其特征在于，所述根据所述每组候选解的适应度，选取多组最优候选解，包括：

获取所有候选解的适应度总和；

5.根据权利要求3所述的方法，其特征在于，所述第三阈值和所述第四阈值的取值介于0和1之间，且通过二进制编码方式表示，以使所述第三阈值对应的二进制字符串和所述第四阈值对应的二进制字符串分别作为一个染色体；

6.一种文本处理装置，其特征在于，所述装置包括：

文本获取单元，用于随机获取两个待检测文本；

7.根据权利要求6所述的装置，其特征在于，所述第二计算单元，用于根据所述第一类型相似度和所述第一阈值，得到所述两个待检测文本之间的第一相似度，根据所述第二类型相似度和所述第二阈值，得到所述两个待检测文本之间的第二相似度，并根据所述第一相似度、所述第二相似度、预设第一权重和预设第二权重，得到所述两个待检测文本之间的相似度。

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：获得单元，用于预先得到与所述第一相似度算法对应的第一阈值和预先得到与所述第二相似度算法对应的第二阈值；

9.根据权利要求8所述的装置，其特征在于，所述第一选取子单元根据所述每组候选解的适应度，选取多组最优候选解，包括：

10.根据权利要求8所述的装置，其特征在于，所述第三阈值和所述第四阈值的取值介于0和1之间，且通过二进制编码方式表示，以使所述第三阈值对应的二进制字符串和所述第四阈值对应的二进制字符串分别作为一个染色体；