CN109614610A

CN109614610A - 相似文本识别方法及装置

Info

Publication number: CN109614610A
Application number: CN201811425522.0A
Authority: CN
Inventors: 樊芳利
Original assignee: New H3C Big Data Technologies Co Ltd
Current assignee: New H3C Big Data Technologies Co Ltd
Priority date: 2018-11-27
Filing date: 2018-11-27
Publication date: 2019-04-12

Abstract

本公开涉及一种相似文本识别方法及装置，包括获取标注完成的文本对作为训练样本；根据所述训练样本，训练语义模型，所述语义模型的输出结果对应正样本或者负样本；采用所述语义模型从待识别文本中筛选出与目标文本相似的待定文本；采用字面距离模型从所述待定文本中筛选出目标文本的相似文本。通过语义模型加字面距离模型的瀑布式组合模型，根据本公开实施例的相似文本识别方法及装置能够提升相似文本识别的精度。

Description

相似文本识别方法及装置

技术领域

本公开涉及模式识别及分类技术领域，尤其涉及一种相似文本识别方法及装置。

背景技术

中文相似度应用广泛，在信息检索系统中为了能召回更多与检索词语相似的结果，可以用相似度来识别相似的词语，以此提高召回率；在自动问答中，可以通过相似度计算用户以自然语言的提问问句与语料库中问题的匹配程度，匹配度最高的问题对应的答案可以作为响应；在机器翻译中，会分析语句的相似度来完成双语的翻译；在自动文摘中，在提取文摘的过程中要利用相似度对语义相似的句子进行抽取。

对于中文相似度中的短文本相似度，相关技术中，采用编辑距离算法、余弦值法、SimHash法、汉明距离法以及CNN模型等方法计算短文本相似度。由于短文本长度较短，缺少丰富的上下文信息，相关技术中计算短文本相似度的方法的精度较低。

发明内容

有鉴于此，本公开提出了一种相似文本识别方法及装置，能够提高相似文本识别的精度。

根据本公开的一方面，提供了一种相似文本识别方法，包括获取标注完成的文本对作为训练样本；其中，所述文本对包括第一文本和第二文本，所述文本对的标注结果代表正样本时，所述第一文本和所述第二文本为相似文本，所述文本对的标注结果代表负样本时，所述第一文本和第二文本不是相似文本；根据所述训练样本，训练语义模型，所述语义模型的输出结果对应正样本或者负样本；采用所述语义模型从待识别文本中筛选出与目标文本相似的待定文本；采用字面距离模型从所述待定文本中筛选出目标文本的相似文本。

根据本公开的另一方面，提供了一种相似文本识别装置，包括获取模块，用于获取标注完成的文本对作为训练样本；其中，所述文本对包括第一文本和第二文本，所述文本对的标注结果代表正样本时，所述第一文本和所述第二文本为相似文本，所述文本对的标注结果代表负样本时，所述第一文本和第二文本不是相似文本；训练模块，用于根据所述训练样本，训练语义模型，所述语义模型的输出结果对应正样本或者负样本；第一筛选模块，用于采用所述语义模型从待识别文本中筛选出与目标文本相似的待定文本；第二筛选模块，用于采用字面距离模型从所述待定文本中筛选出目标文本的相似文本。

在本公开实施例中，根据标注完成的文本对训练语义模型，先采用语义模型识别出与目标文本相似的待定文本，再采用字面距离模型从待定文本中筛选出相似文本，通过语义模型加字面距离模型的瀑布式组合模型，提升相似文本识别的精度。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面，并且用于解释本公开的原理。

图1示出根据本公开一实施例的相似文本识别方法的流程图。

图2示出根据本公开实施例的模型融合示意图。

图3示出根据本公开一实施例的相似文本识别方法的流程图。

图4示出了余弦相似度的一个示例。

图5示出本公开实施例的第一文本和第二文本中各字符的LSF特征值的一个示例。

图6示出根据本公开一实施例的相似文本识别方法的流程图。

图7示出根据本公开一实施例的相似文本识别方法的流程图。

图8示出确定待定文本SimHash值的过程的一个示例。

图9示出根据本公开一实施例的相似文本识别装置的框图。

图10示出根据本公开一实施例的相似文本识别装置的框图。

图11是根据一示例性实施例示出的一种用于相似文本识别装置900的框图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

图1示出根据本公开一实施例的相似文本识别方法的流程图。该方法可以应用于服务器。如图1所示，该方法可包括：

步骤S11，获取标注完成的文本对作为训练样本。

步骤S12，根据所述训练样本，训练语义模型，所述语义模型的输出结果对应正样本或者负样本。

步骤S13，采用所述语义模型从待识别文本中筛选出与目标文本相似的待定文本。

步骤S14，采用字面距离模型从所述待定文本中筛选出目标文本的相似文本。

在本公开实施例中，将短文本相似度转换为文本分类问题，因此在进行语义分析之前，需要对文本对进行标注。标注出正样本和负样本，以便于机器学习。其中，文本对可包括第一文本和第二文本。本公开实施例对第一文本和第二文本均的内容不作限制。表1示出了示例性的语料，表1所示的语料均可以作为第一文本或者第二文本。

表1

极致操控宝马X6
	CS75四门隔音
凌度GTS内饰充满运动风格
	让人销魂的辣子肥肠！
梅香油爆虾
	迷迭香小土豆的做法
两外援狂飙110分！浙江双加时2分险胜北控
	奥斯卡之最——比利·怀尔德
维亚利：切尔西不应解雇穆里尼奥

在标注过程中，可以首先获取第一文本和第二文本，将获取的第一文本和第二文本组成文本对；在第一文本和第二文本相似时，可以将组成的文本对标注为正样本；在第一文本和第二文本不相似时，可以将组成的文本对标注为负样本。在一个示例中，文本对的标注结果可以包括1和0，其中1可以代表正样本，0可以代表负样本。在本公开实施例中，也可以采用其他的标识代表正样本和负样本，对此本公开不做限制。标注完成的文本对可以作为训练样本。表2示出了示例性的训练样本。

表2

第一文本	第二文本	标注结果
			我爱吃麻辣小龙虾	小龙虾是我的最爱，尤其是麻辣的。	1
如何学好机器学习	机器学习教程	1
			苹果用英文怎么说	苹果的英文叫法	1
迷迭香小土豆的做法	迷迭香小土豆怎么做	1
			小儿腹泻药	宝宝拉肚子药	1
极致操控宝马X6	梅香油爆虾	0
			冻饺子为什么更容易煮破？	刚做的肉丸子	0
好吃早饭近似吃补药	维亚利：切尔西不应解雇穆里尼奥	0

服务器可以根据训练样本，训练语义模型。该语义模型可以用于确定输入的两个文本是否为相似文本。该语义模型的输出结果对应正样本或者负样本；当该语义模型的输出结果对应正样本(例如输出结果为1)时，表示输入的两个文本为相似文本；当该语义模型的输出结果对应负样本(例如输出结果为0)时，表示输入的两个文本不是相似文本。在训练语义模型时，可以以第一文本的特征和第二文本的特征为输入，训练样本的标注结果为真值，对语义模型进行训练。

在一种可能的实现方式中，语义模型可以包括LSF-SCNN模型。LSF-SCNN模型的特征包括第一文本的特征和第二文本特征，其中，第一文本的特征包括第一文本各字符的特征，第二文本的特征包括第二文本各字符的特征。需要说明的是，本公开实施例的语义模型还可以为其他的分类模型，对此本公开不做限制。

在一个示例中，假设训练样本包括两个句子x1和x2，其中，x1为第一文本，x2为第二文本，且训练样本的标注结果为1。在根据该训练样本训练语义模型时，可以将句子x1的特征和句子x2的特征输入语义模型，得到句子x1和句子x2的相似度S和输出结果y。以0.5为相似度阈值。当S大于0.5时，y为1，代表句子x1和x2相似，对应于正样本。当S小于或者等于0.5时，y为0，代表句子x1和x2不相似，对应于负样本。可以根据一个训练集中的每个训练样本的标注结果(即真值)和针对每个训练样本的语义模型的输出结果y确定该语义模型预测的正确率(针对一个训练样本，如果真值和y一致，则预测正确，否则预测错误)，调整语义模型的参数，从而完成一次语义模型的训练。当使用调整参数后的语义模型重新对训练集(可以是一个全新的训练集，也可以是原来的训练集)中的每个训练样本进行预测，当预测的正确率达到预期时，语义模型训练完成。

待识别文本可以表示需要识别是否与目标文本相似的文本。待定文本可以表示通过语义模型筛选出的与目标文本相似的文本。例如，目标文本可以为用户提出的问题，待识别文本可以为题库中的题目，待定文本为通过语义模型筛选出的与用户提出的问题相似的题目。

可以将待识别文本和目标文本组成文本对，将待识别文本的特征和目标文本的特征输入语义模型中，根据语义模型的输出结果对应正样本还是负样本，从而确定待识别文本和目标文本是否相似。在待识别文本和目标文本相似时，可以将待识别文本确定为待定文本。

语义模型可以识别短文本之间的语义相似度，在语义上认为两个文本之间是相似的。但是语义分析也存在误差，难以避免一些字面错误。因此，在采用语义模型筛选出待定文本之后，可以采用字面距离模型从待定文本中筛选出目标文本的相似文本，从而避免一些字面上的错误。其中，字面距离模型可以用于表示根据字面距离确定文本相似度的模型。字面距离可以包括汉明距离、Jaccard系数和编辑距离等。

图2示出根据本公开实施例的模型融合示意图。如图2所示，可以将待识别文本和目标文本输入语义模型，将语义模型的筛选结果输入字面距离模型，根据字面距离模型的输出结果可以确定待识别文本是否为相似文本。

图3示出根据本公开一实施例的相似文本识别方法的流程图。如图3所示，步骤S12根据所述训练样本，训练语义模型可包括：

步骤S121，将所述文本对的第一文本和所述第二文本拆分成字符。

步骤S122，获取每个字符的字符特征向量，所述字符特征向量包括字向量和LSF特征值。

步骤S123，根据第一文本的每个字符的字符特征向量获取第一文本的文本特征矩阵，并根据第二文本的每个字符的字符特征向量获取第二文本的文本特征矩阵。

步骤S124，基于所述第一文本的文本特征矩阵、所述第二文本的文本特征矩阵，以及所述文本对的标注结果，训练所述LSF-SCNN模型。

文本中各字符的字符特征向量可以组成文本的文本特征矩阵。由于LSF-SCNN模型的特征为文本的特征，因此可以获取第一文本的文本特征矩阵和第二文本的文本特征矩阵，以训练LSF-SCNN模型。

字符特征向量可包括字向量和LSF特征值。在一种可能的实现方式中，针对文本对的每个字符，可以将该字符的LSF特征值拼接在该字符的字向量之后，得到该字符的字符特征向量。在一个示例中，可以在字向量的基础上增加一维，将LSF特征值添加至该增加的一维中，得到字符特征向量。

其中，字向量为可以表示字符的特征的向量，字向量的每一维的值可以代表一个具有一定语义和语法上解释的特征。其中，特征可以用于对字的基本要素(例如偏旁、部首、笔画、含义等)进行表征的各种信息。

在一种可能的实现方式中，可以匹配字向量表，获取文本对中每个字符的字向量。例如，根据word2vec训练完成的字向量表，对各字符进行id编码，得到各字符的字id。训练模型时，可以采用字符的字id匹配上述字向量表，得到字符的字向量。

LSF特征值可以用于表示文本之间的语义交互特征。

在一种可能的实现方式中，针对第一文本中的每个字符，可以确定该字符与第二文本中每个字符的余弦相似度，将余弦相似度的最大值确定为该字符的LSF特征值，以及针对第二文本中的每个字符，服务器可以确定该字符与第一文本中每个字符的余弦相似度，将余弦相似度的最大值确定为该字符的LSF特征值。

举例来说，第一文本为“小儿腹泻药”，第二文本为“宝宝拉肚子药”。假设字符之间的余弦相似度映射到1到10之间。以第一文本中的字符“腹”为例进行说明。针对第一文本中的字符“腹”，服务器可以确定该字符与第二文本“宝宝拉肚子药”中每个字符的余弦相似度。图4示出了余弦相似度的一个示例。如图4所示，第一文本中的字符“腹”与第二文本中的字符“肚”的余弦相似度为8，该余弦相似度为第一文本中的字符“腹”与第二文本中各字符的余弦相似度中的最大值。因此，可以确定第一文本中的字符“腹”的LSF特征值为8。图5示出本公开实施例的第一文本和第二文本中各字符的LSF特征值的一个示例。

表3示出字id和数值编码的示例。表4示出在表3的基础上，得到的字向量和LSF特征值的示例。其中，字向量的维度为300。在一个示例中，字符“我”的字id为230，根据该字id匹配训练完成的字向量表中的字id，得到字符“我”的字向量为[0.5，0.6……0.25，0.5]_1*300,，字符“我”的LSF特征值为5，可以将该字符的LSF特征值5拼接在该字符的字向量[0.5，0.6……0.25，0.5]_1*300之后，得到字符特征向量[0.5，0.6……0.25，0.5，5]_1*301。

表3

第一文本	[我，爱，吃，麻，辣，小，龙]
		字id	[230，16，511，14，1052，363]
LSF特征值	[5，7，9，6，4，8，8]

表4

第一文本	字向量	LSF特征值
			我	[0.5，0.6……0.25，0.5]<sub>1*300</sub>	5
爱	[0.7，0.8……0.32，0.3]<sub>1*300</sub>	7
			吃	[0.9，0.5……0.72，0.8]<sub>1*300</sub>	9
麻	[0.9，0.8……0.75，0.9]<sub>1*300</sub>	6
			辣	[0.2，0.6……0.22，0.6]<sub>1*300</sub>	4
小	[0.5，0.3……0.52，0.7]<sub>1*300</sub>	8
			龙	[0.4，0.7……0.23，0.9]<sub>1*300</sub>	8

可以根据第一文本的每个字符的字符特征向量获取第一文本的文本特征矩阵，并根据第二文本的每个字符的字符特征向量获取第二文本的文本特征矩阵。

之后，可以基于第一文本的文本特征矩阵、第二文本的文本特征矩阵以及文本对的标注结果，训练LSF-SCNN模型。其中，第一文本的文本特征矩阵和第二文本的文本特征矩阵可以作为LSF-SCNN模型的输入，文本对的标注结果可以用于监督LSF-SCNN模型的输出结果。以第一文本为例，可以对第一文本的各字符的字符特征向量(即对第一文本的文本特征矩阵的各列)进行跳跃卷积，然后采用K-Max采样技术从卷积结果中选取最大的前K个值，并取这K个值的均值作为最终的采样结果，记为第一文本的向量。之后，将第一文本的向量和第二文本的向量输入训练完成的相似度矩阵，得到第一文本和第二文本的相似度分数。最后，将第一文本的向量、第二文本的向量和相似度分数输入分类器，得到第一文本与第二文本相似的概率。其中，训练完成的LSF-SCNN模型包括训练完成的相似度矩阵和分类器。

图6示出根据本公开一实施例的相似文本识别方法的流程图。如图6所示，步骤S13采用所述语义模型从待识别文本中筛选出与目标文本相似的待定文本可包括：

步骤S131，获取所述待识别文本的文本特征矩阵和所述目标文本的文本特征矩阵。

步骤S132，将所述待识别文本的文本特征矩阵和所述目标文本的文本特征矩阵输入训练完成的LSF-SCNN模型。

步骤S133，当训练完成的LSF-SCNN模型的输出结果对应正样本时，确定所述待识别文本为待定文本。

服务器可以将待识别文本和目标文本差分成字符，获取每个字符的特征向量，根据待识别文本的每个字符的字符特征向量获取待识别文本的文本特征矩阵，并根据目标文本的每个字符的字符特征向量获取目标文本的文本特征矩阵。之后，服务器可以将待识别文本的文本特征矩阵和目标文本的文本特征矩阵，输入训练完成的LSF-SCNN模型，得到待识别文本与目标文本的相似度。表6示出待识别文本与目标文本相似度的示例。

表6

服务器可以根据相似度与相似度阈值的比较结果，确定输出结果。例如，当相似度大于相似度阈值时，服务器可以确定输出结果为1(对应正样本)；当相似度小于或者等于相似度阈值时，服务器可以确定输出结果为0(对应负样本)。其中，相似度阈值可以根据需要进行设置，例如可以设置为0.5，对此本公开不做限制。

当输出结果对应正样本时，表明待识别文本与目标文本相似，服务器可以确定该待识别文本为待定文本。

后续，服务器可以进一步对待定文本进行处理(例如步骤S14的处理)，进一步提升相似文本的准确度。

图7示出根据本公开一实施例的相似文本识别方法的流程图。如图7所示，步骤S14采用字面距离模型从所述待定文本中筛选出目标文本的相似文本可包括：

步骤S141，获取待定文本的SimHash值和所述目标文本的SimHash值。

步骤S142，根据所述待定文本的SimHash值和所述目标文本的SimHash值，确定所述待定文本与所述目标文本之间的字面距离。

步骤S143，当所述字面距离在距离阈值内时，确定所述待定文本为相似文本。

SimHash是一种局部敏感的哈希，通过SimHash产生的SimHash值在一定程度上可以表征原内容的相似度。

在一种可能的实现方式中，确定待定文本SimHash值的过程可以包括：对待定文本进行分词处理；针对每个分词：确定该分词的权重；通过哈希算法确定该分词的哈希值；根据该分词的权重对该分词的哈希值进行加权，形成该分词的加权序列；将各分词的加权序列中各位置的加权值分别进行累加，得到待定文本对应的序列；对于待定文本对应的序列进行降维，得到待定文本的SimHash值，具体包括针对该序列的每一位，若该位的值大于0，则将该位变为1，若该位的值小于或者等于0，则将该为变为0。

以待定为本为“美国51区雇员称内部有9架飞碟，曾看见灰色外星人”为例。图8示出确定待定文本SimHash值的过程的一个示例。其中，假设权重分为5个级别(1至5)。待定文本“美国51区雇员称内部有9架飞碟，曾看见灰色外星人”，对应分词包括：美国(4)、51区(5)、雇员(3)、称(1)内部(2)、有(1)、9架(3)、飞碟(5)、曾(1)、看见(3)、灰色(4)和外星人(5)，括号里是代表分词在整个句子里重要程度，数字越大越重要。如图8所示，该待定文本的SimHash值为101011。

确定目标文本的SimHash值的过程可以参照确定待定文本SimHash值的过程，这里不再赘述。

距离阈值可以根据需要设置，对此本公开不做限制。

在一种可能的实现方式中，可以根据待定文本的SimHash值和目标文本的SimHash值，确定待定文本和目标文本之间的汉明距离；当汉明距离在距离阈值内时，确定待定文本为相似文本。

汉明距离(Hamming Distance)表示两个等长字符串在对应位置上不同字符的数量，可以以d(x，y)表示字符x和y之间的汉明距离。汉明距离较小时，表明待定文本和目标文本的相似度较高；汉明距离较大时，表明待定文本和目标文本的相似度较低。可以在汉明距离小于某个值确定待定文本为相似文本。

在一个示例中，距离阈值可以设置为3。以如图8所示的待定文本的SimHash值为101011为例，假设目标文本的SimHash值为101001，待定文本的SimHash和目标文本的SimHash值进行异或运算得到的结果中1的个数为1，小于距离阈值3，即待定文本和目标文本之间的汉明距离为1且在距离阈值3内，可以确定待定文本为目标文本的相似文本。假设目标文本的SimHash为010101，待定文本的SimHash值和目标文本的SimHash值进行异或运算得到的结果中1的个数为5，大于距离阈值3，即待定文本和目标文本之间的汉明距离为5且不在距离阈值3内，可以确定待定文本不是目标文本的相似文本。

在一种可能的实现方式中，可以根据待定文本的SimHash值和目标文本的SimHash值，确定待定文本和目标文本之间的余弦距离、编辑距离、最长公共子序列等字面距离；当余弦距离、编辑距离、最长公共子序列在对应距离阈值内时，确定待定文本为相似文本。需要说明的是，不同的字面距离，对应的距离阈值不同。

图9示出根据本公开一实施例的相似文本识别装置的框图。如图9所示，该装置30可包括：

获取模块31，用于获取标注完成的文本对作为训练样本；其中，所述文本对包括第一文本和第二文本，所述文本对的标注结果代表正样本时，所述第一文本和所述第二文本为相似文本，所述文本对的标注结果代表负样本时，所述第一文本和第二文本不是相似文本；

训练模块32，用于根据所述训练样本，训练语义模型，所述语义模型的输出结果对应正样本或者负样本；

第一筛选模块33，用于采用所述语义模型从待识别文本中筛选出与目标文本相似的待定文本；

第二筛选模块34，用于采用字面距离模型从所述待定文本中筛选出目标文本的相似文本。

在一种可能的实现方式中，所述语义模型包括LSF-SCNN模型。

图10示出根据本公开一实施例的相似文本识别装置的框图。如图10所示，在一种可能的实现方式中，所述训练模块32可包括：

拆分子模块321，用于将所述文本对的第一文本和所述第二文本拆分成字符；

第一获取子模块322，用于获取每个字符的字符特征向量，所述字符特征向量包括字向量和LSF特征值；

第二获取子模块323，用于根据第一文本的每个字符的字符特征向量获取第一文本的文本特征矩阵，并根据第二文本的每个字符的字符特征向量获取第二文本的文本特征矩阵；

训练子模块324，用于基于所述第一文本的文本特征矩阵、所述第二文本的文本特征矩阵，以及所述文本对的标注结果，训练所述LSF-SCNN模型。

在一种可能的实现方式中，所述向量获取子模块具体用于：

匹配字向量表，获取文本对中每个字符的字向量；

针对第一文本中的每个字符，确定该字符与第二文本中每个字符的余弦相似度，将余弦相似度的最大值确定为该字符的LSF特征值，以及针对第二文本中的每个字符，确定该字符与第一文本中每个字符的余弦相似度，将余弦相似度的最大值确定为该字符的LSF特征值；

针对文本对的每个字符，将该字符的LSF特征值拼接在该字符的字向量之后，得到该字符的字符特征向量。

在一种可能的实现方式中，所述第一筛选模块33可包括：

第三获取子模块331，用于获取所述待识别文本的文本特征矩阵和所述目标文本的文本特征矩阵；

输入子模块332，用于将所述待识别文本的文本特征矩阵和所述目标文本的文本特征矩阵输入训练完成的LSF-SCNN模型；

第一确定子模块333，用于当训练完成的LSF-SCNN模型的输出结果对应正样本时，确定所述待识别文本为待定文本。

在一种可能的实现方式中，所述第二筛选模块34可包括：

第四获取子模块341，用于获取待定文本的SimHash值和所述目标文本的SimHash值；

第二确定子模块342，用于根据所述待定文本的SimHash值和所述目标文本的SimHash值，确定所述待定文本与所述目标文本之间的字面距离；

第三确定子模块343，用于当所述字面距离在距离阈值内时，确定所述待定文本为相似文本。

图11是根据一示例性实施例示出的一种用于相似文本识别装置900的框图。参照图11，该装置900可包括处理器901、存储有机器可执行指令的机器可读存储介质902。处理器901与机器可读存储介质902可经由系统总线903通信。并且，处理器901通过读取机器可读存储介质902中与相似文本识别逻辑对应的机器可执行指令以执行上文所述的相似文本识别方法。

本文中提到的机器可读存储介质902可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：RAM(Radom Access Memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种相似文本识别方法，其特征在于，所述方法包括：

获取标注完成的文本对作为训练样本；

其中，所述文本对包括第一文本和第二文本，所述文本对的标注结果代表正样本时，所述第一文本和所述第二文本为相似文本，所述文本对的标注结果代表负样本时，所述第一文本和第二文本不是相似文本；

根据所述训练样本，训练语义模型，所述语义模型的输出结果对应正样本或者负样本；

采用所述语义模型从待识别文本中筛选出与目标文本相似的待定文本；

采用字面距离模型从所述待定文本中筛选出目标文本的相似文本。

2.根据权利要求1所述的方法，其特征在于，所述语义模型包括LSF-SCNN模型，

根据所述训练样本，训练语义模型包括：

将所述文本对的第一文本和所述第二文本拆分成字符；

获取每个字符的字符特征向量，所述字符特征向量包括字向量和LSF特征值；

根据第一文本的每个字符的字符特征向量获取第一文本的文本特征矩阵，并根据第二文本的每个字符的字符特征向量获取第二文本的文本特征矩阵；

基于所述第一文本的文本特征矩阵、所述第二文本的文本特征矩阵，以及所述文本对的标注结果，训练所述LSF-SCNN模型。

3.根据权利要求2所述的方法，其特征在于，获取每个字符的字符特征向量包括：

匹配字向量表，获取文本对中每个字符的字向量；

4.根据权利要求3所述的方法，其特征在于，采用所述语义模型从待识别文本中筛选出与目标文本相似的待定文本，包括：

获取所述待识别文本的文本特征矩阵和所述目标文本的文本特征矩阵；

将所述待识别文本的文本特征矩阵和所述目标文本的文本特征矩阵输入训练完成的LSF-SCNN模型；

当训练完成的LSF-SCNN模型的输出结果对应正样本时，确定所述待识别文本为待定文本。

5.根据权利要求1所述的方法，其特征在于，采用字面距离模型从所述待定文本中筛选出目标文本的相似文本，包括：

获取待定文本的SimHash值和所述目标文本的SimHash值；

根据所述待定文本的SimHash值和所述目标文本的SimHash值，确定所述待定文本与所述目标文本之间的字面距离；

当所述字面距离在距离阈值内时，确定所述待定文本为相似文本。

6.一种相似文本识别装置，其特征在于，所述装置包括：

获取模块，用于获取标注完成的文本对作为训练样本；

训练模块，用于根据所述训练样本，训练语义模型，所述语义模型的输出结果对应正样本或者负样本；

第一筛选模块，用于采用所述语义模型从待识别文本中筛选出与目标文本相似的待定文本；

第二筛选模块，用于采用字面距离模型从所述待定文本中筛选出目标文本的相似文本。

7.根据权利要求6所述的装置，其特征在于，所述语义模型包括LSF-SCNN模型，所述训练模块包括：

拆分子模块，用于将所述文本对的第一文本和所述第二文本拆分成字符；

第一获取子模块，用于获取每个字符的字符特征向量，所述字符特征向量包括字向量和LSF特征值；

第二获取子模块，用于根据第一文本的每个字符的字符特征向量获取第一文本的文本特征矩阵，并根据第二文本的每个字符的字符特征向量获取第二文本的文本特征矩阵；

训练子模块，用于基于所述第一文本的文本特征矩阵、所述第二文本的文本特征矩阵，以及所述文本对的标注结果，训练所述LSF-SCNN模型。

8.根据权利要求7所述的装置，其特征在于，所述向量获取子模块具体用于：

匹配字向量表，获取文本对中每个字符的字向量；

9.根据权利要求8所述的装置，其特征在于，所述第一筛选模块包括：

第三获取子模块，用于获取所述待识别文本的文本特征矩阵和所述目标文本的文本特征矩阵；

输入子模块，用于将所述待识别文本的文本特征矩阵和所述目标文本的文本特征矩阵输入训练完成的LSF-SCNN模型；

第一确定子模块，用于当训练完成的LSF-SCNN模型的输出结果对应正样本时，确定所述待识别文本为待定文本。

10.根据权利要求6所述的装置，其特征在于，所述第二筛选模块包括：

第四获取子模块，用于获取待定文本的SimHash值和所述目标文本的SimHash值；

第二确定子模块，用于根据所述待定文本的SimHash值和所述目标文本的SimHash值，确定所述待定文本与所述目标文本之间的字面距离；

第三确定子模块，用于当所述字面距离在距离阈值内时，确定所述待定文本为相似文本。