CN109614610A - 相似文本识别方法及装置 - Google Patents

相似文本识别方法及装置 Download PDF

Info

Publication number
CN109614610A
CN109614610A CN201811425522.0A CN201811425522A CN109614610A CN 109614610 A CN109614610 A CN 109614610A CN 201811425522 A CN201811425522 A CN 201811425522A CN 109614610 A CN109614610 A CN 109614610A
Authority
CN
China
Prior art keywords
text
character
undetermined
similar
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811425522.0A
Other languages
English (en)
Inventor
樊芳利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Big Data Technologies Co Ltd
Original Assignee
New H3C Big Data Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Big Data Technologies Co Ltd filed Critical New H3C Big Data Technologies Co Ltd
Priority to CN201811425522.0A priority Critical patent/CN109614610A/zh
Publication of CN109614610A publication Critical patent/CN109614610A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种相似文本识别方法及装置,包括获取标注完成的文本对作为训练样本;根据所述训练样本,训练语义模型,所述语义模型的输出结果对应正样本或者负样本;采用所述语义模型从待识别文本中筛选出与目标文本相似的待定文本;采用字面距离模型从所述待定文本中筛选出目标文本的相似文本。通过语义模型加字面距离模型的瀑布式组合模型,根据本公开实施例的相似文本识别方法及装置能够提升相似文本识别的精度。

Description

相似文本识别方法及装置
技术领域
本公开涉及模式识别及分类技术领域,尤其涉及一种相似文本识别方法及装置。
背景技术
中文相似度应用广泛,在信息检索系统中为了能召回更多与检索词语相似的结果,可以用相似度来识别相似的词语,以此提高召回率;在自动问答中,可以通过相似度计算用户以自然语言的提问问句与语料库中问题的匹配程度,匹配度最高的问题对应的答案可以作为响应;在机器翻译中,会分析语句的相似度来完成双语的翻译;在自动文摘中,在提取文摘的过程中要利用相似度对语义相似的句子进行抽取。
对于中文相似度中的短文本相似度,相关技术中,采用编辑距离算法、余弦值法、SimHash法、汉明距离法以及CNN模型等方法计算短文本相似度。由于短文本长度较短,缺少丰富的上下文信息,相关技术中计算短文本相似度的方法的精度较低。
发明内容
有鉴于此,本公开提出了一种相似文本识别方法及装置,能够提高相似文本识别的精度。
根据本公开的一方面,提供了一种相似文本识别方法,包括获取标注完成的文本对作为训练样本;其中,所述文本对包括第一文本和第二文本,所述文本对的标注结果代表正样本时,所述第一文本和所述第二文本为相似文本,所述文本对的标注结果代表负样本时,所述第一文本和第二文本不是相似文本;根据所述训练样本,训练语义模型,所述语义模型的输出结果对应正样本或者负样本;采用所述语义模型从待识别文本中筛选出与目标文本相似的待定文本;采用字面距离模型从所述待定文本中筛选出目标文本的相似文本。
根据本公开的另一方面,提供了一种相似文本识别装置,包括获取模块,用于获取标注完成的文本对作为训练样本;其中,所述文本对包括第一文本和第二文本,所述文本对的标注结果代表正样本时,所述第一文本和所述第二文本为相似文本,所述文本对的标注结果代表负样本时,所述第一文本和第二文本不是相似文本;训练模块,用于根据所述训练样本,训练语义模型,所述语义模型的输出结果对应正样本或者负样本;第一筛选模块,用于采用所述语义模型从待识别文本中筛选出与目标文本相似的待定文本;第二筛选模块,用于采用字面距离模型从所述待定文本中筛选出目标文本的相似文本。
在本公开实施例中,根据标注完成的文本对训练语义模型,先采用语义模型识别出与目标文本相似的待定文本,再采用字面距离模型从待定文本中筛选出相似文本,通过语义模型加字面距离模型的瀑布式组合模型,提升相似文本识别的精度。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出根据本公开一实施例的相似文本识别方法的流程图。
图2示出根据本公开实施例的模型融合示意图。
图3示出根据本公开一实施例的相似文本识别方法的流程图。
图4示出了余弦相似度的一个示例。
图5示出本公开实施例的第一文本和第二文本中各字符的LSF特征值的一个示例。
图6示出根据本公开一实施例的相似文本识别方法的流程图。
图7示出根据本公开一实施例的相似文本识别方法的流程图。
图8示出确定待定文本SimHash值的过程的一个示例。
图9示出根据本公开一实施例的相似文本识别装置的框图。
图10示出根据本公开一实施例的相似文本识别装置的框图。
图11是根据一示例性实施例示出的一种用于相似文本识别装置900的框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
图1示出根据本公开一实施例的相似文本识别方法的流程图。该方法可以应用于服务器。如图1所示,该方法可包括:
步骤S11,获取标注完成的文本对作为训练样本。
步骤S12,根据所述训练样本,训练语义模型,所述语义模型的输出结果对应正样本或者负样本。
步骤S13,采用所述语义模型从待识别文本中筛选出与目标文本相似的待定文本。
步骤S14,采用字面距离模型从所述待定文本中筛选出目标文本的相似文本。
在本公开实施例中,根据标注完成的文本对训练语义模型,先采用语义模型识别出与目标文本相似的待定文本,再采用字面距离模型从待定文本中筛选出相似文本,通过语义模型加字面距离模型的瀑布式组合模型,提升相似文本识别的精度。
在本公开实施例中,将短文本相似度转换为文本分类问题,因此在进行语义分析之前,需要对文本对进行标注。标注出正样本和负样本,以便于机器学习。其中,文本对可包括第一文本和第二文本。本公开实施例对第一文本和第二文本均的内容不作限制。表1示出了示例性的语料,表1所示的语料均可以作为第一文本或者第二文本。
表1
极致操控宝马X6
CS75四门隔音
凌度GTS内饰充满运动风格
让人销魂的辣子肥肠!
梅香油爆虾
迷迭香小土豆的做法
两外援狂飙110分!浙江双加时2分险胜北控
奥斯卡之最——比利·怀尔德
维亚利:切尔西不应解雇穆里尼奥
在标注过程中,可以首先获取第一文本和第二文本,将获取的第一文本和第二文本组成文本对;在第一文本和第二文本相似时,可以将组成的文本对标注为正样本;在第一文本和第二文本不相似时,可以将组成的文本对标注为负样本。在一个示例中,文本对的标注结果可以包括1和0,其中1可以代表正样本,0可以代表负样本。在本公开实施例中,也可以采用其他的标识代表正样本和负样本,对此本公开不做限制。标注完成的文本对可以作为训练样本。表2示出了示例性的训练样本。
表2
第一文本 第二文本 标注结果
我爱吃麻辣小龙虾 小龙虾是我的最爱,尤其是麻辣的。 1
如何学好机器学习 机器学习教程 1
苹果用英文怎么说 苹果的英文叫法 1
迷迭香小土豆的做法 迷迭香小土豆怎么做 1
小儿腹泻药 宝宝拉肚子药 1
极致操控宝马X6 梅香油爆虾 0
冻饺子为什么更容易煮破? 刚做的肉丸子 0
好吃早饭近似吃补药 维亚利:切尔西不应解雇穆里尼奥 0
服务器可以根据训练样本,训练语义模型。该语义模型可以用于确定输入的两个文本是否为相似文本。该语义模型的输出结果对应正样本或者负样本;当该语义模型的输出结果对应正样本(例如输出结果为1)时,表示输入的两个文本为相似文本;当该语义模型的输出结果对应负样本(例如输出结果为0)时,表示输入的两个文本不是相似文本。在训练语义模型时,可以以第一文本的特征和第二文本的特征为输入,训练样本的标注结果为真值,对语义模型进行训练。
在一种可能的实现方式中,语义模型可以包括LSF-SCNN模型。LSF-SCNN模型的特征包括第一文本的特征和第二文本特征,其中,第一文本的特征包括第一文本各字符的特征,第二文本的特征包括第二文本各字符的特征。需要说明的是,本公开实施例的语义模型还可以为其他的分类模型,对此本公开不做限制。
在一个示例中,假设训练样本包括两个句子x1和x2,其中,x1为第一文本,x2为第二文本,且训练样本的标注结果为1。在根据该训练样本训练语义模型时,可以将句子x1的特征和句子x2的特征输入语义模型,得到句子x1和句子x2的相似度S和输出结果y。以0.5为相似度阈值。当S大于0.5时,y为1,代表句子x1和x2相似,对应于正样本。当S小于或者等于0.5时,y为0,代表句子x1和x2不相似,对应于负样本。可以根据一个训练集中的每个训练样本的标注结果(即真值)和针对每个训练样本的语义模型的输出结果y确定该语义模型预测的正确率(针对一个训练样本,如果真值和y一致,则预测正确,否则预测错误),调整语义模型的参数,从而完成一次语义模型的训练。当使用调整参数后的语义模型重新对训练集(可以是一个全新的训练集,也可以是原来的训练集)中的每个训练样本进行预测,当预测的正确率达到预期时,语义模型训练完成。
待识别文本可以表示需要识别是否与目标文本相似的文本。待定文本可以表示通过语义模型筛选出的与目标文本相似的文本。例如,目标文本可以为用户提出的问题,待识别文本可以为题库中的题目,待定文本为通过语义模型筛选出的与用户提出的问题相似的题目。
可以将待识别文本和目标文本组成文本对,将待识别文本的特征和目标文本的特征输入语义模型中,根据语义模型的输出结果对应正样本还是负样本,从而确定待识别文本和目标文本是否相似。在待识别文本和目标文本相似时,可以将待识别文本确定为待定文本。
语义模型可以识别短文本之间的语义相似度,在语义上认为两个文本之间是相似的。但是语义分析也存在误差,难以避免一些字面错误。因此,在采用语义模型筛选出待定文本之后,可以采用字面距离模型从待定文本中筛选出目标文本的相似文本,从而避免一些字面上的错误。其中,字面距离模型可以用于表示根据字面距离确定文本相似度的模型。字面距离可以包括汉明距离、Jaccard系数和编辑距离等。
图2示出根据本公开实施例的模型融合示意图。如图2所示,可以将待识别文本和目标文本输入语义模型,将语义模型的筛选结果输入字面距离模型,根据字面距离模型的输出结果可以确定待识别文本是否为相似文本。
图3示出根据本公开一实施例的相似文本识别方法的流程图。如图3所示,步骤S12根据所述训练样本,训练语义模型可包括:
步骤S121,将所述文本对的第一文本和所述第二文本拆分成字符。
步骤S122,获取每个字符的字符特征向量,所述字符特征向量包括字向量和LSF特征值。
步骤S123,根据第一文本的每个字符的字符特征向量获取第一文本的文本特征矩阵,并根据第二文本的每个字符的字符特征向量获取第二文本的文本特征矩阵。
步骤S124,基于所述第一文本的文本特征矩阵、所述第二文本的文本特征矩阵,以及所述文本对的标注结果,训练所述LSF-SCNN模型。
文本中各字符的字符特征向量可以组成文本的文本特征矩阵。由于LSF-SCNN模型的特征为文本的特征,因此可以获取第一文本的文本特征矩阵和第二文本的文本特征矩阵,以训练LSF-SCNN模型。
字符特征向量可包括字向量和LSF特征值。在一种可能的实现方式中,针对文本对的每个字符,可以将该字符的LSF特征值拼接在该字符的字向量之后,得到该字符的字符特征向量。在一个示例中,可以在字向量的基础上增加一维,将LSF特征值添加至该增加的一维中,得到字符特征向量。
其中,字向量为可以表示字符的特征的向量,字向量的每一维的值可以代表一个具有一定语义和语法上解释的特征。其中,特征可以用于对字的基本要素(例如偏旁、部首、笔画、含义等)进行表征的各种信息。
在一种可能的实现方式中,可以匹配字向量表,获取文本对中每个字符的字向量。例如,根据word2vec训练完成的字向量表,对各字符进行id编码,得到各字符的字id。训练模型时,可以采用字符的字id匹配上述字向量表,得到字符的字向量。
LSF特征值可以用于表示文本之间的语义交互特征。
在一种可能的实现方式中,针对第一文本中的每个字符,可以确定该字符与第二文本中每个字符的余弦相似度,将余弦相似度的最大值确定为该字符的LSF特征值,以及针对第二文本中的每个字符,服务器可以确定该字符与第一文本中每个字符的余弦相似度,将余弦相似度的最大值确定为该字符的LSF特征值。
举例来说,第一文本为“小儿腹泻药”,第二文本为“宝宝拉肚子药”。假设字符之间的余弦相似度映射到1到10之间。以第一文本中的字符“腹”为例进行说明。针对第一文本中的字符“腹”,服务器可以确定该字符与第二文本“宝宝拉肚子药”中每个字符的余弦相似度。图4示出了余弦相似度的一个示例。如图4所示,第一文本中的字符“腹”与第二文本中的字符“肚”的余弦相似度为8,该余弦相似度为第一文本中的字符“腹”与第二文本中各字符的余弦相似度中的最大值。因此,可以确定第一文本中的字符“腹”的LSF特征值为8。图5示出本公开实施例的第一文本和第二文本中各字符的LSF特征值的一个示例。
表3示出字id和数值编码的示例。表4示出在表3的基础上,得到的字向量和LSF特征值的示例。其中,字向量的维度为300。在一个示例中,字符“我”的字id为230,根据该字id匹配训练完成的字向量表中的字id,得到字符“我”的字向量为[0.5,0.6……0.25,0.5]1*300,,字符“我”的LSF特征值为5,可以将该字符的LSF特征值5拼接在该字符的字向量[0.5,0.6……0.25,0.5]1*300之后,得到字符特征向量[0.5,0.6……0.25,0.5,5]1*301
表3
第一文本 [我,爱,吃,麻,辣,小,龙]
字id [230,16,511,14,1052,363]
LSF特征值 [5,7,9,6,4,8,8]
表4
第一文本 字向量 LSF特征值
[0.5,0.6……0.25,0.5]<sub>1*300</sub> 5
[0.7,0.8……0.32,0.3]<sub>1*300</sub> 7
[0.9,0.5……0.72,0.8]<sub>1*300</sub> 9
[0.9,0.8……0.75,0.9]<sub>1*300</sub> 6
[0.2,0.6……0.22,0.6]<sub>1*300</sub> 4
[0.5,0.3……0.52,0.7]<sub>1*300</sub> 8
[0.4,0.7……0.23,0.9]<sub>1*300</sub> 8
可以根据第一文本的每个字符的字符特征向量获取第一文本的文本特征矩阵,并根据第二文本的每个字符的字符特征向量获取第二文本的文本特征矩阵。
之后,可以基于第一文本的文本特征矩阵、第二文本的文本特征矩阵以及文本对的标注结果,训练LSF-SCNN模型。其中,第一文本的文本特征矩阵和第二文本的文本特征矩阵可以作为LSF-SCNN模型的输入,文本对的标注结果可以用于监督LSF-SCNN模型的输出结果。以第一文本为例,可以对第一文本的各字符的字符特征向量(即对第一文本的文本特征矩阵的各列)进行跳跃卷积,然后采用K-Max采样技术从卷积结果中选取最大的前K个值,并取这K个值的均值作为最终的采样结果,记为第一文本的向量。之后,将第一文本的向量和第二文本的向量输入训练完成的相似度矩阵,得到第一文本和第二文本的相似度分数。最后,将第一文本的向量、第二文本的向量和相似度分数输入分类器,得到第一文本与第二文本相似的概率。其中,训练完成的LSF-SCNN模型包括训练完成的相似度矩阵和分类器。
图6示出根据本公开一实施例的相似文本识别方法的流程图。如图6所示,步骤S13采用所述语义模型从待识别文本中筛选出与目标文本相似的待定文本可包括:
步骤S131,获取所述待识别文本的文本特征矩阵和所述目标文本的文本特征矩阵。
步骤S132,将所述待识别文本的文本特征矩阵和所述目标文本的文本特征矩阵输入训练完成的LSF-SCNN模型。
步骤S133,当训练完成的LSF-SCNN模型的输出结果对应正样本时,确定所述待识别文本为待定文本。
服务器可以将待识别文本和目标文本差分成字符,获取每个字符的特征向量,根据待识别文本的每个字符的字符特征向量获取待识别文本的文本特征矩阵,并根据目标文本的每个字符的字符特征向量获取目标文本的文本特征矩阵。之后,服务器可以将待识别文本的文本特征矩阵和目标文本的文本特征矩阵,输入训练完成的LSF-SCNN模型,得到待识别文本与目标文本的相似度。表6示出待识别文本与目标文本相似度的示例。
表6
服务器可以根据相似度与相似度阈值的比较结果,确定输出结果。例如,当相似度大于相似度阈值时,服务器可以确定输出结果为1(对应正样本);当相似度小于或者等于相似度阈值时,服务器可以确定输出结果为0(对应负样本)。其中,相似度阈值可以根据需要进行设置,例如可以设置为0.5,对此本公开不做限制。
当输出结果对应正样本时,表明待识别文本与目标文本相似,服务器可以确定该待识别文本为待定文本。
后续,服务器可以进一步对待定文本进行处理(例如步骤S14的处理),进一步提升相似文本的准确度。
图7示出根据本公开一实施例的相似文本识别方法的流程图。如图7所示,步骤S14采用字面距离模型从所述待定文本中筛选出目标文本的相似文本可包括:
步骤S141,获取待定文本的SimHash值和所述目标文本的SimHash值。
步骤S142,根据所述待定文本的SimHash值和所述目标文本的SimHash值,确定所述待定文本与所述目标文本之间的字面距离。
步骤S143,当所述字面距离在距离阈值内时,确定所述待定文本为相似文本。
SimHash是一种局部敏感的哈希,通过SimHash产生的SimHash值在一定程度上可以表征原内容的相似度。
在一种可能的实现方式中,确定待定文本SimHash值的过程可以包括:对待定文本进行分词处理;针对每个分词:确定该分词的权重;通过哈希算法确定该分词的哈希值;根据该分词的权重对该分词的哈希值进行加权,形成该分词的加权序列;将各分词的加权序列中各位置的加权值分别进行累加,得到待定文本对应的序列;对于待定文本对应的序列进行降维,得到待定文本的SimHash值,具体包括针对该序列的每一位,若该位的值大于0,则将该位变为1,若该位的值小于或者等于0,则将该为变为0。
以待定为本为“美国51区雇员称内部有9架飞碟,曾看见灰色外星人”为例。图8示出确定待定文本SimHash值的过程的一个示例。其中,假设权重分为5个级别(1至5)。待定文本“美国51区雇员称内部有9架飞碟,曾看见灰色外星人”,对应分词包括:美国(4)、51区(5)、雇员(3)、称(1)内部(2)、有(1)、9架(3)、飞碟(5)、曾(1)、看见(3)、灰色(4)和外星人(5),括号里是代表分词在整个句子里重要程度,数字越大越重要。如图8所示,该待定文本的SimHash值为101011。
确定目标文本的SimHash值的过程可以参照确定待定文本SimHash值的过程,这里不再赘述。
距离阈值可以根据需要设置,对此本公开不做限制。
在一种可能的实现方式中,可以根据待定文本的SimHash值和目标文本的SimHash值,确定待定文本和目标文本之间的汉明距离;当汉明距离在距离阈值内时,确定待定文本为相似文本。
汉明距离(Hamming Distance)表示两个等长字符串在对应位置上不同字符的数量,可以以d(x,y)表示字符x和y之间的汉明距离。汉明距离较小时,表明待定文本和目标文本的相似度较高;汉明距离较大时,表明待定文本和目标文本的相似度较低。可以在汉明距离小于某个值确定待定文本为相似文本。
在一个示例中,距离阈值可以设置为3。以如图8所示的待定文本的SimHash值为101011为例,假设目标文本的SimHash值为101001,待定文本的SimHash和目标文本的SimHash值进行异或运算得到的结果中1的个数为1,小于距离阈值3,即待定文本和目标文本之间的汉明距离为1且在距离阈值3内,可以确定待定文本为目标文本的相似文本。假设目标文本的SimHash为010101,待定文本的SimHash值和目标文本的SimHash值进行异或运算得到的结果中1的个数为5,大于距离阈值3,即待定文本和目标文本之间的汉明距离为5且不在距离阈值3内,可以确定待定文本不是目标文本的相似文本。
在一种可能的实现方式中,可以根据待定文本的SimHash值和目标文本的SimHash值,确定待定文本和目标文本之间的余弦距离、编辑距离、最长公共子序列等字面距离;当余弦距离、编辑距离、最长公共子序列在对应距离阈值内时,确定待定文本为相似文本。需要说明的是,不同的字面距离,对应的距离阈值不同。
图9示出根据本公开一实施例的相似文本识别装置的框图。如图9所示,该装置30可包括:
获取模块31,用于获取标注完成的文本对作为训练样本;其中,所述文本对包括第一文本和第二文本,所述文本对的标注结果代表正样本时,所述第一文本和所述第二文本为相似文本,所述文本对的标注结果代表负样本时,所述第一文本和第二文本不是相似文本;
训练模块32,用于根据所述训练样本,训练语义模型,所述语义模型的输出结果对应正样本或者负样本;
第一筛选模块33,用于采用所述语义模型从待识别文本中筛选出与目标文本相似的待定文本;
第二筛选模块34,用于采用字面距离模型从所述待定文本中筛选出目标文本的相似文本。
在本公开实施例中,根据标注完成的文本对训练语义模型,先采用语义模型识别出与目标文本相似的待定文本,再采用字面距离模型从待定文本中筛选出相似文本,通过语义模型加字面距离模型的瀑布式组合模型,提升相似文本识别的精度。
在一种可能的实现方式中,所述语义模型包括LSF-SCNN模型。
图10示出根据本公开一实施例的相似文本识别装置的框图。如图10所示,在一种可能的实现方式中,所述训练模块32可包括:
拆分子模块321,用于将所述文本对的第一文本和所述第二文本拆分成字符;
第一获取子模块322,用于获取每个字符的字符特征向量,所述字符特征向量包括字向量和LSF特征值;
第二获取子模块323,用于根据第一文本的每个字符的字符特征向量获取第一文本的文本特征矩阵,并根据第二文本的每个字符的字符特征向量获取第二文本的文本特征矩阵;
训练子模块324,用于基于所述第一文本的文本特征矩阵、所述第二文本的文本特征矩阵,以及所述文本对的标注结果,训练所述LSF-SCNN模型。
在一种可能的实现方式中,所述向量获取子模块具体用于:
匹配字向量表,获取文本对中每个字符的字向量;
针对第一文本中的每个字符,确定该字符与第二文本中每个字符的余弦相似度,将余弦相似度的最大值确定为该字符的LSF特征值,以及针对第二文本中的每个字符,确定该字符与第一文本中每个字符的余弦相似度,将余弦相似度的最大值确定为该字符的LSF特征值;
针对文本对的每个字符,将该字符的LSF特征值拼接在该字符的字向量之后,得到该字符的字符特征向量。
在一种可能的实现方式中,所述第一筛选模块33可包括:
第三获取子模块331,用于获取所述待识别文本的文本特征矩阵和所述目标文本的文本特征矩阵;
输入子模块332,用于将所述待识别文本的文本特征矩阵和所述目标文本的文本特征矩阵输入训练完成的LSF-SCNN模型;
第一确定子模块333,用于当训练完成的LSF-SCNN模型的输出结果对应正样本时,确定所述待识别文本为待定文本。
在一种可能的实现方式中,所述第二筛选模块34可包括:
第四获取子模块341,用于获取待定文本的SimHash值和所述目标文本的SimHash值;
第二确定子模块342,用于根据所述待定文本的SimHash值和所述目标文本的SimHash值,确定所述待定文本与所述目标文本之间的字面距离;
第三确定子模块343,用于当所述字面距离在距离阈值内时,确定所述待定文本为相似文本。
图11是根据一示例性实施例示出的一种用于相似文本识别装置900的框图。参照图11,该装置900可包括处理器901、存储有机器可执行指令的机器可读存储介质902。处理器901与机器可读存储介质902可经由系统总线903通信。并且,处理器901通过读取机器可读存储介质902中与相似文本识别逻辑对应的机器可执行指令以执行上文所述的相似文本识别方法。
本文中提到的机器可读存储介质902可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:RAM(Radom Access Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (10)

1.一种相似文本识别方法,其特征在于,所述方法包括:
获取标注完成的文本对作为训练样本;
其中,所述文本对包括第一文本和第二文本,所述文本对的标注结果代表正样本时,所述第一文本和所述第二文本为相似文本,所述文本对的标注结果代表负样本时,所述第一文本和第二文本不是相似文本;
根据所述训练样本,训练语义模型,所述语义模型的输出结果对应正样本或者负样本;
采用所述语义模型从待识别文本中筛选出与目标文本相似的待定文本;
采用字面距离模型从所述待定文本中筛选出目标文本的相似文本。
2.根据权利要求1所述的方法,其特征在于,所述语义模型包括LSF-SCNN模型,
根据所述训练样本,训练语义模型包括:
将所述文本对的第一文本和所述第二文本拆分成字符;
获取每个字符的字符特征向量,所述字符特征向量包括字向量和LSF特征值;
根据第一文本的每个字符的字符特征向量获取第一文本的文本特征矩阵,并根据第二文本的每个字符的字符特征向量获取第二文本的文本特征矩阵;
基于所述第一文本的文本特征矩阵、所述第二文本的文本特征矩阵,以及所述文本对的标注结果,训练所述LSF-SCNN模型。
3.根据权利要求2所述的方法,其特征在于,获取每个字符的字符特征向量包括:
匹配字向量表,获取文本对中每个字符的字向量;
针对第一文本中的每个字符,确定该字符与第二文本中每个字符的余弦相似度,将余弦相似度的最大值确定为该字符的LSF特征值,以及针对第二文本中的每个字符,确定该字符与第一文本中每个字符的余弦相似度,将余弦相似度的最大值确定为该字符的LSF特征值;
针对文本对的每个字符,将该字符的LSF特征值拼接在该字符的字向量之后,得到该字符的字符特征向量。
4.根据权利要求3所述的方法,其特征在于,采用所述语义模型从待识别文本中筛选出与目标文本相似的待定文本,包括:
获取所述待识别文本的文本特征矩阵和所述目标文本的文本特征矩阵;
将所述待识别文本的文本特征矩阵和所述目标文本的文本特征矩阵输入训练完成的LSF-SCNN模型;
当训练完成的LSF-SCNN模型的输出结果对应正样本时,确定所述待识别文本为待定文本。
5.根据权利要求1所述的方法,其特征在于,采用字面距离模型从所述待定文本中筛选出目标文本的相似文本,包括:
获取待定文本的SimHash值和所述目标文本的SimHash值;
根据所述待定文本的SimHash值和所述目标文本的SimHash值,确定所述待定文本与所述目标文本之间的字面距离;
当所述字面距离在距离阈值内时,确定所述待定文本为相似文本。
6.一种相似文本识别装置,其特征在于,所述装置包括:
获取模块,用于获取标注完成的文本对作为训练样本;
其中,所述文本对包括第一文本和第二文本,所述文本对的标注结果代表正样本时,所述第一文本和所述第二文本为相似文本,所述文本对的标注结果代表负样本时,所述第一文本和第二文本不是相似文本;
训练模块,用于根据所述训练样本,训练语义模型,所述语义模型的输出结果对应正样本或者负样本;
第一筛选模块,用于采用所述语义模型从待识别文本中筛选出与目标文本相似的待定文本;
第二筛选模块,用于采用字面距离模型从所述待定文本中筛选出目标文本的相似文本。
7.根据权利要求6所述的装置,其特征在于,所述语义模型包括LSF-SCNN模型,所述训练模块包括:
拆分子模块,用于将所述文本对的第一文本和所述第二文本拆分成字符;
第一获取子模块,用于获取每个字符的字符特征向量,所述字符特征向量包括字向量和LSF特征值;
第二获取子模块,用于根据第一文本的每个字符的字符特征向量获取第一文本的文本特征矩阵,并根据第二文本的每个字符的字符特征向量获取第二文本的文本特征矩阵;
训练子模块,用于基于所述第一文本的文本特征矩阵、所述第二文本的文本特征矩阵,以及所述文本对的标注结果,训练所述LSF-SCNN模型。
8.根据权利要求7所述的装置,其特征在于,所述向量获取子模块具体用于:
匹配字向量表,获取文本对中每个字符的字向量;
针对第一文本中的每个字符,确定该字符与第二文本中每个字符的余弦相似度,将余弦相似度的最大值确定为该字符的LSF特征值,以及针对第二文本中的每个字符,确定该字符与第一文本中每个字符的余弦相似度,将余弦相似度的最大值确定为该字符的LSF特征值;
针对文本对的每个字符,将该字符的LSF特征值拼接在该字符的字向量之后,得到该字符的字符特征向量。
9.根据权利要求8所述的装置,其特征在于,所述第一筛选模块包括:
第三获取子模块,用于获取所述待识别文本的文本特征矩阵和所述目标文本的文本特征矩阵;
输入子模块,用于将所述待识别文本的文本特征矩阵和所述目标文本的文本特征矩阵输入训练完成的LSF-SCNN模型;
第一确定子模块,用于当训练完成的LSF-SCNN模型的输出结果对应正样本时,确定所述待识别文本为待定文本。
10.根据权利要求6所述的装置,其特征在于,所述第二筛选模块包括:
第四获取子模块,用于获取待定文本的SimHash值和所述目标文本的SimHash值;
第二确定子模块,用于根据所述待定文本的SimHash值和所述目标文本的SimHash值,确定所述待定文本与所述目标文本之间的字面距离;
第三确定子模块,用于当所述字面距离在距离阈值内时,确定所述待定文本为相似文本。
CN201811425522.0A 2018-11-27 2018-11-27 相似文本识别方法及装置 Pending CN109614610A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811425522.0A CN109614610A (zh) 2018-11-27 2018-11-27 相似文本识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811425522.0A CN109614610A (zh) 2018-11-27 2018-11-27 相似文本识别方法及装置

Publications (1)

Publication Number Publication Date
CN109614610A true CN109614610A (zh) 2019-04-12

Family

ID=66005227

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811425522.0A Pending CN109614610A (zh) 2018-11-27 2018-11-27 相似文本识别方法及装置

Country Status (1)

Country Link
CN (1) CN109614610A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507350A (zh) * 2020-04-16 2020-08-07 腾讯科技(深圳)有限公司 一种文本识别方法和装置
CN112417147A (zh) * 2020-11-05 2021-02-26 腾讯科技(深圳)有限公司 训练样本的选取方法与装置
CN112560463A (zh) * 2020-12-15 2021-03-26 中国平安人寿保险股份有限公司 文本多标注方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866478A (zh) * 2014-02-21 2015-08-26 腾讯科技(深圳)有限公司 恶意文本的检测识别方法及装置
CN108280061A (zh) * 2018-01-17 2018-07-13 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866478A (zh) * 2014-02-21 2015-08-26 腾讯科技(深圳)有限公司 恶意文本的检测识别方法及装置
CN108280061A (zh) * 2018-01-17 2018-07-13 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GUO JIAHUI等: ""An enhanced convolutional neural network model for answer selection"", 《COMPUTER SCIENCE》 *
HARRY_128: "LSF-SCNN:一种基于CNN的短文本表达模型及相似度计算的全新优化模型", 《CSDN》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507350A (zh) * 2020-04-16 2020-08-07 腾讯科技(深圳)有限公司 一种文本识别方法和装置
CN111507350B (zh) * 2020-04-16 2024-01-05 腾讯科技(深圳)有限公司 一种文本识别方法和装置
CN112417147A (zh) * 2020-11-05 2021-02-26 腾讯科技(深圳)有限公司 训练样本的选取方法与装置
CN112560463A (zh) * 2020-12-15 2021-03-26 中国平安人寿保险股份有限公司 文本多标注方法、装置、设备及存储介质
CN112560463B (zh) * 2020-12-15 2023-08-04 中国平安人寿保险股份有限公司 文本多标注方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
JP7195365B2 (ja) 画像条件付きマスク言語モデリングを用いて画像認識のための畳み込みニューラルネットワークを訓練するための方法
US11604956B2 (en) Sequence-to-sequence prediction using a neural network model
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110209806B (zh) 文本分类方法、文本分类装置及计算机可读存储介质
CN109840287A (zh) 一种基于神经网络的跨模态信息检索方法和装置
CN109977199A (zh) 一种基于注意力池化机制的阅读理解方法
CN115485696A (zh) 机器学习模型的对抗预训练
Teng et al. Recognition of Chinese food using convolutional neural network
CN109614610A (zh) 相似文本识别方法及装置
CN110096572B (zh) 一种样本生成方法、装置及计算机可读介质
CN111599340A (zh) 一种多音字读音预测方法、装置及计算机可读存储介质
CN114168709B (zh) 一种基于轻量化预训练语言模型的文本分类方法
EP3912042A1 (en) A deep learning model for learning program embeddings
CN112417119A (zh) 一种基于深度学习的开放域问答预测方法
Kišš et al. AT-ST: self-training adaptation strategy for OCR in domains with limited transcriptions
Cai Automatic essay scoring with recurrent neural network
CN112949293B (zh) 一种相似文本生成方法、相似文本生成装置及智能设备
CN107122378B (zh) 对象处理方法、装置及移动终端
CN116910251A (zh) 基于bert模型的文本分类方法、装置、设备及介质
CN115080748B (zh) 一种基于带噪标签学习的弱监督文本分类方法和装置
Joshi et al. Word embeddings in low resource Gujarati language
CN109190703A (zh) 基于dnn的多态蠕虫特征码自动提取方法
Zheng et al. A novel hierarchical convolutional neural network for question answering over paragraphs
CN112685548B (zh) 问题回答方法以及电子设备、存储装置
CN115438220A (zh) 一种噪音鲁棒学习的跨语言跨模态检索方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190412

RJ01 Rejection of invention patent application after publication