CN110826337B - 一种短文本语义训练模型获取方法及相似度匹配算法 - Google Patents

一种短文本语义训练模型获取方法及相似度匹配算法 Download PDF

Info

Publication number
CN110826337B
CN110826337B CN201910949434.9A CN201910949434A CN110826337B CN 110826337 B CN110826337 B CN 110826337B CN 201910949434 A CN201910949434 A CN 201910949434A CN 110826337 B CN110826337 B CN 110826337B
Authority
CN
China
Prior art keywords
vector
word
training
semantic
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910949434.9A
Other languages
English (en)
Other versions
CN110826337A (zh
Inventor
王慧琴
李雨楠
张泽圣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Architecture and Technology
Original Assignee
Xian University of Architecture and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Architecture and Technology filed Critical Xian University of Architecture and Technology
Priority to CN201910949434.9A priority Critical patent/CN110826337B/zh
Publication of CN110826337A publication Critical patent/CN110826337A/zh
Application granted granted Critical
Publication of CN110826337B publication Critical patent/CN110826337B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种短文本语义训练模型获取方法及相似度匹配算法,将FastText词向量和改进的词加权TF‑IDF相结合作为正向和反向LSTM神经网络的输入,主要包括以下步骤:首先根据FastText中的N‑gram模型构建训练文本的词典集合模型,然后引入词加权的TF‑IDF模型,将构建的模型作为下一层神经网络的输入,训练语句相似度,用项目合作公司提供的测试数据对该模型进行验证,试验结果表明,本发明满足文本语义相似度匹配。

Description

一种短文本语义训练模型获取方法及相似度匹配算法
技术领域
本发明属于自然语言处理领域,涉及一种短文本语义训练模型获取方法及相似度匹配算法。
背景技术
在全新互联网时代提出的设想和建设中,互联网将理解用户需求并为之提供服务,而智能问答也成为一大研究热点,它结合了多种人工智能技术,提供给用户良好、便捷的操作体验,快速、准确地回答用户的咨询问题。语句相似度计算在自然语言处理的各个领域中都有非常重要且实际的意义,如文本挖掘,机器翻译等,因此它成为智能问答中的核心技术之一。在智能问答系统中,需要将用户所提出的问题与标准FAQ之间进行语义相似度匹配,并且在标准FAQ中匹配出最准确的答案,返回给用户。
目前语句相似度计算的主要方法有:基于字面匹配的方法、基于知识库的语义匹配的方法、基于语义分析的概率主题模型匹配的方法和基于训练样本库的语义相似度匹配方法。这些方法目前所存在的主要问题有:1)仅仅是简单的将文本表示为向量,不具有语义信息,还需要人工设定停用词训练样本库。2)需要许多NLP资源如词性标注、词法数据库,词语列表等,因此许多语言由于资源不足而仍处于发展阶段。3)没有考虑到词与词之间的位置关系,受样本种类限制较大。4)没有利用全局信息进行向量表示。
发明内容
针对现有技术中的缺陷和不足,本发明提供了一种短文本语义训练模型获取方法及相似度匹配算法,解决了现有技术中存在的上述问题。采取对用户输入的问题或者候选问句按照2-gram格式进行组合,根据改进的TF-IDF对于重点词向量进行加权,并且通过正向和反向LSTM模型从正反两个方向对语句进行语义学习,然后通过softmax函数将用户问句与已知文本进行相似度计算并转换为后验概率,从而反馈给用户准确的答案。
为达到上述目的,本发明采取如下的技术方案:
本发明提供一种短文本语义训练模型获取方法,该方法根据FastText获取训练样本库的向量,融合词加权改进型TF-IDF算法,通过正向和反向LSTM神经网络进行训练样本库的特征向量的获取,通过概率函数计算得到训练样本的语义特征向量表示的训练模型;该方法具体包括如下步骤:
步骤a1,对训练样本库进行预处理:将训练样本库按照字粒度分割,以空格作为分隔符;
步骤a2,通过FastText获取训练样本库的向量:将预处理后的训练样本库输入到加入了N-gram特征的FastText中训练;
步骤a3,通过词加权改进型TF-IDF算法得到训练样本库中每句话的词权重,将词权重与步骤二所得到的向量进行融合,得到改进的训练样本的向量;
步骤a4,将步骤3得到的向量化后的训练样本进行句子语义特征提取,连接正向和反向LSTM神经网络,从正向和反向分别提取特征向量;
步骤a5,将提取的正向和反向的特征向量进行聚合;
步骤a6,将聚合的特征向量通过池化层和Dropout层操作获取新的特征向量,其中,Dropout层用于防止由于参数过多或者训练样本少的过拟合情况出现;
步骤a7,将新的特征向量进行全连接,通过概率函数计算得到训练样本的语义特征向量表示的训练模型。
本发明还包括如下技术特征:
具体的,虽然FastText的词向量考虑到了词序的问题,但是没有考虑到词的重要程度,因此需要考虑特征词在整个训练样本库中出现的总频率,而且还得衡量词语在不同类别的分布情况;所以加入词加权改进型TF-IDF算法通过以下公式(1)实现:
Figure BDA0002225302610000021
其中,si表示特征词wi的词加权,tfi,j表示特征词wi在语句dj出现的频率,idfi代表词语wi在语句dj出现的逆频率,|D|为文本总数,分母为在语句dj包含ti的文本数;如果特征词wi在某些训练样本ti中为高频词,但在整个训练文本中是低频词,那么wi对应的si可以在问句中被分配为高权重;
将训练样本表示为S:
Figure BDA0002225302610000031
其中S的第i行表示训练样本中第i个词语所对应的m维向量。
具体的,所述步骤a4中进行句子语义特征提取得到句子语义特征提取层,连接正反两个LSTM神经网络,从正向和反向分别提取特征向量,实现正向和反向获取文本序列,从而增强深层捕获文本语义信息的能力,正向和反向LSTM神经网络的输入一致,输出向量分别为
Figure BDA0002225302610000032
和/>
Figure BDA0002225302610000033
Ct作为当前t时刻正向和反向LSTM神经网络的输入,具体公式如下:
Figure BDA0002225302610000034
Figure BDA0002225302610000035
其中,
Figure BDA0002225302610000036
分别表示为正向和反向LSTM神经网络的正向、反向传播;经过正向和反向LSTM层后,通过词嵌入层的文本向量变为以下结构:
Figure BDA0002225302610000037
Figure BDA0002225302610000038
具体的,将正向和反向LSTM层的正向传播输出向量与反向传播输出向量进行聚合向量拼接,公式表示如下:
Figure BDA0002225302610000039
具体的,所述步骤a6中:将聚合层后的数据的特征值通过池化操作获取新的特征,从变长句子中抽取固定长度的维数,以达到过滤噪声和降低特征维度以及数据稀疏性对于输出层的影响;由于问答语句的长度有限,文本中的每一个关键词都会对宏观语义表达有影响,所以本发明采用平均池化操作;平均池化考虑每一个方面的局部信息,即对某一范围内的所有神经元值取平均,以减少信息丢失,同时加入Dropout方法舍弃部分神经元,可以有效的缓解过拟合的发生,公式表示如下:
Figure BDA0002225302610000041
其中,St为池化层后的新向量,Bt为聚合拼接后的向量,T为训练训练样本库中的文本总数。
具体的,所述步骤a7中:将步骤a6得到的新的特征向量的输出作为输入到全连接层,把训练样本的全部特征进行集合,最终用于相似度匹配的特征向量S具体公式如下:
Figure BDA0002225302610000042
本发明还提供一种短文本语义相似度匹配算法,该方法根据FastText获取测试样本的向量,融合词加权改进型TF-IDF算法,通过正向和反向LSTM神经网络进行测试样本的特征向量的获取,将权利要求1至6任一权利要求所述的基于深度学习的短文本语义训练模型载入测试样本的特征向量,根据用户输入的训练样本的向量Si与测试样本的向量Qi中已知的类别向量进行语义向量相似度计算;该方法具体包括如下步骤:
步骤b1,将测试样本进行预处理,以空格为分隔符对样本进行字粒度分割;
步骤b2,通过FastText中的N-gram特征表示得到测试样本的向量,通过词加权改进的TF-IDF算法提取文本的向量表示;
步骤b3,根据步骤b2,将测试样本分别表示为Q:
Figure BDA0002225302610000043
其中Q的第i行表示测试样本中第i个词语所对应的m维向量;
步骤b4,将步骤b3得到的向量化后的测试样本进行句子语义特征提取,连接正反两个LSTM神经网络,从正向和反向分别提取特征向量;
步骤b5,将提取的正向和反向的特征向量进行聚合;
步骤b6,将聚合的特征向量通过池化层和Dropout层操作获取新的特征向量,并且加入Dropout层防止由于参数过多或者样本少的过拟合情况;
步骤b7,将新的特征向量进行全连接,通过概率函数计算得到测试样本的语义特征向量表示;
步骤b8,将训练模型载入步骤b7得到的测试样本的语义特征向量中;
步骤b9,根据用户输入的测试样本的向量Qi与训练样本的向量Si中已知的类别向量进行语义向量相似度计算:
Figure BDA0002225302610000051
其中distance(Si,Qi)为计算Si,Qi之间的距离;最后输出层通过softmax函数将实数向量的相似性转换成条件概率分布,得到归一化的概率值,将概率值从大到小进行降序排列,选取(1-k)个候选值。
根据候选值对应的类别与标准FAQ中的类别进行比对,从而抽出候选值对应的答案。
本发明与现有技术相比,有益的技术效果是:
(1)本发明采用FastText训练以字粒度为基本单位的文本向量,由于FastText加入了N-gram的特征,因此它的优点是①将用户随机提出的问题中训练样本没有包含的新词汇可以通过字符级的N-gram表示出它的向量。②它可以让模型学习到局部词语顺序的部分信息。③可以将罕见的词汇生成更好的词向量,从而改善了用户问句文本短,语义特征少的缺点。
(2)本发明将引入改进的TF-IDF,为了改进传统的TF-IDF只考虑到特征词在整个训练文本中出现的总频率,而未考虑特征词在不同类别中的分布,从而丢失特征词的判别的情况。如果特征词在某些训练样本中为高频词,但在整个训练文本中是低频词,那么就可以在问句中可以被分配为高权重。
(3)本发明引入正向和反向LSTM神经网络,由于传统的LSTM模型是以文本正向序列的进行语义信息学习,然而忽略了来自反向序列信息对文本的影响,因此,本发明模型框架的基础是正向和反向LSTM神经网络,是将两个LSTM单向神经网络叠加在一起形成的,在每一个时刻,输入会同时提供给两个相反的LSTM,此方法更有利于从整体上捕捉句子的长依赖关系,文本的深层语义表达并且可以有效地保持较长时间的记忆。
附图说明
图1为本发明实施例计算句子向量的流程图;
图2为本发明实施例模型结构图;
图3为均值池化层示意图。
具体实施方式
本发明公开了一种基于深度学习的短文本语义训练模型获取方法及相似度匹配算法,将FastText词向量和改进的词加权TF-IDF相结合作为正向和反向LSTM(Bidirectional Long Short-Term Memory,长短期记忆网络)的输入,主要包括:输入层、嵌入层、正向和反向LSTM层、聚合层、池化层+Dropout层、全连接层和输出层。主要步骤如下:首先根据FastText中的N-gram模型构建训练文本的词典集合模型,然后引入词加权的TF-IDF模型,将构建的模型作为下一层神经网络的输入,训练语句相似度,用项目合作公司提供的测试数据对该模型进行验证。试验结果表明,本发明满足文本语义相似度匹配。
以下给出本发明的具体实施例,需要说明的是本发明并不局限于以下具体实施例,凡在本申请技术方案基础上做的等同变换均落入本发明的保护范围。下面结合实施例对本发明做进一步详细说明。
实施例1:
本实施例给出一种基于深度学习的短文本语义获取方法及相似度匹配算法,图1为本发明实施例计算句子向量的流程图;图2为本发明实施例基于深度学习的短文本语义获取方法结构图;该方法根据FastText获取训练样本库的向量,融合词加权改进型TF-IDF算法,通过正向和反向LSTM神经网络进行训练样本库的特征向量的获取,通过概率函数计算得到训练样本的语义特征向量表示的训练模型;该方法具体包括如下步骤:
步骤a1,对训练样本库进行预处理:将训练样本库按照字粒度分割,以空格作为分隔符;
步骤a2,通过FastText获取训练样本库的向量:将预处理后的训练样本库输入到加入了N-gram特征的FastText中训练;
步骤a3,通过词加权改进型TF-IDF算法得到训练样本库中每句话的词权重,将词权重与步骤二所得到的向量进行融合,得到改进的训练样本的向量;
步骤a4,将步骤3得到的向量化后的训练样本进行句子语义特征提取,连接正向和反向LSTM神经网络,从正向和反向分别提取特征向量;
步骤a5,将提取的正向和反向的特征向量进行聚合;
步骤a6,将聚合的特征向量通过池化层和Dropout层操作获取新的特征向量,其中,Dropout层用于防止由于参数过多或者训练样本少的过拟合情况出现;
步骤a7,将新的特征向量进行全连接,通过概率函数计算得到训练样本的语义特征向量表示的训练模型。
步骤a3中,虽然FastText的词向量考虑到了词序的问题,但是没有考虑到词的重要程度,因此需要考虑特征词在整个训练样本库中出现的总频率,而且还得衡量词语在不同类别的分布情况;所以加入词加权改进型TF-IDF算法通过以下公式(1)实现:
Figure BDA0002225302610000071
其中,si表示特征词wi的词加权,tfi,j表示特征词wi在语句dj出现的频率,idfi代表词语wi在语句dj出现的逆频率,|D|为文本总数,分母为在语句dj包含ti的文本数;如果特征词wi在某些训练样本ti中为高频词,但在整个训练文本中是低频词,那么wi对应的si可以在问句中被分配为高权重;
将训练样本表示为S:
Figure BDA0002225302610000072
其中S的第i行表示训练样本中第i个词语所对应的m维向量。
步骤a4中进行句子语义特征提取得到句子语义特征提取层,连接正反两个LSTM神经网络,从正向和反向分别提取特征向量,实现正向和反向获取文本序列,从而增强深层捕获文本语义信息的能力,正向和反向LSTM神经网络的输入一致,输出向量分别为
Figure BDA0002225302610000081
Figure BDA0002225302610000082
Ct作为当前t时刻正向和反向LSTM神经网络的输入,具体公式如下:
Figure BDA0002225302610000083
Figure BDA0002225302610000084
其中,
Figure BDA0002225302610000085
分别表示为正向和反向LSTM神经网络的正向、反向传播;经过正向和反向LSTM层后,通过词嵌入层的文本向量变为以下结构:
Figure BDA0002225302610000086
Figure BDA0002225302610000087
步骤a5中,将正向和反向LSTM层的正向传播输出向量与反向传播输出向量进行聚合向量拼接,公式表示如下:
Figure BDA0002225302610000088
步骤a6中:将聚合层后的数据的特征值通过池化操作获取新的特征,从变长句子中抽取固定长度的维数,以达到过滤噪声和降低特征维度以及数据稀疏性对于输出层的影响;由于问答语句的长度有限,文本中的每一个关键词都会对宏观语义表达有影响,所以本发明采用平均池化操作;平均池化考虑每一个方面的局部信息,即对某一范围内的所有神经元值取平均,以减少信息丢失,同时加入Dropout方法舍弃部分神经元,可以有效的缓解过拟合的发生,公式表示如下:
Figure BDA0002225302610000089
其中,St为池化层后的新向量,Bt为聚合拼接后的向量,T为训练训练样本库中的文本总数。
步骤a7中:将步骤a6得到的新的特征向量的输出作为输入到全连接层,把训练样本的全部特征进行集合,最终用于相似度匹配的特征向量S具体公式如下:
Figure BDA0002225302610000091
实施例2:
本实施例提供了一种短文本语义相似度匹配算法,该方法根据FastText获取测试样本的向量,融合词加权改进型TF-IDF算法,通过正向和反向LSTM神经网络进行测试样本的特征向量的获取,将实施例1的基于深度学习的短文本语义训练模型载入测试样本的特征向量,根据用户输入的测试样本的向量Qi与训练样本的向量Si中已知的类别向量进行语义向量相似度计算;该方法具体包括如下步骤:
步骤b1,将测试样本进行预处理,以空格为分隔符对样本进行字粒度分割;
步骤b2,通过FastText中的N-gram特征表示得到测试样本的向量,通过词加权改进的TF-IDF算法提取文本的向量表示;
步骤b3,根据步骤b2,将测试样本分别表示为Q:
Figure BDA0002225302610000092
其中Q的第i行表示测试样本中第i个词语所对应的m维向量;
步骤b4,将步骤b3得到的向量化后的测试样本进行句子语义特征提取,连接正反两个LSTM神经网络,从正向和反向分别提取特征向量;
步骤b5,将提取的正向和反向的特征向量进行聚合;
步骤b6,将聚合的特征向量通过池化层和Dropout层操作获取新的特征向量,并且加入Dropout层防止由于参数过多或者样本少的过拟合情况;
步骤b7,将新的特征向量进行全连接,通过概率函数计算得到测试样本的语义特征向量表示;
步骤b8,将训练模型载入步骤b7得到的测试样本的语义特征向量中;
步骤b9,根据用户输入的测试样本的向量Qi与训练样本的向量Si中已知的类别向量进行语义向量相似度计算:
Figure BDA0002225302610000101
其中distance(Si,Qi)为计算Si,Qi之间的距离;最后输出层通过softmax函数将实数向量的相似性转换成条件概率分布,得到归一化的概率值,将概率值从大到小进行降序排列,选取(1-k)个候选值。
根据候选值对应的类别与标准FAQ中的类别进行比对,从而抽出候选值对应的答案。
本实施例对在问答系统中文本长度较短,受样本种类限制以及现有的语句相似度匹配方法不能充分捕捉句子的语义结构特征信息这些问题有针对性的来训练神经网络,通过设置向量维数,神经网络学习率以及迭代次数使神经网络更加适用于当前的场景,有利于在不同场景中有针对性的建立文本语义相似度模型。
按照本实施例的方法,与现有的文本相似度计算方法进行比较:
分别采用本实施例的方法,以及现有的TF-IDF-LDA,Word2vec-LSTM,Doc2vec-LSTM的方法,通过输入相同的训练文本进行训练,并使用以下的四组航空数据进行测试,具体结果如下表1:
表1测试结果
Figure BDA0002225302610000102
通过表1的计算结果可以看出,本发明实施例的准确率最高,并且相似与不相似的区分率也最高,更加符合实际应用情况。
证明例1:
根据证明例1的条件下,通过本实施例的方法,以及现有的TF-IDF-LDA,Word2vec-LSTM,Doc2vec-LSTM的方法,针对项目合作方提供的1万余条真实的航空客服数据进行测试,得到的计算结果如表2所示,评价指标为精确率、召回率、以及F1值,其中μ=0.75,μ=0.85,μ=0.95为本实例设置的阈值:
表2精确率、召回率以及F1值的对比结果
Figure BDA0002225302610000111
根据表2计算结果,运用本实例的方法从精确率和召回率都优于目前存在的算法,并且通过F1的值,可以看出本实例更加稳定。因此充分说明本实例可以更精确的表示文本的语义信息。

Claims (6)

1.一种短文本语义训练模型获取方法,其特征在于,该方法根据FastText获取训练样本库的向量,融合词加权改进型TF-IDF算法,通过正向和反向LSTM神经网络进行训练样本库的特征向量的获取,通过概率函数计算得到训练样本的语义特征向量表示的训练模型;该方法具体包括如下步骤:
步骤a1,对训练样本库进行预处理:将训练样本库按照字粒度分割,以空格作为分隔符;
步骤a2,通过FastText获取训练样本库的向量:将预处理后的训练样本库输入到加入了N-gram特征的FastText中训练;
步骤a3,通过词加权改进型TF-IDF算法得到训练样本库中每句话的词权重,将词权重与步骤二所得到的向量进行融合,得到改进的训练样本的向量;
步骤a4,将步骤3得到的向量化后的训练样本进行句子语义特征提取,连接正向和反向LSTM神经网络,从正向和反向分别提取特征向量;
步骤a5,将提取的正向和反向的特征向量进行聚合;
步骤a6,将聚合的特征向量通过池化层和Dropout层操作获取新的特征向量,其中,Dropout层用于防止由于参数过多或者训练样本少的过拟合情况出现;
步骤a7,将新的特征向量进行全连接,通过概率函数计算得到训练样本的语义特征向量表示的训练模型;
所述步骤a3中,虽然FastText的词向量考虑到了词序的问题,但是没有考虑到词的重要程度,因此需要考虑特征词在整个训练样本库中出现的总频率,而且还得衡量词语在不同类别的分布情况;所以加入词加权改进型TF-IDF算法通过以下公式(1)实现:
Figure FDA0004022400310000011
其中,si表示特征词wi的词加权,tfi,j表示特征词wi在语句dj出现的频率,idfi代表词语wi在语句dj出现的逆频率,|D|为文本总数,分母为在语句dj包含ti的文本数;如果特征词wi在某些训练样本ti中为高频词,但在整个训练文本中是低频词,那么wi对应的si可以在问句中被分配为高权重;
将训练样本表示为S:
Figure FDA0004022400310000021
其中S的第i行表示训练样本中第i个词语所对应的m维向量。
2.如权利要求1所述的短文本语义训练模型获取方法,其特征在于,所述步骤a4中进行句子语义特征提取得到句子语义特征提取层,连接正反两个LSTM神经网络,从正向和反向分别提取特征向量,实现正向和反向获取文本序列,从而增强深层捕获文本语义信息的能力,正向和反向LSTM神经网络的输入一致,输出向量分别为
Figure FDA0004022400310000022
和/>
Figure FDA0004022400310000023
Figure FDA00040224003100000210
Ct作为当前t时刻正向和反向LSTM神经网络的输入,具体公式如下:
Figure FDA0004022400310000024
Figure FDA0004022400310000025
其中,
Figure FDA0004022400310000026
分别表示为正向和反向LSTM神经网络的正向、反向传播;经过正向和反向LSTM层后,通过词嵌入层的文本向量变为以下结构:
Figure FDA0004022400310000027
Figure FDA0004022400310000028
3.如权利要求1所述的短文本语义训练模型获取方法,其特征在于,所述步骤a5中,将正向和反向LSTM层的正向传播输出向量与反向传播输出向量进行聚合向量拼接,公式表示如下:
Figure FDA0004022400310000029
4.如权利要求1所述的短文本语义训练模型获取方法,其特征在于,所述步骤a6中:将聚合层后的数据的特征值通过池化操作获取新的特征,从变长句子中抽取固定长度的维数,以达到过滤噪声和降低特征维度以及数据稀疏性对于输出层的影响;由于问答语句的长度有限,文本中的每一个关键词都会对宏观语义表达有影响,所以采用平均池化操作;平均池化考虑每一个方面的局部信息,即对某一范围内的所有神经元值取平均,以减少信息丢失,同时加入Dropout方法舍弃部分神经元,可以有效的缓解过拟合的发生,公式表示如下:
Figure FDA0004022400310000031
其中,St为池化层后的新向量,Bt为聚合拼接后的向量,T为训练训练样本库中的文本总数。
5.如权利要求1所述的短文本语义训练模型获取方法,其特征在于,所述步骤a7中:将步骤a6得到的新的特征向量的输出作为输入到全连接层,把训练样本的全部特征进行集合,最终用于相似度匹配的特征向量S具体公式如下:
Figure FDA0004022400310000032
6.一种短文本语义相似度匹配算法,其特征在于,该方法根据FastText获取测试样本的向量,融合词加权改进型TF-IDF算法,通过正向和反向LSTM神经网络进行测试样本的特征向量的获取,将权利要求1至5任一权利要求中的基于深度学习的短文本语义训练模型载入测试样本的特征向量,根据用户输入的测试样本的向量Qi与训练样本的向量Si中已知的类别向量进行语义向量相似度计算;该方法具体包括如下步骤:
步骤b1,将测试样本进行预处理,以空格为分隔符对样本进行字粒度分割;
步骤b2,通过FastText中的N-gram特征表示得到测试样本的向量,通过词加权改进的TF-IDF算法提取文本的向量表示;
步骤b3,根据步骤b2,将测试样本分别表示为Q:
Figure FDA0004022400310000041
其中Q的第i行表示测试样本中第i个词语所对应的m维向量;
步骤b4,将步骤b3得到的向量化后的测试样本进行句子语义特征提取,连接正反两个LSTM神经网络,从正向和反向分别提取特征向量;
步骤b5,将提取的正向和反向的特征向量进行聚合;
步骤b6,将聚合的特征向量通过池化层和Dropout层操作获取新的特征向量,并且加入Dropout层防止由于参数过多或者样本少的过拟合情况;
步骤b7,将新的特征向量进行全连接,通过概率函数计算得到测试样本的语义特征向量表示;
步骤b8,将训练模型载入步骤b7得到的测试样本的语义特征向量中;
步骤b9,根据用户输入的测试样本的向量Qi与训练样本的向量Si中已知的类别向量进行语义向量相似度计算:
Figure FDA0004022400310000042
其中dis tance(Si,Qi)为计算Si,Qi之间的距离;最后输出层通过softmax函数将实数向量的相似性转换成条件概率分布,得到归一化的概率值,将概率值从大到小进行降序排列,选取(1-k)个候选值。
CN201910949434.9A 2019-10-08 2019-10-08 一种短文本语义训练模型获取方法及相似度匹配算法 Active CN110826337B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910949434.9A CN110826337B (zh) 2019-10-08 2019-10-08 一种短文本语义训练模型获取方法及相似度匹配算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910949434.9A CN110826337B (zh) 2019-10-08 2019-10-08 一种短文本语义训练模型获取方法及相似度匹配算法

Publications (2)

Publication Number Publication Date
CN110826337A CN110826337A (zh) 2020-02-21
CN110826337B true CN110826337B (zh) 2023-06-16

Family

ID=69548711

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910949434.9A Active CN110826337B (zh) 2019-10-08 2019-10-08 一种短文本语义训练模型获取方法及相似度匹配算法

Country Status (1)

Country Link
CN (1) CN110826337B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460808B (zh) * 2020-03-23 2022-04-26 腾讯科技(深圳)有限公司 同义文本识别及内容推荐方法、装置及电子设备
CN111523328B (zh) * 2020-04-13 2023-09-05 中博信息技术研究院有限公司 一种智能客服语义处理方法
CN111552773A (zh) * 2020-04-24 2020-08-18 中国科学院空天信息创新研究院 一种阅读理解任务中是否类问题关键句寻找方法及系统
CN111666770B (zh) * 2020-06-02 2023-07-18 泰康保险集团股份有限公司 一种语义匹配方法及装置
CN111680501B (zh) * 2020-08-12 2020-11-20 腾讯科技(深圳)有限公司 基于深度学习的问询信息识别方法、装置及存储介质
CN112287656B (zh) * 2020-10-12 2024-05-28 四川语言桥信息技术有限公司 文本比对方法、装置、设备和存储介质
CN112241626B (zh) * 2020-10-14 2023-07-07 网易(杭州)网络有限公司 一种语义匹配、语义相似度模型训练方法及装置
CN113780610B (zh) * 2020-12-02 2024-08-20 北京沃东天骏信息技术有限公司 一种客服画像构建方法和装置
CN112487274B (zh) * 2020-12-02 2023-02-07 重庆邮电大学 一种基于文本点击率的搜索结果推荐方法及系统
CN112650833A (zh) * 2020-12-25 2021-04-13 哈尔滨工业大学(深圳) Api匹配模型建立方法及跨城市政务api匹配方法
CN112861918B (zh) * 2021-01-14 2023-11-07 中国重型机械研究院股份公司 一种基于互异特征向量的重复物料实体识别方法
CN112905793B (zh) * 2021-02-23 2023-06-20 山西同方知网数字出版技术有限公司 一种基于Bilstm+Attention文本分类的案例推荐方法及系统
CN113094713B (zh) * 2021-06-09 2021-08-13 四川大学 一种自适应的主机入侵检测序列特征提取方法及系统
CN113392637B (zh) * 2021-06-24 2023-02-07 青岛科技大学 基于tf-idf的主题词提取方法、装置、设备及存储介质
CN114219050B (zh) * 2022-02-22 2022-06-21 杭州远传新业科技股份有限公司 文本相似度模型的训练方法、系统、装置和介质
CN114707516B (zh) * 2022-03-29 2024-08-13 北京理工大学 一种基于对比学习的长文本语义相似度计算方法
CN115168537B (zh) * 2022-06-30 2023-06-27 北京百度网讯科技有限公司 语义检索模型的训练方法、装置、电子设备及存储介质
CN115222373B (zh) * 2022-09-20 2022-11-25 河北建投工程建设有限公司 一种设计项目管理方法及系统
CN116167352B (zh) * 2023-04-03 2023-07-21 联仁健康医疗大数据科技股份有限公司 数据处理方法、装置、电子设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107894975A (zh) * 2017-10-12 2018-04-10 北京知道未来信息技术有限公司 一种基于Bi‑LSTM的分词方法
CN108491497B (zh) * 2018-03-20 2020-06-02 苏州大学 基于生成式对抗网络技术的医疗文本生成方法
CN110134786B (zh) * 2019-05-14 2021-09-10 南京大学 一种基于主题词向量与卷积神经网络的短文本分类方法

Also Published As

Publication number Publication date
CN110826337A (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
CN110826337B (zh) 一种短文本语义训练模型获取方法及相似度匹配算法
CN108536679B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN113255755B (zh) 一种基于异质融合网络的多模态情感分类方法
CN116992005B (zh) 基于大模型及本地知识库的智能对话方法、系统及设备
CN115033670A (zh) 多粒度特征融合的跨模态图文检索方法
CN110222178A (zh) 文本情感分类方法、装置、电子设备及可读存储介质
CN110619051B (zh) 问题语句分类方法、装置、电子设备及存储介质
CN112989802B (zh) 一种弹幕关键词提取方法、装置、设备及介质
CN110750998B (zh) 一种文本输出方法、装置、计算机设备和存储介质
Zhang et al. Video-aided unsupervised grammar induction
CN114328807A (zh) 一种文本处理方法、装置、设备及存储介质
CN115114409B (zh) 一种基于软参数共享的民航不安全事件联合抽取方法
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN113111663A (zh) 一种融合关键信息的摘要生成方法
CN111859979A (zh) 讽刺文本协同识别方法、装置、设备及计算机可读介质
CN118113855A (zh) 一种舰船试验训练场景问答方法、系统、设备和介质
CN110659392B (zh) 检索方法及装置、存储介质
CN113741759B (zh) 评论信息的展示方法、装置、计算机设备和存储介质
CN114117041B (zh) 一种基于特定属性词上下文建模的属性级情感分析方法
CN114547303A (zh) 基于Bert-LSTM的文本多特征分类方法及装置
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN117033558A (zh) 一种融合bert-wwm与多特征的影评情感分析方法
CN116579348A (zh) 基于不确定语义融合的虚假新闻检测方法及系统
Gao et al. Sensitive image information recognition model of network community based on content text
CN115114433B (zh) 语言模型的训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant