CN110826337B - 一种短文本语义训练模型获取方法及相似度匹配算法 - Google Patents
一种短文本语义训练模型获取方法及相似度匹配算法 Download PDFInfo
- Publication number
- CN110826337B CN110826337B CN201910949434.9A CN201910949434A CN110826337B CN 110826337 B CN110826337 B CN 110826337B CN 201910949434 A CN201910949434 A CN 201910949434A CN 110826337 B CN110826337 B CN 110826337B
- Authority
- CN
- China
- Prior art keywords
- vector
- word
- training
- semantic
- vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 101
- 238000000034 method Methods 0.000 title claims abstract description 45
- 239000013598 vector Substances 0.000 claims abstract description 143
- 238000013528 artificial neural network Methods 0.000 claims abstract description 45
- 238000012360 testing method Methods 0.000 claims abstract description 43
- 238000004364 calculation method Methods 0.000 claims description 19
- 238000011176 pooling Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 13
- 230000004931 aggregating effect Effects 0.000 claims description 8
- 238000013135 deep learning Methods 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 5
- 238000004220 aggregation Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种短文本语义训练模型获取方法及相似度匹配算法,将FastText词向量和改进的词加权TF‑IDF相结合作为正向和反向LSTM神经网络的输入,主要包括以下步骤:首先根据FastText中的N‑gram模型构建训练文本的词典集合模型,然后引入词加权的TF‑IDF模型,将构建的模型作为下一层神经网络的输入,训练语句相似度,用项目合作公司提供的测试数据对该模型进行验证,试验结果表明,本发明满足文本语义相似度匹配。
Description
技术领域
本发明属于自然语言处理领域,涉及一种短文本语义训练模型获取方法及相似度匹配算法。
背景技术
在全新互联网时代提出的设想和建设中,互联网将理解用户需求并为之提供服务,而智能问答也成为一大研究热点,它结合了多种人工智能技术,提供给用户良好、便捷的操作体验,快速、准确地回答用户的咨询问题。语句相似度计算在自然语言处理的各个领域中都有非常重要且实际的意义,如文本挖掘,机器翻译等,因此它成为智能问答中的核心技术之一。在智能问答系统中,需要将用户所提出的问题与标准FAQ之间进行语义相似度匹配,并且在标准FAQ中匹配出最准确的答案,返回给用户。
目前语句相似度计算的主要方法有:基于字面匹配的方法、基于知识库的语义匹配的方法、基于语义分析的概率主题模型匹配的方法和基于训练样本库的语义相似度匹配方法。这些方法目前所存在的主要问题有:1)仅仅是简单的将文本表示为向量,不具有语义信息,还需要人工设定停用词训练样本库。2)需要许多NLP资源如词性标注、词法数据库,词语列表等,因此许多语言由于资源不足而仍处于发展阶段。3)没有考虑到词与词之间的位置关系,受样本种类限制较大。4)没有利用全局信息进行向量表示。
发明内容
针对现有技术中的缺陷和不足,本发明提供了一种短文本语义训练模型获取方法及相似度匹配算法,解决了现有技术中存在的上述问题。采取对用户输入的问题或者候选问句按照2-gram格式进行组合,根据改进的TF-IDF对于重点词向量进行加权,并且通过正向和反向LSTM模型从正反两个方向对语句进行语义学习,然后通过softmax函数将用户问句与已知文本进行相似度计算并转换为后验概率,从而反馈给用户准确的答案。
为达到上述目的,本发明采取如下的技术方案:
本发明提供一种短文本语义训练模型获取方法,该方法根据FastText获取训练样本库的向量,融合词加权改进型TF-IDF算法,通过正向和反向LSTM神经网络进行训练样本库的特征向量的获取,通过概率函数计算得到训练样本的语义特征向量表示的训练模型;该方法具体包括如下步骤:
步骤a1,对训练样本库进行预处理:将训练样本库按照字粒度分割,以空格作为分隔符;
步骤a2,通过FastText获取训练样本库的向量:将预处理后的训练样本库输入到加入了N-gram特征的FastText中训练;
步骤a3,通过词加权改进型TF-IDF算法得到训练样本库中每句话的词权重,将词权重与步骤二所得到的向量进行融合,得到改进的训练样本的向量;
步骤a4,将步骤3得到的向量化后的训练样本进行句子语义特征提取,连接正向和反向LSTM神经网络,从正向和反向分别提取特征向量;
步骤a5,将提取的正向和反向的特征向量进行聚合;
步骤a6,将聚合的特征向量通过池化层和Dropout层操作获取新的特征向量,其中,Dropout层用于防止由于参数过多或者训练样本少的过拟合情况出现;
步骤a7,将新的特征向量进行全连接,通过概率函数计算得到训练样本的语义特征向量表示的训练模型。
本发明还包括如下技术特征:
具体的,虽然FastText的词向量考虑到了词序的问题,但是没有考虑到词的重要程度,因此需要考虑特征词在整个训练样本库中出现的总频率,而且还得衡量词语在不同类别的分布情况;所以加入词加权改进型TF-IDF算法通过以下公式(1)实现:
其中,si表示特征词wi的词加权,tfi,j表示特征词wi在语句dj出现的频率,idfi代表词语wi在语句dj出现的逆频率,|D|为文本总数,分母为在语句dj包含ti的文本数;如果特征词wi在某些训练样本ti中为高频词,但在整个训练文本中是低频词,那么wi对应的si可以在问句中被分配为高权重;
将训练样本表示为S:
其中S的第i行表示训练样本中第i个词语所对应的m维向量。
具体的,所述步骤a4中进行句子语义特征提取得到句子语义特征提取层,连接正反两个LSTM神经网络,从正向和反向分别提取特征向量,实现正向和反向获取文本序列,从而增强深层捕获文本语义信息的能力,正向和反向LSTM神经网络的输入一致,输出向量分别为和/>Ct作为当前t时刻正向和反向LSTM神经网络的输入,具体公式如下:
具体的,将正向和反向LSTM层的正向传播输出向量与反向传播输出向量进行聚合向量拼接,公式表示如下:
具体的,所述步骤a6中:将聚合层后的数据的特征值通过池化操作获取新的特征,从变长句子中抽取固定长度的维数,以达到过滤噪声和降低特征维度以及数据稀疏性对于输出层的影响;由于问答语句的长度有限,文本中的每一个关键词都会对宏观语义表达有影响,所以本发明采用平均池化操作;平均池化考虑每一个方面的局部信息,即对某一范围内的所有神经元值取平均,以减少信息丢失,同时加入Dropout方法舍弃部分神经元,可以有效的缓解过拟合的发生,公式表示如下:
其中,St为池化层后的新向量,Bt为聚合拼接后的向量,T为训练训练样本库中的文本总数。
具体的,所述步骤a7中:将步骤a6得到的新的特征向量的输出作为输入到全连接层,把训练样本的全部特征进行集合,最终用于相似度匹配的特征向量S具体公式如下:
本发明还提供一种短文本语义相似度匹配算法,该方法根据FastText获取测试样本的向量,融合词加权改进型TF-IDF算法,通过正向和反向LSTM神经网络进行测试样本的特征向量的获取,将权利要求1至6任一权利要求所述的基于深度学习的短文本语义训练模型载入测试样本的特征向量,根据用户输入的训练样本的向量Si与测试样本的向量Qi中已知的类别向量进行语义向量相似度计算;该方法具体包括如下步骤:
步骤b1,将测试样本进行预处理,以空格为分隔符对样本进行字粒度分割;
步骤b2,通过FastText中的N-gram特征表示得到测试样本的向量,通过词加权改进的TF-IDF算法提取文本的向量表示;
步骤b3,根据步骤b2,将测试样本分别表示为Q:
其中Q的第i行表示测试样本中第i个词语所对应的m维向量;
步骤b4,将步骤b3得到的向量化后的测试样本进行句子语义特征提取,连接正反两个LSTM神经网络,从正向和反向分别提取特征向量;
步骤b5,将提取的正向和反向的特征向量进行聚合;
步骤b6,将聚合的特征向量通过池化层和Dropout层操作获取新的特征向量,并且加入Dropout层防止由于参数过多或者样本少的过拟合情况;
步骤b7,将新的特征向量进行全连接,通过概率函数计算得到测试样本的语义特征向量表示;
步骤b8,将训练模型载入步骤b7得到的测试样本的语义特征向量中;
步骤b9,根据用户输入的测试样本的向量Qi与训练样本的向量Si中已知的类别向量进行语义向量相似度计算:
其中distance(Si,Qi)为计算Si,Qi之间的距离;最后输出层通过softmax函数将实数向量的相似性转换成条件概率分布,得到归一化的概率值,将概率值从大到小进行降序排列,选取(1-k)个候选值。
根据候选值对应的类别与标准FAQ中的类别进行比对,从而抽出候选值对应的答案。
本发明与现有技术相比,有益的技术效果是:
(1)本发明采用FastText训练以字粒度为基本单位的文本向量,由于FastText加入了N-gram的特征,因此它的优点是①将用户随机提出的问题中训练样本没有包含的新词汇可以通过字符级的N-gram表示出它的向量。②它可以让模型学习到局部词语顺序的部分信息。③可以将罕见的词汇生成更好的词向量,从而改善了用户问句文本短,语义特征少的缺点。
(2)本发明将引入改进的TF-IDF,为了改进传统的TF-IDF只考虑到特征词在整个训练文本中出现的总频率,而未考虑特征词在不同类别中的分布,从而丢失特征词的判别的情况。如果特征词在某些训练样本中为高频词,但在整个训练文本中是低频词,那么就可以在问句中可以被分配为高权重。
(3)本发明引入正向和反向LSTM神经网络,由于传统的LSTM模型是以文本正向序列的进行语义信息学习,然而忽略了来自反向序列信息对文本的影响,因此,本发明模型框架的基础是正向和反向LSTM神经网络,是将两个LSTM单向神经网络叠加在一起形成的,在每一个时刻,输入会同时提供给两个相反的LSTM,此方法更有利于从整体上捕捉句子的长依赖关系,文本的深层语义表达并且可以有效地保持较长时间的记忆。
附图说明
图1为本发明实施例计算句子向量的流程图;
图2为本发明实施例模型结构图;
图3为均值池化层示意图。
具体实施方式
本发明公开了一种基于深度学习的短文本语义训练模型获取方法及相似度匹配算法,将FastText词向量和改进的词加权TF-IDF相结合作为正向和反向LSTM(Bidirectional Long Short-Term Memory,长短期记忆网络)的输入,主要包括:输入层、嵌入层、正向和反向LSTM层、聚合层、池化层+Dropout层、全连接层和输出层。主要步骤如下:首先根据FastText中的N-gram模型构建训练文本的词典集合模型,然后引入词加权的TF-IDF模型,将构建的模型作为下一层神经网络的输入,训练语句相似度,用项目合作公司提供的测试数据对该模型进行验证。试验结果表明,本发明满足文本语义相似度匹配。
以下给出本发明的具体实施例,需要说明的是本发明并不局限于以下具体实施例,凡在本申请技术方案基础上做的等同变换均落入本发明的保护范围。下面结合实施例对本发明做进一步详细说明。
实施例1:
本实施例给出一种基于深度学习的短文本语义获取方法及相似度匹配算法,图1为本发明实施例计算句子向量的流程图;图2为本发明实施例基于深度学习的短文本语义获取方法结构图;该方法根据FastText获取训练样本库的向量,融合词加权改进型TF-IDF算法,通过正向和反向LSTM神经网络进行训练样本库的特征向量的获取,通过概率函数计算得到训练样本的语义特征向量表示的训练模型;该方法具体包括如下步骤:
步骤a1,对训练样本库进行预处理:将训练样本库按照字粒度分割,以空格作为分隔符;
步骤a2,通过FastText获取训练样本库的向量:将预处理后的训练样本库输入到加入了N-gram特征的FastText中训练;
步骤a3,通过词加权改进型TF-IDF算法得到训练样本库中每句话的词权重,将词权重与步骤二所得到的向量进行融合,得到改进的训练样本的向量;
步骤a4,将步骤3得到的向量化后的训练样本进行句子语义特征提取,连接正向和反向LSTM神经网络,从正向和反向分别提取特征向量;
步骤a5,将提取的正向和反向的特征向量进行聚合;
步骤a6,将聚合的特征向量通过池化层和Dropout层操作获取新的特征向量,其中,Dropout层用于防止由于参数过多或者训练样本少的过拟合情况出现;
步骤a7,将新的特征向量进行全连接,通过概率函数计算得到训练样本的语义特征向量表示的训练模型。
步骤a3中,虽然FastText的词向量考虑到了词序的问题,但是没有考虑到词的重要程度,因此需要考虑特征词在整个训练样本库中出现的总频率,而且还得衡量词语在不同类别的分布情况;所以加入词加权改进型TF-IDF算法通过以下公式(1)实现:
其中,si表示特征词wi的词加权,tfi,j表示特征词wi在语句dj出现的频率,idfi代表词语wi在语句dj出现的逆频率,|D|为文本总数,分母为在语句dj包含ti的文本数;如果特征词wi在某些训练样本ti中为高频词,但在整个训练文本中是低频词,那么wi对应的si可以在问句中被分配为高权重;
将训练样本表示为S:
其中S的第i行表示训练样本中第i个词语所对应的m维向量。
步骤a4中进行句子语义特征提取得到句子语义特征提取层,连接正反两个LSTM神经网络,从正向和反向分别提取特征向量,实现正向和反向获取文本序列,从而增强深层捕获文本语义信息的能力,正向和反向LSTM神经网络的输入一致,输出向量分别为和Ct作为当前t时刻正向和反向LSTM神经网络的输入,具体公式如下:
步骤a5中,将正向和反向LSTM层的正向传播输出向量与反向传播输出向量进行聚合向量拼接,公式表示如下:
步骤a6中:将聚合层后的数据的特征值通过池化操作获取新的特征,从变长句子中抽取固定长度的维数,以达到过滤噪声和降低特征维度以及数据稀疏性对于输出层的影响;由于问答语句的长度有限,文本中的每一个关键词都会对宏观语义表达有影响,所以本发明采用平均池化操作;平均池化考虑每一个方面的局部信息,即对某一范围内的所有神经元值取平均,以减少信息丢失,同时加入Dropout方法舍弃部分神经元,可以有效的缓解过拟合的发生,公式表示如下:
其中,St为池化层后的新向量,Bt为聚合拼接后的向量,T为训练训练样本库中的文本总数。
步骤a7中:将步骤a6得到的新的特征向量的输出作为输入到全连接层,把训练样本的全部特征进行集合,最终用于相似度匹配的特征向量S具体公式如下:
实施例2:
本实施例提供了一种短文本语义相似度匹配算法,该方法根据FastText获取测试样本的向量,融合词加权改进型TF-IDF算法,通过正向和反向LSTM神经网络进行测试样本的特征向量的获取,将实施例1的基于深度学习的短文本语义训练模型载入测试样本的特征向量,根据用户输入的测试样本的向量Qi与训练样本的向量Si中已知的类别向量进行语义向量相似度计算;该方法具体包括如下步骤:
步骤b1,将测试样本进行预处理,以空格为分隔符对样本进行字粒度分割;
步骤b2,通过FastText中的N-gram特征表示得到测试样本的向量,通过词加权改进的TF-IDF算法提取文本的向量表示;
步骤b3,根据步骤b2,将测试样本分别表示为Q:
其中Q的第i行表示测试样本中第i个词语所对应的m维向量;
步骤b4,将步骤b3得到的向量化后的测试样本进行句子语义特征提取,连接正反两个LSTM神经网络,从正向和反向分别提取特征向量;
步骤b5,将提取的正向和反向的特征向量进行聚合;
步骤b6,将聚合的特征向量通过池化层和Dropout层操作获取新的特征向量,并且加入Dropout层防止由于参数过多或者样本少的过拟合情况;
步骤b7,将新的特征向量进行全连接,通过概率函数计算得到测试样本的语义特征向量表示;
步骤b8,将训练模型载入步骤b7得到的测试样本的语义特征向量中;
步骤b9,根据用户输入的测试样本的向量Qi与训练样本的向量Si中已知的类别向量进行语义向量相似度计算:
其中distance(Si,Qi)为计算Si,Qi之间的距离;最后输出层通过softmax函数将实数向量的相似性转换成条件概率分布,得到归一化的概率值,将概率值从大到小进行降序排列,选取(1-k)个候选值。
根据候选值对应的类别与标准FAQ中的类别进行比对,从而抽出候选值对应的答案。
本实施例对在问答系统中文本长度较短,受样本种类限制以及现有的语句相似度匹配方法不能充分捕捉句子的语义结构特征信息这些问题有针对性的来训练神经网络,通过设置向量维数,神经网络学习率以及迭代次数使神经网络更加适用于当前的场景,有利于在不同场景中有针对性的建立文本语义相似度模型。
按照本实施例的方法,与现有的文本相似度计算方法进行比较:
分别采用本实施例的方法,以及现有的TF-IDF-LDA,Word2vec-LSTM,Doc2vec-LSTM的方法,通过输入相同的训练文本进行训练,并使用以下的四组航空数据进行测试,具体结果如下表1:
表1测试结果
通过表1的计算结果可以看出,本发明实施例的准确率最高,并且相似与不相似的区分率也最高,更加符合实际应用情况。
证明例1:
根据证明例1的条件下,通过本实施例的方法,以及现有的TF-IDF-LDA,Word2vec-LSTM,Doc2vec-LSTM的方法,针对项目合作方提供的1万余条真实的航空客服数据进行测试,得到的计算结果如表2所示,评价指标为精确率、召回率、以及F1值,其中μ=0.75,μ=0.85,μ=0.95为本实例设置的阈值:
表2精确率、召回率以及F1值的对比结果
根据表2计算结果,运用本实例的方法从精确率和召回率都优于目前存在的算法,并且通过F1的值,可以看出本实例更加稳定。因此充分说明本实例可以更精确的表示文本的语义信息。
Claims (6)
1.一种短文本语义训练模型获取方法,其特征在于,该方法根据FastText获取训练样本库的向量,融合词加权改进型TF-IDF算法,通过正向和反向LSTM神经网络进行训练样本库的特征向量的获取,通过概率函数计算得到训练样本的语义特征向量表示的训练模型;该方法具体包括如下步骤:
步骤a1,对训练样本库进行预处理:将训练样本库按照字粒度分割,以空格作为分隔符;
步骤a2,通过FastText获取训练样本库的向量:将预处理后的训练样本库输入到加入了N-gram特征的FastText中训练;
步骤a3,通过词加权改进型TF-IDF算法得到训练样本库中每句话的词权重,将词权重与步骤二所得到的向量进行融合,得到改进的训练样本的向量;
步骤a4,将步骤3得到的向量化后的训练样本进行句子语义特征提取,连接正向和反向LSTM神经网络,从正向和反向分别提取特征向量;
步骤a5,将提取的正向和反向的特征向量进行聚合;
步骤a6,将聚合的特征向量通过池化层和Dropout层操作获取新的特征向量,其中,Dropout层用于防止由于参数过多或者训练样本少的过拟合情况出现;
步骤a7,将新的特征向量进行全连接,通过概率函数计算得到训练样本的语义特征向量表示的训练模型;
所述步骤a3中,虽然FastText的词向量考虑到了词序的问题,但是没有考虑到词的重要程度,因此需要考虑特征词在整个训练样本库中出现的总频率,而且还得衡量词语在不同类别的分布情况;所以加入词加权改进型TF-IDF算法通过以下公式(1)实现:
其中,si表示特征词wi的词加权,tfi,j表示特征词wi在语句dj出现的频率,idfi代表词语wi在语句dj出现的逆频率,|D|为文本总数,分母为在语句dj包含ti的文本数;如果特征词wi在某些训练样本ti中为高频词,但在整个训练文本中是低频词,那么wi对应的si可以在问句中被分配为高权重;
将训练样本表示为S:
其中S的第i行表示训练样本中第i个词语所对应的m维向量。
6.一种短文本语义相似度匹配算法,其特征在于,该方法根据FastText获取测试样本的向量,融合词加权改进型TF-IDF算法,通过正向和反向LSTM神经网络进行测试样本的特征向量的获取,将权利要求1至5任一权利要求中的基于深度学习的短文本语义训练模型载入测试样本的特征向量,根据用户输入的测试样本的向量Qi与训练样本的向量Si中已知的类别向量进行语义向量相似度计算;该方法具体包括如下步骤:
步骤b1,将测试样本进行预处理,以空格为分隔符对样本进行字粒度分割;
步骤b2,通过FastText中的N-gram特征表示得到测试样本的向量,通过词加权改进的TF-IDF算法提取文本的向量表示;
步骤b3,根据步骤b2,将测试样本分别表示为Q:
其中Q的第i行表示测试样本中第i个词语所对应的m维向量;
步骤b4,将步骤b3得到的向量化后的测试样本进行句子语义特征提取,连接正反两个LSTM神经网络,从正向和反向分别提取特征向量;
步骤b5,将提取的正向和反向的特征向量进行聚合;
步骤b6,将聚合的特征向量通过池化层和Dropout层操作获取新的特征向量,并且加入Dropout层防止由于参数过多或者样本少的过拟合情况;
步骤b7,将新的特征向量进行全连接,通过概率函数计算得到测试样本的语义特征向量表示;
步骤b8,将训练模型载入步骤b7得到的测试样本的语义特征向量中;
步骤b9,根据用户输入的测试样本的向量Qi与训练样本的向量Si中已知的类别向量进行语义向量相似度计算:
其中dis tance(Si,Qi)为计算Si,Qi之间的距离;最后输出层通过softmax函数将实数向量的相似性转换成条件概率分布,得到归一化的概率值,将概率值从大到小进行降序排列,选取(1-k)个候选值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910949434.9A CN110826337B (zh) | 2019-10-08 | 2019-10-08 | 一种短文本语义训练模型获取方法及相似度匹配算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910949434.9A CN110826337B (zh) | 2019-10-08 | 2019-10-08 | 一种短文本语义训练模型获取方法及相似度匹配算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110826337A CN110826337A (zh) | 2020-02-21 |
CN110826337B true CN110826337B (zh) | 2023-06-16 |
Family
ID=69548711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910949434.9A Active CN110826337B (zh) | 2019-10-08 | 2019-10-08 | 一种短文本语义训练模型获取方法及相似度匹配算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110826337B (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460808B (zh) * | 2020-03-23 | 2022-04-26 | 腾讯科技(深圳)有限公司 | 同义文本识别及内容推荐方法、装置及电子设备 |
CN111523328B (zh) * | 2020-04-13 | 2023-09-05 | 中博信息技术研究院有限公司 | 一种智能客服语义处理方法 |
CN111552773A (zh) * | 2020-04-24 | 2020-08-18 | 中国科学院空天信息创新研究院 | 一种阅读理解任务中是否类问题关键句寻找方法及系统 |
CN111666770B (zh) * | 2020-06-02 | 2023-07-18 | 泰康保险集团股份有限公司 | 一种语义匹配方法及装置 |
CN111680501B (zh) * | 2020-08-12 | 2020-11-20 | 腾讯科技(深圳)有限公司 | 基于深度学习的问询信息识别方法、装置及存储介质 |
CN112287656B (zh) * | 2020-10-12 | 2024-05-28 | 四川语言桥信息技术有限公司 | 文本比对方法、装置、设备和存储介质 |
CN112241626B (zh) * | 2020-10-14 | 2023-07-07 | 网易(杭州)网络有限公司 | 一种语义匹配、语义相似度模型训练方法及装置 |
CN113780610B (zh) * | 2020-12-02 | 2024-08-20 | 北京沃东天骏信息技术有限公司 | 一种客服画像构建方法和装置 |
CN112487274B (zh) * | 2020-12-02 | 2023-02-07 | 重庆邮电大学 | 一种基于文本点击率的搜索结果推荐方法及系统 |
CN112650833A (zh) * | 2020-12-25 | 2021-04-13 | 哈尔滨工业大学(深圳) | Api匹配模型建立方法及跨城市政务api匹配方法 |
CN112861918B (zh) * | 2021-01-14 | 2023-11-07 | 中国重型机械研究院股份公司 | 一种基于互异特征向量的重复物料实体识别方法 |
CN112905793B (zh) * | 2021-02-23 | 2023-06-20 | 山西同方知网数字出版技术有限公司 | 一种基于Bilstm+Attention文本分类的案例推荐方法及系统 |
CN113094713B (zh) * | 2021-06-09 | 2021-08-13 | 四川大学 | 一种自适应的主机入侵检测序列特征提取方法及系统 |
CN113392637B (zh) * | 2021-06-24 | 2023-02-07 | 青岛科技大学 | 基于tf-idf的主题词提取方法、装置、设备及存储介质 |
CN114219050B (zh) * | 2022-02-22 | 2022-06-21 | 杭州远传新业科技股份有限公司 | 文本相似度模型的训练方法、系统、装置和介质 |
CN114707516B (zh) * | 2022-03-29 | 2024-08-13 | 北京理工大学 | 一种基于对比学习的长文本语义相似度计算方法 |
CN115168537B (zh) * | 2022-06-30 | 2023-06-27 | 北京百度网讯科技有限公司 | 语义检索模型的训练方法、装置、电子设备及存储介质 |
CN115222373B (zh) * | 2022-09-20 | 2022-11-25 | 河北建投工程建设有限公司 | 一种设计项目管理方法及系统 |
CN116167352B (zh) * | 2023-04-03 | 2023-07-21 | 联仁健康医疗大数据科技股份有限公司 | 数据处理方法、装置、电子设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107894975A (zh) * | 2017-10-12 | 2018-04-10 | 北京知道未来信息技术有限公司 | 一种基于Bi‑LSTM的分词方法 |
CN108491497B (zh) * | 2018-03-20 | 2020-06-02 | 苏州大学 | 基于生成式对抗网络技术的医疗文本生成方法 |
CN110134786B (zh) * | 2019-05-14 | 2021-09-10 | 南京大学 | 一种基于主题词向量与卷积神经网络的短文本分类方法 |
-
2019
- 2019-10-08 CN CN201910949434.9A patent/CN110826337B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110826337A (zh) | 2020-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110826337B (zh) | 一种短文本语义训练模型获取方法及相似度匹配算法 | |
CN108536679B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
CN113255755B (zh) | 一种基于异质融合网络的多模态情感分类方法 | |
CN116992005B (zh) | 基于大模型及本地知识库的智能对话方法、系统及设备 | |
CN115033670A (zh) | 多粒度特征融合的跨模态图文检索方法 | |
CN110222178A (zh) | 文本情感分类方法、装置、电子设备及可读存储介质 | |
CN110619051B (zh) | 问题语句分类方法、装置、电子设备及存储介质 | |
CN112989802B (zh) | 一种弹幕关键词提取方法、装置、设备及介质 | |
CN110750998B (zh) | 一种文本输出方法、装置、计算机设备和存储介质 | |
Zhang et al. | Video-aided unsupervised grammar induction | |
CN114328807A (zh) | 一种文本处理方法、装置、设备及存储介质 | |
CN115114409B (zh) | 一种基于软参数共享的民航不安全事件联合抽取方法 | |
CN114691864A (zh) | 文本分类模型训练方法及装置、文本分类方法及装置 | |
CN113111663A (zh) | 一种融合关键信息的摘要生成方法 | |
CN111859979A (zh) | 讽刺文本协同识别方法、装置、设备及计算机可读介质 | |
CN118113855A (zh) | 一种舰船试验训练场景问答方法、系统、设备和介质 | |
CN110659392B (zh) | 检索方法及装置、存储介质 | |
CN113741759B (zh) | 评论信息的展示方法、装置、计算机设备和存储介质 | |
CN114117041B (zh) | 一种基于特定属性词上下文建模的属性级情感分析方法 | |
CN114547303A (zh) | 基于Bert-LSTM的文本多特征分类方法及装置 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN117033558A (zh) | 一种融合bert-wwm与多特征的影评情感分析方法 | |
CN116579348A (zh) | 基于不确定语义融合的虚假新闻检测方法及系统 | |
Gao et al. | Sensitive image information recognition model of network community based on content text | |
CN115114433B (zh) | 语言模型的训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |