CN109214001A - 一种中文语义匹配系统及方法 - Google Patents
一种中文语义匹配系统及方法 Download PDFInfo
- Publication number
- CN109214001A CN109214001A CN201810967045.4A CN201810967045A CN109214001A CN 109214001 A CN109214001 A CN 109214001A CN 201810967045 A CN201810967045 A CN 201810967045A CN 109214001 A CN109214001 A CN 109214001A
- Authority
- CN
- China
- Prior art keywords
- matching
- context
- semantic
- data
- backward
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 13
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims description 92
- 230000006870 function Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 15
- 230000014509 gene expression Effects 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000009193 crawling Effects 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000008447 perception Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 5
- 230000000717 retained effect Effects 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000013480 data collection Methods 0.000 abstract 1
- 230000002457 bidirectional effect Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种中文语义匹配系统及方法,方法包括以下步骤收集公开Quora英文数据集并从网上爬取所需要的中文数据集,对数据进行处理,将数据转化为网络能够识别的输入数据;构建以注意力机制和BiLSTM为基准的句子对语义特征提取模型,利用语义特征提取模型对输入数据进行处理,获取输入数据的语义特征;将提取的语义特征进行融并进行计算,输出预测的结果。相对现有技术,本发明能够更好的捕获两个句子对间更多的语义信息,从而提高判断问题的准确性。
Description
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种中文语义匹配系统及方法。
背景技术
近年来,社区问答服务系统因具有简便、快捷性,越来越受到人们的青睐,但是随着被提问题的大幅度增加,问题被回答的比重逐步下降,为了提高问答系统中问题被解答的效率、缩减提问者的等待时间,如何准确的判断出被提问题是否曾被提问过是社区问答系统必须要解决的问题。
句子对建模在过去几年引起了很多关注,很多任务都可以用匹配模型进行表示,例如:问答、释义识别和语义相似度计算等。定义如果被提问的两个问题能够使用相同答案进行解答,则称两个问题等价。但是,判断两个问题是否等价是一个很大的挑战,主要包含两个因素:(1)相同的问题不同的人可能会用不同的词语或句法结构来表达;(2)两个问题的字面意思不一样但可能隐含着相同的问题答案。因此,像基于词重叠的传统度量算法shingling和词频-逆向文件频率(tf-idf)算法等在很多情况下不能很好的捕获到问题对间的等价语义信息。
发明内容
本发明的目的是提供一种中文语义匹配系统及方法,所要解决的技术问题是:像基于词重叠的传统度量算法shingling和词频-逆向文件频率(tf-idf)算法等在很多情况下不能很好的捕获到问题对间的等价语义信息。
本发明解决上述技术问题的技术方案如下:一种中文语义匹配方法,包括以下步骤:
S1、收集公开Quora英文数据集并从网上爬取中文数据集,对数据进行处理,将数据转化为网络能够识别的输入数据;
S2、构建以注意力机制和BiLSTM为基准的句子对语义特征提取模型,利用语义特征提取模型对输入数据进行处理,获取输入数据的语义特征;
S3、将提取的语义特征进行融并进行计算,输出预测的结果。
进一步,所述S1的具体实现包括以下步骤:
S1.1、收集公开Quora英文数据集并从网上爬取中文数据集,将数据转化成三元组格式,即(P,Q,y);其中P和Q分别表示两个句子,y表示两个句子间的语义关系,语义相同则为1,否则为0;
S1.2、利用jieba对三元组格式的中文数据进行分词,再将分词后的数据和Quora英文数据集分别采用Word2vec进行训练得到词向量进行初始化,作为网络的输入数据。
进一步,所述S2的具体实现包括以下步骤:
S2.1、计算P中的每个单词与Q中的每一个单词的匹配程度,形成一个匹配矩阵A∈Rm×n,其中,其次,按照从左到右和从上到下两个方向进行运算,分别得到F0=(f0,1,..f0,i,f0,m)和F1=(f1,1,..f1,j,..f1,n);其中,i∈m,j∈n,f0,i=max(Ai,1,...,Ai,j),f1,j=max(A1,j,...,Ai,j);最后,分别通过pi'=F0,i·pi和q'j=F1,j·qj对每个词向量进行重新赋值;
S2.2、采用LSTM的变体BiLSTM网络将重新赋值后的P和Q的上下文信息合并到每个时间步骤的表示中,给定一个输入序列x={x(1),x(2),.....,x(n)},其中x(t)是本文中的d维向量,在时间t的隐藏向量h(t)如下更新:
ct=ft*ct-1+it*Ct
ht=ot*tanh(ct)
在LSTM架构中,主要由输入门i、忘记门f和输出门o和一个记忆单元存储器向量c构成;σ是sigmoid函数;其中Wk(k=i,f,o,c)是网络参数;
采用LSTM将每个时间步两个方向的隐藏状态连接作为两本地上下文感知的新词表示,分别用hi和hj表示;采用BiLSTM来编码P的每个时间步长的上下文嵌入:
同时,采用相同的BiLSTM对Q进行编码:
S2.3、定义一个多视角比较度量函数
w=fw(v1,v2;W)∈Rl
其中,l是透视的数目,v1,v2∈Rd,W∈Rl×d是一个可训练的矩阵参数;这样,每个分量wk∈w表示第k个视角的匹配值,它们是通过两个加权矢量之间的余弦相似度计算的;
其中,是元素乘法,Wk是W的第k行,它控制第k个透视图并为不同维度的空间分配不同的权重;其次,基于上面定义的公式fw,定义了四种匹配策略来比较一个句子的每个时间步长与另一个句子的所有时间步长;
全连接匹配:将每个前向或后向上下文嵌入或与另一个句子或的前向或后向表示的最后时间步进比较;
最大池匹配:将每个前向或后向上下文嵌入或与其他句子的每个前向或后向上下文嵌入进行比较或并且只保留每个维度的最大值;
注意力匹配:首先计算每个前向或后向上下文嵌入或与另一个句子或的每个前向或后向上下文嵌入之间的余弦相似度;然后,将或作为或的权重,并通过对所有上下文嵌入进行加权求和来计算整个句子Q的注意向量;最后,将每个向前或向后的或的上下文嵌入与其对应的注意向量进行匹配;
最大注意力匹配:选择具有最高余弦相似度的上下文嵌入作为注意向量。然后,将句子P的每个上下文嵌入与其新的注意向量进行匹配。最后,将每个向前或向后的或的上下文嵌入与其对应的注意向量进行匹配;
将上述四种匹配模型应用于句子P的每个时间步长,并将生成的八个向量连接为针对P的每个时间步长的匹配向量。
进一步,将提取的语义特征进行融合并转化成固定长度的匹配向量送入两层前馈神经网络,计算每个时间步的值;在输出层中应用softmax函数对整个通道的值进行归一化;通过采用公式Pr=(y|P,Q)进行预测,并输出结果。
本发明的有益效果是:使用注意力机制,并采用多种双向匹配模型;在英文数据集和中文数据集上都取得较好的结果,能够更好的捕获两个句子对间更多的语义信息,从而提高判断问题的准确性。
本发明解决上述技术问题的另一技术方案如下:一种中文语义匹配系统,包括:
预处理模块,用于收集公开Quora英文数据集并从网上爬取中文数据集,对数据进行处理,将数据转化为网络能够识别的输入数据;
特征提取模块,用于构建以注意力机制和BiLSTM为基准的句子对语义特征提取模型,利用语义特征提取模型对输入数据进行处理,获取输入数据的语义特征;
预测输出模块,用于将提取的语义特征进行融并进行计算,输出预测的结果。
进一步,所述预处理模块收集公开Quora英文数据集并从网上爬取中文数据集,将数据转化成三元组格式,即(P,Q,y);其中P和Q分别表示两个句子,y表示两个句子间的语义关系,语义相同则为1,否则为0;
利用jieba对三元组格式的中文数据进行分词,再将分词后的数据和Quora英文数据集分别采用Word2vec进行训练得到词向量进行初始化,作为网络的输入数据。
进一步,所述特征提取模块计算P中的每个单词与Q中的每一个单词的匹配程度,形成一个匹配矩阵A∈Rm×n,其中,其次,按照从左到右和从上到下两个方向进行运算,分别得到F0=(f0,1,..f0,i,f0,m)和F1=(f1,1,..f1,j,..f1,n);其中,i∈m,j∈n,f0,i=max(Ai,1,...,Ai,j),f1,j=max(A1,j,...,Ai,j);最后,分别通过pi'=F0,i·pi和q'j=F1,j·qj对每个词向量进行重新赋值;
采用LSTM的变体BiLSTM网络将重新赋值后的P和Q的上下文信息合并到每个时间步骤的表示中,给定一个输入序列x={x(1),x(2),.....,x(n)},其中x(t)是本文中的d维向量,在时间t的隐藏向量h(t)如下更新:
ct=ft*ct-1+it*Ct
ht=ot*tanh(ct)
在LSTM架构中,主要由输入门i、忘记门f和输出门o和一个记忆单元存储器向量c构成;σ是sigmoid函数;其中Wk(k=i,f,o,c)是网络参数;
采用LSTM将每个时间步两个方向的隐藏状态连接作为两本地上下文感知的新词表示,分别用hi和hj表示;采用BiLSTM来编码P的每个时间步长的上下文嵌入:
同时,采用相同的BiLSTM对Q进行编码:
定义一个多视角比较度量函数
w=fw(v1,v2;W)∈Rl
其中,l是透视的数目,v1,v2∈Rd,W∈Rl×d是一个可训练的矩阵参数;这样,每个分量wk∈w表示第k个视角的匹配值,它们是通过两个加权矢量之间的余弦相似度计算的;
其中,是元素乘法,Wk是W的第k行,它控制第k个透视图并为不同维度的空间分配不同的权重;其次,基于上面定义的公式fw,定义了四种匹配策略来比较一个句子的每个时间步长与另一个句子的所有时间步长;
全连接匹配:将每个前向或后向上下文嵌入或与另一个句子或的前向或后向表示的最后时间步进比较;
最大池匹配:将每个前向或后向上下文嵌入或与其他句子的每个前向或后向上下文嵌入进行比较或并且只保留每个维度的最大值;
注意力匹配:首先计算每个前向或后向上下文嵌入或与另一个句子或的每个前向或后向上下文嵌入之间的余弦相似度;然后,将或作为或的权重,并通过对所有上下文嵌入进行加权求和来计算整个句子Q的注意向量;最后,将每个向前或向后的或的上下文嵌入与其对应的注意向量进行匹配;
最大注意力匹配:选择具有最高余弦相似度的上下文嵌入作为注意向量。然后,将句子P的每个上下文嵌入与其新的注意向量进行匹配。最后,将每个向前或向后的或的上下文嵌入与其对应的注意向量进行匹配;
将上述四种匹配模型应用于句子P的每个时间步长,并将生成的八个向量连接为针对P的每个时间步长的匹配向量。
进一步,所述预测输出模块将提取的语义特征进行融合并转化成固定长度的匹配向量送入两层前馈神经网络,计算每个时间步的值;在输出层中应用softmax函数对整个通道的值进行归一化;通过采用公式Pr=(y|P,Q)进行预测,并输出结果。
本发明的有益效果是:使用注意力机制,并采用多种双向匹配模型;在英文数据集和中文数据集上都取得较好的结果,能够更好的捕获两个句子对间更多的语义信息,从而提高判断问题的准确性。
附图说明
图1为本发明一种中文语义匹配方法的流程图;
图2为本发明一种中文语义匹配系统的整体框架图;
图3为本发明一种中文语义匹配系统的模块框。
附图中,各标号所代表的部件列表如下:
1、预处理模块,2、特征提取模块,3、预测输出模块。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
实施例1:
如图1和图2所示,一种中文语义匹配方法,包括以下步骤:
S1、收集公开Quora英文数据集并从网上爬取中文数据集,对数据进行处理,将数据转化为网络能够识别的输入数据;
S2、构建以注意力机制和BiLSTM为基准的句子对语义特征提取模型,利用语义特征提取模型对输入数据进行处理,获取输入数据的语义特征;
S3、将提取的语义特征进行融并进行计算,输出预测的结果。
上述实施例中,所述S1的具体实现包括以下步骤:
S1.1、收集公开Quora英文数据集并从网上爬取中文数据集,将数据转化成三元组格式,即(P,Q,y);其中P和Q分别表示两个句子,y表示两个句子间的语义关系,语义相同则为1,否则为0;
S1.2、利用jieba对三元组格式的中文数据进行分词,再将分词后的数据和Quora英文数据集分别采用Word2vec进行训练得到词向量进行初始化,作为网络的输入数据。
上述实施例中,所述S2的具体实现包括以下步骤:
S2.1、计算P中的每个单词与Q中的每一个单词的匹配程度,形成一个匹配矩阵A∈Rm×n,其中,其次,按照从左到右和从上到下两个方向进行运算,分别得到F0=(f0,1,..f0,i,f0,m)和F1=(f1,1,..f1,j,..f1,n);其中,i∈m,j∈n,f0,i=max(Ai,1,...,Ai,j),f1,j=max(A1,j,...,Ai,j);最后,分别通过pi'=F0,i·pi和q'j=F1,j·qj对每个词向量进行重新赋值;
S2.2、采用LSTM的变体BiLSTM网络将重新赋值后的P和Q的上下文信息合并到每个时间步骤的表示中,给定一个输入序列x={x(1),x(2),.....,x(n)},其中x(t)是本文中的d维向量,在时间t的隐藏向量h(t)如下更新:
ct=ft*ct-1+it*Ct
ht=ot*tanh(ct)
在LSTM架构中,主要由输入门i、忘记门f和输出门o和一个记忆单元存储器向量c构成;σ是sigmoid函数;其中Wk(k=i,f,o,c)是网络参数;
采用LSTM将每个时间步两个方向的隐藏状态连接作为两本地上下文感知的新词表示,分别用hi和hj表示;采用BiLSTM来编码P的每个时间步长的上下文嵌入:
同时,采用相同的BiLSTM对Q进行编码:
S2.3、定义一个多视角比较度量函数
w=fw(v1,v2;W)∈Rl
其中,l是透视的数目,v1,v2∈Rd,W∈Rl×d是一个可训练的矩阵参数;这样,每个分量wk∈w表示第k个视角的匹配值,它们是通过两个加权矢量之间的余弦相似度计算的;
其中,是元素乘法,Wk是W的第k行,它控制第k个透视图并为不同维度的空间分配不同的权重;其次,基于上面定义的公式fw,定义了四种匹配策略来比较一个句子的每个时间步长与另一个句子的所有时间步长;
全连接匹配:将每个前向或后向上下文嵌入或与另一个句子或的前向或后向表示的最后时间步进比较;
最大池匹配:将每个前向或后向上下文嵌入或与其他句子的每个前向或后向上下文嵌入进行比较或并且只保留每个维度的最大值;
注意力匹配:首先计算每个前向或后向上下文嵌入或与另一个句子或的每个前向或后向上下文嵌入之间的余弦相似度;然后,将或作为或的权重,并通过对所有上下文嵌入进行加权求和来计算整个句子Q的注意向量;最后,将每个向前或向后的或的上下文嵌入与其对应的注意向量进行匹配;
最大注意力匹配:选择具有最高余弦相似度的上下文嵌入作为注意向量。然后,将句子P的每个上下文嵌入与其新的注意向量进行匹配。最后,将每个向前或向后的或的上下文嵌入与其对应的注意向量进行匹配;
将上述四种匹配模型应用于句子P的每个时间步长,并将生成的八个向量连接为针对P的每个时间步长的匹配向量。
上述实施例中,将提取的语义特征进行融合并转化成固定长度的匹配向量送入两层前馈神经网络,计算每个时间步的值;在输出层中应用softmax函数对整个通道的值进行归一化;通过采用公式Pr=(y|P,Q)进行预测,并输出结果。
本实施例基于双层注意力机制的中文语义匹配系统,在“匹配融合”框架下分别在单词表示层和上下文表示层使用注意力机制,并采用多种双向匹配模型;在英文数据集和中文数据集上都取得较好的结果,能够更好的捕获两个句子对间更多的语义信息,从而提高判断问题的准确性。
实施例2:
如图2和图3所示,一种中文语义匹配系统,包括:
预处理模块1,用于收集公开Quora英文数据集并从网上爬取中文数据集,对数据进行处理,将数据转化为网络能够识别的输入数据;
特征提取模块2,用于构建以注意力机制和BiLSTM为基准的句子对语义特征提取模型,利用语义特征提取模型对输入数据进行处理,获取输入数据的语义特征;
预测输出模块3,用于将提取的语义特征进行融并进行计算,输出预测的结果。
上述实施例中,所述预处理模块1收集公开Quora英文数据集并从网上爬取中文数据集,将数据转化成三元组格式,即(P,Q,y);其中P和Q分别表示两个句子,y表示两个句子间的语义关系,语义相同则为1,否则为0;
利用jieba对三元组格式的中文数据进行分词,再将分词后的数据和Quora英文数据集分别采用Word2vec进行训练得到词向量进行初始化,作为网络的输入数据。
上述实施例中,所述特征提取模块2计算P中的每个单词与Q中的每一个单词的匹配程度,形成一个匹配矩阵A∈Rm×n,其中,其次,按照从左到右和从上到下两个方向进行运算,分别得到F0=(f0,1,..f0,i,f0,m)和F1=(f1,1,..f1,j,..f1,n);其中,i∈m,j∈n,f0,i=max(Ai,1,...,Ai,j),f1,j=max(A1,j,...,Ai,j);最后,分别通过pi'=F0,i·pi和q'j=F1,j·qj对每个词向量进行重新赋值;
采用LSTM的变体BiLSTM网络将重新赋值后的P和Q的上下文信息合并到每个时间步骤的表示中,给定一个输入序列x={x(1),x(2),.....,x(n)},其中x(t)是本文中的d维向量,在时间t的隐藏向量h(t)如下更新:
ct=ft*ct-1+it*Ct
ht=ot*tanh(ct)
在LSTM架构中,主要由输入门i、忘记门f和输出门o和一个记忆单元存储器向量c构成;σ是sigmoid函数;其中Wk(k=i,f,o,c)是网络参数;
采用LSTM将每个时间步两个方向的隐藏状态连接作为两本地上下文感知的新词表示,分别用hi和hj表示;采用BiLSTM来编码P的每个时间步长的上下文嵌入:
同时,采用相同的BiLSTM对Q进行编码:
定义一个多视角比较度量函数
w=fw(v1,v2;W)∈Rl
其中,l是透视的数目,v1,v2∈Rd,W∈Rl×d是一个可训练的矩阵参数;这样,每个分量wk∈w表示第k个视角的匹配值,它们是通过两个加权矢量之间的余弦相似度计算的;
其中,是元素乘法,Wk是W的第k行,它控制第k个透视图并为不同维度的空间分配不同的权重;其次,基于上面定义的公式fw,定义了四种匹配策略来比较一个句子的每个时间步长与另一个句子的所有时间步长;
全连接匹配:将每个前向或后向上下文嵌入或与另一个句子或的前向或后向表示的最后时间步进比较;
最大池匹配:将每个前向或后向上下文嵌入或与其他句子的每个前向或后向上下文嵌入进行比较或并且只保留每个维度的最大值;
注意力匹配:首先计算每个前向或后向上下文嵌入或与另一个句子或的每个前向或后向上下文嵌入之间的余弦相似度;然后,将或作为或的权重,并通过对所有上下文嵌入进行加权求和来计算整个句子Q的注意向量;最后,将每个向前或向后的或的上下文嵌入与其对应的注意向量进行匹配;
最大注意力匹配:选择具有最高余弦相似度的上下文嵌入作为注意向量。然后,将句子P的每个上下文嵌入与其新的注意向量进行匹配。最后,将每个向前或向后的或的上下文嵌入与其对应的注意向量进行匹配;
将上述四种匹配模型应用于句子P的每个时间步长,并将生成的八个向量连接为针对P的每个时间步长的匹配向量。
上述实施例中,所述预测输出模块3将提取的语义特征进行融合并转化成固定长度的匹配向量送入两层前馈神经网络,计算每个时间步的值;在输出层中应用soft max函数对整个通道的值进行归一化;通过采用公式Pr=(y|P,Q)进行预测,并输出结果。
本实施例基于双层注意力机制的中文语义匹配系统,在“匹配融合”框架下分别在单词表示层和上下文表示层使用注意力机制,并采用多种双向匹配模型;在英文数据集和中文数据集上都取得较好的结果,能够更好的捕获两个句子对间更多的语义信息,从而提高判断问题的准确性。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种中文语义匹配方法,其特征在于,包括以下步骤:
S1、收集公开Quora英文数据集并从网上爬取中文数据集,对数据进行处理,将数据转化为网络能够识别的输入数据;
S2、构建以注意力机制和BiLSTM为基准的句子对语义特征提取模型,利用语义特征提取模型对输入数据进行处理,获取输入数据的语义特征;
S3、将提取的语义特征进行融并进行计算,输出预测的结果。
2.根据权利要求1所述的一种中文语义匹配方法,其特征在于,所述S1的具体实现包括以下步骤:
S1.1、收集公开Quora英文数据集并从网上爬取中文数据集,将数据转化成三元组格式,即(P,Q,y);其中P和Q分别表示两个句子,y表示两个句子间的语义关系,语义相同则为1,否则为0;
S1.2、利用jieba对三元组格式的中文数据进行分词,再将分词后的数据和Quora英文数据集分别采用Word2vec进行训练得到词向量进行初始化,,作为网络的输入数据。
3.根据权利要求2所述的一种中文语义匹配方法,其特征在于,所述S2的具体实现包括以下步骤:
S2.1、计算P中的每个单词与Q中的每一个单词的匹配程度,形成一个匹配矩阵A∈Rm×n,其中,其次,按照从左到右和从上到下两个方向进行运算,分别得到F0=(f0,1,..f0,i,f0,m)和F1=(f1,1,..f1,j,..f1,n);其中,i∈m,j∈n,f0,i=max(Ai,1,...,Ai,j),f1,j=max(A1,j,...,Ai,j);最后,分别通过p′i=F0,i·pi和q′j=F1,j·qj对每个词向量进行重新赋值;
S2.2、采用LSTM的变体BiLSTM网络将重新赋值后的P和Q的上下文信息合并到每个时间步骤的表示中,给定一个输入序列x={x(1),x(2),.....,x(n)},其中x(t)是本文中的d维向量,在时间t的隐藏向量h(t)如下更新:
ct=ft*ct-1+it*Ct
ht=ot*tanh(ct)
在LSTM架构中,主要由输入门i、忘记门f和输出门o和一个记忆单元存储器向量c构成;σ是sigmoid函数;其中Wk(k=i,f,o,c)是网络参数;
采用LSTM将每个时间步两个方向的隐藏状态连接作为两本地上下文感知的新词表示,分别用hi和hj表示;采用BiLSTM来编码P的每个时间步长的上下文嵌入:
同时,采用相同的BiLSTM对Q进行编码:
S2.3、定义一个多视角比较度量函数
w=fw(v1,v2;W)∈Rl
其中,l是透视的数目,v1,v2∈Rd,W∈Rl×d是一个可训练的矩阵参数;这样,每个分量wk∈w表示第k个视角的匹配值,它们是通过两个加权矢量之间的余弦相似度计算的;
其中,是元素乘法,Wk是W的第k行,它控制第k个透视图并为不同维度的空间分配不同的权重;其次,基于上面定义的公式fw,定义了四种匹配策略来比较一个句子的每个时间步长与另一个句子的所有时间步长;
全连接匹配:将每个前向或后向上下文嵌入或与另一个句子或的前向或后向表示的最后时间步进比较;
最大池匹配:将每个前向或后向上下文嵌入或与其他句子的每个前向或后向上下文嵌入进行比较或并且只保留每个维度的最大值;
注意力匹配:首先计算每个前向或后向上下文嵌入或与另一个句子或的每个前向或后向上下文嵌入之间的余弦相似度;然后,将或作为或的权重,并通过对所有上下文嵌入进行加权求和来计算整个句子Q的注意向量;最后,将每个向前或向后的或的上下文嵌入与其对应的注意向量进行匹配;
最大注意力匹配:选择具有最高余弦相似度的上下文嵌入作为注意向量。然后,将句子P的每个上下文嵌入与其新的注意向量进行匹配。最后,将每个向前或向后的或的上下文嵌入与其对应的注意向量进行匹配;
将上述四种匹配模型应用于句子P的每个时间步长,并将生成的八个向量连接为针对P的每个时间步长的匹配向量。
4.根据权利要求3所述的一种中文语义匹配方法,其特征在于,将提取的语义特征进行融合并转化成固定长度的匹配向量送入两层前馈神经网络,计算每个时间步的值;在输出层中应用softmax函数对整个通道的值进行归一化;通过采用公式Pr=(y|P,Q)进行预测,并输出结果。
5.一种中文语义匹配系统,其特征在于,包括:
预处理模块(1),用于收集公开Quora英文数据集并从网上爬取中文数据集,对数据进行处理,将数据转化为网络能够识别的输入数据;
特征提取模块(2),用于构建以注意力机制和BiLSTM为基准的句子对语义特征提取模型,利用语义特征提取模型对输入数据进行处理,获取输入数据的语义特征;
预测输出模块(3),用于将提取的语义特征进行融并进行计算,输出预测的结果。
6.根据权利要求5所述的一种中文语义匹配系统,其特征在于,所述预处理模块(1)收集公开Quora英文数据集并从网上爬取中文数据集,将数据转化成三元组格式,即(P,Q,y);其中P和Q分别表示两个句子,y表示两个句子间的语义关系,语义相同则为1,否则为0;
利用jieba对三元组格式的中文数据进行分词,再将分词后的数据和Quora英文数据集分别采用Word2vec进行训练得到词向量进行初始化,作为网络的输入数据。
7.根据权利要求6所述的一种中文语义匹配系统,其特征在于,所述特征提取模块(2)计算P中的每个单词与Q中的每一个单词的匹配程度,形成一个匹配矩阵A∈Rm×n,其中,其次,按照从左到右和从上到下两个方向进行运算,分别得到F0=(f0,1,..f0,i,f0,m)和F1=(f1,1,..f1,j,..f1,n);其中,i∈m,j∈n,f0,i=max(Ai,1,...,Ai,j),f1,j=max(A1,j,...,Ai,j);最后,分别通过p′i=F0,i·pi和q′j=F1,j·qj对每个词向量进行重新赋值;
采用LSTM的变体BiLSTM网络将重新赋值后的P和Q的上下文信息合并到每个时间步骤的表示中,给定一个输入序列x={x(1),x(2),.....,x(n)},其中x(t)是本文中的d维向量,在时间t的隐藏向量h(t)如下更新:
ct=ft*ct-1+it*Ct
ht=ot*tanh(ct)
在LSTM架构中,主要由输入门i、忘记门f和输出门o和一个记忆单元存储器向量c构成;σ是sigmoid函数;其中Wk(k=i,f,o,c)是网络参数;
采用LSTM将每个时间步两个方向的隐藏状态连接作为两本地上下文感知的新词表示,分别用hi和hj表示;采用BiLSTM来编码P的每个时间步长的上下文嵌入:
同时,采用相同的BiLSTM对Q进行编码:
定义一个多视角比较度量函数
w=fw(v1,v2;W)∈Rl
其中,l是透视的数目,v1,v2∈Rd,W∈Rl×d是一个可训练的矩阵参数;这样,每个分量wk∈w表示第k个视角的匹配值,它们是通过两个加权矢量之间的余弦相似度计算的;
其中,是元素乘法,Wk是W的第k行,它控制第k个透视图并为不同维度的空间分配不同的权重;其次,基于上面定义的公式fw,定义了四种匹配策略来比较一个句子的每个时间步长与另一个句子的所有时间步长;
全连接匹配:将每个前向或后向上下文嵌入或与另一个句子或的前向或后向表示的最后时间步进比较;
最大池匹配:将每个前向或后向上下文嵌入或与其他句子的每个前向或后向上下文嵌入进行比较或并且只保留每个维度的最大值;
注意力匹配:首先计算每个前向或后向上下文嵌入或与另一个句子或的每个前向或后向上下文嵌入之间的余弦相似度;然后,将或作为或的权重,并通过对所有上下文嵌入进行加权求和来计算整个句子Q的注意向量;最后,将每个向前或向后的或的上下文嵌入与其对应的注意向量进行匹配;
最大注意力匹配:选择具有最高余弦相似度的上下文嵌入作为注意向量。然后,将句子P的每个上下文嵌入与其新的注意向量进行匹配。最后,将每个向前或向后的或的上下文嵌入与其对应的注意向量进行匹配;
将上述四种匹配模型应用于句子P的每个时间步长,并将生成的八个向量连接为针对P的每个时间步长的匹配向量。
8.根据权利要求7所述的一种中文语义匹配系统,其特征在于,所述预测输出模块(3)将提取的语义特征进行融合并转化成固定长度的匹配向量送入两层前馈神经网络,计算每个时间步的值;在输出层中应用softmax函数对整个通道的值进行归一化;通过采用公式Pr=(y|P,Q)进行预测,并输出结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810967045.4A CN109214001A (zh) | 2018-08-23 | 2018-08-23 | 一种中文语义匹配系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810967045.4A CN109214001A (zh) | 2018-08-23 | 2018-08-23 | 一种中文语义匹配系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109214001A true CN109214001A (zh) | 2019-01-15 |
Family
ID=64989114
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810967045.4A Pending CN109214001A (zh) | 2018-08-23 | 2018-08-23 | 一种中文语义匹配系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109214001A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858032A (zh) * | 2019-02-14 | 2019-06-07 | 程淑玉 | 融合Attention机制的多粒度句子交互自然语言推理模型 |
CN109947912A (zh) * | 2019-01-25 | 2019-06-28 | 四川大学 | 一种基于段落内部推理和联合问题答案匹配的模型方法 |
CN110298037A (zh) * | 2019-06-13 | 2019-10-01 | 同济大学 | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 |
CN110362681A (zh) * | 2019-06-19 | 2019-10-22 | 平安科技(深圳)有限公司 | 问答系统重复问题识别方法、装置及存储介质 |
CN110765755A (zh) * | 2019-10-28 | 2020-02-07 | 桂林电子科技大学 | 一种基于双重选择门的语义相似度特征提取方法 |
CN110826338A (zh) * | 2019-10-28 | 2020-02-21 | 桂林电子科技大学 | 一种单选择门与类间度量的细粒度语义相似识别的方法 |
CN111191458A (zh) * | 2019-12-20 | 2020-05-22 | 中国科学院软件研究所 | 一种基于上下文的语义匹配方法和系统 |
CN111221966A (zh) * | 2019-12-31 | 2020-06-02 | 北京科东电力控制系统有限责任公司 | 一种文本语义关系提取方法及系统 |
CN111325028A (zh) * | 2020-02-20 | 2020-06-23 | 齐鲁工业大学 | 一种基于深度分层编码的智能语义匹配方法和装置 |
CN111652000A (zh) * | 2020-05-22 | 2020-09-11 | 重庆大学 | 一种语句相似度判断方法及判断系统 |
CN112749566A (zh) * | 2019-10-31 | 2021-05-04 | 兰雨晴 | 一种面向英文写作辅助的语义匹配方法及装置 |
CN113535928A (zh) * | 2021-08-05 | 2021-10-22 | 陕西师范大学 | 基于注意力机制下长短期记忆网络的服务发现方法及系统 |
CN114139532A (zh) * | 2022-01-30 | 2022-03-04 | 北京语言大学 | 一种基于多任务框架进行简单释义生成的方法与系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106547885A (zh) * | 2016-10-27 | 2017-03-29 | 桂林电子科技大学 | 一种文本分类系统及方法 |
-
2018
- 2018-08-23 CN CN201810967045.4A patent/CN109214001A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106547885A (zh) * | 2016-10-27 | 2017-03-29 | 桂林电子科技大学 | 一种文本分类系统及方法 |
Non-Patent Citations (3)
Title |
---|
BASANT AGARWAL等: "A Deep Network Model for Paraphrase Detection in Short Text Messages", 《INFORMATION PROCESSING&MANAGEMENT JOURNAL》 * |
ZHIGUO WANG等: "Bilateral Multi-Perspective Matching for Natural Language Sentences", 《PROCEEDINGS OF THE 26TH INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE》 * |
赵勤鲁 等: "基于LSTM-Attention神经网络的文本特征提取方法", 《现代电子技术》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109947912A (zh) * | 2019-01-25 | 2019-06-28 | 四川大学 | 一种基于段落内部推理和联合问题答案匹配的模型方法 |
CN109858032A (zh) * | 2019-02-14 | 2019-06-07 | 程淑玉 | 融合Attention机制的多粒度句子交互自然语言推理模型 |
CN110298037A (zh) * | 2019-06-13 | 2019-10-01 | 同济大学 | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 |
CN110298037B (zh) * | 2019-06-13 | 2023-08-04 | 同济大学 | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 |
CN110362681A (zh) * | 2019-06-19 | 2019-10-22 | 平安科技(深圳)有限公司 | 问答系统重复问题识别方法、装置及存储介质 |
CN110362681B (zh) * | 2019-06-19 | 2023-09-22 | 平安科技(深圳)有限公司 | 问答系统重复问题识别方法、装置及存储介质 |
CN110826338B (zh) * | 2019-10-28 | 2022-06-17 | 桂林电子科技大学 | 一种单选择门与类间度量的细粒度语义相似识别的方法 |
CN110765755A (zh) * | 2019-10-28 | 2020-02-07 | 桂林电子科技大学 | 一种基于双重选择门的语义相似度特征提取方法 |
CN110826338A (zh) * | 2019-10-28 | 2020-02-21 | 桂林电子科技大学 | 一种单选择门与类间度量的细粒度语义相似识别的方法 |
CN112749566B (zh) * | 2019-10-31 | 2024-05-03 | 兰雨晴 | 一种面向英文写作辅助的语义匹配方法及装置 |
CN112749566A (zh) * | 2019-10-31 | 2021-05-04 | 兰雨晴 | 一种面向英文写作辅助的语义匹配方法及装置 |
CN111191458A (zh) * | 2019-12-20 | 2020-05-22 | 中国科学院软件研究所 | 一种基于上下文的语义匹配方法和系统 |
CN111221966A (zh) * | 2019-12-31 | 2020-06-02 | 北京科东电力控制系统有限责任公司 | 一种文本语义关系提取方法及系统 |
CN111325028A (zh) * | 2020-02-20 | 2020-06-23 | 齐鲁工业大学 | 一种基于深度分层编码的智能语义匹配方法和装置 |
WO2021164200A1 (zh) * | 2020-02-20 | 2021-08-26 | 齐鲁工业大学 | 一种基于深度分层编码的智能语义匹配方法和装置 |
CN111652000B (zh) * | 2020-05-22 | 2023-04-07 | 重庆大学 | 一种语句相似度判断方法及判断系统 |
CN111652000A (zh) * | 2020-05-22 | 2020-09-11 | 重庆大学 | 一种语句相似度判断方法及判断系统 |
CN113535928A (zh) * | 2021-08-05 | 2021-10-22 | 陕西师范大学 | 基于注意力机制下长短期记忆网络的服务发现方法及系统 |
CN114139532B (zh) * | 2022-01-30 | 2022-04-19 | 北京语言大学 | 一种基于多任务框架进行简单释义生成的方法与系统 |
CN114139532A (zh) * | 2022-01-30 | 2022-03-04 | 北京语言大学 | 一种基于多任务框架进行简单释义生成的方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109214001A (zh) | 一种中文语义匹配系统及方法 | |
CN109947912B (zh) | 一种基于段落内部推理和联合问题答案匹配的模型方法 | |
CN111554268B (zh) | 基于语言模型的语言识别方法、文本分类方法和装置 | |
CN113641820B (zh) | 基于图卷积神经网络的视角级文本情感分类方法及系统 | |
CN108052512B (zh) | 一种基于深度注意力机制的图像描述生成方法 | |
CN111079532B (zh) | 一种基于文本自编码器的视频内容描述方法 | |
CN110597991B (zh) | 文本分类方法、装置、计算机设备及存储介质 | |
CN109783666B (zh) | 一种基于迭代精细化的图像场景图谱生成方法 | |
CN112733768B (zh) | 基于双向特征语言模型的自然场景文本识别方法及装置 | |
CN110609891A (zh) | 一种基于上下文感知图神经网络的视觉对话生成方法 | |
CN116415654A (zh) | 一种数据处理方法及相关设备 | |
CN107480206A (zh) | 一种基于多模态低秩双线性池化的图像内容问答方法 | |
CN111274398A (zh) | 一种方面级用户产品评论情感分析方法及系统 | |
CN114090780B (zh) | 一种基于提示学习的快速图片分类方法 | |
CN115221846A (zh) | 一种数据处理方法及相关设备 | |
CN110795549B (zh) | 短文本对话方法、装置、设备及存储介质 | |
CN113792177A (zh) | 基于知识引导深度注意力网络的场景文字视觉问答方法 | |
CN111598118A (zh) | 一种视觉问答任务实现方法及系统 | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
CN116343185A (zh) | 一种面向助盲领域的指示牌语义信息提取方法 | |
CN113326940A (zh) | 基于多重知识迁移的知识蒸馏方法、装置、设备及介质 | |
CN116662500A (zh) | 一种基于bert模型与外部知识图谱的问答系统构建方法 | |
CN116385937A (zh) | 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统 | |
CN115062123A (zh) | 一种对话生成系统的知识库问答对生成方法 | |
CN115797952B (zh) | 基于深度学习的手写英文行识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190115 |
|
RJ01 | Rejection of invention patent application after publication |