CN111831789B - 一种基于多层语义特征提取结构的问答文本匹配方法 - Google Patents
一种基于多层语义特征提取结构的问答文本匹配方法 Download PDFInfo
- Publication number
- CN111831789B CN111831789B CN202010554563.0A CN202010554563A CN111831789B CN 111831789 B CN111831789 B CN 111831789B CN 202010554563 A CN202010554563 A CN 202010554563A CN 111831789 B CN111831789 B CN 111831789B
- Authority
- CN
- China
- Prior art keywords
- question
- text
- layer
- answer
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000000605 extraction Methods 0.000 title claims abstract description 25
- 239000013598 vector Substances 0.000 claims abstract description 88
- 239000011159 matrix material Substances 0.000 claims abstract description 21
- 238000011176 pooling Methods 0.000 claims abstract description 13
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 238000013136 deep learning model Methods 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 241000170489 Upis Species 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 5
- 238000003058 natural language processing Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于多层语义特征提取结构的问答文本匹配方法,包括:获取问题与回答文本数据集,并构建问题与错误回答对;将问题与回答文本数据集预处理得到初始矩阵;将问题文本与回答文本转换成词向量并分别结合形成问题文本句向量、回答文本句向量;构建多层上下文编码结构并对问题文本句向量、回答文本句向量编码;使用卷积神经网络对每层上下文编码结构的输出进行卷积提取句子特征表示;每一层上下文编码结构的输出经过卷积之后,使用最大池化层提取多层中的语义特征作为句子的最终语义特征表示;计算问题文本的句子特征表示和回答文本的句子特征表示的相似度。本发明解决了传统方法无法对文本数据之间的关联性特征深层提取的技术问题。
Description
技术领域
本发明涉及自然语言处理技术领域,更具体地,涉及一种基于多层语义特征提取结构的问答文本匹配方法。
背景技术
文本匹配是自然语言处理的核心研究领域,有着悠久的历史。在文本匹配任务中,模型以两个文本序列作为输入,并预测一个类别或一个标量值来表示它们之间的关系。范围广泛的任务,包括自然语言推断,释义识别,答案选择等。很多自然语言处理的任务都可以抽象成文本匹配问题,例如信息检索可以归结成查询项和文档的匹配,问答系统可以归结为问题和候选答案的匹配,对话系统可以归结为对话和回复的匹配。针对不同的任务选取合适的匹配模型,提高匹配的准确率成为自然语言处理任务的重要挑战。衡量不同文本字符串之间的语义相似性的两个重要问题是词汇不匹配和整合上下文信息的难度。互联网的快速发展促进了信息的爆炸性增长,其中深度神经网络是当前文本匹配最常用的方法。语义对齐和两个文本序列的比较是神经文本匹配的关键。许多以前的深度神经网络包含一个单序列间对齐层。为了充分利用这一仅有的对齐过程,模型必须采用丰富的外部句法特征或手工设计的对齐特征作为对齐层的额外输入,采用复杂的对齐机制;或构建大量的后处理层来分析对齐结果。
目前自然语言处理的大多深度学习模型都是采用循环神经网络结构进行整合文本序列的上下文信息。深度学习应用在文本匹配上可以总结为以下四个阶段:1、单语义模型、2、多语义模型、3、匹配矩阵模型、4、深层次的句子间模型,,随着注意力机制等交互机制论文的发表,最新的论文用更精细的结构去挖掘句子内和句子间不同单词之间的联系,得到更好的效果。
现有的自然语言处理的深度学习模型中,对于文本上下文语义信息提取结构,使用多层串联的语义结构对文本信息进行编码,最终取最后一层的输出作为文本特征的输出。但是并没有结合每一层的输出。由于每一层语义提取结构都是作为“黑匣子”,无法实现层与层之间的关联性特征的深层提取。因而对于文本语义特征提取的不够充分以及过于冗余。现有技术中,公开号为CN109726396A的发明专利,该发明提供了一种基于多级特征和深度学习的问答文本语义匹配方法,对问答文本的单词和句法信息进行单词和句法结构分布式表示,并使用循环神经网络提取问答文本的上下文局部特征信息和句法结构特征信息,然后运用注意力机制抽取背景全局特征信息,使问答文本的特征信息更丰富,从而提高问答文本语义匹配的准确性。该发明侧重于问答文本的上下文局部特征信息和句法结构特征信息,没有在特征提取时考虑层与层之间的关联性特征。
发明内容
本发明为克服上述现有技术中无法实现层与层之间的关联性特征的深层提取,导致特征提取不够充分或过分冗余的缺陷,提供一种基于多层语义特征提取结构的问答文本匹配方法。
本发明的首要目的是为解决上述技术问题,本发明的技术方案如下:
一种基于多层语义特征提取结构的问答文本匹配方法,包括以下步骤:
S1:获取问题与回答文本数据集,并构建问题与错误回答对;
S2:将问题与回答文本数据集进行预处理得到初始矩阵;
S3:将问题与回答文本数据集中的问题文本与回答文本转换成词向量,所述词向量用于表示文本词汇的含义,将问题文本的词向量、回答文本的词向量分别结合形成问题文本句向量、回答文本句向量;
S4:构建文本匹配的深度学习模型的多层上下文编码结构,将问题文本句向量、回答文本句向量输入到所述的多层上下文编码结构中进行编码;
S5:使用卷积神经网络对每层上下文编码结构的输出进行卷积提取问题文本与回答文本的句子特征表示;
S6:每一层上下文编码结构的输出经过卷积之后,使用最大池化层提取多层中的语义特征作为句子的最终语义特征表示,所述句子的最终语义特征表示包括:问题文本的句子特征表示和回答文本的句子特征表示;
S7:计算问题文本的句子特征表示和回答文本的句子特征表示的余弦相似度,将问题文本与所有的回答文本匹配完后,选取与问题文本匹配到的余弦相似度最大的回答文本作为答案输出。
本方案中,所述问题与回答文本数据集包括问题及问题对应的正确答案、问题与错误回答,所述问题与错误回答是对每个问题从预设的答案池中随机抽取一条不是问题的答案作为负样本,构成问题与错误回答。
本方案中,问题与回答文本数据集进行预处理包括:
问答数据的清洗,分别对问题与回答数据集中的未登录词、停用词、以及问题文本与回答文本字符数小于预设字符数的数据项进行清洗;
对清洗后的问题与回答文本数据集进行分词操作和词性标注操作。
本方案中,所述将问题与回答文本数据集中的问题文本与回答文本转换成词向量是通过BERT模型的预训练模型的固定参数的词向量神经网络将问题文本与回答文本的词转化对应的词向量并将问题文本与回答文本对应的词向量构建成词向量矩阵,所述词向量矩阵行数为每个问题或回答文本的次数,列数为每个词对应向量所指定的维数。
本方案中,所述深度学习模型的多层上下文编码结构为自注意力机制Transformer单元,共有12层Transformer编码结构,所述12层Transformer编码结构依次串联,每一层结构具有输出,问题文本句向量、回答文本句向量输入至多层上下文编码结构的第一次层,第一层的输出逐层进行传递同时每一层也输出当前层的编码结果矩阵,保存每一层的输出上下文语义信息结果矩阵,用于下一层的输入数据。
本方案中,使用卷积神经网络对每层上下文编码结构的输出进行卷积提取问题文本与回答文本的句子特征表示具体为:
使用不同大小卷积核的卷积神经网络对每一层的上下文语义特征进行卷积操作;
将不同大小卷积核的卷积神经网络卷积提取出的语义特征结果整合到一起;
每一层的语义特征作为一个通道,使用最大池化提取12层中最大的语义特征;
池化层输出的语义特征矩阵是句子最后经过多层语义层提取的语义特征,也就是句子的特征表示;
将问题句子的特征表示与回答句子的特征表示进行匹配获取匹配结果。
本方案中,多层上下文编码结构中进行编码的具体过程为:
将问题文本句向量、回答文本句向量输入到所述的多层上下文编码结构的Transformer中:
Hi=Transformeri(E)
其中,E为问题文本与回答文本的句子向量输入,i表示为第i层Transformer编码层,Hi表示第i层Transformer的输出。
本方案中,所述卷积神经网络具有不同的特征映射,S={s1,s2,..,st},其中,第i个特征映射的宽度为si,长度为(dc+2hr)。卷积层在其滑动窗口内对连续的si向量进行操作
设定是从rk到/>的连续向量的串联,卷积运算的定义如下:
其中,为元素乘法的总和,f(·)为激活函数,b为偏差;
给定hc特征映射,过滤核大小si的卷积神经网络的输出是的串联,即:
本方案中,所述最大池化层包括:
首先将不同大小窗口的卷积提取出的语义特征结果进行整合到一起,所述多层上下文编码结构共有12层,每一层的语义特征作为一个通道,即有12通道的图像矩阵,然后使用窗口大小为1的最大池化提取12层中最大的语义特征,然后将这语义特征矩阵中的元素串联一起成为句子表征向量,用作下一步的匹配,具体公式如下:
其中,q表示为问题句子的语义特征表示向量,a表示为回答句子的语义特征表示向量。
本方案中,计算问题文本的句子特征表示和回答文本的句子特征表示的相似度,计算公式如下:
其中,q表示为问题句子的语义特征表示向量,a表示为回答句子的语义特征表示向量,||·||是向量长度。
与现有技术相比,本发明技术方案的有益效果是:
本发明通过对文本数据进行预处理得到矩阵数据,利用多层上下文编码结构进行上下文信息融合并提取,利用卷积神经网络对文本的语义以及关联特征的提取更符合个性化需求,将提取的特征输入匹配层进行计算相似度,从而更有利于对文本进行匹配与检索,解决了传统方法无法对文本数据之间的关联性特征深层提取的技术问题。
附图说明
图1为本发明提供的一种基于多层语义特征提取的文本匹配方法的流程示意图。
图2为本发明提供的一种基于多层语义特征提取的文本匹配方法的网络结构框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
实施例1
如图1-图2所示,一种基于多层语义特征提取结构的问答文本匹配方法,包括以下步骤:
S1:获取问题与回答文本数据集,并构建问题与错误回答对;
需要说明的是,在一个具体的实施例中,可以通过在线评论网络爬虫获取问题与回答文本数据集,获取问题与回答文本数据集具体可以为:编写相应地门类知识爬虫程序,利用该爬虫程序抓取互联网问答平台上的问答数据。也可以根据现有的可获知的途径,获取现有的网络资源、论文库资源、专利库资源等,并将所有的资源数据进行整合构成问题与回答数据集。
本方案中,所述问题与回答文本数据集包括问题及问题对应的正确答案、问题与错误回答,所述问题与错误回答是对每个问题从预设的答案池中随机抽取一条不是问题的答案作为负样本,构成问题与错误回答。所述答案池即问题与回答数据集中所有回答组成的答案池,所述负类样本以使样本集均衡,使文本匹配的深度学习模型性能表现优良。
S2:将问题与回答文本数据集进行预处理得到初始矩阵;
本方案中,问题与回答文本数据集进行预处理包括:
问答数据的清洗,分别对问题与回答数据集中的未登录词、停用词、以及问题文本与回答文本字符数小于预设字符数的数据项进行清洗;
对清洗后的问题与回答文本数据集进行分词操作和词性标注操作。
预处理后的数据集划分为两部分:训练集合测试集。其中分词操作基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG),采用了动态规划查找最大概率路径,找出基于词频的最大切分组合。
S3:将问题与回答文本数据集中的问题文本与回答文本转换成词向量,所述词向量用于表示文本词汇的含义,将问题文本的词向量、回答文本的词向量分别结合形成问题文本句向量、回答文本句向量;
本方案中,所述将问题与回答文本数据集中的问题文本与回答文本转换成词向量是通过BERT模型的预训练模型的固定参数的词向量神经网络将问题文本与回答文本的词转化对应的词向量并将问题文本与回答文本对应的词向量构建成词向量矩阵,所述词向量矩阵行数为每个问题或回答文本的次数,列数为每个词对应向量所指定的维数。
S4:构建文本匹配的深度学习模型的多层上下文编码结构,将问题文本句向量、回答文本句向量输入到所述的多层上下文编码结构中进行编码;
所述多层上下文编码结构为文本匹配的深度学习模型的第一个结构,在本发明中多层上下文编码结构为自注意力机制Transformer单元,共有12层Transformer编码结构,所述12层Transformer编码结构依次串联,每一层结构具有输出,问题文本句向量、回答文本句向量输入至多层上下文编码结构的第一次层,第一层的输出逐层进行传递同时每一层也输出当前层的编码结果矩阵,保存每一层的输出上下文语义信息结果矩阵,用于下一层的输入数据。
S5:使用卷积神经网络对每层上下文编码结构的输出进行卷积提取问题文本与回答文本的句子特征表示;
需要说明的是,本实施例中的卷积层的卷积核大小是多种的,可以根据文本句词统计信息设置的,从而提升模型的分类准确度。
S6:每一层上下文编码结构的输出经过卷积之后,使用最大池化层提取多层中的语义特征作为句子的最终语义特征表示,所述句子的最终语义特征表示包括:问题文本的句子特征表示和回答文本的句子特征表示;
步骤S5-S6具体流程为:
使用不同大小卷积核的卷积神经网络对每一层的上下文语义特征进行卷积操作;
将不同大小卷积核的卷积神经网络卷积提取出的语义特征结果整合到一起;
每一层的语义特征作为一个通道,使用最大池化提取12层中最大的语义特征;
池化层输出的语义特征矩阵是句子最后经过多层语义层提取的语义特征,也就是句子的特征表示;
S7:计算问题文本的句子特征表示和回答文本的句子特征表示的余弦相似度,,将问题文本与所有的回答文本匹配完后,选取与问题文本匹配到的余弦相似度最大的回答文本作为答案输出。
本方案中,多层上下文编码结构中进行编码的具体过程为:
将问题文本句向量、回答文本句向量输入到所述的多层上下文编码结构的Transformer中:
Hi=Transformeri(E)
其中,E为问题文本与回答文本的句子向量输入,i表示为第i层Transformer编码层,Hi表示第i层Transformer的输出。
本方案中,所述卷积神经网络具有不同的特征映射,S={s1,s2,..,st},其中,第i个特征映射的宽度为si,长度为(dc+2hr)。卷积层在其滑动窗口内对连续的si向量进行操作
设定是从rk到/>的连续向量的串联,卷积运算的定义如下:
其中,为元素乘法的总和,f(·)为激活函数,b为偏差;
给定hc特征映射,过滤核大小si的卷积神经网络的输出是的串联,即:
本方案中,所述最大池化层包括:
首先将不同大小窗口的卷积提取出的语义特征结果进行整合到一起,所述多层上下文编码结构共有12层,每一层的语义特征作为一个通道,即有12通道的图像矩阵,然后使用窗口大小为1的最大池化提取12层中最大的语义特征,然后将这语义特征矩阵中的元素串联一起成为句子表征向量,用作下一步的匹配,具体公式如下:
其中,q表示为问题句子的语义特征表示向量,a表示为回答句子的语义特征表示向量。
本方案中,计算问题文本的句子特征表示和回答文本的句子特征表示的相似度,计算公式如下:
其中,q表示为问题句子的语义特征表示向量,a表示为回答句子的语义特征表示向量,||·||是向量长度。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (8)
1.一种基于多层语义特征提取结构的问答文本匹配方法,其特征在于,包括以下步骤:
S1:获取问题与回答文本数据集,并构建问题与错误回答对;
S2:将问题与回答文本数据集进行预处理得到初始矩阵;
S3:将问题与回答文本数据集中的问题文本与回答文本转换成词向量,所述词向量用于表示文本词汇的含义,将问题文本的词向量、回答文本的词向量分别结合形成问题文本句向量、回答文本句向量;
S4:构建文本匹配的深度学习模型的多层上下文编码结构,将问题文本句向量、回答文本句向量输入到所述的多层上下文编码结构中进行编码;
多层上下文编码结构中进行编码的具体过程为:
将问题文本句向量、回答文本句向量输入到所述的多层上下文编码结构的Transformer中:
Hi=Transformeri(E)
其中,E为问题文本与回答文本的句子向量输入,i表示为第i层Transformer编码层,Hi表示第i层Transformer的输出;
S5:使用卷积神经网络对每层上下文编码结构的输出进行卷积提取问题文本与回答文本的句子特征表示;
所述卷积神经网络具有不同的特征映射,S={s1,s2,..,st},其中,第i个特征映射的宽度为si,长度为(dc+2hr),卷积层在其滑动窗口内对连续的si向量进行操作
设定是从rk到/>的连续向量的串联,卷积运算的定义如下:
其中,为元素乘法的总和,f(·)为激活函数,b为偏差;
给定hc特征映射,过滤核大小si的卷积神经网络的输出是的串联,即:
S6:每一层上下文编码结构的输出经过卷积之后,使用最大池化层提取多层中的语义特征作为句子的最终语义特征表示,所述句子的最终语义特征表示包括:问题文本的句子特征表示和回答文本的句子特征表示;
S7:计算问题文本的句子特征表示和回答文本的句子特征表示的余弦相似度,将问题文本与所有的回答文本匹配完后,选取与问题文本匹配到的余弦相似度最大的回答文本作为答案输出。
2.根据权利要求1所述的一种基于多层语义特征提取结构的问答文本匹配方法,其特征在于,所述问题与回答文本数据集包括问题及问题对应的正确答案、问题与错误回答,所述问题与错误回答是对每个问题从预设的答案池中随机抽取一条不是问题的答案作为负样本,构成问题与错误回答。
3.根据权利要求1所述的一种基于多层语义特征提取结构的问答文本匹配方法,其特征在于,问题与回答文本数据集进行预处理包括:
问答数据的清洗,分别对问题与回答数据集中的未登录词、停用词、以及问题文本与回答文本字符数小于预设字符数的数据项进行清洗;
对清洗后的问题与回答文本数据集进行分词操作和词性标注操作。
4.根据权利要求1所述的一种基于多层语义特征提取结构的问答文本匹配方法,其特征在于,所述将问题与回答文本数据集中的问题文本与回答文本转换成词向量是通过BERT模型的预训练模型的固定参数的词向量神经网络将问题文本与回答文本的词转化对应的词向量并将问题文本与回答文本对应的词向量构建成词向量矩阵,所述词向量矩阵行数为每个问题或回答文本的次数,列数为每个词对应向量所指定的维数。
5.根据权利要求1所述的一种基于多层语义特征提取结构的问答文本匹配方法,其特征在于,所述深度学习模型的多层上下文编码结构为自注意力机制Transformer单元,共有12层Transformer编码结构,所述12层Transformer编码结构依次串联,每一层结构具有输出,问题文本句向量、回答文本句向量输入至多层上下文编码结构的第一次层,第一层的输出逐层进行传递同时每一层也输出当前层的编码结果矩阵,保存每一层的输出上下文语义信息结果矩阵,用于下一层的输入数据。
6.根据权利要求1所述的一种基于多层语义特征提取结构的问答文本匹配方法,其特征在于,使用卷积神经网络对每层上下文编码结构的输出进行卷积提取问题文本与回答文本的句子特征表示具体为:
使用不同大小卷积核的卷积神经网络对每一层的上下文语义特征进行卷积操作;
将不同大小卷积核的卷积神经网络卷积提取出的语义特征结果整合到一起;
每一层的语义特征作为一个通道,使用最大池化提取12层中最大的语义特征;
池化层输出的语义特征矩阵是句子最后经过多层语义层提取的语义特征,也就是句子的特征表示;
将问题句子的特征表示与回答句子的特征表示进行匹配获取匹配结果。
7.根据权利要求1所述的一种基于多层语义特征提取结构的问答文本匹配方法,其特征在于,所述最大池化层包括:
首先将不同大小窗口的卷积提取出的语义特征结果进行整合到一起,所述多层上下文编码结构共有12层,每一层的语义特征作为一个通道,即有12通道的图像矩阵,然后使用窗口大小为1的最大池化提取12层中最大的语义特征,然后将这语义特征矩阵中的元素串联一起成为句子表征向量,用作下一步的匹配,具体公式如下:
其中,q表示为问题句子的语义特征表示向量,a表示为回答句子的语义特征表示向量。
8.根据权利要求1所述的一种基于多层语义特征提取结构的问答文本匹配方法,其特征在于,计算问题文本的句子特征表示和回答文本的句子特征表示的相似度,计算公式如下:
其中,q表示为问题句子的语义特征表示向量,a表示为回答句子的语义特征表示向量,||·||是向量长度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010554563.0A CN111831789B (zh) | 2020-06-17 | 2020-06-17 | 一种基于多层语义特征提取结构的问答文本匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010554563.0A CN111831789B (zh) | 2020-06-17 | 2020-06-17 | 一种基于多层语义特征提取结构的问答文本匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111831789A CN111831789A (zh) | 2020-10-27 |
CN111831789B true CN111831789B (zh) | 2023-10-24 |
Family
ID=72898882
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010554563.0A Active CN111831789B (zh) | 2020-06-17 | 2020-06-17 | 一种基于多层语义特征提取结构的问答文本匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111831789B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112418779A (zh) * | 2020-10-30 | 2021-02-26 | 济南浪潮高新科技投资发展有限公司 | 一种基于自然语言理解的在线自助面试方法 |
CN112328767B (zh) * | 2020-11-11 | 2022-10-14 | 重庆邮电大学 | 基于bert模型和比较聚合框架的问答匹配方法 |
CN112861518B (zh) * | 2020-12-29 | 2023-12-01 | 科大讯飞股份有限公司 | 文本纠错方法、装置和存储介质及电子装置 |
CN113032539A (zh) * | 2021-03-15 | 2021-06-25 | 浙江大学 | 一种基于预训练神经网络的因果性问答对匹配方法 |
CN113239699B (zh) * | 2021-04-15 | 2023-11-07 | 北京师范大学 | 一种融合多特征的深度知识追踪方法及系统 |
CN113221531A (zh) * | 2021-06-04 | 2021-08-06 | 西安邮电大学 | 一种多模型动态协同的语义匹配方法 |
CN113342953A (zh) * | 2021-06-18 | 2021-09-03 | 北京理工大学东南信息技术研究院 | 一种基于多模型集成的政务问答方法 |
CN113934836B (zh) * | 2021-12-21 | 2022-03-01 | 北京云迹科技有限公司 | 一种问题回复方法、装置和电子设备 |
CN114564562B (zh) * | 2022-02-22 | 2024-05-14 | 平安科技(深圳)有限公司 | 基于答案指导的题目生成方法、装置、设备及存储介质 |
CN115017279B (zh) * | 2022-05-12 | 2024-06-28 | 华南理工大学 | 基于文本语义匹配的Stack Overflow相关问答检索方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052588A (zh) * | 2017-12-11 | 2018-05-18 | 浙江大学城市学院 | 一种基于卷积神经网络的文档自动问答系统的构建方法 |
CN108829719A (zh) * | 2018-05-07 | 2018-11-16 | 中国科学院合肥物质科学研究院 | 一种非事实类问答答案选择方法及系统 |
CN110134964A (zh) * | 2019-05-20 | 2019-08-16 | 中国科学技术大学 | 一种基于层次化卷积神经网络和注意力机制的文本匹配方法 |
CN111259127A (zh) * | 2020-01-15 | 2020-06-09 | 浙江大学 | 一种基于迁移学习句向量的长文本答案选择方法 |
-
2020
- 2020-06-17 CN CN202010554563.0A patent/CN111831789B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052588A (zh) * | 2017-12-11 | 2018-05-18 | 浙江大学城市学院 | 一种基于卷积神经网络的文档自动问答系统的构建方法 |
CN108829719A (zh) * | 2018-05-07 | 2018-11-16 | 中国科学院合肥物质科学研究院 | 一种非事实类问答答案选择方法及系统 |
CN110134964A (zh) * | 2019-05-20 | 2019-08-16 | 中国科学技术大学 | 一种基于层次化卷积神经网络和注意力机制的文本匹配方法 |
CN111259127A (zh) * | 2020-01-15 | 2020-06-09 | 浙江大学 | 一种基于迁移学习句向量的长文本答案选择方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111831789A (zh) | 2020-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111831789B (zh) | 一种基于多层语义特征提取结构的问答文本匹配方法 | |
CN109840287B (zh) | 一种基于神经网络的跨模态信息检索方法和装置 | |
CN107291693B (zh) | 一种改进词向量模型的语义计算方法 | |
CN107766324B (zh) | 一种基于深度神经网络的文本一致性分析方法 | |
CN107943784B (zh) | 基于生成对抗网络的关系抽取方法 | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN107273913B (zh) | 一种基于多特征融合的短文本相似度计算方法 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN113297364B (zh) | 一种面向对话系统中的自然语言理解方法及装置 | |
CN111125333B (zh) | 一种基于表示学习与多层覆盖机制的生成式知识问答方法 | |
CN116127095A (zh) | 一种序列模型与知识图谱结合的问答方法 | |
CN113239169A (zh) | 基于人工智能的回答生成方法、装置、设备及存储介质 | |
CN113806554B (zh) | 面向海量会议文本的知识图谱构建方法 | |
CN112581327B (zh) | 基于知识图谱的法律推荐方法、装置和电子设备 | |
CN113704416A (zh) | 词义消歧方法、装置、电子设备及计算机可读存储介质 | |
CN115392252A (zh) | 一种融合自注意力与层级残差记忆网络的实体识别方法 | |
CN113342933A (zh) | 一种类双塔模型的多特征交互网络招聘文本分类方法 | |
CN115017279B (zh) | 基于文本语义匹配的Stack Overflow相关问答检索方法 | |
CN115203507A (zh) | 一种面向文书领域的基于预训练模型的事件抽取方法 | |
CN114091450A (zh) | 一种基于图卷积网络的司法领域关系抽取方法和系统 | |
CN117271558A (zh) | 语言查询模型构建方法、查询语言获取方法及相关装置 | |
CN112231455A (zh) | 一种机器阅读理解方法及系统 | |
CN111382333A (zh) | 基于案件相关性联合学习与图卷积的新闻文本句中案件要素抽取方法 | |
CN114579605B (zh) | 表格问答数据处理方法、电子设备及计算机存储介质 | |
CN110826341A (zh) | 一种基于seq2seq模型的语义相似度计算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |