CN109165300A - 文本蕴含识别方法及装置 - Google Patents
文本蕴含识别方法及装置 Download PDFInfo
- Publication number
- CN109165300A CN109165300A CN201811014746.2A CN201811014746A CN109165300A CN 109165300 A CN109165300 A CN 109165300A CN 201811014746 A CN201811014746 A CN 201811014746A CN 109165300 A CN109165300 A CN 109165300A
- Authority
- CN
- China
- Prior art keywords
- vector
- vocabulary
- word
- reasoning
- source sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 97
- 239000013598 vector Substances 0.000 claims abstract description 389
- 230000004927 fusion Effects 0.000 claims abstract description 15
- 238000005303 weighing Methods 0.000 claims description 18
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 230000000306 recurrent effect Effects 0.000 claims description 4
- 238000010801 machine learning Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 6
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 6
- 238000000605 extraction Methods 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000000155 melt Substances 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明属于自然语言技术领域,具体提供了一种文本蕴含识别方法及装置,旨在解决现有技术在文本蕴含识别过程中存在大量噪声的问题。为此目的,本发明提供了一种文本蕴含识别方法,包括获取待识别文本蕴含句对中源句子和目标句子的词汇向量集合,利用预设的第一感知器获取源(目标)句子中每个词与目标(源)句子之间的比较向量;基于预设的语义关系推理模型获取源(目标)句子中每个词与目标(源)句子之间的推理向量;利用预设的第二感知器获取推理向量对应的门结构权重;根据推理向量和门结构权重进行加权融合,将加权融合的结果用于预测文本蕴含句对的语义蕴含关系。基于上述步骤,本发明提供的方法同样具有提高预测结果准确率的有益效果。
Description
技术领域
本发明属于自然语言技术领域,具体涉及一种文本蕴含识别方法及装置。
背景技术
当前,文本蕴含识别的研究在自然语言领域受到广泛关注,已经从最开始的纯理论探讨转换为较大规模的理论研究和经验性平台建设。传统的文本蕴含识别包括下述四种方法:
第一,分类方法:该方法将文本蕴含识别形式化为一个分类问题,根据已标注的训练实例,学习其中的特征并建立分类器,根据分类器给出文本蕴含识别的结果。其中,该方法中分类器是基于SVM模型建立的,学习的特征是基于词汇重叠或者一阶逻辑的词汇-句法和语义特征;
第二,深层语义分析和推理方法:该方法采用传统的逻辑推理方法推理文本的语义关系和语义特征;
第三,转换方法:该方法判断是否可以基于蕴含规则由源文本T得到目标文本H;
第四,性能驱动方法:该方法针对一些特定的语言形式,如词汇相似性或者矛盾性,设计正确的驱动模块,利用投票机制并结合驱动模块以及召回率的处理机制进行文本蕴含识别。
传统的文本蕴含识别方法均无法有效地比较句对中的语义信息,均需要对句子进行复杂的特征描述和特征提取。
随着深度神经网络的兴起,利用深度神经网络进行文本蕴含识别成为当前研究的热点和难点。利用深度神经网络进行文本蕴含识别不再需要对句子进行复杂的特征描述以及特征的抽取,通过学习可以得到源文本T和目标文本H对应的词向量和句向量,然后利用深度神经网络模型学习得到当前句对的分类模型。
现有的利用深度神经网络进行文本蕴含识别的方法可以通过对输入的两个句子中的词汇进行编码,得到每个词汇的向量表示,将两个句子中相同的词汇向量进行比较,得到比较结果,最后直接将每个词汇的比较结果进行融合进行文本蕴含识别。现有的利用深度神经网络进行文本蕴含识别的方法忽略了文本蕴含识别过程中每个词汇对文本蕴含识别结果的影响是不同的,且存在大量噪声信息。
因此,如何提出一种弱化文本蕴含识别过程中噪声的影响并增强关键信息对文本蕴含识别结果的影响的方案是本领域技术人员目前需要解决的问题。
发明内容
为了解决现有技术中的上述问题,即为了解决现有技术在文本蕴含识别过程中存在大量噪声的问题,本发明的第一方面提供了一种文本蕴含识别方法,包括:
获取待识别文本蕴含句对中源句子的词汇向量集合和目标句子的词汇向量集合;
利用预设的第一感知器并且根据所述源句子的词汇向量集合与目标句子的词汇向量集合,分别获取所述源句子中每个词与所述目标句子之间的第一比较向量以及所述目标句子中每个词与所述源句子之间的第二比较向量;
基于预设的语义关系推理模型并且根据所述第一比较向量与第二比较向量,分别获取所述源句子中每个词与所述目标句子之间的第一推理向量以及所述目标句子中每个词与所述源句子之间的第二推理向量;
利用预设的第二感知器分别获取每个所述第一推理向量和每个所述第二推理向量的门结构权重;
根据所述源句子中每个词对应的第一推理向量及其门结构权重进行加权融合得到所述源句子的第三推理向量,根据所述目标句子中每个词对应的第二推理向量及其门结构权重进行加权融合得到所述目标句子的第四推理向量;
根据所述源句子的第三推理向量和所述目标句子的第四推理向量预测所述源句子和目标句子之间的语义蕴含关系;
其中,所述语义关系推理模型是基于预设的语料集并利用机器学习算法所构建的双向递归神经网络模型。
在上述方案的优选技术方案中,“利用预设的第一感知器并且根据所述源句子的词汇向量集合与目标句子的词汇向量集合,分别获取所述源句子中每个词与所述目标句子之间的第一比较向量以及所述目标句子中每个词与所述源句子之间的第二比较向量”的步骤包括:
根据所述源句子的词汇向量集合与目标句子的词汇向量集合,获取所述源句子的每个词分别与所述目标句子的每个词之间的对齐权重;根据所述对齐权重对所述目标句子中每个词的词汇向量进行加权求和,得到所述源句子中每个词对应的第一相关语义向量,根据所述对齐权重对所述源句子中每个词的词汇向量进行加权求和,得到所述目标句子中每个词对应的第二相关语义向量;
利用所述第一感知器并且根据每个所述第一相关语义向量获取所述源句子中每个词与所述目标句子之间的第一比较向量,以及根据每个所述第二相关语义向量获取所述目标句子中每个词与所述源句子之间的第二比较向量。
在上述方案的优选技术方案中,“获取所述源句子的每个词分别与所述目标句子的每个词之间的对齐权重”的步骤包括:
按照如下公式所示的方法获取所述对齐权重:
其中,ei,j表示所述源句子的词汇向量集合中第i个词汇与所述目标句子的词汇向量集合中第j个词汇的对齐权重,分别表示所述源句子的词汇向量集合中第i个词汇向量和所述目标句子的词汇向量集合中第j个词汇向量。
在上述方案的优选技术方案中,“根据所述对齐权重对所述目标句子中每个词的词汇向量进行加权求和,得到所述源句子中每个词对应的第一相关语义向量,根据所述对齐权重对所述源句子中每个词的词汇向量进行加权求和,得到所述目标句子中每个词对应的第二相关语义向量”的步骤包括:
“根据所述对齐权重对所述目标句子中每个词的词汇向量进行加权求和,得到所述源句子中每个词对应的第一相关语义向量”的步骤包括:
按照如下公式所示的方法获取所述第一相关语义向量:
“根据所述对齐权重对所述源句子中每个词的词汇向量进行加权求和,得到所述目标句子中每个词对应的第二相关语义向量”的步骤包括:
按照如下公式所示的方法获取所述第二相关语义向量:
其中,ui表示所述第一相关语义向量,vj表示所述第二相关语义向量,m,n分别表示所述源句子的词汇向量集合和目标句子的词汇向量集合中词汇的数量,ei,k表示所述源句子的词汇向量集合中第i个词汇与所述目标句子的词汇向量集合中第k个词汇的对齐权重。
在上述方案的优选技术方案中,“利用所述第一感知器并且根据每个所述第一相关语义向量获取所述源句子中每个词与所述目标句子之间的第一比较向量,以及根据每个所述第二相关语义向量获取所述目标句子中每个词与所述源句子之间的第二比较向量”的步骤包括:
“利用所述第一感知器并且根据每个所述第一相关语义向量获取所述源句子中每个词与所述目标句子之间的第一比较向量”的步骤包括:
按照如下公式所示的方法获取所述源句子中每个词与所述目标句子之间的第一比较向量:
“根据每个所述第二相关语义向量获取所述目标句子中每个词与所述源句子之间的第二比较向量”的步骤包括:
按照如下公式所示的方法获取所述目标句子中每个词与所述源句子之间的第二比较向量:
其中,表示所述源句子的词汇向量集合中第i个词汇与所述目标句子的词汇向量集合的比较结果,即第一比较向量,表示所述目标句子的词汇向量集合中第j个词汇与所述源句子的词汇向量集合的比较结果,即第二比较向量,“;”表示拼接操作,“-”和“⊙”分别表示减操作和点乘操作,G表示所述第一感知器。
在上述方案的优选技术方案中,“基于预设的语义关系推理模型并且根据所述第一比较向量与第二比较向量,分别获取所述源句子中每个词与所述目标句子之间的第一推理向量以及所述目标句子中每个词与所述源句子之间的第二推理向量”的步骤包括:
基于预设的语义关系推理模型并且根据所述第一比较向量与第二比较向量,获取所述源句子中每个词与所述目标句子之间的第一推理向量的步骤包括:
按照如下公式所示的方法获取所述源句子中每个词与所述目标句子之间的第一推理向量:
基于预设的语义关系推理模型并且根据所述第一比较向量与第二比较向量,获取所述目标句子中每个词与所述源句子之间的第二推理向量的步骤包括:
按照如下公式所示的方法获取所述目标句子中每个词与所述源句子之间的第二推理向量:
其中,BiLSTM表示所述语义关系推理模型,表示所述源句子的词汇向量集合中第m个词汇与所述目标句子的词汇向量集合的推理向量,即第一推理向量,表示所述目标句子的词汇向量集合中第n个词汇与所述源句子的词汇向量集合的推理向量,即第二推理向量,表示所述源句子的词汇向量集合中第m个词汇与所述目标句子的词汇向量集合的比较结果,表示所述目标句子词汇向量集合中第n个词汇与所述源句子词汇向量集合的比较结果。
在上述方案的优选技术方案中,“利用预设的第二感知器分别获取每个所述第一推理向量和每个所述第二推理向量的门结构权重”的步骤包括:
利用预设的第二感知器获取每个所述第一推理向量的门结构权重的步骤包括:
按照下式所示的方法获取每个所述第一推理向量的门结构权重:
利用预设的第二感知器获取每个所述第二推理向量的门结构权重的步骤包括:
按照下式所示的方法获取每个所述第二推理向量的门结构权重:
其中,表示所述源句子的词汇向量集合中第i个词汇与所述目标句子的词汇向量集合的门结构权重,表示所述目标句子的词汇向量集合中第j个词汇与所述源句子的词汇向量集合的门结构权重,R表示所述第二感知器。
在上述方案的优选技术方案中,“利用预设的第二感知器分别获取每个所述第一推理向量和每个所述第二推理向量的门结构权重”的步骤包括:
利用预设的第二感知器获取每个所述第一推理向量的门结构权重的步骤包括:
按照下式所示的方法获取每个所述第一推理向量的门结构权重:
利用预设的第二感知器获取每个所述第二推理向量的门结构权重的步骤包括:
按照下式所示的方法获取每个所述第二推理向量的门结构权重:
其中,表示所述源句子的词汇向量集合中第i个词汇与所述目标句子的词汇向量集合的门结构权重,表示所述目标句子的词汇向量集合中第j个词汇与所述源句子的词汇向量集合的门结构权重,R表示所述第二感知器。
本发明的第二方面提供了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载以执行上述任一项所述的文本蕴含识别方法。
本发明的第三方面提供了一种控制装置,包括处理器和存储设备;所述存储设备,适于存储多条程序;所述程序适于由所述处理器加载以执行上述任一项所述的文本蕴含识别方法。
与最接近的现有技术相比,上述技术方案至少具有如下有益效果:
1、本发明提供的文本蕴含识别方法,可以通过神经网络学习获取文本蕴含句对中源句子的词汇向量集合和目标句子的词汇向量集合,可以快速准确地获取句子的特征,简化了对句子进行复杂的特征描述和特征提取的繁琐步骤。
2、本发明提供的文本蕴含识别方法,通过获取源句子和目标句子的词汇向量集合,并将源(目标)句子中每个词与目标(源)句子进行比较,得到比较向量,根据预设的语义关系推理模型和比较向量得到源(目标)句子中每个词与目标(源)句子的推理向量,充分地考虑了源句子和目标句子中的每个词对最终预测语义蕴含关系的影响因素,有利于提升最终预测结果的准确率。
3、本发明提供的文本蕴含识别方法,在得到源(目标)句子中每个词与目标(源)句子的比较结果后,获取源(目标)句子中每个词与目标(源)句子的推理向量,并计算推理向量对应的门结构权重,将推理向量与门结构权重进行加权融合,将加权融合的结果用于语义蕴涵关系的预测,很好地弱化了进行语义蕴含关系预测时的噪声影响,同时加强了关键词汇对预测结果的影响,提升了预测结果的准确率。
附图说明
图1为本发明一种实施例中文本蕴含识别方法的主要步骤示意图;
图2为本发明一种实施例中文本蕴含识别方法的主要框架示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
参阅附图1,图1示例性地给出了本实施例中文本蕴含识别方法的主要步骤。参阅附图2,图2示例性地给出了本实施例中文本蕴含识别方法的主要框架。
如图1所示,本实施例中文本蕴含识别方法包括下述步骤:
步骤S101:获取待识别文本蕴含句对中源句子的词汇向量集合和目标句子的词汇向量集合。
文本蕴含是指一对文本之间的有向推理关系,其中,蕴含前件记为T(Text,文本),蕴含后件记作H(Hypothesis,假设),如果根据常识能够从T的语义推理出H的语义,那么称T蕴含H。
为了说明的方便,本发明接下来均以下述例子进行说明:
假设源句子P为:
Three men on bicycles competing in a race on the street.
对应的目标句子H为:
Some men are riding bikes.
源句子和目标句子的语义关系为:entailment,即目标句子H对应的语义可以从源句子P中获取。其中,源句子和目标句子中加粗的词汇表示在人为推理两个句子的关系时,可以在加粗的词汇之间进行对齐或者比较,源句子的“on the street”表示其在目标句子中没有相应的对齐信息。
具体地,可以定义源句子的特征向量序列为: 目标句子的特征向量序列为:其中,pi,hj分别表示源句子中第i个特征向量和目标句子中第j个特征向量,m,n分别表示源句子和目标句子中的词汇数量,源句子和目标句子中每个词汇的特征向量包括以下两部分:
对应词汇的词向量。其中,词向量的维度为300维,实际应用过程中,可以使用预先训练好的向量对词汇对应的词向量进行初始化;
词汇对应的语言学特征。其中,词汇对应的语言学特征可以包括词性标签、命名实体标签以及文档频率值等。
得到源句子和目标句子的特征向量序列后,可以利用递归神经网络对特征向量序列进行编码,具体方法如下公式(1)和(2)所示:
其中,pm表示源句子的特征向量序列中第m个词汇的特征向量,hn表示目标句子的特征向量序列中第n个词汇的特征向量,表示源句子中第m个词汇的词汇向量,表示目标句子中第n个词汇的词汇向量,BiLSTM表示递归神经网络,组成源句子的词汇向量集合,组成目标句子的词汇向量集合。
通过递归神经网络对特征向量序列进行编码后,得到词汇向量集合,可以很好地将源句子和目标句子中的词汇进行对齐,从而有利于将源句子中的词汇和目标句子中的词汇进行比较。
本发明实施例可以通过神经网络学习获取文本蕴含句对中源句子的词汇向量集合和目标句子的词汇向量集合,可以快速准确地获取句子的特征,简化了对句子进行复杂的特征描述和特征提取的繁琐步骤。
步骤S102:利用预设的第一感知器并且根据源句子的词汇向量集合与目标句子的词汇向量集合,分别获取源句子中每个词与目标句子之间的第一比较向量以及目标句子中每个词与源句子之间的第二比较向量。
进一步地,可以根据源句子的词汇向量集合与目标句子的词汇向量集合,获取源句子的每个词分别与目标句子的每个词之间的对齐权重,具体地,可以按照公式(3)所示的方法获取对齐权重:
ei,j表示源句子的词汇向量集合中第i个词汇与目标句子的词汇向量集合中第j个词汇的对齐权重,分别表示源句子的词汇向量集合中第i个词汇向量和目标句子的词汇向量集合中第j个词汇向量。
根据对齐权重对目标句子中每个词的词汇向量进行加权求和,得到源句子中每个词对应的第一相关语义向量,具体地,可以按照公式(4)所示的方法获取第一相关语义向量:
根据对齐权重对源句子中每个词的词汇向量进行加权求和,得到目标句子中每个词对应的第二相关语义向量,具体地,可以按照公式(5)所示的方法获取第二相关语义向量:
其中,ui表示第一相关语义向量,vj表示第二相关语义向量,m,n分别表示源句子的词汇向量集合和目标句子的词汇向量集合中词汇的数量,ei,k表示源句子的词汇向量集合中第i个词汇与目标句子的词汇向量集合中第k个词汇的对齐权重。
进一步地,可以利用第一感知器并且根据每个第一相关语义向量获取源句子中每个词与目标句子之间的第一比较向量,以及根据每个第二相关语义向量获取目标句子中每个词与源句子之间的第二比较向量。
具体地,可以按照公式(6)所示的方法获取第一比较向量:
可以按照公式(7)所示的方法获取第二比较向量:
其中,表示源句子的词汇向量集合中第i个词汇与目标句子的词汇向量集合的比较结果,即第一比较向量,表示目标句子的词汇向量集合中第j个词汇与源句子的词汇向量集合的比较结果,即第二比较向量,“;”表示拼接操作,“-”和“⊙”分别表示减操作和点乘操作,G表示第一感知器,第一感知器可以是一个一层的多层感知机,其激励函数可以是Relu。
步骤S103:基于预设的语义关系推理模型并且根据第一比较向量与第二比较向量,分别获取源句子中每个词与目标句子之间的第一推理向量以及目标句子中每个词与源句子之间的第二推理向量。
进一步地,可以基于预设的语义关系推理模型并且根据第一比较向量与第二比较向量,具体地,获取源句子中每个词与目标句子之间的第一推理向量的步骤可以包括:
按照公式(8)所示的方法获取源句子中每个词与目标句子之间的第一推理向量:
获取目标句子中每个词与源句子之间的第二推理向量的步骤可以包括:
按照公式(9)所示的方法获取目标句子中每个词与源句子之间的第二推理向量:
其中,BiLSTM表示语义关系推理模型,表示源句子的词汇向量集合中第m个词汇与目标句子的词汇向量集合的推理向量,即第一推理向量,表示目标句子的词汇向量集合中第n个词汇与源句子的词汇向量集合的推理向量,即第二推理向量,表示源句子的词汇向量集合中第m个词汇与目标句子的词汇向量集合的比较结果,表示目标句子词汇向量集合中第n个词汇与源句子词汇向量集合的比较结果。
在本发明实施例中,通过获取源句子和目标句子的词汇向量集合,并将源(目标)句子中每个词与目标(源)句子进行比较,得到比较向量,根据预设的语义关系推理模型和比较向量得到源(目标)句子中每个词与目标(源)句子的推理向量,充分地考虑了源句子和目标句子中的每个词对最终预测语义蕴含关系的影响因素,有利于提升最终预测结果的准确率。
步骤S104:利用预设的第二感知器分别获取每个第一推理向量和每个第二推理向量的门结构权重。
现有方法是将得到的推理向量进行融合,直接将融合结果用于语义蕴含关系的预测,忽略了每次词对语义蕴含关系预测结果的影响是不同的,且直接将融合结果用于语义蕴含关系的预测存在大量的噪声,造成最终的预测结果不准。本实施例通过获取推理向量的门结构权重,弱化句对中不重要的词汇对结果的影响,从而可以有效地提高语义蕴含关系预测结果的准确性。
进一步地,可以利用预设的第二感知器获取每个第一推理向量的门结构权重,其步骤包括:
按照公式(10)所示的方法获取每个第一推理向量的门结构权重:
利用预设的第二感知器获取每个第二推理向量的门结构权重的步骤包括:
按照公式(11)所示的方法获取每个第二推理向量的门结构权重:
其中,表示源句子的词汇向量集合中第i个词汇与目标句子的词汇向量集合的门结构权重,表示目标句子的词汇向量集合中第j个词汇与源句子的词汇向量集合的门结构权重,R表示第二感知器,第二感知器可以是一个一层的多层感知机,第二感知器的激励函数可以是Sigmoid函数。
在本发明实施例中,可以在第二感知器中设置选择门,获取选择门的门结构权重参数。
步骤S105:根据源句子中每个词对应的第一推理向量及其门结构权重进行加权融合得到源句子的第三推理向量,根据目标句子中每个词对应的第二推理向量及其门结构权重进行加权融合得到目标句子的第四推理向量。
进一步地,“根据源句子中每个词对应的第一推理向量及其门结构权重进行加权融合得到源句子的第三推理向量”的步骤包括:
根据源句子中每个词对应的第一推理向量及其门结构权重进行加权求和得到每个词对应的第一加权向量;
计算所有的第一加权向量的第一平均向量;
根据第一平均向量和最大的第一加权向量进行向量拼接,得到源句子的第三推理向量。
其中,可以按照公式(12)所示的方法计算所有的第一加权向量的第一平均向量:
可以按照公式(13)所示的方法计算最大的第一加权向量:
可以按照公式(14)所示的方法拼接第一平均向量和最大的第一加权向量:
OP=[OP,avg;OP,max] (14)
其中,OP表示第三推理向量。
“根据目标句子中每个词对应的第二推理向量及其门结构权重进行加权融合得到目标句子的第四推理向量”的步骤包括:
根据目标句子中每个词对应的第二推理向量及其门结构权重进行加权求和得到每个词对应的第二加权向量;
计算所有的第二加权向量的第二平均向量;
根据第二平均向量和最大的第二加权向量进行向量拼接,得到目标句子的第四推理向量。
其中,可以按照公式(15)所示的方法计算所有的第二加权向量的平均向量:
可以按照公式(16)所示的方法计算最大的第二加权向量:
可以按照公式(17)所示的方法拼接第二平均向量和最大的第二加权向量:
OH=[OH,avg;OH,max] (17)
其中,OH表示第四推理向量。
步骤S106:根据源句子的第三推理向量和目标句子的第四推理向量预测源句子和目标句子之间的语义蕴含关系。
进一步地,可以将第三推理向量和第四推理向量输入一个多层感知机,多层感知机根据输入的向量输出与推理向量相关的语义蕴含关系类别,进而得到源句子和目标句子之间的语义蕴含关系。
如表1所示,表1给出了本发明在公开数据集MultiNLI上与现有的文本蕴含识别模型识别文本语义蕴含关系的比较结果。数据集包含30多万的句对,本发明的方法相比于现有技术的方法具有显著的有效性和优越性。
表1:本发明在公开数据集MultiNLI上与现有的文本蕴含识别模型识别文本语义蕴含关系的比较结果
表1中(1)-(9)表示现有的文本蕴含识别模型,Human Performance表示人工评价的结果,(10)表示实现文本蕴含识别的基础模型,(11)为在基础模型的基础上添加本发明的方法后实现的技术效果。
上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述,但是本领域技术人员可以理解,为了实现本实施例的效果,不同的步骤之间不必按照这样的次序执行,其可以同时(并行)执行或以颠倒的次序执行,这些简单的变化都在本发明的保护范围之内。
基于上述文本蕴含识别方法的实施例,本发明还提供了一种存储装置,其中该存储装置存储有多条程序并且这些程序可以适于由处理器加载以执行上述方法实施例的文本蕴含识别方法。
再进一步地,基于上述方法实施例,本发明还提供了一种控制装置,该控制装置包括处理器和存储设备;存储设备可以适于存储多条程序并且这些程序可以适于由处理器加载以执行上述方法实施例的文本蕴含识别方法。
所属技术领域的技术人员可以清楚地了解到,为了描述的方便和简洁,本发明装置实施例的具体工作过程以及相关说明,可以参考前述方法实施例中的对应过程,且与上述方法具有相同的有益效果,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。应该理解这样使用的数据在适当的情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (10)
1.一种文本蕴含识别方法,其特征在于包括:
获取待识别文本蕴含句对中源句子的词汇向量集合和目标句子的词汇向量集合;
利用预设的第一感知器并且根据所述源句子的词汇向量集合与目标句子的词汇向量集合,分别获取所述源句子中每个词与所述目标句子之间的第一比较向量以及所述目标句子中每个词与所述源句子之间的第二比较向量;
基于预设的语义关系推理模型并且根据所述第一比较向量与第二比较向量,分别获取所述源句子中每个词与所述目标句子之间的第一推理向量以及所述目标句子中每个词与所述源句子之间的第二推理向量;
利用预设的第二感知器分别获取每个所述第一推理向量和每个所述第二推理向量的门结构权重;
根据所述源句子中每个词对应的第一推理向量及其门结构权重进行加权融合得到所述源句子的第三推理向量,根据所述目标句子中每个词对应的第二推理向量及其门结构权重进行加权融合得到所述目标句子的第四推理向量;
根据所述源句子的第三推理向量和所述目标句子的第四推理向量预测所述源句子和目标句子之间的语义蕴含关系;
其中,所述语义关系推理模型是基于预设的语料集并利用机器学习算法所构建的双向递归神经网络模型。
2.根据权利要求1所述的文本蕴含识别方法,其特征在于,“利用预设的第一感知器并且根据所述源句子的词汇向量集合与目标句子的词汇向量集合,分别获取所述源句子中每个词与所述目标句子之间的第一比较向量以及所述目标句子中每个词与所述源句子之间的第二比较向量”的步骤包括:
根据所述源句子的词汇向量集合与目标句子的词汇向量集合,获取所述源句子的每个词分别与所述目标句子的每个词之间的对齐权重;根据所述对齐权重对所述目标句子中每个词的词汇向量进行加权求和,得到所述源句子中每个词对应的第一相关语义向量,根据所述对齐权重对所述源句子中每个词的词汇向量进行加权求和,得到所述目标句子中每个词对应的第二相关语义向量;
利用所述第一感知器并且根据每个所述第一相关语义向量获取所述源句子中每个词与所述目标句子之间的第一比较向量,以及根据每个所述第二相关语义向量获取所述目标句子中每个词与所述源句子之间的第二比较向量。
3.根据权利要求2所述的文本蕴含识别方法,其特征在于,“获取所述源句子的每个词分别与所述目标句子的每个词之间的对齐权重”的步骤包括:
按照如下公式所示的方法获取所述对齐权重:
其中,ei,j表示所述源句子的词汇向量集合中第i个词汇与所述目标句子的词汇向量集合中第j个词汇的对齐权重,分别表示所述源句子的词汇向量集合中第i个词汇向量和所述目标句子的词汇向量集合中第j个词汇向量。
4.根据权利要求3所述的文本蕴含识别方法,其特征在于,“根据所述对齐权重对所述目标句子中每个词的词汇向量进行加权求和,得到所述源句子中每个词对应的第一相关语义向量,根据所述对齐权重对所述源句子中每个词的词汇向量进行加权求和,得到所述目标句子中每个词对应的第二相关语义向量”的步骤包括:
“根据所述对齐权重对所述目标句子中每个词的词汇向量进行加权求和,得到所述源句子中每个词对应的第一相关语义向量”的步骤包括:
按照如下公式所示的方法获取第一相关语义向量:
“根据所述对齐权重对所述源句子中每个词的词汇向量进行加权求和,得到所述目标句子中每个词对应的第二相关语义向量”的步骤包括:
按照如下公式所示的方法获取第二相关语义向量:
其中,ui表示所述第一相关语义向量,vj表示所述第二相关语义向量,m,n分别表示所述源句子的词汇向量集合和目标句子的词汇向量集合中词汇的数量,ei,k表示所述源句子的词汇向量集合中第i个词汇与所述目标句子的词汇向量集合中第k个词汇的对齐权重。
5.根据权利要求4所述的文本蕴含识别方法,其特征在于,“利用所述第一感知器并且根据每个所述第一相关语义向量获取所述源句子中每个词与所述目标句子之间的第一比较向量,以及根据每个所述第二相关语义向量获取所述目标句子中每个词与所述源句子之间的第二比较向量”的步骤包括:
“利用所述第一感知器并且根据每个所述第一相关语义向量获取所述源句子中每个词与所述目标句子之间的第一比较向量”的步骤包括:
按照如下公式所示的方法获取所述源句子中每个词与所述目标句子之间的第一比较向量:
“根据每个所述第二相关语义向量获取所述目标句子中每个词与所述源句子之间的第二比较向量”的步骤包括:
按照如下公式所示的方法获取所述目标句子中每个词与所述源句子之间的第二比较向量:
其中,表示所述源句子的词汇向量集合中第i个词汇与所述目标句子的词汇向量集合的比较结果,即第一比较向量,表示所述目标句子的词汇向量集合中第j个词汇与所述源句子的词汇向量集合的比较结果,即第二比较向量,“;”表示拼接操作,“-”和“⊙”分别表示减操作和点乘操作,G表示所述第一感知器。
6.根据权利要求1所述的文本蕴含识别方法,其特征在于,“基于预设的语义关系推理模型并且根据所述第一比较向量与第二比较向量,分别获取所述源句子中每个词与所述目标句子之间的第一推理向量以及所述目标句子中每个词与所述源句子之间的第二推理向量”的步骤包括:
基于预设的语义关系推理模型并且根据所述第一比较向量与第二比较向量,获取所述源句子中每个词与所述目标句子之间的第一推理向量的步骤包括:
按照如下公式所示的方法获取所述源句子中每个词与所述目标句子之间的第一推理向量:
基于预设的语义关系推理模型并且根据所述第一比较向量与第二比较向量,获取所述目标句子中每个词与所述源句子之间的第二推理向量的步骤包括:
按照如下公式所示的方法获取所述目标句子中每个词与所述源句子之间的第二推理向量:
其中,BiLSTM表示所述语义关系推理模型,表示所述源句子的词汇向量集合中第m个词汇与所述目标句子的词汇向量集合的推理向量,即第一推理向量,表示所述目标句子的词汇向量集合中第n个词汇与所述源句子的词汇向量集合的推理向量,即第二推理向量,表示所述源句子的词汇向量集合中第m个词汇与所述目标句子的词汇向量集合的比较结果,表示所述目标句子词汇向量集合中第n个词汇与所述源句子词汇向量集合的比较结果。
7.根据权利要求1所述的文本蕴含识别方法,其特征在于,“利用预设的第二感知器分别获取每个所述第一推理向量和每个所述第二推理向量的门结构权重”的步骤包括:
利用预设的第二感知器获取每个所述第一推理向量的门结构权重的步骤包括:
按照下式所示的方法获取每个所述第一推理向量的门结构权重:
利用预设的第二感知器获取每个所述第二推理向量的门结构权重的步骤包括:
按照下式所示的方法获取每个所述第二推理向量的门结构权重:
其中,表示所述源句子的词汇向量集合中第i个词汇与所述目标句子的词汇向量集合的门结构权重,表示所述目标句子的词汇向量集合中第j个词汇与所述源句子的词汇向量集合的门结构权重,R表示所述第二感知器。
8.根据权利要求7所述的文本蕴含识别方法,其特征在于,“根据所述源句子中每个词对应的第一推理向量及其门结构权重进行加权融合得到所述源句子的第三推理向量,根据所述目标句子中每个词对应的第二推理向量及其门结构权重进行加权融合得到所述目标句子的第四推理向量”的步骤包括:
“根据所述源句子中每个词对应的第一推理向量及其门结构权重进行加权融合得到所述源句子的第三推理向量”的步骤包括:
根据所述源句子中每个词对应的第一推理向量及其门结构权重进行加权求和得到所述每个词对应的第一加权向量;
计算所有的第一加权向量的第一平均向量;
根据所述第一平均向量和最大的第一加权向量进行向量拼接,得到所述源句子的第三推理向量;
“根据所述目标句子中每个词对应的第二推理向量及其门结构权重进行加权融合得到所述目标句子的第四推理向量”的步骤包括:
根据所述目标句子中每个词对应的第二推理向量及其门结构权重进行加权求和得到所述每个词对应的第二加权向量;
计算所有的第二加权向量的第二平均向量;
根据所述第二平均向量和最大的第二加权向量进行向量拼接,得到所述目标句子的第四推理向量。
9.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载以执行权利要求1-8中任一项所述的文本蕴含识别方法。
10.一种控制装置,包括处理器和存储设备;所述存储设备,适于存储多条程序;其特征在于,所述程序适于由所述处理器加载以执行权利要求1-8中任一项所述的文本蕴含识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811014746.2A CN109165300B (zh) | 2018-08-31 | 2018-08-31 | 文本蕴含识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811014746.2A CN109165300B (zh) | 2018-08-31 | 2018-08-31 | 文本蕴含识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109165300A true CN109165300A (zh) | 2019-01-08 |
CN109165300B CN109165300B (zh) | 2020-08-11 |
Family
ID=64893613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811014746.2A Active CN109165300B (zh) | 2018-08-31 | 2018-08-31 | 文本蕴含识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109165300B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110765755A (zh) * | 2019-10-28 | 2020-02-07 | 桂林电子科技大学 | 一种基于双重选择门的语义相似度特征提取方法 |
CN112883708A (zh) * | 2021-02-25 | 2021-06-01 | 哈尔滨工业大学 | 基于2d-lstm的文本蕴含识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1310825A (zh) * | 1998-06-23 | 2001-08-29 | 微软公司 | 用于分类文本以及构造文本分类器的方法和装置 |
CN103221947A (zh) * | 2011-10-20 | 2013-07-24 | 日本电气株式会社 | 文本含意辨认装置、文本含意辨认方法和计算机可读记录介质 |
CN105868184A (zh) * | 2016-05-10 | 2016-08-17 | 大连理工大学 | 一种基于循环神经网络的中文人名识别方法 |
CN107015966A (zh) * | 2017-03-28 | 2017-08-04 | 中国科学院自动化研究所 | 基于改进的PageRank算法的文本‑音频自动文摘方法 |
CN107239560A (zh) * | 2017-06-12 | 2017-10-10 | 浙江大学 | 一种基于深度学习的文本蕴含关系识别方法 |
-
2018
- 2018-08-31 CN CN201811014746.2A patent/CN109165300B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1310825A (zh) * | 1998-06-23 | 2001-08-29 | 微软公司 | 用于分类文本以及构造文本分类器的方法和装置 |
CN103221947A (zh) * | 2011-10-20 | 2013-07-24 | 日本电气株式会社 | 文本含意辨认装置、文本含意辨认方法和计算机可读记录介质 |
CN105868184A (zh) * | 2016-05-10 | 2016-08-17 | 大连理工大学 | 一种基于循环神经网络的中文人名识别方法 |
CN107015966A (zh) * | 2017-03-28 | 2017-08-04 | 中国科学院自动化研究所 | 基于改进的PageRank算法的文本‑音频自动文摘方法 |
CN107239560A (zh) * | 2017-06-12 | 2017-10-10 | 浙江大学 | 一种基于深度学习的文本蕴含关系识别方法 |
Non-Patent Citations (1)
Title |
---|
王敏达: "中文文本蕴含识别研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110765755A (zh) * | 2019-10-28 | 2020-02-07 | 桂林电子科技大学 | 一种基于双重选择门的语义相似度特征提取方法 |
CN112883708A (zh) * | 2021-02-25 | 2021-06-01 | 哈尔滨工业大学 | 基于2d-lstm的文本蕴含识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109165300B (zh) | 2020-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108415977B (zh) | 一个基于深度神经网络及强化学习的生成式机器阅读理解方法 | |
CN110287481B (zh) | 命名实体语料标注训练系统 | |
CN110390397B (zh) | 一种文本蕴含识别方法及装置 | |
CN107590127B (zh) | 一种题库知识点自动标注方法及系统 | |
CN108932342A (zh) | 一种语义匹配的方法、模型的学习方法及服务器 | |
CN110334354A (zh) | 一种中文关系抽取方法 | |
CN109726396A (zh) | 问答文本的语义匹配方法、装置、介质及电子设备 | |
CN111506732B (zh) | 一种文本多层次标签分类方法 | |
CN111859978A (zh) | 一种基于深度学习的情感文本生成方法 | |
CN104285224B (zh) | 用于对文本进行分类的方法 | |
CN110580287A (zh) | 基于迁移学习和on-lstm的情感分类方法 | |
CN108665506A (zh) | 图像处理方法、装置、计算机存储介质及服务器 | |
CN110046248A (zh) | 用于文本分析的模型训练方法、文本分类方法和装置 | |
CN110717843A (zh) | 一种可复用的法条推荐框架 | |
CN116757652B (zh) | 一种基于大语言模型的在线招聘推荐系统及方法 | |
CN112989761A (zh) | 文本分类方法及装置 | |
CN110516035A (zh) | 一种混合模块的人机交互方法和系统 | |
CN114492441A (zh) | 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法 | |
CN110008332A (zh) | 通过强化学习提取主干词的方法及装置 | |
CN109165300A (zh) | 文本蕴含识别方法及装置 | |
CN117390141B (zh) | 一种农业社会化服务质量用户评价数据分析方法 | |
CN109446405A (zh) | 基于大数据的旅游产业推广方法及系统 | |
CN117370516A (zh) | 一种基于层级对比学习知识增强对话系统训练的方法 | |
CN117056451A (zh) | 一种基于语境增强的新能源汽车投诉文本方面-观点对抽取方法 | |
CN111259673A (zh) | 一种基于反馈序列多任务学习的法律判决预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |