CN111966797A - 利用引入了语义信息的词向量进行机器阅读理解的方法 - Google Patents

利用引入了语义信息的词向量进行机器阅读理解的方法 Download PDF

Info

Publication number
CN111966797A
CN111966797A CN202010719374.4A CN202010719374A CN111966797A CN 111966797 A CN111966797 A CN 111966797A CN 202010719374 A CN202010719374 A CN 202010719374A CN 111966797 A CN111966797 A CN 111966797A
Authority
CN
China
Prior art keywords
word
context
sequence
representation
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010719374.4A
Other languages
English (en)
Other versions
CN111966797B (zh
Inventor
魏建国
孔维坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202010719374.4A priority Critical patent/CN111966797B/zh
Publication of CN111966797A publication Critical patent/CN111966797A/zh
Application granted granted Critical
Publication of CN111966797B publication Critical patent/CN111966797B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于自然语言自动处理技术领域,为更精确地解决机器阅读理解问题,本发明,利用引入了语义信息的词向量进行机器阅读理解的方法,步骤如下:步骤一、把机器阅读理解模型所涉及到的上下文和问题中的词均使用词向量表示;步骤二、使用Retrofitting对词向量进行微调,得到词向量表示的上下文序和问题序列;步骤三、编码:分别对上下文和问题序列进行编码,得到上下文表示和问题表示;步骤四、基于迭代对编码后的上下文和问题序列进行交互;步骤五、生成答案:从步骤四得到的fully‑aware context representation中提取答案片段的起始位置和结束位置。本发明主要应用于机器自动处理语言场合。

Description

利用引入了语义信息的词向量进行机器阅读理解的方法
技术领域
本发明属于自然语言处理技术领域,尤其是涉及基于深度学习模型来实现机器阅读理解的方法。
背景技术
作为一种衡量机器对文本的理解程度的方法,机器阅读理解要求模型根据一段给定的上下文来回答针对其提出的问题,该任务是衡量机器对自然语言理解程度的标准之一。机器阅读理解的目标是缩小机器与人之间在自然语言理解方面的差距,这一目标可以形式化地表述为:给定上下文C、根据C提出的问题Q和人类给出的对于问题Q的正确答案A,要求模型通过学习函数F来给出问题Q的正确答案A:F(C,Q)=A。机器阅读理解很可能会改变一直以来的人机交互方式,例如,由机器阅读理解解决方案提供支持的搜索引擎可以更好地处理自然语言问题,与仅返回一些相关的网页相比,这种方式将为用户提供更好的搜索体验。基于对给定文档的理解,机器阅读理解模型还可用于提供高质量的咨询服务,机器阅读理解模型也可以用于信息检索,使其更加有效,等等。
针对基于深度学习模型的机器阅读理解问题,有多种方法如循环神经网络、双向transformer(一种基于注意力机制的网络模型)、Reinforced Mnemonic Reader(增强助记符阅读器)来改进神经网络模型以实现更高效的机器阅读理解模型,但这些方法都不可避免地局限在模型结构的改进上面,而忽略了对模型使用到的词向量进行改进。本发明提出利用Retrofitting(一种词向量后处理方法)技术将语义词典中的语义信息引入到词向量中,再利用处理过的词向量处理机器阅读理解问题的方法。
发明内容
为克服现有技术的不足,本发明旨在:
1)针对机器阅读理解问题,提出一种引入知识的阅读理解方法,以更精确地解决机器阅读理解问题。
2)该方法利用Retrofitting技术对机器阅读理解模型使用的词向量进行微调,提高模型的完全匹配分数和F1分数(一种兼顾了模型的精确率和召回率的性能衡量指标)。
3)该方法能够充分考虑语义词典中蕴含的关系信息,能够将其引入到机器阅读理解所使用的词向量中去,可以更加准确地表示机器阅读理解问题涉及到的词,从而提高机器阅读理解模型的正确率。
为此,本发明采取的技术方案是,利用引入了语义信息的词向量进行机器阅读理解的方法,步骤如下:
步骤一、嵌入:把机器阅读理解模型所涉及到的上下文和问题中的词均使用词向量表示;
步骤二、使用Retrofitting对词向量进行微调,得到词向量表示的上下文序和问题序列,Retrofitting是一种通过鼓励具有相互关系的词获得更相似的向量表示,来利用语义词典中的关系信息优化向量空间表示的方法;
步骤三、编码:引入词汇信息、句法信息,包括关键词是否完全匹配,词性标签、实体标签、问题的类别,分别对上下文和问题序列进行编码,得到上下文表示和问题表示;
步骤四、基于迭代对编码后的上下文和问题序列进行交互:引入注意力机制来完成文章级别的自对齐,得到充分感知的上下文表示fully-aware contextrepresentation;
步骤五、生成答案:从步骤四得到的fully-aware context representation中提取答案片段的起始位置和结束位置。
Retrofitting详细过程为:
假设有V={w1,w2,…,wn}为机器阅读理解数据集词表,w1为词表V中的第1个词,w2为词表V中的第2个词,依次类推,wn为词表V中的第n个词;
无向图Ω=(V,E)为编码了词表V中词与词之间语义信息的本体,E为词表V中单词之间边的集合,Ω为语义词典,其形式为无向图,词与词之间的语义信息来自于语义词典,
词wi与词wj之间的边
Figure BDA0002599407390000021
表示词wi与词wj之间存在语义关系,wi与wj为边集合E中的每一条边所连接的两个词;
qi代表第i个词wi的词向量,Q是由所有词的词向量的集合,
那么,Retrofitting的微调方程定义为:
Figure BDA0002599407390000022
αi、βij分别为需要训练的参数,
Figure BDA0002599407390000023
表示wi未经处的词向量,qj表示在语义词典中与词wi有语义关系的词的词向量;
Retrofitting过程的损失函数定义为:
Figure BDA0002599407390000024
αi、βij分别为需要训练的参数,
Figure BDA0002599407390000025
代表算法在词向量集合Q上的损失函数。
详细步骤如下:
步骤一、嵌入:首先根据所采用的SQuAD(斯坦福大学阅读理解数据集)数据库统计出所有上下文和问题中的词,形成一个词表V={w1,w2,…,wn},再从Word2Vec和GloVe读取预训练的词向量,Word2Vec是一种由跳字模型或者连续词袋模型训练的词向量集合,GloVe是一种基于全局词频统计的词表征工具,将词表中的第i个词wi逐一映射到V中与之对应的词向量qi,得到词向量的集合Q;
步骤二、使用Retrofitting技术对词向量进行微调的详细过程为:
首先按照语义词典特有的结构读入语义词典Ω=(V,E),在模型中,使用无向图来编码词表中的词以及词与词之间的关系,如果词wi与词wj之间存在边
Figure BDA0002599407390000026
那么词wi与词wj之间存在着某种语义关系;
读入语义词典资源以后,按照Retrofitting的微调公式:
Figure BDA0002599407390000027
将知识信息引入到词向量中来,其中
Figure BDA0002599407390000031
表示wi未经处的词向量,qj表示在语义词典中与词wi有语义关系的词的词向量;
通过最小化损失函数:
Figure BDA0002599407390000032
来训练Retrofitting;
步骤三、编码的详细过程为:
经过Retrofitting处理后,得到用改进的词向量表示的问题序列
Figure BDA0002599407390000033
和上下文序列
Figure BDA0002599407390000034
WC代表用词向量表示的上下文序列,
Figure BDA0002599407390000035
是该序列中的第1个词,
Figure BDA0002599407390000036
是该序列中的第m个词,WQ代表用词向量表示的问题序列,
Figure BDA0002599407390000037
是该序列中的第1个词,
Figure BDA0002599407390000038
是该序列中的第n个词,在加入词性标注POS嵌入和命名实体识别结果NER嵌入特征之后,分别得到问题和上下文的中间结果
Figure BDA0002599407390000039
Figure BDA00025994073900000310
使用共享权重的双向长短期记忆网络序列中的每个词其进行建模:
Figure BDA00025994073900000311
BiLSTM为双向长短期记忆网络,vi为问题中第i个词经过BiLSTM的处理结果,uj为上下文中第j个词经过BiLSTM的处理结果;
得到编码后的上下文序列V和问题序列U,分别为:
Figure BDA00025994073900000312
步骤四、基于迭代对编码后的上下文和问题序列进行交互步骤包括三部分,分别是交互式上下文-问题对齐器、上下文自对齐器和用于建模上下文表示的证据收集器,其中:
上下文-问题对齐器是利用:
Eij=f(vi,uj)=relu(Wuu)Trelu(Wuu)
Eij为上下文对齐结果,f(vi,uj)代表vi、uj的对齐函数,relu代表线性整流单元,计算得到相似度矩阵
Figure BDA00025994073900000313
为维度为n和m的二维空间,用于计算基于注意力的问题向量
Figure BDA00025994073900000314
softmax为归一化指数函数,E:j为相似度矩阵E的第j列,采用启发式的融合函数o=fusion(x,y)将注意力信息高效地融合到上下文中,o=fusion(x,y)通过以下步骤实现:
Figure BDA00025994073900000315
Figure BDA00025994073900000316
Figure BDA00025994073900000317
sigmoid为神经网络激活函数,o为融合了注意力信息的上下文表示,
Figure BDA00025994073900000318
g均为中间处理结果,利用该函数,对
Figure BDA00025994073900000319
进行处理:
Figure BDA00025994073900000320
从而得到问题相关的上下文表示:
H=[h1,h2,…,hm]
利用公式
Bij=1{i≠j}f(hi,hj)
计算得到相似度矩阵
Figure BDA0002599407390000041
用于计算基于注意力的上下文表示
hj=H·softmax(B:j)
再利用融合函数
Figure BDA0002599407390000042
得到基于自注意力的上下文表示
Z=[z1,z2,…,zm]
最后,利用一个双向长短期记忆网络来做证据收集:
R=[r1,r2,…,rm]=BiLSTM(Z)
为了增强捕获上下文与问题之间复杂交互的能力,使用再注意力机制来完成上下文和问题之间的迭代对齐:
R1,Z1,E1,B1=align1(U,V)
R2,Z2,E2,B2=align2(R1,V,E1,B1)
R3,Z3,E3,B3=align3(R2,V,E2,B2,Z1,Z2)
align1、align2、align3分别为第一、第二、第三步的对齐函数
最终的完全感知的上下文向量R3是通过在最后的双向长短期记忆网络中添加一个残差连接得到的:
Figure BDA0002599407390000043
步骤五、生成答案,详细步骤:
使用指针网络的变体来实现答案生成,将问题表示V总结成固定长度的摘要向量s:
Figure BDA0002599407390000044
再通过下式分别计算答案在上下文中的起始位置pstart(i)和相应大的结束位置pend(j|i):
Figure BDA0002599407390000045
Figure BDA0002599407390000046
Figure BDA0002599407390000047
本发明的特点及有益效果是:
本发明采用添加了Retrofitting层的Reinforced Mnemonic Reader来解决机器阅读理解问题,能够充分利用语义词典中的关系信息,减少了嵌入层和编码层所造成的信息损失,在没有明显增加模型复杂度的前提下,提高了机器阅读理解模型的正确率。
附图说明:
图1是添加了Retrofitting层的Reinforced Mnemonic Reader模型结构图;
图2是Retrofitting过程的示意图。
具体实施方式
本发明采用Retrofitting技术将机器阅读理解模型中用到的词向量进行微调,把语义词典中的词、词与词之间的关系引入到词向量中去。通过引入语义信息,减少了上下文表示层的信息损失,提高了上下文-问题交互层的处理效率,在不增加模型复杂度的情况下提高了机器阅读理解模型的精度,具体的技术方案如下:
步骤一,嵌入:把机器阅读理解模型所涉及到的上下文和问题中的词均使用预训练的词向量表示;
步骤二,使用Retrofitting技术对词向量进行微调,Retrofitting是一种通过鼓励具有相互关系的词获得更相似的向量表示:
Retrofitting详细过程为:
假设有V={w1,w2,…,wn},为机器阅读理解数据集词表,w1为词表V中的第1个词,w2为词表V中的第2个词,依次类推,wn为词表V中的第n个词;
无向图Ω=(V,E)为编码了词表V中词与词之间语义信息的本体,词与词之间的语义信息来自于语义词典,
词wi与词wj之间的边
Figure BDA0002599407390000051
表示词wi与词wj之间存在语义关系,wi与wj为边集合E中的每一条边所连接的两个词,qi是词wi的词向量,Q是由所有的词向量的集合,
那么,Retrofitting的微调方程可以被定义为:
Figure BDA0002599407390000052
Retrofitting过程的损失函数可以被定义为:
Figure BDA0002599407390000053
αi、βij分别为需要训练的参数,
Figure BDA0002599407390000054
代表算法在词向量集合Q上的损失函数。
步骤三,编码:引入了词汇信息、句法信息,如关键词是否完全匹配,词性标签、实体标签、问题的类别等等,用上下文编码器和问题编码器分别对上下文和问题进行编码,得到上下文表示和问题表示。
步骤四,基于迭代对齐器对上下文和问题进行交互:引入注意力机制来完成文章级别的自对齐,得到充分感知的上下文表示fully-aware context representation。
步骤五,生成答案:利用附有记忆单元的答案抽取模块,从步骤四得到的fully-aware context representation中提取答案片段的起始位置和结束位置。
下面结合附图对本发明做进一步详细地描述。
如图1所示,为本发明的模型总体结构,总共分为五个模块,分别是:嵌入层、Retrofitting层、编码层、上下文-问题交互层和答案生成层。在嵌入层中,可以利用来自Word2Vec和GloVe词向量来表示上下文和问题中出现的词,嵌入层的上下文和问题表示是没有引入语义词典中关系信息的。在Retrofitting层,可以利用分别来自PPDB(一个由宾夕法尼亚大学发布的单词释义数据集)、WordNet(一个由普林斯顿大学发布的基于认知语言学的英语词典,将单词按照其的意义组成一个单词网络)和FrameNet(一种依照框架语义学概念构建的语义词典,词典中的每个词都包含有带注释的示例,显示了单词的含义和用法)这三个语义词典中的关系信息来微调词向量。编码层利用Retrofitting层的处理结果来将上下文信息和问题信息进行编码,以获得上下文表示和问题表示。上下文-问题交互层利用注意力机制来对上下文表示和问题表示进行交互,以得到问题相关的上下文表示。答案层利用上下文相关的问题表示从上下文中抽取答案片段。
嵌入层的详细过程为:
首先根据所采用的SQuAD数据库统计出所有上下文和问题中的词,形成一个词表V={w1,w2,…,wn},再从Word2Vec和GloVe读取预训练的词向量,将词表中的词wi逐一映射到词向量qi,得到词向量的集合Q。
Retrofitting层的详细过程为:
Retrofitting方法是一种通过鼓励具有相互关系的词获得更相似的向量表示,来利用语义词典中的关系信息优化向量空间表示的方法。Retrofitting层的主要目的,是在对词向量改动尽可能小的情况下,使得在语义词典中具有关系的词之间的相似度尽可能大。它通过在由语义词典构建的关系信息图上运行信念传播来工作,这使得Retrofitting几乎可以应用于任何类型的预训练词嵌入。经过Retrofitting方法处理的词向量拥有和原词向量一样的维度,可以向使用原词向量一样使用新的词向量。
首先按照语义词典特有的结构读入语义词典Ω=(V,E),在模型中,使用无向图来编码词表中的词以及词与词之间的关系,如果词wi与词wj之间存在边
Figure BDA0002599407390000061
那么词wi与词wj之间存在着某种语义关系。
读入语义词典资源以后,可以按照公式:
Figure BDA0002599407390000062
将知识信息引入到词向量中来,其中
Figure BDA0002599407390000063
表示wi未经处的词向量,qj表示在语义词典中与词wi有语义关系的词的词向量,qi代表引入知识信息之后得到的词wi的新的词向量。
可以通过最小化损失函数:
Figure BDA0002599407390000064
来训练Retrofitting层。
编码层的详细过程为:
经过Retrofitting处理后,得到用改进的词向量表示的问题序列
Figure BDA0002599407390000065
和上下文序列
Figure BDA0002599407390000066
WC代表用词向量表示的上下文序列,
Figure BDA0002599407390000067
是该序列中的第1个词,
Figure BDA0002599407390000068
是该序列中的第m个词,WQ代表用词向量表示的问题序列,
Figure BDA0002599407390000069
是该序列中的第1个词,
Figure BDA00025994073900000610
是该序列中的第n个词,在加入词性标注POS嵌入和命名实体识别结果NER嵌入特征之后,分别得到问题和上下文的中间结果
Figure BDA00025994073900000611
Figure BDA00025994073900000612
使用共享权重的双向长短期记忆网络序列中的每个词其进行建模:
Figure BDA00025994073900000613
BiLSTM为双向长短期记忆网络,vi为问题中第i个词经过BiLSTM的处理结果,uj为上下文中第j个词经过BiLSTM的处理结果;
可以得到编码后的上下文序列和问题序列,分别为:
Figure BDA00025994073900000614
上下文-问题交互层:
交互层由三个模块组成,分别是交互式上下文-问题对齐器、一个上下文自对齐器和一个用于建模上下文表示的证据收集器。
在上下文-问题对齐器中,利用
Eij=f(vi,uj)=relu(Wuu)Trelu(Wuu)
Eij为上下文对齐结果,f(vi,uj)代表vi、uj的对齐函数,relu代表线性整流单元,计算得到相似度矩阵
Figure BDA0002599407390000071
为维度为n和m的二维空间,用于计算基于注意力的问题向量
Figure BDA0002599407390000072
softmax为归一化指数函数,E:j为相似度矩阵E的第j列,采用启发式的融合函数o=fusion(x,y)将注意力信息高效地融合到上下文中,o=fusion(x,y)通过以下步骤实现:
Figure BDA0002599407390000073
Figure BDA0002599407390000074
Figure BDA0002599407390000075
利用该函数,可以对
Figure BDA0002599407390000076
进行处理:
Figure BDA0002599407390000077
从而得到问题相关的上下文表示:
H=[h1,h2,…,hm]
利用公式
Bij=1{i≠j}f(hi,hj)
计算得到相似度矩阵
Figure BDA0002599407390000078
用于计算基于注意力的上下文表示:
hj=H·softmax(B:j)
再利用融合函数
Figure BDA0002599407390000079
得到基于自注意力的上下文表示:
Z=[z1,z2,…,zm]
最后,利用一个双向长短期记忆网络来做证据收集:
R=[r1,r2,…,rm]=BiLSTM(Z)
为了增强捕获上下文与问题之间复杂交互的能力,使用再注意力机制来完成上下文和问题之间的迭代对齐:
R1,Z1,E1,B1=align1(U,V)
R2,Z2,E2,B2=align2(R1,V,E1,B1)
R3,Z3,E3,B3=align3(R2,V,E2,B2,Z1,Z2)
最终的完全感知的上下文向量是通过在最后的双向长短期记忆网络中添加一个残差连接得到的:
Figure BDA00025994073900000710
答案生成层:
使用指针网络的辩题来实现答案生成器,首先,将问题表示V总结成固定长度的摘要向量s:
Figure BDA00025994073900000711
最后通过下式分别计算答案在上下文中的起始位置pstart(i)和对应的结束位置pend(j|i):
Figure BDA0002599407390000081
Figure BDA0002599407390000082
Figure BDA0002599407390000083
尽管上面结合图对本发明进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨的情况下,还可以做出很多变形,这些均属于本发明的保护之内。

Claims (3)

1.一种利用引入了语义信息的词向量进行机器阅读理解的方法,其特征是,步骤如下:
步骤一、嵌入:把机器阅读理解模型所涉及到的上下文和问题中的词均使用词向量表示;
步骤二、使用Retrofitting对词向量进行微调,得到词向量表示的上下文序和问题序列,Retrofitting是一种通过鼓励具有相互关系的词获得更相似的向量表示,来利用语义词典中的关系信息优化向量空间表示的方法;
步骤三、编码:引入词汇信息、句法信息,包括关键词是否完全匹配,词性标签、实体标签、问题的类别,分别对上下文和问题序列进行编码,得到上下文表示和问题表示;
步骤四、基于迭代对编码后的上下文和问题序列进行交互:引入注意力机制来完成文章级别的自对齐,得到充分感知的上下文表示fully-aware context representation;
步骤五、生成答案:从步骤四得到的fully-aware context representation中提取答案片段的起始位置和结束位置。
2.如权利要求1所述的利用引入了语义信息的词向量进行机器阅读理解的方法,其特征是,Retrofitting详细过程为:
假设有V={w1,w2,…,wn}为机器阅读理解数据集词表,w1为词表V中的第1个词,w2为词表V中的第2个词,依次类推,wn为词表V中的第n个词;
无向图Ω=(V,E)为编码了词表V中词与词之间语义信息的本体,E为词表V中单词之间边的集合,Ω为语义词典,其形式为无向图,词与词之间的语义信息来自于语义词典,
词wi与词wj之间的边
Figure FDA0002599407380000015
表示词wi与词wj之间存在语义关系,wi与wj为边集合E中的每一条边所连接的两个词;
qi代表第i个词wi的词向量,Q是由所有词的词向量的集合,
那么,Retrofitting的微调方程定义为:
Figure FDA0002599407380000011
αi、βij分别为需要训练的参数,
Figure FDA0002599407380000012
表示wi未经处的词向量,qj表示在语义词典中与词wi有语义关系的词的词向量;
Retrofitting过程的损失函数定义为:
Figure FDA0002599407380000013
αi、βij分别为需要训练的参数,
Figure FDA0002599407380000014
代表算法在词向量集合Q上的损失函数。
3.如权利要求1所述的利用引入了语义信息的词向量进行机器阅读理解的方法,其特征是,详细步骤如下:
步骤一、嵌入:首先根据所采用的SQuAD(斯坦福大学阅读理解数据集)数据库统计出所有上下文和问题中的词,形成一个词表V={w1,w2,…,wn},再从Word2Vec和GloVe读取预训练的词向量,Word2Vec是一种由跳字模型或者连续词袋模型训练的词向量集合,GloVe是一种基于全局词频统计的词表征工具,将词表中的第i个词wi逐一映射到V中与之对应的词向量qi,得到词向量的集合Q;
步骤二、使用Retrofitting技术对词向量进行微调的详细过程为:
首先按照语义词典特有的结构读入语义词典Ω=(V,E),在模型中,使用无向图来编码词表中的词以及词与词之间的关系,如果词wi与词wj之间存在边
Figure FDA0002599407380000021
Figure FDA0002599407380000022
那么词wi与词wj之间存在着某种语义关系;
读入语义词典资源以后,按照Retrofitting的微调公式:
Figure FDA0002599407380000023
将知识信息引入到词向量中来,其中
Figure FDA0002599407380000024
表示wi未经处的词向量,qj表示在语义词典中与词wi有语义关系的词的词向量;
通过最小化损失函数:
Figure FDA0002599407380000025
来训练Retrofitting;
步骤三、编码的详细过程为:
经过Retrofitting处理后,得到用改进的词向量表示的问题序列
Figure FDA0002599407380000026
和上下文序列
Figure FDA0002599407380000027
WC代表用词向量表示的上下文序列,
Figure FDA0002599407380000028
是该序列中的第1个词,
Figure FDA0002599407380000029
是该序列中的第m个词,WQ代表用词向量表示的问题序列,
Figure FDA00025994073800000210
是该序列中的第1个词,
Figure FDA00025994073800000211
是该序列中的第n个词,在加入词性标注POS嵌入和命名实体识别结果NER嵌入特征之后,分别得到问题和上下文的中间结果
Figure FDA00025994073800000212
Figure FDA00025994073800000213
使用共享权重的双向长短期记忆网络序列中的每个词其进行建模:
Figure FDA00025994073800000214
BiLSTM为双向长短期记忆网络,vi为问题中第i个词经过BiLSTM的处理结果,uj为上下文中第j个词经过BiLSTM的处理结果;
得到编码后的上下文序列V和问题序列U,分别为:
Figure FDA00025994073800000215
步骤四、基于迭代对编码后的上下文和问题序列进行交互步骤包括三部分,分别是交互式上下文-问题对齐器、上下文自对齐器和用于建模上下文表示的证据收集器,其中:上下文-问题对齐器是利用:
Eij=f(vi,uj)=relu(Wuu)Trelu(Wuu)
Eij为上下文对齐结果,f(vi,uj)代表vi、uj的对齐函数,relu代表线性整流单元,计算得到相似度矩阵
Figure FDA00025994073800000216
Figure FDA00025994073800000217
为维度为n和m的二维空间,用于计算基于注意力的问题向量
Figure FDA00025994073800000218
softmax为归一化指数函数,E:j为相似度矩阵E的第j列,采用启发式的融合函数o=fusion(x,y)将注意力信息高效地融合到上下文中,o=fusion(x,y)通过以下步骤实现:
Figure FDA00025994073800000219
Figure FDA00025994073800000220
Figure FDA0002599407380000031
sigmoid为神经网络激活函数,o为融合了注意力信息的上下文表示,
Figure FDA0002599407380000032
g均为中间处理结果,利用该函数,对
Figure FDA0002599407380000033
Figure FDA0002599407380000034
进行处理:
Figure FDA0002599407380000035
从而得到问题相关的上下文表示:
H=[h1,h2,…,hm]
利用公式
Bij=1{i≠j}f(hi,hj)
计算得到相似度矩阵
Figure FDA0002599407380000036
用于计算基于注意力的上下文表示:
hj=H·softmax(B:j)
再利用融合函数
Figure FDA0002599407380000037
得到基于自注意力的上下文表示:
Z=[z1,z2,…,zm]
最后,利用一个双向长短期记忆网络来做证据收集:
R=[r1,r2,…,rm]=BiLSTM(Z)
为了增强捕获上下文与问题之间复杂交互的能力,使用再注意力机制来完成上下文和问题之间的迭代对齐:
R1,Z1,E1,B1=align1(U,V)
R2,Z2,E2,B2=align2(R1,V,E1,B1)
R3,Z3,E3,B3=align3(R2,V,E2,B2,Z1,Z2)
align1、align2、align3分别为第一、第二、第三步的对齐函数;最终的完全感知的上下文向量R3是通过在最后的双向长短期记忆网络中添加一个残差连接得到的:
Figure FDA0002599407380000038
步骤五、生成答案:
使用指针网络的变体来实现答案生成,将问题表示V总结成固定长度的摘要向量s:
Figure FDA0002599407380000039
再通过下式分别计算答案在上下文中的起始位置pstart(i)和相应大的结束位置pend(j|i):
Figure FDA00025994073800000310
Figure FDA00025994073800000311
Figure FDA00025994073800000312
CN202010719374.4A 2020-07-23 2020-07-23 利用引入了语义信息的词向量进行机器阅读理解的方法 Active CN111966797B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010719374.4A CN111966797B (zh) 2020-07-23 2020-07-23 利用引入了语义信息的词向量进行机器阅读理解的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010719374.4A CN111966797B (zh) 2020-07-23 2020-07-23 利用引入了语义信息的词向量进行机器阅读理解的方法

Publications (2)

Publication Number Publication Date
CN111966797A true CN111966797A (zh) 2020-11-20
CN111966797B CN111966797B (zh) 2023-04-07

Family

ID=73362790

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010719374.4A Active CN111966797B (zh) 2020-07-23 2020-07-23 利用引入了语义信息的词向量进行机器阅读理解的方法

Country Status (1)

Country Link
CN (1) CN111966797B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312912A (zh) * 2021-06-25 2021-08-27 重庆交通大学 一种用于交通基础设施检测文本的机器阅读理解方法
CN113326692A (zh) * 2021-06-24 2021-08-31 四川启睿克科技有限公司 一种考虑句法结构的机器阅读理解方法及装置
CN116187339A (zh) * 2023-02-13 2023-05-30 首都师范大学 基于双塔模型进行特征语义融合的作文自动评分方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271497A (zh) * 2018-08-31 2019-01-25 华南理工大学 一种基于词向量的事件驱动服务匹配方法
CN109947912A (zh) * 2019-01-25 2019-06-28 四川大学 一种基于段落内部推理和联合问题答案匹配的模型方法
CN110929515A (zh) * 2019-11-21 2020-03-27 中国民航大学 基于协同注意力和自适应调整的阅读理解方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271497A (zh) * 2018-08-31 2019-01-25 华南理工大学 一种基于词向量的事件驱动服务匹配方法
CN109947912A (zh) * 2019-01-25 2019-06-28 四川大学 一种基于段落内部推理和联合问题答案匹配的模型方法
CN110929515A (zh) * 2019-11-21 2020-03-27 中国民航大学 基于协同注意力和自适应调整的阅读理解方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326692A (zh) * 2021-06-24 2021-08-31 四川启睿克科技有限公司 一种考虑句法结构的机器阅读理解方法及装置
CN113312912A (zh) * 2021-06-25 2021-08-27 重庆交通大学 一种用于交通基础设施检测文本的机器阅读理解方法
CN116187339A (zh) * 2023-02-13 2023-05-30 首都师范大学 基于双塔模型进行特征语义融合的作文自动评分方法
CN116187339B (zh) * 2023-02-13 2024-03-01 首都师范大学 基于双塔模型进行特征语义融合的作文自动评分方法

Also Published As

Publication number Publication date
CN111966797B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN110825721B (zh) 大数据环境下高血压知识库构建与系统集成方法
Zhang et al. Deep Neural Networks in Machine Translation: An Overview.
CN111966797B (zh) 利用引入了语义信息的词向量进行机器阅读理解的方法
CN110929030A (zh) 一种文本摘要和情感分类联合训练方法
CN113642330A (zh) 基于目录主题分类的轨道交通规范实体识别方法
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
CN112989834A (zh) 一种基于平格增强线性转换器的命名实体识别方法和系统
Guo et al. MS-pointer network: abstractive text summary based on multi-head self-attention
CN111831789A (zh) 一种基于多层语义特征提取结构的问答文本匹配方法
CN109992775A (zh) 一种基于高级语义的文本摘要生成方法
CN111291188A (zh) 一种智能信息抽取方法及系统
CN112232053A (zh) 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质
CN113392265A (zh) 多媒体处理方法、装置及设备
CN114742069A (zh) 一种代码相似度检测方法及装置
CN112349294A (zh) 语音处理方法及装置、计算机可读介质、电子设备
Kumar et al. An abstractive text summarization technique using transformer model with self-attention mechanism
Li et al. LSTM-based deep learning models for answer ranking
CN114757184A (zh) 实现航空领域知识问答的方法和系统
CN114595700A (zh) 融合零代词与篇章信息的汉越神经机器翻译方法
CN115171870A (zh) 一种基于m-BERT预训练模型的就诊引导提示方法及系统
Behere et al. Text summarization and classification of conversation data between service chatbot and customer
CN116595023A (zh) 地址信息的更新方法和装置、电子设备及存储介质
CN111813927A (zh) 一种基于主题模型和lstm的句子相似度计算方法
Verma et al. A Novel Framework for Ancient Text Translation Using Artificial Intelligence
CN113157914B (zh) 一种基于多层循环神经网络的文档摘要提取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant