CN112966474B - 一种基于多级注意力机制的藏文机器阅读理解方法 - Google Patents

一种基于多级注意力机制的藏文机器阅读理解方法 Download PDF

Info

Publication number
CN112966474B
CN112966474B CN202110192706.2A CN202110192706A CN112966474B CN 112966474 B CN112966474 B CN 112966474B CN 202110192706 A CN202110192706 A CN 202110192706A CN 112966474 B CN112966474 B CN 112966474B
Authority
CN
China
Prior art keywords
article
word
vector
tibetan
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110192706.2A
Other languages
English (en)
Other versions
CN112966474A (zh
Inventor
孙媛
陈超凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Minzu University of China
Original Assignee
Minzu University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Minzu University of China filed Critical Minzu University of China
Priority to CN202110192706.2A priority Critical patent/CN112966474B/zh
Publication of CN112966474A publication Critical patent/CN112966474A/zh
Application granted granted Critical
Publication of CN112966474B publication Critical patent/CN112966474B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于多级注意力机制的藏文机器阅读理解方法,该方法包括以下步骤:对藏文文字进行音节以及词语两个不同级别的切分,然后对音节使用高速网络进行编码,最后融入到藏文词向量中;通过词级别的注意力机制进行关键词搜索;通过重读机制对文章的关键语义信息提取;通过自注意力机制对文章中关键信息进行再次的筛选;使用全连接网络对上述的隐变量进行解码,并对答案位置进行预测。本发明能够解决针对藏文机器阅读理解文本信息编码中遗失音节信息的问题,以及能够精准的解决藏文机器阅读理解任务。

Description

一种基于多级注意力机制的藏文机器阅读理解方法
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种基于多级注意力机制的藏文机器阅读理解方法。
背景技术
近年来,随着信息化的快速发展,教会机器阅读和理解人类语言文本受到了越来越多的关注。机器阅读理解旨在要求机器“阅读”一篇文本内容之后,能够正确的回答出与文本相关的问题。它是衡量机器对自然语言理解程度的标准之一。机器阅读理解任务有着广泛的应用价值,例如:为搜索引擎提供更好的支持,为对话系统提供高质量的对话服务,为数字教学提供有利的问题解答服务等等。目前机器阅读理解在英语和汉语上已经取得了很大的进展,然而针对低资源语言藏文的机器阅读理解研究还处于起步阶段,其主要的原因是藏文的语法结构复杂,浅层的网络架构难以理解藏文语义信息。因此如何高效的让机器理解复杂的藏文文本是完成藏文机器阅读理解任务的主要关键。
早期由于缺乏大规模的数据集,大多数机器阅读理解系统是基于规则或统计模型,因此研究人员必须手工设计一些复杂的语法或语义规则。这些系统的精度只能达到30%-40%,因此这些成果并没有引起广泛的关注。在接下来的几十年中,随着大规模的机器阅读理解数据集的发布,基于深度学习的机器阅读理解的研究取得了一些显著的成绩。Wang等人提出Match-LSTM模型,他们分别采用长短时记忆网络对问题和短文进行编码,然后在长短时记忆网络单元中引入基于注意力的问题加权表示,较传统的特征提取方法有了一定的提升。随后,微软团队为了捕捉文章中单词之间的长期依赖关系提出了R-Net模型,这是通过引入额外的自注意力层来实现的。他们的实验结果表明通过引入自注意力机制能够提高模型的准确性。Cui等人提出了“注意力加注意力”阅读器模型,这是一种基于行和列的相结合的注意计算方法。同时为了进一步提高模型的准确性,他们采用了“N-Best”和“重新排列”的策略来验证答案。与之前的工作不同,Seo等人采用了两个方向的注意力并提出了BiDAF模型分别对文章到问题编码以及问题到文章编码两种方式去预测答案。以上研究都是基于单层的注意力机制,但是他们都忽略了藏文本身的字形和语法结构,因此在藏文机器阅读理解任务上难以有较高的表现。
发明内容
本发明的目的在于,提出将藏文的音节信息引入到词向量中,再利用多层注意力机制以精准地解决机器阅读理解问题。
为实现上述目的,本发明提供了一种基于多级注意力机制的藏文机器阅读理解方法,该方法包括以下步骤:
(1)融合藏文音节信息的文章和问题编码
为了能够融入更细粒度的藏文音节信息,同时减少藏文不正确的分词带来错误的语义信息,本发明通过对藏文文字进行音节以及词语两个不同级别的进切分,然后对音节使用高速网络进行编码,最后融入到藏文词向量中。
(2)词级别的注意力机制进行关键词搜索
为了有效的提高模型的预测答案的准确率,本发明使用一种词级别的注意力机制去关注文章中与问题相关的重点关键词。
(3)重读机制对文章的关键语义信息提取
为了预测正确答案的范围,本发明使用一种重读机制针对文章中与问题相关的关键语义信息进行搜索。
(4)自注意力机制对文章中关键信息进行再次的筛选
为了减少问题与文章之间的差异性带来的影响,本发明通过自注意力机制对编码后的文章中蕴含的答案信息进行再次搜索,从而提高模型预测答案的准确率。
(5)使用全连接网络对上述的隐变量进行解码,并对答案位置进行预测。
本发明能够解决针对藏文机器阅读理解文本信息编码中遗失音节信息的问题,以及能够精准的解决藏文机器阅读理解任务。
附图说明
图1为本发明实施例提供的一种基于多级注意力机制的藏文机器阅读理解方法流程示意图;
图2为图1所示方法的技术方案结构示意图。
具体实施例
图1为本发明实施例提供的一种基于多级注意力机制的藏文机器阅读理解方法流程示意图。如图1所示,该方法包括步骤S101-S105:
步骤S101,融合音节信息的文章和问题编码
为了能够融入更细粒度的藏文音节信息,同时减少藏文不正确的分词带来错误的语义信息,本发明实施例通过对藏文文字进行音节以及词语两个不同级别的进切分,然后对音节使用高速网络进行编码,最后融入到藏文词向量中。
具体地,定义一个问题序列Q={q1,q2,q3…qn}和一个文章序列P={p1,p2,p3…pm},对它们分别进行音节级别以及词级别的切分,并使用预训练模型,如GoVe(Global Vectorsfor Word Representation)模型,转换为相应的音节和词级别的向量()。对于音节级别编码,使用双向长短期记忆神经网络,并将最终该网络最终的隐层状态作为一个该词的音节编码。最后,通过两层的高速网络将两个不同级别的向量进行融合。
步骤S102,通过词级别的注意力机制进行关键词搜索
为了有效的提高模型的预测答案的准确率,本发明实施例使用一种词级别的注意力机制(如图2所示)去关注文章中与问题相关的重点关键词。
具体地,定义通过音节编码层的文章的词嵌入表示为而问题词嵌入表示为文章中的每个词的注意力权重可以表示为:
au∝exp(Su)
其中,和/>是可以训练的权重矩阵,Su表示的是相关性矩阵,VT,/> 都是网络中可训练的参数,/>是问题的词编码序列,/>是文章的词编码序列,au是对文章中每个词与问题的相关性矩阵进行归一化之后的矩阵,/>是分配了权重之后文章中的每次词向量。最后,使用双向的长短时记忆网络去获取句子级别的文章表示Vt p,即
其中,是双向长短时记忆网络中t-1时刻的文章表示向量,/>则是代表分配权重前后的文章编码的拼接向量。
(3)重读机制对文章的关键语义信息提取
为了预测正确答案的范围,本发明实施例使用一种重读机制针对文章中与问题相关的关键语义信息进行搜索。
具体地,重读注意力旨在计算句子级别上文章和问题之间的注意力。首先针对问题序列使用双向的长短时记忆网络去生成高级语义表示
其中表示的是前一个状态的隐藏向量。/>是输入嵌入层中问题的音节嵌入的输出。/>则是词级别注意力机制层的输出。接下来使用重读注意力机制去关注文章中关键信息,即:
av∝exp(Sv)
其中,VT分别为网络中可训练的参数矩阵,
这里Sv是文章和问题之间语义相关性矩阵。是问题编码的语义向量,/>是词级别注意力机制层的输出向量。av是对Sv矩阵进行归一化之后的矩阵,/>则是文章中分配权重的语义向量,最后使用双向的长短时记忆网络对重读机制层的输出进行编码。
其中,代表的是双向长短是记忆网络中t-1时刻的隐向量状态,/>是分配语义权重前后文章编码的拼接矩阵。
(4)自注意力机制
为了减少问题与文章之间的差异性带来的影响,本发明实施例通过自注意力机制对编码后的文章中蕴含的答案信息进行再次搜索,从而提高模型预测答案的准确率。
具体地,在形式上,文章和问题不可避免地存在一些差异,这可能导致在段落和问题的交互过程中丢失部分重要的信息,从而导致答案的预测不准确。为了解决这个问题,从而引入了一种自注意机制,以便可以动态调整答案的位置。
aj∝exp(Sj)
其中,VT和/>都是网络中可训练的参数,Sj是相关性矩阵,aj是对相关性矩阵进行归一化之后的矩阵,/>是注意力权重的隐藏向量。接下来自注意力机制向量被送入另外一个的双向长短是注意力机制网络去生成最后的向量表示/>
其中,是网络中t-1时候的隐状态,此处/>是网络中前一个状态的隐层向量,是重读注意力机制层的输出。/>则是文章自身进行权重计算前后的向量拼接。
(5)答案预测
直接使用全连接网络对上述的隐变量进行解码,同时使用softmax层来实现答案位置的预测。
Pstart=softmax(W1Jp)
Pend=softmax(W2Jp)
这里W1和W2时可以被训练的参数矩阵。Pstart,Pend是答案的起始位置。
在一个具体的例子中,针对藏文文章段落片段(下划线部分为正确答案):
译文:植物的叶子通过叶绿素和阳光来制造氧气。植物的叶子由许多圆形或长方形组成。那些个体是细胞。细胞内还含有绿色宝石一样的许多颗粒,它们是叶绿体。那里面有叶绿素。因为有了叶绿素,叶子呈现绿色。叶绿素的主要功能是生产。
假设问题为:
植物是怎样创造氧气的?
根据上述问题及文章,基于图1所示多级注意力机制的藏文机器阅读理解方法,最终模型预测答案的起始位置Pstart为:第5个词模型预测答案的终止位置Pend为:第9个词/>
本发明实施例的有益效果在于:
(1)能够解决针对藏文机器阅读理解文本信息编码中遗失音节信息的问题
本发明通过融合藏文音节信息,可以避免不正确的分词导致的错误语义信息,同时在编码层融入更多的藏文音节信息以提高模型的预测答案的准确率。
(2)能够精准的解决藏文机器阅读理解任务
本发明通过采用多级注意力机制使模型能够深入的理解藏文的语义信息,并在文章中查找出正确答案的起始位置。

Claims (3)

1.一种基于多级注意力机制的藏文机器阅读理解方法,其特征在于,包括以下步骤:
对藏文文字进行音节以及词两个不同级别的切分,然后对音节使用高速网络进行编码,最后融入到藏文词向量中;
通过词级别的注意力机制进行关键词搜索;
通过重读机制对文章的关键语义信息提取;
通过自注意力机制对文章中关键语义信息进行再次的筛选;
使用全连接网络对隐变量进行解码,该隐变量是多级注意力机制对文本问题和文章进行交互后由多级注意力机制的神经网络模型输出的文本表示,并对答案位置进行预测;
所述对藏文文字进行音节以及词两个不同级别的进切分,然后对音节使用高速网络进行编码,最后融入到藏文词向量中步骤,包括;
定义一个问题序列Q={q1,q2,q3…qn}和一个文章序列P={p1,p2,p3…pm},对它们分别进行音节级别以及词级别的切分,并使用预训练模型转换为相应的音节和词级别的向量;对于音节级别编码,使用双向的长短期记忆神经网络,并将该双向的长短期记忆神经网络最终的隐层状态作为一个词的音节编码;最后,通过两层的高速网络将两个不同级别的向量进行融合,所述两个不同级别的向量为音节级别的向量和词级别的向量;
所述通过词级别的注意力机制进行关键词搜索步骤,包括:
文章中的每个词的注意力权重表示为:
au∝exp(Su)
其中,Su表示的是文章中每个词与问题的相关性矩阵,VT,都是词级别注意力机制网络中可训练的参数,/>是问题的词编码序列,/>是文章的词编码序列,au是对文章中每个词与问题的相关性矩阵进行归一化之后的第一矩阵,/>是分配了权重之后文章中的词向量;最后,使用双向的长短期记忆神经网络去获取句子级别的文章表示向量Vt p,即
其中,是双向的长短期记忆神经网络中t-1时刻的文章表示向量,/>则是代表分配注意力权重前后的文章编码的拼接向量;/>是分配了注意力权重后的文章编码,/>是文章中的词向量;
所述通过重读机制对文章的关键语义信息提取步骤,包括:
首先针对问题序列使用双向的长短期记忆神经网络去生成双向的长短期记忆神经网络中i时刻的隐藏向量
这里的表示双向的长短期记忆神经网络中i-1时刻的隐藏向量,/>是输入嵌入层中问题的音节嵌入的输出,/>是词级别注意力机制层的输出;接下来使用重读机制去关注文章中关键信息,即:
av∝exp(Sv)
其中,OT分别为重读机制网络中可训练的参数矩阵,/>是分配了权重之后文章中的词向量,av是文章中每个词与问题的相关性矩阵进行归一化之后的第二矩阵;
这里Sv是文章和问题之间语义相关性矩阵,是问题编码的语义向量,/>是词级别注意力机制层的输出向量;最后使用双向的长短期记忆神经网络对重读机制层的输出进行编码;
其中,代表的是双向的长短期记忆神经网络中t-1时刻的隐藏向量,/>是分配语义权重前后文章编码的拼接矩阵。
2.根据权利要求1所述的方法,其特征在于,所述自注意力机制公式为:
aj∝exp(Sj)
其中,WT和/>都是自注意力机制网络中可训练的参数,Sj是关键语义信息在文章中的重要程度;aj是对关键语义信息在文章中的重要程度进行归一化之后的矩阵,/>是分配了注意力权重之后文章中的词向量;将/>送入另外一个的双向的长短期记忆神经网络去生成最后的向量表示/>
其中,是双向的长短期记忆神经网络中t时刻的隐藏向量,/>是双向的长短期记忆神经网络中前一个状态的隐藏向量;/>则是文章自身进行权重计算前后的向量拼接;是分配了注意力权重后的文章编码,/>是重读机制层的输出。
3.根据权利要求2所述的方法,其特征在于,所述使用全连接网络对隐变量进行解码,并对答案位置进行预测步骤,包括:
使用全连接网络对隐变量进行解码,同时使用softmax层来实现答案位置的预测;
Pstart=softmax(W1Jp)
Pend=softmax(W2Jp)
其中,W1和W2是可被训练的参数矩阵,Pstart是答案的起始位置,Pend是答案的结束位置,Jp是双向的长短期记忆神经网络最后一层输出的隐藏向量。
CN202110192706.2A 2021-02-20 2021-02-20 一种基于多级注意力机制的藏文机器阅读理解方法 Active CN112966474B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110192706.2A CN112966474B (zh) 2021-02-20 2021-02-20 一种基于多级注意力机制的藏文机器阅读理解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110192706.2A CN112966474B (zh) 2021-02-20 2021-02-20 一种基于多级注意力机制的藏文机器阅读理解方法

Publications (2)

Publication Number Publication Date
CN112966474A CN112966474A (zh) 2021-06-15
CN112966474B true CN112966474B (zh) 2024-05-24

Family

ID=76285247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110192706.2A Active CN112966474B (zh) 2021-02-20 2021-02-20 一种基于多级注意力机制的藏文机器阅读理解方法

Country Status (1)

Country Link
CN (1) CN112966474B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006260597A (ja) * 2006-05-26 2006-09-28 Intec Web & Genome Informatics Corp 修辞構造解析システム
CN104615269A (zh) * 2015-02-04 2015-05-13 史晓东 一种藏文拉丁全简双拼编码方案及其智能输入系统
CN109492227A (zh) * 2018-11-16 2019-03-19 大连理工大学 一种基于多头注意力机制和动态迭代的机器阅读理解方法
CN110083682A (zh) * 2019-04-19 2019-08-02 西安交通大学 一种基于多轮注意力机制的机器阅读理解答案获取方法
KR20190101567A (ko) * 2018-02-23 2019-09-02 주식회사 마인즈랩 기계 독해에 기초한 질의 응답 장치 및 이를 이용한 질의 응답 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10706234B2 (en) * 2017-04-12 2020-07-07 Petuum Inc. Constituent centric architecture for reading comprehension
US11526808B2 (en) * 2019-05-29 2022-12-13 The Board Of Trustees Of The Leland Stanford Junior University Machine learning based generation of ontology for structural and functional mapping

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006260597A (ja) * 2006-05-26 2006-09-28 Intec Web & Genome Informatics Corp 修辞構造解析システム
CN104615269A (zh) * 2015-02-04 2015-05-13 史晓东 一种藏文拉丁全简双拼编码方案及其智能输入系统
KR20190101567A (ko) * 2018-02-23 2019-09-02 주식회사 마인즈랩 기계 독해에 기초한 질의 응답 장치 및 이를 이용한 질의 응답 방법
CN109492227A (zh) * 2018-11-16 2019-03-19 大连理工大学 一种基于多头注意力机制和动态迭代的机器阅读理解方法
CN110083682A (zh) * 2019-04-19 2019-08-02 西安交通大学 一种基于多轮注意力机制的机器阅读理解答案获取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于国际标准编码系统的藏文分词词典机制研究;祁坤钰;;西北民族大学学报(自然科学版);第31卷(第04期);29-32 *

Also Published As

Publication number Publication date
CN112966474A (zh) 2021-06-15

Similar Documents

Publication Publication Date Title
CN110929030A (zh) 一种文本摘要和情感分类联合训练方法
CN112560503A (zh) 融合深度特征和时序模型的语义情感分析方法
CN110309305A (zh) 基于多任务联合训练的机器阅读理解方法及计算机存储介质
CN111199727A (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN110750635B (zh) 一种基于联合深度学习模型的法条推荐方法
CN110059324B (zh) 基于依存信息监督的神经网络机器翻译方法及装置
CN111985243B (zh) 情感模型的训练方法、情感分析方法、装置及存储介质
CN104462072A (zh) 面向计算机辅助翻译的输入方法与装置
CN113569562B (zh) 一种降低端到端语音翻译跨模态跨语言障碍的方法及系统
CN111833845A (zh) 多语种语音识别模型训练方法、装置、设备及存储介质
CN109992775A (zh) 一种基于高级语义的文本摘要生成方法
Yu et al. Acoustic modeling based on deep learning for low-resource speech recognition: An overview
CN114492441A (zh) 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法
Tran et al. Effective attention-based neural architectures for sentence compression with bidirectional long short-term memory
CN113609284A (zh) 一种融合多元语义的文本摘要自动生成方法及装置
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN112489634A (zh) 语言的声学模型训练方法、装置、电子设备及计算机介质
CN114972848A (zh) 基于细粒度视觉信息控制网络的图像语义理解及文本生成
CN115394287A (zh) 混合语种语音识别方法、装置、系统及存储介质
CN116320607A (zh) 智能视频生成方法、装置、设备及介质
CN117851871A (zh) 一种境外互联网社交阵地多模态数据识别方法
Orken et al. Identifying the influence of transfer learning method in developing an end-to-end automatic speech recognition system with a low data level
Alsayadi et al. Non-diacritized Arabic speech recognition based on CNN-LSTM and attention-based models
CN116611459B (zh) 翻译模型的训练方法、装置、电子设备及存储介质
CN112966474B (zh) 一种基于多级注意力机制的藏文机器阅读理解方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant