CN112182151B - 基于多语言的阅读理解任务识别方法及装置 - Google Patents

基于多语言的阅读理解任务识别方法及装置 Download PDF

Info

Publication number
CN112182151B
CN112182151B CN202011012758.9A CN202011012758A CN112182151B CN 112182151 B CN112182151 B CN 112182151B CN 202011012758 A CN202011012758 A CN 202011012758A CN 112182151 B CN112182151 B CN 112182151B
Authority
CN
China
Prior art keywords
language
expression vector
target
target language
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011012758.9A
Other languages
English (en)
Other versions
CN112182151A (zh
Inventor
许斌
吴高晨
李涓子
侯磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202011012758.9A priority Critical patent/CN112182151B/zh
Publication of CN112182151A publication Critical patent/CN112182151A/zh
Application granted granted Critical
Publication of CN112182151B publication Critical patent/CN112182151B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3337Translation of the query language, e.g. Chinese to English
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供一种基于多语言的阅读理解任务识别方法及装置,该方法包括:获取任一目标语言的阅读理解任务数据,编码得到上下文嵌入表达向量;将所述嵌入表达向量,输入预设的多语言阅读理解模型,根据多语言阅读理解模型的输出结果,确定阅读理解任务的答案;其中,所述多语言阅读理解模型,以源语言任务数据分别和每一目标语言任务数据的关联语义信息矩阵,进行融合后得到的特征向量作为输入,以源语言任务数据的答案作为标签,进行训练后得到。该方法能够同时支持迁移多语言和多任务数据集中的知识到目标语言中,实现目标语言无数据、少数据条件下的抽取式阅读理解任务,可以提高目标语言少数据以及富数据的抽取式阅读理解任务的准确度。

Description

基于多语言的阅读理解任务识别方法及装置
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于多语言的阅读理解任务识别方法及装置。
背景技术
阅读理解是评估和测试计算机系统理解人类语言能力而提出的一个问答研究任务,通过给计算机系统提供相关文本以及一系列相关的问题,要求计算机系统阅读理解文本从而回答这些问题。由于该任务是用来衡量计算机自然语言理解能力,因此具有重大的研究价值。同时,阅读理解技术可以广泛用于搜索引擎、开放域问答、知识图谱构建以及对话系统等领域,具备极强的实用价值。
由于大规模高质量人类标注训练集的存在,基于深度学习的自然语言处理方法的快速发展,如注意力机制、Transformer架构以及图神经网络等,以及一系列预训练语言模型的提出,使阅读理解任务取得了巨大的成功,近年来成为NLP领域非常热门的研究方向,特别是抽取式阅读理解问答任务。抽取式问答旨在通过阅读给定文本和问题,要求计算机系统从文本中抽取连续的文本片段作为答案,具有极大的研究价值和使用价值。
尽管抽取式阅读理解取得了巨大的进步,但是大规模高质量抽取式阅读理解数据集在除英语外的语言中非常缺乏,即使中文数据集也非常稀少,同时为每种语言构建足够数量的高质量训练集成本非常昂贵,甚至是不可能的,导致训练其它语言抽取式阅读理解系统面临着巨大的困难。
发明内容
本发明实施例提供一种基于多语言的阅读理解任务识别方法及装置,用以解决现有技术中的缺陷。
本发明实施例提供一种基于多语言的阅读理解任务识别方法,包括:获取任一目标语言的阅读理解任务数据,编码得到上下文嵌入表达向量;将所述嵌入表达向量,输入预设的多语言阅读理解模型,根据所述多语言阅读理解模型的输出结果,确定阅读理解任务的答案;其中,所述多语言阅读理解模型,以源语言任务数据分别和每一目标语言任务数据的关联语义信息矩阵,进行融合后得到的特征向量作为输入,以源语言任务数据的答案作为标签,进行训练后得到;所述关联语义信息矩阵,根据源语言和目标语言任务数据之间的自适应注意力矩阵得到,所述源语言任务数据为有结果标签的训练集数据。
根据本发明一个实施例的基于多语言的阅读理解任务识别方法,所述获取任一目标语言的阅读理解任务数据之前,还包括:将源语言的任务数据,翻译为多种目标语言,得到目标语言的任务数据;将源和目标语言的任务数据,分别进行编码,得到各语言的上下文嵌入表达向量;根据源语言表达向量与每一目标语言表达向量之间的自适应注意力矩阵,得到每一目标语言相对源语言嵌入表达向量的关联语义信息矩阵;以每一目标语言相对源语言的关联语义信息矩阵,进行融合后作为输入,以对应的源语言训练集数据的答案作为标签,对构建的多语言阅读理解模型进行训练。
根据本发明一个实施例的基于多语言的阅读理解任务识别方法,所述对构建的多语言阅读理解模型进行训练,包括:将所有关联语义信息矩阵融合后,输入多语言阅读理解模型的全连接层、经归一化层和残差层后,得到多语言融合表示矩阵;根据多语言融合表示矩阵、起始位置偏置参数、起始位置的权重矩阵、结束位置偏置参数和结束位置的权值矩阵,得到目标答案片段的起始位置和结束位置的概率分布;根据起始位置与结束位置概率乘积最大的起始位置和结束位置,以及源语言训练集数据中答案的起始位置和结束位置标签,计算损失熵并进行网络参数更新。
根据本发明一个实施例的基于多语言的阅读理解任务识别方法,所述根据源语言表达向量与每一目标语言表达向量的自适应注意力矩阵,得到每一目标语言相对源语言嵌入表达向量的关联语义信息矩阵之前,还包括:根据源语言表达向量的注意力矩阵和目标语言表达向量的注意力矩阵,以及源语言表达向量和目标语言表达向量之间的注意力矩阵,确定源语言和目标语言之间的自适应注意力矩阵。
根据本发明一个实施例的基于多语言的阅读理解任务识别方法,根据源语言表达向量的注意力矩阵和目标语言表达向量的注意力矩阵,以及源语言表达向量和目标语言表达向量之间的注意力矩阵,确定源语言和目标语言之间的自适应注意力矩阵,包括:
Figure BDA0002698021670000031
Figure BDA0002698021670000032
Figure BDA0002698021670000033
Figure BDA0002698021670000034
其中,BPivot为源语言表达向量,BSelect为目标语言表达向量,AP为源语言表达向量的注意力矩阵,AS为目标语言表达向量的注意力矩阵,APS为源语言表达向量和目标语言表达向量之间的注意力矩阵,
Figure BDA0002698021670000035
为源语言和目标语言之间的自适应注意力矩阵,LP、LS分别为源语言任务数据和目标语言任务数据的维度,softmax表示归一化。
根据本发明一个实施例的基于多语言的阅读理解任务识别方法,所述根据源语言表达向量与每一目标语言表达向量的自适应注意力矩阵,得到每一目标语言相对源语言嵌入表达向量的关联语义信息矩阵,包括:
Figure BDA0002698021670000041
其中,R'PS为关联语义信息矩阵,BS为目标语言表达向量,
Figure BDA0002698021670000042
为源语言和目标语言之间的自适应注意力矩阵,h为单个词的表示维度。
根据本发明一个实施例的基于多语言的阅读理解任务识别方法,若有带有结果标签的任一目标语言的训练集数据,则获取任一目标语言的阅读理解任务数据,编码得到上下文嵌入表达向量之前,还包括:将相应目标语言的训练集数据中的任务数据,进行编码得到的任务数据的上下文嵌入表达向量作为模型输入,将目标语言的训练集数据中对应的答案作为标签,对所述多语言阅读理解模型进行训练。
本发明实施例还提供一种基于多语言的阅读理解任务识别装置,编码模块,用于获取任一目标语言的阅读理解任务数据,编码得到上下文嵌入表达向量;处理模块,用于将所述嵌入表达向量,输入预设的多语言阅读理解模型,根据所述多语言阅读理解模型的输出结果,确定阅读理解任务的答案;其中,所述多语言阅读理解模型,以源语言任务数据分别和每一目标语言任务数据的关联语义信息矩阵,进行融合后得到的特征向量作为输入,以源语言任务数据的答案作为标签,进行训练后得到;所述关联语义信息矩阵,根据源语言和目标语言任务数据之间的自适应注意力矩阵得到,所述源语言任务数据为有结果标签的训练数据。
本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于多语言的阅读理解任务识别方法的步骤。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于多语言的阅读理解任务识别方法的步骤。
本发明实施例提供的基于多语言的阅读理解任务识别方法及装置,以源语言分别和每一目标语言的关联语义信息矩阵,融合后得到的特征向量作为输入,从而能够同时支持单语境和多语境建模来迁移不同语言的语义知识到目标语言中,能够同时支持迁移多语言和多任务数据集中的知识到目标语言中,实现目标语言无数据、少数据条件下的抽取式阅读理解任务。充分利用已有的多语言多数据集,通过迁移多语言以及多数据集中的语义知识,来解决目标语言没有数据集的抽取式阅读理解任务,可以进一步提高目标语言少数据以及富数据的抽取式阅读理解任务识别准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于多语言的阅读理解任务识别方法的流程示意图;
图2是本发明实施例提供的基于多语言的阅读理解任务识别装置的结构示意图;
图3是本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图3描述本发明实施例的基于多语言的阅读理解任务识别方法及装置。图1是本发明实施例提供的基于多语言的阅读理解任务识别方法的流程示意图,如图1所示,本发明实施例提供一种基于多语言的阅读理解任务识别方法,包括:
101、获取任一目标语言的阅读理解任务数据,编码得到上下文嵌入表达向量。
本发明实施例主要应用于目标抽取式阅读理解任务,源语言是有训练集数据的语言,即有任务数据和对应的答案。目标语言可以是没有训练集数据的语言。也就是说,本发明实施例可以对没有经训练集数据训练的目标语言,实现阅读理解任务。在101中,任务数据是以目标语言体现,通常为<文本段落,问题>。获取目标语言的阅读理解任务数据后,编码得到对应的嵌入表达向量。例如,经过Multi-BERT编码后获得目标语言的上下文向量表示。由于每个词是以多维向量表示的,任务数据对应的嵌入表达向量通常为矩阵形式,如100×1000维度。
102、将所述嵌入表达向量,输入预设的多语言阅读理解模型,根据所述多语言阅读理解模型的输出结果,确定阅读理解任务的答案。
所述多语言阅读理解模型,以源语言任务数据分别和每一目标语言任务数据的关联语义信息矩阵,融合后得到的特征向量作为输入,以源语言任务数据的答案作为标签,进行训练后得到;所述关联语义信息矩阵,根据源语言和目标语言任务数据之间的自适应注意力矩阵得到。
具体地,预设的多语言阅读理解模型可基于现有的阅读理解模型构建,不同的是,训练数据和训练过程不同。
源语言是有训练集数据的,同时有对应的答案,如汉语,可以为<文本段落,问题,答案>。目标语言可以有多个,如选取的具有代表性的11种人类语言上,形成一个多语数据用于训练本发明提出的多语言阅读理解模型。11种语言可分别为各个语系的代表:阿拉伯语、孟加拉语、法语、日语、印度尼西亚语、斯瓦希里语、朝鲜语、俄语、泰卢固语、泰语、英语。
首先,确定源语言和每种目标语言的自适应注意力矩阵,如基于注意力机制实现。注意力机制用于衡量文本段落与问题之间的语义关系,以获得问题感知的段落表示以及段落感知的问题表示。也就是说源语言和每种目标语言的自适应注意力矩阵,表示源语言和目标语言任务数据之间的语义关系。根据自适应注意力矩阵,可得到源语言分别和每一目标语言的关联语义信息矩阵。例如,通过自适应注意力矩阵和源语言训练集数据的表达向量直接相乘得到。
其次,将所有语言的关联语义信息矩阵进行融合,融合方式可以为直接拼接,融合后得到多语言阅读理解模型的输入特征向量,结合源语言训练集数据中的答案作为标签,对多语言阅读理解模型进行训练。训练后的模型,融合了每一目标语言和源语言的语义关联关系。因此,将任一目标语言的阅读理解任务数据,编码得到上下文嵌入表达向量后,输入预设的多语言阅读理解模型,可根据对应的语义关联关系,结合源语言训练集的任务数据和答案,得到目标语言的阅读理解任务数据对应的答案。答案的具体体现可以是,目标答案片段的起始位置和结束位置,和对应的标签一致。
本发明实施例的基于多语言的阅读理解任务识别方法,以源语言分别和每一目标语言的关联语义信息矩阵,融合后得到的特征向量作为输入,从而能够同时支持单语境和多语境建模来迁移不同语言的语义知识到目标语言中,能够同时支持迁移多语言和多任务数据集中的知识到目标语言中,实现目标语言无数据、少数据条件下的抽取式阅读理解任务。充分利用已有的多语言多数据集,通过迁移多语言以及多数据集中的语义知识,来解决目标语言没有数据集的抽取式阅读理解任务,可以进一步提高目标语言少数据以及富数据的抽取式阅读理解任务。
基于上述实施例的内容,作为一种可选实施例,获取目标语言的阅读理解任务数据之前,还包括:将源语言的任务数据,翻译为多种目标语言,得到目标语言的任务数据;将源和目标语言的任务数据,分别进行编码,得到各语言的上下文嵌入表达向量;根据源语言表达向量与每一目标语言表达向量的自适应注意力矩阵,得到每一目标语言相对源语言嵌入表达向量的关联语义信息矩阵;以每一目标语言相对源语言的关联语义信息矩阵,进行融合后作为输入,以对应的源语言训练集数据的答案作为标签,对构建的多语言阅读理解模型进行训练。
通过神经机器翻译模型,如GNMT神经机器翻译模型,源语言训练集数据中的每个样本的任务数据<passage,question,answer>,翻译到本实施例选取的具有代表性的11种人类语言上,形成多语数据用于训练本发明实施例提出的多语言阅读理解模型。
将已经存在抽取式阅读理解训练集数据所在的语言记为源语言(Source),需要解决的目标任务所在的语言成为目标语言(Target)。
可以看出,本发明实施例提出的多语言阅读理解模型也兼顾单语数据以及双语数据的训练,即同时支持单语数据训练、双语数据训练以及多语数据训练。构建的多语数据可以根据具体的目标任务灵活的有针对性的选择一定数量的语言,目标是迁移多语言多任务中包含的语义知识以解决或者提高目标任务的性能。
另外,针对源语言任务以及目标语言任务数据,均支持单语数据、双语数据以及多语数据的训练和微调。
经过Multi-BERT编码后获得各个代表语言下的上下文向量表示:Multi-BERTPivot∈RL1×h以及Multi-BERTSelect∈RL2×h
其中,Pivot语言代表任何一种存在训练数据集的人类语言,可以是人类语言的任何一种,只要存在数据集即可,例如为中文。Select可以是选择的11种代表性语言种的目标语言的任意一种,如为英语。L1和L2分别表示Pivot以及Select语言下的输入的长度,h表示编码后向量的维度。
针对单语情况,只需编码Pivot语言的输入即可,双语只需编码Pivot以及Select语言的输入,即也兼顾了单语以及双语的编码。经过多语编码后可以获得各种语言的多语数据的向量表示。
在本发明实施例中,为了提高pivot语言中的BPivot上下文表示能力,可以用Transformer架构的multi-head self-attention层来抽取select语言表示BSelect中的有用信息,这样可以同时依赖pivot以及select语言中的表示来增强模型答案预测能力,从而使模型可以学习更多有用的语义知识,即多语抽取式阅读理解建模。
对于multi-head attention机制来说,把BPivot作为multi-head attention中的查询(query),把BSelect作为键(key)和值(value)。首先计算一个原始的多头注意力矩阵APS,表示每一个pivot与select语言符号的粗糙关系。
为了结合序列内部注意力以及序列之间的注意力,可参考自适应注意力机制来更好的捕获序列中的语义信息。以此得到源语言表达向量与每一目标语言表达向量的自适应注意力矩阵,即上述APS。在此基础上,对自适应注意力矩阵进行维度上的转换,得到与表达向量相同维度的关联语义信息矩阵,如上述举例中的100×1000维度。
由于每个目标语言相对于源语言都能得到对应的关联语义信息矩阵,训练时将关联语义信息矩阵进行融合(如直接拼接),作为多语言阅读理解模型的输入,而源语言的任务数据对应的答案作为标签,对构建的多语言阅读理解模型进行训练。
至此,得到的模型不仅学习到了源语言中任务数据与答案的关联关系,同时学习到了源语言与每一种目标语言之间的关联语义信息。因此,对于任一目标语言的阅读理解任务数据,编码得到上下文嵌入表达向量,便可通过预设的多语言阅读理解模型,得到对应的阅读理解任务的答案。
基于上述实施例的内容,作为一种可选实施例,将所有关联语义信息矩阵融合后,输入多语言阅读理解模型的全连接层、经归一化层和残差层后,得到多语言融合表示矩阵;根据多语言融合表示矩阵、起始位置偏置参数、起始位置的权重矩阵、结束位置偏置参数和结束位置的权值矩阵,得到目标答案片段的起始位置和结束位置的概率分布;根据起始位置与结束位置概率乘积最大的起始位置和结束位置,以及源语言训练集数据中答案的起始位置和结束位置标签,计算损失熵并进行网络参数更新。
通过多语建模捕获了每种语言的信息,接着将每个关联语义信息矩阵R'PS进行拼接,获得序列的表示R'作为模型的输入,通过模型的全连接层得到R,接着通过层归一化层以及残差层,最终得到多语言融合表示矩阵HPivot
R=WR'+b;
HPivot=concat[BPivot,LayerNorm(BPivot+R)],例如,维度为100*1000。
获得的多语言融合表示矩阵HPivot计算最终抽取式阅读理解任务答案片段起始位置和结束位置的概率,并计算标准交叉熵进行多语言模型训练。
起始位置和结束位置概率分布分别为:
Figure BDA0002698021670000111
Figure BDA0002698021670000112
其中,S为计算起始位置概率分布的权重矩阵参数,E为计算结束位置概率分布的权重矩阵参数,b为偏置参数,均为可学习参数。
利用起始位置以及结束位置概率分布可以计算抽取式阅读理解任务的交叉熵损失,用于训练本发明提出的多语言跨任务抽取式阅读理解模型。例如,交叉熵损失函数为:
Figure BDA0002698021670000113
相应地,预测阶段,利用训练以及微调过的多语言阅读理解模型,计算文本段落中起始位置以及结束位置的概率分布,选取联合的乘积概率最大的片段作为目标语言目标任务的预测答案。
Figure BDA0002698021670000114
其中(m,n)且m≤n
其中,m和n分别为目标答案片段起始位置编码和结束位置编号。(STarget,ETarget)为在目标任务上的预测答案片段。
基于上述实施例的内容,作为一种可选实施例,所述根据源语言表达向量与每一目标语言表达向量的自适应注意力矩阵,得到每一目标语言相对源语言嵌入表达向量的关联语义信息矩阵之前,还包括:根据源语言表达向量的注意力矩阵和目标语言表达向量的注意力矩阵,以及源语言表达向量和目标语言表达向量之间的注意力矩阵,确定源语言和目标语言之间的自适应注意力矩阵。
源语言表达向量的注意力矩阵,可以为源语言表达向量乘以源语言表达向量矩阵的转置。源语言表达向量和目标语言表达向量之间的注意力矩阵,可以为源语言表达向量乘以目标语言表达向量的转置。
最终可以是源语言表达向量的注意力矩阵和目标语言表达向量的注意力矩阵,以及源语言表达向量和目标语言表达向量之间的注意力矩阵,相乘后得到自适应注意力矩阵。
基于上述实施例的内容,作为一种可选实施例,根据源语言表达向量的注意力矩阵和目标语言表达向量的注意力矩阵,以及源语言表达向量和目标语言表达向量之间的注意力矩阵,确定源语言和目标语言之间的自适应注意力矩阵,包括:
Figure BDA0002698021670000121
Figure BDA0002698021670000122
Figure BDA0002698021670000123
Figure BDA0002698021670000124
其中,BPivot为源语言表达向量,BSelect为目标语言表达向量,AP为源语言表达向量的注意力矩阵,AS为目标语言表达向量的注意力矩阵,APS为源语言表达向量和目标语言表达向量之间的注意力矩阵,
Figure BDA0002698021670000125
为源语言和目标语言之间的自适应注意力矩阵,LP、LS分别为源语言任务数据和目标语言任务数据的维度
首先,计算BPivot与BSelect序列的自注意力AP以及AS,目的是使用自注意力机制过滤掉每个表示序列中的不相关信息。然后,计算相互注意力APS,再使用自注意力AP以及AS,以及相互注意力APS,计算自适应注意力矩阵
Figure BDA0002698021670000126
基于上述实施例的内容,作为一种可选实施例,所述根据源语言表达向量与每一目标语言表达向量的自适应注意力矩阵,结合每一源语言的表达向量,得到每一目标语言相对源语言嵌入表达向量的关联语义信息矩阵,包括:
Figure BDA0002698021670000127
通过计算
Figure BDA0002698021670000131
与BS之间的点积,来抽取目标语言表示中的语义信息,即R'PS,得到关联语义信息矩阵。
Figure BDA0002698021670000132
其中,R'PS为关联语义信息矩阵,h为单个词的表示维度。通过pivot与select之间的注意力交互计算,抽取了任一种目标语言中的语义信息。
通过上面的方式抽取到多语言中的任一种select语言的有用信息,相当于multi-head attention中每个头捕获了不同子空间的信息一样。我们通过多语建模捕获了每种语言的信息,接着将每个表示R'PS进行拼接获得序列的表示R'。
基于上述实施例的内容,作为一种可选实施例,若有带有结果标签的任一目标语言的训练集数据,则获取任一目标语言的阅读理解任务数据,编码得到上下文嵌入表达向量之前,还包括:将相应目标语言的训练集数据中的任务数据,进行编码得到的任务数据的上下文嵌入表达向量,作为模型输入,将训练集数据中的答案作为标签,对所述多语言阅读理解模型进行训练。
本发明实施例中,针对目标抽取式阅读理解任务,如果无训练数据,则直接利用训练过的多语言阅读理解模型,进行答案预测。如果目标语言有训练数据,则进行多语言中目标语言的微调。对于存在训练集数据的目标语言,进行训练微调可提高预测的准确度。
此外,针对多任务学习方式,可以逐个级联训练多语言阅读理解模型,实现多语言跨任务的学习和预测。
下面对本发明实施例提供的基于多语言的阅读理解任务识别装置进行描述,下文描述的基于多语言的阅读理解任务识别装置与上文描述的基于多语言的阅读理解任务识别方法可相互对应参照。
图2是本发明实施例提供的基于多语言的阅读理解任务识别装置的结构示意图,如图2所示,该基于多语言的阅读理解任务识别装置包括:编码模块201和处理模块202。其中,编码模块201用于获取任一目标语言的阅读理解任务数据,编码得到上下文嵌入表达向量;处理模块202用于将所述嵌入表达向量,输入预设的多语言阅读理解模型,根据所述多语言阅读理解模型的输出结果,确定阅读理解任务的答案;其中,所述多语言阅读理解模型,以源语言任务数据分别和每一目标语言任务数据的关联语义信息矩阵,进行融合后得到的特征向量作为输入,以源语言任务数据的答案作为标签,进行训练后得到;所述关联语义信息矩阵,根据源语言和目标语言任务数据之间的自适应注意力矩阵得到,所述源语言任务数据为有结果标签的训练数据。
本发明实施例提供的装置实施例是为了实现上述各方法实施例的,具体流程和详细内容请参照上述方法实施例,此处不再赘述。
本发明实施例提供的基于多语言的阅读理解任务识别装置,以源语言分别和每一目标语言的关联语义信息矩阵,融合后得到的特征向量作为输入,从而能够同时支持单语境和多语境建模来迁移不同语言的语义知识到目标语言中,能够同时支持迁移多语言和多任务数据集中的知识到目标语言中,实现目标语言无数据、少数据条件下的抽取式阅读理解任务。充分利用已有的多语言多数据集,通过迁移多语言以及多数据集中的语义知识,来解决目标语言没有数据集的抽取式阅读理解任务,可以进一步提高目标语言少数据以及富数据的抽取式阅读理解任务识别准确度。
图3是本发明实施例提供的电子设备的结构示意图,如图3所示,该电子设备可以包括:处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信。处理器301可以调用存储器303中的逻辑指令,以执行基于多语言的阅读理解任务识别方法,该方法包括:获取任一目标语言的阅读理解任务数据,编码得到上下文嵌入表达向量;将所述嵌入表达向量,输入预设的多语言阅读理解模型,根据所述多语言阅读理解模型的输出结果,确定阅读理解任务的答案;其中,所述多语言阅读理解模型,以源语言任务数据分别和每一目标语言任务数据的关联语义信息矩阵,进行融合后得到的特征向量作为输入,以源语言任务数据的答案作为标签,进行训练后得到;所述关联语义信息矩阵,根据源语言和目标语言任务数据之间的自适应注意力矩阵得到,所述源语言任务数据为有结果标签的训练集数据。
此外,上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的基于多语言的阅读理解任务识别方法,该方法包括:获取任一目标语言的阅读理解任务数据,编码得到上下文嵌入表达向量;将所述嵌入表达向量,输入预设的多语言阅读理解模型,根据所述多语言阅读理解模型的输出结果,确定阅读理解任务的答案;其中,所述多语言阅读理解模型,以源语言任务数据分别和每一目标语言任务数据的关联语义信息矩阵,进行融合后得到的特征向量作为输入,以源语言任务数据的答案作为标签,进行训练后得到;所述关联语义信息矩阵,根据源语言和目标语言任务数据之间的自适应注意力矩阵得到,所述源语言任务数据为有结果标签的训练集数据。
又一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的基于多语言的阅读理解任务识别方法,该方法包括:获取任一目标语言的阅读理解任务数据,编码得到上下文嵌入表达向量;将所述嵌入表达向量,输入预设的多语言阅读理解模型,根据所述多语言阅读理解模型的输出结果,确定阅读理解任务的答案;其中,所述多语言阅读理解模型,以源语言任务数据分别和每一目标语言任务数据的关联语义信息矩阵,进行融合后得到的特征向量作为输入,以源语言任务数据的答案作为标签,进行训练后得到;所述关联语义信息矩阵,根据源语言和目标语言任务数据之间的自适应注意力矩阵得到,所述源语言任务数据为有结果标签的训练集数据。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种基于多语言的阅读理解任务识别方法,其特征在于,包括:
获取任一目标语言的阅读理解任务数据,编码得到上下文嵌入表达向量;
将所述嵌入表达向量,输入预设的多语言阅读理解模型,根据所述多语言阅读理解模型的输出结果,确定阅读理解任务的答案;
其中,所述多语言阅读理解模型,以源语言任务数据分别和每一目标语言任务数据的关联语义信息矩阵,进行融合后得到的特征向量作为输入,以源语言任务数据的答案作为标签,进行训练后得到;所述关联语义信息矩阵,根据源语言和目标语言任务数据之间的自适应注意力矩阵得到,所述源语言任务数据为有结果标签的训练集数据;
所述获取任一目标语言的阅读理解任务数据之前,还包括:
将源语言的任务数据,翻译为多种目标语言,得到目标语言的任务数据;
将源和目标语言的任务数据,分别进行编码,得到各语言的上下文嵌入表达向量;
根据源语言表达向量与每一目标语言表达向量之间的自适应注意力矩阵,得到每一目标语言相对源语言嵌入表达向量的关联语义信息矩阵;
以每一目标语言相对源语言的关联语义信息矩阵,进行融合后作为输入,以对应的源语言训练集数据的答案作为标签,对构建的多语言阅读理解模型进行训练;
所述根据源语言表达向量与每一目标语言表达向量之间的自适应注意力矩阵,得到每一目标语言相对源语言嵌入表达向量的关联语义信息矩阵之前,还包括:
根据源语言表达向量的注意力矩阵和目标语言表达向量的注意力矩阵,以及源语言表达向量和目标语言表达向量之间的注意力矩阵,确定源语言和目标语言之间的自适应注意力矩阵,包括:
Figure FDA0003083571110000021
Figure FDA0003083571110000022
Figure FDA0003083571110000023
Figure FDA0003083571110000024
其中,BPivot为源语言表达向量,BSelect为目标语言表达向量,AP为源语言表达向量的注意力矩阵,AS为目标语言表达向量的注意力矩阵,APS为源语言表达向量和目标语言表达向量之间的注意力矩阵,
Figure FDA0003083571110000025
为源语言和目标语言之间的自适应注意力矩阵,LP、LS分别为源语言任务数据和目标语言任务数据的维度,softmax表示归一化。
2.根据权利要求1所述的基于多语言的阅读理解任务识别方法,其特征在于,所述对构建的多语言阅读理解模型进行训练,包括:
将所有关联语义信息矩阵融合后,输入多语言阅读理解模型的全连接层、归一化层和残差层后,得到多语言融合表示矩阵;
根据多语言融合表示矩阵、起始位置偏置参数、起始位置的权重矩阵、结束位置偏置参数和结束位置的权值矩阵,得到目标答案片段的起始位置和结束位置的概率分布;
根据起始位置与结束位置概率乘积最大的起始位置和结束位置,以及源语言训练集数据中答案的起始位置和结束位置标签,计算损失熵并进行网络参数更新。
3.根据权利要求1所述的基于多语言的阅读理解任务识别方法,其特征在于,所述根据源语言表达向量与每一目标语言表达向量的自适应注意力矩阵,得到每一目标语言相对源语言嵌入表达向量的关联语义信息矩阵,包括:
Figure FDA0003083571110000026
其中,R'PS为关联语义信息矩阵,BS为目标语言表达向量,
Figure FDA0003083571110000031
为源语言和目标语言之间的自适应注意力矩阵,h为单个词的表示维度。
4.根据权利要求1所述的基于多语言的阅读理解任务识别方法,其特征在于,若有带有结果标签的任一目标语言的训练集数据,则获取任一目标语言的阅读理解任务数据,编码得到上下文嵌入表达向量之前,还包括:
将相应目标语言的训练集数据中的任务数据,进行编码得到的任务数据的上下文嵌入表达向量作为模型输入,将目标语言的训练集数据中对应的答案作为标签,对所述多语言阅读理解模型进行训练。
5.一种基于多语言的阅读理解任务识别装置,其特征在于,包括:
编码模块,用于获取任一目标语言的阅读理解任务数据,编码得到上下文嵌入表达向量;
处理模块,用于将所述嵌入表达向量,输入预设的多语言阅读理解模型,根据所述多语言阅读理解模型的输出结果,确定阅读理解任务的答案;
其中,所述多语言阅读理解模型,以源语言任务数据分别和每一目标语言任务数据的关联语义信息矩阵,进行融合后得到的特征向量作为输入,以源语言任务数据的答案作为标签,进行训练后得到;所述关联语义信息矩阵,根据源语言和目标语言任务数据之间的自适应注意力矩阵得到,所述源语言任务数据为有结果标签的训练数据;
所述获取任一目标语言的阅读理解任务数据之前,还包括:
将源语言的任务数据,翻译为多种目标语言,得到目标语言的任务数据;
将源和目标语言的任务数据,分别进行编码,得到各语言的上下文嵌入表达向量;
根据源语言表达向量与每一目标语言表达向量之间的自适应注意力矩阵,得到每一目标语言相对源语言嵌入表达向量的关联语义信息矩阵;
以每一目标语言相对源语言的关联语义信息矩阵,进行融合后作为输入,以对应的源语言训练集数据的答案作为标签,对构建的多语言阅读理解模型进行训练;
所述根据源语言表达向量与每一目标语言表达向量之间的自适应注意力矩阵,得到每一目标语言相对源语言嵌入表达向量的关联语义信息矩阵之前,还包括:
根据源语言表达向量的注意力矩阵和目标语言表达向量的注意力矩阵,以及源语言表达向量和目标语言表达向量之间的注意力矩阵,确定源语言和目标语言之间的自适应注意力矩阵,包括:
Figure FDA0003083571110000041
Figure FDA0003083571110000042
Figure FDA0003083571110000043
Figure FDA0003083571110000044
其中,BPivot为源语言表达向量,BSelect为目标语言表达向量,AP为源语言表达向量的注意力矩阵,AS为目标语言表达向量的注意力矩阵,APS为源语言表达向量和目标语言表达向量之间的注意力矩阵,
Figure FDA0003083571110000045
为源语言和目标语言之间的自适应注意力矩阵,LP、LS分别为源语言任务数据和目标语言任务数据的维度,softmax表示归一化。
6.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述基于多语言的阅读理解任务识别方法的步骤。
7.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至4任一项所述基于多语言的阅读理解任务识别方法的步骤。
CN202011012758.9A 2020-09-23 2020-09-23 基于多语言的阅读理解任务识别方法及装置 Active CN112182151B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011012758.9A CN112182151B (zh) 2020-09-23 2020-09-23 基于多语言的阅读理解任务识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011012758.9A CN112182151B (zh) 2020-09-23 2020-09-23 基于多语言的阅读理解任务识别方法及装置

Publications (2)

Publication Number Publication Date
CN112182151A CN112182151A (zh) 2021-01-05
CN112182151B true CN112182151B (zh) 2021-08-17

Family

ID=73956948

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011012758.9A Active CN112182151B (zh) 2020-09-23 2020-09-23 基于多语言的阅读理解任务识别方法及装置

Country Status (1)

Country Link
CN (1) CN112182151B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268601B (zh) * 2021-03-02 2024-05-14 安徽淘云科技股份有限公司 信息提取方法、阅读理解模型训练方法及相关装置
CN113345412A (zh) * 2021-05-31 2021-09-03 平安科技(深圳)有限公司 语音合成方法、装置、设备以及存储介质
CN114444488B (zh) * 2022-01-26 2023-03-24 中国科学技术大学 一种少样本机器阅读理解方法、系统、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134771A (zh) * 2019-04-09 2019-08-16 广东工业大学 一种基于多注意力机制融合网络问答系统的实现方法
CN110413736A (zh) * 2019-07-25 2019-11-05 百度在线网络技术(北京)有限公司 跨语言文本表示方法和装置
CN111324717A (zh) * 2020-02-24 2020-06-23 武汉大学 一种面向开放域问答的基于机器阅读理解的答案获取方法及系统
CN111581350A (zh) * 2020-04-30 2020-08-25 识因智能科技(北京)有限公司 一种基于预训练语言模型的多任务学习阅读理解方法
CN111611361A (zh) * 2020-04-01 2020-09-01 西南电子技术研究所(中国电子科技集团公司第十研究所) 抽取式机器智能阅读理解问答系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9779085B2 (en) * 2015-05-29 2017-10-03 Oracle International Corporation Multilingual embeddings for natural language processing
CN109033068B (zh) * 2018-06-14 2022-07-12 北京慧闻科技(集团)有限公司 基于注意力机制的用于阅读理解的方法、装置和电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134771A (zh) * 2019-04-09 2019-08-16 广东工业大学 一种基于多注意力机制融合网络问答系统的实现方法
CN110413736A (zh) * 2019-07-25 2019-11-05 百度在线网络技术(北京)有限公司 跨语言文本表示方法和装置
CN111324717A (zh) * 2020-02-24 2020-06-23 武汉大学 一种面向开放域问答的基于机器阅读理解的答案获取方法及系统
CN111611361A (zh) * 2020-04-01 2020-09-01 西南电子技术研究所(中国电子科技集团公司第十研究所) 抽取式机器智能阅读理解问答系统
CN111581350A (zh) * 2020-04-30 2020-08-25 识因智能科技(北京)有限公司 一种基于预训练语言模型的多任务学习阅读理解方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Learning with Limited Data for Multilingual Reading Comprehension;Kyungjae Lee 等;《Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing》;20191231;全文 *
Synthetic QA Corpora Generation with Roundtrip Consistency;Chris Alberti 等;《cs.CL》;20190630;全文 *
X-WikiRE: A Large, Multilingual Resource for Relation Extraction as Machine Comprehension;Mostafa Abdou 等;《cs.CL》;20190815;全文 *
面向多片段答案的抽取式阅读理解模型;苏立新 等;《计算机学报》;20190819;全文 *

Also Published As

Publication number Publication date
CN112182151A (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
CN112182151B (zh) 基于多语言的阅读理解任务识别方法及装置
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN111767718B (zh) 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN116127953B (zh) 一种基于对比学习的中文拼写纠错方法、装置和介质
CN112463924B (zh) 面向智能问答基于内部相关性编码的文本意图匹配方法
CN115438154A (zh) 基于表征学习的中文自动语音识别文本修复方法及系统
CN113723105A (zh) 语义特征提取模型的训练方法、装置、设备及存储介质
CN113536801A (zh) 阅读理解模型的训练方法及装置、阅读理解方法及装置
CN108509539B (zh) 信息处理方法电子设备
CN116796251A (zh) 一种基于图文多模态的不良网站分类方法、系统及设备
CN115034208A (zh) 一种基于bert的中文asr输出文本修复方法及系统
CN113268576A (zh) 一种基于深度学习的部门语义信息抽取的方法及装置
CN116341651A (zh) 实体识别模型训练方法、装置、电子设备及存储介质
CN113705207A (zh) 语法错误识别方法及装置
CN117217233A (zh) 文本纠正、文本纠正模型训练方法及装置
CN116561272A (zh) 开放域视觉语言问答方法、装置、电子设备及存储介质
CN116362242A (zh) 一种小样本槽值提取方法、装置、设备及存储介质
CN114911940A (zh) 文本情感识别方法及装置、电子设备、存储介质
CN117271759A (zh) 文本摘要生成模型训练方法、文本摘要生成方法和装置
CN110852066A (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN114662668A (zh) 神经网络训练方法、语义相似度计算方法及语义检索系统
CN114154497A (zh) 语病识别方法、装置、电子设备和存储介质
CN111428005A (zh) 标准问答对确定方法、装置及电子设备
CN116089589B (zh) 问句生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant