CN111858879A - 一种基于机器阅读理解的问答方法及系统、存储介质、计算机设备 - Google Patents

一种基于机器阅读理解的问答方法及系统、存储介质、计算机设备 Download PDF

Info

Publication number
CN111858879A
CN111858879A CN202010558824.6A CN202010558824A CN111858879A CN 111858879 A CN111858879 A CN 111858879A CN 202010558824 A CN202010558824 A CN 202010558824A CN 111858879 A CN111858879 A CN 111858879A
Authority
CN
China
Prior art keywords
vector
sentence
paragraph
word
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010558824.6A
Other languages
English (en)
Other versions
CN111858879B (zh
Inventor
胡盟
王文广
陈运文
王忠萌
王子奕
贺梦洁
纪达麒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Datagrand Tech Inc
Original Assignee
Datagrand Tech Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Datagrand Tech Inc filed Critical Datagrand Tech Inc
Priority to CN202010558824.6A priority Critical patent/CN111858879B/zh
Publication of CN111858879A publication Critical patent/CN111858879A/zh
Application granted granted Critical
Publication of CN111858879B publication Critical patent/CN111858879B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于机器阅读理解的问答方法及系统、存储介质、计算机设备。本发明通过对目标文档及文档中的段落长度、句子长度进行分割,然后从分割后的段落中筛选出候选段落,从候选段落中筛选出候选句子,从候选句子中预测出多处答案并进行拼接来获取问题的答案,通过融合不同粒度上的交互特征,有效地解决了传统的滑窗机制处理方法会损失文档级别上下文之间的层次信息以及文档过长无法使用注意力机制模型的问题。

Description

一种基于机器阅读理解的问答方法及系统、存储介质、计算机 设备
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于机器阅 读理解的问答方法及系统、存储介质、计算机设备。
背景技术
近几年来,随着基于注意力机制的大规模蓬勃发展,单文档单抽 取片段的机器阅读理解已经取得了巨大的成功,在SQuAD2.0数据集 上甚至已经超越人类的标注的水平。SQuAD2.0数据集上,主要进行 短文档、单段落单答案片段的抽取,具体包括判断文档整体是否能够 回答所提的问题以及预测这个文档内对于问题答案的位置的概率, 寻找概率最大的开头概率与结尾概率来抽取出最终答案。然而在实际 的应用场景中,文档的长度一般比较长,且具备多个段落,很多情 况下,答案也不是连续的,甚至有可能跨越自然段。
传统的解决单文档、多段落的机器阅读理解,一般会利用问题与 段落的统计信息或者浅层语义信息快速过滤一系列的段落,然后将 过滤后得到的段落进行拼接后进行单文档的阅读理解抽取,寻找到 概率最高的若干个答案片段。这种传统做法通常无法重复利用段落浅 层语义信息,会造成计算资源浪费;且如果段落本身长度较长,即使 过滤一系列段落之后,拼接后依旧无法使用成熟的注意力机制模型, 更不必说使用基于注意力机制的预训练语言模型了;为了使用这些 预训练语言模型,通常的做法是利用滑窗机制来依次获取序列向量 组,但是这种做法破坏了句子、段落、文档之间天然的层次关系,会 造成信息的损失、丢失。
发明内容
有鉴于此,本发明提供了一种基于机器阅读理解的问答方法及 系统、存储介质、计算机设备,通过对目标文档及文档中的段落 长度、句子长度进行分割,然后从分割后的段落中筛选出候选段 落,从候选段落中筛选出候选句子,从候选句子中预测出多处答 案并进行拼接来获取问题的答案,通过融合不同粒度上的交互特 征,有效地解决了传统的滑窗机制处理方法会损失文档级别上下 文之间的层次信息以及文档过长无法使用注意力机制模型的问 题。
一种基于机器阅读理解的问答方法,具体包括以下步骤:
S1,切分目标文档;
S2,利用第一问题交互方法获取切分后的目标文档中的各段落的 第一段落向量组、每个段落中各句子的第一句子向量、每个句子中各 个字的第一字向量;
利用第二问题交互方法获取各段落的第二段落向量组、每个段落 中各句子的第二句子向量、每个句子中各个字的第二字向量;
S3,利用各段落的第一段落向量组和第二段落向量组得到其各自 的段落向量表示,从而筛选出候选段落;
S4,利用候选段落中各句子的第一句子向量和第二句子向量并结 合其所属段落的段落向量表示筛选出候选句子;
S5,利用候选句子中各个字的第一字向量和第二字向量并结合其 所属段落的段落向量表示预测出问题的答案。
优选地,所述步骤S1中切分目标文档的具体步骤为:
判断目标文档内段落个数是否超过设定值,若超过,则将目标文 档切分为多个子文档;
判断各子文档中的每个段落中的句子个数,将句子个数超过设定 值的超长段落切分为多个子段落;
判断各段落中的每个句子的句子长度,将句子长度超过设定值的 超长句子切分为多个子句子。
优选地,将目标文档切分为多个子文档时,以段为单位,将目标 文档滑窗切分为多个独立的子文档;
将句子个数超过设定值的超长段落切分为多个子段落时,以句为 单位,将超长段落滑窗切分为多个独立的子段落;
将句子长度超过设定值的超长句子切分为多个子句子时,以字符 为单位,将超长句子滑窗切分为多个独立的子句子。
优选地,所述步骤S2中利用第一问题交互方法获取切分后的目标 文档中的各段落的第一段落向量组、每个段落中各句子的第一句子向 量、每个句子中各个字的第一字向量的具体步骤为:
S21,利用bert模型分别获取切分后的目标文档中的每个句子的 第一句子向量、问题的向量表示;
S22,根据同一段落内所有句子的第一句子向量与问题的向量表 示,通过多头感知机模型得到该段落的第一段落向量组。
优选地,所述步骤S21中利用bert模型分别获取切分后的目标文 档中的每个句子的第一句子向量、问题的向量表示的步骤为:
将切分后的目标文档中的每个句子分别组织成结构为 [CLS],
Figure BDA0002545515890000041
的向量组并输入bert模型得到其各自的语义向量 表示,将各句子的语义向量表示中[CLS]位置处的向量作为其各自的 第一句子向量,其中[CLS]为标志位,
Figure BDA0002545515890000051
为某个句子中第n个字的第 一字向量;
将问题组织成结构为[CLS],
Figure BDA0002545515890000052
的向量组并输入bert 模型得到其语义向量表示,将问题的语义向量表示中[CLS]位置处的 向量作为问题的向量表示,其中
Figure BDA0002545515890000053
为问题中第m个字的向量。
优选地,步骤S22中根据同一段落内所有句子的第一句子向量与 问题的向量表示,通过多头感知机模型得到该段落的第一段落向量组 的具体步骤为:
将同一段落内所有句子的第一句子向量与问题的向量表示组织成 结构为[CLS],
Figure BDA0002545515890000054
[SEP],VQ的第一语义向量组并将第一语义向 量组输入多头感知机模型,将多头感知机模型输出的向量组中[CLS] 位置处的向量作为该段落的第一段落向量组
Figure BDA0002545515890000055
其中,
Figure BDA0002545515890000056
为某一段落中第i个句子的第一句子向量,VQ为问题的 向量表示。
优选地,步骤S2中利用第二问题交互方法获取各段落的第二段落 向量组、每个段落中各句子的第二句子向量、每个句子中各个字的第 二字向量的具体步骤为:
S23,利用bert模型分别获取切分后的目标文档中的每个句子的 第二句子向量;
S24,根据同一段落内所有句子的第二句子向量,通过多头感知机 模型得到该段落的第二段落向量组。
优选地,所述步骤S23中利用bert模型分别获取切分后的目标文 档中的每个句子的第二句子向量的具体步骤为:
将切分后的目标文档中的每个句子分别组织成结构为 [CLS],
Figure BDA0002545515890000061
[SEP],VWQ1,VWQ2,…,VWQl的向量组并输入bert模型得 到其各自的语义向量表示,将各句子的语义向量表示中[CLS]位置处 的向量作为其各自的第二句子向量;
其中[CLS]为标志位,
Figure BDA0002545515890000062
为某个句子中第n个字的第二字向量,VWQl为问题中第l个字的向量。
优选地,步骤S24中根据同一段落内所有句子的第二句子向量, 通过多头感知机模型得到该段落的第二段落向量组的具体步骤为:
将同一段落内所有句子的第二句子向量组织成结构为 [CLS],
Figure BDA0002545515890000063
[SEP],VWQ1',VWQ2',…,VWQl'的第二语义向量组并将第二语 义向量组输入多头感知机模型,将多头感知机模型输出的向量组中 [CLS]位置处的向量作为该段落的第二段落向量组
Figure BDA0002545515890000064
其中,
Figure BDA0002545515890000065
为某一段落中第i个句子的第二句子向量。
优选地,步骤S3中利用各段落的第一段落向量组和第二段落向量 组得到其段落向量表示,从而筛选出候选段落的具体步骤为:
S31,将同一段落的第一段落向量组和第二段落向量组拼接,并计 算得到其中间段落向量;
S32,将目标文档中各段落的中间段落向量组织成向量组并将该向 量组输入多头感知机模型,多头感知机模型输出结构为 [CLS],VP1,VP2,…,VPh的向量组并将该向量组中[CLS]位置处的向量作为 该文档的文档向量表示VC,其中,VPh为目标文档中第h个段落的段落向量表示;
S33,计算出各段落包含答案的概率;
S34,按照段落包含答案的概率值的大小,从目标文档中筛选出候 选段落。
优选地,所述步骤S31中将同一段落的第一段落向量组和第二段 落向量组拼接,并计算得到其中间段落向量的具体步骤为:
将同一段落的第一段落向量组
Figure BDA0002545515890000071
和第二段落向量组
Figure BDA0002545515890000072
拼接成向量 组VP”,通过公式VP'=VP”Wp+bp计算某一段落的中间段落向量VP'。
优选地,段落包含答案的概率的计算公式为:
Pppost=softmax(VPhWp+bp),其中VPh为目标文档中第h个段落的段落向量 表示,Wp为第一权重矩阵,bp为第一偏置。
优选地,步骤S4中利用候选段落中各句子的第一句子向量和第二 句子向量并结合其所属段落的段落向量表示筛选出候选句子的具体 步骤为:
S41,将同一句子的第一句子向量和第二句子向量进行拼接,并经 过全连接层映射成句拼接向量,
重复该步骤依次得到同一候选段落中各句子的句拼接向量;
S42,将同一候选段落中各句子的句拼接向量和其所属段落的段落 向量表示拼合成向量序列并将该向量序列输入多头感知机模型,得到 结构为[CLS],VS1,VS2,…,VSi,[SEP],VPh,[SEP],VC,[SEP],Vq的向量组,其中,VSi为目标文档中第h个段落的第i个句子的句子向量表示;
S43,计算同一候选段落中各句子包含答案的第一概率;
S44,重复步骤S41-S43,依次计算出所有候选段落中各句子包含 答案的第一概率,然后按照句子包含答案的第一概率值的大小,从候 选段落的所有句子中筛选出候选句子。
优选地,所述句子包含答案的第一概率的计算公式为:
Pspost=softmax(VsiWs+bs),其中,VSi为目标文档中第h个段落的第i个 句子的句子向量表示,Ws为第二权重矩阵,bs为第二偏置。
优选地,步骤S5中利用候选句子中各个字的第一字向量和第二字 向量并结合其所属段落的段落向量表示预测出问题的答案的具体步 骤为:
S51,将同一字的第一字向量和第二字向量进行拼接,并经过全连 接层映射成字拼接向量,
重复该步骤依次得到每个候选句子中各个字的字拼接向量;
S52,根据同一段落内的所有候选句子中各个字的字拼接向量和其 所属段落的段落向量表示、所属文档的文档向量表示以及问题的向量 表示获取该段落中各个候选句子的句子信息向量;
重复该步骤获取每个候选句子的句子信息向量
S53,根据每个候选句子的句子信息向量分别计算各候选句子包含 答案的第二概率、各候选句子中每个字的位置是答案开头的概率、各 候选句子中每个字的位置是答案结尾的概率;
S54,依次将候选句子包含答案的第二概率与该句子内某一个字作 为开头的概率和该句子内另一个字作为结尾的概率进行乘积得到所 有疑似答案的概率,然后按照疑似答案的概率值大小,抽取出前K个 疑似答案并按照出现在目标文档中的顺序进行拼合,得到针对于问题 的答案。
优选地,所述步骤S52中获取候选句子的句子信息向量的具体步 骤为:
将同一段落内的所有候选句子中各个字的字拼接向量与其所属段 落的段落向量表示、所属文档的文档向量表示以及问题的向量表示进 行拼合,拼合时使用1024的滑窗长度对段落中的字进行滑窗,句子 与句子之间使用[SEP]分隔,从而拼合成向量序列并将该向量序列输入 多头感知机模型,多头感知机模型输出结构为
[CLS],VW1,VW2,…,[SEP],VW5,VW6,…,VWn,[SEP],VQW1,VQW2,…,VQWl[SEP],VPh,[SEP],VC的向量组,
将多头感知机模型输出的向量组中[CLS]、[SEP]位置处的向量取出 作为该段落中各个候选句子的句子信息向量。
优选地,候选句子包含答案的第二概率的计算公式为:
Ppost=softmax(α1Wpost+bpost),其中α1为某个候选句子的句子信息向量, Wpost为第三权重矩阵,bpost为第三偏置;
候选句子中某个字的位置是否是答案开头的概率的计算公式为:Ps=softmax(α2WS+bS),其中α2为候选句子中所有字的字向量构成的向 量组,WS为第一权重向量,bS为第四偏置;
候选句子中某个字的位置是否是答案结尾的概率的计算公式为: Pe=softmax(α2We+be),其中α2为候选句子中所有字的字向量构成的向 量组,We为第一权重向量,be为第五偏置。
一种存储介质,其存储有计算机指令,该指令被处理器执行时实 现所述的基于机器阅读理解的问答方法的步骤。
一种计算机设备,包括处理器以及用于存储处理器可执行程序的 存储器,其特征在于,所述处理器执行存储器存储的程序时,实现所 述的基于机器阅读理解的问答方法。
一种基于机器阅读理解的问答系统,包括:
文档切分模块,用于对目标文档进行切分;
段落筛选模块,用于利用第一问题交互方法和第二问题交互方法 分别获取切分后的目标文档中的各段落的第一段落向量组和第二段 落向量组、每个段落中各句子的第一句子向量和第二句子向量、每个 句子中各个字的第一字向量和第二字向量,并根据得到的各段落的第 一段落向量组和第二段落向量组得到其各自的段落向量表示,从而筛 选出候选段落;
句子筛选模块,用于利用候选段落中各句子的第一句子向量和第 二句子向量并结合其所属段落的段落向量表示筛选出候选句子;
答案预测模块,用于利用候选句子中各个字的第一字向量和第二 字向量并结合其所属段落的段落向量表示预测出问题的答案。
本发明的有益效果是:
1、利用单文档内部天然的字到句子、句子到段落、段落到文档层 次的结构特征,不会像传统的使用滑窗的方法损失掉文天然的层次信 息。
2、本申请对于问题与文档句子的交互采用两种不同的方式:一、 先分别将问题的句子中字序列与文档句子中字序列各自经过语言模 型(bert模型)获取序列向量组,然后组织段落中的句子向量表示 与问题向量表示进行交互后得到段落的向量表示;二,将问题的字序 列与文档每一句的句子序列拼接后进行交互,获取段落的向量表示。 然后,将这两种通过不同交互方法得到的两种段落向量组进行交互后 获取文档的向量表示以及答案出现在段落中的概率值,实际上进行了 多层次的文档与问题的信息交互。
3、筛选句子时使用到了之前的段落信息、文档信息,即能够获得 更丰富的上下文信息,又能够节省计算资源。
4、在进行句子对问题的回答时,使用到了之前步骤计算得到的段 落向量表示、文档向量表示,即能够获得更丰富的上下文信息,又能 够节省计算资源。
5、在进行句子对问题的回答时,首先经过了段落筛选、句子筛选, 然后对每个筛选后的句子尝试回答问题,并进行排序后直接获取最终 答案,这实际上是一种多粒度上的机器阅读流程。
6、在拼接最终答案时,相对于传统方法需要进行启发式规则式的 后处理,能够较为简单的拼接多处答案片段以获取最终答案。
7、本申请一定程度上缓解了序列过长无法使用注意力机制模型的 缺陷,相对于文档中字的个数、文档中段落的个数、段落中句子的个 数,句子中字的个数相对而言更容易满足注意力模型所限制的序列长 度需求。
8、能够使用预训练语言模型来获取文档内字序列所对应的序列向 量组,充分利用训练预训练语言模型对数据要求不高的特性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施 例中所需要使用的附图作简单地介绍,显而易见地,下面描述中 的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来 讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其 它的附图。
图1是本发明方法的流程图。
图2是段落筛选模块的结构图。
图3是句子筛选模块的结构图。
图4是答案预测模块的结构图。
具体实施方式
为了更好的理解本发明的技术方案,下面结合附图对本发明 实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明的一部分实施例, 而不是全部的实施例。基于本发明中的实施例,本领域普通技术 人员在没有作出创造性劳动前提下所获得的所有其它实施例,都 属于本发明保护的范围。
下面通过具体的实施例并结合附图对本申请做进一步的详细描 述。
在本申请的描述中,除非另有明确的规定和限定,术语“第一”、 “第二”仅用于描述的目的,而不能理解为指示或暗示相对重要 性;除非另有规定或说明,术语“多个”是指两个或两个以上。 对于本领域的普通技术人员而言,可以根据具体情况理解上述术 语在本发明中的具体含义。
本发明给出一种基于机器阅读理解的问答方法及系统、存储介 质、计算机设备。本方法通过对目标文档及文档中的段落长度、 句子长度进行分割,然后从分割后的段落中筛选出候选段落,从 候选段落中筛选出候选句子,从候选句子中预测出多处答案并进 行拼接来获取问题的答案,通过融合不同粒度上的交互特征,有 效地解决了传统的滑窗机制处理方法会损失文档级别上下文之间 的层次信息以及文档过长无法使用注意力机制模型的问题。
具体地,本发明的基于机器阅读理解的问答方法,具体包括以下 步骤:
S1,切分目标文档。
具体地,判断目标文档内段落个数是否超过设定值,若超过,则 以段为单位,将目标文档滑窗切分为多个独立的子文档;若不超过, 则不切分;
然后,判断各子文档中的每个段落中的句子个数,以句为单位, 将句子个数超过设定值的超长段落滑窗切分为多个独立的子段落;
然后,判断各段落(上一步中经过长度切分得到的段落)中的每 个句子的句子长度,以字符为单位,将句子长度超过设定值的超长句 子滑窗切分为多个独立的子句子。
本实施例中,将目标文档切分为段落个数不大于512个的多个子 文档,即若目标文档的段落个数大于512个,则将目标文档滑窗切分 为多个子文档;
然后,判断各个子文档中每个段落所包含的句子个数,将句子个 数超过256个的超长段落滑窗切分为多个子段落,经切分后得到的所 有的句子个数小于256个的段落作为后续步骤的筛选基础;
然后,将长度大于256的超长句子滑窗切分为多个子句子,经切 分后得到的所有的长度小于256的句子作为后续步骤的筛选基础。
S2,利用第一问题交互方法获取切分后的目标文档中的各段落的 第一段落向量组、每个段落中各句子的第一句子向量、每个句子中各 个字的第一字向量,具体包括以下步骤:
S21,a、利用bert模型分别获取切分后的目标文档中的每个句子 的第一句子向量、问题的向量表示。
具体实施步骤为:将切分后的目标文档中的每个句子分别组织成 结构为[CLS],
Figure BDA0002545515890000161
的向量组并输入bert模型得到其各自的语 义向量表示,将各句子的语义向量表示中[CLS]位置处的向量作为其 各自的第一句子向量,其中[CLS]为标志位,
Figure BDA0002545515890000171
为某个句子中第n个 字的第一字向量(输入bert模型的[CLS],
Figure BDA0002545515890000172
向量组中[CLS] 位置处的向量为随机生成的,bert模型对输入的向量组进行一系列 处理后,输出对应的语义向量表示,语义向量表示的结构与输入bert 模型的向量组的结构相同);
将问题组织成结构为[CLS],
Figure BDA0002545515890000173
的向量组(组织成的该 向量组中[CLS]位置处的向量也为随机生成的)并输入bert模型得到 其语义向量表示,将问题的语义向量表示中[CLS]位置处的向量作为 问题的向量表示VQ,其中
Figure BDA0002545515890000174
为问题中第m个字的向量。
S22,根据同一段落内所有句子的第一句子向量与问题的向量表 示,通过多头感知机模型得到该段落的第一段落向量组。
具体实施步骤为:将同一段落内所有句子的第一句子向量
Figure BDA0002545515890000175
与问 题的向量表示VQ组织成结构为[CLS],
Figure BDA0002545515890000176
[SEP],VQ的第一语义 向量组并将第一语义向量组输入多头感知机模型,将多头感知机模型 输出的向量组中[CLS]位置处的向量作为该段落的第一段落向量组
Figure BDA0002545515890000177
其中,
Figure BDA0002545515890000178
为某一段落中第i个句子的第一句子向量,VQ为问题的 向量表示,i为正整数。
即第一问题交互方法是先获取句子的第一句子向量和问题的向量 表示,再将段落内所有句子的第一句子向量与问题的向量表示进行交 互得到段落的第一段落向量组。
b、利用第二问题交互方法获取各段落的第二段落向量组、每个段 落中各句子的第二句子向量、每个句子中各个字的第二字向量,具体 包括以下步骤:
S23,利用bert模型分别获取切分后的目标文档中的每个句子的 第二句子向量。
具体实施步骤为:将切分后的目标文档中的每个句子分别组织成 结构为[CLS],
Figure BDA0002545515890000181
[SEP],VWQ1,VWQ2,…,VWQl的向量组并输入bert 模型得到其各自的语义向量表示,将各句子的语义向量表示中[CLS] 位置处的向量作为其各自的第二句子向量(输入bert模型的 [CLS],
Figure BDA0002545515890000182
[SEP],VWQ1,VWQ2,…,VWQl向量组中[CLS]位置处的向量为随机生成的,bert模型对输入的向量组进行一系列处理后,输出 对应的语义向量表示,语义向量表示的结构与输入bert模型的向量 组的结构相同);
其中[CLS]为标志位,
Figure BDA0002545515890000183
为某个句子中第n个字的第二字向量,VWQl为问题中第l个字的向量,n和l均为正整数。
S24,根据同一段落内所有句子的第二句子向量
Figure BDA0002545515890000191
通过多头感知 机模型得到该段落的第二段落向量组
Figure BDA0002545515890000192
具体实施步骤为:将同一段落内所有句子的第二句子向量组织成 结构为[CLS],
Figure BDA0002545515890000193
[SEP],VWQ1',VWQ2',…,VWQl'的第二语义向量组并将 第二语义向量组输入多头感知机模型,将多头感知机模型输出的向量 组中[CLS]位置处的向量作为该段落的第二段落向量组
Figure BDA0002545515890000194
其中,
Figure BDA0002545515890000195
为某一段落中第i个句子的第二句子向量。
即第二问题交互方法是先使段落中的每个句子与问题进行交互得 到其各自的第二句子向量,然后利用段落内各句子的第二句子向量获 取得到段落的第二段落向量组。
S3,利用各段落的第一段落向量组和第二段落向量组得到其各自 的段落向量表示,从而筛选出候选段落,具体包括以下步骤:
S31,将同一段落的第一段落向量组和第二段落向量组拼接,并计 算得到其中间段落向量。
具体实施步骤为:将同一段落的第一段落向量组
Figure BDA0002545515890000196
和第二段落向 量组
Figure BDA0002545515890000197
拼接成向量组VP”,通过公式VP'=VP”W+b计算某一段落的中间 段落向量VP',W为全连接矩阵,b为偏置,
Figure BDA0002545515890000198
S32,将目标文档中各段落的中间段落向量组织成向量组并将该向 量组输入多头感知机模型,多头感知机模型输出结构为 [CLS],VP1,VP2,…,VPh的向量组并将该向量组中[CLS]位置处的向量作为 该文档的文档向量表示VC,其中,
Figure BDA0002545515890000201
VPh为目标文档中第h 个段落的段落向量表示。
S33,计算出各段落包含答案的概率。
段落包含答案的概率的计算公式为:Pppost=softmax(VPhWp+bp),其 中VPh为目标文档中第h个段落的段落向量表示,
Figure BDA0002545515890000202
Wp为 第一权重矩阵,
Figure BDA0002545515890000203
bp为第一偏置,
Figure BDA0002545515890000204
S34,按照段落包含答案的概率值的大小,从目标文档中筛选出候 选段落。
S4,利用候选段落中各句子的第一句子向量和第二句子向量并结 合其所属段落的段落向量表示筛选出候选句子,具体包括以下步骤:
S41,将同一句子的第一句子向量
Figure BDA0002545515890000205
和第二句子向量
Figure BDA0002545515890000206
进行拼接, 拼接成向量VSi',
Figure BDA0002545515890000207
将向量VSi'经过全连接层映射成句拼接向 量,
重复该步骤依次得到同一候选段落中各句子的句拼接向量;
S42,将同一候选段落中各句子的句拼接向量和其所属段落的段落 向量表示拼合成向量序列并将该向量序列输入多头感知机模型,得到 结构为[CLS],VS1,VS2,…,VSi,[SEP],VPh,[SEP],VC,[SEP],Vq的向量组,其中,VSi为目标文档中第h个段落的第i个句子的句子向量表示,VPh为目标 文档中第h个段落的段落向量表示。
S43,计算同一候选段落中各句子包含答案的第一概率。
句子包含答案的第一概率的计算公式为:Pspost=softmax(VsiWs+bs), 其中,VSi为目标文档中第h个段落的第i个句子的句子向量表示,
Figure BDA0002545515890000211
Ws为第二权重矩阵,
Figure BDA0002545515890000212
bs为第二偏置,
Figure BDA0002545515890000213
S44,重复步骤S41-S43,依次计算出所有候选段落中各句子包含 答案的第一概率,然后按照句子包含答案的第一概率值的大小,从候 选段落的所有句子中筛选出候选句子。
S5,利用候选句子中各个字的第一字向量和第二字向量并结合其 所属段落的段落向量表示预测出问题的答案,具体包括以下步骤:
S51,将同一字的第一字向量和第二字向量进行拼接,并经过全连 接层映射成字拼接向量,
重复该步骤依次得到每个候选句子中各个字的字拼接向量。
S52,根据同一段落内的所有候选句子中各个字的字拼接向量和其 所属段落的段落向量表示、所属文档的文档向量表示以及问题的向量 表示获取该段落中各个候选句子的句子信息向量。
具体实施步骤为:将同一段落内的所有候选句子中各个字的字拼 接向量与其所属段落的段落向量表示、所属文档的文档向量表示以及 问题的向量表示进行拼合,拼合时使用1024的滑窗长度对段落中的 字进行滑窗,句子与句子之间使用[SEP]分隔,从而拼合成向量序列并 将该向量序列输入多头感知机模型,多头感知机模型输出结构为 [CLS],VW1,VW2,…,[SEP],VW5,VW6,…,VWn,[SEP],VQW1,VQW2,…,VQWl[SEP],VPh,[SEP],VC的向量组;
将多头感知机模型输出的向量组中[CLS]、[SEP]位置处的代表句子 信息的向量取出作为该段落中各个候选句子的句子信息向量。
重复本步骤获取每个候选句子的句子信息向量。
S53,根据每个候选句子的句子信息向量分别计算各候选句子包含 答案的第二概率、各候选句子中每个字的位置是答案开头的概率、各 候选句子中每个字的位置是答案结尾的概率。
第二概率用于对筛选出的候选句子包含答案的概率进行再次评 估。
候选句子包含答案的第二概率的计算公式为:
Ppost=softmax(α1Wpost+bpost),其中α1为某个候选句子的句子信息向量;
Figure BDA0002545515890000231
Wpost为第三权重矩阵,
Figure BDA0002545515890000232
bpost为第三偏置,
Figure BDA0002545515890000233
将α依次替换为各个候选句子的句子信息向量,即可分别求出各 候选句子包含答案的第二概率。
候选句子中某个字的位置是否是答案开头的概率的计算公式为: Ps=softmax(α2WS+bS),其中α2为候选句子中所有字的字向量构成的向 量组,WS为第一权重向量,
Figure BDA0002545515890000234
bS为第四偏置,
Figure BDA0002545515890000235
候选句子中某个字的位置是否是答案结尾的概率的计算公式为: Pe=softmax(α2We+be),其中α2为候选句子中所有字的字向量构成的向 量组,We为第一权重向量,
Figure BDA0002545515890000236
be为第五偏置,
Figure BDA0002545515890000237
假设经过上述S1、S2、S3、S4四个步骤共筛选出5个句子,分别 为句子a、句子b、句子c,每个句子中均包含有5个字,其中句子a 和句子b同属于段落A,句子c同属于段落B。
按照步骤S51和S52,根据段落A中句子a和句子b中各个字的 字拼接向量与段落A的段落向量表示、所属文档的文档向量表示以及
然后,分别计算句子a、句子b和句子c包含答案的第二概率、 以及这三个句子中每个字的位置是答案开头的概率、各候选句子中每 个字的位置是答案结尾的概率。
然后,依次计算句子a包含答案的第二概率与其第一个字作为开 头的概率Ps和第二个字作为结尾的概率Pe的乘积、句子a包含答案的 第二概率与其第一个字作为开头的概率Ps和第三个字作为结尾的概 率Pe的乘积、句子a包含答案的第二概率与其第二个字作为开头的概 率Ps和第四个字作为结尾的概率Pe的乘积…等,句子b和句子c也依 次做此计算,将计算得到的所有概率值从大到小进行排序,抽取排名 前5的疑似答案并按照这5个答案在原文中出现的顺序进行拼合,从 而得到针对于问题的答案。
S54,依次将候选句子包含答案的第二概率与该句子内某一个字作 为开头的概率和该句子内另一个字作为结尾的概率进行乘积得到所 有疑似答案的概率,然后按照疑似答案的概率值大小,抽取出前K个 疑似答案并按照出现在目标文档中的顺序进行拼合,得到针对于问题 的答案。
下面通过举例具体说明本发明的基于机器阅读理解的问答方法。
以某文档为例,文档内容如下所示:
不久前某国国防部在其网站上开辟了一个专栏,通过大量图片全 景式地介绍其在某岛上的“XX”军事基地,这是某军首次公开介绍其 在某地的军事基地。某地战略位置险要,在此部署军事基地威慑意味 不言而喻。
近年来,某国面临以X国为首的西方从东欧、中东、东北亚三个 方向施加的战略挤压。为打破这种局面,某国充分发挥其作为某地国 家的优势,利用长久以来经略某地积累下的军事、技术经验,进一步 加大对某地的投入和开发,在三面被围的情况下选择转身一击,化解 军事、政治、经济上面临的潜在危机。这形似“XX”的小小基地,暗 藏着某国布局北极、寻机突围、谋求复兴的大国雄心。
一,打破西方围堵,挥师北上.严峻的形势迫使某国必须寻找战 略突破口,位置特殊的某地就成为了一个重要方向。
二,开发某地航线,连接东西.全球变暖使某地冰雪逐步融化, 这让大西洋和太平洋间可能出现以某地地区为中转地的新航线。对某 国来说,海冰趋于减少、通航环境持续改善的某地航线为其提供了新 的出海口,并使其东西部在海上连通成为可能。某地航线是联系XX 两地最短的海上路线,是连接太平洋和大西洋之间的海上捷径,西起 摩尔曼斯克,依次经巴伦支海、喀拉海、拉普捷夫海、东西伯利亚海、 楚科奇海、白令海到海参崴。
三,助力经济发展,获取资源.某地自然资源丰富,据某国自然 资源和环境部估算,某国某地大陆架的能源储备量相当于830亿吨石 油,其液态烃的资源储量占某国全储量的5%以上,石油储量占某国 全储量的12.5%。能源收入在某国财政收入中所占比重极大,而由于 连年开采,某国境内传统的油田、气田或多或少都面临着减产的困境。 西方世界尤其是欧洲国家对某国进行的经济制裁使某国对能源经济 的依赖性更强,某地丰富的能源储备给某国提供了新的经济增长点, 近年来愈发受到某国的重视。某国石油公司宣布建立某地大陆架勘探 和科学研究中心,某国政府也宣布在某地建设大型港口,某国政府主席团审议的“XXXX年前大陆架石油和天然气开发计划”内包括在某 地地区油气资源的勘探和开发,标志着某国某地资源开发进入加速实 施阶段。
问题设定为“某国为什么要公开某地军事基地?”。
在执行发明的基于机器阅读理解的问答方法时,首先,根据本方 法设定的切分规则对上述文档进行切分。
例如将段落“三,助力经济发展,获取资源.某地自然资源丰富, 据某国自然资源和环境部估算,某国某地大陆架的能源储备量相当于 830亿吨石油,其液态烃的资源储量占某国全储量的5%以上,石油储 量占某国全储量的12.5%。能源收入在某国财政收入中所占比重极大, 而由于连年开采,某国境内传统的油田、气田或多或少都面临着减产 的困境。西方世界尤其是欧洲国家对某国进行的经济制裁使某国对能 源经济的依赖性更强,北极丰富的能源储备给某国提供了新的经济增 长点,近年来愈发受到某政府的重视。某国石油公司宣布建立某地大 陆架勘探和科学研究中心,某国政府也宣布在某地建设大型港口,某 国政府主席团审议的“XXXX年前大陆架石油和天然气开发计划”内 包括在某地地区油气资源的勘探和开发,标志着某国某地资源开发进 入加速实施阶段。”切分为如下句子:
1、三,助力经济发展,获取资源。
2、某地自然资源丰富,据某国自然资源和环境部估算,某国某地 大陆架的能源储备量相当于830亿吨石油,其液态烃的资源储量占某 国全储量的5%以上,石油储量占某国全储量的12.5%。
3、能源收入在某国财政收入中所占比重极大,而由于连年开采, 某国境内传统的油田、气田或多或少都面临着减产的困境。
4、西方世界尤其是欧洲国家对某国进行的经济制裁使某国对能源 经济的依赖性更强,北极丰富的能源储备给某国提供了新的经济增长 点,近年来愈发受到某政府的重视。
5、某国石油公司宣布建立某地大陆架勘探和科学研究中心,某国 政府也宣布在某地建设大型港口,某国政府主席团审议的“XXXX年 前大陆架石油和天然气开发计划”内包括在某地地区油气资源的勘探 和开发,标志着某国某地资源开发进入加速实施阶段。
将这5个句子记录成来自文档的第五段。文档其他段落依次进行 上述分割。
然后,分别通过第一问题交互方法和第二问题交互方法依次获取 各段落的第一段落向量组和第二段落向量组、每个段落中各句子的第 一句子向量和第二句子向量、每个句子中各个字的第一字向量和第二 字向量。
以文档第五段为例:
利用第一问题交互方法,将文档第五段的五个句子依次组织成以 下第一句子向量:
【CLS】助力经济发展,获取资源;
【CLS】某地自然资源丰富,据某国自然资源和环境部估算,某国 某地大陆架的能源储备量相当于830亿吨石油,其液态烃的资源储量 占某国全储量的5%以上,石油储量占某国全储量的12.5%;
【CLS】能源收入在某国财政收入中所占比重极大,而由于连年开 采,某国境内传统的油田、气田或多或少都面临着减产的困境;
【CLS】西方世界尤其是欧洲国家对某国进行的经济制裁使某国对 能源经济的依赖性更强,北极丰富的能源储备给某国提供了新的经济 增长点,近年来愈发受到某政府的重视;
【CLS】某国石油公司宣布建立某地大陆架勘探和科学研究中心, 某国政府也宣布在某地建设大型港口,某国政府主席团审议的“XXXX 年前大陆架石油和天然气开发计划”内包括在某地地区油气资源的勘 探和开发,标志着某国某地资源开发进入加速实施阶段。
将问题组织成向量:【CLS】某国为什么要公开某地军事基地。
将上述五个句子的向量与问题的向量组成向量组并输入多头感知 机模型,多头感知机模型输出的向量组中[CLS]位置处的向量作为该 段落的第一段落向量组
Figure RE-GDA0002653414040000281
利用第一问题交互方法,将文档第五段的五个句子分别与问题进 行交互,得到各个句子的第二句子向量,如下所示:
【CLS】助力经济发展,获取资源【SEP】某国为什么要公开某地 军事基地;
【CLS】某地自然资源丰富,据某国自然资源和环境部估算,某国 某地大陆架的能源储备量相当于830亿吨石油,其液态烃的资源储量 占某国全储量的5%以上,石油储量占某国全储量的12.5%【SEP】某 国为什么要公开某地军事基地;
【CLS】能源收入在某国财政收入中所占比重极大,而由于连年开 采,某国境内传统的油田、气田或多或少都面临着减产的困境【SEP】 某国为什么要公开某地军事基地;
【CLS】西方世界尤其是欧洲国家对某国进行的经济制裁使某国对 能源经济的依赖性更强,北极丰富的能源储备给某国提供了新的经济 增长点,近年来愈发受到某政府的重视【SEP】某国为什么要公开某 地军事基地;
【CLS】某国石油公司宣布建立某地大陆架勘探和科学研究中心, 某国政府也宣布在某地建设大型港口,某国政府主席团审议的“XXXX 年前大陆架石油和天然气开发计划”内包括在某地地区油气资源的勘 探和开发,标志着某国某地资源开发进入加速实施阶段【SEP】某国 为什么要公开某地事基地。
将上述五个句子的第二句子向量组成向量组并输入多头感知机模 型,将多头感知机模型输出的向量组中[CLS]位置处的向量作为该段 落的第二段落向量组
Figure BDA0002545515890000301
文档其他段落也如上述步骤依次得到其第一段落向量组
Figure BDA0002545515890000311
和第二 段落向量组
Figure BDA0002545515890000312
然后,利用各段落的第一段落向量组和第二段落向量组得到其段 落向量表示,从而筛选出候选段落,假设筛选出第三段、第四段和第 五段,将这三端作为候选段落。
然后,利用第三段、第四段和第五段中各句子的第一句子向量和 第二句子向量并结合其所属段落的段落向量表示,得到每个句子包含 答案的概率,然后按照概率值的大小,筛选出概率最高的前20个句 子作为候选句子。
最后,利用这20个候选句子中各个字的第一字向量和第二字向量 并结合其所属段落的段落向量表示预测出问题的答案。
本发明的基于机器阅读理解的问答系统,包括文档切分模块、段 落筛选模块、句子筛选模块和答案预测模块。
文档切分模块,用于对目标文档进行切分。
段落筛选模块,用于利用第一问题交互方法和第二问题交互方法 分别获取切分后的目标文档中的各段落的第一段落向量组和第二段 落向量组、每个段落中各句子的第一句子向量和第二句子向量、每个 句子中各个字的第一字向量和第二字向量,并根据得到的各段落的第 一段落向量组和第二段落向量组得到其各自的段落向量表示,从而筛 选出候选段落。
句子筛选模块,用于利用候选段落中各句子的第一句子向量和第 二句子向量并结合其所属段落的段落向量表示筛选出候选句子。
答案预测模块,用于利用候选句子中各个字的第一字向量和第 二字向量并结合其所属段落的段落向量表示预测出问题的答案。
一种存储介质,其存储有计算机指令,该指令被处理器执行时实 现所述的基于机器阅读理解的问答方法的步骤。
一种计算机设备,包括处理器以及用于存储处理器可执行程序 的存储器,其特征在于,所述处理器执行存储器存储的程序时, 实现所述的基于机器阅读理解的问答方法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明, 凡在本发明的精神和原则之内,所做的任何修改、等同替换、改 进等,均应包含在本发明保护的范围之内。

Claims (20)

1.一种基于机器阅读理解的问答方法,其特征在于,具体包括以下步骤:
S1,切分目标文档;
S2,利用第一问题交互方法获取切分后的目标文档中的各段落的第一段落向量组、每个段落中各句子的第一句子向量、每个句子中各个字的第一字向量;
利用第二问题交互方法获取各段落的第二段落向量组、每个段落中各句子的第二句子向量、每个句子中各个字的第二字向量;
S3,利用各段落的第一段落向量组和第二段落向量组得到其各自的段落向量表示,从而筛选出候选段落;
S4,利用候选段落中各句子的第一句子向量和第二句子向量并结合其所属段落的段落向量表示筛选出候选句子;
S5,利用候选句子中各个字的第一字向量和第二字向量并结合其所属段落的段落向量表示预测出问题的答案。
2.根据权利要求1所述的基于机器阅读理解的问答方法,其特征在于,所述步骤S1中切分目标文档的具体步骤为:
判断目标文档内段落个数是否超过设定值,若超过,则将目标文档切分为多个子文档;
判断各子文档中的每个段落中的句子个数,将句子个数超过设定值的超长段落切分为多个子段落;
判断各段落中的每个句子的句子长度,将句子长度超过设定值的超长句子切分为多个子句子。
3.根据权利要求2所述的基于机器阅读理解的问答方法,其特征在于,将目标文档切分为多个子文档时,以段为单位,将目标文档滑窗切分为多个独立的子文档;
将句子个数超过设定值的超长段落切分为多个子段落时,以句为单位,将超长段落滑窗切分为多个独立的子段落;
将句子长度超过设定值的超长句子切分为多个子句子时,以字符为单位,将超长句子滑窗切分为多个独立的子句子。
4.根据权利要求1所述的基于机器阅读理解的问答方法,其特征在于,所述步骤S2中利用第一问题交互方法获取切分后的目标文档中的各段落的第一段落向量组、每个段落中各句子的第一句子向量、每个句子中各个字的第一字向量的具体步骤为:
S21,利用bert模型分别获取切分后的目标文档中的每个句子的第一句子向量、问题的向量表示;
S22,根据同一段落内所有句子的第一句子向量与问题的向量表示,通过多头感知机模型得到该段落的第一段落向量组。
5.根据权利要求4所述的基于机器阅读理解的问答方法,其特征在于,所述步骤S21中利用bert模型分别获取切分后的目标文档中的每个句子的第一句子向量、问题的向量表示的步骤为:
将切分后的目标文档中的每个句子分别组织成结构为[CLS],
Figure FDA0002545515880000031
的向量组并输入bert模型得到其各自的语义向量表示,将各句子的语义向量表示中[CLS]位置处的向量作为其各自的第一句子向量,其中[CLS]为标志位,
Figure FDA0002545515880000032
为某个句子中第n个字的第一字向量;
将问题组织成结构为[CLS],
Figure FDA0002545515880000033
的向量组并输入bert模型得到其语义向量表示,将问题的语义向量表示中[CLS]位置处的向量作为问题的向量表示,其中
Figure FDA0002545515880000034
为问题中第m个字的向量。
6.根据权利要求5所述的基于机器阅读理解的问答方法,其特征在于,步骤S22中根据同一段落内所有句子的第一句子向量与问题的向量表示,通过多头感知机模型得到该段落的第一段落向量组的具体步骤为:
将同一段落内所有句子的第一句子向量与问题的向量表示组织成结构为[CLS],
Figure FDA0002545515880000041
[SEP],VQ的第一语义向量组并将第一语义向量组输入多头感知机模型,将多头感知机模型输出的向量组中[CLS]位置处的向量作为该段落的第一段落向量组
Figure FDA0002545515880000042
其中,
Figure FDA0002545515880000043
为某一段落中第i个句子的第一句子向量,VQ为问题的向量表示。
7.根据权利要求6所述的基于机器阅读理解的问答方法,其特征在于,步骤S2中利用第二问题交互方法获取各段落的第二段落向量组、每个段落中各句子的第二句子向量、每个句子中各个字的第二字向量的具体步骤为:
S23,利用bert模型分别获取切分后的目标文档中的每个句子的第二句子向量;
S24,根据同一段落内所有句子的第二句子向量,通过多头感知机模型得到该段落的第二段落向量组。
8.根据权利要求7所述的基于机器阅读理解的问答方法,其特征在于,所述步骤S23中利用bert模型分别获取切分后的目标文档中的每个句子的第二句子向量的具体步骤为:
将切分后的目标文档中的每个句子分别组织成结构为[CLS],
Figure FDA0002545515880000044
[SEP],VWQ1,VWQ2,…,VWQl的向量组并输入bert模型得到其各自的语义向量表示,将各句子的语义向量表示中[CLS]位置处的向量作为其各自的第二句子向量;
其中[CLS]为标志位,
Figure FDA0002545515880000051
为某个句子中第n个字的第二字向量,VWQl为问题中第l个字的向量。
9.根据权利要求8所述的基于机器阅读理解的问答方法,其特征在于,步骤S24中根据同一段落内所有句子的第二句子向量,通过多头感知机模型得到该段落的第二段落向量组的具体步骤为:
将同一段落内所有句子的第二句子向量组织成结构为[CLS],
Figure FDA0002545515880000052
[SEP],VWQ1',VWQ2',…,VWQl'的第二语义向量组并将第二语义向量组输入多头感知机模型,将多头感知机模型输出的向量组中[CLS]位置处的向量作为该段落的第二段落向量组
Figure FDA0002545515880000053
其中,
Figure FDA0002545515880000054
为某一段落中第i个句子的第二句子向量。
10.根据权利要求9所述的基于机器阅读理解的问答方法,其特征在于,步骤S3中利用各段落的第一段落向量组和第二段落向量组得到其段落向量表示,从而筛选出候选段落的具体步骤为:
S31,将同一段落的第一段落向量组和第二段落向量组拼接,并计算得到其中间段落向量;
S32,将目标文档中各段落的中间段落向量组织成向量组并将该向量组输入多头感知机模型,多头感知机模型输出结构为[CLS],VP1,VP2,…,VPh的向量组并将该向量组中[CLS]位置处的向量作为该文档的文档向量表示VC,其中,VPh为目标文档中第h个段落的段落向量表示;
S33,计算出各段落包含答案的概率;
S34,按照段落包含答案的概率值的大小,从目标文档中筛选出候选段落。
11.根据权利要求10所述的基于机器阅读理解的问答方法,其特征在于,所述步骤S31中将同一段落的第一段落向量组和第二段落向量组拼接,并计算得到其中间段落向量的具体步骤为:
将同一段落的第一段落向量组
Figure FDA0002545515880000061
和第二段落向量组
Figure FDA0002545515880000062
拼接成向量组VP”,通过公式VP'=VP”Wp+bp计算某一段落的中间段落向量VP'。
12.根据权利要求10所述的基于机器阅读理解的问答方法,其特征在于,段落包含答案的概率的计算公式为:Pppost=softmax(VPhWp+bp),其中VPh为目标文档中第h个段落的段落向量表示,Wp为第一权重矩阵,bp为第一偏置。
13.根据权利要求10所述的基于机器阅读理解的问答方法,其特征在于,步骤S4中利用候选段落中各句子的第一句子向量和第二句子向量并结合其所属段落的段落向量表示筛选出候选句子的具体步骤为:
S41,将同一句子的第一句子向量和第二句子向量进行拼接,并经过全连接层映射成句拼接向量,
重复该步骤依次得到同一候选段落中各句子的句拼接向量;
S42,将同一候选段落中各句子的句拼接向量和其所属段落的段落向量表示拼合成向量序列并将该向量序列输入多头感知机模型,得到结构为[CLS],VS1,VS2,…,VSi,[SEP],VPh,[SEP],VC,[SEP],Vq的向量组,其中,VSi为目标文档中第h个段落的第i个句子的句子向量表示;
S43,计算同一候选段落中各句子包含答案的第一概率;
S44,重复步骤S41-S43,依次计算出所有候选段落中各句子包含答案的第一概率,然后按照句子包含答案的第一概率值的大小,从候选段落的所有句子中筛选出候选句子。
14.根据权利要求13所述的基于机器阅读理解的问答方法,其特征在于,所述句子包含答案的第一概率的计算公式为:Pspost=softmax(VsiWs+bs),其中,VSi为目标文档中第h个段落的第i个句子的句子向量表示,Ws为第二权重矩阵,bs为第二偏置。
15.根据权利要求14所述的基于机器阅读理解的问答方法,其特征在于,步骤S5中利用候选句子中各个字的第一字向量和第二字向量并结合其所属段落的段落向量表示预测出问题的答案的具体步骤为:
S51,将同一字的第一字向量和第二字向量进行拼接,并经过全连接层映射成字拼接向量,
重复该步骤依次得到每个候选句子中各个字的字拼接向量;
S52,根据同一段落内的所有候选句子中各个字的字拼接向量和其所属段落的段落向量表示、所属文档的文档向量表示以及问题的向量表示获取该段落中各个候选句子的句子信息向量;
重复该步骤获取每个候选句子的句子信息向量
S53,根据每个候选句子的句子信息向量分别计算各候选句子包含答案的第二概率、各候选句子中每个字的位置是答案开头的概率、各候选句子中每个字的位置是答案结尾的概率;
S54,依次将候选句子包含答案的第二概率与该句子内某一个字作为开头的概率和该句子内另一个字作为结尾的概率进行乘积得到所有疑似答案的概率,然后按照疑似答案的概率值大小,抽取出前K个疑似答案并按照出现在目标文档中的顺序进行拼合,得到针对于问题的答案。
16.根据权利要求15所述的基于机器阅读理解的问答方法,其特征在于,所述步骤S52中获取候选句子的句子信息向量的具体步骤为:
将同一段落内的所有候选句子中各个字的字拼接向量与其所属段落的段落向量表示、所属文档的文档向量表示以及问题的向量表示进行拼合,拼合时使用1024的滑窗长度对段落中的字进行滑窗,句子与句子之间使用[SEP]分隔,从而拼合成向量序列并将该向量序列输入多头感知机模型,多头感知机模型输出结构为[CLS],VW1,VW2,…,[SEP],VW5,VW6,…,VWn,[SEP],VQW1,VQW2,…,VQWl[SEP],VPh,[SEP],VC的向量组,
将多头感知机模型输出的向量组中[CLS]、[SEP]位置处的向量取出作为该段落中各个候选句子的句子信息向量。
17.根据权利要求15所述的基于机器阅读理解的问答方法,其特征在于,
候选句子包含答案的第二概率的计算公式为:Ppost=softmax(α1Wpost+bpost),其中α1为某个候选句子的句子信息向量,Wpost为第三权重矩阵,bpost为第三偏置;
候选句子中某个字的位置是否是答案开头的概率的计算公式为:Ps=softmax(α2WS+bS),其中α2为候选句子中所有字的字向量构成的向量组,WS为第一权重向量,bS为第四偏置;
候选句子中某个字的位置是否是答案结尾的概率的计算公式为:Pe=softmax(α2We+be),其中α2为候选句子中所有字的字向量构成的向量组,We为第一权重向量,be为第五偏置。
18.一种存储介质,其存储有计算机指令,该指令被处理器执行时实现权利要求1至17中任一项所述的基于机器阅读理解的问答方法的步骤。
19.一种计算机设备,其特征在于,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现权利要求1至17中任一项所述的基于机器阅读理解的问答方法。
20.一种基于机器阅读理解的问答系统,其特征在于,包括:
文档切分模块,用于对目标文档进行切分;
段落筛选模块,用于利用第一问题交互方法和第二问题交互方法分别获取切分后的目标文档中的各段落的第一段落向量组和第二段落向量组、每个段落中各句子的第一句子向量和第二句子向量、每个句子中各个字的第一字向量和第二字向量,并根据得到的各段落的第一段落向量组和第二段落向量组得到其各自的段落向量表示,从而筛选出候选段落;
句子筛选模块,用于利用候选段落中各句子的第一句子向量和第二句子向量并结合其所属段落的段落向量表示筛选出候选句子;
答案预测模块,用于利用候选句子中各个字的第一字向量和第二字向量并结合其所属段落的段落向量表示预测出问题的答案。
CN202010558824.6A 2020-06-18 2020-06-18 一种基于机器阅读理解的问答方法及系统、存储介质、计算机设备 Active CN111858879B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010558824.6A CN111858879B (zh) 2020-06-18 2020-06-18 一种基于机器阅读理解的问答方法及系统、存储介质、计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010558824.6A CN111858879B (zh) 2020-06-18 2020-06-18 一种基于机器阅读理解的问答方法及系统、存储介质、计算机设备

Publications (2)

Publication Number Publication Date
CN111858879A true CN111858879A (zh) 2020-10-30
CN111858879B CN111858879B (zh) 2024-04-05

Family

ID=72987508

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010558824.6A Active CN111858879B (zh) 2020-06-18 2020-06-18 一种基于机器阅读理解的问答方法及系统、存储介质、计算机设备

Country Status (1)

Country Link
CN (1) CN111858879B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779360A (zh) * 2021-08-18 2021-12-10 深圳技术大学 基于多头问答模型的解题方法、装置、设备及存储介质
CN114328883A (zh) * 2022-03-08 2022-04-12 恒生电子股份有限公司 一种机器阅读理解的数据处理方法、装置、设备及介质

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060078862A1 (en) * 2004-09-27 2006-04-13 Kabushiki Kaisha Toshiba Answer support system, answer support apparatus, and answer support program
JP2018124914A (ja) * 2017-02-03 2018-08-09 日本電信電話株式会社 パッセージ型質問応答装置、方法、及びプログラム
CN108960319A (zh) * 2018-06-29 2018-12-07 哈尔滨工业大学 一种面向全局的机器阅读理解建模中的候选答案筛选方法
CN109947912A (zh) * 2019-01-25 2019-06-28 四川大学 一种基于段落内部推理和联合问题答案匹配的模型方法
CN110083682A (zh) * 2019-04-19 2019-08-02 西安交通大学 一种基于多轮注意力机制的机器阅读理解答案获取方法
CN110096698A (zh) * 2019-03-20 2019-08-06 中国地质大学(武汉) 一种考虑主题的机器阅读理解模型生成方法与系统
CN110188362A (zh) * 2019-06-10 2019-08-30 北京百度网讯科技有限公司 文本处理方法及装置
KR20190101567A (ko) * 2018-02-23 2019-09-02 주식회사 마인즈랩 기계 독해에 기초한 질의 응답 장치 및 이를 이용한 질의 응답 방법
CN110222152A (zh) * 2019-05-29 2019-09-10 北京邮电大学 一种基于机器阅读理解的问题答案获取方法及系统
US10459962B1 (en) * 2018-09-19 2019-10-29 Servicenow, Inc. Selectively generating word vector and paragraph vector representations of fields for machine learning
CN110516059A (zh) * 2019-08-30 2019-11-29 腾讯科技(深圳)有限公司 基于机器学习的问题答复方法、问答模型训练方法及装置
CN110597947A (zh) * 2019-03-20 2019-12-20 桂林电子科技大学 一种基于全局和局部注意力交互的阅读理解系统及方法
CN110609886A (zh) * 2019-09-18 2019-12-24 北京金山数字娱乐科技有限公司 一种文本分析方法及装置
CN110647629A (zh) * 2019-09-20 2020-01-03 北京理工大学 一种多粒度答案排序的多文档机器阅读理解方法
CN110688491A (zh) * 2019-09-25 2020-01-14 暨南大学 基于深度学习的机器阅读理解方法、系统、设备及介质
KR20200014046A (ko) * 2018-07-31 2020-02-10 주식회사 포티투마루 기계독해기반 질의응답방법 및 기기
CN111027327A (zh) * 2019-10-29 2020-04-17 平安科技(深圳)有限公司 机器阅读理解方法、设备、存储介质及装置
CN111046152A (zh) * 2019-10-12 2020-04-21 平安科技(深圳)有限公司 Faq问答对自动构建方法、装置、计算机设备及存储介质
CN111190997A (zh) * 2018-10-26 2020-05-22 南京大学 一种使用神经网络和机器学习排序算法的问答系统实现方法
US20200184016A1 (en) * 2018-12-10 2020-06-11 Government Of The United States As Represetned By The Secretary Of The Air Force Segment vectors

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060078862A1 (en) * 2004-09-27 2006-04-13 Kabushiki Kaisha Toshiba Answer support system, answer support apparatus, and answer support program
JP2018124914A (ja) * 2017-02-03 2018-08-09 日本電信電話株式会社 パッセージ型質問応答装置、方法、及びプログラム
KR20190101567A (ko) * 2018-02-23 2019-09-02 주식회사 마인즈랩 기계 독해에 기초한 질의 응답 장치 및 이를 이용한 질의 응답 방법
CN108960319A (zh) * 2018-06-29 2018-12-07 哈尔滨工业大学 一种面向全局的机器阅读理解建模中的候选答案筛选方法
KR20200014046A (ko) * 2018-07-31 2020-02-10 주식회사 포티투마루 기계독해기반 질의응답방법 및 기기
US10459962B1 (en) * 2018-09-19 2019-10-29 Servicenow, Inc. Selectively generating word vector and paragraph vector representations of fields for machine learning
CN111190997A (zh) * 2018-10-26 2020-05-22 南京大学 一种使用神经网络和机器学习排序算法的问答系统实现方法
US20200184016A1 (en) * 2018-12-10 2020-06-11 Government Of The United States As Represetned By The Secretary Of The Air Force Segment vectors
CN109947912A (zh) * 2019-01-25 2019-06-28 四川大学 一种基于段落内部推理和联合问题答案匹配的模型方法
CN110096698A (zh) * 2019-03-20 2019-08-06 中国地质大学(武汉) 一种考虑主题的机器阅读理解模型生成方法与系统
CN110597947A (zh) * 2019-03-20 2019-12-20 桂林电子科技大学 一种基于全局和局部注意力交互的阅读理解系统及方法
CN110083682A (zh) * 2019-04-19 2019-08-02 西安交通大学 一种基于多轮注意力机制的机器阅读理解答案获取方法
CN110222152A (zh) * 2019-05-29 2019-09-10 北京邮电大学 一种基于机器阅读理解的问题答案获取方法及系统
CN110188362A (zh) * 2019-06-10 2019-08-30 北京百度网讯科技有限公司 文本处理方法及装置
CN110516059A (zh) * 2019-08-30 2019-11-29 腾讯科技(深圳)有限公司 基于机器学习的问题答复方法、问答模型训练方法及装置
CN110609886A (zh) * 2019-09-18 2019-12-24 北京金山数字娱乐科技有限公司 一种文本分析方法及装置
CN110647629A (zh) * 2019-09-20 2020-01-03 北京理工大学 一种多粒度答案排序的多文档机器阅读理解方法
CN110688491A (zh) * 2019-09-25 2020-01-14 暨南大学 基于深度学习的机器阅读理解方法、系统、设备及介质
CN111046152A (zh) * 2019-10-12 2020-04-21 平安科技(深圳)有限公司 Faq问答对自动构建方法、装置、计算机设备及存储介质
CN111027327A (zh) * 2019-10-29 2020-04-17 平安科技(深圳)有限公司 机器阅读理解方法、设备、存储介质及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LINLONG XIAO 等: "A Reading Comprehension Style Question Answering Model Based On Attention Mechanism", 《2018 IEEE 29TH INTERNATIONAL CONFERENCE ON APPLICATION-SPECIFIC SYSTEMS, ARCHITECTURES AND PROCESSORS (ASAP)》, pages 1 - 4 *
何启涛: "基于多粒度和注意力机制的机器阅读理解", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 02, pages 138 - 2462 *
毛存礼 等: "领域问答系统答案提取方法研究", 《烟台大学学报(自然科学与工程版)》, vol. 22, no. 03, pages 212 - 216 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779360A (zh) * 2021-08-18 2021-12-10 深圳技术大学 基于多头问答模型的解题方法、装置、设备及存储介质
CN114328883A (zh) * 2022-03-08 2022-04-12 恒生电子股份有限公司 一种机器阅读理解的数据处理方法、装置、设备及介质
CN114328883B (zh) * 2022-03-08 2022-06-28 恒生电子股份有限公司 一种机器阅读理解的数据处理方法、装置、设备及介质

Also Published As

Publication number Publication date
CN111858879B (zh) 2024-04-05

Similar Documents

Publication Publication Date Title
CN110276316A (zh) 一种基于深度学习的人体关键点检测方法
Guan The maritime silk road: history of an idea
CN111858879A (zh) 一种基于机器阅读理解的问答方法及系统、存储介质、计算机设备
CN114419449B (zh) 一种自注意力多尺度特征融合的遥感图像语义分割方法
CN110928961B (zh) 一种多模态实体链接方法、设备及计算机可读存储介质
CN112598675A (zh) 基于改进全卷积神经网络的室内场景语义分割方法
CN110580458A (zh) 结合多尺度残差式cnn和sru的乐谱图像识别方法
CN116580241B (zh) 基于双分支多尺度语义分割网络的图像处理方法及系统
Feng et al. Embranchment cnn based local climate zone classification using sar and multispectral remote sensing data
CN108831442A (zh) 兴趣点识别方法、装置、终端设备及存储介质
CN116721112A (zh) 基于双分支解码器网络的水下伪装物体图像分割方法
Yang et al. Knowledge distillation using hierarchical self-supervision augmented distribution
CN117011883A (zh) 一种基于金字塔卷积和Transformer双分支的行人重识别方法
Nadarajah Future past I am a coolie-al… and I reside as an invisible island inside the ocean: Tidalectics, transoceanic crossings, coolitude and a Tamil identity
Kangasluoma Drilling for the future: Gendered justifications of the Arctic fossil fuel industry
CN111582101B (zh) 一种基于轻量化蒸馏网络的遥感图像目标检测方法及系统
CN116561272A (zh) 开放域视觉语言问答方法、装置、电子设备及存储介质
CN114064898A (zh) 一种基于文本分类和匹配融合模型的意图识别方法及装置
CN113268607A (zh) 知识图谱的构建方法和装置
CN117216231B (zh) 基于鹦鹉复述生成器的抽取式问答数据增强方法
Yan et al. Building instance change detection from high spatial resolution remote sensing images using improved instance segmentation architecture
Lee et al. Damage detection and safety diagnosis for immovable cultural assets using deep learning framework
Jing et al. Cognition-based semantic annotation for web images
CN114387623B (zh) 一种基于多粒度块特征的无监督行人重识别方法
Deng et al. Lightweight Underwater Garbage Detection Algorithm Based on YOLOX-S

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Country or region after: Zhong Guo

Address after: 201203 rooms 301, 303 and 304, block B, 112 liangxiu Road, Pudong New Area, Shanghai

Applicant after: Daguan Data Co.,Ltd.

Address before: 201203 rooms 301, 303 and 304, block B, 112 liangxiu Road, Pudong New Area, Shanghai

Applicant before: DATAGRAND INFORMATION TECHNOLOGY (SHANGHAI) Co.,Ltd.

Country or region before: Zhong Guo

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant