CN115203388A - 机器阅读理解方法、装置、计算机设备和存储介质 - Google Patents

机器阅读理解方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN115203388A
CN115203388A CN202210674499.9A CN202210674499A CN115203388A CN 115203388 A CN115203388 A CN 115203388A CN 202210674499 A CN202210674499 A CN 202210674499A CN 115203388 A CN115203388 A CN 115203388A
Authority
CN
China
Prior art keywords
answer
target
word
word sequence
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210674499.9A
Other languages
English (en)
Inventor
刘艾婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210674499.9A priority Critical patent/CN115203388A/zh
Publication of CN115203388A publication Critical patent/CN115203388A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种机器阅读理解方法、装置、计算机设备、存储介质和计算机程序产品。所述首先获取包含目标问题和目标篇章的文本数据,而后将文本数据进行词序列化以及特征提取处理后,得到用于概率预测的词序列特征向量,基于词序列特征数据进行目标问题对应的答案识别,即可得到目标篇章中每个词所对应的答案起始位置概率以及答案终止位置概率,而后进行一次验证,确定目标篇章内是否存在目标问题相匹配的答案,只有在存在该答案的情况下,本申请的方法才会基于答案起始位置概率以及答案终止位置概率确定目标篇章中的目标答案,从而可以有效提高机器阅读理解过程的准确性。

Description

机器阅读理解方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种机器阅读理解方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术与人工技能技术的发展,出现了机器阅读理解(MRC,MachineReading Comprehension)技术,它要求机器阅读并理解人类自然语言文本,在此基础上,解答跟文本相关的问题。衡量机器理解自然语言的能力,帮助人类从大量文本中快速聚焦相关信息,降低人工信息获取成本。在文本问答、信息抽取、对话系统等领域具有极强的应用价值,是自然语言处理领域的研究热点之一。而片段抽取式阅读理解是机器阅读理解任务的一个重要分支。片段抽取式阅读理解任务要求从篇章中抽取一个片段作为问题的答案,可能是一个词、一个词组,也可能是一个句子。
目前,针对片段抽取式的机器阅读理解问题,一般基于端到端的深度学习模型来解决,然而这类模型答案抽取的成功率较低,无法保证机器阅读理解的准确性。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高片段抽取式机器阅读理解准确性的机器阅读理解方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种机器阅读理解方法。所述方法包括:
获取包含目标问题和目标篇章的文本数据,所述目标问题与所述目标篇章相匹配;
对所述文本数据进行词序列化和特征提取处理,得到词序列特征向量;
基于所述词序列特征向量对所述目标问题进行答案识别,得到所述目标篇章中每个词所对应的答案起始位置概率以及答案终止位置概率;
当所述答案起始位置概率以及所述答案终止位置概率表征所述目标篇章中存在与所述目标问题相匹配的答案时,基于所述答案起始位置概率以及所述答案终止位置概率确定所述目标篇章中的目标答案。
第二方面,本申请还提供了一种机器阅读理解装置。所述装置包括:
文本数据获取模块,用于获取包含目标问题和目标篇章的文本数据,所述目标问题与所述目标篇章相匹配;
特征提取模块,用于对所述文本数据进行词序列化和特征提取处理,得到词序列特征向量;
答案识别模块,用于基于所述词序列特征向量对所述目标问题进行答案识别,得到所述目标篇章中每个词所对应的答案起始位置概率以及答案终止位置概率;
答案提取模块,用于当所述答案起始位置概率以及所述答案终止位置概率表征所述目标篇章中存在与所述目标问题相匹配的答案时,基于所述答案起始位置概率以及所述答案终止位置概率确定所述目标篇章中的目标答案。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取包含目标问题和目标篇章的文本数据,所述目标问题与所述目标篇章相匹配;
对所述文本数据进行词序列化和特征提取处理,得到词序列特征向量;
基于所述词序列特征向量对所述目标问题进行答案识别,得到所述目标篇章中每个词所对应的答案起始位置概率以及答案终止位置概率;
当所述答案起始位置概率以及所述答案终止位置概率表征所述目标篇章中存在与所述目标问题相匹配的答案时,基于所述答案起始位置概率以及所述答案终止位置概率确定所述目标篇章中的目标答案。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取包含目标问题和目标篇章的文本数据,所述目标问题与所述目标篇章相匹配;
对所述文本数据进行词序列化和特征提取处理,得到词序列特征向量;
基于所述词序列特征向量对所述目标问题进行答案识别,得到所述目标篇章中每个词所对应的答案起始位置概率以及答案终止位置概率;
当所述答案起始位置概率以及所述答案终止位置概率表征所述目标篇章中存在与所述目标问题相匹配的答案时,基于所述答案起始位置概率以及所述答案终止位置概率确定所述目标篇章中的目标答案。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取包含目标问题和目标篇章的文本数据,所述目标问题与所述目标篇章相匹配;
对所述文本数据进行词序列化和特征提取处理,得到词序列特征向量;
基于所述词序列特征向量对所述目标问题进行答案识别,得到所述目标篇章中每个词所对应的答案起始位置概率以及答案终止位置概率;
当所述答案起始位置概率以及所述答案终止位置概率表征所述目标篇章中存在与所述目标问题相匹配的答案时,基于所述答案起始位置概率以及所述答案终止位置概率确定所述目标篇章中的目标答案。
上述机器阅读理解方法、装置、计算机设备、存储介质和计算机程序产品,首先获取包含目标问题和目标篇章的文本数据,其中目标问题是机器阅读理解需要解答的问题,而目标篇章内则可能包含有目标问题对应的答案,而后将文本数据进行词序列化以及特征提取处理后,得到用于概率预测的词序列特征向量,基于词序列特征数据进行目标问题对应的答案识别,即可得到目标篇章中每个词所对应的答案起始位置概率以及答案终止位置概率,而后可以基于获得的答案起始位置概率以及答案终止位置概率进行一次验证,确定目标篇章内是否存在目标问题相匹配的答案,只有在存在该答案的情况下,本申请的方法才会基于答案起始位置概率以及答案终止位置概率确定目标篇章中的目标答案,从而可以有效提高机器阅读理解过程的准确性。
附图说明
图1为一个实施例中机器阅读理解方法的应用环境图;
图2为一个实施例中机器阅读理解方法的流程示意图;
图3为一个实施例中转换器的双向编码器表示模型嵌入层的结构示意图;
图4为一个实施例中句法依存树的结构示意图;
图5为一个实施例中句法依存矩阵的结构示意图;
图6为一个实施例中输入问题后的搜索引擎界面的示意图;
图7为一个实施例中得到搜索结果后的搜索引擎界面的示意图;
图8为一个实施例中转换器的双向编码器表示模型的结构示意图;
图9为一个实施例中机器阅读理解装置的结构框图;
图10为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请涉及人工智能技术,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
而本申请主要涉及到人工智能技术中的自然语言处理(Nature Languageprocessing,NLP)技术和机器学习(Machine Learning,ML)技术,自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。而机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
在本文中,需要理解的是,所涉及的术语:
机器阅读理解:阅读理解问答,要求机器阅读并理解人类自然语言文本,在此基础上,解答跟文本相关的问题。衡量机器理解自然语言的能力,帮助人类从大量文本中快速聚焦相关信息,降低人工信息获取成本。在文本问答、信息抽取、对话系统等领域具有极强的应用价值,是自然语言处理领域的研究热点之一。
片段抽取式阅读理解:片段抽取式阅读理解是机器阅读理解任务的一个重要分支。片段抽取式阅读理解任务要求从篇章中抽取一个片段作为问题的答案,可能是一个词、一个词组,也可能是一个句子。
本申请实施例提供的机器阅读理解方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他服务器上。当用户需要进行机器阅读理解,从而指定的目标篇章中识别出目标问题的答案时,可以将包含目标问题和目标篇章的文本数据输入至服务器104,服务器104则获取包含目标问题和目标篇章的文本数据;对文本数据进行词序列化和特征提取处理,得到词序列特征向量;基于词序列特征向量对目标问题进行答案识别,得到目标篇章中每个词所对应的答案起始位置概率以及答案终止位置概率;当答案起始位置概率以及答案终止位置概率表征目标篇章中存在与目标问题相匹配的答案时,基于答案起始位置概率以及答案终止位置概率确定目标篇章中的目标答案。其中,终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种机器阅读理解方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
步骤201,获取包含目标问题和目标篇章的文本数据,目标问题与目标篇章相匹配。
其中,目标问题是本申请的机器阅读理解方法所需要解答的问题,其具体可以为一个疑问式的文本句子,如“A公主是否出自X童话?”。而目标篇章则用于解答目标问题,具体可以是可能包含有目标问题对应答案文本的另一端文本段落,如“A公主是广泛流行于甲地的一个童话故事中的人物,其中最著名的故事版本见于乙地区1824年的《X童话》”。当目标篇章内包含有目标问题的目标预测答案时,本申请的机器阅读理解方法可以从目标篇章中提取出目标预测答案的文本内容,若是目标篇章内并不包含目标问题的目标预测答案时,则需要反馈解答失败的结果。
具体地,当终端102方的用户需要高效地进行机器阅读理解时,可以先确定目标答案以及目标篇章的文本数据,并构成一组文本数据,而后同时将包含目标问题和目标篇章的文本数据输入到服务器104,以请求服务器104进行机器阅读理解。在其中一个实施例中,用户可以将一个目标问题和一个目标篇章所组成的文本数据发送至服务器104,而后服务器104则从目标篇章中查找该目标问题对应的目标预测答案。在另一个实施例中,用户可以将一个目标问题和多个目标篇章所组成的文本数据发送至服务器104,此时服务器可以将根据输入的一个目标问题和多个目标篇章,构建出由一个目标问题和一个目标篇章组成的多个文本内容,而后在每个目标篇章查找到目标问题对应的答案内容,最终综合多个查找到的答案内容,确定目标问题所对应的目标预测答案。
步骤203,对文本数据进行词序列化和特征提取处理,得到词序列特征向量。
其中,词序列化是指将文本数据中的词语进行序列化处理,得到相应的序列化数据。如对于目标问题(query)部分的文本数据,将其词序列化后得到的序列化表示为Q=q1q2…qL,其中q1q2…qL分别于分词得到的各个词语对应。而对于目标篇章(paragraph)部分的文本数据,将其词序列化后得到的序列化表示为P=p1p2…pM。特征提取处理则是指从词序列化后的数据中提取出其各维度的特征,从而构建出相应的特征向量,通过特征向量可以对目标篇章中是否存在目标问题的答案进行计算。特征提取处理具体可以嵌入以及编码的方式来实现。
具体地,在得到文本数据后,为了对文本形式下的数据进行有效地处理,需要对其进行一定程度的转化,得到相应的特征向量后再进行预测。而转化的过程具体包括了词序列化以及特征提取处理。其中,对于词序列化的过程,可以先对文本数据进行分词处理,再依据分词结果依次对文本数据进行序列化,得到相应的序列化数据。而对于特征提取处理,则可以通过嵌入方式结合转换器(Transformer)的方式实现。在其中一个实施例中,本申请的方案具体可以通过BERT(转换器的双向编码器表示)模型来实现,此时实现本申请机器阅读理解方法的BERT具体包括了输入层以及编码交互层,其中输入层用于获取用户通过终端102输入的文本数据,并通过词序列化处理,将得到的文本数据转化为词序列化数据。而编码交互层则用于执行特征提取处理,其具体包括了嵌入层以及转换器编码层,其中嵌入层用于将词序列转化为词向量表示,具体包括了标志(Token)嵌入、片段(Segment)嵌入和位置(Position)嵌入三个部分。而转换器层能够通过自注意力机制获取词序列输入中的长期依赖信息。BERT通过堆叠12个转换器层得到,可以用来提取词序列的特征信息,得到相应的词序列特征向量。在另一个实施例中,本申请还可以基于句法依存对词序列特征向量进行优化,从而提高答案识别的准确性。
步骤205,基于词序列特征向量对目标问题进行答案识别,得到目标篇章中每个词所对应的答案起始位置概率以及答案终止位置概率。
步骤207,当答案起始位置概率以及答案终止位置概率表征目标篇章中存在与目标问题相匹配的答案时,基于答案起始位置概率以及答案终止位置概率确定目标篇章中的目标答案。
其中,答案识别的目的在于,根据词序列特征向量从输入文本中提取到的答案在篇章内容中的起始位置与终止位置。词序列特征向量经由分词得到,词序列中的每一个符号都代表了一个词语。其中答案起始位置概率是指当前词语为目标问题对应目标答案的起始位置的概率,而答案终止位置概率是指当前词语为目标问题对应目标答案的终止位置的概率。同时,本申请的方案中还包含有验证器的部分,签证器具体通过答案起始位置概率以及答案终止位置概率识别目标篇章内是否存在该目标问题对应的答案,只有通过验证器识别出目标篇章内存在该目标问题对应的答案时,才可以依据每个词对应的答案起始位置概率以及答案终止位置概率,从目标篇章提取到目标答案,并将其反馈至终端102。目标答案即为答案起始位置概率以及答案终止位置概率之和最大的两个词之间的内容部分(包括这两个词),且答案起始位置概率对应的词要在答案终止位置概率对应的词之前。
具体地,本申请的方案通过词序列特征向量来进行目标问题所对应的答案预测,在通过特征提取处理后,可以通过预测层预测答案在篇章中的起始位置与终止位置。此处具体可以将计算出来的最终词序列特征向量代入到答案预测层中的归一化指数函数中,通过训练得到的归一化指数函数进行结果预测,分别预测出目标篇章中每个词所对应的答案起始位置概率以及答案终止位置概率。当得到每个词所对应的两个概率后,在通过验证器进行一个答案存在性的验证,确定目标篇章中是否存在目标问题的答案。只有在存在答案时,服务器才会基于答案起始位置概率以及答案终止位置概率确定目标篇章中的目标答案,而判断出不存在答案时,则会输出目标篇章不存在答案的识别结果。在其中一个实施例中,本申请的方案可以通过BERT模型来实现,此时模型包括有答案预测层,在答案预测层中还包括有验证器,用于验证答案是否存在。首先,通过答案预测层中的归一化指数函数预测出词序列特征向量中每个词所对应的答案起始位置概率s以及答案终止位置概率e,其中
Figure BDA0003695912340000091
Figure BDA0003695912340000092
其中WY s、bY s、WY e以及bY e都是模型参数,通过随机初始化得到,
Figure BDA0003695912340000093
表示BERT模型特征提取过程中最终处理得到词序列特征向量。
而BERT模型训练的损失函数为:
Figure BDA0003695912340000094
其中ys log s是起始位置的损失,ye log e是终止位置的损失,ys,ye分别是样本答案真正的起始位置和终止位置。
而后通过验证器确定是否存在答案,验证器可以基于答案起始位置概率s以及答案终止位置概率e来确定,只有当scorehas-scorene大于一个预设概率评分阈值时,才认为该问题是可回答的。其中:
scorehas=max(sk+el),0≤k≤l≤n
scorena=s0+e0
其中,s0表示篇章中第一个词为答案起始位置的概率,e0表示篇章中第一个词为答案终止位置的概率。sk表示篇章中第k个词为答案起始位置的概率。el表示篇章中第l个词为答案起始位置的概率。n表示目标篇章中总共存在n个词语。而预设概率评分阈值则可以通过尝试不同阈值在验证集上的效果,选取在验证集上效果最优的阈值得到。在确定存在答案时,确定目标答案为答案起始位置概率以及答案终止位置概率之和最大的两个词之间的内容部分,而后将相应的目标答案反馈给终端102。在一个具体的实施例中,用户可以一次输入一个目标问题以及多个目标篇章,服务器104可以通过本申请的机器阅读理解方法确定各个目标篇章对目标问题的待选目标答案(包含不存在待选目标答案的情况),最终基于各个待选目标答案所对应的概率之和,确定概率之和最高的待选目标答案为目标问题所对应的目标答案。
上述机器阅读理解方法,首先获取包含目标问题和目标篇章的文本数据,其中目标问题是机器阅读理解需要解答的问题,而目标篇章内则可能包含有目标问题对应的答案,而后将文本数据进行词序列化以及特征提取处理后,得到用于概率预测的词序列特征向量,基于词序列特征数据进行目标问题对应的答案识别,即可得到目标篇章中每个词所对应的答案起始位置概率以及答案终止位置概率,而后可以基于获得的答案起始位置概率以及答案终止位置概率进行一次验证,确定目标篇章内是否存在目标问题相匹配的答案,只有在存在该答案的情况下,本申请的方法才会基于答案起始位置概率以及答案终止位置概率确定目标篇章中的目标答案,从而可以有效提高机器阅读理解过程的准确性。
在一个实施例中,步骤203包括:对文本数据进行分词处理,得到文本分词结果;根据文本分词结果对文本数据进行词序列化处理,得到词序列数据;对词序列数据进行嵌入编码处理,得到词序列数据对应的词序列特征向量。
其中,分词是自然语言处理的基础,分词准确度直接决定了后面的词性标注、句法分析、词向量以及文本分析的质量。英文语句使用空格将单词进行分隔,除了某些特定词,如how many,New York等外,大部分情况下不需要考虑分词问题。但中文不同,天然缺少分隔符,需要读者自行分词和断句。故在做中文自然语言处理时,需要先进行分词处理,从而保证后续处理的有效性。分词处理具体可以通过分词算法实现,包括基于词典的规则匹配方法,和基于统计的机器学习方法等,本申请的方案具体可以通过基于统计的机器学习方法来实现对文本数据的分词处理。词序列化处理则是指将文本数据中的词语进行序列化处理,得到相应的序列化数据。嵌入编码处理则包含有嵌入以及编码两部分的处理过程。其中,嵌入层用于将词序列转化为词向量表示,而编码层则用于通过自注意力机制获取词序列输入中的长期依赖信息。通过嵌入编码处理可以得到最终的词序列特征向量。
具体地,文本数据处理的过程具体包括了分词、词序列化以及编码处理3个处理过程,当得到文本数据,首先需要对文本数据进行分词处理,将连续的文本拆分为多个词语组成的词语串。在其中一个实施例中,分词过程具体可以通过深度学习的方法实现,通过将文本数据输入到已经训练完成的深度学习分词模型中,基于深度学习的方法对文本数据进行拆分,得到相应的文本分词结果。如对于“A公主是广泛流行于甲地的一个童话故事中的人物,其中最著名的故事版本见于乙地区1824年的《X童话》”这个句子,在分词之后,得到相应的分词结果为:“A公主”、“是”、“广泛”、“流行”、“于”、“甲地”、“的”、“一个”、“童话故事”、“中”、“的”、“人物”、“,”、“其中”、“最著名”、“的”、“故事”、“版本”、“见于”、“乙地区”、“1824年”、“的”以及“X童话”等词。在得到文本分词结果后,可以通过词序列化处理来对这次分词结果中的词一一序列化,如对于目标问题部分的文本数据,将其词序列化后得到的序列化表示为Q=q1q2…qL,其中q1q2…qL分别于分词得到的各个词语对应。而对于目标篇章部分的文本数据,将其词序列化后得到的序列化表示为P=p1p2…pM。同时,为了构建后续模型的标准输入,将目标问题和目标篇章两个词序列拼接为一个词序列,表示为X=[CLS]q1q2…qL[SEP]p1p2…pM[SEP],其总长度为n=L+M+3。其中,[CLS]为句子首位,[SEP]用于区分两个文本内容。当得到词序列后,可以依次对所得到的词序列进行嵌入处理以及编码处理,其分别通过嵌入层以及转换器编码层实现。嵌入层的具体结构可以参照图3,嵌入层可以将词序列X转化为词向量表示E,包括3个部分:标志嵌入、片段嵌入和位置嵌入,对于输入词序列X=x1x2…xn,词向量矩阵表示为
Figure BDA0003695912340000111
其中
Figure BDA0003695912340000112
表示为第i个词的嵌入向量,d表示嵌入向量的维度。
E=Embedding(X)
而转换器编码层则能够通过自注意力机制获取词序列输入中的长期依赖信息。其可以用来提取词序列的特征信息,通过堆叠多个转换器层来提取词序列的特征信息,如对于词向量矩阵
Figure BDA0003695912340000113
第i层Transformer输出形式化的表示为
Figure BDA0003695912340000114
其中
Figure BDA0003695912340000115
表示第j个词的特征。Transformer操作表示为:
Figure BDA0003695912340000116
可以得到输入序列的词序列特征向量表示为:
H={h1,h2,…,hn}
其中,Qi=HiWi Q,Ki=HiWi K,Vi=HiWi V。Wi Q、Wi K、Wi V表示对应的参数矩阵。本实施例中,通过分词、词序列化以及嵌入编码等处理,可以有效地将输入的文本数据转化为特征化的词序列特征向量,从而有效地识别出答案起始位置概率以及答案终止位置概率,保证机器阅读理解的准确性。
在其中一个实施例中,根据文本分词结果对文本数据进行词序列化处理,得到词序列数据包括:对目标问题对应的文本分词结果进行词序列化处理,得到第一词序列数据;对目标篇章对应的文本分词结果进行词序列化处理,得到第二词序列数据;通过预设标志位将第一词序列数据与第二词序列数据拼接,得到词序列化数据。
其中,由于目标问题和目标篇章分别为两段不同的文本内容。因此,在分词处理时,也是分别对两组不同的文本数据进行分词,从而得到两个不同的分词结果。而在词序列化的过程中,则是分别对这两个文本分词结果进行词序列化处理,得到两个不同的词序列化数据,其中第一词序列数据用于表征文本数据中的目标问题部分,而第二词序列数据则用于表征文本数据中的目标篇章部分。预设标志位则用于连接不同的词序列数据,需要根据模型的类型进行设置。如对于BERT模型,其开始的标志位为[CLS],而连接不同词序列的标志位则是[SEP]。
具体地,当通过文本分词处理,得到文本数据对应的两个文本分词结果后,还需要对分词后的数据进行序列化处理。该过程可以分别对目标问题对应的文本分词结果以及目标篇章对应的文本分词结果进行词序列化,得到第一词序列数据以及第二词序列化数据,于目标问题部分的文本数据,将其词序列化后得到的序列化表示为Q=q1q2…qL,其中q1q2…qL分别于分词得到的各个词语对应。而对于目标篇章部分的文本数据,将其词序列化后得到的序列化表示为P=p1p2…pM。同时,为了构建后续模型的标准输入,可以通过预设标志位将目标问题和目标篇章两个词序列拼接为一个词序列。如对于BERT模型,将上述得到的第一词序列数据与第二词序列数据拼接后,所得到的词序列化数据表示为X=[CLS]q1q2…qL[SEP]p1p2…pM[SEP],其总长度为n=L+M+3。其中。本实施例中,通过不同文本内容的词序列化处理以及词序列化数据的拼接,可以有效地将文本数据转化为词序列化数据,并保证转化所得的模型输入数据的有效性。
在其中一个实施例中,对词序列数据进行嵌入编码处理,得到词序列数据对应的词序列特征向量包括:对词序列数据进行嵌入处理,得到词序列数据对应的词序列表示;通过自注意力机制提取词序列表示中的特征信息,得到初始词序列特征向量;基于句法依存关系对初始词序列特征向量进行优化,得到词序列特征向量。
其中,嵌入处理即Embedding,它是一种分布式表示方法,可以把原始输入数据分布地表示成一系列特征的线性组合。本申请中通过嵌入处理将词序列数据转化为词向量表示自注意力机制的主要作用是找到每个向量和其他向量(包括自己)之间的关联程度,本申请的方案则是基于转换器编码层的自注意力机制获取词序列输入中的长期依赖信息。转换器编码层包含有多个转换器层,通过多层处理来得到初始词序列特征向量。而对于句法依存关系,其具体是指词语之间存在的句法依存关系,每种语言的句子成分之间都有依赖关系,每种语言的依存语法关系有所不同。通用依存语法关系可以用于依存句法分析。直观来讲,依存句法分析识别句子中的“主谓宾”、“定状补”这些语法成分,并分析各成分之间的关系。通过句法依存关系可以更好的捕捉词和词之间的句法结构化信息从而提高词序列特征向量的表示效果。一些典型的句法依存关系可以参照下表1所示:
表1:典型的句法依存关系表
Figure BDA0003695912340000131
Figure BDA0003695912340000141
具体地,在得到词序列数据后,可以对这些词序列特征数据进行嵌入编码处理,嵌入编码处理具体包含有嵌入以及编码两个过程。此外,为了提高特征向量的表达效果,本申请的方案中还引入了句法依存分析来对词序列特征向量,从而提高最终的词序列特征向量的表达效果。其中嵌入编码过程以及句法依存分析过程是两个相互独立的过程,通过结合两者可以得到优化后的词序列特征向量。在其中一个实施例中,本申请的方案通过BERT模型来实现机器阅读理解的处理,此时嵌入编码的过程可以通过BERT模型中的嵌入编码层实现。首先,通过嵌入层对词序列数据进行嵌入处理得到相应的向量表示,包括3个部分:标记嵌入、片段嵌入和位置嵌入。标记嵌入层用于将词序列中的各个词转换成固定维度的向量。片段嵌入层用于处理输入句子对的分类任务,其可以区别句子对中的两个句子的向量表示。而位置嵌入层则用于学习输入词序列的顺序属性。对于输入词序列X=x1x2…xn,词向量矩阵表示为
Figure BDA0003695912340000142
其中
Figure BDA0003695912340000143
表示为第i个词的嵌入向量,d表示嵌入向量的维度。
E=Embedding(X)
在得到词序列对应的向量表示后,可以进一步地进行转换器编码处理。转换器层能够通过自注意力机制获取词序列输入中的长期依赖信息。BERT中堆叠有12个转换器层,可以用来提取词序列的特征信息,对于词向量矩阵
Figure BDA0003695912340000144
第i层Transformer输出形式化的表示为
Figure BDA0003695912340000145
其中
Figure BDA0003695912340000146
表示第j个词的特征。Transformer操作表示为:
Figure BDA0003695912340000147
可以得到输入序列的表示为:
H={h1,h2,…,hn} (3)
其中,Qi=HiWi Q,Ki=HiWi k,Vi=HiWi V。Wi Q、Wi K、Wi V表示对应的参数矩阵。同时,在进行嵌入编码处理时,还可以同步提取词序列X中的句法依存关系,通过句法依存关系对词序列进行优化,所得到的最终的词序列特征向量表示为:
Figure BDA0003695912340000151
该表示可以用于进行目标问题对应的答案识别,并得到相应的概率预测结果。本实施例中,通过嵌入处理、自注意力编码处理以及句法依存关系来获取最终的词序列特征向量,可以有效保证所得的词序列特征向量的有效性,从而保证机器阅读理解中答案识别的准确性,保证识别效果。
在其中一个实施例中,基于句法依存关系对初始词序列特征向量进行优化,得到词序列特征向量包括:根据文本数据构建句法依存树;基于句法依存树生成句法依存矩阵;基于句法依存矩阵,生成词序列特征向量对应的句法依存向量;将初始词序列特征向量与句法依存向量结合,得到词序列特征向量。
其中,句法依存树是指对文本数据进行句法分析后拆分所得到的树形结构,对于目标问题“A公主是否出自X童话?”以及目标篇章“A公主是广泛流行于甲地的一个童话故事中的人物,其中最著名的故事版本见于乙地区1824年的《X童话》”这两个文本所组成的文本数据,其对应的句法依存树具体可以参照图4所示。而句法依存矩阵则是参照句法依存树直接构建的一个矩阵数据,用于表征文本数据中的句法依存关系。句法依存矩阵具体可以参照图5所示。
具体地,本申请的方案中通过句法依存关系的分析来提高机器阅读理解的准确率,句法依存关系的过程中首先要建立句法依存树,该句法依存树具体可以依照输入的文本数据内容来构建,通过句法依存树可以有效地对文本数据中分词得到的各个词之间的句法依存关系进行展示,当得到句法依存树之后,可以将句法依存树抽象表示为句法依存矩阵,句法依存矩阵中两个词之间存在句法依存关系,则其对应的元素为1,否则为0。在其中一个实施例中,假设输入的词序列化数据为X={x1,x2,…,xn},xi的祖先结点集合为Pi,则句法依存矩阵
Figure BDA0003695912340000152
可以表示为:
Figure BDA0003695912340000161
其中,
Figure BDA0003695912340000162
表示sj是si的祖先结点。
Figure BDA0003695912340000163
输入的序列化数据所对应的句法依存向量可以表示为:
H′={h′1,h′2,…,h′n}
当得到序列化数据对应的句法依存向量后,可以进一步地将该句法依存向量与嵌入编码得到的初始词序列特征向量H={h1,h2,…,hn}相结合,得到最终的词序列特征向量
Figure BDA0003695912340000164
其中
Figure BDA0003695912340000165
通过以下公式计算:
Figure BDA0003695912340000166
Figure BDA0003695912340000167
本实施例中,通过句法依存关系来对词序列化特征向量进行优化,从而有效地将文本数据中的句法依存关系也添加到词序列特征向量中,可以有效提高词序列特征向量的表示效果,从而提高机器阅读理解过程中答案识别的准确率。
在其中一个实施例中,方法还包括:根据目标篇章中第一个词所对应的答案起始位置概率以及答案终止位置概率值之和,得到第一验证评分;根据目标篇章中最大概率的答案对应的答案起始位置概率以及答案终止位置概率值之和,得到第二验证评分;当第二验证评分与第一验证评分之差大于预设概率评分阈值时,确定目标篇章中存在与目标问题相匹配的答案。
其中,第一验证评分以及第二验证评分为本申请方案中所使用的验证器的基础数据。验证器具体用于对篇章内是否存在答案进行识别,从而提高对没有答案的篇章文本的拒识能力。预设概率评分阈值则是一个通过训练总结得到的数据,同时尝试不同阈值在验证集上的效果,选取在验证集上效果最优的阈值作为实际应用过程中的预设概率评分阈值。
具体地,本申请的方案在得到最终的目标答案前,还需要对目标篇章内是否存在目标答案进行验证,预设的验证器可以通过计算得到的目标篇章中每个词所对应的答案起始位置概率以及答案终止位置概率,来进行答案的存在性验证。第一验证评分scorena通过目标篇章中第一个词所对应的答案起始位置概率以及答案终止位置概率值之和确定,其对应的计算公式为:scorena=s0+e0。而第二验证评分根据目标篇章中最大概率的答案对应的答案起始位置概率以及答案终止位置概率值之和确定,第二验证评分所对应的计算公式具体为:scorehas=max(sk+el),0≤k≤l≤n。验证器基于两者概率之差scorehas-scorena来进行答案存在性验证,只有当scorehas-scorena大于预设概率评分阈值的时候,才可以判断目标篇章中存在与目标问题相匹配的答案,否则判断目标篇章中不存在与目标问题相匹配的答案。现有技术中不存在验证器时,一般接通过第二验证评分scorehas来得到目标答案,只要scorehas大于一定的预设阈值,即可将其作为识别得到的目标答案,而本申请中通过引入第一验证评分scorena,将其与第二验证评分scorehas结合来进行答案的存在性验证,对抽取出的答案进一步进行了验证甄别,从而有效地识别出可用的目标答案,提高机器阅读理解的识别效果。
在其中一个实施例中,方法还包括:根据目标问题以及目标答案构建问答对;将构建得到的问答对提交至预设问答库。
其中,问答对是指同时包含有问题以及问题对应答案的一组文本数据,预设问答库内包含有多个不同的问答对数据,预设问答库可以与常见问题解答(FAQ,frequently-asked questions)的系统相关联。在这个系统中,当用户输入问题后,系统可以高效地向其反馈对应的答案。通过丰富预设问答库,可以有效提高常见问题解答系统的覆盖率。
具体地,本申请的机器阅读理解方法可以用于实现问答库的构建,通过机器阅读理解方法来抽取某个领域内常见问题的答案,构建出一个个同领域的问答对后,将问答对保存在预设问答库中。在其中一个实施例中,预设问答库与该领域中的常见问题解答系统相关联。当用户遇到问题后,其可以直接输入直接的问题,或者在提示界面上点击相应的推荐问题。当用户输入问题后,常见问题解答系统可以基于用户输入的问题进行关联查找,在预设问答库中提取出问题相对应的答案,而后将答案反馈至用户,完成一次问题解答,提高问题解答的效率。同时保证问题的覆盖率。在另一个实施例中,本申请的方案还可以应用于搜索引擎中,当用户通过搜索引擎搜索问题答案时,可以通过预设问答库直接反馈相应的答案来进行解答,保证问题反馈的及时性以及问答的整体覆盖率。
本申请还提供一种应用场景,该应用场景应用上述的机器阅读理解方法。具体地,该机器阅读理解方法在该应用场景的应用如下:
当用户需要提升浏览器的搜索引擎覆盖率时,其需要扩充搜索引擎的问答库。而扩充搜索引擎的问答库则需要构建出大量的高质量问答对,这些问答对可以从线上的文本内容中抽取部分文本内容作为答案。因此,可以通过本申请的机器阅读理解方法来实现最终的机器阅读理解处理。输入问题后的搜索引擎界面以及搜索结果界面具体可以参照图6以及图7所示,本申请的方案具体用于扩充搜索引擎的问答库。本申请的机器阅读理解方法具体可以通过BERT模型实现,模型结构具体可以参照图8所示,包括输入层、编码交互层、句法依存自注意力层、答案预测层和输出层5个网络结构,其中编码交互层与句法依存自注意力层平行。在进行问答对构建时,可以将包含有一个问题以及一个篇章的文本数据作为处理对象,模型首先对输入文本进行分词处理,而后对分词结果进行序列化处理,其中问题部分词序列形式化的表示为Q=q1q2…qL,篇章部分词序列表示为P=p1p2…pM,其中,L、M分别表示问题以及篇章的词序列长度。为了构建模型的标准输入,将两个词序列拼接为一个词序列,表示为X=[CLS]q1q2…qL[SEP]p1p2…pM[SEP],总长度为n=L+M+3。而后,在编码交互层的嵌入层中,将词序列X转化为词向量表示E,包括3个部分:标志嵌入、内容嵌入和位置嵌入,对于输入词序列X=x1x2…xn,词向量矩阵表示为
Figure BDA0003695912340000181
Figure BDA0003695912340000182
其中
Figure BDA0003695912340000183
表示为第i个词的嵌入向量,d表示嵌入向量的维度。而后在编码交互层的转换器编码层对其进行编码处理,转换器层能够通过自注意力机制获取词序列输入中的长期依赖信息。BERT通过堆叠12个Transformer层得到,可以用来提取词序列的特征信息,对于词向量矩阵
Figure BDA0003695912340000184
第i层Transformer输出形式化的表示为
Figure BDA0003695912340000185
其中
Figure BDA0003695912340000186
表示第j个词的特征。
可以得到输入序列的初始词序列特征向量表示为:H={h1,h2,…,hn}。在通过编码交互层进行特征提取时,还可以同时通过句法依存自注意力层来提取文本中的句法依存结构,首先根据文本数据构建句法依存树;基于句法依存树生成句法依存矩阵;基于句法依存矩阵,生成词序列化数据对应的句法依存向量;句法依存自注意力层通过句法依存树生成一个句法依存矩阵
Figure BDA0003695912340000191
假设输入token序列为X={x1,x2,…,xn},xi的祖先结点集合为Pi,则句法依存矩阵
Figure BDA0003695912340000192
可以表示为:
Figure BDA0003695912340000193
其中,
Figure BDA0003695912340000194
表示sj是si的祖先结点。输入序列的句法依存向量可以表示为:H′={h′1,h′2,…,h′n}。将初始词序列特征向量与句法依存向量结合,得到词序列特征向量
Figure BDA0003695912340000195
其中
Figure BDA0003695912340000196
在得到最终的词序列特征向量后,可以基于该词序列特征向量在答案预测层进行答案预测,得到篇章中各个词语对应的答案概率,答案预测层是为了根据从输入文本中提取到的特征预测答案在篇章中的起始位置与终止位置。答案预测层表示为:
Figure BDA0003695912340000197
其中,
Figure BDA0003695912340000198
表示最后一层聚合的输出,s和e分别表示每个词是起始位置和终止位置的概率。同时,本申请通过验证器来对没有答案的篇章进行拒识处理。只有当scorehas-scorena大于一个阈值的时候,才认为该问题是可回答的。其中,
scorehas=max(sk+el),0≤k≤l≤n
scorena=s0+e0
当确定问题为可回答问题后,则会基于确定的答案起始位置概率以及答案终止位置概率确定目标篇章中的目标答案,并基于目标问题以及目标答案构建出问答对,而后通过不断重复的构建问答对来扩充问答库,保证搜索引擎的问题检索效率。并提升浏览器搜索问答的整体覆盖率。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的机器阅读理解方法的机器阅读理解装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个机器阅读理解装置实施例中的具体限定可以参见上文中对于机器阅读理解方法的限定,在此不再赘述。
在一个实施例中,如图9所示,提供了一种机器阅读理解装置,包括:
文本数据获取模块902,用于获取包含目标问题和目标篇章的文本数据,目标问题与目标篇章相匹配。
特征提取模块904,用于对文本数据进行词序列化和特征提取处理,得到词序列特征向量。
答案识别模块906,用于基于词序列特征向量对目标问题进行答案识别,得到目标篇章中每个词所对应的答案起始位置概率以及答案终止位置概率。
答案提取模块908,用于当答案起始位置概率以及答案终止位置概率表征目标篇章中存在与目标问题相匹配的答案时,基于答案起始位置概率以及答案终止位置概率确定目标篇章中的目标答案。
上述机器阅读理解装置,首先获取包含目标问题和目标篇章的文本数据,其中目标问题是机器阅读理解需要解答的问题,而目标篇章内则可能包含有目标问题对应的答案,而后将文本数据进行词序列化以及特征提取处理后,得到用于概率预测的词序列特征向量,基于词序列特征数据进行目标问题对应的答案识别,即可得到目标篇章中每个词所对应的答案起始位置概率以及答案终止位置概率,而后可以基于获得的答案起始位置概率以及答案终止位置概率进行一次验证,确定目标篇章内是否存在目标问题相匹配的答案,只有在存在该答案的情况下,本申请的方法才会基于答案起始位置概率以及答案终止位置概率确定目标篇章中的目标答案,从而可以有效提高机器阅读理解过程的准确性。
在一个实施例中,特征提取模块904主要用于:对文本数据进行分词处理,得到文本分词结果;根据文本分词结果对文本数据进行词序列化处理,得到词序列数据;对词序列数据进行嵌入编码处理,得到词序列数据对应的词序列特征向量。
在一个实施例中,特征提取模块904还用于:对目标问题对应的文本分词结果进行词序列化处理,得到第一词序列数据;对目标篇章对应的文本分词结果进行词序列化处理,得到第二词序列数据;通过预设标志位将第一词序列数据与第二词序列数据拼接,得到词序列化数据。
在一个实施例中,特征提取模块904还用于:对词序列数据进行嵌入处理,得到词序列数据对应的词序列表示;通过自注意力机制提取词序列表示中的特征信息,得到初始词序列特征向量;基于句法依存关系对初始词序列特征向量进行优化,得到词序列特征向量。
在一个实施例中,特征提取模块904还用于:根据文本数据构建句法依存树;基于句法依存树生成句法依存矩阵;基于句法依存矩阵,生成词序列化数据对应的句法依存向量;将初始词序列特征向量与句法依存向量结合,得到词序列特征向量。
在一个实施例中,装置还包括验证器模块,用于:根据目标篇章中第一个词所对应的答案起始位置概率以及答案终止位置概率值之和,得到第一验证评分;根据目标篇章中最大概率的答案对应的答案起始位置概率以及答案终止位置概率值之和,得到第二验证评分;当第二验证评分与第一验证评分之差大于预设概率评分阈值时,确定目标篇章中存在与目标问题相匹配的答案。
在一个实施例中,装置还包括问答对构建模块,用于:根据目标问题以及目标答案构建问答对;将构建得到的问答对提交至预设问答库。
上述机器阅读理解装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储机器阅读理解相关数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种机器阅读理解方法。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (11)

1.一种机器阅读理解方法,其特征在于,所述方法包括:
获取包含目标问题和目标篇章的文本数据,所述目标问题与所述目标篇章相匹配;
对所述文本数据进行词序列化和特征提取处理,得到词序列特征向量;
基于所述词序列特征向量对所述目标问题进行答案识别,得到所述目标篇章中每个词所对应的答案起始位置概率以及答案终止位置概率;
当所述答案起始位置概率以及所述答案终止位置概率表征所述目标篇章中存在与所述目标问题相匹配的答案时,基于所述答案起始位置概率以及所述答案终止位置概率确定所述目标篇章中的目标答案。
2.根据权利要求1所述的方法,其特征在于,所述对所述文本数据进行词序列化和特征提取处理,得到词序列特征向量包括:
对所述文本数据进行分词处理,得到文本分词结果;
根据所述文本分词结果对所述文本数据进行词序列化处理,得到词序列数据;
对所述词序列数据进行嵌入编码处理,得到所述词序列数据对应的词序列特征向量。
3.根据权利要求2所述的方法,其特征在于,所述根据所述文本分词结果对所述文本数据进行词序列化处理,得到词序列数据包括:
对所述目标问题对应的文本分词结果进行词序列化处理,得到第一词序列数据;
对所述目标篇章对应的文本分词结果进行词序列化处理,得到第二词序列数据;
通过预设标志位将所述第一词序列数据与所述第二词序列数据拼接,得到词序列化数据。
4.根据权利要求2所述的方法,其特征在于,所述对所述词序列数据进行嵌入编码处理,得到所述词序列数据对应的词序列特征向量包括:
对所述词序列数据进行嵌入处理,得到所述词序列数据对应的词序列表示;
通过自注意力机制提取所述词序列表示中的特征信息,得到初始词序列特征向量;
基于句法依存关系对所述初始词序列特征向量进行优化,得到词序列特征向量。
5.根据权利要求4所述的方法,其特征在于,所述基于句法依存关系对所述初始词序列特征向量进行优化,得到词序列特征向量包括:
根据所述文本数据构建句法依存树;
基于所述句法依存树生成句法依存矩阵;
基于所述句法依存矩阵,生成所述词序列化数据对应的句法依存向量;
将所述初始词序列特征向量与所述句法依存向量结合,得到词序列特征向量。
6.根据权利要求1至5中任意一项所述的方法,其特征在于,所述方法还包括:
根据所述目标篇章中第一个词所对应的答案起始位置概率以及答案终止位置概率值之和,得到第一验证评分;
根据所述目标篇章中最大概率的答案对应的答案起始位置概率以及答案终止位置概率值之和,得到第二验证评分;
当所述第二验证评分与所述第一验证评分之差大于预设概率评分阈值时,确定所述目标篇章中存在与所述目标问题相匹配的答案。
7.根据权利要求1至5中任意一项所述的方法,其特征在于,所述方法还包括:
根据所述目标问题以及所述目标答案构建问答对;
将构建得到的所述问答对提交至预设问答库。
8.一种机器阅读理解装置,其特征在于,所述装置包括:
文本数据获取模块,用于获取包含目标问题和目标篇章的文本数据,所述目标问题与所述目标篇章相匹配;
特征提取模块,用于对所述文本数据进行词序列化和特征提取处理,得到词序列特征向量;
答案识别模块,用于基于所述词序列特征向量对所述目标问题进行答案识别,得到所述目标篇章中每个词所对应的答案起始位置概率以及答案终止位置概率;
答案提取模块,用于当所述答案起始位置概率以及所述答案终止位置概率表征所述目标篇章中存在与所述目标问题相匹配的答案时,基于所述答案起始位置概率以及所述答案终止位置概率确定所述目标篇章中的目标答案。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
11.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202210674499.9A 2022-06-15 2022-06-15 机器阅读理解方法、装置、计算机设备和存储介质 Pending CN115203388A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210674499.9A CN115203388A (zh) 2022-06-15 2022-06-15 机器阅读理解方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210674499.9A CN115203388A (zh) 2022-06-15 2022-06-15 机器阅读理解方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN115203388A true CN115203388A (zh) 2022-10-18

Family

ID=83576496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210674499.9A Pending CN115203388A (zh) 2022-06-15 2022-06-15 机器阅读理解方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN115203388A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117033613A (zh) * 2023-08-18 2023-11-10 中航信移动科技有限公司 一种应答文本的生成方法、电子设备及存储介质
CN118586409A (zh) * 2024-08-05 2024-09-03 戎行技术有限公司 一种基于大模型的实时语言翻译数据优化处理方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117033613A (zh) * 2023-08-18 2023-11-10 中航信移动科技有限公司 一种应答文本的生成方法、电子设备及存储介质
CN117033613B (zh) * 2023-08-18 2024-05-14 中航信移动科技有限公司 一种应答文本的生成方法、电子设备及存储介质
CN118586409A (zh) * 2024-08-05 2024-09-03 戎行技术有限公司 一种基于大模型的实时语言翻译数据优化处理方法

Similar Documents

Publication Publication Date Title
CN106202010B (zh) 基于深度神经网络构建法律文本语法树的方法和装置
CN111931517B (zh) 文本翻译方法、装置、电子设备以及存储介质
CN113569001A (zh) 文本处理方法、装置、计算机设备及计算机可读存储介质
CN110990555B (zh) 端到端检索式对话方法与系统及计算机设备
CN110795552A (zh) 一种训练样本生成方法、装置、电子设备及存储介质
CN113239169A (zh) 基于人工智能的回答生成方法、装置、设备及存储介质
CN111930942A (zh) 文本分类方法、语言模型训练方法、装置及设备
CN114547298B (zh) 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质
CN110457585B (zh) 负面文本的推送方法、装置、系统及计算机设备
CN115203388A (zh) 机器阅读理解方法、装置、计算机设备和存储介质
CN113761868B (zh) 文本处理方法、装置、电子设备及可读存储介质
CN113282711B (zh) 一种车联网文本匹配方法、装置、电子设备及存储介质
CN113392265A (zh) 多媒体处理方法、装置及设备
CN116304748B (zh) 一种文本相似度计算方法、系统、设备及介质
CN112632258A (zh) 文本数据处理方法、装置、计算机设备和存储介质
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN118227769B (zh) 一种基于知识图谱增强的大语言模型问答生成方法
CN117609419A (zh) 基于元学习与知识增强的领域检索方法
CN116975212A (zh) 问题文本的答案查找方法、装置、计算机设备和存储介质
CN114510561A (zh) 答案选择方法、装置、设备及存储介质
CN114281934A (zh) 文本识别方法、装置、设备及存储介质
CN117932066A (zh) 一种基于预训练的“提取-生成”式答案生成模型及方法
CN111507108B (zh) 别名生成方法、装置、电子设备及计算机可读存储介质
CN114372454A (zh) 文本信息抽取方法、模型训练方法、装置及存储介质
CN114648005B (zh) 一种多任务联合学习的多片段机器阅读理解方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination