CN111143507A - 一种基于复合式问题的阅读理解方法 - Google Patents

一种基于复合式问题的阅读理解方法 Download PDF

Info

Publication number
CN111143507A
CN111143507A CN201911230823.2A CN201911230823A CN111143507A CN 111143507 A CN111143507 A CN 111143507A CN 201911230823 A CN201911230823 A CN 201911230823A CN 111143507 A CN111143507 A CN 111143507A
Authority
CN
China
Prior art keywords
question
answers
acquiring
target text
method based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911230823.2A
Other languages
English (en)
Other versions
CN111143507B (zh
Inventor
彭德光
王雅璇
高泫苏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Megalight Technology Co ltd
Original Assignee
Chongqing Megalight Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Megalight Technology Co ltd filed Critical Chongqing Megalight Technology Co ltd
Priority to CN201911230823.2A priority Critical patent/CN111143507B/zh
Publication of CN111143507A publication Critical patent/CN111143507A/zh
Application granted granted Critical
Publication of CN111143507B publication Critical patent/CN111143507B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提出一种基于复合式问题的阅读理解方法,包括:获取问题集合,并根据所述问题集合从数据集中获取目标文本;根据所述问题集合获取所述目标文本中的多个关联段落;从所述关联段落中获取所述问题集合的多个答案,并创建所述多个答案的概率模型;融合所述概率模型的输出,获取所述问题集合的输出响应;本发明可有效提高阅读理解的正确性和全面性。

Description

一种基于复合式问题的阅读理解方法
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于复合式问题的阅读理解方法。
背景技术
目前,随着人工智能的发展与应用,日常待处理的数据量也在持续增长。面对海量以自然语言形式保存的数据,需要花费大量的精力和时间才能找到需要的信息,因此,也促进了智能问答系统的不断发展。然而,现有的智能问答系统智能程度较低,无法较好第理解用户提出的问题并返回正确有效的答案,效率相对较低。而且目前大多数基于神经网络的阅读理解方法均是以独立的方式对答案进行建模,而忽略了多个候选答案之间的关联性,容易导致针对获取答案不全面,无法充分解释问题。
发明内容
鉴于以上现有技术存在的问题,本发明提出一种基于复合式问题的阅读理解方法,主要解决多句话形成的问题与文本段落进行答案匹配,提高答案准确性的问题。
为了实现上述目的及其他目的,本发明采用的技术方案如下。
一种基于复合式问题的阅读理解方法,包括:
获取问题集合,并根据所述问题集合从数据集中获取目标文本;
根据所述问题集合获取所述目标文本中的多个关联段落;
从所述关联段落中获取所述问题集合的多个答案,并创建所述多个答案的概率模型;
融合所述概率模型的输出,获取所述问题集合的输出响应。
可选地,获取询问文本,将所述询问文本划分为多个子问题,创建所述问题集合;
提取所述问题集合的关键特征,根据所述关键特征从数据集中获取目标文本。
可选地,根据所述问题集合和所述目标文本的多个段落获取多维词向量;
将所述多维词向量输入神经网络,建立问题到所述目标文本多个段落的映射关系,进而获取第一关联模型。
可选地,对所述目标文本输入预设的编码模型获取中间语义向量;
根据所述问题集合和所述中间语义向量,获取问题到所述目标文本的映射关系,获取第二关联模型。
可选地,通过神经网络融合所述第一关联模型和所述第二关联模型,获取问题的多个所述关联段落。
可选地,所述神经网络可采用双向长短期记忆神经网络。
可选地,根据所述问题集合获取多个答案在所述关联段落中的位置,并根据每个答案的位置跨度设置答案权重;
根据根据所述权重获取答案的统计概率,建立所述概率模型。
可选地,设置答案的概率阈值,获取所述答案的统计概率超出所述概率阈值的多个答案,并根据每个答案在对应关联段落中的位置跨度,将所述多个答案进行融合,获取融合输出作为所述问题集合的输出响应。
可选地,通过重新获取所述输出响应对应的所述关联段落,获取所述关联段落与所述问题集合的相似度,进而对所述输出响应进行校验。
可选地,在训练所述概率模型时,根据所述相似度调整答案权重。
如上所述,本发明一种基于复合式问题的阅读理解方法,具有以下有益效果。
通过问题集合和关联段落进行答案综合分析,可有效提高最终获取答案的准确性及全面性。
附图说明
图1为本发明一实施例中基于复合式问题的阅读理解方法的流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
请参阅图1,本发明提供一种基于复合式问题的阅读理解方法,包括步骤S01-S04。
在步骤S01中,获取问题集合,并根据问题集合从数据集中获取目标文本:
在一实施例中,可通过询问文本采集设备获取询问文本,所述询问文本可包括用户语音输入转换的文本信息或本文录入界面录入的文本信息等。询问文本可以为多个句子组成的问题,可包含具有关联性的多个子问题。如用户可询问“今年税收优惠政策是怎样的?需要满足什么条件?需要什么材料?”,以同一税收政策主题相关的问题作为询问文本。获取询问文本后,可将询问文本划分为多个子问题Qn进行问题表示,创建问题集合Q,具体可表示为:
Q={Q1,Q2,...,Qn}
在一实施例中,可根据不同的技术领域,收集对应领域相关技术文档,整理形成数据库。以法律领域为例,通过收集整理法律条例、法务论坛、相关法律论文期刊和杂志、地方政策法规等信息,形成数据库;也可直接通过网络连接Wikipedia等公共数据库获取结构化文本数据。
提取问题集合中的关键特征如税收优惠政策等,根据该关键特征从对应的数据库中获取用于进行问题解答的目标文本。
在步骤S02中,根据所述问题集合获取目标文本中的多个关联段落:
目标文本通常包含多个段落的文字信息,可通过段落的换行符识别目标文本中的各个段落,进行分段处理。
提取问题集合中每个子问题的关键词信息,并将关键词信息与目标文本进行信息比对,获取目标文本中包含对应子问题关键词的多个段落。对前述多个段落与对应的子问题进行整合编码,创建多维词向量。对段落进行编码时,当段落中出现对应子问题中的关键词时,赋值为1,否则赋值为0。
在一实施例中,将多维词向量输入神经网络中,建立问题到目标文本多个段落的映射关系,获取基于问题集合子问题的上下文表示,通过神经网络训练获取第一关联模型。神经网络可采用双向长短期记忆神经网络(Bi-directional Long and Short TermMemory Neural Network,简称双向LSTM)。
在一实施例中,还可通过注意力机制生成问题集合中子问题相关的段落表示。注意力机制可采用Encode-Decode框架进行文本处理,将目标文本输入Encode-Decode框架预设的编码模型中,获取中间语义向量;将问题集合中子问题的编码向量与所述中间语义向量输入Encode-Decode框架中预设的解码模型,获取问题到目标文本的映射关系,进而根据映射关系创建第二关联模型。
在一实施例中,将通过第一关联模型和第二关联模型分别输出的问题表示输入双向LSTM进行融合,获取问题集合基于目标文本中多个段落的融合表示,进而确定目标文本中的多个关联段落。
在步骤S03中,从所述关联段落中获取问题集合的多个答案,并创建多个答案的概率模型;
在一实施例中,获取问题集合中的多个子问题的关键字或关键词等特征,进而可通过dbpedia spotlight工具从多个关联段落中提取子问题对应的多个候选答案,建立子问题的候选答案集合,候选答案在集合中可采用二进制数字编码的形式表示。
在一实施例中,可选择其中一个候选答案作为候选答案代表,获取每个候选答案在对应的关联段落中的位置。可根据其他候选答案到候选答案代表的位置跨度设置候选答案的权重。通常认为,在一篇文档中,针对同一问题的描述集中在某一段话或某几段话中,可设置位置跨度较小的候选答案具有较大的权重。对候选答案在对应关联段落中的位置进行加权统计,获取每个候选答案的概率,并将候选答案概率进行归一化处理,建立问题集合到候选答案集合的映射关系,获取概率模型。
在步骤S04中,融合所述概率模型的输出,获取所述问题集合的输出响应。
在一实施例中,设置候选答案的概率阈值,当概率模型的输出概率超出设定概率阈值时,获取超出概率阈值的多个候选答案。根据筛选出的多个候选答案在对应的关联段落中的位置以及位置跨度,从多个候选答案中提取关键特征等信息,将多个候选答案进行特征融合,获取融合输出作为问题集合的输出响应。
在一实施例中,可重新读取输出响应对应的多个关联段落,重新进行特征提取,计算特征向量与输出响应对应的相似度,相似度计算可采用欧氏距离、余弦距离等计算方式。根据相似度计算结果对输出响应的正确性进行校验。
在一实施例中,可设置相似度阈值,计算的相似度高于设定的相似度阈值时,可将输出响应反馈给用户;计算的相似度低于于设定的相似度阈值时,可调整候选答案的权重,重新进行模型训练,保证问答过程的稳定性和准确定。
综上所述,本发明一种基于复合式问题的阅读理解方法,通过注意力机制训练问题到答案的问答模型,再通过从段落选取候选答案,融合两种方式获取的答案,提高输出响应的准确性和全面性;综合考虑多个候选答案的关联性,增加答案的上下文表示,进一步提高答案的正确性。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (10)

1.一种基于复合式问题的阅读理解方法,其特征在于,包括:
获取问题集合,并根据所述问题集合从数据集中获取目标文本;
根据所述问题集合获取所述目标文本中的多个关联段落;
从所述关联段落中获取所述问题集合的多个答案,并创建所述多个答案的概率模型;
融合所述概率模型的输出,获取所述问题集合的输出响应。
2.根据权利要求1所述的基于复合式问题的阅读理解方法,其特征在于,获取询问文本,将所述询问文本划分为多个子问题,创建所述问题集合;
提取所述问题集合的关键特征,根据所述关键特征从数据集中获取目标文本。
3.根据权利要求1所述的基于复合式问题的阅读理解方法,其特征在于,根据所述问题集合和所述目标文本的多个段落获取多维词向量;
将所述多维词向量输入神经网络,建立问题到所述目标文本多个段落的映射关系,进而获取第一关联模型。
4.根据权利要求1所述的基于复合式问题的阅读理解方法,其特征在于,对所述目标文本输入预设的编码模型获取中间语义向量;
根据所述问题集合和所述中间语义向量,获取问题到所述目标文本的映射关系,获取第二关联模型。
5.根据权利要求4所述的基于复合式问题的阅读理解方法,其特征在于,通过神经网络融合所述第一关联模型和所述第二关联模型,获取问题的多个所述关联段落。
6.根据权利要求5所述的基于复合式问题的阅读理解方法,其特征在于,所述神经网络可采用双向长短期记忆神经网络。
7.根据权利要求1所述的基于复合式问题的阅读理解方法,其特征在于,根据所述问题集合获取多个答案在所述关联段落中的位置,并根据每个答案的位置跨度设置答案权重;
根据根据所述权重获取答案的统计概率,建立所述概率模型。
8.根据权利要求7所述的基于复合式问题的阅读理解方法,其特征在于,设置答案的概率阈值,获取所述答案的统计概率超出所述概率阈值的多个答案,并根据每个答案在对应关联段落中的位置跨度,将所述多个答案进行融合,获取融合输出作为所述问题集合的输出响应。
9.根据权利要求8所述的基于复合式问题的阅读理解方法,其特征在于,通过重新获取所述输出响应对应的所述关联段落,获取所述关联段落与所述问题集合的相似度,进而对所述输出响应进行校验。
10.根据权利要求9所述的基于复合式问题的阅读理解方法,其特征在于,在训练所述概率模型时,根据所述相似度调整答案权重。
CN201911230823.2A 2019-12-05 2019-12-05 一种基于复合式问题的阅读理解方法 Active CN111143507B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911230823.2A CN111143507B (zh) 2019-12-05 2019-12-05 一种基于复合式问题的阅读理解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911230823.2A CN111143507B (zh) 2019-12-05 2019-12-05 一种基于复合式问题的阅读理解方法

Publications (2)

Publication Number Publication Date
CN111143507A true CN111143507A (zh) 2020-05-12
CN111143507B CN111143507B (zh) 2023-05-02

Family

ID=70517677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911230823.2A Active CN111143507B (zh) 2019-12-05 2019-12-05 一种基于复合式问题的阅读理解方法

Country Status (1)

Country Link
CN (1) CN111143507B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111539853A (zh) * 2020-06-19 2020-08-14 支付宝(杭州)信息技术有限公司 标准案由确定方法、装置和设备
CN112347229A (zh) * 2020-11-12 2021-02-09 润联软件系统(深圳)有限公司 一种答案抽取方法、装置、计算机设备及存储介质
CN112528788A (zh) * 2020-12-01 2021-03-19 重庆兆光科技股份有限公司 一种基于域不变特征和时空特征的重识别方法
CN113420111A (zh) * 2021-06-17 2021-09-21 中国科学院声学研究所 一种用于多跳推理问题的智能问答方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180300314A1 (en) * 2017-04-12 2018-10-18 Petuum Inc. Constituent Centric Architecture for Reading Comprehension
CN108959246A (zh) * 2018-06-12 2018-12-07 北京慧闻科技发展有限公司 基于改进的注意力机制的答案选择方法、装置和电子设备
CN109033068A (zh) * 2018-06-14 2018-12-18 北京慧闻科技发展有限公司 基于注意力机制的用于阅读理解的方法、装置和电子设备
US20190156220A1 (en) * 2017-11-22 2019-05-23 Microsoft Technology Licensing, Llc Using machine comprehension to answer a question
CN109918487A (zh) * 2019-01-28 2019-06-21 平安科技(深圳)有限公司 基于网络百科全书的智能问答方法和系统
CN109933792A (zh) * 2019-03-11 2019-06-25 海南中智信信息技术有限公司 基于多层双向lstm和验证模型的观点型问题阅读理解方法
CN110083682A (zh) * 2019-04-19 2019-08-02 西安交通大学 一种基于多轮注意力机制的机器阅读理解答案获取方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180300314A1 (en) * 2017-04-12 2018-10-18 Petuum Inc. Constituent Centric Architecture for Reading Comprehension
US20190156220A1 (en) * 2017-11-22 2019-05-23 Microsoft Technology Licensing, Llc Using machine comprehension to answer a question
CN108959246A (zh) * 2018-06-12 2018-12-07 北京慧闻科技发展有限公司 基于改进的注意力机制的答案选择方法、装置和电子设备
CN109033068A (zh) * 2018-06-14 2018-12-18 北京慧闻科技发展有限公司 基于注意力机制的用于阅读理解的方法、装置和电子设备
CN109918487A (zh) * 2019-01-28 2019-06-21 平安科技(深圳)有限公司 基于网络百科全书的智能问答方法和系统
CN109933792A (zh) * 2019-03-11 2019-06-25 海南中智信信息技术有限公司 基于多层双向lstm和验证模型的观点型问题阅读理解方法
CN110083682A (zh) * 2019-04-19 2019-08-02 西安交通大学 一种基于多轮注意力机制的机器阅读理解答案获取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LINLONG XIAO: "A reading comprehension style question answering model based on attention mechanism" *
尹伊淳;张铭;: "一种基于数据重构和富特征的神经网络机器阅读理解模型" *
郑玉昆;李丹;范臻;刘奕群;张敏;马少平;: "T-Reader:一种基于自注意力机制的多任务深度阅读理解模型" *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111539853A (zh) * 2020-06-19 2020-08-14 支付宝(杭州)信息技术有限公司 标准案由确定方法、装置和设备
CN112347229A (zh) * 2020-11-12 2021-02-09 润联软件系统(深圳)有限公司 一种答案抽取方法、装置、计算机设备及存储介质
CN112347229B (zh) * 2020-11-12 2021-07-20 润联软件系统(深圳)有限公司 一种答案抽取方法、装置、计算机设备及存储介质
CN112528788A (zh) * 2020-12-01 2021-03-19 重庆兆光科技股份有限公司 一种基于域不变特征和时空特征的重识别方法
CN112528788B (zh) * 2020-12-01 2023-11-21 重庆兆光科技股份有限公司 一种基于域不变特征和时空特征的重识别方法
CN113420111A (zh) * 2021-06-17 2021-09-21 中国科学院声学研究所 一种用于多跳推理问题的智能问答方法及装置
CN113420111B (zh) * 2021-06-17 2023-08-11 中国科学院声学研究所 一种用于多跳推理问题的智能问答方法及装置

Also Published As

Publication number Publication date
CN111143507B (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
CN110795543B (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
US20230195773A1 (en) Text classification method, apparatus and computer-readable storage medium
CN111143507B (zh) 一种基于复合式问题的阅读理解方法
CN110569353A (zh) 一种基于注意力机制的Bi-LSTM的标签推荐方法
CN110674252A (zh) 一种面向司法领域的高精度语义搜索系统
CN108846138B (zh) 一种融合答案信息的问题分类模型构建方法、装置和介质
CN109271524B (zh) 知识库问答系统中的实体链接方法
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN112883175B (zh) 结合预训练模型及模板生成的气象服务交互方法及系统
CN111666376B (zh) 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置
CN110750635A (zh) 一种基于联合深度学习模型的法条推荐方法
CN111291188A (zh) 一种智能信息抽取方法及系统
CN112966117A (zh) 实体链接方法
CN113312478A (zh) 基于阅读理解的观点挖掘方法及装置
CN111680264B (zh) 一种多文档阅读理解方法
CN112818117A (zh) 标签映射方法、系统、计算机可读存储介质
CN116737922A (zh) 一种游客在线评论细粒度情感分析方法和系统
CN112149410A (zh) 语义识别方法、装置、计算机设备和存储介质
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114491023A (zh) 一种文本处理方法、装置、电子设备和存储介质
CN114330318A (zh) 一种金融领域中文细粒度实体识别方法及装置
CN113836269A (zh) 一种基于问答式系统的篇章级核心事件抽取方法
CN113761192A (zh) 文本处理方法、文本处理装置及文本处理设备
CN116629258B (zh) 基于复杂信息项数据的司法文书的结构化分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 400000 6-1, 6-2, 6-3, 6-4, building 7, No. 50, Shuangxing Avenue, Biquan street, Bishan District, Chongqing

Applicant after: CHONGQING ZHAOGUANG TECHNOLOGY CO.,LTD.

Address before: 400000 2-2-1, 109 Fengtian Avenue, tianxingqiao, Shapingba District, Chongqing

Applicant before: CHONGQING ZHAOGUANG TECHNOLOGY CO.,LTD.

GR01 Patent grant
GR01 Patent grant