CN112417119A - 一种基于深度学习的开放域问答预测方法 - Google Patents
一种基于深度学习的开放域问答预测方法 Download PDFInfo
- Publication number
- CN112417119A CN112417119A CN202011299830.0A CN202011299830A CN112417119A CN 112417119 A CN112417119 A CN 112417119A CN 202011299830 A CN202011299830 A CN 202011299830A CN 112417119 A CN112417119 A CN 112417119A
- Authority
- CN
- China
- Prior art keywords
- question
- answer
- deep learning
- open
- paragraphs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000013135 deep learning Methods 0.000 title claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于深度学习的开放域问答预测方法,该方法包括以下步骤:S1:获取维基百科训练语料并对其建立索引;S2:根据问题通过检索获得相关性最高的多篇文章,并切分成段落,最终输出多个得分最高的段落;S3:使用SQuAD数据集训练一个机器阅读理解模型;S4:以多个得分最高的段落以及问题作为输入,通过机器阅读理解模型预测答案在段落中的起始位置和结束位置。与现有技术相比,本发明具有高效、精确、快速等优点。
Description
技术领域
本发明涉及自然语言处理领域,尤其是涉及一种基于深度学习的开放域问答预测方法。
背景技术
机器阅读理解(MRC)旨在教机器阅读和理解人类语言,这是自然语言理解(NLP)领域的长期目标,随着深度学习的蓬勃发展,机器阅读理解任务也取得了极大的突破。
类似IBM的DeepQA这样的大型QA系统依赖与多个知识源来回答问题,除了维基百科,它还使用了知识库(knowledge base),新闻以及图书等,但是这样的系统过度依赖冗余的信息来正确回答问题。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于深度学习的开放域问答预测方法。
本发明的目的可以通过以下技术方案来实现:
一种基于深度学习的开放域问答预测方法,该方法包括以下步骤:
S1:获取维基百科训练语料并对其建立索引;
S2:根据问题通过检索获得相关性最高的多篇文章,并切分成段落,最终输出多个得分最高的段落;
S3:使用SQuAD数据集训练一个机器阅读理解模型;
S4:以多个得分最高的段落以及问题作为输入,通过机器阅读理解模型预测答案在段落中的起始位置和结束位置。
所述的步骤S1具体包括以下步骤:
S11:获取维基百科语料作为知识库;
S12:对维基百科语料进行分词预处理(tokenize);
S13:对维基百科文章建立索引。
所述的步骤S2中,根据问题从维基百科的文章中检索获得相关性最高的5篇文章。
所述的步骤S2具体包括以下步骤:
S21:对问题进行预处理,得到问题的bag-of-words信息;
S22:通过TF-IDF算法在建完索引的数据库中检索出相关性最高的5篇文章。
所述的步骤S3具体包括以下步骤:
其中,下标m为段落token的总数;
S32:问题编码:以问题的每一个问题tokenqi的词向量作为另一个LSTM网络输入,并且将隐藏单元拼接成一个向量{q1,…,ql}→q,通过q=∑jbjqj计算得到问题的编码,其中,bj为问题中第j个词的重要程度。
所述的步骤S32中,问题中第j个词的重要程度bj的计算式为:
其中,w为要学习的权重,qj、qj′分别为问题中第j和j′个词。
所述的步骤S4中,以段落向量{P1,…,Pm}和问题向量q作为输入,分别训练两个分类器来预测答案的开始和结束位置。
所述的步骤S4中,在训练阶段,采用双线性函数计算每个token作为开始和结束位置的概率,则有:
Pstart(i)∝exp(piWsq)
Pend(i)∝exp(piWeq)
其中,Pstart(i)为第i个段落token pi作为开始位置的概率,Pend(i)为第i个段落token pi作为结束位置的概率,Ws和We分别为答案片段开始和结束位置的可学习的参数矩阵。
所述的步骤S4中,在预测阶段,选择答案片段位置为token i到token i′,其中i≤i′≤i+15,并且最大化Pstart(i)×Pend(i′)。
所述的步骤S4中,以5个得分最高的段落以及问题作为输入,通过机器阅读理解模型预测答案在段落中的起始位置和结束位置。
与现有技术相比,本发明具有以下优点:
一、本发明使用TF-IDF方法,高效地从百万级别文章中找出相关度最高的多篇文章。
二、在本发明中,只有维基百科一个知识源,这样能够迫使模型非常精确。
三、本发明中阅读理解模型使用多层LSTM模型来预测答案片段在文章中的起始位置,准确快速。
附图说明
图1为本发明的方法流程示意图。
图2为本发明的模型架构图。
图3为本发明的具体实施过程。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
实施例
如图1-3所示,本发明提供一种基于深度学习的开放域问答系统实现方法,包括以下步骤:
1)获取维基百科样本数据,进行预处理;
2)根据问题检索出相关性最高的段落;
3)使用SQuAD数据集训练一个多层LSTM模型;
4)将候选段和问题作为输入,输入LSTM模型,获得答案在文章中的起始位置;
各步骤具体过程如下:
步骤1)获取维基百科样本数据,进行预处理,具体包括:
11)从wiki官网下载英文语料,下载完成后对每篇文章只保留文本数据,去掉表格,列表等结构化数据;
12)对文本数据进行规范化处理;
13)使用StanfordCoreNLPTokenizer对文本数据进行tokenize;
14)使用TF-IDF方法对各个文章建立索引
步骤2)根据问题检索出相关性最高的段落,具体包括:
21)对问题进行预处理,得到问题的bag-of-words信息;
22)通过TF-IDF算法在建完索引的数据库中检索出相关性最高的5篇文章;
步骤3)使用SQuAD数据集训练一个多层LSTM机器阅读理解模型
32)问题编码Questionencoding:以问题的每一个tokenqi的wordembedding作为输入,输入给另一个LSTM网络,并且把隐藏单元拼接成一个向量:
{q1,…,ql}→q
通过q=∑jbjqj计算得到问题的encoding,其中bj是问题中每一个词的重要程度,计算方法如下:
其中w是要学习的权重;
步骤4)将候选段和问题作为输入,输入LSTM模型,获得答案在文章中的起始位置,具体包括:
41)以段落向量{P1,…,Pm}和问题向量q作为输入,分别训练两个分类器来预测答案的开始和结束位置,具体的,使用双线性函数来计算每个token作为开始和结束位置的概率:
Pstart(i)∝exp(piWsq)
Pend(i)∝exp(piWeq)
42)在预测阶段,选择答案片段位置tokeni到tokeni′,其中i≤i′≤i+15,并且最大化Pstart(i)×Pend(i′),Ws和We分别为答案片段开始和结束位置的可学习的参数矩阵。
本发明使用Wikipedia作为唯一的知识源,通过对wikipedia建立索引,以及使用深度学习模型来实现机器阅读理解模型,成功实现了一个开放域的问答系统。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的工作人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种基于深度学习的开放域问答预测方法,其特征在于,该方法包括以下步骤:
S1:获取维基百科训练语料并对其建立索引;
S2:根据问题通过检索获得相关性最高的多篇文章,并切分成段落,最终输出多个得分最高的段落;
S3:使用SQuAD数据集训练一个机器阅读理解模型;
S4:以多个得分最高的段落以及问题作为输入,通过机器阅读理解模型预测答案在段落中的起始位置和结束位置。
2.根据权利要求1所述的一种基于深度学习的开放域问答预测方法,其特征在于,所述的步骤S1具体包括以下步骤:
S11:获取维基百科语料作为知识库;
S12:对维基百科语料进行分词预处理;
S13:对维基百科文章建立索引。
3.根据权利要求1所述的一种基于深度学习的开放域问答预测方法,其特征在于,所述的步骤S2中,根据问题从维基百科的文章中检索获得相关性最高的5篇文章。
4.根据权利要求1所述的一种基于深度学习的开放域问答预测方法,其特征在于,所述的步骤S2具体包括以下步骤:
S21:对问题进行预处理,得到问题的bag-of-words信息;
S22:通过TF-IDF算法在建完索引的数据库中检索出相关性最高的5篇文章。
7.根据权利要求1所述的一种基于深度学习的开放域问答预测方法,其特征在于,所述的步骤S4中,以段落向量{P1,...,Pm}和问题向量q作为输入,分别训练两个分类器来预测答案的开始和结束位置。
8.根据权利要求7所述的一种基于深度学习的开放域问答预测方法,其特征在于,所述的步骤S4中,在训练阶段,采用双线性函数计算每个token作为开始和结束位置的概率,则有:
Psiart(i)∝exp(piWsq)
Pend(i)∝exp(piWeq)
其中,Pstart(i)为第i个段落token pi作为开始位置的概率,Pend(i)为第i个段落tokenpi作为结束位置的概率,Ws和We分别为答案片段开始和结束位置的可学习的参数矩阵。
9.根据权利要求1所述的一种基于深度学习的开放域问答预测方法,其特征在于,所述的步骤S4中,在预测阶段,选择答案片段位置为token i到token i′,其中i≤i′≤i+15,并且最大化Psiart(i)×Pend(i′)。
10.根据权利要求1所述的一种基于深度学习的开放域问答预测方法,其特征在于,所述的步骤S4中,以5个得分最高的段落以及问题作为输入,通过机器阅读理解模型预测答案在段落中的起始位置和结束位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011299830.0A CN112417119A (zh) | 2020-11-19 | 2020-11-19 | 一种基于深度学习的开放域问答预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011299830.0A CN112417119A (zh) | 2020-11-19 | 2020-11-19 | 一种基于深度学习的开放域问答预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112417119A true CN112417119A (zh) | 2021-02-26 |
Family
ID=74773455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011299830.0A Pending CN112417119A (zh) | 2020-11-19 | 2020-11-19 | 一种基于深度学习的开放域问答预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112417119A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113268571A (zh) * | 2021-07-21 | 2021-08-17 | 北京明略软件系统有限公司 | 一种确定段落中正确答案位置的方法、装置、设备及介质 |
CN114490969A (zh) * | 2021-12-29 | 2022-05-13 | 北京百度网讯科技有限公司 | 基于表格的问答方法、装置以及电子设备 |
CN115146049A (zh) * | 2022-09-01 | 2022-10-04 | 科大讯飞(苏州)科技有限公司 | 问答检索方法、模型训练方法及装置、设备和存储介质 |
CN115292469A (zh) * | 2022-09-28 | 2022-11-04 | 之江实验室 | 一种结合段落搜索和机器阅读理解的问答方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107076567A (zh) * | 2015-05-21 | 2017-08-18 | 百度(美国)有限责任公司 | 多语言图像问答 |
CN108363743A (zh) * | 2018-01-24 | 2018-08-03 | 清华大学深圳研究生院 | 一种智能问题生成方法、装置和计算机可读存储介质 |
CN109918487A (zh) * | 2019-01-28 | 2019-06-21 | 平安科技(深圳)有限公司 | 基于网络百科全书的智能问答方法和系统 |
KR20190078899A (ko) * | 2017-12-27 | 2019-07-05 | 연세대학교 산학협력단 | 계층적 시각 특징을 이용한 시각 질의 응답 장치 및 방법 |
CN111190997A (zh) * | 2018-10-26 | 2020-05-22 | 南京大学 | 一种使用神经网络和机器学习排序算法的问答系统实现方法 |
-
2020
- 2020-11-19 CN CN202011299830.0A patent/CN112417119A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107076567A (zh) * | 2015-05-21 | 2017-08-18 | 百度(美国)有限责任公司 | 多语言图像问答 |
KR20190078899A (ko) * | 2017-12-27 | 2019-07-05 | 연세대학교 산학협력단 | 계층적 시각 특징을 이용한 시각 질의 응답 장치 및 방법 |
CN108363743A (zh) * | 2018-01-24 | 2018-08-03 | 清华大学深圳研究生院 | 一种智能问题生成方法、装置和计算机可读存储介质 |
CN111190997A (zh) * | 2018-10-26 | 2020-05-22 | 南京大学 | 一种使用神经网络和机器学习排序算法的问答系统实现方法 |
CN109918487A (zh) * | 2019-01-28 | 2019-06-21 | 平安科技(深圳)有限公司 | 基于网络百科全书的智能问答方法和系统 |
Non-Patent Citations (2)
Title |
---|
朱晨光: "《机器阅读理解》", 31 March 2020, 机械工业出版社 * |
闫龙川等: "《数据科学与工程技术丛书 Python文本分析 第2版》", 31 October 2020, 机械工业出版社 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113268571A (zh) * | 2021-07-21 | 2021-08-17 | 北京明略软件系统有限公司 | 一种确定段落中正确答案位置的方法、装置、设备及介质 |
CN114490969A (zh) * | 2021-12-29 | 2022-05-13 | 北京百度网讯科技有限公司 | 基于表格的问答方法、装置以及电子设备 |
CN115146049A (zh) * | 2022-09-01 | 2022-10-04 | 科大讯飞(苏州)科技有限公司 | 问答检索方法、模型训练方法及装置、设备和存储介质 |
CN115292469A (zh) * | 2022-09-28 | 2022-11-04 | 之江实验室 | 一种结合段落搜索和机器阅读理解的问答方法 |
CN115292469B (zh) * | 2022-09-28 | 2023-02-07 | 之江实验室 | 一种结合段落搜索和机器阅读理解的问答方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109271505B (zh) | 一种基于问题答案对的问答系统实现方法 | |
CN109885672B (zh) | 一种面向在线教育的问答式智能检索系统及方法 | |
CN112214593B (zh) | 问答处理方法、装置、电子设备及存储介质 | |
CN110059160B (zh) | 一种端到端的基于上下文的知识库问答方法及装置 | |
CN112417119A (zh) | 一种基于深度学习的开放域问答预测方法 | |
CN111291188B (zh) | 一种智能信息抽取方法及系统 | |
CN112287069B (zh) | 基于语音语义的信息检索方法、装置及计算机设备 | |
CN112052326A (zh) | 一种基于长短文本匹配的智能问答方法及系统 | |
CN112115716A (zh) | 一种基于多维词向量下文本匹配的服务发现方法、系统及设备 | |
CN104484380A (zh) | 个性化搜索方法及装置 | |
CN111078837A (zh) | 智能问答信息处理方法、电子设备及计算机可读存储介质 | |
KR100847376B1 (ko) | 질의어 자동 추출을 이용한 검색 방법 및 장치 | |
CN111666376B (zh) | 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置 | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
CN110866089A (zh) | 基于同义多语境分析的机器人知识库构建系统及方法 | |
CN110866102A (zh) | 检索处理方法 | |
CN116662502A (zh) | 基于检索增强的金融问答文本生成方法、设备及存储介质 | |
CN117453851A (zh) | 基于知识图谱的文本索引增强问答方法及系统 | |
Popa et al. | Bart-tl: Weakly-supervised topic label generation | |
CN112784602A (zh) | 基于远程监督的新闻情感实体抽取方法 | |
CN116796730A (zh) | 基于人工智能的文本纠错方法、装置、设备及存储介质 | |
CN117312509A (zh) | 一种海量信息下基于大语言模型的知识库问答方法及装置 | |
Asmawati et al. | Sentiment analysis of text memes: A comparison among supervised machine learning methods | |
WO2023098971A1 (en) | Method and apparatus for self-supervised extractive question answering | |
CN113392647B (zh) | 一种语料生成的方法、相关装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210226 |
|
RJ01 | Rejection of invention patent application after publication |