CN112417119A - 一种基于深度学习的开放域问答预测方法 - Google Patents

一种基于深度学习的开放域问答预测方法 Download PDF

Info

Publication number
CN112417119A
CN112417119A CN202011299830.0A CN202011299830A CN112417119A CN 112417119 A CN112417119 A CN 112417119A CN 202011299830 A CN202011299830 A CN 202011299830A CN 112417119 A CN112417119 A CN 112417119A
Authority
CN
China
Prior art keywords
question
answer
deep learning
open
paragraphs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011299830.0A
Other languages
English (en)
Inventor
徐玉鹏
程帆
张冬梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202011299830.0A priority Critical patent/CN112417119A/zh
Publication of CN112417119A publication Critical patent/CN112417119A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于深度学习的开放域问答预测方法,该方法包括以下步骤:S1:获取维基百科训练语料并对其建立索引;S2:根据问题通过检索获得相关性最高的多篇文章,并切分成段落,最终输出多个得分最高的段落;S3:使用SQuAD数据集训练一个机器阅读理解模型;S4:以多个得分最高的段落以及问题作为输入,通过机器阅读理解模型预测答案在段落中的起始位置和结束位置。与现有技术相比,本发明具有高效、精确、快速等优点。

Description

一种基于深度学习的开放域问答预测方法
技术领域
本发明涉及自然语言处理领域,尤其是涉及一种基于深度学习的开放域问答预测方法。
背景技术
机器阅读理解(MRC)旨在教机器阅读和理解人类语言,这是自然语言理解(NLP)领域的长期目标,随着深度学习的蓬勃发展,机器阅读理解任务也取得了极大的突破。
类似IBM的DeepQA这样的大型QA系统依赖与多个知识源来回答问题,除了维基百科,它还使用了知识库(knowledge base),新闻以及图书等,但是这样的系统过度依赖冗余的信息来正确回答问题。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于深度学习的开放域问答预测方法。
本发明的目的可以通过以下技术方案来实现:
一种基于深度学习的开放域问答预测方法,该方法包括以下步骤:
S1:获取维基百科训练语料并对其建立索引;
S2:根据问题通过检索获得相关性最高的多篇文章,并切分成段落,最终输出多个得分最高的段落;
S3:使用SQuAD数据集训练一个机器阅读理解模型;
S4:以多个得分最高的段落以及问题作为输入,通过机器阅读理解模型预测答案在段落中的起始位置和结束位置。
所述的步骤S1具体包括以下步骤:
S11:获取维基百科语料作为知识库;
S12:对维基百科语料进行分词预处理(tokenize);
S13:对维基百科文章建立索引。
所述的步骤S2中,根据问题从维基百科的文章中检索获得相关性最高的5篇文章。
所述的步骤S2具体包括以下步骤:
S21:对问题进行预处理,得到问题的bag-of-words信息;
S22:通过TF-IDF算法在建完索引的数据库中检索出相关性最高的5篇文章。
所述的步骤S3具体包括以下步骤:
S31:段落编码:首次将段落p中的每一个段落token(分词)pi表示为一个特征向量
Figure BDA0002786454790000021
并且其作为多层LSTM网络的输入,则有:
Figure BDA0002786454790000022
其中,下标m为段落token的总数;
S32:问题编码:以问题的每一个问题tokenqi的词向量作为另一个LSTM网络输入,并且将隐藏单元拼接成一个向量{q1,…,ql}→q,通过q=∑jbjqj计算得到问题的编码,其中,bj为问题中第j个词的重要程度。
所述的步骤S32中,问题中第j个词的重要程度bj的计算式为:
Figure BDA0002786454790000023
其中,w为要学习的权重,qj、qj′分别为问题中第j和j′个词。
所述的步骤S4中,以段落向量{P1,…,Pm}和问题向量q作为输入,分别训练两个分类器来预测答案的开始和结束位置。
所述的步骤S4中,在训练阶段,采用双线性函数计算每个token作为开始和结束位置的概率,则有:
Pstart(i)∝exp(piWsq)
Pend(i)∝exp(piWeq)
其中,Pstart(i)为第i个段落token pi作为开始位置的概率,Pend(i)为第i个段落token pi作为结束位置的概率,Ws和We分别为答案片段开始和结束位置的可学习的参数矩阵。
所述的步骤S4中,在预测阶段,选择答案片段位置为token i到token i′,其中i≤i′≤i+15,并且最大化Pstart(i)×Pend(i′)。
所述的步骤S4中,以5个得分最高的段落以及问题作为输入,通过机器阅读理解模型预测答案在段落中的起始位置和结束位置。
与现有技术相比,本发明具有以下优点:
一、本发明使用TF-IDF方法,高效地从百万级别文章中找出相关度最高的多篇文章。
二、在本发明中,只有维基百科一个知识源,这样能够迫使模型非常精确。
三、本发明中阅读理解模型使用多层LSTM模型来预测答案片段在文章中的起始位置,准确快速。
附图说明
图1为本发明的方法流程示意图。
图2为本发明的模型架构图。
图3为本发明的具体实施过程。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
实施例
如图1-3所示,本发明提供一种基于深度学习的开放域问答系统实现方法,包括以下步骤:
1)获取维基百科样本数据,进行预处理;
2)根据问题检索出相关性最高的段落;
3)使用SQuAD数据集训练一个多层LSTM模型;
4)将候选段和问题作为输入,输入LSTM模型,获得答案在文章中的起始位置;
各步骤具体过程如下:
步骤1)获取维基百科样本数据,进行预处理,具体包括:
11)从wiki官网下载英文语料,下载完成后对每篇文章只保留文本数据,去掉表格,列表等结构化数据;
12)对文本数据进行规范化处理;
13)使用StanfordCoreNLPTokenizer对文本数据进行tokenize;
14)使用TF-IDF方法对各个文章建立索引
步骤2)根据问题检索出相关性最高的段落,具体包括:
21)对问题进行预处理,得到问题的bag-of-words信息;
22)通过TF-IDF算法在建完索引的数据库中检索出相关性最高的5篇文章;
步骤3)使用SQuAD数据集训练一个多层LSTM机器阅读理解模型
31)段落编码Paragraphencoding:首次把段落p中的每一个tokenpi表示为一个特征向量
Figure BDA0002786454790000041
并且把他们作为输入,输入到多层LSTM网络
Figure BDA0002786454790000042
32)问题编码Questionencoding:以问题的每一个tokenqi的wordembedding作为输入,输入给另一个LSTM网络,并且把隐藏单元拼接成一个向量:
{q1,…,ql}→q
通过q=∑jbjqj计算得到问题的encoding,其中bj是问题中每一个词的重要程度,计算方法如下:
Figure BDA0002786454790000043
其中w是要学习的权重;
步骤4)将候选段和问题作为输入,输入LSTM模型,获得答案在文章中的起始位置,具体包括:
41)以段落向量{P1,…,Pm}和问题向量q作为输入,分别训练两个分类器来预测答案的开始和结束位置,具体的,使用双线性函数来计算每个token作为开始和结束位置的概率:
Pstart(i)∝exp(piWsq)
Pend(i)∝exp(piWeq)
42)在预测阶段,选择答案片段位置tokeni到tokeni′,其中i≤i′≤i+15,并且最大化Pstart(i)×Pend(i′),Ws和We分别为答案片段开始和结束位置的可学习的参数矩阵。
本发明使用Wikipedia作为唯一的知识源,通过对wikipedia建立索引,以及使用深度学习模型来实现机器阅读理解模型,成功实现了一个开放域的问答系统。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的工作人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于深度学习的开放域问答预测方法,其特征在于,该方法包括以下步骤:
S1:获取维基百科训练语料并对其建立索引;
S2:根据问题通过检索获得相关性最高的多篇文章,并切分成段落,最终输出多个得分最高的段落;
S3:使用SQuAD数据集训练一个机器阅读理解模型;
S4:以多个得分最高的段落以及问题作为输入,通过机器阅读理解模型预测答案在段落中的起始位置和结束位置。
2.根据权利要求1所述的一种基于深度学习的开放域问答预测方法,其特征在于,所述的步骤S1具体包括以下步骤:
S11:获取维基百科语料作为知识库;
S12:对维基百科语料进行分词预处理;
S13:对维基百科文章建立索引。
3.根据权利要求1所述的一种基于深度学习的开放域问答预测方法,其特征在于,所述的步骤S2中,根据问题从维基百科的文章中检索获得相关性最高的5篇文章。
4.根据权利要求1所述的一种基于深度学习的开放域问答预测方法,其特征在于,所述的步骤S2具体包括以下步骤:
S21:对问题进行预处理,得到问题的bag-of-words信息;
S22:通过TF-IDF算法在建完索引的数据库中检索出相关性最高的5篇文章。
5.根据权利要求1所述的一种基于深度学习的开放域问答预测方法,其特征在于,所述的步骤S3具体包括以下步骤:
S31:段落编码:首次将段落p中的每一个段落token pi表示为一个特征向量
Figure FDA0002786454780000012
并且其作为多层LSTM网络的输入,则有:
Figure FDA0002786454780000011
其中,下标m为段落token的总数;
S32:问题编码:以问题的每一个问题token qi的词向量作为另一个LSTM网络输入,并且将隐藏单元拼接成一个向量{q1,...,ql}→q,通过q=∑jbjqj计算得到问题的编码,其中,bj为问题中第j个词的重要程度。
6.根据权利要求5所述的一种基于深度学习的开放域问答预测方法,其特征在于,所述的步骤S32中,问题中第j个词的重要程度bj的计算式为:
Figure FDA0002786454780000021
其中,w为要学习的权重,qj、qj′分别为问题中第j和j′个词。
7.根据权利要求1所述的一种基于深度学习的开放域问答预测方法,其特征在于,所述的步骤S4中,以段落向量{P1,...,Pm}和问题向量q作为输入,分别训练两个分类器来预测答案的开始和结束位置。
8.根据权利要求7所述的一种基于深度学习的开放域问答预测方法,其特征在于,所述的步骤S4中,在训练阶段,采用双线性函数计算每个token作为开始和结束位置的概率,则有:
Psiart(i)∝exp(piWsq)
Pend(i)∝exp(piWeq)
其中,Pstart(i)为第i个段落token pi作为开始位置的概率,Pend(i)为第i个段落tokenpi作为结束位置的概率,Ws和We分别为答案片段开始和结束位置的可学习的参数矩阵。
9.根据权利要求1所述的一种基于深度学习的开放域问答预测方法,其特征在于,所述的步骤S4中,在预测阶段,选择答案片段位置为token i到token i′,其中i≤i′≤i+15,并且最大化Psiart(i)×Pend(i′)。
10.根据权利要求1所述的一种基于深度学习的开放域问答预测方法,其特征在于,所述的步骤S4中,以5个得分最高的段落以及问题作为输入,通过机器阅读理解模型预测答案在段落中的起始位置和结束位置。
CN202011299830.0A 2020-11-19 2020-11-19 一种基于深度学习的开放域问答预测方法 Pending CN112417119A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011299830.0A CN112417119A (zh) 2020-11-19 2020-11-19 一种基于深度学习的开放域问答预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011299830.0A CN112417119A (zh) 2020-11-19 2020-11-19 一种基于深度学习的开放域问答预测方法

Publications (1)

Publication Number Publication Date
CN112417119A true CN112417119A (zh) 2021-02-26

Family

ID=74773455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011299830.0A Pending CN112417119A (zh) 2020-11-19 2020-11-19 一种基于深度学习的开放域问答预测方法

Country Status (1)

Country Link
CN (1) CN112417119A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268571A (zh) * 2021-07-21 2021-08-17 北京明略软件系统有限公司 一种确定段落中正确答案位置的方法、装置、设备及介质
CN114490969A (zh) * 2021-12-29 2022-05-13 北京百度网讯科技有限公司 基于表格的问答方法、装置以及电子设备
CN115146049A (zh) * 2022-09-01 2022-10-04 科大讯飞(苏州)科技有限公司 问答检索方法、模型训练方法及装置、设备和存储介质
CN115292469A (zh) * 2022-09-28 2022-11-04 之江实验室 一种结合段落搜索和机器阅读理解的问答方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107076567A (zh) * 2015-05-21 2017-08-18 百度(美国)有限责任公司 多语言图像问答
CN108363743A (zh) * 2018-01-24 2018-08-03 清华大学深圳研究生院 一种智能问题生成方法、装置和计算机可读存储介质
CN109918487A (zh) * 2019-01-28 2019-06-21 平安科技(深圳)有限公司 基于网络百科全书的智能问答方法和系统
KR20190078899A (ko) * 2017-12-27 2019-07-05 연세대학교 산학협력단 계층적 시각 특징을 이용한 시각 질의 응답 장치 및 방법
CN111190997A (zh) * 2018-10-26 2020-05-22 南京大学 一种使用神经网络和机器学习排序算法的问答系统实现方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107076567A (zh) * 2015-05-21 2017-08-18 百度(美国)有限责任公司 多语言图像问答
KR20190078899A (ko) * 2017-12-27 2019-07-05 연세대학교 산학협력단 계층적 시각 특징을 이용한 시각 질의 응답 장치 및 방법
CN108363743A (zh) * 2018-01-24 2018-08-03 清华大学深圳研究生院 一种智能问题生成方法、装置和计算机可读存储介质
CN111190997A (zh) * 2018-10-26 2020-05-22 南京大学 一种使用神经网络和机器学习排序算法的问答系统实现方法
CN109918487A (zh) * 2019-01-28 2019-06-21 平安科技(深圳)有限公司 基于网络百科全书的智能问答方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
朱晨光: "《机器阅读理解》", 31 March 2020, 机械工业出版社 *
闫龙川等: "《数据科学与工程技术丛书 Python文本分析 第2版》", 31 October 2020, 机械工业出版社 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268571A (zh) * 2021-07-21 2021-08-17 北京明略软件系统有限公司 一种确定段落中正确答案位置的方法、装置、设备及介质
CN114490969A (zh) * 2021-12-29 2022-05-13 北京百度网讯科技有限公司 基于表格的问答方法、装置以及电子设备
CN115146049A (zh) * 2022-09-01 2022-10-04 科大讯飞(苏州)科技有限公司 问答检索方法、模型训练方法及装置、设备和存储介质
CN115292469A (zh) * 2022-09-28 2022-11-04 之江实验室 一种结合段落搜索和机器阅读理解的问答方法
CN115292469B (zh) * 2022-09-28 2023-02-07 之江实验室 一种结合段落搜索和机器阅读理解的问答方法

Similar Documents

Publication Publication Date Title
CN109271505B (zh) 一种基于问题答案对的问答系统实现方法
CN109885672B (zh) 一种面向在线教育的问答式智能检索系统及方法
CN112214593B (zh) 问答处理方法、装置、电子设备及存储介质
CN110059160B (zh) 一种端到端的基于上下文的知识库问答方法及装置
CN112417119A (zh) 一种基于深度学习的开放域问答预测方法
CN111291188B (zh) 一种智能信息抽取方法及系统
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN112052326A (zh) 一种基于长短文本匹配的智能问答方法及系统
CN112115716A (zh) 一种基于多维词向量下文本匹配的服务发现方法、系统及设备
CN104484380A (zh) 个性化搜索方法及装置
CN111078837A (zh) 智能问答信息处理方法、电子设备及计算机可读存储介质
KR100847376B1 (ko) 질의어 자동 추출을 이용한 검색 방법 및 장치
CN111666376B (zh) 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN110866089A (zh) 基于同义多语境分析的机器人知识库构建系统及方法
CN110866102A (zh) 检索处理方法
CN116662502A (zh) 基于检索增强的金融问答文本生成方法、设备及存储介质
CN117453851A (zh) 基于知识图谱的文本索引增强问答方法及系统
Popa et al. Bart-tl: Weakly-supervised topic label generation
CN112784602A (zh) 基于远程监督的新闻情感实体抽取方法
CN116796730A (zh) 基于人工智能的文本纠错方法、装置、设备及存储介质
CN117312509A (zh) 一种海量信息下基于大语言模型的知识库问答方法及装置
Asmawati et al. Sentiment analysis of text memes: A comparison among supervised machine learning methods
WO2023098971A1 (en) Method and apparatus for self-supervised extractive question answering
CN113392647B (zh) 一种语料生成的方法、相关装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210226

RJ01 Rejection of invention patent application after publication