CN110162684B - 基于深度学习的机器阅读理解数据集构建以及评估方法 - Google Patents
基于深度学习的机器阅读理解数据集构建以及评估方法 Download PDFInfo
- Publication number
- CN110162684B CN110162684B CN201910375360.2A CN201910375360A CN110162684B CN 110162684 B CN110162684 B CN 110162684B CN 201910375360 A CN201910375360 A CN 201910375360A CN 110162684 B CN110162684 B CN 110162684B
- Authority
- CN
- China
- Prior art keywords
- data set
- understanding
- role
- machine reading
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种基于深度学习的机器阅读理解数据集构建以及评估方法,包括以下步骤:阶段1、原始数据集构建;阶段2、角色分配及标注审核;阶段3、数据集测试评估。本发明解决了在特定领域中基于深度学习的机器阅读理解缺乏数据集的问题,并且能够有效提高算法性能,更加贴近实用。经过本发明提供的数据集进行训练后可以让机器阅读理解文本,旨在颠覆以往特定领域依赖人工搜索和总结提炼答案的模式,大幅提升关键信息的获取效率。本发明能够通过高效以及可信的方式对数据集进行标注,保证数据集的正确性,适用于特定领域的机器阅读理解。
Description
技术领域
本发明涉及数据集标注以及评估方法,尤其涉及一种基于深度学习的机器阅读理解数据集构建以及评估方法。
背景技术
一个机器阅读理解领域内的数据集构建包含数据集标注以及数据集评估。对数据集的标注主要就是对单篇以及多篇候选文档中,通过人工提问的方式,在这些文档中标注出提问的答案。对数据集的评估主要是依靠人为抽样进行评估。
目前,在机器阅读领域最具权威性的数据集为美国斯坦福大学构建的SQUAD1.0以及2.0阅读理解数据集。这类数据集主要是针对单篇文档进行提问,涉及的答案内容均能够在原文中找到。这类数据集的构建主要是通过人工标注单篇文档的方式进行构建且均为英文。
然后,我国在基于深度学习的机器阅读数据集构建领域也是通过传统的互联网众包进行人工标注的方式对单篇文档进行标注,涉及的内容多为“完形填空”式机器阅读理解。这种数据集构建方法不能适应大数据时代对于机器阅读理解技术的要求,迫切需要从单文档“完形填空”式阅读理解向多文档复杂逻辑问答式进行转变,综合运用海量互联网新闻中全球海量信息,进行基于深度学习的机器阅读理解数据集构建以及评估。
发明内容
发明目的:为了克服现有技术中基于单文档的机器阅读理解构建存在不全面不符合实际需求的缺陷,本发明的目的是提供一种基于深度学习的机器阅读理解数据集构建以及评估方法。
技术方案:一种基于深度学习的机器阅读理解数据集构建以及评估方法,包括如下步骤:
阶段1、原始数据集构建;
阶段2、角色分配及标注审核;
阶段3、数据集测试评估。
进一步的,所述阶段1具体包括如下内容:
步骤(2.1)、获取种子网站上所有的原始网页;
步骤(2.2)、对原始网页过滤掉不符合要求的内容,仅保留符合要求的文本数据,构建基础文本语料库;所述不符合要求的内容包括有乱码、非中英文、广告以及非目标领域政治、经济、军事类的文本,所述符合要求的文本数据包括政治、经济、军事类目标领域的文本数据;
步骤(2.3)、对基础文本语料库中的所有文本数据,处理成统一格式的XML文件,导入到数据库中;
步骤(2.4)、根据数据库中的文本数据,建立关键词索引,并构建搜索引擎;
步骤(2.5)、导入用户需求问题集,根据用户的问题,通过搜索引擎返回的文档,整理成为机器阅读理解原始数据集。
进一步的,所述阶段2具体包括如下内容:
步骤(3.1)、分配阅读理解数据集标注员角色,该角色的任务为针对原始数据集标注问题-答案对;所述标注员角色的个数为:其中,N表示需要标注的文章总数量,Time表示标注任务要求完成的天数,n表示每个人每天能够标注的个数,α表示标注人员效率值。
步骤(3.2)、分配阅读理解数据集审核员角色,该角色的任务为针对标注员所标注的问题-答案对进行审核;
步骤(3.3)分配阅读理解数据集终审员角色,该角色的任务为针对步骤(3.2)审核通过的内容进行最终审核。
进一步的,所述阶段3具体包括如下内容:
步骤(5.1)、将阅读理解数据集通过十折交叉验证法划分为训练数据集以及测试数据集;
步骤(5.2)、通过训练数据集训练出机器阅读理解模型后,通过测试集计算出机器阅读理解相关的指标Rouge-L以及Bleu-4的值。
有益效果
和现有技术相比,本发明具有如下显著进步:1、能够通过高效以及可信的方式对数据集进行标注,保证数据集的正确性,适用于特定领域的机器阅读理解。2、无需大量的人工收集新闻语料或人工整编新闻,只需提供目标领域内网站的网址链接,即可自动完成新闻文本收集工作;3、无需大量的人工进行网站搜索整理文档操作以及克服了单文档对于回答某一个问题局限性,快速辅助人工进行数据集构建,回答的答案更加全面,数据集的质量更好。
附图说明
图1为本发明的一种基于深度学习的机器阅读理解数据集构建以及评估方法的流程图。
具体实施方式
下面结合具体实施例和附图对本发明的技术方案作出详细的阐述。
一种基于深度学习的机器阅读理解数据集构建以及评估方法,通过搜索技术、深度学习技术以及自然语言处理相关技术,采集海量新闻数据集并构建搜索引擎,通过机器辅助标注加上人工标注构建一个可评估的机器阅读理解数据集。如图1所示,包括三个阶段:
阶段1、原始数据集构建;具体包括以下步骤:
步骤(1)、通过部署在互联网上的分布式爬虫程序获取种子网站上所有的原始网页。
步骤(2)、对原始网页过滤掉不符合要求的内容,例如有乱码、非中英文、广告以及非目标领域政治、经济、军事类的文本,只留下符合要求的政治、经济、军事类目标领域的文本数据,构建基础文本语料库。
步骤(3)、对基础文本语料库中的所有文本数据,处理成统一格式的XML文件,通过标注系统导入到数据库中。
步骤(4)、根据数据库中的文本数据,建立关键词索引,并构建基于solr的搜索引擎。
步骤(5)、导入用户需求问题集,该问题集为机器阅读理解应用领域的问题。根据用户的问题,通过搜索引擎返回的至多前十篇文档,整理成为机器阅读理解原始数据集。
阶段2、角色分配及标注审核;包括以下步骤:
步骤(6)使用标注系统分配阅读理解数据集标注员角色,该角色的任务为针对原始数据集标注问题-答案对,该角色的个数与任务的时间要求以及数据量有关,即如下公式:
其中N表示需要标注的文章总数量,Time表示标注任务要求完成的天数。n表示每个人明天能够标注的个数,α表示标注人员效率值,一般设置为2;标注人员使用标注工具进行标注。
步骤(7)使用标注系统分配阅读理解数据集审核员角色,该角色的任务为针对标注人员所标注的问题-答案对进行审核。审核员人数根据标注质量合理配置。可以选择以下2种策略:
·通过
·驳回至标注员修改。
步骤(8)使用标注系统分配阅读理解数据集终审员角色,通过标注系统对所有标注结果进行最终审核,可以选择2种策略:
·通过,该条结果符合要求。
·驳回至审核员重新审核。
阶段3、数据集测试评估;包括以下内容:
步骤(9)管理员进行终审,形成最终数据集。
步骤(10)将最终阅读理解数据集通过十折交叉验证法划分为训练数据集以及测试数据集;
步骤(11)通过训练数据集训练出机器阅读理解模型后,通过测试集计算出机器阅读理解相关的指标Rouge-L以及Bleu-4的值,看是否达到标准。
本发明的一种基于深度学习的机器阅读理解数据集构建以及评估方法,解决了在特定领域中基于深度学习的机器阅读理解缺乏数据集的问题,并且能够有效提高算法性能,更加贴近实用。经过本发明提供的数据集进行训练后可以让机器阅读理解文本,旨在颠覆以往特定领域依赖人工搜索和总结提炼答案的模式,大幅提升关键信息的获取效率。本发明的主要功能就是为了对原始数据集进行人工标注,并最终导出可供使用的包含问题和答案对的训练数据文本,为机器阅读提供面向专业应用场景的大规模中文阅读理解数据集。
Claims (1)
1.一种基于深度学习的机器阅读理解数据集构建以及评估方法,其特征在于,包括如下步骤:
阶段1、原始数据集构建;具体包括如下内容:
步骤(1.1)、获取种子网站上所有的原始网页;
步骤(1.2)、对原始网页过滤掉不符合要求的内容,仅保留符合要求的文本数据,构建基础文本语料库;所述不符合要求的内容包括有乱码、非中英文、广告以及非目标领域政治、经济、军事类的文本,所述符合要求的文本数据包括政治、经济、军事类目标领域的文本数据;
步骤(1.3)、对基础文本语料库中的所有文本数据,处理成统一格式的XML文件,导入到数据库中;
步骤(1.4)、根据数据库中的文本数据,建立关键词索引,并构建搜索引擎;
步骤(1.5)、导入用户需求问题集,根据用户的问题,通过搜索引擎返回的文档,整理成为机器阅读理解原始数据集;
阶段2、角色分配及标注审核;具体包括如下内容:
步骤(2.1)、分配阅读理解数据集标注员角色,该角色的任务为针对原始数据集标注问题-答案对;
步骤(2.2)、分配阅读理解数据集审核员角色,该角色的任务为针对标注员所标注的问题-答案对进行审核;
步骤(2.3)、分配阅读理解数据集终审员角色,该角色的任务为针对步骤(3.2)审核通过的内容进行最终审核;
阶段3、数据集测试评估;具体包括如下内容:
步骤(3.1)、将阅读理解数据集通过十折交叉验证法划分为训练数据集以及测试数据集;
步骤(3.2)、通过训练数据集训练出机器阅读理解模型后,通过测试集计算出机器阅读理解相关的指标Rouge-L以及Bleu-4的值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910375360.2A CN110162684B (zh) | 2019-05-07 | 2019-05-07 | 基于深度学习的机器阅读理解数据集构建以及评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910375360.2A CN110162684B (zh) | 2019-05-07 | 2019-05-07 | 基于深度学习的机器阅读理解数据集构建以及评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110162684A CN110162684A (zh) | 2019-08-23 |
CN110162684B true CN110162684B (zh) | 2021-06-25 |
Family
ID=67633572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910375360.2A Active CN110162684B (zh) | 2019-05-07 | 2019-05-07 | 基于深度学习的机器阅读理解数据集构建以及评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110162684B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111143577B (zh) * | 2019-12-27 | 2023-06-16 | 北京百度网讯科技有限公司 | 数据标注方法、装置和系统 |
CN113239148B (zh) * | 2021-05-14 | 2022-04-05 | 电子科技大学 | 基于机器阅读理解的科技资源检索方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6519603B1 (en) * | 1999-10-28 | 2003-02-11 | International Business Machine Corporation | Method and system for organizing an annotation structure and for querying data and annotations |
US10332639B2 (en) * | 2017-05-02 | 2019-06-25 | James Paul Smurro | Cognitive collaboration with neurosynaptic imaging networks, augmented medical intelligence and cybernetic workflow streams |
CN104899231A (zh) * | 2014-03-07 | 2015-09-09 | 上海市玻森数据科技有限公司 | 基于细粒度属性分类的感情分析引擎 |
CN107153664A (zh) * | 2016-03-04 | 2017-09-12 | 同方知网(北京)技术有限公司 | 一种基于组合特征加权的科技文献标注精简研究结论的方法流程 |
CN108734296A (zh) * | 2017-04-21 | 2018-11-02 | 北京京东尚科信息技术有限公司 | 优化监督学习的训练数据的方法、装置、电子设备和介质 |
CN107832419A (zh) * | 2017-11-10 | 2018-03-23 | 中国人民解放军陆军工程大学 | 军事信息语料库构建方法及系统 |
CN108415977B (zh) * | 2018-02-09 | 2022-02-15 | 华南理工大学 | 一个基于深度神经网络及强化学习的生成式机器阅读理解方法 |
CN109271477B (zh) * | 2018-09-05 | 2020-07-24 | 杭州数湾信息科技有限公司 | 一种借助互联网构建分类语料库的方法及系统 |
-
2019
- 2019-05-07 CN CN201910375360.2A patent/CN110162684B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110162684A (zh) | 2019-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110147436B (zh) | 一种基于教育知识图谱与文本的混合自动问答方法 | |
CN102662930B (zh) | 一种语料标注方法及装置 | |
CN102262634B (zh) | 一种自动问答方法及系统 | |
CN100461183C (zh) | 网络搜索中基于多种规则的元数据自动抽取方法 | |
CN109933796B (zh) | 一种公告文本关键信息提取方法及设备 | |
CA2807494C (en) | Method and system for integrating web-based systems with local document processing applications | |
CN101404036A (zh) | PowerPoint电子演示文稿的关键词抽取方法 | |
CN110162684B (zh) | 基于深度学习的机器阅读理解数据集构建以及评估方法 | |
Kirkup et al. | Towards a digital African flora | |
CN106776866A (zh) | 一种对高校网站上的会议稿进行知识抽取的方法 | |
CN109766442A (zh) | 一种对用户笔记进行分类的方法及系统 | |
CN112989811A (zh) | 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法 | |
Wormell | Critical aspects of the Danish welfare state—as revealed by issue tracking | |
Kuckartz et al. | Working with bibliographic information and creating literature reviews | |
Gravendyck et al. | Assessing taxon names in palynology (I): working with databases | |
CN105893527B (zh) | 一种智能用户信息录入方法 | |
CN114118098A (zh) | 基于要素抽取的合同评审方法、设备及存储介质 | |
CN110688453B (zh) | 基于资讯分类的场景应用方法、系统、介质及设备 | |
CN103049442A (zh) | 手机网络检索用语简称-全称转换识别方法及装置 | |
Szmuk-Tanenbaum et al. | Where Comedias Sueltas Go to Be Discovered | |
Fu et al. | A Bibliometric Analysis of International Advances in L2 Motivation Research (2004-2018) | |
Xu | Knowledge Formation and the Great Divergence between China and Europe: Manuscripts and Printed Books, ca. 581–1840 | |
Galloway | Notes on the usefulness of publishing statistics for a broader South African book history | |
Dikow et al. | Let the records show: Attribution of scientific credit in natural history collections | |
CN117909559B (zh) | 一种基于互联网公开数据的企业关联信息挖掘方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |