CN110162684B - 基于深度学习的机器阅读理解数据集构建以及评估方法 - Google Patents

基于深度学习的机器阅读理解数据集构建以及评估方法 Download PDF

Info

Publication number
CN110162684B
CN110162684B CN201910375360.2A CN201910375360A CN110162684B CN 110162684 B CN110162684 B CN 110162684B CN 201910375360 A CN201910375360 A CN 201910375360A CN 110162684 B CN110162684 B CN 110162684B
Authority
CN
China
Prior art keywords
data set
understanding
role
machine reading
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910375360.2A
Other languages
English (en)
Other versions
CN110162684A (zh
Inventor
王羽
葛唯益
姜晓夏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 28 Research Institute
Original Assignee
CETC 28 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 28 Research Institute filed Critical CETC 28 Research Institute
Priority to CN201910375360.2A priority Critical patent/CN110162684B/zh
Publication of CN110162684A publication Critical patent/CN110162684A/zh
Application granted granted Critical
Publication of CN110162684B publication Critical patent/CN110162684B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种基于深度学习的机器阅读理解数据集构建以及评估方法,包括以下步骤:阶段1、原始数据集构建;阶段2、角色分配及标注审核;阶段3、数据集测试评估。本发明解决了在特定领域中基于深度学习的机器阅读理解缺乏数据集的问题,并且能够有效提高算法性能,更加贴近实用。经过本发明提供的数据集进行训练后可以让机器阅读理解文本,旨在颠覆以往特定领域依赖人工搜索和总结提炼答案的模式,大幅提升关键信息的获取效率。本发明能够通过高效以及可信的方式对数据集进行标注,保证数据集的正确性,适用于特定领域的机器阅读理解。

Description

基于深度学习的机器阅读理解数据集构建以及评估方法
技术领域
本发明涉及数据集标注以及评估方法,尤其涉及一种基于深度学习的机器阅读理解数据集构建以及评估方法。
背景技术
一个机器阅读理解领域内的数据集构建包含数据集标注以及数据集评估。对数据集的标注主要就是对单篇以及多篇候选文档中,通过人工提问的方式,在这些文档中标注出提问的答案。对数据集的评估主要是依靠人为抽样进行评估。
目前,在机器阅读领域最具权威性的数据集为美国斯坦福大学构建的SQUAD1.0以及2.0阅读理解数据集。这类数据集主要是针对单篇文档进行提问,涉及的答案内容均能够在原文中找到。这类数据集的构建主要是通过人工标注单篇文档的方式进行构建且均为英文。
然后,我国在基于深度学习的机器阅读数据集构建领域也是通过传统的互联网众包进行人工标注的方式对单篇文档进行标注,涉及的内容多为“完形填空”式机器阅读理解。这种数据集构建方法不能适应大数据时代对于机器阅读理解技术的要求,迫切需要从单文档“完形填空”式阅读理解向多文档复杂逻辑问答式进行转变,综合运用海量互联网新闻中全球海量信息,进行基于深度学习的机器阅读理解数据集构建以及评估。
发明内容
发明目的:为了克服现有技术中基于单文档的机器阅读理解构建存在不全面不符合实际需求的缺陷,本发明的目的是提供一种基于深度学习的机器阅读理解数据集构建以及评估方法。
技术方案:一种基于深度学习的机器阅读理解数据集构建以及评估方法,包括如下步骤:
阶段1、原始数据集构建;
阶段2、角色分配及标注审核;
阶段3、数据集测试评估。
进一步的,所述阶段1具体包括如下内容:
步骤(2.1)、获取种子网站上所有的原始网页;
步骤(2.2)、对原始网页过滤掉不符合要求的内容,仅保留符合要求的文本数据,构建基础文本语料库;所述不符合要求的内容包括有乱码、非中英文、广告以及非目标领域政治、经济、军事类的文本,所述符合要求的文本数据包括政治、经济、军事类目标领域的文本数据;
步骤(2.3)、对基础文本语料库中的所有文本数据,处理成统一格式的XML文件,导入到数据库中;
步骤(2.4)、根据数据库中的文本数据,建立关键词索引,并构建搜索引擎;
步骤(2.5)、导入用户需求问题集,根据用户的问题,通过搜索引擎返回的文档,整理成为机器阅读理解原始数据集。
进一步的,所述阶段2具体包括如下内容:
步骤(3.1)、分配阅读理解数据集标注员角色,该角色的任务为针对原始数据集标注问题-答案对;所述标注员角色的个数为:
Figure BDA0002051463400000021
其中,N表示需要标注的文章总数量,Time表示标注任务要求完成的天数,n表示每个人每天能够标注的个数,α表示标注人员效率值。
步骤(3.2)、分配阅读理解数据集审核员角色,该角色的任务为针对标注员所标注的问题-答案对进行审核;
步骤(3.3)分配阅读理解数据集终审员角色,该角色的任务为针对步骤(3.2)审核通过的内容进行最终审核。
进一步的,所述阶段3具体包括如下内容:
步骤(5.1)、将阅读理解数据集通过十折交叉验证法划分为训练数据集以及测试数据集;
步骤(5.2)、通过训练数据集训练出机器阅读理解模型后,通过测试集计算出机器阅读理解相关的指标Rouge-L以及Bleu-4的值。
有益效果
和现有技术相比,本发明具有如下显著进步:1、能够通过高效以及可信的方式对数据集进行标注,保证数据集的正确性,适用于特定领域的机器阅读理解。2、无需大量的人工收集新闻语料或人工整编新闻,只需提供目标领域内网站的网址链接,即可自动完成新闻文本收集工作;3、无需大量的人工进行网站搜索整理文档操作以及克服了单文档对于回答某一个问题局限性,快速辅助人工进行数据集构建,回答的答案更加全面,数据集的质量更好。
附图说明
图1为本发明的一种基于深度学习的机器阅读理解数据集构建以及评估方法的流程图。
具体实施方式
下面结合具体实施例和附图对本发明的技术方案作出详细的阐述。
一种基于深度学习的机器阅读理解数据集构建以及评估方法,通过搜索技术、深度学习技术以及自然语言处理相关技术,采集海量新闻数据集并构建搜索引擎,通过机器辅助标注加上人工标注构建一个可评估的机器阅读理解数据集。如图1所示,包括三个阶段:
阶段1、原始数据集构建;具体包括以下步骤:
步骤(1)、通过部署在互联网上的分布式爬虫程序获取种子网站上所有的原始网页。
步骤(2)、对原始网页过滤掉不符合要求的内容,例如有乱码、非中英文、广告以及非目标领域政治、经济、军事类的文本,只留下符合要求的政治、经济、军事类目标领域的文本数据,构建基础文本语料库。
步骤(3)、对基础文本语料库中的所有文本数据,处理成统一格式的XML文件,通过标注系统导入到数据库中。
步骤(4)、根据数据库中的文本数据,建立关键词索引,并构建基于solr的搜索引擎。
步骤(5)、导入用户需求问题集,该问题集为机器阅读理解应用领域的问题。根据用户的问题,通过搜索引擎返回的至多前十篇文档,整理成为机器阅读理解原始数据集。
阶段2、角色分配及标注审核;包括以下步骤:
步骤(6)使用标注系统分配阅读理解数据集标注员角色,该角色的任务为针对原始数据集标注问题-答案对,该角色的个数与任务的时间要求以及数据量有关,即如下公式:
Figure BDA0002051463400000031
其中N表示需要标注的文章总数量,Time表示标注任务要求完成的天数。n表示每个人明天能够标注的个数,α表示标注人员效率值,一般设置为2;标注人员使用标注工具进行标注。
步骤(7)使用标注系统分配阅读理解数据集审核员角色,该角色的任务为针对标注人员所标注的问题-答案对进行审核。审核员人数根据标注质量合理配置。可以选择以下2种策略:
·通过
·驳回至标注员修改。
步骤(8)使用标注系统分配阅读理解数据集终审员角色,通过标注系统对所有标注结果进行最终审核,可以选择2种策略:
·通过,该条结果符合要求。
·驳回至审核员重新审核。
阶段3、数据集测试评估;包括以下内容:
步骤(9)管理员进行终审,形成最终数据集。
步骤(10)将最终阅读理解数据集通过十折交叉验证法划分为训练数据集以及测试数据集;
步骤(11)通过训练数据集训练出机器阅读理解模型后,通过测试集计算出机器阅读理解相关的指标Rouge-L以及Bleu-4的值,看是否达到标准。
本发明的一种基于深度学习的机器阅读理解数据集构建以及评估方法,解决了在特定领域中基于深度学习的机器阅读理解缺乏数据集的问题,并且能够有效提高算法性能,更加贴近实用。经过本发明提供的数据集进行训练后可以让机器阅读理解文本,旨在颠覆以往特定领域依赖人工搜索和总结提炼答案的模式,大幅提升关键信息的获取效率。本发明的主要功能就是为了对原始数据集进行人工标注,并最终导出可供使用的包含问题和答案对的训练数据文本,为机器阅读提供面向专业应用场景的大规模中文阅读理解数据集。

Claims (1)

1.一种基于深度学习的机器阅读理解数据集构建以及评估方法,其特征在于,包括如下步骤:
阶段1、原始数据集构建;具体包括如下内容:
步骤(1.1)、获取种子网站上所有的原始网页;
步骤(1.2)、对原始网页过滤掉不符合要求的内容,仅保留符合要求的文本数据,构建基础文本语料库;所述不符合要求的内容包括有乱码、非中英文、广告以及非目标领域政治、经济、军事类的文本,所述符合要求的文本数据包括政治、经济、军事类目标领域的文本数据;
步骤(1.3)、对基础文本语料库中的所有文本数据,处理成统一格式的XML文件,导入到数据库中;
步骤(1.4)、根据数据库中的文本数据,建立关键词索引,并构建搜索引擎;
步骤(1.5)、导入用户需求问题集,根据用户的问题,通过搜索引擎返回的文档,整理成为机器阅读理解原始数据集;
阶段2、角色分配及标注审核;具体包括如下内容:
步骤(2.1)、分配阅读理解数据集标注员角色,该角色的任务为针对原始数据集标注问题-答案对;
步骤(2.2)、分配阅读理解数据集审核员角色,该角色的任务为针对标注员所标注的问题-答案对进行审核;
步骤(2.3)、分配阅读理解数据集终审员角色,该角色的任务为针对步骤(3.2)审核通过的内容进行最终审核;
所述标注员角色的个数为:
Figure FDA0002983645810000011
其中,N表示需要标注的文章总数量,Time表示标注任务要求完成的天数,n表示每个人每天能够标注的个数,α表示标注人员效率值;
阶段3、数据集测试评估;具体包括如下内容:
步骤(3.1)、将阅读理解数据集通过十折交叉验证法划分为训练数据集以及测试数据集;
步骤(3.2)、通过训练数据集训练出机器阅读理解模型后,通过测试集计算出机器阅读理解相关的指标Rouge-L以及Bleu-4的值。
CN201910375360.2A 2019-05-07 2019-05-07 基于深度学习的机器阅读理解数据集构建以及评估方法 Active CN110162684B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910375360.2A CN110162684B (zh) 2019-05-07 2019-05-07 基于深度学习的机器阅读理解数据集构建以及评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910375360.2A CN110162684B (zh) 2019-05-07 2019-05-07 基于深度学习的机器阅读理解数据集构建以及评估方法

Publications (2)

Publication Number Publication Date
CN110162684A CN110162684A (zh) 2019-08-23
CN110162684B true CN110162684B (zh) 2021-06-25

Family

ID=67633572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910375360.2A Active CN110162684B (zh) 2019-05-07 2019-05-07 基于深度学习的机器阅读理解数据集构建以及评估方法

Country Status (1)

Country Link
CN (1) CN110162684B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143577B (zh) 2019-12-27 2023-06-16 北京百度网讯科技有限公司 数据标注方法、装置和系统
CN113239148B (zh) * 2021-05-14 2022-04-05 电子科技大学 基于机器阅读理解的科技资源检索方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6519603B1 (en) * 1999-10-28 2003-02-11 International Business Machine Corporation Method and system for organizing an annotation structure and for querying data and annotations
US10332639B2 (en) * 2017-05-02 2019-06-25 James Paul Smurro Cognitive collaboration with neurosynaptic imaging networks, augmented medical intelligence and cybernetic workflow streams
CN104899231A (zh) * 2014-03-07 2015-09-09 上海市玻森数据科技有限公司 基于细粒度属性分类的感情分析引擎
CN107153664A (zh) * 2016-03-04 2017-09-12 同方知网(北京)技术有限公司 一种基于组合特征加权的科技文献标注精简研究结论的方法流程
CN108734296A (zh) * 2017-04-21 2018-11-02 北京京东尚科信息技术有限公司 优化监督学习的训练数据的方法、装置、电子设备和介质
CN107832419A (zh) * 2017-11-10 2018-03-23 中国人民解放军陆军工程大学 军事信息语料库构建方法及系统
CN108415977B (zh) * 2018-02-09 2022-02-15 华南理工大学 一个基于深度神经网络及强化学习的生成式机器阅读理解方法
CN109271477B (zh) * 2018-09-05 2020-07-24 杭州数湾信息科技有限公司 一种借助互联网构建分类语料库的方法及系统

Also Published As

Publication number Publication date
CN110162684A (zh) 2019-08-23

Similar Documents

Publication Publication Date Title
CN110147436B (zh) 一种基于教育知识图谱与文本的混合自动问答方法
CN102262634B (zh) 一种自动问答方法及系统
CN100461183C (zh) 网络搜索中基于多种规则的元数据自动抽取方法
Meier et al. Google Scholar’s coverage of the engineering literature: an empirical study
CN109933796B (zh) 一种公告文本关键信息提取方法及设备
CN107220237A (zh) 一种基于卷积神经网络的企业实体关系抽取的方法
CN102662930A (zh) 一种语料标注方法及装置
WO2012033511A1 (en) Method and system for integrating web-based systems with local document processing applications
CN101404036A (zh) PowerPoint电子演示文稿的关键词抽取方法
Brugman et al. Nederlab: Towards a single portal and research environment for diachronic Dutch text corpora
CN110162684B (zh) 基于深度学习的机器阅读理解数据集构建以及评估方法
Kirkup et al. Towards a digital African flora
CN112989811B (zh) 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法
CN106776866A (zh) 一种对高校网站上的会议稿进行知识抽取的方法
CN109766442A (zh) 一种对用户笔记进行分类的方法及系统
Wormell Critical aspects of the Danish welfare state—as revealed by issue tracking
Kuckartz et al. Working with bibliographic information and creating literature reviews
Gravendyck et al. Assessing taxon names in palynology (I): working with databases
CN105893527B (zh) 一种智能用户信息录入方法
CN114118098A (zh) 基于要素抽取的合同评审方法、设备及存储介质
CN103049442A (zh) 手机网络检索用语简称-全称转换识别方法及装置
Szmuk-Tanenbaum et al. Where Comedias Sueltas Go to Be Discovered
Fu et al. A Bibliometric Analysis of International Advances in L2 Motivation Research (2004-2018)
Xu Knowledge Formation and the Great Divergence between China and Europe: Manuscripts and Printed Books, ca. 581–1840
Galloway Notes on the usefulness of publishing statistics for a broader South African book history

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant