CN110162684A - 基于深度学习的机器阅读理解数据集构建以及评估方法 - Google Patents

基于深度学习的机器阅读理解数据集构建以及评估方法 Download PDF

Info

Publication number
CN110162684A
CN110162684A CN201910375360.2A CN201910375360A CN110162684A CN 110162684 A CN110162684 A CN 110162684A CN 201910375360 A CN201910375360 A CN 201910375360A CN 110162684 A CN110162684 A CN 110162684A
Authority
CN
China
Prior art keywords
data set
mark
role
stage
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910375360.2A
Other languages
English (en)
Other versions
CN110162684B (zh
Inventor
王羽
葛唯益
姜晓夏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 28 Research Institute
Original Assignee
CETC 28 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 28 Research Institute filed Critical CETC 28 Research Institute
Priority to CN201910375360.2A priority Critical patent/CN110162684B/zh
Publication of CN110162684A publication Critical patent/CN110162684A/zh
Application granted granted Critical
Publication of CN110162684B publication Critical patent/CN110162684B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种基于深度学习的机器阅读理解数据集构建以及评估方法,包括以下步骤:阶段1、原始数据集构建;阶段2、角色分配及标注审核;阶段3、数据集测试评估。本发明解决了在特定领域中基于深度学习的机器阅读理解缺乏数据集的问题,并且能够有效提高算法性能,更加贴近实用。经过本发明提供的数据集进行训练后可以让机器阅读理解文本,旨在颠覆以往特定领域依赖人工搜索和总结提炼答案的模式,大幅提升关键信息的获取效率。本发明能够通过高效以及可信的方式对数据集进行标注,保证数据集的正确性,适用于特定领域的机器阅读理解。

Description

基于深度学习的机器阅读理解数据集构建以及评估方法
技术领域
本发明涉及数据集标注以及评估方法,尤其涉及一种基于深度学习的机器阅读理解数据集构建以及评估方法。
背景技术
一个机器阅读理解领域内的数据集构建包含数据集标注以及数据集评估。对数据集的标注主要就是对单篇以及多篇候选文档中,通过人工提问的方式,在这些文档中标注出提问的答案。对数据集的评估主要是依靠人为抽样进行评估。
目前,在机器阅读领域最具权威性的数据集为美国斯坦福大学构建的SQUAD1.0以及2.0阅读理解数据集。这类数据集主要是针对单篇文档进行提问,涉及的答案内容均能够在原文中找到。这类数据集的构建主要是通过人工标注单篇文档的方式进行构建且均为英文。
然后,我国在基于深度学习的机器阅读数据集构建领域也是通过传统的互联网众包进行人工标注的方式对单篇文档进行标注,涉及的内容多为“完形填空”式机器阅读理解。这种数据集构建方法不能适应大数据时代对于机器阅读理解技术的要求,迫切需要从单文档“完形填空”式阅读理解向多文档复杂逻辑问答式进行转变,综合运用海量互联网新闻中全球海量信息,进行基于深度学习的机器阅读理解数据集构建以及评估。
发明内容
发明目的:为了克服现有技术中基于单文档的机器阅读理解构建存在不全面不符合实际需求的缺陷,本发明的目的是提供一种基于深度学习的机器阅读理解数据集构建以及评估方法。
技术方案:一种基于深度学习的机器阅读理解数据集构建以及评估方法,包括如下步骤:
阶段1、原始数据集构建;
阶段2、角色分配及标注审核;
阶段3、数据集测试评估。
进一步的,所述阶段1具体包括如下内容:
步骤(2.1)、获取种子网站上所有的原始网页;
步骤(2.2)、对原始网页过滤掉不符合要求的内容,仅保留符合要求的文本数据,构建基础文本语料库;所述不符合要求的内容包括有乱码、非中英文、广告以及非目标领域政治、经济、军事类的文本,所述符合要求的文本数据包括政治、经济、军事类目标领域的文本数据;
步骤(2.3)、对基础文本语料库中的所有文本数据,处理成统一格式的XML文件,导入到数据库中;
步骤(2.4)、根据数据库中的文本数据,建立关键词索引,并构建搜索引擎;
步骤(2.5)、导入用户需求问题集,根据用户的问题,通过搜索引擎返回的文档,整理成为机器阅读理解原始数据集。
进一步的,所述阶段2具体包括如下内容:
步骤(3.1)、分配阅读理解数据集标注员角色,该角色的任务为针对原始数据集标注问题-答案对;所述标注员角色的个数为:其中,N表示需要标注的文章总数量,Time表示标注任务要求完成的天数,n表示每个人每天能够标注的个数,α表示标注人员效率值。
步骤(3.2)、分配阅读理解数据集审核员角色,该角色的任务为针对标注员所标注的问题-答案对进行审核;
步骤(3.3)分配阅读理解数据集终审员角色,该角色的任务为针对步骤(3.2)审核通过的内容进行最终审核。
进一步的,所述阶段3具体包括如下内容:
步骤(5.1)、将阅读理解数据集通过十折交叉验证法划分为训练数据集以及测试数据集;
步骤(5.2)、通过训练数据集训练出机器阅读理解模型后,通过测试集计算出机器阅读理解相关的指标Rouge-L以及Bleu-4的值。
有益效果
和现有技术相比,本发明具有如下显著进步:1、能够通过高效以及可信的方式对数据集进行标注,保证数据集的正确性,适用于特定领域的机器阅读理解。2、无需大量的人工收集新闻语料或人工整编新闻,只需提供目标领域内网站的网址链接,即可自动完成新闻文本收集工作;3、无需大量的人工进行网站搜索整理文档操作以及克服了单文档对于回答某一个问题局限性,快速辅助人工进行数据集构建,回答的答案更加全面,数据集的质量更好。
附图说明
图1为本发明的一种基于深度学习的机器阅读理解数据集构建以及评估方法的流程图。
具体实施方式
下面结合具体实施例和附图对本发明的技术方案作出详细的阐述。
一种基于深度学习的机器阅读理解数据集构建以及评估方法,通过搜索技术、深度学习技术以及自然语言处理相关技术,采集海量新闻数据集并构建搜索引擎,通过机器辅助标注加上人工标注构建一个可评估的机器阅读理解数据集。如图1所示,包括三个阶段:
阶段1、原始数据集构建;具体包括以下步骤:
步骤(1)、通过部署在互联网上的分布式爬虫程序获取种子网站上所有的原始网页。
步骤(2)、对原始网页过滤掉不符合要求的内容,例如有乱码、非中英文、广告以及非目标领域政治、经济、军事类的文本,只留下符合要求的政治、经济、军事类目标领域的文本数据,构建基础文本语料库。
步骤(3)、对基础文本语料库中的所有文本数据,处理成统一格式的XML文件,通过标注系统导入到数据库中。
步骤(4)、根据数据库中的文本数据,建立关键词索引,并构建基于solr的搜索引擎。
步骤(5)、导入用户需求问题集,该问题集为机器阅读理解应用领域的问题。根据用户的问题,通过搜索引擎返回的至多前十篇文档,整理成为机器阅读理解原始数据集。
阶段2、角色分配及标注审核;包括以下步骤:
步骤(6)使用标注系统分配阅读理解数据集标注员角色,该角色的任务为针对原始数据集标注问题-答案对,该角色的个数与任务的时间要求以及数据量有关,即如下公式:
其中N表示需要标注的文章总数量,Time表示标注任务要求完成的天数。n表示每个人明天能够标注的个数,α表示标注人员效率值,一般设置为2;标注人员使用标注工具进行标注。
步骤(7)使用标注系统分配阅读理解数据集审核员角色,该角色的任务为针对标注人员所标注的问题-答案对进行审核。审核员人数根据标注质量合理配置。可以选择以下2种策略:
·通过
·驳回至标注员修改。
步骤(8)使用标注系统分配阅读理解数据集终审员角色,通过标注系统对所有标注结果进行最终审核,可以选择2种策略:
·通过,该条结果符合要求。
·驳回至审核员重新审核。
阶段3、数据集测试评估;包括以下内容:
步骤(9)管理员进行终审,形成最终数据集。
步骤(10)将最终阅读理解数据集通过十折交叉验证法划分为训练数据集以及测试数据集;
步骤(11)通过训练数据集训练出机器阅读理解模型后,通过测试集计算出机器阅读理解相关的指标Rouge-L以及Bleu-4的值,看是否达到标准。
本发明的一种基于深度学习的机器阅读理解数据集构建以及评估方法,解决了在特定领域中基于深度学习的机器阅读理解缺乏数据集的问题,并且能够有效提高算法性能,更加贴近实用。经过本发明提供的数据集进行训练后可以让机器阅读理解文本,旨在颠覆以往特定领域依赖人工搜索和总结提炼答案的模式,大幅提升关键信息的获取效率。本发明的主要功能就是为了对原始数据集进行人工标注,并最终导出可供使用的包含问题和答案对的训练数据文本,为机器阅读提供面向专业应用场景的大规模中文阅读理解数据集。

Claims (5)

1.一种基于深度学习的机器阅读理解数据集构建以及评估方法,其特征在于,包括如下步骤:
阶段1、原始数据集构建;
阶段2、角色分配及标注审核;
阶段3、数据集测试评估。
2.根据权利要求1所述的基于深度学习的机器阅读理解数据集构建以及评估方法,其特征在于,所述阶段1具体包括如下内容:
步骤(2.1)、获取种子网站上所有的原始网页;
步骤(2.2)、对原始网页过滤掉不符合要求的内容,仅保留符合要求的文本数据,构建基础文本语料库;所述不符合要求的内容包括有乱码、非中英文、广告以及非目标领域政治、经济、军事类的文本,所述符合要求的文本数据包括政治、经济、军事类目标领域的文本数据;
步骤(2.3)、对基础文本语料库中的所有文本数据,处理成统一格式的XML文件,导入到数据库中;
步骤(2.4)、根据数据库中的文本数据,建立关键词索引,并构建搜索引擎;
步骤(2.5)、导入用户需求问题集,根据用户的问题,通过搜索引擎返回的文档,整理成为机器阅读理解原始数据集。
3.根据权利要求1所述的基于深度学习的机器阅读理解数据集构建以及评估方法,其特征在于,所述阶段2具体包括如下内容:
步骤(3.1)、分配阅读理解数据集标注员角色,该角色的任务为针对原始数据集标注问题-答案对;
步骤(3.2)、分配阅读理解数据集审核员角色,该角色的任务为针对标注员所标注的问题-答案对进行审核;
步骤(3.3)分配阅读理解数据集终审员角色,该角色的任务为针对步骤(3.2)审核通过的内容进行最终审核。
4.根据权利要求3所述的基于深度学习的机器阅读理解数据集构建以及评估方法,其特征在于:所述标注员角色的个数为:其中,N表示需要标注的文章总数量,Time表示标注任务要求完成的天数,n表示每个人每天能够标注的个数,α表示标注人员效率值。
5.根据权利要求1所述的基于深度学习的机器阅读理解数据集构建以及评估方法,其特征在于,所述阶段3具体包括如下内容:
步骤(5.1)、将阅读理解数据集通过十折交叉验证法划分为训练数据集以及测试数据集;
步骤(5.2)、通过训练数据集训练出机器阅读理解模型后,通过测试集计算出机器阅读理解相关的指标Rouge-L以及Bleu-4的值。
CN201910375360.2A 2019-05-07 2019-05-07 基于深度学习的机器阅读理解数据集构建以及评估方法 Active CN110162684B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910375360.2A CN110162684B (zh) 2019-05-07 2019-05-07 基于深度学习的机器阅读理解数据集构建以及评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910375360.2A CN110162684B (zh) 2019-05-07 2019-05-07 基于深度学习的机器阅读理解数据集构建以及评估方法

Publications (2)

Publication Number Publication Date
CN110162684A true CN110162684A (zh) 2019-08-23
CN110162684B CN110162684B (zh) 2021-06-25

Family

ID=67633572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910375360.2A Active CN110162684B (zh) 2019-05-07 2019-05-07 基于深度学习的机器阅读理解数据集构建以及评估方法

Country Status (1)

Country Link
CN (1) CN110162684B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143577A (zh) * 2019-12-27 2020-05-12 北京百度网讯科技有限公司 数据标注方法、装置和系统
CN113239148A (zh) * 2021-05-14 2021-08-10 廖伟智 基于机器阅读理解的科技资源检索方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060129596A1 (en) * 1999-10-28 2006-06-15 International Business Machines Corporation System for annotating a data object by creating an interface based on a selected annotation structure
CN104899231A (zh) * 2014-03-07 2015-09-09 上海市玻森数据科技有限公司 基于细粒度属性分类的感情分析引擎
CN107153664A (zh) * 2016-03-04 2017-09-12 同方知网(北京)技术有限公司 一种基于组合特征加权的科技文献标注精简研究结论的方法流程
CN107832419A (zh) * 2017-11-10 2018-03-23 中国人民解放军陆军工程大学 军事信息语料库构建方法及系统
CN108415977A (zh) * 2018-02-09 2018-08-17 华南理工大学 一个基于深度神经网络及强化学习的生成式机器阅读理解方法
CN108734296A (zh) * 2017-04-21 2018-11-02 北京京东尚科信息技术有限公司 优化监督学习的训练数据的方法、装置、电子设备和介质
US20180322254A1 (en) * 2017-05-02 2018-11-08 James Paul Smurro Multimodal cognitive collaboration and cybernetic knowledge exchange with visual neural networking streaming augmented medical intelligence
CN109271477A (zh) * 2018-09-05 2019-01-25 杭州数湾信息科技有限公司 一种借助互联网构建分类语料库的方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060129596A1 (en) * 1999-10-28 2006-06-15 International Business Machines Corporation System for annotating a data object by creating an interface based on a selected annotation structure
CN104899231A (zh) * 2014-03-07 2015-09-09 上海市玻森数据科技有限公司 基于细粒度属性分类的感情分析引擎
CN107153664A (zh) * 2016-03-04 2017-09-12 同方知网(北京)技术有限公司 一种基于组合特征加权的科技文献标注精简研究结论的方法流程
CN108734296A (zh) * 2017-04-21 2018-11-02 北京京东尚科信息技术有限公司 优化监督学习的训练数据的方法、装置、电子设备和介质
US20180322254A1 (en) * 2017-05-02 2018-11-08 James Paul Smurro Multimodal cognitive collaboration and cybernetic knowledge exchange with visual neural networking streaming augmented medical intelligence
CN107832419A (zh) * 2017-11-10 2018-03-23 中国人民解放军陆军工程大学 军事信息语料库构建方法及系统
CN108415977A (zh) * 2018-02-09 2018-08-17 华南理工大学 一个基于深度神经网络及强化学习的生成式机器阅读理解方法
CN109271477A (zh) * 2018-09-05 2019-01-25 杭州数湾信息科技有限公司 一种借助互联网构建分类语料库的方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSDN博客: "炼丹笔记五:数据标注", 《HTTPS://BLOG.CSDN.NET/U010139630/ARTICLE/DETAILS/87454379》 *
D HOVY 等: "Experiments with crowdsourced re-annotation of a POS tagging data set", 《MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143577A (zh) * 2019-12-27 2020-05-12 北京百度网讯科技有限公司 数据标注方法、装置和系统
US11860838B2 (en) 2019-12-27 2024-01-02 Beijing Baidu Netcom Science And Teciinology Co., Ltd. Data labeling method, apparatus and system, and computer-readable storage medium
CN113239148A (zh) * 2021-05-14 2021-08-10 廖伟智 基于机器阅读理解的科技资源检索方法

Also Published As

Publication number Publication date
CN110162684B (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
US20210173858A1 (en) Apparatus and method for automated and assisted patent claim mapping and expense planning
CN105844424A (zh) 基于网络评论的产品质量问题发现及风险评估方法
CN103077164A (zh) 文本分析方法及文本分析器
CN103207855A (zh) 针对产品评论信息的细粒度情感分析系统及方法
CA2807494C (en) Method and system for integrating web-based systems with local document processing applications
CN102411621A (zh) 一种基于云模型的中文面向查询的多文档自动文摘方法
CN101299217A (zh) 一种地图信息处理的方法、装置和系统
CN106502991B (zh) 出版物处理方法和装置
CN108334493A (zh) 一种基于神经网络的题目知识点自动提取方法
Brugman et al. Nederlab: Towards a single portal and research environment for diachronic Dutch text corpora
CN110070872A (zh) 一种基于智能语音识别的物流填单方法
Cetto et al. Ibero-American systems for the dissemination of scholarly journals: a contribution to public knowledge worldwide
CN102193951A (zh) 信息抽取的方法及系统
CN110162684A (zh) 基于深度学习的机器阅读理解数据集构建以及评估方法
Rubinstein Historical corpora meet the digital humanities: the Jerusalem corpus of emergent modern Hebrew
Jian Exploring New College Entrance Examination (“Xin Gao Kao”) Policy in China: National Values and Regional Practices
Hussain Research Output of Canadian Journal of Information and Library Science (CJILS): A Bibliometric Analysis from 1993-2021
Gârdan et al. Mapping Literature Through Quantitative Instruments. The Case of Current Romanian Literary Studies
Tao et al. Supplementing the review of business simulation games via bibliometrics analysis
Li et al. Effective Chinese-to-English biotic interpretation in ecotourism destinations: a corpus-based interdisciplinary study
Qian Distribution maps of Chinese poets in the Ming dynasty (1368–1644): a geographical visualization experiment
CN110866084A (zh) 家谱人物的数据处理方法及装置、电子设备
Nowok synthpop: An R package for generating synthetic versions of sensitive microdata for statistical disclosure control
Bhadauria et al. ICT4D: Exploring Emergent Themes
Naidu Sanskrit Doctoral Thesis Submitted to Banaras Hindu University, Varanasi: A Bibliometric Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant