CN110162684B

CN110162684B - 基于深度学习的机器阅读理解数据集构建以及评估方法

Info

Publication number: CN110162684B
Application number: CN201910375360.2A
Authority: CN
Inventors: 王羽; 葛唯益; 姜晓夏
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2019-05-07
Filing date: 2019-05-07
Publication date: 2021-06-25
Anticipated expiration: 2039-05-07
Also published as: CN110162684A

Abstract

本发明公开了一种基于深度学习的机器阅读理解数据集构建以及评估方法，包括以下步骤：阶段1、原始数据集构建；阶段2、角色分配及标注审核；阶段3、数据集测试评估。本发明解决了在特定领域中基于深度学习的机器阅读理解缺乏数据集的问题，并且能够有效提高算法性能，更加贴近实用。经过本发明提供的数据集进行训练后可以让机器阅读理解文本，旨在颠覆以往特定领域依赖人工搜索和总结提炼答案的模式，大幅提升关键信息的获取效率。本发明能够通过高效以及可信的方式对数据集进行标注，保证数据集的正确性，适用于特定领域的机器阅读理解。

Description

基于深度学习的机器阅读理解数据集构建以及评估方法

技术领域

本发明涉及数据集标注以及评估方法，尤其涉及一种基于深度学习的机器阅读理解数据集构建以及评估方法。

背景技术

一个机器阅读理解领域内的数据集构建包含数据集标注以及数据集评估。对数据集的标注主要就是对单篇以及多篇候选文档中，通过人工提问的方式，在这些文档中标注出提问的答案。对数据集的评估主要是依靠人为抽样进行评估。

目前，在机器阅读领域最具权威性的数据集为美国斯坦福大学构建的SQUAD1.0以及2.0阅读理解数据集。这类数据集主要是针对单篇文档进行提问，涉及的答案内容均能够在原文中找到。这类数据集的构建主要是通过人工标注单篇文档的方式进行构建且均为英文。

然后，我国在基于深度学习的机器阅读数据集构建领域也是通过传统的互联网众包进行人工标注的方式对单篇文档进行标注，涉及的内容多为“完形填空”式机器阅读理解。这种数据集构建方法不能适应大数据时代对于机器阅读理解技术的要求，迫切需要从单文档“完形填空”式阅读理解向多文档复杂逻辑问答式进行转变，综合运用海量互联网新闻中全球海量信息，进行基于深度学习的机器阅读理解数据集构建以及评估。

发明内容

发明目的：为了克服现有技术中基于单文档的机器阅读理解构建存在不全面不符合实际需求的缺陷，本发明的目的是提供一种基于深度学习的机器阅读理解数据集构建以及评估方法。

技术方案：一种基于深度学习的机器阅读理解数据集构建以及评估方法，包括如下步骤：

阶段1、原始数据集构建；

阶段2、角色分配及标注审核；

阶段3、数据集测试评估。

进一步的，所述阶段1具体包括如下内容：

步骤(2.1)、获取种子网站上所有的原始网页；

步骤(2.2)、对原始网页过滤掉不符合要求的内容，仅保留符合要求的文本数据，构建基础文本语料库；所述不符合要求的内容包括有乱码、非中英文、广告以及非目标领域政治、经济、军事类的文本，所述符合要求的文本数据包括政治、经济、军事类目标领域的文本数据；

步骤(2.3)、对基础文本语料库中的所有文本数据，处理成统一格式的XML文件，导入到数据库中；

步骤(2.4)、根据数据库中的文本数据，建立关键词索引，并构建搜索引擎；

步骤(2.5)、导入用户需求问题集，根据用户的问题，通过搜索引擎返回的文档，整理成为机器阅读理解原始数据集。

进一步的，所述阶段2具体包括如下内容：

步骤(3.1)、分配阅读理解数据集标注员角色，该角色的任务为针对原始数据集标注问题-答案对；所述标注员角色的个数为：

其中，N表示需要标注的文章总数量，Time表示标注任务要求完成的天数，n表示每个人每天能够标注的个数，α表示标注人员效率值。

步骤(3.2)、分配阅读理解数据集审核员角色，该角色的任务为针对标注员所标注的问题-答案对进行审核；

步骤(3.3)分配阅读理解数据集终审员角色，该角色的任务为针对步骤(3.2)审核通过的内容进行最终审核。

进一步的，所述阶段3具体包括如下内容：

步骤(5.1)、将阅读理解数据集通过十折交叉验证法划分为训练数据集以及测试数据集；

步骤(5.2)、通过训练数据集训练出机器阅读理解模型后，通过测试集计算出机器阅读理解相关的指标Rouge-L以及Bleu-4的值。

有益效果

和现有技术相比，本发明具有如下显著进步：1、能够通过高效以及可信的方式对数据集进行标注，保证数据集的正确性，适用于特定领域的机器阅读理解。2、无需大量的人工收集新闻语料或人工整编新闻，只需提供目标领域内网站的网址链接，即可自动完成新闻文本收集工作；3、无需大量的人工进行网站搜索整理文档操作以及克服了单文档对于回答某一个问题局限性，快速辅助人工进行数据集构建，回答的答案更加全面，数据集的质量更好。

附图说明

图1为本发明的一种基于深度学习的机器阅读理解数据集构建以及评估方法的流程图。

具体实施方式

下面结合具体实施例和附图对本发明的技术方案作出详细的阐述。

一种基于深度学习的机器阅读理解数据集构建以及评估方法，通过搜索技术、深度学习技术以及自然语言处理相关技术，采集海量新闻数据集并构建搜索引擎，通过机器辅助标注加上人工标注构建一个可评估的机器阅读理解数据集。如图1所示，包括三个阶段：

阶段1、原始数据集构建；具体包括以下步骤：

步骤(1)、通过部署在互联网上的分布式爬虫程序获取种子网站上所有的原始网页。

步骤(2)、对原始网页过滤掉不符合要求的内容，例如有乱码、非中英文、广告以及非目标领域政治、经济、军事类的文本，只留下符合要求的政治、经济、军事类目标领域的文本数据，构建基础文本语料库。

步骤(3)、对基础文本语料库中的所有文本数据，处理成统一格式的XML文件，通过标注系统导入到数据库中。

步骤(4)、根据数据库中的文本数据，建立关键词索引，并构建基于solr的搜索引擎。

步骤(5)、导入用户需求问题集，该问题集为机器阅读理解应用领域的问题。根据用户的问题，通过搜索引擎返回的至多前十篇文档，整理成为机器阅读理解原始数据集。

阶段2、角色分配及标注审核；包括以下步骤：

步骤(6)使用标注系统分配阅读理解数据集标注员角色，该角色的任务为针对原始数据集标注问题-答案对，该角色的个数与任务的时间要求以及数据量有关，即如下公式：

其中N表示需要标注的文章总数量，Time表示标注任务要求完成的天数。n表示每个人明天能够标注的个数，α表示标注人员效率值，一般设置为2；标注人员使用标注工具进行标注。

步骤(7)使用标注系统分配阅读理解数据集审核员角色，该角色的任务为针对标注人员所标注的问题-答案对进行审核。审核员人数根据标注质量合理配置。可以选择以下2种策略：

·通过

·驳回至标注员修改。

步骤(8)使用标注系统分配阅读理解数据集终审员角色，通过标注系统对所有标注结果进行最终审核，可以选择2种策略：

·通过，该条结果符合要求。

·驳回至审核员重新审核。

阶段3、数据集测试评估；包括以下内容：

步骤(9)管理员进行终审，形成最终数据集。

步骤(10)将最终阅读理解数据集通过十折交叉验证法划分为训练数据集以及测试数据集；

步骤(11)通过训练数据集训练出机器阅读理解模型后，通过测试集计算出机器阅读理解相关的指标Rouge-L以及Bleu-4的值，看是否达到标准。

本发明的一种基于深度学习的机器阅读理解数据集构建以及评估方法，解决了在特定领域中基于深度学习的机器阅读理解缺乏数据集的问题，并且能够有效提高算法性能，更加贴近实用。经过本发明提供的数据集进行训练后可以让机器阅读理解文本，旨在颠覆以往特定领域依赖人工搜索和总结提炼答案的模式，大幅提升关键信息的获取效率。本发明的主要功能就是为了对原始数据集进行人工标注，并最终导出可供使用的包含问题和答案对的训练数据文本，为机器阅读提供面向专业应用场景的大规模中文阅读理解数据集。

Claims

1.一种基于深度学习的机器阅读理解数据集构建以及评估方法，其特征在于，包括如下步骤：

阶段1、原始数据集构建；具体包括如下内容：

步骤(1.1)、获取种子网站上所有的原始网页；

步骤(1.2)、对原始网页过滤掉不符合要求的内容，仅保留符合要求的文本数据，构建基础文本语料库；所述不符合要求的内容包括有乱码、非中英文、广告以及非目标领域政治、经济、军事类的文本，所述符合要求的文本数据包括政治、经济、军事类目标领域的文本数据；

步骤(1.3)、对基础文本语料库中的所有文本数据，处理成统一格式的XML文件，导入到数据库中；

步骤(1.4)、根据数据库中的文本数据，建立关键词索引，并构建搜索引擎；

步骤(1.5)、导入用户需求问题集，根据用户的问题，通过搜索引擎返回的文档，整理成为机器阅读理解原始数据集；

阶段2、角色分配及标注审核；具体包括如下内容：

步骤(2.1)、分配阅读理解数据集标注员角色，该角色的任务为针对原始数据集标注问题-答案对；

步骤(2.2)、分配阅读理解数据集审核员角色，该角色的任务为针对标注员所标注的问题-答案对进行审核；

步骤(2.3)、分配阅读理解数据集终审员角色，该角色的任务为针对步骤(3.2)审核通过的内容进行最终审核；

所述标注员角色的个数为：

其中，N表示需要标注的文章总数量，Time表示标注任务要求完成的天数，n表示每个人每天能够标注的个数，α表示标注人员效率值；

阶段3、数据集测试评估；具体包括如下内容：

步骤(3.1)、将阅读理解数据集通过十折交叉验证法划分为训练数据集以及测试数据集；

步骤(3.2)、通过训练数据集训练出机器阅读理解模型后，通过测试集计算出机器阅读理解相关的指标Rouge-L以及Bleu-4的值。