CN110110050A - 一种新闻事件生成式问答数据集的生成方法 - Google Patents

一种新闻事件生成式问答数据集的生成方法 Download PDF

Info

Publication number
CN110110050A
CN110110050A CN201810057805.8A CN201810057805A CN110110050A CN 110110050 A CN110110050 A CN 110110050A CN 201810057805 A CN201810057805 A CN 201810057805A CN 110110050 A CN110110050 A CN 110110050A
Authority
CN
China
Prior art keywords
event
page
data set
question
answer data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810057805.8A
Other languages
English (en)
Other versions
CN110110050B (zh
Inventor
沙磊
穗志方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201810057805.8A priority Critical patent/CN110110050B/zh
Publication of CN110110050A publication Critical patent/CN110110050A/zh
Application granted granted Critical
Publication of CN110110050B publication Critical patent/CN110110050B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公布了一种新闻事件生成式问答数据集的生成方法,用于构建面向事件的新闻场景生成式问答数据集,能够实现事件生成式的智能自动问答;包括:提取得到所有有对应链接页面的事件;将生成问题模版和生成的问题的核心信息进行拼接生成事件的问题;提取事件页面下方的所有参考文献中的新闻链接页面,并将参考文献中的新闻链接页面中的新闻文本作为语料放入语料集;将事件页面的正文部分的第一段话作为所生成事件的问题的参考答案。本发明方法为自动生成,无需人工标注,且生成新闻场景数据的准确性和有效性高。

Description

一种新闻事件生成式问答数据集的生成方法
技术领域
本发明属于问答系统智能生成技术领域,涉及新闻事件数据源的抽取与数据集生成方法,尤其涉及一种面向事件的新闻场景生成式问答数据集的构建方法。
背景技术
智能自动问答系统是一种能够对于用户提出的问题作出相应回答的系统。目前,智能自动问答系统及技术在很多场景中都有应用,比如苹果的Siri,微软的小冰,百度的度秘。在最理想的状态下,人类想问的所有问题都可以得到机器的解答,人类做出的所有指令都能得到机器合理的回应。一个成功的自动问答系统需要很多不同种类、不同方面的技术作为支撑。
目前,一个智能自动问答系统有完整的评测集的类似任务是数据库问答,数据库问答期望的输入是一个问题,输出是一个实体形式的答案。但是,事件生成式问答与数据库问答并不相同,事件生成式问答所期望的答案是一个自然语言的句子,所以,构建事件生成式智能自动问答系统,目前尚缺少相关的问答数据集,采用现有的数据库问答数据集技术无法满足事件生成式智能自动问答的需要。
发明内容
为了克服上述现有技术的不足,本发明提供一种新闻事件生成式问答数据集的生成方法,用于构建面向事件的新闻场景生成式问答数据集;从而弥补在面向事件新闻场景生成时问答领域数据集缺失的不足,能够实现事件生成式的智能自动问答。
新闻场景生成式问答数据集所对应的面向事件的新闻场景生成式问答任务的输入是:一个问题和一个很大的语料集,输出是问题的自然语言形式的答案。利用本发明方法生成的新闻场景生成式问答数据集包括问题、语料集以及针对问题的参考答案。在处理面向事件的新闻场景生成式问答任务时,需要利用生成的新闻场景生成式问答数据集进行模型训练,模型训练过程中,需要根据输入的问题从语料集中找答案,并且把模型输出的答案与参考答案进行比对从而进行参数训练以及结果评价。
本发明提供的技术方案是:
一种新闻事件生成式问答数据集的生成方法,其中,事件指的是描述新闻事件信息的信息框架结构;新闻事件生成式问答数据集的生成包括如下步骤:
1)从wiki的当前事件页面中(维基百科,https://en.wikipedia.org/wiki/Portal:Current_events)所有年份的事件列表中提取出所有有对应页面的事件;
2)对于每个有对应页面的事件,将此事件页面的标题作为问题的核心,用模版+信息的方式生成问题;
3)对于每个有对应页面的事件,将该页面下方的所有参考文献中的新闻链接页面提取出来,并把其中的新闻文本作为语料放入语料集;
4)对于每个有对应页面的事件,将该wiki页面的正文部分第一段话作为问题的参考答案。
经过上述步骤,生成的新闻场景生成式问答数据集包括问题、语料集以及针对问题的参考答案。
本发明针对的是面向事件的新闻场景生成式问答任务。与现有的数据库问答不同,本发明面向事件的新闻场景生成式问答任务是以自然语言的句子作为答案的,而不是一个单一的实体,这个特性更加贴近于一些高层任务比如对话系统的需求。构建现有的数据库问答数据集,难免需要人工的标注,而本发明提供的数据集生成方法是完全的自动标注方法,不需要任何手工的劳动,因而可以大批量地获取数据。
采用本发明方法生成的新闻场景生成式问答数据集可以应用于处理面向事件的新闻场景生成式问答任务。在处理面向事件的新闻场景生成式问答任务时,需要利用生成的新闻场景生成式问答数据集进行模型训练,模型训练过程中,需要根据输入的问题从语料集中找答案,并且把模型输出的答案与参考答案进行比对从而进行参数训练以及结果评价。
与现有技术相比,本发明的有益效果是:
本发明提供了一种自动构建面向事件的新闻场景生成式问答数据集的方法,可自动生成数据集,免去了人工标注数据的工作量,并且解决了现有技术无法自动生成面向事件的新闻场景生成式问答数据集的技术难题。
采用本发明方法生成的新闻场景生成式问答数据集,相比数据库问答的数据集,省去了人工标注的麻烦;并且由于采用天然的维基百科作为蓝本,可以保证生成新闻场景数据的准确性和有效性。
附图说明
图1是本发明提供的新闻场景生成式问答数据集自动生成方法的流程框图。
图2是本发明实施例数据集中的参考答案提取位置示意。
图3是本发明实施例数据集中的问题的主要内容提取示意。
图4是本发明实施例数据集中的新闻语料集的内容提取示意图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种面向事件的新闻场景生成式问答数据集的自动生成方法,可自动构建得到新闻场景生成式问答数据集,免去了人工标注数据的工作量。
图1是本发明提供的自动构建面向事件的新闻场景生成式问答数据集的方法的流程框图;具体包括如下步骤:
1)从wiki的当前事件页面中(https://en.wikipedia.org/wiki/Portal:Current_events)所有年份的事件列表中提取出所有有对应页面(链接页面)的事件;
2)对于每个有对应页面的事件,将此事件页面的标题作为问题的核心,用生成问题模版+事件页面标题信息的方式生成问题,作为新闻事件生成式问答数据集中关于该事件的问题;
生成问题的方法具体如下:由于每一个事件页面标题都是名词性短语,比如“Melbourne car attack”,“Liberian general election,2017”或“North Korea andweapons of mass destruction”。本发明希望生成的问题是能够模糊地询问某个事件。所以,本发明首先定义了一系列生成问题的模板,比如:“what is the…”,“tell mesomething about…”,“what is…”,然后每次生成问题的时候,都从这些模板中随机抽取一个与事件页面标题拼在一起,即可生成一个问题。
3)对于每个有对应页面的事件,将该页面下方的所有参考文献中的新闻链接页面提取出来,并把其中的新闻文本(新闻链接页面的所有文本内容)作为语料,放入语料集。语料集的构建是很重要的,因为系统在回答问题的时候需要从语料集中寻找答案。所以,本发明方法需要尽量确保针对构造生成的新闻事件生成式问答数据集中的每一个问题,都能够从构建的语料集中找到答案。
4)对于每个有对应页面的事件,将该对应页面的正文部分的第一段话作为相应时间问题的参考答案,得到新闻事件生成式问答数据集中关于该事件的答案;
通过上述步骤生成新闻事件生成式问答数据集;新闻事件生成式问答数据集包括步骤2)生成的事件的问题,步骤3)中生成的语料集和步骤4)生成的关于该事件的答案。
利用生成的新闻事件生成式问答数据集实现的新闻事件生成式问答系统,针对新闻事件生成式问答数据集中的每一个事件的问题,在回答问题的时候需要从语料集中寻找得到答案。然后将寻找得到的答案与步骤4)中的参考答案进行比对。
以下实施例根据wiki的当前事件页面(https://en.wikipedia.org/wiki/Portal:Current_events),自动构建面向事件的新闻场景生成式问答数据集。具体实施如下:
第一步,在事件页面上所有有链接的事件都将被抽取出来,具体方法是:当前页面的html代码中所有<li>所对应的结点下只包含一个单一的超级链接结点<a>的结点为合法结点,<a>所对应的链接即为被抽取的事件链接。比如,我们抽取了2017/12/21的事件“December 2017Melbourne car attack”
第二步,根据链接的页面标题生成问题,比如上例的“December 2017Melbournecar attack”可以生成问题“what is the Melbourne car attack?”。图3所示是本发明实施例数据集中的问题的主要内容提取。
第三步,根据“December 2017Melbourne car attack”页面下的参考文献提取新闻语料,比如页面的第一条引用是:https://www.theguardian.com/australia-news/2017/dec/21/pedestrians-hit-by-a-car-on-melbournes-flinders-street-police-say。我们可以得到一篇题为“Melbourne car ramming:four people critically injuredand driver arrested”的新闻语料。图4所示是本发明实施例数据集中的新闻语料集的内容提取。
第四步,根据“December 2017Melbourne car attack”页面上的内容,把正文第一段话作为参考答案。图2是本发明实施例数据集中的参考答案提取位置示意。比如,“On21December2017,around 4:30pm AEDT,a car was driven into pedestrians at thecorner of Flinders Street and Elizabeth Street in Melbourne,Australia.Nineteen people were injured.”
采用本发明方法,构建得到面向事件的新闻场景生成式问答数据集是完全来自维基百科与新闻语料,数据的真实度非常高,所以,根据生成的新闻场景生成式问答数据集实现的问答系统,准确性和有效性高,具有很高的实用价值。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (5)

1.一种新闻事件生成式问答数据集的生成方法,包括如下步骤:
1)从当前事件页面所有年份的事件列表中,提取得到所有有对应链接页面的事件;链接页面为相应事件页面;
2)所述事件页面的标题为名词性短语,针对每个事件页面的事件,将该事件页面的标题作为要生成的问题的核心信息,采用将生成问题模版与生成的问题的核心信息进行拼接的方式,生成该事件的问题;通过所生成的事件的问题,能够模糊地询问相应的事件;
3)对于每个事件页面的事件,提取出该事件页面的所有参考文献中的新闻链接页面,并将参考文献中的新闻链接页面中的新闻文本作为语料,放入语料集;
4)对于每个事件页面的事件,将该事件页面的正文部分的第一段话作为步骤2)所生成事件的问题的参考答案;
生成的新闻场景生成式问答数据集包括步骤2)生成的事件的问题、步骤3)得到的语料集及步骤4)生成的针对问题的参考答案。
2.如权利要求1所述新闻事件生成式问答数据集的生成方法,其特征是,步骤1)所述当前事件页面为维基wiki的当前事件页面https://en.wikipedia.org/wiki/Portal:Current_events。
3.如权利要求1所述新闻事件生成式问答数据集的生成方法,其特征是,步骤2)所述生成问题模版具体包括“what is the…”、“tell me something about…”、“what is…”;每次生成问题时,从所述生成问题模板中随机抽取一个模板,与事件页面标题拼在一起,生成一个问题。
4.如权利要求1所述新闻事件生成式问答数据集的生成方法,其特征是,从事件页面的下方提取得到事件页面的所有参考文献中的新闻链接。
5.权利要求1~4所述新闻事件生成式问答数据集应用于处理面向事件的新闻场景生成式问答任务。
CN201810057805.8A 2018-01-22 2018-01-22 一种新闻事件生成式问答数据集的生成方法 Active CN110110050B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810057805.8A CN110110050B (zh) 2018-01-22 2018-01-22 一种新闻事件生成式问答数据集的生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810057805.8A CN110110050B (zh) 2018-01-22 2018-01-22 一种新闻事件生成式问答数据集的生成方法

Publications (2)

Publication Number Publication Date
CN110110050A true CN110110050A (zh) 2019-08-09
CN110110050B CN110110050B (zh) 2021-08-03

Family

ID=67483498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810057805.8A Active CN110110050B (zh) 2018-01-22 2018-01-22 一种新闻事件生成式问答数据集的生成方法

Country Status (1)

Country Link
CN (1) CN110110050B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112256851A (zh) * 2020-10-23 2021-01-22 大连东软教育科技集团有限公司 一种教育机器人对话数据集的生成方法、装置及存储介质
CN112711657A (zh) * 2021-01-06 2021-04-27 北京中科深智科技有限公司 一种问答方法及问答系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105068661A (zh) * 2015-09-07 2015-11-18 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法和系统
US20160124952A1 (en) * 2014-11-03 2016-05-05 International Business Machines Corporation Using Synthetic Events to Identify Complex Relation Lookups
CN106295187A (zh) * 2016-08-11 2017-01-04 中国科学院计算技术研究所 面向智能临床辅助决策支持系统的知识库构建方法与系统
CN107103005A (zh) * 2016-02-23 2017-08-29 阿里巴巴集团控股有限公司 问答语料的收集方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160124952A1 (en) * 2014-11-03 2016-05-05 International Business Machines Corporation Using Synthetic Events to Identify Complex Relation Lookups
CN105068661A (zh) * 2015-09-07 2015-11-18 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法和系统
CN107103005A (zh) * 2016-02-23 2017-08-29 阿里巴巴集团控股有限公司 问答语料的收集方法及装置
CN106295187A (zh) * 2016-08-11 2017-01-04 中国科学院计算技术研究所 面向智能临床辅助决策支持系统的知识库构建方法与系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙辉 等: "基于工具书语料的国史知识库构建和检索", 《现代情报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112256851A (zh) * 2020-10-23 2021-01-22 大连东软教育科技集团有限公司 一种教育机器人对话数据集的生成方法、装置及存储介质
CN112711657A (zh) * 2021-01-06 2021-04-27 北京中科深智科技有限公司 一种问答方法及问答系统

Also Published As

Publication number Publication date
CN110110050B (zh) 2021-08-03

Similar Documents

Publication Publication Date Title
US20180357219A1 (en) Semantic expression generation method and apparatus
CN104391934A (zh) 数据校验方法和装置
CN110929094A (zh) 一种视频标题处理方法和装置
TW201624467A (zh) 會議記錄裝置及其自動生成會議記錄的方法
CN108897771B (zh) 自动问答方法、装置、计算机可读存储介质及电子设备
TW201624468A (zh) 會議記錄裝置及其自動生成會議記錄的方法
CN106845935A (zh) 一种工程项目流程模板化的方法和系统
CN110110050A (zh) 一种新闻事件生成式问答数据集的生成方法
CN114638232A (zh) 一种文本转换成视频的方法、装置、电子设备及存储介质
CN115460459A (zh) 基于ai的视频生成方法、装置和电子设备
CN108255841A (zh) 一种题目搜索的方法及其装置
CN117763128A (zh) 人机交互的数据处理方法、服务器、存储介质和程序产品
CN108804091A (zh) 一种软件代码生成方法
CN112785284B (zh) 基于结构化文档的报文入库方法及装置
KR20190108467A (ko) 전자문서의 이미지 자동변환을 통한 강의영상 컨텐츠 제작시스템
CN105893345A (zh) 一种信息处理方法和电子设备
CN104240704A (zh) 一种语义分析将语音转化为文字的方法
CN111818064B (zh) 企业安全教育流程自动化方法
CN114757155A (zh) 一种会议文档的生成方法及装置
CN114462376A (zh) 基于rpa和ai的庭审笔录生成方法、装置、设备及介质
CN112487170A (zh) 面向场景配置的人机交互对话机器人系统
Newman et al. Automatically generating natural language documentation for methods
CN117992601B (zh) 基于人工智能的公文生成方法及装置
CN111860083A (zh) 一种人物关系补全方法及装置
CN111428018B (zh) 智能问答方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant