CN109446526B - 一种隐式篇章关系语料库的构建方法、装置和存储介质 - Google Patents

一种隐式篇章关系语料库的构建方法、装置和存储介质 Download PDF

Info

Publication number
CN109446526B
CN109446526B CN201811258016.7A CN201811258016A CN109446526B CN 109446526 B CN109446526 B CN 109446526B CN 201811258016 A CN201811258016 A CN 201811258016A CN 109446526 B CN109446526 B CN 109446526B
Authority
CN
China
Prior art keywords
question
title
titles
sentence
chapter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811258016.7A
Other languages
English (en)
Other versions
CN109446526A (zh
Inventor
洪宇
阮慧彬
孙雨
姚建民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201811258016.7A priority Critical patent/CN109446526B/zh
Publication of CN109446526A publication Critical patent/CN109446526A/zh
Application granted granted Critical
Publication of CN109446526B publication Critical patent/CN109446526B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种隐式篇章关系语料库的构建方法、装置和计算机可读存储介质,获取疑问句标题及其对应的文档信息;根据篇章关系和疑问句模板的对应关系,对各疑问句标题进行篇章关系标注;利用答案检索技术从各疑问句标题相对应的文档信息中抽取答案;对各疑问句标题及其对应的答案进行句法分析,将各疑问句标题转化为陈述句标题;从各陈述句标题中抽取篇章论元,并依据陈述句标题和疑问句标题的对应关系以及各疑问句标题所标注的篇章关系,构建隐式篇章关系语料库。实现了对疑问句标题的自动化标注,降低了对人力资源的消耗。从而依据标注好的疑问句标题,可以构建大规模的隐式篇章关系语料库。

Description

一种隐式篇章关系语料库的构建方法、装置和存储介质
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种隐式篇章关系语料库的构建方法、装置和计算机可读存储介质。
背景技术
篇章关系语料根据是否有显式连接词可分为显式篇章关系语料和隐式篇章关系语料。显式篇章关系语料中含有显式连接词,所以显式篇章关系识别任务可转化为连接词消歧任务,针对此任务,仅需一定量显式篇章关系语料即可达到较高性能;相反地,隐式篇章关系语料中不含显式关系连接词,对于隐式篇章关系识别任务而言,需要学习两个论元间的语义交互,而少量的篇章关系语料不足以支撑语义交互的充分学习。因此,隐式篇章关系语料成为篇章关系识别领域中的重要资源。如何自动获取大规模的隐式篇章关系语料成为篇章关系识别的一项基本任务。
目前,隐式篇章关系语料获取的方法大致可以分为如下两类:一类是基于显示篇章关系语料的隐式篇章关系语料获取方法,该方法将显示篇章关系语料中的显示连接词直接去除,形成伪隐式篇章关系语料。第二类则是从其余领域的结构化的语料中,生成隐式篇章关系语料。如基于双语语料连接词显隐式不匹配特征,自动生成隐式篇章关系语料。
但是现有技术在生成隐式篇章关系语料时,往往依赖于大量已标注的现有语料库,而这些语料库的建立耗费大量人力物力。
可见,如何自动地获取大量隐式篇章关系语料,是本领域技术人员亟待解决的问题。
发明内容
本发明实施例的目的是提供一种隐式篇章关系语料库的构建方法、装置和计算机可读存储介质,可以自动地获取大量隐式篇章关系语料。
为解决上述技术问题,本发明实施例提供一种隐式篇章关系语料库的构建方法,包括:
获取疑问句标题及其对应的文档信息;
根据设定的篇章关系和疑问句模板的对应关系,对各所述疑问句标题进行篇章关系标注;
利用答案检索技术,从各所述疑问句标题相对应的文档信息中抽取答案;
对各所述疑问句标题及其对应的答案进行句法分析,以将各所述疑问句标题转化为相应的陈述句标题;
从各所述陈述句标题中抽取篇章论元,并依据陈述句标题和疑问句标题的对应关系以及各所述疑问句标题所标注的篇章关系,构建隐式篇章关系语料库。
可选的,所述获取疑问句标题及其对应的文档信息包括:
利用网络爬虫从新闻网站中爬取疑问句标题及其对应的文档信息。
可选的,所述根据设定的篇章关系和疑问句模板的对应关系,对各所述疑问句标题进行篇章关系标注包括:
从获取的疑问句标题中抽取预设量的疑问句标题;并将剩余的疑问句标题作为待处理标题;
依据所述预设量的疑问句标题,设定相应的疑问句模板;其中,每个所述疑问句模板有其对应的篇章关系;
将各所述疑问句模板转化为正则规则,并依据所述正则规则,对所述待处理标题中的各疑问句标题进行篇章关系标注。
可选的,所述利用答案检索技术,从各所述疑问句标题相对应的文档信息中抽取答案包括:
利用双向注意力流模型对各所述疑问句标题及其相对应的文档信息进行处理,以从各所述文档信息中提取出答案。
可选的,所述对各所述疑问句标题及其对应的答案进行句法分析,以将各所述疑问句标题转化为相应的陈述句标题包括:
利用句法分析器,建立目标疑问句标题的标题句法分析树,以及目标答案的答案句法分析树;其中,目标疑问句标题为所有所述疑问句标题中的任意一个疑问句标题,所述目标答案为与所述目标疑问句标题相对应的答案;
将所述标题句法分析树和所述答案句法分析树进行融合,以构成陈述句句法分析树,从所述陈述句句法分析树中提取出相应的目标陈述句标题。
可选的,在所述构建隐式篇章关系语料库之后还包括:
滤除所述隐式篇章关系语料库中不满足标注要求的论元对。
本发明实施例还提供了一种隐式篇章关系语料库的构建装置,包括获取单元、标注单元、抽取单元、转化单元和构建单元;
所述获取单元,用于获取疑问句标题及其对应的文档信息;
所述标注单元,用于根据设定的篇章关系和疑问句模板的对应关系,对各所述疑问句标题进行篇章关系标注;
所述抽取单元,用于利用答案检索技术,从各所述疑问句标题相对应的文档信息中抽取答案;
所述转化单元,用于对各所述疑问句标题及其对应的答案进行句法分析,以将各所述疑问句标题转化为相应的陈述句标题;
所述构建单元,用于从各所述陈述句标题中抽取篇章论元,并依据陈述句标题和疑问句标题的对应关系以及各所述疑问句标题所标注的篇章关系,构建隐式篇章关系语料库。
可选的,所述获取单元具体用于利用网络爬虫从新闻网站中爬取疑问句标题及其对应的文档信息。
可选的,所述标注单元包括抽取子单元、设定子单元和处理子单元;
所述抽取子单元,用于从获取的疑问句标题中抽取预设量的疑问句标题;并将剩余的疑问句标题作为待处理标题;
所述设定子单元,用于依据所述预设量的疑问句标题,设定相应的疑问句模板;其中,每个所述疑问句模板有其对应的篇章关系;
所述处理子单元,用于将各所述疑问句模板转化为正则规则,并依据所述正则规则,对所述待处理标题中的各疑问句标题进行篇章关系标注。
可选的,所述抽取单元具体用于利用双向注意力流模型对各所述疑问句标题及其相对应的文档信息进行处理,以从各所述文档信息中提取出答案。
可选的,所述转化单元包括建立子单元和融合子单元;
所述建立子单元,用于利用句法分析器,建立目标疑问句标题的标题句法分析树,以及目标答案的答案句法分析树;其中,目标疑问句标题为所有所述疑问句标题中的任意一个疑问句标题,所述目标答案为与所述目标疑问句标题相对应的答案;
所述融合子单元,用于将所述标题句法分析树和所述答案句法分析树进行融合,以构成陈述句句法分析树,从所述陈述句句法分析树中提取出相应的目标陈述句标题。
可选的,还包括滤除单元;
所述滤除单元,用于在所述构建隐式篇章关系语料库之后,滤除所述隐式篇章关系语料库中不满足标注要求的论元对。
本发明实施例还提供了一种隐式篇章关系语料库的构建装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如上述隐式篇章关系语料库的构建方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述隐式篇章关系语料库的构建方法的步骤。
由上述技术方案可以看出,获取疑问句标题及其对应的文档信息;根据设定的篇章关系和疑问句模板的对应关系,对各疑问句标题进行篇章关系标注;利用答案检索技术,从各疑问句标题相对应的文档信息中抽取答案;对各疑问句标题及其对应的答案进行句法分析,以将各疑问句标题转化为相应的陈述句标题;从各陈述句标题中抽取篇章论元,并依据陈述句标题和疑问句标题的对应关系以及各疑问句标题所标注的篇章关系,构建隐式篇章关系语料库。在构建隐式篇章关系语料库时所需依据的疑问句标题的数量较多,在该技术方案中,预先设定篇章关系和疑问句模板的对应关系,根据疑问句模板,便可以标注出疑问句标题的篇章关系,实现了对疑问句标题的自动化标注,无需人工依次对各疑问句标题进行标注,降低了对人力资源的消耗。从而依据标注好的疑问句标题,可以构建大规模的隐式篇章关系语料库。
附图说明
为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种隐式篇章关系语料库的构建方法的流程图;
图2为本发明实施例提供的一种对各疑问句标题进行篇章关系标注的流程图;
图3a为本发明实施例提供的一种疑问句标题的句法分析树的示意图;
图3b为本发明实施例提供的一种基于图3a的答案句法分析树的示意图;
图3c为本发明实施例提供的一种基于图3b的陈述句句法分析树的示意图;
图4为本发明实施例提供的一种隐式篇章关系语料库的构建装置的结构示意图;
图5为本发明实施例提供的一种隐式篇章关系语料库的构建装置的硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护范围。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
接下来,详细介绍本发明实施例所提供的一种隐式篇章关系语料库的构建方法。图1为本发明实施例提供的一种隐式篇章关系语料库的构建方法的流程图,该方法包括:
S101:获取疑问句标题及其对应的文档信息。
在具体实现中,可以使用已有的从维基百科中获取的问答库——斯坦福问答数据集(The Stanford Question Answering Dataset,SQuAD),将该问答库中的问答对作为疑问句标题和其对应的文档信息。
在本发明实施例中,为了提升疑问句标题及其对应的文档信息的规范化,也可以根据数据信息的来源采集疑问句标题及其对应的文档信息,例如,可以采集相同技术领域下的疑问句标题及其对应的文档信。
相同技术领域下的数据信息的格式,语句表示方式等较为相似,采集相同技术领域下的疑问句标题及其对应的文档信息,可以提升数据信息的优质性。
以新闻领域为例,在具体实现中可以利用网络爬虫从新闻网站中爬取疑问句标题及其对应的文档信息,其具体流程如下,可以根据新闻网站栏目划分,分别在不同栏目或主题下爬取对应的新闻页面;解析新闻页面,通过对网页结构的分析,提取符合要求的疑问句标题及其对应文档信息。例如,解析美国全国广播公司网(National BroadcastingCompany)上的数据结构,结合网络爬虫获得疑问句标题及其对应的文档信息。
通过采集新闻信息有效的避免了现有技术过度依赖已标注篇章关系的语料库。
为了便于后续的调用,可以将疑问句标题和相应的文档信息一一对应,组成二元组,构建知识库。
S102:根据设定的篇章关系和疑问句模板的对应关系,对各疑问句标题进行篇章关系标注。
篇章关系可以包括时序关系、比较关系、偶然性关系和扩展关系。
在构建隐式篇章关系语料库时,需要确定出每个疑问句标题所对应的篇章关系。在S101中获取的疑问句标题的数量较多,为了实现对疑问句标题自动化标注篇章关系,可以将结构相近的疑问句标题进行汇总,设定相应的疑问句模板,并对各疑问句模板配置对应的篇章关系,即设定的篇章关系和疑问句模板的对应关系。根据疑问句标题与疑问句模板的匹配关系,便可以确定出疑问句标题对应的篇章关系。
对各疑问句标题进行篇章关系标注的具体过程可以参见图2所示的流程图,在此不再赘述。
S103:利用答案检索技术,从各疑问句标题相对应的文档信息中抽取答案。
答案检索技术可以用于从文档信息中提取出与疑问句标题相对应的答案。
从文档信息中提取答案的技术已经较为成熟,在本发明实施例中,以双向注意力流模型(Bi-Directional Attention Flow,BIDAF)为例,采用BIDAF对各疑问句标题及其相对应的文档信息进行处理,从各文档信息中提取出答案。
BIDAF模型处理过程如下:首先,对各疑问句标题和文档信息中的单词进行表征。先使用词向量和字向量进行拼接,再经过两层高速公路网络(Highway Network),分别得到疑问句标题的特征向量X∈Rd×T和文档信息的特征向量Q∈Rd×J
其次,使用双向长短时记忆网络(Bi-directional Long Short-Term Memory,Bi-LSTM)对特征向量X进行编码,捕捉X各个单词之间的局部关系,拼接其输出得到U∈R2d×J;同理,使用Bi-LSTM对特征向量Q进行编码,捕捉Q各个单词之间的局部关系,拼接其输出得到H∈R2d×T
接着,使用注意力机制,对U进行双向注意力计算,得到修正后的向量矩阵
Figure GDA0004056131470000074
同理,使用注意力机制,对H进行双向注意力计算,得到修正后的向量矩阵
Figure GDA0004056131470000071
拼接H、
Figure GDA0004056131470000072
Figure GDA0004056131470000073
得到查询感知表示矩阵G。
然后,将查询感知表示矩阵G经过Bi-LSTM处理,得到疑问句标题及其对应的文档信息的交互信息M∈R2d×T
最后,依据交互信息M确定出文档信息中答案的开始位置和结束位置,开始位置和结束位置之间的数据信息即为疑问句标题对应的答案。
S104:对各疑问句标题及其对应的答案进行句法分析,以将各疑问句标题转化为相应的陈述句标题。
疑问句标题有多个,每个疑问句标题的处理方式类似,在本发明实施例中以所有疑问句标题中的任意一个疑问句标题即目标疑问句为例,对该目标疑问句转化为陈述句标题的过程展开介绍。
首先,利用句法分析器,建立目标疑问句标题的标题句法分析树,以及目标答案的答案句法分析树;其中,目标答案为与目标疑问句标题相对应的答案。
在具体实现中,可以使用斯坦福分析器分别对目标疑问句标题及其对应的目标答案进行句法分析,构建相应的两个句法分析树。为了便于区分这两个句法分析树,可以将目标疑问句标题对应的句法分析树称作标题句法分析树;将目标答案对应的句法分析树称作答案句法分析树。
其次,将标题句法分析树和答案句法分析树进行融合,以构成陈述句句法分析树,从陈述句句法分析树中提取出相应的目标陈述句标题。
将句法分析树进行融合实际上是使用答案句法分析树的部分内容替代标题句法分析树的部分内容,从而构成完整的陈述句句法分析树,再从中得到正确的陈述句标题。
图3a是以疑问句标题为“What will happen after the national team win thegame?”为例的句法分析树的示意图;图3b是与图3a疑问句标题相对应的答案为“They willhold ceremonies.”为例的句法分析树的示意图。如图3a和图3b中实例所示,可将图3a标题句法分析树中的子句“after the national team win the game”保留,再结合图3b答案句法分析树中的子句“They will hold ceremonies”,形成如图3c所示的陈述句句法分析树,以此得到正确的陈述句标题“They will hold ceremonies after the national teamwin the game.”。
其中,图3a-图3c所示的句法分析树中所涉及的各符号表示不同词性标签,例如,S表示句子,PRP表示人称代词,MD表示语气、形态、形式、情态词,VB表示动词,VBG表示动名词/现在分词,IN表示介词/从属连词、主从连接词、从属连接词,NN表示名词单数形式,WP表示代词,DT表示限定词。
参照目标疑问句的处理方式,可以将获取的所有疑问句标题转化为陈述句标题。
S105:从各陈述句标题中抽取篇章论元,并依据陈述句标题和疑问句标题的对应关系以及各疑问句标题所标注的篇章关系,构建隐式篇章关系语料库。
在实际应用中,可以以连接词为分界点,将陈述句标题拆分为两个篇章论元,再附上其对应的篇章关系,从而得到论元对。
结合图3c所示的句法分析树,“after”即为陈述句标题中的连接词,以该连接词为分界点,可以得到“They will hold ceremonies”和“the national team win the game”这两个篇章论元,这两个篇章论元即为一个论元对。
在S102中已经确认出了疑问句标题的篇章关系,陈述句标题是由疑问句标题转化得到的,相应的,疑问句标题的篇章关系即为相应的陈述句标题的篇章关系,由此,可以确定出该论元对所对应的篇章关系。
依据上述操作,可以确定出每个疑问句标题所对应的论元对,所有依据知识库得到的论元对及其对应关系的总和构成了隐式篇章关系语料库。
为疑问句标题配置篇章关系是建立隐式篇章关系语料库的前提,接下来,将对疑问句标题配置篇章关系的过程展开介绍,如图2所示为疑问句标题配置篇章关系的流程图,包括:
S201:从获取的疑问句标题中抽取预设量的疑问句标题;并将剩余的疑问句标题作为待处理标题。
在本发明实施例中,可以对预设量的疑问句标题进行分类汇总,依据各疑问句标题的格式类型,将格式相同或相近的疑问句标题作为一组,建立用于表示该种格式类型的疑问句模板。然后再利用标注好的疑问句模板对待处理标题中的各疑问句标题标注篇章关系。
预设量的具体取值可以依据实际需求进行设定,在此不做限定。
S202:依据预设量的疑问句标题,建立相应的疑问句模板。
在本发明实施例中,可以对预设量的疑问句标题进行分类汇总,依据各疑问句标题的格式类型,将格式相同或相近的疑问句标题作为一组,建立用于表示该种格式类型的疑问句模板。
预设量的疑问句标题可以划分为多组,每组疑问句标题可以对应一个疑问句模板。每个疑问句模板可以对应多个疑问句标题,即这些疑问句标题均可以用该疑问句模板表示。
建立疑问句模板后,管理人员可以对模板进行篇章关系标注,以得到大量已标注的疑问句模板。
在本发明实施例中,也可以采用人工划分疑问句模板,人工观察疑问句标题,然后对疑问句标题进行模板抽取:如[疑问词]+[]+[固定动词]+[连接词]+[],对应例子:[What]+[]+[happen]+[after]+[],并对模板进行篇章关系标注,以得到大量已标注的疑问句模板。
S203:将各疑问句模板转化为正则规则,并依据正则规则,对待处理标题中的各疑问句标题进行篇章关系标注。
在本发明实施例中,为了便于系统对疑问句标题和疑问句模板进行自动化的匹配,可以将标注好篇章关系的各疑问句模板转化成正则规则,依据这些正则规则,为知识库中剩余的疑问句标题进行模板匹配,并为这些疑问句标题标注此模板对应的篇章关系,以得到大量标注后的疑问句标题。
由上述技术方案可以看出,获取疑问句标题及其对应的文档信息;根据设定的篇章关系和疑问句模板的对应关系,对各疑问句标题进行篇章关系标注;利用答案检索技术,从各疑问句标题相对应的文档信息中抽取答案;对各疑问句标题及其对应的答案进行句法分析,以将各疑问句标题转化为相应的陈述句标题;从各陈述句标题中抽取篇章论元,并依据陈述句标题和疑问句标题的对应关系以及各疑问句标题所标注的篇章关系,构建隐式篇章关系语料库。在构建隐式篇章关系语料库时所需依据的疑问句标题的数量较多,在该技术方案中,预先设定篇章关系和疑问句模板的对应关系,根据疑问句模板,便可以标注出疑问句标题的篇章关系,实现了对疑问句标题的自动化标注,无需人工依次对各疑问句标题进行标注,降低了对人力资源的消耗。从而依据标注好的疑问句标题,可以构建大规模的隐式篇章关系语料库。
为了保证隐式篇章关系语料库中各论元对的完整有效,在本发明实施例中,在构建隐式篇章关系语料库之后,还可以对隐式篇章关系语料库中各论元对进行检测,滤除隐式篇章关系语料库中不满足标注要求的论元对。
在具体实现中,可以使用宾州篇章树库(Penn Discourse Treebank,PDTB)中的数据训练强化学习模型,过滤标注不良的论元对。
图4为本发明实施例提供的一种隐式篇章关系语料库的构建装置的结构示意图,包括获取单元41、标注单元42、抽取单元43、转化单元44和构建单元45;
获取单元41,用于获取疑问句标题及其对应的文档信息;
标注单元42,用于根据设定的篇章关系和疑问句模板的对应关系,对各疑问句标题进行篇章关系标注;
抽取单元43,用于利用答案检索技术,从各疑问句标题相对应的文档信息中抽取答案;
转化单元44,用于对各疑问句标题及其对应的答案进行句法分析,以将各疑问句标题转化为相应的陈述句标题;
构建单元45,用于从各陈述句标题中抽取篇章论元,并依据陈述句标题和疑问句标题的对应关系以及各疑问句标题所标注的篇章关系,构建隐式篇章关系语料库。
可选的,获取单元具体用于利用网络爬虫从新闻网站中爬取疑问句标题及其对应的文档信息。
可选的,标注单元包括抽取子单元、设定子单元和处理子单元;
抽取子单元,用于从获取的疑问句标题中抽取预设量的疑问句标题;并将剩余的疑问句标题作为待处理标题;
设定子单元,用于依据预设量的疑问句标题,建立相应的疑问句模板;其中,每个疑问句模板有其对应的篇章关系;
处理子单元,用于将各疑问句模板转化为正则规则,并依据正则规则,对待处理标题中的各疑问句标题进行篇章关系标注。
可选的,抽取单元具体用于利用双向注意力流模型对各疑问句标题及其相对应的文档信息进行处理,以从各文档信息中提取出答案。
可选的,转化单元包括建立子单元和融合子单元;
建立子单元,用于利用句法分析器,建立目标疑问句标题的标题句法分析树,以及目标答案的答案句法分析树;其中,目标疑问句标题为所有疑问句标题中的任意一个疑问句标题,目标答案为与目标疑问句标题相对应的答案;
融合子单元,用于将标题句法分析树和答案句法分析树进行融合,以构成陈述句句法分析树,从陈述句句法分析树中提取出相应的目标陈述句标题。
可选的,还包括滤除单元;
滤除单元,用于在构建隐式篇章关系语料库之后,滤除隐式篇章关系语料库中不满足标注要求的论元对。
图4所对应实施例中特征的说明可以参见图1和图2所对应实施例的相关说明,这里不再一一赘述。
由上述技术方案可以看出,获取疑问句标题及其对应的文档信息;根据设定的篇章关系和疑问句模板的对应关系,对各疑问句标题进行篇章关系标注;利用答案检索技术,从各疑问句标题相对应的文档信息中抽取答案;对各疑问句标题及其对应的答案进行句法分析,以将各疑问句标题转化为相应的陈述句标题;从各陈述句标题中抽取篇章论元,并依据陈述句标题和疑问句标题的对应关系以及各疑问句标题所标注的篇章关系,构建隐式篇章关系语料库。在构建隐式篇章关系语料库时所需依据的疑问句标题的数量较多,在该技术方案中,预先设定篇章关系和疑问句模板的对应关系,根据疑问句模板,便可以标注出疑问句标题的篇章关系,实现了对疑问句标题的自动化标注,无需人工依次对各疑问句标题进行标注,降低了对人力资源的消耗。从而依据标注好的疑问句标题,可以构建大规模的隐式篇章关系语料库。
图5为本发明实施例提供的一种隐式篇章关系语料库的构建装置50的结构示意图,包括:
存储器51,用于存储计算机程序;
处理器52,用于执行计算机程序以实现如上述隐式篇章关系语料库的构建方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述隐式篇章关系语料库的构建方法的步骤。
以上对本发明实施例所提供的一种隐式篇章关系语料库的构建方法、装置和计算机可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

Claims (8)

1.一种隐式篇章关系语料库的构建方法,其特征在于,包括:
获取疑问句标题及其对应的文档信息;
根据设定的篇章关系和疑问句模板的对应关系,对各所述疑问句标题进行篇章关系标注;
利用答案检索技术,从各所述疑问句标题相对应的文档信息中抽取答案;
对各所述疑问句标题及其对应的答案进行句法分析,以将各所述疑问句标题转化为相应的陈述句标题;
从各所述陈述句标题中抽取篇章论元,并依据陈述句标题和疑问句标题的对应关系以及各所述疑问句标题所标注的篇章关系,构建隐式篇章关系语料库;
其中,所述利用答案检索技术,从各所述疑问句标题相对应的文档信息中抽取答案包括:
利用双向注意力流模型对各所述疑问句标题及其相对应的文档信息进行处理,以从各所述文档信息中提取出答案;
其中,所述对各所述疑问句标题及其对应的答案进行句法分析,以将各所述疑问句标题转化为相应的陈述句标题包括:
利用句法分析器,建立目标疑问句标题的标题句法分析树,以及目标答案的答案句法分析树;其中,目标疑问句标题为所有所述疑问句标题中的任意一个疑问句标题,所述目标答案为与所述目标疑问句标题相对应的答案;
将所述标题句法分析树和所述答案句法分析树进行融合,以构成陈述句句法分析树,从所述陈述句句法分析树中提取出相应的目标陈述句标题。
2.根据权利要求1所述的方法,其特征在于,所述获取疑问句标题及其对应的文档信息包括:
利用网络爬虫从新闻网站中爬取疑问句标题及其对应的文档信息。
3.根据权利要求1所述的方法,其特征在于,所述根据设定的篇章关系和疑问句模板的对应关系,对各所述疑问句标题进行篇章关系标注包括:
从获取的疑问句标题中抽取预设量的疑问句标题;并将剩余的疑问句标题作为待处理标题;
依据所述预设量的疑问句标题,设定相应的疑问句模板;其中,每个所述疑问句模板有其对应的篇章关系;
将各所述疑问句模板转化为正则规则,并依据所述正则规则,对所述待处理标题中的各疑问句标题进行篇章关系标注。
4.根据权利要求1-3任意一项所述的方法,其特征在于,在所述构建隐式篇章关系语料库之后还包括:
滤除所述隐式篇章关系语料库中不满足标注要求的论元对。
5.一种隐式篇章关系语料库的构建装置,其特征在于,包括获取单元、标注单元、抽取单元、转化单元和构建单元;
所述获取单元,用于获取疑问句标题及其对应的文档信息;
所述标注单元,用于根据设定的篇章关系和疑问句模板的对应关系,对各所述疑问句标题进行篇章关系标注;
所述抽取单元,用于利用答案检索技术,从各所述疑问句标题相对应的文档信息中抽取答案;
所述转化单元,用于对各所述疑问句标题及其对应的答案进行句法分析,以将各所述疑问句标题转化为相应的陈述句标题;
所述构建单元,用于从各所述陈述句标题中抽取篇章论元,并依据陈述句标题和疑问句标题的对应关系以及各所述疑问句标题所标注的篇章关系,构建隐式篇章关系语料库;
其中,所述抽取单元具体用于利用双向注意力流模型对各所述疑问句标题及其相对应的文档信息进行处理,以从各所述文档信息中提取出答案;
其中,所述转化单元,包括:
建立子单元,用于利用句法分析器,建立目标疑问句标题的标题句法分析树,以及目标答案的答案句法分析树;其中,目标疑问句标题为所有所述疑问句标题中的任意一个疑问句标题,所述目标答案为与所述目标疑问句标题相对应的答案;
融合子单元,用于将所述标题句法分析树和所述答案句法分析树进行融合,以构成陈述句句法分析树,从所述陈述句句法分析树中提取出相应的目标陈述句标题。
6.根据权利要求5所述的装置,其特征在于,所述获取单元具体用于利用网络爬虫从新闻网站中爬取疑问句标题及其对应的文档信息。
7.一种隐式篇章关系语料库的构建装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至4任意一项所述隐式篇章关系语料库的构建方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述隐式篇章关系语料库的构建方法的步骤。
CN201811258016.7A 2018-10-26 2018-10-26 一种隐式篇章关系语料库的构建方法、装置和存储介质 Active CN109446526B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811258016.7A CN109446526B (zh) 2018-10-26 2018-10-26 一种隐式篇章关系语料库的构建方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811258016.7A CN109446526B (zh) 2018-10-26 2018-10-26 一种隐式篇章关系语料库的构建方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN109446526A CN109446526A (zh) 2019-03-08
CN109446526B true CN109446526B (zh) 2023-05-12

Family

ID=65547800

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811258016.7A Active CN109446526B (zh) 2018-10-26 2018-10-26 一种隐式篇章关系语料库的构建方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN109446526B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110888980B (zh) * 2019-10-10 2023-12-22 天津大学 基于知识增强的注意力神经网络的隐式篇章关系识别方法
CN111209366B (zh) * 2019-10-10 2023-04-21 天津大学 基于TransS驱动的互激励神经网络的隐式篇章关系识别方法
CN111695341B (zh) * 2020-06-16 2023-04-14 北京理工大学 一种基于篇章结构图卷积的隐式篇章关系分析方法和系统
CN111984790B (zh) * 2020-08-26 2023-07-25 南京柯基数据科技有限公司 一种实体关系抽取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105955956A (zh) * 2016-05-05 2016-09-21 中国科学院自动化研究所 一种汉语隐式篇章关系识别方法
CN106326212A (zh) * 2016-08-26 2017-01-11 北京理工大学 一种基于层次深度语义的隐式篇章关系分析方法
CN107330032A (zh) * 2017-06-26 2017-11-07 北京理工大学 一种基于递归神经网络的隐式篇章关系分析方法
CN107391575A (zh) * 2017-06-20 2017-11-24 浙江理工大学 一种基于词向量模型的隐式特征识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9299024B2 (en) * 2012-12-11 2016-03-29 International Business Machines Corporation Method of answering questions and scoring answers using structured knowledge mined from a corpus of data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105955956A (zh) * 2016-05-05 2016-09-21 中国科学院自动化研究所 一种汉语隐式篇章关系识别方法
CN106326212A (zh) * 2016-08-26 2017-01-11 北京理工大学 一种基于层次深度语义的隐式篇章关系分析方法
CN107391575A (zh) * 2017-06-20 2017-11-24 浙江理工大学 一种基于词向量模型的隐式特征识别方法
CN107330032A (zh) * 2017-06-26 2017-11-07 北京理工大学 一种基于递归神经网络的隐式篇章关系分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于训练样本集扩展的隐式篇章关系分类;朱珊珊等;《中文信息学报》;20160915(第05期);全文 *

Also Published As

Publication number Publication date
CN109446526A (zh) 2019-03-08

Similar Documents

Publication Publication Date Title
CN109446526B (zh) 一种隐式篇章关系语料库的构建方法、装置和存储介质
Deeptimahanti et al. Semi-automatic generation of UML models from natural language requirements
Ferrández et al. The QALL-ME Framework: A specifiable-domain multilingual Question Answering architecture
US9208136B2 (en) Automated document revision markup and change control
CN100371927C (zh) 使用机器翻译技术标识释义的方法和系统
DE102019001267A1 (de) Dialogartiges System zur Beantwortung von Anfragen
DE60101668T2 (de) Verfahren und gerät zum erzeugen eines auf einer formatvorlage basierten index für ein strukturiertes dokument
Forăscu et al. Romanian TimeBank: An annotated parallel corpus for temporal information
CN116244344B (zh) 基于用户需求的检索方法、装置以及电子设备
CN112052414A (zh) 一种数据处理方法、装置以及可读存储介质
CN116955674B (zh) 一种通过LLM生成图数据库语句的方法及web装置
KR20140052328A (ko) Rdf 기반의 문장 온톨로지 생성 장치 및 방법
Bontcheva et al. Learning ontologies from software artifacts: Exploring and combining multiple sources
Jung Semantic wiki-based knowledge management system by interleaving ontology mapping tool
El-ghobashy et al. A proposed framework for Arabic semantic annotation tool
JP6095487B2 (ja) 質問応答装置、及び質問応答方法
CN116097253A (zh) 构建多层次知识图谱的方法和装置
KR101802051B1 (ko) 자연 언어 처리 스키마 및 그 지식 데이터베이스 구축 방법 및 시스템
CN110110050B (zh) 一种新闻事件生成式问答数据集的生成方法
KR20100003087A (ko) 온톨로지 프로퍼티를 이용한 온톨로지 인스턴스 추출시스템 및 그 방법
CN113297349B (zh) 一种基于知识图谱的ros软件包推荐方法及系统
Mattox et al. Rapper: a wrapper generator with linguistic knowledge
CN114238654A (zh) 一种知识图谱的构建方法、装置和计算机可读存储介质
Papadias et al. Educing knowledge from text: Semantic information extraction of spatial concepts and places
Lacasta et al. Generating an urban domain ontology through the merging of cross-domain lexical ontologies

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant