CN108009234B - 一种非实体类型论元的抽取方法、装置及设备 - Google Patents

一种非实体类型论元的抽取方法、装置及设备 Download PDF

Info

Publication number
CN108009234B
CN108009234B CN201711227016.6A CN201711227016A CN108009234B CN 108009234 B CN108009234 B CN 108009234B CN 201711227016 A CN201711227016 A CN 201711227016A CN 108009234 B CN108009234 B CN 108009234B
Authority
CN
China
Prior art keywords
corpus
candidate
subtree
test
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711227016.6A
Other languages
English (en)
Other versions
CN108009234A (zh
Inventor
柳亦婷
李培峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201711227016.6A priority Critical patent/CN108009234B/zh
Publication of CN108009234A publication Critical patent/CN108009234A/zh
Application granted granted Critical
Publication of CN108009234B publication Critical patent/CN108009234B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种非实体类型论元的抽取方法,对非实体类型论元与触发词的位置关系进行了判断,提出了对候选子树的选择策略,改进了对候选子树分类所使用的特征,加入了实体作为候选子树内部的语义信息,从而对实体类型论元进行了排除性识别,这些改进措施使得应用于覆盖域的识别方法移植到非实体类型论元的识别上来,进一步获得了非实体类型论元。该方法更加有利于特定领域的专业人士全面、完整地掌握他们所需要的信息,提高信息获取的效率和准确性。本申请还公开了一种非实体类型论元的抽取装置、设备及计算机可读存储介质,均具有上述有益效果。

Description

一种非实体类型论元的抽取方法、装置及设备
技术领域
本申请涉及信息抽取领域,特别涉及一种非实体类型论元的抽取方法,还涉及一种非实体类型论元的抽取装置、设备及计算机可读存储介质。
背景技术
事件是信息表示的一种主要形式,代表了真实世界中已经或可能或将要发生的事情,如请求事件、不同意事件、研发事件、交易事件等。论元是构成事件的基本要素,例如时间论元、地点论元、参与者论元等。传统的论元抽取是指实体类型论元抽取。实体类型论元作为和事件相关的实体实例,是构成事件的基本要素之一。然而,句子中的有些非实体成分也可能成为用户所关心的事件元素。这些非实体成分通常是对事件内容的具体描述,但不能用通常的实体类型论元抽取方法去抽取。对于通用领域信息抽取而言,实体类型论元和触发词已经能够构成对事件的完整描述,但对于一些应用型的特定领域,仅仅抽取出实体类型论元是不完整的,不能满足用户对于信息抽取的需求。
现有的事件论元抽取都是实体类型论元抽取,尚未对非实体类型论元的抽取进行研究和实现。传统的实体类型论元抽取方法是将句子中出现的每个实体作为候选,通过对其进行二分类判定它是否是论元,但非实体类型论元显然不能用这样的方法抽取。
因此,如何抽取非实体类型论元,以便于特定领域的专业人士全面、完整地掌握他们所需要的信息,提高信息获取的效率和准确性是本领域技术人员亟待解决的问题。
发明内容
本申请的目的是提供一种非实体类型论元的抽取方法,该方法更加有利于特定领域的专业人士全面、完整地掌握他们所需要的信息,提高信息获取的效率和准确性;本申请的另一目的是提供一种非实体类型论元的抽取装置、设备及计算机可读存储介质,均具有上述有益效果。
为解决上述技术问题,本申请提供一种非实体类型论元的抽取方法,该抽取方法包括:
分别在训练语料标注文档和测试语料标注文档中读取实体标注信息和事件标注信息;对所述实体标注信息和所述事件标注信息进行处理获得训练语料集合和测试语料集合;
判断所述测试语料集合中的各个事件实例中是否存在位于触发词左侧的左侧非实体类型论元;若存在,则将所述左侧非实体类型论元加入左侧非实体类型论元集合;若不存在,则将所述触发词所在的测试语料加入处理后测试语料集合;
根据候选子树选择策略,利用所述训练语料集合和所述处理后测试语料集合进行构建和筛选,获得训练语料候选子树集和测试语料候选子树集;
分别对所述训练语料候选子树集和所述测试语料候选子树集中的各个候选子树抽取对应的特征信息,获得训练语料特征集合和测试语料特征集合;
根据所述训练语料特征集合中的特征信息训练得到候选子树识别模型;利用所述候选子树识别模型和所述测试语料特征集合中的特征信息,对所述测试语料候选子树集中的各个候选子树的类别和置信度进行预测,获得测试语料候选子树预测集合;
预测所述测试语料候选子树预测集合中的各个事件实例中的位于所述触发词右侧的右侧非实体类型论元,将所述右侧非实体类型论元加入右侧非实体类型论元集合;将所述左侧非实体类型论元集合与所述右侧非实体类型论元集合进行合并获得非实体类型论元集合。
优选的,所述分别在训练语料标注文档和测试语料标注文档中读取实体标注信息和事件标注信息;对所述实体标注信息和所述事件标注信息进行处理获得训练语料集合和测试语料集合包括:
分别读取所述训练语料标注文档和所述测试语料标注文档中的事件标注信息,得到训练语料事件集合和测试语料事件集合;
分别读取所述训练语料标注文档和所述测试语料标注文档中的实体标注信息,得到训练语料实体集合和测试语料实体集合;
调用词性标注工具,分别对所述训练语料事件集合和所述测试语料事件集合进行处理,得到训练语料第一文档集合和测试语料第一文档集合;
调用词形还原工具,分别对所述训练语料事件集合和所述测试语料事件集合进行处理,得到训练语料第二文档集合和测试语料第二文档集合;
调用短语句法分析工具,分别对所述训练语料事件集合和所述测试语料事件集合进行处理,得到训练语料第三文档集合和测试语料第三文档集合;
将所述训练语料事件集合、所述训练语料实体集合、所述训练语料第一文档集合、所述训练语料第二文档集合、所述训练语料第三文档集合合并成所述训练语料集合;将所述测试语料事件集合、所述测试语料实体集合、所述测试语料第一文档集合、所述测试语料第二文档集合、所述测试语料第三文档集合合并成为所述测试语料集合。
优选的,所述判断所述测试语料集合中的各个事件实例中是否存在位于触发词左侧的左侧非实体类型论元;若存在,则将所述左侧非实体类型论元加入左侧非实体类型论元集合;若不存在,则将所述触发词所在的测试语料加入处理后测试语料集合包括:
判断所述测试语料集合中各个事件实例中的事件类型是否存在于第一事件类型子集中,若不存在,则将所述事件类型所在的测试语料加入至待判定语料集合;
若存在,则判断所述触发词的词性是否为动词且为被动语态;若是,则将所述触发词的宾语作为所述左侧非实体类型论元,加入至所述左侧非实体类型论元集合;若不是,则将所述触发词所在的测试语料加入至所述待判定语料集合;
判断所述待判定语料集合中各个事件实例中的事件类型是否存在于第二事件类型子集中,若不存在,则将所述事件类型所在的测试语料加入至处理后测试语料集合;
若存在,则判断所述触发词所在的分句是否位于对应的测试语料的尾部且所述分句中包含特征词集合中的词,若是,则将所述分句前的部分全部作为所述左侧非实体类型论元,加入至所述左侧非实体类型论元集合;若不是,将所述触发词所在的测试语料加入至所述处理后测试语料集合;
其中,所述第一事件类型子集、所述第二事件类型子集和所述特征词集合均为预先设定的。
优选的,所述根据候选子树选择策略,利用所述训练语料集合和所述处理后测试语料集合进行构建和筛选,获得训练语料候选子树集和测试语料候选子树集包括:
分别获取所述训练语料集合和所述处理后测试语料集合中的各个事件实例对应的短语句法树;将所述短语句法树中以句法节点为根节点的短语句法子树组合成短语句法子树集合,将所述触发词在所述短语句法树上的句法节点到根节点路径上经过的节点组合成节点集合;
遍历所述短语句法子树集合中的各个短语句法子树,判断所述短语句法子树上是否存在为所述节点集合中各个节点的左兄弟的节点,若不存在,则将所述短语句法子树加入至训练语料基本候选子树集和测试语料基本候选子树集;
判断所述训练语料基本候选子树集和所述测试语料基本候选子树集中的各个候选子树的根节点的句法类型是否属于特定句法类型集合,若是,则将所述候选子树加入至训练语料特定句法类型候选子树集和测试语料特定句法类型候选子树集;其中,所述特定句法类型集合为预先设定的;
通过公式P=(count(candidate))/(count(common))计算所述训练语料特定句法类型候选子树集和所述测试语料特定句法类型候选子树集中的各个候选子树的节点数目与最小公共树节点数目的比例P值;其中,candidate为所述候选子树的根节点,common为所述候选子树与所述触发词的最小公共树的根节点,count(v)为以v为根节点的树的节点数目;当所述P值不小于预定阈值时,则将所述候选子树加入至所述训练语料候选子树集和所述测试语料候选子树集。
优选的,所述分别对所述训练语料候选子树集和所述测试语料候选子树集中的各个候选子树抽取对应的特征信息,获得训练语料特征集合和测试语料特征集合包括:
抽取所述训练语料候选子树集和所述测试语料候选子树集中的各个候选子树的平面特征,加入至训练语料平面特征集合和测试语料平面特征集合;
抽取所述训练语料候选子树集和所述测试语料候选子树集中的各个候选子树的结构化特征,加入至训练语料结构化特征集合和测试语料结构化特征集合;
将所述训练语料平面特征集合与所述训练语料结构化特征集合合并为所述训练语料特征集合;将所述测试语料平面特征集合与所述测试语料结构化特征集合合并为所述测试语料特征集合。
优选的,所述根据所述训练语料特征集合中的特征信息训练得到候选子树识别模型包括:
根据所述训练语料特征集合中的特征信息,调用SVM分类工具进行训练,获得基于SVM的候选子树识别模型。
优选的,所述预测所述测试语料候选子树预测集合中的各个事件实例中的位于所述触发词右侧的右侧非实体类型论元,将所述右侧非实体类型论元加入右侧非实体类型论元集合包括:
预测所述测试语料候选子树预测集合中的各个事件实例中置信度最高的候选子树,获取所述候选子树的置信度;判断所述置信度是否不小于所述预定阈值,若是,则将所述候选子树所代表的域作为所述右侧非实体类型论元,加入至所述右侧非实体类型论元集合。
为解决上述技术问题,本申请还提供一种非实体类型论元的抽取装置,包括:
处理模块,用于分别在训练语料标注文档和测试语料标注文档中读取实体标注信息和事件标注信息;对所述实体标注信息和所述事件标注信息进行处理获得训练语料集合和测试语料集合;
判断模块,用于判断所述测试语料集合中的各个事件实例中是否存在位于触发词左侧的左侧非实体类型论元;若存在,则将所述左侧非实体类型论元加入左侧非实体类型论元集合;若不存在,则将所述触发词所在的测试语料加入处理后测试语料集合;
构建模块,用于根据候选子树选择策略,利用所述训练语料集合和所述处理后测试语料集合进行构建和筛选,获得训练语料候选子树集和测试语料候选子树集;
抽取模块,用于分别对所述训练语料候选子树集和所述测试语料候选子树集中的各个候选子树抽取对应的特征信息,获得训练语料特征集合和测试语料特征集合;
预测模块,用于根据所述训练语料特征集合中的特征信息训练得到候选子树识别模型;利用所述候选子树识别模型和所述测试语料特征集合中的特征信息,对所述测试语料候选子树集中的各个候选子树的类别和置信度进行预测,获得测试语料候选子树预测集合;
合并模块,用于预测所述测试语料候选子树预测集合中的各个事件实例中的位于所述触发词右侧的右侧非实体类型论元,将所述右侧非实体类型论元加入右侧非实体类型论元集合;将所述左侧非实体类型论元集合与所述右侧非实体类型论元集合进行合并获得非实体类型论元集合。
为解决上述技术问题,本申请还提供一种非实体类型论元的抽取设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述任意一项所述非实体类型论元的抽取方法的步骤。
为解决上述问题,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述非实体类型论元的抽取方法的步骤。
本申请提供了一种非实体类型论元的抽取方法,包括:分别在训练语料标注文档和测试语料标注文档中读取实体标注信息和事件标注信息;对所述实体标注信息和所述事件标注信息进行处理获得训练语料集合和测试语料集合;判断所述测试语料集合中的各个事件实例中是否存在位于触发词左侧的左侧非实体类型论元;若存在,则将所述左侧非实体类型论元加入左侧非实体类型论元集合;若不存在,则将所述触发词所在的测试语料加入处理后测试语料集合;根据候选子树选择策略,利用所述训练语料集合和所述处理后测试语料集合进行构建和筛选,获得训练语料候选子树集和测试语料候选子树集;分别对所述训练语料候选子树集和所述测试语料候选子树集中的各个候选子树抽取对应的特征信息,获得训练语料特征集合和测试语料特征集合;根据所述训练语料特征集合中的特征信息训练得到候选子树识别模型;利用所述候选子树识别模型和所述测试语料特征集合中的特征信息,对所述测试语料候选子树集中的各个候选子树的类别和置信度进行预测,获得测试语料候选子树预测集合;预测所述测试语料候选子树预测集合中的各个事件实例中的位于所述触发词右侧的右侧非实体类型论元,将所述右侧非实体类型论元加入右侧非实体类型论元集合;将所述左侧非实体类型论元集合与所述右侧非实体类型论元集合进行合并获得非实体类型论元集合。
可见,本申请所提供的技术方案,从面向句法子树的角度进行抽取,关注覆盖域在句法树上的外部结构,而不是内部结构,并且不使用后处理方法,而是只选择一棵候选子树,将它所代表的域作为非实体类型论元,提高了域边界识别任务本身的性能,有效的将覆盖域的识别方法移植到非实体类型论元的识别任务上来,挖掘了非实体域与触发词间的句法结构关系,通过加入实体信息进行实体类型论元的排除性识别,从而提高了非实体类型论元识别的性能和论元识别的完整性。对非实体类型论元的抽取,克服了现有技术召回率和准确率低下的问题,更加有利于特定领域的专业人士全面、完整地掌握他们所需要的信息,提高信息获取的效率和准确性。
本申请还提供了一种非实体类型论元的抽取装置、设备及计算机可读存储介质,均具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请所提供的一种非实体类型论元的抽取方法的流程示意图;
图2为本申请所提供的一种预处理的流程示意图;
图3为本申请所提供的一种事件句在经过短语句法分析后得到的短语句法树的结构示意图;
图4为本申请所提供的一种非实体类型论元方向选择的方法的流程示意图;
图5为本申请所提供的一种候选子树筛选的方法的流程示意图;
图6为本申请所提供的一种候选子树特征抽取的方法的流程示意图;
图7为本申请所提供的一种候选子树简化的最小公共树的结构示意图;
图8为本申请所提供的一种候选子树的实体树的结构示意图;
图9为本申请所提供的一种非实体类型论元的抽取装置的示意图;
图10为本申请所提供的一种非实体类型论元的抽取设备的示意图。
具体实施方式
本申请的核心是提供一种非实体类型论元的抽取方法,该方法更加有利于特定领域的专业人士全面、完整地掌握他们所需要的信息,提高信息获取的效率和准确性;本申请的另一核心是提供一种非实体类型论元的抽取装置、设备及计算机可读存储介质,均具有上述有益效果。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
请参考图1,图1为本申请所提供的一种非实体类型论元的抽取方法的流程示意图,该方法可以包括:
S10:分别在训练语料标注文档和测试语料标注文档中读取实体标注信息和事件标注信息;对实体标注信息和事件标注信息进行处理获得训练语料集合和测试语料集合;
具体的,在训练语料标注文档中读取实体标注信息和事件标注信息,在测试语料标注文档中读取实体标注信息和事件标注信息,并对获得的实体标注信息以及事件标注信息进行相关处理处理,进一步获得训练语料集合和测试语料集合;其中,上述语料是指包含了一系列相关信息的文档集合。
请参考图2,图2为本申请所提供的一种预处理的流程示意图。
优选的,上述步骤S10具体包括:
S101:分别读取训练语料标注文档和测试语料标注文档中的事件标注信息,得到训练语料事件集合和测试语料事件集合;
具体的,例如,上述训练语料标注文档和测试语料标注文档的事件标注信息如例1所示:
例1:标注文档:Obama_204954.xml
Figure BDA0001487418130000091
其中,<event>、<event_mention>、<anchor>、<event_mention_argument>分别为事件、事件实例、触发词、论元的标记。<event>的属性SUBTYPE标记了此事件的类型,由于该实例触发词为“discuss”,因此事件类型为“会谈”;<event_mention_argument>的属性ROLE表示该论元填充的角色名称,如论元“the serious matter”填充的角色为“Content”,即非实体类型论元。
具体的,上述训练语料事件集合和测试语料事件集合中每个事件实例的格式如下:
<事件句编号><文档名><事件实例ID><事件类型><触发词,触发词位置><事件句><非实体类型论元,非实体类型论元位置>
其中,当事件实例中不存在非实体类型论元时,非实体类型论元的格式可以为“<null,START="-1"END="-1">”。
进一步,上述例1在训练语料事件集合或测试语料事件集合中的事件实例可以表示为例2所示:
例2:<1201><Obama_204954><Obama-204954-EV1-1><会谈><discuss,START="276"END="283"><The leaders are willing to discuss the serious matter withthe government.><the serious matter,START="284"END="302">
S102:分别读取训练语料标注文档和测试语料标注文档中的实体标注信息,得到训练语料实体集合和测试语料实体集合;
具体的,在上述例1的标注文档中,<entity>是实体标记,属性TYPE标记了实体的类型。该例子中标记了两个实体实例,第一个实体为“The leaders”,其类型为“PER”(人);第二个实体为“the government”,其类型为“ORG”(组织)。
其中,上述训练语料实体集合和测试语料实体集合中每个实体实例的格式如下:
<事件句编号><文档名><实体实例ID><实体类型><实体,实体位置>
进一步,上述例1在训练语料实体集合和测试语料实体集合中的实体实例可以表示为例3所示:
例3:<1201><Obama_204954><E7><PER><The leaders,START="249"END="260"><1201><Obama_204954><E8><GPE><the government,START="308"END="322">
S103:调用词性标注工具,分别对训练语料事件集合和测试语料事件集合进行处理,得到训练语料第一文档集合和测试语料第一文档集合;
具体的,可以调用词性标注工具,分别对训练语料事件集合和测试语料事件集合中的每一句事件句进行词性标注,例如,上述例2的事件句在经过词性标注后可以表示为例4所示:
例4:The/DT leaders/NNS are/VBP willing/JJ to/TO discuss/VB the/DTserious/JJ matter/NN with/IN the/DT government/NN
其中,词性标注是值指为句子中的每一个单词标注词性;“DT”、“NNS”、“VBP”、“JJ”、“TO”、“VB”、“NN”、“IN”是词性标签,分别表示限定词、单数名词、动词、形容词、不定式介词、动词、复数名词、介词。
S104:调用词形还原工具,分别对训练语料事件集合和测试语料事件集合进行处理,得到训练语料第二文档集合和测试语料第二文档集合;
具体的,可以调用词形还原工具,分别对训练语料事件集合和测试语料事件集合中的每一句事件句进行词形还原,例如,上述例2的事件句在经过词形还原后可以表示为例5所示:
例5:The/the leaders/leader are/is willing/will to/to discuss/discussthe/the serious/serious matter/matter with/with the/the government/government
其中,词形还原是指把任何形式的英语单词还原到一般形式,上述“/”号前的单词是原文本中的单词,“/”号后的单词是经词形还原后得到的一般形式的单词。如“leaders/leader”中,原始文本单词为“leaders”,经词形还原后得到的单词为“leader”。
S105:调用短语句法分析工具,分别对训练语料事件集合和测试语料事件集合进行处理,得到训练语料第三文档集合和测试语料第三文档集合;
具体的,可以调用短语句法分析工具,分别对训练语料事件集合和测试语料事件集合中的每一句事件句进行短语句法分析,例如,上述例2的事件句在经过短语句法分析后可以表示为例6所示:
例6:(S(NP(DT The)(NNS leaders))(VP(VBP are)(ADJP(JJ willing)(S(TO to)(VP(VB discuss)(NP(DT the)(JJ serious)(NN matter))(PP(IN with)(NP(DT the)(NNgovernment))))))))
具体的,请参考图3,图3本申请所提供的上述例6对应的短语句法树的结构示意图,即上述例2的事件句在经过短语句法分析后得到的短语句法树的结构示意图。
其中,句法分析是指对句子中的词语语法功能进行分析。句子在经过句法分析后形成一棵树状的结构,可以称为短语句法树。短语句法树由节点和连接两个节点的边构成。位于短语句法树顶端的节点是所有节点的根,称为根节点;没有后代的节点是叶子节点;同一点的两个直接后代互为兄弟;短语句法树中的任一顶点又能与它的所有后代节点构成短语句法子树。例如,在图3所示的短语句法树中,根节点为“S1”;节点“government”是叶子节点;节点“NP1”与节点“VP1”互为兄弟,“NP1”是“VP1”的左兄弟;节点“VP2”与它的所有后代节点能构成短语句法子树。可以看出,能构成的短语句法子树的数目与短语句法树中的节点数是相等的,图3中的短语句法树中共有33棵短语句法子树。
具体的,在图3的短语句法树中,词节点“The”、“leaders”、“are”等是短语句法树上的叶子节点;词节点的父节点“DT”、“NNS”、“VBP”、“JJ”、“TO”、“VB”、“NN”、“IN”是短语句法树的词性节点,分别表示限定词、单数名词、动词、形容词、不定式介词、动词、复数名词、介词;词性节点的祖先节点“S”、“NP”、“VP”、“ADJP”、“PP”等是短语句法树的句法节点,分别表示子句、名词性短语、动词性短语、形容词性短语、介词性短语。
将短语句法树进行字符化就是短语句法树的字符形式结果。如例6就是图3所示短语句法树的字符形式结果,其中,字符形式结果省略了句法节点的句法标签编号。
S106:将训练语料事件集合、训练语料实体集合、训练语料第一文档集合、训练语料第二文档集合、训练语料第三文档集合合并成训练语料集合;将测试语料事件集合、测试语料实体集合、测试语料第一文档集合、测试语料第二文档集合、测试语料第三文档集合合并成为测试语料集合。
具体的,例如,若例1为训练语料,则例1所示语料合并后将获得的训练语料集合可以表示为例7所示:
例7:<1201><Obama_204954><Obama-204954-EV1-1><会谈><discuss,START="276"END="283"><The leaders are willing to discuss the serious matter withthe government.><the serious matter,START="284"END="302">
<1201><Obama_204954><E7><PER><The leaders,START="249"END="260">
<1201><Obama_204954><E8><GPE><the government,START="308"END="322">
The/DT leaders/NNS are/VBP willing/JJ to/TO discuss/VB the/DTserious/JJ matter/NN with/IN the/DT government/NN
The/the leaders/leader are/is willing/will to/to discuss/discuss the/the serious/serious matter/matter with/with the/the government/government
(S(NP(DT The)(NNS leaders))(VP(VBP are)(ADJP(JJ willing)(S(TO to)(VP(VB discuss)(NP(DT the)(JJ serious)(NN matter))(PP(IN with)(NP(DT the)(NNgovernment))))))))
S20:判断测试语料集合中的各个事件实例中是否存在位于触发词左侧的左侧非实体类型论元;若存在,则将左侧非实体类型论元加入左侧非实体类型论元集合;若不存在,则将触发词所在的测试语料加入处理后测试语料集合;
具体的,可以在测试语料集合的各个事件实例中,判断在触发词左侧是否存在非实体类型论元,若存在,则可以将其加入左侧非实体类型论元集合,若不存在,则可以加入至处理后测试语料集合,以便于后续处理。
请参考图4,图4为本申请所提供的一种非实体类型论元方向选择的方法的流程示意图。
优选的,上述步骤S20具体包括:
S201:判断测试语料集合中各个事件实例中的事件类型是否存在于第一事件类型子集中,若不存在,则将事件类型所在的测试语料加入至待判定语料集合;
S202:若存在,则判断触发词的词性是否为动词且为被动语态;若是,则将触发词的宾语作为左侧非实体类型论元,加入至左侧非实体类型论元集合;若不是,则将触发词所在的测试语料加入至待判定语料集合;
具体的,第一事件类型子集为预先设定的,例如,预先设定第一事件类型子集包括“正式宣布”、“同意”、“考虑”、“研发”、“会谈”这五种事件类别,则上述例2中事件实例的事件类型为“会谈”,属于第一事件类型子集的元素,因而需要判断触发词“discuss”的词性和语态,在本句中,“discuss”是动词但不是被动语态,因此认为例2所示的事件实例中不存在被动结构的左侧非实体类型论元,进一步,将例2所在的测试语料加入待判定语料集合中。
S203:判断待判定语料集合中各个事件实例中的事件类型是否存在于第二事件类型子集中,若不存在,则将事件类型所在的测试语料加入至处理后测试语料集合;
S204:若存在,则判断触发词所在的分句是否位于对应的测试语料的尾部且分句中包含特征词集合中的词,若是,则将分句前的部分全部作为左侧非实体类型论元,加入至左侧非实体类型论元集合;若不是,将触发词所在的测试语料加入至处理后测试语料集合;其中,第一事件类型子集、第二事件类型子集和特征词集合均为预先设定的。
具体的,第二事件类型子集以及特征词集合均为预先设定的,例如,预先设定第二事件类型子集包括“承认”、“正式宣布”、“文件”这三种事件类型,设定特征词集合包括“according”、“stated”等词。则上述例2中事件实例的事件类型为“会谈”,并不属于第二事件类型子集的元素,因此认为例2所在的事件实例中不存在倒装结构的左侧非实体类型论元,进一步,将例2所在的测试语料加入处理后测试语料集合中。
S30:根据候选子树选择策略,利用训练语料集合和处理后测试语料集合进行构建和筛选,获得训练语料候选子树集和测试语料候选子树集;
具体的,可以根据候选子树选择策略,对获得的训练语料集合和处理后测试语料集合中的每一句事件句的短语句法树进行构建和筛选,以进一步获得训练语料候选子树集和测试语料候选子树集。
请参考图5,图5为本申请所提供的一种候选子树筛选的方法的流程示意图。
优选的,上述步骤S30具体包括:
S301:分别获取训练语料集合和处理后测试语料集合中的各个事件实例对应的短语句法树;将短语句法树中以句法节点为根节点的短语句法子树组合成短语句法子树集合,将触发词在短语句法树上的句法节点到根节点路径上经过的节点组合成节点集合;
S302:遍历短语句法子树集合中的各个短语句法子树,判断短语句法子树上是否存在为节点集合中各个节点的左兄弟的节点,若不存在,则将短语句法子树加入至训练语料基本候选子树集和测试语料基本候选子树集;
具体的,可以将短语句法树上的所有以句法节点为根节点的短语句法子树构成的集合称为短语句法子树集合,记为U,将触发词在短语句法树上的句法节点到根节点路径上经过的所有节点构成的节点集合称为节点集合,记为V。进一步,遍历U中的每一个短语句法子树,若当前短语句法子树上不存在任一节点是集合V中任一节点的左兄弟,则将当前子树加入至训练语料基本候选子树集和测试语料基本候选子树集。其中,每棵候选子树的词节点的标签拼接而成的词序列就是该候选子树所代表的域。
例如,如图3所示,上述例6的短语句法树上的句法节点有:S1、NP1、VP1、ADJP1、S2、VP2、NP2、PP1、NP3,因而该短语句法树的集合U可以表示为例8所示:
例8:U={以节点S1、NP1、VP1、ADJP1、S2、VP2、NP2、PP1、NP3为根节点的短语句法子树}
由于上述例6的触发词为“discuss”,在短语句法树上的句法节点为VP2,那么从VP2出发到根节点S1的路径经过的所有节点为:VP2、S2、ADJP1、VP1、S1,所以得到的集合V可以表示为例9所示:
例9:V={S1、VP1、ADJP1、S2、VP2}
其中,集合V的五个节点中,S1是根节点,不存在左兄弟,其余四个节点的左兄弟依次为:NP1、VBP、JJ、TO。集合U的短语句法子树中,以节点S1、NP1、VP1、ADJP1、S2为根的四棵短语句法子树包含了NP1、VBP、JJ、TO这四个节点,因此不是候选子树,其余的四棵短语句法子树是候选子树,可以表示为例10所示:
例10:T1(以VP2为根节点):(VP(VB discuss)(NP(DT the)(JJ serious)(NNmatter))(PP(IN with)(NP(DT the)(NN government))))
T2(以NP2为根节点):(NP(DT the)(JJ serious)(NN matter))
T3(以PP1为根节点):(PP(IN with)(NP(DT the)(NN government)))
T4(以NP3为根节点):(NP(DT the)(NN government))
其中,T1-T4为这四棵候选子树的编号,它们所代表的域D1-D4分别为:
D1:discuss the serious matter with the government
D2:the serious matter
D3:with the government
D4:the government
S303:判断训练语料基本候选子树集和测试语料基本候选子树集中的各个候选子树的根节点的句法类型是否属于特定句法类型集合,若是,则将候选子树加入至训练语料特定句法类型候选子树集和测试语料特定句法类型候选子树集;其中,特定句法类型集合为预先设定的;
具体的,上述特定句法类型集合为预先设定的,例如,可以预先设定特定句法类型集合包括“VP”、“NP”、“PP”、“S”、“SBAR”这五种句法类型。由于上述例10中每一棵候选子树的根节点句法类型都在五种特定句法类型中,所以例10的四棵候选子树可以全部加入训练语料特定句法类型候选子树集和测试语料特定句法类型候选子树集,可以表示为例11所示:
例11:T1:(VP(VB discuss)(NP(DT the)(JJ serious)(NN matter))(PP(INwith)(NP(DT the)(NN government))))
T2:(NP(DT the)(JJ serious)(NN matter))
T3:(PP(IN with)(NP(DT the)(NN government)))
T4:(NP(DT the)(NN government))
S304:通过公式P=(count(candidate))/(count(common))计算训练语料特定句法类型候选子树集和测试语料特定句法类型候选子树集中的各个候选子树的节点数目与最小公共树节点数目的比例P值;其中,candidate为候选子树的根节点,common为候选子树与触发词的最小公共树的根节点,count(v)为以v为根节点的树的节点数目;当P值不小于预定阈值时,则将候选子树加入至训练语料候选子树集和测试语料候选子树集。
具体的,以上述例11中的T2短语句法子树为例,触发词的句法节点是VP2,T2与VP2的最小公共树是以VP2为根节点的短语句法子树,该短语句法子树上有18个节点,即count(common)=18,候选子树T2共7个节点,即count(candidate)=7,因此P(T2)=7/18≈0.389,按照同样的计算方法可得,P(T1)=18/18=1,P(T2)=7/18≈0.389,P(T3)=8/18≈0.444,P(T4)=5/18≈0.278,若设置P0=0.28,则P(T1)>P0,P(T2)>P0,P(T3)>P0,P(T4)<P0,因此,T1、T2、T3可以加入训练语料候选子树集和测试语料候选子树集中,具体可以表示为例12所示:
例12:T1:(VP(VB discuss)(NP(DT the)(JJ serious)(NN matter))(PP(INwith)(NP(DT the)(NN government))))
T2:(NP(DT the)(JJ serious)(NN matter))
T3:(PP(IN with)(NP(DT the)(NN government)))
S40:分别对训练语料候选子树集和测试语料候选子树集中的各个候选子树抽取对应的特征信息,获得训练语料特征集合和测试语料特征集合;
请参考图6,图6为本申请所提供的一种候选子树特征抽取的方法的流程示意图。
优选的,上述步骤S40具体包括:
S401:抽取训练语料候选子树集和测试语料候选子树集中的各个候选子树的平面特征,加入至训练语料平面特征集合和测试语料平面特征集合;
具体的,例如,可以将候选子树记为T,候选子树所在的事件实例记为为E,候选子树与触发词的最小公共树记为C,则每棵候选子树的平面特征集合的表示形式如下:
<1=E的触发词><2=E的触发词词干><3=E的触发词词性><4=T的根节点的句法类型(0-VP;1-NP;2-PP;3-S;4-SBAR)><5=E的触发词词性与T的根节点句法类型的组合><6=E的触发词到T的根节点的路径><7=T的根节点是否是E的触发词的祖先(0-是;1-不是)><8=T所代表的候选域的第一个词><9=T所代表的候选域的第一个词到E的触发词的词距离><10=E的触发词词干与T所代表的候选域的第一个词的组合><11=T所代表的候选域的后一个词><12=T的节点数与C的节点数的比例><13=T的根节点层数与E的触发词节点层数差><14=T的节点总数>
上述例12中候选子树T2的特征1-11可以从上述例2-例6得到;特征12的值即为上述例11中计算过的P(T2)≈0.389;触发词位于短语句法树的第7层,T2的根节点位于短语句法树的第6层,因此特征13的值为6-7=-1;候选子树节点总数为7,因此特征14的值为7。进一步,候选子树T2的平面特征可以表示为例13所示:
例13:<1=discuss><2=discuss><3=VB><4=NP><5=VB+NP>
<6=VP^NP><7=true><8=the><9=1><10=discuss+the><11=with><12=0.389><13=-1><14=7>
S402:抽取训练语料候选子树集和测试语料候选子树集中的各个候选子树的结构化特征,加入至训练语料结构化特征集合和测试语料结构化特征集合;
具体的,每棵候选子树的结构化特征集合表示形式如下:
<15=简化的最小公共树><16=实体树>
其中,简化的最小公共树可以通过以下方法得到:
如果最小公共树的根节点不等于候选子树的根节点,则将候选子树除根节点之外的其他节点全部删除,并且将候选域的第一个词作为候选子树根节点的叶子节点;如果最小公共树的根节点等于候选子的树根节点,则保留根节点,并将触发词的词性节点作为根节点的左孩子,将触发词后第一个词的词性节点作为根节点的右孩子。经过这样简化之后的最小公共树就是简化的最小公共树。
实体树可以通过以下方法得到:
对于当前候选子树的每个叶子节点,如果它是实体的一部分,则将该叶子节点的词性节点标签改为“ENT”,词节点的标签改为实体类别;如果它不是实体的一部分,则将该叶子节点的词性节点的标签改为“NENT”,并将词节点的标签改为“#”。经过以上步骤改造的候选子树即为实体树。
具体的,例如,请参考图7,图7为本申请所提供的候选子树T2简化的最小公共树的结构示意图。在上述例6所示短语句法树中,候选子树T2与触发词句法节点的最小公共子树是以“VP2”为根节点的树。其中,以“NP2”为根节点的树是候选子树T2。由于T2的根节点“NP2”并不是最小公共子树的根节点,因此将T2上除了根节点“NP2”以外的节点“DT”、“JJ”、“NN”、“the”、“serious”、“matter”删除,并将T2所代表的域的第一个词“the”作为根节点“NP2”的叶节点标签,即把候选子树T2修改为如图7所示。因此候选子树T2的简化的最小公共树特征可以表示为例14所示:
例14:<15=(VP(VB discuss)(NP the)(PP(IN with)(NP(DT the)(NNgovernment))))>
请参考图8,图8为本申请所提供的候选子树T2的实体树的结构示意图,候选子树T2上没有实体,因此保留T2的句法节点,将T2的词性节点标签改为“NENT”、词节点标签改为“#”,由此得到的树就是实体树,即为图8所示。则候选子树T2的实体树特征可以表示为例15所示:
例15:<16=(NP(NENT#)(NENT#)(NENT#))>
S403:将训练语料平面特征集合与训练语料结构化特征集合合并为训练语料特征集合;将测试语料平面特征集合与测试语料结构化特征集合合并为测试语料特征集合。
具体的,把获得的平面特征结构特征进行合并,即可得到对应的测试语料特征集合。例如,候选子树T2的特征集合可以表示为例16所示:
例16:<1=discuss><2=discuss><3=VB><4=NP><5=VB+NP><6=VP^NP><7=true><8=the><9=1><10=discuss+the><11=with><12=0.389><13=-1><14=7><15=(VP(VB discuss)(NP the)(PP(IN with)(NP(DT the)(NN government))))><16=(NP(NENT#)(NENT#)(NENT#))>
S50:根据训练语料特征集合中的特征信息训练得到候选子树识别模型;利用候选子树识别模型和测试语料特征集合中的特征信息,对测试语料候选子树集中的各个候选子树的类别和置信度进行预测,获得测试语料候选子树预测集合;
具体的,可以将训练语料特征集合中的每棵候选子树的特征作为输入,调用相应的工具等进行训练,获得对应的候选子树识别模型;进一步,把测试语料特征集合中的每棵候选子树的特征作为输入,调用已获得的候选子树识别模型对测试语料候选子树集中的各个候选子树的类别和置信度进行预测,即可获得测试语料候选子树预测集合。
优选的,上述根据训练语料特征集合中的特征信息训练得到候选子树识别模型的过程具体为:根据训练语料特征集合中的特征信息,调用SVM分类工具进行训练,获得基于SVM的候选子树识别模型。
具体的,将训练语料特征集合中的每棵候选子树的特征作为输入,调用SVM分类工具训练得到一个基于SVM的候选子树识别模型;其中,上述基于SVM的候选子树识别模型包括标注语料,即为训练集,以及训练得到的参数和SVM分类工具。例如,训练语料特征集合中的特征为例16所示,每个特征带有候选子树的类别,即候选子树所代表的域是不是非实体类型论元,进一步利用SVM分类工具,如SVM-Light-TK等,可以训练得到一个基于SVM的候选子树识别模型。
进一步,将测试语料特征集合中的每棵候选子树的特征作为输入,调用已获得的基于SVM的候选子树识别模型对每棵候选子树是否可以作为非实体类型论元进行预测,预测各个候选子树的类别和置信度,得到测试语料候选子树预测集合。其中,测试语料候选子树预测集合中的每个预测单元的格式如下:
<候选子树T,事件实例E,预测类别I,置信度P>
其中,候选子树T是被预测的候选子树;事件实例E是候选子树所在的事件实例;预测类别I和置信度P是基于SVM的候选子树识别模型的输出结果。预测类别I是对该候选子树是否是非实体类型论元的预测,有-1和1两个值,其中,-1表示不是非实体类型论元,1表示是非实体类型论元;置信度P代表了预测为当前类别的可信度大小,置信度的绝对值越大则预测可信度越高,当置信度大于等于0时预测类别为1,置信度小于0时预测类别为-1。
例如:对于对例12中的候选子树,其识别后得到的预测单元可以表示为例17所示:
例17:<T1,Obama-204954-EV1-1,-1,-1.174>
<T2,Obama-204954-EV1-1,-1,-1.148>
<T3,Obama-204954-EV1-1,-1,-1.182>
S60:预测测试语料候选子树预测集合中的各个事件实例中的位于触发词右侧的右侧非实体类型论元,将右侧非实体类型论元加入右侧非实体类型论元集合;将左侧非实体类型论元集合与右侧非实体类型论元集合进行合并获得非实体类型论元集合。
优选的,上述预测测试语料候选子树预测集合中的各个事件实例中的位于触发词右侧的右侧非实体类型论元,将右侧非实体类型论元加入右侧非实体类型论元集合的过程具体为:预测测试语料候选子树预测集合中的各个事件实例中置信度最高的候选子树,获取候选子树的置信度;判断置信度是否不小于预定阈值,若是,则将候选子树所代表的域作为右侧非实体类型论元,加入至右侧非实体类型论元集合。
具体的,对于每个事件实例,选取预测置信度最高的候选子树Tmax,获取它的置信度Pmax,预定阈值设置为P0,若Pmax≥P0,则不论Tmax被预测为类别1或-1,都将Tmax所代表的域作为该事件实例的右侧非实体类型论元,加入右侧非实体类型论元集合;否则该事件实例的右侧非实体类型论元为空。
其中,各个非实体类型论元的格式如下:
<事件实例E><非实体类型论元,非实体类型论元位置>
其中,事件实例E是非实体类型论元所在的事件实例,非实体类型论元是候选子树Tmax所代表的域,非实体类型论元位置是候选子树Tmax所代表的域在文档中的起始位置。若事件实例E中非实体类型论元为空,则非实体类型论元格式为“<null,START="-1"END="-1">”。
例如,在上述例17的三棵候选子树中,预测置信度最高的候选子树是T2,它的置信度为-1.148,即Tmax=T2,Pmax=-1.148,若设置阈值P0=-1.16,则Pmax>P0,因此事件实例“Obama-204954-EV1-1”的右侧非实体类型论元集合可以表示为例18所示:
例18:<Obama-204954-EV1-1><the serious matter,START="284"END="302">
进一步,将已获得的左侧非实体类型论元集合和右侧非实体类型论元集合取并集成为非实体类型论元集合。
具体的,例如,对于上述例18,其位于触发词左侧的左侧非实体类型论元集合为空集,即为
Figure BDA0001487418130000211
位于触发词右侧的右侧非实体类型论元集合为{<Obama-204954-EV1-1><theserious matter,START="284"END="302">},因此求并集后的非实体类型论元集合为{<Obama-204954-EV1-1><the serious matter,START="284"END="302">}。
本申请所提供的一种非实体类型论元的抽取方法,将覆盖域的识别方法移植到非实体类型论元的识别任务上来,实现了对非实体类型论元的抽取,克服了现有技术召回率和准确率低下的问题,更加有利于特定领域的专业人士全面、完整地掌握他们所需要的信息,提高信息获取的效率和准确性。
为解决上述问题,请参考图9,图9为本申请所提供的一种非实体类型论元的抽取装置的示意图,该装置可以包括:
处理模块1,用于分别在训练语料标注文档和测试语料标注文档中读取实体标注信息和事件标注信息;对实体标注信息和事件标注信息进行处理获得训练语料集合和测试语料集合;
判断模块2,用于判断测试语料集合中的各个事件实例中是否存在位于触发词左侧的左侧非实体类型论元;若存在,则将左侧非实体类型论元加入左侧非实体类型论元集合;若不存在,则将触发词所在的测试语料加入处理后测试语料集合;
构建模块3,用于根据候选子树选择策略,利用训练语料集合和处理后测试语料集合进行构建和筛选,获得训练语料候选子树集和测试语料候选子树集;
抽取模块4,用于分别对训练语料候选子树集和测试语料候选子树集中的各个候选子树抽取对应的特征信息,获得训练语料特征集合和测试语料特征集合;
预测模块5,用于根据训练语料特征集合中的特征信息训练得到候选子树识别模型;利用候选子树识别模型和测试语料特征集合中的特征信息,对测试语料候选子树集中的各个候选子树的类别和置信度进行预测,获得测试语料候选子树预测集合;
合并模块6,用于预测测试语料候选子树预测集合中的各个事件实例中的位于触发词右侧的右侧非实体类型论元,将右侧非实体类型论元加入右侧非实体类型论元集合;将左侧非实体类型论元集合与右侧非实体类型论元集合进行合并获得非实体类型论元集合。
作为一种优选实施例,处理模块1包括:
第一读取子模块,用于分别读取训练语料标注文档和测试语料标注文档中的事件标注信息,得到训练语料事件集合和测试语料事件集合;
第二读取子模块,用于分别读取训练语料标注文档和测试语料标注文档中的实体标注信息,得到训练语料实体集合和测试语料实体集合;
第一处理子模块,用于调用词性标注工具,分别对训练语料事件集合和测试语料事件集合进行处理,得到训练语料第一文档集合和测试语料第一文档集合;
第二处理子模块,用于调用词形还原工具,分别对训练语料事件集合和测试语料事件集合进行处理,得到训练语料第二文档集合和测试语料第二文档集合;
第三处理子模块,用于调用短语句法分析工具,分别对训练语料事件集合和测试语料事件集合进行处理,得到训练语料第三文档集合和测试语料第三文档集合;
第一合并子模块,用于将训练语料事件集合、训练语料实体集合、训练语料第一文档集合、训练语料第二文档集合、训练语料第三文档集合合并成训练语料集合;将测试语料事件集合、测试语料实体集合、测试语料第一文档集合、测试语料第二文档集合、测试语料第三文档集合合并成为测试语料集合。
作为一种优选实施例,判断模块2包括:
第一判断子模块,用于判断测试语料集合中各个事件实例中的事件类型是否存在于第一事件类型子集中,若不存在,则将事件类型所在的测试语料加入至待判定语料集合;
第一添加子模块,用于若测试语料集合中各个事件实例中的事件类型存在于第一事件类型子集中,则判断触发词的词性是否为动词且为被动语态;若是,则将触发词的宾语作为左侧非实体类型论元,加入至左侧非实体类型论元集合;若不是,则将触发词所在的测试语料加入至待判定语料集合;
第二判断子模块,用于判断待判定语料集合中各个事件实例中的事件类型是否存在于第二事件类型子集中,若不存在,则将事件类型所在的测试语料加入至处理后测试语料集合;
第二添加子模块,用于若待判定语料集合中各个事件实例中的事件类型存在于第二事件类型子集中,则判断触发词所在的分句是否位于对应的测试语料的尾部且分句中包含特征词集合中的词,若是,则将分句前的部分全部作为左侧非实体类型论元,加入至左侧非实体类型论元集合;若不是,将触发词所在的测试语料加入至处理后测试语料集合;
其中,第一事件类型子集、第二事件类型子集和特征词集合均为预先设定的。
作为一种优选实施例,构建模块3包括:
获取子模块,用于分别获取训练语料集合和处理后测试语料集合中的各个事件实例对应的短语句法树;将短语句法树中以句法节点为根节点的短语句法子树组合成短语句法子树集合,将触发词在短语句法树上的句法节点到根节点路径上经过的节点组合成节点集合;
遍历子模块,用于遍历短语句法子树集合中的各个短语句法子树,判断短语句法子树上是否存在为节点集合中各个节点的左兄弟的节点,若不存在,则将短语句法子树加入至训练语料基本候选子树集和测试语料基本候选子树集;
第三判断子模块,用于判断训练语料基本候选子树集和测试语料基本候选子树集中的各个候选子树的根节点的句法类型是否属于特定句法类型集合,若是,则将候选子树加入至训练语料特定句法类型候选子树集和测试语料特定句法类型候选子树集;其中,特定句法类型集合为预先设定的;
计算子模块,用于通过公式P=(count(candidate))/(count(common))计算训练语料特定句法类型候选子树集和测试语料特定句法类型候选子树集中的各个候选子树的节点数目与最小公共树节点数目的比例P值;其中,candidate为候选子树的根节点,common为候选子树与触发词的最小公共树的根节点,count(v)为以v为根节点的树的节点数目;当P值不小于预定阈值时,则将候选子树加入至训练语料候选子树集和测试语料候选子树集。
作为一种优选实施例,抽取模块4包括:
第一抽取子模块,用于抽取训练语料候选子树集和测试语料候选子树集中的各个候选子树的平面特征,加入至训练语料平面特征集合和测试语料平面特征集合;
第二抽取子模块,用于抽取训练语料候选子树集和测试语料候选子树集中的各个候选子树的结构化特征,加入至训练语料结构化特征集合和测试语料结构化特征集合;
第二合并子模块,用于将训练语料平面特征集合与训练语料结构化特征集合合并为训练语料特征集合;将测试语料平面特征集合与测试语料结构化特征集合合并为测试语料特征集合。
作为一种优选实施例,预测模块5具体用于根据训练语料特征集合中的特征信息,调用SVM分类工具进行训练,获得基于SVM的候选子树识别模型。
作为一种优选实施例,合并模块6具体用于预测测试语料候选子树预测集合中的各个事件实例中置信度最高的候选子树,获取候选子树的置信度;判断置信度是否不小于预定阈值,若是,则将候选子树所代表的域作为右侧非实体类型论元,加入至右侧非实体类型论元集合。
对于本发明提供的装置的介绍请参照上述方法实施例,本发明在此不做赘述。
为解决上述问题,请参考图10,图10为本申请所提供的一种非实体类型论元的抽取设备的示意图,该设备包括:
存储器10,用于存储计算机程序;
处理器20,用于执行计算机程序时实现如下步骤:
分别在训练语料标注文档和测试语料标注文档中读取实体标注信息和事件标注信息;对实体标注信息和事件标注信息进行处理获得训练语料集合和测试语料集合;判断测试语料集合中的各个事件实例中是否存在位于触发词左侧的左侧非实体类型论元;若存在,则将左侧非实体类型论元加入左侧非实体类型论元集合;若不存在,则将触发词所在的测试语料加入处理后测试语料集合;根据候选子树选择策略,利用训练语料集合和处理后测试语料集合进行构建,获得训练语料候选子树集和测试语料候选子树集;分别对训练语料候选子树集和测试语料候选子树集中的各个候选子树抽取对应的特征信息,获得训练语料特征集合和测试语料特征集合;根据训练语料特征集合中的特征信息训练得到候选子树识别模型;利用候选子树识别模型和测试语料特征集合中的特征信息,对测试语料候选子树集中的各个候选子树的类别和置信度进行预测,获得测试语料候选子树预测集合;预测测试语料候选子树预测集合中的各个事件实例中的位于触发词右侧的右侧非实体类型论元,将右侧非实体类型论元加入右侧非实体类型论元集合;将左侧非实体类型论元集合与右侧非实体类型论元集合进行合并获得非实体类型论元集合。
对于本发明提供的设备的介绍请参照上述方法实施例,本发明在此不做赘述。
为解决上述问题,本申请还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如下步骤:
分别在训练语料标注文档和测试语料标注文档中读取实体标注信息和事件标注信息;对实体标注信息和事件标注信息进行处理获得训练语料集合和测试语料集合;判断测试语料集合中的各个事件实例中是否存在位于触发词左侧的左侧非实体类型论元;若存在,则将左侧非实体类型论元加入左侧非实体类型论元集合;若不存在,则将触发词所在的测试语料加入处理后测试语料集合;根据候选子树选择策略,利用训练语料集合和处理后测试语料集合进行构建,获得训练语料候选子树集和测试语料候选子树集;分别对训练语料候选子树集和测试语料候选子树集中的各个候选子树抽取对应的特征信息,获得训练语料特征集合和测试语料特征集合;根据训练语料特征集合中的特征信息训练得到候选子树识别模型;利用候选子树识别模型和测试语料特征集合中的特征信息,对测试语料候选子树集中的各个候选子树的类别和置信度进行预测,获得测试语料候选子树预测集合;预测测试语料候选子树预测集合中的各个事件实例中的位于触发词右侧的右侧非实体类型论元,将右侧非实体类型论元加入右侧非实体类型论元集合;将左侧非实体类型论元集合与右侧非实体类型论元集合进行合并获得非实体类型论元集合。
对于本发明提供的计算机可读存储介质的介绍请参照上述方法实施例,本发明在此不做赘述。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的非实体类型论元的抽取方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围要素。

Claims (9)

1.一种非实体类型论元的抽取方法,其特征在于,包括:
分别在训练语料标注文档和测试语料标注文档中读取实体标注信息和事件标注信息;对所述实体标注信息和所述事件标注信息进行处理获得训练语料集合和测试语料集合;
判断所述测试语料集合中的各个事件实例中是否存在位于触发词左侧的左侧非实体类型论元;若存在,则将所述左侧非实体类型论元加入左侧非实体类型论元集合;若不存在,则将所述触发词所在的测试语料加入处理后测试语料集合;
根据候选子树选择策略,利用所述训练语料集合和所述处理后测试语料集合进行构建和筛选,获得训练语料候选子树集和测试语料候选子树集;
分别对所述训练语料候选子树集和所述测试语料候选子树集中的各个候选子树抽取对应的特征信息,获得训练语料特征集合和测试语料特征集合;
根据所述训练语料特征集合中的特征信息训练得到候选子树识别模型;利用所述候选子树识别模型和所述测试语料特征集合中的特征信息,对所述测试语料候选子树集中的各个候选子树的类别和置信度进行预测,获得测试语料候选子树预测集合;
预测所述测试语料候选子树预测集合中的各个事件实例中的位于所述触发词右侧的右侧非实体类型论元,将所述右侧非实体类型论元加入右侧非实体类型论元集合;将所述左侧非实体类型论元集合与所述右侧非实体类型论元集合进行合并获得非实体类型论元集合;
其中,所述根据候选子树选择策略,利用所述训练语料集合和所述处理后测试语料集合进行构建和筛选,获得训练语料候选子树集和测试语料候选子树集包括:
分别获取所述训练语料集合和所述处理后测试语料集合中的各个事件实例对应的短语句法树;将所述短语句法树中以句法节点为根节点的短语句法子树组合成短语句法子树集合,将所述触发词在所述短语句法树上的句法节点到根节点路径上经过的节点组合成节点集合;
遍历所述短语句法子树集合中的各个短语句法子树,判断所述短语句法子树上是否存在为所述节点集合中各个节点的左兄弟的节点,若不存在,则将所述短语句法子树加入至训练语料基本候选子树集和测试语料基本候选子树集;
判断所述训练语料基本候选子树集和所述测试语料基本候选子树集中的各个候选子树的根节点的句法类型是否属于特定句法类型集合,若是,则将所述候选子树加入至训练语料特定句法类型候选子树集和测试语料特定句法类型候选子树集;其中,所述特定句法类型集合为预先设定的;
通过公式P=(count(candidate))/(count(common))计算所述训练语料特定句法类型候选子树集和所述测试语料特定句法类型候选子树集中的各个候选子树的节点数目与最小公共树节点数目的比例P值;其中,candidate为所述候选子树的根节点,common为所述候选子树与所述触发词的最小公共树的根节点,count(v)为以v为根节点的树的节点数目;当所述P值不小于预定阈值时,则将所述候选子树加入至所述训练语料候选子树集和所述测试语料候选子树集。
2.如权利要求1所述的抽取方法,其特征在于,所述分别在训练语料标注文档和测试语料标注文档中读取实体标注信息和事件标注信息;对所述实体标注信息和所述事件标注信息进行处理获得训练语料集合和测试语料集合包括:
分别读取所述训练语料标注文档和所述测试语料标注文档中的事件标注信息,得到训练语料事件集合和测试语料事件集合;
分别读取所述训练语料标注文档和所述测试语料标注文档中的实体标注信息,得到训练语料实体集合和测试语料实体集合;
调用词性标注工具,分别对所述训练语料事件集合和所述测试语料事件集合进行处理,得到训练语料第一文档集合和测试语料第一文档集合;
调用词形还原工具,分别对所述训练语料事件集合和所述测试语料事件集合进行处理,得到训练语料第二文档集合和测试语料第二文档集合;
调用短语句法分析工具,分别对所述训练语料事件集合和所述测试语料事件集合进行处理,得到训练语料第三文档集合和测试语料第三文档集合;
将所述训练语料事件集合、所述训练语料实体集合、所述训练语料第一文档集合、所述训练语料第二文档集合、所述训练语料第三文档集合合并成所述训练语料集合;将所述测试语料事件集合、所述测试语料实体集合、所述测试语料第一文档集合、所述测试语料第二文档集合、所述测试语料第三文档集合合并成为所述测试语料集合。
3.如权利要求2所述的抽取方法,其特征在于,所述判断所述测试语料集合中的各个事件实例中是否存在位于触发词左侧的左侧非实体类型论元;若存在,则将所述左侧非实体类型论元加入左侧非实体类型论元集合;若不存在,则将所述触发词所在的测试语料加入处理后测试语料集合包括:
判断所述测试语料集合中各个事件实例中的事件类型是否存在于第一事件类型子集中,若不存在,则将所述事件类型所在的测试语料加入至待判定语料集合;
若存在,则判断所述触发词的词性是否为动词且为被动语态;若是,则将所述触发词的宾语作为所述左侧非实体类型论元,加入至所述左侧非实体类型论元集合;若不是,则将所述触发词所在的测试语料加入至所述待判定语料集合;
判断所述待判定语料集合中各个事件实例中的事件类型是否存在于第二事件类型子集中,若不存在,则将所述事件类型所在的测试语料加入至处理后测试语料集合;
若存在,则判断所述触发词所在的分句是否位于对应的测试语料的尾部且所述分句中包含特征词集合中的词,若是,则将所述分句前的部分全部作为所述左侧非实体类型论元,加入至所述左侧非实体类型论元集合;若不是,将所述触发词所在的测试语料加入至所述处理后测试语料集合;
其中,所述第一事件类型子集、所述第二事件类型子集和所述特征词集合均为预先设定的。
4.如权利要求1所述的抽取方法,其特征在于,所述分别对所述训练语料候选子树集和所述测试语料候选子树集中的各个候选子树抽取对应的特征信息,获得训练语料特征集合和测试语料特征集合包括:
抽取所述训练语料候选子树集和所述测试语料候选子树集中的各个候选子树的平面特征,加入至训练语料平面特征集合和测试语料平面特征集合;
抽取所述训练语料候选子树集和所述测试语料候选子树集中的各个候选子树的结构化特征,加入至训练语料结构化特征集合和测试语料结构化特征集合;
将所述训练语料平面特征集合与所述训练语料结构化特征集合合并为所述训练语料特征集合;将所述测试语料平面特征集合与所述测试语料结构化特征集合合并为所述测试语料特征集合。
5.如权利要求4所述的抽取方法,其特征在于,所述根据所述训练语料特征集合中的特征信息训练得到候选子树识别模型包括:
根据所述训练语料特征集合中的特征信息,调用SVM分类工具进行训练,获得基于SVM的候选子树识别模型。
6.如权利要求5所述的抽取方法,其特征在于,所述预测所述测试语料候选子树预测集合中的各个事件实例中的位于所述触发词右侧的右侧非实体类型论元,将所述右侧非实体类型论元加入右侧非实体类型论元集合包括:
预测所述测试语料候选子树预测集合中的各个事件实例中置信度最高的候选子树,获取所述候选子树的置信度;判断所述置信度是否不小于所述预定阈值,若是,则将所述候选子树所代表的域作为所述右侧非实体类型论元,加入至所述右侧非实体类型论元集合。
7.一种非实体类型论元的抽取装置,其特征在于,包括:
处理模块,用于分别在训练语料标注文档和测试语料标注文档中读取实体标注信息和事件标注信息;对所述实体标注信息和所述事件标注信息进行处理获得训练语料集合和测试语料集合;
判断模块,用于判断所述测试语料集合中的各个事件实例中是否存在位于触发词左侧的左侧非实体类型论元;若存在,则将所述左侧非实体类型论元加入左侧非实体类型论元集合;若不存在,则将所述触发词所在的测试语料加入处理后测试语料集合;
构建模块,用于根据候选子树选择策略,利用所述训练语料集合和所述处理后测试语料集合进行构建和筛选,获得训练语料候选子树集和测试语料候选子树集;
抽取模块,用于分别对所述训练语料候选子树集和所述测试语料候选子树集中的各个候选子树抽取对应的特征信息,获得训练语料特征集合和测试语料特征集合;
预测模块,用于根据所述训练语料特征集合中的特征信息训练得到候选子树识别模型;利用所述候选子树识别模型和所述测试语料特征集合中的特征信息,对所述测试语料候选子树集中的各个候选子树的类别和置信度进行预测,获得测试语料候选子树预测集合;
合并模块,用于预测所述测试语料候选子树预测集合中的各个事件实例中的位于所述触发词右侧的右侧非实体类型论元,将所述右侧非实体类型论元加入右侧非实体类型论元集合;将所述左侧非实体类型论元集合与所述右侧非实体类型论元集合进行合并获得非实体类型论元集合;
获取子模块,用于分别获取所述训练语料集合和所述处理后测试语料集合中的各个事件实例对应的短语句法树;将所述短语句法树中以句法节点为根节点的短语句法子树组合成短语句法子树集合,将所述触发词在所述短语句法树上的句法节点到根节点路径上经过的节点组合成节点集合;
遍历子模块,用遍历所述短语句法子树集合中的各个短语句法子树,判断所述短语句法子树上是否存在为所述节点集合中各个节点的左兄弟的节点,若不存在,则将所述短语句法子树加入至训练语料基本候选子树集和测试语料基本候选子树集;
第三判断子模块,用于判断所述训练语料基本候选子树集和所述测试语料基本候选子树集中的各个候选子树的根节点的句法类型是否属于特定句法类型集合,若是,则将所述候选子树加入至训练语料特定句法类型候选子树集和测试语料特定句法类型候选子树集;其中,所述特定句法类型集合为预先设定的;
计算子模块,用于通过公式P=(count(candidate))/(count(common))计算所述训练语料特定句法类型候选子树集和所述测试语料特定句法类型候选子树集中的各个候选子树的节点数目与最小公共树节点数目的比例P值;其中,candidate为所述候选子树的根节点,common为所述候选子树与所述触发词的最小公共树的根节点,count(v)为以v为根节点的树的节点数目;当所述P值不小于预定阈值时,则将所述候选子树加入至所述训练语料候选子树集和所述测试语料候选子树集。
8.一种非实体类型论元的抽取设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至6任意一项所述的非实体类型论元的抽取方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任意一项所述的非实体类型论元的抽取方法的步骤。
CN201711227016.6A 2017-11-29 2017-11-29 一种非实体类型论元的抽取方法、装置及设备 Active CN108009234B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711227016.6A CN108009234B (zh) 2017-11-29 2017-11-29 一种非实体类型论元的抽取方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711227016.6A CN108009234B (zh) 2017-11-29 2017-11-29 一种非实体类型论元的抽取方法、装置及设备

Publications (2)

Publication Number Publication Date
CN108009234A CN108009234A (zh) 2018-05-08
CN108009234B true CN108009234B (zh) 2022-02-11

Family

ID=62054778

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711227016.6A Active CN108009234B (zh) 2017-11-29 2017-11-29 一种非实体类型论元的抽取方法、装置及设备

Country Status (1)

Country Link
CN (1) CN108009234B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112567750A (zh) * 2018-08-17 2021-03-26 联发科技股份有限公司 用于视频编解码的简化合并候选列表的方法和装置
CN111797241B (zh) * 2020-06-17 2023-08-22 北京北大软件工程股份有限公司 基于强化学习的事件论元抽取方法及装置
CN112069819A (zh) * 2020-09-10 2020-12-11 杭州中奥科技有限公司 模型训练方法、模型训练装置和事件抽取方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530281A (zh) * 2013-10-15 2014-01-22 苏州大学 一种论元抽取方法和系统
CN104156353A (zh) * 2014-08-22 2014-11-19 秦一男 一种基于计算机的自然语言句法结构解析的方法和装置
CN104331480A (zh) * 2014-11-07 2015-02-04 苏州大学 一种中文事件触发词的抽取系统及方法
CN104679738A (zh) * 2013-11-27 2015-06-03 北京拓尔思信息技术股份有限公司 互联网热词挖掘方法及装置
CN105183807A (zh) * 2015-08-26 2015-12-23 苏州大学张家港工业技术研究院 一种基于结构句法的情绪原因事件识别方法及系统
US20160246779A1 (en) * 2015-02-23 2016-08-25 International Business Machines Corporation Facilitating information extraction via semantic abstraction
CN106844448A (zh) * 2016-12-16 2017-06-13 苏州大学 一种中文事件事实性识别方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298642B (zh) * 2011-09-15 2012-09-05 苏州大学 文本信息抽取方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530281A (zh) * 2013-10-15 2014-01-22 苏州大学 一种论元抽取方法和系统
CN104679738A (zh) * 2013-11-27 2015-06-03 北京拓尔思信息技术股份有限公司 互联网热词挖掘方法及装置
CN104156353A (zh) * 2014-08-22 2014-11-19 秦一男 一种基于计算机的自然语言句法结构解析的方法和装置
CN104331480A (zh) * 2014-11-07 2015-02-04 苏州大学 一种中文事件触发词的抽取系统及方法
US20160246779A1 (en) * 2015-02-23 2016-08-25 International Business Machines Corporation Facilitating information extraction via semantic abstraction
CN105183807A (zh) * 2015-08-26 2015-12-23 苏州大学张家港工业技术研究院 一种基于结构句法的情绪原因事件识别方法及系统
CN106844448A (zh) * 2016-12-16 2017-06-13 苏州大学 一种中文事件事实性识别方法和系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Learning the Scope of Negation via Shallow Semantic Parsing;Junhui Li等;《In Proceedings of the 23rd International Conference on Computational Linguistics》;20101231;第671-680页 *
Tree Kernel-based Negation and Speculation Scope Detection with Structured Syntactic Parse Features;Bowei Zou等;《In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing》;20131231;第1-9页 *
基于语义的中文事件触发词抽取联合模型;李培峰等;《软件学报》;20160229;第27卷(第2期);第280-294页 *
实体关系抽取算法研究;张春云;《中国博士学位论文全文数据库 信息科技辑》;20160315(第03期);第51-59页 *
面向自然语言文本的否定性与不确定性信息抽取;邹博伟等;《软件学报》;20160229;第27卷(第2期);第309-328页 *

Also Published As

Publication number Publication date
CN108009234A (zh) 2018-05-08

Similar Documents

Publication Publication Date Title
CN109325228B (zh) 英文事件触发词抽取方法和系统
WO2022218186A1 (zh) 个性化知识图谱的生成方法、装置及计算机设备
US11501082B2 (en) Sentence generation method, sentence generation apparatus, and smart device
US8407253B2 (en) Apparatus and method for knowledge graph stabilization
US7765097B1 (en) Automatic code generation via natural language processing
US7210096B2 (en) Methods and apparatus for constructing semantic models for document authoring
US9189482B2 (en) Similar document search
RU2610241C2 (ru) Способ и система синтеза текста на основе извлеченной информации в виде rdf-графа с использованием шаблонов
CN108009234B (zh) 一种非实体类型论元的抽取方法、装置及设备
US20140089212A1 (en) Data sharing agreements
US20130054612A1 (en) Universal Document Similarity
US20140129212A1 (en) Universal Difference Measure
CN110008463B (zh) 用于事件抽取的方法、装置和计算机可读介质
CN112613315B (zh) 一种文本知识自动抽取方法、装置、设备及存储介质
KR20140052328A (ko) Rdf 기반의 문장 온톨로지 생성 장치 및 방법
CN112733547A (zh) 一种利用语义依存分析的中文问句语义理解方法
Bleys et al. Search in linguistic processing
Patel et al. An NLP-guided ontology development and refinement approach to represent and query visual information
Mazzei et al. NLP-based extraction of modificatory provisions semantics
CN114879936A (zh) 一种面向自然语言需求的安全需求获取方法与系统
CN111078947B (zh) 基于xml的领域要素提取配置语言系统
CN115270777A (zh) 一种合同文件信息抽取方法、装置、系统
CN114417860A (zh) 一种信息检测方法、装置及设备
CN115906838A (zh) 文本抽取方法、装置、电子设备以及存储介质
Jivani et al. The multi-liaison algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant