CN109977235A

CN109977235A - 一种触发词的确定方法和装置

Info

Publication number: CN109977235A
Application number: CN201910270159.8A
Authority: CN
Inventors: 彭涛; 包铁; 刘露; 葛亮; 谢文慧; 王磊
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2019-07-05
Anticipated expiration: 2039-04-04
Also published as: CN109977235B

Abstract

本发明公开了一种触发词的确定方法，包括：识别目标文本句中的目标实体对，其中，所述目标实体对包含第一实体和第二实体；若所述第一实体和所述第二实体间的距离大于等于预设的阈值或若所述第一实体和所述第二实体间的距离小于预设的阈值且所述第一实体和所述第二实体之间不包含介词，构建所述目标文本句的依存关系结构图；确定所述依存关系结构图中对应节点的关联规则；依据对应的关联规则，计算每一个节点相对所述目标实体对的目标综合重要性分数；依据所述目标综合重要性分数，确定所述目标文本句中的触发词。上述的方法，在触发词的确定过程中，不需要依赖词典，不受应用领域的限制，可移植性强。

Description

一种触发词的确定方法和装置

技术领域

本发明涉及知识图谱技术领域，尤其涉及一种触发词的确定方法和装置。

背景技术

为了使搜索引擎更加智能化、网络信息更加结构化，Google公司于2012年提出知识图谱概念。知识图谱在本质上是由实体以及实体间关系构成的语义网络，手工提取实体以及实体关系是无法完成的，因此在构建知识图谱的过程中，重要的一步就是信息抽取技术。正确地抽取实体关系触发词有助于后续关系类别的判断，有助于指导实体关系抽取，提高抽取性能。

现有的触发词发现方法是基于词典的触发词发现方法，该方法是将句子中关系所在的语义词或语义短语作为触发词候选列表，与已有的词库进行匹配，找到最后的关系触发词。

发明人对现有的触发词发现方法进行研究发现，基于词典的触发词发现方法操作简单，不需要复杂的学习和抽取过程，但构建的词典领域性较强，基于词典的关系抽取方法效果取决于词典的质量，可移植性较差。

发明内容

有鉴于此，本发明提供了一种触发词的确定方法和装置，用以解决现有技术中基于词典的触发词发现方法操作简单，不需要复杂的学习和抽取过程，但构建的词典领域性较强，基于词典的关系抽取方法效果取决于词典的质量，可移植性较差问题。具体方案如下：

一种触发词的确定方法，包括：

识别目标文本句中的目标实体对，其中，所述目标实体对包含第一实体和第二实体；

若所述第一实体和所述第二实体间的距离大于等于预设的阈值或若所述第一实体和所述第二实体间的距离小于预设的阈值且所述第一实体和所述第二实体之间不包含介词，构建所述目标文本句的依存关系结构图；

确定所述依存关系结构图中对应节点的关联规则；

依据对应的关联规则，计算每一个节点相对所述目标实体对的目标综合重要性分数；

依据所述目标综合重要性分数，确定所述目标文本句中的触发词。

上述的方法，可选的，还包括：

若所述第一实体和所述第二实体间的距离小于预设的阈值且所述第一实体和所述第二实体之间包含介词，则判定所述介词为所述目标文本句中的触发词。

上述的方法，可选的，确定所述依存关系结构图中对应节点的关联规则包括：

获取所述依存关系结构图中包含的各个节点；

分别在所述各个节点中，选取第一节点和第二节点，其中，所述第一节点和所述第二节点的交集为空；

计算所述第一节点出现时所述第二节点也出现的概率对应的关联度和置信度。

上述的方法，可选的，依据对应的关联规则，计算每一个节点相对所述目标实体对的目标综合重要性分数，包括：

计算每一个节点相对所述第一实体和所述第二实体的综合重要性分数；

计算每一个节点相对所述第一实体和所述第二实体的置信度；

对所述综合重要性分数和所述置信度进行加权求和得到目标综合性重要分数。

上述的方法，可选的，依据所述目标综合重要性分数，确定所述目标文本句中的触发词，包括：

对所述依存关系结构图中的各个节点进行聚类，得到类簇；

计算每一个类簇中各个节点相对于所述第一实体和所述第二实体综合重要性分数的平均值；

在各个类簇中选取平均值最大的类簇作为目标类簇，将所述目标类簇中综合重要性分数最大值所属节点中的词作为所述目标文本句中的触发词。

上述的方法，可选的，对所述依存关系结构图中的各个节点进行聚类，得到类簇之前还包括：

对所述依存关系结构中的各个节点进行过滤。

一种触发词的确定装置，包括：

识别模块，用于识别目标文本句中的目标实体对，其中，所述目标实体对包含第一实体和第二实体；

构建模块，用于若所述第一实体和所述第二实体间的距离大于等于预设的阈值或若所述第一实体和所述第二实体间的距离小于预设的阈值且所述第一实体和所述第二实体之间不包含介词，构建所述目标文本句的依存关系结构图；

第一确定模块，用于确定所述依存关系结构图中对应节点的关联规则；

计算模块，用于依据对应的关联规则，计算每一个节点相对所述目标实体对的目标综合重要性分数；

第二确定模块，用于依据所述目标综合重要性分数，确定所述目标文本句中的触发词。

上述的装置，可选的，所述第一确定模块包括：

获取单元，用于获取所述依存关系结构图中包含的各个节点；

选取单元，用于分别在所述各个节点中，选取第一节点和第二节点，其中，所述第一节点和所述第二节点的交集为空；

第一计算单元，用于计算所述第一节点出现时所述第二节点也出现的概率对应的关联度和置信度。

上述的装置，可选的，所述计算模块包括：

第二计算单元，用于计算每一个节点相对所述第一实体和所述第二实体的综合重要性分数；

第三计算单元，用于计算每一个节点相对所述第一实体和所述第二实体的置信度；

加权求和单元，用于对所述综合重要性分数和所述置信度进行加权求和得到目标综合性重要分数。

上述的装置，可选的，所述第二确定模块包括：

聚类单元，用于对所述依存关系结构图中的各个节点进行聚类，得到类簇；

第四计算单元，用于计算每一个类簇中各个节点相对于所述第一实体和所述第二实体综合重要性分数的平均值；

确定单元，用于在各个类簇中选取平均值最大的类簇作为目标类簇，将所述目标类簇中综合重要性分数最大值所属节点中的词作为所述目标文本句中的触发词。

与现有技术相比，本发明包括以下优点：

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种触发词的确定方法的流程图；

图2为本申请实施例公开的一种触发词的确定方法的又一方法流程图；

图3为本申请实施例公开的一种依存故障逆袭结构图；

图4为本申请实施例公开的一种触发词的确定方法的又一方法流程图；

图5为本申请实施例公开的一种触发词的确定装置结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明公开了一种触发词确定方法，所述方法应用在知识图谱构建过程中的实体关系抽取，其中，实体关系抽取：从非结构文本中提取出三元组(e_i，r_ij，e_j)，e_i和e_j表示两个有关系的实体，r_ij表示这两个实体之间的关系。知识图谱在本质上是由实体以及实体间关系构成的语义网络，其应用领域非常广泛，包括在线学习、语义搜索、机器问答、情报检索等等。以机器问答为例，实体关系抽取能为机器问答系统的构建提供数据支持。当用户向机器问答系统提问时，自动问答系统能从其结构化数据库中快速准确地检索到答案并提供给用户。其中，实体关系抽取：从非结构文本中提取出三元组(e_i，r_ij，e_j)，e_i和e_j表示两个有关系的实体，r_ij表示这两个实体之间的关系。而r_ij的确定取决于触发词，触发词：是指那些具有触发某种关系或者某种时间的词语或短语，在事件抽取中，常常被用作是发生自然事件的指向词；在关系抽取中，一般指的是实体对间的关系关键词，具有指向某种关系的词语，具有激活某种关系模式的语义信息，充当这些关系模式的概念锚点。信息抽取是从自然语言文本中抽取指定类型的实体、属性、关系等事实信息，并形成结构化数据输出的文本处理技术。主要包含三大部分的内容：实体抽取、属性抽取、关系抽取；其中，实体抽取是属性抽取和关系抽取的前提条件。实体关系抽取用于发现实体之间的关系，并生成描述关系的语义信息的三元组。正确地抽取实体关系触发词有助于后续关系类别的判断，有助于指导实体关系抽取，提高抽取性能。

所述触发词的确定方法的执行流程如图1所示，包括步骤：

S101、识别目标文本句中的目标实体对，其中，所述目标实体对包含第一实体和第二实体；

本发明实施例中，所述目标文本句为当前需要确定触发词的文本句，识别所述目标文本句中的目标试题对，例如：在句子“邓超和孙俪是一对非常恩爱的夫妻。”中，实体是“邓超”，“孙俪”，都是“PER”类的实体。

S102、若所述第一实体和所述第二实体间的距离大于等于预设的阈值或若所述第一实体和所述第二实体间的距离小于预设的阈值且所述第一实体和所述第二实体之间不包含介词，构建所述目标文本句的依存关系结构图；

本发明实施例中，判断所述第一实体和所述第二试题之间的距离是否大于等于预设的阈值，优选的，本发明实施例中所述预设的阈值为5，若是，构建所述目标文本句的依存关系结构图，若否，判断所述第一实体和所述第二实体之间是否包含介词，若是则该介词为触发词，若否，构建所述目标文本句的依存关系结构图。

其中，依存句法分析是自然语言处理中的关键技术之一，其基本任务是分析句子的结构，从语法上描述句子中词与词之间的依存关系。直观来讲，依存句法分析识别句子中的“主谓宾”、“定状补”这些语法成分，并分析各成分之间的关系。主要包括两方面的内容，一是确定语言的语法体系，即对语言中合法的句子的语法结构给与形式化的定义；另一方面是句法分析技术，即根据给定的语法体系，自动推导出句子的句法结构，分析句子所包含的句法单位和这些句法单位之间的关系。对一个句子进行句法分析，词与词之间直接发生依存关系，构成一个依存对，其中一个是核心词，也叫支配词，另一个叫修饰词，也叫从属词。依存关系用一个有向弧表示，叫做依存弧。依存弧的方向一般为由从属词指向支配词。由依存弧连接起来的文本，构成了依存关系结构图，本文利用依存关系结构图来发现关系实例的触发词。

处理英文依存句法分析常用的工具是Stanford parser，它是基于概率统计句法分析的一个JAVA实现，由斯坦福大学自然语言处理小组开发的开源句法分析器。其中包含acomp，advcl，amod，conj以及appos等49种依存关系。句子“The surgeon cuts a smallhole in the skull and lifts the edge of the brain to expose the nerve.”中两两单词间对应的依存关系对如表1所示。

表1.依存关系对.

依存关系名	依存关系对	依存关系名	依存关系对
				det	(surgen,The)	nsubj	(cuts,surgen)
det	(hole,a)	amod	(hole,small)
				dobj	(cuts,hole)	case	(skull,in)
det	(skull,the)	nmod	(hole,skull)
				cc	(cuts,and)	conj	(cuts,lifts)
det	(edge,the)	dobj	(lifts,edge)
				case	(brain,of)	det	(brain,the)
nmod	(edge,brain)	mark	(expose,to)
				advcl	(lifts,expose)	det	(nerve,the)
dobj	(expose,nerve)

其中，中文依存关系对如2所示：

S103、确定所述依存关系结构图中对应节点的关联规则；

本发明实施例中，所述依存关系结构图中包含多个节点，节点之间包含关联规则，节点其语义词或者语义短语。其中，本发明实施例中以两个节点的关联规则为例进行说明，但对节点的数量不作具体的限制。

S104、依据对应的关联规则，计算每一个节点相对所述目标实体对的目标综合重要性分数；

本发明实施例中，依据对应的关联规则，计算每一个节点相对于所述目标实体对的目标综合重要性分数，其中，所述目标综合重要性分数由节点相对于所述目标实体对的综合重要性分数和节点相对于所述目标实体对的置信度共同决定。

S105、依据所述目标综合重要性分数，确定所述目标文本句中的触发词。

本发明实施例中，对所述依存关系结构图中的各个节点进行聚类，得到多个类簇，计算每一个类簇中各个节点相对于所述目标实体对的目标综合重要性分数总和之后取平均值，在平均值最高的类簇中，查找目标综合重要性分数最高的节点，该节点中包含的词作为所述目标文本句中的触发词。

其中，在句子“邓超和孙俪是一对非常恩爱的夫妻。”中，实体是“邓超”，“孙俪”，都是“PER”类的实体，该实体对间的关系类型属于“per：per”，即一个人物——人物类的关系类型，通过大量此类关系类型的关系实例分析得到“夫妻”就是该类关系实例的触发词之一。属于夫妻关系的触发词还有“丈夫”、“妻子”、“结婚”、“未婚妻”、“伉俪”、“配偶”、“夫妇”、“连理”等等。

其中，优选的，在进行聚类之前还可以为各个节点进行过滤，过滤掉所述目标文本句中的目标实体对和除名词、动词、形容词、副词和介词以外的词。

本发明实施例中，确定所述依存关系结构图中对应节点的关联规则的方法流程图如图2所示，包括步骤：

S201、获取所述依存关系结构图中包含的各个节点；

本发明实施例中，若所述目标文本句为“长春市吉林大学和东北师范大学成立联合科研学习小组，迅速开展学术科研活动。”则其对应的依存关系结构图如图3所示，获取该依存关系结构图中的各个节点。

S202、分别在所述各个节点中，选取第一节点和第二节点，其中，所述第一节点和所述第二节点的交集为空；

本发明实施例中，一个事务数据库中的关联规则挖掘可以描述如下：设I＝{i₁，i₂，…，i_m}是一个由m个不同项目组成的项目集合，D＝{t₁，t₂，…，t_n}是由一系列具有唯一标识TID的事务组成的事务数据库，每个事务t_i(i＝1，2，…，n)都对应I上的一个子集。每个i_k(k＝1，2，…，m)为一个“属性-值”对，称为数据项(Item)，数据项的集合I称为数据项集，简称项集，包含k个数据项的项集就称为k-项集。在本发明实施例中I是词库，D是由单词构成的句子集合，一个事务t_i就是一个句子，数据项i_k表示单词与其对应标识。关联规则R表现为，在数据项集合I中选取项集X和项集Y，项集X在某一事务中出现时，导致Y也会以一定的概率出现，公式表示为：

R：X＝＞Y (1)

其中，X和Y都是I的子集，并且X与Y交集为空。关联规则的衡量标准有两个，分别是支持度和置信度。

S203、计算所述第一节点出现时所述第二节点也出现的概率对应的关联度和置信度。

本发明实施例中，项集X的支持度support(X)反映项集X出现在事务数据库D中的概率。关联规则R的支持度support(R)反映项集X和项集Y同时出现的概率。即：

其中，表示D中包含X的事务数目。count(X∩Y)表示在事务数据库D中，同时包含项集X和项集Y的事务数目，|D|表示D中事务的总数。

关联规则R的置信度confidence(R)反映如果事务中包含项集X，则该事务包含项集Y的概率。即：

其中，support(R)表示规则R的支持度，support(X)表示项集X的支持度。一般来说，支持度和置信度较高的关联规则，应用意义越大。

本发明实施例中，依据对应的关联规则，计算每一个节点相对所述目标实体对的目标综合重要性分数的方法里程如图4所示，包括步骤：

S301、计算每一个节点相对所述第一实体和所述第二实体的综合重要性分数；

本发明实施例中，结合关联规则的置信度值，来计算每一个节点相对于实体对的综合重要性分数，而关系触发词作为连接实体对间关系的词语，与两个实体均有关联，故需要计算每个节点v_j相对于第一实体Ent₁和第二实体Ent₂的综合重要性分数。公式如下：

I(v_j|{Ent₁，Ent₂})＝I(v_j|Ent₁)+I(v_j|Ent₂)+I(v_j|Ent₁)·I(v_j|Ent₂) (5)

其中，I(v|Ent)表示节点v_j相对于实体节点Ent的重要性分数。

S302、计算每一个节点相对所述第一实体和所述第二实体的置信度；

本发明实施例中，利用关联规则挖掘算法得出，规则为{v_j}＝＞{Ent₁，Ent₂}，计算每个节点v_j相对于两个实体Ent₁和Ent₂的综合重要性分数R(v_j|{Ent₁，Ent₂})，即置信度，公式如下：

S303、对所述综合重要性分数和所述置信度进行加权求和得到目标综合性重要分数。

本发明实施例中，综上所述，对两个算法得到的综合重要性分数计算加权值Total(v_j|{Ent₁，Ent₂})，公式如下：

Totαl(v_j|{Ent₁，Ent₂})＝α*I(v_j|{Ent₁，Ent₂})+(1-α)*R(v_j|{Ent₁，Ent₂})......(7)

其中，α为权重，优选的，d＝0.5

本发明实施例中，在依存句法图上进行关系关键词的选取，降低后续分类模型训练的复杂度，减少训练时间。对于任何含有实体对的句子，都能通过句子本身获得关系关键词，进行关系小类的判定。能够提高实体关系抽取性能，降低对训练集的要求。

本发明实施例中，基于上述的一种触发词的确定方法，还提供了一种触发词的确定装置，所述确定装置的结构框图如图5所示，包括：

识别模块401、构建模块402、第一确定模块403、计算模块404和第二确定模块405。

其中，

所述识别模块401，用于识别目标文本句中的目标实体对，其中，所述目标实体对包含第一实体和第二实体；

所述构建模块402，用于若所述第一实体和所述第二实体间的距离大于等于预设的阈值或若所述第一实体和所述第二实体间的距离小于预设的阈值且所述第一实体和所述第二实体之间不包含介词，构建所述目标文本句的依存关系结构图；

所述第一确定模块403，用于确定所述依存关系结构图中对应节点的关联规则；

所述计算模块404，用于依据对应的关联规则，计算每一个节点相对所述目标实体对的目标综合重要性分数；

所述第二确定模块405，用于依据所述目标综合重要性分数，确定所述目标文本句中的触发词。

本发明公开了一种触发词的确定装置，包括：识别目标文本句中的目标实体对，其中，所述目标实体对包含第一实体和第二实体；若所述第一实体和所述第二实体间的距离大于等于预设的阈值或若所述第一实体和所述第二实体间的距离小于预设的阈值且所述第一实体和所述第二实体之间不包含介词，构建所述目标文本句的依存关系结构图；确定所述依存关系结构图中对应节点的关联规则；依据对应的关联规则，计算每一个节点相对所述目标实体对的目标综合重要性分数；依据所述目标综合重要性分数，确定所述目标文本句中的触发词。上述的装置，在触发词的确定过程中，不需要依赖词典，不受应用领域的限制，可移植性强。

本本发明实施例中，所述第一确定模块403包括：

获取单元406、选取单元407和第一计算单元408。

其中，

所述获取单元406，用于获取所述依存关系结构图中包含的各个节点；

所述选取单元407，用于分别在所述各个节点中，选取第一节点和第二节点，其中，所述第一节点和所述第二节点的交集为空；

所述第一计算单元408，用于计算所述第一节点出现时所述第二节点也出现的概率对应的关联度和置信度。

本发明实施例中，所述计算模块404包括：

第二计算单元409、第三计算单元410和加权求和单元411。

其中，

所述第二计算单元409，用于计算每一个节点相对所述第一实体和所述第二实体的综合重要性分数；

所述第三计算单元410，用于计算每一个节点相对所述第一实体和所述第二实体的置信度；

所述加权求和单元411，用于对所述综合重要性分数和所述置信度进行加权求和得到目标综合性重要分数。

本发明实施例中，所述第二确定模块405包括：

聚类单元412，第四计算单元413和确定单元414。

所述聚类单元412，用于对所述依存关系结构图中的各个节点进行聚类，得到类簇；

所述第四计算单元413，用于计算每一个类簇中各个节点相对于所述第一实体和所述第二实体综合重要性分数的平均值；

所述确定单元414，用于在各个类簇中选取平均值最大的类簇作为目标类簇，将所述目标类簇中综合重要性分数最大值所属节点中的词作为所述目标文本句中的触发词。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明所提供的一种触发词的确定方法和装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种触发词的确定方法，其特征在于，包括：

确定所述依存关系结构图中对应节点的关联规则；

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1所述的方法，其特征在于，确定所述依存关系结构图中对应节点的关联规则包括：

获取所述依存关系结构图中包含的各个节点；

4.根据权利要求1所述的方法，其特征在于，依据对应的关联规则，计算每一个节点相对所述目标实体对的目标综合重要性分数，包括：

5.根据权利要求1所述的方法，其特征在于，依据所述目标综合重要性分数，确定所述目标文本句中的触发词，包括：

对所述依存关系结构图中的各个节点进行聚类，得到类簇；

6.根据权利要求5所述的方法，其特征在于，对所述依存关系结构图中的各个节点进行聚类，得到类簇之前还包括：

对所述依存关系结构中的各个节点进行过滤。

7.一种触发词的确定装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述第一确定模块包括：

9.根据权利要求7所述的装置，其特征在于，所述计算模块包括：

10.根据权利要求7所述的装置，其特征在于，所述第二确定模块包括：