CN113190655A

CN113190655A - 一种基于语义依赖的空间关系抽取方法及装置

Info

Publication number: CN113190655A
Application number: CN202110506597.7A
Authority: CN
Inventors: 于辛; 丁文韬; 瞿裕忠
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-05-10
Filing date: 2021-05-10
Publication date: 2021-07-30
Anticipated expiration: 2041-05-10
Also published as: CN113190655B

Abstract

一种基于语义依赖的空间关系抽取方法及装置，构建语义依赖识别模型，从非结构化文本中抽取出空间关系元组，首先定义语义依赖类型，分别为包含触发词角色类型和不包含触发词角色类型；然后将待识别文本及预标注的空间元素输入基于深度自注意力网络的语义依赖识别模型，结合定义的语义依赖类型，得到空间元素间的所有语义依赖识别结果；最后将得到的语义依赖识别结果进行组合，输出完整的空间关系元组。本发明将空间关系抽取问题转化为语义依赖识别问题，可同时处理多种空间关系，包括包含触发词和不含触发词的空间关系；本发明可以有效表示文本中的空间语义信息，抽取出空间元素间的语义依赖，无须人工设计特征，泛化性能强，准确率高。

Description

一种基于语义依赖的空间关系抽取方法及装置

技术领域

本发明属于自然语言处理技术领域，涉及信息抽取技术，为一种基于语义依赖的空间关系抽取方法及装置。

背景技术

随着互联网信息产业的快速发展以及网络大数据时代的到来，网络数据增长迅速，人们期望能快速、高效地从海量数据中挖掘抽取出有用的信息。

文本中蕴含了丰富的空间信息。空间信息的含义比较广泛，一般反映了客观对象的空间分布特征的信息，例如自身的位置、空间结构以及与其他对象在空间分布上的关联。理解自然语言中的空间信息可以为不同领域的应用系统提供底层支撑，例如：对于问答系统，可以用于空间相关问题求解；对于知识图谱领域，从文本中抽取空间信息可用于补充知识图谱空间相关数据；对于地理信息系统，从文本中获取高质量的空间信息可以帮助扩充地理数据库。

目前在空间关系抽取领域目前已经开展了很多工作，德克萨斯大学人类语言技术研究所的研究人员提出一种基于sieve的抽取方法，其将空间关系分解为多个子关系，利用结合了句法树特征的一系列支持向量机分类器对子关系进行分类，但是训练分类器需要人工设计特征，效率低且可拓展性差；里斯本大学的研究人员尝试使用基于卷积神经网络的序列标注模型，对于给定文本首先识别出触发词，也称为空间关系词，然后将触发词和文本作为输入抽取出空间关系的其他角色，该方法存在的主要问题是无法处理不含触发词的空间关系，即隐式的空间关系；专利申请《一种水利空间关系词识别与提取的方法》(公开号CN110532553A)，提出了一种基于弱监督的水利领域的空间关系词识别方法，通过种子集合挖掘空间关系模式，进而抽取出空间关系元组，该方法在处理过程中需要设计大量的词法语法规则和特征；专利申请《提取地理位置点空间关系的方法、训练提取模型的方法及装置》(公开号CN111737383A)，提出了一种提取地理位置点空间关系的方法，建模为序列标注问题，对于给定地点，输出其空间位置信息，该方法也无法处理不含触发词的关系。

发明内容

针对现有方法的不足，本发明的目的是提供一种面向文本的无需人工设计特征、准确率高、通用性好、适用于多种空间关系的基于语义依赖的空间关系抽取方法，从非结构化的文本数据中抽取结构化的空间关系元组。

本发明的技术方案为：一种基于语义依赖的空间关系抽取方法，构建语义依赖识别模型，从非结构化文本中抽取出空间关系元组，包括以下步骤：

步骤1：定义语义依赖类型，分别为包含触发词角色类型和不包含触发词角色类型；

步骤2：构建基于深度自注意力网络的语义依赖识别模型，包括标签嵌入层、词嵌入层、编码层和解码层；将待识别文本及预标注的空间元素输入训练好的语义依赖识别模型，结合定义的语义依赖类型，得到空间元素间的所有语义依赖识别结果：

2.1)将待识别文本输入词嵌入层得到词向量；

2.2)将空间元素采用BIO标注方法进行标注，输入标签嵌入层，得到空间元素标签向量；

2.3)将2.1)得到的词向量和2.2)得到的空间元素标签向量进行拼接作为编码层的输入向量；

2.4)将2.3)得到的输入向量输入基于元素感知自注意力的编码层得到特征表示向量；

2.5)将2.4)输出的特征表示向量输入解码层得到空间元素间的语义依赖输出；

步骤3：将步骤2得到的语义依赖识别结果进行组合，输出完整的空间关系元组。

进一步的，步骤1具体为：根据空间关系元组是否包含触发词角色定义两种语义依赖类型：

1.1)包含触发词角色类型：对于除触发词角色之外的每个角色成员，定义一条语义依赖，即二元有向关系，从触发词指向该角色，语义依赖的类型由关系类型和该角色的类型共同决定，其中触发词角色称为语义依赖的头元素，其他角色元素称为语义依赖的尾元素；

1.2)不包含触发词角色类型：空间关系元组只有方位关系和拓扑关系，不含触发词角色，对于这种情况，直接从射体角色连一条语义依赖至界标角色，语义依赖类型由关系类型决定，其中射体角色称为该语义依赖的头元素，界标角色称为该语义依赖的尾元素。

进一步的，步骤3的语义依赖识别结果进行组合具体为：

3.1)将所有的语义依赖按照其对应的空间关系进行分组；

3.2)对于每个空间关系组内，根据头元素是否为触发词分别处理；

3.3)如果头元素为触发词，则将所有头元素相同的语义依赖组合为完整的空间关系元组，其中头元素作为空间关系的触发词角色，其他尾元素作为空间关系的其余角色，角色类型由依赖关系对应的角色类型决定；

3.4)如果头元素不是触发词，则直接将该依赖关系组合为空间关系元组，将该依赖关系的头元素作为射体角色，尾元素作为界标角色。

本发明还提出一种基于语义依赖的空间关系抽取装置，所述装置配置有计算机程序实现语义依赖识别模型，所述语义依赖识别模型被执行时实现上述的空间关系抽取方法。

本发明与现有技术相比，其优点在于：(1)提出了一种通用的语义依赖表示方法，将空间关系抽取问题转化为语义依赖识别问题，首先识别出文本中的空间元素间的语义依赖，进而组合得到空间关系元组，可同时处理多种空间关系，包括包含触发词和不含触发词的空间关系；(2)提出了一种基于深度自注意力神经网络的语义依赖识别模型，可以有效表示文本中的空间语义信息，抽取出空间元素间的语义依赖，无须人工设计特征，泛化性能强，准确率高。

附图说明

图1是本发明的基于语义依赖的空间关系抽取方法的整体处理流程图。

图2是本发明的基于深度自注意力神经网络的语义依赖识别模型示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步详细说明。

如图1所示，本发明提出一种基于语义依赖识别的空间关系抽取方法，从非结构化文本中抽取出空间关系元组，包括如下步骤：

步骤1：根据空间关系元组定义语义依赖类型。

步骤2：构建基于深度自注意力网络的语义依赖识别模型，并先在训练数据集上训练。将待识别文本和预标注的空间元素输入训练好的基于深度自注意力网络的语义依赖识别模型，得到空间元素间的所有语义依赖。

步骤3：将步骤2得到的语义依赖输出组合为完整的空间关系元组。

本发明适用的空间信息标注规范如下：

1)空间元素：指文本中的空间语义单元，包括：地点、空间实体、空间信号、运动事件、度量值等。

2)空间关系：指空间元素间的空间语义关联，包括拓扑关系、方位关系、距离关系、运动关系等：

a)拓扑关系、方位关系有3个角色成员，包括触发词、射体、界标，其中触发词对应的空间元素类型为空间信号。

b)距离关系有3个角色成员，包括触发词、射体和界标，其中触发词对应的空间元素类型为度量值。

c)运动关系有8个角色，包括触发词、运动对象、起点、终点、途径地、路径、界标、运动信号，其中触发词对应的空间元素类型为运动事件。

下面对各个步骤的实施进行具体说明。

步骤1所述的“根据空间关系元组定义语义依赖类型”，具体来说，根据空间关系元组是否包含触发词角色分别处理：

1.1)包含触发词角色：对于除触发词角色之外的每个角色成员，定义一条语义依赖，即二元有向关系，从触发词指向该角色，语义依赖的类型由关系类型和该角色的类型共同决定，其中触发词角色称为语义依赖的头元素，其他角色元素称为语义依赖的尾元素。例如，对于空间关系元组“<方位关系，触发词＝a,射体＝b，界标＝c>”,可将其转换为以下语义依赖：方位-射体(a,b)、方位-界标(a,c)，其中a为头元素，b和c为尾元素。

1.2)不包含触发词角色：只有方位关系和拓扑关系可能出现不含触发词角色的情况，对于这种情况，直接从射体角色连一条语义依赖至界标角色，语义依赖类型由关系类型决定。其中射体角色称为该语义依赖的头元素，界标角色称为该语义依赖的尾元素。例如，对于空间关系元组“<拓扑关系，射体＝a，界标＝b>”,可将其转换为以下语义依赖：拓扑(a,b)，其中a为头元素，b为尾元素。

步骤2构建基于深度自注意力网络的语义依赖识别模型，用于识别空间元素间的所有语义依赖，图2给出了基于深度自注意力网络的语义依赖模型的架构，下面具体阐述：

2.1)将文本输入词嵌入层得到词向量，词嵌入层采用BERT(BidirectionalEncoder Representations from Transformers)预训练模型。图2中文本输入为“Nanjingis northeast of Shanghai.”，用T＝(t₁,t₂,…,t_n)表示句子中的所有词，句子通过词嵌入层得到了词向量：(w₁,w₂,…,w_n)，其中w_i表示t_i的词向量。

2.2)将空间元素采用BIO标注方法进行标注。BIO标注方法指将每个元素标注为“B-X”、“I-X”或者“O”。其中，“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头，“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置，“O”表示不属于任何类型。

图2句中有3个空间元素，“Nanjing”和“Shanghai”表示地点(PLACE)，“northeast”为空间信号(SS),经过BIO标注方法得到“Nanjing/B-PLACE is/O northeast/B-SS of/OShanghai/B-PLACE”，将标签序列输入标签嵌入层得到空间元素标签向量L＝(l₁,l₂,…,l_n)，其中l_i表示t_i的空间元素标签向量。

2.3)将步骤2.1)输出的词向量和步骤2.2)输出的空间元素标签向量进行拼接得到模型输入向量X＝(x₁,x₂,…,x_n)，其中x_i由w_i和l_i拼接而成。

2.4)将2.3)得到的模型输入向量输入编码层得到特征表示向量。编码层由多层自注意力神经网络组成，对于输入向量x_i，

i＝1,2,…,n，每一层自注意力神经网络的输出h_i计算方式如下：

h_i＝LayerNorm(c_i+e_i)

c_i＝σ(e_iW^H+b^H)

e_i＝LayerNorm(z_i+x_i)

上述公式中

分别表示第l个自注意力网络结构的参数权重矩阵，L表示自注意力网络结构的个数，Concat表示将参与向量进行拼接；

和

分别为前馈神经网络结构的参数权重矩阵和偏置系数，σ表示激活函数，LayerNorm表示层归一化函数。d_x表示x_i的维度，d_z表示

的维度，并且满足d_x＝d_z×L。

空间关系与空间元素具有密切相关性，为了更好的表示空间元素之间的相对关系，本发明使用

和

表示单词t_i和t_j之间的关系向量，具体而言:

clip(x,k)＝max(-k,min(k,x))

其中k表示裁剪长度，

和

均为参数权重矩阵，并且

将最后一层的输出作为特征表示向量H＝(h₁,h₂,…,h_n)。

2.5)将步骤2.4)输出的特征表示向量输入解码层，输出空间元素之间的所有语义依赖。

计算方式如下：

2.5.1)定义D表示所有语义依赖类型集合，对于任意单词对(t_i,t_j)，若t_i和t_j均为空间元素，则利用二者的特征表示向量h_i和h_j，计算二者对于每种语义依赖d∈D的预测概率P(d|t_i,t_j)：

P(d|t_i,t_j)＝sigmoid([h_i；h_j]w^d+b^d)

为权重矩阵，

为偏置系数；

2.5.2)在模型的训练阶段，定义模型的损失函数为：

其中

表示t_i,t_j之间真实的语义依赖类型集合；

在模型的预测阶段，对于每种语义依赖类型d∈D，如果P(d|t_i,t_j)>0.5，则认为t_i和t_j之间存在语义依赖d。如图2所示，模型输出了两个语义依赖：“方位-射体(Northwest,Nanjing)”和“方位-界标(Northwest,Shanghai)”。

步骤3：将步骤2得到的语义依赖输出组合为完整的空间关系元组。包括以下步骤：

3.1)将所有的语义依赖按照其对应的空间关系进行分组。

3.2)对于每个关系组内，根据头元素是否为触发词分别处理。

3.3)如果头元素为触发词，则将所有头元素相同的语义依赖为组合为完整的空间关系元组，其中头元素作为空间关系的触发词角色，其他尾元素作为空间关系的其余角色，角色类型由依赖关系对应的角色类型决定。

如图2为例，输出了“方位-射体(Northwest,Nanjing)”和“方位-界标(Northwest,Shanghai)”两个语义依赖，同属于方位关系，头元素为Northwest,且头元素类型为空间信息(SS)表示为触发词角色，因此可以两个语义依赖合并为一个完整的空间关系：“<方位关系，触发词＝Northwest,射体＝Nanjing，界标＝Shanghai>”。

对于不含触发词角色的空间关系，例如“There we met the priest”，语义依赖识别模型可以识别出语义依赖“拓扑(met,There)”，进而组合得到完整的空间关系“<拓扑关系，射体＝met，界标＝Shanghai>”。

综上，本发明对于两类空间关系均能进行处理，具有良好的通用泛化性。

本发明在SpaceEval等空间关系抽取任务上取得了优异的效果，相比基于sieve的抽取方法，不仅处理的通用性更好，准确率也提高超过5％，具有良好的泛化性和准确性。

本发明还提供一种基于语义依赖的空间关系抽取装置，所述装置配置有计算机程序实现语义依赖识别模型，所述语义依赖识别模型被执行时实现上述的空间关系抽取方法。