CN111104509A

CN111104509A - 一种基于概率分布自适应的实体关系分类方法

Info

Publication number: CN111104509A
Application number: CN201911085383.6A
Authority: CN
Inventors: 熊盛武; 陈振东; 段鹏飞; 刁月月
Original assignee: Wuhan Shuixiang Electronic Technology Co ltd; Wuhan University of Technology WUT
Current assignee: Wuhan Shuixiang Electronic Technology Co ltd; Wuhan University of Technology WUT
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2020-05-05
Anticipated expiration: 2039-11-08
Also published as: CN111104509B

Abstract

本发明公开了一种基于概率分布自适应的实体关系分类方法，首先获取源域数据和目标域数据，训练两个领域数据的字向量特征和实体词的位置特征；接着经过深度神经网络模型的前向传播计算，得到两个领域数据的高级特征表示；接下来计算领域数据高级特征表示之间边缘概率分布差异和条件概率分布差异；然后计算两种概率分布之间的A‑distance，赋予两种概率分布差异不同的学习权重，并在训练过程中自动更新权重；再经过损失函数计算，并结合概率分布差异的损失，反向传播更新网络参数，最终训练得到分类模型进行分类测试。本发明通过降低不同领域数据之间的分布差异达到领域适应，利用源域的大量数据提升目标域分类效果。

Description

一种基于概率分布自适应的实体关系分类方法

技术领域

本发明涉及机器学习与自然语言处理技术领域，具体涉及一种基于概率分布自适应的实体关系分类方法。

背景技术

近年来随着互联网技术的蓬勃发展，尤其是移动网络设备的普及，全球互联网用户数量超过了40亿，产生的数据量呈现几何级增长。网络中的信息有不同的组织形式，而非结构化或半结构化的文本是最常见的信息载体。信息抽取技术是指从结构化程度不同的文本数据中提取符合特定需求的信息，在海量文本信息处理和知识库构建中扮演了重要角色。

实体关系抽取任务，则是为了抽取文本中两个实体之间的关系，是信息抽取研究中的一个重要任务。在知识库和知识图谱构建过程中，实体间关系的抽取效果直接影响了知识库的易用性和准确性，因此成为近年来的研究热点。现有的关系抽取机器学习方法，大多以有监督学习方法为主，将关系抽取任务当作分类问题，根据训练数据设计有效的特征，从而学习各种分类模型，然后使用训练好的分类器预测关系。但是基于有监督的机器学习的关系抽取方法需要以大量有标签的训练数据为前提，这带来了大量的人力和时间上的花费。为了缓解训练数据缺乏的困扰，迁移学习方法应运而生，并逐渐成为研究热点。在面对特定领域如地理领域的数据量不足问题时，通过迁移学习的方法，可以使用其他领域学习到的知识，通过领域适应的调整，应用到本领域的学习中，并提升本领域的关系抽取等任务的效果。

本申请发明人在实施本发明的过程中，发现现有技术的方法，至少存在如下技术问题：

目前较多的实体关系抽取研究多应用在英文公开语料库中，并且不同领域的关系类型不同不可通用，而中文关系提取需要更多的自然语言处理任务的支持，如分词和命名实体识别等，相比英文更为复杂，更容易产生误差，经过迭代运算会放大误差影响性能，过多的自然语言处理工作获取的特征不利于迁移学习提升目标任务的性能。目前较多的基于深度迁移学习方法的工作，大都围绕图像分类领域展开，但是在NLP领域，无法像图像信息一般直观地感受到不同领域之间的区别。

由此可知，现有技术中的方法存在分类效果不佳的技术问题。

发明内容

有鉴于此，本发明提供了一种基于概率分布自适应的实体关系分类方法，用以解决或者至少部分解决现有技术中的方法存在的分类效果不佳的技术问题。

为了解决上述技术问题，本发明提供了一种基于概率分布自适应的实体关系分类方法，包括：

步骤S1：将获取的有类别标记的数据作为源域数据，获取的待进行实体关系分类的领域标注数据作为目标域数据，并训练获得源域数据字向量特征和实体词的位置特征、目标域数据的字向量特征和实体词的位置特征；

步骤S2：将源域数据的字向量特征和实体词的位置特征通过预设深度神经网络模型的前向传播计算，得到源域数据的高级特征表示，将目标域数据的字向量特征和实体词的位置特征通过预设深度神经网络模型的前向传播计算，得到目标域数据的高级特征表示；

步骤S3：计算源域数据高级特征表示与目标域数据高级特征表示之间的最大均值差异，作为边缘概率分布差异，计算源域数据高级特征表示与目标域数据高级特征表示之间的条件概率分布的最大均值差异，作为关系分类的条件概率分布差异；

步骤S4：计算源域数据边缘概率分布和目标域数据边缘概率分布之间的第一距离、源域数据条件概率分布和目标域数据条件概率分布之间的第二距离，并根据计算出的第一距离和第二距离，对边缘概率分布差异和条件概率分布差异分配相应的权重，得到概率分布差异的损失函数；

步骤S5：将源域数据和目标域数据通过预设领域关系类型的损失函数和概率分布差异的损失函数的计算，反向传播更新网络参数，得到分类模型；

步骤S6：利用分类模型对待处理的数据进行实体关系分类。

在一种实施方式中，步骤S1具体包括：

步骤S1.1：获取ACE05关系抽取数据集中的中文数据子集，将其作为源域数据D_S，获取目标域的预设量数据，并进行标注，作为目标域数据D_T；

步骤S1.2：通过训练好的word2vec工具计算源域数据和目标域数据的字向量特征，对于源域数据和目标域数据中的实体词，通过计算实体词与每个文本字符的字符距离，构建源域数据和目标域数据包含的语句中实体词的位置特征向量。

在一种实施方式中，预设深度神经网络模型为基于注意力机制的双向长短期记忆神经网络，步骤S2具体包括：

步骤S2.1：将得到的源域数据包含的语句中每个字的字向量组成的特征矩阵，并拼接实体词的位置特征向量，经过Bi-LSTM层的前向传播计算和注意力层的注意力计算，得到源域数据的高级特征表示；

步骤S2.2：将得到的目标域数据包含的语句中每个字的字向量组成的特征矩阵，并拼接实体词的位置特征向量，经过Bi-LSTM层的前向传播计算和注意力层的注意力计算，得到目标域的高级特征表示。

在一种实施方式中，步骤S3具体包括：

步骤S3.1：根据公式(1)计算源域数据高级特征表示与目标域数据高级特征表示之间的最大均值差异，作为边缘概率分布差异：

其中，R_S、R_T分别代表源域数据高级特征向量和目标域数据高级特征向量，m、n分别表示源域数据高级特征向量的总数、目标域数据高级特征向量的总数，

分别表示目标域数据中第i个的高级特征向量和第j个高级特征向量，

分别表示源域数据中第i个的高级特征向量和第j个高级特征向量；高斯核函数的形式为k(x,y)＝exp(-||x-y||²/2σ²)，其中x,y代表待计算的向量，σ为控制高斯核函数局部作用范围的带宽参数，高级特征向量为高级特征的表示形式；

步骤S3.2：根据公式(1)计算源域数据高级特征表示与目标域数据高级特征表示之间的条件概率分布的最大均值差异，作为关系分类的条件概率分布差异：

其中，c代表该类别对应的高级特征数据，n_c、m_c分别表示源域数据高级特征在第c类的向量的总数、目标域数据高级特征在第c类的向量的总数，

分别表示目标域数据中在第c类的第i个的高级特征向量和第j个高级特征向量，

分别表示源域数据中在第c类的第i个的高级特征向量和第j个高级特征向量。

在一种实施方式中，步骤S4具体包括：

步骤S4.1：根据公式(3)计算源域数据边缘概率分布和目标域数据边缘概率分布之间的第一距离：

d_P＝d_A(R_S,R_T)＝2(1-2ε(h)) (3)

其中，R_S表示源域数据高级特征向量，R_T表示目标域数据高级特征向量，ε(h)线性分类器h区分源域数据和目标域数据高级特征向量之间的误差；

步骤S4.2：根据公式(4)计算源域数据条件概率分布和目标域数据条件概率分布之间的第二距离：

其中，

表示分类为第c类的源域数据的高级特征向量，

表示表示分类为第c类的目标域数据的高级特征向量；

步骤S4.3：根据第一距离和第二距离所占比例的大小分配边缘概率分布差异和条件概率分布差异的权重，得到概率分布差异的损失函数

其中，

表示边缘概率分布差异，

表示条件概率分布差异，γ表示边缘概率分布差异自适应超参数，μ^(c)表示条件概率分布差异的自适应超参数。

在一种实施方式中，步骤S5具体包括：

步骤S5.1：基于预设领域关系类型的损失函数分别计算源域的分类损失和目标域的分类损失，并将源域的分类损失和目标域的分类损失相加得到总体损失，其中，预设领域关系类型的损失函数为交叉熵函数；

步骤S5.2：在反向传播过程结合概率分布差异损失函数，得到目标损失函数；

步骤S5.3：基于目标损失函数的梯度更新，训练得到分类模型。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明提供的方法，首先获取源域数据和目标域数据，并分别获取两个领域数据的字向量特征和实体词的位置特征；然后通过深度神经网络模型的前向传播计算，得到两个领域数据的高级特征表示；接着计算领域数据高级特征表示之间边缘概率分布差异和条件概率分布差异；接下来计算两种概率分布之间的A-distance(第一距离和第二距离)，赋予两种概率分布差异不同的权重，并在训练过程中自动更新权重；再经过损失函数计算，并结合概率分布差异的损失，反向传播更新网络参数，训练得到分类模型，最后利用分类模型对待处理的数据进行实体关系分类。本发明可以通过降低不同领域数据之间的分布差异达到领域适应，利用源域的大量数据可以提升目标域分类效果，从而解决现有技术中的方法存在的分类效果不佳的技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于概率分布自适应的实体关系分类方法的流程示意图；

图2为本发明实施例提供基于概率分布自适应的实体关系分类方法总体技术框图；

图3为本发明实施例中分类模型的结构示意图。

具体实施方式

本发明的旨在提供一种基于概率分布自适应的实体关系分类方法，用以解决传统方法中对于实体关系分类的误差大的问题，从而达到较佳的分类效果。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供了一种基于概率分布自适应的实体关系分类方法，请参见图1，该方法包括：

步骤S1：将获取的有类别标记的数据作为源域数据，获取的待进行实体关系分类的领域标注数据作为目标域数据，并训练获得源域数据字向量特征和实体词的位置特征、目标域数据的字向量特征和实体词的位置特征。

具体来说，对于源域数据和目标域数据，可以通过训练词向量的方式得到对应的字向量特征和实体词的位置特征。

在一种实施方式中，步骤S1具体包括：

具体来说，将D_S和D_T作为训练语料中的训练集文本，通过word2vec工具计算字向量特征，然后通过计算字与实体词的字符距离，得到实体词的位置特征。

步骤S2：将源域数据的字向量特征和实体词的位置特征通过预设深度神经网络模型的前向传播计算，得到源域数据的高级特征表示，将目标域数据的字向量特征和实体词的位置特征通过预设深度神经网络模型的前向传播计算，得到目标域数据的高级特征表示。

具体来说，步骤S2是通过预设深度神经网络结合双向长短记忆和注意力机制，进一步提出两个领域中数据的高级特征表示。

具体来说，构建双向长短期记忆神经网络(Bi-LSTM)层，基于Bi-LSTM层应用注意力机制，进一步提取Bi-LSTM层中更为有效的特征；输入D_S与D_T的数据特征，经过前向传播计算最终输出源域的高级特征R_S和目标域的高级特征R_T。

步骤S3：计算源域数据高级特征表示与目标域数据高级特征表示之间的最大均值差异，作为边缘概率分布差异，计算源域数据高级特征表示与目标域数据高级特征表示之间的条件概率分布的最大均值差异，作为关系分类的条件概率分布差异。

具体来说，步骤S3通过两个领域数据的高级特征表示的计算，从而得到边缘概率分布差异和关系分类的条件概率分布差异。

在一种实施方式中，步骤S3具体包括：

步骤S4：计算源域数据边缘概率分布和目标域数据边缘概率分布之间的第一距离、源域数据条件概率分布和目标域数据条件概率分布之间的第二距离，并根据计算出的第一距离和第二距离，对边缘概率分布差异和条件概率分布差异分配相应的权重，得到概率分布差异的损失函数。

具体来说，边缘概率分布的A-distance为第一距离，条件概率分布的A-distance为第二距离，在计算时，分别从两个领域中得到相应的数据分布。

在一种实施方式中，步骤S4具体包括：

d_P＝d_A(R_S,R_T)＝2(1-2ε(h)) (3)

其中，

表示分类为第c类的源域数据的高级特征向量，

表示表示分类为第c类的目标域数据的高级特征向量；

其中，

表示边缘概率分布差异，

具体来说，本实施方式采用一种近似方法来估计A-distance，定义为：线性分类器(二分类)区分两个领域高级特征的误差值。将源域数据的高级特征向量R_S和目标域数据的高级特征向量R_T分别分类为0和1，并将高级特征向量输入简单二分类器进行训练并得出损失值，本发明具体实施方式为采用单隐藏层二分类神经网络实现A-distance估计。形式上，定义线性分类器h区分R_S和R_T的误差为ε(h)，从而得到边缘概率分布A-distance(即第一距离)的计算方法d_P＝d_A(R_S,R_T)＝2(1-2ε(h))，在计算条件概率分布的情况下，每一类的A-distance(第二距离)计算方法为

计算得到相应的A-distance后，可以根据d_P和

所占比例的大小分配γ和μ的取值(d_P、

各自所占比例＝各自的值÷两者总和)，最终为两概率分布差异赋予权重，得到概率分布差异的损失函数

步骤S5：将源域数据和目标域数据通过预设领域关系类型的损失函数和概率分布差异的损失函数的计算，反向传播更新网络参数，得到分类模型。

在一种实施方式中，步骤S5具体包括：

具体来说，两个领域数据分别经过其领域关系类型的损失函数计算，并结合概率分布差异的损失，反向传播更新网络参数，最终训练得到分类模型进行分类测试。分类损失由交叉熵损失函数J_C计算得到，其形式为：

N为样本总量，x为样本，对于每一个样本，y_i表示x的真实标签，

表示预测标签。

对于源域与目标域，由于标签类型的不同，因此分别计算两个领域的分类损失并相加得到总体损失，反向传播过程加入概率分布差异损失

最终经过所有损失的梯度更新，训练分类模型。

请参见图2，为本发明实施例的总体技术框图，通过深度神经网络根据输入的源域数据特征和目标域数据特征，抽取出源域高级特征和目标域高级特征，然后计算领域数据高级特征表示之间边缘概率分布差异和条件概率分布差异；接着计算两种概率分布之间的A-distance，赋予两种概率分布差异不同的学习权重，并在训练过程中自动更新权重，得到概率分布差异损失，并结合关系分类损失，反向传播更新网络参数，最终训练得到分类模型。

需要说明的是，图2中，源域数据特征为源域数据字向量特征和实体词的位置特征，目标域数据特征为目标域数据的字向量特征和实体词的位置特征。概率分布差异损失为概率分布差异损失函数。

请参见图3，为本发明实施例中分类模型的结构示意图，该模型包括字嵌入位置嵌入层、Bi-LSTM层、注意力层、高级特征层和分类输出层。

步骤S6：利用分类模型对待处理的数据进行实体关系分类。

具体来说，通过前述步骤得到训练好的分类模型后，则可以利用分类模型对待处理数据进行实体关系分类。

下面结合附图和实施例对本发明提供的实体关系分类方法做进一步的说明。

步骤101，获取有类别标记的数据作为源域数据，获取待进行实体关系分类的领域标注数据作为目标域数据，训练两个领域数据的字向量特征和实体词的位置特征。获取ACE05关系抽取数据集中的中文数据子集作为源域D_S，获取目标域的一定量数据，并进行标注，作为目标域数据D_T。整合两个领域的训练集文本数据，使用word2vec工具训练100维的字向量特征，对于未知字符视为零向量。对于语句中的实体词，计算实体词与每个文本字符的字符距离，也就是相隔的字符数量，构建实体词的位置特征向量。

步骤102，使源域数据特征与目标域数据特征分别经过深度神经网络模型的前向传播计算，得到两领域数据的高级特征表示。构建基于注意力机制的双向长短期记忆神经网络(Bi-LSTM)，其输入特征为步骤1中得到的语句中每个字的字向量组成的特征矩阵，并拼接位置特征向量。经过Bi-LSTM层的前向传播计算和注意力层的注意力计算，最终输出源域的高级特征R_S和目标域的高级特征R_T，具体地，获取高级特征层的隐藏权重表示源域和目标域数据的特征。

步骤103，计算领域数据高级特征表示之间的最大均值差异，代表边缘概率分布的差异，计算领域数据高级特征之间类条件概率分布的最大均值差异，代表关系分类的条件概率分布差异。声明高斯核函数的形式为k(x,y)＝exp(-||x-y||²/2σ²)。基于高级特征R_S与R_T，根据源域与目标域的特征向量r_s与r_t计算边缘概率分布差异

其中m、n为特征向量的总数。根据对应领域中softmax层的分类情况，获得每一类别对应的特征向量

与

条件概率分布差异计算如下式中

其中c代表该类别对应的高级特征数据。

步骤104，计算边缘概率分布与条件概率分布之间的A-distance，依据此度量方法赋予两种概率分布差异不同的学习权重，并在训练过程中自动更新权重。

步骤105，两个领域数据分别经过其领域关系类型的损失函数计算，并结合概率分布差异的损失，反向传播更新网络参数，最终训练得到分类模型进行分类测试。分类损失由交叉熵损失函数J_C计算得到。对于源域与目标域，由于标签类型的不同，因此分别计算两个领域的分类损失并相加得到总体损失，反向传播过程加入概率分布差异损失

最终经过所有损失的梯度更新，训练分类模型。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。