CN112417872A

CN112417872A - 一种基于相关系数熵的单示例单标签远程监督实体关系标注方法

Info

Publication number: CN112417872A
Application number: CN202011121160.3A
Authority: CN
Inventors: 骆祥峰; 顾河建; 陈雪; 斯龙军
Original assignee: University of Shanghai for Science and Technology
Current assignee: Shanghai Ruijiake Intelligent Technology Co ltd; University of Shanghai for Science and Technology
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2021-02-26
Anticipated expiration: 2040-10-20
Also published as: CN112417872B

Abstract

本发明公开了一种基于相关系数熵的单示例单标签远程监督实体关系标注方法，具体步骤包括：(1)基于标准数据集构造实体关系库和示例库；(2)利用BERT构造关系向量库和示例向量库；(3)计算示例的词与关系的相关系数，构造相关系数库；(4)计算基于相关系数的示例与关系的熵，构造相关系数熵库；(5)基于相关系数库和示例向量库构造相关系数向量库；(6)基于相关系数熵库和相关系数向量库构造相关系数熵向量库；(7)计算相关系数熵向量和关系向量的余弦相似度得到相似分数值；(8)遍历相似分数值，选取最高分数作标注决策。本发明所述方法通过相关系数熵进行单示例单标签实体关系标注，能够提高标注准确性并减少噪音数据。

Description

一种基于相关系数熵的单示例单标签远程监督实体关系标注方法

技术领域

本发明涉及一种自然语言处理技术中的实体关系标注方法，具体涉及一种基于相关系数熵的单示例单标签远程监督实体关系标注方法。

背景技术

当面对大量无标签数据时，有监督的方法需要消耗大量的人力，无法满足需求，因此，基于远程监督的数据标注方法应运而生。2009年，Mintz首次提出将远程监督方法应用到关系抽取任务中，即通过数据自动对齐远程知识库来实现开放域中大量无标签数据的自动标注。但用远程监督进行数据标注时，仍存在两个非常严峻的问题：由于远程监督的强假设条件，导致大量关系数据被错误标记，从而导致训练数据存在大量噪声问题；以及利用NLP工具进行特征提取所带来的特征提取误差传播问题。其中，针对噪声问题，2010年Surdeanu提出了多示例多标签学习方法以及2016年Lin提出了Attention机制等，都有效减弱了远程监督错误标签对关系抽取的影响。但基于多示例多标签学习方法所标注的数据，后续模型仍需要花费大量精力处理训练数据的噪音，Attention机制则在多示例多标签标注的数据基础之上，通过权重来减少训练数据噪声的影响，但需要花费大量的时间进行训练，从而得到一个相对最优的权重状态。

发明内容

为了解决对传统的远程监督由于强假设条件导致训练数据存在大量噪声的问题，本发明的目的在于克服已有技术存在的不足，提供一种基于相关系数熵的单示例单标签远程监督实体关系标注方法，通过相关系数熵进行单示例单标签实体关系标注，能够提高标注准确性并减少噪音数据。

为达到上述发明创造目的，本发明采用如下技术方案：

一种基于相关系数熵的单示例单标签远程监督实体关系标注方法，包括以下步骤：

(1)基于标准数据集，构造实体关系库L(labels)和示例库S(Sentences)；

(2)利用BERT构造关系向量库Er和示例向量库Esw；

(3)计算示例的词与关系的相关系数，构造相关系数库

RWCC(Relations and Words Correlation Coefficientbase)；

(4)计算基于相关系数的示例与关系的熵，构造相关系数熵库

CCE(Correlation Coefficient Entropy base)；

(5)基于相关系数库和示例向量库，构造相关系数向量库

CCV(Correlation Coefficient Vectors base)，作为局部关联表示；

(6)基于相关系数熵库和相关系数向量库，构造相关系数熵向量库

CCEV(Correlation Coefficient Entropy Vectors)，作为全局关联表示；

(7)计算相关系数熵向量和关系向量的余弦相似度得到相似分数值；

(8)遍历相似分数值，选取最高分数作标注决策。

优选地，在所述步骤(1)中，获取公开数据库Freebase和NYT，根据Freebase中的数据，构造实体对关系库ERB(Entity Relation Base)，ERB中每条数据的结构为r_k(e_i，e_j)，其中r_k为ERB中的第k种关系，(e_i，e_j)为具有关系r_k的第i个实体和第j个实体所构成的实体对；

每个实体对都可以对应多种关系，而本发明目的是为包含某个实体对的示例句子，标注出实体对在示例中所具有的关系，即给单个示例标注上单个关系标签；

由于每个实体对所对应的实体关系标注方法相同，后续为了方法描述方便，本发明以ERB中包含实体对(e₁，e₂)的所有数据构成的实体关系库为例；

记实体对关系库ERB中包含(e₁，e₂)的所有数据构成的实体关系库为L，L＝{r₁(e₁，e₂)，r₂(e₁，e₂)，......，r_k(e₁，e₂)}，其中r_k为第k种关系，(e₁，e₂)为实体对，

在NYT中进行实体对(e₁，e₂)链接和对齐，获得NYT中包含实体对(e₁，e₂)的所有句子所构成的示例库，记为S，S＝{s₁，s₂，......，s_n}，其中s_n为示例库S中第n条示例句子。

优选地，在所述步骤(2)中，BERT构造关系向量库Er和示例向量库Esw，构建方法为：

通过BERT词向量对实体关系库L中的关系进行词嵌入编码并平均，得到关系向量库Er(Embedding of relations)，Er＝{e_r1，e_r2，......，e_rk}，其中，e_rk表示实体关系库中第k种关系的词嵌入表示，维度为300维；

通过BERT词向量对示例库S中的所有示例句子按词进行词嵌入编码得到示例向量库Esw(Embedding of sentence′s words)，

其中，

表示示例库S中第n条示例s_n的第j个词wj的嵌入表示，维度为300维。

优选地，在所述步骤(3)中，计算示例的词与关系的相关系数，构造相关系数库RWCC(Relations and Words Correlation Coefficient base)，构建方法为：

以示例向量库中第n条示例s_n的第j个词w_j的嵌入表示

与实体关系库中第k种关系的词嵌入表示e_rk的相关系数计算如下：

计算相关系数公式：

其中：

Y＝e_rk，E(X)为X的数学期望，D(X)是X的方差，a_XY为X和Y之间的相关系数；相关系数是衡量随机变量X与Y相关程度的一种方法，相关系数的取值范围是[-1，1]；相关系数的绝对值越大，则表明X与Y相关度越高；

同理依次计算示例向量库Esw中的句子的词与关系向量库Er中的关系之间的相关系数，得到相关系数库RWCC：

其中，

表示示例库中的第n个示例句子s_n的第j个词w_j与关系向量库中的第k种关系r_k之间的相关系数；捕获待标注示例和目标关系之间的局部关联信息。

优选地，在所述步骤(4)中，计算基于相关系数的示例与关系的熵，构造相关系数熵库CCE(Correlation Coefficient Entropy base)，构建方法为：

相关系数库中的数据表示示例的词和目标关系之间的相关系数，现基于示例库中的第n个示例句子s_n的词和关系向量库中的第k种关系r_k的相关系数，计算s_n和r_k之间的熵，捕获示例和关系之间的全局关联信息；计算过程如下：

其中，softmax()为常见的softmax函数，Entropy()为熵的计算函数；

同理，计算示例库中所有示例与关系库中所有关系的熵；相关系数熵库CCE(Correlation Coefficient Entropy base)：

优选地，在所述步骤(5)中，基于相关系数库和示例向量库，构造相关系数向量库CCE(Correlation Coefficient Vectors base)，作为局部关联表示，构建方法为：

相关系数库中的每条数据表示每条示例中的词和目标关系之间的相关系数，根据该相关系数，赋予每条示例的每个词嵌入向量系数权重，优选计算计算s_n相对于r_k之间的相关系数向量；

其中，

是一个300维的向量；同理计算所有示例和关系之间的相关系数向量，得到相关系数向量库CCV结构如下：

优选地，在所述步骤(6)中，基于相关系数熵库和相关系数向量库，构造相关系数熵向量库CCEV(Correlation Coefficient Entropy Vectors)，作为全局关联表示，构建方法为：

计算计算s_n相对于r_k之间的相关系数熵向量过程如下：

其中，

是一个300维向量；

同理，计算每条示例和每个关系之间的相关系数熵向量，得到相关系数熵向量库CCEV结构如下：

优选地，在所述步骤(7)中，计算相关系数熵向量和关系向量的余弦相似度得到相似分数值，得到每个句子和每个关系的相似度分数所构成的相似度分数库PR，构建方法为：

计算相关系数熵向量库CCEV中每个熵向量与关系向量库中对应关系的每个嵌入关系之间的余弦相似度，得到每个句子和每个关系的相似度分数所构成的的相似度分数库PR：

其中，

是相关系数熵向量库CCEV中的熵向量

和关系向量库中的e_rk得余弦相似度结果。

优选地，在所述步骤(8)中，遍历相似分数值，选取最高分数作标注决策；

遍历PR，对于每条句子和各个关系之间的余弦相似度，选取最高分数值，若最高分数小于0.5,则标记为无关系NR(No Relation)，若大于等于0.5则标记为分数值所对应的关系。

本发明与现有技术相比较，具有如下显而易见的突出实质性特点和显著优点：

1.本发明方法通过公开数据集Freebase，NYT作为标注基础文本数据；通过BERT词向量赋予文本基础语义；

2.本发明方法通过计算相关系数赋予示例中每个词和关系标签之间的关联度，捕获待标注示例和关系标签之间的局部关联信息；

3.本发明方法通过计算相关系数熵，进一步捕获待标注示例和关系标签之间的全局关联信息，通过局部和全局关联来提高远程监督数据标注的准确率；此外，区别于多示例多标签学习标注方法，本发明为单示例单标签标注，能够大大减少后续模型的噪音处理工作；

4.本发明方法简单易行，成本低，适合推广使用。

附图说明

图1是本发明基于相关系数熵的单示例单标签远程监督实体关系标注方法的流程图。

具体实施方式

以下结合具体的实施例子对上述方案做进一步说明，本发明的优选实施例详述如下：

实施例一：

在本实施例中，参见图1，一种基于相关系数熵的单示例单标签远程监督实体关系标注方法，包括以下步骤：

(2)利用BERT构造关系向量库Er和示例向量库Esw；

(3)计算示例的词与关系的相关系数，构造相关系数库

RWCC(Relations and Words Correlation Cofficient base)；

(4)计算基于相关系数的示例与关系的熵，构造相关系数熵库

CCE(Correlation Coefficient Entropy base)；

(5)基于相关系数库和示例向量库，构造相关系数向量库

CCV(Correlation Coefficient Vectors base)，作为局部关联表示；

CCEV(Correlation Coefficient Entropy Vectors)，作为全局关联表示；

(8)遍历相似分数值，选取最高分数作标注决策。

本实施例方法通过相关系数熵进行单示例单标签实体关系标注，能够提高标注准确性并减少噪音数据。

实施例二：

本实施例与实施例一基本相同，特别之处在于：

在本实施例中，参见图1，在所述步骤(1)中，获取公开数据库Freebase和NYT，根据Freebase中的数据，构造实体对关系库ERB(Entity Relation Base)，ERB中每条数据的结构为r_k(e_i，e_j)，其中r_k为ERB中的第k种关系，(e_i，e_j)为具有关系r_k的第i个实体和第j个实体所构成的实体对；

在本实施例中，在所述步骤(2)中，BERT构造关系向量库Er和示例向量库Esw，构建方法为：

其中，

在本实施例中，在所述步骤(3)中，计算示例的词与关系的相关系数，构造相关系数库RWCC(Relations and Words Correlation Coefficientbase)，构建方法为：

以示例向量库中第n条示例s_n的第j个词wj的嵌入表示

计算相关系数公式：

其中：

其中，

在本实施例中，在所述步骤(4)中，计算基于相关系数的示例与关系的熵，构造相关系数熵库CCE(Correlation Coefficient Entropy base)，构建方法为：

其中，softmax()为常见的softmax函数，Entropy()为熵的计算函数；

在本实施例中，在所述步骤(5)中，基于相关系数库和示例向量库，构造相关系数向量库CCV(Correlation Coefficient Vectors base)，作为局部关联表示，构建方法为：

其中，

在本实施例中，在所述步骤(6)中，基于相关系数熵库和相关系数向量库，构造相关系数熵向量库CCEV(Correlation Coefficient Entropy Vectors)，作为全局关联表示，构建方法为：

计算计算s_n相对于r_k之间的相关系数熵向量过程如下：

其中，

是一个300维向量；

在本实施例中，在所述步骤(7)中，计算相关系数熵向量和关系向量的余弦相似度得到相似分数值，得到每个句子和每个关系的相似度分数所构成的相似度分数库PR，构建方法为：

其中，

是相关系数熵向量库CCEV中的熵向量

和关系向量库中的e_rk得余弦相似度结果。

在本实施例中，在所述步骤(8)中，遍历相似分数值，选取最高分数作标注决策；

实施例三：

本实施例与上述实施例基本相同，特别之处在于：

在本实施例中，对于给定包含某个实体对的特定示例，提出一种基于相关系数熵的单示例单标签远程监督实体关系标注方法。具体实施步骤包括以下个8步骤：

步骤1：根据实体对构造实体关系库L(labels)和示例句子库S(Sentences)；

获取公开数据库Freebase和NYT，根据Freebase中的数据，构造实体对关系库ERB(Entity Relation Base)，ERB中每条数据的结构为r_k(e_i，e_j)，其中r_k为ERB中的第k种关系，(e_i，e_j)为具有关系r_k的第i个实体和第j个实体所构成的实体对；BornIn(Obama，America)，BornIn为出生地关系，Obama，America为对应的实体对；

每个实体对都对应多种关系，而我们的目的是为包含某个实体对的示例句子，标注出实体对在示例中所具有的关系，即给单个示例标注上单个关系标签；

由于每个实体对所对应的实体关系标注方法相同，后续为了方法描述方便，以ERB中包含实体对(e₁，e₂)的所有数据构成的实体关系库为例；

这里，设定(e₁，e₂)为(Obama，America)，同时，设定(Obama，America)具有的潜在关系有({BornIn，President，StudyIn，MarryIn})；

基于上述设定构造实体关系库L，

L＝

{BornIn(Obama，Amerrica)，President(Obama，America)，StudyIn(Obama，Amerrica)，MarryIn(Obama，America)}

r₁＝BornIn，r₂＝President，r₃＝StudyIn，r₄＝MarryIn，

在NYT中进行实体对(Ob ama，America)链接和对齐，获得NYT中包含实体对(Obama，America)的所有句子所构成的示例库，记为S，S＝{s₁，s₂，......，s_n}，其中s_n为示例库S中第n条示例(句子)；s₁＝“Obama is the 44th President of America.”，

s₂＝“Obama was borninacity of America.”，

s₃＝“Obama gotmarraied with a beautifulgirlin a cith of America.”，s₄＝“Obama study in New Yorkcampus of America”。

设定S存在句子条数为4，即：S＝{

“Obama is the 44th Presid

“Obama was born in a city of America.”，

“Obema got marraied with a beautiful girl in acity of America”，

“Obama study in New Yorkcampu}

步骤2：通过BERT词向量赋予示例和关系基本语义，构造得到关系向量库Er和示例向量库Esw；

通过BERT词向量对实体关系库L中的关系进行词嵌入编码并平均，采用300维BERT词向量，BornIn经过BERT词向量编码后，e_Born＝{0.543，0.485，0.342，......，-0.322},e_Born共300维，e_In＝{0.423，0.687，0.124，......，0.872},平均，得到e_BornIn＝{0.488，0.586，0.233，，......，0.225}；

构造关系向量库Er：Er＝{e_BornIn，e_President，e_StudyIn，e_MarryIn}，都为300维向量；

通过300维BERT词向量对示例库S中的所有示例句子按词进行词嵌入编码，构造示例向量库Esw：

向量维度为300维；

其中，s₁＝“Obama isthe44th President of America”,

s₂＝“Obama was borninacity of America”,

s₃＝“Obama gotmarraied with a beautiful girlina city of America”,

s₄＝“Obama study in NewYork campusof Ameridca”。

步骤3：计算示例和关系之间的相关系数，依次计算示例向量库Esw中的句子的词与关系向量库Er中的关系之间的相关系数，得到相关系数库RWCC；

以下介绍相关系数的计算过程，以及RWCC的结构；

以示例向量库中第n条示例s_n的第j个词wj的嵌入表示

与实体关系库中第k种关系的词嵌入表示e_rk的相关系数计算为例：

计算相关系数公式：

其中：

Y＝e_rk,E(X)为X的数学期望，D(X)是X的方差，a_XY为X和Y之间的相关系数。相关系数是衡量随机变量X与Y相关程度的一种方法，相关系数的取值范围是[-1，1]；相关系数的绝对值越大，则表明X与Y相关度越高；

同理，依次计算示例向量库Esw中的句子的词与关系向量库Er中的关系之间的相关系数，构造相关系数库RWCC：

其中，r₁＝BronIn,r₂＝President,r₃＝StudyIn,r₄＝MarryIn，

s₁＝“Obama is the 44th President of America”，

s₂＝“Obama was borninacity of America.”，

s₃＝“Obama gotmarraied with a beautifulgirlin a city of Ame rica.”,

s₄＝“Obama study in New York campus of America.”；

步骤4：计算基于相关系数的熵，计算示例库中所有示例句子与关系库中所有关系的熵，得到相关系数熵库CCE(Correlation Coefficient Entropy base)；

相关系数库中的数据表示示例的词和目标关系之间的相关系数，现基于示例库中的第n个示例句子s_n的词和关系向量库中的第k种关系r_k的相关系数，计算s_n和r_k之间的熵，捕获示例和关系之间的全局关联信息。计算过程如下：

其中，softmax()为常见的softmax函数，Entropy()为熵的计算函数；

同理计算示例库中所有示例(句子)与关系库中所有关系的熵；相关系数熵库CCE(Correlation Coefficient Entropy base)，根据设定：

其中：

s₁＝“Obama is the 44th President of America”,

s₂＝“Obama was bornina city of America.”,

s₃＝“Obama gotmarraied witha beautifulgirlina city of America.”,s₄＝“Obama study in New York campus of America.”。

步骤5：结合相关系数库RWCC和示例向量库Esw，计算得到相关系数向量(局部关联表示)库CCV；

相关系数库中的每条数据表示每条示例中的词和目标关系之间的相关系数，根据该相关系数，赋予每条示例的每个词嵌入向量系数权重；

计算计算s_n相对于r_k之间的相关系数向量：

其中，

是一个300维的向量；

同理，计算所有示例和关系之间的相关系数向量，构造相关系数向量库CCV结构如下：

其中，

s₁＝“Obama is the 44th President of America”

s₂＝“Obama was borninacity of America.”,

s₃＝“Obama goymarraied with a beautifulgirlinacity of America”,

s4＝“Obama study in NewYorkcampus of America”；

该步骤，捕获了示例与潜在关系标签之间的局部关联信息；

步骤6：结合相关系数熵库CCE和相关系数向量库CCV，计算得到相关系数熵向量(全局关联表示)库CCEV；

计算计算s_n相对于r_k之间的相关系数熵向量过程如下：

其中，

是一个300维向量；

其中，

s₁＝“Obama is the 44th President of America”,

s₂＝“Obama was bornina city of Ame rica.”，

s₃＝“Obama gotmarraied with a beautifulgirlin a city of Ame rica.”,

s₄＝“Ob ama study in New York campus of America.”；

该步骤，融合和示例与潜在关系标签局部关联信息，并捕获示例与潜在关系的全局关联信息；

步骤7：计算相关系数熵向量库CCEV中每个熵向量与关系向量库中对应关系的每个嵌入关系之间的余弦相似度，得到每个句子和每个关系的相似度分数所构成的相似度分数库PR；

经过上述步骤得到：PR＝{(0.231，0.632，0.346，0.502)，(0.532，0.248，0.421，0.334)，(0.141，0.452，0.213，0.721)，(0.105，0.236，0.643，0.481)},(10)

步骤8：遍历PR，对于每条句子和各个关系之间的余弦相似度，选取最高分数值，若最高分数小于0.5,则标记为无关系NR(No Relation)，若大于等于0.5则标记为分数值所对应的关系；

s₁＝“Obama isthe 44th president of America”,标记为r₂＝President；

s₂＝“Obama was borninacity of America”,标记为r1＝BornIn；

s₃＝“Obama gotmarraied with a beauti ful girlina city of America.”,标记为r₄＝MarryIn；

s₄＝“Obama study in New York campusof America.”，标记为r₃＝StudyIn；

表1实体关系标注结果

本实施例基于相关系数熵的单示例单标签远程监督实体关系标注方法，基于标准数据集构造实体关系库和示例库；利用BERT构造关系向量库和示例向量库；计算示例的词与关系的相关系数，构造相关系数库；计算基于相关系数的示例与关系的熵，构造相关系数熵库；基于相关系数库和示例向量库构造相关系数向量库；基于相关系数熵库和相关系数向量库构造相关系数熵向量库；计算相关系数熵向量和关系向量的余弦相似度得到相似分数值；遍历相似分数值，选取最高分数作标注决策。本发明方法通过相关系数熵进行单示例单标签实体关系标注，能够提高标注准确性并减少噪音数据。

上面对本发明实施例结合附图进行了说明，但本发明不限于上述实施例，还可以根据本发明的发明创造的目的做出多种变化，凡依据本发明技术方案的精神实质和原理下做的改变、修饰、替代、组合或简化，均应为等效的置换方式，只要符合本发明的发明目的，只要不背离本发明的技术原理和发明构思，都属于本发明的保护范围。