CN112417872A - 一种基于相关系数熵的单示例单标签远程监督实体关系标注方法 - Google Patents

一种基于相关系数熵的单示例单标签远程监督实体关系标注方法 Download PDF

Info

Publication number
CN112417872A
CN112417872A CN202011121160.3A CN202011121160A CN112417872A CN 112417872 A CN112417872 A CN 112417872A CN 202011121160 A CN202011121160 A CN 202011121160A CN 112417872 A CN112417872 A CN 112417872A
Authority
CN
China
Prior art keywords
correlation coefficient
library
vector
entropy
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011121160.3A
Other languages
English (en)
Other versions
CN112417872B (zh
Inventor
骆祥峰
顾河建
陈雪
斯龙军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Ruijiake Intelligent Technology Co ltd
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN202011121160.3A priority Critical patent/CN112417872B/zh
Publication of CN112417872A publication Critical patent/CN112417872A/zh
Application granted granted Critical
Publication of CN112417872B publication Critical patent/CN112417872B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于相关系数熵的单示例单标签远程监督实体关系标注方法,具体步骤包括:(1)基于标准数据集构造实体关系库和示例库;(2)利用BERT构造关系向量库和示例向量库;(3)计算示例的词与关系的相关系数,构造相关系数库;(4)计算基于相关系数的示例与关系的熵,构造相关系数熵库;(5)基于相关系数库和示例向量库构造相关系数向量库;(6)基于相关系数熵库和相关系数向量库构造相关系数熵向量库;(7)计算相关系数熵向量和关系向量的余弦相似度得到相似分数值;(8)遍历相似分数值,选取最高分数作标注决策。本发明所述方法通过相关系数熵进行单示例单标签实体关系标注,能够提高标注准确性并减少噪音数据。

Description

一种基于相关系数熵的单示例单标签远程监督实体关系标注 方法
技术领域
本发明涉及一种自然语言处理技术中的实体关系标注方法,具体涉及一种基于相关系数熵的单示例单标签远程监督实体关系标注方法。
背景技术
当面对大量无标签数据时,有监督的方法需要消耗大量的人力,无法满足需求,因此,基于远程监督的数据标注方法应运而生。2009年,Mintz首次提出将远程监督方法应用到关系抽取任务中,即通过数据自动对齐远程知识库来实现开放域中大量无标签数据的自动标注。但用远程监督进行数据标注时,仍存在两个非常严峻的问题:由于远程监督的强假设条件,导致大量关系数据被错误标记,从而导致训练数据存在大量噪声问题;以及利用NLP工具进行特征提取所带来的特征提取误差传播问题。其中,针对噪声问题,2010年Surdeanu提出了多示例多标签学习方法以及2016年Lin提出了Attention机制等,都有效减弱了远程监督错误标签对关系抽取的影响。但基于多示例多标签学习方法所标注的数据,后续模型仍需要花费大量精力处理训练数据的噪音,Attention机制则在多示例多标签标注的数据基础之上,通过权重来减少训练数据噪声的影响,但需要花费大量的时间进行训练,从而得到一个相对最优的权重状态。
发明内容
为了解决对传统的远程监督由于强假设条件导致训练数据存在大量噪声的问题,本发明的目的在于克服已有技术存在的不足,提供一种基于相关系数熵的单示例单标签远程监督实体关系标注方法,通过相关系数熵进行单示例单标签实体关系标注,能够提高标注准确性并减少噪音数据。
为达到上述发明创造目的,本发明采用如下技术方案:
一种基于相关系数熵的单示例单标签远程监督实体关系标注方法,包括以下步骤:
(1)基于标准数据集,构造实体关系库L(labels)和示例库S(Sentences);
(2)利用BERT构造关系向量库Er和示例向量库Esw;
(3)计算示例的词与关系的相关系数,构造相关系数库
RWCC(Relations and Words Correlation Coefficientbase);
(4)计算基于相关系数的示例与关系的熵,构造相关系数熵库
CCE(Correlation Coefficient Entropy base);
(5)基于相关系数库和示例向量库,构造相关系数向量库
CCV(Correlation Coefficient Vectors base),作为局部关联表示;
(6)基于相关系数熵库和相关系数向量库,构造相关系数熵向量库
CCEV(Correlation Coefficient Entropy Vectors),作为全局关联表示;
(7)计算相关系数熵向量和关系向量的余弦相似度得到相似分数值;
(8)遍历相似分数值,选取最高分数作标注决策。
优选地,在所述步骤(1)中,获取公开数据库Freebase和NYT,根据Freebase中的数据,构造实体对关系库ERB(Entity Relation Base),ERB中每条数据的结构为rk(ei,ej),其中rk为ERB中的第k种关系,(ei,ej)为具有关系rk的第i个实体和第j个实体所构成的实体对;
每个实体对都可以对应多种关系,而本发明目的是为包含某个实体对的示例句子,标注出实体对在示例中所具有的关系,即给单个示例标注上单个关系标签;
由于每个实体对所对应的实体关系标注方法相同,后续为了方法描述方便,本发明以ERB中包含实体对(e1,e2)的所有数据构成的实体关系库为例;
记实体对关系库ERB中包含(e1,e2)的所有数据构成的实体关系库为L,L={r1(e1,e2),r2(e1,e2),......,rk(e1,e2)},其中rk为第k种关系,(e1,e2)为实体对,
Figure BDA0002732044430000021
在NYT中进行实体对(e1,e2)链接和对齐,获得NYT中包含实体对(e1,e2)的所有句子所构成的示例库,记为S,S={s1,s2,......,sn},其中sn为示例库S中第n条示例句子。
优选地,在所述步骤(2)中,BERT构造关系向量库Er和示例向量库Esw,构建方法为:
通过BERT词向量对实体关系库L中的关系进行词嵌入编码并平均,得到关系向量库Er(Embedding of relations),Er={er1,er2,......,erk},其中,erk表示实体关系库中第k种关系的词嵌入表示,维度为300维;
通过BERT词向量对示例库S中的所有示例句子按词进行词嵌入编码得到示例向量库Esw(Embedding of sentence′s words),
Figure BDA0002732044430000031
其中,
Figure BDA0002732044430000032
表示示例库S中第n条示例sn的第j个词wj的嵌入表示,维度为300维。
优选地,在所述步骤(3)中,计算示例的词与关系的相关系数,构造相关系数库RWCC(Relations and Words Correlation Coefficient base),构建方法为:
以示例向量库中第n条示例sn的第j个词wj的嵌入表示
Figure BDA0002732044430000033
与实体关系库中第k种关系的词嵌入表示erk的相关系数计算如下:
计算相关系数公式:
Figure BDA0002732044430000034
其中:
Figure BDA0002732044430000035
Y=erk,E(X)为X的数学期望,D(X)是X的方差,aXY为X和Y之间的相关系数;相关系数是衡量随机变量X与Y相关程度的一种方法,相关系数的取值范围是[-1,1];相关系数的绝对值越大,则表明X与Y相关度越高;
同理依次计算示例向量库Esw中的句子的词与关系向量库Er中的关系之间的相关系数,得到相关系数库RWCC:
Figure BDA0002732044430000036
其中,
Figure BDA0002732044430000037
表示示例库中的第n个示例句子sn的第j个词wj与关系向量库中的第k种关系rk之间的相关系数;捕获待标注示例和目标关系之间的局部关联信息。
优选地,在所述步骤(4)中,计算基于相关系数的示例与关系的熵,构造相关系数熵库CCE(Correlation Coefficient Entropy base),构建方法为:
相关系数库中的数据表示示例的词和目标关系之间的相关系数,现基于示例库中的第n个示例句子sn的词和关系向量库中的第k种关系rk的相关系数,计算sn和rk之间的熵,捕获示例和关系之间的全局关联信息;计算过程如下:
Figure BDA0002732044430000041
Figure BDA0002732044430000042
其中,softmax()为常见的softmax函数,Entropy()为熵的计算函数;
同理,计算示例库中所有示例与关系库中所有关系的熵;相关系数熵库CCE(Correlation Coefficient Entropy base):
Figure BDA0002732044430000043
优选地,在所述步骤(5)中,基于相关系数库和示例向量库,构造相关系数向量库CCE(Correlation Coefficient Vectors base),作为局部关联表示,构建方法为:
相关系数库中的每条数据表示每条示例中的词和目标关系之间的相关系数,根据该相关系数,赋予每条示例的每个词嵌入向量系数权重,优选计算计算sn相对于rk之间的相关系数向量;
Figure BDA0002732044430000044
其中,
Figure BDA0002732044430000045
是一个300维的向量;同理计算所有示例和关系之间的相关系数向量,得到相关系数向量库CCV结构如下:
Figure BDA0002732044430000046
优选地,在所述步骤(6)中,基于相关系数熵库和相关系数向量库,构造相关系数熵向量库CCEV(Correlation Coefficient Entropy Vectors),作为全局关联表示,构建方法为:
计算计算sn相对于rk之间的相关系数熵向量过程如下:
Figure BDA0002732044430000051
其中,
Figure BDA0002732044430000052
是一个300维向量;
同理,计算每条示例和每个关系之间的相关系数熵向量,得到相关系数熵向量库CCEV结构如下:
Figure BDA0002732044430000053
优选地,在所述步骤(7)中,计算相关系数熵向量和关系向量的余弦相似度得到相似分数值,得到每个句子和每个关系的相似度分数所构成的相似度分数库PR,构建方法为:
计算相关系数熵向量库CCEV中每个熵向量与关系向量库中对应关系的每个嵌入关系之间的余弦相似度,得到每个句子和每个关系的相似度分数所构成的的相似度分数库PR:
Figure BDA0002732044430000054
其中,
Figure BDA0002732044430000055
是相关系数熵向量库CCEV中的熵向量
Figure BDA0002732044430000056
和关系向量库中的erk得余弦相似度结果。
优选地,在所述步骤(8)中,遍历相似分数值,选取最高分数作标注决策;
遍历PR,对于每条句子和各个关系之间的余弦相似度,选取最高分数值,若最高分数小于0.5,则标记为无关系NR(No Relation),若大于等于0.5则标记为分数值所对应的关系。
本发明与现有技术相比较,具有如下显而易见的突出实质性特点和显著优点:
1.本发明方法通过公开数据集Freebase,NYT作为标注基础文本数据;通过BERT词向量赋予文本基础语义;
2.本发明方法通过计算相关系数赋予示例中每个词和关系标签之间的关联度,捕获待标注示例和关系标签之间的局部关联信息;
3.本发明方法通过计算相关系数熵,进一步捕获待标注示例和关系标签之间的全局关联信息,通过局部和全局关联来提高远程监督数据标注的准确率;此外,区别于多示例多标签学习标注方法,本发明为单示例单标签标注,能够大大减少后续模型的噪音处理工作;
4.本发明方法简单易行,成本低,适合推广使用。
附图说明
图1是本发明基于相关系数熵的单示例单标签远程监督实体关系标注方法的流程图。
具体实施方式
以下结合具体的实施例子对上述方案做进一步说明,本发明的优选实施例详述如下:
实施例一:
在本实施例中,参见图1,一种基于相关系数熵的单示例单标签远程监督实体关系标注方法,包括以下步骤:
(1)基于标准数据集,构造实体关系库L(labels)和示例库S(Sentences);
(2)利用BERT构造关系向量库Er和示例向量库Esw;
(3)计算示例的词与关系的相关系数,构造相关系数库
RWCC(Relations and Words Correlation Cofficient base);
(4)计算基于相关系数的示例与关系的熵,构造相关系数熵库
CCE(Correlation Coefficient Entropy base);
(5)基于相关系数库和示例向量库,构造相关系数向量库
CCV(Correlation Coefficient Vectors base),作为局部关联表示;
(6)基于相关系数熵库和相关系数向量库,构造相关系数熵向量库
CCEV(Correlation Coefficient Entropy Vectors),作为全局关联表示;
(7)计算相关系数熵向量和关系向量的余弦相似度得到相似分数值;
(8)遍历相似分数值,选取最高分数作标注决策。
本实施例方法通过相关系数熵进行单示例单标签实体关系标注,能够提高标注准确性并减少噪音数据。
实施例二:
本实施例与实施例一基本相同,特别之处在于:
在本实施例中,参见图1,在所述步骤(1)中,获取公开数据库Freebase和NYT,根据Freebase中的数据,构造实体对关系库ERB(Entity Relation Base),ERB中每条数据的结构为rk(ei,ej),其中rk为ERB中的第k种关系,(ei,ej)为具有关系rk的第i个实体和第j个实体所构成的实体对;
每个实体对都可以对应多种关系,而本发明目的是为包含某个实体对的示例句子,标注出实体对在示例中所具有的关系,即给单个示例标注上单个关系标签;
由于每个实体对所对应的实体关系标注方法相同,后续为了方法描述方便,本发明以ERB中包含实体对(e1,e2)的所有数据构成的实体关系库为例;
记实体对关系库ERB中包含(e1,e2)的所有数据构成的实体关系库为L,L={r1(e1,e2),r2(e1,e2),......,rk(e1,e2)},其中rk为第k种关系,(e1,e2)为实体对,
Figure BDA0002732044430000071
在NYT中进行实体对(e1,e2)链接和对齐,获得NYT中包含实体对(e1,e2)的所有句子所构成的示例库,记为S,S={s1,s2,......,sn},其中sn为示例库S中第n条示例句子。
在本实施例中,在所述步骤(2)中,BERT构造关系向量库Er和示例向量库Esw,构建方法为:
通过BERT词向量对实体关系库L中的关系进行词嵌入编码并平均,得到关系向量库Er(Embedding of relations),Er={er1,er2,......,erk},其中,erk表示实体关系库中第k种关系的词嵌入表示,维度为300维;
通过BERT词向量对示例库S中的所有示例句子按词进行词嵌入编码得到示例向量库Esw(Embedding of sentence′s words),
Figure BDA0002732044430000072
其中,
Figure BDA0002732044430000073
表示示例库S中第n条示例sn的第j个词wj的嵌入表示,维度为300维。
在本实施例中,在所述步骤(3)中,计算示例的词与关系的相关系数,构造相关系数库RWCC(Relations and Words Correlation Coefficientbase),构建方法为:
以示例向量库中第n条示例sn的第j个词wj的嵌入表示
Figure BDA0002732044430000081
与实体关系库中第k种关系的词嵌入表示erk的相关系数计算如下:
计算相关系数公式:
Figure BDA0002732044430000082
其中:
Figure BDA0002732044430000083
Y=erk,E(X)为X的数学期望,D(X)是X的方差,aXY为X和Y之间的相关系数;相关系数是衡量随机变量X与Y相关程度的一种方法,相关系数的取值范围是[-1,1];相关系数的绝对值越大,则表明X与Y相关度越高;
同理依次计算示例向量库Esw中的句子的词与关系向量库Er中的关系之间的相关系数,得到相关系数库RWCC:
Figure BDA0002732044430000084
其中,
Figure BDA0002732044430000085
表示示例库中的第n个示例句子sn的第j个词wj与关系向量库中的第k种关系rk之间的相关系数;捕获待标注示例和目标关系之间的局部关联信息。
在本实施例中,在所述步骤(4)中,计算基于相关系数的示例与关系的熵,构造相关系数熵库CCE(Correlation Coefficient Entropy base),构建方法为:
相关系数库中的数据表示示例的词和目标关系之间的相关系数,现基于示例库中的第n个示例句子sn的词和关系向量库中的第k种关系rk的相关系数,计算sn和rk之间的熵,捕获示例和关系之间的全局关联信息;计算过程如下:
Figure BDA0002732044430000091
Figure BDA0002732044430000092
其中,softmax()为常见的softmax函数,Entropy()为熵的计算函数;
同理,计算示例库中所有示例与关系库中所有关系的熵;相关系数熵库CCE(Correlation Coefficient Entropy base):
Figure BDA0002732044430000093
在本实施例中,在所述步骤(5)中,基于相关系数库和示例向量库,构造相关系数向量库CCV(Correlation Coefficient Vectors base),作为局部关联表示,构建方法为:
相关系数库中的每条数据表示每条示例中的词和目标关系之间的相关系数,根据该相关系数,赋予每条示例的每个词嵌入向量系数权重,优选计算计算sn相对于rk之间的相关系数向量;
Figure BDA0002732044430000094
其中,
Figure BDA0002732044430000095
是一个300维的向量;同理计算所有示例和关系之间的相关系数向量,得到相关系数向量库CCV结构如下:
Figure BDA0002732044430000096
在本实施例中,在所述步骤(6)中,基于相关系数熵库和相关系数向量库,构造相关系数熵向量库CCEV(Correlation Coefficient Entropy Vectors),作为全局关联表示,构建方法为:
计算计算sn相对于rk之间的相关系数熵向量过程如下:
Figure BDA0002732044430000101
其中,
Figure BDA0002732044430000102
是一个300维向量;
同理,计算每条示例和每个关系之间的相关系数熵向量,得到相关系数熵向量库CCEV结构如下:
Figure BDA0002732044430000103
在本实施例中,在所述步骤(7)中,计算相关系数熵向量和关系向量的余弦相似度得到相似分数值,得到每个句子和每个关系的相似度分数所构成的相似度分数库PR,构建方法为:
计算相关系数熵向量库CCEV中每个熵向量与关系向量库中对应关系的每个嵌入关系之间的余弦相似度,得到每个句子和每个关系的相似度分数所构成的的相似度分数库PR:
Figure BDA0002732044430000104
其中,
Figure BDA0002732044430000105
是相关系数熵向量库CCEV中的熵向量
Figure BDA0002732044430000106
和关系向量库中的erk得余弦相似度结果。
在本实施例中,在所述步骤(8)中,遍历相似分数值,选取最高分数作标注决策;
遍历PR,对于每条句子和各个关系之间的余弦相似度,选取最高分数值,若最高分数小于0.5,则标记为无关系NR(No Relation),若大于等于0.5则标记为分数值所对应的关系。
实施例三:
本实施例与上述实施例基本相同,特别之处在于:
在本实施例中,对于给定包含某个实体对的特定示例,提出一种基于相关系数熵的单示例单标签远程监督实体关系标注方法。具体实施步骤包括以下个8步骤:
步骤1:根据实体对构造实体关系库L(labels)和示例句子库S(Sentences);
获取公开数据库Freebase和NYT,根据Freebase中的数据,构造实体对关系库ERB(Entity Relation Base),ERB中每条数据的结构为rk(ei,ej),其中rk为ERB中的第k种关系,(ei,ej)为具有关系rk的第i个实体和第j个实体所构成的实体对;BornIn(Obama,America),BornIn为出生地关系,Obama,America为对应的实体对;
每个实体对都对应多种关系,而我们的目的是为包含某个实体对的示例句子,标注出实体对在示例中所具有的关系,即给单个示例标注上单个关系标签;
由于每个实体对所对应的实体关系标注方法相同,后续为了方法描述方便,以ERB中包含实体对(e1,e2)的所有数据构成的实体关系库为例;
这里,设定(e1,e2)为(Obama,America),同时,设定(Obama,America)具有的潜在关系有({BornIn,President,StudyIn,MarryIn});
基于上述设定构造实体关系库L,
L=
{BornIn(Obama,Amerrica),President(Obama,America),StudyIn(Obama,Amerrica),MarryIn(Obama,America)}
r1=BornIn,r2=President,r3=StudyIn,r4=MarryIn,
在NYT中进行实体对(Ob ama,America)链接和对齐,获得NYT中包含实体对(Obama,America)的所有句子所构成的示例库,记为S,S={s1,s2,......,sn},其中sn为示例库S中第n条示例(句子);s1=“Obama is the 44th President of America.”,
s2=“Obama was borninacity of America.”,
s3=“Obama gotmarraied with a beautifulgirlin a cith of America.”,s4=“Obama study in New Yorkcampus of America”。
设定S存在句子条数为4,即:S={
“Obama is the 44th Presid
“Obama was born in a city of America.”,
“Obema got marraied with a beautiful girl in acity of America”,
“Obama study in New Yorkcampu}
步骤2:通过BERT词向量赋予示例和关系基本语义,构造得到关系向量库Er和示例向量库Esw;
通过BERT词向量对实体关系库L中的关系进行词嵌入编码并平均,采用300维BERT词向量,BornIn经过BERT词向量编码后,eBorn={0.543,0.485,0.342,......,-0.322},eBorn共300维,eIn={0.423,0.687,0.124,......,0.872},平均,得到eBornIn={0.488,0.586,0.233,,......,0.225};
构造关系向量库Er:Er={eBornIn,ePresident,eStudyIn,eMarryIn},都为300维向量;
通过300维BERT词向量对示例库S中的所有示例句子按词进行词嵌入编码,构造示例向量库Esw:
Figure BDA0002732044430000121
Figure BDA0002732044430000122
向量维度为300维;
其中,s1=“Obama isthe44th President of America”,
s2=“Obama was borninacity of America”,
s3=“Obama gotmarraied with a beautiful girlina city of America”,
s4=“Obama study in NewYork campusof Ameridca”。
步骤3:计算示例和关系之间的相关系数,依次计算示例向量库Esw中的句子的词与关系向量库Er中的关系之间的相关系数,得到相关系数库RWCC;
以下介绍相关系数的计算过程,以及RWCC的结构;
以示例向量库中第n条示例sn的第j个词wj的嵌入表示
Figure BDA0002732044430000131
与实体关系库中第k种关系的词嵌入表示erk的相关系数计算为例:
计算相关系数公式:
Figure BDA0002732044430000132
其中:
Figure BDA0002732044430000133
Y=erk,E(X)为X的数学期望,D(X)是X的方差,aXY为X和Y之间的相关系数。相关系数是衡量随机变量X与Y相关程度的一种方法,相关系数的取值范围是[-1,1];相关系数的绝对值越大,则表明X与Y相关度越高;
同理,依次计算示例向量库Esw中的句子的词与关系向量库Er中的关系之间的相关系数,构造相关系数库RWCC:
Figure BDA0002732044430000134
其中,r1=BronIn,r2=President,r3=StudyIn,r4=MarryIn,
s1=“Obama is the 44th President of America”,
s2=“Obama was borninacity of America.”,
s3=“Obama gotmarraied with a beautifulgirlin a city of Ame rica.”,
s4=“Obama study in New York campus of America.”;
步骤4:计算基于相关系数的熵,计算示例库中所有示例句子与关系库中所有关系的熵,得到相关系数熵库CCE(Correlation Coefficient Entropy base);
相关系数库中的数据表示示例的词和目标关系之间的相关系数,现基于示例库中的第n个示例句子sn的词和关系向量库中的第k种关系rk的相关系数,计算sn和rk之间的熵,捕获示例和关系之间的全局关联信息。计算过程如下:
Figure BDA0002732044430000141
Figure BDA0002732044430000142
其中,softmax()为常见的softmax函数,Entropy()为熵的计算函数;
同理计算示例库中所有示例(句子)与关系库中所有关系的熵;相关系数熵库CCE(Correlation Coefficient Entropy base),根据设定:
Figure BDA0002732044430000143
Figure BDA0002732044430000151
其中:
s1=“Obama is the 44th President of America”,
s2=“Obama was bornina city of America.”,
s3=“Obama gotmarraied witha beautifulgirlina city of America.”,s4=“Obama study in New York campus of America.”。
步骤5:结合相关系数库RWCC和示例向量库Esw,计算得到相关系数向量(局部关联表示)库CCV;
相关系数库中的每条数据表示每条示例中的词和目标关系之间的相关系数,根据该相关系数,赋予每条示例的每个词嵌入向量系数权重;
计算计算sn相对于rk之间的相关系数向量:
Figure BDA0002732044430000152
其中,
Figure BDA0002732044430000153
是一个300维的向量;
同理,计算所有示例和关系之间的相关系数向量,构造相关系数向量库CCV结构如下:
Figure BDA0002732044430000154
其中,
s1=“Obama is the 44th President of America”
s2=“Obama was borninacity of America.”,
s3=“Obama goymarraied with a beautifulgirlinacity of America”,
s4=“Obama study in NewYorkcampus of America”;
该步骤,捕获了示例与潜在关系标签之间的局部关联信息;
步骤6:结合相关系数熵库CCE和相关系数向量库CCV,计算得到相关系数熵向量(全局关联表示)库CCEV;
计算计算sn相对于rk之间的相关系数熵向量过程如下:
Figure BDA0002732044430000161
其中,
Figure BDA0002732044430000162
是一个300维向量;
同理,计算每条示例和每个关系之间的相关系数熵向量,得到相关系数熵向量库CCEV结构如下:
Figure BDA0002732044430000163
其中,
s1=“Obama is the 44th President of America”,
s2=“Obama was bornina city of Ame rica.”,
s3=“Obama gotmarraied with a beautifulgirlin a city of Ame rica.”,
s4=“Ob ama study in New York campus of America.”;
该步骤,融合和示例与潜在关系标签局部关联信息,并捕获示例与潜在关系的全局关联信息;
步骤7:计算相关系数熵向量库CCEV中每个熵向量与关系向量库中对应关系的每个嵌入关系之间的余弦相似度,得到每个句子和每个关系的相似度分数所构成的相似度分数库PR;
经过上述步骤得到:PR={(0.231,0.632,0.346,0.502),(0.532,0.248,0.421,0.334),(0.141,0.452,0.213,0.721),(0.105,0.236,0.643,0.481)},(10)
步骤8:遍历PR,对于每条句子和各个关系之间的余弦相似度,选取最高分数值,若最高分数小于0.5,则标记为无关系NR(No Relation),若大于等于0.5则标记为分数值所对应的关系;
s1=“Obama isthe 44th president of America”,标记为r2=President;
s2=“Obama was borninacity of America”,标记为r1=BornIn;
s3=“Obama gotmarraied with a beauti ful girlina city of America.”,标记为r4=MarryIn;
s4=“Obama study in New York campusof America.”,标记为r3=StudyIn;
表1实体关系标注结果
Figure BDA0002732044430000171
本实施例基于相关系数熵的单示例单标签远程监督实体关系标注方法,基于标准数据集构造实体关系库和示例库;利用BERT构造关系向量库和示例向量库;计算示例的词与关系的相关系数,构造相关系数库;计算基于相关系数的示例与关系的熵,构造相关系数熵库;基于相关系数库和示例向量库构造相关系数向量库;基于相关系数熵库和相关系数向量库构造相关系数熵向量库;计算相关系数熵向量和关系向量的余弦相似度得到相似分数值;遍历相似分数值,选取最高分数作标注决策。本发明方法通过相关系数熵进行单示例单标签实体关系标注,能够提高标注准确性并减少噪音数据。
上面对本发明实施例结合附图进行了说明,但本发明不限于上述实施例,还可以根据本发明的发明创造的目的做出多种变化,凡依据本发明技术方案的精神实质和原理下做的改变、修饰、替代、组合或简化,均应为等效的置换方式,只要符合本发明的发明目的,只要不背离本发明的技术原理和发明构思,都属于本发明的保护范围。

Claims (7)

1.一种基于相关系数熵的单示例单标签远程监督实体关系标注方法,其特征在于,包括以下步骤:
(1)基于标准数据集,构造实体关系库L(labels)和示例库S(Sentences);
(2)利用BERT构造关系向量库Er和示例向量库Esw;
(3)计算示例的词与关系的相关系数,构造相关系数库
RWCC(Relations and Words Correlation Coefficient base);
(4)计算基于相关系数的示例与关系的熵,构造相关系数熵库
CCE(Correlation Coefficient Entropy base);
(5)基于相关系数库和示例向量库,构造相关系数向量库
CCV(Correlation Coefficient Vectors base),作为局部关联表示;
(6)基于相关系数熵库和相关系数向量库,构造相关系数熵向量库
CCEV(Correlation Coefficient Entropy Vectors),作为全局关联表示;
(7)计算相关系数熵向量和关系向量的余弦相似度得到相似分数值;
(8)遍历相似分数值,选取最高分数作标注决策。
2.按权利要求1所述基于相关系数熵的单示例单标签远程监督实体关系标注方法,其特征在于,所述步骤(2)中,BERT构造关系向量库Er和示例向量库Esw,构建方法为:
通过BERT词向量对实体关系库L中的关系进行词嵌入编码并平均,得到关系向量库Er(Embedding of relations),Er={er1,er2,......,erk},其中,erk表示实体关系库中第k种关系的词嵌入表示,维度为300维;
通过BERT词向量对示例库S中的所有示例句子按词进行词嵌入编码得到示例向量库Esw(Embedding of sentence s words),
Figure FDA0002732044420000011
其中,
Figure FDA0002732044420000012
表示示例库s中第n条示例sn的第j个词wj的嵌入表示,维度为300维。
3.按权利要求1所述基于相关系数熵的单示例单标签远程监督实体关系标注方法,其特征在于,所述步骤(3)中,计算示例的词与关系的相关系数,构造相关系数库RWCC(Relations and Words Correlation Coefficient base),构建方法为:
以示例向量库中第n条示例sn的第j个词wj的嵌入表示
Figure FDA0002732044420000021
与实体关系库中第k种关系的词嵌入表示erk的相关系数计算如下:
计算相关系数公式:
Figure FDA0002732044420000022
其中:
Figure FDA0002732044420000023
Y=erk,E(X)为X的数学期望,D(X)是X的方差,aXY为X和Y之间的相关系数;相关系数是衡量随机变量X与Y相关程度的一种方法,相关系数的取值范围是[-1,1];相关系数的绝对值越大,则表明X与Y相关度越高;
同理依次计算示例向量库Esw中的句子的词与关系向量库Er中的关系之间的相关系数,得到相关系数库RWCC:
Figure FDA0002732044420000024
其中,
Figure FDA0002732044420000025
表示示例库中的第n个示例句子sn的第j个词wj与关系向量库中的第k种关系rk之间的相关系数;捕获待标注示例和目标关系之间的局部关联信息。
4.按权利要求1所述基于相关系数熵的单示例单标签远程监督实体关系标注方法,其特征在于,所述步骤(4)中,计算基于相关系数的示例与关系的熵,构造相关系数熵库CCE(Correlation Coefficient Entropy base),构建方法为:
相关系数库中的数据表示示例的词和目标关系之间的相关系数,现基于示例库中的第n个示例句子sn的词和关系向量库中的第k种关系rk的相关系数,计算sn和rk之间的熵,捕获示例和关系之间的全局关联信息;计算过程如下:
Figure FDA0002732044420000031
Figure FDA0002732044420000032
其中,softmax()为常见的softmax函数,Entropy()为熵的计算函数;
同理,计算示例库中所有示例与关系库中所有关系的熵;相关系数熵库CCE(Correlation Coefficient Entropy base);
Figure FDA0002732044420000033
5.按权利要求1所述基于相关系数熵的单示例单标签远程监督实体关系标注方法,其特征在于,所述步骤(5)中,基于相关系数库和示例向量库,构造相关系数向量库CCV(Correlation Coefficient Vectors base),作为局部关联表示,构建方法为:
相关系数库中的每条数据表示每条示例中的词和目标关系之间的相关系数,根据该相关系数,赋予每条示例的每个词嵌入向量系数权重,计算计算sn相对于rk之间的相关系数向量;
Figure FDA0002732044420000034
其中,
Figure FDA0002732044420000035
是一个300维的向量;同理计算所有示例和关系之间的相关系数向量,得到相关系数向量库CCV结构如下:
Figure FDA0002732044420000036
6.按权利要求1所述基于相关系数熵的单示例单标签远程监督实体关系标注方法,其特征在于,所述步骤(6)中,基于相关系数熵库和相关系数向量库,构造相关系数熵向量库CCEV(Correlation Coefficient Entropy Vectors),作为全局关联表示,构建方法为:
计算计算sn相对于rk之间的相关系数熵向量过程如下:
Figure FDA0002732044420000041
其中,
Figure FDA0002732044420000042
是一个300维向量;
同理,计算每条示例和每个关系之间的相关系数熵向量,得到相关系数熵向量库CCEV结构如下:
Figure FDA0002732044420000043
7.按权利要求1所述基于相关系数熵的单示例单标签远程监督实体关系标注方法,其特征在于,所述步骤(7)中,计算相关系数熵向量和关系向量的余弦相似度得到相似分数值,得到每个句子和每个关系的相似度分数所构成的相似度分数库PR,构建方法为:
计算相关系数熵向量库CCEV中每个熵向量与关系向量库中对应关系的每个嵌入关系之间的余弦相似度,得到每个句子和每个关系的相似度分数所构成的的相似度分数库PR:
Figure FDA0002732044420000044
其中,
Figure FDA0002732044420000045
是相关系数熵向量库CCEV中的熵向量
Figure FDA0002732044420000046
和关系向量库中的erk得余弦相似度结果。
CN202011121160.3A 2020-10-20 2020-10-20 一种基于相关系数熵的单示例单标签远程监督实体关系标注方法 Active CN112417872B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011121160.3A CN112417872B (zh) 2020-10-20 2020-10-20 一种基于相关系数熵的单示例单标签远程监督实体关系标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011121160.3A CN112417872B (zh) 2020-10-20 2020-10-20 一种基于相关系数熵的单示例单标签远程监督实体关系标注方法

Publications (2)

Publication Number Publication Date
CN112417872A true CN112417872A (zh) 2021-02-26
CN112417872B CN112417872B (zh) 2022-08-05

Family

ID=74841324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011121160.3A Active CN112417872B (zh) 2020-10-20 2020-10-20 一种基于相关系数熵的单示例单标签远程监督实体关系标注方法

Country Status (1)

Country Link
CN (1) CN112417872B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488136A (zh) * 2015-11-25 2016-04-13 北京京东尚科信息技术有限公司 选购热点标签的挖掘方法
CN108960073A (zh) * 2018-06-05 2018-12-07 大连理工大学 面向生物医学文献的跨模态图像模式识别方法
US20200073933A1 (en) * 2018-08-29 2020-03-05 National University Of Defense Technology Multi-triplet extraction method based on entity-relation joint extraction model
CA3061717A1 (en) * 2018-11-16 2020-05-16 Royal Bank Of Canada System and method for a convolutional neural network for multi-label classification with partial annotations
CN111191031A (zh) * 2019-12-24 2020-05-22 上海大学 一种基于WordNet和IDF的非结构化文本的实体关系分类方法
CN111540468A (zh) * 2020-04-21 2020-08-14 重庆大学 一种诊断原因可视化的icd自动编码方法与系统
US20200302120A1 (en) * 2019-03-19 2020-09-24 Hitachi, Ltd. Sentence classification apparatus, sentence classification method, and sentence classification program

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488136A (zh) * 2015-11-25 2016-04-13 北京京东尚科信息技术有限公司 选购热点标签的挖掘方法
CN108960073A (zh) * 2018-06-05 2018-12-07 大连理工大学 面向生物医学文献的跨模态图像模式识别方法
US20200073933A1 (en) * 2018-08-29 2020-03-05 National University Of Defense Technology Multi-triplet extraction method based on entity-relation joint extraction model
CA3061717A1 (en) * 2018-11-16 2020-05-16 Royal Bank Of Canada System and method for a convolutional neural network for multi-label classification with partial annotations
US20200302120A1 (en) * 2019-03-19 2020-09-24 Hitachi, Ltd. Sentence classification apparatus, sentence classification method, and sentence classification program
CN111191031A (zh) * 2019-12-24 2020-05-22 上海大学 一种基于WordNet和IDF的非结构化文本的实体关系分类方法
CN111540468A (zh) * 2020-04-21 2020-08-14 重庆大学 一种诊断原因可视化的icd自动编码方法与系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
周??刘轶等: "互补学习:一种面向图像应用和噪声标注的深度神经网络训练方法", 《计算机研究与发展》 *
鄂海红等: "深度学习实体关系抽取研究综述", 《软件学报》 *
陈小红等: "基于领域本体的游戏攻略文本标注算法研究与实现", 《计算机应用与软件》 *

Also Published As

Publication number Publication date
CN112417872B (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
CN111985239B (zh) 实体识别方法、装置、电子设备及存储介质
CN113641820B (zh) 基于图卷积神经网络的视角级文本情感分类方法及系统
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN112733533B (zh) 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法
CN108932226A (zh) 一种对无标点文本添加标点符号的方法
CN113486667B (zh) 一种基于实体类型信息的医疗实体关系联合抽取方法
WO2021212801A1 (zh) 面向电商产品的评价对象识别方法、装置及存储介质
CN113221571B (zh) 基于实体相关注意力机制的实体关系联合抽取方法
CN111144119B (zh) 一种改进知识迁移的实体识别方法
CN112183094A (zh) 一种基于多元文本特征的中文语法查错方法及系统
CN112100348A (zh) 一种多粒度注意力机制的知识库问答关系检测方法及系统
He English grammar error detection using recurrent neural networks
CN113051922A (zh) 一种基于深度学习的三元组抽取方法及系统
CN115310448A (zh) 一种基于bert和字词向量结合的中文命名实体识别方法
CN112966525A (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
CN115034208A (zh) 一种基于bert的中文asr输出文本修复方法及系统
CN113051368A (zh) 双塔模型训练方法、检索方法、装置及电子设备
CN113934831A (zh) 一种基于深度学习的知识图谱问答方法
CN111897953A (zh) 一种新型网络媒体平台评论文本分类标注数据纠正方法
CN114926742A (zh) 一种基于二阶注意力机制的回环检测及优化方法
CN111104520B (zh) 一种基于人物身份的人物实体链接方法
CN112417872B (zh) 一种基于相关系数熵的单示例单标签远程监督实体关系标注方法
CN115809666B (zh) 一种融合词典信息和注意力机制的命名实体识别方法
CN115934883A (zh) 一种基于语义增强的多特征融合的实体关系联合抽取方法
CN112989839A (zh) 一种基于关键词特征嵌入语言模型的意图识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220906

Address after: 200444 No. 99, upper road, Shanghai, Baoshan District

Patentee after: Shanghai University

Patentee after: Shanghai Ruijiake Intelligent Technology Co.,Ltd.

Address before: 200444 No. 99, upper road, Shanghai, Baoshan District

Patentee before: Shanghai University

TR01 Transfer of patent right