CN112668342B - 基于孪生网络的远程监督关系抽取降噪系统 - Google Patents

基于孪生网络的远程监督关系抽取降噪系统 Download PDF

Info

Publication number
CN112668342B
CN112668342B CN202110024800.7A CN202110024800A CN112668342B CN 112668342 B CN112668342 B CN 112668342B CN 202110024800 A CN202110024800 A CN 202110024800A CN 112668342 B CN112668342 B CN 112668342B
Authority
CN
China
Prior art keywords
data
module
noise
relation
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110024800.7A
Other languages
English (en)
Other versions
CN112668342A (zh
Inventor
陶建华
霍文帅
张大伟
杨国花
刘通
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202110024800.7A priority Critical patent/CN112668342B/zh
Publication of CN112668342A publication Critical patent/CN112668342A/zh
Application granted granted Critical
Publication of CN112668342B publication Critical patent/CN112668342B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例涉及一种基于孪生网络的远程监督关系抽取降噪系统,旨在旨在降低远程监督回标训练数据的噪声影响,同时减少训练数据损失的情况。该系统包括:文本分析模块,关系选择器训练模块,关系选择模块,噪声数据聚类模块,关系分类模块;所述文本分析模块用于接收远程监督回标文本数据,输出初始候选数据和初始高可信度数据;所述关系选择器训练模块用于利用标注好的文本数据训练出基于孪生网络的关系选择器;所述关系选择模块用于对初始候选数据和初始高可信度数据进行关系选择,输出噪声数据和新增高可信度数据;所述噪声聚类模块用于对噪声数据进行聚类分析,输出新增候选数据,所述关系分类模块用于输出最后的分类结果。

Description

基于孪生网络的远程监督关系抽取降噪系统
技术领域
本发明涉及自然语言处理技术领域,尤其是涉及一种基于孪生网络的远程监督关系抽取降噪系统。
背景技术
关系抽取是信息抽取中的一个基本任务,目的是对句子中实体对的语义关系进行预测,对于知识图谱的构建有着重要的作用。关系抽取的一个关键问题是缺乏大规模高质量的标注数据,远程监督的方法可以有效解决标注数据较少的问题,远程监督是通过将语料与知识库对齐来获取训练数据,即假设知识库中存在某一实体对,那么语料中所有含有这个实体对的句子都被标记为此实体对在知识库中对应的关系。
远程监督是一种有效的自动标注大规模训练数据的方法,但是由于其假设过于宽松,回标数据的过程中会产生大量的噪声,这些噪声数据会严重影响关系抽取的性能。基于多实例学习的方法在降噪任务上取得了不错的效果,多实例学习将相同实体对对应的实例放在同一个包中,其中一些是噪声。多实例学习选取每个包中可能性最大的实例作为真正例,每个包中剩余的实例对模型的训练没有帮助,这样就造成了大量训练数据的损失。
发明内容
本申请实施例提供一种基于孪生网络的远程监督关系抽取降噪系统,旨在降低远程监督回标训练数据的噪声影响,同时减少训练数据损失的情况。
本申请实施例第一方面提供一种基于孪生网络的远程监督关系抽取降噪系统,所述系统包括:文本分析模块,关系选择器训练模块,关系选择模块,噪声数据聚类模块,关系分类模块;
所述文本分析模块,用于接收待分析的远程监督回标文本数据,输出初始候选数据及初始高可信度数据;
所述关系选择器训练模块,用于接收有标注的文本数据,并训练出基于孪生网络的关系选择器,输出关系选择器模型;
所述关系选择模块,与所述文本分析模块相连,用于接收所述初始候选数据及所述高可信度数据,经过对所述初始候选数据的选择之后,输出噪声数据及新增的所述高可信度数据;
所述噪声数据聚类模块,与所述关系选择模块相连,用于接收所述关系选择模块生成的所述噪声数据,经过聚类对所述噪声数据重新进行标注,输出新增的所述候选数据;
所述关系分类模块,与所述噪声数据聚类模块相连,用于接收所述文本分析模块,所述关系选择模块以及所述噪声聚类模块的最终输出数据,通过全连接映射到关系空间,输出关系分类结果。
可选地,所述文本分析模块用于对所述远程监督回标文本数据进行向量化处理,获得所述待分析的远程监督回标文本数据中每个句子的词向量与位置向量,生成句向量;将含有相同实体的所述句向量放在同一个包中;将每个所述包中可信度最高的句向量作为所述初始高可信度数据输出,其余句向量作为所述初始候选数据输出。
可选地,所述关系选择器训练模块具体采用孪生网络模型,输入数据包括与目标抽取数据不相关的有标注数据,所述有标注数据具有众多类别,利用所述有标注数据训练一个孪生网络模型,所述孪生网络模型即作为所述关系选择器。
可选地,将同一包中的高可信度数据实例与候选数据实例分别输入同一关系选择器通过距离计算判断两个实例是否属于同一关系,若判断结果为是同一关系,则将与所述高可信度数据实例属于同一关系的所述候选数据实例归为新增的所述高可信度数据实例;若判断结果为非同一关系,则将与所述高可信度数据实例不属于同一关系的所述候选数据实例归为噪声数据实例。
可选地,所述噪声数据聚类模块使用半监督的k均值聚类方法对所述噪声数据进行聚类分析,将所有高可信度数据作为带标签数据计算得到各个类的聚类中心,通过计算每个噪声数据实例距离聚类中心的距离,给噪声数据实例打上新的标签,获得新增的所述候选数据。
可选地,所述关系选择模块与所述噪声数据聚类模块将不断的迭代进行,直至不再产生新的所述噪声数据,或者,对所述噪声数据进行聚类分析无法得到新增的所述候选数据,最终的输出结果为所述降噪系统最终降噪后的数据。
可选地,所述噪声数据为关系选择模块在对所述候选数据进行判别结束之后产生的,但是在经过噪声数据聚类模块重新聚类之后,仍然有可能被标记为新的所述候选数据。
可选地,所述所有高可信度数据分为两种,其一为所述文本分析模块选取每个包中可能性最大的实例产生初始的所述高可信度数据;其二为每一次所述关系选择模块输出的新增的所述高可信度数据。
可选地,所述侯选数据分为两种,其一为所述文本分析模块选取每个包中可能性最大的实例后剩余部分数据为初始的所述候选数据;其二为每一次所述噪声聚类模块输出的新增的所述候选数据。
可选地,关系分类模块用于根据所述文本分析模块、所述关系选择模块以及所述噪声聚类模块产生的最终降噪结果,通过全连接映射到关系空间,输出最终的关系分类结果。
采用本申请提出的基于孪生网络的远程监督关系抽取降噪系统,该系统包括:文本分析模块,关系选择器训练模块,关系选择模块,噪声数据聚类模块,关系分类模块,文本分析模块接收待分析的远程监督回标文本数据,输出初始候选数据及初始高可信度数据;关系选择器训练模块接收有标注的文本数据,训练出基于孪生网络的关系选择器,输出关系选择模型;关系选择模块接收到初始候选数据及初始高可信度数据后,对初始候选数据进行选择,输出噪声数据以及新增的高可信度数据;噪声聚类模块接收关系选择模块生成的噪声数据,对噪声数据进行聚类分析,将噪声数据重新进行标注,输出新增候选数据;关系分类模块接收到降噪完成的数据,通过全连接映射到关系空间,输出关系分类结果。使用该降噪系统对待分析的远程监督回标文本数据进行处理,关系选择器与噪声聚类模块将不断的迭代进行,直至不再产生新的数据,有效的消除了远程监督回标文本数据中的噪声数据,减少了训练数据的损失。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据一实施例示出的基于孪生网络的远程监督关系抽取降噪系统的结构示意图;
图2是根据一示例性实施例示出的关系选择器训练模块的结构示意图;
图3是根据一示例性实施例示出的关系选择模块的结构示意图;
图4是根据一示例性实施例示出的噪声数据聚类模块的结构示意图;
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明实施例总的思想是利用孪生网络模型训练一个关系选择器,利用该关系选择器挑选高可信度数据及噪声数据,通过对噪声聚类的方法将噪声数据重新利用,不断迭代直至模型达到最优效果。解决了现有技术中远程监督的方法会产生大量噪声数据,并且损失大量训练数据的问题。
参考图1,图1是本申请一实施例提出的基于孪生网络的远程监督关系抽取降噪系统100结构示意图。如图1所述该系统包括以下结构:
一种基于孪生网络的远程监督关系抽取降噪系统,其特征在于,所述系统包括:文本分析模块101,关系选择器训练模块102,关系选择模块103,噪声数据聚类模块104,关系分类模块105。
所述文本分析模块101,用于接收待分析的远程监督回标文本数据,输出初始候选数据及初始高可信度数据。
本实施例中,远程监督回标文本数据是使用远程监督的方法进行标注的训练数据,训练数据中包含多个句子实例,每个句子实例中包含一个实体对。根据知识库中存在的实体对间的关系,为训练数据中含有与知识库中相同实体对的句子标注上相同的关系。
例如,知识库中存在一个关系“(李建国,父子,李小明)”,则在训练数据中所有存在“(李建国,李小明)”这一实体对的句子中,将这一实体对标注为“父子”关系。
文本分析模块对待分析的远程监督回标文本数据的处理步骤包括:
S11:对所述远程监督回标文本数据进行向量化处理,获得所述待分析的远程监督回标文本数据中每个句子的词向量与位置向量,生成句向量。
本实施例中,词向量是将句子中的每个词进行向量化表示,位置向量是每个单词距离句子中每个实体的距离,将词向量与每个词向量相应的位置向量进行拼接,得到句子的特征向量。
S12:将含有相同实体的所述句向量放在同一个包中。
本实施例中,含有相同实体的句向量,经过远程监督回标之后,其中的实体对被标注为同一关系,将含有相同实体的句向量放在同一个包中,则每个包中的句子含有的实体对相同,标注的关系也相同。
S13:将每个所述包中可信度最高的句向量作为所述初始高可信度数据输出,其余句向量作为所述初始候选数据输出。
本实施例中,远程监督回标文本数据中可能会存在如下情况,在一个句子中出现了与知识库中相同的实体对,但是与知识库中标注的关系不同。例如:知识库中有一个实体对关系“(李建国,父子,李小明)”,训练数据中出现的句子为“李建国是李小明的数学老师”,很明显李建国与李小明的关系在此句中为师生关系,但基于远程监督的标注规则,仍然会为此句加上标注“(李建国,父子,李小明)”,这种标注错误的句子是噪音数据,会影响模型训练的效果。
本实施例中,文本分析模块会对每个包中的每个句子实例进行初步的可信度打分,得分高的句子作为初始高可信度数据,证明对这个句子实例中的实体对进行的标注是正确的。得分低的句子作为初始候选数据,初始候选数据中包含标注错误的句子实例,也可能包含标注正确但并未被归类为初始高可信度数据的句子实例。经过处理后,输出初始高可信度数据与初始候选数据。
所述关系选择器训练模块102,用于接收有标注的文本数据,并训练出基于孪生网络的关系选择器,输出关系选择器模型。
本实施例中,所述关系选择器训练模块具体采用孪生网络模型,输入数据包括与目标抽取数据不相关的有标注数据,所述有标注数据具有众多类别,利用所述有标注数据训练一个孪生网络模型,所述孪生网络模型即作为所述关系选择器。
如图2所示,图2是根据一示例性实施例示出的关系选择器训练模块102的结构示意图,关系选择器训练模块采用了孪生神经网络(siamese network)模型,该网络包含了网络1和网络2两个子网络,网络1和网络2之间共享权重。将标注好的训练数据输入该模型中,孪生网络通过对训练数据的学习,调整自身参数,得到一个关系选择器,用于确定网络1中的输入与网络2中的输入的匹配程度。该孪生神经网络使用的损失函数是contrastiveloss,这种损失函数可以有效处理孪生神经网络中的配对关系,其表达式如下:
其中:
上述公式中L为损失函数值,W为样本,N为样本个数,Y为两个样本是否匹配的标签,Y=1代表两个样本相似或匹配,Y=0代表两个样本不匹配,m为设定的阈值,Dw表示两个样本特征X1和X2的欧式距离(二范数),||||表示范数,P表示样本的特征维数,max()表示取最大值。
上述损失函数很好的表达了成对样本的匹配程度,也能够很好的用于训练提取特征的模型。
所述关系选择模块103,与所述文本分析模块相连,用于接收所述初始候选数据及所述高可信度数据,经过对所述初始候选数据的选择之后,输出噪声数据及新增的所述高可信度数据。
如图3所示,图3是根据一示例性实施例示出的关系选择模块的结构示意图,图中向关系选择器中输入高可信度数据与候选数据,关系选择器输出新增候选数据和噪声数据。
本实施例中,在得到训练好的关系选择器后,将初始候选数据及高可信度数据输入训练好的关系选择器中,输出噪声数据及新增的高可信度数据的具体方法为:
将同一包中的高可信度数据实例与候选数据实例分别输入同一关系选择器通过距离计算判断两个实例是否属于同一关系,若判断结果为是同一关系,则将将与所述高可信度数据实例属于同一关系的所述候选数据实例归为新增的所述高可信度实例;若判断结果为非同一关系,则将与所述高可信度数据实例不属于同一关系的所述候选数据实例归为噪声数据。
本实施例中,远程监督回标文本数据经过S11-S13的处理之后,每个包中的句子实例被分为了初始高可信度数据与初始候选数据两类,将初始高可信度数据输入关系选择器之中的网络1或者网络2中,将初始候选数据输入另一个网络之中,关系选择器计算初始候选数据中的每个句子实例的句向量与另一个网络中的初始高可信度数据中的句子实例的句向量之间的距离,通过计算出的距离判断两个句子实例是否属于同一关系,若两个句子实例的句向量之间的距离小于一定阈值,则判断两个句子实例属于同一关系,将与初始高可信度数据属于同一关系的初始候选数据归为新增高可信度数据;若两个句子实例的句向量之间的距离大于一定阈值,则判断两个句子实非同一关系,将与初始高可信度数据非同一关系的初始候选数据归为噪声数据。
示例地,初始高可信度数据中有一个句子实例1为“刘备称呼关羽为二弟(刘备,兄长,关羽)”,初始候选数据中有一个句子实例2为“关羽是刘备手下的一员大将,(刘备,兄长,关羽)”,初始候选数据中的另一个句子实例3为“关羽称呼刘备为大哥,(刘备,兄长,关羽)”。对于这3个句子实例,将句子实例1输入关系选择器的网络1中,句子实例2输入关系选择器的网络2中,关系选择器计算句子实例1的句向量与句子实例2的句向量之间的距离,得到句子实例1的句向量与句子实例2的句向量之间的距离大于了预设阈值,两个句子向量之间不匹配,不属于同一关系,故将句子实例2作为噪声数据进行输出。将句子实例3输入关系选择器的网络2中,关系选择器计算句子实例1的句向量与句子实例3的句向量之间的距离,得到句子实例1与句子实例3属于同一关系,将句子实例3作为新增高可信度数据进行输出。
所述噪声数据聚类模块104,与所述关系选择模块相连,用于接收所述关系选择模块生成的所述噪声数据,经过聚类对所述噪声数据重新进行标注,输出新增的所述候选数据。
如图4所示,图4是根据一示例性实施例示出的噪声数据聚类模块的结构示意图。
本实施例中,所述噪声数据聚类模块使用半监督的K均值聚类方法对所述噪声数据进行聚类分析,具体步骤包括:
S21:将所有高可信度数据作为带标签数据计算得到各个类的聚类中心。
本实施例中,首先要根据高可信度数据计算出K个类别的初始均值向量,关系选择器对初始候选数据进行关系选择后,输出了噪声数据与新增高可信度数据,这些新增高可信度数据与初始高可信度数据都被视作打上了正确标签的数据,对所有高可信度数据实例的句向量进行计算,计算出K各类别的初始均值向量,这K个类别的初始均值向量就是各个类的聚类中心。
计算出的初始均值向量可表示为{μ1,μ2,μ3,…,μk}。
S22:通过计算每个噪声数据实例距离聚类中心的距离,给噪声数据实例打上新的标签,获得新增的所述候选数据。
噪声数据实例中包含了标注正确却别误认为噪声数据的句子实例和标注错误的句子实例,通过计算每个噪声数据实例的句向量与各个初始均值向量的距离可以判断这些噪声数据实例与哪个初始均值向量的距离最近,基于计算出的距离找出与样本xi距离最近的簇,并将xi划入该聚类簇。计算噪声数据实例xi与各均值向量μi(i≤j≤k)之间的距离,计算方法为:
其中labeli表示了噪声数据实例xi与每个均值向量μi(i≤j≤k)之间的距离,argmin表示使后式取值最小时的变量取值,||||表示范数。
示例地,一个包中含有句子实例1“王羲之的儿子王献之也是一位书法家(王羲之,父亲,王献之)”,句子实例2“王羲之是王献之的书法老师(王羲之,父亲,王献之)”。明显,句子实例2标注错误,这句中的王羲之与王献之应当为师生关系,句子实例2被关系选择器作为噪声数据输出,对该噪声数据进行聚类分析,根据高可信度数据计算出的均值向量μi表示的类别为“师生关系”类别,则计算出句子实例2的句向量与μi之间的距离最近,故将句子实例2划入以μi为中心的聚类簇,同时为句子实例2打上新的标签“王羲之是王献之的书法老师(王羲之,老师,王献之)”,这时句子实例2就会被划入标签为(XX,老师,XX)的包中,作为新增的候选数据。
所述关系选择模块103与所述噪声数据聚类模块104将不断的迭代进行,直至不再产生新的所述噪声数据,或者,对所述噪声数据进行聚类分析无法得到新增的所述候选数据,最终的输出结果为所述降噪系统最终降噪后的数据。
本实施例中,在关系选择器输出的噪声数据中得到新增候选数据之后,每个包中含有高可信度数据和新增候选数据,其中新增候选数据是打上了新标签的数据。将每个包中的高可信度数据输入关系选择器的网络1或者网络2中,将新增候选数据输入另一个网络中,关系选择器会计算出新增候选数据与高可信度数据是否为同一关系,将与高可信度数据为同一类别的新增候选数据作为新增高可信度数据输出,将与高可信度数据不是同一类别的新增候选数据作为噪声数据进行输出。具体方法在前文详细叙述过。当输出噪声数据之后,噪声聚类模块对噪声数据进行聚类分析,具体方法在前文详细叙述过。关系选择与聚类分析迭代进行,直到满足迭代退出条件时,结束迭代过程。迭代退出条件有两个,一个是关系选择器不再输出新的噪声数据,当关系选择器不再输出新的噪声数据时,关系选择器输出的都是高可信度数据,每个句子实例都分到了具有相同关系的包中,数据降噪完成,将降噪完成的数据进行输出。还有一个是对噪声数据进行聚类分析无法得到新增的候选数据,当对噪声数据进行聚类分析无法得到新增的候选数据时,噪声数据中的句子实例可能不属于现有的多个类别,故无法再为其打上新的标签,数据降噪完成,将降噪完成的数据进行输出。
可以见得,本实施例中,所述所有高可信度数据分为两种,其一为所述文本分析模块选取每个包中可能性最大的实例产生初始的所述高可信度数据;其二为每一次所述关系选择模块输出的新增的所述高可信度数据。
所述侯选数据分为两种,其一为所述文本分析模块选取每个包中可能性最大的实例后剩余部分数据为初始的所述候选数据;其二为每一次所述噪声聚类模块输出的新增的所述候选数据。
所述关系分类模块105,与所述噪声数据聚类模块104相连,用于接收所述文本分析模块,所述关系选择模块以及所述噪声聚类模块的最终输出数据,通过全连接映射到关系空间,输出关系分类结果。
本实施例中,关系分类模块用于根据所述文本分析模块、所述关系选择模块以及所述噪声聚类模块产生的最终降噪结果,通过全连接映射到关系空间,输出最终的关系分类结果。
本实施例中,文本分析模块输出初始候选数据和初始高可信度数据,关系选择模块输出噪声数据和新增高可信度数据,噪声聚类模块得到新增候选数据时将新增候选数据输出至关系选择模块,当关系选择模块不再输出噪声数据时,噪声聚类模块直接将得到的高可信度数据作为最终的降噪结果进行输出,当对噪声数据进行聚类分析不再得到新增候选数据时,噪声聚类模块将此时的高可信度数据作为最终的降噪结果进行输出。关系分类模块接收到噪声聚类模块输出的最终的降噪结果,通过全连接映射到关系空间中,全连接的意思是将关系分类模块中的数据一一映射到关系空间中,关系空间是关系分类的集合,最终输出的是关系分类的结果。关系分类的结果是标注好的文本数据,可以直接用于模型的训练。
本实施例提出的基于孪生网络的远程监督关系抽取降噪系统,使用关系选择器训练模块训练出一个关系选择器,通过文本分析模块、关系选择模块、噪声数据聚类模块、关系分类模块,对远程监督回标文本数据进行降噪,最终得到标注有多种关系的句子实例,使用这些实例作为训练样本对关系抽取模型进行训练,减少了噪声数据对训练效果的影响,有效地提升了远程监督关系抽取的性能。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种基于孪生网络的远程监督关系抽取降噪系统,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (8)

1.一种基于孪生网络的远程监督关系抽取降噪系统,其特征在于,所述系统包括:文本分析模块,关系选择器训练模块,关系选择模块,噪声数据聚类模块,关系分类模块;
所述文本分析模块,用于接收待分析的远程监督回标文本数据,输出初始候选数据及初始高可信度数据,所述文本分析模块用于对所述远程监督回标文本数据进行向量化处理,获得所述待分析的远程监督回标文本数据中每个句子的词向量与位置向量,生成句向量;将含有相同实体的所述句向量放在同一个包中;将每个所述包中可信度最高的句向量作为所述初始高可信度数据输出,其余句向量作为所述初始候选数据输出;
所述关系选择器训练模块,用于接收有标注的文本数据,并训练出基于孪生网络的关系选择器,输出关系选择器模型;
所述关系选择模块,与所述文本分析模块相连,用于接收所述初始候选数据及所述初始高可信度数据,经过所述关系选择器对所述初始候选数据的选择之后,输出噪声数据及新增的所述高可信度数据;
所述噪声数据聚类模块,与所述关系选择模块相连,用于接收所述关系选择模块生成的所述噪声数据,经过聚类对所述噪声数据重新进行标注,输出新增的所述候选数据,所述关系选择模块与所述噪声数据聚类模块将不断的迭代进行,直至不再产生新的所述噪声数据,或者,对所述噪声数据进行聚类分析无法得到新增的所述候选数据,最终的输出结果为所述降噪系统最终降噪后的数据;所述关系分类模块,与所述噪声数据聚类模块相连,用于接收所述文本分析模块,所述关系选择模块以及所述噪声数据聚类模块的最终输出数据,通过全连接映射到关系空间,输出关系分类结果。
2.根据权利要求1所述的降噪系统,其特征在于,所述关系选择器训练模块具体采用孪生网络模型,输入数据包括与目标抽取数据不相关的有标注数据,所述有标注数据具有众多类别,利用所述有标注数据训练一个孪生网络模型,所述孪生网络模型即作为所述关系选择器。
3.根据权利要求2所述的降噪系统,其特征在于,所述关系选择模块用于利用所述有标注数据训练的所述孪生网络模型作为所述关系选择器,将同一包中的高可信度数据实例与候选数据实例分别输入同一关系选择器通过距离计算判断两个实例是否属于同一关系,若判断结果为是同一关系,则将与所述高可信度数据实例属于同一关系的所述候选数据实例归为新增的所述高可信度数据实例,若判断结果为非同一关系,则将与所述高可信度数据实例不属于同一关系的所述候选数据实例归为噪声数据实例。
4.根据权利要求1所述的降噪系统,其特征在于,所述噪声数据聚类模块使用半监督的k均值聚类方法对所述噪声数据进行聚类分析,将所有高可信度数据作为带标签数据计算得到各个类的聚类中心,通过计算每个噪声数据实例距离聚类中心的距离,给噪声数据实例打上新的标签,获得新增的所述候选数据。
5.根据权利要求1所述的降噪系统,其特征在于,所述噪声数据为关系选择模块在对所述候选数据进行判别结束之后产生的,但是在经过噪声数据聚类模块重新聚类之后,仍然有可能被标记为新的所述候选数据。
6.根据权利要求1所述的降噪系统,其特征在于,所有高可信度数据分为两种,其一为所述文本分析模块选取每个包中可能性最大的实例产生初始的所述高可信度数据;其二为每一次所述关系选择模块输出的新增的所述高可信度数据。
7.根据权利要求1所述的降噪系统,其特征在于,所述候选数据分为两种,其一为所述文本分析模块选取每个包中可能性最大的实例后剩余部分数据为初始的所述候选数据;其二为每一次所述噪声数据聚类模块输出的新增的所述候选数据。
8.根据权利要求1所述的降噪系统,其特征在于,所述关系分类模块用于根据所述文本分析模块、所述关系选择模块以及所述噪声数据聚类模块产生的最终降噪结果,通过全连接映射到关系空间,输出最终的关系分类结果。
CN202110024800.7A 2021-01-08 2021-01-08 基于孪生网络的远程监督关系抽取降噪系统 Active CN112668342B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110024800.7A CN112668342B (zh) 2021-01-08 2021-01-08 基于孪生网络的远程监督关系抽取降噪系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110024800.7A CN112668342B (zh) 2021-01-08 2021-01-08 基于孪生网络的远程监督关系抽取降噪系统

Publications (2)

Publication Number Publication Date
CN112668342A CN112668342A (zh) 2021-04-16
CN112668342B true CN112668342B (zh) 2024-05-07

Family

ID=75413807

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110024800.7A Active CN112668342B (zh) 2021-01-08 2021-01-08 基于孪生网络的远程监督关系抽取降噪系统

Country Status (1)

Country Link
CN (1) CN112668342B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408528B (zh) * 2021-06-24 2024-02-23 数贸科技(北京)有限公司 商品图像的质量识别方法、装置、计算设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180092733A (ko) * 2017-02-10 2018-08-20 강원대학교산학협력단 관계 추출 학습 데이터 생성 방법
CN108959418A (zh) * 2018-06-06 2018-12-07 中国人民解放军国防科技大学 一种人物关系抽取方法、装置、计算机装置及计算机可读存储介质
CN111125364A (zh) * 2019-12-24 2020-05-08 华南理工大学 一种基于ernie的远程监督关系抽取的降噪方法
CN111125370A (zh) * 2019-12-06 2020-05-08 南京中新赛克科技有限责任公司 一种适应小样本的关系抽取方法
CN111241303A (zh) * 2020-01-16 2020-06-05 东方红卫星移动通信有限公司 一种大规模非结构化文本数据的远程监督关系抽取方法
CN111832307A (zh) * 2020-07-09 2020-10-27 北京工业大学 一种基于知识增强的实体关系抽取方法及系统
CN111914555A (zh) * 2019-05-09 2020-11-10 中国人民大学 基于Transformer结构的自动化关系抽取系统
CN111914558A (zh) * 2020-07-31 2020-11-10 湖北工业大学 基于句袋注意力远程监督的课程知识关系抽取方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10678816B2 (en) * 2017-08-23 2020-06-09 Rsvp Technologies Inc. Single-entity-single-relation question answering systems, and methods
US11151175B2 (en) * 2018-09-24 2021-10-19 International Business Machines Corporation On-demand relation extraction from text

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180092733A (ko) * 2017-02-10 2018-08-20 강원대학교산학협력단 관계 추출 학습 데이터 생성 방법
CN108959418A (zh) * 2018-06-06 2018-12-07 中国人民解放军国防科技大学 一种人物关系抽取方法、装置、计算机装置及计算机可读存储介质
CN111914555A (zh) * 2019-05-09 2020-11-10 中国人民大学 基于Transformer结构的自动化关系抽取系统
CN111125370A (zh) * 2019-12-06 2020-05-08 南京中新赛克科技有限责任公司 一种适应小样本的关系抽取方法
CN111125364A (zh) * 2019-12-24 2020-05-08 华南理工大学 一种基于ernie的远程监督关系抽取的降噪方法
CN111241303A (zh) * 2020-01-16 2020-06-05 东方红卫星移动通信有限公司 一种大规模非结构化文本数据的远程监督关系抽取方法
CN111832307A (zh) * 2020-07-09 2020-10-27 北京工业大学 一种基于知识增强的实体关系抽取方法及系统
CN111914558A (zh) * 2020-07-31 2020-11-10 湖北工业大学 基于句袋注意力远程监督的课程知识关系抽取方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Heterogeneous graph neural networks for noisy few-shot relation classification;Yuxiang Xie et al;Knowledge-Based Systems;20200422;第194卷;1-9 *
基于实体关系抽取任务的去噪机制与样本分布不均衡研究;李梦婷;中国优秀硕士学位论文全文数据库信息科技辑;20201215(第12期);I138-519 *

Also Published As

Publication number Publication date
CN112668342A (zh) 2021-04-16

Similar Documents

Publication Publication Date Title
CN110377911B (zh) 对话框架下的意图识别方法和装置
CN110717039A (zh) 文本分类方法和装置、电子设备、计算机可读存储介质
CN112070138B (zh) 多标签混合分类模型的构建方法、新闻分类方法及系统
CN112732871B (zh) 一种机器人催收获取客户意向标签的多标签分类方法
CN110598869B (zh) 基于序列模型的分类方法、装置、电子设备
CN110781687B (zh) 相同意图语句的获取方法及装置
CN110610698B (zh) 一种语音标注方法及装置
CN111554276B (zh) 语音识别方法、装置、设备及计算机可读存储介质
CN112036169B (zh) 事件识别模型优化方法、装置、设备及可读存储介质
CN112668342B (zh) 基于孪生网络的远程监督关系抽取降噪系统
CN111354354B (zh) 一种基于语义识别的训练方法、训练装置及终端设备
WO2022262080A1 (zh) 一种对话关系处理方法、计算机及可读存储介质
CN113220854B (zh) 机器阅读理解的智能对话方法及装置
CN114254077A (zh) 一种基于自然语言对稿件完整性的评估方法
CN118350464A (zh) 基于任意粒度文本输入的对话式目标定位方法及装置
CN116522905B (zh) 文本纠错方法、装置、设备、可读存储介质及程序产品
CN112133291B (zh) 一种语种识别模型训练、语种识别的方法和相关装置
CN115527520A (zh) 异常检测方法、装置、电子设备和计算机可读存储介质
CN114021561A (zh) 一种数学公式相似度计算方法及系统
CN112989040A (zh) 一种对话文本标注方法、装置、电子设备及存储介质
CN114564942A (zh) 一种用于监管领域的文本纠错方法、存储介质和装置
CN109214411B (zh) 一种基于训练模型识别典型图片对新增实体的验证方法及系统
CN116049446B (zh) 一种事件抽取方法、装置、设备及计算机可读存储介质
CN116991874B (zh) 一种文本纠错、基于大模型的sql语句生成方法及设备
CN117235234B (zh) 对象信息获取方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant