CN115204142A - 开放关系抽取方法、设备及存储介质 - Google Patents
开放关系抽取方法、设备及存储介质 Download PDFInfo
- Publication number
- CN115204142A CN115204142A CN202210910590.6A CN202210910590A CN115204142A CN 115204142 A CN115204142 A CN 115204142A CN 202210910590 A CN202210910590 A CN 202210910590A CN 115204142 A CN115204142 A CN 115204142A
- Authority
- CN
- China
- Prior art keywords
- data
- relation
- open
- sample
- trivial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 60
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 34
- 238000003062 neural network model Methods 0.000 claims abstract description 12
- 230000014509 gene expression Effects 0.000 claims abstract description 11
- 238000000034 method Methods 0.000 claims description 45
- 238000004590 computer program Methods 0.000 claims description 32
- 238000013507 mapping Methods 0.000 claims description 5
- 238000005065 mining Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 abstract description 16
- 238000013508 migration Methods 0.000 abstract description 5
- 230000005012 migration Effects 0.000 abstract description 5
- 239000000284 extract Substances 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 21
- 230000008569 process Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种开放关系抽取方法、设备及存储介质,其首先获取开放域文本中的关系实例,然后根据预训练的编码器对无标签数据进行编码,得到无标签数据对应的关系表示,同时对无标签数据对应的关系表示进行聚类,得到伪标签数据,最后根据伪标签数据、有标签数据以及神经网络模型,确定出开放域文本的关系抽取结果。由于关系实例包括有标签数据和无标签数据,编码器根据有标签数据和度量学习算法预训练得到,因此通过该编码器可以从关系实例中抽取语义关系表示,进而对抽取的语义关系交替执行聚类和度量学习,即对有标签数据进行知识迁移,并将无标签数据和迁移的知识结合,以更新关系实例的语义关系表示,从而实现对开放域文本的充分利用。
Description
技术领域
本申请属于计算机应用技术领域,尤其涉及一种开放关系抽取方法、设备及存储介质。
背景技术
在深度学习技术高速发展的同时,也带来了数以亿计的知识信息。如何利用海量的知识信息,成为了一个不可忽视的问题。开放关系抽取是文本挖掘和信息抽取的核心任务,主要通过对文本信息建模,然后自动抽取出实体对之间的语义关系,从而提取出有效的语义知识。开放关系抽取的研究成果主要应用在文本摘要、自动问答、机器翻译、语义网标注、知识图谱等。
开放关系抽取工作通常是从标记数据中学习到的关系语义知识来聚类无标记的关系实例。然而,这些知识通常没有被充分利用,而且在转移到另一个领域时表现得很差。
发明内容
有鉴于此,本发明提供了一种开放关系抽取方法、设备及存储介质,旨在解决现有技术抽取到的关系语义知识没有被充分利用的问题。
本发明实施例的第一方面提供了一种开放关系抽取方法,包括:
获取开放域文本中的关系实例;其中,关系实例包括有标签数据和无标签数据;
根据预训练的编码器对无标签数据进行编码,得到无标签数据对应的关系表示;其中,编码器根据有标签数据和度量学习算法预训练得到;
对无标签数据对应的关系表示进行聚类,得到伪标签数据;
根据伪标签数据、有标签数据以及神经网络模型,确定开放域文本的关系抽取结果。
本发明实施例的第二方面提供了一种开放关系抽取装置,包括:
获取模块,用于获取开放域文本中的关系实例;其中,关系实例包括有标签数据和无标签数据;
编码模块,用于根据预训练的编码器对无标签数据进行编码,得到无标签数据对应的关系表示;其中,编码器根据有标签数据和度量学习算法预训练得到;
聚类模块,用于对无标签数据对应的关系表示进行聚类,得到伪标签数据;
抽取模块,用于根据伪标签数据、有标签数据以及神经网络模型,确定开放域文本的关系抽取结果。
本发明实施例的第三方面提供了一种电子设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上第一方面的开放关系抽取方法的步骤。
本发明实施例的第四方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如上第一方面的开放关系抽取方法的步骤。
本发明实施例提供的开放关系抽取方法、设备及存储介质,其首先获取开放域文本中的关系实例,然后根据预训练的编码器对无标签数据进行编码,得到无标签数据对应的关系表示,同时对无标签数据对应的关系表示进行聚类,得到伪标签数据,最后根据伪标签数据、有标签数据以及神经网络模型,确定出开放域文本的关系抽取结果。由于关系实例包括有标签数据和无标签数据,编码器根据有标签数据和度量学习算法预训练得到,因此,通过该编码器可以从关系实例中抽取语义关系表示,进而对抽取的语义关系交替执行聚类和度量学习,即对有标签数据进行知识迁移,并将无标签数据和迁移的知识进行结合,以更新关系实例的语义关系表示,从而实现对开放域文本的充分利用。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的开放关系抽取方法的实现流程图;
图2是本发明另一实施例提供的开放关系抽取方法的实现流程图;
图3是本发明实施例提供的开放关系抽取方法的逻辑框架图;
图4是本发明又一实施例提供的开放关系抽取方法的实现流程图;
图5是本发明实施例提供的开放关系抽取装置的结构示意图;
图6是本发明实施例提供的电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
图1是本发明实施例提供的开放关系抽取方法的实现流程图。如图1所示,在一些实施例中,开放关系抽取方法,包括:
S110,获取开放域文本中的关系实例;其中,关系实例包括有标签数据和无标签数据。
本发明实施例中,执行开放关系抽取方法的设备可以是终端或服务器,相应的,开放域文本可以是从其他设备存储的大量数据中获取的数据,例如,执行开放关系抽取方法的终端通过网络访问服务器或平台,获取其中存储的开放域文本,也可以是自身数据库存储的数据,例如,执行开放关系抽取方法的服务器从自身的数据库中调用。在此不作限定。对于关系实例,有标签数据代表已知的关系实例,无标签数据代表未知的关系实例。具体的,关系实例的格式可以为:头实体,尾实体,原句子。
S120,根据预训练的编码器对无标签数据进行编码,得到无标签数据对应的关系表示;其中,编码器根据有标签数据和度量学习算法预训练得到。
本发明实施例中,关系表示具体为关系语义表示,用于表示抽取出的实体对之间的语义关系,从而提取出有效的语义知识(知识三元组)。可以采用BERT作为实例的编码器实现关系表示的抽取。为了尽可能挖掘实例之间的语义关系,可以使用已知的关系实例对编码器进行深度度量学习的预训练,从而使模型有效地学习关系语义知识。在预训练过程中,为了挖掘隐含语义知识,需要设置相应的损失函数。损失函数可以是对边际损失函数、基于对的自加权损失函数等,在此不作限定。
S130,对无标签数据对应的关系表示进行聚类,得到伪标签数据。
本发明实施例中,聚类的算法可以是k-means算法、KNN算法、基于密度的聚类算法等,在此不作限定。
S140,根据伪标签数据、有标签数据以及神经网络模型,确定开放域文本的关系抽取结果。
本发明实施例中,神经网络模型可以是卷积神经网络模型、深度网络模型等,在此不作限定。开放域文本的关系抽取结果为实例之间的多个新关系。
本发明实施例中,由于关系实例包括有标签数据和无标签数据,编码器根据有标签数据和度量学习算法预训练得到,因此,通过该编码器可以从关系实例中抽取语义关系表示,然后对抽取的语义关系交替执行聚类和度量学习,即对有标签数据进行知识迁移,进而将无标签数据和迁移的知识进行结合,以更新关系实例的语义关系表示,从而实现对开放域文本的充分利用。
图2是本发明另一实施例提供的开放关系抽取方法的实现流程图。如图2所示,通过对有标签数据进行深度度量学习,然后结合无标签数据的聚类结果,可以得到多个新关系,实现关系知识迁移。其中,Encoder f()表示编码器。
图3是本发明实施例提供的开放关系抽取方法的逻辑框架图。其中,图3中的a部分是编码器的编码过程,从a部分可以看出,开放关系抽取的关键是获得更好的关系语义表示。本发明使用BERT对实体对和上下文信息进行编码,以得到关系表示。
例如,给定一个句子x=[w1,…,w|x|]和一对实体(E1,E2),然后用四个保留字片段对x进行扩充,以标记句子中提到的每个实体的开始和结束,得到新的令牌序列。所以新的令牌序列被输入BERT编码器而不是x。
在一些实施例中,S121可以包括:获取有标签数据之间的多个关系表示;将多个关系表示映射到高维的特征空间,得到多个高维隐藏表示;根据多个高维隐藏表示所对应的关系实例在特征空间中的距离,确定正样本对和负样本对。
h=W[h[E1];h[E2]]+b, (1)
深度度量学习是一个监督学习过程,聚类是一个无监督学习过程。图3中的b部分是监督学习框架图。图3中的c部分是无监督学习框架图。从b和c部分可以看出,对于无标签的数据,需要先进行编码,无标签数据用BERT编码器进行编码时,编码器中已经包含了一部分有标签关系表示的知识,在编码无标签数据时可以将有标签的一部分数据迁移过来,然后再用编码好的关系表示进行聚类,可以得到之前不知道的关系中心,将关系中心打上伪标签,认为是一种新识别出的关系。
通过将监督学习和无监督学习相结合,能够实现对实例的半监督学习,在半监督学习过程中,交替执行聚类和度量学习,以学习聚类友好的特征表示。
图4是本发明又一实施例提供的开放关系抽取方法的实现流程图。如图4所示,在一些实施例中,在S120之前,开放关系抽取方法还包括:
S121,从有标签数据中挖掘非平凡样本集;其中,非平凡样本集为具有非零损失的信息样本的集合,包括正样本对和负样本对;每个正样本对内的数据的相似性大于预设阈值;每个负样本对内的数据的相似性不大于预设阈值。
S122,根据非平凡样本集和度量学习算法,得到预训练的编码器。
本发明实施例中,首先对于有标签的数据,进行的过程叫做深度度量学习。这个过程是对关系表示通过一个特征抽取器(编码器的分为编码过程和特征抽取过程)进行特征抽取,特征抽取的结果是让正样本对在特征空间里的关系表示距离更近,负样本对的关系表示距离变远。为了达到这个结果,需要用损失函数去优化特征抽取器。
为了实现上述目标,可以选择成对边际损失函数作为学习关系表示的约束。例如,给定一个实例x,目标是将负样本推到边界αn之外,同时将正样本拉得比另一个边界αp更近。则成对边际损失函数为:
其中,如果yi=yj,则yij=1,否则yij=0。sij=||||f(xi)||-||f(xj)||||2,是两个实例之间的欧几里得距离。[·]+表示铰链函数。
非平凡数据点是具有非零损失的特殊信息示例,可以实现快速收敛,具有良好的性能。挖掘出的非平凡实例可用于学习实例之间的关系语义知识。对于一个锚点(实例)xi,挖掘的正样本对可以表示为Pi={xj|i≠j,yi=yj,sij>αp}。同理,挖掘的负样本对可以表示为Ni={xj|yi≠yj,sij<αn}。为了充分利用非平凡样本集,损失函数需要考虑这些非平凡样本与其边界之间的距离以及与非平凡样本集中其他样本的相对距离。因此,可以采用基于对的自加权损失函数作为模型约束,上述基于对的自加权损失函数以自加权损失算法的形式实现。
在一些实施例中,S122可以包括:根据非平凡样本集、自加权损失算法以及度量学习算法,得到预训练的编码器;其中,自加权损失算法由非平凡样本集中的样本与其边界之间的距离以及非平凡样本集中各样本之间的相对距离确定。
在一些实施例中,自加权损失算法的表达式为:
Ls=Lp+LN (3)
其中,Ls为自加权损失,Lp为非平凡样本正集损失,LN为非平凡样本负集损失,B1为非平凡样本集的正样本对的大小,B2为非平凡样本集的负样本对的大小,γ为温度标量参数,si n为正样本对中的第i个样本,si p为负样本对中的第i个样本。
本发明实施例中,关于自加权损失函数的参数的导数可以计算为:
式(8)证明正样本对的权重不仅由[si-αp]+确定,而且还受其他非平凡样本的影响。
当si接近边界αp时,样本对的权重会减小,反之则会增加。此外,当其他非平凡样本比锚点更近时,会增加指数缩放后的整体影响,使模型专注于优化此类样本。最重要的是,损失可以为不同的样本对生成权重,可以灵活地用于挖掘那些非平凡的样本,使模型有效地学习集群友好的特征表示。
在一些实施例中,对无标签数据对应的关系表示进行聚类,得到伪标签数据,包括:采用k-means算法对无标签数据对应的关系表示进行聚类,得到多个聚类中心;对多个聚类中心标记伪标签,得到伪标签数据。
本发明实施例中,从已知关系中转移知识后,聚类方法用于从未标记的数据中发现新的关系。编码器可以生成结构化输出作为特征学习的弱监督信号。
然后,可以采用K-Means聚类算法,在未标记数据的关系表示的基础上,得到每个样本的伪标签yu:
最后,伪标签可以用于训练编码器以更新关系表示,其中,损失函数用于优化未标记数据的语义嵌入空间。在模型测试期间,可以通过k-means对抽取的关系表示进行聚类,以发现测试数据上的新关系。
本发明实施例中,打上伪标签之后,无标签的数据可以看作是有标签的数据,不过这个标签是“1,2,3…”等伪标签,然后可以将其像有标签的数据一样进入BERT编码器,以更新关系表示,得到新关系。
在一些实施例中,S130可以包括:将伪标签数据和有标签数据输入到预训练的编码器中,得到关系实例的更新后的关系表示;将更新后的关系表示输入到神经网络模型中,得到开放域文本的关系抽取结果。
在一些实施例中,关系抽取结果包括开放域文本的多个新关系,以及每个新关系的精度、召回率和F1分数。
为了证明本发明模型框架的有效性,下面提供一个实施示例将本发明的模型与几种基于深度学习的方法进行了比较,但并不作为限定。
其中,对比所使用的深度学习的方法包括:RSN(Relation Siamese Network,关系孪生网络)、SelfORE(Self-supervised Relational Feature Learning for OpenRelation,开放关系的自监督关系特征学习)、ODC(Online Deep Clustering forUnsupervised Representation Learning,在线深度聚类的无监督表示学习)、MORE(Metric learning-based Open Relation Extraction、基于度量学习的框架)。
开放关系提取(Open Relation Extraction,OpenRE)旨在从开放域语料库中发现新的关系。通常,OpenRE工作利用从标记数据中学习到的关系语义知识来聚类未标记的关系实例。然而,这些知识通常没有得到充分的利用,并且在转移到另一个领域时表现不佳。为了解决上述挑战,本发明针对OpenRE提出了一种SemiORE(Semi-supervised OpenRelation Extraction,具有自加权损失的半监督学习框架),可以利用度量学习从标记数据中学习关系语义知识,然后SemiORE可以通过对无标记数据的无监督学习来识别新的关系。
在对上述深度学习的方法以及本发明方法的评估中,可以使用B3指标作为评分函数。B3指标是平衡聚类任务的准确率(Prec.)和召回率(Rec.)的标准指标。其中,B3的F1得分是准确率和召回率的调和均值。如表一所示,示出了不同深度学习的方法在FewRel、FewRel2.0以及CPR三个数据集上不同度量损失的结果数据。
表一
由表1可以得出,本发明所提供的方法相对于现有技术的有益效果为:
(1)本发明在三个数据集上的精度、召回率和F1分数上优于基线方法。这表明本发明可以有效地学习关系语义知识并发现新的关系。
(2)在FewRel数据集上,本发明框架的F1-score比MORE提高了4.6%,这表明半监督训练可以有效地转移标记数据中固有的知识,提高开放关系抽取的性能。与MORE相比,所提出的方法仅使用标记的训练数据就可以达到最佳性能,这显示了本发明的方法学习关系语义知识的优势。
(3)在数据集FewRel2.0上,本发明明显超过所有基线。FewRel2.0的标注训练数据与监督训练中的FewRel和测试集的不同域相同,但在FewRel2.0上仍能达到最佳性能。实验结果表明,本发明具有强大的知识域迁移能力。
(4)相比之下,本发明在CPR上的F1分数与最佳基线MORE相比提高了7%。CPR的域与FewRel2.0的域相似,但FewRel的域与CPR的区别更大。当MORE只使用训练标记数据时,它并不能很好地适应这种场景。实验结果表明,本发明可以跨域传递知识,并使用标记数据中的关系语义知识来提高低资源域中的开放关系抽取性能。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图5是本发明实施例提供的开放关系抽取装置的结构示意图。如图5所示,在一些实施例中,开放关系抽取装置5,包括:
获取模块510,用于获取开放域文本中的关系实例;其中,关系实例包括有标签数据和无标签数据。
编码模块520,用于根据预训练的编码器对无标签数据进行编码,得到无标签数据对应的关系表示;其中,编码器根据有标签数据和度量学习算法预训练得到。
聚类模块530,用于对无标签数据对应的关系表示进行聚类,得到伪标签数据。
抽取模块540,用于根据伪标签数据、有标签数据以及神经网络模型,确定开放域文本的关系抽取结果。
可选的,开放关系抽取装置5,还包括:预训练模块,用于从有标签数据中挖掘非平凡样本集;其中,非平凡样本集为具有非零损失的信息样本的集合,包括正样本对和负样本对;每个正样本对内的数据的相似性大于预设阈值;每个负样本对内的数据的相似性不大于预设阈值;根据非平凡样本集和度量学习算法,得到预训练的编码器。
可选的,预训练模块,具体用于根据非平凡样本集、自加权损失算法以及度量学习算法,得到预训练的编码器;其中,自加权损失算法由非平凡样本集中的样本与其边界之间的距离以及非平凡样本集中各样本之间的相对距离确定。
可选的,自加权损失算法的表达式为:
Ls=Lp+LN
其中,Ls为自加权损失,Lp为非平凡样本正集损失,LN为非平凡样本负集损失,B1为非平凡样本集的正样本对的大小,B2为非平凡样本集的负样本对的大小,γ为温度标量参数,si n为正样本对中的第i个样本,si p为负样本对中的第i个样本。
可选的,预训练模块,具体用于获取有标签数据之间的多个关系表示;将多个关系表示映射到高维的特征空间,得到多个高维隐藏表示;根据多个高维隐藏表示所对应的关系实例在特征空间中的距离,确定正样本对和负样本对。
可选的,聚类模块530,具体用于采用k-means算法对无标签数据对应的关系表示进行聚类,得到多个聚类中心;对多个聚类中心标记伪标签,得到伪标签数据。
可选的,抽取模块540,具体用于将伪标签数据和有标签数据输入到预训练的编码器中,得到关系实例的更新后的关系表示;将更新后的关系表示输入到神经网络模型中,得到开放域文本的关系抽取结果。
可选的,关系抽取结果包括开放域文本的多个新关系,以及每个新关系的精度、召回率和F1分数。
本实施例提供的开放关系抽取装置,可用于执行上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
图6是本发明实施例提供的电子设备的示意图。如图6所示,本发明的一个实施例提供的电子设备6,该实施例的电子设备6包括:处理器60、存储器61以及存储在存储器61中并可在处理器60上运行的计算机程序62。处理器60执行计算机程序62时实现上述各个开放关系抽取方法实施例中的步骤,例如图1所示的步骤110至步骤140。或者,处理器60执行计算机程序62时实现上述各系统实施例中各模块/单元的功能,例如图5所示模块510至540的功能。
示例性的,计算机程序62可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器61中,并由处理器60执行,以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序62在电子设备6中的执行过程。
电子设备6可以是服务器或终端,服务器可以是独立的物理服务器、云服务器、服务器集群等,在此不作限定。终端可以是电脑、笔记本、手机等,在此不作限定。电子设备6可包括,但不仅限于,处理器60、存储器61。本领域技术人员可以理解,图6仅仅是电子设备6的示例,并不构成对电子设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如终端还可以包括输入输出设备、网络接入设备、总线等。
所称处理器60可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器61可以是电子设备6的内部存储单元,例如电子设备6的硬盘或内存。存储器61也可以是电子设备6的外部存储设备,例如电子设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器61还可以既包括电子设备6的内部存储单元也包括外部存储设备。存储器61用于存储计算机程序以及终端所需的其他程序和数据。存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述开放关系抽取方法实施例中的步骤。
计算机可读存储介质存储有计算机程序62,计算机程序62包括程序指令,程序指令被处理器60执行时实现上述实施例方法中的全部或部分流程,也可以通过计算机程序62来指令相关的硬件来完成,计算机程序62可存储于一计算机可读存储介质中,该计算机程序62在被处理器60执行时,可实现上述各个方法实施例的步骤。其中,计算机程序62包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
计算机可读存储介质可以是前述任一实施例的终端的内部存储单元,例如终端的硬盘或内存。计算机可读存储介质也可以是终端的外部存储设备,例如终端上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,计算机可读存储介质还可以既包括终端的内部存储单元也包括外部存储设备。计算机可读存储介质用于存储计算机程序及终端所需的其他程序和数据。计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种开放关系抽取方法,其特征在于,包括:
获取开放域文本中的关系实例;其中,所述关系实例包括有标签数据和无标签数据;
根据预训练的编码器对所述无标签数据进行编码,得到所述无标签数据对应的关系表示;其中,所述编码器根据所述有标签数据和度量学习算法预训练得到;
对所述无标签数据对应的关系表示进行聚类,得到伪标签数据;
根据所述伪标签数据、所述有标签数据以及神经网络模型,确定所述开放域文本的关系抽取结果。
2.根据权利要求1所述的开放关系抽取方法,其特征在于,在根据预训练的编码器对所述无标签数据进行编码之前,所述方法还包括:
从所述有标签数据中挖掘非平凡样本集;其中,所述非平凡样本集为具有非零损失的信息样本的集合,包括正样本对和负样本对;所述每个正样本对内的数据的相似性大于预设阈值;所述每个负样本对内的数据的相似性不大于预设阈值;
根据所述非平凡样本集和度量学习算法,得到所述预训练的编码器。
3.根据权利要求2所述的开放关系抽取方法,其特征在于,所述根据所述非平凡样本集和度量学习算法,得到所述预训练的编码器,包括:
根据所述非平凡样本集、自加权损失算法以及度量学习算法,得到所述预训练的编码器;
其中,所述自加权损失算法由所述非平凡样本集中的样本与其边界之间的距离以及所述非平凡样本集中各样本之间的相对距离确定。
5.根据权利要求2所述的开放关系抽取方法,其特征在于,从所述有标签数据中挖掘非平凡样本集,包括:
获取所述有标签数据之间的多个关系表示;
将所述多个关系表示映射到高维的特征空间,得到多个高维隐藏表示;
根据所述多个高维隐藏表示所对应的关系实例在所述特征空间中的距离,确定所述正样本对和所述负样本对。
6.根据权利要求1所述的开放关系抽取方法,其特征在于,所述对所述无标签数据对应的关系表示进行聚类,得到伪标签数据,包括:
采用k-means算法对所述无标签数据对应的关系表示进行聚类,得到多个聚类中心;
对所述多个聚类中心标记伪标签,得到所述伪标签数据。
7.根据权利要求1所述的开放关系抽取方法,其特征在于,所述根据所述伪标签数据、所述有标签数据以及神经网络模型,确定所述开放域文本的关系抽取结果,包括:
将所述伪标签数据和所述有标签数据输入到预训练的编码器中,得到所述关系实例的更新后的关系表示;
将所述更新后的关系表示输入到所述神经网络模型中,得到所述开放域文本的关系抽取结果。
8.根据权利要求1-7任一项所述的开放关系抽取方法,其特征在于,所述关系抽取结果包括所述开放域文本的多个新关系,以及每个新关系的精度、召回率和F1分数。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上的权利要求1至8中任一项所述开放关系抽取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上的权利要求1至8中任一项所述开放关系抽取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210910590.6A CN115204142A (zh) | 2022-07-29 | 2022-07-29 | 开放关系抽取方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210910590.6A CN115204142A (zh) | 2022-07-29 | 2022-07-29 | 开放关系抽取方法、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115204142A true CN115204142A (zh) | 2022-10-18 |
Family
ID=83585503
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210910590.6A Pending CN115204142A (zh) | 2022-07-29 | 2022-07-29 | 开放关系抽取方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115204142A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116340552A (zh) * | 2023-01-06 | 2023-06-27 | 北京达佳互联信息技术有限公司 | 一种标签排序方法、装置、设备及存储介质 |
-
2022
- 2022-07-29 CN CN202210910590.6A patent/CN115204142A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116340552A (zh) * | 2023-01-06 | 2023-06-27 | 北京达佳互联信息技术有限公司 | 一种标签排序方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112214995B (zh) | 用于同义词预测的分层多任务术语嵌入学习 | |
US20230016365A1 (en) | Method and apparatus for training text classification model | |
WO2021121198A1 (zh) | 基于语义相似度的实体关系抽取方法、装置、设备及介质 | |
CN113505244B (zh) | 基于深度学习的知识图谱构建方法、系统、设备及介质 | |
WO2022222300A1 (zh) | 开放关系抽取方法、装置、电子设备及存储介质 | |
CN109902271B (zh) | 基于迁移学习的文本数据标注方法、装置、终端及介质 | |
WO2021056710A1 (zh) | 多轮问答识别方法、装置、计算机设备及存储介质 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN109783801B (zh) | 一种电子装置、多标签分类方法及存储介质 | |
CN115146068B (zh) | 关系三元组的抽取方法、装置、设备及存储介质 | |
WO2023092960A1 (zh) | 一种用于法律文书的命名实体识别的标注方法和装置 | |
CN113160917B (zh) | 一种电子病历实体关系抽取方法 | |
CN112052424B (zh) | 一种内容审核方法及装置 | |
CN113657105A (zh) | 基于词汇增强的医学实体抽取方法、装置、设备及介质 | |
CN115017879A (zh) | 文本对比方法、计算机设备及计算机存储介质 | |
CN114547301A (zh) | 文档处理、识别模型训练方法、装置、设备及存储介质 | |
CN115204142A (zh) | 开放关系抽取方法、设备及存储介质 | |
CN113837307A (zh) | 数据相似度计算方法、装置、可读介质及电子设备 | |
US20240028828A1 (en) | Machine learning model architecture and user interface to indicate impact of text ngrams | |
CN111597810A (zh) | 一种半监督解耦的命名实体识别方法 | |
CN115936003A (zh) | 基于神经网络的软件功能点查重方法、装置、设备及介质 | |
CN115982363A (zh) | 基于提示学习的小样本关系分类方法、系统、介质及电子设备 | |
CN116069946A (zh) | 一种基于深度学习的生物医学知识图谱构建方法 | |
CN114842301A (zh) | 一种图像注释模型的半监督训练方法 | |
CN114398482A (zh) | 一种词典构造方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |