CN115204142A - 开放关系抽取方法、设备及存储介质 - Google Patents

开放关系抽取方法、设备及存储介质 Download PDF

Info

Publication number
CN115204142A
CN115204142A CN202210910590.6A CN202210910590A CN115204142A CN 115204142 A CN115204142 A CN 115204142A CN 202210910590 A CN202210910590 A CN 202210910590A CN 115204142 A CN115204142 A CN 115204142A
Authority
CN
China
Prior art keywords
data
relation
open
sample
trivial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210910590.6A
Other languages
English (en)
Inventor
高凯
赵康
仇元喆
周二亮
勾智楠
董超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei Shangyun Information Technology Co ltd
Hebei University of Science and Technology
Original Assignee
Hebei Shangyun Information Technology Co ltd
Hebei University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei Shangyun Information Technology Co ltd, Hebei University of Science and Technology filed Critical Hebei Shangyun Information Technology Co ltd
Priority to CN202210910590.6A priority Critical patent/CN115204142A/zh
Publication of CN115204142A publication Critical patent/CN115204142A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种开放关系抽取方法、设备及存储介质,其首先获取开放域文本中的关系实例,然后根据预训练的编码器对无标签数据进行编码,得到无标签数据对应的关系表示,同时对无标签数据对应的关系表示进行聚类,得到伪标签数据,最后根据伪标签数据、有标签数据以及神经网络模型,确定出开放域文本的关系抽取结果。由于关系实例包括有标签数据和无标签数据,编码器根据有标签数据和度量学习算法预训练得到,因此通过该编码器可以从关系实例中抽取语义关系表示,进而对抽取的语义关系交替执行聚类和度量学习,即对有标签数据进行知识迁移,并将无标签数据和迁移的知识结合,以更新关系实例的语义关系表示,从而实现对开放域文本的充分利用。

Description

开放关系抽取方法、设备及存储介质
技术领域
本申请属于计算机应用技术领域,尤其涉及一种开放关系抽取方法、设备及存储介质。
背景技术
在深度学习技术高速发展的同时,也带来了数以亿计的知识信息。如何利用海量的知识信息,成为了一个不可忽视的问题。开放关系抽取是文本挖掘和信息抽取的核心任务,主要通过对文本信息建模,然后自动抽取出实体对之间的语义关系,从而提取出有效的语义知识。开放关系抽取的研究成果主要应用在文本摘要、自动问答、机器翻译、语义网标注、知识图谱等。
开放关系抽取工作通常是从标记数据中学习到的关系语义知识来聚类无标记的关系实例。然而,这些知识通常没有被充分利用,而且在转移到另一个领域时表现得很差。
发明内容
有鉴于此,本发明提供了一种开放关系抽取方法、设备及存储介质,旨在解决现有技术抽取到的关系语义知识没有被充分利用的问题。
本发明实施例的第一方面提供了一种开放关系抽取方法,包括:
获取开放域文本中的关系实例;其中,关系实例包括有标签数据和无标签数据;
根据预训练的编码器对无标签数据进行编码,得到无标签数据对应的关系表示;其中,编码器根据有标签数据和度量学习算法预训练得到;
对无标签数据对应的关系表示进行聚类,得到伪标签数据;
根据伪标签数据、有标签数据以及神经网络模型,确定开放域文本的关系抽取结果。
本发明实施例的第二方面提供了一种开放关系抽取装置,包括:
获取模块,用于获取开放域文本中的关系实例;其中,关系实例包括有标签数据和无标签数据;
编码模块,用于根据预训练的编码器对无标签数据进行编码,得到无标签数据对应的关系表示;其中,编码器根据有标签数据和度量学习算法预训练得到;
聚类模块,用于对无标签数据对应的关系表示进行聚类,得到伪标签数据;
抽取模块,用于根据伪标签数据、有标签数据以及神经网络模型,确定开放域文本的关系抽取结果。
本发明实施例的第三方面提供了一种电子设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上第一方面的开放关系抽取方法的步骤。
本发明实施例的第四方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如上第一方面的开放关系抽取方法的步骤。
本发明实施例提供的开放关系抽取方法、设备及存储介质,其首先获取开放域文本中的关系实例,然后根据预训练的编码器对无标签数据进行编码,得到无标签数据对应的关系表示,同时对无标签数据对应的关系表示进行聚类,得到伪标签数据,最后根据伪标签数据、有标签数据以及神经网络模型,确定出开放域文本的关系抽取结果。由于关系实例包括有标签数据和无标签数据,编码器根据有标签数据和度量学习算法预训练得到,因此,通过该编码器可以从关系实例中抽取语义关系表示,进而对抽取的语义关系交替执行聚类和度量学习,即对有标签数据进行知识迁移,并将无标签数据和迁移的知识进行结合,以更新关系实例的语义关系表示,从而实现对开放域文本的充分利用。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的开放关系抽取方法的实现流程图;
图2是本发明另一实施例提供的开放关系抽取方法的实现流程图;
图3是本发明实施例提供的开放关系抽取方法的逻辑框架图;
图4是本发明又一实施例提供的开放关系抽取方法的实现流程图;
图5是本发明实施例提供的开放关系抽取装置的结构示意图;
图6是本发明实施例提供的电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
图1是本发明实施例提供的开放关系抽取方法的实现流程图。如图1所示,在一些实施例中,开放关系抽取方法,包括:
S110,获取开放域文本中的关系实例;其中,关系实例包括有标签数据和无标签数据。
本发明实施例中,执行开放关系抽取方法的设备可以是终端或服务器,相应的,开放域文本可以是从其他设备存储的大量数据中获取的数据,例如,执行开放关系抽取方法的终端通过网络访问服务器或平台,获取其中存储的开放域文本,也可以是自身数据库存储的数据,例如,执行开放关系抽取方法的服务器从自身的数据库中调用。在此不作限定。对于关系实例,有标签数据代表已知的关系实例,无标签数据代表未知的关系实例。具体的,关系实例的格式可以为:头实体,尾实体,原句子。
S120,根据预训练的编码器对无标签数据进行编码,得到无标签数据对应的关系表示;其中,编码器根据有标签数据和度量学习算法预训练得到。
本发明实施例中,关系表示具体为关系语义表示,用于表示抽取出的实体对之间的语义关系,从而提取出有效的语义知识(知识三元组)。可以采用BERT作为实例的编码器实现关系表示的抽取。为了尽可能挖掘实例之间的语义关系,可以使用已知的关系实例对编码器进行深度度量学习的预训练,从而使模型有效地学习关系语义知识。在预训练过程中,为了挖掘隐含语义知识,需要设置相应的损失函数。损失函数可以是对边际损失函数、基于对的自加权损失函数等,在此不作限定。
S130,对无标签数据对应的关系表示进行聚类,得到伪标签数据。
本发明实施例中,聚类的算法可以是k-means算法、KNN算法、基于密度的聚类算法等,在此不作限定。
S140,根据伪标签数据、有标签数据以及神经网络模型,确定开放域文本的关系抽取结果。
本发明实施例中,神经网络模型可以是卷积神经网络模型、深度网络模型等,在此不作限定。开放域文本的关系抽取结果为实例之间的多个新关系。
本发明实施例中,由于关系实例包括有标签数据和无标签数据,编码器根据有标签数据和度量学习算法预训练得到,因此,通过该编码器可以从关系实例中抽取语义关系表示,然后对抽取的语义关系交替执行聚类和度量学习,即对有标签数据进行知识迁移,进而将无标签数据和迁移的知识进行结合,以更新关系实例的语义关系表示,从而实现对开放域文本的充分利用。
图2是本发明另一实施例提供的开放关系抽取方法的实现流程图。如图2所示,通过对有标签数据进行深度度量学习,然后结合无标签数据的聚类结果,可以得到多个新关系,实现关系知识迁移。其中,Encoder f()表示编码器。
图3是本发明实施例提供的开放关系抽取方法的逻辑框架图。其中,图3中的a部分是编码器的编码过程,从a部分可以看出,开放关系抽取的关键是获得更好的关系语义表示。本发明使用BERT对实体对和上下文信息进行编码,以得到关系表示。
例如,给定一个句子x=[w1,…,w|x|]和一对实体(E1,E2),然后用四个保留字片段对x进行扩充,以标记句子中提到的每个实体的开始和结束,得到新的令牌序列。所以新的令牌序列被输入BERT编码器而不是x。
在一些实施例中,S121可以包括:获取有标签数据之间的多个关系表示;将多个关系表示映射到高维的特征空间,得到多个高维隐藏表示;根据多个高维隐藏表示所对应的关系实例在特征空间中的距离,确定正样本对和负样本对。
本发明实施例中,正样本对和负样本对可以用于预训练。为了得到两个实体之间的最终关系表示,可以将E1和E2的位置对应的输出连接起来,然后映射到一个高维隐藏表示
Figure BDA0003773850580000051
映射关系如下:
h=W[h[E1];h[E2]]+b, (1)
其中,
Figure BDA0003773850580000052
W和b是可训练的参数,f(·)表示实例编码器,归一化关系表示,||f(·)||用于模型优化。
深度度量学习是一个监督学习过程,聚类是一个无监督学习过程。图3中的b部分是监督学习框架图。图3中的c部分是无监督学习框架图。从b和c部分可以看出,对于无标签的数据,需要先进行编码,无标签数据用BERT编码器进行编码时,编码器中已经包含了一部分有标签关系表示的知识,在编码无标签数据时可以将有标签的一部分数据迁移过来,然后再用编码好的关系表示进行聚类,可以得到之前不知道的关系中心,将关系中心打上伪标签,认为是一种新识别出的关系。
通过将监督学习和无监督学习相结合,能够实现对实例的半监督学习,在半监督学习过程中,交替执行聚类和度量学习,以学习聚类友好的特征表示。
图4是本发明又一实施例提供的开放关系抽取方法的实现流程图。如图4所示,在一些实施例中,在S120之前,开放关系抽取方法还包括:
S121,从有标签数据中挖掘非平凡样本集;其中,非平凡样本集为具有非零损失的信息样本的集合,包括正样本对和负样本对;每个正样本对内的数据的相似性大于预设阈值;每个负样本对内的数据的相似性不大于预设阈值。
S122,根据非平凡样本集和度量学习算法,得到预训练的编码器。
本发明实施例中,首先对于有标签的数据,进行的过程叫做深度度量学习。这个过程是对关系表示通过一个特征抽取器(编码器的分为编码过程和特征抽取过程)进行特征抽取,特征抽取的结果是让正样本对在特征空间里的关系表示距离更近,负样本对的关系表示距离变远。为了达到这个结果,需要用损失函数去优化特征抽取器。
为了实现上述目标,可以选择成对边际损失函数作为学习关系表示的约束。例如,给定一个实例x,目标是将负样本推到边界αn之外,同时将正样本拉得比另一个边界αp更近。则成对边际损失函数为:
Figure BDA0003773850580000061
其中,如果yi=yj,则yij=1,否则yij=0。sij=||||f(xi)||-||f(xj)||||2,是两个实例之间的欧几里得距离。[·]+表示铰链函数。
非平凡数据点是具有非零损失的特殊信息示例,可以实现快速收敛,具有良好的性能。挖掘出的非平凡实例可用于学习实例之间的关系语义知识。对于一个锚点(实例)xi,挖掘的正样本对可以表示为Pi={xj|i≠j,yi=yj,sijp}。同理,挖掘的负样本对可以表示为Ni={xj|yi≠yj,sijn}。为了充分利用非平凡样本集,损失函数需要考虑这些非平凡样本与其边界之间的距离以及与非平凡样本集中其他样本的相对距离。因此,可以采用基于对的自加权损失函数作为模型约束,上述基于对的自加权损失函数以自加权损失算法的形式实现。
在一些实施例中,S122可以包括:根据非平凡样本集、自加权损失算法以及度量学习算法,得到预训练的编码器;其中,自加权损失算法由非平凡样本集中的样本与其边界之间的距离以及非平凡样本集中各样本之间的相对距离确定。
在一些实施例中,自加权损失算法的表达式为:
Ls=Lp+LN (3)
Figure BDA0003773850580000071
Figure BDA0003773850580000072
其中,Ls为自加权损失,Lp为非平凡样本正集损失,LN为非平凡样本负集损失,B1为非平凡样本集的正样本对的大小,B2为非平凡样本集的负样本对的大小,γ为温度标量参数,si n为正样本对中的第i个样本,si p为负样本对中的第i个样本。
本发明实施例中,关于自加权损失函数的参数的导数可以计算为:
Figure BDA0003773850580000073
其中,m为批次的大小。
Figure BDA0003773850580000074
是可以认为是一个没有参与θ的梯度计算的常数标量,
Figure BDA0003773850580000075
可以被视为
Figure BDA0003773850580000076
的权重并重写为:
Figure BDA0003773850580000077
其中,
Figure BDA0003773850580000078
从自加权损失可知si∈Ni∪Pi。对非平凡正样本对的权重wi可以进一步分析得到:
Figure BDA0003773850580000079
式(8)证明正样本对的权重不仅由[sip]+确定,而且还受其他非平凡样本的影响。
当si接近边界αp时,样本对的权重会减小,反之则会增加。此外,当其他非平凡样本比锚点更近时,
Figure BDA0003773850580000081
会增加指数缩放后的整体影响,使模型专注于优化此类样本。最重要的是,损失可以为不同的样本对生成权重,可以灵活地用于挖掘那些非平凡的样本,使模型有效地学习集群友好的特征表示。
在一些实施例中,对无标签数据对应的关系表示进行聚类,得到伪标签数据,包括:采用k-means算法对无标签数据对应的关系表示进行聚类,得到多个聚类中心;对多个聚类中心标记伪标签,得到伪标签数据。
本发明实施例中,从已知关系中转移知识后,聚类方法用于从未标记的数据中发现新的关系。编码器可以生成结构化输出作为特征学习的弱监督信号。
首先,可以通过编码器抽取未标记数据的关系表示。对于给定的未标记训练数据
Figure BDA0003773850580000082
可以使用BERT获得每个样本的关系表示:
Figure BDA0003773850580000083
其中,f(·)是式(9)中引入的编码器。
Figure BDA0003773850580000084
是第i个样本的关系表示。
然后,可以采用K-Means聚类算法,在未标记数据的关系表示的基础上,得到每个样本的伪标签yu
Figure BDA0003773850580000085
最后,伪标签可以用于训练编码器以更新关系表示,其中,损失函数用于优化未标记数据的语义嵌入空间。在模型测试期间,可以通过k-means对抽取的关系表示进行聚类,以发现测试数据上的新关系。
本发明实施例中,打上伪标签之后,无标签的数据可以看作是有标签的数据,不过这个标签是“1,2,3…”等伪标签,然后可以将其像有标签的数据一样进入BERT编码器,以更新关系表示,得到新关系。
在一些实施例中,S130可以包括:将伪标签数据和有标签数据输入到预训练的编码器中,得到关系实例的更新后的关系表示;将更新后的关系表示输入到神经网络模型中,得到开放域文本的关系抽取结果。
在一些实施例中,关系抽取结果包括开放域文本的多个新关系,以及每个新关系的精度、召回率和F1分数。
为了证明本发明模型框架的有效性,下面提供一个实施示例将本发明的模型与几种基于深度学习的方法进行了比较,但并不作为限定。
其中,对比所使用的深度学习的方法包括:RSN(Relation Siamese Network,关系孪生网络)、SelfORE(Self-supervised Relational Feature Learning for OpenRelation,开放关系的自监督关系特征学习)、ODC(Online Deep Clustering forUnsupervised Representation Learning,在线深度聚类的无监督表示学习)、MORE(Metric learning-based Open Relation Extraction、基于度量学习的框架)。
开放关系提取(Open Relation Extraction,OpenRE)旨在从开放域语料库中发现新的关系。通常,OpenRE工作利用从标记数据中学习到的关系语义知识来聚类未标记的关系实例。然而,这些知识通常没有得到充分的利用,并且在转移到另一个领域时表现不佳。为了解决上述挑战,本发明针对OpenRE提出了一种SemiORE(Semi-supervised OpenRelation Extraction,具有自加权损失的半监督学习框架),可以利用度量学习从标记数据中学习关系语义知识,然后SemiORE可以通过对无标记数据的无监督学习来识别新的关系。
在对上述深度学习的方法以及本发明方法的评估中,可以使用B3指标作为评分函数。B3指标是平衡聚类任务的准确率(Prec.)和召回率(Rec.)的标准指标。其中,B3的F1得分是准确率和召回率的调和均值。如表一所示,示出了不同深度学习的方法在FewRel、FewRel2.0以及CPR三个数据集上不同度量损失的结果数据。
表一
Figure BDA0003773850580000091
Figure BDA0003773850580000101
由表1可以得出,本发明所提供的方法相对于现有技术的有益效果为:
(1)本发明在三个数据集上的精度、召回率和F1分数上优于基线方法。这表明本发明可以有效地学习关系语义知识并发现新的关系。
(2)在FewRel数据集上,本发明框架的F1-score比MORE提高了4.6%,这表明半监督训练可以有效地转移标记数据中固有的知识,提高开放关系抽取的性能。与MORE相比,所提出的方法仅使用标记的训练数据就可以达到最佳性能,这显示了本发明的方法学习关系语义知识的优势。
(3)在数据集FewRel2.0上,本发明明显超过所有基线。FewRel2.0的标注训练数据与监督训练中的FewRel和测试集的不同域相同,但在FewRel2.0上仍能达到最佳性能。实验结果表明,本发明具有强大的知识域迁移能力。
(4)相比之下,本发明在CPR上的F1分数与最佳基线MORE相比提高了7%。CPR的域与FewRel2.0的域相似,但FewRel的域与CPR的区别更大。当MORE只使用训练标记数据时,它并不能很好地适应这种场景。实验结果表明,本发明可以跨域传递知识,并使用标记数据中的关系语义知识来提高低资源域中的开放关系抽取性能。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图5是本发明实施例提供的开放关系抽取装置的结构示意图。如图5所示,在一些实施例中,开放关系抽取装置5,包括:
获取模块510,用于获取开放域文本中的关系实例;其中,关系实例包括有标签数据和无标签数据。
编码模块520,用于根据预训练的编码器对无标签数据进行编码,得到无标签数据对应的关系表示;其中,编码器根据有标签数据和度量学习算法预训练得到。
聚类模块530,用于对无标签数据对应的关系表示进行聚类,得到伪标签数据。
抽取模块540,用于根据伪标签数据、有标签数据以及神经网络模型,确定开放域文本的关系抽取结果。
可选的,开放关系抽取装置5,还包括:预训练模块,用于从有标签数据中挖掘非平凡样本集;其中,非平凡样本集为具有非零损失的信息样本的集合,包括正样本对和负样本对;每个正样本对内的数据的相似性大于预设阈值;每个负样本对内的数据的相似性不大于预设阈值;根据非平凡样本集和度量学习算法,得到预训练的编码器。
可选的,预训练模块,具体用于根据非平凡样本集、自加权损失算法以及度量学习算法,得到预训练的编码器;其中,自加权损失算法由非平凡样本集中的样本与其边界之间的距离以及非平凡样本集中各样本之间的相对距离确定。
可选的,自加权损失算法的表达式为:
Ls=Lp+LN
Figure BDA0003773850580000111
Figure BDA0003773850580000112
其中,Ls为自加权损失,Lp为非平凡样本正集损失,LN为非平凡样本负集损失,B1为非平凡样本集的正样本对的大小,B2为非平凡样本集的负样本对的大小,γ为温度标量参数,si n为正样本对中的第i个样本,si p为负样本对中的第i个样本。
可选的,预训练模块,具体用于获取有标签数据之间的多个关系表示;将多个关系表示映射到高维的特征空间,得到多个高维隐藏表示;根据多个高维隐藏表示所对应的关系实例在特征空间中的距离,确定正样本对和负样本对。
可选的,聚类模块530,具体用于采用k-means算法对无标签数据对应的关系表示进行聚类,得到多个聚类中心;对多个聚类中心标记伪标签,得到伪标签数据。
可选的,抽取模块540,具体用于将伪标签数据和有标签数据输入到预训练的编码器中,得到关系实例的更新后的关系表示;将更新后的关系表示输入到神经网络模型中,得到开放域文本的关系抽取结果。
可选的,关系抽取结果包括开放域文本的多个新关系,以及每个新关系的精度、召回率和F1分数。
本实施例提供的开放关系抽取装置,可用于执行上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
图6是本发明实施例提供的电子设备的示意图。如图6所示,本发明的一个实施例提供的电子设备6,该实施例的电子设备6包括:处理器60、存储器61以及存储在存储器61中并可在处理器60上运行的计算机程序62。处理器60执行计算机程序62时实现上述各个开放关系抽取方法实施例中的步骤,例如图1所示的步骤110至步骤140。或者,处理器60执行计算机程序62时实现上述各系统实施例中各模块/单元的功能,例如图5所示模块510至540的功能。
示例性的,计算机程序62可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器61中,并由处理器60执行,以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序62在电子设备6中的执行过程。
电子设备6可以是服务器或终端,服务器可以是独立的物理服务器、云服务器、服务器集群等,在此不作限定。终端可以是电脑、笔记本、手机等,在此不作限定。电子设备6可包括,但不仅限于,处理器60、存储器61。本领域技术人员可以理解,图6仅仅是电子设备6的示例,并不构成对电子设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如终端还可以包括输入输出设备、网络接入设备、总线等。
所称处理器60可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器61可以是电子设备6的内部存储单元,例如电子设备6的硬盘或内存。存储器61也可以是电子设备6的外部存储设备,例如电子设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器61还可以既包括电子设备6的内部存储单元也包括外部存储设备。存储器61用于存储计算机程序以及终端所需的其他程序和数据。存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述开放关系抽取方法实施例中的步骤。
计算机可读存储介质存储有计算机程序62,计算机程序62包括程序指令,程序指令被处理器60执行时实现上述实施例方法中的全部或部分流程,也可以通过计算机程序62来指令相关的硬件来完成,计算机程序62可存储于一计算机可读存储介质中,该计算机程序62在被处理器60执行时,可实现上述各个方法实施例的步骤。其中,计算机程序62包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
计算机可读存储介质可以是前述任一实施例的终端的内部存储单元,例如终端的硬盘或内存。计算机可读存储介质也可以是终端的外部存储设备,例如终端上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,计算机可读存储介质还可以既包括终端的内部存储单元也包括外部存储设备。计算机可读存储介质用于存储计算机程序及终端所需的其他程序和数据。计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种开放关系抽取方法,其特征在于,包括:
获取开放域文本中的关系实例;其中,所述关系实例包括有标签数据和无标签数据;
根据预训练的编码器对所述无标签数据进行编码,得到所述无标签数据对应的关系表示;其中,所述编码器根据所述有标签数据和度量学习算法预训练得到;
对所述无标签数据对应的关系表示进行聚类,得到伪标签数据;
根据所述伪标签数据、所述有标签数据以及神经网络模型,确定所述开放域文本的关系抽取结果。
2.根据权利要求1所述的开放关系抽取方法,其特征在于,在根据预训练的编码器对所述无标签数据进行编码之前,所述方法还包括:
从所述有标签数据中挖掘非平凡样本集;其中,所述非平凡样本集为具有非零损失的信息样本的集合,包括正样本对和负样本对;所述每个正样本对内的数据的相似性大于预设阈值;所述每个负样本对内的数据的相似性不大于预设阈值;
根据所述非平凡样本集和度量学习算法,得到所述预训练的编码器。
3.根据权利要求2所述的开放关系抽取方法,其特征在于,所述根据所述非平凡样本集和度量学习算法,得到所述预训练的编码器,包括:
根据所述非平凡样本集、自加权损失算法以及度量学习算法,得到所述预训练的编码器;
其中,所述自加权损失算法由所述非平凡样本集中的样本与其边界之间的距离以及所述非平凡样本集中各样本之间的相对距离确定。
4.根据权利要求3所述的开放关系抽取方法,其特征在于,所述自加权损失算法的表达式为:
Ls=Lp+LN
Figure FDA0003773850570000021
Figure FDA0003773850570000022
其中,Ls为自加权损失,Lp为非平凡样本正集损失,LN为非平凡样本负集损失,B1为所述非平凡样本集的正样本对的大小,B2为所述非平凡样本集的负样本对的大小,γ为温度标量参数,si n为所述正样本对中的第i个样本,
Figure FDA0003773850570000023
为所述负样本对中的第i个样本。
5.根据权利要求2所述的开放关系抽取方法,其特征在于,从所述有标签数据中挖掘非平凡样本集,包括:
获取所述有标签数据之间的多个关系表示;
将所述多个关系表示映射到高维的特征空间,得到多个高维隐藏表示;
根据所述多个高维隐藏表示所对应的关系实例在所述特征空间中的距离,确定所述正样本对和所述负样本对。
6.根据权利要求1所述的开放关系抽取方法,其特征在于,所述对所述无标签数据对应的关系表示进行聚类,得到伪标签数据,包括:
采用k-means算法对所述无标签数据对应的关系表示进行聚类,得到多个聚类中心;
对所述多个聚类中心标记伪标签,得到所述伪标签数据。
7.根据权利要求1所述的开放关系抽取方法,其特征在于,所述根据所述伪标签数据、所述有标签数据以及神经网络模型,确定所述开放域文本的关系抽取结果,包括:
将所述伪标签数据和所述有标签数据输入到预训练的编码器中,得到所述关系实例的更新后的关系表示;
将所述更新后的关系表示输入到所述神经网络模型中,得到所述开放域文本的关系抽取结果。
8.根据权利要求1-7任一项所述的开放关系抽取方法,其特征在于,所述关系抽取结果包括所述开放域文本的多个新关系,以及每个新关系的精度、召回率和F1分数。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上的权利要求1至8中任一项所述开放关系抽取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上的权利要求1至8中任一项所述开放关系抽取方法的步骤。
CN202210910590.6A 2022-07-29 2022-07-29 开放关系抽取方法、设备及存储介质 Pending CN115204142A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210910590.6A CN115204142A (zh) 2022-07-29 2022-07-29 开放关系抽取方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210910590.6A CN115204142A (zh) 2022-07-29 2022-07-29 开放关系抽取方法、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115204142A true CN115204142A (zh) 2022-10-18

Family

ID=83585503

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210910590.6A Pending CN115204142A (zh) 2022-07-29 2022-07-29 开放关系抽取方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115204142A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116340552A (zh) * 2023-01-06 2023-06-27 北京达佳互联信息技术有限公司 一种标签排序方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116340552A (zh) * 2023-01-06 2023-06-27 北京达佳互联信息技术有限公司 一种标签排序方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN112214995B (zh) 用于同义词预测的分层多任务术语嵌入学习
US20230016365A1 (en) Method and apparatus for training text classification model
WO2021121198A1 (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN113505244B (zh) 基于深度学习的知识图谱构建方法、系统、设备及介质
WO2022222300A1 (zh) 开放关系抽取方法、装置、电子设备及存储介质
CN109902271B (zh) 基于迁移学习的文本数据标注方法、装置、终端及介质
WO2021056710A1 (zh) 多轮问答识别方法、装置、计算机设备及存储介质
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN109783801B (zh) 一种电子装置、多标签分类方法及存储介质
CN115146068B (zh) 关系三元组的抽取方法、装置、设备及存储介质
WO2023092960A1 (zh) 一种用于法律文书的命名实体识别的标注方法和装置
CN113160917B (zh) 一种电子病历实体关系抽取方法
CN112052424B (zh) 一种内容审核方法及装置
CN113657105A (zh) 基于词汇增强的医学实体抽取方法、装置、设备及介质
CN115017879A (zh) 文本对比方法、计算机设备及计算机存储介质
CN114547301A (zh) 文档处理、识别模型训练方法、装置、设备及存储介质
CN115204142A (zh) 开放关系抽取方法、设备及存储介质
CN113837307A (zh) 数据相似度计算方法、装置、可读介质及电子设备
US20240028828A1 (en) Machine learning model architecture and user interface to indicate impact of text ngrams
CN111597810A (zh) 一种半监督解耦的命名实体识别方法
CN115936003A (zh) 基于神经网络的软件功能点查重方法、装置、设备及介质
CN115982363A (zh) 基于提示学习的小样本关系分类方法、系统、介质及电子设备
CN116069946A (zh) 一种基于深度学习的生物医学知识图谱构建方法
CN114842301A (zh) 一种图像注释模型的半监督训练方法
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination