CN112487190A - 基于自监督和聚类技术从文本中抽取实体间关系的方法 - Google Patents
基于自监督和聚类技术从文本中抽取实体间关系的方法 Download PDFInfo
- Publication number
- CN112487190A CN112487190A CN202011466109.6A CN202011466109A CN112487190A CN 112487190 A CN112487190 A CN 112487190A CN 202011466109 A CN202011466109 A CN 202011466109A CN 112487190 A CN112487190 A CN 112487190A
- Authority
- CN
- China
- Prior art keywords
- clustering
- module
- entities
- entity
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于自监督和聚类技术从文本中抽取实体间关系的方法,基于自我监督的思想,在无标签的数据集中进行关系提取;包括下文编码模块、聚类模块以及分类模块;上下文编码模块用于将数据进行编码,用于之后进行关系抽取和分析;聚类模块分为实体的自适应聚类和实体类别的自适应聚类两部分;实体的自适应聚类用于将实体编码直接进行聚类,得到的聚类结果是实体类别;实体类别的自适应聚类是将实体类别进行聚类,得到的结果是实体类别之间的关系;分类模块用于将各个模块联系起来共同训练。
Description
技术领域
本发明属于机器学习领域,涉及文本挖掘、信息抽取,尤其涉及一种基于自监督和聚类技术从文本中抽取实体间关系的方法。
背景技术
随着互联网的出现和发展,大量信息以各种形式出现在互联网上,例如新闻文章,研究出版物,博客,论坛等。如何从这些文本信息中提取出相关重要的信息成为了目前的主流研究趋势。信息提取(IE)[1]的基本目标就是从给定的文档存储库中提取特定种类的信息,并将其输出到结构化的存储库中[2]。关系抽取(RE)在信息抽取(IE)中起着关键作用,其目的是抽取自然语言句子中实体对之间的语义关系[3]。在构建知识图谱时,关系提取也是其中关键的模块。社会关系提取作为关系提取中的一个具体任务,在分析社交网络时是尤其重要的。社交网络是代表个人、团体或组织之间关系的一种方法[4]。社交网络分析(SNA)科学可以归结为人与人之间的一种中心概念关系,它们共同定义了我们是谁以及我们如何行动[5]。种族,教育,成长环境,性格都与我们的人际关系互动,并留下了不可磨灭的印记[6]。
社会关系抽取作为社交网络分析的重要组成部分,引起了广泛的关注。语言作为人类交流的方式之一,蕴含了各种丰富的信息,于是语言成为了进行关系抽取的一个重要基础。如今,关系抽取的技术发展迅速,主要分为有监督方法、半监督方法和无监督方法。
(1)有监督方法
有监督方法主要依赖于完全标注的语料库,已知关系类型,有时甚至已知关系实体,早期的有监督方法一般利用基于特征的方法,这些特征一般为各种词汇、语法、语义特征,Kambhatla[7]将这些特征组合输入到分类其中进行关系分类,Zhou[8]等人在Kambhatla工作的基础上探索了更多的特征来进行分类。为了解决没有显示特征的问题,基于核函数的方法出现了,此方法主要通过核函数来计算两个关系实例之间的相似度,具体的核函数有Bunescu and Mooney[9]提出的序列核函数、Collins and Duffffy[10]提出的卷积解析树核函数、Culotta and Sorensen[11]提出的依赖树核函数,Bunescu andMooney[12]提出的基于依赖树构成的图的核函数等。
近几年,深度学习方法的发展突飞猛进,用各种神经网络解决关系抽取的方法也有很多,例如Ziran Li[13]等人利用基于多粒度语言信息和外部语言知识的汉语关系提取框架来进行中文关系抽取,此框架是以LSTM为基础的。Tsu-Jui Fu[14]等人提出了GraphRel,这是一个端到端关系提取模型,该模型使用图卷积网络(GCN)共同学习命名实体和关系。
(2)半监督的方法
最经典的半监督学习方法就是Bootstrapping,此方法需要一个大的未标记的语料库和一些特殊的种子实例。Brin[15]就是利用这种思想提出了DIPRE模型,Jiang[16]应用多任务转移学习解决了一个弱监督的关系抽取(RE)问题。由于经典的Bootstrapping方法会出现语义漂移的问题,Hongtao Lin[17]等人提出了DualRE框架,采用对偶学习的思想使框架中的两个模块相互学习,以达到最好性能。
(3)无监督的方法
在实际应用中,希望从网络中大量的信息进行关系抽取,因此无监督的方法是一个很有潜力的方向。最早的无监督方法是由Hasegawap[18]等人提出,此方法的核心是聚类,只需要一个命名实体识别的触发器就可以进行关系聚类。Limin Yao[19]等人在使用聚类的基础上,结合主题模型对关系进行聚类。
为了发现训练语料库之外的数据中的关系,Edgar Gonzalez[20]等人在使用聚类方法时限定了条件,使得聚类方法应用到大规模数据中表现突出。Benjamin Rosenfeld[21]等人对不同聚类方法进行比较,并且提出了新的聚类评价指标。
目前主要有以下两个问题和挑战:
(1)目前,对于关系抽取方法,有监督方法已经发展的很成熟了。然而,网络中的大量信息都是未标注的,实际工作需要从网络中大量信息中提取出社会关系,并对社会关系的语义进行一定程度的表达。
(2)目前关系抽取的问题主要集中在实体关系抽取,然而对于分析社交网络来说,社会关系的抽取是尤为重要的。从社交网络的信息中提取出社会关系,这不仅对构建社交网络有着很重要的意义,对于构建个人画像也起着关键性作用。
[参考文献]
[1]M.-F.Moens.Information Extraction:Algorithms and Prospects in aRetrieval Context.Springer,2006.
[2]Pawar,Sachin,Girish K.Palshikar,and Pushpak Bhattacharyya."Relation extraction:A survey."arXiv preprint arXiv:1712.05191(2017).
[3]Li,Ziran,Ning Ding,Zhiyuan Liu,Haitao Zheng,and Ying Shen."ChineseRelation Extraction with Multi-Grained Information and External LinguisticKnowledge."In Proceedings of the 57th Annual Meeting of the Association forComputational Linguistics,pp.4377-4386.2019.
[4]Nasution,Mahyuddin K.M.,and Noah,S.A.M.:Superficial method forextracting social network for academic using Web snippets.In:Yu,J.et al.(eds.):Rough Set and Knowledge Technology(RSKT),LNAI,vol.6401,483-390,Springer,Heidelberg(2010).
[5]Gui,Feng,Feng Zhang,Yunlong Ma,Min Liu,and Weiming Shen."Socialrelation extraction of large-scale logistics network based on mapreduce."In2014 IEEE International Conference on Systems,Man,and Cybernetics(SMC),pp.2273-2277.IEEE,2014.
[6]M.Tsvetovat and A.Kouznetsov.Social Network Analysis for Startups,O'Reilly Media,2010,pp.2.
[7]N.Kambhatla.Combining lexical,syntactic,and semantic features withmaximum entropy models for extracting relations.In Proceedings of the ACL2004,2004.
[8]Zhou GuoDong,Su Jian,Zhang Jie,and Zhang Min.Exploring variousknowledge in relation extraction.In Proceedings of the 43rd annual meeting onassociation for computational linguistics,pages 427–434.As sociation forComputational Linguistics,2005.
[9]Raymond J Mooney and Razvan C Bunescu.Subsequence kernels forrelation extraction.In Advances in neural information processing systems,pages 171–178,2005.
[10]Michael Collins and Nigel Duffffy.Convolution kernels for naturallanguage.In Advances in neural information processing systems,pages 625–632,2001.
[11]Aron Culotta and Jeffffrey Sorensen.Dependency tree kernels forrelation extraction.In Proceedings of the 42nd Annual Meeting on Associationfor Computational Linguistics,page 423.Association for ComputationalLinguistics,2004.
[12]Razvan C Bunescu and Raymond J Mooney.A shortest path dependencykernel for relation extraction.In Proceedings of the conference on HumanLanguage Technology and Empirical Methods in Natural Language Processing,pages 724–731.Association for Computational Linguistics,2005.
[13]Li,Ziran,Ning Ding,Zhiyuan Liu,Haitao Zheng,and Ying Shen."Chinese Relation Extraction with Multi-Grained Information and ExternalLinguistic Knowledge."In Proceedings of the 57th Annual Meeting of theAssociation for Computational Linguistics,pp.4377-4386.2019.
[14]Fu,Tsu-Jui,Peng-Hsuan Li,and Wei-Yun Ma."GraphRel:Modeling textas relational graphs for joint entity and relation extraction."In Proceedingsof the 57th Annual Meeting of the Association for Computational Linguistics,pp.1409-1418.2019.
[15]Sergey Brin.Extracting patterns and relations from the world wideweb.In The World Wide Web and Databases,pages 172–183.Springer,1999.
[16]Jing Jiang.Multi-task transfer learning for weakly-supervisedrelation extraction.In Proceedings of the Joint Conference of the 47th AnnualMeeting of the ACL and the 4th International Joint Conference on NaturalLanguage Processing of the AFNLP:Volume 2-Volume 2,pages 1012–1020.Association for Computational Linguistics,2009.
[17]Lin,Hongtao,Jun Yan,Meng Qu,and Xiang Ren."Learning DualRetrieval Module for Semi-supervised Relation Extraction."In The World WideWeb Conference,pp.1073-1083.ACM,2019.
[18]Takaaki Hasegawa,Satoshi Sekine,and Ralph Grishman.Discoveringrelations among named entities from large corpora.In Proceedings of the 42ndAnnual Meeting on Association for Computational Linguistics,page415.Association for Computational Linguistics,2004.
[19]Yao,Limin,Sebastian Riedel,and Andrew McCallum."Unsupervisedrelation discovery with sense disambiguation."In Proceedings of the 50thAnnual Meeting of the Association for Computational Linguistics:Long Papers-Volume 1,pp.712-720.Association for Computational Linguistics,2012.
[20]Gonzalez,Edgar,and Jordi Turmo."Unsupervised relation extractionby massive clustering."In 2009Ninth IEEE International Conference on DataMining,pp.782-787.IEEE,2009.
[21]Rosenfeld,Benjamin,and Ronen Feldman."Clustering for unsupervisedrelation identification."In Proceedings of the sixteenth ACM conference onConference on information and knowledge management,pp.411-418.ACM,2007.
发明内容
本发明的目的是为了克服现有技术中的不足,提供一种基于自监督和聚类技术从文本中抽取实体间关系的方法,即基于自我监督的思想,在大量无标签的数据集中进行关系提取。
本发明的目的是通过以下技术方案实现的:
基于自监督和聚类技术从文本中抽取实体间关系的方法,基于自我监督的思想,在无标签的数据集中进行关系提取;包括下文编码模块、聚类模块以及分类模块;
上下文编码模块用于将数据进行编码,用于之后进行关系抽取和分析;上下文编码模块的编码模型采用BERT,输入为一个经过处理的句子X,将句子X进行分词、去停用词等具体操作后,句子X被分成T个词条,之后对句子X中的两个实体进行标注,在两个实体的前后分别做标注,具体输入形式如下:
X=[x1,…,[E1start],xi,…,xj-1,[E1end],…,[E2start],xk,…xl-1,[E2end],…,xT]
在以上的公式中,xi表示句子中的第i个词条,[E1start]表示句子中第一个实体的开头位置标注,[E1end]表示句子中第一个实体的结尾位置标注,句子共有T个词条;之后将X输入到BERT中,以句子X中两个实体的开始位置标注[E1start]和[E2start]作为两个实体的编码,提取出来作为下一模块的输入;
聚类模块分为实体的自适应聚类和实体类别对的自适应聚类两部分;实体的自适应聚类用于将实体编码直接进行聚类,得到的聚类结果是实体类别;实体类别对的自适应聚类是将实体类别对进行聚类,得到的结果是实体类别之间的关系;两种聚类的方法一样,首先将上下文编码模块得到的编码经过非线性映射编码为向量,然后利用k-means进行聚类,之后迭代非线性映射编码和聚类两个步骤,直到达到约束条件为止,此时聚类的结果被看作是下一模块的伪标签作为下一模块的输入;
分类模块的作用是将聚类模块的结果作为为标签,从而进行关系分类,确认实体间最终的关系;分类模块将上下文编码模块、聚类模块联系起来共同训练;分类模块根据聚类模块得出的伪标签和最初的输入数据得出伪标签在数据集上的分布l,利用交叉熵损失函数,并结合分布l和由真实标签数据构成的one-hot向量对本发明整体进行优化。
与现有技术相比,本发明的技术方案所带来的有益效果是:
1.本发明中的聚类方法与传统的聚类方法不同,本发明中的聚类又叫自适应性聚类,采用迭代地软分配学习过程,这样的好处在于让最有可能为同一类的样本聚集在一起,即鼓励高置信度分配来改善低置信度分配。本发明的自适应聚类很好的利用了神经网络提取特征的优点,在聚类之前先进行深层网络表示,这样的聚类方式可以提高聚类纯度,有效地防止了大型关系簇扭曲隐藏的特征空间;普通的K-means方法最大的不稳定性来源于聚类个数的选定,然而自适应聚类对聚类个数的选择有很好的适应性,聚类个数的选择对于模型的稳定产生不了很大的影响。
2.本发明利用实体所属类别之间的关系反向验证实体之间的关系,这样的关系抽取方式是自我优化的,实体之间的关联不仅体现在单纯的实体关系上,还体现在实体所属的类别上。本发明没有直接对实体对进行关系分类,而是进行了两次聚类,实体间的自适应聚类将数据集中的所有实体进行了分配,使得实体之间不再仅有是否存在于一个句子的联系,使得在不同句子中的实体有了联系。本发明充分利用了这种关联使得本发明方法的效果更好。
附图说明
图1是本发明方法的示例图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明提出的基于自监督和聚类技术从文本中抽取实体间关系的方法包括三个模块:上下文编码模块、聚类模块和分类模块。
1.上下文编码模块
上下文编码模块的目的是对在一个句子中的两个实体进行向量表示。在本发明中,假设已知句子中的实体已经被标注,本发明只关注两个实体之间的关系。一对实体之间的关系必定与他们的上下文所有关联,因此对于实体间上下文的表示是至关重要的,一个好的上下文向量表示可以很好地反应两个实体之间的关系。因此,在本发明中,本发明利用预先训练好的深度双向转换网络对实体以及其上下文进行编码。
首先,将一个句子表示成如下形式:
X=[x1,…,[E1start],xi,…,xj-1,[E1end],…,[E2start],xk,…xl-1,[E2end],…,xT] (1)
在以上的公式中,xi表示句子中的第i个词条,[E1start]表示句子中第一个实体的开头位置标注,[E1end]表示句子中第一个实体的结尾位置标注,句子共有T个词条。以上形式是遵循了Soares等人采用的标记模式,在句子X中引入了四个标记,分别代表了句子中已知实体的开始和结束位置。在本发明中,上下文编码器的公式表示为fθ(X,E1,E2),也就是说,输入一个句子X之后,本实施例将输出两个实体对应的开始位置的编码,即[E1start]和[E2start]两个位置的向量,在本发明中表示为和那么,将数据集所有句子的实体表示成H={h1,h2,…,hN}(N代表语料库中M个句子中一共有N个实体),并将H作为聚类模块的输入。
2聚类模块
聚类模块目的就是产生实体之间关系的伪标签,从而将伪标签输入给分类模块进行最后的关系分类。此模块的聚类不同于一般的聚类,本发明的聚类是自适应聚类,即先进行编码再聚类,并且编码和聚类相互促进,最后生成最后的聚类结果。自适应聚类鼓励高置信度分配,也就是将最有可能在某个簇的点分配到这个簇中,并且不受聚类数目的影响,这种分配方式在本发明中也称作软分配。此模块主要分为两个部分,实体的自适应聚类和实体类别对的自适应聚类。
2.1实体的自适应聚类
实体的自适应聚类的目的是为了获取到不同实体之间的某种联系,语料库中不同句子的两个实体可能不相同,同一句子的两个实体也有可能不相同,那么这些看起来一模一样的实体在不同的句子中具有的语义是一样的吗?如果一样的话,可不可以将这种语义提取出来,甚至是表示出来呢?因此,本实施例将上下文编码模块的输出H={h1,h2,…,hN}(N代表语料库中M个句子中一共有N个实体),作为实体的自适应聚类的输入。本发明中的自适应聚类包括两部分:(1)非线性映射部分:非线性映射gγ,此映射将转换成也就是说将上下文编码模块的表示h经过预处理的全连接神经网络进行更深层次的表示,最终表示成了z;(2)K-means聚类部分:训练出K个聚类中心,并且将N个实体Z={z1,z2,…,zN}通过软分配的方式分配到K个簇中。
在第一部分的非线性映射中,本发明仅采用了一组全连接层作为非线性映射的核心转换函数。此部分的全连接层不是随机初始化或者从零开始训练的,而是参考了Vincent等人对自动编码器训练的一些参数,本发明使用这些参数作为初始参数进行训练,自动编码器包括编码器和解码器两部分,本发明需要编码器部分,因此需要从训练后的自动编码器中提取的全连接层部分作为本部分的核心函数。
本发明中,先对自动编码器进行预训练,以h为输入,并在所有数据上进行最小化重构损失:
以上四个公式代表了整个编码器,公式(2)、(3)和公式(4)、(5)分别是两层简单的神经网络,公式(2)、(3)代表编码器,公式(4)、(5)代表解码器,Dropout(·)是随机映射函数,g1(·)和d1(·)是激活函数,分别负责编码和解码,W和b是编码器需要训练的参数。然而,下一步聚类只使用其中一层神经网络,即表示编码器的部分公式(2)、(3)。
在得到编码器的神经网络后,以此为非线性映射的核心函数,将上下文编码模块的输出H转化成Z,通过Z进行K-means聚类。
通过Xie等人的方法,本实施例使用学生t分布作为核心公式来衡量各个实体的深层表示向量zn与每个质心μk之间的相似性:
其中α代表学生t分布的自由度,qnk表示将第n个实体软分配给第k个簇的概率。本发明中所有的α=1,zn表示第n个实体的深层表示向量,μk表示第k个质心。
为了将非线性映射部分和聚类部分两部分进行互相优化,本发明参照Xie等人的方法引入了辅助分配概率,通过qnk将每个聚类归一化,具体公式为:
其中fk=∑nqnk是软聚类的频率,即在所有被软分配到第k个簇的所有样本的概率之和。
通过软分配概率qnk和辅助软分配概率pnk,定义一个KL散度损失来进行优化此聚类部分,具体公式如下:
从以上的步骤中,可以得到第n个样本被分配到第k个簇的最大概率,那么就认为这个拥有最大概率的簇的概率值就是第n个样本的伪标签tn,即:
tn=argmaxk∈Kpnk (9)
到此,本部分的训练结束,最后会得到K个实体类别,即实体之间的一种联系,这也反映了语料库的实体之间存在着某种联系。然而,本发明最终目的是为了得到实体之间的关系,于是要进一步对当前得到的K个实体类别进行处理。
2.2实体类别对的自适应聚类
本发明的最终目的是为了提取实体间的关系抽取,为了在更广泛意义上探究实体之间的关系,本发明在上一部分首先将上下文编码器输出的实体的编码作为特征空间进行自适应聚类,但那只是将实体进行了聚类,让实体之间有了联系。现在,将2.1得到的K个质心表示a={a1,a2,…,aK}提取出来,随机进行两两组合拼接,得到这里ωi叫第i个实体类别对,共有K2个实体类别对,将ω再次聚类,就能得到实体类别对的关系。
此时的聚类方式和2.1的聚类方式大致是一样的,分为两步:(1)非线性映射部分:将ω经过非线性映射成u(2)K-means聚类部分:通过K-means方法学习出J个聚类中心,即J个簇,并将K2个实体对软分配到J个簇中,获得最后的关系伪标签s={s1,s2,…,sM}。
由于此部分的聚类方式和之前几乎一样,于是不再赘述。
总得来说,本发明中的聚类模块与传统的聚类方法不同,本发明中的聚类又叫自适应性聚类,采用迭代地软分配学习过程,这样的好处在于让最有可能为同一类的数据样本聚集在一起,即鼓励高置信度分配来改善低置信度分配。最大的优点主要在于:(1)自适应聚类可以提高聚类纯度,也就是鼓励高置信度分配。(2)有效地防止了大型关系簇扭曲隐藏的特征空间(3)不需要预先指定目标关系的实际数量,更不需要关系的分布。
3.分类模块
本发明的核心思想是自我监督,这个思想就主要体现在此模块。在上面的自适应聚类模块为每个句子都标注了伪关系标签s={s1,s2,…,sM}。这些伪标签就可以作为分类模块的标签,从而可以进行关系分类。分类模块主要的目的就是使用这些伪标签来改变上下文编码器的特征学习,从而进一步影响最后的分类结果。
此模块使用的分类器和传统的有监督分类器相似,只不过本模块分类器的标签来自于聚类模块的伪标签。公式可以表示为:
ln=cτ(fθ(Xn,E1,E2)) (10)
从公式(10)可以看出,分类器结合了上下文编码器做了一定的改进,其中cτ表示带有参数τ的分类模块,ln是第n个样本在M个伪标签上的概率分布。为了找到上下文编码器的最佳性能参数θ和分类器的最佳性能参数τ,本发明又设计了以下损失函数,很好地将三个模块联系起来进行优化:
公式(11)的loss函数是交叉熵损失函数,one-hot(sn)表示一个第n个句子在M个伪标签上的one-hot向量,N表示一共有N个句子。
通过优化可以以迭代的方式重复进行自适应聚类和分类。换句话说,整个模型的标签就是来自于自身,自己产生伪标签,自己通过伪标签来进行关系分类,最后再通过损失函数反向优化上下文编码器的参数,从而优化了自适应聚类的参数,最后影响到分类模块。因此,本发明随着迭代地训练,为关系模块提供高质量的伪标签,从而达到了自我监督的目的。本发明的迭代终止条件是,当当前标签与前一次的差异小于10%时,本模型终止迭代。
进一步的,本实施例选用三个数据集作为实验材料,这些数据集被广泛应用于相关的研究中,分别为:NYT+FB数据集,T-Rex SPO数据集和T-Rex DS数据集。NYT+FB数据集是通过远程监督生成的数据集,也就是通过将纽约时报的语料库的句子与Freebase的三元组对齐生成的关系标签。
T-REx SPO数据集和T-REx DS数据集都来自于T-Rex数据集,该数据集通过将Wikipedia语料库与Wikidata的三元组对齐而生成的。在数据处理过程中,本实施例只选择了两个实体同时出现在同一个句子的样本。如果同一句子包含多个不同关系的实体对儿,那么这个句子会重复出现。根据数据集是否具有表面形式关系,将T-Rex数据集分为T-RExSPO数据集和T-REx DS数据集。具体信息见表1:
表1数据集信息统计
数据集 | 句子总数 | 关系总数 |
NYT+FB | 200万 | 216 |
T-REx SPO | 76.3万 | 615 |
T-REx DS | 1200万 | 1189 |
对于模型的训练,将三个数据集分别划分了训练集和验证集。其中训练集占数据集的80%,验证集占20%。这些数据集仍然包含一些未对齐的内容,但是这对于模型来说应该更容易提取正确的语义关系。
本发明中,使用标准的无监督评估指标进行评估,对于所有模型,假设目标关系的数量是已知的,并且为了方便评估,将类别数目设置为数据集真实数目,然后使用B3、V度量和ARI三个方法进行评估。
使用B3的精确率和召回率来衡量将每个句子放入其簇或者将所有样本归为一个类的正确率,具体公式为:
使用V度量来计算聚类的同质性和完整性,和B3的方法类似,但是具有条件熵:
Homogeneity=1-H(c(X)|g(X))/H(c(X))
Completeness=1-H(g(X)|c(X))/H(g(X))
ARI方法衡量了两个数据分布之间的一致性程度,ARI的范围是[-1,1],此数值越大,聚类结果与实际情况越一致。
下表2的内容展示了本模型在三个数据集上的效果。
表2基于三个数据集的评估对比结果
通过性能评估结果可以看出,在不同数据集和不同评估的情况下,本发明相对于基线模型都有了一定的改善。本发明的基线模型主要包括三个,Yao等人的Rel-LDA模型、Marcheggiani的March模型和Simon等人的UIE模型,这些模型都是无监督关系抽取领域的比较流行的模型。本发明的优点主要如下:
相对于SelfORE直接对实体对进行聚类,本发明先对实体进行聚类,在更宏观的层面上将实体类别聚类出来,使得实体之间有了联系,这种联系就是实体所属类别。将这些类别对进行二次聚类,从而得到了实体所属类别之间的关系。
利用实体所属类别之间的关系反向验证实体之间的关系,这样的关系抽取方式是自我优化的,实体之间的关联不仅体现在单纯的实体关系上,还体现在实体所属的类别上。本发明充分利用了这种关联使得模型的效果更好。
本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。
Claims (1)
1.基于自监督和聚类技术从文本中抽取实体间关系的方法,其特征在于,基于自我监督的思想,在无标签的数据集中进行关系提取;包括下文编码模块、聚类模块以及分类模块;
上下文编码模块用于将数据进行编码,用于之后进行关系抽取和分析;上下文编码模块的编码模型采用BERT,输入为一个经过处理的句子X,将句子X进行分词、去停用词具体操作后,句子X被分成T个词条,之后对句子X中的两个实体进行标注,在两个实体的前后分别做标注,具体输入形式如下:
X=[x1,…,[E1start],xi,…,xj-1,[E1end],…,[E2start],xk,…xl-1,[E2end],…,xT]
在以上的公式中,xi表示句子中的第i个词条,[E1start]表示句子中第一个实体的开头位置标注,[E1end]表示句子中第一个实体的结尾位置标注,句子共有T个词条;之后将X输入到BERT中,以句子X中两个实体的开始位置标注[E1start]和[E2start]作为两个实体的编码,提取出来作为下一模块的输入;
聚类模块分为实体的自适应聚类和实体类别对的自适应聚类两部分;实体的自适应聚类用于将实体编码直接进行聚类,得到的聚类结果是实体类别;实体类别对的自适应聚类是将实体类别对进行聚类,得到的结果是实体类别之间的关系;两种聚类的方法一样,首先将上下文编码模块得到的编码经过非线性映射编码为向量,然后利用k-means进行聚类,之后迭代非线性映射编码和聚类两个步骤,直到达到约束条件为止,此时聚类的结果被看作是下一模块的伪标签作为下一模块的输入;
分类模块的作用是将聚类模块的结果作为为标签,从而进行关系分类,确认实体间最终的关系;分类模块将上下文编码模块、聚类模块联系起来共同训练;分类模块根据聚类模块得出的伪标签和最初的输入数据得出伪标签在数据集上的分布l,利用交叉熵损失函数,并结合分布l和由真实标签数据构成的one-hot向量进行优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011466109.6A CN112487190B (zh) | 2020-12-13 | 2020-12-13 | 基于自监督和聚类技术从文本中抽取实体间关系的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011466109.6A CN112487190B (zh) | 2020-12-13 | 2020-12-13 | 基于自监督和聚类技术从文本中抽取实体间关系的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112487190A true CN112487190A (zh) | 2021-03-12 |
CN112487190B CN112487190B (zh) | 2022-04-19 |
Family
ID=74917594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011466109.6A Active CN112487190B (zh) | 2020-12-13 | 2020-12-13 | 基于自监督和聚类技术从文本中抽取实体间关系的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112487190B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051914A (zh) * | 2021-04-09 | 2021-06-29 | 淮阴工学院 | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 |
CN113672718A (zh) * | 2021-09-02 | 2021-11-19 | 杭州一知智能科技有限公司 | 基于特征匹配和领域自适应的对话意图识别方法及系统 |
CN113792758A (zh) * | 2021-08-18 | 2021-12-14 | 中国矿业大学 | 一种基于自监督学习和聚类的滚动轴承故障诊断方法 |
CN114880478A (zh) * | 2022-06-07 | 2022-08-09 | 昆明理工大学 | 基于主题信息增强的弱监督方面类别检测方法 |
CN115080694A (zh) * | 2022-06-27 | 2022-09-20 | 国网甘肃省电力公司电力科学研究院 | 一种基于知识图谱的电力行业信息分析方法及设备 |
CN116070700A (zh) * | 2023-02-02 | 2023-05-05 | 北京交通大学 | 融合迭代式主动学习的生物医学关系抽取方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104199972A (zh) * | 2013-09-22 | 2014-12-10 | 中科嘉速(北京)并行软件有限公司 | 一种基于深度学习的命名实体关系抽取与构建方法 |
CN106126734A (zh) * | 2016-07-04 | 2016-11-16 | 北京奇艺世纪科技有限公司 | 文档的分类方法和装置 |
KR20180129001A (ko) * | 2017-05-24 | 2018-12-05 | 한국과학기술원 | 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템 |
-
2020
- 2020-12-13 CN CN202011466109.6A patent/CN112487190B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104199972A (zh) * | 2013-09-22 | 2014-12-10 | 中科嘉速(北京)并行软件有限公司 | 一种基于深度学习的命名实体关系抽取与构建方法 |
CN106126734A (zh) * | 2016-07-04 | 2016-11-16 | 北京奇艺世纪科技有限公司 | 文档的分类方法和装置 |
KR20180129001A (ko) * | 2017-05-24 | 2018-12-05 | 한국과학기술원 | 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템 |
Non-Patent Citations (3)
Title |
---|
DAVID COMBE等: "Combining relations and text in scientific network clustering", 《HTTPS://HAL.ARCHIVES-OUVERTES.FR/HAL-00730226/DOCUMENT》 * |
XUMING HU等: "SelfORE: Self-supervised Relational Feature Learning for Open Relation Extraction", 《PROCEEDINGS OF THE 2020 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING》 * |
李冬梅等: "实体关系抽取方法研究综述", 《计算机研究与发展》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051914A (zh) * | 2021-04-09 | 2021-06-29 | 淮阴工学院 | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 |
CN113792758A (zh) * | 2021-08-18 | 2021-12-14 | 中国矿业大学 | 一种基于自监督学习和聚类的滚动轴承故障诊断方法 |
CN113792758B (zh) * | 2021-08-18 | 2023-11-07 | 中国矿业大学 | 一种基于自监督学习和聚类的滚动轴承故障诊断方法 |
CN113672718A (zh) * | 2021-09-02 | 2021-11-19 | 杭州一知智能科技有限公司 | 基于特征匹配和领域自适应的对话意图识别方法及系统 |
CN113672718B (zh) * | 2021-09-02 | 2024-04-05 | 杭州一知智能科技有限公司 | 基于特征匹配和领域自适应的对话意图识别方法及系统 |
CN114880478A (zh) * | 2022-06-07 | 2022-08-09 | 昆明理工大学 | 基于主题信息增强的弱监督方面类别检测方法 |
CN114880478B (zh) * | 2022-06-07 | 2024-04-23 | 昆明理工大学 | 基于主题信息增强的弱监督方面类别检测方法 |
CN115080694A (zh) * | 2022-06-27 | 2022-09-20 | 国网甘肃省电力公司电力科学研究院 | 一种基于知识图谱的电力行业信息分析方法及设备 |
CN116070700A (zh) * | 2023-02-02 | 2023-05-05 | 北京交通大学 | 融合迭代式主动学习的生物医学关系抽取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112487190B (zh) | 2022-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112487190B (zh) | 基于自监督和聚类技术从文本中抽取实体间关系的方法 | |
Jung | Semantic vector learning for natural language understanding | |
CN109635273B (zh) | 文本关键词提取方法、装置、设备及存储介质 | |
US11321671B2 (en) | Job skill taxonomy | |
CN106776711B (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
Chang et al. | Structured learning with constrained conditional models | |
Sun et al. | Sentiment analysis for Chinese microblog based on deep neural networks with convolutional extension features | |
CN113239700A (zh) | 改进bert的文本语义匹配设备、系统、方法及存储介质 | |
CN111325029B (zh) | 一种基于深度学习集成模型的文本相似度计算方法 | |
Heck et al. | Leveraging knowledge graphs for web-scale unsupervised semantic parsing | |
Chatterjee et al. | Intent mining from past conversations for conversational agent | |
CN110727839A (zh) | 自然语言查询的语义解析 | |
Hakkani-Tür et al. | Probabilistic enrichment of knowledge graph entities for relation detection in conversational understanding | |
CN116127090B (zh) | 基于融合和半监督信息抽取的航空系统知识图谱构建方法 | |
CN114218389A (zh) | 一种基于图神经网络的化工制备领域长文本分类方法 | |
CN104881399B (zh) | 基于概率软逻辑psl的事件识别方法和系统 | |
CN113761868A (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN113535897A (zh) | 一种基于句法关系和意见词分布的细粒度情感分析方法 | |
Palanivinayagam et al. | An optimized iterative clustering framework for recognizing speech | |
CN116304748A (zh) | 一种文本相似度计算方法、系统、设备及介质 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
Wu et al. | WTMED at MEDIQA 2019: A hybrid approach to biomedical natural language inference | |
Hashemzadeh et al. | Improving keyword extraction in multilingual texts. | |
Aghaei et al. | Question answering over knowledge graphs: A case study in tourism | |
Günther et al. | Retro: Relation retrofitting for in-database machine learning on textual data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |