CN107958025B - 弱监督实体关系抽取方法及其装置和电子设备 - Google Patents

弱监督实体关系抽取方法及其装置和电子设备 Download PDF

Info

Publication number
CN107958025B
CN107958025B CN201711113364.0A CN201711113364A CN107958025B CN 107958025 B CN107958025 B CN 107958025B CN 201711113364 A CN201711113364 A CN 201711113364A CN 107958025 B CN107958025 B CN 107958025B
Authority
CN
China
Prior art keywords
entity
multivariate
pairs
candidate
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711113364.0A
Other languages
English (en)
Other versions
CN107958025A (zh
Inventor
徐硕
王政
杨兴兵
赵桂荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Retech Digital Technology Co ltd
Beijing University of Technology
Original Assignee
Beijing Retech Digital Technology Co ltd
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Retech Digital Technology Co ltd, Beijing University of Technology filed Critical Beijing Retech Digital Technology Co ltd
Priority to CN201711113364.0A priority Critical patent/CN107958025B/zh
Publication of CN107958025A publication Critical patent/CN107958025A/zh
Application granted granted Critical
Publication of CN107958025B publication Critical patent/CN107958025B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种弱监督实体关系抽取方法及其装置和电子设备,本发明提供的技术方案中,通过在文档合集中获取多组已组合的候选实体对,候选实体对中包含具有实体关系的两个实体;分别抽取各组候选实体对相应的多元语法特征;根据多元语法特征,生成各组候选实体对相应的状态变量和特征向量;根据各组候选实体对分别对应的多元语法特征、状态变量和特征向量来训练预设的实体关系抽取模型,以抽取各组候选实体对中的实体关系对应的关系类型,本发明有效应用多元语法特征,并有机地集成到预设的实体关系抽取模型中,更全面地综合了语言的复杂性和表达的多样性,使得实体关系的识别更为准确,有效提升了弱监督学习实体关系抽取的效果。

Description

弱监督实体关系抽取方法及其装置和电子设备
技术领域
本发明涉及数据挖掘、机器学习、信息抽取与分析领域,具体而言,本发明涉及一种弱监督实体关系抽取方法及其装置和电子设备。
背景技术
以互联网技术为代表的现代通讯技术的普及与发展前所未有地方便了人类知识的交流,而不断增长的数据量恰恰证明了这一点。正如第一次工业革命使用煤炭驱动蒸汽机,第二次工业革命使用电力和石油驱动电灯、电话、汽车和飞机一样,如何充分利用大数据驱动生产、生活方式的改变,是新时代所赋予的重要使命。早在1996年,由美国军方背景支持的MTU会议就意识到了数据的能量,提出要通过多种手段提升人类利用数据的能力,并对这一目标给出了具体而详细的阐述,实体关系抽取就是其中的一项基本任务。
实体关系的精准抽取对许多大数据智能应用系统的成功构建大有裨益,包括机器翻译、检索系统、个人智能助理等。传统上,许多商业或者学术项目首先通过全面、高质量的标注数据训练实体关系抽取器,然后再通过实体关系抽取器从未标注数据中抽取实体关系,这种被称为监督实体关系抽取方法以高昂的人力、物力和财力成本为代价,而数据增长的速度决定了人们可以付出的成本远远满足不了实际真实需求。另一种方式是弱监督实体关系抽取方法,可进一步细分为半监督、远程监督和无监督实体关系抽取方法,它尝试利用较少的标注数据,以较低的成本自动从海量信息中识别实体关系,以应对大数据时代的挑战。
具体来说,弱监督实体关系的抽取效果取决于具体模型对于相似语义特征的聚类效果。而实体关系的种类比较丰富,二元关系如Person-Org关系和Org-Address关系,多元关系如“A由B和C等组成”,不同的语义关系表达不同的含义,由于自然语言表达的复杂性和多样性,具有相同语义关系的实体对通常出现在特征类似的背景中,例如CEO-of关系的实例可能和如下特征有关:chief executive officer、CEO、senior corporate officer等,大大增加了识别难度。目前多数抽取方法普遍是基于一个文本,忽略其词序、语法和句法,将其仅仅看做是一个词集合,或者说是词的一个组合,文本中每个词的出现都是独立的,不依赖于其他词是否出现。虽然这种被称作“词袋假设”的思路被许多模型和方法所继承,但这种假设并不符合实际情形,使得实体关系的抽取效果并不理想。
发明内容
本发明的目的旨在至少能解决上述的技术缺陷之一,特别是实体关系难以正确抽取的技术缺陷。
本发明提供了一种弱监督实体关系抽取方法,包括:
在文档合集中获取多组已组合的候选实体对,所述候选实体对中包含具有实体关系的两个实体;
分别抽取各组候选实体对相应的多元语法特征;
根据所述多元语法特征,生成各组候选实体对相应的状态变量和特征向量;
根据各组候选实体对分别对应的多元语法特征、状态变量和特征向量来训练预设的实体关系抽取模型,以抽取各组候选实体对中的实体关系对应的关系类型。
进一步地,所述根据各组候选实体对分别对应的多元语法特征、状态变量和特征向量来训练预设的实体关系抽取模型的步骤,包括:
根据各组候选实体对中的两个实体、各组候选实体对分别对应的元语法特征、状态变量和特征向量来训练预设的实体关系抽取模型。
具体地,所述多元语法特征包括以下至少一项:
依赖路径;词汇;词性;依赖属性对;源实体;目标实体;
其中,所述多元语法特征至少分为以下类型:
关系相关特征;源实体相关特征;目标实体相关特征;
所述依赖路径、所述词汇及所述词性属于关系相关特征;所述依赖属性对及所述源实体属于源实体相关特征;所述依赖属性对及所述目标实体属于目标实体相关特征。
进一步地,所述状态变量为所述多元语法特征中的任一特征对应的状态变量;以及,
所述特征向量包括以下至少一项:
由多元语法特征中的任一特征和该任一特征的前一特征对应的多项式分布;
所述状态变量的二项式分布。
更进一步地,所述特征向量还包括以下至少一项:
源实体类型的多项式分布;
源实体相关特征的多项式分布;
目标实体类型的多项式分布;
目标实体相关特征的多项式分布。
实际应用中,所述在文档合集中获取多组已组合的候选实体对的步骤,包括:
收集预定领域的无结构或半结构文档,生成文档合集;
对所述文档合集进行预处理;
在预处理后的文档合集中,对构成任一实体关系的实体进行组合,以生成候选实体对;
其中,所述预处理包括以下至少一种方式:
过滤停用特征词;
过滤出现频率少于阈值的特征词;
对出现的特征词进行消歧;
将大写字母转变为小写形式。
进一步地,所述根据各组候选实体对分别对应的多元语法特征、状态变量和特征向量来训练预设的实体关系抽取模型,以抽取各组候选实体对中的实体关系对应的关系类型的步骤,包括:
采用近似推断算法根据各组候选实体对分别对应的多元语法特征、状态变量和特征向量对预设的实体关系抽取模型中的参数变量进行估计;
根据估计结果设定所述实体关系抽取模型中的参数的具体数值;
依据所述参数的具体数值,通过所述实体关系抽取模型,来抽取各组候选实体对中的实体关系对应的关系类型。
更进一步地,所述弱监督实体关系抽取方法还包括:
将属于同一关系类型的候选实体对聚合成一簇实体对聚簇;
根据任一实体对聚簇所包含的多元语法特征确定该实体对聚簇的真实语义关系。
本发明还提供了一种弱监督实体关系抽取装置,包括:
候选实体对获取模块,用于在文档合集中获取多组已组合的候选实体对,所述候选实体对中包含具有实体关系的两个实体;
语法特征抽取模块,用于分别抽取各组候选实体对相应的多元语法特征;
参数生成模块,用于根据所述多元语法特征,生成各组候选实体对相应的状态变量和特征向量;
实体关系抽取模块,用于根据各组候选实体对分别对应的多元语法特征、状态变量和特征向量来训练预设的实体关系抽取模型,以抽取各组候选实体对中的实体关系对应的关系类型。
进一步地,所述实体关系抽取模块还用于根据各组候选实体对中的两个实体、各组候选实体对分别对应的多元语法特征、状态变量和特征向量来训练预设的实体关系抽取模型。
具体地,所述多元语法特征包括以下至少一项:
依赖路径;词汇;词性;依赖属性对;源实体;目标实体;
其中,所述多元语法特征至少分为以下类型:
关系相关特征;源实体相关特征;目标实体相关特征;
所述依赖路径、所述词汇及所述词性属于关系相关特征;所述依赖属性对及所述源实体属于源实体相关特征;所述依赖属性对及所述目标实体属于目标实体相关特征。
进一步地,所述状态变量为所述多元语法特征中的任一特征对应的状态变量;以及,
所述特征向量包括以下至少一项:
由多元语法特征中的任一特征和该任一特征的前一特征对应的多项式分布;
所述状态变量的二项式分布。
更进一步地,所述特征向量还包括以下至少一项:
源实体类型的多项式分布;
源实体相关特征的多项式分布;
目标实体类型的多项式分布;
目标实体相关特征的多项式分布。
实际应用中,所述候选实体对获取模块具体用于收集预定领域的无结构或半结构文档,生成文档合集;对所述文档合集进行预处理;在预处理后的文档合集中,对构成任一实体关系的实体进行组合,以生成候选实体对;
其中,所述预处理包括以下至少一种方式:
过滤停用特征词;
过滤出现频率少于阈值的特征词;
对出现的特征词进行消歧;
将大写字母转变为小写形式。
进一步地,所述实体关系抽取模块具体用于采用近似推断算法根据各组候选实体对分别对应的多元语法特征、状态变量和特征向量对预设的实体关系抽取模型中的参数变量进行估计;根据估计结果设定所述实体关系抽取模型中的参数的具体数值;依据所述参数的具体数值,通过所述实体关系抽取模型,来抽取各组候选实体对中的实体关系对应的关系类型。
更进一步地,所述弱监督实体关系抽取装置还包括:
真实语义关系确定模块,用于将属于同一关系类型的候选实体对聚合成一簇实体对聚簇;根据任一实体对聚簇所包含的多元语法特征确定该实体对聚簇的真实语义关系。
本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以上任一项所述的弱监督实体关系抽取方法。
本发明提供的技术方案中,通过在文档合集中获取多组已组合的候选实体对,候选实体对中包含具有实体关系的两个实体;分别抽取各组候选实体对相应的多元语法特征;根据多元语法特征,生成各组候选实体对相应的状态变量和特征向量;根据各组候选实体对分别对应的多元语法特征、状态变量和特征向量来训练预设的实体关系抽取模型,以抽取各组候选实体对中的实体关系对应的关系类型,与现有技术相比,本发明有效应用多元语法特征,并有机地集成到预设的实体关系抽取模型中,更全面地综合了语言的复杂性和表达的多样性,使得实体关系的识别更为准确,有效提升了弱监督学习实体关系抽取的效果。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例提供的弱监督实体关系抽取方法的流程示意图;
图2为本发明实施例提供的实体关系抽取模型一的实例图;
图3为本发明实施例提供的实体关系抽取模型二的实例图;
图4为本发明实施例提供的弱监督实体关系抽取装置的框架示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本发明实施例提供了一种弱监督实体关系抽取方法及其装置和电子设备,将实体关系抽取任务建模成一种产生式贝叶斯网络模型,以LDA(Latent Dirichlet Allocation)模型为基础,有效应用多元语法特征,并有机地集成到预设的实体关系抽取模型中,更全面地综合了语言的复杂性和表达的多样性,使得实体关系的识别更为准确,有效提升了弱监督学习实体关系抽取的效果。下面通过实施例进行描述。
如图1多示,本发明实施例提供了一种弱监督实体关系抽取方法,包括:
步骤S101:在文档合集中获取多组已组合的候选实体对,候选实体对中包含具有实体关系的两个实体。
实际应用中,需要预先收集预定领域的无结构或半结构文档,生成文档合集,预定领域是指和普遍专业技术分类大致相同的领域,例如:生物医学领域。
其中,语种包括但不限于英文、中文等。
为了方便下文中更清楚地说明本发明实施例的技术方案,假设文档合集中包括收集得到的共M篇文档。
本发明实施例中,可以对文档合集进行预处理;
其中,预处理包括以下至少一种方式:
过滤停用特征词,停用特征词(Stop Words)是指在文档处理过程中遇到的某些词,立即停止处理,将其忽略,例如英文字符、数字、数学字符、标点符号及使用频率特高的单汉字等;
过滤出现频率少于阈值的特征词,该阈值可以根据文档合集的大小进行设定,在此不做限制;
对出现的特征词进行消歧,就是确定一个多义词的哪一种语义在一特殊的使用环境中被调用;
将大写字母转变为小写形式。
以上预处理过程主要是为了节省存储空间,忽略文档合集中明显不关键的特征词,以及自动获取并确认特征词的意义,提高效率。
在预处理后的文档合集中,对构成任一实体关系的实体进行组合,以生成候选实体对。本发明的实施例中,可以将共同出现在同一语法单元中的两个实体组合成候选实体对,因此,在文档合集中可以得到多组逐对组合而成的候选实体对,假设获取的候选实体对数量为N,可以理解,因为每组候选实体对都对应各自的实体关系,因此文档合集中也就包含N个实体关系,其中关系类型的数量为K。
步骤S102:分别抽取各组候选实体对相应的多元语法特征。
针对每组候选实体对,通过自然语言处理抽取相应的多元语法特征,其中,多元语法特征包括以下至少一项:
依赖路径、词汇、词性、依赖属性对、源实体、目标实体,以下将举例说明。
例如,“Gamma Knife,made by the Swedish medical technology firm Elekta,focuses low-dosage gamma”这一语法单元中,可以提取出如表1所示的特征,其中R,S和D分别代表关系,源实体和目标实体。
Figure BDA0001465706920000081
Figure BDA0001465706920000091
表1
上表中,描述词性的字符分别表示:
VBN:Verb,past participle(动词,过去分词);
IN:preposition orconjunction,subordinating(介词或从属连词);
DT:determiner(表示限定词);
JJ:adjective or numeral,ordinal(形容词或序数词);
NN:Normal noun(常用名词)。
描述依赖属性对的字符分别表示:
partmod:participial modifier(动词形式的修饰);
pobj:object of a preposition(介词的宾语)。
可见,以上特征具有交互作用,在本发明实施例中考虑各交互的特征对抽取实体关系的影响,如图2所示的预设的实体关系抽取模型一展示的,即为多元语法特征的应用。
本发明另一实施例中,在能够确定实体类型数量的情况下,可以将多元语法特征至少分为以下类型:
关系相关特征、源实体相关特征、目标实体相关特征。
这三类特征分别由不同的隐变量:实体关系、源实体类型和目标实体类型生成,而后两者也由实体关系生成,如图3所示的预设的实体关系抽取模型二展示的,即为三类多元语法特征的应用。具体而言,依赖路径、词汇及词性属于关系相关特征;依赖属性对及源实体属于源实体相关特征;依赖属性对及目标实体属于目标实体相关特征。
步骤S103:根据多元语法特征,生成各组候选实体对相应的状态变量和特征向量。
继续如图2所示,状态变量是指多元语法特征中的任一特征对应的状态变量,用yj,n,m表示。
而特征向量包括以下至少一项:
由多元语法特征中的任一特征和该任一特征的前一特征对应的多项式分布,用
Figure BDA0001465706920000101
表示;
状态变量的二项式分布,用
Figure BDA0001465706920000102
表示。
本发明另一实施例中,在能够确定实体类型数量的情况下,继续如图3所示,所述特征向量还包括以下至少一项:
源实体类型的多项式分布,用
Figure BDA0001465706920000103
表示;
源实体相关特征的多项式分布,用
Figure BDA0001465706920000104
表示;
目标实体类型的多项式分布,用
Figure BDA0001465706920000105
表示;
目标实体相关特征的多项式分布,用
Figure BDA0001465706920000106
表示。
步骤S104:根据各组候选实体对分别对应的多元语法特征、状态变量和特征向量来训练预设的实体关系抽取模型,以抽取各组候选实体对中的实体关系对应的关系类型。
本发明另一实施例中,在能够确定实体类型数量的情况下,根据各组候选实体对中的两个实体、各组候选实体对分别对应的多元语法特征、状态变量和特征向量来训练预设的实体关系抽取模型。
进一步地,采用近似推断算法根据各组候选实体对分别对应的多元语法特征、状态变量和特征向量对预设的实体关系抽取模型中的参数变量进行估计,即上述如图2所示的预设的实体关系抽取模型一和/或如图3所示的预设的实体关系抽取模型二。两图中应用到的符号见表2所示。其可以采用的近似推断算法包括但不限于:变分推断、随机推断、期望传播、马尔可夫链蒙特卡罗(MCMC)等。
Figure BDA0001465706920000107
Figure BDA0001465706920000111
表2
结合图2和图3我们可以理解,图中的表征实体关系向量的参数
Figure BDA0001465706920000112
是随机变量,服从一定的分布,对应了固定的样本信息,即实体关系样本zn,m,因此,通过研究参数
Figure BDA0001465706920000113
的分布,就可以得到实体关系。
结合预设的实体关系抽取模型,便可推导第M篇文档中的第N个实体关系的全部条件概率,即对参数
Figure BDA0001465706920000114
进行估计。
根据估计结果设定实体关系抽取模型中的参数的具体数值,例如图2和图3中示出的关系类型数量K,实体类型数量K(T)、超参
Figure BDA0001465706920000115
等,以及模型的迭代次数等。依据参数的具体数值,通过实体关系抽取模型,来抽取各组候选实体对中的实体关系对应的关系类型。也就是求得参数
Figure BDA0001465706920000116
的多项式分布,再以概率大小来确定各组候选实体对中的实体关系对应的关系类型数量K的取值。
步骤S105:将属于同一关系类型的候选实体对聚合成一簇实体对聚簇;根据任一实体对聚簇所包含的多元语法特征确定该实体对聚簇的真实语义关系,即相应实体对的语义关系。
判断聚簇语义的方法包括但不限于:
(1)根据提取的特征进行人工推断;
(2)根据事先标注的少量关系实例聚集的情况自动判断。
需要强调的是,对于本领域技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进或利用本发明所述方法和模型与新的特征与特征匹配方式相结合,从而设计新的弱监督实体关系抽取方法,这些也应视为属于本发明的保护范围。
本发明实施例提供的弱监督实体关系抽取方法,通过在文档合集中获取多组已组合的候选实体对,候选实体对中包含具有实体关系的两个实体;分别抽取各组候选实体对相应的多元语法特征;根据多元语法特征,生成各组候选实体对相应的状态变量和特征向量;根据各组候选实体对分别对应的多元语法特征、状态变量和特征向量来训练预设的实体关系抽取模型,以抽取各组候选实体对中的实体关系对应的关系类型,与现有技术相比,本发明有效应用多元语法特征,并有机地集成到预设的实体关系抽取模型中,更全面地综合了语言的复杂性和表达的多样性,使得实体关系的识别更为准确,有效提升了弱监督学习实体关系抽取的效果。
为了便于理解本申请,下面结合具体应用情况,对本发明上述技术方案作详细说明具体如下:
实施例1
本实例采用本发明方法建立一种实体关系抽取系统,Java编程语言开发,读取文本数据。具体步骤如下:
第1步:收集整理生物医学数据集GENIA和EPI(Epigenetics and Post-translational Modification)。GENIA语料包含1,065篇来自分子生物学的文档,EPI语料包含了732篇,这两个语料都标注了两种关系:存在于基因和蛋白质组件之间的PROTEIN-COMPONENT(蛋白质组份,以下简称R1)和存在于蛋白质与其复合体之间的SUBUITE-COMPLEX(亚基复合体,以下简称R2)。这两种关系的参数的实体类型一般会被标注成PROTEIN(蛋白质),或者被标注成没有特定含义的ENTITY(实体)。
第2步:在第1步的基础上,对收集的信息过滤停用语法特征,过滤掉长度超过三十个字符长度的特征,对出现的实体进行消歧并将同一个句子内部的任意两个实体组合成实体对,最后所有单词转变为小写形式。经过以上数据清洗过程,GENIA语料共生成了29,563个实体对,其中包括1,695个R1关系实例和647和R2关系实例。EPI语料生成了12,497个实体对,其中包括643个R1关系实例和245个R2关系实例;相关信息如表3所示。
Figure BDA0001465706920000131
表3
第3步:在第2步的基础上,针对每个候选实体对,通过自然语言处理抽取表1所示的特征。
第4步:在第3步的基础上,在如图2所示的预设的实体关系抽取模型一或如图3所示的预设的实体关系抽取模型二中,利用吉布斯采样算法完成模型推断工作,其中吉布斯采样算法为马尔可夫链蒙特卡罗(MCMC)的一个特例,经推导,实体关系抽取模型一的全部条件概率(Full Conditionals)公式为:
Figure BDA0001465706920000141
Figure BDA0001465706920000142
其中,
Figure BDA0001465706920000143
Figure BDA0001465706920000144
ck,m表示文档M中实体关系K的数量,ci,k表示实体关系K生成一元语法特征i的次数,ci,i',k表示给定前一个特征i'情况下实体关系K生成二元语法特征i的次数,cy,i,k表示给定前一个特征i情况下实体关系K生成状态变量y(值为0或1)的次数。
类似的,实体关系抽取模型二的全部条件概率公式为:
Figure BDA0001465706920000145
Figure BDA0001465706920000151
其中
Figure BDA0001465706920000152
Figure BDA0001465706920000153
分别表示实体关系K生成两个实体类型
Figure BDA0001465706920000154
Figure BDA0001465706920000155
的次数,而
Figure BDA0001465706920000156
表示实体类型K生成特征i的次数。
第5步:在第4步的基础上,由于标注了两种关系和两种实体类型,在保留适当冗余的情况下将关系数量K和实体类型数量K(T)均设置为3,所有超参设置为0.1,吉布斯采样迭代次数设置为2000次,运行实体关系抽取模型,直到整个过程趋于收敛,完成实体关系抽取任务。
第6步:结合两个数据集事先标注的情况,在第5步基础上可以得到实体关系抽取结果,相关结果的评价如表4所示,所采用的评价指标包括准确率(Precision)、召回率(Recall)和F值(F-score),总体来说实体关系抽取效果不错,特别是在GENIA数据集上的表现。
Figure BDA0001465706920000157
Figure BDA0001465706920000161
表4
本发明提出的弱监督实体关系抽取方法能够自动识别多元语法特征,并将其有机集成到实体关系抽取模型中,所构建的实体关系抽取模型一和实体关系抽取模型二提高了实体关系抽取的效果,可以为多种大数据智能应用系统的构建提供知识库支撑,实施例验证了本发明的有效性。
实施例2
本发明还提供了一种弱监督实体关系抽取装置,包括:
候选实体对获取模块401,用于在文档合集中获取多组已组合的候选实体对,候选实体对中包含具有实体关系的两个实体;
语法特征抽取模块402,用于分别抽取各组候选实体对相应的多元语法特征;
参数生成模块403,用于根据多元语法特征,生成各组候选实体对相应的状态变量和特征向量;
实体关系抽取模块404,用于根据各组候选实体对分别对应的多元语法特征、状态变量和特征向量来训练预设的实体关系抽取模型,以抽取各组候选实体对中的实体关系对应的关系类型。
进一步地,实体关系抽取模块404还用于根据各组候选实体对中的两个实体、各组候选实体对分别对应的多元语法特征、状态变量和特征向量来训练预设的实体关系抽取模型。
具体地,多元语法特征包括以下至少一项:
依赖路径;词汇;词性;依赖属性对;源实体;目标实体;
其中,多元语法特征至少分为以下类型:
关系相关特征;源实体相关特征;目标实体相关特征;
依赖路径、词汇及词性属于关系相关特征;依赖属性对及源实体属于源实体相关特征;依赖属性对及目标实体属于目标实体相关特征。
进一步地,状态变量为多元语法特征中的任一特征对应的状态变量;以及,
特征向量包括以下至少一项:
由多元语法特征中的任一特征和该任一特征的前一特征对应的多项式分布;
状态变量的二项式分布。
更进一步地,特征向量还包括以下至少一项:
源实体类型的多项式分布;
源实体相关特征的多项式分布;
目标实体类型的多项式分布;
目标实体相关特征的多项式分布。
实际应用中,候选实体对获取模块401具体用于收集预定领域的无结构或半结构文档,生成文档合集;对文档合集进行预处理;在预处理后的文档合集中,对构成任一实体关系的实体进行组合,以生成候选实体对;
其中,预处理包括以下至少一种方式:
过滤停用特征词;
过滤出现频率少于阈值的特征词;
对出现的特征词进行消歧;
将大写字母转变为小写形式。
进一步地,实体关系抽取模块404具体用于采用近似推断算法根据各组候选实体对分别对应的多元语法特征、状态变量和特征向量对预设的实体关系抽取模型中的参数变量进行估计;根据估计结果设定实体关系抽取模型中的参数的具体数值;依据参数的具体数值,通过实体关系抽取模型,来抽取各组候选实体对中的实体关系对应的关系类型。
更进一步地,弱监督实体关系抽取装置还包括:
真实语义关系确定模块405,用于将属于同一关系类型的候选实体对聚合成一簇实体对聚簇;根据任一实体对聚簇所包含的多元语法特征确定该实体对聚簇的真实语义关系。
本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以上任一项所述的弱监督实体关系抽取方法。
本发明实施例所提供的弱监督实体关系抽取装置和电子设备,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,该部分未提及之处,可参考前述方法实施例中相应内容,在此不再赘述。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (15)

1.一种弱监督实体关系抽取方法,其特征在于,包括:
在文档合集中获取多组已组合的候选实体对,所述候选实体对中包含具有实体关系的两个实体;
分别抽取各组候选实体对相应的多元语法特征;
根据所述多元语法特征,生成各组候选实体对相应的状态变量和特征向量;
根据各组候选实体对分别对应的多元语法特征、状态变量和特征向量来训练预设的实体关系抽取模型,以抽取各组候选实体对中的实体关系对应的关系类型;
所述多元语法特征包括以下至少一项:
依赖路径;词汇;词性;依赖属性对;源实体;目标实体;
其中,所述多元语法特征至少分为以下类型:
关系相关特征;源实体相关特征;目标实体相关特征;
所述依赖路径、所述词汇及所述词性属于关系相关特征;所述依赖属性对及所述源实体属于源实体相关特征;所述依赖属性对及所述目标实体属于目标实体相关特征。
2.根据权利要求1所述的弱监督实体关系抽取方法,其特征在于,所述根据各组候选实体对分别对应多元语法特征、状态变量和特征向量来训练预设的实体关系抽取模型的步骤,包括:
根据各组候选实体对中的两个实体、各组候选实体对分别对应的多元语法特征、状态变量和特征向量来训练预设的实体关系抽取模型。
3.根据权利要求1或2所述的弱监督实体关系抽取方法,其特征在于,所述状态变量为所述多元语法特征中的任一特征对应的状态变量;以及,
所述特征向量包括以下至少一项:
由多元语法特征中的任一特征和该任一特征的前一特征对应的多项式分布;
所述状态变量的二项式分布。
4.根据权利要求3所述的弱监督实体关系抽取方法,其特征在于,所述特征向量还包括以下至少一项:
源实体类型的多项式分布;
源实体相关特征的多项式分布;
目标实体类型的多项式分布;
目标实体相关特征的多项式分布。
5.根据权利要求1或2所述的弱监督实体关系抽取方法,其特征在于,所述在文档合集中获取多组已组合的候选实体对的步骤,包括:
收集预定领域的无结构或半结构文档,生成文档合集;
对所述文档合集进行预处理;
在预处理后的文档合集中,对构成任一实体关系的实体进行组合,以生成候选实体对;
其中,所述预处理包括以下至少一种方式:
过滤停用特征词;
过滤出现频率少于阈值的特征词;
对出现的特征词进行消歧;
将大写字母转变为小写形式。
6.根据权利要求1或2所述的弱监督实体关系抽取方法,其特征在于,所述根据各组候选实体对分别对应的多元语法特征、状态变量和特征向量来训练预设的实体关系抽取模型,以抽取各组候选实体对中的实体关系对应的关系类型的步骤,包括:
采用近似推断算法根据各组候选实体对分别对应的多元语法特征、状态变量和特征向量对预设的实体关系抽取模型中的参数变量进行估计;
根据估计结果设定所述实体关系抽取模型中的参数的具体数值;
依据所述参数的具体数值,通过所述实体关系抽取模型,来抽取各组候选实体对中的实体关系对应的关系类型。
7.根据权利要求1或2所述的弱监督实体关系抽取方法,其特征在于,还包括:
将属于同一关系类型的候选实体对聚合成一簇实体对聚簇;
根据任一实体对聚簇所包含的多元语法特征确定该实体对聚簇的真实语义关系。
8.一种弱监督实体关系抽取装置,其特征在于,包括:
候选实体对获取模块,用于在文档合集中获取多组已组合的候选实体对,所述候选实体对中包含具有实体关系的两个实体;
语法特征抽取模块,用于分别抽取各组候选实体对相应的多元语法特征;
参数生成模块,用于根据所述多元语法特征,生成各组候选实体对相应的状态变量和特征向量;
实体关系抽取模块,用于根据各组候选实体对分别对应的多元语法特征、状态变量和特征向量来训练预设的实体关系抽取模型,以抽取各组候选实体对中的实体关系对应的关系类型;
所述多元语法特征包括以下至少一项:
依赖路径;词汇;词性;依赖属性对;源实体;目标实体;
其中,所述多元语法特征至少分为以下类型:
关系相关特征;源实体相关特征;目标实体相关特征;
所述依赖路径、所述词汇及所述词性属于关系相关特征;所述依赖属性对及所述源实体属于源实体相关特征;所述依赖属性对及所述目标实体属于目标实体相关特征。
9.根据权利要求8所述的弱监督实体关系抽取装置,其特征在于,所述实体关系抽取模块还用于根据各组候选实体对中的两个实体、各组候选实体对分别对应的多元语法特征、状态变量和特征向量来训练预设的实体关系抽取模型。
10.根据权利要求8或9所述的弱监督实体关系抽取装置,其特征在于,所述状态变量为所述多元语法特征中的任一特征对应的状态变量;以及,
所述特征向量包括以下至少一项:
由多元语法特征中的任一特征和该任一特征的前一特征对应的多项式分布;
所述状态变量的二项式分布。
11.根据权利要求10所述的弱监督实体关系抽取装置,其特征在于,所述特征向量还包括以下至少一项:
源实体类型的多项式分布;
源实体相关特征的多项式分布;
目标实体类型的多项式分布;
目标实体相关特征的多项式分布。
12.根据权利要求8或9所述的弱监督实体关系抽取装置,其特征在于,所述候选实体对获取模块具体用于收集预定领域的无结构或半结构文档,生成文档合集;对所述文档合集进行预处理;在预处理后的文档合集中,对构成任一实体关系的实体进行组合,以生成候选实体对;
其中,所述预处理包括以下至少一种方式:
过滤停用特征词;
过滤出现频率少于阈值的特征词;
对出现的特征词进行消歧;
将大写字母转变为小写形式。
13.根据权利要求8或9所述的弱监督实体关系抽取装置,其特征在于,所述实体关系抽取模块具体用于采用近似推断算法根据各组候选实体对分别对应的多元语法特征、状态变量和特征向量对预设的实体关系抽取模型中的参数变量进行估计;根据估计结果设定所述实体关系抽取模型中的参数的具体数值;依据所述参数的具体数值,通过所述实体关系抽取模型,来抽取各组候选实体对中的实体关系对应的关系类型。
14.根据权利要求8或9所述的弱监督实体关系抽取装置,其特征在于,还包括:
真实语义关系确定模块,用于将属于同一关系类型的候选实体对聚合成一簇实体对聚簇;根据任一实体对聚簇所包含的多元语法特征确定该实体对聚簇的真实语义关系。
15.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-7任一项所述的弱监督实体关系抽取方法。
CN201711113364.0A 2017-11-13 2017-11-13 弱监督实体关系抽取方法及其装置和电子设备 Active CN107958025B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711113364.0A CN107958025B (zh) 2017-11-13 2017-11-13 弱监督实体关系抽取方法及其装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711113364.0A CN107958025B (zh) 2017-11-13 2017-11-13 弱监督实体关系抽取方法及其装置和电子设备

Publications (2)

Publication Number Publication Date
CN107958025A CN107958025A (zh) 2018-04-24
CN107958025B true CN107958025B (zh) 2021-12-28

Family

ID=61964424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711113364.0A Active CN107958025B (zh) 2017-11-13 2017-11-13 弱监督实体关系抽取方法及其装置和电子设备

Country Status (1)

Country Link
CN (1) CN107958025B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274814B (zh) * 2019-12-26 2021-09-24 浙江大学 一种新型的半监督文本实体信息抽取方法
CN111597812B (zh) * 2020-05-09 2021-09-17 北京合众鼎成科技有限公司 一种基于遮蔽语言模型的金融领域多重关系抽取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809176A (zh) * 2015-04-13 2015-07-29 中央民族大学 藏语实体关系抽取方法
CN105975594A (zh) * 2016-05-09 2016-09-28 清华大学 基于组合特征向量和SVMperf的情感分类方法及装置
CN107247739A (zh) * 2017-05-10 2017-10-13 浙江大学 一种基于因子图的金融公报文本知识提取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809176A (zh) * 2015-04-13 2015-07-29 中央民族大学 藏语实体关系抽取方法
CN105975594A (zh) * 2016-05-09 2016-09-28 清华大学 基于组合特征向量和SVMperf的情感分类方法及装置
CN107247739A (zh) * 2017-05-10 2017-10-13 浙江大学 一种基于因子图的金融公报文本知识提取方法

Also Published As

Publication number Publication date
CN107958025A (zh) 2018-04-24

Similar Documents

Publication Publication Date Title
CN106844346B (zh) 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统
Sun et al. Sentiment analysis for Chinese microblog based on deep neural networks with convolutional extension features
Argamon et al. Measuring the usefulness of function words for authorship attribution
JP7316721B2 (ja) 対象領域およびクライアント固有のアプリケーション・プログラム・インタフェース推奨の促進
JP7303195B2 (ja) 対象領域およびクライアント固有のアプリケーション・プログラム・インタフェース推奨の促進
Cohen et al. Variational inference for adaptor grammars
Peng et al. Adversarial learning of sentiment word representations for sentiment analysis
Cohen et al. Covariance in unsupervised learning of probabilistic grammars
CN110717045A (zh) 一种基于信访信件概况的信件要素自动提取方法
CN111274790A (zh) 基于句法依存图的篇章级事件嵌入方法及装置
Sun et al. Hierarchical verb clustering using graph factorization
CN104462041A (zh) 一种实现对热点事件从开始到结束实现完整检测的方法
CN107958025B (zh) 弱监督实体关系抽取方法及其装置和电子设备
Zhu et al. Learning multimodal word representation with graph convolutional networks
Li et al. Sentiment analysis of Weibo comments based on graph neural network
Bhatia et al. Clustering glossary terms extracted from large-sized software requirements using FastText
Amato et al. An application of semantic techniques for forensic analysis
Han et al. A survey of unsupervised dependency parsing
CN109284392B (zh) 一种文本分类方法、装置、终端及存储介质
CN117057349A (zh) 新闻文本关键词抽取方法、装置、计算机设备和存储介质
CN103455638A (zh) 一种结合推理和半自动学习的行为知识提取方法和装置
Sun et al. Complex structure leads to overfitting: A structure regularization decoding method for natural language processing
Wang et al. A novel method for document summarization using Word2Vec
Wu et al. Graph-based query strategies for active learning
Zhu et al. The mining method of trigger word for food nutrition matching

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant