CN112347759A - 一种实体关系的抽取方法、装置、设备及存储介质 - Google Patents

一种实体关系的抽取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112347759A
CN112347759A CN202011247006.0A CN202011247006A CN112347759A CN 112347759 A CN112347759 A CN 112347759A CN 202011247006 A CN202011247006 A CN 202011247006A CN 112347759 A CN112347759 A CN 112347759A
Authority
CN
China
Prior art keywords
entity
news text
sentence
sample
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011247006.0A
Other languages
English (en)
Inventor
赵威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaxia Happiness Industry Investment Co ltd
Original Assignee
Huaxia Happiness Industry Investment Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaxia Happiness Industry Investment Co ltd filed Critical Huaxia Happiness Industry Investment Co ltd
Priority to CN202011247006.0A priority Critical patent/CN112347759A/zh
Publication of CN112347759A publication Critical patent/CN112347759A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种实体关系的抽取方法、装置、设备及存储介质。该方法包括:获取待抽取新闻文本;将所述待抽取新闻文本输入实体关系抽取模型,得到所述待抽取新闻文本中的实体、实体类型和实体关系,其中,所述实体关系抽取模型根据新闻文本样本和新闻文本样本携带的标签训练得到,所述新闻文本样本携带的标签包括:新闻文本样本中的实体、实体类型和实体关系,通过本发明的技术方案,以实现提高实体和实体关系抽取的准确性。

Description

一种实体关系的抽取方法、装置、设备及存储介质
技术领域
本发明实施例涉及自然语言处理技术领域,尤其涉及一种实体关系的抽取方法、装置、设备及存储介质。
背景技术
如今,深度学习的快速发展,让自然语言处理领域也有了飞速发展,各个基础任务的性能指标随着深度学习的普遍应用,以及大规模预训练模型的应用有了显著的提高。本发明主要专注于自然语言处理领域的两个典型问题:命名实体识别和关系抽取的应用,在实际的汽车新闻文本中应用,抽取出关键的信息,解决汽车相关咨询行业中信息获取的难题。
命名实体识别,是自然语言处理领域非常基础,非常重要的一项任务,需要从文本中抽取出需要的实体类型,也就是给定一段话,将其中想要获取的实体类型抽取出来的过程。一般而言,命名实体识别会转换为序列标注的问题来解决,也就是常用的BIO(Begin,Intermediate,Other)模型,也就是输出为句子或一段文本,输出标注好的序列,这种方法属于有监督的学习,需要预先对数据进行标注后,构建训练集,然后在训练集上进行训练。常用的模型有LSTM+CRF(Long short-term memory,LSTM;Condictional Random Field,CRF),BERT+LSTM+CRF(Bidirectional Encoder Representation from Transformers,BERT)模型等。
关系抽取,主要对文本中抽取出来的实体进行关系的匹配识别过程,输出实体关系三元组的形式。在上一步通过命名实体识别抽取出句子中的一系列实体之后,需要判断实体之间是否存在关系。可以基于规则进行抽取,也可以构建与命名实体识别模型一起构建出联合模型,例如共享参数的联合抽取模型,对矩阵序列进行实体标注的同时,也会对关系进行分类,并构建出可能的实体关系组合,进行联合抽取。
对于一系列投资顾问公司而言,实时掌握各行业内各企业的动态是非常关键的。可以通过分析各行业新闻报道,抽取相关企业的信息,包括企业名称、产品名称、行为类型等,构建企业之间关联、企业发展态势,作为客户投资行为的指导信息,关键有效的信息可以给这类投资咨询企业带来巨大的效益。如何从海量的新闻数据中提取出有效的关键的信息,是一个至关重要的问题。
发明内容
本发明实施例提供一种实体关系的抽取方法、装置、设备及存储介质,以实现提高实体和实体关系抽取的准确性。
第一方面,本发明实施例提供了一种实体关系的抽取方法,包括:
获取待抽取新闻文本;
将所述待抽取新闻文本输入实体关系抽取模型,得到所述待抽取新闻文本中的实体、实体类型和实体关系,其中,所述实体关系抽取模型根据新闻文本样本和新闻文本样本携带的标签训练得到,所述新闻文本样本携带的标签包括:新闻文本样本中的实体、实体类型和实体关系。
进一步的,所述实体关系抽取模型的训练方法,包括:
获取新闻文本样本;
对所述新闻文本样本进行分句处理,得到句子样本;
获取每一个句子样本携带的标签,其中,所述句子样本携带的标签包括:句子样本对应的实体、实体类型和实体关系;
将所述句子样本输入至待训练的实体关系抽取模型,得到预估实体和实体类型;
将所述句子样本对应的实体和实体类型输入至待训练的实体关系抽取模型,得到预估实体关系;
根据所述句子样本对应的实体和实体类型和预估实体和实体类型形成的第一目标函数和根据所句子样本对应的实体关系和预估实体关系形成的第二目标函数训练所述待训练的实体关系抽取模型的模型参数;
返回执行将所述句子样本输入至待训练的实体关系抽取模型,得到预估实体,将所述句子样本对应的实体输入至待训练的实体关系抽取模型,得到预估实体关系的操作,直至得到实体关系抽取模型。
进一步的,将所述待抽取新闻文本输入实体关系抽取模型,得到所述待抽取新闻文本中的实体和实体关系包括:
将所述待抽取新闻文本进行分句处理,得到至少一个句子;
将所述句子输入实体关系抽取模型,得到所述待抽取新闻文本中的实体、实体类型和实体关系。
进一步的,在将所述待抽取新闻文本输入实体关系抽取模型,得到所述待抽取新闻文本中的实体和实体关系,其中,所述实体关系抽取模型根据新闻文本样本和新闻文本样本携带的标签训练得到,所述新闻文本样本携带的标签包括:新闻文本样本中的实体和实体关系之后,还包括:
将所述实体、实体类型和实体关系输入实体关系对构建函数,得到实体关系三元组,并将所述实体关系三元组以表格的形式输出。
进一步的,获取每一个句子样本携带的标签包括:
获取对句子样本的标注结果,其中,所述标注结果包括:实体、实体类型和实体关系;
根据所述标注结果对所述句子样本添加BIO标注;
获取每一个句子样子的BIO标注。
进一步的,获取对句子样本的标注结果之前,还包括:
根据所述句子样本中的实体查询知识库,得到所述句子样本中实体的实体类型,其中,所述知识库中包括:词典和网页内容。
进一步的,所述实体类型包括:企业、技术、功能、专利、汽车、硬件、软件、人员、时间和地点中的至少一种,所述实体关系包括:投资、融资、控股、合作、应用、产品、搭载、实现、子公司、专利和任职中的至少一种。
第二方面,本发明实施例还提供了一种实体关系的抽取装置,该装置包括:
获取模块,用于获取待抽取新闻文本;
训练模块,用于将所述待抽取新闻文本输入实体关系抽取模型,得到所述待抽取新闻文本中的实体、实体类型和实体关系,其中,所述实体关系抽取模型根据新闻文本样本和新闻文本样本携带的标签训练得到,所述新闻文本样本携带的标签包括:新闻文本样本中的实体、实体类型和实体关系。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明实施例中任一所述的实体关系的抽取方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的实体关系的抽取方法。
本发明实施例通过获取待抽取新闻文本;将所述待抽取新闻文本输入实体关系抽取模型,得到所述待抽取新闻文本中的实体、实体类型和实体关系,其中,所述实体关系抽取模型根据新闻文本样本和新闻文本样本携带的标签训练得到,所述新闻文本样本携带的标签包括:新闻文本样本中的实体、实体类型和实体关系,以实现提高实体和实体关系抽取的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例一中的一种实体关系的抽取方法的流程图;
图1a是本发明实施例一中的另一种实体关系的抽取方法的流程图;
图1b是本发明实施例一中的人工标注实体和实体关系的结果图;
图1c是本发明实施例一中的从新闻文本中抽取实体的深度学习模型图示;
图1d是本发明实施例一中的结合实体抽取和文本中包含关系判断的联合学习模型;
图2是本发明实施例二中的一种实体关系的抽取装置的结构示意图;
图3是本发明实施例三中的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例一
图1为本发明实施例一提供的一种实体关系的抽取方法的流程图,本实施例可适用于的对新闻文本进行实体关系的抽取的情况,该实体关系的抽取方法可以由本发明实施例中的实体关系的抽取装置来执行,该实体关系的抽取装置可采用软件和/或硬件的方式实现,如图1所示,该实体关系的抽取方法具体包括如下步骤:
S110,获取待抽取新闻文本。
其中,所述待抽取新闻文本可以为用户输入的新闻文本,也可以为用户选取的新闻文本,本发明实施例对待抽取新闻文本的不进行限制。
示例性的,对待抽取新闻文本进行预处理,包括数据清洗、分句、特征构造等,然后加载训练好的模型,将待处理的句子对应的特征数据传入模型进行预测。此时,将输出文本中的各类实体组成的序列和句子中可能包含的实体关系类型。然后,将实体序列和关系类型输入最终的实体关系对构建函数,根据预先定义的规则,确定实体关系对,即实体关系三元组,并将结果以表格的形式输出。其中,getEntityRelation方法将调用训练好的模型获取实体序列和关系类型,extractTriple方法将根据规则构建句子中的所有三元组,最后一部分代码是将每一个新闻按照句子进行处理,分别执行上述两个方法,并将三元组按照新闻为单位保存到文件中。
S120,将所述待抽取新闻文本输入实体关系抽取模型,得到所述待抽取新闻文本中的实体、实体类型和实体关系,其中,所述实体关系抽取模型根据新闻文本样本和新闻文本样本携带的标签训练得到,所述新闻文本样本携带的标签包括:新闻文本样本中的实体、实体类型和实体关系。
其中,所述待抽取新闻文本中的实体可以为任一待抽取新闻文本中的词语,例如可以是,待抽取新闻文本中的一句话为:“张三论匠心:不仅要做技术XX公司,更要做品质”,“张三”为新闻文本中的实体,“XX公司”也为新闻文本中的实体。
其中,所述实体类型可以包括:企业、技术、功能、专利、汽车、硬件、软件、人员、时间和地点中的至少一种。所述实体关系包括:投资、融资、控股、合作、应用、产品、搭载、实现、子公司、专利和任职中的至少一种。例如可以是,待抽取新闻文本中的一句话为:“张三论匠心:不仅要做技术XX公司,更要做品质”,“张三”为新闻文本中的实体,“XX公司”也为新闻文本中的实体。“张三”为新闻文本中的实体,“张三”的实体类型为人员,“XX公司”也为新闻文本中的实体,“XX公司”的实体类型为企业,“张三”和“XX公司”之前的实体关系为任职。
在一个示例的例子中,如图1a所示,为另一种实体关系的抽取方法的流程图,收集整理数据集;定义需要识别的实体类别,关系类别;借助标注工具,对数据进行人工标注,得到人工标注的数据集;整理额外知识库(汽车公司及车型名称列表;实体序列及潜在关系的规则库);构建联合学习模型(联合学习模型为一种具体的实体关系抽取模型,所述联合学习模型包括:实体抽取模型和关系识别模型);训练并保存模型;对预测数据进行处理后传入模型进行预测,识别出实体关系对。
可选的,所述实体关系抽取模型的训练方法,包括:
获取新闻文本样本;
对所述新闻文本样本进行分句处理,得到句子样本;
获取每一个句子样本携带的标签,其中,所述句子样本携带的标签包括:句子样本对应的实体、实体类型和实体关系;
将所述句子样本输入至待训练的实体关系抽取模型,得到预估实体和实体类型;
将所述句子样本对应的实体和实体类型输入至待训练的实体关系抽取模型,得到预估实体关系;
根据所述句子样本对应的实体和实体类型和预估实体和实体类型形成的第一目标函数和根据所句子样本对应的实体关系和预估实体关系形成的第二目标函数训练所述待训练的实体关系抽取模型的模型参数;
返回执行将所述句子样本输入至待训练的实体关系抽取模型,得到预估实体,将所述句子样本对应的实体输入至待训练的实体关系抽取模型,得到预估实体关系的操作,直至得到实体关系抽取模型。
示例性的,从各大新闻门户网站收集新闻文本并整理出数据集。从原始的新闻门户网站,爬取汽车领域的新闻文本,每段文本包括标题,正文。按照新闻发表的日期进行分档整理,每篇新闻包括标题和正文保存为一个txt文档。观察原始数据,在原始的新闻文本中会发现因为在爬取过程中的一些不确定性,原始文本中会出现较多的乱码、HTML代码和网页链接等,这些信息不仅在新闻文本中无有效的信息价值,反而会对下一步模型的训练和预测造成严重的干扰,需要对这些数据进行清洗处理。使用正则表达式等操作清除原始文本中出现的乱码、无关链接,避免对后续模型的训练造成干扰。
示例性的,实体抽取部分模型的搭建,包括前期对训练数据的读入转换,采用句子作为最小的处理单元,将相应的标签转换为数字表示,上层使用BERT(BidirectionalEncoder Representation from Transformers)模型构建词嵌入表示,接下层的长短时记忆网络(Long short-term memory,LSTM)和条件随机场(Conditional Random Field,CRF)模型。实体关系识别部分的模型构建,同时使用待抽取新闻文本中的信息和预测的实体序列作为输入。训练并保存模型,在多轮迭代训练后,保存训练好的模型至hdf5文件,以便后续的更新训练或新文本预测使用。
示例性的,实体抽取部分模型的搭建,包括前期对训练数据的读入转换,采用句子作为最小的处理单元,将相应的Label转换为数字表示,上层使用BERT模型进行Embedding,接下层的LSTM、CRF模型,对添加的额外特征先进行了进一步的映射,再添加到CRF的输入中,构成完整的序列标注模型。这一步实际采用了几种不同模型做对比工作,包括:(1)最基本的命名实体识别模型,即BiLSTM+CRF(Bi-directional Long Short-Term Memory,BiLSTM),其中字符向量由自行训练的word2vec得到。(2)将字符向量换成BERT预训练模型给出的字符向量,即BERT+BiLSTM+CRF。(3)在CRF输入中添加通过外部知识计算得到的特征,即BERT+BiLSTM+CRF+Features。最终是采用了识别的效果最好的BBCF模型。实体关系识别部分模型构建。根据句子和实体序列确定关系类型的分类,通过对现有标记数据的观察,发现我们需要识别的关系基本都在一个句子中,且两个相同的实体之间的关系在不同的句子中可能不同(例如无关和合作关系),即当前句子决定了实体之间的关系,而不需要参考其他句子。因此,拟使用句子作为模型的输入,先对句子编码,再进行关系分类。可以采用LSTM模型对句子进行编码,使用双向的时序状态拼接作为句子的向量,对该向量进行分类。由于关系识别和实体序列之间存在很强的联系,即出现的实体序列很大程度上决定了可能存在的关系类型,因此将实体序列标注和关系识别构建成一个多任务的学习模型,用同样的文本作为输入,一方面预测实体,一方面预测关系。其中,Embedding、额外知识等都与NER的模型相同,不同的就是同时使用文本语义编码和实体类型和序列信息预测关系类型。这个模型有一个弊端,不能直接定位到哪些实体间是哪种关系。最终需要根据确定的实体序列和关系类型之间存在的规则,去构建实体关系三元组。
在模型构建阶段,对结构不同的模型均使用五折交叉验证的实验方法对各方案进行评价和对比。过程中使用各标签的预测精确率、召回率和F1平均值作为评价指标。由于各类标签的分布非常不均匀,同时对比各指标的macro和micro均值,在多轮迭代训练后达到相对最优的情况,对比几类模型的最终训练效果。确定了效果最好的模型之后,使用所有已标注数据最终训练用于线上数据预测的模型,并将训练好的模型保存为hdf5文件,以便后续加载模型进行更新训练或预测。
可选的,将所述待抽取新闻文本输入实体关系抽取模型,得到所述待抽取新闻文本中的实体和实体关系包括:
将所述待抽取新闻文本进行分句处理,得到至少一个句子;
将所述句子输入实体关系抽取模型,得到所述待抽取新闻文本中的实体、实体类型和实体关系。
可选的,在将所述待抽取新闻文本输入实体关系抽取模型,得到所述待抽取新闻文本中的实体和实体关系,其中,所述实体关系抽取模型根据新闻文本样本和新闻文本样本携带的标签训练得到,所述新闻文本样本携带的标签包括:新闻文本样本中的实体和实体关系之后,还包括:
将所述实体、实体类型和实体关系输入实体关系对构建函数,得到实体关系三元组,并将所述实体关系三元组以表格的形式输出。
可选的,获取每一个句子样本携带的标签包括:
获取对句子样本的标注结果,其中,所述标注结果包括:实体、实体类型和实体关系;
根据所述标注结果对所述句子样本添加BIO标注;
获取每一个句子样子的BIO标注。
示例性的,如图1b所示,借助标注平台人工标注新闻文本中的实体和关系。借助Brat系统搭建了新闻文本实体关系标注平台,对整理好的本文,按篇的方式展现在浏览器界面上,人工识别并进行拖动操作,根据预先定义好的实体关系类别进行人工标注工作,标注的结果会实时保存在服务器中。根据标注的结果,构建出训练集,采用BIO模型,训练集包括原始的文本数据,对应的BIO序列。标注的结果中会有实体和实体所属的类别,实体间的关系,根据这些结果将文本处理成句子加BIO标注的形式,方便后续的模型读取。
可选的,获取对句子样本的标注结果之前,还包括:
根据所述句子样本中的实体查询知识库,得到所述句子样本中实体的实体类型,其中,所述知识库中包括:词典和网页内容。
其中,所述网页内容包括:网站论坛中的汽车、企业内容,所述词典包括:企业、汽车和相关技术实体词典。
示例性的,定义整理额外知识库,汽车公司等实体大部分都是已知实体,如果有现成的词典,知识库,将对模型的训练有很大的帮助,所以有必要尽可能提前构建出相关知识库。如表1所示,表1为额外文本特征的具体解释:
表1
Figure BDA0002770348110000121
Figure BDA0002770348110000131
示例性的,网站,爬取收集汽车公司、汽车名称列表,汽车相关技术名称列表;观察训练集的数据,发掘实体出现顺序和潜在关系之间的规则。
此外,城市名称也可以很容易从网络上学习到,将所有城市名称也构建为额外知识库备用;一些已有的准确度比较高的文本分析工具也可以作为外部知识获取的方式,例如,分词工具给出的结果标签可以作为一种额外的知识,与前后字符分是否为一个词、是否在准备的实体名单内等都可以作为外部知识。
需要说明的是,通过观察标注好的数据,人工定义实体出现顺序和潜在关系之间的规则等作为外部知识,用在最终根据实体序列和关系类型,确定实体和关系三元组。
可选的,所述实体类型包括:企业、技术、功能、专利、汽车、硬件、软件、人员、时间和地点中的至少一种,所述实体关系包括:投资、融资、控股、合作、应用、产品、搭载、实现、子公司、专利和任职中的至少一种。
示例性的,定义需要识别的实体类型,关系类别,根据行业资讯投资相关的需要,定义好要抽取的实体类型,以及关系类别,具体如下:
实体类型:
(1)企业:汽车生产企业、零件供应商企业,以及相关企业。
(2)技术/功能:一定是通用技术名词,可能有多中不同具体实现的系统。
(3)专利:公司的根据某种技术发明或者外观设计等申请的专利。
(4)汽车:具体某一款汽车。
(5)硬件:汽车的零件,标明具体型号的零件,例如XXX发动机、XXX变速箱。
(6)软件:具体实现某种通用技术的软件产品,可以由不同款的汽车搭载的软件系统。
(7)人员:具体到姓名,而非角色。
(8)时间:包括年、月、日的完整时间信息。
(9)地点:需要精确到城市名称。
关系类型:
(1)投资:发生在企业与企业之间、企业与人员之间。
(2)融资:发生在企业与企业之间、企业与人员之间。
(3)控股:发生在企业与企业之间、企业与人员之间。
(4)合作:发生在企业与企业之间、企业与人员之间。
(5)应用:发生在企业与技术之间。
(6)产品:发生在企业与汽车、企业与软件、企业与硬件之间。
(7)搭载:发生在汽车与软件、汽车与硬件、汽车与技术之间。
(8)实现:发生在系统与技术、硬件与技术之间。
(9)子公司:发生在企业与企业之间。
(10)专利:发生在企业与专利之间。
(11)任职:发生在人员与企业之间。
在一个具体的例子中,收集整理数据集;定义需要识别的实体类别,关系类别;借助标注工具,对数据进行人工标注,构建出训练集;整理额外知识库;构建实体关系抽取模型;训练并保存模型;对预测数据进行处理后传入模型进行预测,识别出实体关系对。
示例性的,本发明实施例的目标为抽取行业新闻文本中的实体并识别实体之间的关系,作为构建行业知识图谱并应用的基础。可以针对汽车行业新闻进行处理,也可以针对其他领域,本发明实施例对此不进行限制。个行业的实体类型是不同的,实体间的关系也是不同的。虽然难以通过一次构建实现在各行业间通用,但目标是能够在给出行业新闻标注数据的情况下,通过预先定义实体关系类别的方式,可以实现解决方案的通用性。
本发明实施例是一种基于知识库和联合学习的新闻文本实体关系抽取方法。包括:构建原始新闻文本数据集,对数据集进行预处理,定义实体关系类别,然后进行人工标注,构建出训练集,以及额外的知识库的收集整理工作,然后利用构建好的训练集训练联合学习模型。在传统的几类序列标注模型上,加入额外的知识库的特征,提高实体和关系抽取的准确性。
在一个具体的例子中,如图1c所示,对训练数据的读入转换,采用句子作为最小的处理单元,将相应的Label转换为数字表示,上层使用BERT模型进行Embedding,接下层的LSTM,CRF模型,对添加的额外特征先进行了进一步的映射,再添加到CRF的输入中,构成完整的序列标注模型。如图1d所示,根据句子和实体序列确定关系类型的分类,通过对现有标记数据的观察,发现我们需要识别的关系基本都在一个句子中,且两个相同的实体之间的关系在不同的句子中可能不同(例如无关和合作关系),即当前句子决定了实体之间的关系,而不需要参考其他句子。因此,拟使用句子作为模型的输入,先对句子编码,再进行关系分类。可以采用LSTM模型对句子进行编码,使用双向的时序状态拼接作为句子的向量,对该向量进行分类。由于关系识别和实体序列之间存在很强的联系,即出现的实体序列很大程度上决定了可能存在的关系类型,因此将实体序列标注和关系识别构建成一个多任务的学习模型,用同样的文本作为输入,一方面预测实体,一方面预测关系。其中,Embedding、额外知识等都与NER的模型相同,不同的就是同时使用文本语义编码和实体类型和序列信息预测关系类型。
本实施例的技术方案,通过获取待抽取新闻文本;将所述待抽取新闻文本输入实体关系抽取模型,得到所述待抽取新闻文本中的实体、实体类型和实体关系,其中,所述实体关系抽取模型根据新闻文本样本和新闻文本样本携带的标签训练得到,所述新闻文本样本携带的标签包括:新闻文本样本中的实体、实体类型和实体关系,以实现提高实体和实体关系抽取的准确性。
实施例二
图2为本发明实施例二提供的一种实体关系的抽取装置的结构示意图。本实施例可适用于对新闻文本进行实体关系的抽取的情况,该装置可采用软件和/或硬件的方式实现,该装置可集成在任何提供实体关系的抽取功能的设备中,如图2所示,所述实体关系的抽取装置具体包括:获取模块210和训练模块220。
其中,获取模块210,用于获取待抽取新闻文本;
训练模块220,用于将所述待抽取新闻文本输入实体关系抽取模型,得到所述待抽取新闻文本中的实体、实体类型和实体关系,其中,所述实体关系抽取模型根据新闻文本样本和新闻文本样本携带的标签训练得到,所述新闻文本样本携带的标签包括:新闻文本样本中的实体、实体类型和实体关系。
上述产品可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
本实施例的技术方案,通过获取待抽取新闻文本;将所述待抽取新闻文本输入实体关系抽取模型,得到所述待抽取新闻文本中的实体、实体类型和实体关系,其中,所述实体关系抽取模型根据新闻文本样本和新闻文本样本携带的标签训练得到,所述新闻文本样本携带的标签包括:新闻文本样本中的实体、实体类型和实体关系,以实现提高实体和实体关系抽取的准确性。
实施例三
图3为本发明实施例三中的一种计算机设备的结构示意图。图3示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图3显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture,ISA)总线,微通道体系结构(Micro Channel Architecture,MCA)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及外围组件互连(Peripheral Component Interconnect,PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory,RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图3未显示,通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(只读光盘(Compact Disc-Read Only Memory,CD-ROM)、数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。另外,本实施例中的计算机设备12,显示器24不是作为独立个体存在,而是嵌入镜面中,在显示器24的显示面不予显示时,显示器24的显示面与镜面从视觉上融为一体。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网Wide AreaNetwork,WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks,RAID)系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的实体关系的抽取方法:
获取待抽取新闻文本;
将所述待抽取新闻文本输入实体关系抽取模型,得到所述待抽取新闻文本中的实体、实体类型和实体关系,其中,所述实体关系抽取模型根据新闻文本样本和新闻文本样本携带的标签训练得到,所述新闻文本样本携带的标签包括:新闻文本样本中的实体、实体类型和实体关系。
实施例四
本发明实施例四提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有发明实施例提供的实体关系的抽取方法:
获取待抽取新闻文本;
将所述待抽取新闻文本输入实体关系抽取模型,得到所述待抽取新闻文本中的实体、实体类型和实体关系,其中,所述实体关系抽取模型根据新闻文本样本和新闻文本样本携带的标签训练得到,所述新闻文本样本携带的标签包括:新闻文本样本中的实体、实体类型和实体关系。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:接收用户输入的源文本,将所述源文本翻译为目标语种对应的目标文本;获取所述用户的历史纠正行为;根据所述历史纠正行为对所述目标文本进行纠正,获得翻译结果,并将所述翻译结果推送至所述用户所在的客户端。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种实体关系的抽取方法,其特征在于,包括:
获取待抽取新闻文本;
将所述待抽取新闻文本输入实体关系抽取模型,得到所述待抽取新闻文本中的实体、实体类型和实体关系,其中,所述实体关系抽取模型根据新闻文本样本和新闻文本样本携带的标签训练得到,所述新闻文本样本携带的标签包括:新闻文本样本中的实体、实体类型和实体关系。
2.根据权利要求1所述的方法,其特征在于,所述实体关系抽取模型的训练方法,包括:
获取新闻文本样本;
对所述新闻文本样本进行分句处理,得到句子样本;
获取每一个句子样本携带的标签,其中,所述句子样本携带的标签包括:句子样本对应的实体、实体类型和实体关系;
将所述句子样本输入至待训练的实体关系抽取模型,得到预估实体和实体类型;
将所述句子样本对应的实体和实体类型输入至待训练的实体关系抽取模型,得到预估实体关系;
根据所述句子样本对应的实体和实体类型和预估实体和实体类型形成的第一目标函数和根据所句子样本对应的实体关系和预估实体关系形成的第二目标函数训练所述待训练的实体关系抽取模型的模型参数;
返回执行将所述句子样本输入至待训练的实体关系抽取模型,得到预估实体,将所述句子样本对应的实体输入至待训练的实体关系抽取模型,得到预估实体关系的操作,直至得到实体关系抽取模型。
3.根据权利要求1所述的方法,其特征在于,将所述待抽取新闻文本输入实体关系抽取模型,得到所述待抽取新闻文本中的实体和实体关系包括:
将所述待抽取新闻文本进行分句处理,得到至少一个句子;
将所述句子输入实体关系抽取模型,得到所述待抽取新闻文本中的实体、实体类型和实体关系。
4.根据权利要求1所述的方法,其特征在于,在将所述待抽取新闻文本输入实体关系抽取模型,得到所述待抽取新闻文本中的实体和实体关系,其中,所述实体关系抽取模型根据新闻文本样本和新闻文本样本携带的标签训练得到,所述新闻文本样本携带的标签包括:新闻文本样本中的实体和实体关系之后,还包括:
将所述实体、实体类型和实体关系输入实体关系对构建函数,得到实体关系三元组,并将所述实体关系三元组以表格的形式输出。
5.根据权利要求2所述的方法,其特征在于,获取每一个句子样本携带的标签包括:
获取对句子样本的标注结果,其中,所述标注结果包括:实体、实体类型和实体关系;
根据所述标注结果对所述句子样本添加BIO标注;
获取每一个句子样子的BIO标注。
6.根据权利要求5所述的方法,其特征在于,获取对句子样本的标注结果之前,还包括:
根据所述句子样本中的实体查询知识库,得到所述句子样本中实体的实体类型,其中,所述知识库中包括:词典和网页内容。
7.根据权利要求1所述的方法,其特征在于,所述实体类型包括:企业、技术、功能、专利、汽车、硬件、软件、人员、时间和地点中的至少一种,所述实体关系包括:投资、融资、控股、合作、应用、产品、搭载、实现、子公司、专利和任职中的至少一种。
8.一种实体关系的抽取装置,其特征在于,包括:
获取模块,用于获取待抽取新闻文本;
训练模块,用于将所述待抽取新闻文本输入实体关系抽取模型,得到所述待抽取新闻文本中的实体、实体类型和实体关系,其中,所述实体关系抽取模型根据新闻文本样本和新闻文本样本携带的标签训练得到,所述新闻文本样本携带的标签包括:新闻文本样本中的实体、实体类型和实体关系。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN202011247006.0A 2020-11-10 2020-11-10 一种实体关系的抽取方法、装置、设备及存储介质 Pending CN112347759A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011247006.0A CN112347759A (zh) 2020-11-10 2020-11-10 一种实体关系的抽取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011247006.0A CN112347759A (zh) 2020-11-10 2020-11-10 一种实体关系的抽取方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112347759A true CN112347759A (zh) 2021-02-09

Family

ID=74362444

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011247006.0A Pending CN112347759A (zh) 2020-11-10 2020-11-10 一种实体关系的抽取方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112347759A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112967144A (zh) * 2021-03-09 2021-06-15 华泰证券股份有限公司 一种金融信用风险事件抽取方法、可读存储介质及设备
CN113157866A (zh) * 2021-04-27 2021-07-23 平安科技(深圳)有限公司 一种数据分析方法、装置、计算机设备及存储介质
CN113221566A (zh) * 2021-05-08 2021-08-06 北京百度网讯科技有限公司 实体关系抽取方法、装置、电子设备和存储介质
CN113468330A (zh) * 2021-07-06 2021-10-01 北京有竹居网络技术有限公司 信息获取方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165385A (zh) * 2018-08-29 2019-01-08 中国人民解放军国防科技大学 一种基于实体关系联合抽取模型的多三元组抽取方法
US20200097597A1 (en) * 2018-09-24 2020-03-26 International Business Machines Corporation On-demand relation extraction from text
CN111160008A (zh) * 2019-12-18 2020-05-15 华南理工大学 一种实体关系联合抽取方法及系统
CN111444305A (zh) * 2020-03-19 2020-07-24 浙江大学 一种基于知识图谱嵌入的多三元组联合抽取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165385A (zh) * 2018-08-29 2019-01-08 中国人民解放军国防科技大学 一种基于实体关系联合抽取模型的多三元组抽取方法
US20200097597A1 (en) * 2018-09-24 2020-03-26 International Business Machines Corporation On-demand relation extraction from text
CN111160008A (zh) * 2019-12-18 2020-05-15 华南理工大学 一种实体关系联合抽取方法及系统
CN111444305A (zh) * 2020-03-19 2020-07-24 浙江大学 一种基于知识图谱嵌入的多三元组联合抽取方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112967144A (zh) * 2021-03-09 2021-06-15 华泰证券股份有限公司 一种金融信用风险事件抽取方法、可读存储介质及设备
CN112967144B (zh) * 2021-03-09 2024-01-23 华泰证券股份有限公司 一种金融信用风险事件抽取方法、可读存储介质及设备
CN113157866A (zh) * 2021-04-27 2021-07-23 平安科技(深圳)有限公司 一种数据分析方法、装置、计算机设备及存储介质
CN113157866B (zh) * 2021-04-27 2024-05-14 平安科技(深圳)有限公司 一种数据分析方法、装置、计算机设备及存储介质
CN113221566A (zh) * 2021-05-08 2021-08-06 北京百度网讯科技有限公司 实体关系抽取方法、装置、电子设备和存储介质
CN113221566B (zh) * 2021-05-08 2023-08-01 北京百度网讯科技有限公司 实体关系抽取方法、装置、电子设备和存储介质
CN113468330A (zh) * 2021-07-06 2021-10-01 北京有竹居网络技术有限公司 信息获取方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN112347759A (zh) 一种实体关系的抽取方法、装置、设备及存储介质
CN112989841B (zh) 一种用于突发事件新闻识别与分类的半监督学习方法
CN108984775B (zh) 一种基于商品评论的舆情监控方法及系统
CN113688631B (zh) 一种嵌套命名实体识别方法、系统、计算机和存储介质
CN112836052A (zh) 一种汽车评论文本观点挖掘方法、设备及存储介质
CN112183056A (zh) 基于CNN-BiLSTM框架的上下文依赖的多分类情感分析方法和系统
CN116629275A (zh) 一种基于大数据的智能决策支持系统及方法
CN111259160A (zh) 知识图谱构建方法、装置、设备及存储介质
CN112836018A (zh) 应急预案的处理方法及装置
CN114495143A (zh) 一种文本对象识别方法、装置、电子设备及存储介质
CN117648093A (zh) 基于大模型和自定制需求模板的rpa流程自动化生成方法
CN116383193A (zh) 一种数据管理方法、装置、电子设备和存储介质
Cooper et al. Text-mining 10-K (annual) reports: a guide for B2B marketing research
EP3835994A1 (en) System and method for identification and profiling adverse events
CN113761895A (zh) 文本摘要的生成方法、装置、电子设备及存储介质
CN116541528A (zh) 招聘领域知识图谱构建的打标签方法和系统
CN111178080A (zh) 一种基于结构化信息的命名实体识别方法及系统
CN116305257A (zh) 隐私信息监测装置和隐私信息监测方法
CN115470790A (zh) 一种识别文件中的命名实体的方法和装置
Correa et al. A deep search method to survey data portals in the whole web: toward a machine learning classification model
CN115481635A (zh) 一种地址要素解析方法和系统
US9928303B2 (en) Merging data analysis paths
CN114443842A (zh) 战略性新兴产业分类方法及装置、存储介质和电子设备
CN114647734A (zh) 舆情文本的事件图谱生成方法、装置、电子设备和介质
CN111460160A (zh) 一种基于强化学习的流式文本数据的事件聚类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination