CN111339774A - 文本的实体关系抽取方法和模型训练方法 - Google Patents

文本的实体关系抽取方法和模型训练方法 Download PDF

Info

Publication number
CN111339774A
CN111339774A CN202010082707.7A CN202010082707A CN111339774A CN 111339774 A CN111339774 A CN 111339774A CN 202010082707 A CN202010082707 A CN 202010082707A CN 111339774 A CN111339774 A CN 111339774A
Authority
CN
China
Prior art keywords
relationship
input text
text
entity
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010082707.7A
Other languages
English (en)
Other versions
CN111339774B (zh
Inventor
陈曦
卢睿轩
文瑞
孙继超
刘羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010082707.7A priority Critical patent/CN111339774B/zh
Publication of CN111339774A publication Critical patent/CN111339774A/zh
Application granted granted Critical
Publication of CN111339774B publication Critical patent/CN111339774B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种文本的实体关系抽取方法和模型训练方法,本申请可以应用于人工智能领域的自然语言处理技术中,本申请的通过图状态循环神经网络和BERT模型的结合,从文本中分别抽取用于表征文本的语义特征的第一向量和用于表征文本的依存关系特征的第二向量,并将第一向量和第二向量拼接后进行分类,使得实体对的关系抽取在长句和跨句的应用场景中获得较好的准确度,改善了现有技术中在长句和跨句等应用场景下准确度不足的问题,此外,本申请在模型训练阶段,基于预设规则和预训练模型,通过远程监督的方式大量生产标注数据,可以在较低的成本下获得大量较为准确的训练数据。可见,本申请可以广泛应用于自然语言处理技术中。

Description

文本的实体关系抽取方法和模型训练方法
技术领域
本申请涉及自然语言处理技术,尤其是一种文本的实体关系抽取、模型训练方法、装置和存储介质。
背景技术
随着人工智能(Artificial Intelligence,AI)技术的发展和具体领域的应用需求的不断增长,将人工智能技术应用到诸如医疗领域等具体领域的研究得到了发展。其中,自然语言处理(Natural Language Processing,NLP)技术为人工智能技术的重要分支。其中,在自然语言处理技术中,知识图谱(Knowledge Graph)的构建对人工智能应用有着重要的作用。例如人工智能可以利用知识图谱完成检索和问答等工作。
知识图谱由多个实体对之间的关系所构成,因此,对于构建知识图谱的工作而言,从海量文本中抽取实体对的关系是一项重要的基础工作。
现有的关系抽取模型通常基于word2vec、openAI-GPT、语义表示模型(Embeddingsfrom Language Models,ELMo)、双向转换编码器(Bidirectional EncoderRepresentation from Transformer,BERT)模型等预训练模型,这些预训练模型可以在短句的实体关系抽取中取得较好的效果。但是文本长度的增加,文本中实体的数量增加,会使得这些预训练模型对输入文本的语义抽取能力削弱,导致模型提取的特征丢失词语之间的关联信息,致使现有技术在长句或者跨句的实体关系抽取中性能较差。
发明内容
为解决上述技术问题的至少之一,本申请提供了一种文本的实体关系抽取、模型训练方法、装置和存储介质,以提高文本的实体关系抽取的准确性。
根据本申请的第一方面,提供了一种文本的实体关系抽取方法,包括以下步骤:
获取输入文本;
对所述输入文本进行识别处理,得到所述输入文本中的至少两个实体和所述至少两个实体的类型;
从所述至少两个实体中确定目标实体对;
根据目标实体的类型,将所述输入文本中的所述目标实体替换成用于表示所述目标实体的类型的字符,得到所述输入文本的替换文本;
从所述替换文本中提取语义特征信息;
从所述输入文本中提取依存关系特征信息;
将所述语义特征信息和所述依存关系特征信息进行组合处理再分类,得到所述目标实体对的关系分类结果,以确定所述目标实体对的关系。
根据本申请的第二方面,提供了一种关系抽取模型训练方法,包括以下步骤:
获取训练样本,所述训练样本包括输入文本和标注信息;所述标注信息用于标注输入文本中一组实体对的关系;
对所述输入文本进行识别处理,得到所述输入文本中的至少两个实体和所述至少两个实体的类型;
将所述输入文本中被标注的所述实体对确定为目标实体对;
根据目标实体的类型,将所述输入文本中的所述目标实体替换成用于表示所述目标实体的类型的字符,得到所述输入文本的替换文本;
通过所述关系抽取模型从所述替换文本中提取语义特征信息;从所述输入文本中提取依存关系特征信息;将所述语义特征信息和所述依存关系特征信息进行组合处理后分类,得到所述目标实体对的关系分类结果;
根据所述目标实体对的关系分类结果和标注信息,对所述关系抽取模型中的参数进行修正。
根据本申请的第三方面提供了:一种文本的实体关系抽取装置,包括:
第一获取单元,用于获取输入文本;
第一识别单元,用于对所述输入文本进行识别处理,得到所述输入文本中的至少两个实体和所述至少两个实体的类型;
第一确定单元,用于从所述至少两个实体中确定目标实体对;
第一替换单元,用于根据目标实体的类型,将所述输入文本中的所述目标实体替换成用于表示所述目标实体的类型的字符,得到所述输入文本的替换文本;
语义特征提取单元,用于从所述替换文本中提取语义特征信息;
依存关系特征提取单元,用于从所述输入文本中提取依存关系特征信息;
关系分类单元,用于将所述语义特征信息和所述依存关系特征信息进行组合处理后分类,得到所述目标实体对的关系分类结果,以确定所述目标实体对的关系。
根据本申请的第四方面提供了一种关系抽取模型训练装置,包括:
第二获取单元,用于获取训练样本,所述训练样本包括输入文本和标注信息;所述标注信息用于标注输入文本中一组实体对的关系;
第二识别单元,用于对所述输入文本进行识别处理,得到所述输入文本中的至少两个实体和所述至少两个实体的类型;
第二确定单元,用于将所述输入文本中被标注的实体对确定为目标实体对;
第二替换单元,用于根据目标实体的类型,将所述输入文本中的所述目标实体替换成用于表示所述目标实体的类型的字符,得到所述输入文本的替换文本;
特征提取及关系分类单元,用于从所述替换文本中提取语义特征信息;从所述输入文本中提取依存关系特征信息;将所述语义特征信息和所述依存关系特征信息进行组合处理后分类,得到所述目标实体对的关系分类结果;
模型训练单元,用于根据所述目标实体对的关系分类结果和标注信息,对所述关系抽取模型中的参数进行修正。
根据本申请的第五方面,提供了一种文本的实体关系抽取装置,包括:
至少一个存储器,用于存储程序;
至少一个处理器,用于加载所述程序以执行上述的文本的实体关系抽取方法。
第六方面,本申请实施例提供了一种关系抽取模型训练装置,包括:
至少一个存储器,用于存储程序;
至少一个处理器,用于加载所述程序以执行上述的模型训练方法。
根据本申请的第七方面,提供了一种存储介质,其存储有程序,所述程序被处理器执行时实现上述的文本的实体关系抽取方法或者实现上述的模型训练方法。
本申请实施例的有益效果是:在进行模型训练和实体关系抽取时,从输入文本中识别至少两个实体和所述至少两个实体分别所属的类型,然后将输入文本中的目标实体替换成所述目标实体的类型,得到替换文本,从替换文本中提取出替换文本的语义特征信息,从输入文本中提取输入文本的依存关系特征信息,根据语义特征信息和依存关系特征信息组合后的结果进行分类处理,得到目标实体对的分类结果,其利用了依存关系特征信息弥补语义特征信息中对依存关系的缺失,加强了实体对之间的依存关系的在关系抽取过程中的表达,使得实体关系抽取更加准确,尤其在长句和跨距等关系抽取场景下,实体关系抽取的准确度有较大的提升。
附图说明
图1为根据本申请实施例提供的一种文本的关系抽取方法的流程图;
图2为根据本申请实施例提供的一种关系抽取模型的工作流程图;
图3为根据本申请实施例提供的一种第一处理模型的结构示意图;
图4为根据本申请实施例提供的一种第二处理模型的结构示意图;
图5为根据本申请实施例提供的一种依存关系分析的示意图;
图6为根据本申请实施例提供的一种GRN神经网络的工作原理示意图;
图7为根据本申请实施例提供的一种Bi-DAG-LSTM神经网络的工作原理示意图;
图8为根据本申请实施例提供的一种softmax分类模型的结构示意图;
图9为根据本申请实施例提供的一种文本的关系抽取方法中步骤160的子流程图;
图10为根据本申请实施例提供的一种文本的关系抽取方法中步骤163的子流程图;
图11为根据本申请实施例提供的另一种文本的关系抽取方法的流程图;
图12为根据本申请实施例提供的另一种关系抽取模型的工作流程图;
图13为根据本申请实施例提供的一种模型训练方法的流程图;
图14为根据本申请实施例提供的一种训练样本获取方法的流程图;
图15为根据本申请实施例提供的一种第三处理模型的结构示意图;
图16为根据本申请实施例提供的一种文本的关系抽取装置的结构示意图;
图17为根据本申请实施例提供的一种模型训练装置的结构示意图;
图18为根据本申请实施例提供的一种手机的结构示意图;
图19为根据本申请实施例提供的一种服务器的结构示意图。
具体实施方式
下面结合说明书附图和具体的实施例对本申请进行进一步的说明。所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)实体:现实世界中具有可区别性且独立存在的某种事物,例如:人名、地名、游戏名称等。
2)实体的类型:是指具有相同属性的实体的集合,例如在医疗领域中,可以将实体分为:疾病、症状、药物、部位、检查、手术和科室等。比方说,“阿司匹林”是属于“药物”这个类型的实体;“感冒”是属于“疾病”这个类型的实体。
3)关系抽取:关系定义为两个或多个实体之间的联系,关系抽取就是通过学习文本中多实体之间的语义联系,来识别其关系。关系抽取的输入是一段或者一句文本,输出通常是一个三元组:<实体1,关系,实体2>。例如,输入文本“阿司匹林用于治疗感冒”,经过关系抽取后,输出的三元组为<阿司匹林,治疗药物,感冒>,亦可以用以“治疗药物(阿司匹林,感冒)”来进行表示。当然,在一些情况中,两个实体可能是没有关系的,这时候可以用<实体1,NA,实体2>来表示。
4)语义空间:表示语言意义的世界。在自然语言处理技术中,词语、句子或者文本在语义空间中的含义通常由多维向量表示。在语义空间中,距离比较接近的两个向量所表达的含义比较相似。
5)word2vec、OpenAI-GPT、循环神经网络(Recurrent Neural Networks,RNN)、长短期记忆网络(Long Short-Term Memory,LSTM)、语义表示模型(Embeddings fromLanguage Models,ELMo)、双向转换编码器(Bidirectional Encoder Representationfrom Transformer,BERT),为自然语言技术领域常见的模型。
需要强调的是,本申请实施例所提供的文本的实体关系抽取方法和模型训练方法均可以应用于人工智能之中。人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
在本申请实施例中,主要涉及的人工智能技术是自然语言处理技术。
需要说明的是,本申请实施例提供的文本的实体关系抽取方法可以应用到诸如知识图谱构建、机器翻译和智能问答等场景中。在这些应用场景中,人工智能系统可以利用文本的实体关系抽取方法所抽取的实体关系数据作进一步的应用,也就是说通过本申请方法所输出的结果可以是这些人工智能应用的中间结果。
在关系抽取的相关技术中,通常基于word2vec、ELMo、openAI-GPT或者BERT模型等预训练模型,来对输入文本进行处理,具体地,这些模型会将输入文本中的词语转化为词向量,然后以词向量矩阵的方法来表示整个输入文本,利用卷积神经网络及池化等方式对向量矩阵进行处理,最终得到整个输入文本的向量表示,然后使用归一化指数(softmax)分类器对向量进行分类,所述归一化指数分类器会计算出分类结果属于各种预先定义的关系类型的概率。故此,配合一定的阈值条件,可以判断出输入文本所表示的关系类型。
目前相关技术在短句的关系抽取中体现出不错的准确性,但是在长句和跨句等输入文本中包含较多实体的情况下,这些模型的表现变差,错误率迅速飙升。其主要原因是这些模型缺乏对文本的依存关系的分析,当输入文本比较长的时候,文本中夹杂了大量实体,使得模型需要将更多注意力分散在这些实体的语义上,使得模型对句子结构上的关注被进一步稀释。这就是为什么相关技术难以在长句或者跨句的关系抽取中获得比较好的准确度的原因。
目前人工智能技术的发展,需要大量高质量的知识图谱作为基础数据,以帮助人工智能学习知识。在医疗或者法律等专业领域,对知识的准确性和专业性有着很高的要求。在医疗领域中目前可以获得的语料通常由论文、百科词条和病历等半结构化或者非结构化数据组成。这些语料中的非结构化部分往往包含大量结构复杂的长句和跨句关系,一个输入文本中可能包含多个实体。那么意味着相关技术无法很好地利用这些数据来完成高准确度的知识图谱的构建。故此,相关技术已经不能满足人工智能技术当前发展的需求。
有鉴于此,本申请通过从输入文本中抽取依存关系特征信息,来弥补相关技术中预训练模型对长句或者跨句的实体关系抽取能力的不足。通过将输入文本的依存关系特征信息和基于诸如BERT等预训练模型产生的用于表征语义特征的信息进行组合,然后通过一关系分类模型进行分类,这样的方法在长句和跨句的关系抽取中获得了较高的准确度,即便是输入文本中两个距离比较远的实体,它们之间的关系也能够被准确地抽取,采样这样的方法就可以从上述结构比较复杂的数据中抽取大量准确的实体关系来构建高质量的知识图谱。
结合图1和图2,对本申请的具体实施方式进行说明。
图1是本申请实施例提供的一种文本的实体关系抽取方法的一个可选的流程图,图1中的方法包括步骤110至步骤170。
步骤110、获取输入文本。在本步骤中,输入文本可以只包括一个句子,也可以包括由多个句子组成的语段,甚至是由多个语段组成的文章。所述输入文本可以从互联网获取、由本地输入装置输入或者从存储器读取。
步骤120、对所述输入文本进行识别处理,得到所述输入文本中的至少两个实体和所述至少两个实体的类型。
具体地,所述实体以及实体的类型通过NER(Named Entity Recognition)工具进行识别,例如可以采用NER工具Stanford NLP实现。以输入文本为医疗相关的文本为例,在步骤110中获取到的输入文本为“张三得了感冒,李四建议它用阿司匹林来治疗”。通过NER工具进行识别,可以识别出的实体包括“张三”、“感冒”、“李四”和“阿司匹林”四个实体,这四个实体分别所对应的类型为:“人名”、“疾病”、“人名”和“药物”。当然,为了可专注于抽取某个领域中特定类型的实体之间的关系,可以对NER工具进行调整,限制其识别的实体的类型,使其仅识别某个领域的实体类型。当然,也可以在NER工具识别出实体后,基于类型对这些实体进行过滤,以获得属于某个领域的类型的实体。
步骤130、从所述至少两个实体中确定目标实体对。
根据步骤120的描述,一句话中可能包含多个实体,往往还会包含多个属于特定领域的实体,例如,包含多个属于医疗领域的实体。关系抽取以实体对的方式进行,因此要在两个以上的实体中确定两个实体作为关系抽取的目标实体对。在本步骤中,确定目标实体对的方式有多种,包括但不限于1)由用户的输入指令确定目标实体对,即用户指定某两个实体的为目标实体对;2)以遍历的方式构建实体对,以穷尽所有实体对的组合方式;3)基于两个实体的类型关系来确定。
在医疗领域中,实体和实体之间是否存在关系,与它们两者的类型有着强烈的关系。例如,部位和疾病可以是发病部位的关系,手术和疾病可以是治疗手段的关系。但是食物和手术很少存在关系,甚至往往是没有关系的。因此,在输入文本中同时出现“苹果”和“缝合术”的时候,可以不将这一对实体作为目标实体对。在一些实施例中,可以根据一个预设类型规则来限制目标实体对的选取,使得目标实体对的选取只在预设类型规则记载的范围中进行。表1是一种预设类型规则的示例性说明,在确定目标实体的时候,只选取类型关系满足表1中任一关系的实体对作为关系抽取的目标实体对。基于预设类型规则来筛选目标实体对,可以减少无意义的关系抽取的次数,可以节省算力,提升实体关系抽取的效率。
表1
部位——疾病 疾病——药物 疾病——食物
疾病——疾病 药物——药物 疾病——检查
疾病——手术 疾病——科室 症状——科室
步骤140、根据目标实体的类型,将所述输入文本中的所述目标实体替换成用于表示所述目标实体的类型的字符,得到所述输入文本的替换文本。
目标实体对已经在步骤130中被确定了,因此需要对输入文本进行调整,使得模型可以针对目标实体对进行关系抽取。具体地,本步骤将输入文本中的目标实体替换成表示目标实体的类型的字符,其中表示目标实体所属类型的字符可以是单个字符,也可以是多个字符。在本实施例中,可以用不同的字符或者字符串来区分不同的实体类型,其中最简单的方式就是直接用实体类型的名称来对输入文本中的目标实体进行替换。当然,也可以使用“实体类型1、实体类型2、……和实体类型N”这样的名称来对输入文本中的目标实体进行替换。替换的字符并不限定于中文,也可以替换成type1、type2、……typeN等。下面用一个实例来说明,在输入文本“阿司匹林又叫做乙酰水杨酸,可以用于治疗感冒”中,提取并确定了类型为“药物”的实体“阿司匹林”和类型为“疾病”的实体“感冒”作为目标实体对,在本步骤中,会将输入文本中的“阿司匹林”替换为“药物”,将输入文本中的“感冒”替换成“疾病”。使得输入文本经过替换后变成“药物又叫做乙酰水杨酸,可以用于治疗疾病”。当然,这样也要求模型进行训练的过程中,对标注数据进行同样的替换处理,以使得模型可以学习到替换的内容所表示的含义。
由于大多数的关系抽取模型,都是在诸如BERT等预训练模型的基础上进行fine-tuning(一种迁移学习的手段,针对自己的应用对别人预训练好的模型上进行二次训练)得到的。而在这些预训练模型的预训练过程中往往带入了过多的实体信息,使得实体对的名称在预训练模型中产生强烈的联系。例如,在预训练过程中,预训练模型接触了大量关于阿司匹林和感冒的语料,因此产生一种倾向,只要输入文本中出现阿司匹林和感冒就会认为两者存在关系。然而实际上,并非在一句话之中出现阿司匹林和感冒就是表达两者是治疗药物的关系。例如,句子“阿司匹林可以治疗感冒吗?”,这句话实际上就没有表达阿司匹林和感冒是治疗药物的关系。因此,本步骤的替换处理,除了可以标识目标实体对以外,还有另一个作用就是排除预训练模型的干扰,使得预测结果不会受到预训练模型的倾向性所影响。同时,对输入文本进行这样的处理使得关系抽取模型在训练过程中,无需去纠正预训练模型在预训练过程中带来的错误倾向,可以专注于学习新的知识。
步骤150、从所述替换文本中提取语义特征信息。具体地,在本实施例中,通过第一处理模型210对所述替换文本进行语义特征提取处理,得到用于表征所述替换文本语义特征的第一向量。在另一些实施例中,除了可以用向量来表示语义特征信息以外,还可以用矩阵或者字符串等信息来表示,其由采用的模型的输出结构而定。
在本实施例中,所述第一处理模型210可以基于word2vec模型、BERT模型、fasttext、openAI-GPT等预训练模型实现。第一处理模型210对替换文本进行处理后输出一个高维向量来表征所述替换文本的语义特征,例如是768维或者1024维的向量,向量的维数与选择的模型的输出层有关。
参照图3,图3是本实施例中一种可选的第一处理模型210,其由一个BERT模型和一层前馈神经网络所组成,替换文本以字符为单位作为BERT模型输入侧的Tok1、Tok2、……、TokN,其中[CSL]表示句子的开始,经过BERT模型的对输入文本的字符进行处理后产生[CSL]、Tok1、Tok2、……、TokN对应的词向量E[CSL]、E1、E2、……、EN。BERT模型对这些词向量E[CSL]、E1、E2、……、EN进行加权和卷积等处理后会产生输出向量C、T1、T2……、TN,输出向量C、T1、T2……、TN经过前馈神经网络后输出一个768维的向量,该768维的向量用于表征替换文本的语义特征。当然,也可以对BERT模型的输出结构进行改动,使其输出其他维数的向量。
步骤160、从所述输入文本中提取依存关系特征信息。具体地,本实施例通过第二处理模型220对所述输入文本进行依存关系特征提取处理,得到用于表征所述输入文本依存关系特征的第二向量。在另一些实施例中,除了可以用向量来表示依存关系特征信息以外,还可以用矩阵或者字符串等信息来表示,其由采用的模型的输出结构而定。
在本实施例中,所述第二处理模型220可以采用如图4所示的结构实现,其中,图4中的第二处理模型220包括词嵌入模块222、依存关系分析模块221和图状态循环神经网络223。其中,词嵌入模块222可以采用word2vec等预训练模型来实现,其作用是将输入文本中的词语进行词嵌入处理,将输入文本中词语编码成词向量,其中,词嵌入模块222的分词工作可以自己完成,也可以借助依存关系分析模块221进行完成。
所述依存关系包括依存句法关系和语义依存关系,本实施例采用HanLP工具作为依存关系分析模块以实现输入文本句法依存关系的提取。当输入文本被输出到HanLP工具之中,HanLP工具会对输入文本进行分词处理,并提取出输入文本中的词语在句子中的成分类型,接着HanLP工具会基于词语的在句子中的成分类型,分析句子中词语之间的关系,即分析词语之间的主谓关系、主宾关系等等常见的数十种关系,最后HanLP会输出输入文本的依存句法关系信息。一般情况下,HanLP工具所输出的依存句法关系信息可以由一个树状图表示。
依存句法关系是由法国语言学家L.Tesniere最先提出。它将句子分析成一棵依存句法树,描述出各个词语之间的依存关系。图5提供了一种依存句法关系分析的示例。句子“阿司匹林治愈了多数普通感冒患者”,经过分词后,得到“阿司匹林/治愈/了/多数/普通/感冒/患者”。图5的左侧表达了词语之间的语法关系,可以将这句话表示为图5右侧的树状图。其中,“治愈”作为根节点,它作为整个句子的核心词,接着在树状图的第二层,包括“阿司匹林”、“了”和“患者”,接着在“患者”下方分出了第三层的“多数”和“感冒”,在“感冒”下方还有第四层的“普通”。当然,图5只是一种示例性说明,实际的得到的树状图会因选用的依存关系分析模块的不同而有所差异。
接着,本实施例以一个GRN神经网络作为图状态循环神经网络223,来产生用于表征输入文本的依存关系特征的向量。GRN神经网络是一种应用在图上的循环神经网络模型,可以对图的结构特征和内容特征进行抽取并且应用到下游任务中,其特点是网络会根据图的结构特征来改变节点之间的连接关系,使得节点在更新时可以接收在图中存在连接关系的其它节点的信息,使得在循环神经网络中,节点之间的信息传递不再按照词语在句子中的位置顺序进行。GRN神经网络在更新时,按照依存关系信息所表示的树状图的层结构来决定节点的更新次序。从图5可以看出,在依存关系中“阿司匹林”和“感冒”之间的距离相对于两者在句子中的距离要更短,因此利用依存关系可以有助于改善长句和跨句的情况下实体对的关系抽取的准确度。
在另一些实施例中,将GRN神经网络替换成一个Bi-DAG-LSTM神经网络,Bi-DAG-LSTM神经网络也是一种图状态循环神经网络。Bi-DAG-LSTM神经网络和GRN神经网络的区别在于,Bi-DAG-LSTM神经网络的更新次序是按照从左到右和从右边到左两个方向进行的,最后将从两个方向进行的节点更新的结果进行相加后作为神经网络的输出结果,在Bi-DAG-LSTM神经网络之中,节点在更新时除了接收相邻节点的输入以外,还会接收在依存关系信息中具有依存关系的节点的输入。
参照图6,图6示出了GRN神经网络的工作方式,以图5中“阿司匹林治愈了多数普通感冒患者”作为输入文本。首先,句子经过依存关系分析模块221得到依存关系信息,依存关系信息如图5所示。经过词嵌入模块222对“阿司匹林”、“治愈”、“了”、“多数”、“普通”、“感冒”和“患者”等词语进行词嵌入处理,得到词向量V1~V7。在T0时,所述词向量V1~V7依次输入到GRN神经网络的节点h1~h7之中。
节点h1~h7根据节点中词向量所对应的词语在依存关系信息中的位置进行更新。具体地,可以从依存关系信息所表示的树状图的根节点层开始,逐层往下更新。参照图5和图6,位于树状图根节点的词语“治愈”所对应的词向量所在的节点为h2,因此,在T1时刻,先更新节点h2,节点h2对V2进行处理,产生一个输出向量。接着根据图5,更新树状图的第二层的词语所对应的词向量所在的节点。即在T2时刻,更新节点h1、h3和h7。其中,节点h1在更新时会接收节点h2的输出向量的输入,节点h1对节点h2的输出向量和节点h1之中的词向量V1进行加权后产生本节点的输出向量,同理,节点h3会做类似的处理,将本节点中的词向量V3和节点h2的输出向量进行加权处理,然后产生本节点的输出向量。节点h7与节点h1和h3不同,节点h7本身没有和节点h2相邻,但是由于“治愈”和“患者”在数装结构图中为父子节点,存在依存关系,因此,根据GRN神经网络的特点,在节点h7更新时,也会接收节点h2的输出向量,并将本节点中的词向量V7与节点h2的输出向量进行加权,随后产生本节点的输出向量。可见,在图状态循环神经网络中,节点会接收所有关联节点的输出向量,所述关联节点包括相邻节点和存在依存关系的节点,其中,两个节点中的词向量所对应的词语在依存关系信息中存在直接的连接关系时,称这两个节点存在依存关系。
接着,在T3时刻对节点h4和节点h6进行更新,在T4时刻更新节点h5。当所有的节点更新完毕之后,图状态循环神经网络通过一个输出层产生第二向量。在本实施例中,该第二向量为100维的向量。
参照图7,图7示出了Bi-DAG-LSTM神经网络的工作方式,Bi-DAG-LSTM神经网络也根据依存关系信息来改变节点之间的连接关系,其工作特点是会从两个方向去更新节点。结合依存关系信息后,可以看出来Bi-DAG-LSTM神经网络的节点之间的连接关系构成了从左到右和从右到左两个有向无环图,在图7的左侧,节点h1~h7的更新次序为:h1、h2、h3、……、h7。其中,节点h2节点h7在依存关系,因此在节点h7更新的时候除了会接收相邻节点h6的输出向量以外,还会接收节点h2的输出向量。图7中各节点产生输出向量的方式与图6中的节点类似,都是先将本节点的词向量和其它节点输入的向量进行加权后,产生本节点的输出向量。接着看图7的右侧,右侧节点的更新次序为:h7、h6、h5、……、h1。其中,节点h4在更新时,由于其与节点h7存在依存关系,因此,节点h4会接受节点h7的输出向量。而其它节点在更新时只接受了相邻节点的输出向量。当所有的节点按照从左到右和从右到左的两个顺序完成更新后,将两次更新经过输出层产生的向量进行加权处理,最终得到100维的第二向量。
从图6和图7中可以看出两种图状态循环神经网络的工作方式,对于Bi-DAG-LSTM神经网络而言,节点的更新是逐个进行的,因此多个节点之间不能同时更新。而对于GRN神经网络而言,根据树状图的结构,多个节点是可以同步更新的,而且无需从两个方向进行两次更新。因此,使用GRN神经网络来提取依存关系特征具有更高的效率。此外,Bi-DAG-LSTM神经网络对树状图结构进行了拆分,实际上这样拆分的操作会使得依存关系信息有所损失,因此,采用GRN神经网络可以更加完整第对依存关系特征进行提取,表达成第二向量。
需要说明的是,上述实施例只是示例性的,其并不限制第一处理模型和第二处理模型中文本输入的长度,应当想到可以根据实际需求在设计模型时确定输入文本的最大长度。
步骤170、将所述语义特征信息和所述依存关系特征信息进行组合处理后分类,得到所述目标实体对的关系分类结果,以确定所述目标实体对的关系。
具体地,本实施例是将所述第一向量和所述第二向量拼接后输入到关系分类模型230中进行分类处理,得到目标实体对的关系分类结果,根据所述关系分类结果得到所述目标实体对的关系。
在经过步骤150和步骤160后,得到了用于表征输入文本的依存关系特征的第二向量和用于表征替换文本的语义特征的第一向量,对这两个向量进行拼接处理,而拼接的方式为首尾相接。例如,将第一向量表示为(a1,a2,……,an),将第二向量表示为(b1,b2,……,bm)。将两者拼接后得到一个长度为n+m的向量。至于拼接的次序,可以由训练时的网络的结构决定,例如在一些实施例中,拼接后的向量表示为(a1,a2,……,an,b1,b2,……,bm)。在另一些实施例中,拼接后的向量表示为(b1,b2,……,bm,a1,a2,……,an)。第一向量和第二向量拼接后,输入到关系分类模型230中进行结果预测,该关系分类模型230会预测输入向量所表示的含义属于预先设定的每一种分类的概率。例如,预先对关系分类模型设置了10种分类的类型,该关系分类模型会产生一个十维的输出向量,该输出向量可以用(P1,P2,……,P10)表示,其中,P1的数值表示输入到关系分类模型中的向量所表示的含义属于P1所对应的分类的概率。例如,关系分类模型的输出结果是(0.1,0.8,……,0.01),而P1对应的类型是类型1,P2对应的类型是类型2,……,P10对应的是类型10。这说明本次分类结果中,属于类型1的概率为0.1、属于类型2的概率为0.8,……,属于类型10的概率为0.01。基于上述概率,配合一定的阈值条件,可以确定出目标实体对的关系。在一些实施例中,可以将分类结果中概率最大的关系作为目标实体对的关系。在另一些实施例中,可以设置阈值条件,过滤低于设定概率的分类结果,例如,限定如果关系分类模型输出的分类结果中,只有概率超过50%的分类才能作为目标实体对的分类,如果关系分类模型输出的分类结果中,属于全部分类的概率都低于50%,则将目标实体对判定为没有关系。
在另一些实施例中,当语义特征信息和依存关系特征信息为其他类型的数据结构的信息时,可以通过组合处理,将他们处理成与关系分类模型230的输入层的结构对应的数据结构。例如,分类模型230是一个输入层为100维的向量,而语义特征信息和依存关系特征信息均是一个10*5的矩阵,在进行组合处理时,可以将语义特征信息矩阵中的参数映射到一个50维的向量,将依存关系特征信息矩阵中的参数映射到另一个50维的向量,然后拼接这两个50为的100维的向量,以完成组合处理,接着将组合后的这个100维的向量,输入到关系分类模型230之中进行分类。需要说明的是,模型在训练过程中,会修正自身的参数,因此,只要将某些参数固定地输入到分类模型中固定的对应位置,理论上分类模型在经过训练以后也可以学习出正确的关系。所述,对于语义特征信息和依存关系特征信息的组合方式,并不局限于上述的几种。
参照图8,该关系分类模型230可以采用归一化指数(softmax)分类器实现,该softmax分类器由一个输入层231、第一隐层232、第二隐层233和输出层234所构成。通过该softmax分类器对n+m维的向量进行归一化处理,最终将n+m维的向量映射为一个z维的输出向量。该softmax分类器实际上的作用是将输入的向量映射到分类结果中。
参照图1、图2和图9,本实施例对步骤160进行进一步的说明:所述步骤160具体包括:步骤161~步骤163。
步骤161、对所述输入文本进行依存关系分析处理,得到所述输入文本的依存关系信息。
参照图4,本步骤可以以HanLP等依存关系分析工具作为依存关系分析模块221来对输入文本中的依存关系进行抽取,从而产生如图5所示的依存关系信息。
步骤162、对所述输入文本进行词嵌入处理,得到所述输入文本中词语的词向量。
参照图4,本步骤可以以word2vec等预训练模型作为词嵌入模块222,对输入文本进行词嵌入处理。
步骤163、通过图状态循环神经网络223对所述输入文本中词语的词向量进行处理,得到用于表征所述输入文本依存关系特征的所述第二向量;
其中,所述图状态循环神经网络包括多个节点,所述输入文本中每个词语的词向量被输入到所述图状态循环神经网络的不同节点中,所述图状态循环神经网络根据所述输入文本的依存关系信息改变各节点的连接关系,使所述输入文本的依存关系信息映射到循环神经网络的各节点的连接关系中。
本实施例的图状态循环神经网络会根据依存关系信息改变神经网络中的节点之间的连接关系,使得输入文本的依存关系得以很好地通过图状态循环神经网络被提取出来。
参照图4、图5、图6、图9和图10,在本实施例中,采用GRN神经网络作为图状态循环神经网络223实施文本的实体关系抽取方法。在本实施例中,所述依存关系信息是树状图,如图5所示,所述树状图包括第一层至第N层,其中第一层为根节点层,通常称作root层,root层只有一个根节点。该根节点通常该词为动词,一般认为动词是最能够代表一个语句的主要内容。
在本实施例中,如图10所示,图9中的步骤163具体包括:
步骤1631、按照树状图的第一层到第N层的顺序,更新所述依存关系信息中每一层的词语对应的词向量所在的节点的输出向量。其中,位于同一层的词语对应的词向量所在的节点同步更新。即依次更新第一层、第二层、第三层、……、第N层中词语的词向量所在的节点。
步骤1632、在更新完所述图状态循环神经网络的所有节点后,根据所有节点的输出向量得到所述第二向量。
结合图5和图6,词语“阿司匹林”、“了”和“患者”均处于树状图的第二层,因此它们对应的词向量所在的节点h1、h3和h7可以同步更新。这样的方式使得多个节点可以并行进行处理,而不是像Bi-DAG-LSTM神经网络那样需要逐个节点更新,因此本实施例可以提高依存关系抽取的效率,而且节点更新时完全按照依存关系信息的树状图结构来进行,使得最终的输出向量可以较为完整地保留输入文本的依存关系。
本实施例对图状态循环神经网络中的节点的工作机制进行说明,在本实施例中,图状态循环神经网络的节点与LSTM神经网络中的节点结构相同,都包括遗忘门、输入门和输出门。
所述图状态循环神经网络中的各节点对本节点中的词向量和接收到的关联节点的输出向量进行加权后得到本节点的输出向量。具体地,多个向量之间可以是平均加权。例如,在图6中,节点h1的输出向量由节点h1中的词向量V1和节点h2的输出向量平均加权后进行处理得到。
在本实施例中,所述关联节点包括与本节点相邻的节点或者与本节点存在依存关系的节点,相邻节点是图状态循环神经网络中两个存在左右顺序的节点,例如,图6中的节点h1和节点h2是相邻节点,节点h2分别是节点h1和节点h3的相邻节点。两个节点存在依存关系是指两个节点中的词向量分别对应的词语在依存关系信息中存在直接的关系。其中直接的关系是指两个词语在依存关系信息中是父子节点的关系,在树状图中直接连接。
在前面的实施例中,分析了关系抽取模型在长句和跨距的实体关系抽取上精度不足的原因,其中,除了实体之间的距离比较远以外,输入文中过多的实体会对关系抽取产生较大的干扰,这些实体本身对于输入文本所表示的关系并无实质贡献,反而分散了关系抽取模型对于句式的关注。因此,采取一些屏蔽策略,将对目标实体对的关系抽取有影响的非目标实体进行屏蔽,可以使得关系抽取模型更加关注于句式。
参照图11,本实施例在执行步骤150之前,还包括步骤141:
步骤141、根据所述目标实体的类型,将所述替换文本中所有与所述目标实体类型相同的非目标实体替换为预设字符;所述非目标实体是指所述至少两个实体中除所述目标实体以外的实体。
当然,步骤141也可以在步骤140之前执行,即根据所述目标实体的类型,将所述输入文本中所有与所述目标实体类型相同的非目标实体替换为预设字符。在这之后再进行目标实体对的替换。
以图11的实施流程为例,以输入文本“阿司匹林可以用于治疗感冒和心脏病”为例,其中,输入文本中包括类型为“药物”的实体“阿司匹林”,类型为“疾病”的实体“感冒”和实体“心脏病”,确定目标实体对为“感冒”和“阿司匹林”,经过步骤140的处理后,输入文本变成“药物可以用于治疗疾病和心脏病”。此时,实体“心脏病”是实体“感冒”的同类实体,它在句子中并没有对句子的含义产生贡献,反而占据了关系抽取模型的关注。因此,本实施例将“心脏病”用预设字符进行替换,以对与目标实体类型相同的非目标实体进行屏蔽。通常,采用没有具体含义的字符进行替换,例如将“心脏病”替换为星号“※”、“#”或者“@”等非中英文字符。经过替换后的输入文本变成“药物可以用于治疗疾病和※”。当然,同样是上述的例子,如果将目标实体对确定为“感冒”和“心脏病”,则不会对“阿司匹林”进行屏蔽处理,因为“阿司匹林”与目标实体并非相同的类型,在这个例子中,输入文本经过步骤140和步骤141处理后,得到的替换文本是“阿司匹林用于治疗疾病和疾病”。
众所周知,所有的预测模型都会有一定的差错率,对于预测模型预测错误的样本,往往是模型难以分辨的样本,这些样本属于疑难例,收集这些疑难例对模型进行二次训练,能够提升关系抽取模型的性能,使得模型在遇到同类疑难例的时候可以正确分类。
参照图11,本实施例还包括步骤180,对得到的目标实体对的关系进行校验,以筛选出错误的关系。具体地,根据第二预设类型规则对得到的目标实体对的关系进行筛选,标记错误的关系。实际上,本步骤在校验目标实体对的关系类型以及目标实体对的类型之间是否满足预设的类型约束条件,进而将满足预设的类型约束条件的实体对进行标记,作为正确或者错误的关系,具体要类型约束条件的内容。
在本实施例中,利用了医疗领域等专业领域对于实体对的关系类型具有强烈约束的特点,通过预设类型规则自动过滤和标记预测结果明显是错误的实体对关系,从而收集疑难例。
以医疗领域为例,对于类型均为疾病的实体对,它们可能存在的关系类型只有别名,或者是并发症,这一对实体明显不可能是治疗药物的关系。类型分别为疾病和手术的实体对,它们的关系只能是治疗手段的关系,而明显不可能是别名关系,也不可能是治疗药物的关系。因此,可以通过设置一个类型规则来对这些明显错误的结果进行过滤。例如,基于一个类型规则表进行过滤,检查实体对的类型和模型预测得到的结果,是否存在于类型规则表中。如果不存在,则将该实体对进行标记,作为疑难例。这些疑难例由人工重新标注后,可以作为后续训练的样本。本实施例只需要将明显不符合类型约束关系的关系分类结果过滤出来即可。
参照图12,本实施例公开了一种文本的实体关系抽取方法,在该关系抽取方法中,首先获取输入文本,接着将输入文本输入到NER模块1210中进行识别处理,从而获得输入文本中的实体和实体的类型,接着确定目标实体对,然后在输入文本中,将目标实体替换成目标实体对的类型,例如,将阿司匹林替换成药物,将感冒替换成疾病,将与目标实体类型相同的非目标实体替换成预设字符,例如替换成“※”等。从而获得一个替换文本。将替换文本输入到BERT模型1220中,提取用于表征替换文本的语义特征的768维向量。与此同时,输入文本被输入到HanLP模块1240中提取依存关系信息,并且通过一个word2vec模块1230提取输入文本中词语的词向量,GRN模型1250根据HanLP模块1240所输出的依存关系信息对word2vec模块1230输出的词向量进行处理,产生一个用于表征输入文本的依存关系特征的100维向量。该100维向量和768维向量通过拼接的方式输入到softmax分类器1260中,输出分类结果。本实施例在语义特征的提取时,采取了替换和屏蔽的策略,通过将目标实体对替换成它们的类型,可以避免BERT模型在预训练阶段所产生的错误倾向对分类结果造成不良影响,通过屏蔽与目标实体同类的非目标实体,可以减少过多的实体对语义特征提取的影响,可以使得BERT模型更加关注句式。同时,本实施例采用BERT模型来进行语义特征的提取,相对于word2vec、ELMo等预训练模型的效果更好。此外,本实施例还通过HanLP模块来产生输入文本的依存关系信息,并利用GRN模型根据依存关系信息来将输入文本处理成100维的向量,该向量可以表征输入文本的依存关系特征。通过将两个向量拼接可以得到一个包含有依存关系特征的868维向量,对该向量进行分类,使得分类的结果,其在长句或者跨句的关系抽取上取得比较好的效果。
表2示出了在本实施例中输入文本、目标实体对、替换文本以及关系抽取结果的关系示例。
表2
Figure BDA0002380875800000161
Figure BDA0002380875800000171
参照图13,本实施例公开一种关系抽取模型的训练方法,通过该方法进行训练的关系抽取模型,可以应用于图1中的关系抽取方法中,其中,参照图2,该关系抽取模型包括第一处理模型、第二处理模型和关系分类模型。其中,所述第一处理模型用于对文本进行语义特征提取处理,以得到用于表征所述文本语义特征的第一向量;所述第二处理模型用于对所述输入文本进行依存关系特征提取处理,得到用于表征所述文本依存关系特征的第二向量;所述关系分类模型用于根据拼接后的所述第一向量和所述第二向量进行分类处理,并输出所述目标实体对的关系分类结果。参照图13,本实施例的方法包括步骤1310~1360。
步骤1310、获取训练样本,所述训练样本包括输入文本和标注信息;所述标注信息用于标注输入文本中一组实体对的关系。所述训练样本可以从互联网获取、本地输入装置输入或者从存储器读取。而训练样本可以通过人工标注的方式获得,也可以基于远程监督自动产生。其中,输入文本可以只包括一个句子,也可以包括由多个句子组成语段。标注信息记录了被标注的实体对在输入文本的位置,以及被标注的实体对之间的关系。被标注的实体对之间的关系,可以用一个z维向量表示,也可以用一个关系类型标签表示。例如,关系类型一共有10类,分别为(类型1、类型2、……、类型N),可以用一个10维向量来表示被标注的实体对之间的关系,例如,实体对的关系为类型1,可以用向量(1,0,……,0)表示,除了该关系类型所在位置被置1以外,其他位置均置0。
步骤1320、对所述输入文本进行识别处理,得到所述输入文本中的至少两个实体和所述至少两个实体的类型。本步骤与图1的步骤120的具体实现方式相同。
步骤1330、将所述输入文本中被标注的所述实体对确定为目标实体对。本步骤读取标注信息,在输入文本中对被标注的实体对进行定位。
步骤1340、根据目标实体的类型,将所述输入文本中的所述目标实体替换成用于表示所述目标实体的类型的字符,得到所述输入文本的替换文本。可选地,还可以根据所述目标实体的类型,将所述替换文本或者输入文本中所有与所述目标实体类型相同的非目标实体替换为预设字符;所述非目标实体是指所述至少两个实体中除目标实体以外的实体。这样可以屏蔽同类实体对目标实体的关系抽取的干扰。
步骤1350、将所述输入文本和所述替换文本输入到所述关系抽取模型中进行处理,得到所述目标实体对的关系分类结果。具体地,参照图2,在关系抽取模型中,通过第一处理模型210对所述替换文本进行语义特征提取处理,得到用于表征所述替换文本语义特征的第一向量;通过第二处理模型220对所述输入文本进行依存关系特征提取处理,得到用于表征所述输入文本依存关系特征的第二向量;将所述第一向量和所述第二向量拼接后输入到关系分类模型230中进行分类处理,得到目标实体对的关系分类结果,根据所述关系分类结果得到所述目标实体对的关系。在另一些实施例中,语义特征信息和依存关系特征信息,也可以采用诸如矩阵或者字符串等方式表示。
步骤1360、根据所述目标实体对的关系分类结果和标注信息,对关系抽取模型中的参数进行修正,直到所述关系抽取模型中的参数满足停止训练条件时,结束对所述关系抽取模型的训练。在本实施例中,通过关系分类结果和标注信息,计算交叉熵,然后通过BP(Backpropagation,即误差反向传播)算法,来更新关系抽取模型的网络参数。BP网络的输入输出关系实质上是一种映射关系:一个输入m个输出的BP神经网络所完成的功能是从一维欧氏空间向m维欧氏空间中一有限域的连续映射,这一映射具有高度非线性。它的信息处理能力来源于简单非线性函数的多次复合,因此具有很强的函数复现能力。这是BP算法得以应用的基础。反向传播算法主要由两个环节(激励传播、权重更新)反复循环迭代,直到网络的对输入的响应达到预定的目标范围为止。在模型学习级阶段,如果在输出层得不到期望的输出值,则取输出与期望的误差的平方和作为目标函数,转入反向传播,逐层求出目标函数对各神经元权值的偏导数,构成目标函数对权值向量的梯量,作为修改权值的依据,网络的学习在权值修改过程中完成。误差达到所期望值时,网络学习结束。
参照图2和图4,所述第二处理模型220包括依存关系分析模块221、词嵌入模块222和图状态循环神经网络223;
其中,第二处理模型220的在对输入文本进行处理时执行图9中的方法,其中:
通过依存关系分析模块221执行步骤161,对所述输入文本进行依存关系分析处理,得到所述输入文本的依存关系信息。参照图5,所述依存关系信息可以通过一个多层的树状图来表示。
通过词嵌入模块222执行步骤162,对所述输入文本进行词嵌入处理,得到所述输入文本中词语的词向量;
通过图状态循环神经网络223对所述输入文本中词语的词向量进行处理,得到用于表征所述输入文本依存关系特征的第二向量;
其中,所述图状态循环神经网络包括多个节点,所述输入文本中每个词语的词向量被输入到图状态循环神经网络的不同节点中,所述图状态循环神经网络根据所述输入文本的依存关系信息改变各节点的连接关系,使所述输入文本的依存关系信息映射到循环神经网络的各节点的连接关系中。
本实施例中图状态循环神经网络223包括Bi-DAG-LSTM神经网络和GRN神经网络,这两种神经网络与关系抽取方法实施例中所采用的神经网络结构相同,这两种神经网络的工作方式可以参见图6和图7,此处不再一一赘述。
在人工智能领域,机器学习通常依赖训练样本,在自然语言处理领域,训练样本由文本和标注数据构成,通常这些训练样本通过模板规则生成或者通过人工标注。通过模板规则生成的标注数据往往句式单一并且质量低。而通过人工标注的数据虽然精度高,但是需要花费大量人力来完成,成本很高。据此,本实施例通过远程监督的方式来自动获得训练样本,可以以较低的成本获得质量较好的标注数据。
所述训练样本通过以下步骤获取,参照图14,具体包括步骤1410~1450:
步骤1410、获取候选文本。所述候选文本可以从网络爬取,也可以从数据库中读取。其中,所述候选文本通常是非结构化文本。例如针对医疗领域,可以从医疗论文和医疗百科词条中获取这些文本数据。
步骤1420、从所述候选文本中识别候选实体和所述候选实体的类型。具体地,在本实施例中也可以采用关系抽取方法和模型训练方法中使用的NER工具来完成实体的识别和实体类型的识别。当然,为了使得获得的训练样本专注于某些类型,可以根据候选实体的类型,对获得的候选实体进行过滤,例如,只保留包括类型为“疾病”、“手术”、“科室”、“药物”和“症状”等的候选实体。
步骤1430、从所述候选实体中构建候选实体对。
在本步骤中,可以通过遍历的方式,从步骤1420中识别到或者筛选剩下的候选实体中,成对地构建候选实体对。例如,步骤1420在句子“在内科看感冒的时候吃了一个苹果”中识别到的候选实体包括“内科”、“感冒”和“苹果”。那么可以从中构建三组实体对,包括(“内科”,“感冒”),(“感冒”,“苹果”)和(“内科”,“心脏病”)。
步骤1440、对候选实体对进行筛选,对不满足预设条件的候选实体对进行负样本标注处理。
其中,对候选实体对进行筛选的方式包括根据候选实体对的类型关系进行筛选,以及根据候选实体对在现有的知识库中是否具有关系来进行筛选。本步骤可以采用这两种筛选方式中的至少一种来实现。在本步骤中,负样本标注处理包括标注出候选实体对在候选文本中的位置,以及标注两者没有关系,标注信息和候选文本构成一组训练样本。
以步骤1430的句子为例,“内科”的类型为“科室”,“感冒”的类型为“疾病”,“苹果”的类型为“食物”。“科室”和“疾病”之间可能是问诊科室的关系,“食物”和“疾病”可能是忌口食物的关系,然而“科室”和“食物”通常是没有关系的。因此,可以基于和表1一样的类型规则,将不满足表1中的类型关系约束的候选实体对进行负样本标注。
当然也可以结合知识库对候选实体对进行过滤,基于现有的知识库,例如现有的知识图谱或者百科等,通过检索的方式查询候选实体对是否在知识库中存在关联,例如候选实体对出现在同一个词条中,或者通过若干个词条的调转实体对之间可以产生联系,属于这两种情况之一都认为是候选实体对在知识库中存在关联。
具体地,步骤1440可以由步骤1441和步骤1442组成,首先,在步骤1441中判断候选实体对是否满足预设类型关系,再判断候选实体对是否在知识库中存在关联。两者任一不满足,均对候选实体对进行负样本标注。
步骤1450、通过第三处理模型预测满足预设条件的候选实体对是否具有关系,若是,则对所述候选实体对进行正样本标注处理;若否,则对所述候选实体对进行负样本标注处理。
在本实施例中,所述第三处理模型为BERT模型,如图15所示,该BERT模型包括一层前馈式神经网络和softmax分类器,所述BERT模型通过少量的标注数据进行训练,用于预测句子中的目标实体对是否存在关系。其中,在训练本实施例的BERT模型时,会将训练文本中的目标实体对替换成相应的类型,让BERT模型预测训练文本是否存在关系,然后根据标注信息和softmax分类器的输出结果,通过BP算法更新BERT模型的网络参数,直到该BERT模型达到一定的预测精度。同样,在将候选文本输入到BERT模型进行预测前,需要将候选文本中的候选实体对替换成对应的类型。接着根据BERT模型输出的结果,判断候选实体对是否存在关系。如果根据BERT模型预测的结果判定两者不具备关系,则对该候选实体对进行负样本标注,如果根据BERT模型预测的结果判定两者具备关系,则对该候选实体对进行正样本标注。其中,在标注正样本的时候,可以根据一个类型约束规则进行自动标注。例如,在类型约束规则中可以规定,实体类型“疾病”和“科室”之间的关系类型是“问诊科室”,“疾病”和“手术”之间的关系类型是“治疗手段”。当然,如果遇到两个实体类型对应的关系类型不唯一的情况下,需要人工介入进行标注。例如,“疾病”和“疾病”之间可以是“并发症”的关系,也可以是“别名”的关系,这时候可以通过人工介入的方式来标注。
可见,本实施例基于知识库、类型关系规则和少量标注数据,通过远程监督的方法可以产生大量高质量的训练数据。其中,通过类型关系规则可以在诸如医疗等实体关系具有强烈的类型约束的领域,大大地降低远程监督产生的数据的噪声,本实施例将人工规则和预训练模型进行相结合,能够大大提升训练数据的质量。
参见图16,本实施例公开了一种文本的实体关系抽取装置,可以实现上述文本的实体关系抽取方法的实施例,本装置包括:
第一获取单元1610,用于获取输入文本。
第一识别单元1620,用于对所述输入文本进行识别处理,得到所述输入文本中的至少两个实体和所述至少两个实体的类型。
第一确定单元1630,用于从所述至少两个实体中确定目标实体对。
第一替换单元1640,用于根据目标实体的类型,将所述输入文本中的所述目标实体替换成用于表示所述目标实体的类型的字符,得到所述输入文本的替换文本。
语义特征提取单元1650,用于从替换文本中提取语义特征信息,具体地,对所述替换文本进行语义特征提取处理,得到用于表征所述替换文本语义特征的第一向量。
依存关系特征提取单元1660,用于从输入文本中提取依存关系特征信息,具体地,对所述输入文本进行依存关系特征提取处理,得到用于表征所述输入文本依存关系特征的第二向量。关系分类单元1670,用于将语义特征信息和依存关系特征信息进行组合处理后分类,具体地,将所述第一向量和所述第二向量拼接后的结果输入到关系分类模型中进行分类处理,得到所述目标实体对的关系分类结果。
结果校验单元1680,用于根据第二预设类型规则对得到的目标实体对的关系进行筛选,标记错误的关系。
参照图17,本实施例公开了一种关系抽取模型训练装置,可以实现上述文本的模型方法的实施例,本装置包括:
第二获取单元1710,用于获取训练样本,所述训练样本包括输入文本和标注信息;所述标注信息用于标注输入文本中一组实体对的关系;
第二识别单元1720,用于对所述输入文本进行识别处理,得到所述输入文本中的至少两个实体和所述至少两个实体的类型;
第二确定单元1730,用于将所述输入文本中被标注的实体对确定为目标实体对;
第二替换单元1740,用于根据目标实体的类型,将所述输入文本中的所述目标实体替换成用于表示所述目标实体的类型的字符,得到所述输入文本的替换文本;
特征提取及关系分类单元1750,用于将所述输入文本和所述替换文本输入到所述关系抽取模型中进行处理,得到所述目标实体对的关系分类结果;其中,所述关系抽取模型包括第一处理模型、第二处理模型和关系分类模型,所述第一处理模型用于对所述替换文本进行语义特征提取处理,得到用于表征替换文本语义特征的第一向量;所述第二处理模型用于对所述输入文本进行依存关系特征提取处理,得到用于表征所述输入文本依存关系特征的第二向量;所述关系分类模型用于根据拼接后的所述第一向量和所述第二向量进行分类处理,并输出目标实体对的关系分类结果;
模型训练单元1760,用于根据所述目标实体对的关系分类结果和标注信息,对所述关系抽取模型中的参数进行修正。
远程监督单元1770,用于产生训练样本,其中,该模块产生训练样本的方法如图14所示。
本申请实施例还提供了一种装置,该装置可以进行文本的实体关系抽取或者对关系抽取模型进行训练。下面结合附图对该装置进行介绍。请参见图18,本申请实施例提供了一种装置,该装置还可以是终端装置,该终端装置可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant,简称PDA)、销售终端(Point of Sales,简称POS)、车载电脑等任意智能终端,以终端装置为手机为例:
图18示出的是与本申请实施例提供的终端装置相关的手机的部分结构的框图。参考图18,手机包括:射频(Radio Frequency,简称RF)电路1810、存储器1820、输入单元1830、显示单元1840、传感器1850、音频电路1860、无线保真(wireless fidelity,简称WiFi)模块1870、处理器1880、以及电源1890等部件。本领域技术人员可以理解,图18中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图18对手机的各个构成部件进行具体的介绍:
RF电路1810可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1880处理;另外,将设计上行的数据发送给基站。通常,RF电路1810包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,简称LNA)、双工器等。此外,RF电路1810还可以通过无线通信与网络和其他装置通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System of Mobile communication,简称GSM)、通用分组无线服务(GeneralPacket Radio Service,简称GPRS)、码分多址(Code Division Multiple Access,简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access,简称WCDMA)、长期演进(Long Term Evolution,简称LTE)、电子邮件、短消息服务(Short Messaging Service,简称SMS)等。
存储器1820可用于存储软件程序以及模块,处理器1880通过运行存储在存储器1820的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1820可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1820可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1830可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1830可包括触控面板1831以及其他输入装置1832。触控面板1831,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1831上或在触控面板1831附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1831可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1880,并能接收处理器1880发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1831。除了触控面板1831,输入单元1830还可以包括其他输入装置1832。具体地,其他输入装置1832可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1840可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元184 0可包括显示面板1841,可选的,可以采用液晶显示器(LiquidCrystal Display,简称LCD)、有机发光二极管(Organic Light-Emitting Diode,简称OLED)等形式来配置显示面板1841。进一步的,触控面板1831可覆盖显示面板1841,当触控面板1831检测到在其上或附近的触摸操作后,传送给处理器1880以确定触摸事件的类型,随后处理器1880根据触摸事件的类型在显示面板1841上提供相应的视觉输出。虽然在图18中,触控面板1831与显示面板1841是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1831与显示面板1841集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1850,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1841的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1841和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1860、扬声器1861,传声器1862可提供用户与手机之间的音频接口。音频电路1860可将接收到的音频数据转换后的电信号,传输到扬声器1861,由扬声器1861转换为声音信号输出;另一方面,传声器1862将收集的声音信号转换为电信号,由音频电路1860接收后转换为音频数据,再将音频数据输出处理器1880处理后,经RF电路1810以发送给比如另一手机,或者将音频数据输出至存储器1820以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1870可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图18示出了WiFi模块1870,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1880是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1820内的软件程序和/或模块,以及调用存储在存储器1820内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1880可包括一个或多个处理单元;优选的,处理器1880可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1880中。
手机还包括给各个部件供电的电源1890(比如电池),优选的,电源可以通过电源管理系统与处理器1880逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本实施例中,该终端装置所包括的处理器1880具备执行前面实施例所述的文本的关系抽取方法以及模型训练方法。
本申请实施例用于执行关系抽取方法或者模型训练方法的还可以是服务器,请参见图19所示,图19为本申请实施例提供的服务器1900的结构图,服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central ProcessingUnits,简称CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储装置)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
服务器中的处理器可以用于执行所述文本的实体关系抽取方法或者所述模型训练方法。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行前述各个实施例所述的文本的实体关系抽取方法或者模型训练方法。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或装置不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或装置固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
对于上述方法实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
以上是对本申请的较佳实施进行了具体说明,但本申请并不限于所述实施例,熟悉本领域的技术人员在不违背本申请精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (15)

1.一种文本的实体关系抽取方法,其特征在于,包括以下步骤:
获取输入文本;
对所述输入文本进行识别处理,得到所述输入文本中的至少两个实体和所述至少两个实体的类型;
从所述至少两个实体中确定目标实体对;
根据目标实体的类型,将所述输入文本中的所述目标实体替换成用于表示所述目标实体的类型的字符,得到所述输入文本的替换文本;
从所述替换文本中提取语义特征信息;
从所述输入文本中提取依存关系特征信息;
将所述语义特征信息和所述依存关系特征信息进行组合处理后再分类,得到所述目标实体对的关系分类结果,以确定所述目标实体对的关系。
2.根据权利要求1所述的一种文本的实体关系抽取方法,其特征在于,所述从所述输入文本中提取依存关系特征信息,包括:
对所述输入文本进行依存关系分析处理,得到所述输入文本的依存关系信息;
对所述输入文本进行词嵌入处理,得到所述输入文本中词语的词向量;
通过图状态循环神经网络对所述输入文本中词语的词向量进行处理,得到所述输入文本的依存关系特征信息;
其中,所述图状态循环神经网络包括多个节点,所述输入文本中每个词语的词向量被输入到所述图状态循环神经网络的不同节点中,所述图状态循环神经网络根据所述输入文本的依存关系信息改变各节点的连接关系,使所述输入文本的依存关系信息映射到循环神经网络的各节点的连接关系中。
3.根据权利要求2所述的一种文本的实体关系抽取方法,其特征在于,所述依存关系信息是树状图,所述树状图包括第一层至第N层,其中,第一层为根节点层,N为大于等于2的整数;
所述通过图状态循环神经网络对所述输入文本中词语的词向量进行处理,得到所述输入文本的依存关系特征信息,包括:
按照第一层到第N层的顺序,更新所述依存关系信息中每一层的词语对应的词向量所在的节点的输出向量;
在更新完所述图状态循环神经网络的所有节点后,根据所有节点的输出向量得到第二向量以表征所述依存关系特征信息;
其中,位于同一层的词语对应的词向量所在的节点同步更新。
4.根据权利要求2或3所述的一种文本的实体关系抽取方法,其特征在于,所述图状态循环神经网络中的各节点对本节点中的词向量和接收到的关联节点的输出向量进行加权后得到本节点的输出向量;
其中,所述关联节点包括与本节点相邻的节点或者与本节点存在依存关系的节点,两个节点存在依存关系是指两个节点中的词向量分别对应的词语在依存关系信息中存在直接的关系。
5.根据权利要求1或2所述的一种文本的实体关系抽取方法,其特征在于,所述语义特征信息由第一向量表示,所述依存关系特征由第二向量表示;
所述将所述语义特征信息和所述依存关系特征信息进行组合处理,其具体为:
将第一向量和第二向量进行拼接处理。
6.根据权利要求1-3任一项所述的一种文本的实体关系抽取方法,其特征在于,所述从所述至少两个实体中确定目标实体对,具体为:
根据所述实体的类型,从所述至少两个实体中选择满足预设的类型关系的两个实体作为目标实体对。
7.根据权利要求1-3任一项所述的一种文本的实体关系抽取方法,其特征在于,在从所述替换文本中提取语义特征信息之前,还包括以下步骤:
根据所述目标实体的类型,将所述替换文本或者输入文本中所有与所述目标实体类型相同的非目标实体替换为预设字符;所述非目标实体是指所述至少两个实体中除所述目标实体以外的实体。
8.根据权利要求1-3任一项所述的一种文本的实体关系抽取方法,其特征在于,还包括以下步骤:
对得到的所述目标实体对的关系进行校验。
9.一种关系抽取模型训练方法,其特征在于,包括以下步骤:
获取训练样本,所述训练样本包括输入文本和标注信息;所述标注信息用于标注输入文本中一组实体对的关系;
对所述输入文本进行识别处理,得到所述输入文本中的至少两个实体和所述至少两个实体的类型;
将所述输入文本中被标注的所述实体对确定为目标实体对;
根据目标实体的类型,将所述输入文本中的所述目标实体替换成用于表示所述目标实体的类型的字符,得到所述输入文本的替换文本;
通过所述关系抽取模型从所述替换文本中提取语义特征信息;从所述输入文本中提取依存关系特征信息;将所述语义特征信息和所述依存关系特征信息进行组合处理后再分类,得到所述目标实体对的关系分类结果;
根据所述目标实体对的关系分类结果和标注信息,对所述关系抽取模型中的参数进行修正。
10.根据权利要求9所述的一种关系抽取模型训练方法,其特征在于,所述从所述输入文本中提取依存关系特征信息,包括:
对所述输入文本进行依存关系分析处理,得到所述输入文本的依存关系信息;
对所述输入文本进行词嵌入处理,得到所述输入文本中词语的词向量;
通过图状态循环神经网络对所述输入文本中词语的词向量进行处理,得到依存关系特征信息;
其中,所述图状态循环神经网络包括多个节点,所述输入文本中每个词语的词向量被输入到所述图状态循环神经网络的不同节点中,所述图状态循环神经网络根据所述输入文本的依存关系信息改变各节点的连接关系,使所述输入文本的依存关系信息映射到循环神经网络的各节点的连接关系中。
11.根据权利要求10所述的一种关系抽取模型训练方法,其特征在于,所述依存关系信息是树状图,所述树状图包括第一层至第N层,其中,第一层为根节点层,N为大于等于2的整数;
所述通过图状态循环神经网络对所述输入文本中词语的词向量进行处理,得到用于表征所述输入文本依存关系特征的第二向量,包括:
按照第一层到第N层的顺序,更新所述依存关系信息中每一层的词语对应的词向量所在的节点的输出向量;
在更新完图状态循环神经网络的所有节点后,根据所有节点的输出向量得到第二向量以表征所述依存关系特征信息;
其中,位于同一层的词语对应的词向量所在的节点同步更新。
12.根据权利要求10或11所述的一种关系抽取模型训练方法,其特征在于,所述图状态循环神经网络中的各节点对本节点中的词向量和接收到的关联节点的输出向量进行加权后得到本节点的输出向量;
其中,关联节点包括与本节点相邻的节点或者与本节点存在依存关系的节点,两个节点存在依存关系是指两个节点中的词向量分别对应的词语在依存关系信息中存在直接的关系。
13.根据权利要求9或10所述的一种关系抽取模型训练方法,其特征在于,所述语义特征信息由第一向量表示,所述依存关系特征由第二向量表示;
所述将所述语义特征信息和所述依存关系特征信息进行组合处理,其具体为:
将第一向量和第二向量进行拼接处理。
14.根据权利要求9-11任一项所述的一种关系抽取模型训练方法,其特征在于,在从所述替换文本中提取语义特征信息之前,还包括以下步骤:
根据所述目标实体的类型,将所述替换文本或者输入文本中所有与所述目标实体类型相同的非目标实体替换为预设字符;所述非目标实体是指所述至少两个实体中除目标实体以外的实体。
15.根据权利要求9-11任一项所述的一种关系抽取模型训练方法,其特征在于,所述训练样本通过以下步骤获取:
获取候选文本;
从所述候选文本中识别候选实体和所述候选实体的类型;
从所述候选实体中构建候选实体对;
对候选实体对进行筛选,对不满足预设条件的候选实体对进行负样本标注处理,得到训练样本;
预测满足所述预设条件的候选实体对是否具有关系,若是,则对所述候选实体对进行正样本标注处理,得到训练样本;若否,则对所述候选实体对进行负样本标注处理,得到训练样本;
所述预设条件是指所述候选实体对在知识库中存在关联和/或所述候选实体对的类型关系存在于预设类型关系表中。
CN202010082707.7A 2020-02-07 2020-02-07 文本的实体关系抽取方法和模型训练方法 Active CN111339774B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010082707.7A CN111339774B (zh) 2020-02-07 2020-02-07 文本的实体关系抽取方法和模型训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010082707.7A CN111339774B (zh) 2020-02-07 2020-02-07 文本的实体关系抽取方法和模型训练方法

Publications (2)

Publication Number Publication Date
CN111339774A true CN111339774A (zh) 2020-06-26
CN111339774B CN111339774B (zh) 2022-11-29

Family

ID=71183577

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010082707.7A Active CN111339774B (zh) 2020-02-07 2020-02-07 文本的实体关系抽取方法和模型训练方法

Country Status (1)

Country Link
CN (1) CN111339774B (zh)

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753498A (zh) * 2020-08-10 2020-10-09 腾讯科技(深圳)有限公司 文本处理方法、装置、设备及存储介质
CN111783463A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 知识抽取方法和装置
CN111930942A (zh) * 2020-08-07 2020-11-13 腾讯云计算(长沙)有限责任公司 文本分类方法、语言模型训练方法、装置及设备
CN111949792A (zh) * 2020-08-13 2020-11-17 电子科技大学 一种基于深度学习的药物关系抽取方法
CN111984790A (zh) * 2020-08-26 2020-11-24 南京柯基数据科技有限公司 一种实体关系抽取方法
CN112001180A (zh) * 2020-07-14 2020-11-27 北京百度网讯科技有限公司 多模态预训练模型获取方法、装置、电子设备及存储介质
CN112036151A (zh) * 2020-09-09 2020-12-04 平安科技(深圳)有限公司 基因疾病关系知识库构建方法、装置和计算机设备
CN112084790A (zh) * 2020-09-24 2020-12-15 中国民航大学 一种基于预训练卷积神经网络的关系抽取方法及系统
CN112115687A (zh) * 2020-08-26 2020-12-22 华南理工大学 一种结合知识库中的三元组和实体类型的生成问题方法
CN112163429A (zh) * 2020-09-27 2021-01-01 华南理工大学 结合循环网络及bert的句子相关度获取方法、系统及介质
CN112395407A (zh) * 2020-11-03 2021-02-23 杭州未名信科科技有限公司 企业实体关系的抽取方法、装置及存储介质
CN112417878A (zh) * 2020-11-24 2021-02-26 北京明略昭辉科技有限公司 实体关系抽取方法、系统、电子设备及存储介质
CN112445913A (zh) * 2020-11-25 2021-03-05 重庆邮电大学 一种基于大数据的金融信息负面主体判定分类方法
CN112487196A (zh) * 2020-06-29 2021-03-12 孙炜 一种训练关系抽取模型并抽取嵌套命名实体关系的方法
CN112819622A (zh) * 2021-01-26 2021-05-18 深圳价值在线信息科技股份有限公司 一种信息的实体关系联合抽取方法、装置及终端设备
CN112837769A (zh) * 2021-01-12 2021-05-25 山东众阳健康科技集团有限公司 一种基于深度学习和知识图谱的患者画像方法及系统
CN112906395A (zh) * 2021-03-26 2021-06-04 平安科技(深圳)有限公司 药物关系提取方法、装置、设备及存储介质
CN112925995A (zh) * 2021-02-22 2021-06-08 北京百度网讯科技有限公司 获取poi状态信息的方法及装置
CN113032523A (zh) * 2021-03-22 2021-06-25 平安科技(深圳)有限公司 三元组信息的抽取方法、装置、电子设备和存储介质
CN113051356A (zh) * 2021-04-21 2021-06-29 深圳壹账通智能科技有限公司 开放关系抽取方法、装置、电子设备及存储介质
CN113240443A (zh) * 2021-05-28 2021-08-10 国网江苏省电力有限公司营销服务中心 面向电力客服问答的实体属性对抽取方法和系统
CN113326371A (zh) * 2021-04-30 2021-08-31 南京大学 一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法
CN113392648A (zh) * 2021-06-02 2021-09-14 北京三快在线科技有限公司 实体关系获取方法及装置
CN113392217A (zh) * 2021-06-24 2021-09-14 广东电网有限责任公司 一种电力设备故障缺陷实体关系的抽取方法及装置
CN113435582A (zh) * 2021-06-30 2021-09-24 平安科技(深圳)有限公司 基于句向量预训练模型的文本处理方法及相关设备
CN113449517A (zh) * 2021-07-08 2021-09-28 福建工程学院 基于bert门控多窗口注意力网络模型的实体关系抽取方法
CN113505240A (zh) * 2021-07-09 2021-10-15 吉林大学 一种基于注意力引导图lstm关系提取方法及装置
CN113642312A (zh) * 2021-08-19 2021-11-12 平安医疗健康管理股份有限公司 体检数据的处理方法、装置、设备及存储介质
CN113704460A (zh) * 2021-03-25 2021-11-26 腾讯科技(深圳)有限公司 一种文本分类方法、装置、电子设备和存储介质
CN113821723A (zh) * 2021-09-22 2021-12-21 广州博冠信息科技有限公司 搜索方法、装置及电子设备
CN114218924A (zh) * 2021-07-27 2022-03-22 广东电力信息科技有限公司 一种基于bert模型的文本意图及实体联合识别方法
CN114372454A (zh) * 2020-10-14 2022-04-19 腾讯科技(深圳)有限公司 文本信息抽取方法、模型训练方法、装置及存储介质
CN114373554A (zh) * 2021-12-28 2022-04-19 大连海事大学 利用药物知识和句法依存关系的药物相互作用关系抽取方法
CN114385809A (zh) * 2020-10-22 2022-04-22 中移(成都)信息通信科技有限公司 实体文本提取模型的训练方法、装置及设备
CN114531696A (zh) * 2020-11-23 2022-05-24 维沃移动通信有限公司 Ai网络部分输入缺失的处理方法和设备
CN114580438A (zh) * 2022-03-02 2022-06-03 阿里巴巴(中国)有限公司 文本序列生成方法、预训练方法、存储介质及程序产品
WO2022178950A1 (zh) * 2021-02-25 2022-09-01 平安科技(深圳)有限公司 预测语句实体的方法、装置和计算机设备
CN116402055A (zh) * 2023-05-25 2023-07-07 武汉大学 一种专利文本实体的抽取方法、装置、设备和介质
CN116522935A (zh) * 2023-03-29 2023-08-01 北京德风新征程科技股份有限公司 文本数据处理方法、处理装置和电子设备
CN112214610B (zh) * 2020-09-25 2023-09-08 中国人民解放军国防科技大学 一种基于跨度和知识增强的实体关系联合抽取方法
CN116866054A (zh) * 2023-07-25 2023-10-10 安徽百方云科技有限公司 公共信息安全监测系统及其方法
CN116975299A (zh) * 2023-09-22 2023-10-31 腾讯科技(深圳)有限公司 文本数据的判别方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291687A (zh) * 2017-04-27 2017-10-24 同济大学 一种基于依存语义的中文无监督开放式实体关系抽取方法
CN109710932A (zh) * 2018-12-22 2019-05-03 北京工业大学 一种基于特征融合的医疗实体关系抽取方法
CN109933781A (zh) * 2018-10-16 2019-06-25 北京信息科技大学 基于sao结构的中文专利文本实体关系抽取方法
CN110502749A (zh) * 2019-08-02 2019-11-26 中国电子科技集团公司第二十八研究所 一种基于双层注意力机制与双向gru的文本关系抽取方法
CN110717049A (zh) * 2019-08-29 2020-01-21 四川大学 一种面向文本数据的威胁情报知识图谱构建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291687A (zh) * 2017-04-27 2017-10-24 同济大学 一种基于依存语义的中文无监督开放式实体关系抽取方法
CN109933781A (zh) * 2018-10-16 2019-06-25 北京信息科技大学 基于sao结构的中文专利文本实体关系抽取方法
CN109710932A (zh) * 2018-12-22 2019-05-03 北京工业大学 一种基于特征融合的医疗实体关系抽取方法
CN110502749A (zh) * 2019-08-02 2019-11-26 中国电子科技集团公司第二十八研究所 一种基于双层注意力机制与双向gru的文本关系抽取方法
CN110717049A (zh) * 2019-08-29 2020-01-21 四川大学 一种面向文本数据的威胁情报知识图谱构建方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PENG SHI等: "Simple BERT Models for Relation Extraction and Semantic Role Labeling", 《ARXIV》 *
甘丽新等: "基于句法语义特征的中文实体关系抽取", 《计算机研究与发展》 *
许晶航等: "基于图注意力网络的因果关系抽取", 《计算机研究与发展》 *

Cited By (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487196A (zh) * 2020-06-29 2021-03-12 孙炜 一种训练关系抽取模型并抽取嵌套命名实体关系的方法
CN111783463A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 知识抽取方法和装置
US11928432B2 (en) 2020-07-14 2024-03-12 Beijing Baidu Netcom Science And Technology Co., Ltd. Multi-modal pre-training model acquisition method, electronic device and storage medium
CN112001180A (zh) * 2020-07-14 2020-11-27 北京百度网讯科技有限公司 多模态预训练模型获取方法、装置、电子设备及存储介质
CN111930942A (zh) * 2020-08-07 2020-11-13 腾讯云计算(长沙)有限责任公司 文本分类方法、语言模型训练方法、装置及设备
CN111930942B (zh) * 2020-08-07 2023-08-15 腾讯云计算(长沙)有限责任公司 文本分类方法、语言模型训练方法、装置及设备
CN111753498B (zh) * 2020-08-10 2024-01-26 腾讯科技(深圳)有限公司 文本处理方法、装置、设备及存储介质
CN111753498A (zh) * 2020-08-10 2020-10-09 腾讯科技(深圳)有限公司 文本处理方法、装置、设备及存储介质
CN111949792B (zh) * 2020-08-13 2022-05-31 电子科技大学 一种基于深度学习的药物关系抽取方法
CN111949792A (zh) * 2020-08-13 2020-11-17 电子科技大学 一种基于深度学习的药物关系抽取方法
CN111984790A (zh) * 2020-08-26 2020-11-24 南京柯基数据科技有限公司 一种实体关系抽取方法
CN111984790B (zh) * 2020-08-26 2023-07-25 南京柯基数据科技有限公司 一种实体关系抽取方法
CN112115687A (zh) * 2020-08-26 2020-12-22 华南理工大学 一种结合知识库中的三元组和实体类型的生成问题方法
CN112115687B (zh) * 2020-08-26 2024-04-26 华南理工大学 一种结合知识库中的三元组和实体类型的生成问题方法
CN112036151A (zh) * 2020-09-09 2020-12-04 平安科技(深圳)有限公司 基因疾病关系知识库构建方法、装置和计算机设备
CN112036151B (zh) * 2020-09-09 2024-04-05 平安科技(深圳)有限公司 基因疾病关系知识库构建方法、装置和计算机设备
CN112084790B (zh) * 2020-09-24 2022-07-05 中国民航大学 一种基于预训练卷积神经网络的关系抽取方法及系统
CN112084790A (zh) * 2020-09-24 2020-12-15 中国民航大学 一种基于预训练卷积神经网络的关系抽取方法及系统
CN112214610B (zh) * 2020-09-25 2023-09-08 中国人民解放军国防科技大学 一种基于跨度和知识增强的实体关系联合抽取方法
CN112163429B (zh) * 2020-09-27 2023-08-29 华南理工大学 结合循环网络及bert的句子相关度获取方法、系统及介质
CN112163429A (zh) * 2020-09-27 2021-01-01 华南理工大学 结合循环网络及bert的句子相关度获取方法、系统及介质
CN114372454A (zh) * 2020-10-14 2022-04-19 腾讯科技(深圳)有限公司 文本信息抽取方法、模型训练方法、装置及存储介质
CN114385809A (zh) * 2020-10-22 2022-04-22 中移(成都)信息通信科技有限公司 实体文本提取模型的训练方法、装置及设备
CN112395407A (zh) * 2020-11-03 2021-02-23 杭州未名信科科技有限公司 企业实体关系的抽取方法、装置及存储介质
CN112395407B (zh) * 2020-11-03 2023-09-19 杭州未名信科科技有限公司 企业实体关系的抽取方法、装置及存储介质
CN114531696A (zh) * 2020-11-23 2022-05-24 维沃移动通信有限公司 Ai网络部分输入缺失的处理方法和设备
CN112417878A (zh) * 2020-11-24 2021-02-26 北京明略昭辉科技有限公司 实体关系抽取方法、系统、电子设备及存储介质
CN112445913A (zh) * 2020-11-25 2021-03-05 重庆邮电大学 一种基于大数据的金融信息负面主体判定分类方法
CN112837769A (zh) * 2021-01-12 2021-05-25 山东众阳健康科技集团有限公司 一种基于深度学习和知识图谱的患者画像方法及系统
CN112819622B (zh) * 2021-01-26 2023-10-17 深圳价值在线信息科技股份有限公司 一种信息的实体关系联合抽取方法、装置及终端设备
CN112819622A (zh) * 2021-01-26 2021-05-18 深圳价值在线信息科技股份有限公司 一种信息的实体关系联合抽取方法、装置及终端设备
CN112925995B (zh) * 2021-02-22 2022-01-28 北京百度网讯科技有限公司 获取poi状态信息的方法及装置
US11977574B2 (en) 2021-02-22 2024-05-07 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for acquiring POI state information
CN112925995A (zh) * 2021-02-22 2021-06-08 北京百度网讯科技有限公司 获取poi状态信息的方法及装置
WO2022178950A1 (zh) * 2021-02-25 2022-09-01 平安科技(深圳)有限公司 预测语句实体的方法、装置和计算机设备
WO2022198747A1 (zh) * 2021-03-22 2022-09-29 平安科技(深圳)有限公司 三元组信息的抽取方法、装置、电子设备和存储介质
CN113032523A (zh) * 2021-03-22 2021-06-25 平安科技(深圳)有限公司 三元组信息的抽取方法、装置、电子设备和存储介质
CN113704460A (zh) * 2021-03-25 2021-11-26 腾讯科技(深圳)有限公司 一种文本分类方法、装置、电子设备和存储介质
CN113704460B (zh) * 2021-03-25 2024-05-17 腾讯科技(深圳)有限公司 一种文本分类方法、装置、电子设备和存储介质
CN112906395B (zh) * 2021-03-26 2023-08-15 平安科技(深圳)有限公司 药物关系提取方法、装置、设备及存储介质
CN112906395A (zh) * 2021-03-26 2021-06-04 平安科技(深圳)有限公司 药物关系提取方法、装置、设备及存储介质
CN113051356A (zh) * 2021-04-21 2021-06-29 深圳壹账通智能科技有限公司 开放关系抽取方法、装置、电子设备及存储介质
CN113326371A (zh) * 2021-04-30 2021-08-31 南京大学 一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法
CN113326371B (zh) * 2021-04-30 2023-12-29 南京大学 一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法
CN113240443A (zh) * 2021-05-28 2021-08-10 国网江苏省电力有限公司营销服务中心 面向电力客服问答的实体属性对抽取方法和系统
CN113240443B (zh) * 2021-05-28 2024-02-06 国网江苏省电力有限公司营销服务中心 面向电力客服问答的实体属性对抽取方法和系统
CN113392648A (zh) * 2021-06-02 2021-09-14 北京三快在线科技有限公司 实体关系获取方法及装置
CN113392217A (zh) * 2021-06-24 2021-09-14 广东电网有限责任公司 一种电力设备故障缺陷实体关系的抽取方法及装置
CN113435582B (zh) * 2021-06-30 2023-05-30 平安科技(深圳)有限公司 基于句向量预训练模型的文本处理方法及相关设备
CN113435582A (zh) * 2021-06-30 2021-09-24 平安科技(深圳)有限公司 基于句向量预训练模型的文本处理方法及相关设备
CN113449517A (zh) * 2021-07-08 2021-09-28 福建工程学院 基于bert门控多窗口注意力网络模型的实体关系抽取方法
CN113505240B (zh) * 2021-07-09 2023-04-18 吉林大学 一种基于注意力引导图lstm关系提取方法及装置
CN113505240A (zh) * 2021-07-09 2021-10-15 吉林大学 一种基于注意力引导图lstm关系提取方法及装置
CN114218924A (zh) * 2021-07-27 2022-03-22 广东电力信息科技有限公司 一种基于bert模型的文本意图及实体联合识别方法
CN113642312A (zh) * 2021-08-19 2021-11-12 平安医疗健康管理股份有限公司 体检数据的处理方法、装置、设备及存储介质
CN113821723A (zh) * 2021-09-22 2021-12-21 广州博冠信息科技有限公司 搜索方法、装置及电子设备
CN113821723B (zh) * 2021-09-22 2024-04-12 广州博冠信息科技有限公司 搜索方法、装置及电子设备
CN114373554A (zh) * 2021-12-28 2022-04-19 大连海事大学 利用药物知识和句法依存关系的药物相互作用关系抽取方法
CN114580438A (zh) * 2022-03-02 2022-06-03 阿里巴巴(中国)有限公司 文本序列生成方法、预训练方法、存储介质及程序产品
CN116522935B (zh) * 2023-03-29 2024-03-29 北京德风新征程科技股份有限公司 文本数据处理方法、处理装置和电子设备
CN116522935A (zh) * 2023-03-29 2023-08-01 北京德风新征程科技股份有限公司 文本数据处理方法、处理装置和电子设备
CN116402055B (zh) * 2023-05-25 2023-08-25 武汉大学 一种专利文本实体的抽取方法、装置、设备和介质
CN116402055A (zh) * 2023-05-25 2023-07-07 武汉大学 一种专利文本实体的抽取方法、装置、设备和介质
CN116866054A (zh) * 2023-07-25 2023-10-10 安徽百方云科技有限公司 公共信息安全监测系统及其方法
CN116975299A (zh) * 2023-09-22 2023-10-31 腾讯科技(深圳)有限公司 文本数据的判别方法、装置、设备及介质
CN116975299B (zh) * 2023-09-22 2024-05-28 腾讯科技(深圳)有限公司 文本数据的判别方法、装置、设备及介质

Also Published As

Publication number Publication date
CN111339774B (zh) 2022-11-29

Similar Documents

Publication Publication Date Title
CN111339774B (zh) 文本的实体关系抽取方法和模型训练方法
US11182568B2 (en) Sentence evaluation apparatus and sentence evaluation method
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN110276075A (zh) 模型训练方法、命名实体识别方法、装置、设备及介质
CN109145303A (zh) 命名实体识别方法、装置、介质以及设备
CN110675944A (zh) 分诊方法及装置、计算机设备及介质
EP4068113A1 (en) Method for determining text similarity, method for obtaining semantic answer text, and question answering method
CN111553162A (zh) 一种意图识别的方法以及相关装置
CN112380325A (zh) 基于联合知识嵌入模型和事实记忆网络的知识图谱问答系统
CN111597804B (zh) 一种实体识别模型训练的方法以及相关装置
CN111651604B (zh) 基于人工智能的情感分类方法和相关装置
CN112131401B (zh) 一种概念知识图谱构建方法和装置
CN114330343B (zh) 词性感知嵌套命名实体识别方法、系统、设备和存储介质
KR20210057308A (ko) 머신러닝에 기반한 챗봇 서비스 제공방법 및 시스템
CN117521814A (zh) 一种基于多模态输入和知识图谱的问答方法及装置
CN111444695B (zh) 基于人工智能的文本生成方法、装置、设备及存储介质
CN113569572A (zh) 文本实体生成方法、模型训练方法及装置
CN116975295B (zh) 一种文本分类方法、装置及相关产品
CN113342944B (zh) 一种语料泛化方法、装置、设备及存储介质
CN118260717A (zh) 互联网低轨卫星情报挖掘方法、系统、装置及介质
WO2024007119A1 (zh) 文本处理模型的训练方法、文本处理的方法及装置
CN116028634A (zh) 实体链接的构建方法、装置、电子设备和可读存储介质
CN110047569A (zh) 基于胸片报告生成问答数据集的方法、装置及介质
CN115905518A (zh) 基于知识图谱的情感分类方法、装置、设备以及存储介质
CN113704422A (zh) 一种文本推荐方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40024670

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant