CN110765774A - 信息抽取模型的训练方法、装置及信息抽取方法、装置 - Google Patents

信息抽取模型的训练方法、装置及信息抽取方法、装置 Download PDF

Info

Publication number
CN110765774A
CN110765774A CN201910949352.4A CN201910949352A CN110765774A CN 110765774 A CN110765774 A CN 110765774A CN 201910949352 A CN201910949352 A CN 201910949352A CN 110765774 A CN110765774 A CN 110765774A
Authority
CN
China
Prior art keywords
entity
training
relationship
representation
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910949352.4A
Other languages
English (en)
Other versions
CN110765774B (zh
Inventor
王思睿
孙佳宝
张富峥
王仲远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN201910949352.4A priority Critical patent/CN110765774B/zh
Publication of CN110765774A publication Critical patent/CN110765774A/zh
Application granted granted Critical
Publication of CN110765774B publication Critical patent/CN110765774B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了信息抽取模型的训练方法、装置及信息抽取方法、装置。信息抽取模型的训练方法包括:对训练数据进行预处理;训练数据为训练文本集,各训练文本均标注有实体标注信息和关系标注信息;根据预处理后的训练数据,训练实体抽取层学习实体表示,以及训练关系抽取层学习关系的上下文表示;根据学习到的实体表示和关系的上下文表示,训练关系抽取层学习实体增强的关系表示;根据学习到的实体增强的关系表示,训练关系抽取层学习关系分类。有益效果在于,训练出的端到端的模型中,关系抽取层学习到了两层的关系表示,从而让模型更好的学习到关系和实体的信息,更好地提取到关系特征,使关系抽取的准确率、召回率都有大幅度提升。

Description

信息抽取模型的训练方法、装置及信息抽取方法、装置
技术领域
本申请涉及自然语言处理领域,具体涉及信息抽取模型的训练方法、装置及信息抽取方法、装置。
背景技术
信息抽取是指在非结构化数据(例如文本)中抽取实体、关系、事件等信息,抽取结果一般可以被下游任务利用,例如构建知识图谱的实体和边关系。但是目前的信息抽取方式还存在一些缺点,例如准确率以及召回率较低。
发明内容
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的信息抽取模型的训练方法、装置及信息抽取方法、装置。
依据本申请的一个方面,提供了一种信息抽取模型的训练方法,所述信息抽取模型包括实体抽取层和关系抽取层,所述方法包括:对训练数据进行预处理;所述训练数据为训练文本集,各训练文本均标注有实体标注信息和关系标注信息;根据预处理后的训练数据,训练实体抽取层学习实体表示,以及训练关系抽取层学习关系的上下文表示;根据学习到的实体表示和关系的上下文表示,训练关系抽取层学习实体增强的关系表示;根据学习到的实体增强的关系表示,训练关系抽取层学习关系分类。
可选地,所述对训练数据进行预处理包括:将所述训练文本集中的各训练文本分别与所述训练文本集中的其他训练文本进行组合配对,得到训练文本对;根据得到的各训练文本对中,各条训练文本的实体标注信息和关系标注信息,确定该训练文本对的实体一致性和关系一致性。
可选地,所述实体标注信息包括实体类别,所述关系标注信息包括关系类别;所述根据得到的各训练文本对中,各条训练文本的实体标注信息和关系标注信息,确定该训练文本对的实体一致性和关系一致性包括:若训练文本对中,各条训练文本对应位置的实体类别均相同,则该训练文本对的实体一致,否则该训练文本对的实体不一致;若训练文本对中,各条训练文本对应实体间的关系类别相同,则该训练文本对的关系一致,否则该训练文本对的关系不一致。
可选地,根据预处理后的训练数据,训练实体抽取层学习实体表示,以及训练关系抽取层学习关系的上下文表示包括:生成预处理后的训练数据的向量表示,得到向量表示层,将所述向量表示层作为所述实体抽取层和所述关系抽取层的共享参数层;从所述共享参数层获取向量表示作为输入,基于第一损失函数迭代训练实体抽取层学习实体表示,直至第一损失函数的值小于第一阈值;所述实体表示表征实体本身和实体类别;从所述共享参数层获取向量表示作为输入,基于第二损失函数迭代训练关系抽取层学习关系的上下文表示,直至第二损失函数的值小于第二阈值;所述关系的上下文表示表征关系类别是否一致。
可选地,所述根据学习到的实体表示和关系的上下文表示,训练关系抽取层学习实体增强的关系表示包括:根据学习到的上下文表示和实体表示,基于第三损失函数迭代训练关系抽取层学习实体增强的关系表示,直至第三损失函数的值小于第三阈值;所述实体增强的关系表示表征实体类别是否一致以及关系类别是否均一致。
可选地,所述根据学习到的实体增强的关系表示,训练关系抽取层学习关系的分类包括:根据学习到的实体增强的关系表示,基于第四损失函数和多分类机制,迭代训练关系抽取层学习关系的分类,直至第四损失函数的值小于第四阈值。
依据本申请的另一方面,提供了一种信息抽取方法,包括:获取待抽取信息的目标文本;将所述目标文本输入信息抽取模型,由所述信息抽取模型中的实体抽取层根据预学习到的实体表示,从所述目标文本中抽取实体;和/或,将所述目标文本输入信息抽取模型,由所述信息抽取模型中的实体抽取层根据预学习到的实体表示,从所述目标文本中抽取实体,以及由所述信息抽取模型中的关系抽取层根据抽取的实体以及预学习到的实体增强的关系表示,从所述目标文本中抽取关系;和/或,将所述目标文本输入信息抽取模型,由所述信息抽取模型中的实体抽取层根据预学习到的实体表示,从所述目标文本中抽取实体,以及由所述信息抽取模型中的关系抽取层根据抽取的实体以及预学习到的实体增强的关系表示,从所述目标文本中抽取关系,并由预学习到的关系分类确定抽取的关系的类别;所述信息抽取模型是根据如上述任一项所述的方法训练得到的。
依据本申请的又一方面,提供了一种信息抽取模型的训练装置,所述信息抽取模型包括实体抽取层和关系抽取层,所述装置包括:预处理单元,用于对训练数据进行预处理;所述训练数据为训练文本集,各训练文本均标注有实体标注信息和关系标注信息;训练单元,用于根据预处理后的训练数据,训练实体抽取层学习实体表示,以及训练关系抽取层学习关系的上下文表示;根据学习到的实体表示和关系的上下文表示,训练关系抽取层学习实体增强的关系表示;根据学习到的实体增强的关系表示,训练关系抽取层学习关系分类。
可选地,所述预处理单元,用于将所述训练文本集中的各训练文本分别与所述训练文本集中的其他训练文本进行组合配对,得到训练文本对;根据得到的各训练文本对中,各条训练文本的实体标注信息和关系标注信息,确定该训练文本对的实体一致性和关系一致性。
可选地,所述实体标注信息包括实体类别,所述关系标注信息包括关系类别;所述预处理单元,用于若训练文本对中,各条训练文本对应位置的实体类别均相同,则该训练文本对的实体一致,否则该训练文本对的实体不一致;若训练文本对中,各条训练文本对应实体间的关系类别相同,则该训练文本对的关系一致,否则该训练文本对的关系不一致。
可选地,所述训练单元,用于生成预处理后的训练数据的向量表示,得到向量表示层,将所述向量表示层作为所述实体抽取层和所述关系抽取层的共享参数层;从所述共享参数层获取向量表示作为输入,基于第一损失函数迭代训练实体抽取层学习实体表示,直至第一损失函数的值小于第一阈值;所述实体表示表征实体本身和实体类别;从所述共享参数层获取向量表示作为输入,基于第二损失函数迭代训练关系抽取层学习关系的上下文表示,直至第二损失函数的值小于第二阈值;所述关系的上下文表示表征关系类别是否一致。
可选地,所述训练单元,用于根据学习到的上下文表示和实体表示,基于第三损失函数迭代训练关系抽取层学习实体增强的关系表示,直至第三损失函数的值小于第三阈值;所述实体增强的关系表示表征实体类别是否一致以及关系类别是否均一致。
可选地,所述训练单元,用于根据学习到的实体增强的关系表示,基于第四损失函数和多分类机制,迭代训练关系抽取层学习关系的分类,直至第四损失函数的值小于第四阈值。
依据本申请的再一方面,提供了一种信息抽取装置,包括:获取单元,用于获取待抽取信息的目标文本;抽取单元,用于将所述目标文本输入信息抽取模型,由所述信息抽取模型中的实体抽取层根据预学习到的实体表示,从所述目标文本中抽取实体;和/或,将所述目标文本输入信息抽取模型,由所述信息抽取模型中的实体抽取层根据预学习到的实体表示,从所述目标文本中抽取实体,以及由所述信息抽取模型中的关系抽取层根据抽取的实体以及预学习到的实体增强的关系表示,从所述目标文本中抽取关系;和/或,将所述目标文本输入信息抽取模型,由所述信息抽取模型中的实体抽取层根据预学习到的实体表示,从所述目标文本中抽取实体,以及由所述信息抽取模型中的关系抽取层根据抽取的实体以及预学习到的实体增强的关系表示,从所述目标文本中抽取关系,并由预学习到的关系分类确定抽取的关系的类别;所述信息抽取模型是根据如上述任一项所述的信息抽取模型的训练装置训练得到的。
依据本申请的再一方面,提供了一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如上述任一所述的方法。
依据本申请的再一方面,提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如上述任一所述的方法。
由上述可知,本申请的技术方案,先对训练数据进行预处理,其中,训练数据为训练文本集,各训练文本均标注有实体标注信息和关系标注信息,根据预处理后的训练数据,对包含实体抽取层和关系抽取层的信息抽取模型进行训练,使实体抽取层学习实体表示,以及关系抽取层学习关系的上下文表示;根据学习到的实体表示和关系的上下文表示,训练关系抽取层学习实体增强的关系表示;根据学习到的实体增强的关系表示,训练关系抽取层学习关系分类。该技术方案的有益效果在于,训练出的端到端的模型中,关系抽取层学习到了两层的关系表示,从而让模型更好的学习到关系和实体的信息,更好地提取到关系特征,使关系抽取的准确率、召回率都有大幅度提升。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本申请一个实施例的一种信息抽取模型的训练方法的流程示意图;
图2示出了根据本申请一个实施例的一种信息抽取方法的流程示意图;
图3示出了根据本申请一个实施例的一种信息抽取模型的训练装置的结构示意图;
图4示出了根据本申请一个实施例的一种信息抽取装置的结构示意图;
图5示出了根据本申请一个实施例的电子设备的结构示意图;
图6示出了根据本申请一个实施例的计算机可读存储介质的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
图1示出了根据本申请一个实施例的一种信息抽取模型的训练方法的流程示意图。其中,信息抽取模型包括实体抽取层和关系抽取层,方法包括:
步骤S110,对训练数据进行预处理;训练数据为训练文本集,各训练文本均标注有实体标注信息和关系标注信息。
本申请实施例中所使用的训练数据可以是与其他现有技术中的训练数据相同,例如通过标注有实体标注信息和关系标注信息的训练文本形成训练文本集。实体(Entity)是指文本中包含的人物、组织、设施、处所等对象,如“小明出生在北京”这个文本中,“小明”是人物实体,“北京”是位置实体。关系(Relation)则是指实体之间的语义关系例如“朋友”、“坐落于”、“籍贯”等,如在“小明出生在北京”这个文本中,“小明”和“北京”之间的关系为“出生于”。实体的抽取主要包括实体位置和实体类别的识别,关系的抽取主要是对关系类别的识别,也就是进行关系分类。
由上述可知,实体和关系具有密切联系。目前,现有技术中的流水线式信息抽取方式,由于将实体识别和关系抽取作为两个任务按先后顺序执行,就没有考虑到实体和关系之间的相互促进性、实体的准确识别是可以对关系抽取有着正向的影响的、同时知道两个实体的关系对于实体识别也是有意义的,因而存在着较大弊端。已有的一些端到端模型也存在着对关系、实体表示上学习不充分的问题。
本申请的实施例则是关注到了实体与关系之间的相互促进性。在同一个模型中,虽然划分了不同的层来分别完成实体抽取和关系抽取任务,但是信息抽取是作为一个整体过程来实现的,也就是最终迭代训练完成得到的信息抽取模型,可以仅将待抽取的句子作为输入,就能直接得到抽取的实体和关系,即训练得到了端到端模型。容易理解,在机器学习领域,迭代训练即是指进行多个训练轮,下述步骤S120~步骤S140都可以是通过迭代训练实现的。
虽然本申请实施例中使用的训练数据与现有技术可以是相同的,但在进入信息抽取模型之前,需要进行预处理,具体来说,可以是为了训练数据能够与信息抽取模型的任务相适应。下面结合各步骤进行说明本申请实施例信息抽取模型的任务的具体意义。
步骤S120,根据预处理后的训练数据,训练实体抽取层学习实体表示,以及训练关系抽取层学习关系的上下文表示。
实体抽取层进行的是实体抽取任务,目的是使训练完成的实体抽取层能够基于学习到的实体表示,从文本中抽取实体。关系抽取层进行的是关系抽取任务,但是与实体抽取层有所区别的是,先学习到的关系的上下文表示仅是一层的关系表示(没有实体信息),本申请实施例能够使得关系抽取层学习到两层的关系表示,因此还需要继续训练关系抽取层学习实体增强的关系表示(融入实体信息)。
步骤S130,根据学习到的实体表示和关系的上下文表示,训练关系抽取层学习实体增强的关系表示。
其中,上下文表示可以理解为剔除了实体、通过语义分析得到的关系的表示。而在本步骤中,加入了实体表示,体现了实体与关系的相互促进意义。实体增强的关系表示的含义是,其仍然是一个关系表示,只不过融入了实体的意义,也就是进行了实体增强。在本申请的实施例中,“表示”可指机器学习中的向量表示,也就是说上下文表示和实体增强的关系表示都可以是一个向量。
步骤S140,根据学习到的实体增强的关系表示,训练关系抽取层学习关系分类。
可见,图1所示的方法,训练出的端到端的模型中,关系抽取层学习到了两层的关系表示,从而让模型更好的学习到关系和实体的信息,更好地提取到关系特征,使关系抽取的准确率、召回率都有大幅度提升。
在本申请的一个实施例中,上述方法中,对训练数据进行预处理包括:将训练文本集中的各训练文本分别与训练文本集中的其他训练文本进行组合配对,得到训练文本对;根据得到的各训练文本对中,各条训练文本的实体标注信息和关系标注信息,确定该训练文本对的实体一致性和关系一致性。
在本实施例中示出了一种对训练数据进行预处理的具体方式。通过这种方式处理后的训练数据,将孤立的训练文本组合起来,使得输入到信息抽取模型中的是训练文本对,相配合地,信息抽取模型将关系分类问题转化为关系匹配问题,对训练数据较少、训练数据不均衡的场景有着极佳的适应性。
具体来说,可以将训练样本集中每条训练文本与除了自己之外的所有训练文本一一配对,这样如果训练样本集中有N条训练文本,一共可以得到(N-1)!个不重复的训练文本对。可见,即使N的取值较小,也就是训练数据较少,最终能够得到的训练文本对数量也有着显著提升;并且即使训练文本的类别均衡性较差,形成的类别组合数量也得到了提升。
不仅如此,由于关系的识别是多层级的,可以更好地融合关系、实体的信息在关系抽取这一场景,二者相互促进,不仅有效应对了训练数据较少或者训练数据不均衡的问题,经过实验,在正常数据集上也有着比现有模型更好的表现,在整体上能够提升训练得到的信息抽取模型的准确率和召回率,在长尾关系上表现也更好。
在本申请的一个实施例中,上述方法中,实体标注信息包括实体类别,关系标注信息包括关系类别;根据得到的各训练文本对中,各条训练文本的实体标注信息和关系标注信息,确定该训练文本对的实体一致性和关系一致性包括:若训练文本对中,各条训练文本对应位置的实体类别均相同,则该训练文本对的实体一致,否则该训练文本对的实体不一致;若训练文本对中,各条训练文本对应实体间的关系类别相同,则该训练文本对的关系一致,否则该训练文本对的关系不一致。
需要说明的是,对应位置是根据上下文确定的语义位置。例如“小明出生在北京”和“北京是小明的出生地”这一文本对中,前后两个文本均包括“小明”和“北京”的实体,并且关系都是“出生于”,则该文本对的实体一致,关系一致。这种关系属于无向关系。在另外一个文本对“李明是李刚的爸爸”、“李刚是李明的儿子”中,前后两个文本均包括“李刚”和“李明”的实体,但是关系是不同的,前者是“父亲”,后者是“儿子”,这种关系属于有向关系。在具体实现时可以以人工方式进行预处理,也可以通过预编写的程序实现。
在本申请的一个实施例中,上述方法中,根据预处理后的训练数据,训练实体抽取层学习实体表示,以及训练关系抽取层学习关系的上下文表示包括:生成预处理后的训练数据的向量表示,得到向量表示层,将向量表示层作为实体抽取层和关系抽取层的共享参数层;从共享参数层获取向量表示作为输入,基于第一损失函数迭代训练实体抽取层学习实体表示,直至第一损失函数的值小于第一阈值;实体表示表征实体本身和实体类别;从共享参数层获取向量表示作为输入,基于第二损失函数迭代训练关系抽取层学习关系的上下文表示,直至第二损失函数的值小于第二阈值;关系的上下文表示表征关系类别是否一致。
例如可以通过设置嵌入层,采用Bert模型得到训练数据的向量表示。当然,这不代表对生成向量表示方式的限制,例如通过word2vec模型、长短期记忆网络LSTM、循环神经网络RNN等方式都可以生成向量表示。
当向量表示进入实体抽取层后,实体抽取层会根据实体标注信息学习相应的特征,最终得到实体表示。实体表示包括实体本身的表示和实体类别表示,比如:“北京”这个字符串本身的向量表示是实体表示,实体类别表示是指“地点”,即“北京”的类别是“地点”。
当向量表示进入关系抽取层后,关系抽取层会根据实体标注信息剔除实体信息,剩下的部分学习关系的上下文表示。可以使用匹配损失函数作为第二损失函数。
在本申请的一个实施例中,上述方法中,根据学习到的实体表示和关系的上下文表示,训练关系抽取层学习实体增强的关系表示包括:根据学习到的上下文表示和实体表示,基于第三损失函数迭代训练关系抽取层学习实体增强的关系表示,直至第三损失函数的值小于第三阈值;实体增强的关系表示表征实体类别是否一致以及关系类别是否均一致。
学习实体增强的关系表示的过程,可以理解成融合了之前学习到的实体表示和上下文表示,生成实体增强的关系表示。当然如前文所述,虽然包含了实体类别是否一致以及关系类别是否均一致的意义在其中,但其仍是一个关系表示。这样就使得关系表示学习到了实体相关信息,二者相互促进提升了准确率和召回率。
在本申请的一个实施例中,上述方法中,根据学习到的实体增强的关系表示,训练关系抽取层学习关系的分类包括:根据学习到的实体增强的关系表示,基于第四损失函数和多分类机制,迭代训练关系抽取层学习关系的分类,直至第四损失函数的值小于第四阈值。
可以看出,通过不同的损失函数,可以分别训练不同的表示。而当任一个损失函数收敛,即小于相应的阈值时,相应的参数可以不再进行变动,等待其他的损失函数收敛,直到全部损失函数均收敛,则信息抽取模型的训练就完成了。由于在学习到实体增强的关系表示后,仍然解决的是关系匹配问题,而偏离了最一开始的关系分类问题,因此为了解决训练和信息抽取不一致问题,可以加入全连接层,将预测关系分类损失函数作为第四损失函数,这样在信息抽取阶段只需要和原有方法一样,单个文本做为输入,直接抽取关系和实体。
图2示出了根据本申请一个实施例的一种信息抽取方法的流程示意图。
如图2所示,该方法包括:
步骤S210,获取待抽取信息的目标文本。
步骤S220,将目标文本输入信息抽取模型,由信息抽取模型中的实体抽取层根据预学习到的实体表示,从目标文本中抽取实体;和/或,将目标文本输入信息抽取模型,由信息抽取模型中的实体抽取层根据预学习到的实体表示,从目标文本中抽取实体,以及由信息抽取模型中的关系抽取层根据抽取的实体以及预学习到的实体增强的关系表示,从目标文本中抽取关系;和/或,将目标文本输入信息抽取模型,由信息抽取模型中的实体抽取层根据预学习到的实体表示,从目标文本中抽取实体,以及由信息抽取模型中的关系抽取层根据抽取的实体以及预学习到的实体增强的关系表示,从目标文本中抽取关系,并由预学习到的关系分类确定抽取的关系的类别。
信息抽取模型是根据如上述任一实施例所述的方法训练得到的。
在一个具体实施例中,将Bert输出的向量表示作为输入,采用CRF(条件随机场)模型进行实体识别,得到BIO编码方式的输出,标识实体的起始位置信息和类别。这就是仅进行实体的抽取。如果还需要进行关系的抽取,可以在抽取实体之后,由关系抽取层根据实体的起始位置信息和类别,从目标文本中抽取关系即可,此时识别的是实体间是否存在关系。虽然在预学习的过程中,实体增强的关系表示需要根据关系一致性和实体一致性来学习,也就是需要文本对来作为输入,但是在学习完成时得到的实体增强的关系表示仍是一个关系的表示,也就是在进行关系抽取时,不再需要一文本对,根据一条文本也能得到关系的表示了。如果还需要抽取关系的类别,则再由预学习到的关系分类确定抽取的关系的类别,此时抽取的信息最为丰富,最终输出的就是实体及类别,和实体间关系的类别。
图3示出了根据本申请一个实施例的一种信息抽取模型的训练装置的结构示意图。如图3所示,信息抽取模型的训练装置300包括:
预处理单元310,用于对训练数据进行预处理;训练数据为训练文本集,各训练文本均标注有实体标注信息和关系标注信息。
训练单元320,用于根据预处理后的训练数据,训练实体抽取层学习实体表示,以及训练关系抽取层学习关系的上下文表示;根据学习到的实体表示和关系的上下文表示,训练关系抽取层学习实体增强的关系表示;根据学习到的实体增强的关系表示,训练关系抽取层学习关系分类。
在本申请的一个实施例中,上述装置中,预处理单元310,用于将训练文本集中的各训练文本分别与训练文本集中的其他训练文本进行组合配对,得到训练文本对;根据得到的各训练文本对中,各条训练文本的实体标注信息和关系标注信息,确定该训练文本对的实体一致性和关系一致性。
在本申请的一个实施例中,上述装置中,实体标注信息包括实体类别,关系标注信息包括关系类别;预处理单元310,用于若训练文本对中,各条训练文本对应位置的实体类别均相同,则该训练文本对的实体一致,否则该训练文本对的实体不一致;若训练文本对中,各条训练文本对应实体间的关系类别相同,则该训练文本对的关系一致,否则该训练文本对的关系不一致。
在本申请的一个实施例中,上述装置中,训练单元320,用于生成预处理后的训练数据的向量表示,得到向量表示层,将向量表示层作为实体抽取层和关系抽取层的共享参数层;从共享参数层获取向量表示作为输入,基于第一损失函数迭代训练实体抽取层学习实体表示,直至第一损失函数的值小于第一阈值;实体表示表征实体本身和实体类别;从共享参数层获取向量表示作为输入,基于第二损失函数迭代训练关系抽取层学习关系的上下文表示,直至第二损失函数的值小于第二阈值;关系的上下文表示表征关系类别是否一致。
在本申请的一个实施例中,上述装置中,训练单元320,用于根据学习到的上下文表示和实体表示,基于第三损失函数迭代训练关系抽取层学习实体增强的关系表示,直至第三损失函数的值小于第三阈值;实体增强的关系表示表征实体类别是否一致以及关系类别是否均一致。
在本申请的一个实施例中,上述装置中,训练单元320,用于根据学习到的实体增强的关系表示,基于第四损失函数和多分类机制,迭代训练关系抽取层学习关系的分类,直至第四损失函数的值小于第四阈值。
图4示出了根据本申请一个实施例的一种信息抽取装置的结构示意图。如图4所示,信息抽取装置400包括:
获取单元410,用于获取待抽取信息的目标文本。
抽取单元420,用于将目标文本输入信息抽取模型,由信息抽取模型中的实体抽取层根据预学习到的实体表示,从目标文本中抽取实体;和/或,将目标文本输入信息抽取模型,由信息抽取模型中的实体抽取层根据预学习到的实体表示,从目标文本中抽取实体,以及由信息抽取模型中的关系抽取层根据抽取的实体以及预学习到的实体增强的关系表示,从目标文本中抽取关系;和/或,将目标文本输入信息抽取模型,由信息抽取模型中的实体抽取层根据预学习到的实体表示,从目标文本中抽取实体,以及由信息抽取模型中的关系抽取层根据抽取的实体以及预学习到的实体增强的关系表示,从目标文本中抽取关系,并由预学习到的关系分类确定抽取的关系的类别;信息抽取模型是根据如上述任一实施例所述的信息抽取模型的训练装置训练得到的。
需要说明的是,上述各装置实施例的具体实施方式可以参照前述对应方法实施例的具体实施方式进行,在此不再赘述。
综上所述,本申请的技术方案,先对训练数据进行预处理,其中,训练数据为训练文本集,各训练文本均标注有实体标注信息和关系标注信息,根据预处理后的训练数据,对包含实体抽取层和关系抽取层的信息抽取模型进行训练,使实体抽取层学习实体表示,以及关系抽取层学习关系的上下文表示;根据学习到的实体表示和关系的上下文表示,训练关系抽取层学习实体增强的关系表示;根据学习到的实体增强的关系表示,训练关系抽取层学习关系分类。该技术方案的有益效果在于,训练出的端到端的模型中,关系抽取层学习到了两层的关系表示,从而让模型更好的学习到关系和实体的信息,更好地提取到关系特征,使关系抽取的准确率、召回率都有大幅度提升。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的信息抽取模型的训练装置和信息抽取装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
例如,图5示出了根据本申请一个实施例的电子设备的结构示意图。该电子设备500包括处理器510和被安排成存储计算机可执行指令(计算机可读程序代码)的存储器520。存储器520可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器520具有存储用于执行上述方法中的任何方法步骤的计算机可读程序代码531的存储空间530。例如,用于存储计算机可读程序代码的存储空间530可以包括分别用于实现上面的方法中的各种步骤的各个计算机可读程序代码531。计算机可读程序代码531可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图6所述的计算机可读存储介质。图6示出了根据本申请一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质600存储有用于执行根据本申请的方法步骤的计算机可读程序代码531,可以被电子设备500的处理器510读取,当计算机可读程序代码531由电子设备500运行时,导致该电子设备500执行上面所描述的方法中的各个步骤,具体来说,该计算机可读存储介质存储的计算机可读程序代码531可以执行上述任一实施例中示出的方法。计算机可读程序代码531可以以适当形式进行压缩。
应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (11)

1.一种信息抽取模型的训练方法,其特征在于,所述信息抽取模型包括实体抽取层和关系抽取层,所述方法包括:
对训练数据进行预处理;所述训练数据为训练文本集,各训练文本均标注有实体标注信息和关系标注信息;
根据预处理后的训练数据,训练实体抽取层学习实体表示,以及训练关系抽取层学习关系的上下文表示;
根据学习到的实体表示和关系的上下文表示,训练关系抽取层学习实体增强的关系表示;
根据学习到的实体增强的关系表示,训练关系抽取层学习关系分类。
2.如权利要求1所述的方法,其特征在于,所述对训练数据进行预处理包括:
将所述训练文本集中的各训练文本分别与所述训练文本集中的其他训练文本进行组合配对,得到训练文本对;
根据得到的各训练文本对中,各条训练文本的实体标注信息和关系标注信息,确定该训练文本对的实体一致性和关系一致性。
3.如权利要求2所述的方法,其特征在于,所述实体标注信息包括实体类别,所述关系标注信息包括关系类别;
所述根据得到的各训练文本对中,各条训练文本的实体标注信息和关系标注信息,确定该训练文本对的实体一致性和关系一致性包括:
若训练文本对中,各条训练文本对应位置的实体类别均相同,则该训练文本对的实体一致,否则该训练文本对的实体不一致;
若训练文本对中,各条训练文本对应实体间的关系类别相同,则该训练文本对的关系一致,否则该训练文本对的关系不一致。
4.如权利要求3所述的方法,其特征在于,所述根据预处理后的训练数据,训练实体抽取层学习实体表示,以及训练关系抽取层学习关系的上下文表示包括:
生成预处理后的训练数据的向量表示,得到向量表示层,将所述向量表示层作为所述实体抽取层和所述关系抽取层的共享参数层;
从所述共享参数层获取向量表示作为输入,基于第一损失函数迭代训练实体抽取层学习实体表示,直至第一损失函数的值小于第一阈值;所述实体表示表征实体本身和实体类别;
从所述共享参数层获取向量表示作为输入,基于第二损失函数迭代训练关系抽取层学习关系的上下文表示,直至第二损失函数的值小于第二阈值;所述关系的上下文表示表征关系类别是否一致。
5.如权利要求4所述的方法,其特征在于,所述根据学习到的实体表示和关系的上下文表示,训练关系抽取层学习实体增强的关系表示包括:
根据学习到的上下文表示和实体表示,基于第三损失函数迭代训练关系抽取层学习实体增强的关系表示,直至第三损失函数的值小于第三阈值;所述实体增强的关系表示表征实体类别是否一致以及关系类别是否均一致。
6.如权利要求3所述的方法,其特征在于,所述根据学习到的实体增强的关系表示,训练关系抽取层学习关系的分类包括:
根据学习到的实体增强的关系表示,基于第四损失函数和多分类机制,迭代训练关系抽取层学习关系的分类,直至第四损失函数的值小于第四阈值。
7.一种信息抽取方法,包括:
获取待抽取信息的目标文本;
将所述目标文本输入信息抽取模型,由所述信息抽取模型中的实体抽取层根据预学习到的实体表示,从所述目标文本中抽取实体;
和/或,
将所述目标文本输入信息抽取模型,由所述信息抽取模型中的实体抽取层根据预学习到的实体表示,从所述目标文本中抽取实体,以及由所述信息抽取模型中的关系抽取层根据抽取的实体以及预学习到的实体增强的关系表示,从所述目标文本中抽取关系;
和/或,
将所述目标文本输入信息抽取模型,由所述信息抽取模型中的实体抽取层根据预学习到的实体表示,从所述目标文本中抽取实体,以及由所述信息抽取模型中的关系抽取层根据抽取的实体以及预学习到的实体增强的关系表示,从所述目标文本中抽取关系,并由预学习到的关系分类确定抽取的关系的类别;
所述信息抽取模型是根据如权利要求1-6中任一项所述的方法训练得到的。
8.一种信息抽取模型的训练装置,其特征在于,所述信息抽取模型包括实体抽取层和关系抽取层,所述装置包括:
预处理单元,用于对训练数据进行预处理;所述训练数据为训练文本集,各训练文本均标注有实体标注信息和关系标注信息;
训练单元,用于根据预处理后的训练数据,训练实体抽取层学习实体表示,以及训练关系抽取层学习关系的上下文表示;根据学习到的实体表示和关系的上下文表示,训练关系抽取层学习实体增强的关系表示;根据学习到的实体增强的关系表示,训练关系抽取层学习关系分类。
9.一种信息抽取装置,包括:
获取单元,用于获取待抽取信息的目标文本;
抽取单元,用于将所述目标文本输入信息抽取模型,由所述信息抽取模型中的实体抽取层根据预学习到的实体表示,从所述目标文本中抽取实体;和/或,将所述目标文本输入信息抽取模型,由所述信息抽取模型中的实体抽取层根据预学习到的实体表示,从所述目标文本中抽取实体,以及由所述信息抽取模型中的关系抽取层根据抽取的实体以及预学习到的实体增强的关系表示,从所述目标文本中抽取关系;和/或,将所述目标文本输入信息抽取模型,由所述信息抽取模型中的实体抽取层根据预学习到的实体表示,从所述目标文本中抽取实体,以及由所述信息抽取模型中的关系抽取层根据抽取的实体以及预学习到的实体增强的关系表示,从所述目标文本中抽取关系,并由预学习到的关系分类确定抽取的关系的类别;所述信息抽取模型是根据如权利要求8所述的信息抽取模型的训练装置训练得到的。
10.一种电子设备,其中,该电子设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如权利要求1-7中任一项所述的方法。
11.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如权利要求1-7中任一项所述的方法。
CN201910949352.4A 2019-10-08 2019-10-08 信息抽取模型的训练方法、装置及信息抽取方法、装置 Active CN110765774B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910949352.4A CN110765774B (zh) 2019-10-08 2019-10-08 信息抽取模型的训练方法、装置及信息抽取方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910949352.4A CN110765774B (zh) 2019-10-08 2019-10-08 信息抽取模型的训练方法、装置及信息抽取方法、装置

Publications (2)

Publication Number Publication Date
CN110765774A true CN110765774A (zh) 2020-02-07
CN110765774B CN110765774B (zh) 2021-09-17

Family

ID=69331054

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910949352.4A Active CN110765774B (zh) 2019-10-08 2019-10-08 信息抽取模型的训练方法、装置及信息抽取方法、装置

Country Status (1)

Country Link
CN (1) CN110765774B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110968661A (zh) * 2020-03-04 2020-04-07 成都数联铭品科技有限公司 事件抽取方法及系统、计算机可读存储介质及电子设备
CN111597813A (zh) * 2020-05-21 2020-08-28 上海创蓝文化传播有限公司 一种基于命名实体识别提取短信文本摘要的方法及装置
CN111651994A (zh) * 2020-06-03 2020-09-11 浙江同花顺智能科技有限公司 一种信息抽取方法、装置、电子设备和存储介质
CN112487206A (zh) * 2020-12-09 2021-03-12 中国电子科技集团公司第三十研究所 一种自动构建数据集的实体关系抽取方法
CN112487196A (zh) * 2020-06-29 2021-03-12 孙炜 一种训练关系抽取模型并抽取嵌套命名实体关系的方法
CN112528034A (zh) * 2020-11-16 2021-03-19 中国科学院深圳先进技术研究院 一种基于知识蒸馏的实体关系抽取方法
CN112819622A (zh) * 2021-01-26 2021-05-18 深圳价值在线信息科技股份有限公司 一种信息的实体关系联合抽取方法、装置及终端设备
CN118170891A (zh) * 2024-05-13 2024-06-11 浙江大学 一种文本信息抽取方法、装置、设备及可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015077942A1 (en) * 2013-11-27 2015-06-04 Hewlett-Packard Development Company, L.P. Relationship extraction
WO2018076774A1 (en) * 2016-10-28 2018-05-03 Boe Technology Group Co., Ltd. Information extraction method and apparatus
CN109165385A (zh) * 2018-08-29 2019-01-08 中国人民解放军国防科技大学 一种基于实体关系联合抽取模型的多三元组抽取方法
CN109408812A (zh) * 2018-09-30 2019-03-01 北京工业大学 一种基于注意力机制的序列标注联合抽取实体关系的方法
CN109492113A (zh) * 2018-11-05 2019-03-19 扬州大学 一种面向软件缺陷知识的实体、关系联合抽取方法
CN109543183A (zh) * 2018-11-16 2019-03-29 西安交通大学 基于深度神经网络和标注策略的多标签实体-关系联合提取方法
US20190155898A1 (en) * 2017-11-23 2019-05-23 Beijing Baidu Netcom Science And Technology Co. Ltd. Method and device for extracting entity relation based on deep learning, and server
CN109800411A (zh) * 2018-12-03 2019-05-24 哈尔滨工业大学(深圳) 临床医疗实体及其属性抽取方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015077942A1 (en) * 2013-11-27 2015-06-04 Hewlett-Packard Development Company, L.P. Relationship extraction
WO2018076774A1 (en) * 2016-10-28 2018-05-03 Boe Technology Group Co., Ltd. Information extraction method and apparatus
US20190155898A1 (en) * 2017-11-23 2019-05-23 Beijing Baidu Netcom Science And Technology Co. Ltd. Method and device for extracting entity relation based on deep learning, and server
CN109165385A (zh) * 2018-08-29 2019-01-08 中国人民解放军国防科技大学 一种基于实体关系联合抽取模型的多三元组抽取方法
CN109408812A (zh) * 2018-09-30 2019-03-01 北京工业大学 一种基于注意力机制的序列标注联合抽取实体关系的方法
CN109492113A (zh) * 2018-11-05 2019-03-19 扬州大学 一种面向软件缺陷知识的实体、关系联合抽取方法
CN109543183A (zh) * 2018-11-16 2019-03-29 西安交通大学 基于深度神经网络和标注策略的多标签实体-关系联合提取方法
CN109800411A (zh) * 2018-12-03 2019-05-24 哈尔滨工业大学(深圳) 临床医疗实体及其属性抽取方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110968661A (zh) * 2020-03-04 2020-04-07 成都数联铭品科技有限公司 事件抽取方法及系统、计算机可读存储介质及电子设备
CN111597813A (zh) * 2020-05-21 2020-08-28 上海创蓝文化传播有限公司 一种基于命名实体识别提取短信文本摘要的方法及装置
CN111651994A (zh) * 2020-06-03 2020-09-11 浙江同花顺智能科技有限公司 一种信息抽取方法、装置、电子设备和存储介质
CN111651994B (zh) * 2020-06-03 2023-09-19 浙江同花顺智能科技有限公司 一种信息抽取方法、装置、电子设备和存储介质
CN112487196A (zh) * 2020-06-29 2021-03-12 孙炜 一种训练关系抽取模型并抽取嵌套命名实体关系的方法
CN112528034A (zh) * 2020-11-16 2021-03-19 中国科学院深圳先进技术研究院 一种基于知识蒸馏的实体关系抽取方法
CN112528034B (zh) * 2020-11-16 2022-06-10 中国科学院深圳先进技术研究院 一种基于知识蒸馏的实体关系抽取方法
CN112487206A (zh) * 2020-12-09 2021-03-12 中国电子科技集团公司第三十研究所 一种自动构建数据集的实体关系抽取方法
CN112487206B (zh) * 2020-12-09 2022-09-20 中国电子科技集团公司第三十研究所 一种自动构建数据集的实体关系抽取方法
CN112819622A (zh) * 2021-01-26 2021-05-18 深圳价值在线信息科技股份有限公司 一种信息的实体关系联合抽取方法、装置及终端设备
CN112819622B (zh) * 2021-01-26 2023-10-17 深圳价值在线信息科技股份有限公司 一种信息的实体关系联合抽取方法、装置及终端设备
CN118170891A (zh) * 2024-05-13 2024-06-11 浙江大学 一种文本信息抽取方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN110765774B (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
CN110765774B (zh) 信息抽取模型的训练方法、装置及信息抽取方法、装置
CN112016553B (zh) 光学字符识别(ocr)系统、自动ocr更正系统、方法
CN112164391A (zh) 语句处理方法、装置、电子设备及存储介质
CN110009430B (zh) 作弊用户检测方法、电子设备及计算机可读存储介质
CN108763325A (zh) 一种网络对象处理方法及装置
CN108550065B (zh) 评论数据处理方法、装置及设备
CN111061843A (zh) 一种知识图谱引导的假新闻检测方法
CN110363220B (zh) 行为类别检测方法、装置、电子设备和计算机可读介质
CN111931859B (zh) 一种多标签图像识别方法和装置
CN113408287B (zh) 实体识别方法、装置、电子设备及存储介质
CN113469298A (zh) 模型训练方法及资源推荐方法
CN112364664B (zh) 意图识别模型的训练及意图识别方法、装置、存储介质
CN111651674B (zh) 双向搜索方法、装置及电子设备
CN113837257A (zh) 一种目标检测方法及装置
CN111831902A (zh) 推荐理由筛选方法、装置、电子设备
CN112765403A (zh) 一种视频分类方法、装置、电子设备及存储介质
CN112597997A (zh) 感兴趣区域确定方法、图像内容识别方法及装置
CN111582825A (zh) 一种基于深度学习的产品信息审核方法及系统
CN110866172B (zh) 一种面向区块链系统的数据分析方法
CN116150367A (zh) 一种基于方面的情感分析方法及系统
CN117454987B (zh) 基于事件自动抽取的矿山事件知识图谱构建方法及装置
CN113837836A (zh) 模型推荐方法、装置、设备及存储介质
CN118119935A (zh) 图像文本匹配模型的训练方法、装置、设备及存储介质
CN109657710B (zh) 数据筛选方法、装置、服务器及存储介质
CN113497978B (zh) 视频的场景分类方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant