CN111444723A

CN111444723A - 信息抽取模型训练方法、装置、计算机设备和存储介质

Info

Publication number: CN111444723A
Application number: CN202010149572.1A
Authority: CN
Inventors: 赵富邦; 彭子轩; 邹鸿岳; 杨雪峰
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2020-07-24
Anticipated expiration: 2040-03-06
Also published as: CN111444723B

Abstract

本申请涉及一种信息抽取模型训练方法、装置、计算机设备和存储介质。所述方法包括：确定样本文本中所包含的实体；根据所述样本文本中所包含的各实体的出现频次以及词性，对所述样本文本中每个分词进行词性标注；根据所述词性标注确定相应分词中每个字符所对应的分类标签，得到所述样本文本对应的标签序列；基于所述样本文本以及对应的标签序列对信息抽取模型进行训练。采用本方法能够得到可以提取完整三元组信息的信息抽取模型。

Description

信息抽取模型训练方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种信息抽取模型训练方法、装置、计算机设备和存储介质。

背景技术

随着信息技术的发展，知识图谱的构建成为了必要。知识图谱是指通过可视化构建原始文本中各关键信息之间的关联关系。而信息抽取是构建知识图谱的关键步骤，是自然语言处理(NLP)中最重要的任务之一。

目前主要是通过序列标注技术来实现信息抽取，通过一个端到端的机器学习模型将原始文本里包含的信息进行结构化处理，并从结构化处理后的原始文本中抽取出关键信息，之后再将关键信息以三元组{实体，关系，实体}的形式输出。然而，目前的序列标注技术能够提取的三元组信息非常有限。

发明内容

基于此，有必要针对上述技术问题，提供一种信息抽取模型训练方法、装置、计算机设备和存储介质。其中，训练得到的信息抽取模型能够提取文本中的完整三元组信息。

一种信息抽取模型训练方法，所述方法包括：

确定样本文本中所包含的实体；

根据所述样本文本中所包含的各实体的出现频次以及词性，对所述样本文本中每个分词进行词性标注；

根据所述词性标注确定相应分词中每个字符所对应的分类标签，得到所述样本文本对应的标签序列；

基于所述样本文本以及对应的标签序列对信息抽取模型进行训练。

在其中一个实施例中，所述词性类别包括核心实体、关系主语以及关系宾语；所述根据所述样本文本中所包含的各实体的出现频次以及词性，对所述样本文本中每个分词进行词性标注包括：

获取与所述样本文本对应的一个或多个样本元组；

基于所述样本元组确定样本文本中所包含的各实体的出现频次；

将样本文本中出现频次最多的实体标注为核心实体；

将样本文本中与出现位置位于样本元组起始位置的其他元素对应的实体的词性标注为关系主语；

将样本文本中与出现位置位于样本元组末尾位置的其他元素对应的实体的词性标注为关系宾语。

在其中一个实施例中，所述基于所述样本元组确定样本文本中所包含的各实体的出现频次包括：

统计所述一个或多个样本元组中每个不同元素的出现频次；

将所述不同元素出现的频次作为所述样本文本中对应实体的出现频次。

在其中一个实施例中，所述根据所述样本文本中所包含的各实体的出现频次以及词性，对所述样本文本中每个分词进行词性标注包括：

获取关系集；所述关系集中具有多个关系元素；

从所述样本文本中筛选出包含所述关系元素的至少一条目标短句；

对所述目标短句进行主语补全，得到至少一条完整短句；

确定全部完整短句中各实体出现频次及每个实体的词性类别；

根据所述各元素的出现频次及每个元素的词性类别，对所述样本文本中每个分词进行词性标注。

在其中一个实施例中，所述对所述目标短句进行主语补全，得到至少一条完整短句包括：

获取目标短句中各分词的词性类别；

基于所述各分词的词性类别，判断所述目标短句是否包含主语成分；

当不包含所述主语成分时，确定所述目标短句在所述样本文本中的上下文句意关系；

基于所述上下文句意关系对所述目标短句进行主语补全，得到完整短句。

在其中一个实施例中，所述确定全部完整短句中各实体数量及每个实体的词性类别包括：

统计全部完整短句中各实体的出现频次；

将出现频次最多的实体确定为核心实体；

确定除核心实体之外的其余实体在所述完整短句中的位置信息；

将所述完整短句中位于所述关系元素之后的除核心实体之外的实体，确定为与对应关系元素相关联的关系宾语；

将所述完整短句中位于所述关系元素之前的除核心实体之外的实体，确定为与对应关系元素相关联的关系主语。

在其中一个实施例中，所述基于所述样本文本以及对应的标签序列对信息抽取模型进行训练包括：

基于信息抽取模型确定所述样本文本中每个字符的分类结果；

按照所述每个字符的分类结果与所述标签序列的差异，调整所述信息抽取模型并继续训练，直至满足训练停止条件。

一种信息抽取模型训练置，所述装置包括：

词性标注模块，用于确定样本文本中所包含的实体；根据所述样本文本中所包含的各实体的出现频次以及词性，对所述样本文本中每个分词进行词性标注；

标签序列确定模块，用于根据所述词性标注确定相应分词中每个字符所对应的分类标签，得到所述样本文本对应的标签序列；

模型训练模块，用于基于所述样本文本以及对应的标签序列对信息抽取模型进行训练。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

确定样本文本中所包含的实体；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

确定样本文本中所包含的实体；

上述种信息抽取模型训练方法、装置、计算机设备和存储介质，通过识别样本文本中所包含的实体，可以确定实体出现的频率以及词性；通过确定的实体出现的频次以及词性，可以确定样本中文本中的核心实体、关系主语以及关系宾语，从而可以根据核心实体、关系主语以及关系宾语确定样本文本中每个字符所对应的分类标签，得到对应的标签序列，进而可以根据本文本以及对应的标签序列对信息抽取模型进行训练，得到可抽取出样本文本中全部三元组信息的机器学习模型。本实施例中，由于一个样本文本中往往只存在一个核心实体，且基于此核心实体可以构建至少一个三元组，因此通过确定样本文本中的核心实体、关系主语以及关系宾语，并对确定的核心实体、关系主语以及关系宾语进行标签标注，即可得到一组包含样本文本中全部三元组信息的标签序列，从而基于此标签序列进行训练而得的信息抽取模型也能够抽取出文本中的全部三元组关系。

附图说明

图1为一个实施例中信息抽取模型训练方法的应用场景图；

图2为一个实施例中信息抽取模型训练方法的流程示意图；

图3为一个实施例中与样本文本相对应的标签序列的示意图；

图4为一个实施例中基于概率图模型层对输出结果进行验证的示意图；

图5为一个实施例中对样本文本中每个分词进行词性标注的方法步骤示意图；

图6为一个实施例中信息抽取模型训练装置的结构框图；

图7为另一个实施例中信息抽取模型训练装置的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的信息抽取方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。服务器104上运行有信息抽取模型。当服务器104接收到来自终端102的目标文本时，可以通过信息抽取模型抽取目标文本中的核心实体、关系宾语以及关系主语，之后再根据抽取出的核心实体、关系宾语以及关系主语确定对应的三元组。服务器104将抽取出的全部三元组发送至终端102，以使终端102能够对应展示抽取出的全部三元组。

在一个实施例中，如图2所示，提供了一种信息抽取方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

S202，确定样本文本中所包含的实体。

其中，样本文本是指用来对机器学习模型进行训练的具有关系性的句子，例如在构建新闻事件的知识图谱场景中，样本文本可以是从新闻事件中抽取出的句子。机器学习模型可以对样本文本进行关系抽取，具体可以进行三元组抽取，通过学习文本中多个实体之间的语义联系，来识别其关系，从而得到样本文本中的主语、宾语以及关系，并将主语、宾语以及关系以三元组<主语，关系，宾语>的形式输出，比如基于机器学习模型可以从新闻事件中抽取出多个实体，并将多个实体以三元组的形式输出，从而使得后续可基于输出的三元组对新闻事件进行关联分析。实体是指现实世界中具有可区别性且独立存在的某种事物，例如，人名、地名游戏名称等。

具体地，标签标注人员可以从网络获取大量的文本以及与样本文本相对应的一个或多个样本元组，并将样本文本以及样本元组输入信息抽取模型，由信息抽取模型将样本元组中的位于起始位置的元素以及位于末尾位置的元素作为对应样本文本的实体。样本元组是指从样本文本抽取出的三元组。元素是指样本元组中包含的实体以及关系，例如，当样本文本为“钢铁侠主演唐尼，生于纽约”时，对应的样本元组即为<钢铁侠，主演，唐尼>和<唐尼，生于，纽约>。<钢铁侠，主演，唐尼>中的“钢铁侠”、“主演”及“唐尼”即为样本元组所包含的元素，位于起始位置的元素以及位于末尾位置的元素“钢铁侠”、“唐尼”以及“纽约”即为实体，位于中间位置的元素即为关系。其中，关系是句子中的主语与宾语之间的相互联系，其代表了主语与宾语之间的相互作用、相互影响状态。

在另一个实施例中，信息抽取模型中具有实体确定子模型，通过实体确定模型可以识别出样本文本中的实体。标签标注人员可以收集大量的样本文本，并将样本文本输入实体确定子模型，由实体确定子模型对样本文本进行分词处理，并对分词后的单个词汇进行特征向量提取，基于提取出的特征向量，确定样本文本中的实体。比如，可以基于实体确定子模型从样本文本中识别出人名、地名、身高以及出生日期等。

在另一个实施例中，通过获取实体词典，将实体词典以及样本文本输入实体确定子模型中，由实体确定子模型提取样本文本中的候选实体，并将提取出的候选实体与实体字典进行匹配，基于匹配结果验证候选实体的边界是否符合分词切分边界。当符合分词切分的边界时，实体确定子模型获取该候选实体的上下文信息，基于上下文信息计算候选实体为目标实体的概率，当概率值大于预设阈值时，实体确定子模型将此候选实体判定为目标实体。通过在验证了实体的切分符合切分边界时，再计算候选实体为目标实体的概率，可以大大提升实体识别的准确性。

在另一个实施例中，当基于实体确定子模型确定目标实体之后，计算机设备将提取出的目标实体与样本元组所包含的元素进行对比，当确定提取出的目标实体未包含样本元组中的某些元素时，将未包含的元素也判定为目标实体，从而后续计算机设备对最终得到的目标实体进行词性标注。基于实体确定子模型以及样本元组的双重确定，可以减少漏标注实体的概率。

S204，根据样本文本中所包含的各实体的出现频次以及词性，对样本文本中每个分词进行词性标注。

具体地，当信息抽取模型确定样本文本中所包含的实体后，信息抽取模型统计一个或多个样本元组中每个不同实体出现的频次，并将出现频次最高的实体作为核心实体。信息抽取模型遍历与样本文本相对应的样本元组，并确定除核心实体之外的位于样本元组起始位置的元素、位于样本元组末尾位置的元素、以及位于样本元组中间位置的元素。信息抽取模型将样本文本中与位于起始位置的元素相对应的实体，作为与位于样本元组中间位置的元素相对应的关系主语，将样本文本中与位于末尾位置的元素相对应的实体，作为与位于样本元组中间位置的元素相对应的关系宾语。信息抽取模型确定样本文本中除核心实体、关系主语以及关系宾语之外的其余分词，并将其余分词确定为非必须分词。其中，核心实体是指样本文本中存在的核心词，基于此核心实体，可以从样本文本中抽取出至少一个三元组。

比如，在上述举例中，当实体为“钢铁侠”、“唐尼”以及“纽约”,样本元组为<钢铁侠，主演，唐尼>和<唐尼，生于，纽约>时，信息抽取模型统计各实体在样本文本中出现的频次，并将出现频次最高的“唐尼”确定为核心实体，将位于样本元组起始位置的“钢铁侠”的词性确定为与关系分词“主演”相对应的关系主语，将位于样本元组末尾位置的“纽约”的词性确定为与关系分词“生于”相对应的关系宾语。

在另一个实施例中，当与样本文本相对应样本元组具有多个时，信息抽取模型可以对多个样本元组进行同步检测，同时确定多个样本元组中各实体的位置信息，并根据位置信息对各实体进行词性标注。

在另一个实施例中，计算机设备确定样本元组中，各实体出现位置所代表的词性信息，根据出现位置所代表的词性信息对样本文本中每个分词进行词性标注。比如，当约定，位于样本元组起始位置的实体为“主语”，位于样本元组中间位置的实体为“关系”，位于样本元组末尾位置的实体为“宾语”，即当约定样本元组是以<主语，关系，宾语>的形式输出时，按照上述方法确定样本文本中每个分词的词性。当约定样本元组是以<宾语，关系，主语>的形式输出时，信息抽取模型将样本文本中与位于起始位置的元素相对应的实体，作为与位于样本元组中间位置的元素相对应的关系宾语，将样本文本中与位于末尾位置的元素相对应的实体，作为与位于样本元组中间位置的元素相对应的关系主语。

S206，根据词性标注确定相应分词中每个字符所对应的分类标签，得到样本文本对应的标签序列。

具体地，信息抽取模型将样本文本中的每个分词放在同一标签空间中，并基于标签空间中预设的分类标签模板对样本文本中的每个分词进行标签标注。其中，采用的标签空间中的分类标签模板可以为{B-关系-1，B-关系-2，B，I，O}，“B-关系-1”代表关系主语的首字符，“B-关系-2”代表关系宾语的首字符，“B”代表核心实体的首字符，“I”代表关系主语或关系宾语或核心实体中除首字符之外的其余字符，“O”代表非必须分词中的字符。

例如，当确定样本文本“《不是所有时光都微笑》是光明日报出版社出版的书籍，作为是蓝瞳”中的核心词汇为“不是所有时光都微笑”，关系宾语为“光明日报出版社”、“蓝瞳”时，信息抽取模型基于预设的分类标签模板对样本文本中的每个分词进行标签标注后，即可得到如图3所示的标签序列，其中，核心词汇“不是所有时光都微笑”的标签序列为“B，I，I，I，I，I，I，I，I”，“光明日报出版社”的标签序列为“B-出版社-2，I，I，I，I，I，I”，“蓝瞳”的标签序列为“B-作者-1，I”。图3为一个实施例中与样本文本相对应的标签序列的示意图。

S208，基于样本文本以及对应的标签序列对信息抽取模型进行训练。

具体地，计算机设备中预存储有包含多个关系分词的关系集，信息抽取模型将关系集中的每个关系分词按“B-关系-1“”以及“B-关系-2”进行组合，得到多个分类标签。信息抽取模型将得到的多个分类标签以及“I”和“O”进行缓存，得到分类标签集。比如，当关系集为“{出版社，作者}”时，组合而成的分类标签即为“B-出版社-1”，“B-出版社-2”，“B-作者-1”，“B-作者-2”，此时分类标签集为{B-出版社-1，B-出版社-2，B-作者-1，B-作者-2，I，O}。

进一步的，信息抽取模型根据每个字符之前的语义关联，对每个字符进行特征提取，得到字符特征，并将提取出的字符特征输入全连接层，由全连接层对字符特征进行归一化，得到每个字符属于分类标签集中的每个分类标签的概率。信息抽取模型将概率值最大的分类标签作为对应字符的分类结果，并将分类结果与对应的标签序列进行对比，基于分类结果与标签序列之间的差异对信息抽取模型中的参数进行调整，直至调整后的参数满足预设条件。

在另一个实施例中，可以在全连接层之后增加概率图模型层，由概率图模型层中的转移矩阵对全连接层输出的分类结果进行初步验证，从而在输出结果不符合预设要求时，对输出结果进行重新预测。更具体地，如图4所示，可以基于转移矩阵设定预设要求，并在对应字符的分类结果不符合预设要求时，从不符合预设要求的字符属于分类标签集中的每个分类标签的概率中，筛选出第二大的概率值，将与第二大概率值对应的分类标签作为不符合预设要求的字符的分类结果。图4为一个实施例中，基于概率图模型层对输出结果进行验证的示意图。

例如，可以基于转移矩阵约定与分类结果为“B-关系-1”，“B-关系-2”，以及“B”的字符相邻，且为后序字符的分类结果只能为“I”；与分类结果为“I”的字符相邻，且为后序字符的分类结果只能为“B”而不能为“I”等。当信息抽取模型预测“钢铁侠主演唐尼，生于纽约”中,与“唐”对应的分类结果为“B”，与“尼”对应的分类结果为“O”时，概率图模型层基于预设约定：与分类结果为“B-关系-1”，“B-关系-2”，以及“B”的字符相邻，且为后序字符的分类结果只能为“I”，判定“尼”字符的分类结果不符合，并将“尼”字符的分类结果重新调整为“O”。

本实施例中，通过增加概率图模型层，可以对全连接层输出的结果进行验证，从而在发现字符的分类结果明显错误时，可以及时对相应字符的分类结果进行重新预测，进而可以提升全连接层输出结果的准确性，减小分类结果与标签序列之间的差异，提升信息抽取模型训练效率。

在另一个实施例中，对信息抽取模型训练完毕后，可以基于信息抽取模型提取原始文本中的三元组，并基于三元组构建对应的知识图谱。比如在本申请的构建新闻事件的知识图谱场景中，当需要对两会期间的新闻事件构建知识图谱时，可以分别将多条新闻报道输入信息抽取模型，由信息抽取模型抽取新闻报道中的三元组关系，并基于多个三元组关系构建对应的知识图谱，从而可以基于知识图谱分析新闻事件中的热门话题和与热门话题相关联的人物关系等。又比如，当需要基于疫情新闻构建相关的知识图谱时，亦可以基于上述方法提取疫情新闻事件中的三元组信息，基于提取出的三元组信息构建疫情知识图谱。

上述信息抽取方法中，通过识别样本文本中所包含的实体，可以确定实体出现的频率以及词性；通过确定的实体出现的频次以及词性，可以确定样本中文本中的核心实体、关系主语以及关系宾语，从而可以根据核心实体、关系主语以及关系宾语确定样本文本中每个字符所对应的分类标签，得到对应的标签序列，进而可以根据本文本以及对应的标签序列对信息抽取模型进行训练，得到可抽取出样本文本中全部三元组信息的机器学习模型。本实施例中，由于一个样本文本中往往只存在一个核心实体，且基于此核心实体可以构建至少一个三元组，因此通过确定样本文本中的核心实体、关系主语以及关系宾语，并对确定的核心实体、关系主语以及关系宾语进行标签标注，即可得到一组包含样本文本中全部三元组信息的标签序列，从而基于此标签序列进行训练而得的信息抽取模型也能够抽取出文本中的全部三元组关系。

在其中一个实施例中，根据样本文本中所包含的各实体的出现频次以及词性，对样本文本中每个分词进行词性标注包括：获取与样本文本对应的一个或多个样本元组；基于样本元组确定样本文本中所包含的各实体的出现频次；将样本文本中出现频次最多的实体标注为核心实体；将样本文本中与出现位置位于样本元组起始位置的其他元素对应的实体的词性标注为关系主语；将样本文本中与出现位置位于样本元组末尾位置的其他元素对应的实体的词性标注为关系宾语。

具体地，计算机设备获取与样本文本相对应的一个或多个样本元组，并将样本元组输入信息抽取模型中，由信息抽取模型对输入样本元组中的位于起始位置的元素，和位于结束位置的元素进行出现频次统计，并将位于起始位置和位于结束位置的元素的出现频次作为样本元组中对应实体的出现频次。比如，样本元组为<钢铁侠，主演，唐尼>和<唐尼，生于，纽约>时，信息抽取模型统计“钢铁侠”、“唐尼”以及“纽约”的出现频次，并将“钢铁侠”、“唐尼”以及“纽约”的出现频次判定为样本文本中对应实体的出现频次。

进一步地，信息抽取模将样本文本中出现频次最多的实体的词性标注为核心实体。如在上述举例中，信息抽取模型将“唐尼”判定为核心实体。信息抽取模型获取除核心实体之外的位于样本元组起始位置的其他元素，并将样本文本中与获取的位于起始位置的其它元素相对应的实体的词性标注为关系主语。与此同时，信息抽取模型获取除核心实体之外的位于样本元组末尾位置的其他元素，并将样本文本中与获取的位于末尾位置的其它元素相对应的实体的词性标注为关系宾语。

本实施例中，由于获取得到的一个或多个样本元组中已经包含有对应样本文本的全部三元组信息，因此只需对样本文本中的各元素进行简单的统计分析，即可快速得到样本文本中对应实体的出现频次和词性，从而可以提升词性标注的效率。

在其中一个实施例中，基于样本元组确定样本文本中所包含的各实体的出现频次包括：统计一个或多个样本元组中每个不同元素的出现频次，将不同元素出现的频次作为样本文本中对应实体的出现频次。

具体地，当信息抽取模型获取到一个或多个样本元组时，信息抽取模型将接收到的样本元组进行缓存，得到样本元组集。信息抽取模型获取样本元组集中的样本元组，并判断预设数组中是否存在样本元组中位于样本元组起始位置和末尾位置的元素。若预设数组中不存在位于样本元组起始位置或末尾位置的元素时，信息抽取模型将不存在于预设数组中的元素缓存至预设数组中，并将对应元素的出现频次设置为1。若预设数组中存在位于样本元组起始位置或末尾位置的元素时，信息抽取模型将对应元素的出现频次加1。如此，信息抽取模型遍历样本元组集直至样本元组集中的最后一个样本元组。信息抽取模型统计预设数组中的各元素的出现频次，并将各元素的出现频次确定为样本文本中对应实体的出现频次。

在另一个实施例中，在统计各样本元组中每个不同元素的出现频次之前，将预设数组中的数据进行清空处理。

本实施例中，为了符合书写习惯，针对一句自然语句，往往会省略逗号后面的主语。比如“钢铁侠主演唐尼，生于纽约”中，即省略了逗号后面的“唐尼”。因此为了得到真实的各实体的出现频次，信息抽取模型通过统计样本元组中对应元素的出现频次，来确定样本文本中对应实体的出现频次，从而得到真实可靠的出现频次。

在其中一个实施例中，如图5所示，提供了另一种根据样本文本中所包含的各实体的出现频次以及词性，对样本文本中每个分词进行词性标注的方法，包括：

S502，获取关系集；关系集中具有多个关系元素；

S504，从样本文本中筛选出包含关系元素的至少一条目标短句；

S506，对目标短句进行主语补全，得到至少一条完整短句；

S508，确定全部完整短句中各实体出现频次及每个实体的词性类别；

S510，根据各元素的出现频次及每个元素的词性类别，对样本文本中每个分词进行词性标注。

其中，短句是指以标点符号对样本文本进行分割得到的短句。例如，当样本文本为“钢铁侠主演唐尼，生于纽约”时，对应的短句即为“钢铁侠主演唐尼”和“生于纽约。

具体地，计算机设备获取预设的关系集，并将关系集输入信息抽取模型中。信息抽取模型基于标点符号对样本文本进行分割，得到至少一条短句，并将每条短句中的每个分词与关系集中的关系元素进行对比，在确定短句中包含有关系元素时，将对应的短句判定为目标短句。例如，当样本文本为“在各高等院校中，清华大学是位于北京的一所高校，直属于中华人民共和国教育部”，关系元素为“位于”、“直属”时，目标短句可以为“清华大学是位于北京的一所高校”，“直属于中华人民共和国教育部”。

进一步地，信息抽取模型中具有词性标注子模型和关系抽取子模型，基于词性标注子模型可以实现对目标短句中的各分词进行词性标注，基于关系抽取子模型可以抽取出样本文本中的三元组。词性标注子模型对目标短句进行分词处理，并判断目标短句中各分词的词性分类，之后将词性分类结果以及目标短句输入关系抽取子模型。关系抽取子模型根据分类结果判断目标短句中是否存在主语，当不存在主语时，关系抽取子模型基于目标短句在样本文本中的上下文信息，对目标短句进行主语补全，得到完整短句。关系抽取子模型统计全部完整短句中各实体的出现频次以及词性类别，根据各元素的出现频次及每个元素的词性类别，对样本文本中每个分词进行词性标注。

在另一个实施例中，可以将标注了词性的样本文本大输入词性标注子模型中，由词性标注子模型从样本文本中提取出词性特征，并对词性特征进行特征融合，基于特征融合后的词性特征以及词性标签进行有监督训练，得到训练后的词性标注子模型。

在另一个实施例中，词性特征的表现形式可以是向量形式或矩阵形式。计算机设备在进行特征融合之前，可将样本文本中每个实体的词性特征分别转换为标准形式，使每个词性特征的特征向量或特征矩阵处于同一空间维度范围内。比如，可对词性特征的模长进行归一化处理。常用的归一化算法有函数法和概率密度法。其中，函数法，比如最大-最小函数、均值-方差函数或双曲sigmoid(S型生长曲线)函数等。

在另一个实施例中，还可以添加用户自定义的关系集以拓展特殊的关系元素。

本实施例中，由于各目标短句中可能会省略主语，因此通过对样本文本中的各目标短句进行主语补全，可以得到完整的短句；通过对完整段短句中的实体进行出现频次统计以及词性类别划分，可以得到对应实体的真实出现频次以及词性类别，从而可以基于真实可靠地出现频次以及词性类别对样本文本进行词性标注，进而提升了词性标注的准确性。

在另一个实施例中，对目标短句进行主语补全，得到至少一条完整短句包括：获取目标短句中各分词的词性类别；基于各分词的词性类别，判断目标短句是否包含主语成分；当不包含主语成分时，确定目标短句在所述样本文本中的上下文句意关系；基于上下文句意关系对目标短句进行主语补全，得到完整短句。

具体地，词性标注子模型获取目标短句，并对获取得到的当前目标短句进行分词处理，之后，基于目标短句中的上下文信息提取各分词的词性特征，根据提取出的词性特征确定对应分词的词性分类。关系抽取子模型根据词性分类判断当前目标短句中是否存在对应主语,在存在对应主语时，关系抽取子模型直接将当前目标短句判定为完整短句。

在当前目标短句中缺少主语时，关系抽取子模型判断样本文本中与当前目标短句相邻，且位于当前目标短句之前的短句中是否为完整短句。在前序短句为完整短句时，关系抽取子模型获取前序短句中的实体，并识别实体的属性类别。其中，属性类别为实体在现实世界中所属分类，例如属性类别可以为人名、地名、食物以及植物等。关系抽取子模型中具有属性类别与关系元素之间的对应关系，例如与人名相关联的关系元素可以为“生于”、“担任”等。

进一步的，关系抽取子模型获取当前目标短句中的关系元素，并基于属性类别与关系元素之间的对应关系从前序短句中的至少一个实体中筛选出对应的目标实体，并基于筛选出的目标实体对当前目标短句进行主语补全，得到完整短句。

例如，在当前目标短句为“直属于中华人民共和国教育部”时，关系抽取子模型确定“清华大学是位于北京的一所高校”中的实体为“清华大学”，“北京”，并基于属性类别与关系元素之间的对应关系，确定与关系元素“属于”相关联的实体为“清华大学”，此时关系抽取子模型将“清华大学”作为当前目标短句的主语，从而得到完整短句“清华大学直属于中华人民共和国教育部”。

容易理解的，当与前序目标短句相邻，且位于当前目标短句之后的短句中为完整短句时，可也以基于后序短句中的信息对当前目标短句进行主语补全。

在另一个实施例中，当对样本文本进行分句处理，得到一条或多条短句后，关系抽取子模型判断当前短句中是否存在如“其”、“此”等具有指代意义的分词，在具有指代意义的分词时，关系抽取子模型将从与当前短句之前的前序短句中获取得到的目标实体，替代当前短句中的具有指代意义的分词。

本实施例中，通过获取与当前目标短句相邻的短句中的实体信息，可以对目标短句进行主语补全，从而后续可以基于补全后的完整短句统计实体的真实出现频次，进而提升了序列标注的准确性。

在另一个实施例中，确定全部完整短句中各实体数量及每个实体的词性类别包括：统计全部完整短句中各实体的出现频次；将出现频次最多的实体确定为核心实体；确定除核心实体之外的其余实体在所述完整短句中的位置信息；将完整短句中位于关系元素之后的除核心实体之外的实体，确定为与对应关系元素相关联的关系宾语；将完整短句中位于关系元素之前的除核心实体之外的实体，确定为与对应关系元素相关联的关系主语。

具体地，当关系抽取子模型确定样本文本中的实体后，关系抽取子模型统计全部完整短句中的各实体的出现频次，并将出现频次最多的实体确定为核心实体。关系抽取子模型判断除核心实体之外的其余实体在完整短句中的出现位置，将完整短句中位于关系元素之后的实体，确定为与对应关系元素相关联的关系宾语；将完整短句中位于关系元素之前的实体，确定为与对应关系元素相关联的关系主语。

例如，当样本文本为“在各高等院校中，清华大学是位于北京的一所高校，直属于中华人民共和国教育部”，关系元素为“位于”、“直属”时，完整短句可以为“清华大学是位于北京的一所高校”，“清华大学直属于中华人民共和国教育部”。关系抽取子模型将出现频次最多的“清华大学”确定为核心实体，将位于关系元素“位于”之后的“北京”确定为与“位于”相关联的关联宾语，将位于“直属”之后的“中华人民共和国教育部”确定为与“直属”相关联的关联宾语。

本实施例中，通过首先确定样本文本中的核心实体，再确定除核心实体之外的其余实体的词性分类，可以减少赋予实体两种不同的词性分类结果的概率，从而使得样本文本中的每个实体均具有一个唯一对应的词性分类结果，进而后续可以直接基于唯一的词性分类结果对样本文本进行标签标注，而无需再次从两种不同的词性分类结果中确定对应的分类标签。

在另一个实施例中，基于样本文本以及对应的标签序列对信息抽取模型进行训练包括：基于信息抽取模型确定样本文本中每个字符的分类结果；按照每个字符的分类结果与标签序列的差异，调整信息抽取模型并继续训练，直至满足训练停止条件。

具体地，当确定样本文本的标签序列后，信息抽取模型对样本文本进行分割，得到例如以一个英文单词为单位或者以一个汉字为单位的字符。信息抽取模型根据每个字符之前的语义关联，对每个字符进行特征提取，得到字符特征，并将提取出的字符特征输入全连接层，由全连接层对字符特征进行归一化，得到每个字符属于分类标签集中的每个分类标签的概率。比如可以基于Transformer特征提取模型对单个字符进行特征提取。Transformer特征提取模型具体可以包括编码层以及解码层，通过编码层可以确定单个字符的字向量以及位置向量，并将字向量和位置向量进行加权计算，得到中间结果；通过解码层可以将中间结果进行解码，从而得到字符特征。其中，位置向量是基于单个字符在目标文本中的位置信息确定的特征向量。

进一步的，信息抽取模型将概率值最大的分类标签作为对应字符的分类结果，并将分类结果与对应的标签序列进行对比，基于分类结果与标签序列之间的差异对信息抽取模型中的参数进行调整，直至调整后的参数满足预设条件。

本实施例中，通过对信息抽取模型进行对应训练，使得训练后的信息提取模型可以从文本中提取出全部的三元组信息，相比于传统的只能提取有限的三元组信息，本方案能够提取出完整的三元组信息，从而可以基于完整的三元组信息构建系统的知识图谱。

在另一个实施例中，可以基于测试文本以及对应的一个或多个测试元组对训练得到的信息提取模型进行质量评估。具体地，当已训练的信息抽取模型获取到测试文本时，信息抽取模型确定测试文本中每个字符属于分类标签集中的每个分类标签的概率，并将概率值最大的分类标签作为对应字符的分类结果。信息抽取模型根据分类结果确定测试文本中的核心实体、关系主语以及关系宾语，并统计关系主语以及关系宾语的数量，基于关系主语以及关系宾语的数量构建对应数量的三元组空集。与此同时，信息抽取模型将与关系主语以及关系宾语相关联的关系元素分别插入三元组空集的中间位置，将关系主语插入对应的三元组空集中的起始位置，将关系宾语插入对应三元组空集中的结束位置处，将核心实体插入每个三元组空集，从而得到一个或多个三元组。

进一步地，计算机设备将抽取出的三元组与测试元组进行对比，基于对比结果对信息抽取模型进行质量评估。

本实施例中，通过对训练后的信息抽取模型进行质量评估，可以在评估结果不符合预设标准时及时地对信息抽取模型进行再次训练，从而提升了基于信息抽取模型抽取出的三元组信息的准确性。

应该理解的是，虽然图2、5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、5中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种信息抽取模型训练装置600，包括：词性标注模块602、标签序列确定模块604和模型训练模块606，其中：

词性标注模块602，用于确定样本文本中所包含的实体；根据样本文本中所包含的各实体的出现频次以及词性，对样本文本中每个分词进行词性标注。

标签序列确定模块604，用于根据词性标注确定相应分词中每个字符所对应的分类标签，得到样本文本对应的标签序列。

模型训练模块606，用于基于样本文本以及对应的标签序列对信息抽取模型进行训练。

在另一个实施例中，如图7所示，词性标注模块602还包括词性分类模块6021，用于获取与样本文本对应的一个或多个样本元组；基于样本元组确定样本文本中所包含的各实体的出现频次；将样本文本中出现频次最多的实体标注为核心实体；将样本文本中与出现位置位于样本元组起始位置的其他元素对应的实体的词性标注为关系主语；将样本文本中与出现位置位于样本元组末尾位置的其他元素对应的实体的词性标注为关系宾语。

在另一个实施例中，词性分类模块6021还用于统计一个或多个样本元组中每个不同元素的出现频次；将不同元素出现的频次作为样本文本中对应实体的出现频次。

在另一个实施例中，词性标注模块602还包括目标短语分词模块6022，用于获取关系集；关系集中具有多个关系元素；从样本文本中筛选出包含关系元素的至少一条目标短句；对目标短句进行主语补全，得到至少一条完整短句；确定全部完整短句中各实体出现频次及每个实体的词性类别；根据各元素的出现频次及每个元素的词性类别，对样本文本中每个分词进行词性标注。

在另一个实施例中，目标短语分词模块6022还用于获取目标短句中各分词的词性类别；基于各分词的词性类别，判断目标短句是否包含主语成分；当不包含主语成分时，确定目标短句在样本文本中的上下文句意关系；基于上下文句意关系对目标短句进行主语补全，得到完整短句。

在另一个实施例中，目标短语分词模块6022还用于统计全部完整短句中各实体的出现频次；将出现频次最多的实体确定为核心实体；确定除核心实体之外的其余实体在完整短句中的位置信息；将完整短句中位于关系元素之后的除核心实体之外的实体，确定为与对应关系元素相关联的关系宾语；将完整短句中位于关系元素之前的除核心实体之外的实体，确定为与对应关系元素相关联的关系主语。

在另一个实施例中，模型训练模块606还包括参数调整模块6061，用于基于信息抽取模型确定样本文本中每个字符的分类结果；按照每个字符的分类结果与标签序列的差异，调整信息抽取模型并继续训练，直至满足训练停止条件。

关于信息抽取模型训练装置的具体限定可以参见上文中对于信息抽取模型训练方法的限定，在此不再赘述。上述信息抽取模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储信息抽取数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种信息抽取模型训练方法。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

确定样本文本中所包含的实体；

根据样本文本中所包含的各实体的出现频次以及词性，对样本文本中每个分词进行词性标注；

根据词性标注确定相应分词中每个字符所对应的分类标签，得到样本文本对应的标签序列；

基于样本文本以及对应的标签序列对信息抽取模型进行训练。

在一个实施例中，词性类别包括核心实体、关系主语以及关系宾语；处理器执行计算机程序时还实现以下步骤：

获取与样本文本对应的一个或多个样本元组；

基于样本元组确定样本文本中所包含的各实体的出现频次；

将样本文本中出现频次最多的实体标注为核心实体；

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

统计一个或多个样本元组中每个不同元素的出现频次；

将不同元素出现的频次作为样本文本中对应实体的出现频次。

获取关系集；关系集中具有多个关系元素；

从样本文本中筛选出包含关系元素的至少一条目标短句；

对目标短句进行主语补全，得到至少一条完整短句；

根据各元素的出现频次及每个元素的词性类别，对样本文本中每个分词进行词性标注。

获取目标短句中各分词的词性类别；

基于各分词的词性类别，判断目标短句是否包含主语成分；

当不包含主语成分时，确定目标短句在样本文本中的上下文句意关系；

基于上下文句意关系对目标短句进行主语补全，得到完整短句。

统计全部完整短句中各实体的出现频次；

将出现频次最多的实体确定为核心实体；

确定除核心实体之外的其余实体在完整短句中的位置信息；

将完整短句中位于关系元素之后的除核心实体之外的实体，确定为与对应关系元素相关联的关系宾语；

将完整短句中位于关系元素之前的除核心实体之外的实体，确定为与对应关系元素相关联的关系主语。

基于信息抽取模型确定样本文本中每个字符的分类结果；

按照每个字符的分类结果与标签序列的差异，调整信息抽取模型并继续训练，直至满足训练停止条件。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

确定样本文本中所包含的实体；

在一个实施例中，词性类别包括核心实体、关系主语以及关系宾语；计算机程序被处理器执行时还实现以下步骤：

获取与样本文本对应的一个或多个样本元组；

基于样本元组确定样本文本中所包含的各实体的出现频次；

将样本文本中出现频次最多的实体标注为核心实体；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

统计一个或多个样本元组中每个不同元素的出现频次；

获取关系集；关系集中具有多个关系元素；

从样本文本中筛选出包含关系元素的至少一条目标短句；

对目标短句进行主语补全，得到至少一条完整短句；

获取目标短句中各分词的词性类别；

基于各分词的词性类别，判断目标短句是否包含主语成分；

统计全部完整短句中各实体的出现频次；

将出现频次最多的实体确定为核心实体；

确定除核心实体之外的其余实体在完整短句中的位置信息；

基于信息抽取模型确定样本文本中每个字符的分类结果；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种信息抽取模型训练方法，其特征在于，所述方法包括：

确定样本文本中所包含的实体；

2.根据权利要求1所述的方法，其特征在于，所述词性类别包括核心实体、关系主语以及关系宾语；所述根据所述样本文本中所包含的各实体的出现频次以及词性，对所述样本文本中每个分词进行词性标注包括：

获取与所述样本文本对应的一个或多个样本元组；

将样本文本中出现频次最多的实体标注为核心实体；

3.根据权利要求2所述的方法，其特征在于，所述基于所述样本元组确定样本文本中所包含的各实体的出现频次包括：

统计所述一个或多个样本元组中每个不同元素的出现频次；

4.根据权利要求1所述的方法，其特征在于，所述根据所述样本文本中所包含的各实体的出现频次以及词性，对所述样本文本中每个分词进行词性标注包括：

获取关系集；所述关系集中具有多个关系元素；

对所述目标短句进行主语补全，得到至少一条完整短句；

5.根据权利要求4所述的方法，其特征在于，所述对所述目标短句进行主语补全，得到至少一条完整短句包括：

获取目标短句中各分词的词性类别；

6.根据权利要求4所述的方法，其特征在于，所述确定全部完整短句中各实体数量及每个实体的词性类别包括：

统计全部完整短句中各实体的出现频次；

将出现频次最多的实体确定为核心实体；

7.根据权利要求1所述的方法，其特征在于，所述基于所述样本文本以及对应的标签序列对信息抽取模型进行训练包括：

8.一种信息抽取模型训练装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。