CN111444349A

CN111444349A - 信息抽取方法、装置、计算机设备和存储介质

Info

Publication number: CN111444349A
Application number: CN202010150123.9A
Authority: CN
Inventors: 赵富邦; 彭子轩; 邹鸿岳; 杨雪峰
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2020-07-24
Anticipated expiration: 2040-03-06
Also published as: CN111444349B

Abstract

本申请涉及一种信息抽取方法、装置、计算机设备和存储介质。所述方法包括：获取目标文本；基于预训练的信息抽取模型提取目标文本的第一字符特征；根据第一字符特征从目标文本中抽取至少一个主语；分别基于抽取出的每个主语重构所述目标文本，得到一个或多个重构文本；提取重构文本的第二字符特征；根据第二字符特征，从每个重构文本中抽取对应主语的关系以及宾语。采用本方法能够提取出文本中的全部三元组信息。

Description

信息抽取方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种信息抽取方法、装置、计算机设备和存储介质。

背景技术

随着信息技术的发展，知识图谱的构建成为了必要。知识图谱是指通过可视化构建原始文本中各关键信息之间的关联关系。而信息抽取是构建知识图谱的关键步骤，是信息抽取是是自然语言处理(NLP)中最重要的任务之一。

目前主要是通过序列标注技术来实现信息抽取，通过一个端到端的机器学习模型将原始文本里包含的信息进行结构化处理，并从结构化处理后的原始文本中抽取出关键信息，之后再将关键信息以三元组{主语，关系，宾语}的形式输出。然而，目前的序列标注技术能够提取的三元组信息非常有限。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提取完整三元组信息的信息抽取方法、装置、计算机设备和存储介质。

一种信息抽取方法，所述方法包括：

获取目标文本；

基于预训练的信息抽取模型提取所述目标文本的第一字符特征；

根据所述第一字符特征从所述目标文本中抽取至少一个主语；

分别基于抽取出的每个主语重构所述目标文本，得到重构文本集；

提取所述重构文本集中的每个重构文本的第二字符特征；

根据所述第二字符特征，从每个重构文本中抽取对应主语的关系以及宾语。

在其中一个实施例中，所述根据所述第一字符特征从所述目标文本中抽取至少一个主语包括：

基于所述第一字符特征确定所述目标文本中每个字符属于主语起始字符的概率值，以及属于主语结束字符的概率值；

将基于每个字符属于主语起始字符的概率生成的概率序列中的，符合阈值条件的字符确定为主语起始字符；

确定所述每个主语起始字符处于所述目标文本中的位置信息；

基于所述主语起始字符的位置信息以及每个字符属于主语结束字符的概率值，确定与所述每个主语起始字符相匹配的主语结束字符；

将每对相匹配的主语起始字符与主语结束字符判定为一个主语。

在其中一个实施例中，所述基于所述主语起始字符的位置信息以及于每个字符属于主语结束字符的概率值，确定与所述每个主语起始字符相匹配的主语结束字符包括：

统计获取的所述主语起始字符的数量；

当具有两个及两个以上的主语起始字符时，确定相邻两个主语起始字符在所述目标文本中的位置信息；

基于所述位置信息，确定所述目标文本中的处于相邻两个主语起始字符之间的字符串；

将所述字符串中属于主语结束字符的概率值最大的字符，判定为与相邻两个主语起始字符中的前序主语起始字符相匹配的主语结束字符。

在其中一个实施例中，所述根据所述第二字符特征，从每个重构文本中抽取对应主语的关系以及宾语包括：

将与所述重构文本相对应的主语与所述关系集中的每个关系进行绑定，得到关系主语集；

基于所述第二字符特征，计算所述重构文本中每个字符为与所述关系主语集中的每个关系主语相对应的宾语的概率值；

将所述概率值符合预设条件的字符确定为与所述关系主语相对应的宾语。

在其中一个实施例中，所述信息抽取模型训练步骤包括：

获取训练文本、对应的一个或多个训练元组以及预训练模型；

基于所述一个或多个训练元组中各元素出现位置对所述训练元组进行划分，得到主语训练元组及关系宾语训练元组；

基于所述训练文本以及所述主语训练元组对所述预训练模型进行训练，得到半训练模型；

基于所述训练文本和所述关系宾语训练元组对所述半训练模型进行训练，得到信息抽取模型。

在其中一个实施例中，所述基于所述训练文本以及所述主语训练元组对所述预训练模型进行训练，得到半训练模型包括：

提取所述训练文本的第一字符特征；

基于所述第一字符特征预测训练文本中的每个字符属于主语的概率值；

根据所述概率值从所述训练文本中抽取至少一个主语；

按照所述抽取出的主语与所述主语训练元组的差异，调整所述预训练模型并继续训练，直至满足训练停止条件。

在其中一个实施例中，所述基于所述训练文本和所述关系宾语训练元组对所述半训练模型进行训练，得到信息抽取模型包括：

基于所述半训练模型抽取所述训练文本中的至少一个主语；

分别基于抽取出的每个主语重构所述训练文本，得到至少一个重构文本；

提取所述重构文本的第二字符特征；

基于所述第二字符特征，从训练文本中抽取对应主语的关系以及宾语；

按照所述抽取出的关系、宾语与所述关系宾语训练元组的差异，调整所述半训练模型并继续训练，直至满足训练停止条件。

一种信息抽取装置，所述装置包括：

目标文本获取模块，用于获取目标文本；

主语提取模块，用于基于预训练的信息抽取模型提取所述目标文本的第一字符特征；根据所述第一字符特征从所述目标文本中抽取至少一个主语；

关系及宾语提取模块，用于分别基于抽取出的每个主语重构所述目标文本，得到重构文本集；提取重构文本集中的每个重构文本的第二字符特征；根据所述第二字符特征，从每个重构文本中抽取对应主语的关系以及宾语。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取目标文本；

分别基于抽取出的每个主语重构所述目标文本，得到一个或多个重构文本；

提取所述重构文本的第二字符特征；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取目标文本；

提取所述重构文本的第二字符特征；

上述信息抽取方法、装置、计算机设备和存储介质，通过提取目标文本的第一字符特征，可以基于第一字符特征确定目标文本中的至少一个主语；通过分别对抽取出的主语以及目标文本进行重构，可以得到包含一个或多个重构文本的重构文本集；通过遍历重构文本集，分别提取出重构文本集中每个重构文本的第二字符特征，可基于第二字符特征从每个重构文本集中抽取出对应主语的关系以及宾语，从而得到至少一个三元组信息。由于是先抽取出目标文本中存在的全部主语，再分别抽取与主语相对应的关系以及宾语，因此本方案能够提取出目标文本中存在的全部三元组信息。

附图说明

图1为一个实施例中信息抽取方法的应用场景图；

图2为一个实施例中信息抽取方法的流程示意图；

图3为一个实施例中起始概率序列以及结束概率序列的示意图；

图4为一个实施例中基于第二字符特征确定宾语的示意图；

图5为一个实施例中信息抽取模型训练步骤的示意图；

图6为一个实施例中信息抽取装置的结构框图；

图7为另一个实施例中信息抽取装置的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的信息抽取方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。服务器104上运行有信息抽取模型。当服务器104接收到来自终端102的目标文本时，可以通过信息抽取模型抽取目标文本中的全部主语，之后再根据抽取出的主语确定对应的关系以及宾语，从而得到由主语、关系以及宾语组成的三元组。服务器104将抽取出的全部三元组发送至终端102，以使终端102能够对应展示抽取出的全部三元组。

在一个实施例中，如图2所示，提供了一种信息抽取方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

S202，获取目标文本。

其中，目标文本是指需要抽取出三元组的文字文本，例如，对于构建新闻事件的知识图谱场景，目标文本可以是从新闻事件中随机摘取的一段文字，也可以是新闻编辑输入的一段文字。比如，目标文本可以为“钢铁侠唐尼，生于纽约”。

具体地，当服务器从新闻事件中提取出大段文本时，可以基于预设的标点符号对接收到的文本进行分割，得到多个目标文本。比如，预设的标点符号可以为具有结束语义的符号，如为句话或问号。当接收到的文本为“钢铁侠唐尼，生于纽约。纽约是美国的金融中心。”时，服务器可以基于文本中的句号对接收到的文本进行分割，从而得到“钢铁侠唐尼，生于纽约。”以及“纽约是美国的金融中心。”两个目标文本，之后再将目标文本输入信息抽取模型，由信息抽取模型抽取目标文本中三元组。

在另一个实施例中，可以直接将大段文本输入信息抽取模型，由信息抽取模型对接收到的文本进行正则化匹配，从而判断接收到的文本中的句子数量。在接收到的文本中只有一句话时，直接将接收到的文本作为目标文本；在接收到的文本中具有多句话时，信息抽取模型基于正则匹配结果对接收文本进行分割，从而将每句话作为一个目标文本。

在另一个实施例中，可以对目标文本中的内容进行初步检测，当发现目标文本中具有繁体字和错别字时，服务器基于预存储的简体字字谱对识别出的繁体字以及错别字等字符进行修正，从而得到具有标准简体字字符的目标文本。

在另一个实施例中，可以在服务器中部署数据库，用于存储目标文本。当接收到三元组抽取指令时，服务器从数据库中读取预设数量的目标文本，并将目标文本输入信息抽取模型中。

S204，基于预训练的信息抽取模型提取目标文本的第一字符特征。

其中，信息抽取模型为一个能够对自然语言进行词汇层面以及句子层面分析的机器学习模型。如信息抽取模型能够对自然语言进行分词处理及词性识别等。

具体地，当接收到目标文本时，信息抽取模型对目标文本进行分割，得到例如以一个英文单词为单位或者以一个汉字为单位的字符。信息抽取模型根据每个字符之前的语义关联，对每个字符进行特征提取，得到第一字符特征。比如可以基于Transformer特征提取模型对单个字符进行特征提取。Transformer特征提取模型具体可以包括编码层以及解码层，通过编码层可以确定单个字符的字向量以及位置向量，并将字向量和位置向量进行加权计算，得到中间结果；通过解码层可以将中间结果进行解码，从而得到第一字符特征。其中位置向量是基于单个字符在目标文本中的位置信息确定的特征向量。

在另一个实施例中，信息抽取模型确定目标文本中的空格位置，将每个空格作为分隔符对目标文本进行分割，从而得到多个字符。

在另一个实施例中，当目标文本中具有数字字符时，信息抽取模型可以将相邻的多个数据字符合并成一个数据字符。

S206，根据第一字符特征从目标文本中抽取至少一个主语。

具体地，信息抽取模型将抽取出的每个字符的第一字符特征与预存储的主语特征进行特征匹配，从而基于匹配结果计算对应字符为主语的概率。信息抽取模型将概率值大于阈值的字符判定为组成主语的目标字符，并确定目标字符在目标文本中的位置信息，基于位置信息将相邻目标字符确定为一个主语。

例如，目标文本为“钢铁侠主演唐尼，生于纽约”时，信息抽取模型基于第一字符特征确定每个字符为主语的概率值，并基于概率值确定“钢”，“铁”，“侠”，“唐”，“尼”这五个字符为组成主语的目标字符。之后，信息抽取模型将相邻的目标字符进行合并，从而得到“钢铁侠”，“唐尼”两个主语。其中，主语是执行句子的行为或动作的主体，如“钢铁侠主演唐尼”中的“钢铁侠”就是主语，又例如“唐尼生于纽约”中的“唐尼”也是主语。

在另一个实施例中，当基于位置信息将相邻目标字符确定为一个主语时，计算机设备将提取出的主语与预设的主语集中的每个主语进行匹配，基于匹配结果验证提取出的实体的边界是否符合分词切分边界。当不符合分词切分的边界时，计算机设备提取主语集中匹配度最高的目标主语，基于目标主语重新对提取出的主语进行边界切分。通过在确定目标文本中的主语之前，对提取出的主语进行了切分边界确认，可以大大提升主语提取的准确度。

在另一个实施例中，当基于第一字符特征从目标文本中抽取出主语时，计算机设备将抽取出的主语与预设的关系集中的每个关系元素进行匹配，当匹配成功时，可以认为提取出的主语可能有误，此时计算机设备向用户发出提示消息。以使用户根据提示消息及时对提取出的主语进行修正。其中，关系元素是指可以将主语和宾语进行关联的元素。通过与关系集中的元素进行匹配，当匹配成功时，及时向用户发出提示消息，可以减少提取错误主语的概率，从而提升三元组信息抽取的准确率。

S208，分别基于抽取出的每个主语重构目标文本，得到一个或多个重构文本。

具体地，在确定目标文本中的一个主语后，信息抽取模型分别将抽取出的主语添加至目标文本的预设位置处，并以预设分隔符分隔主语以及目标文本，从而得到至少一个重构文本集。例如，在上述举例中，信息抽取模型将“钢铁侠”添加至“钢铁侠主演唐尼，生于纽约”的句首，并以“[SEP]”符号分隔主语以及目标文本，从而得到如“钢铁侠[SEP]钢铁侠主演唐尼，生于纽约”的重构文本。

在另一个实施例中，可以将主语添加至目标文本的句尾，并以预设分隔符分隔主语以及目标文本，从而得到重构文本。

在另一个实施例中，信息抽取模型可以直接从目标文本抽取出主语，并将抽取出的主语添加至目标文本中的预设位置处。比如，信息抽取文本从“钢铁侠主演唐尼，生于纽约”中抽取出“唐尼”，并基于预设分隔符号将“唐尼”拼接至“钢铁侠主演，生于纽约”，得到“唐尼[SEP]钢铁侠主演，生于纽约”的重构文本。

S210，提取重构文本的第二字符特征。

具体地，信息抽取任务包括主语抽取子任务，和关系、宾语抽取子任务。当获取到重构文本后，信息抽取模型判断重构文本中预设符号之前是否存在主语字符，若存在主语字符，可以认为此时应执行关系、宾语抽取子任务，此时信息抽取模型对应抽取重构文本中的每个字符的第二字符特征。信息抽取模型可以根据特征提取模型的网络结构，同时对重构文本中的每个字符进行与网络结构相对应的并行运算，从而获取特征提取模型输出的每个字符所对应的第二字符特征。

在另一个实施例中，信息抽取模型确定重构文本中每一个字符的类别，如确定此字符为数字、标点、英文等类别，以及确定重构文本中的每个字符的字符顺序。基于字符顺序获取前字符、前一顺序字符、再前一顺序字符、下一顺序字符、再下一顺序字符，对获取得到的多个字符进行联合特征提取，得到每个字符的第二字符特征。通过对字符进行联合特征提取，使得提取出的第二字符特征可以包含上下文信息，从而后续可以基于上下文信息提取重构文本中的关系和宾语。

在另一个实施例中，可以基于TextCNN模型进行第二特征抽取。TextCNN模型是一个由多个感受野的CNN并列组成的层叠模型，基于此层叠模型可以提取出对分词的词性标注由帮助的第二特征，从而后续可以对抽取出的第二特征进行池化操作后，得到分词最终的词性特征。

S212，根据第二字符特征，从每个重构文本中抽取对应主语的关系以及宾语。

具体地，服务器中预存储有关系集。其中，关系集是指包含多个关系词汇的集合。关系词语是句子中的主语与宾语之间的相互联系，其代表了主语与宾语之间的相互作用、相互影响状态。信息抽取模型将重构文本中的主语与关系集中的每个关系词语进行绑定，得到关系主语集，并基于抽取出的每个字符的第二字符特征计算对应字符为与关系主语集中的每个关系主语相对应的宾语的概率。信息抽取模型将概率值大于阈值的字符判定为与关系主语相对应的宾语。

在另一个实施例中，第二字符特征引入了语义信息，因为将字符转换为第二字符特征时，会根据这个字符附近的字符来了解语义信息，从而赋予其第二字符特征。语义相近字符的字符特征在向量空间中彼此接近，因为它们附近的词相似。例如，“出生于”、“诞生于”、“的生日是”的字符特征所构成的综合特征在向量空间中彼此接近，因此信息抽取模型能够判断目标文本中是否存在与关系集中的关系词汇语义相近的词语，在存在语义相近的词语时，信息抽取模型将语义相近的词语与主语进行绑定，得到关系主语，并根据第二字符特征确定与关系主语相对应的宾语。

例如，当关系集中具有“出生”关系词汇时，信息抽取模型根据第二字符特征确定目标文本“钢铁侠主演唐尼，生于纽约”中具有与“出生”语义相近的词语“生于”，此时信息抽取模型将抽取出的主语“唐尼”与“生于”进行绑定，得到“唐尼生于”，从而确定与“唐尼生于”相对应的宾语“纽约”，即得到一个三元组<唐尼，生于，纽约>。

在确定目标文本中存在与关系集中的关系词汇语义相近的词语时，可以仅将语义相近的词语与主语进行绑定，而无需与关系集中的每个关系词汇进行绑定，如此，在后续抽取宾语时，可以仅计算与语义相近的词语相对应的宾语，而无需计算关系集中的每个关系词汇相对应的宾语，大大减少了计算量。

在另一个实施例中，当抽取出全部三元组信息后，计算机设备基于抽取出全部三元组构建对应的知识图谱。比如在本申请的构建新闻事件的知识图谱场景中，当需要对两会期间的新闻事件构建知识图谱时，可以分别将多条新闻报道输入信息抽取模型，由信息抽取模型抽取新闻报道中的三元组关系，并基于多个三元组关系构建对应的知识图谱，从而可以基于知识图谱分析新闻事件中的热门话题和与热门话题相关联的人物关系等。又比如，当需要基于疫情新闻构建相关的知识图谱时，亦可以基于上述方法提取疫情新闻事件中的三元组信息，基于提取出的三元组信息构建疫情知识图谱。

上述信息抽取方法中，通过提取目标文本的第一字符特征，可以基于第一字符特征确定目标文本中的至少一个主语；通过分别对抽取出的主语以及目标文本进行重构，可以得到包含一个或多个重构文本的重构文本集；通过遍历重构文本集，分别提取出重构文本集中每个重构文本的第二字符特征，可基于第二字符特征从每个重构文本集中抽取出对应主语的关系以及宾语，从而得到至少一个三元组信息。由于是先抽取出目标文本中存在的全部主语，再分别抽取与主语相对应的关系以及宾语，因此本方案能够提取出目标文本中存在的全部三元组信息。

在另一个实施例中，根据第一字符特征从目标文本中抽取至少一个主语包括：基于第一字符特征确定目标文本中每个字符属于主语起始字符的概率值，以及属于主语结束字符的概率值；将基于每个字符属于主语起始字符的概率生成的概率序列中的，符合阈值条件的字符确定为主语起始字符；确定每个主语起始字符处于目标文本中的位置信息；基于主语起始字符的位置信息以及于每个字符属于主语结束字符的概率值，确定与每个主语起始字符相匹配的主语结束字符；将每对相匹配的主语起始字符与主语结束字符判定为一个主语。

具体地，信息抽取模型将目标文本中的每个字符的第一字符特征与预存储的主语起始字符特征以及主语结束字符特征进行特征匹配，从而基于匹配结果计算对应字符属于主语起始字符的概率值，以及属于主语结束字符的概率值。例如，当目标文本为“钢铁侠主演唐尼，生于纽约”时，信息抽取模型根据目标文本中的每个字符的第一字符特征得到如图3所示的概率序列。其中，概率序列包括由每个字符为主语起始字符的概率值组合而成的起始概率序列，和由每个字符为主语结束字符的概率值组合而成的结束概率序列。图3为一个实施例中，起始概率序列以及结束概率序列的示意图。

进一步地，信息抽取模型从起始概率序列中筛选出符合要求的字符，并将筛选出的字符作为主语起始字符；从结束概率序列中筛选出符合要求的字符，并将筛选出的字符作为主语结束字符。其中，主语起始字符为单个分词中最先出现的字符，例如“钢铁侠”的主语起始字符即为“钢”；主语结束字符为单个分词中最后出现的字符，例如“钢铁侠”的主语结束字符即为“侠”。信息抽取模型确定每个主语起始字符在目标文本中的出现位置，基于位置信息确定与主语起始自读相匹配的主语结束字符，从而将每对相匹配的主语起始字符与主语结束字符判定为一个主语。

本实施例中，通过分别获取起始概率序列以及结束概率序列，可以基于概率序列中的概率值确定相配对的主语起始字符与主语结束字符，从而将相配对的主语起始字符与主语结束字符判定为一个主语。相比于传统的直接获取每个字符为主语的概率值，本方法能够基于开始位置以及结束位置获取到更准确的主语信息。

在另一个实施例中，基于主语起始字符的位置信息以及于每个字符属于主语结束字符的概率值，确定与每个主语起始字符相匹配的主语结束字符包括：统计获取的主语起始字符的数量；当具有两个及两个以上的主语起始字符时，确定相邻两个主语起始字符在目标文本中的位置信息；基于位置信息，确定目标文本中的处于相邻两个主语起始字符之间的字符串；将字符串中属于主语结束字符的概率值最大的字符，判定为与相邻两个主语起始字符中的前序主语起始字符相匹配的主语结束字符。

具体地，信息抽取模型统计获取的主语起始字符的字符数量，当具有一个起始主语字符时，信息抽取模型确定主语起始字符在目标文本中的出现位置，从目标文本中筛选出位于出现位置之后的属于主语结束字符的概率值最大的字符，并将筛选出的概率值最大字符作为与主语起始字符相匹配的主语结束字符。

当具有两个及两个以上的主语起始字符时，可以认为此时目标文本中具有多个主语。信息抽取模型将主语起始字符与目标文本中的每个字符进行比对，从而确定主语起始字符在目标文本中的出现位置。信息抽取模型从目标文本中获取相邻两个主语起始字符之间的字符串，并将字符串中属于主语结束字符的概率值最大的字符，判定为与相邻两个主语起始字符中的前序主语起始字符相匹配的主语结束字符。信息抽取模型将主语起始字符、主语结束字符以及位于主语起始字符和主语结束字符之间的字符判定为一个主语。

进一步地，在当前主语起始字符之后不存在主语起始字符时，信息抽取模型获取位于当前主语起始字符之后的字符串，并将字符串中属于主语结束字符的概率值最大的字符确定为与当前起始字符相匹配的主语结束字符。

例如，如图3所示，当确定“钢”与“唐”为主语起始字符时，信息抽取模型获取位于“钢”与“唐”之间的字符串“铁侠主演”，并将“铁侠主演”中的属于主语结束字符的概率值最大的“侠”确定为与“钢”相匹配的主语结束字符，从而将“钢铁侠”判定为一个主语。

本实施例中，通过从相邻两个主语起始字符中筛选出对应的主语结束字符，相比于传统的纯粹按照概率值进行主语结束字符的确定，本方案能够减少抽取的主语起始字符与主语结束字符的数量不匹配的概率。

在另一个实施例中，根据第二字符特征，从每个重构文本中抽取对应主语的关系以及宾语包括：将与重构文本相对应的主语与关系集中的每个关系进行绑定，得到关系主语集；基于第二字符特征，计算重构文本中每个字符为与关系主语集中的每个关系主语相对应的宾语的概率值；将概率值符合预设条件的字符确定为与关系主语相对应的宾语。

具体地，信息抽取模型将从重构文本中提取预设符号之前的主语分词，并将主语分词与关系集中的每个关系进行绑定，得到关系主语集。例如，当重构文本为“钢铁侠[SEP]钢铁侠主演，生于纽约”，关系集中的关系词语为“主演”、“歌手”时，信息抽取模型将位于“[SEP]”之前的“钢铁侠”分别与“主演”、“歌手”进行绑定，得到关系主语集。

进一步地，信息抽取模型基于第二字符特征计算对应字符为与关系主语集中的每个关系主语相对应的宾语的起始字符的概率，和与关系主语集中的每个关系主语相对应的宾语的结束字符的概率，得到如图4所示的两个概率序列。信息抽取模型将概率序列中大于阈值的字符确定为与关系主语相对应的宾语。例如，如图4所示，信息抽取模型将重够文本中的“唐”确定为与“钢铁侠，主演”相对应的宾语的起始字符，将“尼”确定为与“钢铁侠，主演”相对应的宾语的结束字符。图4为一个实施例中，基于第二字符特征确定宾语的示意图。

本实施例中，基于第二字符特征，可以预估重构文本中每个字符为与关系主语集中的每个关系主语相对应的宾语的概率，从而将大于预设阈值的字符确定为与对应关系主语相关联的宾语，进而可以基于确定的关系主语以及宾语生成三元组，如此，遍历重构文本集中的每个重构文本，即可得到目标文本中的全部三元组信息。

在另一个实施例中，图5为一个实施例中信息抽取模型训练步骤，包括：

S502，获取训练文本、对应的一个或多个训练元组以及预训练模型；

S504，基于一个或多个训练元组中各元素出现位置对训练元组进行划分，得到主语训练元组及关系宾语训练元组；

S506，基于训练文本以及主语训练元组对预训练模型进行训练，得到半训练模型；

S508，基于训练文本和关系宾语训练元组对半训练模型进行训练，得到信息抽取模型。

其中，预训练模型为通过大量无监督文本进行语言模型训练而得的机器学习模型，具体可以为BERT模型。训练文本可以为具有关系性句子的文本，例如可以为从百度百科、维基百科等抽取出的句子。训练元组为基于训练文本中的各词语之间的语义关系抽取出的三元组：<主语，关系，宾语>。

具体地，标签标注人员可以确定训练文本中的实体，以及实体之间的关联关系，基于实体间的关联关系从训练文本中抽取出一个或多个训练元组，并将训练文本、对应的一个或多个训练元组输入计算机设备中。例如，当训练文本为“钢铁侠主演唐尼，生于纽约”时，标签标注人员可以确定“钢铁侠”、“唐尼”以及“纽约”为实体，并基于实体之间的关联关系，得到两个训练元组:<钢铁侠，主演，唐尼>以及<唐尼，生于，纽约>。其中，实体是指现实世界中具有可区别性且独立存在的某种事物，例如，人名、地名游戏名称等。计算机设备提取位于训练元组中起始位置的元素，并将提取出的位于起始位置的元素作为构成主语训练元组的元素。之后，计算机设备将训练元组中除位于起始位置的元素之外的其余元素作为构成关系宾语训练元组中的元素。

进一步的，计算机设备将主语关系元组以及训练文本输入预训练模型中，由预训练模型基于主语关系元组以及训练文本进行模型参数调整，得到半训练模型。将训练文本以及关系宾语训练元组输入半训练模型，由半训练模型基于训练文本以及关系宾语训练元组进行模型参数调整，得到信息抽取模型。

在另一个实施例中，可以先基于机器学习模型识别训练文本中的三元组信息，再通过人工对识别出的三元组信息进行修正，得到一个或多个与训练文本对应的训练元组。

本实施例中，通过对训练元组进行划分，可以得到预训练模型进行训练所需的主语训练元组，以及半训练模型进行训练所需的关系宾语训练元组，从而基于主语训练元组训练而得的半训练模型可以从文本中准确地提取出全部主语，基于关系宾语训练元组训练而得的信息抽取模型可以从文本中提取出与主语相对应的关系宾语。

在另一个实施例中，基于训练文本以及所述主语训练元组对预训练模型进行训练，得到半训练模型包括：提取训练文本的第一字符特征；基于第一字符特征预测训练文本中的每个字符属于主语的概率值；根据概率值从训练文本中抽取至少一个主语；按照抽取出的主语与主语训练元组的差异，调整预训练模型并继续训练，直至满足训练停止条件。

具体地，预训练模型对训练文本进行分词处理，并根据每个字符之前的语义关联，得到单个字符的字向量以及位置向量，并基于字向量和位置向量确定对应字符的第一字符特征。预训练模型将提取出的字符特征输入全连接层，由全连接层对字符特征进行归一化，得到每个字符为主语字符的概率。预训练模型从训练文本中筛选出概率值大于预设阈值的字符，并确定筛选出的字符在训练文本中出现位置，基于出现位置将相邻字符判定为一个主语。预训练模型将从训练文本抽取出的主语与对应的标签序列进行对比，基于分类结果与标签序列之间的差异调整自身的模型参数，直至调整后的参数满足预设条件。

本实施例中，基于主语训练元组对对预训练模型进行训练，使得训练得到的半训练模型可以从训练文本中准确提取出全部主语，从而后续信息抽取模型可以基于抽取出的全部主语确定对应的一个或多个三元组信息。

在另一个实施例中，基于训练文本和所述关系宾语训练元组对半训练模型进行训练，得到信息抽取模型包括：基于半训练模型抽取训练文本中的至少一个主语；分别基于抽取出的每个主语重构训练文本，得到至少一个重构文本；提取重构文本的第二字符特征；基于第二字符特征，从训练文本中抽取对应主语的关系以及宾语；按照抽取出的关系、宾语与关系宾语训练元组的差异，调整半训练模型并继续训练，直至满足训练停止条件。

具体地，半训练模型从训练文本文提取出全部的主语，并将提取出的主语与训练文本进行重构，得到重构文本集。半训练模型提取重构文本集中每个字符的第二字符特征，并基于第二字符特征计算对应字符为与关系主语集中的每个关系主语相对应的宾语的起始字符的概率，和与关系主语集中的每个关系主语相对应的宾语的结束字符的概率。信息抽取模型从重构文本中筛选出概率值大于预设阈值的字符，并将概率序列中大于阈值的字符确定为与关系主语相对应的宾语。信息抽取模型将基于概率值确定的宾语与关系宾语训练元组进行对比，根据对比结果对调整模型参数并继续训练，直至调整后的模型参数满足预设条件。

本实施例中，通过关系宾语训练元组对半训练模型进行训练，使得训练后的信息抽取模型能够准确地提取出与主语相对应的宾语。

应该理解的是，虽然图2、5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、5中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种信息抽取装置600，包括：目标文本获取模块602、主语提取模块604和关系及宾语提取模块606，其中：

目标文本获取模块602，用于获取目标文本。

主语提取模块604，用于基于预训练的信息抽取模型提取所述目标文本的第一字符特征；根据所述第一字符特征从所述目标文本中抽取至少一个主语。

关系及宾语提取模块606，用于分别基于抽取出的每个主语重构所述目标文本，得到重构文本集；提取重构文本集中的每个重构文本的第二字符特征；根据所述第二字符特征，从每个重构文本中抽取对应主语的关系以及宾语。

在另一个实施例中，如图7所示，主语提取模块604还包括字符匹配模块6041，用于基于所述第一字符特征确定所述目标文本中每个字符属于主语起始字符的概率值，以及属于主语结束字符的概率值；将基于每个字符属于主语起始字符的概率生成的概率序列中的，符合阈值条件的字符确定为主语起始字符；确定所述每个主语起始字符处于所述目标文本中的位置信息；基于所述主语起始字符的位置信息以及每个字符属于主语结束字符的概率值，确定与所述每个主语起始字符相匹配的主语结束字符；将每对相匹配的主语起始字符与主语结束字符判定为一个主语。

在另一个实施例中，字符匹配模块6041还用于统计获取的所述主语起始字符的数量；当具有两个及两个以上的主语起始字符时，确定相邻两个主语起始字符在所述目标文本中的位置信息；基于所述位置信息，确定所述目标文本中的处于相邻两个主语起始字符之间的字符串；将所述字符串中属于主语结束字符的概率值最大的字符，判定为与相邻两个主语起始字符中的前序主语起始字符相匹配的主语结束字符。

在另一个实施例中，关系及宾语提取模块606还用于将与所述重构文本相对应的主语与所述关系集中的每个关系进行绑定，得到关系主语集；基于所述第二字符特征，计算所述重构文本中每个字符为与所述关系主语集中的每个关系主语相对应的宾语的概率值；将所述概率值符合预设条件的字符确定为与所述关系主语相对应的宾语。

在另一个实施例中，信息抽取装置600还包括模型训练模块608，用于获取训练文本、对应的一个或多个训练元组以及预训练模型；基于所述一个或多个训练元组中各元素出现位置对所述训练元组进行划分，得到主语训练元组及关系宾语训练元组；基于所述训练文本以及所述主语训练元组对所述预训练模型进行训练，得到半训练模型；基于所述训练文本和所述关系宾语训练元组对所述半训练模型进行训练，得到信息抽取模型。

在另一个实施例中，模型训练模块608还用于提取所述训练文本的第一字符特征；基于所述第一字符特征预测训练文本中的每个字符属于主语的概率值；根据所述概率值从所述训练文本中抽取至少一个主语；按照所述抽取出的主语与所述主语训练元组的差异，调整所述预训练模型并继续训练，直至满足训练停止条件。

在另一个实施例中，模型训练模块608还用于基于所述半训练模型抽取所述训练文本中的至少一个主语；分别基于抽取出的每个主语重构所述训练文本，得到至少一个重构文本；提取所述重构文本的第二字符特征；基于所述第二字符特征，从训练文本中抽取对应主语的关系以及宾语；按照所述抽取出的关系、宾语与所述关系宾语训练元组的差异，调整所述半训练模型并继续训练，直至满足训练停止条件。

关于信息抽取装置的具体限定可以参见上文中对于信息抽取方法的限定，在此不再赘述。上述信息抽取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储信息抽取数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种信息抽取方法。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

获取目标文本；

提取所述重构文本的第二字符特征；

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

统计获取的所述主语起始字符的数量；

提取所述训练文本的第一字符特征；

根据所述概率值从所述训练文本中抽取至少一个主语；

基于所述半训练模型抽取所述训练文本中的至少一个主语；

提取所述重构文本的第二字符特征；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取目标文本；

提取所述重构文本的第二字符特征；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

统计获取的所述主语起始字符的数量；

提取所述训练文本的第一字符特征；

根据所述概率值从所述训练文本中抽取至少一个主语；

基于所述半训练模型抽取所述训练文本中的至少一个主语；

提取所述重构文本的第二字符特征；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种信息抽取方法，其特征在于，所述方法包括：

获取目标文本；

提取所述重构文本的第二字符特征；

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一字符特征从所述目标文本中抽取至少一个主语包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述主语起始字符的位置信息以及于每个字符属于主语结束字符的概率值，确定与所述每个主语起始字符相匹配的主语结束字符包括：

统计获取的所述主语起始字符的数量；

4.根据权利要求1所述的方法，其特征在于，所述根据所述第二字符特征，从每个重构文本中抽取对应主语的关系以及宾语包括：

5.根据权利要求1所述的方法，其特征在于，所述信息抽取模型训练步骤包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述训练文本以及所述主语训练元组对所述预训练模型进行训练，得到半训练模型包括：

提取所述训练文本的第一字符特征；

根据所述概率值从所述训练文本中抽取至少一个主语；

7.根据权利要求5所述的方法，其特征在于，所述基于所述训练文本和所述关系宾语训练元组对所述半训练模型进行训练，得到信息抽取模型包括：

基于所述半训练模型抽取所述训练文本中的至少一个主语；

提取所述重构文本的第二字符特征；

8.一种信息抽取装置，其特征在于，所述装置包括：

目标文本获取模块，用于获取目标文本；

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。