CN111160035B

CN111160035B - 文本语料的处理方法和装置

Info

Publication number: CN111160035B
Application number: CN201911419932.9A
Authority: CN
Inventors: 张强; 喻波; 王志海; 魏力; 谢福进
Original assignee: Beijing Wondersoft Technology Co Ltd
Current assignee: Beijing Wondersoft Technology Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2023-06-20
Anticipated expiration: 2039-12-31
Also published as: CN111160035A

Abstract

本发明公开了一种文本语料的处理方法和装置。其中，该方法包括：识别文本语料中的多个实体，以及多个实体关系；基于多个实体和多个实体关系，构建结构化矩阵，其中，结构化矩阵中的每个实体标注了对应的实体标签，每个实体关系标注了对应的关系标签；使用神经网络模型中的反向传播算法来更新神经网络模型的模型参数；使用更新了模型参数的神经网络模型来训练结构化矩阵中的数据，训练得到联合抽取模型，其中，联合抽取模型用于对文本语句进行预测。本发明解决了相关技术中联合抽取方式采用神经网络来建立实体和关系之间的模型，由于预测实体时只能抽取单一实体之间的对应关系，导致无法解决多实体之间的关系抽取的技术问题。

Description

文本语料的处理方法和装置

技术领域

本发明涉及自然语言处理领域，具体而言，涉及一种文本语料的处理方法和装置。

背景技术

如何快速准确地从海量非结构化或半结构化的信息空间中抽取出用户需要的结构化内容，是信息挖掘技术的一个重要研究方向。关系抽取作为自然语言处理(NaturalLanguage Processing，NLP)的一项关键任务，其目的正是获取实体之间的关系。

关系抽取首先需要对文本语料中的实体进行识别，然后基于识别出的实体抽取实体之间的关系。传统的关系抽取采用串行模式处理，先提取实体，再识别实体之间的关系。该方法将整体任务分离成子任务独立运行，但是忽略了两者之间的相关性，实体识别的结果会产生大量的冗余信息，并会导致错误传播。联合抽取方式通过采用单一模型，将实体和关系一次性提取出来，有效地整合了实体和关系的信息，避免关系抽取受到实体识别错误的影响，是目前信息抽取的主要研究方向。现阶段，联合抽取方式大多数是基于特征工程构建结构化系统，通过将实体识别和关系抽取联合建模，直接得到有关系的实体三元组，可有效解决串行模式抽取关系带来的问题。但该方法严重依赖特征工程的设计，多实体间关系错综复杂，导致特征工程结构庞大，同时需要大量的人工抽取特征，进一步增大了误差传播。

为克服上述问题，基于词序信息和依存树结构信息的联合抽取方式，将联合抽取任务转换为标注问题，可有效抽取实体间的关系，通过神经网络建立模型，无需复杂的特征工程设计。但该方法在预测实体时只能抽取单一实体之间一对一的对应关系，无法解决关系重叠的问题。

针对相关技术中联合抽取方式采用神经网络来建立实体和关系之间的模型，由于预测实体时只能抽取单一实体之间的对应关系，导致无法解决多实体之间的关系抽取的技术问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种文本语料的处理方法和装置，以至少解决相关技术中联合抽取方式采用神经网络来建立实体和关系之间的模型，由于预测实体时只能抽取单一实体之间的对应关系，导致无法解决多实体之间的关系抽取的技术问题。

根据本发明实施例的一个方面，提供了一种文本语料的处理方法，包括：识别文本语料中的多个实体，以及多个实体关系；基于多个实体和多个实体关系，构建结构化矩阵，其中，结构化矩阵中的每个实体标注了对应的实体标签，每个实体关系标注了对应的关系标签；使用神经网络模型中的反向传播算法来更新神经网络模型的模型参数；使用更新了模型参数的神经网络模型来训练结构化矩阵中的数据，训练得到联合抽取模型，其中，联合抽取模型用于对文本语句进行预测。

可选地，在基于多个实体和多个实体关系，构建结构化矩阵之前，上述方法还包括：对文本语料进行标注，其中，文本语料的标注包括：每个实体的实体标签，每个实体关系的关系标签；基于文本语料的标注结果，获取包含了文本语料中实体之间的复合关系的结构化数据，其中，复合关系表征实体之间多对多的关系。

可选地，基于多个实体和多个实体关系，构建结构化矩阵，包括：读取结构化数据中包含的多个实体和多个实体关系；遍历文本语料中的句子，将每个句子中字编号，实体，实体标签，实体关系的关系标签，作为列表封装到文本语料的句子中，得到结构化矩阵，其中，结构化矩阵用于确定实体之间的复合关系特征。

可选地，使用更新了模型参数的神经网络模型来训练结构化矩阵中的数据，训练得到联合抽取模型，包括：将结构化矩阵表征的文本语料输入到神经网络模型的输入层；从结构化矩阵中提取特征得到字符向量集，并将字符向量集和加载的字向量进行拼接，得到拼接结果；通过神经网络模型的隐藏层的双向LSTM对拼接结果进行特征提取，得到总双向输出状态和当前时刻的双向输出状态；将总双向状态进行拼接，得到激活函数的输入，并进行关系分类，得到每个实体标签的得分；将得分最高的实体标签进行词嵌入，得到嵌入标签；将总双向输出状态和嵌入标签进行拼接，并通过Bi-LSTM模型和激活函数计算得到实体之间的实体关系和每个实体关系的关系标签的得分；基于关系标签的得分得到联合抽取模型。

可选地，在基于多个实体和多个实体关系，构建结构化矩阵之后，上述方法还包括：采用基于SVD的降维算法，将结构化矩阵进行奇异值分解，使得结构化矩阵压缩至低维空间中。

可选地，在使用更新了模型参数的神经网络模型来训练结构化矩阵中的数据的过程中，上述方法还包括：基于语料的训练条件来判断结构化矩阵的训练状态，并利用滑动平均算法得到联合抽取模型的最优模型，其中，训练条件包括如下至少之一：设定阈值、训练次数、训练目标和训练频率。

可选地，在训练得到联合抽取模型之后，上述方法还包括：使用至少一种评估标准来评估联合抽取模型，得到评估结果，其中，评估标准包括如下至少之一：准确率、精确率和召回率。

根据本发明实施例的另一方面，还提供了一种文本语料的处理装置，包括：识别模块，用于识别文本语料中的多个实体，以及多个实体关系；构建模块，用于基于多个实体和多个实体关系，构建结构化矩阵，其中，结构化矩阵中的每个实体标注了对应的实体标签，每个实体关系标注了对应的关系标签；更新模块，用于使用神经网络模型中的反向传播算法来更新神经网络模型的模型参数；训练模块，用于使用更新了模型参数的神经网络模型来训练结构化矩阵中的数据，训练得到联合抽取模型，其中，联合抽取模型用于对文本语句进行预测。

可选地，上述装置还包括：标注模块，用于对文本语料进行标注，其中，文本语料的标注包括：每个实体的实体标签，每个实体关系的关系标签；获取模块，用于基于文本语料的标注结果，获取包含了文本语料中实体之间的复合关系的结构化数据，其中，复合关系表征实体之间多对多的关系。

可选地，构建模块包括：读取模块，用于读取结构化数据中包含的多个实体和多个实体关系；遍历模块，用于遍历文本语料中的句子，将每个句子中字编号，实体，实体标签，实体关系的关系标签，作为列表封装到文本语料的句子中，得到结构化矩阵，其中，结构化矩阵用于确定实体之间的复合关系特征。

可选地，训练模块包括：输入模块，用于将结构化矩阵表征的文本语料输入到神经网络模型的输入层；提取模块，用于从结构化矩阵中提取特征得到字符向量集；拼接模块，用于将字符向量集和加载的字向量进行拼接，得到拼接结果；特征提取模块，用于通过神经网络模型的隐藏层的双向LSTM对拼接结果进行特征提取，得到总双向输出状态和当前时刻的双向输出状态；分类模块，用于将总双向状态进行拼接，得到激活函数的输入，并进行关系分类，得到每个实体标签的得分；嵌入模块，用于将得分最高的实体标签进行词嵌入，得到嵌入标签；获取模块，用于将总双向输出状态和嵌入标签进行拼接，并通过Bi-LSTM模型和激活函数计算得到实体之间的实体关系和每个实体关系的关系标签的得分；得到模块，用于基于关系标签的得分得到联合抽取模型。

可选地，上述装置还包括：降维模块，用于采用基于SVD的降维算法，将结构化矩阵进行奇异值分解，使得结构化矩阵压缩至低维空间中。

可选地，上述装置还包括：优化模块，用于基于语料的训练条件来判断结构化矩阵的训练状态，并利用滑动平均算法得到联合抽取模型的最优模型，其中，训练条件包括如下至少之一：设定阈值、训练次数、训练目标和训练频率。

可选地，上述装置还包括：评估模块，用于使用至少一种评估标准来评估联合抽取模型，得到评估结果，其中，评估标准包括如下至少之一：准确率、精确率和召回率。

根据本发明实施例的另一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述任意一种文本语料的处理方法。

根据本发明实施例的另一方面，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述任意一种文本语料的处理方法。

在本发明实施例中，识别文本语料中的多个实体，以及多个实体关系；基于多个实体和多个实体关系，构建结构化矩阵，其中，结构化矩阵中的每个实体标注了对应的实体标签，每个实体关系标注了对应的关系标签；使用神经网络模型中的反向传播算法来更新神经网络模型的模型参数；使用更新了模型参数的神经网络模型来训练结构化矩阵中的数据，训练得到联合抽取模型，其中，联合抽取模型用于对文本语句进行预测。与相关技术相比，本申请通过构建结构化矩阵，将实体和实体关系表示为一个张量，通过使用神经网络模型中的反向传播算法来更新神经网络模型的模型参数，解决了相关技术中联合抽取方式采用神经网络来建立实体和关系之间的模型，由于预测实体时只能抽取单一实体之间的对应关系，导致无法解决多实体之间的关系抽取技术问题，达到了有效抽取多实体之间的关系的目的。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例1的一种可选的文本语料的处理方法流程图；

图2是根据本发明实施例1的一种可选的联合抽取编码原理图；

图3是根据本发明实施例1的一种可选的联合抽取模型结构图；

图4是根据本发明实施例1的一种可选的联合抽取模型的完整操作流程图；以及

图5是根据本发明实施例2的一种可选的文本语料的处理装置结构示意图；

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的各实施例及实施例中的特征可以相互组合。为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

另外，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种文本语料的处理方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的文本语料的处理方法，如图1所示，该方法可以包括如下步骤：

步骤S102，识别文本语料中的多个实体，以及多个实体关系。

一种可选方案中，上述文本语料可以为海量的非结构化或半结构化信息；上述实体可以包括人名、地名、机构、时间、数字等；上述实体关系可以包括人物社会关系、物理方位关系、一般隶属关系、整体与部分关系、组织隶属关系、所有物品关系等，通常用动词、介词等表示。

需要说明的是，针对实体识别，可以采用条件随机场(Conditional RandomFields，CRF)中的特征函数进行选择。

所谓条件随机场，是一种判别模型，可以用于预测序列数据，通过使用过去的上下文信息，使模型达到更好的预测效果。

步骤S104，基于多个实体和多个实体关系，构建结构化矩阵，其中，结构化矩阵中的每个实体标注了对应的实体标签，每个实体关系标注了对应的关系标签。

一种可选方案中，上述结构化矩阵可以代表多实体之间的复合关系特征。

步骤S106，使用神经网络模型中的反向传播算法来更新神经网络模型的模型参数。

步骤S108，使用更新了模型参数的神经网络模型来训练结构化矩阵中的数据，训练得到联合抽取模型，其中，联合抽取模型用于对文本语句进行预测。

通过上述步骤S102至S108可以看出，本实施例提出的联合抽取方法采用端到端的实体关系标注策略，通过构建结构化矩阵，实现了实体间的多关系重叠抽取，能够有效抽取信息中包含的实体关系。

基于本申请上述实施例的方法，首先识别文本语料中的多个实体，以及多个实体关系；然后基于多个实体和多个实体关系，构建结构化矩阵，其中，结构化矩阵中的每个实体标注了对应的实体标签，每个实体关系标注了对应的关系标签；再使用神经网络模型中的反向传播算法来更新神经网络模型的模型参数；最后使用更新了模型参数的神经网络模型来训练结构化矩阵中的数据，训练得到联合抽取模型，其中，联合抽取模型用于对文本语句进行预测。与相关技术相比，本申请通过构建结构化矩阵，将实体和实体关系表示为一个张量，通过使用神经网络模型中的反向传播算法来更新神经网络模型的模型参数，解决了相关技术中联合抽取方式采用神经网络来建立实体和关系之间的模型，由于预测实体时只能抽取单一实体之间的对应关系，导致无法解决多实体之间的关系抽取技术问题，达到了有效抽取多实体之间的关系的目的。

下面对本实施例的上述步骤作进一步阐释。

可选地，在步骤S104基于多个实体和多个实体关系，构建结构化矩阵之前，上述方法还可以包括以下步骤：

步骤S1032，对文本语料进行标注，其中，文本语料的标注包括：每个实体的实体标签，每个实体关系的关系标签。

一种可选方案中，可以采用brat标注工具对文本语料进行标注。brat标注工具可以标注实体、事件、关系、属性等。

在一个可选的实施例中，利用brat标注工具对原始的文本语料进行标注，将非结构化数据处理为结构化数据。具体地，首先收集混合语料，整理待标注命名实体类别名单、实体关系类别名单；然后搭建brat语料标注系统，包括系统安装、命名实体类别配置、实体关系类别配置等，以提高语料标注效率；再使用BIO(B-begin，I-inside，O-outside)标记对语料进行命名实体标记，主要包括人名、地名、机构名、时间和数字的五大类实体的标记，以及对实体关系进行标注，主要包括人物社会关系、物理方位关系、一般隶属关系、整体与部分关系、组织隶属关系、所有物品关系六大类实体关系标记；最后针对标注的语料进行矫正。

步骤S1034，基于文本语料的标注结果，获取包含了文本语料中实体之间的复合关系的结构化数据，其中，复合关系表征实体之间多对多的关系。

一种可选方案中，上述结构化数据可以用特征矩阵表示。

在得到标注的文本语料后，就可以根据标注结果，得到模型可计算的结构化数据。

图2示出了一种可选的联合抽取编码的原理图。如图2所示，针对“张晓东去上海参加NMT联盟技术交流会”的语料，首先将每个字符进行编码，通过关系矩阵将实体和关系整合至一个矩阵中，对角线上的元素C_i，j(i＝j)属于实体标签，其余元素C_i，j(i<>j)属于关系类型标签，其中关系类型均由j指向i，实现了使关系具有实体意义的特征表示。

需要说明的是，i、j分别对应关系矩阵的行和列，关系类型具有方向性，由j指向i，表示该关系由第j个实体C_jj指向第i个实体C_ii。可以看出，该标注策略可提取实体之间多对多的关系。

可选地，步骤S104基于多个实体和多个实体关系，构建结构化矩阵，具体可以包括以下步骤：

步骤S1042，读取结构化数据中包含的多个实体和多个实体关系。

一种可选方案中，上述读取可以获得文本语料的全集Char、实体标签的全集BIO、以及关系的全集Relation。

步骤S1044，遍历文本语料中的句子，将每个句子中字编号，实体，实体标签，实体关系的关系标签，作为列表封装到文本语料的句子中，得到结构化矩阵，其中，结构化矩阵用于确定实体之间的复合关系特征。

在一个可选的实施例中，遍历训练数据，将每个句子中的字编号、字符、字符标签、关系标签，作为列表封装到该句子中。再遍历当前句子将样本数据建立唯一标识id，并将句子中的字符按照对应id建立词向量，并将对应的实体关系标签的矩阵列表封装到句子中。其中，矩阵的获得方式如下：

步骤a，基于关系列表Relation获取实体关系的id标识；

步骤b，遍历字符获取对应Relation的列表，建立实体关系向量，单个字符向量长度＝句子长度，向量的每个元素的值是实体关系矩阵中对应字符列标签的编码；

步骤c，将所有编码后的句子做定长处理，使其在一个批量数据内每个句子的维度相等，以最长句子的维度作为最大维度，不足的填充0。

可选地，步骤S108使用更新了模型参数的神经网络模型来训练结构化矩阵中的数据，训练得到联合抽取模型，具体可以包括以下步骤：

步骤S1081，将结构化矩阵表征的文本语料输入到神经网络模型的输入层。

步骤S1082，从结构化矩阵中提取特征得到字符向量集，并将字符向量集和加载的字向量进行拼接，得到拼接结果。

一种可选方案中，上述字符向量集可以通过双向LSTM(Long Short-term Memory)得到；上述加载的字向量可以通过加载模型预训练得到，上述加载的字向量也称词嵌入向量(word embedding)。

步骤S1083，通过神经网络模型的隐藏层的双向LSTM对拼接结果进行特征提取，得到总双向输出状态和当前时刻的双向输出状态。

步骤S1084，将总双向状态进行拼接，得到激活函数的输入，并进行关系分类，得到每个实体标签的得分。

步骤S1085，将得分最高的实体标签进行词嵌入，得到嵌入标签。

上述步骤中，通过BIO标记策略，使用CRF引入标签间的依赖关系，计算每个词得到不同标签的分数，以及计算句子的标签序列概率，通过最小化交叉熵损失函数得到命名实体的损失函数，最后使用CRF中的维特比(viterbi)算法得到分数最高的标签。

步骤S1086，将总双向输出状态和嵌入标签进行拼接，并通过Bi-LSTM模型和激活函数计算得到实体之间的实体关系和每个实体关系的关系标签的得分。

图3示出了一种可选的联合抽取模型结构图。如图3所示，将结构化矩阵表征的文本语料输入到神经网络模型的输入层；在词嵌入向量层，初始化权重参数，词嵌入，通过Bi-LSTM提取特征得到字符向量集，加载模型预训练的字向量，得到词嵌入向量，将词嵌入向量和字符向量集拼接，作为模型的输入(inputs)；在Bi-LSTM层，通过隐藏层的双向LSTM对输入的inputs进行特征提取得到总的双向输出状态和当前时刻的双向输出状态，然后将总输出的双向状态进行拼接后作为激活函数rule的输入，进行关系分类，得到命名实体标签得分；在CRF层，通过BIO标记策略，使用CRF引入标签间的依赖关系，计算每个词得到不同标签的分数，以及计算句子的标签序列概率，通过最小化交叉熵损失函数得到命名实体的损失函数，最后使用CRF中的维特比(viterbi)算法得到分数最高的标签。在关系标签嵌入层(Relations Label Embedding)，对标签进行词嵌入得到嵌入标签(label Embedding)，将总双向输出状态和嵌入标签拼接得到关系模型的输入，作为实体关系预测的输入。在激活层，通过Bi-LSTM模型和激活函数计算每个词最有可能对应的关系(即为样本中的关系列表)和标签得到关系标签的得分。在头关系(Header Relations)层，对得到的关系标签得分与数据预处理中得到的关系标签矩阵做sigmod交叉熵，得到损失关系部分的损失函数，对关系标签得分做sigmod预测实体关系得到关系标签。

其中，针对联合抽取中的实体识别，采用条件随机场中的特征函数进行选择。特征函数主要接收四个参数，分别是s-待标注词性的句子，i-用来表示句子s中第i个单词，l_i-表示要评分的标注序列给第i个单词标注的词性，l_i-1-表示要评分的标注序列给第i-1个单词标注的词性。它的输出值是0或者1，0表示要评分的标注序列不符合这个特征，1表示要评分的标注序列符合这个特征。定义好一组特征函数后，需要给每个特征函数f_j赋予一个权重λ_j。只要有一个句子s，有一个标注序列l，就可以利用前面定义的特征函数集来对l评分，得到分数score如下。

上式中有两个求和，外层求取每一个特征函数f_j评分值的和，内层用来求句子中每个位置单词的特征值。

对这个分数进行指数化和标准化，就可以得到标注序列l的概率值P(1|s)：

在关系抽取问题中，Bi-LSTM编码层捕获每个单词的语义信息的有效性。它包含了前向LSTM层，向后LSTM层和连接层。词嵌入层将具有独热(one-hot)表示的单词转换为嵌入向量。因此，一个词序列可以表示为W＝{w₁，...w_t，w_t+1，...w_n}，其中n是给定句子的长度。字嵌入层后，有两个平行的LSTM层：前向LSTM层和后向LSTM层。LSTM体系结构由一组循环连接的子网组成，称为内存块。每个时间步长是一个LSTM内存块。Bi-LSTM编码层中的LSTM存储块用于基于先前的隐藏向量h_t-1，先前的小区向量C_t-1和当前输入字嵌入W_t来计算当前隐藏向量h_t。Bi-LSTM单元块遗忘门、输入门，输出门的计算公式如下：

i_t＝δ(W_wiw_t+W_hih_t-1+W_cic_t-1+b_i)，

f_t＝δ(W_wfw_t+W_hfh_t-1+W_cfc_t-1+b_f)，

z_t＝tanh(W_wcw_t+W_hch_t-1+b_c)，

c_t＝f_tc_t-1+i_tz_t，

o_t＝6(W_wow_t+W_hoh_t-1+W_coc_t+b_o)，

h_t＝o_ttanh(c_t)，

其中i，f和o分别是输入门、遗忘门和输出门，b是偏置项，c是单元存储器，W(.)是参数。对于每个单词W_t，前向LSTM层将通过考虑从W₁到W₀的上下文信息来编码W_t，其被标记为h_t1，以类似的方式，后向LSTM层将基于从W_n到W_t的上下文信息来编码W_t，其被标记为h_t2，最后将两者相连得到总标记为H_t＝[h_t1，h_t2]。

最后通过softmax计算基于标签预测向量T_t计算归一化的实体标签概率：

y_t＝W_tT_t+b_y，

其中W_t是softmax矩阵，N_t是标签数量。b_y为偏置量，关系预测结果经过softmax层归一化之后得到关系标签。

步骤S1087，基于关系标签的得分得到联合抽取模型。

可选地，在步骤S104基于多个实体和多个实体关系，构建结构化矩阵之后，上述方法还可以包括：

步骤S105，采用基于SVD的降维算法，将结构化矩阵进行奇异值分解，使得结构化矩阵压缩至低维空间中。

由于非实体、关系的字符为O，造成结构化矩阵中包含过多的相同元素，导致该矩阵稀疏化。为避免输入张量的结构稀疏化，本实施例采用奇异值分解(SingularValueDecomposition，SVD)对数据进行降维，将原始结构化矩阵进行奇异值分解，C＝U∑V^T，其中，C为原始矩阵，U为左奇异矩阵，V为右奇异矩阵，∑为对角矩阵，对角元素为奇异值。通过压缩至低维空间中，实现特征张量的压缩，降低了模型受噪声的干扰程度，同时降低了计算时间和空间复杂度，提高了模型的鲁棒性。

可选地，在步骤S108使用更新了模型参数的神经网络模型来训练结构化矩阵中的数据的过程中，上述方法还可以包括：

步骤S1088，基于语料的训练条件来判断结构化矩阵的训练状态，并利用滑动平均算法得到联合抽取模型的最优模型，其中，训练条件包括如下至少之一：设定阈值、训练次数、训练目标和训练频率。

在一个可选的实施例中，采用如下方式训练与优化模型：

参数正则化：对模型中的权重和偏置值进行正则化，利用L2范数进行正则化，正则项乘以该项权重系数，得到正则损失。其中，

损失函数：将正则损失和关系与实体交叉熵损失相加得到总损失函数作为优化目标进行优化；

优化：使用梯度下降算法对上一步中的总损失函数进行优化；

更新：通过反向传播更新初始化的权重参数，使前向传播损失值减小；

保存模型：当损失值满足设定阈值或训练轮数达到设置值时保存模型。

可选地，在步骤S108训练得到联合抽取模型之后，上述方法还可以包括：

步骤S109，使用至少一种评估标准来评估联合抽取模型，得到评估结果，其中，评估标准包括如下至少之一：准确率、精确率和召回率。

对于联合抽取模型的评估，可以采用标准的准确率(Accuracy)、精确率(Precision)和召回率(Recall)以及F1值对保存的模型进行评估，其中，

当语料中的两个实体，以及两者之间的关系抽取均正确才可记为正确。利用总样本数据的10％作为评估数据集，且进行多次实验，取多次评估结果的平均值和标准差，对模型进行综合评估。

图4示出了一种可选的联合抽取模型的完整操作流程图。如图4所示，对原始文本语料进行标注，得到结构化数据；对结构化数据进行预处理，得到结构化矩阵；对结构化矩阵进行SVD降维处理；搭建神经网络模型，使用前向传播算法获得预测值，使用神经网络模型中的反向传播算法来更新该神经网络模型的模型参数；使用更新了模型参数的神经网络模型来训练结构化矩阵中的数据，得到联合抽取模型；训练该联合抽取模型，并判断是否达到训练目标；如果达到训练目标，得到训练好的联合抽取模型；如果没有达到训练目标，判断是否达到训练次数；在没有达到训练次数的情况下，再次进入前向传播算法获得预测值的步骤。

上述实施例中，首先识别文本语料中的多个实体，以及多个实体关系；然后基于多个实体和多个实体关系，构建结构化矩阵，其中，结构化矩阵中的每个实体标注了对应的实体标签，每个实体关系标注了对应的关系标签；再使用神经网络模型中的反向传播算法来更新神经网络模型的模型参数；最后使用更新了模型参数的神经网络模型来训练结构化矩阵中的数据，训练得到联合抽取模型，其中，联合抽取模型用于对文本语句进行预测。与相关技术相比，本申请通过构建结构化矩阵，将实体和实体关系表示为一个张量，通过使用神经网络模型中的反向传播算法来更新神经网络模型的模型参数，解决了相关技术中联合抽取方式采用神经网络来建立实体和关系之间的模型，由于预测实体时只能抽取单一实体之间的对应关系，导致无法解决多实体之间的关系抽取技术问题，达到了有效抽取多实体之间的关系的目的。容易注意到，本申请上述实施例将信息抽取问题转化为一个序列标注问题，对实体及关系采用端到端标注模式，并将词向量嵌入作为关系选择的输入，获取关系矩阵，可直接抽取命名实体和关系；通过采用联合编码策略，建立十字编码表，将实体和关系表示为一个张量，可实现多个实体之间的关系抽取；同时采用SVD降维，解决了非实体关系中存在过多的信息冗余，导致矩阵稀疏化的问题，降低了模型的运行时间和空间。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

根据本发明实施例，提供了一种文本语料的处理装置，需要说明的是，本申请实施例的一种文本语料的处理装置可以用于执行本申请实施例1所提供的文本语料的处理方法。以下对本发明实施例提供的一种文本语料的处理装置进行介绍。

图5是根据本申请实施例的文本语料的处理装置结构示意图。如图5所示，该装置500包括识别模块502、构建模块504、更新模块506和训练模块508。

其中，识别模块502，用于识别文本语料中的多个实体，以及多个实体关系；构建模块504，用于基于多个实体和多个实体关系，构建结构化矩阵，其中，结构化矩阵中的每个实体标注了对应的实体标签，每个实体关系标注了对应的关系标签；更新模块506，用于使用神经网络模型中的反向传播算法来更新神经网络模型的模型参数；训练模块508，用于使用更新了模型参数的神经网络模型来训练结构化矩阵中的数据，训练得到联合抽取模型，其中，联合抽取模型用于对文本语句进行预测。

需要说明的是，上述识别模块502、构建模块504、更新模块506和训练模块508对应于实施例1中的步骤S102至步骤S108，该四个模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。

实施例3

根据本发明实施例，提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行实施例1的文本语料的处理方法。

实施例4

根据本发明实施例，提供了一种处理器，处理器用于运行程序，其中，程序运行时执行如下步骤：识别文本语料中的多个实体，以及多个实体关系；基于多个实体和多个实体关系，构建结构化矩阵，其中，结构化矩阵中的每个实体标注了对应的实体标签，每个实体关系标注了对应的关系标签；使用神经网络模型中的反向传播算法来更新神经网络模型的模型参数；使用更新了模型参数的神经网络模型来训练结构化矩阵中的数据，训练得到联合抽取模型，其中，联合抽取模型用于对文本语句进行预测。

进一步地，程序运行时还可以执行实施例1中的其它步骤，此处不再赘述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种文本语料的处理方法，其特征在于，包括：

识别文本语料中的多个实体，以及多个实体关系；

基于所述多个实体和所述多个实体关系，构建结构化矩阵，其中，所述结构化矩阵中的每个实体标注了对应的实体标签，每个实体关系标注了对应的关系标签；

使用神经网络模型中的反向传播算法来更新所述神经网络模型的模型参数；

使用更新了模型参数的神经网络模型来训练所述结构化矩阵中的数据，训练得到联合抽取模型，其中，所述联合抽取模型用于对文本语句进行预测；

其中，基于所述多个实体和所述多个实体关系，构建结构化矩阵，包括：读取结构化数据中包含的所述多个实体和所述多个实体关系；遍历所述文本语料中的句子，将每个句子中字编号，实体，实体标签，实体关系的关系标签，作为列表封装到所述文本语料的句子中，得到所述结构化矩阵，其中，所述结构化矩阵用于确定所述实体之间的复合关系特征。

2.根据权利要求1所述的方法，其特征在于，在基于所述多个实体和所述多个实体关系，构建结构化矩阵之前，所述方法还包括：

对所述文本语料进行标注，其中，所述文本语料的标注包括：每个实体的实体标签，每个实体关系的关系标签；

基于所述文本语料的标注结果，获取包含了所述文本语料中实体之间的复合关系的结构化数据，其中，所述复合关系表征所述实体之间多对多的关系。

3.根据权利要求1所述的方法，其特征在于，使用更新了模型参数的神经网络模型来训练所述结构化矩阵中的数据，训练得到联合抽取模型，包括：

将所述结构化矩阵表征的所述文本语料输入到所述神经网络模型的输入层；

从所述结构化矩阵中提取特征得到字符向量集，并将所述字符向量集和加载的字向量进行拼接，得到拼接结果；

通过所述神经网络模型的隐藏层的双向LSTM对所述拼接结果进行特征提取，得到总双向输出状态和当前时刻的双向输出状态；

将所述总双向输出状态进行拼接，得到激活函数的输入，并进行关系分类，得到每个实体标签的得分；

将得分最高的实体标签进行词嵌入，得到嵌入标签；

将所述总双向输出状态和所述嵌入标签进行拼接，并通过Bi-LSTM模型和激活函数计算得到实体之间的实体关系和每个实体关系的关系标签的得分；

基于所述关系标签的得分得到所述联合抽取模型。

4.根据权利要求1至3中任意一项所述的方法，其特征在于，在基于所述多个实体和所述多个实体关系，构建结构化矩阵之后，所述方法还包括：

采用基于SVD的降维算法，将所述结构化矩阵进行奇异值分解，使得所述结构化矩阵压缩至低维空间中。

5.根据权利要求1所述的方法，其特征在于，在使用更新了模型参数的神经网络模型来训练所述结构化矩阵中的数据的过程中，所述方法还包括：

基于语料的训练条件来判断所述结构化矩阵的训练状态，并利用滑动平均算法得到所述联合抽取模型的最优模型，其中，所述训练条件包括如下至少之一：设定阈值、训练次数、训练目标和训练频率。

6.根据权利要求1所述的方法，其特征在于，在训练得到联合抽取模型之后，所述方法还包括：

使用至少一种评估标准来评估所述联合抽取模型，得到评估结果，其中，所述评估标准包括如下至少之一：准确率、精确率和召回率。

7.一种文本语料的处理装置，其特征在于，包括：

识别模块，用于识别文本语料中的多个实体，以及多个实体关系；

构建模块，用于基于所述多个实体和所述多个实体关系，构建结构化矩阵，其中，所述结构化矩阵中的每个实体标注了对应的实体标签，每个实体关系标注了对应的关系标签；

更新模块，用于使用神经网络模型中的反向传播算法来更新所述神经网络模型的模型参数；

训练模块，用于使用更新了模型参数的神经网络模型来训练所述结构化矩阵中的数据，训练得到联合抽取模型，其中，所述联合抽取模型用于对文本语句进行预测；

其中，所述构建模块包括：读取模块，用于读取结构化数据中包含的所述多个实体和所述多个实体关系；遍历模块，用于遍历所述文本语料中的句子，将每个句子中字编号，实体，实体标签，实体关系的关系标签，作为列表封装到所述文本语料的句子中，得到所述结构化矩阵，其中，所述结构化矩阵用于确定所述实体之间的复合关系特征。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

标注模块，用于对所述文本语料进行标注，其中，所述文本语料的标注包括：每个实体的实体标签，每个实体关系的关系标签；

获取模块，用于基于所述文本语料的标注结果，获取包含了所述文本语料中实体之间的复合关系的结构化数据，其中，所述复合关系表征所述实体之间多对多的关系。

9.根据权利要求7所述的装置，其特征在于，所述训练模块包括：

输入模块，用于将所述结构化矩阵表征的所述文本语料输入到所述神经网络模型的输入层；

提取模块，用于从所述结构化矩阵中提取特征得到字符向量集；

拼接模块，用于将所述字符向量集和加载的字向量进行拼接，得到拼接结果；

特征提取模块，用于通过所述神经网络模型的隐藏层的双向LSTM对所述拼接结果进行特征提取，得到总双向输出状态和当前时刻的双向输出状态；

分类模块，用于将所述总双向输出状态进行拼接，得到激活函数的输入，并进行关系分类，得到每个实体标签的得分；

嵌入模块，用于将得分最高的实体标签进行词嵌入，得到嵌入标签；

获取模块，用于将所述总双向输出状态和所述嵌入标签进行拼接，并通过Bi-LSTM模型和激活函数计算得到实体之间的实体关系和每个实体关系的关系标签的得分；

得到模块，用于基于所述关系标签的得分得到所述联合抽取模型。

10.根据权利要求7至9中任意一项所述的装置，其特征在于，所述装置还包括：

降维模块，用于采用基于SVD的降维算法，将所述结构化矩阵进行奇异值分解，使得所述结构化矩阵压缩至低维空间中。

11.根据权利要求7所述的装置，其特征在于，所述装置还包括：

优化模块，用于基于语料的训练条件来判断所述结构化矩阵的训练状态，并利用滑动平均算法得到所述联合抽取模型的最优模型，其中，所述训练条件包括如下至少之一：设定阈值、训练次数、训练目标和训练频率。

12.根据权利要求7所述的装置，其特征在于，所述装置还包括：

评估模块，用于使用至少一种评估标准来评估所述联合抽取模型，得到评估结果，其中，所述评估标准包括如下至少之一：准确率、精确率和召回率。

13.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至6中任意一项所述文本语料的处理方法。

14.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至6中任意一项所述文本语料的处理方法。