CN111552810B

CN111552810B - 实体抽取与分类方法、装置、计算机设备和存储介质

Info

Publication number: CN111552810B
Application number: CN202010333489.XA
Authority: CN
Inventors: 周阳
Original assignee: Shenzhen Shuliantianxia Intelligent Technology Co Ltd
Current assignee: Shenzhen Shuliantianxia Intelligent Technology Co Ltd
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2024-03-19
Anticipated expiration: 2040-04-24
Also published as: CN111552810A

Abstract

本发明实施例公开了一种实体抽取与分类方法、装置、计算机设备和存储介质，包括：首先根据预设的情感标注矩阵，对所述待识别文本中每个字对应的编码特征进行情感标注，得到所述待识别文本中每个字对应的情感标注结果，所述情感标注结果反映情感倾向和情感等级；然后根据所述待识别文本中每个字对应的情感标注结果和所述待识别文本中每个字对应的编码特征，确定所述待识别文本中的实体的编码特征；最后根据预设的分类网络对所述待识别文本中的实体的编码特征进行分类，得到所述待识别文本中的实体的实体分类结果。通过本发明能够提高实体抽取与实体分类的准确率。

Description

实体抽取与分类方法、装置、计算机设备和存储介质

技术领域

本发明涉及信息抽取技术领域，尤其涉及一种实体抽取与分类方法、装置、计算机设备和存储介质。

背景技术

实体抽取是指从文本中抽取出实体，现有的实体抽取方法主要是通过训练实体抽取模型，然后将文本输入训练好的实体抽取模型，得到实体抽取模型输出的实体。一般的，实体抽取模型有机器学习模型、深度学习模型。

实体分类，是指对在得到实体之后，对实体进行类别划分。例如，将实体“周杰伦”划分为歌手类，将实体“科比”划分为篮球明星类。实体分类也可以通过训练实体分类模型，然后将实体或者文本输入训练好的实体分类模型，得到实体分类模型输出的实体的分类结果。一般的，实体分类模型有深度学习模型。

上述实体抽取模型或者实体分类模型，通用性较强，可以识别出较多的实体和区分实体的类别，但是，上述实体抽取模型或者实体分类模型的模型准确率并不高。

发明内容

基于此，有必要针对上述问题，提出一种实体抽取与分类方法、装置、计算机设备和存储介质，以提高实体抽取和实体分类的准确率。

第一方面，提供了一种实体抽取与分类方法，所述方法包括：获取待识别文本；基于预设的字表矩阵，对所述待识别文本进行处理，得到所述待识别文本对应的文本向量；根据预设的编码网络，对所述待识别文本对应的文本向量进行编码，得到所述待识别文本中每个字对应的编码特征；根据预设的情感标注矩阵，对所述待识别文本中每个字对应的编码特征进行情感标注，得到所述待识别文本中每个字对应的情感标注结果，所述情感标注结果反映情感倾向和情感等级；根据所述待识别文本中每个字对应的情感标注结果和所述待识别文本中每个字对应的编码特征，确定所述待识别文本中的实体的编码特征；根据预设的分类网络对所述待识别文本中的实体的编码特征进行分类，得到所述待识别文本中的实体的实体分类结果。

在一个实施例中，所述基于预设的字表矩阵，对所述待识别文本进行处理，得到所述待识别文本对应的文本向量，包括：对所述待识别文本进行字分割，得到所述待识别文本中的每个字；根据所述待识别文本中每个字对应的字标识，从所述预设的字表矩阵中获取到所述待识别文本中每个字对应的字向量；根据每个字在所述待识别文本中的位置，将所述待识别文本中每个字对应的字向量进行组合，得到所述待识别文本对应的文本向量。

在一个实施例中，所述编码网络包括N组第一参数矩阵、N组第二参数矩阵以及N组第三参数矩阵，所述第一参数矩阵、所述第二参数矩阵和所述第三参数矩阵分别用于对所述待识别文本的文本向量进行初步编码，N为正整数；所述根据预设的编码网络，对所述待识别文本对应的文本向量进行编码，得到所述待识别文本中每个字对应的编码特征，包括：将所述待识别文本对应的文本向量分别与N组第一参数矩阵、N组第二参数矩阵以及N组第三参数矩阵相乘，得到N组第一初步编码矩阵、N组第二初步编码矩阵以及N组第三初步编码矩阵；根据第i组第一初步编码矩阵、第i组第二初步编码矩阵以及第i组第三初步编码矩阵，得到第i组特征矩阵，1≤i≤N；对N组特征矩阵进行融合，得到融合矩阵；根据所述融合矩阵，得到所述待识别文本对应的编码矩阵；根据所述待识别文本对应的编码矩阵，确定所述待识别文本中每个字对应的编码特征。

在一个实施例中，所述根据第i组第一初步编码矩阵、第i组第二初步编码矩阵以及第i组第三初步编码矩阵，得到第i组特征矩阵，包括：将所述第i组第一初步编码矩阵进行转置，得到所述第i组转置矩阵；计算所述第i组第一初步编码矩阵的维度的平方根，得到第i组平方根；将所述第i组第二初步编码矩阵与所述第i组转置矩阵相乘，得到第i组乘矩阵；对所述第i组乘矩阵与所述平方根之商进行归一化，得到第i组归一化矩阵；将所述第i组归一化矩阵与所述第i组第三初步编码矩阵相乘，得到第i组特征矩阵。

在一个实施例中，所述根据所述待识别文本对应的编码矩阵，确定所述待识别文本中每个字对应的编码特征，包括：从所述待识别文本对应的编码矩阵中，抽取所述待识别文本中的每个字对应的向量，得到待识别文本中每个字对应的编码特征。

在一个实施例中，所述情感标注结果包括实体情感标注结果或非实体情感标注结果；所述根据所述待识别文本中每个字对应的情感标注结果和所述待识别文本中每个字对应的编码特征，确定所述待识别文本中的实体的编码特征，包括：根据所述待识别文本中每个字对应的情感标注结果，确定所述情感标注结果为所述实体情感标注结果的目标字；根据所述目标字对应的编码特征，确定所述待识别文本中的实体的编码特征。

在一个实施例中，在所述获取待识别文本之前，还包括：获取训练文本、所述训练文本中每个字对应的目标情感标注结果和所述训练文本中的实体对应的目标实体分类结果；基于所述字表矩阵，对所述训练文本进行处理，得到所述训练文本对应的文本向量；根据所述编码网络，对所述训练文本对应的文本向量进行编码，得到所述训练文本中每个字对应的编码特征；根据所述情感标注矩阵，对所述训练文本中每个字对应的编码特征进行情感标注，得到所述训练文本中每个字对应的初步情感标注结果；根据所述训练文本中每个字对应的初步情感标注结果和所述训练文本中每个字对应的编码特征确定所述训练文本中的实体的编码特征；根据所述分类网络，对所述训练文本中的实体的编码特征进行分类，得到所述训练文本中的实体的初步实体分类结果；根据所述训练文本中每个字对应的初步情感标注结果和所述训练文本中每个字对应的目标情感标注结果，计算第一损失；根据所述训练文本中的实体的初步实体分类结果和所述训练文本中的实体对应的目标实体分类结果，计算第二损失；根据所述第一损失和所述第二损失之和，对所述编码网络、所述情感标注矩阵以及所述分类网络中的参数进行训练，以使所述训练文本中每个字对应的初步情感标注结果逼近于所述训练文本中每个字对应的目标情感标注结果，同时，所述训练文本中每个字对应的初步实体分类结果逼近于所述训练文本中每个字对应的目标实体分类结果。

第二方面，提供了一种实体抽取与分类装置，包括：文本获取模块，用于获取待识别文本；向量生成模块，用于基于预设的字表矩阵，对所述待识别文本进行处理，得到所述待识别文本对应的文本向量；文字编码模块，用于根据预设的编码网络，对所述待识别文本对应的文本向量进行编码，得到所述待识别文本中每个字对应的编码特征；情感标注模块，用于根据预设的情感标注矩阵，对所述待识别文本中每个字对应的编码特征进行情感标注，得到所述待识别文本中每个字对应的情感标注结果，所述情感标注结果反映情感倾向和情感等级；实体编码模块，用于根据所述待识别文本中每个字对应的情感标注结果和所述待识别文本中每个字对应的编码特征，确定所述待识别文本中的实体的编码特征；实体分类模块，用于根据预设的分类网络对所述待识别文本中的实体的编码特征进行分类，得到所述待识别文本中的实体的实体分类结果。

在一个实施例中，所述向量生成模块，具体用于：对所述待识别文本进行字分割，得到所述待识别文本中的每个字；根据所述待识别文本中每个字对应的字标识，从所述预设的字表矩阵中获取到所述待识别文本中每个字对应的字向量；根据每个字在所述待识别文本中的位置，将所述待识别文本中每个字对应的字向量进行组合，得到所述待识别文本对应的文本向量。

在一个实施例中，所述编码网络包括N组第一参数矩阵、N组第二参数矩阵以及N组第三参数矩阵，所述第一参数矩阵、所述第二参数矩阵和所述第三参数矩阵分别用于对所述待识别文本的文本向量进行初步编码，N为正整数；所述文字编码模块，具体用于：将所述待识别文本对应的文本向量分别与N组第一参数矩阵、N组第二参数矩阵以及N组第三参数矩阵相乘，得到N组第一初步编码矩阵、N组第二初步编码矩阵以及N组第三初步编码矩阵；根据第i组第一初步编码矩阵、第i组第二初步编码矩阵以及第i组第三初步编码矩阵，得到第i组特征矩阵，1≤i≤N；对N组特征矩阵进行融合，得到融合矩阵；根据所述融合矩阵，得到所述待识别文本对应的编码矩阵；根据所述待识别文本对应的编码矩阵，确定所述待识别文本中每个字对应的编码特征。

在一个实施例中，所述文字编码模块，具体用于：将所述第i组第一初步编码矩阵进行转置，得到所述第i组转置矩阵；计算所述第i组第一初步编码矩阵的维度的平方根，得到第i组平方根；将所述第i组第二初步编码矩阵与所述第i组转置矩阵相乘，得到第i组乘矩阵；对所述第i组乘矩阵与所述平方根之商进行归一化，得到第i组归一化矩阵；将所述第i组归一化矩阵与所述第i组第三初步编码矩阵相乘，得到第i组特征矩阵。

在一个实施例中，所述文字编码模块，具体用于：从所述待识别文本对应的编码矩阵中，抽取所述待识别文本中的每个字对应的向量，得到待识别文本中每个字对应的编码特征。

在一个实施例中，所述情感标注结果包括实体情感标注结果或非实体情感标注结果；所述实体编码模块，具体用于：根据所述待识别文本中每个字对应的情感标注结果，确定所述情感标注结果为所述实体情感标注结果的目标字；根据所述目标字对应的编码特征，确定所述待识别文本中的实体的编码特征。

在一个实施例中，所述装置，还包括：训练模块，用于获取训练文本、所述训练文本中每个字对应的目标情感标注结果和所述训练文本中的实体对应的目标实体分类结果；基于所述字表矩阵，对所述训练文本进行处理，得到所述训练文本对应的文本向量；根据所述编码网络，对所述训练文本对应的文本向量进行编码，得到所述训练文本中每个字对应的编码特征；根据所述情感标注矩阵，对所述训练文本中每个字对应的编码特征进行情感标注，得到所述训练文本中每个字对应的初步情感标注结果；根据所述训练文本中每个字对应的初步情感标注结果和所述训练文本中每个字对应的编码特征确定所述训练文本中的实体的编码特征；根据所述分类网络，对所述训练文本中的实体的编码特征进行分类，得到所述训练文本中的实体的初步实体分类结果；根据所述训练文本中每个字对应的初步情感标注结果和所述训练文本中每个字对应的目标情感标注结果，计算第一损失；根据所述训练文本中的实体的初步实体分类结果和所述训练文本中的实体对应的目标实体分类结果，计算第二损失；根据所述第一损失和所述第二损失之和，对所述编码网络、所述情感标注矩阵以及所述分类网络中的参数进行训练，以使所述训练文本中每个字对应的初步情感标注结果逼近于所述训练文本中每个字对应的目标情感标注结果，同时，所述训练文本中每个字对应的初步实体分类结果逼近于所述训练文本中每个字对应的目标实体分类结果。

第三方面，提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

获取待识别文本；

基于预设的字表矩阵，对所述待识别文本进行处理，得到所述待识别文本对应的文本向量；

根据预设的编码网络，对所述待识别文本对应的文本向量进行编码，得到所述待识别文本中每个字对应的编码特征；

根据预设的情感标注矩阵，对所述待识别文本中每个字对应的编码特征进行情感标注，得到所述待识别文本中每个字对应的情感标注结果，所述情感标注结果反映情感倾向和情感等级；

根据所述待识别文本中每个字对应的情感标注结果和所述待识别文本中每个字对应的编码特征，确定所述待识别文本中的实体的编码特征；

根据预设的分类网络对所述待识别文本中的实体的编码特征进行分类，得到所述待识别文本中的实体的实体分类结果。

第四方面，提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：

获取待识别文本；

实施本发明实施例，将具有如下有益效果：

本发明提出了一种实体抽取与分类方法、装置、计算机设备和存储介质，首先根据预设的情感标注矩阵，对所述待识别文本中每个字对应的编码特征进行情感标注，得到所述待识别文本中每个字对应的情感标注结果，所述情感标注结果反映情感倾向和情感等级；然后根据所述待识别文本中每个字对应的情感标注结果和所述待识别文本中每个字对应的编码特征，确定所述待识别文本中的实体的编码特征；最后根据预设的分类网络对所述待识别文本中的实体的编码特征进行分类，得到所述待识别文本中的实体的实体分类结果。可见，本发明在进行实体抽取的时候，考虑到了文本中每个字的情感标注结果，即考虑到了情感倾向与情感等级，减少了实体抽取的误差，提高了实体抽取的准确率；进一步的，在抽取出实体之后，再对抽取出的实体进行分类，由于实体抽取的准确率提高，相应的，也使得实体分类的准确率提高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为一个实施例中实体抽取与分类方法的实现流程示意图；

图2为一个实施例中步骤104的实现流程示意图；

图3为一个实施例中步骤106的实现流程示意图；

图4为一个实施例中步骤106B的实现流程示意图；

图5为一个实施例中将N组特征矩阵进行融合得到融合矩阵的示意图；

图6为一个实施例中对编码网络、情感标注矩阵以及分类网络中的参数进行训练的示意图；

图7为一个实施例中实体抽取与分类装置的结构框图；

图8为一个实施例中计算机设备的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在一个实施例中，提供了一种实体抽取与分类方法，本发明实施例所述的实体抽取与分类方法的执行主体为能够实现本发明实施例所述的实体抽取与分类方法的设备，该设备可以包括但不限于终端和服务器。其中，终端包括台式终端和移动终端，台式终端包括但不限于台式电脑和车载电脑；移动终端包括但不限于手机、平板、笔记本电脑和智能手表。服务器包括高性能计算机和高性能计算机集群。

如图1所示，本发明实施例所述的实体抽取与分类方法，具体包括：

步骤102，获取待识别文本。

其中，待识别文本，为需要进行实体抽取与实体分类的文本。

步骤104，基于预设的字表矩阵，对所述待识别文本进行处理，得到所述待识别文本对应的文本向量。

其中，预设的字表矩阵，为预先设置的字表矩阵，字表矩阵中记录了不同的字对应的字向量，在机器领域，用字向量来表示一个字，以便机器识别不同的字。

其中，待识别文本对应的文本向量，实质是根据多个字对应的字向量组成的矩阵。

可以预先构建一个大的字表矩阵，该字表矩阵记录各个领域的字对应的字向量，以便于根据该大的字表矩阵，实现对各个领域的字的字向量的查询；也可以为不同的领域构建不同的字表矩阵，该构建的字表矩阵只用于记录该领域的字对应的字向量，以便根据不同领域的字表矩阵查询不同领域的字的字向量，提高字向量的查询效率。

由于字表矩阵中记录了不同的字对应的字向量，因此，当待识别文本确定的时候，待识别文本中的每个字就已经确定，此时，便可以通过字表矩阵查询到待识别文本中每个字对应的字向量，进而生成待识别文本对应的文本向量。

步骤106，根据预设的编码网络，对所述待识别文本对应的文本向量进行编码，得到所述待识别文本中每个字对应的编码特征。

其中，编码网络，指能够对文本向量进行编码并得到文本中每个字对应的编码特征的网络。预先设置好编码网络，即预先设置好编码网络中的网络参数，从而，在需要确定待识别文本中的字的编码特征时，便可以根据该预先设置好的编码网络对待识别文本对应的文本向量进行处理，得到字的编码特征。

其中，字对应的编码特征，用于通过编码的方式来表达字的特征。字不同，字对应的编码特征也将不同，编码特征表达了字与字之间的差异，因此，根据编码特征，还能实现对字的识别、对字的分类等。

步骤108，根据预设的情感标注矩阵，对所述待识别文本中每个字对应的编码特征进行情感标注，得到所述待识别文本中每个字对应的情感标注结果，所述情感标注结果反映情感倾向和情感等级。

其中，情感标注矩阵，为一个矩阵，该矩阵能够对字的编码特征进行处理，从而得到该字的情感标注结果。在本发明实施例中，将情感标注矩阵与字对应的编码特征相乘，然后对相乘后得到的结果进行归一化处理，例如，使用softmax函数进行归一化处理，即可得到该字的情感标注结果。需要说明的是，情感标注矩阵的行数等于字的编码特征的维度，例如，字的编码特征的维度为n，即字的编码特征为1×n的向量，则情感标注矩阵的行数为n；情感标注矩阵的列数等于情感标注结果对应的标签的数量，例如，情感标注结果对应的标签有O、B_-1、B_0、B_+1、I_-1、I_0以及I_+1，即标签的数量为7，于是，情感标注矩阵的列数为7。

其中，情感标注结果，指对字对应的情感的标注结果，情感标注结果反映了情感倾向和情感等级。情感标注结果可以用概率分布的形式进行表示，例如，某个字对应的概率分布为[0.05，0.05，0.05，0.1，0.05，0.1，0.6]，分别对应[O，B_-1，B_0，B_+1，I_-1，I_0，I_+1]，即该字为O、B_-1、B_0、B_+1、I_-1、I_0、I_+1的概率分别为0.05、0.05、0.05、0.1、0.05、0.1、0.6，意味着该字的情感标注结果为I_+1。

其中，情感倾向，指字的情感的倾向，包括积极倾向还是消极倾向。其中，积极倾向和消极倾向，为两种相反的倾向。例如，当情感倾向用于表达对某事物的喜恶时，积极倾向代表喜欢该事物，消极倾向代表讨厌该事物，例如，“我喜欢吃雪糕”，表达了积极倾向，而“我讨厌吃雪糕”，则表达了消极倾向；再如，当情感倾向用于表达能力高低时，积极倾向代表具有较高的能力，消极倾向代表具有相对较低的能力，例如，“这款洗面奶起泡较多”，表达了积极倾向，而“这款洗面奶不气泡”，则表达了消极倾向。示例性的，采用“+”表示积极倾向，采用“-”表示消极倾向。

其中，情感等级，反映情感倾向的实际倾向程度。示例性的，采用数字来表达情感等级，数字越大，代表倾向程度越高，数字越小，代表倾向程度越低。例如，待识别文本为“这款面包不酥软”，表达出了消极的情感，但是倾向程度一般，因此，该待识别文本中每个字对应的情感标注结果为“O，O，O，O，O，B_0，B_0”；再如，待识别文本为“这款面包很硬”，表达出了消极的情感，并且倾向程度比较明显，因此，该待识别文本中每个字对应的情感标注结果为“O，O，O，O，O，B_-2”；再如，待识别文本为“这款面包很软”，表达出了积极的情感，并且倾向程度比较明显，因此，该待识别文本中每个字对应的情感标注结果为“O，O，O，O，O，B_+2”。

步骤110，根据所述待识别文本中每个字对应的情感标注结果和所述待识别文本中每个字对应的编码特征，确定所述待识别文本中的实体的编码特征。

其中，实体，为文本中的事物，例如，人名、地名、电影名、公司名、动物名，这些都可以看做是实体。实体可以包括多个字，例如，张三；也可以只包括一个字，例如，狗。

由于得到了待识别文本中每个字对应的情感标注结果，因此，可以根据每个字对应的情感标注结果确定该待识别文本中的实体，进一步的，再根据待识别文本中每个字对应的编码特征，得到该实体的编码特征。

步骤112，根据预设的分类网络对所述待识别文本中的实体的编码特征进行分类，得到所述待识别文本中的实体的实体分类结果。

其中，分类网络，为用于对实体进行分类的网络，使用分类网络对实体的编码特征进行处理，得到实体分类结果。预先设置好分类网络，即预先设置好分类网络中的网络参数，从而，在需要对实体进行分类时，便可以根据该预先设置好的分类网络对实体的编码特征进行处理，得到实体分类结果。

示例性的，将实体的编码特征输入分类网络，分类网络中包含分类标注矩阵，分类网络将实体的编码特征与该分类标注矩阵相乘，然后对相乘后得到的结果进行归一化处理，例如，使用softmax函数进行归一化处理，即可得到实体对应的概率分布，从而根据概率分布得到实体分类结果。需要说明的是，和情感标注矩阵一样，分类标注矩阵的行数等于实体编码特征的纬度，分类标注矩阵的列数等于实体分类结果对应的标签的数量，例如，实体分类结果对应的标签有B、I和O，即标签的数量为3，于是，分类标注矩阵的列数为3。

其中，实体分类结果，为实体对应的分类结果，即对文本中的实体进行分类后得到的表达类别的结果。例如，实体的分类结果包括歌星类别和体育明星类别，某个实体为“周杰伦”，则“周杰伦”对应的分类结果为歌星类别。实体分类结果也可以用概率分布的形式进行表示，例如，某个实体对应的概率分布为[0.05，0.05，0.9]，分别对应[O，B，I](假设O代表歌星，B代表影视明星，I代表体育明星)，即该实体为O、B、I的概率分别为0.05、0.05、0.9，意味着该实体的实体分类结果为I，即体育明星。

上述实体抽取与分类方法，首先根据预设的情感标注矩阵，对所述待识别文本中每个字对应的编码特征进行情感标注，得到所述待识别文本中每个字对应的情感标注结果，所述情感标注结果反映情感倾向和情感等级；然后根据所述待识别文本中每个字对应的情感标注结果和所述待识别文本中每个字对应的编码特征，确定所述待识别文本中的实体的编码特征；最后根据预设的分类网络对所述待识别文本中的实体的编码特征进行分类，得到所述待识别文本中的实体的实体分类结果。可见，在进行实体抽取的时候，考虑到了文本中每个字的情感标注结果，即考虑到了情感倾向与情感等级，减少了实体抽取的误差，提高了实体抽取的准确率；进一步的，在抽取出实体之后，再对抽取出的实体进行分类，由于实体抽取的准确率提高，相应的，也使得实体分类的准确率提高。

在一个实施例中，提高了一种生成待识别文本对应的文本向量的方法，能够通过字标识，快速生成文本向量。如图2所示，步骤104所述基于预设的字表矩阵，对所述待识别文本进行处理，得到所述待识别文本对应的文本向量，包括：

步骤104A，对所述待识别文本进行字分割，得到所述待识别文本中的每个字。

示例性的，采用特征提取的方法，实现对待识别文本中的字的分割和识别，得到待识别文本中的各个字。

步骤104B，根据所述待识别文本中每个字对应的字标识，从所述预设的字表矩阵中获取到所述待识别文本中每个字对应的字向量。

其中，字标识，用于唯一标识一个字。预先为不同的字建立字标识，后续在查询字向量的时候，就可以根据字标识从预设的字表矩阵中查询到每个字对应的字向量。例如，某一个的字的字标识为50，意味着预设的字表矩阵中第50行对应的向量为该字的字向量。

步骤104C，根据每个字在所述待识别文本中的位置，将所述待识别文本中每个字对应的字向量进行组合，得到所述待识别文本对应的文本向量。

例如，待识别文本为ABC，该待识别文本总共有3个字，A对应的字向量为[a1,a2,a3]，B对应的字向量为[b1,b2,b3]，C对应的字向量为[c1,c2,c3]，于是，根据A、B和C在待识别文本中的位置，将A、B和C对应的字向量进行组合，得到待识别文本ABC对应的文本向量[[a1,a2,a3],[b1,b2,b3],[c1,c2,c3]]。

在一个实施例中，提供了一种具体的编码网络和字的编码方法，通过设置3N组参数矩阵，使得最终编码得到的字对应的编码特征充分融入了上下文信息，提高对字的编码准确率。所述编码网络包括N组第一参数矩阵、N组第二参数矩阵以及N组第三参数矩阵，所述第一参数矩阵、所述第二参数矩阵和所述第三参数矩阵分别用于对所述待识别文本的文本向量进行初步编码，N为正整数。

其中，参数矩阵，为由多个参数值组成的矩阵。其中，第一参数矩阵、第二参数矩阵和第三参数矩阵，为三种不同的参数矩阵，例如，用W_i ^q表示第一参数矩阵，用W_i ^k表示第二参数矩阵，用W_i ^v表示第三参数矩阵，其中，i∈N，N为正整数，例如，N＝7。在本发明实施例中，通过N组第一参数矩阵、N组第二参数矩阵以及N组第三参数矩阵对文本向量进行处理，能够得到待识别文本中每个字对应的编码特征。

如图3所示，步骤106所述根据预设的编码网络，对所述待识别文本对应的文本向量进行编码，得到所述待识别文本中每个字对应的编码特征，包括：

步骤106A，将所述待识别文本对应的文本向量分别与N组第一参数矩阵、N组第二参数矩阵以及N组第三参数矩阵相乘，得到N组第一初步编码矩阵、N组第二初步编码矩阵以及N组第三初步编码矩阵。

其中，初步编码矩阵，为使用参数矩阵对文本向量进行初步编码得到的矩阵，由于文本向量的实质是矩阵，因此，文本向量与参数矩阵相乘实质就是两个矩阵相乘，做的是矩阵之间的乘法运算。

具体的，第一初步编码矩阵，为将文本向量与第一参数矩阵相乘得到的编码矩阵；第二初步编码矩阵，为将文本向量与第二参数矩阵相乘得到的编码矩阵；第三初步编码矩阵，为将文本向量与第三参数矩阵相乘得到的编码矩阵。

例如，文本向量用X表示，则第一初步编码矩阵K_i＝X·W_i ^q，第二初步编码矩阵Q_i＝X·W_i ^k，第三初步编码矩阵V_i＝X·W_i ^v。

由于第一参数矩阵、第二参数矩阵和第三参数矩阵分别有N组，因此，会得到N组第一初步编码矩阵、N组第二初步编码矩阵和N组第二初步编码矩阵。

步骤106B，根据第i组第一初步编码矩阵、第i组第二初步编码矩阵以及第i组第三初步编码矩阵，得到第i组特征矩阵，1≤i≤N。

其中，特征矩阵，为对初步编码矩阵提取特征后得到的矩阵。由于第一初步编码矩阵、第二初步编码矩阵以及第三初步编码矩阵分别有N组，所以经过计算总共会得到N组特征矩阵。

在一个实施例中，提供了一种确定特征矩阵的方法，在具体实施的过程中，计算得到了第i组乘矩阵与所述平方根之商，通过计算第i组乘矩阵与所述平方根之商，可以使得参数均匀分布，从而提高得到的第i组特征矩阵的准确率。如图4所示，步骤106B所述根据第i组第一初步编码矩阵、第i组第二初步编码矩阵以及第i组第三初步编码矩阵，得到第i组特征矩阵，包括：

步骤106B1，将所述第i组第一初步编码矩阵进行转置，得到所述第i组转置矩阵。

其中，转置矩阵，为将第一初步编码矩阵进行转置处理后得到的矩阵。例如，第i组第一初步编码矩阵为K_i，则第i组转置矩阵为

步骤106B2，计算所述第i组第一初步编码矩阵的维度的平方根，得到第i组平方根。

例如，假设第i组第一初步编码矩阵的维度为d_k，则第i组平方根为

步骤106B3，将所述第i组第二初步编码矩阵与所述第i组转置矩阵相乘，得到第i组乘矩阵。

其中，乘矩阵，为将第二初步编码矩阵与转置矩阵相乘得到的矩阵。例如，第i组第二初步编码矩阵为Q_i，第i组转置矩阵为于是，第i组乘矩阵为/>在这里，采用的是矩阵乘法。

步骤106B4，对所述第i组乘矩阵与所述平方根之商进行归一化，得到第i组归一化矩阵。

其中，归一化矩阵，为对乘矩阵与所述平方根之商进行归一化处理后得到的矩阵。例如，第i组乘矩阵为采用softmax函数进行归一化处理，则归一化矩阵为：得到归一化矩阵的目的在于使得参数均匀分布，例如，将参数都分布在0到1之间。

步骤106B5，将所述第i组归一化矩阵与所述第i组第三初步编码矩阵相乘，得到第i组特征矩阵。

例如，第i组归一化矩阵为则第i组特征矩阵Z_i为：/>

步骤106C，对N组特征矩阵进行融合，得到融合矩阵。

如图5所示，N组特征矩阵为Z₁、Z₂…Z_N，使用Concat函数将N组特征矩阵融合在一起，得到融合矩阵Z。

步骤106D，根据所述融合矩阵，得到所述待识别文本对应的编码矩阵。

将融合矩阵与权重矩阵相乘，得到待识别文本对应的编码矩阵，其中，权重矩阵，为包含多个权重值的矩阵。如图5所示，将融合矩阵Z与权重矩阵W_z相乘，得到编码矩阵Z_x。

步骤106E，根据所述待识别文本对应的编码矩阵，确定所述待识别文本中每个字对应的编码特征。

待识别文本的编码矩阵中记载了待识别文本中每个字对应的编码特征，因此，在得到待识别文本对应的编码矩阵之后，可以根据待识别文本对应的编码矩阵得到每个字对应的编码特征。

在一个实施例中，提供了一种具体的确定待识别文本中每个字的编码特征的方法，由于待识别文本对应的编码矩阵中包含了每个字对应的编码特征，因此，直接从该编码矩阵中即可获取到每个字对应的编码特征，实现了字对应的编码特征的快速获取。步骤106E所述根据所述待识别文本对应的编码矩阵，确定所述待识别文本中每个字对应的编码特征，包括：

从所述待识别文本对应的编码矩阵中，抽取所述待识别文本中的每个字对应的向量，得到待识别文本中每个字对应的编码特征。

具体的，根据每个字在待识别文本中的位置，从待识别文本对应的编码矩阵中，抽取每个字对应的向量，得到待识别文本中每个字对应的编码特征。

例如，待识别文本为“ABC”，由于A在待识别文本中的第一个位置，因此，待识别文本对应的编码矩阵中的第一行为字A对应的向量，将第一行抽取出来，作为字A的编码特征；再如，由于B在待识别文本中的第二个位置，因此，待识别文本对应的编码矩阵中的第二行为字B对应的向量，将第二行抽取出来，作为字B的编码特征。

在一个实施例中，提供了一种确定实体的编码特征的方法，该方法获取到了情感标注结果为实体情感标注结果的目标字，由于实体情感标注结果对待识别文本中的实体进行了标注，所以，能够根据实体情感标注结果实现对实体编码特征的快速抽取。具体的，所述情感标注结果包括实体情感标注结果或非实体情感标注结果；步骤110所述根据所述待识别文本中每个字对应的情感标注结果和所述待识别文本中每个字对应的编码特征，确定所述待识别文本中的实体的编码特征，包括：

根据所述待识别文本中每个字对应的情感标注结果，确定所述情感标注结果为所述实体情感标注结果的目标字；

根据所述目标字对应的编码特征，确定所述待识别文本中的实体的编码特征。

其中，实体情感标注结果，指示该实体情感标注结果对应的字为实体或实体的组成部分。例如，实体为一个字，则该实体情感标注结果对应的字即为实体；若实体为两个字，则该实体情感标注结果对应的字为实体的组成部分。

其中，非实体情感标注结果，指示该非实体情感标注结果对应的字不是实体也不是实体的组成部分。

其中，目标字，为情感标注结果为实体情感标注结果的字。

例如，待识别文本为“这款产品不起沫”，待识别文本中每个字对应的情感标注结果为：O、O、O、O、O、B_-2、I_-2，其中，B_-2、I_-2为实体情感标注结果，O为非实体情感标注结果，于是，该待识别文本中的目标字为：起、沫，根据起、沫的编码特征，即可得到该待识别文本中的实体的编码特征。

具体的，由于根据步骤106能够得到待识别文本中每个字对应的编码特征，因此，在确定目标字(实体或实体的组成部分)之后，可以得到目标字对应的编码特征，将各个目标字对应的编码特征进行组合，即可得到待识别文本中的实体的编码特征。例如，目标字j的编码特征为Z_xj，其中，j指目标字在待识别文本中的位置，Z_xj指从编码矩阵Z_x中抽取出来的第j行的向量，若j∈(i,k)，则将待识别文本中第i个字到第j个字的编码特征进行组合，从而得到实体的编码特征Z_x(i～k)。

在一个实施例中，提供了一种对编码网络、情感标注矩阵以及分类网络中的参数进行训练的方法，该方法求得第一损失和第二损失之和，然后根据第一损失和第二损失之和，对编码网络、情感标注矩阵以及分类网络中的参数进行调整，由于将情感标注与实体分类进行了联合训练，因此，加强了情感标注过程与实体分类过程之间的相互感知能力，提高了情感标注的准确率以及实体分类的准确率，并且由于是情感标注和实体分类同时训练，相较于单独训练的方式，这样的方式也能提高训练效率。

如图6所示，在步骤102所述获取待识别文本之前，还包括：

步骤114，获取训练文本、所述训练文本中每个字对应的目标情感标注结果和所述训练文本中的实体对应的目标实体分类结果。

其中，训练文本，为在调整编码网络、情感标注矩阵以及分类网络中的参数的过程中用到的文本。

其中，目标情感标注结果，为情感的人工标注结果，为准确的情感标注结果。

其中，目标实体分类结果，为实体类别的人工标注结果，为准确的实体分类结果。

步骤116，基于所述字表矩阵，对所述训练文本进行处理，得到所述训练文本对应的文本向量。

采用和步骤104A到步骤104C相同的方法对训练文本进行处理，即可得到训练文本对应的文本向量，在此不再详述。

步骤118，根据所述编码网络，对所述训练文本对应的文本向量进行编码，得到所述训练文本中每个字对应的编码特征。

采用和步骤106A到106E相同的方法对训练文本对应的文本向量进行处理，即可得到训练文本中每个字对应的编码特征，在此不再详述。

步骤120，根据所述情感标注矩阵，对所述训练文本中每个字对应的编码特征进行情感标注，得到所述训练文本中每个字对应的初步情感标注结果。

其中，初步情感标注结果，为根据参数调整前的编码网络和情感标注矩阵得到的情感标注结果。采用和步骤108相同的方法对训练文本中每个字对应的编码特征进行情感标注即可得到每个字对应的初步情感标注结果，在此不再详述。

步骤122，根据所述训练文本中每个字对应的初步情感标注结果和所述训练文本中每个字对应的编码特征确定所述训练文本中的实体的编码特征。

采用和步骤110相同的方法即可得到训练文本中的实体的编码特征，在此不再详述。

步骤124，根据所述分类网络，对所述训练文本中的实体的编码特征进行分类，得到所述训练文本中的实体的初步实体分类结果。

其中，初步实体分类结果，为根据参数调整前的编码网络、情感标注矩阵以及分类网络得到的实体分类结果。采用和步骤112相同的方法对训练文本中的实体的编码特征进行分类，即可得到训练文本中的实体的初步实体分类结果，在此不再详述。

步骤126，根据所述训练文本中每个字对应的初步情感标注结果和所述训练文本中每个字对应的目标情感标注结果，计算第一损失。

其中，第一损失，用于衡量初步情感标注结果和目标情感标注结果之间的差异的大小。

具体的，第一损失可以用交叉熵的形式表示，其中，交叉熵用于度量两个概率分布间的差异，即通过交叉熵可以度量初步情感标注结果和目标情感标注结果之间的概率分布的差异，从而确定初步情感标注结果和目标情感标注结果之间的差异的大小。例如，第一损失用L(y1，y)表示，其中，y1为初步情感标注结果，y为目标情感标注结果，假设初步情感标注结果(概率分布)y1＝[y1₁，y1₂，…y1_n]，目标情感标注结果(概率分布)y＝[y₁，y₂，…y_n]，则第一损失

步骤128，根据所述训练文本中的实体的初步实体分类结果和所述训练文本中的实体对应的目标实体分类结果，计算第二损失。

其中，第二损失，用于衡量初步实体分类结果和目标实体分类结果之间的差异的大小。同样，第二损失也可以用交叉熵的形式表示，即通过交叉熵度量初步实体分类结果和目标实体分类结果之间的概率分布的差异，从而确定初步实体分类结果和目标实体分类结果之间的差异的大小。第二损失的计算方法和第一损失的计算方法相同，在此不再详述。

步骤130，根据所述第一损失和所述第二损失之和，对所述编码网络、所述情感标注矩阵以及所述分类网络中的参数进行训练，以使所述训练文本中每个字对应的初步情感标注结果逼近于所述训练文本中每个字对应的目标情感标注结果，同时，所述训练文本中每个字对应的初步实体分类结果逼近于所述训练文本中每个字对应的目标实体分类结果。

将第一损失和第二损失求和，得到一个综合的损失，然后根据综合的损失，对编码网络、所述情感标注矩阵以及所述分类网络中涉及到的各个参数进行调整，每次调整后，利用调整后的参数得到初步情感标注结果和初步实体分类结果，使得初步情感标注结果不断逼近目标情感标注结果同时初步实体分类结果逼近目标实体分类结果，在初步情感标注结果与目标情感标注结果差异最小且初步实体分类结果与目标实体分类结果差异最小的时候，停止训练，即停止进行参数调整，此时得到的编码网络、情感标注矩阵以及分类网络中的参数即为最终的参数。

如图7所示，提供了一种实体抽取与分类装置700，具体包括：

文本获取模块702，用于获取待识别文本；

向量生成模块704，用于基于预设的字表矩阵，对所述待识别文本进行处理，得到所述待识别文本对应的文本向量；

文字编码模块706，用于根据预设的编码网络，对所述待识别文本对应的文本向量进行编码，得到所述待识别文本中每个字对应的编码特征；

情感标注模块708，用于根据预设的情感标注矩阵，对所述待识别文本中每个字对应的编码特征进行情感标注，得到所述待识别文本中每个字对应的情感标注结果，所述情感标注结果反映情感倾向和情感等级；

实体编码模块710，用于根据所述待识别文本中每个字对应的情感标注结果和所述待识别文本中每个字对应的编码特征，确定所述待识别文本中的实体的编码特征；

实体分类模块712，用于根据预设的分类网络对所述待识别文本中的实体的编码特征进行分类，得到所述待识别文本中的实体的实体分类结果。

上述实体抽取与分类装置，首先根据预设的情感标注矩阵，对所述待识别文本中每个字对应的编码特征进行情感标注，得到所述待识别文本中每个字对应的情感标注结果，所述情感标注结果反映情感倾向和情感等级；然后根据所述待识别文本中每个字对应的情感标注结果和所述待识别文本中每个字对应的编码特征，确定所述待识别文本中的实体的编码特征；最后根据预设的分类网络对所述待识别文本中的实体的编码特征进行分类，得到所述待识别文本中的实体的实体分类结果。可见，在进行实体抽取的时候，考虑到了文本中每个字的情感标注结果，即考虑到了情感倾向与情感等级，减少了实体抽取的误差，提高了实体抽取的准确率；进一步的，在抽取出实体之后，再对抽取出的实体进行分类，由于实体抽取的准确率提高，相应的，也使得实体分类的准确率提高。

在一个实施例中，所述向量生成模块704，具体用于：对所述待识别文本进行字分割，得到所述待识别文本中的每个字；根据所述待识别文本中每个字对应的字标识，从所述预设的字表矩阵中获取到所述待识别文本中每个字对应的字向量；根据每个字在所述待识别文本中的位置，将所述待识别文本中每个字对应的字向量进行组合，得到所述待识别文本对应的文本向量。

在一个实施例中，所述编码网络包括N组第一参数矩阵、N组第二参数矩阵以及N组第三参数矩阵，所述第一参数矩阵、所述第二参数矩阵和所述第三参数矩阵分别用于对所述待识别文本的文本向量进行初步编码，N为正整数；所述文字编码模块706，具体用于：将所述待识别文本对应的文本向量分别与N组第一参数矩阵、N组第二参数矩阵以及N组第三参数矩阵相乘，得到N组第一初步编码矩阵、N组第二初步编码矩阵以及N组第三初步编码矩阵；根据第i组第一初步编码矩阵、第i组第二初步编码矩阵以及第i组第三初步编码矩阵，得到第i组特征矩阵，1≤i≤N；对N组特征矩阵进行融合，得到融合矩阵；根据所述融合矩阵，得到所述待识别文本对应的编码矩阵；根据所述待识别文本对应的编码矩阵，确定所述待识别文本中每个字对应的编码特征。

在一个实施例中，所述文字编码模块706，具体用于：将所述第i组第一初步编码矩阵进行转置，得到所述第i组转置矩阵；计算所述第i组第一初步编码矩阵的维度的平方根，得到第i组平方根；将所述第i组第二初步编码矩阵与所述第i组转置矩阵相乘，得到第i组乘矩阵；对所述第i组乘矩阵与所述平方根之商进行归一化，得到第i组归一化矩阵；将所述第i组归一化矩阵与所述第i组第三初步编码矩阵相乘，得到第i组特征矩阵。

在一个实施例中，所述文字编码模块706，具体用于：从所述待识别文本对应的编码矩阵中，抽取所述待识别文本中的每个字对应的向量，得到待识别文本中每个字对应的编码特征。

在一个实施例中，所述情感标注结果包括实体情感标注结果或非实体情感标注结果；所述实体编码模块710，具体用于：根据所述待识别文本中每个字对应的情感标注结果，确定所述情感标注结果为所述实体情感标注结果的目标字；根据所述目标字对应的编码特征，确定所述待识别文本中的实体的编码特征。

在一个实施例中，所述装置700，还包括：训练模块，用于获取训练文本、所述训练文本中每个字对应的目标情感标注结果和所述训练文本中的实体对应的目标实体分类结果；基于所述字表矩阵，对所述训练文本进行处理，得到所述训练文本对应的文本向量；根据所述编码网络，对所述训练文本对应的文本向量进行编码，得到所述训练文本中每个字对应的编码特征；根据所述情感标注矩阵，对所述训练文本中每个字对应的编码特征进行情感标注，得到所述训练文本中每个字对应的初步情感标注结果；根据所述训练文本中每个字对应的初步情感标注结果和所述训练文本中每个字对应的编码特征确定所述训练文本中的实体的编码特征；根据所述分类网络，对所述训练文本中的实体的编码特征进行分类，得到所述训练文本中的实体的初步实体分类结果；根据所述训练文本中每个字对应的初步情感标注结果和所述训练文本中每个字对应的目标情感标注结果，计算第一损失；根据所述训练文本中的实体的初步实体分类结果和所述训练文本中的实体对应的目标实体分类结果，计算第二损失；根据所述第一损失和所述第二损失之和，对所述编码网络、所述情感标注矩阵以及所述分类网络中的参数进行训练，以使所述训练文本中每个字对应的初步情感标注结果逼近于所述训练文本中每个字对应的目标情感标注结果，同时，所述训练文本中每个字对应的初步实体分类结果逼近于所述训练文本中每个字对应的目标实体分类结果。

图8示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端或服务器。如图8所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现实体抽取与分类方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行实体抽取与分类方法。本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的实体抽取与分类方法可以实现为一种计算机程序的形式，计算机程序可在如图8所示的计算机设备上运行。计算机设备的存储器中可存储组成实体抽取与分类装置的各个程序模板。比如，文本获取模块702、向量生成模块704和文字编码模块706。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

获取待识别文本；

上述计算机设备，首先根据预设的情感标注矩阵，对所述待识别文本中每个字对应的编码特征进行情感标注，得到所述待识别文本中每个字对应的情感标注结果，所述情感标注结果反映情感倾向和情感等级；然后根据所述待识别文本中每个字对应的情感标注结果和所述待识别文本中每个字对应的编码特征，确定所述待识别文本中的实体的编码特征；最后根据预设的分类网络对所述待识别文本中的实体的编码特征进行分类，得到所述待识别文本中的实体的实体分类结果。可见，在进行实体抽取的时候，考虑到了文本中每个字的情感标注结果，即考虑到了情感倾向与情感等级，减少了实体抽取的误差，提高了实体抽取的准确率；进一步的，在抽取出实体之后，再对抽取出的实体进行分类，由于实体抽取的准确率提高，相应的，也使得实体分类的准确率提高。

在一个实施例中，所述计算机程序被处理器执行时，还用于：在所述获取待识别文本之前，获取训练文本、所述训练文本中每个字对应的目标情感标注结果和所述训练文本中的实体对应的目标实体分类结果；基于所述字表矩阵，对所述训练文本进行处理，得到所述训练文本对应的文本向量；根据所述编码网络，对所述训练文本对应的文本向量进行编码，得到所述训练文本中每个字对应的编码特征；根据所述情感标注矩阵，对所述训练文本中每个字对应的编码特征进行情感标注，得到所述训练文本中每个字对应的初步情感标注结果；根据所述训练文本中每个字对应的初步情感标注结果和所述训练文本中每个字对应的编码特征确定所述训练文本中的实体的编码特征；根据所述分类网络，对所述训练文本中的实体的编码特征进行分类，得到所述训练文本中的实体的初步实体分类结果；根据所述训练文本中每个字对应的初步情感标注结果和所述训练文本中每个字对应的目标情感标注结果，计算第一损失；根据所述训练文本中的实体的初步实体分类结果和所述训练文本中的实体对应的目标实体分类结果，计算第二损失；根据所述第一损失和所述第二损失之和，对所述编码网络、所述情感标注矩阵以及所述分类网络中的参数进行训练，以使所述训练文本中每个字对应的初步情感标注结果逼近于所述训练文本中每个字对应的目标情感标注结果，同时，所述训练文本中每个字对应的初步实体分类结果逼近于所述训练文本中每个字对应的目标实体分类结果。

在一个实施例中，提出了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：

获取待识别文本；

上述计算机可读存储介质，首先根据预设的情感标注矩阵，对所述待识别文本中每个字对应的编码特征进行情感标注，得到所述待识别文本中每个字对应的情感标注结果，所述情感标注结果反映情感倾向和情感等级；然后根据所述待识别文本中每个字对应的情感标注结果和所述待识别文本中每个字对应的编码特征，确定所述待识别文本中的实体的编码特征；最后根据预设的分类网络对所述待识别文本中的实体的编码特征进行分类，得到所述待识别文本中的实体的实体分类结果。可见，在进行实体抽取的时候，考虑到了文本中每个字的情感标注结果，即考虑到了情感倾向与情感等级，减少了实体抽取的误差，提高了实体抽取的准确率；进一步的，在抽取出实体之后，再对抽取出的实体进行分类，由于实体抽取的准确率提高，相应的，也使得实体分类的准确率提高。

需要说明的是，上述实体抽取与分类方法、实体抽取与分类装置、计算机设备及计算机可读存储介质属于一个总的发明构思，实体抽取与分类方法、实体抽取与分类装置、计算机设备及计算机可读存储介质实施例中的内容可相互适用。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种实体抽取与分类方法，其特征在于，包括：

获取待识别文本；

2.如权利要求1所述的方法，其特征在于，所述基于预设的字表矩阵，对所述待识别文本进行处理，得到所述待识别文本对应的文本向量，包括：

对所述待识别文本进行字分割，得到所述待识别文本中的每个字；

根据所述待识别文本中每个字对应的字标识，从所述预设的字表矩阵中获取到所述待识别文本中每个字对应的字向量；

根据每个字在所述待识别文本中的位置，将所述待识别文本中每个字对应的字向量进行组合，得到所述待识别文本对应的文本向量。

3.根据权利要求1所述的方法，其特征在于，所述编码网络包括N组第一参数矩阵、N组第二参数矩阵以及N组第三参数矩阵，所述第一参数矩阵、所述第二参数矩阵和所述第三参数矩阵分别用于对所述待识别文本的文本向量进行初步编码，N为正整数；

所述根据预设的编码网络，对所述待识别文本对应的文本向量进行编码，得到所述待识别文本中每个字对应的编码特征，包括：

将所述待识别文本对应的文本向量分别与N组第一参数矩阵、N组第二参数矩阵以及N组第三参数矩阵相乘，得到N组第一初步编码矩阵、N组第二初步编码矩阵以及N组第三初步编码矩阵；

根据第i组第一初步编码矩阵、第i组第二初步编码矩阵以及第i组第三初步编码矩阵，得到第i组特征矩阵，1≤i≤N；

对N组特征矩阵进行融合，得到融合矩阵；

根据所述融合矩阵，得到所述待识别文本对应的编码矩阵；

根据所述待识别文本对应的编码矩阵，确定所述待识别文本中每个字对应的编码特征。

4.根据权利要求3所述的方法，其特征在于，所述根据第i组第一初步编码矩阵、第i组第二初步编码矩阵以及第i组第三初步编码矩阵，得到第i组特征矩阵，包括：

将所述第i组第一初步编码矩阵进行转置，得到第i组转置矩阵；

计算所述第i组第一初步编码矩阵的维度的平方根，得到第i组平方根；

将所述第i组第二初步编码矩阵与所述第i组转置矩阵相乘，得到第i组乘矩阵；

对所述第i组乘矩阵与所述平方根之商进行归一化，得到第i组归一化矩阵；

将所述第i组归一化矩阵与所述第i组第三初步编码矩阵相乘，得到第i组特征矩阵。

5.根据权利要求3或4所述的方法，其特征在于，所述根据所述待识别文本对应的编码矩阵，确定所述待识别文本中每个字对应的编码特征，包括：

6.根据权利要求1所述的方法，其特征在于，所述情感标注结果包括实体情感标注结果或非实体情感标注结果；

所述根据所述待识别文本中每个字对应的情感标注结果和所述待识别文本中每个字对应的编码特征，确定所述待识别文本中的实体的编码特征，包括：

7.如权利要求1所述的方法，其特征在于，在所述获取待识别文本之前，还包括：

获取训练文本、所述训练文本中每个字对应的目标情感标注结果和所述训练文本中的实体对应的目标实体分类结果；

基于所述字表矩阵，对所述训练文本进行处理，得到所述训练文本对应的文本向量；

根据所述编码网络，对所述训练文本对应的文本向量进行编码，得到所述训练文本中每个字对应的编码特征；

根据所述情感标注矩阵，对所述训练文本中每个字对应的编码特征进行情感标注，得到所述训练文本中每个字对应的初步情感标注结果；

根据所述训练文本中每个字对应的初步情感标注结果和所述训练文本中每个字对应的编码特征确定所述训练文本中的实体的编码特征；

根据所述分类网络，对所述训练文本中的实体的编码特征进行分类，得到所述训练文本中的实体的初步实体分类结果；

根据所述训练文本中每个字对应的初步情感标注结果和所述训练文本中每个字对应的目标情感标注结果，计算第一损失；

根据所述训练文本中的实体的初步实体分类结果和所述训练文本中的实体对应的目标实体分类结果，计算第二损失；

根据所述第一损失和所述第二损失之和，对所述编码网络、所述情感标注矩阵以及所述分类网络中的参数进行训练，以使所述训练文本中每个字对应的初步情感标注结果逼近于所述训练文本中每个字对应的目标情感标注结果，同时，所述训练文本中每个字对应的初步实体分类结果逼近于所述训练文本中每个字对应的目标实体分类结果。

8.一种实体抽取与分类装置，其特征在于，包括：文本获取模块，用于获取待识别文本；向量生成模块，用于基于预设的字表矩阵，对所述待识别文本进行处理，得到所述待识别文本对应的文本向量；文字编码模块，用于根据预设的编码网络，对所述待识别文本对应的文本向量进行编码，得到所述待识别文本中每个字对应的编码特征；情感标注模块，用于根据预设的情感标注矩阵，对所述待识别文本中每个字对应的编码特征进行情感标注，得到所述待识别文本中每个字对应的情感标注结果，所述情感标注结果反映情感倾向和情感等级；实体编码模块，用于根据所述待识别文本中每个字对应的情感标注结果和所述待识别文本中每个字对应的编码特征，确定所述待识别文本中的实体的编码特征；实体分类模块，用于根据预设的分类网络对所述待识别文本中的实体的编码特征进行分类，得到所述待识别文本中的实体的实体分类结果。

9.一种计算机设备，其特征在于，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述实体抽取与分类方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述实体抽取与分类方法的步骤。