CN113420122B

CN113420122B - 分析文本的方法、装置、设备及存储介质

Info

Publication number: CN113420122B
Application number: CN202110705319.4A
Authority: CN
Inventors: 陈凯; 徐冰; 汪伟
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Filing date: 2021-06-24
Publication date: 2024-06-04
Anticipated expiration: 2041-06-24

Abstract

本申请适用于人工智能技术领域，提供了分析文本的方法、装置、设备及存储介质。该方法包括：获取待分析文本；识别该待分析文本中的至少两个实体，该待分析文本包括包含至少两个实体的评论句；通过预先训练好的属性抽取模型提取该待分析文本中的属性信息；通过预先训练好的情感分析模型对至少两个实体、该属性信息以及该待分析文本进行分析，得到至少两个实体对应的情感分析结果。上述方案中，在比较过程中加入了属性因素，将现有技术中简单的“实体‑优劣势”比较，转换为“实体‑属性信息‑优劣势”比较，提取的分析要点全面、准确，使分析得到的实体比较结果更加准确。

Description

分析文本的方法、装置、设备及存储介质

技术领域

本申请属于人工智能技术领域，尤其涉及分析文本的方法、装置、设备及存储介质。

背景技术

在自然语言处理应用中，情感分析有着巨大的前景。比如通过用户在互联网平台上发表的评论可以评估用户对产品、公司、服务等的满意程度。因此，情感分析在自然语言处理中显得尤为重要。

然而，现有的情感分析中，提取的分析要点不全面，进而导致情感分析结果不准确。

发明内容

有鉴于此，本申请实施例提供了分析文本的方法、装置、设备及存储介质，以解决现有的情感分析中，提取的分析要点不全面，进而导致情感分析结果不准确的问题。

本申请实施例的第一方面提供了一种分析文本的方法，该方法包括：

获取待分析文本；

识别所述待分析文本中的至少两个实体，所述待分析文本包括包含至少两个实体的评论句；

通过预先训练好的属性抽取模型提取所述待分析文本中的属性信息；

通过预先训练好的情感分析模型对所述至少两个实体、所述属性信息以及所述待分析文本进行分析，得到所述至少两个实体对应的情感分析结果。

可选地，所述识别待分析文本中的至少两个实体，包括：

对所述待分析文本进行分词处理，得到多个第一分词；

基于预先训练好的命名实体识别模型对所述多个第一分词进行处理，得到所述待分析文本中的至少两个实体。

可选地，所述通过预先训练好的属性抽取模型提取所述待分析文本中的属性信息之前，所述方法还包括：

获取每个实体对应的实体标签；

将每个实体对应的实体标签添加至所述待分析文本中，得到第一目标待分析文本；

所述通过预先训练好的属性抽取模型提取所述待分析文本中的属性信息，包括：

通过预先训练好的属性抽取模型提取所述第一目标待分析文本中的属性信息。

可选地，所述将每个实体对应的实体标签添加至所述待分析文本中，得到第一目标待分析文本，包括：

对所述待分析文本进行分词处理，得到多个第二分词；

通过所述属性抽取模型对每个第二分词进行映射处理，得到每个第二分词对应的词向量；

为每个词向量添加每个实体对应的实体标签，得到所述第一目标待分析文本。

可选地，所述至少两个实体中包含一组待比较的实体，所述通过预先训练好的情感分析模型对所述至少两个实体、所述属性信息以及所述待分析文本进行分析，得到所述至少两个实体对应的情感分析结果，包括：

获取实体标签组，所述实体标签组包括待比较的实体各自对应的标签；

获取所述属性信息对应的属性标签；

将所述实体标签组以及所述属性标签添加至所述待分析文本中，得到第二目标待分析文本；

通过所述情感分析模型对所述第二目标待分析文本进行分析，得到所述至少两个实体对应的情感分析结果。

可选地，所述通过所述情感分析模型对所述第二目标待分析文本进行分析，得到所述至少两个实体对应的情感分析结果，包括：

对所述第二目标待分析文本进行分词处理，得到多个第三分词；

通过所述情感分析模型对每个第三分词进行映射处理，得到每个第三分词对应的词向量；

基于对所述第二目标待分析文本进行分词处理的处理顺序，将每个第三分词对应的词向量组合，得到目标词向量集合；

对所述目标词向量集合进行分析，得到所述情感分析结果。

可选地，所述识别待分析文本中的至少两个实体之前，所述方法还包括：

获取样本训练集，所述样本训练集包括多个样本文本，以及每个样本文本对应的属性标签；

基于所述样本训练集对初始属性抽取网络进行训练，并基于训练结果更新所述初始属性抽取网络的参数；

当检测到所述初始属性抽取网络对应的损失函数收敛时，得到所述属性抽取模型。

本申请实施例的第二方面提供了一种分析文本的装置，包括：

获取单元，用于获取待分析文本；

识别单元，用于识别所述待分析文本中的至少两个实体，所述待分析文本包括包含至少两个实体的评论句；

提取单元，用于通过预先训练好的属性抽取模型提取所述待分析文本中的属性信息；

分析单元，用于通过预先训练好的情感分析模型对所述至少两个实体、所述属性信息以及所述待分析文本进行分析，得到所述至少两个实体对应的情感分析结果。

本申请实施例的第三方面提供了一种分析文本的设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上述第一方面所述的分析文本的方法的步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的分析文本的方法的步骤。

本申请实施例的第五方面提供了一种计算机程序产品，当计算机程序产品在分析文本的设备上运行时，使得该设备执行上述第一方面所述的分析文本的方法的步骤。

本申请实施例提供的分析文本的方法、装置、设备及存储介质，具有以下有益效果：

获取待分析文本；识别该待分析文本中的至少两个实体，该待分析文本包括包含至少两个实体的评论句；通过预先训练好的属性抽取模型提取该待分析文本中的属性信息；通过预先训练好的情感分析模型对至少两个实体、该属性信息以及该待分析文本进行分析，得到至少两个实体对应的情感分析结果。上述方案中，识别待分析文本中的实体，通过属性抽取模型提取该待分析文本中的属性信息；再通过情感分析模型对实体、属性信息以及待分析文本进行分析，在分析比较过程中加入了属性因素，将现有技术中简单的“实体-优劣势”比较，转换为“实体-属性信息-优劣势”比较，提取的分析要点全面、准确，使最终得到的实体比较结果更加准确。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一示例性实施例提供的分析文本的方法的示意性流程图；

图2是本申请一示例性实施例示出的分析文本的方法的步骤S102的具体流程图；

图3是本申请另一实施例提供的一种分析文本的方法的示意性流程图；

图4是本申请一示例性实施例示出的分析文本的方法的步骤S204的具体流程图；

图5是本申请一示例性实施例示出的分析文本的方法的示意流程图；

图6是本申请一实施例提供的一种分析文本的装置的示意图；

图7是本申请另一实施例提供的分析文本的设备的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

然而，现有的情感分析中，常常将问题简化为“实体-优劣势”的比较，这样提取的分析要点不全面，进而导致情感分析结果不准确。例如，在某个评论句“品牌A的手机价格比品牌B的贵，但性能更好”，对比实体指“品牌A”、”品牌B”，对于“价格”，品牌A是劣势方，但对于“性能”，品牌A则是优势方。现有技术中并未关注“价格”、“性能”这两个属性信息，只能得出一种对比结果，此时的对比结果在“价格”、“性能”这两个属性方面，定有一种是错误的，因此，该对比结果并不准确。

有鉴于此，本申请提供一种分析文本的方法，获取待分析文本；识别该待分析文本中的至少两个实体，该待分析文本包括包含至少两个实体的评论句；通过预先训练好的属性抽取模型提取该待分析文本中的属性信息；通过预先训练好的情感分析模型对至少两个实体、该属性信息以及该待分析文本进行分析，得到至少两个实体对应的情感分析结果。上述方案中，识别待分析文本中的实体，通过属性抽取模型提取该待分析文本中的属性信息；再通过情感分析模型对实体、属性信息以及待分析文本进行分析，在分析比较过程中加入了属性因素，将现有技术中简单的“实体-优劣势”比较，转换为“实体-属性信息-优劣势”比较，提取的分析要点全面、准确，使最终得到的实体比较结果更加准确。

请参见图1，图1是本申请一示例性实施例提供的分析文本的方法的示意性流程图。本申请提供的分析文本的方法的执行主体为分析文本的设备，其中，该设备包括但不限于智能手机、平板电脑、计算机、个人数字助理(Personal Digital Assistant，PDA)、台式电脑等终端，还可以包括各种类型的服务器。本示例中，以终端为例进行说明。如图1所示的分析文本的方法可包括：S101～S104，具体如下：

S101：获取待分析文本。

待分析文本指需要对文本中的实体进行情感分析的文本。由于本实施方式中的情感分析是指对实体的比较，至少存在两个实体时，才有比较的必要性，因此待分析文本包括包含至少两个实体的评论句。对评论句的长短以及数量不进行限定。例如，某个待分析文本可以为“A公司市值超过B公司”、“A公司市值超过B公司，但B公司口碑超过A公司”等。可选地，待分析文本也可以是由包含至少两个实体的评论句构成的一篇文章、一段文字等。此处仅为示例性说明，对此不做限定。

示例性地，终端在检测到分析指令时，获取待分析文本。分析指令可以由用户触发，如用户点击终端中的分析选项。获取待分析文本可以是用户上传至终端的待分析文本，也可以是终端根据分析指令中包含的文件标识，获取该文件标识对应的文本文件，得到待分析文本。

S102：识别该待分析文本中的至少两个实体。

实体是指客观存在并可相互区别的事物。可通过预先训练好的命名实体识别模型，识别出待分析文本中的所有实体。

S103：通过预先训练好的属性抽取模型提取该待分析文本中的属性信息。

对待分析文本进行分词处理，得到多个分词。分词处理是指通过分词算法将待分析文本中连续的字序列划分为多个词序列，即多个分词。属性抽取模型可以包括分词算法，通过分词算法对待分析文本进行分词处理，得到待分析文本对应的多个分词。即通过分词算法将待分析文本中的内容划分为多个分词。其中，分词可以为词语或者单字。示例性地，根据分词算法可以确定待分析文本对应的多种分词方式，选取其中最合适的分词方式对该待分析文本进行分词，得到该待分析文本对应的多个分词。例如，对“A公司市值超过B公司”进行分词处理，得到“A公司/市值/超过/B公司”。

预先训练好的属性抽取模型包括Bert网络、Dense网络以及CRF网络。其中，Bert网络用于将待分析文本对应的多个分词分别转换为每个分词对应的词向量；Dense网络用于对每个词向量进行分类，并输出每个词向量属于属性信息这一类别的概率；CRF网络用于给属于属性信息的词向量标记标签。

示例性地，将多个分词输入到Bert网络中进行处理，Bert网络将每个分词映射到公共语义空间，输出每个分词对应的词向量。对每个分词的处理顺序不做限定，可以是按照分词的顺序依次输入每个分词，对每个分词进行映射，得到每个分词对应的词向量；也可以是乱序输入每个分词，对每个分词进行映射，得到每个分词对应的词向量。此处仅为示例性说明，对此不做限定。

由于预先训练好的属性抽取模型，在训练过程中学习到了判断每个分词是否属于属性信息的能力，因此，将每个分词对应的词向量输入到Dense网络中进行处理，Dense网络判断每个词向量是否属于属性信息，并输出每个词向量属于属性信息的概率。例如，A公司、市值、超过、B公司这几个分词对应的词向量，所属于属性信息的概率依次为0.2、0.9、0.1、0.2。

将Dense网络的输出结果输入CRF网络中，CRF网络为概率最大的词向量打上标签，并输出该词向量对应的属性信息。例如，市值对应的概率最大，其最有可能为属性信息，通过CRF网络为“市值”对应的词向量打上“BIO”标签，其中，B用于标记属性信息的起始字符，I用于标记属性信息的中间字符，O用于标记非属性信息字符。例如，B用于标记“市”、I用于标记“值”、O标记在“值”后“超”前，此处仅为示例性说明，对此不做限定。

S104：通过预先训练好的情感分析模型对至少两个实体、属性信息以及待分析文本进行分析，得到至少两个实体对应的情感分析结果。

获取每个实体对应的标签以及属性信息对应的属性标签，将每个实体对应的标签以及属性信息对应的属性标签添加至待分析文本中，将添加标签后的文本输入到预先训练好的情感分析模型中进行处理，输出情感分析结果。

示例性地，一个属性信息对应一种情感分析结果，当有多个属性信息时，对应输出多个情感分析结果。其中，每种情感分析结果以每种属性信息为依据，对两个实体的优劣势进行评判。例如，待分析文本为“A公司市值超过B公司，但B公司口碑好”，该待分析文本中对应的实体分别为A公司和B公司，属性信息为市值和口碑，该待分析文本对应的最终情感分析结果可以为：A公司市值优于B公司，B公司口碑优于A公司，或者，A公司市值优于B公司，A公司口碑劣于B公司等。此处仅为示例性说明，对此不做限定。

上述实施例中，获取待分析文本；识别该待分析文本中的至少两个实体，该待分析文本包括包含至少两个实体的评论句；通过预先训练好的属性抽取模型提取该待分析文本中的属性信息；通过预先训练好的情感分析模型对至少两个实体、该属性信息以及该待分析文本进行分析，得到至少两个实体对应的情感分析结果。本实施中通过识别待分析文本中的实体，通过属性抽取模型提取该待分析文本中的属性信息；再通过情感分析模型对实体、属性信息以及待分析文本进行分析，在分析比较过程中加入了属性因素，将现有技术中简单的“实体-优劣势”比较，转换为“实体-属性信息-优劣势”比较，提取的分析要点全面、准确，使最终得到的实体比较结果更加准确。

图2是本申请一示例性实施例示出的分析文本的方法的步骤S102的具体流程图；在本申请一些可能的实现方式中，上述S101可包括S1021～S1022，具体如下：

S1021：对待分析文本进行分词处理，得到多个第一分词。

示例性地，通过分词算法对待分析文本进行分词处理，得到待分析文本对应的多个第一分词。具体的分词处理过程可参考S103中进行分词处理的过程，此处不再赘述。

可选地，在一种可能的实现方式中，在S1021之前，还可对待分析文本进行预处理，得到预处理结果。其中，预处理指提取去除待分析文本中的冗余信息。冗余信息是指待分析文本中没有实际意义的信息。例如，冗余信息可以是待分析文本中的停用词、标点符号等。停用词通常为限定词、语气助词、副词、介词、连接词、英文字符、数字、数学字符等。其中，英文字符为单独存在的字母，且没有实际意义。若英文字符为字母组合且具有意义时，此时，该英文字符被认定为有效字符，不会被去除。例如，当英文字符为CPU、MAC、HR等时，会作为有效字符保留下来，不会被去除。此处仅为示例性说明，对此不做限定。对预处理的结果进行分词处理，得到多个第一分词。

这种实现方式中，对待分析文本进行了预处理，预先去除了待分析文本中的冗余信息，使后续命名实体识别模型对经过预处理的待分析文本进行处理时，少了冗余信息的干扰，加快了命名实体识别模型的处理速度，以及提升了处理结果的准确度。

S1022：基于预先训练好的命名实体识别模型对多个第一分词进行处理，得到待分析文本中的至少两个实体。

命名实体识别模型用于识别出待分析文本中的实体。对命名实体识别模型的类型不做限定，例如，命名实体识别模型具体可以是BERT+CRF模型，也可以是BERT+BiLSTM+CRF模型。

示例性地，将多个第一分词输入至命名实体识别模型中，若输入的多个第一分词较多，则截取前若干个分词。例如，若输入的所有第一分词的总长度超过预设长度，则截取预设长度的第一分词。也可以是，若输入的所有第一分词的总字符超过预设字符长度，则截取预设字符长度的第一分词。例如，若输入的所有第一分词的总字符超过512字符，则截取前512个字符长度所对应的第一分词。

将截取后的若干个第一分词输入到命名实体识别模型中的Bert网络中进行处理，Bert网络将每个第一分词映射到公共语义空间，输出每个第一分词对应的词向量。将Bert网络的输出结果输入CRF网络中，命名实体识别模型中的CRF网络为这些词向量中的实体打上标签，并输出识别的实体。例如，通过CRF网络为“市值”对应的词向量打上“bio”标签，其中，b用于标记实体的起始字符，i用于标记实体的中间字符，o用于标记非实体字符。例如，b用于标记“A”、i用于标记“公”、o标记在“司”后“市”前，此处仅为示例性说明，对此不做限定。

可选地，在S1021之前，还可包括训练命名实体识别模型。该命名实体识别模型是通过使用机器学习算法对训练集进行训练得到。示例性地，预先采集多个样本评论句，标记每个样本评论句中的实体。基于这些样本评论句以及样本评论句中标记的实体构成训练集。

可选地，还可将训练集中的一部分数据作为测试集，便于后续对模型进行测试。例如，在训练集中选取若干个样本评论句，以及这些样本评论句各自对应的样本实体作为测试集。

示例性地，通过初始命名实体识别网络(训练前的命名实体识别模型)对训练集中的每个样本评论句进行处理，得到每个样本评论句对应的实体。初始命名实体识别网络对样本评论句进行处理的具体过程，可参考上述S1021～S1022中的具体过程，此处不再赘述。

在达到预设的训练次数时，对此时的初始命名实体识别网络进行测试。示例性地，将测试集中的样本评论句输入此时的初始命名实体识别网络中进行处理，此时的初始命名实体识别网络输出该样本评论句对应的实体。基于损失函数计算该样本评论句对应的实体与测试集中该样本评论句对应的样本实体之间的第一损失值。其中，损失函数可以为交叉熵损失函数。

当第一损失值不满足第一预设条件时，调整初始命名实体识别网络的参数(例如，调整初始命名实体识别网络的各个网络层对应的权重值)，并继续训练该初始命名实体识别网络。当第一损失值满足第一预设条件时，停止训练该初始命名实体识别网络，并将训练后的该初始命名实体识别网络作为已训练好的命名实体识别模型。例如，假设第一预设条件为损失值小于或等于预设的损失值阈值。那么，当第一损失值大于损失值阈值时，调整初始命名实体识别网络的参数，并继续训练该初始命名实体识别网络。当第一损失值小于或等于损失值阈值时，停止训练该初始命名实体识别网络，并将训练后的该初始命名实体识别网络作为已训练好的命名实体识别模型。此处仅为示例性说明，对此不做限定。

可选地，也可以是在训练初始命名实体识别网络的过程中，观察初始命名实体识别网络对应的损失函数收敛情况。当损失函数未收敛时，调整初始命名实体识别网络的参数，并基于训练集继续训练该初始命名实体识别网络。当损失函数收敛时，停止训练该初始命名实体识别网络，并将训练后的该初始命名实体识别网络作为已训练好的命名实体识别模型。其中，损失函数收敛是指损失函数的值趋于稳定。此处仅为示例性说明，对此不做限定。

上述实现方式中，通过使用机器学习算法对训练集进行训练得到命名实体识别模型，再通过命名实体识别模型识别待分析文本中的实体，可准确、快速地识别出待分析文本中的实体，便于后续跟进该实体进行情感分析，进而得到准确的情感分析结果。

可选地，在本申请一些可能的实现方式中，上述S104可包括S1041～S1044，具体如下：

S1041：获取实体标签组，实体标签组包括待比较的实体各自对应的标签。

本实施方式中，待分析文本对应的至少两个实体中包含一组待比较的实体。示例性地，当待分析文本对应的实体为两个时，这两个实体是可以进行比较的实体，可以理解为这两个实体是不同主体的实体。当待分析文本对应的实体有多个时，其中，至少有一组实体是可以进行比较的实体。

实体标签组是指待比较的两个实体各自对应的标签。例如，待分析文本为“A公司市值超过B公司”，其对应的实体为“A公司”和“B公司”。其中，“A公司”和“B公司”是一组待比较的实体。实体标签组指“A公司”对应的实体标签以及“B公司”对应的实体标签。

通过命名实体识别模型识别待分析文本中的实体时，对待分析文本中的实体进行了“bio”标签标记，可通过该标签标记确定每个实体在待分析文本中的位置。按照确定每个实体时的顺序，为每个实体设置实体标签。提取待比较的两个实体各自对应的实体标签。

S1042：获取属性信息对应的属性标签。

通过属性抽取模型提取待分析文本中的属性信息时，对待分析文本中的属性信息进行了“BIO”标签标记，可通过该标签标记确定每个属性信息在待分析文本中的位置。为每个属性信息设置实体标签。

例如，待分析文本为“A公司市值超过B公司”，其对应的属性信息为“市值”，为“市值”设定属性标签“<asp></asp>”。此处仅为示例性说明，对此不做限定。

S1043：将实体标签组以及属性标签添加至待分析文本中，得到第二目标待分析文本。

根据待比较的两个实体在待分析文本中的位置，以及这两个实体各自对应的实体标签，将这两个实体各自对应的实体标签添加至待分析文本中，同时将属性信息以及该属性信息对应的属性标签添加至待分析文本的开头，得到第二目标待分析文本。

例如，将“<s></s>”、“<o></o>”、“<asp>市值</asp>”添加至待分析文本中，得到“<asp>市值</asp><s>A公司</s>市值超过<o>B公司</o>”。

可选地，也可将属性信息和该属性信息对应的属性标签添加至待分析文本的结尾，得到“<s>A公司</s>市值超过<o>B公司</o><asp>市值</asp>”。将此处仅为示例性说明，对此不做限定。

S1044：通过情感分析模型对第二目标待分析文本进行分析，得到至少两个实体对应的情感分析结果。

示例性地，对第二目标待分析文本进行映射处理，得到第二目标待分析文本对应的语义向量。对该语义向量进行分类，即判断该语义向量属于哪种情感倾向。

上述实现方式中，通过情感分析模型对第二目标待分析文本进行分析，由于第二目标待分析文本中包含了属性信息对应的属性标签、待对比的两个实体各自对应的实体标签，在分析过程中考虑到了属性因素，提取的分析要点全面、准确，使分析得到的实体比较结果更加准确。

可选地，在本申请一些可能的实现方式中，上述S1044可包括S10441～S10444，具体如下：

S10441：对第二目标待分析文本进行分词处理，得到多个第三分词。

对第二目标待分析文本进行分词处理，得到多个第三分词的具体实现过程，可参考S103中进行分词处理的过程，此处不再赘述。

S10442：通过情感分析模型对每个第三分词进行映射处理，得到每个第三分词对应的词向量。

示例性地，将多个第三分词输入到情感分析模型中的Bert网络中进行处理，Bert网络将每个分词映射到公共语义空间，输出每个第三分词对应的词向量。

S10443：基于对第二目标待分析文本进行分词处理的处理顺序，将每个第三分词对应的词向量组合，得到目标词向量集合。

示例性地，可利用长短期记忆网络(Long Short-Term Memory，LSTM)对每个第三分词对应的词向量进行处理，该网络会基于第二目标待分析文本进行分词处理的处理顺序，将每个第三分词对应的词向量组合，输出目标词向量集合。

S10444：对目标词向量集合进行分析，得到情感分析结果。

将目标词向量集合输入到情感分析模型中的Dense网络中进行处理，Dense网络判断目标词向量集合属于每种情感倾向的概率，并输出概率最大的情感倾向，即输出情感分析结果。例如，该待分析文本对应的最终情感分析结果可以为：A公司市值优于B公司、A公司处于优势、B公司市值劣于A公司、B公司处于劣势等。此处仅为示例性说明，对此不做限定。

图3是本申请另一实施例提供的一种分析文本的方法的示意性流程图。示例性地，在本申请一些可能的实现方式中，如图3所示的分析文本的方法可包括：S201～S206，具体如下：

S201：获取待分析文本，该待分析文本包括包含至少两个实体的评论句。

S202：识别待分析文本中的至少两个实体。

本示例中的S201～S202可参考图1对应的实施例中S101～S102的描述，此处不再赘述。

S203：获取每个实体对应的实体标签。

通过命名实体识别模型识别待分析文本中的实体时，对待分析文本中的实体进行了“bio”标签标记，可通过该标签标记确定每个实体在待分析文本中的位置。按照确定每个实体时的顺序，为每个实体设置实体标签。

例如，待分析文本为“A公司市值超过B公司”，其对应的实体为“A公司”和“B公司”，为“A公司”设定实体标签“<s></s>”，为“B公司”设定实体标签“<o></o>”。此处仅为示例性说明，对此不做限定。

S204：将每个实体对应的实体标签添加至待分析文本中，得到第一目标待分析文本。

根据每个实体在待分析文本中的位置，以及每个实体对应的实体标签，将每个实体对应的实体标签添加至待分析文本中，得到第一目标待分析文本。例如，将“<s></s>”、“<o></o>”添加到待分析文本中，得到第一目标待分析文本即“<s>A公司</s>市值超过<o>B公司</o>”。此处仅为示例性说明，对此不做限定。

S205：通过预先训练好的属性抽取模型提取第一目标待分析文本中的属性信息。

通过属性抽取模型提取第一目标待分析文本中的属性信息的具体过程，可参考S103中通过属性抽取模型提取待分析文本中的属性信息的具体过程。值得说明的是，本实施方式中为实体添加了实体标签，在通过属性抽取模型提取第一目标待分析文本中的属性信息时，可忽略掉添加了实体标签的分词，只对其他分词进行处理，由于缺少了实体的干扰，提升了提取属性信息的准确度和速率。

S206：通过预先训练好的情感分析模型对至少两个实体、属性信息以及待分析文本进行分析，得到至少两个实体对应的情感分析结果。

本示例中的S206可参考图1对应的实施例中S104的描述，此处不再赘述。

上述实施方式中，为实体添加了实体标签，在通过属性抽取模型提取第一目标待分析文本中的属性信息时，可忽略掉添加了实体标签的分词，只对其他分词进行处理，由于缺少了实体的干扰，提升了提取属性信息的准确度和速率。

图4是本申请一示例性实施例示出的分析文本的方法的步骤S204的具体流程图；在本申请一些可能的实现方式中，上述S204可包括S2041～S2043，具体如下：

S2041：对待分析文本进行分词处理，得到多个第二分词。

对待分析文本进行分词处理，得到多个第二分词的具体实现过程，可参考S103中进行分词处理的过程，此处不再赘述。

S2042：通过属性抽取模型对每个第二分词进行映射处理，得到每个第二分词对应的词向量。

示例性地，将多个第二分词输入到属性抽取模型中的Bert网络中进行处理，Bert网络将每个分词映射到公共语义空间，输出每个第二分词对应的词向量。

S2043：为每个词向量添加每个实体对应的实体标签，得到第一目标待分析文本。

为每个第二分词对应的词向量添加每个实体对应的实体标签，得到第一目标待分析文本。例如，为每个第二分词对应的词向量添加“<s></s>”、“<o></o>”实体标签，得到第一目标待分析文本。此处仅为示例性说明，对此不做限定。

本实施方式中，为每个词向量添加每个实体对应的实体标签，增强了每个词向量与实体之间的联系，便于通过属性抽取模型提取出的待分析文本中的属性信息与实体高度相关，也提升了提取属性信息的准确度。

图5是本申请一示例性实施例示出的分析文本的方法的示意流程图；主要涉及在执行如图1所示的分析文本的方法之前，获得属性抽取模型的过程。该方法包括：S301～S303，具体如下：

S301：获取样本训练集，样本训练集包括多个样本文本，以及每个样本文本对应的属性标签。

示例性的，样本训练集可以来自网络中公开的数据。采集多个样本文本，为每个样本文本中的属性信息设置属性标签。值得说明的是，这里的样本文本可以与训练命名实体识别模型时用到的样本评论句相同，也可以不同，对此不做限定。

可选地，还可将样本训练集中的一部分数据作为样本测试集，便于后续对训练中的属性抽取模型进行测试。例如，在样本训练集中选取若干个样本文本，以及这些样本文本各自对应的属性标签作为样本测试集。

S302：基于样本训练集对初始属性抽取网络进行训练，并基于训练结果更新初始属性抽取网络的参数。

示例性地，通过初始属性抽取网络(训练前的属性抽取模型)对样本训练集中的每个样本文本进行处理，得到每个样本文本对应的属性信息。初始属性抽取网络对样本文本进行处理的具体过程，可参考上述S103中的具体过程，此处不再赘述。

在达到预设的训练次数时，对此时的初始属性抽取网络进行测试。示例性地，将样本测试集中的样本文本输入此时的初始属性抽取网络中进行处理，此时的初始属性抽取网络输出该样本文本对应的实际属性信息。基于损失函数计算该样本文本对应的实际属性信息与样本测试集中该样本文本对应的属性信息之间的第二损失值。其中，损失函数可以为交叉熵损失函数。

当第二损失值不满足第二预设条件时，调整初始属性抽取网络的参数(例如，调整初始属性抽取网络的各个网络层对应的权重值)，并继续训练该初始属性抽取网络。当第二损失值满足第二预设条件时，停止训练该初始属性抽取网络，并将训练后的该初始属性抽取网络作为已训练好的属性抽取模型。

例如，假设第二预设条件为损失值小于或等于预设的损失值阈值。那么，当第二损失值大于损失值阈值时，调整初始属性抽取网络的参数，并继续训练该初始属性抽取网络。当第二损失值小于或等于损失值阈值时，停止训练该初始属性抽取网络，并将训练后的该初始属性抽取网络作为已训练好的属性抽取模型。此处仅为示例性说明，对此不做限定。

S303：当检测到初始属性抽取网络对应的损失函数收敛时，得到属性抽取模型。

示例性地，也可以是在训练初始属性抽取网络的过程中，观察初始属性抽取网络对应的损失函数收敛情况。当损失函数未收敛时，调整初始属性抽取网络的参数，并基于样本训练集继续训练该初始属性抽取网络。当损失函数收敛时，停止训练该初始属性抽取网络，并将训练后的该初始属性抽取网络作为已训练好的属性抽取模型。其中，损失函数收敛是指损失函数的值趋于稳定。此处仅为示例性说明，对此不做限定。

可选地，本申请提供的分析文本的方法还可包括训练情感分析模型。该情感分析模型是通过使用机器学习算法对训练集进行训练得到。示例性地，预先采集多个包含情感倾向的样本情感分析句，设置每个样本情感分析句对应的样本情感分析结果。基于这些样本情感分析句以及样本情感分析句对应的样本情感分析结果构成训练集。

可选地，还可将训练集中的一部分数据作为测试集，便于后续对情感分析模型进行测试。例如，在训练集中选取若干个样本情感分析句，以及这些样本情感分析句各自对应的样本情感分析结果作为测试集。

示例性地，通过初始情感分析网络(训练前的情感分析模型)对训练集中的每个样本情感分析句进行处理，得到每个样本情感分析句对应的实际情感分析结果。初始情感分析网络对样本情感分析句进行处理的具体过程，可参考上述S104中的具体过程，此处不再赘述。

在达到预设的训练次数时，对此时的初始情感分析网络进行测试。示例性地，将测试集中的样本情感分析句输入此时的初始情感分析网络中进行处理，此时的初始情感分析网络输出该样本情感分析句对应的实际情感分析结果。基于损失函数计算该样本情感分析句对应的实际情感分析结果与测试集中该样本情感分析句对应的样本情感分析结果之间的第三损失值。其中，损失函数可以为交叉熵损失函数。

当第三损失值不满足第三预设条件时，调整初始情感分析网络的参数(例如，调整初始情感分析网络的各个网络层对应的权重值)，并继续训练该初始情感分析网络。当第三损失值满足第三预设条件时，停止训练该初始情感分析网络，并将训练后的该初始情感分析网络作为已训练好的情感分析模型。例如，假设第三预设条件为损失值小于或等于预设的损失值阈值。那么，当第三损失值大于损失值阈值时，调整初始情感分析网络的参数，并继续训练该初始情感分析网络。当第三损失值小于或等于损失值阈值时，停止训练该初始情感分析网络，并将训练后的该初始情感分析网络作为已训练好的情感分析模型。此处仅为示例性说明，对此不做限定。

可选地，也可以是在训练初始情感分析网络的过程中，观察初始情感分析网络对应的损失函数收敛情况。当损失函数未收敛时，调整初始情感分析网络的参数，并基于训练集继续训练该初始情感分析网络。当损失函数收敛时，停止训练该初始情感分析网络，并将训练后的该初始情感分析网络作为已训练好的情感分析模型。其中，损失函数收敛是指损失函数的值趋于稳定。此处仅为示例性说明，对此不做限定。

可选地，在一种可能的实现方式中，同时训练命名实体识别模型、属性抽取模型以及情感分析模型。此时，三种模型所采用的训练样本集可以类似，例如，都可以是样本分析文本，对于每种不同的模型，样本分析文本对应的标签不同，具体的训练过程可参考前面对每个模型单独训练的过程。值得说明的是，当三个模型共同训练时，可将三个模型各自对应的损失值加权叠加，比较加权叠加后的损失值是否满足第四预设条件时，若不满足第四预设条件，调整训练过程中三个模型各自对应的参数，并继续训练这三个模型；若加权叠加后的损失值满足第四预设条件，停止训练这三个模型，得到训练好的三个模型。

假设第四预设条件为损失值小于或等于预设的损失值阈值。那么，当加权叠加后的损失值大于损失值阈值时，调整训练过程中三个模型各自对应的参数，并继续训练这三个模型。当加权叠加后的损失值小于或等于损失值阈值时，停止训练这三个模型，得到训练好的三个模型。此处仅为示例性说明，对此不做限定。

上述实现方式中，将三种模型同时训练，可以提升三个模型在处理数据时的契合度，三种模型相互监督，进而在实际使用时，使分析得到的实体比较结果更加准确。

请参见图6，图6是本申请一实施例提供的一种分析文本的装置的示意图。该装置包括的各单元用于执行图1～图5对应的实施例中的各步骤。具体请参阅图1～图5各自对应的实施例中的相关描述。

为了便于说明，仅示出了与本实施例相关的部分。参见图6，包括：

获取单元410，用于获取待分析文本；

识别单元420，用于识别所述待分析文本中的至少两个实体，所述待分析文本包括包含至少两个实体的评论句；

提取单元430，用于通过预先训练好的属性抽取模型提取所述待分析文本中的属性信息；

分析单元440，用于通过预先训练好的情感分析模型对所述至少两个实体、所述属性信息以及所述待分析文本进行分析，得到所述至少两个实体对应的情感分析结果。

可选地，所述识别单元420具体用于：

对所述待分析文本进行分词处理，得到多个第一分词；

可选地，所述装置还包括：

标签获取单元，用于获取每个实体对应的实体标签；

添加单元，用于将每个实体对应的实体标签添加至所述待分析文本中，得到第一目标待分析文本；

所述提取单元430具体用于：

可选地，所述添加单元具体用于：

对所述待分析文本进行分词处理，得到多个第二分词；

可选地，所述至少两个实体中包含一组待比较的实体，所述分析单元440具体用于：

获取所述属性信息对应的属性标签；

可选地，所述分析单元440还用于：

对所述目标词向量集合进行分析，得到所述情感分析结果。

可选地，所述装置还包括训练单元，具体用于：

请参见图7，图7是本申请另一实施例提供的分析文本的设备的示意图。如图7所示，该实施例的分析文本的设备5包括：处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机指令52。所述处理器50执行所述计算机指令52时实现上述各个分析文本的方法实施例中的步骤，例如图1所示的S101至S104。或者，所述处理器50执行所述计算机指令52时实现上述各实施例中各单元的功能，例如图6所示单元410至440功能。

示例性地，所述计算机指令52可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器51中，并由所述处理器50执行，以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机指令段，该指令段用于描述所述计算机指令52在所述分析文本的设备5中的执行过程。例如，所述计算机指令52可以被分割为获取单元、识别单元、提取单元以及分析单元，各单元具体功能如上所述。

所述分析文本的设备可包括，但不仅限于，处理器50、存储器51。本领域技术人员可以理解，图7仅仅是分析文本的设备5的示例，并不构成对分析文本的设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述分析文本的设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器50可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器51可以是所述分析文本的设备的内部存储单元，例如分析文本的设备的硬盘或内存。所述存储器51也可以是所述分析文本的设备的外部存储终端，例如所述分析文本的设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器51还可以既包括所述分析文本的设备的内部存储单元也包括外部存储终端。所述存储器51用于存储所述计算机指令以及所述终端所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机存储介质，计算机存储介质可以是非易失性，也可以是易失性，该计算机存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述各个分析文本的方法实施例中的步骤。

本申请还提供了一种计算机程序产品，当计算机程序产品在该设备上运行时，使得该设备执行上述各个分析文本的方法实施例中的步骤。

本申请实施例还提供了一种芯片或者集成电路，该芯片或者集成电路包括：处理器，用于从存储器中调用并运行计算机程序，使得安装有该芯片或者集成电路的设备执行上述各个分析文本的方法实施例中的步骤。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神范围，均应包含在本申请的保护范围之内。

Claims

1.一种分析文本的方法，其特征在于，包括：

获取待分析文本，所述待分析文本包括包含至少两个实体的评论句；

识别所述待分析文本中的至少两个实体；

通过预先训练好的属性抽取模型提取所述待分析文本中的属性信息；所述属性抽取模型包括Bert网络、Dense网络以及CRF网络；其中，所述Bert网络用于将所述待分析文本对应的多个分词分别转换为词向量；所述Dense网络用于对每个词向量进行分类，并输出每个词向量属于所述属性信息的概率；所述CRF网络用于为属于所述属性信息的词向量标记标签；

通过预先训练好的情感分析模型对所述至少两个实体、所述属性信息以及所述待分析文本进行分析，得到所述至少两个实体对应的情感分析结果；

其中，所述至少两个实体中包含一组待比较的实体，所述通过预先训练好的情感分析模型对所述至少两个实体、所述属性信息以及所述待分析文本进行分析，得到所述至少两个实体对应的情感分析结果，包括：获取实体标签组，所述实体标签组包括待比较的实体各自对应的标签；获取所述属性信息对应的属性标签；将所述实体标签组以及所述属性标签添加至所述待分析文本中，得到第二目标待分析文本；对所述第二目标待分析文本进行分词处理，得到多个第三分词；通过所述情感分析模型对每个第三分词进行映射处理，得到每个第三分词对应的词向量；基于对所述第二目标待分析文本进行分词处理的处理顺序，将每个第三分词对应的词向量组合，得到目标词向量集合；对所述目标词向量集合进行分析，得到所述情感分析结果。

2.如权利要求1所述的方法，其特征在于，所述识别待分析文本中的至少两个实体，包括：

对所述待分析文本进行分词处理，得到多个第一分词；

3.如权利要求1所述的方法，其特征在于，所述通过预先训练好的属性抽取模型提取所述待分析文本中的属性信息之前，所述方法还包括：

获取每个实体对应的实体标签；

4.如权利要求3所述的方法，其特征在于，所述将每个实体对应的实体标签添加至所述待分析文本中，得到第一目标待分析文本，包括：

对所述待分析文本进行分词处理，得到多个第二分词；

5.如权利要求1至4任一项所述的方法，其特征在于，所述识别待分析文本中的至少两个实体之前，所述方法还包括：

6.一种分析文本的装置，其特征在于，包括：

获取单元，用于获取待分析文本；

提取单元，用于通过预先训练好的属性抽取模型提取所述待分析文本中的属性信息；所述属性抽取模型包括Bert网络、Dense网络以及CRF网络；其中，所述Bert网络用于将所述待分析文本对应的多个分词分别转换为词向量；所述Dense网络用于对每个词向量进行分类，并输出每个词向量属于所述属性信息的概率；所述CRF网络用于为属于所述属性信息的词向量标记标签；

分析单元，用于通过预先训练好的情感分析模型对所述至少两个实体、所述属性信息以及所述待分析文本进行分析，得到所述至少两个实体对应的情感分析结果；

7.一种分析文本的设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的方法。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的方法。