CN110955750A

CN110955750A - 评论区域和情感极性的联合识别方法、装置、电子设备

Info

Publication number: CN110955750A
Application number: CN201911097178.1A
Authority: CN
Inventors: 徐飒; 方瑞玉
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2020-04-03

Abstract

本申请实施例公开一种评论区域和情感极性的联合识别方法、装置、电子设备，该联合识别方法包括：确定目标文本针对的评论对象的名称和所述目标文本匹配的评论维度信息，评论维度信息包括：评论维度的名称和与评论维度关联的关键词；根据目标文本、评论对象的名称、评论维度的名称和关键词构造输入数据，并将输入数据输入至评论区域及情感极性联合识别模型；通过联合识别模型，根据目标文本携带的字符之间的上下文信息和评论对象的名称、评论维度的名称和关键词携带的区域信息，预估目标文本中的评论区域和情感极性。利用本申请实施例公开的评论区域和情感极性的联合识别方法，能实现同时识别出目标文本中的评论区域和目标文本的情感极性。

Description

评论区域和情感极性的联合识别方法、装置、电子设备

技术领域

本申请实施例涉及计算机技术领域，特别是涉及一种评论区域和情感极性的联合识别方法、装置、电子设备及计算机可读存储介质。

背景技术

用户原创数据(如用户评论)中通常包括用户对商家或商品的不同观点。例如，互联网购物应用场景中，用户对网络订单的评论通常包括用户对购买过的商家或商品的不同观点。充分利用用户原创数据，在用户原创数据中进行实体和观点信息挖掘，对于商家改进产品质量、提升服务质量，以及进行商家和商品的推荐等具有重要意义。现有技术中，进行实体和观点挖掘的方法通常是对整条评论数据进行识别，识别其中的实体和/或观点，而且需要预先标识训练样本中的观点关键词。现有技术中的实体和观点挖掘方法对于不带有情感色彩的用户原创数据挖掘准确率较低，并且，没有基于评论数据全文进行挖掘的方式也会导致挖掘准确率降低。

发明内容

本申请实施例公开一种评论区域和情感极性的联合识别方法，能够提升从用户原创数据中挖掘指定信息的效率。

为了解决上述问题，第一方面，本申请实施例公开一种评论区域和情感极性的联合识别方法，包括：

确定目标文本针对的评论对象的名称和所述目标文本匹配的评论维度信息，所述评论维度信息包括：评论维度的名称和与所述评论维度关联的关键词；

根据所述目标文本、所述评论对象的名称、所述评论维度的名称和所述关键词构造输入数据，并将所述输入数据输入至评论区域及情感极性联合识别模型；

通过所述评论区域及情感极性联合识别模型来根据所述目标文本携带的字符之间的上下文信息和所述评论对象的名称、所述评论维度的名称和所述关键词携带的区域信息，预估所述目标文本中的评论区域和所述目标文本匹配的情感极性。

第二方面，本申请实施例公开一种评论区域和情感极性的联合识别装置，包括：

评论对象和评论维度确定模块，用于确定目标文本针对的评论对象的名称和所述目标文本匹配的评论维度信息，所述评论维度信息包括：评论维度的名称和与所述评论维度关联的关键词；

输入数据构造模块，用于根据所述目标文本、所述评论对象的名称、所述评论维度的名称和所述关键词构造输入数据，并将所述输入数据输入至评论区域及情感极性联合识别模型；

评论区域和情感极性识别模块，用于通过所述评论区域及情感极性联合识别模型来根据所述目标文本携带的字符之间的上下文信息和所述评论对象的名称、所述评论维度的名称和所述关键词携带的区域信息，预估所述目标文本中的评论区域和所述目标文本匹配的情感极性。

第三方面，本申请实施例还公开一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请实施例所述的评论区域和情感极性的联合识别方法。

第四方面，本申请实施例公开一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时本申请实施例公开的评论区域和情感极性的联合识别方法的步骤。

本申请实施例公开的评论区域和情感极性的联合识别方法，通过确定目标文本针对的评论对象的名称和所述目标文本匹配的评论维度信息，所述评论维度信息包括：评论维度的名称和与所述评论维度关联的关键词；根据所述目标文本、所述评论对象的名称、所述评论维度的名称和所述关键词构造输入数据，并将所述输入数据输入至评论区域及情感极性联合识别模型；通过所述评论区域及情感极性联合识别模型来根据所述目标文本携带的字符之间的上下文信息和所述评论对象的名称、所述评论维度的名称和所述关键词携带的区域信息，预估所述目标文本中的评论区域和所述目标文本匹配的情感极性，可以同时识别出目标文本中的评论区域和目标文本的情感极性，能够提升从用户原创数据中挖掘指定信息的效率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例一的评论区域和情感极性的联合识别方法流程图；

图2是本申请实施例一中采用的识别模型结构示意图；

图3是本申请实施例二的评论区域和情感极性的联合识别装置结构示意图之一；

图4是本申请实施例二的评论区域和情感极性的联合识别装置结构示意图之二。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例公开的评论区域和情感极性的联合识别方法可以用于识别不同类别下的对象的评论文本中的评论区域。通过本申请的方法识别出用户原创文本中的评论区域和情感极性之后，进一步对相应评论区域中的文本机型观点挖掘，可以提升观点挖掘的准确性。本申请实施例公开的评论区域和情感极性的联合识别方法应用在外卖领域用户原创数据中进行评论区域识别时，对评论区域的识别模糊匹配达到84％，精确匹配达到72％，情感极性识别准确率达到96％。下面结合具体实施例详细阐述本申请的技术方案。

实施例一

本申请实施例公开的一种评论区域和情感极性的联合识别方法，如图1所示，该方法包括：步骤110至步骤130。

步骤110，确定目标文本针对的评论对象的名称和目标文本匹配的评论维度信息。

所述评论维度信息包括：评论维度的名称和与所述评论维度关联的关键词，所述评论维度的名称和与所述评论维度关联的关键词根据所述目标文本中具有描述功能的词语确定。

本申请具体实施时，通过预先训练的评论区域及情感极性联合识别模型，预测目标文本中的评论区域，和目标文本的情感极性。所述评论区域及情感极性联合识别模型的输入包括两部分信息，第一部分信息为所述目标文本，第二部分信息包括：所述目标文本针对的评论对象的名称、所述目标文本匹配的评论维度信息。其中，所述目标文本匹配的评论维度信息进一步包括：评论维度的名称、与所述评论维度关联的关键词，所述评论维度的名称和与所述评论维度关联的关键词是预设的语料库中存储的。例如，对于目标文本“酸辣粉太好吃了，哈哈”可以确定其针对的评论对象为“酸辣粉”，而其匹配的评论维度可以为预设的语料库中存储的任何一个评论维度，与所述评论维度关联的关键词则进一步根据语料库中存储的关键词和评论维度的关联关系确定。例如，可以确定该目标文本匹配的评论维度为“口味口感”或者“配送”等。

本申请的一些实施例中，确定目标文本针对的评论对象的名称和所述目标文本匹配的评论维度信息的，包括：确定目标文本针对的评论对象的名称；根据预设语料库中存储的关键词和选择的评论维度的关联关系，确定选择的所述评论维度关联的关键词和所述评论维度的名称。

本申请的一些实施例中，可以通过预设的命名实体识别模型确定目标文本针对的评论对象的名称。例如，以每条用户评论的评论内容作为模型的输入，以该条用户评论中的评论对象作为模型的预测目标，训练命名实体识别模型。然后，对于待处理用户原创数据，通过该命名实体识别模型即可识别出该待处理用户原创数据中的评论对象。例如，对于用户评论文本：“水煮鱼很好吃，鲜嫩爽滑，配送给力，包装大气”，通过命名实体识别模型进行识别，可以确定其中的评论对象为“水煮鱼”。命名实体识别模型的训练方案参见现有技术，本申请实施例中不再赘述。

本申请的另一些实施例中，也可以通过词语匹配的方式，确定目标文本针对的评论对象的名称。在本申请的其他实施例中，还可以通过其他方式确定目标文本针对的评论对象的名称。本申请对确定目标文本针对的评论对象的名称的具体方式不做限定。

本申请的一些实施例中，预先设置多个评论维度。例如，可以根据对用户评论数据的分析结果，确定用户评论数据涉及较多的评论维度。在识别目标文本的评论区域和情感极性时，分别以所述目标文本中的评论对象和每个预设的评论维度的信息的组合作为输入，确定对应不同评论维度的评论区域和情感极性预测结果。本申请的一些实施例中，还需要预先确定每个评论维度的名称和每个评论维度关联的关键词。

本申请的一些实施例中，根据预设语料库中存储的关键词和评论维度的关联关系，确定选择的所述评论维度所关联的关键词和所述评论维度的名称。首先，需要确定语料库，所述语料库中存储有关键词和评论维度的关联关系。

本申请的一些实施例中，关键词和评论维度的关联关系通过评论维度的名称和关键词的对应关系表示，通常，一个评论维度的名称会对应多个关键词。例如，关键词和评论维度的关联关系可以表示为{class，{keyword}}，其中，class表示评论维度的名称，{keyword}表示描述该评论维度下的关键词的集合。在确定了评论维度之后，根据关键词和评论维度的关联关系即可确定关键词。

本申请的一些实施例中，所述关键词和评论维度的关联关系通过以下方式确定：根据获取的若干条用户原创数据，确定若干关键词；对所述若干关键词进行聚类，确定多个关键词类别；分别确定由每个所述关键词类别中满足预设条件的所述关键词，组成的关键词集合；通过对每个所述关键词集合中包括的所述关键词的评论内容进行抽象，确定每个所述关键词集合关联的评论维度和所述评论维度的名称，所述关键词关联的评论维度为所述关键词所在关键词集合关联的评论维度。

在构建语料库时，首先，需要对获取的用户原创数据(如用户评论数据)进行预处理。在本申请的一些实施例中，对用户原创数据进行预处理的步骤包括：对目标数据进行标点符号清洗。例如，对评论文本进行标点符号的处理，所有的标点符号替换为逗号，连续多个逗号只保留1个逗号。以用户评论文本：“口感不错，配送挺快的。。。。”为例，经过预处理，目标数据将变为：“口感不错，配送挺快的，”。

然后，对预处理后的用户原创数据进行分词，得到若干关键词。例如：采用分词工具，结合预设词库对评论数据进行分词处理，得到若干词语，作为关键词。或者，采用Jieba,SnowNLP等分词工具对预处理后的用户原创数据进行分词处理，得到若干词语。

之后，对所述若干关键词进行聚类，确定多个关键词类别。

本申请的一些实施例中，可以采用主题模型对所述若干关键词进行无监督聚类，确定多个关键词类别，每个所述关键词类别中包括若干关键词。例如，采用主题模型(LDA)对分词得到的若干词语进行主题词提取，获取若干关键词，并对提取到的关键词进行无监督聚类，确定多个关键词类别。

接下来，分别确定由每个所述关键词类别中满足预设条件的所述关键词，组成的关键词集合。

本申请的一些实施例中，所述预设条件可以为出现频次最高的K(K为正整数)个关键词。例如，可以选取每个关键词类别下的TopK个关键词代表这个关键词类别的词语描述信息。例如，对于一组用户评论数据，其包含的句子有<d1,d2,d3>，其中d1＝“口感不错，配送挺快的”，d2＝“味道非常好，卫生”,d3＝“巧克力很好吃，包装也比较给力”。通过Jieba分词得到每条评论数据的分词结果，然后把分词结果进行LDA主题模型提取，获取每条评论数据中的关键词，并且对获取的关键词进行聚类，得到多个关键词类别。之后，选取每个关键词类别中TOPK个关键词该组成该关键词类别对应的关键词集合。例如得到的关键词集合包括：集合1＝<口感，味道，非常好>；集合2＝<配送，挺快>；集合3＝<包装，给力>。

最后，通过对每个所述关键词集合中包括的所述关键词的评论内容进行抽象，确定每个所述关键词集合关联的评论维度和所述评论维度的名称。

由前述步骤可知，每个关键词集合中包括K个关键词，每个关键词集合中包括的K个关键词可以作为该关键词集合的一种描述信息，因此，通过对所述关键词集合中包括的所述关键词的评论内容进行抽象，确定每个所述关键词集合关联的评论维度，进而确定每个所述关键词集合关联的评论维度的名称。那么，所述关键词集合中的每个关键词关联的评论维度，则为所述关键词所在关键词集合关联的评论维度。

例如，前述集合1匹配的评论维度可以设置为“口味口感”，前述集合2匹配的评论维度可以设置为“配送”，前述集合3匹配的评论维度可以设置为“外观”。则，前述确定的关键词集合和评论维度名称可以表示为：{口味口感，{“口感”、“味道”、“非常好”、…}},{配送，{“配送”、“挺快”、“送的”、…}},{外观,{“巧克力”、“好看”、“不错”、…}}。

最后，将确定的关键词集合和各关键词集合对应的评论维度的名称以对应关系的形式存储到语料库中。

步骤120，根据目标文本、评论对象的名称、评论维度的名称和关键词构造输入数据，并将输入数据输入至评论区域及情感极性联合识别模型。

本申请具体实施时，在通过所述评论区域及情感极性联合识别模型对目标文本进行评论区域和情感极性识别之前，首先需要训练所述评论区域及情感极性联合识别模型。

本申请的一些实施例中，所述确定目标文本针对的评论对象的名称和所述目标文本匹配的评论维度信息之前，还包括：训练评论区域及情感极性联合识别模型的步骤。其中，所述训练评论区域及情感极性联合识别模型的步骤进一步包括：根据用户原创数据，构造若干训练样本；其中，每条所述训练样本包括模型输入数据和输出目标数据两部分数据，所述模型输入数据包括：评论文本、所述评论文本针对的评论对象的名称、所述评论文本匹配的评论维度的名称，以及与所述评论维度关联的关键词；所述输出目标数据包括：所述评论文本中各字符的位置属性标识真实值和所述评论文本匹配的情感极性标识真实值。之后，以所述训练样本的位置属性标识损失值和情感极性标识损失值的加权之和最小为目标，训练所述评论区域及情感极性联合识别模型。其中，所述位置属性标识用于指示相应字符是否处于评论区域；每条所述训练样本的位置属性标识损失值是根据所述评论文本中各字符的位置属性标识目标的预测值与所述真实值的差值计算得到的；每条所述训练样本的情感极性标识损失值是根据所述评论文本匹配的情感极性标识的预测值与所述真实值的差值计算得到的。

本申请的一些实施例中，通过以下方法构造训练样本。

首先获取若干条用户原创数据。然后，对于每条用户原创数据，分别确定该条用户原创数据中包括的评论文本、该条用户原创数据针对的评论对象的名称、该条用户原创数据匹配的评论维度的名称、以及各评论维度的名称关联的关键词。从一条用户原创数据中分别确定该条用户原创数据中包括的评论文本、该条用户原创数据针对的评论对象的名称、该条用户原创数据匹配的评论维度的名称、以及各评论维度的名称关联的关键词的具体方法参见从目标文本中提取上述信息的描述，此处不再赘述。

之后，根据上述信息，按照预设格式构建训练样本。首先，根据每条用户原创数据中包括的评论文本、该条用户原创数据针对的评论对象的名称、该条用户原创数据匹配的评论维度的名称、以及各评论维度的名称关联的关键词构建模型输入数据。

本申请实施例中，所述的评论区域及情感极性联合识别模型要求将上述信息中的字符依次输入至该模型中，并且，不同数据分段输入。本申请的一些实施例中，所述评论区域及情感极性联合识别模型的模型输入数据包括两个部分：第一部分输入为评论文本，第二部分输入包括评论对象和文本描述信息，所述文本描述信息进一步包括：所述评论文本中包括的关键词，以及所述关键词对应的评论维度名称，每一部分分别以[CLS]开始和[SEP]结束。为了便于模型训练，本申请实施例中，将第一部分输入的字符长度限定在M个字符，将第二部分输入的字符长度限定在T个字符，其中，M和T为正整数，M和T的取值，可以根据用户原创数据的常规长度确定。

本申请的一些实施例中，第一部分输入的长度限定在M个字符之内，依序放入评论内容文本。如果评论内容文本长度大于M，则截取评论内容文本中前M个字符，作为第一部分输入；如果评论内容文本长度小于M，则在评论内容文本之后补入[PAD]字符。之后，在第一部分输入加上[CLS],在第一部分输入之后加上[SEP]两个间隔符号。

本申请的一些实施例中，第二部分输入的长度限定在T个字符之内，依次放入所述评论文本中的评论对象和文本描述信息。如果评论对象和文本描述信息的总字符长度大于T，则截取前T个字符，作为第二部分输入；如果评论对象和文本描述信息的总字符长度小于T，则在文本描述信息之后补入[PAD]字符。之后，在第二部分输入之后加上[SEP]间隔符号。

之后，对于每条用户原创数据，确定该条数据对应的输出目标数据。

本模型的输出目标数据包括两部分信息，其中，第一部分信息为评论区域中每个字符的位置属性标识；第二部分信息为模型输入数据中的评论文本匹配的情感极性标识。申请的一些实施例中，可以对用户评论数据对应的评论文本进行BIO标注，即将所述评论文本中的每个字符标注为标签集合[B、I、O、Seq]中的一个标签，其中，B代表评论区域开始位置，I代表评论区域的中间位置，O代表不在评论区域中，Seq代表句子的结束位置。然后，将评论文本的标注结果作为该条用户原创数据对应的模型输出目标数据的第一部分信息。对于模型输出目标数据的第二部分信息，可以根据评论文本的内容标注为标识不同情感极性的类别标识，如0或1。

以评论数据为“米粉太好吃了，”举例，其中评论文本为“米粉太好吃了，”，评论为本中的评论对象为“酸辣米粉”，如果选择名称为“口味口感”的评论维度，通过预设预料库确定的关键词可以为“好吃”，这条评论数据的情感极性类别为“1”(假设“1”标识积极情感)，那么，评论数据为“米粉太好吃了，”对应的模型输入数据可以包括以下两个部分：第一部分：“米粉太好吃了，”，第二部分：“酸辣米粉”、“口味口感”和“好吃”。则训练所述评论区域及情感极性联合识别模型时的输入数据表示为：“[CLS]米粉太好吃了，[SEP]酸辣米粉口味口感好吃[SEP]”。而评论数据为“米粉太好吃了，”对应的模型输出目标数据表示为：“BIIIII[SEP]OOOOO1”，模型输出目标数据的长度为M+1个字符，其中，最后一个字符标识情感极性类别。

按照上述方法，可以根据每条用户原创数据构建一条训练样本。

接下来，基于采用上述方法构建的训练样本训练所述评论区域及情感极性联合识别模型。

本申请实施例中，所述评论区域及情感极性联合识别模型是基于BERT模型搭建的，所述评论区域及情感极性联合识别模型包括：评论区域识别任务和情感极性识别任务，所述评论区域识别任务和情感极性识别任务共用BERT模型的输出。

本申请的一些实施例中，如图2所示，所述评论区域及情感极性联合识别模型采用BERT(Bidirectional Encoder Representations from Transformers)模型+CRF(conditional random field algorithm，条件随机场)模型的网络结构，CRF模型以BERT模型的输入作为输入。BERT模型的全称是：BidirectionalEncoder Representations fromTransformer。BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的表达，即：文本的语义表示。

所述评论区域及情感极性联合识别模型包括两个任务：情感极性识别任务和评论区域识别任务。输入数据经过BERT模型之后，输出表达输入文本之间相互关联的隐层向量，CRF模型的情感极性识别任务和评论区域识别任务分别对BERT模型输出的隐层向量的相应部分进行映射处理，分别输出评论区域预测结果和情感极性预测结果。

以评论区域及情感极性联合识别模型的输入数据包括M+2+T+1个字符为例，输入数据经过BERT模型之后，将转化为M+T+3个隐层向量。其中，将前M+2个隐层向量作为评论区域识别任务的输入,M+2个隐层向量中每个向量的维度是d_hidden,BERT模型对应评论区域识别任务的输出矩阵的标识为H[M+2，d_hidden]；后T+1个隐层向量作为情感极性识别任务的输入，T+1个隐层向量中每个向量的维度是d_hidden。

进一步的，情感识别任务对上述M+2个隐层向量进行线性变换输出情感极性类别标签。本申请的一些实施例中，线性变换的公式为：Y＝WH+B，其中，label_size表示情感极性类别的维度，例如，label_size＝2；W为变换权重矩阵，W的维度[label_size,(M+2)*d_hidden]；B为偏置矩阵，B的维度[label_size]；H为BERT模型输出的前M+2个隐层向量，H的维度为[(M+2)*d_hidden,1],Y表示情感极性类别预测结果，Y的维度[label_size]。

评论区域识别任务对上述M+2个隐层向量进行运算处理，输出每个隐层向量的预测位置属性标识。

所述评论区域及情感极性联合识别模型的训练目标为对输入评论文本的位置属性预测结果损失值与情感极性预测结果损失值的加权和最小，即以所述训练样本的位置属性标识损失值和情感极性标识损失值的加权之和最小为目标。其中，每条所述训练样本的位置属性标识损失值是根据所述评论文本中各字符的位置属性标识目标的预测值与所述真实值的差值计算得到的；每条所述训练样本的情感极性标识损失值是根据所述评论文本匹配的情感极性标识的预测值与所述真实值的差值计算得到的。

本申请的一些实施例中，根据每条训练样本的位置属性标识真实值和位置属性标识预测值的差值作为该条训练样本的位置属性标识损失值；以该条训练样本的情感极性标识真实值和情感极性标识预测值得差值作为该条训练样本的情感极性标识损失值。其中，预测值为识别模型对该条训练样本中的模型输入数据进行计算后得到的。之后，对每条训练样本的位置属性标识损失值和情感极性标识损失值累加后求平均值，作为所述评论区域及情感极性联合识别模型的损失值。

本申请的另一些实施例中，所述评论区域及情感极性联合识别模型的损失函数被配置为：

，其中，N表示训练样本总数；M+2表示位置属性标识的字符长度；w为情感极性损失值的权值；

表示第i个训练样本中评论文本第j个字符的位置属性标识预测值；

表示第i个训练样本中评论文本第j个字符对应的位置属性标识真实值，

和

的取值范围为预设值，如{B,I,O,Seq}；S_i表示第i个训练样本的情感极性标识预测值；P_i表示第i个训练样本的情感极性标识真实值；φ(θ)为正则化项，M和N为正整数。

本申请的一些实施例中，训练样本可以表示为

训练样本包括三部分信息。第一部为信息x_i为评论区域及情感极性联合识别模型的输入，表示为x_i＝[u_i:q_i]，其中u_i表示第i个训练样本对应的评论数据中的评论文本，表示为

代表第i个训练样本的第n个字符；q_i表示第i个训练样本对应的评论文本中包括的评论对象、描述维度和所述描述维度对应的关键词。第二部分信息

为第i个训练样本对应的评论数据中每个字符的位置属性标识，

1≤j≤M+2。第三部分信息p_i表示第i个训练样本对应的评论数据的情感极性标识，p_i∈{0,1}。

所述评论区域及情感极性联合识别模型的输入为x_i，所述评论区域及情感极性联合识别模型对输入x_i的识别结果表示为

其中，

表示模型对第i个训练样本对应的评论文本中每个字符的位置属性标识预测结果，s_i表示模型对第i个训练样本对应的评论文本的情感极性预测结果，S_i∈{0,1}。

经过训练，将得到CRF模型的最优参数，所述情感极性识别任务和评论区域识别任务将基于上述最优参数进行字符的位置属性标识和情感极性标识预测。

本申请的另一些实施例中，还可以采用全连接网络或者svm模型与BERT模型组合构建评论区域及情感极性联合识别模型，联合识别模型的样本构建和模型训练过程参见本实施例中的描述。

步骤130，通过评论区域及情感极性联合识别模型来根据目标文本携带的字符之间的上下文信息和评论对象的名称、评论维度的名称和关键词携带的区域信息，预估目标文本中的评论区域和目标文本匹配的情感极性。

本申请的一些实施例中，所述通过所述评论区域及情感极性联合识别模型，所述通过所述评论区域及情感极性联合识别模型来根据所述目标文本携带的字符之间的上下文信息和所述评论对象的名称、所述评论维度的名称和所述关键词携带的区域信息，预估所述目标文本中的评论区域和所述目标文本匹配的情感极性的步骤，包括：通过所述BERT模型，根据所述目标文本携带的字符之间的上下文信息和所述评论对象的名称、所述评论维度的名称和所述关键词携带的区域信息进行特征提取，得到与所述目标文本中各字符对应的隐向量；通过所述评论区域识别任务对各字符对应的隐向量进行特征映射和变换处理，预估所述目标文本中各字符的位置属性标识；以及，通过所述情感极性识别任务对各字符对应的隐向量进行线性变换处理，预估所述目标文本的情感极性标识；根据所述目标文本中各字符的位置属性标识，确定所述目标文本中的评论区域；以及，根据所述情感极性标识，确定所述目标文本匹配的情感极性。

在对目标文本进行评论区域和情感极性的预测过程中，所述BERT模型首先对所述目标文本所述评论对象的名称、所述评论维度的名称和所述关键词携带的区域信息进行特征提取，得到预设维度的隐向量。以前述步骤中所述的模型结构为例，所述BERT模型将输出大小为(M+2)*d_hidden+(T+1)*d_hidden的隐向量。其中，与输入的评论文本对应的(M+2)*d_hidden维度的隐向量反映了目标文本的字符之间的上下文信息和目标文本中所述评论对象的名称、所述评论维度的名称和所述关键词携带的区域信息。

之后，所述评论区域识别任务对前述(M+2)*d_hidden维度的隐向量进行特征映射和变换处理，得到所述目标文本中各字符的位置属性标识。以位置属性标识通过前述标签集合[B、I、O、Seq]中标签表示举例，进一步的，通过所述评论区域识别任务输出的结果中的B和I的分布位置即可以确定目标文本中的评论区域。

另一方面，所述情感极性识别任务对前述(M+2)*d_hidden维度的隐向量进行线性变换处理，可以得到所述目标文本的情感极性标识，进一步的，根据所述情感极性标识，即可确定所述目标文本匹配的情感极性。例如，情感极性标识为1，则可以确定所述目标文本的情感极性为积极情感。

本申请实施例中公开的评论区域和情感极性的联合识别方法，通过确定目标文本针对的评论对象的名称和所述目标文本匹配的评论维度信息，所述评论维度信息包括：评论维度的名称和与所述评论维度关联的关键词；根据所述目标文本、所述评论对象的名称、所述评论维度的名称和所述关键词构造输入数据，并将所述输入数据输入至评论区域及情感极性联合识别模型；通过所述评论区域及情感极性联合识别模型来根据所述目标文本携带的字符之间的上下文信息和所述评论对象的名称、所述评论维度的名称和所述关键词携带的区域信息，预估所述目标文本中的评论区域和所述目标文本匹配的情感极性，可以同时识别出目标文本中的评论区域和目标文本的情感极性，能够提升从用户原创数据中挖掘指定信息的效率。

另一方面，以评论文本结合评论对象和评论维度作为模型输入数据，通过评论对象和评论维度是模型学习到评论文本中有效的文本的位置信息，可以提高评论区域识别的准确度。

实施例二

本申请实施例公开的一种评论区域和情感极性的联合识别装置，如图3所示，所述装置包括：

评论对象和评论维度确定模块310，用于确定目标文本针对的评论对象的名称和所述目标文本匹配的评论维度信息，所述评论维度信息包括：评论维度的名称和与所述评论维度关联的关键词；

输入数据构造模块320，用于根据所述目标文本、所述评论对象的名称、所述评论维度的名称和所述关键词构造输入数据，并将所述输入数据输入至评论区域及情感极性联合识别模型；

评论区域和情感极性识别模块330，用于通过所述评论区域及情感极性联合识别模型来根据所述目标文本携带的字符之间的上下文信息和所述评论对象的名称、所述评论维度的名称和所述关键词携带的区域信息，预估所述目标文本中的评论区域和所述目标文本匹配的情感极性。

本申请的一些实施例中，所述评论区域及情感极性联合识别模型是基于BERT模型搭建的，包括：评论区域识别任务和情感极性识别任务，所述评论区域和情感极性识别模块330，进一步用于：

通过所述BERT模型，根据所述目标文本携带的字符之间的上下文信息和所述评论对象的名称、所述评论维度的名称和所述关键词携带的区域信息进行特征提取，得到与所述目标文本中各字符对应的隐向量；

通过所述评论区域识别任务对各字符对应的隐向量进行特征映射和变换处理，预估所述目标文本中各字符的位置属性标识；以及，通过所述情感极性识别任务对各字符对应的隐向量进行线性变换处理，预估所述目标文本的情感极性标识；

根据所述目标文本中各字符的位置属性标识，确定所述目标文本中的评论区域；以及，根据所述情感极性标识，确定所述目标文本匹配的情感极性。

本申请的一些实施例中，如图4所示，还包括：

训练样本构造模块340，用于根据用户原创数据，构造若干训练样本；其中，每条所述训练样本包括模型输入数据和输出目标数据两部分数据，所述模型输入数据包括：评论文本、所述评论文本针对的评论对象的名称、所述评论文本匹配的评论维度的名称，以及与所述评论维度关联的关键词；所述输出目标数据包括：所述评论文本中各字符的位置属性标识真实值和所述评论文本匹配的情感极性标识真实值；

模型训练模块350，用于以所述训练样本的位置属性标识损失值和情感极性标识损失值的加权之和最小为目标，训练所述评论区域及情感极性联合识别模型。

其中，每条所述训练样本的位置属性标识损失值是根据所述评论文本中各字符的位置属性标识目标的预测值与所述真实值的差值计算得到的；每条所述训练样本的情感极性标识损失值是根据所述评论文本匹配的情感极性标识的预测值与所述真实值的差值计算得到的。

本申请的一些实施例中，所述评论区域及情感极性联合识别模型的损失函数被配置为：

和

的取值范围选自预设值；S_i表示第i个训练样本的情感极性标识预测值；P_i表示第i个训练样本的情感极性标识真实值；φ(θ)为正则化项，M和N为正整数。

本申请的一些实施例中，所述评论对象和评论维度确定模块310，进一步用于：

确定目标文本针对的评论对象的名称；

根据预设语料库中存储的关键词和选择的评论维度的关联关系，确定选择的所述评论维度关联的关键词和所述评论维度的名称；其中，所述关键词和评论维度的关联关系通过以下方式确定：

根据获取的若干条用户原创数据，确定若干关键词；

对所述若干关键词进行聚类，确定多个关键词类别；

分别确定由每个所述关键词类别中满足预设条件的所述关键词，组成的关键词集合；

通过对每个所述关键词集合中包括的所述关键词的评论内容进行抽象，确定每个所述关键词集合关联的评论维度和所述评论维度的名称，所述关键词关联的评论维度为所述关键词所在关键词集合关联的评论维度。

本申请实施例公开的评论区域和情感极性的联合识别装置，用于实现本申请实施例一中所述的评论区域和情感极性的联合识别方法的各步骤，装置的各模块的具体实施方式参见相应步骤，此处不再赘述。

本申请实施例公开的评论区域和情感极性的联合识别装置，通过确定目标文本针对的评论对象的名称和所述目标文本匹配的评论维度信息，所述评论维度信息包括：评论维度的名称和与所述评论维度关联的关键词；根据所述目标文本、所述评论对象的名称、所述评论维度的名称和所述关键词构造输入数据，并将所述输入数据输入至评论区域及情感极性联合识别模型；通过所述评论区域及情感极性联合识别模型来根据所述目标文本携带的字符之间的上下文信息和所述评论对象的名称、所述评论维度的名称和所述关键词携带的区域信息，预估所述目标文本中的评论区域和所述目标文本匹配的情感极性，可以同时识别出目标文本中的评论区域和目标文本的情感极性，能够提升从用户原创数据中挖掘指定信息的效率。

相应的，本申请还公开了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本申请实施例一所述的评论区域和情感极性的联合识别方法。所述电子设备可以为PC机、移动终端、个人数字助理、平板电脑等。

本申请还公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请实施例一所述的评论区域和情感极性的联合识别方法的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本申请公开的一种评论区域和情感极性的联合识别方法及装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

Claims

1.一种评论区域和情感极性的联合识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述评论区域及情感极性联合识别模型是基于BERT模型搭建的，所述评论区域及情感极性联合识别模型包括：评论区域识别任务和情感极性识别任务，所述通过所述评论区域及情感极性联合识别模型来根据所述目标文本携带的字符之间的上下文信息和所述评论对象的名称、所述评论维度的名称和所述关键词携带的区域信息，预估所述目标文本中的评论区域和所述目标文本匹配的情感极性的步骤，包括：

3.根据权利要求2所述的方法，其特征在于，所述确定目标文本针对的评论对象的名称和所述目标文本匹配的评论维度信息的步骤之前，还包括训练评论区域及情感极性联合识别模型的步骤，所述训练评论区域及情感极性联合识别模型的步骤更包括：

根据用户原创数据，构造若干训练样本；其中，每条所述训练样本包括模型输入数据和输出目标数据，所述模型输入数据包括：评论文本、所述评论文本针对的评论对象的名称、所述评论文本匹配的评论维度的名称，以及与所述评论维度关联的关键词；所述输出目标数据包括：所述评论文本中各字符的位置属性标识真实值和所述评论文本匹配的情感极性标识真实值；

以所述训练样本的位置属性标识损失值和情感极性标识损失值的加权之和最小为目标，训练所述评论区域及情感极性联合识别模型；

4.根据权利要求3所述的方法，其特征在于，所述评论区域及情感极性联合识别模型的损失函数被配置为：

，

其中，N表示训练样本总数；M+2表示位置属性标识的字符长度；w为情感极性损失值的权值；

和

5.根据权利要求1至4任一项所述的方法，其特征在于，所述确定目标文本针对的评论对象的名称和所述目标文本匹配的评论维度信息的步骤，包括：

确定目标文本针对的评论对象的名称；

根据预设语料库中存储的关键词和选择的评论维度的关联关系，确定选择的所述评论维度关联的关键词和所述评论维度的名称；

其中，所述关键词和评论维度的关联关系通过以下方式确定：

根据获取的若干条用户原创数据，确定若干关键词；

对所述若干关键词进行聚类，确定多个关键词类别；

6.一种评论区域和情感极性的联合识别装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述评论区域及情感极性联合识别模型是基于BERT模型搭建的，所述评论区域及情感极性联合识别模型包括：评论区域识别任务和情感极性识别任务，所述评论区域和情感极性识别模块，进一步用于：

8.根据权利要求7所述的装置，其特征在于，还包括：

训练样本构造模块，用于根据用户原创数据，构造若干训练样本；其中，每条所述训练样本包括模型输入数据和输出目标数据两部分数据，所述模型输入数据包括：评论文本、所述评论文本针对的评论对象的名称、所述评论文本匹配的评论维度的名称，以及与所述评论维度关联的关键词；所述输出目标数据包括：所述评论文本中各字符的位置属性标识真实值和所述评论文本匹配的情感极性标识真实值；

模型训练模块，用于以所述训练样本的位置属性标识损失值和情感极性标识损失值的加权之和最小为目标，训练所述评论区域及情感极性联合识别模型；

9.根据权利要求8所述的装置，其特征在于，所述评论区域及情感极性联合识别模型的损失函数被配置为：

，

和

10.根据权利要求6至9任一项所述的装置，其特征在于，所述评论对象和评论维度确定模块，进一步用于：

确定目标文本针对的评论对象的名称；

根据获取的若干条用户原创数据，确定若干关键词；

对所述若干关键词进行聚类，确定多个关键词类别；

11.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5任意一项所述的评论区域和情感极性的联合识别方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至5任意一项所述的评论区域和情感极性的联合识别方法的步骤。