CN112307200A

CN112307200A - 情感属性获取方法、装置、设备、及存储介质

Info

Publication number: CN112307200A
Application number: CN201910675582.6A
Authority: CN
Inventors: 郭林东; 陈东沂; 姚小龙; 张铭杰; 杨晓瑜; 李佳玮; 孙钥; 徐冬焱
Original assignee: SF Technology Co Ltd
Current assignee: SF Technology Co Ltd; SF Tech Co Ltd
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2021-02-02

Abstract

本申请实施例公开了一种情感属性获取方法、装置、设备及计算机可读存储介质，本申请实施例通过获取待分析文本，以及获取所述待分析文本中各个字符的特征信息；对所述待分析文本进行向量化处理，获得所述待分析文本的向量矩阵；根据所述待分析文本中各个字符的特征信息与所述向量矩阵，获取拼接后的向量矩阵信息；根据所述待分析文本、各个字符的特征信息以及拼接后的向量矩阵信息，获得所述待分析文本对应的情感属性。提高了情感属性获取的准确性以及效率。

Description

情感属性获取方法、装置、设备、及存储介质

技术领域

本申请涉及数据处理技术领域，具体涉及一种情感属性获取方法、装置、设备及存储介质。

背景技术

随着电子商务和互联网的迅猛发展，网上浏览商品、下订单、支付以及发表个人对商品的使用感受和评价已然成为人们的日常习惯。这些评论文本反映了消费者对此产品在各个维度的褒贬喜恶，即用户对产品的评价属性，比如用户对某款手机的评价“还好吧，外观绚丽，电池耗电太快了，拍照功能中规中矩”，其中，评价属性“外观”的情感倾向为正向，“电池耗电”的情感倾向为负向，“拍照功能”的情感倾向为中性，正向、负向以及中性即为评价属性的情感。

现在方法获取情感属性主要分为三种：一种是基于频率的方法，首先对评论文本使用关联规则提取商品属性，然后利用情感词典对情感倾向进行判别，该方法存在较大局限性，比如容易引入噪音词以及难以处理长尾词，仅依靠情感词典难以处理动态的表述方式。第二种是基于模板规则的方法，通过制定词性、依存句法模板对属性和情感词进行联合提取，此方法除了具有第一种方法中的情感判别难题，还存在依赖专家耗时耗力制定规则，模板难以适应日新月异的口语化表达。第三种是基于条件随机场的方法，通过人工制定特征模板，然后将这些特征送入基于概率的模型进行训练，此方法也需要手工制定特征规则，模型复杂度较大，需要较多人工介入。

发明内容

本申请实施例提供一种情感属性获取方法、装置、设备及存储介质，可以实现获取情感属性的效率，以及提高情感属性获取的准确性。

第一方面，本申请实施例提供了一种情感属性获取方法，包括：

获取待分析文本，以及获取所述待分析文本中各个字符的特征信息；

对所述待分析文本进行向量化处理，获得所述待分析文本的向量矩阵；

根据所述待分析文本中各个字符的特征信息与所述向量矩阵，获取拼接后的向量矩阵信息；

根据所述待分析文本、各个字符的特征信息以及拼接后的向量矩阵信息，获得所述待分析文本对应的情感属性。

在一些实施方式中，所述根据所述待分析文本中各个字符的特征信息与所述向量矩阵，获取拼接后的向量矩阵信息，包括：

获取所述特征信息对应的字符在所述待分析文本中的第一位置，以及所述向量矩阵对应字符在所述待分析文本中的第二位置；

根据所述第一位置以及第二位置将所述待分析文本中各个字符的特征信息与所述向量矩阵进行拼接，获得拼接后的向量矩阵信息。

在一些实施方式中，所述根据所述待分析文本以及拼接后的向量矩阵信息，获得所述待分析文本对应的情感属性，包括：

获取所述各个字符的特征信息的向量；

根据所述待分析文本以及拼接后的向量矩阵信息计算所述待分析文本的标签分数；

根据所述标签分数获取所述待分析文本对应的情感属性。

在一些实施方式中，所述对所述待分析文本进行向量化处理，获得所述待分析文本的向量矩阵，包括：

通过训练后向量化模型对输入的待分析文本进行分词处理，生成组成所述待分析文本的词语，并获取所述词语对应的词向量；

将所述词向量按所述待分析文本对应的字符排列顺序进行连接，得到所述待分析文本的向量矩阵。

在一些实施方式中，所述通过向量化模型对输入的待分析文本进行分词处理，生成组成所述待分析文本的词语，包括：

将所述待分析文本切分出与预设词库匹配的词，得到初始词语；

通过所述向量化模型获取所述初始词语与预设词库中各个词语之间的最优路径；

根据所述最优路径确定组成所述待分析文本的词语。

在一些实施方式中，所述通过向量化模型对输入的待分析文本进行分词处理，生成组成所述待分析文本的词语，并获取所述词语对应的词向量之前，还包括：

获取标注有真实词语类别的同一偏旁部首的词语，得到训练样本；

确定所述训练样本的词语预测类别；

根据所述真实词语类别和词语预测类别获取预设的损失函数；

根据所述损失函数对所述向量化模型进行收敛，获得训练后向量化模型。

在一些实施方式中，所述特征信息包括偏旁部首，所述获取所述待分析文本中各个字符的特征信息，包括：

获取基础部首表；

对所述待分析文本中各个字符进行拆分，得到所述待分析文本的子字符；

根据所述基础部首表与所述子字符获取所述待分析文本中各个字符的偏旁部首。

第二方面，本申请实施例还提供了一种情感属性获取装置，包括：

第一获取单元，用于获取待分析文本，以及获取所述待分析文本中各个字符的特征信息；

向量化单元，用于对所述待分析文本进行向量化处理，获得所述待分析文本的向量矩阵；

第二获取单元，用于根据所述待分析文本中各个字符的特征信息与所述向量矩阵，获取拼接后的向量矩阵信息；

情感属性获得单元，用于根据所述待分析文本以及拼接后的向量矩阵信息，获得所述待分析文本对应的情感属性。

在一些实施方式中，所述第二获取单元，包括：

第一获取子单元，用于获取所述特征信息对应的字符在所述待分析文本中的第一位置，以及所述向量矩阵对应字符在所述待分析文本中的第二位置；根据所述第一位置以及第二位置将所述待分析文本中各个字符的特征信息与所述向量矩阵进行拼接，获得拼接后的向量矩阵信息。

在一些实施方式中，所述情感属性获得单元，包括：

第二获取子单元，用于获取所述各个字符的特征信息的向量；

计算子单元，用于根据所述待分析文本以及拼接后的向量矩阵信息计算所述待分析文本的标签分数；

第三获取子单元，用于根据所述标签分数获取所述待分析文本对应的情感属性。

在一些实施方式中，所述向量化单元，包括：

生成子单元，用于通过训练后向量化模型对输入的待分析文本进行分词处理，生成组成所述待分析文本的词语，并获取所述词语对应的词向量；

连接子单元，用于将所述词向量按所述待分析文本对应的字符排列顺序进行连接，得到所述待分析文本的向量矩阵。

在一些实施方式中，所述生成子单元，包括：

切分模块，用于将所述待分析文本切分出与预设词库匹配的词，得到初始词语；

获取模块，用于通过所述向量化模型获取所述初始词语与预设词库中各个词语之间的最优路径；根据所述最优路径确定组成所述待分析文本的词语。

在一些实施方式中，所述向量化单元，包括：

第四获取子单元，用于获取标注有真实词语类别的同一偏旁部首的词语，得到训练样本；

确定子单元，用于确定所述训练样本的词语预测类别；

第五获取子单元，用于根据所述真实词语类别和词语预测类别获取预设的损失函数；

收敛子单元，用于根据所述损失函数对所述向量化模型进行收敛，获得训练后向量化模型。

在一些实施方式中，所述第一获取单元，包括：

第六获取子单元，用于获取基础部首表；

拆分子单元，用于对所述待分析文本中各个字符进行拆分，得到所述待分析文本的子字符；

第七获取子单元，用于根据所述基础部首表与所述子字符获取所述待分析文本中各个字符的偏旁部首。

第三方面，本申请实施例还提供了一种设备，所述设备包括处理器和存储器，所述存储器中存储有程序代码，所述处理器调用所述存储器中的程序代码时执行如上所述的情感属性获取方法。

第四方面，本申请实施例还提供了一种存储介质，所述存储介质存储有计算机程序，该程序被处理器加载以执行如上所述的情感属性获取方法。

本申请实施例通过获取待分析文本，以及获取所述待分析文本中各个字符的特征信息；对所述待分析文本进行向量化处理，获得所述待分析文本的向量矩阵；根据所述待分析文本中各个字符的特征信息与所述向量矩阵，获取拼接后的向量矩阵信息；根据所述待分析文本、各个字符的特征信息以及拼接后的向量矩阵信息，获得所述待分析文本对应的情感属性。本方案通过对待分析文本进行向量化处理，获得待分析文本的向量矩阵；根据待分析文本中各个字符的特征信息与向量矩阵，获取拼接后的向量矩阵信息，由于结合了各个字符的特征信息，使得拼接后的向量矩阵信息融合了字符的声调等信息，进一步增加了向量矩阵信息所包含的信息；然后根据待分析文本、各个字符的特征信息以及拼接后的向量矩阵信息，即可获得待分析文本对应的情感属性，使得获得的情感属性更加准确，并且不需要依赖人工与模板规则；从而提高了确定情感属性的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的情感属性获取方法的流程示意图；

图2是本申请实施例提供的情感属性获取方法的另一流程示意图；

图3是本申请实施例提供的情感属性获取装置的结构示意图；

图4是本申请实施例提供的设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1，图1是本申请一实施例提供的情感属性获取方法的流程示意图。该情感属性获取方法的执行主体可以是本申请实施例提供的情感属性获取装置，或者集成了该情感属性获取装置的设备，比如终端或服务器等，该设备可以是智能手机、平板电脑、掌上电脑、或者笔记本电脑、固定电脑、以及服务器等等。该情感属性获取方法可以包括：

S101，获取待分析文本，以及获取所述待分析文本中各个字符的特征信息。

具体地，在本实施例中，待分析文本可以包括用户发表的个人对商品的使用感受和评价文本，或者用户发表的个人对某些文字的读后感等，在此不做限制。具体可通过数据爬取的方式获取待分析文本，首先启动服务器或设备中添加的数据采集器，其中所述数据采集器也可以为安装在浏览器中的数据采集器，其中，数据采集器是用来批量采集网页，论坛等的内容，直接保存到数据或发布到网络的一种信息化工具。可以根据用户设定的规则自动采集原网页，获取格式网页中需要的内容，现在发展成也可以对数据进行处理的工具(系统)。如SQL Server 2008性能数据采集器可以让用户创建一个中心数据库来存储性能数据；它包含三个内置数据收集组来收集和存储数据；为了帮助我们识别和排除SQLServer性能相关的问题，我们可以使用其内置的三个报表来查看收集存储的数据。然后根据接收到的待分析文本爬取条件，选取需要爬取的待分析文本并进行采集，即可获取分析文本，提高获取待分析文本的准确性。

进一步地，特征信息可包括获取偏旁部首，获取偏旁部首的过程可包括：

获取基础部首表；

获取基础部首表，基础部首表为包含通用的偏旁部首的表格，然后对待分析文本中各个字符进行拆分，得到待分析文本的子字符，比如，如可拆分为子字符“女”跟“口”，然后将拆分得到的子字符与基础部首表中的偏旁部首进行匹配，获取待分析文本中各个字符的偏旁部首。

S102，对所述待分析文本进行向量化处理，获得所述待分析文本的向量矩阵。

在获得待分析文本之后，可对待分析文本进行向量化处理，获得待分析文本的向量矩阵。具体可通过将待分析文本输入训练后向量化模型中，通过训练后向量化模型对输入的待分析文本进行分词处理，生成组成待分析文本的词语，并获取词语对应的词向量，为了获取更准确的词向量，在获取词向量之前，可通过相同偏旁部首的词对向量化模型进行训练；然后将词向量按待分析文本对应的字符排列顺序进行连接，得到待分析文本的向量矩阵。

即步骤S102可包括：

首先获取训练后向量化模型，通过训练后向量化模型对输入的待分析文本进行分词处理，具体可通过将待分析文本切分出与预设词库匹配的词；通过向量化模型获取最优路径；根据最优路径获取切分出的词中的最优切分结果，即可获得组成待分析文本的词语。进一步获取在建立模型时建立的词语对应的词向量，将词向量按待分析文本对应的字符排列顺序进行连接，得到待分析文本的向量矩阵，比如假设待分析文本为“外观绚丽”，切分的词语为外观与绚丽，获取到的词向量为Z₁，Z₂，则根据待分析文本为“外观绚丽”，将词向量进行拼接，得到向量矩阵(Z₁，Z₂)。

进一步地，分词处理可包括：

根据所述最优路径确定组成所述待分析文本的词语。

具体地，首先将待分析文本切分出与预设词库匹配的所有可能的词，得到初始词语，再运用统计语言模型决定最优的切分结果，首先进行词条检索(一般用Trie存储)，找到匹配的所有词条，以词网格(word lattices)形式表示，接着做路径搜索，基于统计语言模型(例如n-gram)找到最优路径，即可计算得到最优的切分结果，从而获得分词结果，即获得组成待分析文本的词语。

更进一步地，通过相同偏旁部首的词对向量化模型进行训练可包括：

确定所述训练样本的词语预测类别；

例如，获取“树、林、柳、橘、柏、杨”等都是与树木相关的字，作为训练样本，对应的真实词语类别为树木。

确定训练样本的词语预测类别，具体可分类回归网络对训练样本进行分类，得到练样本的词语预测类别。其中，该词语预测类别可以包括类型和类型概率等信息。然后根据真实词语类别和词语预测类别获取预设的损失函数，比如分类损失函数，根据损失函数对向量化模型进行收敛，获得训练后向量化模型，可选的，为了加速训练速度，可以采用热启动的方式来训练模型，比如，可以将检测模型的初始学习率设为0.001，当训练进行到四分之三时，降低学习率到0.0001，等等。

S103，根据所述待分析文本中各个字符的特征信息与所述向量矩阵，获取拼接后的向量矩阵信息。

根据待分析文本中各个字符的特征信息与向量矩阵，获取拼接后的向量矩阵信息，待分析文本中各个字符的特征信息包括各个字符的偏旁部首，首先将各个字符的偏旁部首对应的向量与向量矩阵进行拼接，具体可通过特征信息对应的字符在待分析文本中的第一位置，以及向量矩阵对应字符在待分析文本中的第二位置，将各个字符的偏旁部首对应的向量与向量矩阵进行拼接。

即步骤S103包括：

获取所述各个字符的特征信息的向量；

在本实施例中，各个字符的特征信息包括待分析文本中各个字符的偏旁部首，则获取各个字符的偏旁部首的向量，具体可通过训练后向量化模型进行获取；然后获取偏旁部首对应的字符在待分析文本中的第一位置，比如假设待分析文本为“外观绚丽”，偏旁部首分别为“夕、又、纟以及一”，则“夕、又”对应的字符为“外观”，“外观”在待分析文本中的第一位置为1，向量矩阵Z₁对应字符为“外观”，“外观”在待分析文本中的第一位置为1，则将偏旁部首“夕、又”的向量与向量矩阵中的Z₁进行拼接，即可获得拼接后的向量矩阵信息。

S104，根据所述待分析文本、各个字符的特征信息以及拼接后的向量矩阵信息，获得所述待分析文本对应的情感属性。

在本实施例中，各个字符的特征信息包括各个字符的声调，具体通过将待分析文本、各个字符的声调以及拼接后的向量矩阵信息输入训练后的判别模型中，通过判别模型获得待分析文本对应的情感属性。对于中文而言，偏旁部首蕴含了词语的类别和相似特性，比如提手旁“扌”的字“捉、打、招、捉、挥”等，均共享了与手部动作相关的相似性；又如木字旁“木”的“树、林、柳、橘、柏、杨”等都是与树木相关的字，将这些造字法信息融合到向量化模型中，可进一步提升向量表示的质量。从而提高了获取情感属性的准确性。在获取待分析文本的情感属性之后，可进一步对所获取的待分析文本的情感属性进行统计，比如统计情感属性属于正向的待分析文本，以及情感属性属于负向的待分析文本，可进一步在显示页面进行显示统计结果，以便根据统计结果分析待分析文本对应的商品的质量。

具体地，S104包括：

根据所述标签分数获取所述待分析文本对应的情感属性。

具体通过判别模型计算待分析文本的标签分数，其中判别模型由双向的LSTM后接CRF组成。首先通过判别模型对各个字符的声调进行编码，编码规则可以为将声调四声中的阴平、阳平、上声、去声和轻声分别编码为1、2、3、4、0，比如，对于句子“电池耗电太快了”中的“耗电[hào diàn]”，前后词语为“电池[diàn chí]”和“太[tài]”(这里取n为1)，根据转换规则转换得到的声调表示为42444，然后通过判别模型中的分数计算公式：

计算待分析文本的分数，其中，T为得分转移矩阵，H为双向LSTM的隐层输出，再通过Softmax函数得到待分析文本的分数的概率表示。在训练过程中，优化所有给定样本的极大似然估计函数，在预测时则通过维特比算法得到最优的待分析文本概率对应的标签序列，然后通过标签序列即可获取待分析文本对应的情感属性。比如，假设待分析文本为“电池耗电太快了”，通过判别模型计算得到的待分析文本概率如下表所示，其中，表中最大的数对应的标签即待分析文本对应输出的标签。可知，“电池耗电太快了”，输出的情感属性为B-N I-N O O O，N是Negative的缩写，P是Positive的缩写，其中，B-P和I-P就表明了电池耗电是负向的属性。

B-N	I-N	B-P	I-P	O
					0.6	0.1	0.1	0.1	0.1
0.1	0.6	0.1	0.1	0.1
					0.1	0.1	0.1	0.1	0.6
0.1	0.1	0.1	0.1	0.6
					0.1	0.1	0.1	0.1	0.6

本实施例通过获取待分析文本，以及获取所述待分析文本中各个字符的特征信息；对所述待分析文本进行向量化处理，获得所述待分析文本的向量矩阵；根据所述待分析文本中各个字符的特征信息与所述向量矩阵，获取拼接后的向量矩阵信息；根据所述待分析文本、各个字符的特征信息以及拼接后的向量矩阵信息，获得所述待分析文本对应的情感属性。本方案通过对待分析文本进行向量化处理，获得待分析文本的向量矩阵；根据待分析文本中各个字符的特征信息与向量矩阵，获取拼接后的向量矩阵信息，由于结合了各个字符的特征信息，使得拼接后的向量矩阵信息融合了字符的声调等信息，进一步增加了向量矩阵信息所包含的信息；然后根据待分析文本、各个字符的特征信息以及拼接后的向量矩阵信息，即可获得待分析文本对应的情感属性，使得获得的情感属性更加准确，并且不需要依赖人工与模板规则；从而提高了确定情感属性的效率。

根据上述实施例所描述的情感属性获取方法，以下将作进一步详细说明。本实施例以待分析文本为用户对商品的评论文本进行描述获取情感属性的方法。

请参阅图2，图2为本申请实施例提供的情感属性获取方法的又一流程图。

S201，获取用户对商品的评论文本。

具体地，在本实施例中，用户对商品的评论文本即用户发表的个人对商品的使用感受和评价文本。具体可通过在商品网站进行数据爬取的方式获取用户对商品的评论文本，首先启动服务器或设备中添加的数据采集器，其中所述数据采集器也可以为安装在浏览器中的数据采集器，可以根据用户设定的规则自动采集原网页，获取格式网页中需要的内容，现在发展成也可以对数据进行处理的工具。然后根据接收到的用户对商品的评论文本爬取条件，比如爬取的评论文本的发表时间，对手机的评论或者对家居的评论等，选取需要爬取的用户对商品的评论文本并进行采集，即可获取用户对商品的评论文本，提高获取用户对商品的评论文本的准确性。

S202，对用户对商品的评论文本中各个字符进行拆分，得到用户对商品的评论文本的子字符。

S203，根据基础部首表与子字符获用户对商品的评论文本中各个字符的偏旁部首。

获取基础部首表，基础部首表为包含通用的偏旁部首的表格，然后对用户对商品的评论文本中各个字符进行拆分，得到用户对商品的评论文本的子字符，比如，如可拆分为子字符“女”跟“口”，然后将拆分得到的子字符与基础部首表中的偏旁部首进行匹配，获取用户对商品的评论文本中各个字符的偏旁部首。

S204，通过训练后向量化模型对输入的用户对商品的评论文本进行分词处理，生成组成用户对商品的评论文本的词语，并获取词语对应的词向量。

S205，将词向量按用户对商品的评论文本对应的字符排列顺序进行连接，得到用户对商品的评论文本的向量矩阵。

在获得用户对商品的评价文本之后，可对用户对商品的评价文本进行向量化处理，获得用户对商品的评价文本的向量矩阵。具体可通过将用户对商品的评价文本输入训练后向量化模型中，通过训练后向量化模型对输入的用户对商品的评价文本进行分词处理，生成组成用户对商品的评价文本的词语，并获取词语对应的词向量，为了获取更准确的词向量，在获取词向量之前，可通过相同偏旁部首的词对向量化模型进行训练；然后将词向量按用户对商品的评价文本对应的字符排列顺序进行连接，得到用户对商品的评价文本的向量矩阵。

首先获取训练后向量化模型，通过训练后向量化模型对输入的用户对商品的评价文本进行分词处理，具体可通过将用户对商品的评价文本切分出与预设词库匹配的词；通过向量化模型获取最优路径；根据最优路径获取切分出的词中的最优切分结果，即可获得组成用户对商品的评价文本的词语。进一步获取在建立模型时建立的词语对应的词向量，将词向量按用户对商品的评价文本对应的字符排列顺序进行连接，得到用户对商品的评价文本的向量矩阵，比如假设用户对商品的评价文本为“外观绚丽”，切分的词语为外观与绚丽，获取到的词向量为Z₁，Z₂，则根据用户对商品的评价文本为“外观绚丽”，将词向量进行拼接，得到向量矩阵(Z₁，Z₂)。

S206，获取各个字符的特征信息的向量。

S207，获取特征信息对应的字符在用户对商品的评论文本中的第一位置，以及向量矩阵对应字符在用户对商品的评论文本中的第二位置。

S208，根据第一位置以及第二位置将用户对商品的评论文本中各个字符的特征信息与向量矩阵进行拼接，获得拼接后的向量矩阵信息。

在本实施例中，各个字符的特征信息包括用户对商品的评价文本中各个字符的偏旁部首，则获取各个字符的偏旁部首的向量，具体可通过训练后向量化模型进行获取；然后获取偏旁部首对应的字符在用户对商品的评价文本中的第一位置，比如假设用户对商品的评价文本为“外观绚丽”，偏旁部首分别为“夕、又、纟以及一”，则“夕、又”对应的字符为“外观”，“外观”在用户对商品的评价文本中的第一位置为1，向量矩阵Z₁对应字符为“外观”，“外观”在用户对商品的评价文本中的第一位置为1，则将偏旁部首“夕、又”的向量与向量矩阵中的Z₁进行拼接，即可获得拼接后的向量矩阵信息。其中，第一位置即为特征信息对应的字符在用户对商品的评论文本中的位置，第二位置为向量矩阵对应字符在用户对商品的评论文本中的位置，第一第二只是为了区分位置而进行命名，不具有实质意义，具体实施过程中，特征信息对应的字符在用户对商品的评论文本中的位置也可以命名为第二位置，向量矩阵对应字符在用户对商品的评论文本中的位置也可以命名为第一位置。

S209，根据用户对商品的评论文本以及拼接后的向量矩阵信息计算用户对商品的评论文本的标签分数。

S210，根据标签分数获取用户对商品的评论文本对应的情感属性。

在本实施例中，各个字符的特征信息包括各个字符的声调，具体通过将用户对商品的评价文本、各个字符的声调以及拼接后的向量矩阵信息输入训练后的判别模型中，通过判别模型获得用户对商品的评价文本对应的情感属性。

具体通过判别模型计算用户对商品的评价文本的标签分数，其中判别模型由双向的LSTM后接CRF组成。首先通过判别模型对各个字符的声调进行编码，编码规则可以为将声调四声中的阴平、阳平、上声、去声和轻声分别编码为1、2、3、4、0，比如，对于句子“电池耗电太快了”中的“耗电[hào diàn]”，前后词语为“电池[diàn chí]”和“太[tài]”(这里取n为1)，根据转换规则转换得到的声调表示为42444，然后通过判别模型中的分数计算公式：

计算用户对商品的评价文本的分数，其中，T为得分转移矩阵，H为双向LSTM的隐层输出，再通过Softmax函数得到用户对商品的评价文本的分数的概率表示。在训练过程中，优化所有给定样本的极大似然估计函数，在预测时则通过维特比算法得到最优的用户对商品的评价文本概率对应的标签序列，然后通过标签序列即可获取用户对商品的评价文本对应的情感属性，即可获知用户对商品的评价为正面评价还是负面评价。

本实施例通过对待分析文本进行向量化处理，获得待分析文本的向量矩阵；根据待分析文本中各个字符的特征信息与向量矩阵，获取拼接后的向量矩阵信息，由于结合了各个字符的特征信息，使得拼接后的向量矩阵信息融合了字符的声调等信息，进一步增加了向量矩阵信息所包含的信息；然后根据待分析文本、各个字符的特征信息以及拼接后的向量矩阵信息，即可获得待分析文本对应的情感属性，使得获得的情感属性更加准确，并且不需要依赖人工与模板规则；从而提高了确定情感属性的效率。

为便于更好的实施本申请实施例提供的情感属性获取方法，本申请实施例还提供一种基于上述情感属性获取装置。其中名词的含义与上述情感属性获取方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图3，图3为本申请实施例提供的情感属性获取装置的结构示意图，其中该物情感属性获取装置可以包括第一获取单元301、向量化单元302、第二获取单元303以及情感属性获得304等。

具体地，情感属性获取装置包括：

在一些实施方式中，所述第二获取单元，包括：

在一些实施方式中，所述情感属性获得单元，包括：

在一些实施方式中，所述向量化单元，包括：

在一些实施方式中，所述生成子单元，包括：

在一些实施方式中，所述向量化单元，包括：

确定子单元，用于确定所述训练样本的词语预测类别；

在一些实施方式中，所述第一获取单元，包括：

第六获取子单元，用于获取基础部首表；

其中，以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

图4示出了本发明实施例提供的设备的具体结构框图，该设备可以用于实施上述实施例中提供的情感属性获取方法。该设备400可以为智能手机或平板电脑等。

如图4所示，设备400可以包括RF(Radio Frequency，射频)电路110、包括有一个或一个以上(图中仅示出一个)计算机可读存储介质的存储器120、输入单元130、显示单元140、传输模块170、包括有一个或者一个以上(图中仅示出一个)处理核心的处理器180以及电源190等部件。本领域技术人员可以理解，图4中示出的设备400结构并不构成对设备400的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路110用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯。RF电路110可包括各种现有的用于执行这些功能的电路元件，例如，天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。RF电路110可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。上述的无线网络可以使用各种通信标准、协议及技术，包括但并不限于全球移动通信系统(Global System for Mobile Communication，GSM)、增强型移动通信技术(Enhanced DataGSM Environment，EDGE)，宽带码分多址技术(Wideband Code Division MultipleAccess，WCDMA)，码分多址技术(Code Division Access，CDMA)、时分多址技术(TimeDivision Multiple Access，TDMA)，无线保真技术(Wireless Fidelity，Wi-Fi)(如美国电气和电子工程师协会标准IEEE 802.11a，IEEE 802.11b，IEEE802.11g和/或IEEE802.11n)、网络电话(Voice over Internet Protocol，VoIP)、全球微波互联接入(Worldwide Interoperability for Microwave Access，Wi-Max)、其他用于邮件、即时通讯及短消息的协议，以及任何其他合适的通讯协议，甚至可包括那些当前仍未被开发出来的协议。

存储器120可用于存储软件程序以及模块，如上述实施例中情感属性获取方法的程序指令/模块，处理器180通过运行存储在存储器120内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现情感属性获取的功能。存储器120可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器120可进一步包括相对于处理器180远程设置的存储器，这些远程存储器可以通过网络连接至设备400。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入单元130可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元130可包括触敏表面131以及其他输入设备132。触敏表面131，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器180，并能接收处理器180发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。除了触敏表面131，输入单元130还可以包括其他输入设备132。具体地，其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元140可用于显示由用户输入的信息或提供给用户的信息以及设备400的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元140可包括显示面板141，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode，有机发光二极管)等形式来配置显示面板141。进一步的，触敏表面131可覆盖显示面板141，当触敏表面131检测到在其上或附近的触摸操作后，传送给处理器180以确定触摸事件的类型，随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图4中，触敏表面131与显示面板141是作为两个独立的部件来实现输入和输出功能，但是在某些实施例中，可以将触敏表面131与显示面板141集成而实现输入和输出功能。

设备400通过传输模块170(例如Wi-Fi模块)可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图4示出了传输模块170，但是可以理解的是，其并不属于设备400的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器180是设备400的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器120内的软件程序和/或模块，以及调用存储在存储器120内的数据，执行设备400的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器180可包括一个或多个处理核心；在一些实施例中，处理器180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器180中。

设备400还包括给各个部件供电的电源190(比如电池)，在一些实施例中，电源可以通过电源管理系统与处理器180逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

具体在本实施例中，设备400的显示单元140是触摸屏显示器，设备400还包括有存储器120，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器120中，且经配置以由一个或者一个以上处理器180执行一个或者一个以上程序包含用于进行以下操作的指令：

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对情感属性获取方法的详细描述，此处不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种存储介质，所述存储介质存储有计算机程序，该程序被处理器加载以执行本申请实施例所提供的任一种情感属性获取方法中的步骤。例如，该计算机程序可以执行如下步骤：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种情感属性获取方法中的步骤，因此，可以实现本申请实施例所提供的任一种情感属性获取方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种情感属性获取方法、装置、设备及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种情感属性获取方法，其特征在于，包括：

2.根据权利要求1所述的情感属性获取方法，其特征在于，所述根据所述待分析文本中各个字符的特征信息与所述向量矩阵，获取拼接后的向量矩阵信息，包括：

3.根据权利要求1所述的情感属性获取方法，其特征在于，所述根据所述待分析文本以及拼接后的向量矩阵信息，获得所述待分析文本对应的情感属性，包括：

获取所述各个字符的特征信息的向量；

根据所述标签分数获取所述待分析文本对应的情感属性。

4.根据权利要求1所述的情感属性获取方法，其特征在于，所述对所述待分析文本进行向量化处理，获得所述待分析文本的向量矩阵，包括：

5.根据权利要求4所述的情感属性获取方法，其特征在于，所述通过向量化模型对输入的待分析文本进行分词处理，生成组成所述待分析文本的词语，包括：

根据所述最优路径确定组成所述待分析文本的词语。

6.根据权利要求4所述的情感属性获取方法，其特征在于，所述通过向量化模型对输入的待分析文本进行分词处理，生成组成所述待分析文本的词语，并获取所述词语对应的词向量之前，还包括：

确定所述训练样本的词语预测类别；

7.根据权利要求1所述的情感属性获取方法，其特征在于，所述特征信息包括声调以及偏旁部首，所述获取所述待分析文本中各个字符的特征信息，包括：

获取基础部首表；

8.一种情感属性获取装置，其特征在于，包括：

9.一种设备，其特征在于，包括处理器和存储器，所述存储器中存储有程序代码，所述处理器调用所述存储器中的程序代码时执行如权利要求1至7任一项所述的情感属性获取方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，该程序被处理器加载以执行如权利要求1至7任一项所述的情感属性获取方法。