CN111414475A

CN111414475A - 文本情感信息的识别方法和装置

Info

Publication number: CN111414475A
Application number: CN202010138855.6A
Authority: CN
Inventors: 宋宇航; 付骁弈
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2020-03-03
Filing date: 2020-03-03
Publication date: 2020-07-14

Abstract

本申请实施例公开了一种文本情感信息的识别方法和装置。所述方法包括：对获取的数据进行处理，得到文本数据集，其中所述数据包括用于描述正向情绪的数据和用于描述负向情绪的数据；将所述文本数据集中的文本转换为词向量；利用预先构建的神经网络对所述词向量进行训练，得到情绪数据模型；利用所述情绪数据模型对接收的数据中所表达的情绪进行分类。

Description

文本情感信息的识别方法和装置

技术领域

本申请实施例涉及信息处理领域，尤指一种文本情感信息的识别方法和装置。

背景技术

在电商行业和新媒体的业务场景中，会产生大量的文本数据，比如对商品或服务的评价、对影视或音乐作品的评论以及社交媒体上发表的评论观点等。针对上述文本数据，可以通过对这些大量的文本数据做出分类，例如，分类比如是表达喜欢或是厌恶，支持或是反对的情感。

在相关技术中，基于关键词的情感分析方法包括：通过使用预先标记好的词汇字典，将待分析的文本做分词处理后，用得到的单词和词典中的词汇做匹配，根据匹配到的词汇，确定该文本中表示积极或消极的词汇，并按照一定的规则计分处理；最后，利用得到的分数来判断该文本的情感是积极还是消极。

在实际应用中，基于关键词的情感分析方法的结果，通常维护成本较高，并且在业务场景上的局限性和错误率在技术层面难以消除。

发明内容

为了解决上述任一技术问题，本申请实施例提供了一种文本情感信息的识别方法和装置。

为了达到本申请实施例目的，本申请实施例提供了一种文本情感信息的识别方法，包括：

对获取的数据进行处理，得到文本数据集，其中所述数据包括用于描述正向情绪的数据和用于描述负向情绪的数据；

将所述文本数据集中的文本转换为词向量；

利用预先构建的神经网络对所述词向量进行训练，得到情绪数据模型；

利用所述情绪数据模型对接收的数据中所表达的情绪进行分类。

在一个示例性实施例中，所述对获取的数据进行处理，得到文本数据集，包括：

对获取到的每条数据进行分字处理，并保留所述每条数据中的停用词，得到文本数据集，其中分字处理是以每个中文汉字为单位或者以每个英文单词为例单位执行的。

在一个示例性实施例中，所述将所述文本数据集中的文本转换为词向量，包括：

将文本数据集中每条文本转换为词向量；

利用预先存储的词嵌入模型，将文本数据集中每条文本对应的文本向量的维度数量进行缩短操作，得到从离散的词向量处理成紧凑的词向量的结果。

在一个示例性实施例中，所述利用预先构建的神经网络对所述词向量进行训练，得到情绪数据模型，包括：

将词向量传入长短期记忆LSTM网络的嵌入层；

控制所述嵌入层上连接的词向量中的序列信息在所述LSTM的递归链接网络中传输，并通过输出层输出文本的情感信息的识别结果。

在一个示例性实施例中，所述对获取的数据进行处理，得到文本数据集之后，包括：

获取所述文本数据集中文本长度的分布信息；

根据所述文本分布信息，确定所述文本长度的基准值；

将所述文本数据集中的文本转换为词向量，包括：

利用所述文本的基准值对所述文本数据集中的文本进行筛选，得到满足所述文本的基准值的目标文本；

对所述目标文本进行词向量转换的操作。

一种文本情感信息的识别装置，包括：

处理模块，用于对获取的数据进行处理，得到文本数据集，其中所述数据包括用于描述正向情绪的数据和用于描述负向情绪的数据；

转换模块，用于将所述文本数据集中的文本转换为词向量；

训练模块，用于利用预先构建的神经网络对所述词向量进行训练，得到情绪数据模型；

识别模块，用于利用所述情绪数据模型对接收的数据中所表达的情绪进行分类。

在一个示例性实施例中，所述处理模块具体用于：

在一个示例性实施例中，所述转换模块包括：

转换单元，用于将文本数据集中每条文本转换为词向量；

嵌入单元，用于利用预先存储的词嵌入模型，将文本数据集中每条文本对应的文本向量的维度数量进行缩短操作，得到从离散的词向量处理成紧凑的词向量的结果。

在一个示例性实施例中，所述训练模块包括：

传入单元，用于将词向量传入长短期记忆LSTM网络的嵌入层；

控制单元，用于控制所述嵌入层上连接的词向量中的序列信息在所述LSTM的递归链接网络中传输，并通过输出层输出文本的情感信息的识别结果。

在一个示例性实施例中，所述装置还包括：

获取模块，用于在得到文本数据集后，获取所述文本数据集中文本长度的分布信息；

确定模块，用于根据所述文本分布信息，确定所述文本长度的基准值；

所述转换模块，包括：

筛选单元，用于利用所述文本的基准值对所述文本数据集中的文本进行筛选，得到满足所述文本的基准值的目标文本；

转换单元，用于对所述目标文本进行词向量转换的操作。

本申请实施例提供的方案，对获取的数据进行处理，得到文本数据集，将所述文本数据集中的文本转换为词向量，并利用预先构建的神经网络对所述词向量进行训练，得到情绪数据模型，再利用所述情绪数据模型对接收的数据中所表达的情绪进行分类，实现利用情绪数据模型代替词典的目的，降低维护成本，并提高情绪模型的迁移性。

本申请实施例的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例而了解。本申请实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请实施例技术方案的进一步理解，并且构成说明书的一部分，与本申请实施例的实施例一起用于解释本申请实施例的技术方案，并不构成对本申请实施例技术方案的限制。

图1为本申请实施例提供的文本情感信息的识别方法的流程图；

图2为本申请实施例提供的样本长度的分布示意图；

图3为本申请实施例提供的句子长度累积分布函数的示意图；

图4为本申请实施例提供的文本转换词向量操作的示意图；

图5为本申请实施例提供的模型训练的正确率的示意图；

图6为本申请实施例提供的模型训练的损失值的示意图；

图7为本申请实施例提供的文本情感信息的识别装置的结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚明白，下文中将结合附图对本申请实施例的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请实施例中的实施例及实施例中的特征可以相互任意组合。

在实现本申请过程中，发明人发现基于关键词的情感分析方法存在以下问题，包括：

1.预标记词汇词典需要人工生成：分类所依据的词典目前都是通过人工维护的，维护成本较高；另外，分类结果依赖于词典中词汇的准确程度。

2.情感分析结果的局限性：基于固定的词典进行分类；在不同的业务场景下，所需要的词典往往有所差异，意味着对于不同的业务，需要不同的预标记词典，因此，依照词典进行分类的方式，词典的可迁移性较差。

为解决上述问题，本申请提出如下解决方案，包括：

图1为本申请实施例提供的文本情感信息的识别方法的流程图。如图1所示，图1所示方法包括：

步骤101、对获取的数据进行处理，得到文本数据集，其中所述数据包括用于描述正向情绪的数据和用于描述负向情绪的数据；

在一个示例性实施例中，将获取到的数据的编码格式统一转换为utf-8编码，在对编码后的文本数据进行预处理，该预处理操作包括对文本的内容进行分字操作。

其中，所述对获取的数据进行处理，得到文本数据集，包括：

通过完成分字操作完成文本的预处理；并通过保留停用词，为后续情绪分析提供参考。

步骤102、将所述文本数据集中的文本转换为词向量；

发明人发现，由于简单的文本向量往往得到的是相当稀疏的矩阵，即One-Hot编码，该编码是把文本中所含的词的编号的位置置为1作为文本向量，这样得到的文本向量矩阵因为数据过于离散，不适合进行深度学习模型训练，所以需要将向量维数进行一定程度的缩减。

将文本数据集中每条文本转换为词向量；

通过将文本处理成紧凑的向量，将文本向量从高维度转换为低维度的向量。利用低维向量来进行训练，能够达到更好的训练效果。

步骤103、利用预先构建的神经网络对所述词向量进行训练，得到情绪数据模型；

在一个示例性实施例中，神经网络可以为LSTM(Long Short Term Memory，长短期记忆)算法，属于RNN循环神经网络的一种，该算法擅长对时间序列中间隔和延迟较长的事件做处理和分析。本申请中对大量的文本数据做出情感分类。

将词向量传入LSTM网络的嵌入层；

因为分字数量太多，将词向量传入嵌入(embedding)层，使用嵌入式词向量来表示单词更有效率。通过embedding层,新的分字可以表示为传入LSTM的cells。在LSTM的递归链接网络中单词的序列信息会在网络之间传递，并最终连接一个sigmoid output layer。使用sigmoid可以预测该文本是积极的还是消极的情感。输出层只有一个单元节点，并使用sigmoid激活。由于只需要关注最后一个sigmoid的输出，损失只计算最后一步的输出和标签的差异，提高处理的效率。

步骤104、利用所述情绪数据模型对接收的数据中所表达的情绪进行分类。

在一个示例性实施例中，与利用词典进行情绪识别操作相比，利用情绪数据模型代替词典的功能，并通过得到的训练结果对接收的数据出携带的情绪信息进行识别，提高识别的准确性和工作效率。

本申请实施例提供的方法，对获取的数据进行处理，得到文本数据集，将所述文本数据集中的文本转换为词向量，并利用预先构建的神经网络对所述词向量进行训练，得到情绪数据模型，再利用所述情绪数据模型对接收的数据中所表达的情绪进行分类，实现利用情绪数据模型代替词典的目的，降低维护成本，并提高情绪模型的迁移性。

在一个示例性实施例中，在步骤101之后，所述方法还包括：

获取所述文本数据集中文本长度的分布信息；

根据所述文本分布信息，确定所述文本长度的基准值；

所述步骤102具体包括：

对所述目标文本进行词向量转换的操作。

通过对文本长度的基准值的确定，保持样本数据的长度的一致性，方便后续的词向量的转换和样本数据的训练操作。

下面对本申请实施例提供的方法进行说明：

本申请方案通过导入的数据，得到训练数据；再确定训练数据中每个样本长度，通过数据可视化的方法，确定文本数据集中的文本长度分布；基于该文本长度分布信息，对样本文本集中样本长度进行筛选；对筛选后的样本文本集中的文本进行词向量的转换，再利用词向量进行模型训练，得到模型；并通过验证数据对得到模型进行正确率和损失值的指标的评估。

下面对上述流程进行说明：

1.导入数据，文本预处理：

在相关技术中，在得到样本文档后，需要对文档做预处理，这里的预处理主要是去停用词和分词操作。其中，在相关技术中，中文分词处理中经常使用的就是jieba分词。

在本申请实施例中，发明人发现使用jieba分词最后得到的准确率在90％，且有过拟合的问题。因此，本申请提出改用分字处理的方法，以克服上述问题。采用直接分字的方法，即将中文单字分为一个字，英文单词分为一个字。

发明人发现，相关技术中去停用词是由于停用词在文本中对语义的影响不明显的词，在分词的同时可以将这些停用词去掉。在分析情绪信息时，如果采集到的样本不是十分充足，不执行停用词的处理，将停用词存在着一些情感信息保留，能够帮助情绪信息的分析。

2.通过数据可视化确定训练数据中每个样本的长度：

本申请以所使用的数据集来自某电商中的商品评论为例进行说明，其中包含25000条数据，正向数据和负项数据各12500条。计算每条评论中的文字长度，得到长度分布图如图2所示，图2为本申请实施例提供的样本长度的分布示意图。如图2所示，大多数样本的句子长度集中在1-200之间。

图3为本申请实施例提供的句子长度累积分布函数的示意图。如图3所示，句子长度累计频率取0.91分位点，则长度为183左右，以长度为183为文本的基准值，作为后续样本的筛选的基准值，以保证样本的长度的一致性。

3.文本向量化：

由于简单的文本向量往往得到的是相当稀疏的矩阵，即One-Hot编码，该编码是把文本中所含的词的编号的位置置为1作为文本向量。这样得到的文本向量矩阵因为数据过于离散，不适合进行深度学习模型训练，所以需要将向量维数进行一定程度的缩减。

对分字处理后的文本进行向量化，以使用word2Vec为例进行说明，word2Vec就能够较好的解决这个问题，将文本处理成比较紧凑的向量用深度学习。Word2Vec将文本处理成相对紧凑的向量，这个过程称为词嵌入(embedding)，词嵌入本身也是一个神经网络模型。在训练完成之后，就能得到每个词所对应的低维向量。而这个低维向量来进行训练，能够达到较好的训练效果。

4.构建LSTM网络

5.超参数调整：

在构建完成LSTM网络后，需要去定义一些超参数，本方法中定义批处理大小(batchSize)、LSTM的单元个数位(lstmUnits)、分类类别(numClasses)和训练次数iterations中至少一个，例如，设置如下数值，包括

batchSize＝24；

lstmUnits＝64；

numClasses＝2；

iterations＝50000；

另外，还可以指定两个占位符，一个用于数据输入，另一个用于标签数据。对于占位符，需要确定对应的维度。标签占位符代表一组值，每一个值都为[1,0]或者[0,1]，这个取决于数据是正向的还是负向的。输入占位符，是一个整数化的索引数组。

在完成上述配置后，接下来将上述步骤得到的数据输入到LSTM网络中，依次执行如下步骤，包括：

步骤01、调用用于配置LSTM单元个数的函数，例如，函数名称为tf.nn.rnn_cell.BasicLSTMCell函数，这个函数输入的参数是一个整数，表示需要的LSTM单元个数。这是设置的一个超参数，需要对这个数值进行调试从而来找到最优的解。

步骤02、设置用于判断过拟合的参数，可以设置一个dropout参数，以此来避免出现过拟合现象。最后，将LSTM cell和三维的数据输入到tf.nn.dynamic_rnn，这个函数的功能是展开整个网络，并且构建一整个RNN模型。

步骤03、设置正确的预测函数和正确率评估参数。正确的预测形式是查看最后输出的0-1向量是否和标记的0-1向量相同。

步骤04，使用一个标准的交叉熵损失函数来作为损失值。对于优化器，本方法中选择Adam，并且采用默认的学习率。

6.模型训练：

在训练过程中，先定义一个TensorFlow会话，然后，加载一批评论和对应的标签。接下来调用会话的run函数。run函数有两个参数，fetches参数和feed_dict参数，前者定义了用户感兴趣的值，通过优化器来最小化损失函数。后者是提供的占位符。需要将一个批处理的评论和标签输入模型，然后不断对这一组训练数据进行循环训练。

训练的正确率和损失变化参见附图4和图5。如图4所示，训练的正确率在接近100％，如图5所示，损失值在稳定下降。

当继续分析训练曲线时，会出现模型在训练集上面已经过拟合了。在训练LSTM时，采用提前终止训练来防止过拟合。具体实现方式在训练的同时，在测试集上评估性能，当测试误差停止下降或者增大时刻，表示模型的性能开始过拟合了，需要停止训练。

本申请实施例带来的技术效果包括：

1.利用LSTM模型对样本文本训练，相对预标记词典的方法，减少了维护成本，且在一定程度上提高了准确率；

2.基于LSTM模型的文本分类，是利用相关的样本数据训练得到的，可以适用于不同的业务场景下，比如商品评论、影评等的情感分析，便于迁移，灵活性较高。

图7为本申请实施例提供的文本情感信息的识别装置的结构图。如图7所示，图7所示装置包括：

转换模块，用于将所述文本数据集中的文本转换为词向量；

在一个示例性实施例中，所述处理模块具体用于：

在一个示例性实施例中，所述转换模块包括：

转换单元，用于将文本数据集中每条文本转换为词向量；

在一个示例性实施例中，所述训练模块包括：

传入单元，用于将词向量传入LSTM网络的嵌入层；

在一个示例性实施例中，所述装置还包括：

所述转换模块，包括：

转换单元，用于对所述目标文本进行词向量转换的操作。

本申请实施例提供的装置，对获取的数据进行处理，得到文本数据集，将所述文本数据集中的文本转换为词向量，并利用预先构建的神经网络对所述词向量进行训练，得到情绪数据模型，再利用所述情绪数据模型对接收的数据中所表达的情绪进行分类，实现利用情绪数据模型代替词典的目的，降低维护成本，同时提高情绪模型的迁移性。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

Claims

1.一种文本情感信息的识别方法，其特征在于，包括：

将所述文本数据集中的文本转换为词向量；

2.根据权利要求1所述的方法，其特征在于，所述对获取的数据进行处理，得到文本数据集，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述文本数据集中的文本转换为词向量，包括：

将文本数据集中每条文本转换为词向量；

4.根据权利要求1所述的方法，其特征在于，所述利用预先构建的神经网络对所述词向量进行训练，得到情绪数据模型，包括：

将词向量传入长短期记忆LSTM网络的嵌入层；

5.根据权利要求1至4任一所述的方法，其特征在于：

所述对获取的数据进行处理，得到文本数据集之后，包括：

获取所述文本数据集中文本长度的分布信息；

根据所述文本分布信息，确定所述文本长度的基准值；

将所述文本数据集中的文本转换为词向量，包括：

对所述目标文本进行词向量转换的操作。

6.一种文本情感信息的识别装置，其特征在于，包括：

转换模块，用于将所述文本数据集中的文本转换为词向量；

7.根据权利要求6所述的装置，其特征在于，所述处理模块具体用于：

8.根据权利要求6所述的装置，其特征在于，所述转换模块包括：

转换单元，用于将文本数据集中每条文本转换为词向量；

9.根据权利要求6所述的装置，其特征在于，所述训练模块包括：

传入单元，用于将词向量传入长短期记忆LSTM网络的嵌入层；

10.根据权利要求6至9任一所述的装置，其特征在于，所述装置还包括：

所述转换模块，包括：

转换单元，用于对所述目标文本进行词向量转换的操作。