CN107273348A

CN107273348A - 一种文本的话题和情感联合检测方法及装置

Info

Publication number: CN107273348A
Application number: CN201710301293.0A
Authority: CN
Inventors: 傅向华; 武海瑛
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2017-05-02
Filing date: 2017-05-02
Publication date: 2017-10-20
Anticipated expiration: 2037-05-02
Also published as: CN107273348B

Abstract

本发明适用机器学习技术领域，提供了一种文本的话题和情感联合检测方法及装置，该方法包括：接收待检测的目标文本，使用预设的情感词典计算目标文本中每个词的初始情感倾向，将预先训练得到的词向量设置为目标文本的词向量的初始值，使用预设模型对目标文本进行训练，以得到目标文本中各个情感话题对与词之间的初始分配和各个情感对应的话题向量，将得到的话题向量设置为目标文本的情感对应的话题向量的初始值，根据得到的初始情感倾向、初始值以及初始分配，对目标文本中包括的每篇文档进行扫描，依次对扫描到的每个训练目标词执行预设的话题和情感检测步骤，从而得到目标文本所涉及的话题和情感，提高了获得的目标文本的话题和情感的准确度。

Description

一种文本的话题和情感联合检测方法及装置

技术领域

本发明属于机器学习技术领域，尤其涉及一种文本的话题和情感联合检测方法及装置。

背景技术

近年来，随着移动互联网的迅猛普及和发展，微博、博客、论坛、微信等大量新兴社会媒体不断涌现，使得用户在个人电脑和移动终端表达意见、分享评论变得越来越便捷，因此越来越多的不同年龄段的用户都积极的参与到产品、服务、新闻等的实体评论中。面对海量的数据，如何有效地对其内容进行组织、整理、挖掘和分析，以准确识别出其中包含的观点信息和情感倾向，对于各个行业的企业及时了解用户诉求，掌握市场态势有着重要的现实意义，同时也是自然语言处理领域研究的热点问题。

联合话题情感混合模型的主要目标是通过对大量的文本集合进行分析、处理，归纳总结并推理出文本所隐含的语义结构和情感倾向，以鉴别其所讨论的话题和情感倾向。现有的大部分联合话题情感分析方法在概率话题模型的基础上进行扩展，以词作为基本属性，将文本表示为词的集合，可有效捕捉文档隐含话题。

然而，一方面，现有提出的联合话题情感分析方法，大多只是从数据本身的属性出发，以词为基本特征，基于词共现统计进行话题概率计算，每个词都被看作是一个单一的实体，各词语、语句之间语义层面的联系考虑较少，难以满足实际应用的需要。一般说来，共现次数越多的词，越有可能被分配在同一话题下。但当语料数较少或文本篇幅较短时，文本特征稀疏并且维度较高，这种单纯依靠词频统计进行话题和情感分配的方法往往会因为语义信息不足而造成情感分布和话题分布的结果不够理想。另一方面，现有的联合话题情感分析方法并没有考虑词语与词语之间的依赖关系，文本中词语与词语之间的依赖关系蕴含了非常丰富的语义信息，这种依赖关系对话题识别和情感分类的效果影响很大，因此，不考虑词语与词语之间的依赖关系时，获取的话题下情感分布的准确度不高。

发明内容

本发明的目的在于提供一种文本的话题和情感联合检测方法及装置，旨在解决现有技术的文本情感和话题联合检测准确率不高的问题。

一方面，本发明提供了一种文本的话题和情感联合检测方法，所述方法包括下述步骤：

接收待检测的目标文本，使用预设的情感词典计算所述待检测的目标文本中每个词的初始情感倾向；

获取预先训练得到的词向量，将所述获取的词向量设置为所述待检测的目标文本的词向量的初始值；

使用预设的联合话题情感混合模型对所述待检测的目标文本进行训练，以得到所述待检测的目标文本中各个情感话题对与词之间的初始分配和所述各个情感对应的话题向量；

将所述得到的所述情感对应的话题向量设置为所述待检测的目标文本的情感对应的话题向量的初始值；

根据所述目标文本中每个词的初始情感倾向、所述词向量和话题向量的初始值以及所述各个情感话题对与词之间的初始分配，对所述目标文本中包括的每篇文档进行扫描，依次对扫描到的每个训练目标词执行预设的话题和情感检测步骤，以得到所述目标文本所涉及的话题和情感。

另一方面，本发明提供了一种文本的话题和情感联合检测装置，所述装置包括：

情感倾向计算单元，用于接收待检测的目标文本，使用预设的情感词典计算所述待检测的目标文本中每个词的初始情感倾向；

词向量设置单元，用于获取预先训练得到的词向量，将所述获取的词向量设置为所述待检测的目标文本的词向量的初始值；

文本训练单元，用于使用预设的联合话题情感混合模型对所述待检测的目标文本进行训练，以得到所述待检测的目标文本中各个情感话题对与词之间的初始分配和所述各个情感对应的话题向量；

话题向量设置单元，用于将所述得到的所述情感对应的话题向量设置为所述待检测的目标文本的情感对应的话题向量的初始值；以及

话题情感获取单元，用于根据所述目标文本中每个词的初始情感倾向、所述词向量和话题向量的初始值以及所述各个情感话题对与词之间的初始分配，对所述目标文本中包括的每篇文档进行扫描，依次对扫描到的每个训练目标词执行预设的话题和情感检测步骤，以得到所述目标文本所涉及的话题和情感。

本发明接收待检测的目标文本，使用预设的情感词典计算待检测的目标文本中每个词的初始情感倾向，获取预先训练得到的词向量，将获取的词向量设置为待检测的目标文本的词向量的初始值，使用预设的联合话题情感混合模型对待检测的目标文本进行训练，以得到待检测的目标文本中各个情感话题对与词之间的初始分配和各个情感对应的话题向量，将得到的情感对应的话题向量设置为待检测的目标文本的情感对应的话题向量的初始值，根据目标文本中每个词的初始情感倾向、词向量和话题向量的初始值以及各个情感话题对与词之间的初始分配，对目标文本中包括的每篇文档进行扫描，依次对扫描到的每个训练目标词执行预设的话题和情感检测步骤，以得到目标文本所涉及的话题和情感，从而提高了获得的目标文本的话题和情感的准确度。

附图说明

图1是本发明实施例一提供的文本的话题和情感联合检测方法的实现流程图；

图2是本发明实施例二提供的文本的话题和情感联合检测装置的结构示意图；以及

图3是本发明实施例三提供的文本的话题和情感联合检测装置的优选结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

图1示出了本发明实施例一提供的文本的话题和情感联合检测方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S101中，接收待检测的目标文本，使用预设的情感词典计算待检测的目标文本中每个词的初始情感倾向。

在本发明实施例中，接收到待检测的目标文本后，使用预设的情感词典计算输入的目标文本中每个词的初始情感倾向。目标文本可以是公用的传统话题检测数据样本，也可以为来自网络的微博、博客、论坛、商品在线评论数据等数据文档。当然，在获取后这些文档后，应对这些文档进行预处理，例如，分词、去停用词、高低频词以及非法字符等，以得到本发明实施例中的目标文本。优选地，使用HowNet词典计算输入的目标文本中每个词的初始情感倾向，以提高目标文本中每个词的初始情感倾向的准确度，加快目标文本的话题和情感获取速度。

在步骤S102中，获取预先训练得到的词向量，将获取的词向量设置为待检测的目标文本的词向量的初始值。

在本发明实施例中，外部扩展语料可作为目标文本对应的原始数据的语义补充，使用预设词向量训练程序对获取的外部扩展语料进行预训练，以得到外部扩展语料中各个词语的词向量，进而利用得到的词向量对目标文本的词向量进行初始化。

具体地，外部语料应尽可能地包含目标文本中的所有词语，这样，可保证目标文本中的每个词都能从外部语料获取一个初始的词向量作为该词语义和词义的补充，用于进一步学习词向量和话题向量。优选地，外部扩展语料为维基百科或百度百科，从而得到提高词向量训练的效率。优选地，预设的词向量训练程序为word2vec或者GloVe工具，从而简化词向量的训练过程，提高训练速度，保证了训练结果的稳定性。

在步骤S103中，使用预设的联合话题情感混合模型对待检测的目标文本进行训练，以得到待检测的目标文本中各个情感话题对与词之间的初始分配和各个情感对应的话题向量。

在本发明实施例中，预设的联合话题情感混合模型用于获取目标文本中各个情感话题对与词之间的初始分配和各个情感对应的话题向量。优选地，预设的话题情感混合模型为弱监督的词向量联合话题情感分析模型(Weakly Supervised-Topic-Sentimentjoint Word vector Examine，缩写为WS-TSWE)模型，从而提高各个情感话题对与词之间的初始分配和各个情感对应的话题向量的准确率。

具体地，在使用WS-TSWE对待检测的目标文本进行训练时，首先利用对目标文本的话题向量进行学习，其中，为L₂正则化项，μ为正则化因子，v_k为话题k对应的话题向量，为话题k下词w_i出现的次数，代表词w_i对应的词向量表示；

使用计算每篇文档情感和话题向量对应下的词向量概率分布，v_k代表话题向量，代表词w_i对应的词向量表示，W为语料库中词典内包含的词的集合，w_i'为词典中的词。

接着根据更新训练目标词对应的情感倾向和话题，其中，表示文本情感下话题的分布，表示文本下情感的分布，表示情感下话题词的分布，α、β、γ表示Dirichlet先验超参数，λ表示服从伯努利分布的参数，ν表示话题向量，ω表示词向量，V、T、L分别表示词典大小、话题个数、情感标签的个数，表示除文档d中的第i个词外，情感l中被分配到话题k的词的个数，表示文档d中的第i个词被分配到情感l的次数，但不包含当前分配，表示除文档d中的第i个词外，情感l下分配到的词的总数，表示当前词i被分配到情感l中话题k的词的次数，但不包含当前分配，表示除当前词i外，情感l下分配到话题k的词的总数。

在步骤S104中，将得到的情感对应的话题向量设置为待检测的目标文本的情感对应的话题向量的初始值。

在步骤S105中，根据目标文本中每个词的初始情感倾向、词向量和话题向量的初始值以及各个情感话题对与词之间的初始分配，对目标文本中包括的每篇文档进行扫描，依次对扫描到的每个训练目标词执行预设的话题和情感检测步骤，以得到目标文本所涉及的话题和情感。

在本发明实施例中，目标文本可以看成是由多篇文档组成，多篇文档可以涉及相同或不同的情感和话题。具体在获取目标文本所涉及的话题和情感时，可根据目标文本中每个词的初始情感倾向、词向量的初始值以及各个情感话题对与词之间的初始分配，对目标文本中包括的每篇文档进行扫描，对扫描到的每个训练目标词执行预设的话题和情感检测步骤。

在本发明实施例中，预设的话题和情感检测步骤包括：

计算预设的循环神经网络的隐藏层函数h_t，以根据隐藏层函数h_t获取训练目标词的序列信息和话题的关联信息；

根据更新训练目标词对应的情感倾向和话题，其中，v_t是对应词的词向量表示，W_* ^*表示权重，例如，表示z_t的权重，b_*表示偏置项，例如，b_y表示的偏置项，softmax函数为：v表示词典大小。

在本发明实施例中，当预设的循环神经网络为LSTM时，计算预设的循环神经网络的隐藏层函数h_t的步骤包括：

根据公式h_t＝o_t⊙tanh(c_t)计算隐藏层函数h_t，其中， x_t为输入词语的词向量表示，z_t为词语对应话题的话题向量表示，h_t-1和h_t表示隐藏层状态。

在本发明实施例中，当预设的循环神经网络为GRU时，计算预设的循环神经网络的隐藏层函数h_t的步骤包括：

根据公式h_t＝z_t⊙h_t-1+(1-z_t)⊙u_t计算隐藏层函数h_t，其中

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘、光盘等。

实施例二：

图2示出了本发明实施例二提供的文本的话题和情感联合检测装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

情感倾向计算单元21，用于接收待检测的目标文本，使用预设的情感词典计算待检测的目标文本中每个词的初始情感倾向。

词向量设置单元22，用于获取预先训练得到的词向量，将获取的词向量设置为待检测的目标文本的词向量的初始值。

文本训练单元23，用于使用预设的联合话题情感混合模型对待检测的目标文本进行训练，以得到待检测的目标文本中各个情感话题对与词之间的初始分配和各个情感对应的话题向量。

话题向量设置单元24，用于将得到的情感对应的话题向量设置为待检测的目标文本的情感对应的话题向量的初始值。

话题情感获取单元25，用于根据目标文本中每个词的初始情感倾向、词向量和话题向量的初始值以及各个情感话题对与词之间的初始分配，对目标文本中包括的每篇文档进行扫描，依次对扫描到的每个训练目标词执行预设的话题和情感检测步骤，以得到目标文本所涉及的话题和情感。

优选地，如图3所示，该话题情感获取单元25包括：

函数计算单元251，用于计算预设的循环神经网络的隐藏层函数h_t，以根据隐藏层函数h_t获取训练目标词的序列信息和话题的关联信息；以及

情感话题更新单元252，用于根据更新训练目标词对应的情感倾向和话题，其中，v_t是对应词的词向量表示，W_* ^*表示权重，b_*表示偏置项，softmax函数为：v表示词典大小；

优选地，该函数计算单元251包括：

第一计算单元，用于当预设的循环神经网络为LSTM时，根据公式h_t＝o_t⊙tanh(c_t)计算隐藏层函数h_t，其中， x_t为输入词语的词向量表示，z_t为词语对应话题的话题向量表示，h_t-1和h_t表示隐藏层状态；以及

第二计算单元，用于当预设的循环神经网络为GRU时，根据公式h_t＝z_t⊙h_t-1+(1-z_t)⊙u_t计算隐藏层函数h_t，其中，

进一步优选地，文本话题和情感的联合检测装置还包括：

语料获取单元30，用于获取外部扩展语料，以作为目标文本对应的原始数据的语义补充；以及

语料训练单元31，用于使用预设词向量训练程序对获取的外部扩展语料进行预训练，以得到外部扩展语料中各个词语的词向量。

优选地，外部扩展语料为维基百科或百度百科，预设词向量训练程序为word2vec或者GloVe工具。优选地，预设的情感词典为HowNet词典，预设的话题情感混合模型为WS-TSWE模型。

在本发明实施例中，文本的话题和情感联合检测装置的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为一个软、硬件单元，在此不用以限制本发明。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本的话题和情感联合检测方法，其特征在于，所述方法包括下述步骤：

2.如权利要求1所述的方法，其特征在于，所述预设的话题和情感检测步骤，包括：

计算预设的循环神经网络的隐藏层函数h_t，以根据所述隐藏层函数h_t获取所述训练目标词的序列信息和话题的关联信息；

根据更新所述训练目标词对应的情感倾向和话题，所述v_t是对应词的词向量表示，所述W_* ^*表示权重，所述b_*表示偏置项，所述softmax函数为：所述v表示词典大小。

3.如权利要求2所述的方法，其特征在于，计算预设的循环神经网络的隐藏层函数h_t的步骤，包括：

当所述预设的循环神经网络为LSTM时，根据公式h_t＝o_t⊙tanh(c_t)计算所述隐藏层函数h_t，所述所述所述所述所述x_t为输入词语的词向量表示，所述z_t为词语对应话题的话题向量表示，所述h_t-1和h_t表示隐藏层状态；

当所述预设的循环神经网络为GRU时，根据公式h_t＝z_t⊙h_t-1+(1-z_t)⊙u_t计算所述隐藏层函数h_t，所述所述所述

4.如权利要求1所述的方法，其特征在于，获取预先训练得到的词向量的步骤之前，所述方法还包括：

获取外部扩展语料，以作为所述目标文本对应的原始数据的语义补充；

使用预设词向量训练程序对所述获取的外部扩展语料进行预训练，以得到所述外部扩展语料中各个词语的词向量。

5.如权利要求4所述的方法，其特征在于，

所述外部扩展语料为维基百科或百度百科，所述预设词向量训练程序为word2vec或者GloVe工具；

预设的情感词典为HowNet词典，预设的联合话题情感混合模型为WS-TSWE模型。

6.一种文本的话题和情感联合检测装置，其特征在于，所述装置包括：

7.如权利要求6所述的装置，其特征在于，所述话题情感获取单元包括：

函数计算单元，用于计算预设的循环神经网络的隐藏层函数h_t，以根据所述隐藏层函数h_t获取所述训练目标词的序列信息和话题的关联信息；以及

情感话题更新单元，用于根据更新所述训练目标词对应的情感倾向和话题，所述v_t是对应词的词向量表示，所述W_* ^*表示权重，所述b_*表示偏置项，所述softmax函数为：所述v表示词典大小。

8.如权利要求7所述的装置，其特征在于，所述函数计算单元包括：

第一计算单元，用于当所述预设的循环神经网络为LSTM时，根据公式h_t＝o_t⊙tanh(c_t)计算所述隐藏层函数h_t，所述所述所述所述所述x_t为输入词语的词向量表示，所述z_t为词语对应话题的话题向量表示，所述h_t-1和h_t表示隐藏层状态；以及

第二计算单元，用于当所述预设的循环神经网络为GRU时，根据公式h_t＝z_t⊙h_t-1+(1-z_t)⊙u_t计算所述隐藏层函数h_t，所述所述所述

9.如权利要求6所述的装置，其特征在于，所述装置还包括：

语料获取单元，用于获取外部扩展语料，以作为所述目标文本对应的原始数据的语义补充；以及

语料训练单元，用于使用预设词向量训练程序对所述获取的外部扩展语料进行预训练，以得到所述外部扩展语料中各个词语的词向量。

10.如权利要求9所述的装置，其特征在于，