CN110598207A

CN110598207A - 一种词向量获取方法、装置及存储介质

Info

Publication number: CN110598207A
Application number: CN201910749465.XA
Authority: CN
Inventors: 王子文; 唐婧尧; 薛云; 赵洪雅
Original assignee: South China Normal University; Shenzhen Polytechnic
Current assignee: South China Normal University; Shenzhen Polytechnic
Priority date: 2019-08-14
Filing date: 2019-08-14
Publication date: 2019-12-20
Anticipated expiration: 2039-08-14
Also published as: CN110598207B

Abstract

本发明涉及一种词向量获取方法、装置及存储介质，根据所述词语的情感分布信息计算词语为设定情感标签的概率，基于Glove模型，以所述词语为设定情感标签的概率作为模型参数，构建情感词嵌入模型；根据收集到的用户语料，调用所述情感词嵌入模型将用户语料中的词语映射到向量空间，获取词向量。相对于现有技术，本发明避免了由于词语存在相似的上下文而将情感极性不同的词语映射为向量空间中的相近向量，导致后续情感分析时出现误判，影响情感分析的准确性。

Description

一种词向量获取方法、装置及存储介质

技术领域

本发明涉及自然语言处理领域，尤其是涉及一种词向量获取方法、装置及存储介质。

背景技术

情感分析，也称意见挖掘，是人们的观点，情绪，评估对诸如产品，服务，组织等实体的态度。该领域的发展和快速起步得益于网络上的社交媒体，例如产品评论，论坛讨论，微博，微信的快速发展，因为这是人类历史上第一次有如此巨大数字量的形式记录。情感分析的方法将文本表示成计算机可理解的形式，一直是自然语言处理领域研究的热点之一。

文本作为非结构化的字符数据，所以首先将文本分隔为单词，将单词作为文本的原子单位。将每个单词表示为词汇表中的对应索引位置为1其余为0的独热码向量。这样的表示方法具有简单性和健壮性的优点，然而词的表示之间没有相似性，互相没有联系，不包含任何语义和句法信息。基于上下文的词嵌入学习方法可以学习到文本中丰富的语义和句法信息。然而，在实际应用时，由于存在具有相似的上下文但情感极性相反的两个词，例如好与坏，这两个词会被映射到向量空间中的相近向量，在情感倾向判断时，容易出现误判，情感分析准确度不高。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种提高情感分析准确度的词向量获取方法及装置、存储介质。

一种词向量获取方法，包括以下步骤：

收集带有情感标签的用户语料，获取用户语料中词语的情感分布信息；

根据所述词语的情感分布信息计算词语为设定情感标签的概率，基于Glove模型，以所述词语为设定情感标签的概率作为模型参数，构建情感词嵌入模型；

根据收集到的用户语料，调用所述情感词嵌入模型将用户语料中的词语映射到向量空间，获取词向量。

相对于现有技术，本案通过根据所述词语的情感分布信息计算词语为设定情感标签的概率，基于Glove模型，以所述词语为设定情感标签的概率作为模型参数，构建情感词嵌入模型；根据收集到的用户语料，调用所述情感词嵌入模型将用户语料中的词语映射到向量空间，获取词向量，本发明通过结合词语情感标签获取词向量，避免了由于词语存在相似的上下文而将情感极性不同的词语映射为向量空间中的相近向量，导致后续情感分析时出现误判，影响情感分析的准确性。

在本发明一个实施例中，所述获取用户语料中的词语的情感分布信息的步骤包括：

对所述带有情感标签的用户语料进行包括分词处理、停用词处理的预处理；

统计用户语料中的词的词频信息，并给每个词标号，形成该语料对应的词典；

根据所述预处理后的用户语料与该语料对应的词典，统计词与词的共现频数信息，获取每个词语的情感分布信息；其中，所述词语的情感分布信息包括含有该词且情感标签为积极的文本数和包含该词且情感标签为消极的文本数。通过对用户语料进行预处理，减少用户语料中的无效词和停用词，提高获取词向量的准确性。

在本发明一个实施例中，所述根据所述词语的情感分布信息计算词语为设定情感标签的概率，基于Glove模型，以所述词语为设定情感标签的概率作为模型参数，构建情感词嵌入模型的步骤包括：

在GloVe模型基础上，考虑情感二分类，利用词语积极情感概率的比值反映词语的情感差异性，构建函数F：

其中，B_i表示词W_i的情感标签是积极的概率，将1-B_i表示词W_i的情感标签是消极的概率，B_j表示词W_j的情感标签是积极的概率，将1-B_j表示词W_j的情感标签是消极的概率，w_i、w_j分别为词W_i、W_j的词向量，s_i、s_j分别为词W_i、W_j对应的情感偏置向量；

根据所述函数F满足群和群之间的群同态，构建词嵌入模型，其中，所述词嵌入模型的损失函数为：

其中，w_i为词向量，为上下文词对应的词向量，s_i为词W_i对应的情感偏置向量，P_ik表示在词语W_i的上下文中词语W_k出现的概率，B_i表示词W_i的情感标签是积极的概率，V表示词汇表中词语的个数。

在本发明一个实施例中，所述情感词嵌入模型利用极大似然估计获取所述情感词嵌入模型中模型参数的估计值，将所述估计值代入所述情感词嵌入模型，获得基于极大似然估计的情感词嵌入模型步骤中，所述基于极大似然估计的情感词嵌入模型的损失函数为：

其中，w_i为词向量，为上下文词对应的词向量，s_i为词W_i对应的情感偏置向量，x_ik表示在词语W_i的上下文中词语W_k出现的频数，x_i表示在词语W_i的上下文中所有词语出现的频数，t_i1表示含有词W_i且情感标签为积极的文本数，t_i表示含有词W_i的文本数，V表示词汇表中词语的个数。

利用极大似然估计重新定义B_i的计算，将抽象的模型参数值具体化，方便计算机程序将用户语料中的词语映射到向量空间，获取词向量。

在本发明一个实施例中，所述情感词嵌入模型利用贝叶斯估计获取所述情感词嵌入模型中模型参数的估计值，将所述估计值代入所述情感词嵌入模型，获得基于贝叶斯估计的情感词嵌入模型，其中，所述基于贝叶斯估计的情感词嵌入模型的损失函数为：

其中，w_i为中心词对应的词向量，为上下文词对应的词向量，s_i为词W_i对应的情感偏置向量，P_ik表示在词语W_i的上下文中词语W_k出现的概率，B_i表示词W_i的情感标签是积极的概率，c_ik表示logP_ik的贝叶斯估计值，即对logP_ik求关于P_ik后验概率的期望：

对进行泰勒展开获得：

其中，

n_k表示词k在训练文本中的出现次数，λ₁是调节因子，x_ik表示进行x_i次独立随机试验抽取上下文词第k种结果出现的次数；

e_i表示logB_i的贝叶斯估计值，即对logB_i求关于B_i后验概率的期望：

对进行泰勒展开获得：

其中，

m_k表示情感标签为k的文本数，λ₂是调节因子，t_ik表示含有词W_i且情感标签为k的文本数，V表示词汇表中词语的个数。

利用贝叶斯估计重新定义B_i的计算，将抽象的模型参数值具体化，方便计算机程序将用户语料中的词语映射到向量空间，获取词向量。

在本发明一个实施例中，所述根据收集到的用户语料，调用所述基于极大似然估计的情感词嵌入模型或所述基于贝叶斯估计的情感词嵌入模型将用户语料中的词语映射到向量空间，获取词向量的步骤包括：

根据预设的学习率和迭代次数，重复利用随机梯度下降法对所述基于极大似然估计的情感词嵌入模型或所述基于贝叶斯估计的情感词嵌入模型进行优化，获取词向量。通过多次迭代，优化情感词嵌入模型的性能。

本发明还提供了一种计算机可读存储介质，其上储存有计算机程序，该计算机程序被处理器执行时实现上述任意一项所述的词向量获取方法的步骤。

本发明还提供了一种词向量获取装置，包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现上述任意一项所述的词向量获取方法的步骤。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1是本发明实施例1中一种词向量获取方法的流程图；

图2是本发明实施例1中步骤S1的流程图；

图3是本发明实施例1中调用基于极大使然估计的情感词嵌入模型获取词向量的流程图；

图4是本发明实施例2中调用基于贝叶斯估计的情感词嵌入模型获取词向量的流程图。

具体实施方式

本发明实施例中所述词向量获取方法可以应用于词向量获取系统，所述词向量获取系统配置有服务器，所述服务器执行所述词向量获取任务，并经由通信网络与用户设备进行数据通信；所述服务器包括但不限于配置有大数据处理能力和大容量数据存储能力的服务器装置，诸如搜索引擎服务器、内容提供服务器等。所述用户设备包括但不限于笔记本计算机、台式计算机、智能电话、平板电脑等具有数据处理能力的移动终端或者固定终端。所述通信网络包括但不限于遵循诸如传输控制协议和互联网协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)和/或文件传输协议(FTP)配置的互联网、IPTV网络、无线保真(Wi-Fi)网络、无线局域网(WLAN)、局域网(LAN)和/或城域网(MAN)等。

实施例1

请参阅图1，其是本发明实施例中的一种词向量获取方法的流程图。

所述词向量获取方法包括以下步骤：

S1：收集带有情感标签的用户语料，获取用户语料中的词语的情感分布信息；具体地，如图2所示，所述获取用户语料中情感标签和词频信息的步骤包括：

S101：对所述带有情感标签的用户语料进行包括分词处理、停用词处理的预处理；

S102：统计用户语料中的词的词频信息，并给每个词标号，形成该语料对应的词典；其中，词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的次数。词典是一个词及其相关信息的集合。

S103：根据所述预处理后的用户语料与该语料对应的词典，统计词与词的共现频数信息，获取每个词语的情感分布信息；其中，所述词的情感分布信息包括含有该词且情感标签为积极的文本数和包含该词且情感标签为消极的文本数。

S2：根据所述词语的情感分布信息计算词语为设定情感标签的概率，基于Glove模型，以所述词语为设定情感标签的概率作为模型参数，构建情感词嵌入模型；

其中，本发明所述情感词嵌入模型基于GloVe模型，所述GloVe模型设有三个不同词W_i，W_j，W_k，其中词W_i和W_j为中心词，W_k为上下文词。所述GloVe模型根据步骤S1收集到的用户语料建立矩阵x表示词与词的共现频数，其中，矩阵中的元素x_ik表示在词语W_i的上下文中词语W_k出现的频数。x_i＝∑_kx_ik表示在词语W_i的上下文中所有词语出现的频数。P_ik＝P(W_k|W_i)＝x_ik/x_i表示在词语W_i的上下文中词语W_k出现的概率。GloVe模型考虑词W_i和W_j之间的语义关系，通过研究词W_i和W_k以及词W_j和W_k的共现概率比值P_ik/P_jk来衡量。如果词W_k与W_i和W_j都相关或者都不相关，则共现概率的比值P_ik/P_jk接近于1。为了反映共现概率比值包含的信息，所述GloVe模型的构造函数F：

其中，表示中心词对应的词向量，表示上下文词对应的词向量。

虽然GloVe模型根据共现概率比值能较好的刻画词与词之间的语义关系，但如果考虑两个中心词，词W_i＝“喜欢”和词W_j＝“不喜欢”，由于二者的上下文相似，则P_ik/P_jk接近于1。此时根据公式(1)，对于词“喜欢”和“不喜欢”，GloVe模型会训练得到相似的词向量，然而二者的情感极性显然是相反的，不利于情感分析任务。

因此，本发明在GloVe模型的基础上，根据步骤S1收集的用户语料，考虑情感二分类，以pol表示文本的情感标签，将pol_i表示词W_i的情感标签，pol_i＝1表示积极，pol_i＝0表示消极，且词语的情感标签与所在文本的情感标签一致。将词W_i对应的情感分布表示成T_i＝(t_i0,t_i1)，t_ik表示含有词W_i且情感标签为pol_i＝k的文本数，k＝0,1。t_i＝t_i0+t_i1表示含有词W_i的文本数。将B_i表示词W_i的情感是积极的概率，将1-B_i表示词W_i的情感是消极的概率。本发明在GloVe模型基础上，考虑情感二分类，利用词语积极情感概率的比值反映词语的情感差异性，构建函数F：

其中，表示词对应的情感偏置向量。考虑词W_i的词向量w_i在情感偏置s_i下的投影的数量积，与W_j的词向量w_j在情感偏置s_j下的投影的数量积之间的差异：

本发明要求函数F满足群和群之间的群同态，那么结合语义信息和情感信息有：

利用向量的交换律，再次利用函数F满足群同态的性质，可得：

那么，取等式5两边的分子部分有：

由等式4中函数F的运算性质，可以解得函数形式F＝exp，则对等式6两边取对数有：

于是，得到带有情感信息的词嵌入模型的损失函数为：

其中，V表示词汇表中词语的个数。由此，本发明得到情感词嵌入模型。

S301：所述情感词嵌入模型利用极大似然估计获取所述情感词嵌入模型中模型参数的估计值，将所述估计值代入所述情感词嵌入模型，获得基于极大似然估计的情感词嵌入模型；

在本步骤中，利用极大似然估计的思想解释GloVe模型中共现概率P_ik以及对步骤S2中词W_i的情感标签是积极的概率B_i进行估计计算。GloVe模型使用极大似然估计将作为P_ik的估计值。具体地，对于每个中心词W_i，本发明假设重复进行x_i次独立随机试验抽取上下文词，每次试验可能出现的结果有V种，第k种结果出现的概率为P_ik，第k种结果出现的次数为x_ik。如果用随机变量X_i＝(X_i1,X_i2,...,X_iV)表示试验所有可能结果的次数，其中X_ik表示第k种结果出现的次数。那么随机变量X_i服从参数为的多项分布，即其中于是，构造对数似然函数：

式9是一个具有等式约束的最优化问题，于是，构造拉格朗日函数：

对参数P_ik求偏导：

则P_ik＝x_ik/λ。

再根据约束条件得

解得P_ik的极大似然估计值：

在本步骤中，利用极大使然估计计算，将作为步骤S2中B_i的估计值对每个词W_i，假设重复进行t_i次独立随机试验抽取情感极性，每次试验可能出现积极和消极两种结果，积极情感出现的概率为B_i，积极情感出现的次数为t_i1。如果用随机变量T_i＝(T_i1,T_i2)表示所有可能结果的次数。那么随机变量T_i服从参数为的二项分布，即其中，于是，构造对数似然函数：

对参数B_i求偏导：

解得B_i的极大似然估计值：

于是，得到基于极大似然估计的情感词嵌入模型的损失函数:

由此，本发明得到基于极大似然估计的情感词嵌入模型。

S4：根据所述用户语料，调用所述情感词嵌入模型将用户语料中的词语映射到向量空间，获取词向量。

如图3所示，所述根据所述用户语料，调用所述情感词嵌入模型将用户语料中的词语映射到向量空间，获取词向量的步骤包括：

根据预设的学习率和迭代次数，重复利用随机梯度下降法分别对所述基于极大似然估计的情感词嵌入模型进行优化，获取词向量。

具体地，设置词向量的维度，对每个词对应的词向量进行随机赋值，根据步骤S1得到的词典，词与词的共现频数信息和词语的情感分布信息，使用随机梯度下降法优化所述基于极大似然估计的情感词嵌入模型的损失函数，更新词向量。在本实施例中，设置词向量的维度为50，设置学习率为0.05，迭代轮数为50，不断重复执行上述步骤，直至迭代50轮，得到词向量。

实施例2

本发明实施例2的词向量获取方法与实施例1大致相同，其区别仅在于：步骤S302：所述情感词嵌入模型利用贝叶斯估计获取所述情感词嵌入模型中模型参数的估计值，将所述估计值代入所述情感词嵌入模型，获得基于贝叶斯估计的情感词嵌入模型。

步骤S301中，利用极大似然参数估计计算估计值时，在词W_i的出现频数足够大的情况下，这种估计方式才更为可靠。而当语料中存在较多的低频词时，利用贝叶斯估计，通过先验知识使得参数估计的结果更加可靠。

具体地，本步骤在极大似然估计中假设的前提下，本发明进一步假设先验分布服从参数为的Dirichlet分布，即先验分布为：

那么，对应的似然函数为：

利用Dirichlet-Multinomial共轭结构，得后验分布：

其中，n_k表示词k在训练文本中的出现次数，λ₁是调节因子。那么，对等式8中的logP_ik进行贝叶斯估计，令即对logP_ik求关于P_ik后验概率的期望。于是，对进行泰勒展开有：

其中，

等式19使用贝叶斯估计求参数P_ik。相比于等式11使用极大似然估计求参数P_ik，贝叶斯估计相当于对极大似然估计进行拉普拉斯平滑，从而不需要进行额外的平滑处理。

另外，本发明假设，先验分布服从参数为的Beta分布，即先验分布为：

那么，对应的似然函数为：

利用Beta-Binomial共轭结构，得后验分布：

其中，m_k表示情感标签为k的文本数，λ₂是调节因子，t_ik表示含有词W_i且情感标签为k的文本数。那么，对等式8中的logB_i进行贝叶斯估计，令即对logB_i求关于B_i后验概率的期望。类似地，对进行泰勒展开有：

其中，

最终可以得到基于贝叶斯估计的情感词嵌入模型的损失函数：

由此得到基于贝叶斯估计的情感词嵌入模型。

步骤S4：根据收集到的用户语料，调用所述基于贝叶斯估计的情感词嵌入模型将用户语料中的词语映射到向量空间，获取词向量，如图4所示，该步骤具体包括：

根据预设的学习率和迭代次数，重复利用随机梯度下降法分别对所述基于贝叶斯估计的情感词嵌入模型进行优化，获取词向量。

具体地，设置词向量的维度，对每个词对应的词向量进行随机赋值，根据步骤S1得到的词典，词与词的共现频数信息和词语的情感分布信息，使用随机梯度下降法优化所述基于贝叶斯估计的情感词嵌入模型的损失函数，更新词向量。在本实施例中，设置词向量的维度为50，设置学习率为0.05，迭代轮数为50，不断重复执行上述步骤，直至迭代50轮，得到词向量。

本发明可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可读储存介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

本发明还提供了一种词向量获取装置，包括存储器、处理器以及储存在所述存储器中并可被所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现上述任意一项所述的词向量获取方法的步骤。

相对于现有技术，本案通过利用词语的情感分布信息，在Glove模型基础上，构建情感词嵌入模型，结合用户语料中的情感极性将词语映射到向量空间，避免出现由于词语存在相似的上下文而将情感极性不同的词语映射为向量空间中的相近向量，导致后续情感分析时出现误判，影响情感分析的准确性；并且，本案通过利用极大似然估计和贝叶斯估计对所述情感词嵌入模型中模型参数进行了估计计算，将抽象的模型参数值具体化，方便计算机程序将用户语料中的词语映射到向量空间，获取词向量。

本发明并不局限于上述实施方式，如果对本发明的各种改动或变形不脱离本发明的精神和范围，倘若这些改动和变形属于本发明的权利要求和等同技术范围之内，则本发明也意图包含这些改动和变形。

Claims

1.一种词向量获取方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的词向量获取方法，其特征在于：所述获取用户语料中的词语的情感分布信息的步骤包括：

根据所述预处理后的用户语料与该语料对应的词典，统计词与词的共现频数信息，获取每个词语的情感分布信息；其中，所述词语的情感分布信息包括含有该词且情感标签为积极的文本数和包含该词且情感标签为消极的文本数。

3.根据权利要求1所述的词向量获取方法，其特征在于：所述根据所述词语的情感分布信息计算词语为设定情感标签的概率，基于Glove模型，以所述词语为设定情感标签的概率作为模型参数，构建情感词嵌入模型的步骤包括：

其中，w_i为中心词对应的词向量，为上下文词对应的词向量，s_i为词W_i对应的情感偏置向量，P_ik表示在词语W_i的上下文中词语W_k出现的概率，B_i表示词W_i的情感标签是积极的概率，V表示词汇表中词语的个数。

4.根据权利要求1所述的词向量获取方法，其特征在于：所述情感词嵌入模型利用极大似然估计获取所述情感词嵌入模型中模型参数的估计值，将所述估计值代入所述情感词嵌入模型，获得基于极大似然估计的情感词嵌入模型，其中，所述基于极大似然估计的情感词嵌入模型的损失函数为：

其中，w_i为中心词对应的词向量，为上下文词对应的词向量，s_i为词W_i对应的情感偏置向量，x_ik表示在词语W_i的上下文中词语W_k出现的频数，x_i表示在词语W_i的上下文中所有词语出现的频数，t_i1表示含有词W_i且情感标签为积极的文本数，t_i表示含有词W_i的文本数，V表示词汇表中词语的个数。

5.根据权利要求1所述的词向量获取方法，其特征在于：所述情感词嵌入模型利用贝叶斯估计获取所述情感词嵌入模型中模型参数的估计值，将所述估计值代入所述情感词嵌入模型，获得基于贝叶斯估计的情感词嵌入模型，其中，所述基于贝叶斯估计的情感词嵌入模型的损失函数为：

其中，w_i为中心词对应的词向量，为上下文词对应的词向量，s_i为词W_i对应的情感偏置向量，P_ik表示在词语W_i的上下文中词语W_k出现的概率，B_i表示词W_i的情感标签是积极的概率，c_ik表示log P_ik的贝叶斯估计值，即对log P_ik求关于P_ik后验概率的期望：

对进行泰勒展开获得：

其中，

e_i表示log B_i的贝叶斯估计值，即对log B_i求关于B_i后验概率的期望：

对进行泰勒展开获得：

其中，

6.根据权利要求1所述的词向量获取方法，其特征在于：所述根据收集到的用户语料，调用所述情感词嵌入模型将用户语料中的词语映射到向量空间，获取词向量的步骤包括：

根据预设的学习率和迭代次数，重复利用随机梯度下降法分别对所述基于极大似然估计的情感词嵌入模型或所述基于贝叶斯估计的情感词嵌入模型进行优化，获取词向量。

7.一种计算机可读存储介质，其上储存有计算机程序，其特征在于：该计算机程序被处理器执行时实现如权利要求1-6任意一项所述的词向量获取方法的步骤。

8.一种词向量获取装置，其特征在于：包括存储器、处理器以及存储在所述存储器中并可被所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-6中任意一项所述的词向量获取方法的步骤。