CN110598207A - 一种词向量获取方法、装置及存储介质 - Google Patents
一种词向量获取方法、装置及存储介质 Download PDFInfo
- Publication number
- CN110598207A CN110598207A CN201910749465.XA CN201910749465A CN110598207A CN 110598207 A CN110598207 A CN 110598207A CN 201910749465 A CN201910749465 A CN 201910749465A CN 110598207 A CN110598207 A CN 110598207A
- Authority
- CN
- China
- Prior art keywords
- word
- emotion
- words
- embedding model
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 title claims abstract description 108
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000008451 emotion Effects 0.000 claims abstract description 161
- 238000007476 Maximum Likelihood Methods 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 8
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 230000001105 regulatory effect Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 10
- 230000000875 corresponding effect Effects 0.000 description 18
- 230000002996 emotional effect Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- CTETYYAZBPJBHE-UHFFFAOYSA-N Haloprogin Chemical compound ClC1=CC(Cl)=C(OCC#CI)C=C1Cl CTETYYAZBPJBHE-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种词向量获取方法、装置及存储介质,根据所述词语的情感分布信息计算词语为设定情感标签的概率,基于Glove模型,以所述词语为设定情感标签的概率作为模型参数,构建情感词嵌入模型;根据收集到的用户语料,调用所述情感词嵌入模型将用户语料中的词语映射到向量空间,获取词向量。相对于现有技术,本发明避免了由于词语存在相似的上下文而将情感极性不同的词语映射为向量空间中的相近向量,导致后续情感分析时出现误判,影响情感分析的准确性。
Description
技术领域
本发明涉及自然语言处理领域,尤其是涉及一种词向量获取方法、装置及存储介质。
背景技术
情感分析,也称意见挖掘,是人们的观点,情绪,评估对诸如产品,服务,组织等实体的态度。该领域的发展和快速起步得益于网络上的社交媒体,例如产品评论,论坛讨论,微博,微信的快速发展,因为这是人类历史上第一次有如此巨大数字量的形式记录。情感分析的方法将文本表示成计算机可理解的形式,一直是自然语言处理领域研究的热点之一。
文本作为非结构化的字符数据,所以首先将文本分隔为单词,将单词作为文本的原子单位。将每个单词表示为词汇表中的对应索引位置为1其余为0的独热码向量。这样的表示方法具有简单性和健壮性的优点,然而词的表示之间没有相似性,互相没有联系,不包含任何语义和句法信息。基于上下文的词嵌入学习方法可以学习到文本中丰富的语义和句法信息。然而,在实际应用时,由于存在具有相似的上下文但情感极性相反的两个词,例如好与坏,这两个词会被映射到向量空间中的相近向量,在情感倾向判断时,容易出现误判,情感分析准确度不高。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种提高情感分析准确度的词向量获取方法及装置、存储介质。
一种词向量获取方法,包括以下步骤:
收集带有情感标签的用户语料,获取用户语料中词语的情感分布信息;
根据所述词语的情感分布信息计算词语为设定情感标签的概率,基于Glove模型,以所述词语为设定情感标签的概率作为模型参数,构建情感词嵌入模型;
根据收集到的用户语料,调用所述情感词嵌入模型将用户语料中的词语映射到向量空间,获取词向量。
相对于现有技术,本案通过根据所述词语的情感分布信息计算词语为设定情感标签的概率,基于Glove模型,以所述词语为设定情感标签的概率作为模型参数,构建情感词嵌入模型;根据收集到的用户语料,调用所述情感词嵌入模型将用户语料中的词语映射到向量空间,获取词向量,本发明通过结合词语情感标签获取词向量,避免了由于词语存在相似的上下文而将情感极性不同的词语映射为向量空间中的相近向量,导致后续情感分析时出现误判,影响情感分析的准确性。
在本发明一个实施例中,所述获取用户语料中的词语的情感分布信息的步骤包括:
对所述带有情感标签的用户语料进行包括分词处理、停用词处理的预处理;
统计用户语料中的词的词频信息,并给每个词标号,形成该语料对应的词典;
根据所述预处理后的用户语料与该语料对应的词典,统计词与词的共现频数信息,获取每个词语的情感分布信息;其中,所述词语的情感分布信息包括含有该词且情感标签为积极的文本数和包含该词且情感标签为消极的文本数。通过对用户语料进行预处理,减少用户语料中的无效词和停用词,提高获取词向量的准确性。
在本发明一个实施例中,所述根据所述词语的情感分布信息计算词语为设定情感标签的概率,基于Glove模型,以所述词语为设定情感标签的概率作为模型参数,构建情感词嵌入模型的步骤包括:
在GloVe模型基础上,考虑情感二分类,利用词语积极情感概率的比值反映词语的情感差异性,构建函数F:
其中,Bi表示词Wi的情感标签是积极的概率,将1-Bi表示词Wi的情感标签是消极的概率,Bj表示词Wj的情感标签是积极的概率,将1-Bj表示词Wj的情感标签是消极的概率,wi、wj分别为词Wi、Wj的词向量,si、sj分别为词Wi、Wj对应的情感偏置向量;
根据所述函数F满足群和群之间的群同态,构建词嵌入模型,其中,所述词嵌入模型的损失函数为:
其中,wi为词向量,为上下文词对应的词向量,si为词Wi对应的情感偏置向量,Pik表示在词语Wi的上下文中词语Wk出现的概率,Bi表示词Wi的情感标签是积极的概率,V表示词汇表中词语的个数。
在本发明一个实施例中,所述情感词嵌入模型利用极大似然估计获取所述情感词嵌入模型中模型参数的估计值,将所述估计值代入所述情感词嵌入模型,获得基于极大似然估计的情感词嵌入模型步骤中,所述基于极大似然估计的情感词嵌入模型的损失函数为:
其中,wi为词向量,为上下文词对应的词向量,si为词Wi对应的情感偏置向量,xik表示在词语Wi的上下文中词语Wk出现的频数,xi表示在词语Wi的上下文中所有词语出现的频数,ti1表示含有词Wi且情感标签为积极的文本数,ti表示含有词Wi的文本数,V表示词汇表中词语的个数。
利用极大似然估计重新定义Bi的计算,将抽象的模型参数值具体化,方便计算机程序将用户语料中的词语映射到向量空间,获取词向量。
在本发明一个实施例中,所述情感词嵌入模型利用贝叶斯估计获取所述情感词嵌入模型中模型参数的估计值,将所述估计值代入所述情感词嵌入模型,获得基于贝叶斯估计的情感词嵌入模型,其中,所述基于贝叶斯估计的情感词嵌入模型的损失函数为:
其中,wi为中心词对应的词向量,为上下文词对应的词向量,si为词Wi对应的情感偏置向量,Pik表示在词语Wi的上下文中词语Wk出现的概率,Bi表示词Wi的情感标签是积极的概率,cik表示logPik的贝叶斯估计值,即对logPik求关于Pik后验概率的期望:
对进行泰勒展开获得:
其中,
nk表示词k在训练文本中的出现次数,λ1是调节因子,xik表示进行xi次独立随机试验抽取上下文词第k种结果出现的次数;
ei表示logBi的贝叶斯估计值,即对logBi求关于Bi后验概率的期望:
对进行泰勒展开获得:
其中,
mk表示情感标签为k的文本数,λ2是调节因子,tik表示含有词Wi且情感标签为k的文本数,V表示词汇表中词语的个数。
利用贝叶斯估计重新定义Bi的计算,将抽象的模型参数值具体化,方便计算机程序将用户语料中的词语映射到向量空间,获取词向量。
在本发明一个实施例中,所述根据收集到的用户语料,调用所述基于极大似然估计的情感词嵌入模型或所述基于贝叶斯估计的情感词嵌入模型将用户语料中的词语映射到向量空间,获取词向量的步骤包括:
根据预设的学习率和迭代次数,重复利用随机梯度下降法对所述基于极大似然估计的情感词嵌入模型或所述基于贝叶斯估计的情感词嵌入模型进行优化,获取词向量。通过多次迭代,优化情感词嵌入模型的性能。
本发明还提供了一种计算机可读存储介质,其上储存有计算机程序,该计算机程序被处理器执行时实现上述任意一项所述的词向量获取方法的步骤。
本发明还提供了一种词向量获取装置,包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述任意一项所述的词向量获取方法的步骤。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1是本发明实施例1中一种词向量获取方法的流程图;
图2是本发明实施例1中步骤S1的流程图;
图3是本发明实施例1中调用基于极大使然估计的情感词嵌入模型获取词向量的流程图;
图4是本发明实施例2中调用基于贝叶斯估计的情感词嵌入模型获取词向量的流程图。
具体实施方式
本发明实施例中所述词向量获取方法可以应用于词向量获取系统,所述词向量获取系统配置有服务器,所述服务器执行所述词向量获取任务,并经由通信网络与用户设备进行数据通信;所述服务器包括但不限于配置有大数据处理能力和大容量数据存储能力的服务器装置,诸如搜索引擎服务器、内容提供服务器等。所述用户设备包括但不限于笔记本计算机、台式计算机、智能电话、平板电脑等具有数据处理能力的移动终端或者固定终端。所述通信网络包括但不限于遵循诸如传输控制协议和互联网协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)和/或文件传输协议(FTP)配置的互联网、IPTV网络、无线保真(Wi-Fi)网络、无线局域网(WLAN)、局域网(LAN)和/或城域网(MAN)等。
实施例1
请参阅图1,其是本发明实施例中的一种词向量获取方法的流程图。
所述词向量获取方法包括以下步骤:
S1:收集带有情感标签的用户语料,获取用户语料中的词语的情感分布信息;具体地,如图2所示,所述获取用户语料中情感标签和词频信息的步骤包括:
S101:对所述带有情感标签的用户语料进行包括分词处理、停用词处理的预处理;
S102:统计用户语料中的词的词频信息,并给每个词标号,形成该语料对应的词典;其中,词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的次数。词典是一个词及其相关信息的集合。
S103:根据所述预处理后的用户语料与该语料对应的词典,统计词与词的共现频数信息,获取每个词语的情感分布信息;其中,所述词的情感分布信息包括含有该词且情感标签为积极的文本数和包含该词且情感标签为消极的文本数。
S2:根据所述词语的情感分布信息计算词语为设定情感标签的概率,基于Glove模型,以所述词语为设定情感标签的概率作为模型参数,构建情感词嵌入模型;
其中,本发明所述情感词嵌入模型基于GloVe模型,所述GloVe模型设有三个不同词Wi,Wj,Wk,其中词Wi和Wj为中心词,Wk为上下文词。所述GloVe模型根据步骤S1收集到的用户语料建立矩阵x表示词与词的共现频数,其中,矩阵中的元素xik表示在词语Wi的上下文中词语Wk出现的频数。xi=∑kxik表示在词语Wi的上下文中所有词语出现的频数。Pik=P(Wk|Wi)=xik/xi表示在词语Wi的上下文中词语Wk出现的概率。GloVe模型考虑词Wi和Wj之间的语义关系,通过研究词Wi和Wk以及词Wj和Wk的共现概率比值Pik/Pjk来衡量。如果词Wk与Wi和Wj都相关或者都不相关,则共现概率的比值Pik/Pjk接近于1。为了反映共现概率比值包含的信息,所述GloVe模型的构造函数F:
其中,表示中心词对应的词向量,表示上下文词对应的词向量。
虽然GloVe模型根据共现概率比值能较好的刻画词与词之间的语义关系,但如果考虑两个中心词,词Wi=“喜欢”和词Wj=“不喜欢”,由于二者的上下文相似,则Pik/Pjk接近于1。此时根据公式(1),对于词“喜欢”和“不喜欢”,GloVe模型会训练得到相似的词向量,然而二者的情感极性显然是相反的,不利于情感分析任务。
因此,本发明在GloVe模型的基础上,根据步骤S1收集的用户语料,考虑情感二分类,以pol表示文本的情感标签,将poli表示词Wi的情感标签,poli=1表示积极,poli=0表示消极,且词语的情感标签与所在文本的情感标签一致。将词Wi对应的情感分布表示成Ti=(ti0,ti1),tik表示含有词Wi且情感标签为poli=k的文本数,k=0,1。ti=ti0+ti1表示含有词Wi的文本数。将Bi表示词Wi的情感是积极的概率,将1-Bi表示词Wi的情感是消极的概率。本发明在GloVe模型基础上,考虑情感二分类,利用词语积极情感概率的比值反映词语的情感差异性,构建函数F:
其中,表示词对应的情感偏置向量。考虑词Wi的词向量wi在情感偏置si下的投影的数量积,与Wj的词向量wj在情感偏置sj下的投影的数量积之间的差异:
本发明要求函数F满足群和群之间的群同态,那么结合语义信息和情感信息有:
利用向量的交换律,再次利用函数F满足群同态的性质,可得:
那么,取等式5两边的分子部分有:
由等式4中函数F的运算性质,可以解得函数形式F=exp,则对等式6两边取对数有:
于是,得到带有情感信息的词嵌入模型的损失函数为:
其中,V表示词汇表中词语的个数。由此,本发明得到情感词嵌入模型。
S301:所述情感词嵌入模型利用极大似然估计获取所述情感词嵌入模型中模型参数的估计值,将所述估计值代入所述情感词嵌入模型,获得基于极大似然估计的情感词嵌入模型;
在本步骤中,利用极大似然估计的思想解释GloVe模型中共现概率Pik以及对步骤S2中词Wi的情感标签是积极的概率Bi进行估计计算。GloVe模型使用极大似然估计将作为Pik的估计值。具体地,对于每个中心词Wi,本发明假设重复进行xi次独立随机试验抽取上下文词,每次试验可能出现的结果有V种,第k种结果出现的概率为Pik,第k种结果出现的次数为xik。如果用随机变量Xi=(Xi1,Xi2,...,XiV)表示试验所有可能结果的次数,其中Xik表示第k种结果出现的次数。那么随机变量Xi服从参数为的多项分布,即其中于是,构造对数似然函数:
式9是一个具有等式约束的最优化问题,于是,构造拉格朗日函数:
对参数Pik求偏导:
则Pik=xik/λ。
再根据约束条件得
解得Pik的极大似然估计值:
在本步骤中,利用极大使然估计计算,将作为步骤S2中Bi的估计值对每个词Wi,假设重复进行ti次独立随机试验抽取情感极性,每次试验可能出现积极和消极两种结果,积极情感出现的概率为Bi,积极情感出现的次数为ti1。如果用随机变量Ti=(Ti1,Ti2)表示所有可能结果的次数。那么随机变量Ti服从参数为的二项分布,即其中,于是,构造对数似然函数:
对参数Bi求偏导:
解得Bi的极大似然估计值:
于是,得到基于极大似然估计的情感词嵌入模型的损失函数:
由此,本发明得到基于极大似然估计的情感词嵌入模型。
S4:根据所述用户语料,调用所述情感词嵌入模型将用户语料中的词语映射到向量空间,获取词向量。
如图3所示,所述根据所述用户语料,调用所述情感词嵌入模型将用户语料中的词语映射到向量空间,获取词向量的步骤包括:
根据预设的学习率和迭代次数,重复利用随机梯度下降法分别对所述基于极大似然估计的情感词嵌入模型进行优化,获取词向量。
具体地,设置词向量的维度,对每个词对应的词向量进行随机赋值,根据步骤S1得到的词典,词与词的共现频数信息和词语的情感分布信息,使用随机梯度下降法优化所述基于极大似然估计的情感词嵌入模型的损失函数,更新词向量。在本实施例中,设置词向量的维度为50,设置学习率为0.05,迭代轮数为50,不断重复执行上述步骤,直至迭代50轮,得到词向量。
实施例2
本发明实施例2的词向量获取方法与实施例1大致相同,其区别仅在于:步骤S302:所述情感词嵌入模型利用贝叶斯估计获取所述情感词嵌入模型中模型参数的估计值,将所述估计值代入所述情感词嵌入模型,获得基于贝叶斯估计的情感词嵌入模型。
步骤S301中,利用极大似然参数估计计算估计值时,在词Wi的出现频数足够大的情况下,这种估计方式才更为可靠。而当语料中存在较多的低频词时,利用贝叶斯估计,通过先验知识使得参数估计的结果更加可靠。
具体地,本步骤在极大似然估计中假设的前提下,本发明进一步假设先验分布服从参数为的Dirichlet分布,即先验分布为:
那么,对应的似然函数为:
利用Dirichlet-Multinomial共轭结构,得后验分布:
其中,nk表示词k在训练文本中的出现次数,λ1是调节因子。那么,对等式8中的logPik进行贝叶斯估计,令即对logPik求关于Pik后验概率的期望。于是,对进行泰勒展开有:
其中,
等式19使用贝叶斯估计求参数Pik。相比于等式11使用极大似然估计求参数Pik,贝叶斯估计相当于对极大似然估计进行拉普拉斯平滑,从而不需要进行额外的平滑处理。
另外,本发明假设,先验分布服从参数为的Beta分布,即先验分布为:
那么,对应的似然函数为:
利用Beta-Binomial共轭结构,得后验分布:
其中,mk表示情感标签为k的文本数,λ2是调节因子,tik表示含有词Wi且情感标签为k的文本数。那么,对等式8中的logBi进行贝叶斯估计,令即对logBi求关于Bi后验概率的期望。类似地,对进行泰勒展开有:
其中,
最终可以得到基于贝叶斯估计的情感词嵌入模型的损失函数:
由此得到基于贝叶斯估计的情感词嵌入模型。
步骤S4:根据收集到的用户语料,调用所述基于贝叶斯估计的情感词嵌入模型将用户语料中的词语映射到向量空间,获取词向量,如图4所示,该步骤具体包括:
根据预设的学习率和迭代次数,重复利用随机梯度下降法分别对所述基于贝叶斯估计的情感词嵌入模型进行优化,获取词向量。
具体地,设置词向量的维度,对每个词对应的词向量进行随机赋值,根据步骤S1得到的词典,词与词的共现频数信息和词语的情感分布信息,使用随机梯度下降法优化所述基于贝叶斯估计的情感词嵌入模型的损失函数,更新词向量。在本实施例中,设置词向量的维度为50,设置学习率为0.05,迭代轮数为50,不断重复执行上述步骤,直至迭代50轮,得到词向量。
本发明还提供了一种计算机可读存储介质,其上储存有计算机程序,该计算机程序被处理器执行时实现上述任意一项所述的词向量获取方法的步骤。
本发明可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可读储存介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本发明还提供了一种词向量获取装置,包括存储器、处理器以及储存在所述存储器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述任意一项所述的词向量获取方法的步骤。
相对于现有技术,本案通过利用词语的情感分布信息,在Glove模型基础上,构建情感词嵌入模型,结合用户语料中的情感极性将词语映射到向量空间,避免出现由于词语存在相似的上下文而将情感极性不同的词语映射为向量空间中的相近向量,导致后续情感分析时出现误判,影响情感分析的准确性;并且,本案通过利用极大似然估计和贝叶斯估计对所述情感词嵌入模型中模型参数进行了估计计算,将抽象的模型参数值具体化,方便计算机程序将用户语料中的词语映射到向量空间,获取词向量。
本发明并不局限于上述实施方式,如果对本发明的各种改动或变形不脱离本发明的精神和范围,倘若这些改动和变形属于本发明的权利要求和等同技术范围之内,则本发明也意图包含这些改动和变形。
Claims (8)
1.一种词向量获取方法,其特征在于:包括以下步骤:
收集带有情感标签的用户语料,获取用户语料中词语的情感分布信息;
根据所述词语的情感分布信息计算词语为设定情感标签的概率,基于Glove模型,以所述词语为设定情感标签的概率作为模型参数,构建情感词嵌入模型;
根据收集到的用户语料,调用所述情感词嵌入模型将用户语料中的词语映射到向量空间,获取词向量。
2.根据权利要求1所述的词向量获取方法,其特征在于:所述获取用户语料中的词语的情感分布信息的步骤包括:
对所述带有情感标签的用户语料进行包括分词处理、停用词处理的预处理;
统计用户语料中的词的词频信息,并给每个词标号,形成该语料对应的词典;
根据所述预处理后的用户语料与该语料对应的词典,统计词与词的共现频数信息,获取每个词语的情感分布信息;其中,所述词语的情感分布信息包括含有该词且情感标签为积极的文本数和包含该词且情感标签为消极的文本数。
3.根据权利要求1所述的词向量获取方法,其特征在于:所述根据所述词语的情感分布信息计算词语为设定情感标签的概率,基于Glove模型,以所述词语为设定情感标签的概率作为模型参数,构建情感词嵌入模型的步骤包括:
在GloVe模型基础上,考虑情感二分类,利用词语积极情感概率的比值反映词语的情感差异性,构建函数F:
其中,Bi表示词Wi的情感标签是积极的概率,将1-Bi表示词Wi的情感标签是消极的概率,Bj表示词Wj的情感标签是积极的概率,将1-Bj表示词Wj的情感标签是消极的概率,wi、wj分别为词Wi、Wj的词向量,si、sj分别为词Wi、Wj对应的情感偏置向量;
根据所述函数F满足群和群之间的群同态,构建词嵌入模型,其中,所述词嵌入模型的损失函数为:
其中,wi为中心词对应的词向量,为上下文词对应的词向量,si为词Wi对应的情感偏置向量,Pik表示在词语Wi的上下文中词语Wk出现的概率,Bi表示词Wi的情感标签是积极的概率,V表示词汇表中词语的个数。
4.根据权利要求1所述的词向量获取方法,其特征在于:所述情感词嵌入模型利用极大似然估计获取所述情感词嵌入模型中模型参数的估计值,将所述估计值代入所述情感词嵌入模型,获得基于极大似然估计的情感词嵌入模型,其中,所述基于极大似然估计的情感词嵌入模型的损失函数为:
其中,wi为中心词对应的词向量,为上下文词对应的词向量,si为词Wi对应的情感偏置向量,xik表示在词语Wi的上下文中词语Wk出现的频数,xi表示在词语Wi的上下文中所有词语出现的频数,ti1表示含有词Wi且情感标签为积极的文本数,ti表示含有词Wi的文本数,V表示词汇表中词语的个数。
5.根据权利要求1所述的词向量获取方法,其特征在于:所述情感词嵌入模型利用贝叶斯估计获取所述情感词嵌入模型中模型参数的估计值,将所述估计值代入所述情感词嵌入模型,获得基于贝叶斯估计的情感词嵌入模型,其中,所述基于贝叶斯估计的情感词嵌入模型的损失函数为:
其中,wi为中心词对应的词向量,为上下文词对应的词向量,si为词Wi对应的情感偏置向量,Pik表示在词语Wi的上下文中词语Wk出现的概率,Bi表示词Wi的情感标签是积极的概率,cik表示log Pik的贝叶斯估计值,即对log Pik求关于Pik后验概率的期望:
对进行泰勒展开获得:
其中,
nk表示词k在训练文本中的出现次数,λ1是调节因子,xik表示进行xi次独立随机试验抽取上下文词第k种结果出现的次数;
ei表示log Bi的贝叶斯估计值,即对log Bi求关于Bi后验概率的期望:
对进行泰勒展开获得:
其中,
mk表示情感标签为k的文本数,λ2是调节因子,tik表示含有词Wi且情感标签为k的文本数,V表示词汇表中词语的个数。
6.根据权利要求1所述的词向量获取方法,其特征在于:所述根据收集到的用户语料,调用所述情感词嵌入模型将用户语料中的词语映射到向量空间,获取词向量的步骤包括:
根据预设的学习率和迭代次数,重复利用随机梯度下降法分别对所述基于极大似然估计的情感词嵌入模型或所述基于贝叶斯估计的情感词嵌入模型进行优化,获取词向量。
7.一种计算机可读存储介质,其上储存有计算机程序,其特征在于:该计算机程序被处理器执行时实现如权利要求1-6任意一项所述的词向量获取方法的步骤。
8.一种词向量获取装置,其特征在于:包括存储器、处理器以及存储在所述存储器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-6中任意一项所述的词向量获取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910749465.XA CN110598207B (zh) | 2019-08-14 | 2019-08-14 | 一种词向量获取方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910749465.XA CN110598207B (zh) | 2019-08-14 | 2019-08-14 | 一种词向量获取方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110598207A true CN110598207A (zh) | 2019-12-20 |
CN110598207B CN110598207B (zh) | 2020-09-01 |
Family
ID=68854334
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910749465.XA Active CN110598207B (zh) | 2019-08-14 | 2019-08-14 | 一种词向量获取方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110598207B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737456A (zh) * | 2020-05-15 | 2020-10-02 | 恩亿科(北京)数据科技有限公司 | 一种语料信息的处理方法和装置 |
CN111881665A (zh) * | 2020-09-27 | 2020-11-03 | 华南师范大学 | 词嵌入表示方法、装置及设备 |
CN112131420A (zh) * | 2020-09-11 | 2020-12-25 | 中山大学 | 一种基于图卷积神经网络的眼底图像分类方法及装置 |
CN112613032A (zh) * | 2020-12-15 | 2021-04-06 | 中国科学院信息工程研究所 | 基于系统调用序列的主机入侵检测方法及装置 |
CN112905736A (zh) * | 2021-01-27 | 2021-06-04 | 郑州轻工业大学 | 一种基于量子理论的无监督文本情感分析方法 |
CN116805256A (zh) * | 2023-07-04 | 2023-09-26 | 深圳市斗鲸科技有限公司 | 基于情感分析的广告推送系统及方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066445A (zh) * | 2017-04-11 | 2017-08-18 | 华东师范大学 | 一种属性情感词向量的深度学习方法 |
CN107092596A (zh) * | 2017-04-24 | 2017-08-25 | 重庆邮电大学 | 基于attention CNNs和CCR的文本情感分析方法 |
CN107168945A (zh) * | 2017-04-13 | 2017-09-15 | 广东工业大学 | 一种融合多特征的双向循环神经网络细粒度意见挖掘方法 |
CN108038492A (zh) * | 2017-11-23 | 2018-05-15 | 西安理工大学 | 一种基于深度学习的感性词向量及情感分类方法 |
CN108647191A (zh) * | 2018-05-17 | 2018-10-12 | 南京大学 | 一种基于有监督情感文本和词向量的情感词典构建方法 |
CN109189925A (zh) * | 2018-08-16 | 2019-01-11 | 华南师范大学 | 基于点互信息的词向量模型和基于cnn的文本分类方法 |
CN109271510A (zh) * | 2018-08-16 | 2019-01-25 | 龙马智芯(珠海横琴)科技有限公司 | 情感词向量构建方法及系统 |
CN109726745A (zh) * | 2018-12-19 | 2019-05-07 | 北京理工大学 | 一种融入描述知识的基于目标的情感分类方法 |
-
2019
- 2019-08-14 CN CN201910749465.XA patent/CN110598207B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066445A (zh) * | 2017-04-11 | 2017-08-18 | 华东师范大学 | 一种属性情感词向量的深度学习方法 |
CN107168945A (zh) * | 2017-04-13 | 2017-09-15 | 广东工业大学 | 一种融合多特征的双向循环神经网络细粒度意见挖掘方法 |
CN107092596A (zh) * | 2017-04-24 | 2017-08-25 | 重庆邮电大学 | 基于attention CNNs和CCR的文本情感分析方法 |
CN108038492A (zh) * | 2017-11-23 | 2018-05-15 | 西安理工大学 | 一种基于深度学习的感性词向量及情感分类方法 |
CN108647191A (zh) * | 2018-05-17 | 2018-10-12 | 南京大学 | 一种基于有监督情感文本和词向量的情感词典构建方法 |
CN109189925A (zh) * | 2018-08-16 | 2019-01-11 | 华南师范大学 | 基于点互信息的词向量模型和基于cnn的文本分类方法 |
CN109271510A (zh) * | 2018-08-16 | 2019-01-25 | 龙马智芯(珠海横琴)科技有限公司 | 情感词向量构建方法及系统 |
CN109726745A (zh) * | 2018-12-19 | 2019-05-07 | 北京理工大学 | 一种融入描述知识的基于目标的情感分类方法 |
Non-Patent Citations (3)
Title |
---|
张巍等: "一种改进的带有情感信息的词向量学习方法", 《计算机应用研究》 * |
李万理等: "基于点互信息的全局词向量模型", 《山东大学学报(理学版)》 * |
陈培: "基于词向量的情感分类关键问题研究", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737456A (zh) * | 2020-05-15 | 2020-10-02 | 恩亿科(北京)数据科技有限公司 | 一种语料信息的处理方法和装置 |
CN112131420A (zh) * | 2020-09-11 | 2020-12-25 | 中山大学 | 一种基于图卷积神经网络的眼底图像分类方法及装置 |
CN112131420B (zh) * | 2020-09-11 | 2024-04-16 | 中山大学 | 一种基于图卷积神经网络的眼底图像分类方法及装置 |
CN111881665A (zh) * | 2020-09-27 | 2020-11-03 | 华南师范大学 | 词嵌入表示方法、装置及设备 |
CN111881665B (zh) * | 2020-09-27 | 2021-01-05 | 华南师范大学 | 词嵌入表示方法、装置及设备 |
CN112613032A (zh) * | 2020-12-15 | 2021-04-06 | 中国科学院信息工程研究所 | 基于系统调用序列的主机入侵检测方法及装置 |
CN112613032B (zh) * | 2020-12-15 | 2024-03-26 | 中国科学院信息工程研究所 | 基于系统调用序列的主机入侵检测方法及装置 |
CN112905736A (zh) * | 2021-01-27 | 2021-06-04 | 郑州轻工业大学 | 一种基于量子理论的无监督文本情感分析方法 |
CN112905736B (zh) * | 2021-01-27 | 2023-09-19 | 郑州轻工业大学 | 一种基于量子理论的无监督文本情感分析方法 |
CN116805256A (zh) * | 2023-07-04 | 2023-09-26 | 深圳市斗鲸科技有限公司 | 基于情感分析的广告推送系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110598207B (zh) | 2020-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598207B (zh) | 一种词向量获取方法、装置及存储介质 | |
US20220269707A1 (en) | Method and system for analyzing entities | |
US10606949B2 (en) | Artificial intelligence based method and apparatus for checking text | |
CN110598206B (zh) | 文本语义识别方法、装置、计算机设备和存储介质 | |
CN111914067B (zh) | 中文文本匹配方法及系统 | |
US20190095788A1 (en) | Supervised explicit semantic analysis | |
US20170150235A1 (en) | Jointly Modeling Embedding and Translation to Bridge Video and Language | |
WO2019052261A1 (zh) | 用于问答服务的方法、问答服务系统以及存储介质 | |
Tammina et al. | Sentiment analysis on customer reviews using convolutional neural network | |
CN113901191A (zh) | 问答模型的训练方法及装置 | |
CN112667782A (zh) | 一种文本分类方法、装置、设备及存储介质 | |
CN112632253A (zh) | 基于图卷积网络的答案抽取方法、装置及相关组件 | |
CN114462425B (zh) | 社交媒体文本处理方法、装置、设备及存储介质 | |
CN114461943B (zh) | 基于深度学习的多源poi语义匹配方法、装置及其存储介质 | |
Manik et al. | Out-of-Scope Intent Detection on A Knowledge-Based Chatbot. | |
Yang et al. | Place deduplication with embeddings | |
Khan et al. | Comparative analysis on Facebook post interaction using DNN, ELM and LSTM | |
Hasan et al. | Sentiment analysis using out of core learning | |
KR101811638B1 (ko) | 소셜 네트워크 서비스 사용자의 감정 분석에 의한 영향력 측정 방법 | |
Biggers et al. | A deep semantic matching approach for identifying relevant messages for social media analysis | |
CN113051886B (zh) | 一种试题查重方法、装置、存储介质及设备 | |
CN112307738B (zh) | 用于处理文本的方法和装置 | |
CN117574915A (zh) | 基于多方数据源的公共数据平台及其数据分析方法 | |
CN109902169B (zh) | 基于电影字幕信息提升电影推荐系统性能的方法 | |
Kalangi et al. | Sentiment Analysis using Machine Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |