CN109145304B - 一种基于字的中文观点要素情感分析方法 - Google Patents

一种基于字的中文观点要素情感分析方法 Download PDF

Info

Publication number
CN109145304B
CN109145304B CN201811045651.7A CN201811045651A CN109145304B CN 109145304 B CN109145304 B CN 109145304B CN 201811045651 A CN201811045651 A CN 201811045651A CN 109145304 B CN109145304 B CN 109145304B
Authority
CN
China
Prior art keywords
word
characters
viewpoint
training
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811045651.7A
Other languages
English (en)
Other versions
CN109145304A (zh
Inventor
叶宏彪
潘嵘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201811045651.7A priority Critical patent/CN109145304B/zh
Publication of CN109145304A publication Critical patent/CN109145304A/zh
Application granted granted Critical
Publication of CN109145304B publication Critical patent/CN109145304B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及自然语言处理的技术领域,更具体地,涉及一种基于字的中文观点要素情感分析方法。一种基于字的中文观点要素情感分析方法,其中,包括以下步骤:S1.选取数据集;S2.数据清洗和提取;S3.字嵌入;S4.训练初始化的模型;S5.测试。本发明的优点在于,相比较于传统的中文分词并获得词向量,把句子划分到字级别改用字嵌入方式获得字向量,避免了因中文分词的不准确带来的歧义困扰。

Description

一种基于字的中文观点要素情感分析方法
技术领域
本发明涉及自然语言处理的技术领域,更具体地,涉及一种基于字的中文观点要素情感分析方法。
背景技术
观点要素情感分析是指在句子中含有多个观点要素时,对其中一种进行的情感极性判别。区别于句子为整体进行的情感极性判断,一句话中可能含有多个观点要素的描述,它们所表达出来的情感有时并不相同甚至完全相反,不能简单地给它们打上相同的情感极性标签。以这句话为例:“I bought a new camera.The picture quality is amazing butthe buttery life is too short.”从中我们看出作者对新相机的不同方面看法不同:如果是“camera picture”方面,其情感极性是正向的;而“camera buttery”方面则是负面的。
当前,观点要素情感极性判别的方法,大多是先将一句话进行分词(划分成以词为单位的序列),利用词嵌入(word Embedding)技术获得每个词的词向量,然后输入神经网络(比如卷积神经网络或者循环神经网络)中,融合注意力机制(attention mechanism)对观点要素进行情感极性判断。
中文观点要素情感分析的模型,也采用国外基于英文的观点要素情感分析的方法,只是在分词方面有所区别:英文表达里的词与词之间用空格隔开,分词较为容易;而在中文表达里,词与词之间并没有空格隔开,需要用专门的分词工具进行分词。目前有许多种中文分词工具,比较流行的有jieba和THULAC等。中文分词都是基于统计的分词,其原理是对一句话产生若干种分词选项,利用语料库建立的统计概率计算各种分词选项对应的联合分布概率,找到最大概率对应的分词方法,即为最优分词。
依靠分词工具将中文分词应用到观点要素情感极性判别模型中,可以像英文分词那样直接使用,跨越了不同语言之间的阻隔,在中文情感极性分析领域取得了一定的效果。
尽管中文分词工具在自然语言处理方面取得了一定的成功,但受限于中文的语法和语句结构,中文分词工具准确率也不是百分之百,很容易造成歧义。以这句话为例:“这些乒乓球拍卖得很好”,有两种分词方法:①“这些乒乓球拍卖得很好”;②“这些乒乓球拍卖得很好”,如果我们关注的方面是“乒乓球”,那么显然就无法使用第①种分词。
观点要素情感分析的基础是对句子和观点要素进行分词。观点要素必须与句子的分词结果具有重复性,如果观点要素在句子分词结果中不存在,那么所谓的情感分析就没有任何基础。英文词与词之间用空格隔开,分词之后不存在上述问题,观点要素和句子分词的结果必定有重复的。而中文分词则面临着这方面的问题,正如上一段所举例子,如果“乒乓球”是观点要素,但这个词在第①种分词结果中就不存在,这种情况下就不能做观点要素情感分析。
因此,基于中文分词的观点要素情感分析存在分词导致歧义的缺陷,会最终削弱情感极性判别的效果。
发明内容
本发明为克服上述现有技术所述的至少一种缺陷,提供一种基于字的中文观点要素情感分析方法,在进行中文观点要素情感分析之前,为避免因中文分词可能带来的歧义,不使用传统的分词+词嵌入方式获得词向量,而是以更基本的组成——字,代替词并输入观点要素情感分析模型,降低中文观点要素情感极性判别的误差。
本发明的技术方案是:一种基于字的中文观点要素情感分析方法,其中,包括以下步骤:
S1.选取数据集;
S2.数据清洗和提取;
S3.字嵌入;
S4.训练初始化的模型;
S5.测试。
选取数据集,本模型训练和测试使用的是来自NLP&CC(自然语言处理与中文计算会议)2012的《中文微博情感分析评测-样例数据集》,涉IPAD和毁容案等话题,包含约3000条微博评论,每条微博评论的观点要素以及其情感极性已经标出。
所述的步骤S2中,由于原始数据是以xml格式保存的,所以首先要去除掉每条数据包含的xml格式标签,然后提取评论文字、观点要素文字以及情感极性,每条数据按照{″content″,″target″,″label″}的格式保存在txt文件中;过后,需要将数据集划分为训练集和测试集,这里将数据总数的20%划为测试集,其余为训练集。
所述的步骤S3中,数据清洗和抽取过后,就可以开始利用训练集训练模型;每一轮训练要读取训练集中的一条样本;首先将这条样本的content、target切分成一个个由字组成的序列,在由中文语料库构成的中文字典中查找每个字的one-hot向量,然后与字嵌入矩阵E相乘,得到了每个字的字向量;E∈RV×D,V是字典的大小,D是字向量的维度,E可以是随机初始化的。
所述的步骤S4中,模型的搭建框架可以是基于Tensorflow或者Keras;模型的参数集合为Θ,包括字嵌入矩阵E、双向LSTM网络的参数[Wf,Wi,Wo,Wc,Uf,Ui,Uo,Uc,bf,bi,bo,bc],注意力机制层的参数[Wa,ba],非线性变化层的参数[Wl,bl];之前已经定义过模型的损失函数:
Figure BDA0001793226290000031
利用反向传播的方法来计算梯度和更新参数Θ:
Figure BDA0001793226290000032
其中λl是学习率;以上,除Θ中的参数是随机初始化并且需要更新的以外,λr,λl以及最大训练次数均由训练前人为设定;模型训练结束后,更新的Θ被保存,对模型的观点要素情感分析效果,我们在测试集中采用正确率来度量:
Figure BDA0001793226290000033
其中T表示正确预测了情感极性的样本数,M为总样本数。
所述的步骤S5中,测试过程首先利用网络爬虫爬取新浪微博上的若干条评论,对数据进行清洗和预处理,过滤掉不带观点要素和情感的评论,获得待分析的微博评论;提取出评论文字和观点要素文字,划分成由字组成的序列,对照中文字典查找每个字的one-hot向量,用字嵌入技术分别获得评论和观点要素的字向量序列,输入到已经训练好的观点要素情感分析模型中,输出对应观点要素的情感极性。
与现有技术相比,有益效果是:本发明的优点在于,相比较于传统的中文分词并获得词向量,把句子划分到字级别改用字嵌入方式获得字向量,避免了因中文分词的不准确带来的歧义困扰。以“乒乓球拍卖得很好”这句话为例,假设观点要素是“乒乓球”,其词向量序列为WA=[wa]:①若分词结果为“乒乓球拍卖得很好”,则其词向量序列WS=[w1,w2,w3,w4],那么wa=w1,可以输入到判别模型;②若分词结果为“乒乓球拍卖得很好”,则其词向量序列WS=[w1,w2,w3,w4,w5],则WS中没有WA,这就是因歧义带来的分词缺陷。而这句话如果划分到字级别,那么观点要素的字向量序列ZA=[z1,z2,z3],句子的字向量序列ZS=[z1,z2,z3,z4,...,z8],且只有这一种划分,显然ZS必定包含ZA序列,所以避免了因分词不准导致无法进行观点要素情感极性判别。
附图说明
图1是本发明基于字的中文观点要素情感分析模型图。
图2是本发明LSTM细胞单元结构图和内部计算过程第一示意图。
图3是本发明LSTM细胞单元结构图和内部计算过程第二示意图。
图4是本发明Bi-LSTM网络时序展开结构图。
图5是本发明流程示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本专利的限制。
如图1所示,本发明的模型具有多层结构,每一层有不同的功能,按照从输入句子和观点要素的向量开始,所经历的各层分别是字嵌入层、Bi-LSTM层、注意力机制层和Softmax层,最后非线性变化层的输出是预测的情感极性标签(正向或者负向)。
(1)获取one-hot向量
假设一个含有N个字的中文句子S,其中包含的观点要素A由K个字组成。中文字符不能直接作为模型的输入,必须要将其转换为向量。因此,第一步便是获取S和A的one-hot向量表示。令S=(s1,s2,....,sN),A=(sj,sj+1,....,sj+K-1),其中si表示第i个字在字典中的id,那么si的one-hot向量就是“第i位为1,其它位为0”的向量。举例来说,假设语料库是“我爱我的祖国”,按照语料库中字出现的顺序排列,字典就是{“我”:1,“爱”:2,“的”:3,“祖”:4,“国”:5},那么“我”字的one-hot向量就是[1,0,0,0,0],“的”字的one-hot向量是[0,0,1,0,0]。最后得到句子S和观点要素A的one-hot向量序列,分别记为ES=(e1,e2,....,eN)和EA=(ej,ej+1,....,ej+K-1)
(2)字嵌入(Character embeddings)层
得到one-hot向量后,需要把其转换为低维度的字向量。这一过程通过字嵌入(character embedding)完成,将ei和字嵌入矩阵E相乘,便得到字向量zi,矩阵E是随机初始化的,其参数是需要训练更新的。字嵌入层输出句子S和观点要素A的字向量序列,分别记为ZS=(z1,z2,....,zN)和ZA=(zj,zj+1,....,zj+K-1)。
(3)Bi-LSTM层
Bi-LSTM是双向长短期记忆网络(Bi-direction long-short term memory)的简称,它是由两个传递方向相反的LSTM网络组成。LSTM网络是循环神经网络的一种变体,由若干个细胞单元组成,其门控机制能决定字序列中哪些信息被保留。细胞单元的结构和计算过程如图2、3所示,
其中σ是sigmoid函数,公式是
Figure BDA0001793226290000051
W、U和b分别代表了权重矩阵和偏置,⊙是运算符,表示两个向量逐元素相乘再求和。在时刻t,细胞的输入包括当前时刻的输入xt、前一时刻的细胞状态ht-1和Ct-1;ft、it、ot分别是遗忘门、输入门和输出门,这些门控制着信息的保留或遗忘;输出是当前时刻的细胞状态ht和Ct
Bi-LSTM按时序展开的结构如图4,输入是句子S的字向量序列ZS=[z1,z2,....,zN]和观点要素A的字向量序列ZA=(zj,zj+1,....,zj+K-1)。在t时刻,若输入的字向量zt在前向传递LSTM的输出是
Figure BDA0001793226290000052
在后向传递LSTM输出是
Figure BDA0001793226290000053
那么zt的最终输出为
Figure BDA0001793226290000054
Figure BDA0001793226290000055
的向量拼接,记为
Figure BDA0001793226290000056
整个句子S的隐状态序列
Figure BDA0001793226290000061
同样,我们也可以得到观点要素的隐状态序列
Figure BDA0001793226290000062
Figure BDA0001793226290000063
LSTM适合处理间隔和延迟相对较长的重要事件,从而学习到字序列中隐藏的重要语义信息,还能避免循环神经网络训练中出现的梯度消失或者爆炸的问题。由于某一时刻t的输出状态可能不仅与之前的状态有关,还和t时刻之后的状态有关,单向LSTM只能学习到t时刻前文的信息,所以这里采用双向LSTM来学习t时刻的完整的前后文信息。句子S和观点要素的隐状态(Hidden states)序列Hs和HA是Bi-LSTM的输出,分别表示了它们隐含的语义信息。
(4)注意力(Attention)机制层
注意力机制的使用是为了选择出对所关注对象有重要作用的信息。注意力机制有很多种,这里采用DeHong Ma在论文《Interactive Attention Networks for Aspect-Level Sentiment Classification》里提出的双向注意力机制,既学习观点要素对句子的注意力,也学习句子对观点要素的注意力。输入是句子和观点要素的隐状态序列
Figure BDA0001793226290000064
Figure BDA0001793226290000065
首先对Hs和HA取平均,得到句子S和观点要素A的初始化表示:
Figure BDA0001793226290000066
Figure BDA0001793226290000067
先计算观点要素对句子的注意力向量:
Figure BDA0001793226290000068
γ函数计算
Figure BDA0001793226290000069
对Aavg的重要程度,公式:
Figure BDA00017932262900000610
其中Wa是权值矩阵,ba是偏置。tanh函数用于非线性变换,公式是
Figure BDA00017932262900000611
同样,我们也可以得到句子对观点要素的注意力向量:
Figure BDA0001793226290000071
基于两个注意力向量αi和βi可以计算出句子S和观点要素A的向量表示:
Figure BDA0001793226290000072
Figure BDA0001793226290000073
(5)Softmax层
这一层以VS和VA作为输入,输出观点要素的情感极性属于正向和负向的概率,最终以概率高的极性作为预测结果。首先将VS和VA向量拼接(concatenate),得到一个向量V=[VS,VA],然后进行非线性变化:
L=tanh(Wl·V+bl)
其中Wl是权值矩阵,bl是偏置。最后,预测情感极性y属于i(i∈[1,C])的概率,用softmax函数计算:
Figure BDA0001793226290000074
这里只进行正向与负向情感极性分类,故C=2.
(6)损失函数
模型的损失函数使用带L2正则项的交叉熵函数:
Figure BDA0001793226290000075
其中g是一个one-hot向量,表示真实的情感极性标签(负向[1,0],正向[0,1]),yi表示情感极性属于i的概率,λr是L2正则项的系数,Θ是模型中所有参数的合集。
如图5所示,一种基于字的中文观点要素情感分析方法,其中,包括以下步骤:
S1.选取数据集;
S2.数据清洗和提取;
S3.字嵌入;
S4.训练初始化的模型;
S5.测试。
选取数据集,本模型训练和测试使用的是来自NLP&CC(自然语言处理与中文计算会议)2012的《中文微博情感分析评测-样例数据集》,涉IPAD和毁容案等话题,包含约3000条微博评论,每条微博评论的观点要素以及其情感极性已经标出。
所述的步骤S2中,由于原始数据是以xml格式保存的,所以首先要去除掉每条数据包含的xml格式标签,然后提取评论文字、观点要素文字以及情感极性,每条数据按照{″content″,″target″,″label″}的格式保存在txt文件中;过后,需要将数据集划分为训练集和测试集,这里将数据总数的20%划为测试集,其余为训练集。
所述的步骤S3中,数据清洗和抽取过后,就可以开始利用训练集训练模型;每一轮训练要读取训练集中的一条样本;首先将这条样本的content、target切分成一个个由字组成的序列,在由中文语料库构成的中文字典中查找每个字的one-hot向量,然后与字嵌入矩阵E相乘,得到了每个字的字向量;E∈RV×D,V是字典的大小,D是字向量的维度,E可以是随机初始化的。
所述的步骤S4中,模型的搭建框架可以是基于Tensorflow或者Keras;模型的参数集合为Θ,包括字嵌入矩阵E、双向LSTM网络的参数[Wf,Wi,Wo,Wc,Uf,Ui,Uo,Uc,bf,bi,bo,bc],注意力机制层的参数[Wa,ba],非线性变化层的参数[Wl,bl];之前已经定义过模型的损失函数:
Figure BDA0001793226290000081
利用反向传播的方法来计算梯度和更新参数Θ:
Figure BDA0001793226290000082
其中λl是学习率;以上,除Θ中的参数是随机初始化并且需要更新的以外,λr,λl以及最大训练次数均由训练前人为设定;模型训练结束后,更新的Θ被保存,对模型的观点要素情感分析效果,我们在测试集中采用正确率来度量:
Figure BDA0001793226290000091
其中T表示正确预测了情感极性的样本数,M为总样本数。
所述的步骤S5中,测试过程首先利用网络爬虫爬取新浪微博上的若干条评论,对数据进行清洗和预处理,过滤掉不带观点要素和情感的评论,获得待分析的微博评论;提取出评论文字和观点要素文字,划分成由字组成的序列,对照中文字典查找每个字的one-hot向量,用字嵌入技术分别获得评论和观点要素的字向量序列,输入到已经训练好的观点要素情感分析模型中,输出对应观点要素的情感极性。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (1)

1.一种基于字的中文观点要素情感分析方法,其特征在于,包括以下步骤:
S1.选取数据集;
S2.数据清洗和提取;
由于原始数据是以xml格式保存的,所以首先要去除掉每条数据包含的xml格式标签,然后提取评论文字、观点要素文字以及情感极性,每条数据按照{″content″,″target″,″label″}的格式保存在txt文件中;过后,将数据集划分为训练集和测试集,将数据总数的20%划为测试集,其余为训练集;
S3.字嵌入;
数据清洗和抽取过后,开始利用训练集训练模型;每一轮训练要读取训练集中的一条样本;首先将这条样本的content、target切分成一个个由字组成的序列,在由中文语料库构成的中文字典中查找每个字的one-hot向量,然后与字嵌入矩阵E相乘,得到了每个字的字向量;E∈RV×D,V是字典的大小,D是字向量的维度,R是实数集,字嵌入矩阵E的初始值E0可随机初始化;
S4.训练初始化的模型;
模型的搭建框架基于Tensorflow或者Keras;模型的参数的集合为Θ,该集合包括字嵌入矩阵E、双向LSTM网络的参数[Wf,Wi,Wo,Wc,Uf,Ui,Uo,Uc,bf,bi,bo,bc],注意力机制层的参数[Wa,ba],非线性变化层的参数[Wl,bl];及损失函数J;
Figure FDA0003739521230000011
其中gi表示真实的情感极性标签,yi表示情感极性属于第i种情感的概率,C表示情感分类数量,θ表示Θ中的一个参数;
利用反向传播的方法来计算梯度和更新参数Θ:
Figure FDA0003739521230000012
其中λl是学习率;以上,除Θ中的参数是随机初始化并且需要更新的以外,λr,λl以及最大训练次数均由训练前人为设定;模型训练结束后,更新的Θ被保存, 对模型的观点要素情感分析效果,在测试集中采用正确率来度量:
Figure FDA0003739521230000021
其中T表示正确预测了情感极性的样本数,M为总样本数;
S5.测试;
测试过程首先利用网络爬虫爬取论坛上的若干条评论,对数据进行清洗和预处理,过滤掉不带观点要素和情感的评论,获得待分析的论坛评论;提取出评论文字和观点要素文字,划分成由字组成的序列,对照中文字典查找每个字的one-hot向量,用字嵌入技术分别获得评论和观点要素的字向量序列,输入到已经训练好的观点要素情感分析模型中,输出对应观点要素的情感极性。
CN201811045651.7A 2018-09-07 2018-09-07 一种基于字的中文观点要素情感分析方法 Active CN109145304B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811045651.7A CN109145304B (zh) 2018-09-07 2018-09-07 一种基于字的中文观点要素情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811045651.7A CN109145304B (zh) 2018-09-07 2018-09-07 一种基于字的中文观点要素情感分析方法

Publications (2)

Publication Number Publication Date
CN109145304A CN109145304A (zh) 2019-01-04
CN109145304B true CN109145304B (zh) 2022-09-06

Family

ID=64823790

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811045651.7A Active CN109145304B (zh) 2018-09-07 2018-09-07 一种基于字的中文观点要素情感分析方法

Country Status (1)

Country Link
CN (1) CN109145304B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885670A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种面向话题文本的交互注意力编码情感分析方法
CN110134947B (zh) * 2019-04-17 2021-03-26 中国科学院计算技术研究所 一种基于不平衡多源数据的情感分类方法及系统
CN111353040A (zh) * 2019-05-29 2020-06-30 北京工业大学 基于gru的属性级别情感分析方法
CN110362817A (zh) * 2019-06-04 2019-10-22 中国科学院信息工程研究所 一种面向产品属性的观点倾向性分析方法及系统
CN110852070A (zh) * 2019-10-25 2020-02-28 杭州费尔斯通科技有限公司 一种文档向量生成方法
CN111651593A (zh) * 2020-05-08 2020-09-11 河南理工大学 基于词向量和字向量混合模型的文本情感分析方法
CN113282749A (zh) * 2021-05-20 2021-08-20 北京明略软件系统有限公司 一种会话情感分类方法、系统、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105447206A (zh) * 2016-01-05 2016-03-30 深圳市中易科技有限责任公司 基于word2vec算法的新评论对象识别方法及系统
CN107247702A (zh) * 2017-05-05 2017-10-13 桂林电子科技大学 一种文本情感分析处理方法和系统
CN108388544A (zh) * 2018-02-10 2018-08-10 桂林电子科技大学 一种基于深度学习的图文融合微博情感分析方法
CN108460009A (zh) * 2017-12-14 2018-08-28 中山大学 嵌入情感词典的注意力机制循环神经网络文本情感分析法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080249764A1 (en) * 2007-03-01 2008-10-09 Microsoft Corporation Smart Sentiment Classifier for Product Reviews

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105447206A (zh) * 2016-01-05 2016-03-30 深圳市中易科技有限责任公司 基于word2vec算法的新评论对象识别方法及系统
CN107247702A (zh) * 2017-05-05 2017-10-13 桂林电子科技大学 一种文本情感分析处理方法和系统
CN108460009A (zh) * 2017-12-14 2018-08-28 中山大学 嵌入情感词典的注意力机制循环神经网络文本情感分析法
CN108388544A (zh) * 2018-02-10 2018-08-10 桂林电子科技大学 一种基于深度学习的图文融合微博情感分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于word2vec和SVMperf的网络中文文本评论信息情感分类研究;苏增才;《中国优秀硕士学位论文全文数据库》;20160315;全文 *
基于双向LSTM神经网络模型的中文分词;金宸等;《中文信息学报》;20180215(第02期);全文 *

Also Published As

Publication number Publication date
CN109145304A (zh) 2019-01-04

Similar Documents

Publication Publication Date Title
CN109145304B (zh) 一种基于字的中文观点要素情感分析方法
CN109902293B (zh) 一种基于局部与全局互注意力机制的文本分类方法
CN109597891B (zh) 基于双向长短时记忆神经网络的文本情感分析方法
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
CN105279495B (zh) 一种基于深度学习和文本总结的视频描述方法
CN109670039B (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
CN109325112B (zh) 一种基于emoji的跨语言情感分析方法和装置
CN109670576B (zh) 一种多尺度视觉关注图像描述方法
CN109308353B (zh) 词嵌入模型的训练方法及装置
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN110222178A (zh) 文本情感分类方法、装置、电子设备及可读存储介质
CN111460132B (zh) 一种基于图卷积神经网络的生成式会议摘要方法
CN114298158A (zh) 一种基于图文线性组合的多模态预训练方法
CN110929034A (zh) 一种基于改进lstm的商品评论细粒度情感分类方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN111291556A (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN111078833A (zh) 一种基于神经网络的文本分类方法
CN108647191A (zh) 一种基于有监督情感文本和词向量的情感词典构建方法
CN114756681B (zh) 一种基于多注意力融合的评教文本细粒度建议挖掘方法
CN113343690B (zh) 一种文本可读性自动评估方法及装置
CN109766553A (zh) 一种基于多正则化结合的胶囊模型的中文分词方法
CN111368082A (zh) 一种基于层次网络的领域自适应词嵌入的情感分析方法
Al Faraby et al. Image to Bengali caption generation using deep CNN and bidirectional gated recurrent unit
CN109271636A (zh) 词嵌入模型的训练方法及装置
CN114548099A (zh) 基于多任务框架的方面词和方面类别联合抽取和检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant