CN109241993A - 融合用户和整体评价信息的评价对象情感分类方法及装置 - Google Patents
融合用户和整体评价信息的评价对象情感分类方法及装置 Download PDFInfo
- Publication number
- CN109241993A CN109241993A CN201810832903.4A CN201810832903A CN109241993A CN 109241993 A CN109241993 A CN 109241993A CN 201810832903 A CN201810832903 A CN 201810832903A CN 109241993 A CN109241993 A CN 109241993A
- Authority
- CN
- China
- Prior art keywords
- vector
- information
- evaluation object
- indicate
- comment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 207
- 238000000034 method Methods 0.000 title claims abstract description 68
- 239000013598 vector Substances 0.000 claims abstract description 190
- 238000013145 classification model Methods 0.000 claims abstract description 23
- 230000008451 emotion Effects 0.000 claims abstract description 19
- 230000004927 fusion Effects 0.000 claims abstract description 16
- 230000002996 emotional effect Effects 0.000 claims abstract description 15
- 230000002457 bidirectional effect Effects 0.000 claims description 19
- 238000003062 neural network model Methods 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 7
- 241000208340 Araliaceae Species 0.000 claims description 5
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 5
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 5
- 239000013604 expression vector Substances 0.000 claims description 5
- 235000008434 ginseng Nutrition 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 claims description 5
- 210000004218 nerve net Anatomy 0.000 claims 2
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000012360 testing method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000003749 cleanliness Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 235000021152 breakfast Nutrition 0.000 description 1
- 235000021170 buffet Nutrition 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003754 machining Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000002844 melting Methods 0.000 description 1
- 230000008018 melting Effects 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明属于情感分类技术领域,具体提供了一种融合用户和整体标签信息的评价对象情感分类方法及装置。旨在解决现有技术不考虑不同用户的差异性和忽略整体评价信息导致对评价对象情感极性评价不准确的问题。本发明提供了一种融合用户和整体评价信息的评价对象情感分类方法,包括基于预先获取的评论信息以及相应的用户信息和整体评价信息得到评论向量;基于预先构建的评价对象情感分类模型并根据预设的评价对象,对评论向量进行情感预测,得到每个评价对象对应的情感极性。本发明的方法全面考虑了用户信息和整体评价信息对评价对象情感分类的影响,相对于其他方法提升了预测的准确率。本发明的装置同样具有上述有益效果。
Description
技术领域
本发明属于情感分类技术领域,具体涉及一种融合用户和整体标签信息的评价对象情感分类方法及装置。
背景技术
高速发展的互联网给用户提供了众多的服务和产品评论平台,这些评论平台包含了大量的用户评论,对这些评论文本进行分析能够帮助用户或者公司更好地了解商家所提供的服务或者产品。目前大部分的分析工作是从评论文本中预测出服务或产品的整体极性得分。
在实际情况中,一条评论不仅包含了用户对产品或者服务的整体态度,还包含了用户对产品或者服务的各个方面、各个属性的不同态度,用户对产品或者服务的各个方面、各个属性的不同态度可以称之为评价对象。从评论中识别评价对象的情感极性,即对评价对象进行打分,不仅对于用户而言是有价值的,也可以帮助公司清楚地了解产品或者服务的优缺点。
现有技术是基于机器理解的方式对需要预测评论的评价对象进行打分,从评论内容中预测评价对象的得分任务中,现有技术忽略了用户信息和整体标签信息两个重要的因素。其中,不同的用户在表达感情上有着不同的用词习惯,不同的用户在打分风格上有着各自的差异,有些用户较为宽容,容易给出高分,而有些用户则比较严格,常常给出低分,不考虑不同用户的差异性,则无法很好地识别评价文本中包含的评价对象的情感极性;整体标签反映了用户对产品或者服务的整体态度,这个态度对预测文本中包含的评价对象的得分也有着先验的提示作用。
因此,如何充分利用用户信息和整体标签信息提升对评价文本情感分类的准确率是本领域技术人员目前需要解决的技术问题。
发明内容
为了解决现有技术中的上述问题,即为了解决现有技术不考虑不同用户的差异性和忽略整体评价信息导致对评价对象情感极性评价不准确的问题,本发明的第一方面提供了一种融合用户和整体评价信息的评价对象情感分类方法,包括:
基于预先获取的评论信息以及相应的用户信息和整体评价信息得到评论向量;
基于预先构建的评价对象情感分类模型并根据预设的评价对象,对所述评论向量进行情感预测,得到每个所述评价对象对应的情感极性;
其中,所述评价对象情感分类模型是基于预设的语料集并利用机器学习算法所构建的神经网络模型。
在上述方法的优选技术方案中,所述语料集包括特定领域的评论信息以及相应的用户信息、整体评价信息和预设的评价对象的评价信息;
在“基于预先构建的评价对象情感分类模型并根据预设的评价对象,对所述评论向量进行情感预测,得到每个所述评价对象对应的情感极性”的步骤之前,所述方法还包括:
根据所述语料集并利用多任务学习算法训练所述评价对象情感分类模型。
在上述方法的优选技术方案中,“基于预先获取的评论信息以及相应的用户信息和整体评价信息得到评论向量”的步骤包括:
基于预设的双向循环神经网络模型并根据所述评论信息,得到第一向量;
将所述用户信息随机初始化为第二向量;
将所述整体评价信息随机初始化为第三向量;
连接所述第一向量、第二向量以及第三向量,得到所述评论向量。
在上述方法的优选技术方案中,“基于预设的双向循环神经网络模型并根据所述评论信息,得到第一向量”的步骤包括:
基于预设的双向循环神经网络模型并按照下式所述的方法获取所述评论信息对应的词汇隐层表示向量:
其中,wij表示所述用户评论的词汇,和分别表示所述双向循环神经网络前向推算和后向推算过程,是连接符号,hij表示词汇的隐层表示向量,i,j表示所述词汇的下标编码;
根据预设的注意力机制模型并根据所述词汇的隐层表示向量按下式所示的方法获取所述第一向量:
其中,u表示所述用户信息对应的向量,ak表示单一评价对象ak的向量,Wwh,Wwu,Wwa分别表示预设的词汇的隐层表示向量的权重参数、预设的词汇对应的用户信息向量的权重参数、预设的词汇对应的评价对象向量的权重参数,bw和均表示词汇对应的偏置权重参数;
Wsh,Wsu,Wsa分别表示预设的句子的隐层表示向量的权重参数、预设的句子对应的用户信息向量的权重参数、预设的句子对应的评价对象向量的权重参数,bs和均表示句子对应的偏置权重参数;
表示句子向量,αij表示评论的句子si中第j个词汇在构建句子表示向量和的重要性,表示所述用户评论的句子关于评价对象的隐层表示,γi表示句子隐层表示在构建总体评价对象ak的向量表示dk中的重要性,dk表示所述第一向量。
在上述方法的优选技术方案中,“连接所述第一向量、第二向量以及第三向量,得到所述评论向量”的步骤如下公式所示:
其中,dk表示所述第一向量,u表示所述第二向量,o表示所述第三向量。
本发明的第二方面提供了一种融合用户和整体评价信息的评价对象情感分类装置,包括:
获取模块,配置为基于预先获取的评论信息以及相应的用户信息和整体评价信息得到评论向量;
预测模块,配置为基于预先构建的评价对象情感分类模型并根据预设的评价对象,对所述评论向量进行情感预测,得到每个所述评价对象对应的情感极性;
其中,所述评价对象情感分类模型是基于预设的语料集并利用机器学习算法所构建的神经网络模型。
在上述装置的优选技术方案中,所述语料集包括特定领域的评论信息以及相应的用户信息、整体评价信息和预设的评价对象的评价信息:
所述预测模块进一步配置为:
根据所述语料集并利用多任务学习算法训练所述评价对象情感分类模型。
在上述装置的优选技术方案中,所述获取模块进一步配置为:
基于预设的双向循环神经网络模型并根据所述评论信息,得到第一向量;
将所述用户信息随机初始化为第二向量;
将所述整体评价信息随机初始化为第三向量;
连接所述第一向量、第二向量以及第三向量,得到所述评论向量。
在上述装置的优选技术方案中,所述获取模块进一步配置为:
基于预设的双向循环神经网络模型并按照下式所述的方法获取所述评论信息对应的词汇隐层表示向量:
其中,wij表示所述用户评论的词汇,和分别表示所述双向循环神经网络前向推算和后向推算过程,是连接符号,hij表示词汇的隐层表示向量,i,j表示所述词汇的下标编码;
根据预设的注意力机制模型并根据所述词汇的隐层表示向量按下式所示的方法获取所述第一向量:
mij=tanh(Wwhhij+Wwuu+Wwaak+bw)
其中,u表示所述用户信息对应的向量,ak表示单一评价对象ak的向量,Wwh,Wwu,Wwa分别表示预设的词汇的隐层表示向量的权重参数、预设的词汇对应的用户信息向量的权重参数、预设的词汇对应的评价对象向量的权重参数,bw和均表示词汇对应的偏置权重参数;
Wsh,Wsu,Wsa分别表示预设的句子的隐层表示向量的权重参数、预设的句子对应的用户信息向量的权重参数、预设的句子对应的评价对象向量的权重参数,bs和均表示句子对应的偏置权重参数;
表示句子向量,αij表示评论的句子si中第j个词汇在构建句子表示向量中的重要性,表示所述用户评论的句子关于评价对象的隐层表示,γi表示句子隐层表示在构建总体评价对象ak的向量表示dk中的重要性,dk表示所述第一向量。
在上述装置的优选技术方案中,所述获取模块还配置为执行如下操作:
按照下式所示的方法连接所述第一向量、第二向量以及第三向量:
其中,dk表示所述第一向量,u表示所述第二向量,o表示所述第三向量。
本发明的第三方面提供了一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载以执行上述任一项所述的融合用户和整体评价信息的评价对象情感分类方法。
本发明的第四方面提供了一种控制装置,包括处理器、存储设备;所述存储设备,适于存储多条程序;其特征在于,所述程序适于由处理器加载并执行上述任一项所述的融合用户和整体评价信息的评价对象情感分类方法。
与最接近的现有技术相比,本发明的上述技术方案至少具有如下有益效果:
本发明通过全面考虑用户信息和整体评价信息对评价对象情感分类的影响,并且通过预先训练好的评价对象情感分类模型对评论向量进行情感预测,相比于其他方法提升了预测的准确率。
附图说明
图1为本发明一种实施例融合用户和整体评价信息的评价对象情感分类方法的主要步骤示意图;
图2为本发明一种实施例融合用户和整体评价信息的评价对象情感分类方法的主要结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
参阅附图1,图1示例性的给出了本实施例中融合用户和整体评价信息的评价对象情感分类方法的主要步骤。如图1所示,本实施例中融合用户和整体评价信息的评价对象情感分类方法包括下述步骤:
步骤S101:基于获取的评论信息、用户信息、整体评价信息以及评价对象的评价信息构建语料集。
具体地,可以从各个评论网站中获取与产品或者服务相关的评论文本、发布评论文本的用户身份信息、用户对产品或者服务的评价整体评价信息以及评价对象的评价信息,基于上述信息建立语料集,以便后续能够从整体的角度提高文档级别的评价对象情感分类的准确率。在本发明实施例中,可以从网站【https://www.tripadvisor.com/】上抓取58,632篇评论、用户信息、用户对产品或者服务的评价整体标签信息以及评论中评价对象的情感得分,这是一个酒店领域的网站,可以将该语料集命名为Tripadvisor。
步骤S102:对语料集进行预处理。
步骤S1021:将语料集中的词汇全都转为小写,并进行句子划分。
步骤S101建立的语料集的文本词汇较为稀疏,例如,在语料集的文本中可能会出现Walk和walk两个词汇,但是实际这两个词汇表示的含义相同,这样就增加了后续训练和学习的难度。将语料集中的词汇全都转为小写,可以降低词汇在文本的稀疏性。将语料集中的词汇全都转为小写后,将句子进行切分,从而能够更好地对评论文本进行建模。
步骤S1022:随机选取预处理后的语料集的80%作为训练集语料,10%作为测试集语料,10%作为开发集语料。
其中,训练集语料用于训练评价对象情感分类模型,测试集语料用于测试评价对象情感分类模型预测的准确性,开发集语料用于调整评价对象情感分类模型的参数。
步骤S103:将语料集中评论信息以及对应的用户信息和整体评价信息转换为向量。
具体地,可以使用词向量学习工具word2vec在预处理后的语料集中学习词向量,并将用户信息和整体评价信息随机初始化为向量。其中,使用词向量学习工具word2vec在预处理后的语料集中学习词向量的具体方法为:可以设定词向量的维度为200维,使用word2vec工具训练时,可以将整个语料集中出现次数超过预设阈值的词加入词典中进行词向量学习,没有出现在词典中的词将其随机初始化,在本发明实施例中,预设阈值的值可以是五次。同时,将用户信息以及用户评论整体评价信息随机初始化为向量。
步骤S1031:符号表示。
为了说明的方便,将语料集中相关的信息进行符号表示,设定语料集D是关于一个特定领域(比如“餐饮领域”),该领域有m个预先定义好的评价对象{a1,a2,...,am},例如“服务”、“位置”等。用户评论d是语料集D中的一条评论,并且u是用户评论d的用户信息,o是用户评论d的整体标签信息,如用户评论的整体情感得分。用户评论d中有n个句子{s1,s2,...,sn},并且每个句子si包含li个词汇
步骤S1032:评价对象表示。
在本发明实施例中,为了说明的方便,以语料集为Tripadvisor为例进行说明。语料集Tripadvisor提供7个可供打分的评价对象,分别是:service(服务)、cleanliness(干净)、business service(商业服务)、check in(前台)、value(价格)、location(位置)、room(房间),为每个评价对象提供预先定义的关键词,具体如表1所示:
表1:评价对象与其对应的关键词
评价对象 | 关键词 |
service(服务) | service food breakfast buffet |
cleanliness(干净) | clean dirty maintain smell |
business service(商业服务) | business center computer internet |
check in(前台) | stuff check help reservation |
value(价格) | value price quality worth |
location(位置) | location traffic minute restaurant |
room(房间) | room suite view bed |
然后使用评价对象的关键词的词向量的均值来初始化评价对象的向量,其中,关键词的词向量可以通过词向量学习工具学习得到的。为了说明的方便,以评价对象为service(服务)为例进行说明,其第二个关键词是food,经过词向量学习工具学习得到后可以直接使用,得到关键词的词向量后计算service(服务)对应的所有关键词的词向量的均值,并用该值初始化service的向量,可以在学习评价对象向量的时候有一个很好的初始点,进而可以更好地学习到该向量。
步骤S1033:词汇编码。
对于句子si,可以用学习好的词向量来编码句子si中的每个词汇并使用双向循环神经网络模型得到每个词汇的隐层表示具体过程如下公式(1)-(3)所示:
其中,wij表示用户评论的词汇,印分别表示双向循环神经网络前向推算和后向推算过程,是连接符号,hij表示词汇的隐层表示向量,i,j表示词汇的下标编码。
步骤S1034:句子编码。
为了捕捉不同词汇在构建句子语义上的差异性,并为了得到和评价对象相关的句子表征,可以使用了基于用户信息和评价对象的注意力机制作用在词汇的隐层表示上获得句子的表示。假定我们想要预测评价对象ak的情感极性,对于句子si,我们可以得到和ak相关的句子表示具体过程如下公式(4)-(6)所示:
mij=tanh(Wwhhij+Wwuu+Wwaak+bw) (4)
其中,u表示用户信息对应的向量,ak表示单一评价对象ak的向量,Wwh,Wwu,Wwa,bw和分别表示预设的词汇的隐层表示向量的权重参数、预设的词汇对应的用户信息向量的权重参数、预设的词汇对应的评价对象向量的权重参数,bw和均表示词汇对应的偏置权重参数;
表示句子向量,αij表示评论的句子si中第j个词汇在构建句子表示向量和的重要性,表示用户评论的句子关于评价对象的隐层表示。
步骤S1035:评论编码:利用随机初始化的用户向量u来编码文本的用户u和利用随机初始化的极性标签向量o来编码评论文本的整体极性标签o,然后将评论d评价对象ak的表示dk和用户向量u以及极性标签向量o连接在一起,得到评论向量rk,其具体计算方法如下公式(7)-(10)所示,其中,ak指的是某个评价对象,如“服务”,ak是ak对应的向量表示,如[0.2,0.3,0.1],dk是评论d中和评价对象ak相关的表示。
其中,Wsh,Wsu,Wsa,bs和分别表示预设的句子的隐层表示向量的权重参数、预设的句子对应的用户信息向量的权重参数、预设的句子对应的评价对象向量的权重参数,bs和均表示句子对应的偏置权重参数;γi表示句子隐层表示在构建总体评价对象ak的向量表示dk中的重要性,dk表示第一向量,其中,用户向量u为第二向量,极性标签向量o为第三向量。
步骤S104:根据评论向量并利用多任务学习算法训练评价对象情感分类模型;
用得到的评论向量rk去预测评论文本内关于评价对象ak的情感极性。为了更好的学习文本的表示,尽可能的利用各个评价对象决策之间的信息,可以通过多任务学习算法让各个任务之间可以互相加强文本表示的学习,从而得到更好的学习评论文本表示。可以在评价对象情感分类模型的词汇层和句子层共享双向循环神经网络的参数。在得到基于不同的评价对象的文本表示时,只区分不同的注意力机制模型。得到文本关于不同评价对象的表示之后,可以再利用不同的分类模型去预测情感极性。
步骤S105:基于训练好的评价对象情感分类模型并根据设定的评价对象,对评论向量进行情感预测,得到每个评价对象对应的情感极性。
具体地,用已经训练好的评价对象情感分类模型对测试集的文本进行预测,并计算基于评价对象的情感分类的准确率。此外,在测试过程中,如果测试集中用户信息缺失或者没有在训练集中出现,在构建测试集文本的表示时,则去掉用户注意力机制。通过考虑用户信息和整体评价信息之后,本发明相比没有考虑两者信息的方法可以有5.21%准确率的提升,具体结果如表2中内容所示:
表2本发明方法与其他方法的准确率
方法 | Tripadvisor |
基于支持向量机的分类方法 | 46.35 |
基于神经网络的方法 | 55.49 |
本发明 | 60.7 |
本发明的方法通过融合用户信息和整体评价信息,从文档级别的角度提升了评价对象情感分类的准确率,相对于其他方法可以有5.21%准确率地提升。
基于上述融合用户和整体评价信息的评价对象情感分类方法实施例,本发明还提供了一种融合用户和整体评价信息的评价对象情感分类装置。下面结合附图,对该融合用户和整体评价信息的评价对象情感分类装置进行说明。
参阅附图2,图2示例性地给出了本实施例中融合用户和整体评价信息的评价对象情感分类装置的主要结构。如图2所示,本实施例融合用户和整体评价信息的评价对象情感分类装置包括获取模块,预测模块。
获取模块,配置为基于预先获取的评论信息以及相应的用户信息和整体评价信息得到评论向量;
预测模块,配置为基于预先构建的评价对象情感分类模型并根据预设的评价对象,对评论向量进行情感预测,得到每个评价对象对应的情感极性;
其中,评价对象情感分类模型是基于预设的语料集并利用机器学习算法所构建的神经网络模型。
在上述方案的优选实施方案中,语料集包括特定领域的评论信息以及相应的用户信息、整体评价信息和预设的评价对象的评价信息;
预测模块进一步配置为:根据语料集并利用多任务学习算法训练评价对象情感分类模型。
在上述方案的优选实施方案中,获取模块进一步配置为:
基于预设的双向循环神经网络模型并根据评论信息,得到第一向量;
将用户信息随机初始化为第二向量;
将整体评价信息随机初始化为第三向量;
连接第一向量、第二向量以及第三向量,得到评论向量。
在上述方案的优选实施方案中,获取模块进一步配置为:
基于预设的双向循环神经网络模型并按照公式(1)-(3)的方法获取评论信息对应的词汇隐层表示向量;
根据预设的注意力机制模型并根据词汇的隐层表示向量按公式(4)-(9)所示的方法获取第一向量。
在上述方案的优选实施方案中,获取模块还配置为执行如下操作:
按照公式(10)所示的方法连接第一向量、第二向量以及第三向量。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
一种存储装置,其中存储有多条程序,程序适于由处理器加载并执行如上述的融合用户和整体评价信息的评价对象情感分类方法。
一种控制装置,包括处理器、存储设备;存储设备,适于存储多条程序;程序适于由处理器加载并执行如上述的融合用户和整体评价信息的评价对象情感分类方法。
所属技术领域的技术人员可以清楚地了解到,为了描述的方便和简洁,本发明装置实施例的具体工作过程以及相关说明,可以参考前述方法实施例中的对应过程,且与上述方法具有相同的有益效果,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。应该理解这样使用的数据在适当的情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (12)
1.一种融合用户和整体评价信息的评价对象情感分类方法,其特征在于包括:
基于预先获取的评论信息以及相应的用户信息和整体评价信息得到评论向量;
基于预先构建的评价对象情感分类模型并根据预设的评价对象,对所述评论向量进行情感预测,得到每个所述评价对象对应的情感极性;
其中,所述评价对象情感分类模型是基于预设的语料集并利用机器学习算法所构建的神经网络模型。
2.根据权利要求1所述的融合用户和整体评价信息的评价对象情感分类方法,其特征在于,所述语料集包括特定领域的评论信息以及相应的用户信息、整体评价信息和预设的评价对象的评价信息;
在“基于预先构建的评价对象情感分类模型并根据预设的评价对象,对所述评论向量进行情感预测,得到每个所述评价对象对应的情感极性”的步骤之前,所述方法还包括:
根据所述语料集并利用多任务学习算法训练所述评价对象情感分类模型。
3.根据权利要求2所述的融合用户和整体评价信息的评价对象情感分类方法,其特征在于,“基于预先获取的评论信息以及相应的用户信息和整体评价信息得到评论向量”的步骤包括:
基于预设的双向循环神经网络模型并根据所述评论信息,得到第一向量;
将所述用户信息随机初始化为第二向量;
将所述整体评价信息随机初始化为第三向量;
连接所述第一向量、第二向量以及第三向量,得到所述评论向量。
4.根据权利要求3所述的融合用户和整体评价信息的评价对象情感分类方法,其特征在于,“基于预设的双向循环神经网络模型并根据所述评论信息,得到第一向量”的步骤包括:
基于预设的双向循环神经网络模型并按照下式所述的方法获取所述评论信息对应的词汇隐层表示向量:
其中,wij表示所述用户评论的词汇,和分别表示所述双向循环神经网络前向推算和后向推算过程,是连接符号,hij表示词汇的隐层表示向量,i,j表示所述词汇的下标编码;
根据预设的注意力机制模型并根据所述词汇的隐层表示向量按下式所示的方法获取所述第一向量:
mij=tanh(Wwhhij+Wwuu+Wwaak+bw)
其中,u表示所述用户信息对应的向量,ak表示单一评价对象ak的向量,Wwh,Wwu,Wwa分别表示预设的词汇的隐层表示向量的权重参数、预设的词汇对应的用户信息向量的权重参数、预设的词汇对应的评价对象向量的权重参数,bw和均表示词汇对应的偏置权重参数;
Wsh,Wsu,Wsa分别表示预设的句子的隐层表示向量的权重参数、预设的句子对应的用户信息向量的权重参数、预设的句子对应的评价对象向量的权重参数,bs和均表示句子对应的偏置权重参数;
表示句子向量,αij表示评论的句子si中第j个词汇在构建句子表示向量中的重要性,表示所述用户评论的句子关于评价对象的隐层表示,γi表示句子隐层表示在构建总体评价对象ak的向量表示dk中的重要性,dk表示所述第一向量,k表示。
5.根据权利要求1-4中任一项所述的融合用户和整体评价信息的评价对象情感分类方法,其特征在于,“连接所述第一向量、第二向量以及第三向量,得到所述评论向量”的步骤如下公式所示:
其中,dk表示所述第一向量,u表示所述第二向量,o表示所述第三向量。
6.一种融合用户和整体评价信息的评价对象情感分类装置,其特征在于包括:
获取模块,配置为基于预先获取的评论信息以及相应的用户信息和整体评价信息得到评论向量;
预测模块,配置为基于预先构建的评价对象情感分类模型并根据预设的评价对象,对所述评论向量进行情感预测,得到每个所述评价对象对应的情感极性;
其中,所述评价对象情感分类模型是基于预设的语料集并利用机器学习算法所构建的神经网络模型。
7.根据权利要求6所述的融合用户和整体评价信息的评价对象情感分类装置,其特征在于,所述语料集包括特定领域的评论信息以及相应的用户信息、整体评价信息和预设的评价对象的评价信息;
所述预测模块进一步配置为:
根据所述语料集并利用多任务学习算法训练所述评价对象情感分类模型。
8.根据权利要求7所述的融合用户和整体评价信息的评价对象情感分类装置,其特征在于,所述获取模块进一步配置为:
基于预设的双向循环神经网络模型并根据所述评论信息,得到第一向量;
将所述用户信息随机初始化为第二向量;
将所述整体评价信息随机初始化为第三向量;
连接所述第一向量、第二向量以及第三向量,得到所述评论向量。
9.根据权利要求8所述的融合用户和整体评价信息的评价对象情感分类装置,其特征在于,所述获取模块进一步配置为:
基于预设的双向循环神经网络模型并按照下式所述的方法获取所述评论信息对应的词汇隐层表示向量:
其中,wij表示所述用户评论的词汇,和分别表示所述双向循环神经网络前向推算和后向推算过程,是连接符号,hij表示词汇的隐层表示向量,i,j表示所述词汇的下标编码;
根据预设的注意力机制模型并根据所述词汇的隐层表示向量按下式所示的方法获取所述第一向量:
mij=tanh(Wwhhij+Wwuu+Wwaak+bw)
其中,u表示所述用户信息对应的向量,ak表示单一评价对象ak的向量,Wwh,Wwu,Wwa分别表示预设的词汇的隐层表示向量的权重参数、预设的词汇对应的用户信息向量的权重参数、预设的词汇对应的评价对象向量的权重参数,bw和均表示词汇对应的偏置权重参数;
Wsh,Wsu,Wsa分别表示预设的句子的隐层表示向量的权重参数、预设的句子对应的用户信息向量的权重参数、预设的句子对应的评价对象向量的权重参数,bs和均表示句子对应的偏置权重参数;
表示句子向量,αij表示评论的句子si中第j个词汇在构建句子表示向量中的重要性,表示所述用户评论的句子关于评价对象的隐层表示,γi表示句子隐层表示在构建总体评价对象ak的向量表示dk中的重要性,dk表示所述第一向量。
10.根据权利要求6-9中任一项所述的融合用户和整体评价信息的评价对象情感分类装置,其特征在于,所述获取模块还配置为执行如下操作:
按照下式所示的方法连接所述第一向量、第二向量以及第三向量:
其中,dk表示所述第一向量,u表示所述第二向量,o表示所述第三向量。
11.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载以执行权利要求1-5中任一项所述的融合用户和整体评价信息的评价对象情感分类方法。
12.一种控制装置,包括处理器、存储设备;所述存储设备,适于存储多条程序;其特征在于,所述程序适于由处理器加载并执行权利要求1-5中任一项所述的融合用户和整体评价信息的评价对象情感分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810832903.4A CN109241993B (zh) | 2018-07-26 | 2018-07-26 | 融合用户和整体评价信息的评价对象情感分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810832903.4A CN109241993B (zh) | 2018-07-26 | 2018-07-26 | 融合用户和整体评价信息的评价对象情感分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109241993A true CN109241993A (zh) | 2019-01-18 |
CN109241993B CN109241993B (zh) | 2021-10-26 |
Family
ID=65072476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810832903.4A Active CN109241993B (zh) | 2018-07-26 | 2018-07-26 | 融合用户和整体评价信息的评价对象情感分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109241993B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175237A (zh) * | 2019-05-14 | 2019-08-27 | 华东师范大学 | 一种面向多类别的二次情感分类方法 |
CN111966822A (zh) * | 2019-05-20 | 2020-11-20 | 北京京东尚科信息技术有限公司 | 用于确定评价信息的情感类别的方法和装置 |
CN113919349A (zh) * | 2020-11-25 | 2022-01-11 | 京东科技控股股份有限公司 | 文本处理方法、装置、设备及计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101201980A (zh) * | 2007-12-19 | 2008-06-18 | 北京交通大学 | 一种基于语音情感识别的远程汉语教学系统 |
CN106296282A (zh) * | 2016-08-08 | 2017-01-04 | 南京大学 | 一种基于用户评论和历史评分的网购产品评估方法 |
CN106383815A (zh) * | 2016-09-20 | 2017-02-08 | 清华大学 | 结合用户和产品信息的神经网络情感分析方法 |
CN107092596A (zh) * | 2017-04-24 | 2017-08-25 | 重庆邮电大学 | 基于attention CNNs和CCR的文本情感分析方法 |
CN107451118A (zh) * | 2017-07-21 | 2017-12-08 | 西安电子科技大学 | 基于弱监督深度学习的句子级情感分类方法 |
-
2018
- 2018-07-26 CN CN201810832903.4A patent/CN109241993B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101201980A (zh) * | 2007-12-19 | 2008-06-18 | 北京交通大学 | 一种基于语音情感识别的远程汉语教学系统 |
CN106296282A (zh) * | 2016-08-08 | 2017-01-04 | 南京大学 | 一种基于用户评论和历史评分的网购产品评估方法 |
CN106383815A (zh) * | 2016-09-20 | 2017-02-08 | 清华大学 | 结合用户和产品信息的神经网络情感分析方法 |
CN107092596A (zh) * | 2017-04-24 | 2017-08-25 | 重庆邮电大学 | 基于attention CNNs和CCR的文本情感分析方法 |
CN107451118A (zh) * | 2017-07-21 | 2017-12-08 | 西安电子科技大学 | 基于弱监督深度学习的句子级情感分类方法 |
Non-Patent Citations (7)
Title |
---|
DIEGO MARCHEGGIANI 等: "Hierarchical Multi-label Conditional Random Fields for Aspect-Oriented Opinion Mining", 《ECIR 2014: ADVANCES IN INFORMATION RETRIEVAL》 * |
HUIMIN CHEN ETC: "Neural Sentiment Classification with User and Product Attention", 《PROCEEDINGS OF THE 2016 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING》 * |
PENGFEI LIU ETC: "Recurrent Neural Network for Text Classification with Multi-Task Learning", 《PROCEEDINGS OF INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE (IJCAI 2016)》 * |
TAO CHEN ETC: "Learning User and Product Distributed Representations Using a Sequence Model for Sentiment Analysis", 《IEEE COMPUTATIONAL INTELLIGENCE MAGAZINE》 * |
ZICHAO YANG ETC: "Hierarchical Attention Networks for Document Classification", 《PROCEEDINGS OF NAACL-HLT 2016》 * |
任勉 等: "基于双向LSTM模型的文本情感分类", 《计算机工程与设计》 * |
庄丽榕 等: "基于CSLSTM网络的文本情感分类", 《计算机系统应用》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175237A (zh) * | 2019-05-14 | 2019-08-27 | 华东师范大学 | 一种面向多类别的二次情感分类方法 |
CN110175237B (zh) * | 2019-05-14 | 2023-02-03 | 华东师范大学 | 一种面向多类别的二次情感分类方法 |
CN111966822A (zh) * | 2019-05-20 | 2020-11-20 | 北京京东尚科信息技术有限公司 | 用于确定评价信息的情感类别的方法和装置 |
CN113919349A (zh) * | 2020-11-25 | 2022-01-11 | 京东科技控股股份有限公司 | 文本处理方法、装置、设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109241993B (zh) | 2021-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304445B (zh) | 一种文本摘要生成方法和装置 | |
US8862521B2 (en) | Systems and methods for determining whether to publish an advertisement on a web page associated with a web page article or to exclude advertisements from publication on the web page associated with the web page article based on the comparison of a first numeric likelihood to a first set of threshold values | |
Khan et al. | Sentiment classification using sentence-level lexical based | |
CN109933664A (zh) | 一种基于情感词嵌入的细粒度情绪分析改进方法 | |
Augustyniak et al. | Simpler is better? Lexicon-based ensemble sentiment classification beats supervised methods | |
EP2764472A1 (en) | Systems and methods for performing contextual classification using supervised and unsupervised training | |
CN105095179B (zh) | 对用户评价进行处理的方法及装置 | |
CN109213860A (zh) | 融合用户信息的文本情感分类方法及装置 | |
CN110825850B (zh) | 一种自然语言主题分类方法及装置 | |
CN109241993A (zh) | 融合用户和整体评价信息的评价对象情感分类方法及装置 | |
Alshomary et al. | Belief-based generation of argumentative claims | |
KR20180131146A (ko) | 사용자 리뷰의 평가기준별 이슈 식별 장치 및 방법 | |
Arevalillo-Herráez et al. | On adapting the DIET architecture and the Rasa conversational toolkit for the sentiment analysis task | |
Tang et al. | Evaluation of Chinese sentiment analysis APIs based on online reviews | |
Di Fabbrizio et al. | Starlet: multi-document summarization of service and product reviews with balanced rating distributions | |
Nguyen et al. | A corpus for aspect-based sentiment analysis in Vietnamese | |
Zhang et al. | Essay Quality Signals as Weak Supervision for Source-Based Essay Scoring. | |
Chakraborty et al. | Rating Generation of Video Games using Sentiment Analysis and Contextual Polarity from Microblog | |
Rus et al. | Measuring hotel service quality in borobudur temple using opinion mining | |
Singh et al. | Mining tourists’ opinions on popular Indian tourism hotspots using sentiment analysis and topic modeling | |
Zhu et al. | YUN111@ Dravidian-CodeMix-FIRE2020: Sentiment Analysis of Dravidian Code Mixed Text. | |
Yu | Aspect-based sentiment analysis on hotel reviews | |
Shaikh et al. | An intelligent framework for e-recruitment system based on text categorization and semantic analysis | |
Sajinika et al. | Twitter Sentiment Analysis and Topic Modeling for Online Learning | |
Shama et al. | A meticulous critique on prevailing techniques of aspect-level sentiment analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |