CN106156004A - 基于词向量的针对电影评论信息的情感分析系统及方法 - Google Patents
基于词向量的针对电影评论信息的情感分析系统及方法 Download PDFInfo
- Publication number
- CN106156004A CN106156004A CN201610519169.7A CN201610519169A CN106156004A CN 106156004 A CN106156004 A CN 106156004A CN 201610519169 A CN201610519169 A CN 201610519169A CN 106156004 A CN106156004 A CN 106156004A
- Authority
- CN
- China
- Prior art keywords
- comment
- word
- vector
- unit
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 title claims abstract description 249
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000004458 analytical method Methods 0.000 title claims abstract description 34
- 238000000605 extraction Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims description 57
- 230000008451 emotion Effects 0.000 claims description 38
- 238000013145 classification model Methods 0.000 claims description 37
- 238000012552 review Methods 0.000 claims description 29
- 230000011218 segmentation Effects 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 16
- 238000010276 construction Methods 0.000 claims description 14
- 238000013507 mapping Methods 0.000 claims description 13
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 claims description 11
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 5
- 125000002015 acyclic group Chemical group 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000012423 maintenance Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 238000004148 unit process Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于词向量的针对电影评论信息的情感分析系统,包括:采集部,采集电影评论,形成评论文本库;评论文本处理部,对评论文本库中的每一条评论进行分词,构建分词后的评论文本库;特征提取部,对分词后的评论文本库中的每一条评论转换为基于词向量的评论向量,完成每一条评论的特征提取,其中,所述词向量为所述评论中每一个词语的词语概率最大化的最优解,所述评论向量为每一条评论中的所有词向量的平均值;评论分类部,存储有分类模型,将所述评论向量输入到所述分类模型中进行训练,得到每一条评论的评论类型。上述情感分析系统不需人工标注,不依赖于情感词典的维修修缮工作。
Description
技术领域
本发明涉及数据挖掘技术领域,更为具体地,涉及一种基于词向量的针对电影评论信息的情感分析系统及方法。
背景技术
随着互联网的迅速发展,网络上的信息爆炸式增长,海量信息成为人们日常中重要的信息来源。随着使用互联网的在线用户数增长,越来越多的用户倾向于在博客、论坛、微博、在线视频中发表针对电影的观感和评论。如何处理激增的文本、从中获取关键信息,成为当前十分重要的信息处理技术问题。在线影评网站中的影视评论文本,博客、论坛、微博中具有多种讨论视频作品的文章。对电影的评估而言,如何对从电影大众评论中抽取主观性观点,量化计算大众的正面倾向或负面倾向,是自然语言处理在实际问题中的重要应用。
传统的自然语言处理方法是基于词语计数的统计模型,以词频为重要的文本特征,这一方法在多项自然语言处理的任务中已有丰富的研究。根据其需求特性,情感分析可采用机器学习中的分类方法实现,包括有监督学习与无监督学习。有监督学习由评论文本及评分组合的训练样本训练得到分类模型,其中采用词袋模型,分类模型的训练方法包括贝叶斯分类、最大熵模型和支持向量机模型等。无监督学习方法是基于情感词典的方法,修建与维护一个大型的情感词典受到成本与规模的限制,在此基础上,已有基于种子词与词语关系自动构建词典的方法。基于传统的情感分析方法,或依赖于修建并维护完善的领域针对性强的情感词典,或依赖于大量的人工文本标注工作,这通常需要消耗大量人工精力。在信息改变迅速的在线电影评论应用中,如何减少人工标注和对情感词典的维护修缮工作,是一个亟待解决的问题。
发明内容
鉴于上述问题,本发明的目的是提供一种不需人工标注,不依赖于情感词典的维修修缮工作的基于词向量的针对电影评论信息的情感分析系统及方法。
根据本发明的一个方面,提供一种基于词向量的针对电影评论信息的情感分析系统,包括:采集部,采集电影评论,形成评论文本库;评论文本处理部,对评论文本库中的每一条评论进行分词,构建分词后的评论文本库;特征提取部,对分词后的评论文本库中的每一条评论转换为基于词向量的评论向量,完成每一条评论的特征提取,其中,所述词向量为所述评论中每一个词语的词语概率最大化的最优解,所述评论向量为每一条评论中的所有词向量的平均值;评论分类部,存储有分类模型,将所述评论向量输入到所述分类模型中进行训练,得到每一条评论的评论类型,其中,所述特征提取部包括:第一设定单元,设定词向量训练窗口的大小、词向量的维度和变化阈值;映射单元,将分词后的评论文本库中的所有评论中的词去重复后形成词汇表,建立分词后的评论文本库的词语到词汇表中词语的映射;词向量查找表构建单元,将上述词汇表中的每一个词语的词向量的每一维的数值设定为变量,构建词向量查找表;第一更新单元,随机生成所述词向量查找表构建单元中各词向量在各维度的数值,设定词向量训练窗口内一个词语为所述词语所在评论的中心词,通过所述中心词的词向量预测所述评论中其他词语的预测概率,通过所述预测概率采用平均对数法和迭代方法不断更新所述其他词语的词向量在每一维度的数值,直到所述数值的变化值小于变化阈值,完成词向量查找表的更新,其中,所述数值的变化值为:
其中,a为迭代次数,为自然数;
wordc(docn)为第n条评论的词语总数;
m为词汇表中的词语总数;
win为词向量训练窗口的大小;
wordn,I为第n条评论的第I个词语;
为第a-1次迭代中,第n条评论中第I个词语的第k维的数值;
为第a-1次迭代中,第n条评论的第I个词语的词向量;
为第a-1次迭代中,词汇表的第X个词语的词向量;
pa-1(wordn,I+J|wordn,I)为第a-1次迭代中,通过中心词wordn,I词向量预测得到词语wordn,I+J词向量的预测概率;
Oa-1(wordn,I+J)为第a-1次迭代中,第n条评论的除中心词外各词语的预测概率的对数平均值;
为词语wordn,I+J第k维数值在第a-1次迭代和第a次迭代的数值变化;评论向量构建单元,通过计算每一条评论中的所有词向量的平均值,将所述评论的信息替换为评论向量。
根据本发明的另一个方面,提供一种利用上述情感分析系统进行情感分析的方法,包括:采集电影评论,形成评论文本库;对评论文本库中的每一条评论进行分词,构建分词后的评论文本库;将分词后的评论文本库中的所有评论中的词去重复后形成词汇表,建立分词后的评论文本库的词语到词汇表中的词语的映射;设定词向量维度,将上述词汇表中的每一个词的词向量的每一维的数值设定为变量,构建词向量查找表;随机生成所述词向量查找表的各词向量在各维度的数值;设定词向量训练窗口的大小,以所述词向量训练窗口内一个词语为所述词语所在评论的中心词,通过所述中心词的词向量预测所述评论中其他词语的预测概率,通过所述预测概率采用平均对数法和迭代方法不断更新所述其他词语的词向量在每一维度的数值,直到所述数值的变化值小于变化阈值,完成词向量查找表的更新;将每一条评论中的词向 量映射到所述更新后的词向量查找表的数值进行平均计算,从而将每一条评论的文本信息替换为评论向量;将每一条评论的评论向量代入到分类模型中进行训练,得到每一条评论的评论类型。
本发明所述基于词向量的针对电影评论信息的情感分析系统及方法,采用将评论文本转换成基于词向量的评论向量,词向量和评论向量的训练是无监督学习,能够克服维护情感词典和手工标注文本的巨大工作量问题,另外,评论向量是对词向量的简单的向量求平均运算,计算过程的消耗小,因此方法的实现过程十分简单,而且有效。
附图说明
通过参考以下结合附图的说明及权利要求书的内容,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:
图1是本发明基于词向量的针对电影评论信息的情感分析系统的一个实施例的构成框图;
图2是本发明所述情感分析系统的特征提取部的构成框图;
图3是本发明所述情感分析系统的评论文本处理部的构成框图;
图4是本发明所述有向无环图的示意图;
图5是本发明基于词向量的针对电影评论信息的情感分析方法的一个实施例的流程图;
图6是本发明所述对评论文本库中的每一条评论进行分词的方法的流程图;
图7是本发明基于词向量的针对电影评论信息的情感分析系统的另一个实施例的构成框图;
图8是本发明基于词向量的针对电影评论信息的情感分析方法的另一个实施例的流程图;
图9是本发明分类模型构建部的构成框图。
在所有附图中相同的标号指示相似或相应的特征或功能。
具体实施方式
在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全 面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。以下将结合附图对本发明的具体实施例进行详细描述。
以下将结合附图对本发明的具体实施例进行详细描述。
图1是本发明基于词向量的针对电影评论信息的情感分析系统,如图1所示,所述情感分析系统,包括:
采集部100,采集电影评论,形成评论文本库corpus,其中,
其中:docD表示第D条电影评论文本,例如,利用正则表示法从广播电视公司已有的节目数据库或者利用网站API接口从网站上或者利用网络爬虫从视频网站上或者上述三种方式任意组合采集电影评论文本及电影评分数据;
评论文本处理部200,对评论文本库corpus中的每一条评论进行分词,构建分词后的评论文本库corpussegment,其中,
其中,docsegD是第D条分词后的电影评论,wordD,1是第D条电影评论中第1个词,wordc(docD)是第D条电影评论的词语总数;
特征提取部300,对分词后的评论文本库corpussegment中的每一条评论转换为基于词向量的评论向量,完成每一条评论的特征提取,其中,所述词向量为所述评论中每一个词语的词语概率最大化的最优解,所述评论向量为每一条评论中的所有词向量的平均值,详细地,将在图2中进行描述;
评论分类部400,存储有分类模型,将所述评论向量输入到所述分类模型 中进行训练,得到每一条评论的评论类型。
优选地,还包括:判断部500,判断所述采集部100采集的评论中是否具有评分,将具有评分的评论和不具有评分的评论分类储存,且将所述评分存储到评分数据库。
另外,优选地,所述评论分类部400还设定评分标准,高于标准的评论的评分设为1,不高于所述标准的评论的评分设为-1,从而输出具有评分的电影评论的评论类型,其中,1表示该条评论为正倾向,-1表示该条评论为负倾向,所述评分标准可以根据具有评分的评论从分类模型中得到的评论类型设定,优选地,所述评分标准为满分值的一半。
图2是本发明所述情感分析系统的特征提取部的构成框图,如图2所示,所述特征提取部300包括:
第一设定单元310,设定词向量训练窗口的大小、词向量的维度和变化阈值,例如,分词后的评论文本库corpussegment包括两条评论,即
在第一设定单元310可以设定词向量训练窗口的大小win=6,词向量的维度数dim=10,词向量变化阈值为0.0001;
映射单元320,将分词后的评论文本库中的所有评论中的词语去重复后形成词汇表,建立分词后的评论文本库的词语到词汇表中的词语的映射,例如,分词后的评论文本库中的词语去重后形成的词汇表为V={w1,w2,…wm},则建立所述评论文本库中的词wordi,j到与其相同的词汇表中的词语wk的映射,其中,m为词汇表V的总词汇数,wk是词汇表中第k个词;1≤k≤m,又如,词汇表 V={w1,w2,…w9}={“我”,“很”,“喜欢”,“这”,“部”,“电影”,“演技”,“太”,“差”},建立诸如word1,1=w1的多条映射;
词向量查找表构建单元330,将上述词汇表中的每一个词语的词向量的每一维的数值设定为变量,构建词向量查找表,例如,词向量查找表LT
其中,是词汇表中第i个词的词向量;是词汇表中第i个词的词向量中第dim维的数值,例如,
第一更新单元340,随机生成所述词向量查找表构建单元中各词向量在各维度的数值,设定词向量训练窗口内一个词语为所述词语所在评论的中心词,通过所述中心词的词向量预测所述评论中其他词语的预测概率,通过所述预测概率采用平均对数法和迭代方法不断更新所述其他词语的词向量在每一维度的数值,直到所述数值的变化值小于变化阈值(例如,0.0001),完成词向量查找表的更新,其中,所述数值的变化值为:
其中,a为迭代次数,为自然数;
wordc(docn)为第n条评论的词语总数;
m为词汇表中的词语总数;
win为词向量训练窗口的大小;
wordn,I为第n条评论的第I个词语;
为第a-1次迭代中,第n条评论中第I个词语的第k维的数值;
为第a-1次迭代中,第n条评论中第I+J个词语的第k维的数值;
为第a次迭代中,第n条评论中第I+J个词语的第k维的数值;
为第a-1次迭代中,第n条评论的第I个词语的词向量;
为第a-1次迭代中,词汇表的第X个词语的词向量;
pa-1(wordn,I+J|wordn,I)为第a-1次迭代中,通过中心词wordn,I词向量预测得到词语wordn,I+J词向量的预测概率;
Oa-1(wordn,I+J)为第a-1次迭代中,第n条评论的除中心词外各词语的预测概率的对数平均值;
为词语wordn,I+J第k维数值在第a-1次迭代和第a次迭代的数值变化;
评论向量构建单元340,通过计算每一条评论中的所有词向量的平均值,将所述评论的信息替换为评论向量:
RV=(rv(1)…rv(n)…rv(D))
其中,rv(D)是电影评论docsegD的电影评论向量;RV表示评论向量矩阵。
优选地,所述第一更新单元随机生成所述词向量查找表中所述变量的初始值不小于0且不大于1,例如,
此外,优选地,所述特征提取部300还包括:第一判断单元350,判断每一条评论的词语总数是否大于词向量训练窗口的大小,其中,当所述评论的词语总数不大于词向量训练窗口的大小时,选择所述评论中的一个词为中心词,对所述词向量查找表进行更新;当所述评论的词语总数大于词向量训练窗口的大小时,所述评论在所述词向量窗口中从左往右或者从右往左显示,依次选择所述词向量训练窗口中的一个词语为中心词,对所述词向量查找表进行更新,例如,词向量训练窗口的大小win=3,评论docseg1[我,很,喜欢,这,部,电影]中词语数为wordc(doc1)=6,首先以窗口[“我”,“很”,“喜欢”]中的“很”为的中心词,对词向量查找表进行更新,然后以窗口[“很”,“喜欢”,“这”]中的“喜欢”为的中心词,对词向量查找表进行更新。
当评论文本库中的评论很多时,优选地,所述第一更新单元340,随机筛选r个评论,更新满足阈值条件的所述评论中词语的词向量,重复进行上述筛选,直到词汇表中所有词于的词向量更新完成,例如,r取m/100或m/10。
图3是本发明所述情感分析系统的评论文本处理部的构成框图,如图3所示,所述评论文本处理部200包括:
第一分词单元210,对每一条电影评论遍历,根据句尾的标点符号以及空格符,将每一条评论分割为一个或多个短句,例如,
其中,corpussentences是电影评论语料按标点符号切割后的短句语料,1≤n≤D.sentc(docD)是第D条电影评论的总短句数,senti,j是第i条电影评论中的第j条短句,1≤j≤sentc(doci)。
第二分词单元220,基于Trie树结构对评论文本库进行词图扫描,生成每一条评论中汉字所有可能成词情况所构成的有向无环图,所述有向无环图由多个结点和连结节点的边组成,如图4所示,有向图是指图中的每条边具有一个方向的图,有向无环图是指,无法从任意顶点出发经过若干条边回到该点的有向图,例如,
senti,j=(chara1,chara2,…,charal)
其中,每一个charal(字符l)是senti,j中的第l个字符;l是senti,j的总字符数。
考虑每个字符左边和右边的位置,则有l+1个点对应,点的编号从0到l,把候选词看成边,可以根据词典生成一个有向无环图,如图4所示,有向无环图是一个有向正权重的图,有向无环图中的边都是词典中的词语,边的起点和终点分别是词的开始和结束位置。对字符数为l的senti,j,假设chara1chara2(字符1字符2)、chara2chara3(字符2字符3)和charal-1charal(字符l-1字符l)在词典中,其他字符组合均不在词典中,则生成有向无环图如下切割方案有两个选择:路径1:0-1-3-4-5-……-(l-1)-(l+1);路径2:0-2-3-4-5-……-(l-1)-(l+1)。
第一确定单元230,采用了动态规划查找有向无环图基于词频的最大概率路径,找出基于词频的最大切分路径,确定切割方案。
图5是本发明基于词向量的针对电影评论信息的情感分析方法的流程图,如图5所示,所述情感分析方法包括:
首先,在步骤S510中,采集电影评论,形成评论文本库;
在步骤S520中,对评论文本库中的每一条评论进行分词,构建分词后的评论文本库;
在步骤S530中,将分词后的评论文本库中的所有评论中的词语去重复后形成词汇表,建立分词后的评论文本库的词语到词汇表中的词语的映射;
在步骤S540中,设定词向量的维度,将上述词汇表中的每一个词语的词向量的每一维的数值设定为变量,构建词向量查找表;
在步骤S550中,随机生成所述词向量查找表的各词向量在各维度的数值;
在步骤S560中,设定词向量训练窗口的大小,以所述词向量训练窗口内一个词语为所述词语所在评论的中心词,通过所述中心词的词向量预测所述评论中其他词语的预测概率,通过所述预测概率采用平均对数法和迭代方法不断更新所述其他词语的词向量在每一维度的数值,直到所述数值的变化值小于变化阈值,完成词向量查找表的更新;
在步骤S570中,将每一条评论中的词向量映射到所述更新后的词向量查找表的数值进行平均计算,从而将每一条评论的文本信息替换为评论向量;
在步骤S580中,将每一条评论的评论向量代入到分类模型中进行训练,得到每一条评论的评论类型。
在步骤S520中,所述对评论文本库中的每一条评论进行分词的方法,如图6所示,包括:
首先,在步骤S521中,根据句尾的标点符号以及空格符,将评论文本库中的每一条评论分割为一个或多个短句;
在步骤S522中,基于Trie树结构对评论文本库进行词图扫描,得到所述短句中汉字所有可能成词情况,构成有向无环图,得到每一条评论的所述短语的多个分割方案;
在步骤S523中,记录每一条评论的所述多个分割方案形成的所有词语,以及该词语在所述评论文本库中出现的次数,得到每一个词语出现的频率,其中,所述频率p(wn)为:
其中,p(wn)是词语wn出现的频率;
freq(wn)是词语wn出现的频数;
t为所有有向无环图中所有可能成词情况构成的词语的总数;
是词汇表中所有词语出现的总频数;
在步骤S524中,将每一种切割方案中不存在与词典中的词语的频率用词典中最小频率替代,基于所述频率,采用查找最大概率路径的方法确定每一条评论的切割方案,优选地,采用从右往左查找最大概率路径的方法确定每一条评论的切割方案,例如,
p(Nodel+1)=1.0
p(Nodes)=p(Nodes+1)×max(p(ws,last)),1≤s≤l
其中,Nodel+1是评论doci从左往右第l+1个节点;
Nodes是评论docn中的第j条短句senti,j从左往右第s个节点;
p(Nodes+1)是评论doci从左往右第s+1个节点的概率,即最后一个字符的右边节点;
p(Nodes)是评论doci从左往右第s个节点的概率;
ws,last是到Nodes为止的从左往右最后的候选词语;
p(ws,last)表示ws,last出现的频率;
max(ws,last)表示到Nodes为止的最后的候选词语的最大出现概率。
通过上式,得到每一个短句中不同节点设置的不同概率,找到每一个短句最大概率的节点设置,即获得该短句的最大概率路径,确定了该短句的切割方案。
在本发明的另一个实施例中,如图7所示,所述情感分析系统1000除上述采集部100、评论文本处理部200、特征提取部300、判断部500还包括:
分类模型构建部600,用于构建分类模型,其中,
所述采集部100采集电影评论;
所述判断部500,判断所述采集部100采集的评论中是否具有评分,将具有评分的评论和不具有评分的评论分类储存,且将所述评分存储到评分数据库;
所述分类模型构建部600包括:
评分训练模型构建单元610,构建评分训练模型,其中,所述评分训练模型包括设定评分标准,高于标准的评论的评分值设为1,不高于所述标准的评论的评分值设为-1,将每一条评论的评分相对于所述评分标准存储成只包括1和-1的数据集,其中,1表示该条评论为正倾向,-1表示该条评论为负倾向;
分类模型构建单元620,构建包括变量的分类模型;
第一获得单元630,通过评论文本处理部和特征提取部对具有评分的评论进行处理,获得所述评论对应的评论向量,将存储所述评论的评分的评分数 据库通过评分训练模型转变为只包括1和-1的数据集;
第二获得单元640,利用所述评论向量及其对应的数据集获得分类模型的变量,详细地,将在图9中进行描述。
优选地,上述情感分析系统还包括评论分类部400,通过存储的分类模型得到具有评分的评论的评论向量的评论类型,对分类模型构建部600的变量起到修正作用。
采用上述情感分析系统对电影评论进行情感分析的方法,如图8所示,包括:
在步骤S810中,采集电影评论;
在步骤S820中,判断所述电影评论中是否具有评分,将具有评分的评论和不具有评分的评论分类储存,且将所述评分存储到评分数据库,例如,将具有评分的评论存储到评论文本库其中,G为具有评分的电影评论的总条数;docG′表示第G条电影评论文本;将所述评分存储到评分数据库其中,score(G)表示第G条电影评论对应评分,0≤score(G)≤scoremax;scoremax为满分值,通常scoremax∈(5,10);
在步骤S830中,构建评分训练模型,其中,所述评分训练模型包括设定评分标准,高于标准的评论的评分设为1,不高于所述标准的评论的评分设为-1,将每一条评论的评分相对于所述评分标准存储成只包括1和-1的数据集,其中,1表示该条评论为正倾向,-1表示该条评论为负倾向,例如,以满分值 得一半为标准,将评分数据库scores的评分数据转为待遇测变量数据集Y,具体地:
其中,y(1),y(n),y(G)是第1、n、G条评论相对评分标准的数据;
Y是具有评分的评论相对于评分标准的数据构成的数据集;
在步骤S840中,构建包括变量的分类模型,其中,所述包括变量的分类模型为:
yi=w·rv(i)-b
且y(n)(w·rv′(n)-b)≥1
其中,rv(i)为不具有评分的评论向量;
G为具有评分的评论向量的总个数;
En是被优化的目标函数;
w和b为变量,其中,w为垂直于评论向量平面的向量,b为阈值;
α为拉格朗日参数,是D维向量,α∈RD
αk是拉格朗日参数α第k维度的分量;
y(k),y(n)是具有评分的第k个和第n个评论向量在数据集中的数值;
rv′(k),rv′(n)分别是具有评分的第k个和第n个评论向量;
分别表示第k个和第n个评论向量的第s维分量,1≤s≤dim;
<rv′(k),rv′(n)>表示对评论向量rv′(k),rv′(n)求向量内积;
在步骤S850中,将所述评分数据库中各评论的评分在评分训练模型中进行训练,得到各评论的所述数据集;
在步骤S860中,通过评论文本处理部和特征提取部对存储具有评分的评论进行处理,得到所述评论的评论向量,例如,RV′=(rv′(1)…rv′(n)…rv′(G)),其中,RV'表示评论向量矩阵;rv′(G)是电影评论docG′的电影评论向量;
在步骤S870中,利用具有评分的评论的评论向量及其对应的数据集确定分类模型的变量,完成分类模型的构建;
在步骤S880中,通过评论文本处理部和特征提取部对存储不具有评分的评论进行处理,得到所述评论的评论向量;
在步骤S890中,将上述评论向量输入上述分类模型,得到不具有评分的评论的评论类型。
图9示出了所述第二获得单元的构成框图,如图9所示,所述第二获得单元640包括:
第二设定单元641,初始化拉格朗日参数α=(α1,α2,…,αD)、阈值b及b 的待选参数b1和b2,α1=α2=…=αD=0,b=b1=b2=0;设置指定精度ε(例如ε=10-5);设置容差tol和调和函数C;
计算单元642,遍历第一获取单元630中的评论向量,计算每一个评论向量对应的E函数值,例如,评论向量rv′(n)对应的E函数值En;
第二判断单元643,判断评论向量的评分相对评分标准的数据与其E函数值的乘积以及其拉格朗日参数是否满足下述条件:y(n)En<-tol且αn<C,或者y(n)En>tol且αn>0,如果存在均不满足上述两个条件的评论向量,则发送指令给计算单元642,重新计算该评论向量的E值;如果满足上述两个条件之一,发送指令给第二更新单元644;
第二更新单元644,将满足第二判断单元643条件的第一获取单元630中的任意两个评论向量配对,更新每一个评论向量的拉格朗日参数,其中,
η=2<rv′(k),rv′(n)>-<rv′(k),rv′(k)>-<rv′(n),rv′(k)>,且η<0
且L≠H
且|αn (new)-αn (old)|≥ε
其中,rv′(n)和rv′(k)为满足第二判断单元643条件的第一获取单元630中的任意两个评论向量;
αn (old)和αk (old)为更新前评论向量rv′(n)和rv′(k)对应的拉格朗日参数;
αn (new,wnc)为更新过程中评论向量rv′(n)待判断的新的拉格朗日参数;
αn (new)和αk (new)是更新后评论向量rv′(n)和rv′(k)对应的拉格朗日参数;
L和H为αn (old)更新的上限和下限;
η是被优化的目标函数En的二阶导数;
第三更新单元645,更新每一个评论相量对应的阈值,具体地,包括:
b1 (new)=b1 (old)-Ek-y(k)(αk (new)-αk (old))<rv′(k),rv′(k)>-y(n)(αn (new)-αn (old))<rv′(k),rv′(n)>
b2 (new)=b2 (old)-En-y(k)(αk (new)-αk (old))<rv′(k),rv′(n)>-y(n)(αn (new)-αn (old))<rv′(n),rv′(n)>
其中,b(n)为更新后评论相量rv′(n)对应的阈值b的值;
b1 (old)、b2 (old)为之前保留的待选参数b1和b2;
第二确定单元646,根据更新后各评论向量的拉格朗日参数及其对应的阈值确定变量参数w和b,其中,
且y(n)(w·rv′(n)-b)≥1。
利用上述第二获得单元640确定分类模型的变量的方法包括:
初始化具有评分的各评论向量的拉格朗日参数和阈值,设置指定精度和容差;
计算上述评论向量对应的E函数值;
筛选出满足条件的评论向量,其中,所述条件为y(n)En<-tol且αn<C, 或者y(n)En>tol且αn>0;
将满足上述条件的评论向量中任意两个评论向量进行配对,更新每一个评论向量的拉格朗日参数;
更新上述每一个评论向量对应的阈值;
根据更新后各评论向量的拉格朗日参数及其对应的阈值确定变量参数w和b。
综上所述,参照附图以示例的方式描述了根据本发明提出的基于词向量的针对电影评论信息的情感分析方法及系统。但是,本领域技术人员应当理解,对于上述本发明所提出的系统及方法,还可以在不脱离本发明内容的基础上做出各种改进。因此,本发明的保护范围应当由所附的权利要求书的内容确定。
Claims (10)
1.一种基于词向量的针对电影评论信息的情感分析系统,其特征在于,包括:
采集部,采集电影评论,形成评论文本库;
评论文本处理部,对评论文本库中的每一条评论进行分词,构建分词后的评论文本库;
特征提取部,对分词后的评论文本库中的每一条评论转换为基于词向量的评论向量,完成每一条评论的特征提取,其中,所述词向量为所述评论中每一个词语的词语概率最大化的最优解,所述评论向量为每一条评论中的所有词向量的平均值;
评论分类部,存储有分类模型,将所述评论向量输入到所述分类模型中进行训练,得到每一条评论的评论类型,
其中,所述特征提取部包括:
第一设定单元,设定词向量训练窗口的大小、词向量的维度和变化阈值;
映射单元,将分词后的评论文本库中的所有评论中的词去重复后形成词汇表,建立分词后的评论文本库的词语到词汇表中词语的映射;
词向量查找表构建单元,将上述词汇表中的每一个词语的词向量的每一维的数值设定为变量,构建词向量查找表;
第一更新单元,随机生成所述词向量查找表构建单元中各词向量在各维度的数值,设定词向量训练窗口内一个词语为所述词语所在评论的中心词,通过所述中心词的词向量预测所述评论中其他词语的预测概率,通过所述预测概率采用平均对数法和迭代方法不断更新所述其他词语的词向量在每一维度的数值,直到所述数值的变化值小于变化阈值,完成词向量查找表的更新,其中,所述数值的变化值为:
其中,a为迭代次数,为自然数;
wordc(docn)为第n条评论的词语总数;
m为词汇表中的词语总数;
win为词向量训练窗口的大小;
wordn,I为第n条评论的第I个词语;
为第a-1次迭代中,第n条评论中第I个词语的第k维的数值;
为第a-1次迭代中,第n条评论的第I个词语的词向量;
为第a-1次迭代中,词汇表的第X个词语的词向量;
pa-1(wordn,I+J|wordn,I)为第a-1次迭代中,通过中心词wordn,I词向量预测得到词语wordn,I+J词向量的预测概率;
Oa-1(wordn,I+J)为第a-1次迭代中,第n条评论的除中心词外各词语的预测概率的对数平均值;
为词语wordn,I+J第k维数值在第a-1次迭代和第a次迭代的数值变化;
评论向量构建单元,通过计算每一条评论中的所有词向量的平均值,将所述评论的信息替换为评论向量。
2.根据权利要求1所述的情感分析系统,其特征在于,还包括:
判断部,判断所述采集部采集的评论中是否具有评分,将不具有评分的评论和具有评分的评论分类存储,将所述评分存储到评分数据库。
3.根据权利要求2所述的情感分析系统,其特征在于,还包括:分类模型构建部,用于构建分类模型,包括:
评分训练模型构建单元,构建评分训练模型,其中,所述评分训练模型为设定评分标准,高于标准的评论的评分值设为1,不高于所述标准的评论的评分值设为-1,将每一条评论的评分相对于所述评分标准存储成只包括1和-1的数据集,其中,1表示该条评论为正倾向,-1表示该条评论为负倾向;
分类模型构建单元,构建包括变量的分类模型,其中,所述分类模型为:
yi=w·rv(i)-b
且y(n)(w·rv′(n)-b)≥1
其中,rv(i)为不具有评分的评论向量;
G为具有评分的评论向量的总个数;
w和b为变量,其中,w为垂直于评论向量平面的向量,b为阈值;
α为拉格朗日参数,是D维向量,α∈RD
αk是拉格朗日参数α第k维度的分量;
y(k),y(n)是具有评分的第k个和第n个评论向量在数据集中的数值;
rv′(k),rv′(n)分别是具有评分的第k个和第n个评论向量;
分别表示第k个和第n个评论向量的第s维分量,1≤s≤dim;
En是被优化的目标函数;
〈rv′(k),rv′(n)〉表示对评论向量rv′(k),rv′(n)求向量内积;
第一获得单元,通过评论文本处理部和特征提取部对具有评分的评论进行处理,获得所述评论对应的评论向量,将存储所述评论的评分的评分数据库通过评分训练模型转变为只包括1和-1的数据集;
第二获得单元,利用第一获得单元获得的评论向量及其对应的数据集确定所述分类模型的变量。
4.根据权利要求3所述的情感分析系统,其特征在于,所述第二获得单元包括:
第二设定单元,初始化拉格朗日参数α和阈值b及b的待选参数b1和b2,,设置指定精度ε、容差tol和调和函数C;
计算单元,计算第一获取单元中每一个评论向量对应的E函数值;
第二判断单元,判断上述评论向量的评分相对评分标准的数据与其E函数值的乘积以及其拉格朗日参数是否满足下述条件:y(n)En<-tol且αn<C,或者y(n)En>tol且αn>0,如果存在均不满足上述两个条件的评论向量,则发送指令给计算单元,重新计算该评论向量的E值;如果满足上述两个条件之一,发送指令给第二更新单元;
第二更新单元,将满足第二判断单元条件的第一获取单元中的任意两个评论向量配对,更新每一个评论向量的拉格朗日参数,其中,
η=2<rv′(k),rv′(n)>-<rv′(k),rv′(k)>-<rv′(n),rv′(k)>,且η<0
且|αn (new)-αn (old)|≥ε
其中,rv′(n)和rv′(k)为满足第二判断单元643条件的第一获取单元630中的任意两个评论向量;
αn (old)和αk (old)为更新前评论向量rv′(n)和rv′(k)对应的拉格朗日参数;
αn (new,wnc)为更新过程中评论向量rv′(n)待判断的新的拉格朗日参数;
αn (new)和αk (new)是更新后评论向量rv′(n)和rv′(k)对应的拉格朗日参数;
L和H为αn (old)更新的上限和下限;
η是被优化的目标函数En的二阶导数;
第三更新单元,更新每一个评论相量对应的阈值,其中,
b1 (new)=b1 (old)-Ek-y(k)(αk (new)-αk (old))<rv′(k),rv′(k)>-y(n)(αn (new)-αn (old))<rv′(k),rv′(n)>
b2 (new)=b2 (old)-En-y(k)(αk (new)-αk (old))<rv′(k),rv′(n)>-y(n)(αn (new)-αn (old))<rv′(n),rv′(n)>
其中,b(n)为更新后评论相量rv′(n)对应的阈值b的值;
b1 (old)、b2 (old)为之前保留的待选参数b1和b2;
第二确定单元,根据更新后各评论向量的拉格朗日参数及其对应的阈值确定变量参数w和b,其中,
且y(n)(w·rv′(n)-b)≥1。
5.根据权利要求1所述的情感分析系统,其特征在于,所述特征提取部还包括:第一判断单元,判断每一条评论的词语总数是否大于词向量训练窗口的大小,其中,当所述评论的词语总数不大于词向量训练窗口的大小时,选择所述评论中的一个词为中心词,对所述词向量查找表进行更新;当所述评论的词语总数大于词向量训练窗口的大小时,所述评论在所述词向量窗口中从左往右或者从右往左显示,依次选择所述词向量训练窗口中的一个词语为中心词,对所述词向量查找表进行更新。
6.根据权利要求1所述的情感分析系统,其特征在于,所述评论文本处理部包括:
第一分词单元,对每一条电影评论遍历,根据句尾的标点符号以及空格符,将每一条评论分割为一个或多个短句;
第二分词单元,基于Trie树结构对评论文本库进行词图扫描,生成每一条中汉字所有可能成词情况所构成的有向无环图,获得所述有向无环图的多种切割方案;
第一确定单元,采用了动态规划查找所述有向无环图基于词频的最大概率路径,确定切割方案。
7.一种利用权利要求1所述情感分析系统进行情感分析的方法,其特征在于,包括:
采集电影评论,形成评论文本库;
对评论文本库中的每一条评论进行分词,构建分词后的评论文本库;
将分词后的评论文本库中的所有评论中的词去重复后形成词汇表,建立分词后的评论文本库的词语到词汇表中的词语的映射;
设定词向量维度,将上述词汇表中的每一个词的词向量的每一维的数值设定为变量,构建词向量查找表;
随机生成所述词向量查找表的各词向量在各维度的数值;
设定词向量训练窗口的大小,以所述词向量训练窗口内一个词语为所述词语所在评论的中心词,通过所述中心词的词向量预测所述评论中其他词语的预测概率,通过所述预测概率采用平均对数法和迭代方法不断更新所述其他词语的词向量在每一维度的数值,直到所述数值的变化值小于变化阈值,完成词向量查找表的更新;
将每一条评论中的词向量映射到所述更新后的词向量查找表的数值进行平均计算,从而将每一条评论的文本信息替换为评论向量;
将每一条评论的评论向量代入到分类模型中进行训练,得到每一条评论的评论类型。
8.根据权利要求7所述的情感分析方法,其特征在于,还包括:
判断每一条评论的词语总数是否大于词向量训练窗口的大小;
当所述评论的词语总数不大于词向量训练窗口的大小时,选择所述评论中的一个词为中心词,对所述词向量查找表进行更新;
当所述评论的词语总数大于词向量训练窗口的大小时,所述评论在所述词向量窗口中从左往右或者从右往左显示,依次选择所述词向量训练窗口中的一个词语为中心词,对所述词向量查找表进行更新。
9.根据权利要求7所述的情感分析方法,其特征在于,还包括:
判断所述采集部采集的每一条评论中是否具有评分;
如果所述评论中具有评分,设定评分标准,高于标准的评论的评分值设为1,不高于所述标准的评论的评分值设为-1,得到所述评论的评论类型,其中,1表示该条评论为正倾向,-1表示该条评论为负倾向;
如果所述评论中不具有评分,通过评论文本处理部、特征提取部和评论分类部获得所述评论的评论类型。
10.根据权利要求7所述的情感分析方法,其特征在于,还包括构建分类模型的步骤,所述步骤包括:
构建评分训练模型,其中,所述评分训练模型包括设定评分标准,高于标准的评论的评分设为1,不高于所述标准的评论的评分设为-1,将每一条评论的评分相对于所述评分标准存储成只包括1和-1的数据集,其中,1表示该条评论为正倾向,-1表示该条评论为负倾向;
构建包括变量的分类模型;
通过采集部采集具有评分的评论,形成评论文本库和评分数据库;
将所述评分数据库中各评论的评分在评分训练模型中进行训练,得到各评论的所述数据集;
通过评论文本处理部和特征提取部获得所述评论文本库中各评论的评论向量;
利用上述评论向量及其对应的数据集获得分类模型的变量,完成分类模型的构建。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610519169.7A CN106156004B (zh) | 2016-07-04 | 2016-07-04 | 基于词向量的针对电影评论信息的情感分析系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610519169.7A CN106156004B (zh) | 2016-07-04 | 2016-07-04 | 基于词向量的针对电影评论信息的情感分析系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106156004A true CN106156004A (zh) | 2016-11-23 |
CN106156004B CN106156004B (zh) | 2019-03-26 |
Family
ID=58061875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610519169.7A Active CN106156004B (zh) | 2016-07-04 | 2016-07-04 | 基于词向量的针对电影评论信息的情感分析系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106156004B (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107122392A (zh) * | 2017-03-09 | 2017-09-01 | 北京小度信息科技有限公司 | 词库构建方法、识别搜索需求的方法及相关装置 |
CN107169086A (zh) * | 2017-05-12 | 2017-09-15 | 北京化工大学 | 一种文本分类方法 |
CN107766331A (zh) * | 2017-11-10 | 2018-03-06 | 云南大学 | 对单词情感值进行自动标定的方法 |
CN108491208A (zh) * | 2018-01-31 | 2018-09-04 | 中山大学 | 一种基于神经网络模型的代码注释分类方法 |
CN108536784A (zh) * | 2018-03-29 | 2018-09-14 | 广州优视网络科技有限公司 | 评论信息情感分析方法、装置、计算机存储介质和服务器 |
CN108563696A (zh) * | 2018-03-22 | 2018-09-21 | 阿里巴巴集团控股有限公司 | 一种发掘潜在风险词的方法、装置及设备 |
CN108595568A (zh) * | 2018-04-13 | 2018-09-28 | 重庆邮电大学 | 一种基于极大无关多元逻辑回归的文本情感分类方法 |
CN108804416A (zh) * | 2018-05-18 | 2018-11-13 | 大连民族大学 | 基于机器学习的影评情感倾向性分析的训练方法 |
CN109033240A (zh) * | 2018-07-05 | 2018-12-18 | 淮海工学院 | 基于情感分析的电影评论信息检索系统及方法 |
CN109657212A (zh) * | 2018-12-13 | 2019-04-19 | 武汉大学 | 一种基于词移距离结合词向量的音乐文案生成方法 |
CN109710087A (zh) * | 2018-12-28 | 2019-05-03 | 北京金山安全软件有限公司 | 输入法模型生成方法及装置 |
CN109800435A (zh) * | 2019-01-29 | 2019-05-24 | 北京金山数字娱乐科技有限公司 | 一种语言模型的训练方法及装置 |
CN110084373A (zh) * | 2019-04-22 | 2019-08-02 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、计算机可读存储介质和计算机设备 |
CN110110137A (zh) * | 2019-03-19 | 2019-08-09 | 咪咕音乐有限公司 | 一种确定音乐特征的方法、装置、电子设备及存储介质 |
CN110309317A (zh) * | 2019-05-22 | 2019-10-08 | 中国传媒大学 | 中文语料的词向量生成方法、系统、电子装置及介质 |
CN110334202A (zh) * | 2019-03-28 | 2019-10-15 | 平安科技(深圳)有限公司 | 基于新闻应用软件的用户兴趣标签构建方法及相关设备 |
CN110472096A (zh) * | 2019-08-22 | 2019-11-19 | 腾讯音乐娱乐科技(深圳)有限公司 | 歌曲库的管理方法、装置、设备及存储介质 |
CN110599230A (zh) * | 2018-06-13 | 2019-12-20 | 优估(上海)信息科技有限公司 | 一种二手车的定价模型构建方法,定价方法及装置 |
CN110825876A (zh) * | 2019-11-07 | 2020-02-21 | 上海德拓信息技术股份有限公司 | 电影评论观点情感倾向性分析方法 |
CN111026916A (zh) * | 2019-12-10 | 2020-04-17 | 北京百度网讯科技有限公司 | 文本描述的转换方法、装置、电子设备及存储介质 |
CN111415176A (zh) * | 2018-12-19 | 2020-07-14 | 杭州海康威视数字技术股份有限公司 | 一种满意度评价方法、装置及电子设备 |
CN111787409A (zh) * | 2019-04-04 | 2020-10-16 | 杭州晨熹多媒体科技有限公司 | 影视评论数据处理方法及装置 |
CN111966822A (zh) * | 2019-05-20 | 2020-11-20 | 北京京东尚科信息技术有限公司 | 用于确定评价信息的情感类别的方法和装置 |
CN112765963A (zh) * | 2020-12-31 | 2021-05-07 | 北京锐安科技有限公司 | 语句分词方法、装置、计算机设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008176489A (ja) * | 2007-01-17 | 2008-07-31 | Toshiba Corp | テキスト判別装置およびテキスト判別方法 |
CN104573046A (zh) * | 2015-01-20 | 2015-04-29 | 成都品果科技有限公司 | 一种基于词向量的评论分析方法及系统 |
CN105205124A (zh) * | 2015-09-11 | 2015-12-30 | 合肥工业大学 | 一种基于随机特征子空间的半监督文本情感分类方法 |
CN105550269A (zh) * | 2015-12-10 | 2016-05-04 | 复旦大学 | 一种有监督学习的产品评论分析方法及系统 |
CN105701229A (zh) * | 2016-01-19 | 2016-06-22 | 杭州电子科技大学 | 基于评论情感分析和协同过滤的评分预测方法 |
-
2016
- 2016-07-04 CN CN201610519169.7A patent/CN106156004B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008176489A (ja) * | 2007-01-17 | 2008-07-31 | Toshiba Corp | テキスト判別装置およびテキスト判別方法 |
CN104573046A (zh) * | 2015-01-20 | 2015-04-29 | 成都品果科技有限公司 | 一种基于词向量的评论分析方法及系统 |
CN105205124A (zh) * | 2015-09-11 | 2015-12-30 | 合肥工业大学 | 一种基于随机特征子空间的半监督文本情感分类方法 |
CN105550269A (zh) * | 2015-12-10 | 2016-05-04 | 复旦大学 | 一种有监督学习的产品评论分析方法及系统 |
CN105701229A (zh) * | 2016-01-19 | 2016-06-22 | 杭州电子科技大学 | 基于评论情感分析和协同过滤的评分预测方法 |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107122392A (zh) * | 2017-03-09 | 2017-09-01 | 北京小度信息科技有限公司 | 词库构建方法、识别搜索需求的方法及相关装置 |
CN107122392B (zh) * | 2017-03-09 | 2020-08-04 | 北京星选科技有限公司 | 词库构建方法、识别搜索需求的方法及相关装置 |
CN107169086A (zh) * | 2017-05-12 | 2017-09-15 | 北京化工大学 | 一种文本分类方法 |
CN107766331A (zh) * | 2017-11-10 | 2018-03-06 | 云南大学 | 对单词情感值进行自动标定的方法 |
CN108491208A (zh) * | 2018-01-31 | 2018-09-04 | 中山大学 | 一种基于神经网络模型的代码注释分类方法 |
CN108563696A (zh) * | 2018-03-22 | 2018-09-21 | 阿里巴巴集团控股有限公司 | 一种发掘潜在风险词的方法、装置及设备 |
CN108563696B (zh) * | 2018-03-22 | 2021-05-25 | 创新先进技术有限公司 | 一种发掘潜在风险词的方法、装置及设备 |
CN108536784A (zh) * | 2018-03-29 | 2018-09-14 | 广州优视网络科技有限公司 | 评论信息情感分析方法、装置、计算机存储介质和服务器 |
CN108595568A (zh) * | 2018-04-13 | 2018-09-28 | 重庆邮电大学 | 一种基于极大无关多元逻辑回归的文本情感分类方法 |
CN108595568B (zh) * | 2018-04-13 | 2022-05-17 | 重庆邮电大学 | 一种基于极大无关多元逻辑回归的文本情感分类方法 |
CN108804416A (zh) * | 2018-05-18 | 2018-11-13 | 大连民族大学 | 基于机器学习的影评情感倾向性分析的训练方法 |
CN110599230A (zh) * | 2018-06-13 | 2019-12-20 | 优估(上海)信息科技有限公司 | 一种二手车的定价模型构建方法,定价方法及装置 |
CN110599230B (zh) * | 2018-06-13 | 2022-07-22 | 优轩(北京)信息科技有限公司 | 一种二手车的定价模型构建方法,定价方法及装置 |
CN109033240A (zh) * | 2018-07-05 | 2018-12-18 | 淮海工学院 | 基于情感分析的电影评论信息检索系统及方法 |
CN109657212A (zh) * | 2018-12-13 | 2019-04-19 | 武汉大学 | 一种基于词移距离结合词向量的音乐文案生成方法 |
CN109657212B (zh) * | 2018-12-13 | 2022-04-15 | 武汉大学 | 一种基于词移距离结合词向量的音乐文案生成方法 |
CN111415176B (zh) * | 2018-12-19 | 2023-06-30 | 杭州海康威视数字技术股份有限公司 | 一种满意度评价方法、装置及电子设备 |
CN111415176A (zh) * | 2018-12-19 | 2020-07-14 | 杭州海康威视数字技术股份有限公司 | 一种满意度评价方法、装置及电子设备 |
CN109710087A (zh) * | 2018-12-28 | 2019-05-03 | 北京金山安全软件有限公司 | 输入法模型生成方法及装置 |
CN109800435A (zh) * | 2019-01-29 | 2019-05-24 | 北京金山数字娱乐科技有限公司 | 一种语言模型的训练方法及装置 |
CN110110137A (zh) * | 2019-03-19 | 2019-08-09 | 咪咕音乐有限公司 | 一种确定音乐特征的方法、装置、电子设备及存储介质 |
CN110334202A (zh) * | 2019-03-28 | 2019-10-15 | 平安科技(深圳)有限公司 | 基于新闻应用软件的用户兴趣标签构建方法及相关设备 |
CN111787409A (zh) * | 2019-04-04 | 2020-10-16 | 杭州晨熹多媒体科技有限公司 | 影视评论数据处理方法及装置 |
CN110084373A (zh) * | 2019-04-22 | 2019-08-02 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、计算机可读存储介质和计算机设备 |
CN110084373B (zh) * | 2019-04-22 | 2021-08-24 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、计算机可读存储介质和计算机设备 |
CN111966822A (zh) * | 2019-05-20 | 2020-11-20 | 北京京东尚科信息技术有限公司 | 用于确定评价信息的情感类别的方法和装置 |
CN110309317A (zh) * | 2019-05-22 | 2019-10-08 | 中国传媒大学 | 中文语料的词向量生成方法、系统、电子装置及介质 |
CN110309317B (zh) * | 2019-05-22 | 2021-07-23 | 中国传媒大学 | 中文语料的词向量生成方法、系统、电子装置及介质 |
CN110472096A (zh) * | 2019-08-22 | 2019-11-19 | 腾讯音乐娱乐科技(深圳)有限公司 | 歌曲库的管理方法、装置、设备及存储介质 |
CN110825876A (zh) * | 2019-11-07 | 2020-02-21 | 上海德拓信息技术股份有限公司 | 电影评论观点情感倾向性分析方法 |
CN111026916A (zh) * | 2019-12-10 | 2020-04-17 | 北京百度网讯科技有限公司 | 文本描述的转换方法、装置、电子设备及存储介质 |
CN112765963A (zh) * | 2020-12-31 | 2021-05-07 | 北京锐安科技有限公司 | 语句分词方法、装置、计算机设备及存储介质 |
CN112765963B (zh) * | 2020-12-31 | 2024-08-06 | 北京锐安科技有限公司 | 语句分词方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106156004B (zh) | 2019-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106156004B (zh) | 基于词向量的针对电影评论信息的情感分析系统及方法 | |
CN108573411B (zh) | 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法 | |
WO2021093755A1 (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
CN111008274B (zh) | 特征扩展卷积神经网络的案件微博观点句识别构建方法 | |
CN112699246A (zh) | 基于知识图谱的领域知识推送方法 | |
CN104471568A (zh) | 对自然语言问题的基于学习的处理 | |
Taruna et al. | An empirical analysis of classification techniques for predicting academic performance | |
CN106126751A (zh) | 一种具有时间适应性的分类方法及装置 | |
US10387805B2 (en) | System and method for ranking news feeds | |
CN111026884B (zh) | 一种提升人机交互对话语料质量与多样性的对话语料库生成方法 | |
CN111177402B (zh) | 基于分词处理的评价方法、装置、计算机设备及存储介质 | |
CN111159405B (zh) | 基于背景知识的讽刺检测方法 | |
CN115599902B (zh) | 一种基于知识图谱的油气百科问答方法及系统 | |
CN110909116B (zh) | 一种面向社交媒体的实体集合扩展方法及系统 | |
CN114357120A (zh) | 基于faq的无监督式检索方法、系统及介质 | |
CN113869034B (zh) | 基于强化依赖图的方面情感分类方法 | |
CN109299357B (zh) | 一种老挝语文本主题分类方法 | |
CN110910175A (zh) | 一种旅游门票产品画像生成方法 | |
CN110992988A (zh) | 一种基于领域对抗的语音情感识别方法及装置 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
CN112215629B (zh) | 基于构造对抗样本的多目标广告生成系统及其方法 | |
Başarslan et al. | Sentiment analysis with ensemble and machine learning methods in multi-domain datasets | |
CN117151052B (zh) | 一种基于大语言模型和图算法的专利查询报告生成方法 | |
Hong et al. | Competitive self-training technique for sentiment analysis in mass social media | |
CN114065749A (zh) | 一种面向文本的粤语识别模型及系统的训练、识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |