CN104268197A - 一种行业评论数据细粒度情感分析方法 - Google Patents
一种行业评论数据细粒度情感分析方法 Download PDFInfo
- Publication number
- CN104268197A CN104268197A CN201410486635.7A CN201410486635A CN104268197A CN 104268197 A CN104268197 A CN 104268197A CN 201410486635 A CN201410486635 A CN 201410486635A CN 104268197 A CN104268197 A CN 104268197A
- Authority
- CN
- China
- Prior art keywords
- word
- comment data
- emotion
- sentiment
- comment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明是一种行业评论数据细粒度情感分析方法,用于互联网数据分析。本方法是:获取电商行业商品的评论数据;对评论数据进行预处理;建立初始的行业情感词库,利用1-gram和2-gram分别计算词在不同情感极性下的分布;对评论数据进行中文分词;分别基于1-gram、2-gram构建的情感词库,使用联合情绪模型对词进行建模,获取词在不同情感分布下,属于不同主题的概率分布;利用上下文信息重新确定句子中情感词的情感倾向值;利用条件随机场进行命名实体识别,抽取评论特征,计算评论特征评价词的情感倾向值。本发明通过主题、情感两个维度计算评论词的情感,实现行业评论数据的细粒度情感分析,分析结果精度高且更加可解释。
Description
技术领域
本发明属于互联网数据分析领域,涉及评论数据的情感分析技术,具体涉及一种行业评论数据细粒度情感分析方法。
背景技术
随着大数据时代的到来,越来越多的信息通过网友的群智群力,以众包的方式出现,越来越多的人喜欢在网上交流他们的意见,因而在网络上出现大量包含倾向性的评论信息,比如豆瓣的影评、书评,电商网站上产品的评论。商家希望通过信息处理手段来获取这些电子信息中包含的情感倾向性,以此来获得消费者反馈,修正市场决策。例如,在购买电子商品之前,人们希望先得知别人对于该商品的评价,优点是什么,缺点是什么,以此作为购买的重要参考。近年来情感分析成为了信息处理领域中的一个研究热点,但是由于其自身特点,导致研究进展较为缓慢。
一般的情感分析技术主要是采用监督的方式对互联网文本中的情感进行分,通过提取文本中包含的情感词,对其进行极性判断,找出文本中对应的情感词特征向量。为计算文本情感倾向性,通过对这些已知样本进行训练,建立分类模型,对新的评论进行情感倾向的判断。现有的技术一般分为两种:监督和非监督。监督模型一般采用K最邻近结点算法(KNN)、朴素贝叶斯和支持向量机(SVM)、最大熵的情感分类模型,其中涉及到情感词的提取和极性判断,这种方法与情感词词典的构建有很大关系,需要完备的情感词词典。所建立的分类模型和特定领域有很大关系,对某一个领域构建的模型很可能对另外一个领域不太适用。同时,构建情感词词典费时费力。由于评论中存在大量的噪音,对训练样本的质量有一定的影响,使得训练出来的模型受到影响,影响分类的准确度和召回率。非监督模型一般基于主题模型进行的改进,这种模型的优点是泛化能力较强,并不局限于某一个领域,但是结果精度往往比较差,缺乏有监督的指导。
一般的情感分析主要研究的是评论的整体态度,但在实际中这种分析粒度较大,比如汽车评论中,商家不仅希望知道针对一款车型,好评差评分别占比,他更希望知道好在哪,差在哪。因此一般的情感分析不再适用于这个场景。
发明内容
本发明针对现有非监督模型的分析结果精度差,领域针对性强,所用的情感分析结果粗糙的问题,提出了一种非监督结合情感词表的行业评论数据细粒度情感分析方法,旨在实现以比较高的可解释度和精确度来分析普通用户对于研究对象的情感倾向性。
本发明提供的一种行业评论数据细粒度情感分析方法,包括如下步骤:
步骤1:获取电商行业商品的评论数据;
步骤2:对步骤1得到的评论数据进行预处理,包括:根据评论数据长度进行清洗,去除垃圾广告信息,去除评论数据中的网址,去除自动评论数据;将预处理后的评论数据用于下面步骤;
步骤3:建立初始的行业情感词库,利用1-gram和2-gram分别计算词在不同情感极性下的分布,获得1-gram构建的情感词库和2-gram构建的情感词库;
步骤4:对评论数据进行中文分词,去除停用词,获取词集合;
步骤5:为词集合中的所有词建立和对应文档的索引,分别基于1-gram构建的情感词库和2-gram构建的情感词库,使用联合情绪模型对词进行建模,获取词在不同情感分布下,属于不同主题的概率分布;
其中使用联合情绪模型对词进行建模,具体是:
对于每一个文档d,选择一个分布πd,πd定义为Dir(γ);
对于文档d下的每一个情感标记la,选择一个分布θd,la,θd,la定义为Dir(α);
对于文档d中的每一个词wi,选择一个情感标记lai和主题zi,lai定义为πd,zi定义为θd,la;
从主题zi和情感标记lai所定义的词分布里面选择一个词wi定义为
其中,超参数α、β和γ使用吉布斯抽样方法获取;
步骤6:利用上下文信息重新确定句子中情感词的情感倾向值;
步骤7:利用条件随机场进行命名实体识别,抽取评论特征,对评论特征中的评价词进行统计,计算评价词的情感倾向值。
本发明的优点与积极效果在于:
(1)本发明的行业评论数据细粒度情感分析方法,通过主题、情感两个维度计算评论词的情感,对行业评论数据进行细粒度的情感分析,使得分析结果精度较高、更加可解释;
(2)利用Bloom filter和给定的规则集合对海量数据进行预处理,数据处理效率高,有效精减了数据量;
(3)引入情感因子隐变量,使用改进的主题模型(联合情绪模型)对文档中的词进行建模,融合情感分析领域最常用的两种模型,结合两者优点,提升结果性能;并分布采用1-gram和2-gram两种方式分别构建行业情感词典,进行主题模型聚类,获得进行对比分析的结果,以利于综合获取更加准确的聚类结果;
(4)利用条件随机场进行命名实体识别,实体识别结果好;通过词性等制定规则挖掘实体及其属性,提高抽取商品特征的准确率。
附图说明
图1是本发明的行业评论数据细粒度情感分析方法的整体流程图;
图2是本发明方法的步骤1和3中利用爬虫程序所进行操作的示意图;
图3是本发明方法步骤5的实现流程图;
图4是本发明的JST使用Gibbs Sampling进行参数推断的示意图;
图5是本发明方法步骤6和7的流程示意图;
图6是对某个商品的评论数据运用本发明方法进行情感分析的结果示意图。
具体实施方式
下面将结合附图和实施例对本发明作进一步的详细说明。
细粒度分析可分两种,一种是句子级别,一种是属性(aspect)级别。由于产品评论一句话里面往往包含对多个属性的评价,如“质量很好,外观美观,但是很贵”,因此本发明的技术方案中的细粒度针对的是属性层次的细粒度。
本发明以非监督方式对电商行业评论数据进行细粒度情感分析,提出来一种引入隐变量的改进的主题模型方法,采用1-gram和2-gram的方式分别建立行业情感词典,同时采用中文分词技术、命名实体识别技术对评论中的实体特征进行抽取,基于商品属性和实体特征进行细粒度情感分析,给出商品在细粒度维度下的多维度情感分析结果。
本发明提供的行业评论数据细粒度情感分析方法,基于一种引入隐变量的改进主题模型聚类的技术进行情感聚类,利用中文分词、命名实体识别技术提取物品细粒度的特征,然后结合电商行业评论数据进行情感分析,本发明方法流程如图1所示。
步骤1:构建爬虫程序,抓取电商行业的商品的评论数据。本发明实施例中主要从京东、淘宝和亚马逊抓取数据。如图1和2所示,本步骤包括步骤101和102。
步骤101:构建分布式爬虫程序,对电商网站数据进行页面抓取。
步骤102:根据抓取到的html页面生成页面的dom树结构,根据标签提取爬到页面中包含的评论数据并存储。
步骤2:对步骤1得到的评论数据进行预处理。(1)利用布隆滤波(Bloom filter)方法对海量数据进行处理,Bloom filter处理速度很快,适合处理海量数据。(2)利用下面的规则集对评论数据进一步预处理,去除符合规则1~3的评论数据:规则1:评论数据长度小于5个字;规则2:评论数据中含有特定的广告词;规则3:基于网络特定回复模板的自动回复;规则4:评论中含有网址的,去除网址后再重新判断是否符合规则1~3。
步骤201:根据评论长度进行清洗,利用正则表达式和制定的规则集去除垃圾广告信息。
步骤202:利用Bloom filter方法去除重复的评论数据,首先对评论数据利用N个hash函数映射到位数组中,再对后面的评论计算N个hash值,然后判断该评论数据是否已经存在,如果后面的评论计算出的hash值存在位数组中,则说明该评论数据已经存在,并将其过滤掉。
步骤203:设计匹配网址的正则表达式,去除评论数据中的网址,再次计算句子的长度,然后在此基础上进行二次清洗,主要清洗长度不满足规则中设置条件的评论。
步骤204:观察评论数据,统计网络自动评论模板,根据自动评论模板去除评论中包含的自动评论数据。
步骤3:建立初始行业情感词库。如图2所示,本步骤包括步骤301~步骤303。
步骤301:利用爬虫程序抓取情感领域的专有词汇和百度百科的数据,建立初始的行业情感词库。
步骤302:利用1-gram计算词在不同情感极性下的分布,得到1-gram构建的情感词库。
步骤303:利用2-gram计算词在不同情感极性下的分布,得到2-gram构建的情感词库。
步骤4:对步骤2预处理后的评论数据进行中文分词处理,获取对应的词集合。对所有评论数据进行中文分词,去除停用词,获取分词结果。
步骤401:调用中文分词程序分词,然后根据停用词表去除停用词,对其中包含的英文词进行形态变换,转换到统一的表达形式。
步骤402:计算词的文档频率df,词频tf,以及逆向文件频率idf,对词使用计算公式log(tf/(idf+1)+1)计算权值,然后与设定的权值阈值比较,进行词集筛选,获取权值大于权值阈值的词组成的词集,从而得到能够体现评论特征的词集合,同时词集筛选后也适当地降低了评论数据对应的词集合的维度。
步骤5:引入情感因子隐变量,使用改进的主题模型对文档中的词进行聚类,首次将改进的联合情绪模型(Joint Sentiment/Topic Model,JST)应用到中文情感分析。如图3所示,步骤5包括如下四个子步骤。
步骤501:首先处理文档中的词,对所有词建立和对应文档的索引,然后创建文档和词对应的数据文件。每条评论数据作为一个文档。
步骤502:调用利用1-gram构建的情感词库和利用2-gram构建的情感词库,两个词库将分别应用到下面的联合情绪模型的聚类过程。
步骤503:JST通过引入隐变量,对隐含狄利克雷分布(latent dirichlet allocation)主题模型进行改进,对词建模,进行聚类。
JST模型的建模基本过程如下:
For each document d,choose a distributionπd~Dir(γ).\\对于每一个文档d,选择一个分布πd,定义为Dir(γ));
For each sentiment label la under document d,choose a distributionθd,la~Dir(α).\\对于文档d下的每一个情感标记la,选择一个分布θd,la,定义为Dir(α);
For each word wi in document d\\对于文档d中的每一个词wi
Choose a sentiment label lai~πd\\选择一个情感标记lai,定义为πd
Choose a topic zi~θd,la\\选择一个主题zi,定义为θd,la
Choose a word wi from the distribution over words defined by the topic zi and sentimentlabel lai,\\选择一个从主题zi和情感标记lai所定义的所有词分布里面的词wi定义为
其中,联合情绪模型JST包含的超参数α、β和γ可以看作主题在情感标签中出现次数和单词在主题下出现次数的先验分布。
本发明改进的JST使用吉布斯抽样方法(Gibbs Sampling)进行超参数推断。假设给定α,β,γ,吉布斯抽样方法的流程是积出变量θ,φ,π,然后根据这三个变量从后验概率P(z|w,l,d,α,β,γ)中抽样主题z。如图4所示,D表示文档空间向量,nd表示某个文档d的词空间向量,z表示主题,l表示情感标记,T表示β的因子,S表示α的惩罚因子,V表示γ的惩罚因子。在抽样的每一轮过程中,根据以下公式来抽样:
这个公式是Markov Chain Monte Carlo(MCMC)的一种实例,它可以被看作从一条马尔科夫链中抽样,最终平稳分布为后验概率的马尔科夫过程。公式(1)中,zt表示第t次抽样的主题,j表示主题j,lt表示第t次抽样的情感标记,k表示情感标记k,w表示词w,z-t表示不在第t次抽样的主题,l-t表示不在第t次抽样的情感标记,P(zt=j,lt=k|w,z-t,l-t,α,β,γ)表示在已知α、β、γ、w、z-t和l-t的条件下,第t次抽样主题和情感标记的联合概率密度。wt,j,k表示第t次抽样,在主题j和情感标记k的词w,表示满足条件wt,j,k的概率;Nj,k表示满足主题j和情感标记k的词的概率,Nj,k,d表示在文档d中满足主题j和情感标记k的词的概率,Nk,d表示在文档d中满足情感标记k的词的概率,Nd表示在文档d出现的概率。小脚标-t表示不在第t次抽样,{N*}-t表示为N*满足不在第t次抽样的概率。
吉布斯抽样方法的最大优点是实现起来比较简单,只需要计算三个矩阵θ=T×S×D,φ=V×T×S和π=S×D。
在循环进行一段时间后,从θ、φ和π矩阵中可以计算出情感-主题分布φi,j,k和主题-词分布θj,k,d和文档-情感分布πk,d。
其中,φi,j,k表示满足主题j和情感标记k的词wi的分布,θj,k,d表示文档d中词满足主题j和情感标记k的分布,πk,d表示文档d中词满足情感标记k的分布。Ni,j,k表示满足主题j和情感标记k的词wi的概率。
吉布斯抽样方法实现的伪代码如下:
第1步,初始化V×T×S矩阵φ,T×S×D矩阵θ,以及S×D矩阵π;
1.Initialize V×T×S matrixφ,T×S×D matrixθ,S×D matrixπ
第2步,从1到M做吉布斯抽样;M为总抽样数;每次抽样时从一个文档中读取一个词;
2.For m=1 to M Gibbs sampling iterations do
Read a word w from a document
第3步,对每次抽取的词,根据式(1)计算该词属于某个主题和情感标记的值;
3.Calculate the probability of assigning word w to topic and sentiment label based onequation 1.
第4步,基于式(1)所计算的值为该词抽样出主题j;
4.Sampling a topic j based on the estimated probability obtained
第5步,基于式(1)所计算的值为该词抽样情感标记k;
5.Sampling a sentiment label k
第6步,利用第4步和第5步新的抽样结果更新矩阵φ,θ,π;
6.Update the matrixφ,θ,πwith new sampling result
第7步,返回第3步继续执行,直到所有词均被处理完;
7.Go to step 3 until all words have been processed.
8.End for.
最后聚类得到<情感,主题,词索引>的模型。
步骤504:将生成的<情感,主题,词索引>模型中的词索引进行转换,转换成词本身,得到不同词在不同情感分布下,属于不同主题的概率分布,作为细粒度情感分析的权重值。
步骤6:利用上下文信息重新评估句子中出现的情感词的情感极性和强弱。
由步骤5得到标记为某个情感的词在某个主题的概率分布,下面标记为某个情感的词称为情感词。如图5所示,步骤6和7具体如下说明。设定滑动窗口W,在[-W/2,W/2]范围内计算情感词的互信息,根据互信息测评情感之间的关联度,结合聚类出的情感权重计算一个情感指标,作为该情感词在该句子中的最终的情感倾向值。
步骤601:选取滑动窗口范围W,即以当前情感词为中心的前W/2及后W/2范围内的词集合,选出其中的情感词、否定词、程度副词和转折连词,分别计算所选出的这些词对当前情感词的影响。如果是情感词,计算两个情感词(当前情感词和该情感词)的互信息,判断两个情感词之前的紧密程度和影响程度。对否定词、程度副词和转折连词,基于规则去判断,结合原文进行语义分析进行判断这些词是否对当前情感词的情感倾向造成影响以及影响的程度。
步骤602:根据步骤601,结合当前情感词在不同主题中的情感倾向的权值,同时考虑文档中出现的主题的概率对当前情感词的情感倾向权值,进行权值加权求和,计算出最终的情感倾向。
步骤7:实体特征的抽取。基于规则识别出评论数据中对应的商品和商品的属性,对细粒度信息的情感词抽取和极性判断,做细粒度情感分析。
步骤701:利用条件随机场进行命名实体识别。条件随机场(CRF)由Lafferty等人于2001年提出,结合了最大熵模型和隐马尔可夫模型的特点,是一种无向图模型,近年来在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果。本发明方法使用条件随机场该模型CRFs在命名实体识别的时候达到了很好的效果。
步骤702:根据命名实体识别结果,对评论中的评论特征进行抽取,本发明采用基于规则的抽取方式,评论特征表征为<特征,评价词>,采用bootstrapping方法,人工标注种子特征词和评价词;利用规则挖掘和种子评价词相关的特征词,统计<新特征,种子评价词>的频度;利用规则挖掘和种子特征词相关的评价词,统计<种子特征,新评价词>的频度;迭代挖掘直至没有新的<特征,评价词>对产生。这种方法可以有效的提高抽取商品特征的准确率。
步骤703:对抽取的评论特征进行评价词统计,并进行评价词情感极性判断,获取该评论特征对应的整体的情感倾向值。
如图6所示,为对某个商品的评论数据运用本发明方法进行情感分析的结果示意图;从该结果中可以看出,对该商品的评论96.83%是正面的、好的(图中标记为Posi),有3.17%认为该商品不好(图中标记Nega)。
Claims (6)
1.一种行业评论数据细粒度情感分析方法,其特征在于,包括如下步骤:
步骤1:获取电商行业商品的评论数据;
步骤2:对评论数据进行预处理,包括:根据评论数据长度进行清洗,去除垃圾广告,去除评论数据中的网址,去除自动评论数据;将预处理后的评论数据用于下面步骤;
步骤3:建立初始的行业情感词库,获得1-gram构建的情感词库和2-gram构建的情感词库;
步骤4:对评论数据进行中文分词,去除停用词,获取词集合;
步骤5:为词集合中的所有词建立和对应文档的索引,分别基于1-gram构建的情感词库和2-gram构建的情感词库,使用联合情绪模型对词进行建模,获取词在不同情感分布下,属于不同主题的概率分布;
其中使用联合情绪模型对词进行建模具体是:
对于每一个文档d,选择一个分布πd,πd定义为Dir(γ));
对于文档d下的每一个情感标记la,选择一个分布θd,la,θd,la定义为Dir(α);
对于文档d中的每一个词wi,选择一个情感标记lai和主题zi,lai定义为πd,zi定义为θd,la;
从主题zi和情感标记lai所定义的词分布里面选择一个词wi定义为
其中,超参数α、β和γ使用吉布斯抽样方法得到;
步骤6:利用上下文信息重新确定句子中出现的情感词的情感倾向值;
步骤7:利用条件随机场进行命名实体识别,抽取评论特征,对评论特征中的评价词进行统计,计算评价词的情感倾向值。
2.根据权利要求1所述的一种行业评论数据细粒度情感分析方法,其特征在于,所述的步骤2,利用下面的规则集对评论数据进行预处理,去除符合规则1~3的评论数据:
规则1:评论数据的长度小于5个字;
规则2:评论数据中含有特定的广告词;
规则3:基于网络特定回复模板的自动回复;
规则4:评论数据中含有网址,去除网址后再重新判断是否符合规则1~3。
3.根据权利要求1所述的一种行业评论数据细粒度情感分析方法,其特征在于,所述的步骤4获取词集合时,计算词的逆向文件频率idf和词频tf,确定词的权值为log(tf/(idf+1)+1),将权值与设定的权值阈值比较,进行词集筛选,保留权值大于权值阈值的词。
4.根据权利要求1所述的一种行业评论数据细粒度情感分析方法,其特征在于,所述的步骤5具体包括如下子步骤:
步骤501:对词集合中的所有词,建立和对应文档的索引;
步骤502:分布调用利用1-gram构建的情感词库和利用2-gram构建的情感词库,进行步骤503;
步骤503:使用联合情绪模型对词进行建模,最后得到<情感,主题,词索引>模型;
步骤504:对所得到的<情感,主题,词索引>模型中的词索引,转换为词本身,得到词在不同情感分布下,属于不同主题的概率分布。
5.根据权利要求1所述的一种行业评论数据细粒度情感分析方法,其特征在于,所述的步骤6具体是:
步骤601:选取滑动窗口范围W,对以当前情感词为中心的前W/2及后W/2范围内的词集合,选出其中的情感词、否定词、程度副词和转折连词,分别计算所选出的词对当前情感词的影响;
步骤602:将当前情感词在不同主题中的情感倾向,与文档中出现的主题的概率对当前情感词的情感倾向,进行权值加权求和,获得当前情感词在句子中的最终情感倾向。
6.根据权利要求1所述的一种行业评论数据细粒度情感分析方法,其特征在于,所述的步骤7在抽取评论特征时,根据命名实体识别结果,采用基于规则的抽取方式进行抽取,评论特征表征为<特征,评价词>,具体是:首先人工标注种子特征和种子评价词,然后利用规则挖掘和种子评价词相关的特征词,统计<新特征,种子评价词>的频度,利用规则挖掘和种子特征词相关的评价词,统计<种子特征,新评价词>的频度,直至挖掘不到新的<特征,评价词>对产生。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410486635.7A CN104268197B (zh) | 2013-09-22 | 2014-09-22 | 一种行业评论数据细粒度情感分析方法 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310432022 | 2013-09-22 | ||
CN2013104320220 | 2013-09-22 | ||
CN201310432022.0 | 2013-09-22 | ||
CN201410486635.7A CN104268197B (zh) | 2013-09-22 | 2014-09-22 | 一种行业评论数据细粒度情感分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104268197A true CN104268197A (zh) | 2015-01-07 |
CN104268197B CN104268197B (zh) | 2017-11-07 |
Family
ID=52159719
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410486635.7A Active CN104268197B (zh) | 2013-09-22 | 2014-09-22 | 一种行业评论数据细粒度情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104268197B (zh) |
Cited By (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069072A (zh) * | 2015-07-30 | 2015-11-18 | 天津大学 | 基于情感分析的混合用户评分信息推荐方法及其推荐装置 |
CN105512245A (zh) * | 2015-11-30 | 2016-04-20 | 青岛智能产业技术研究院 | 一种基于回归模型建立企业画像的方法 |
CN105589941A (zh) * | 2015-12-15 | 2016-05-18 | 北京百分点信息科技有限公司 | 网络文本的情感信息检测方法和装置 |
CN105718446A (zh) * | 2016-03-08 | 2016-06-29 | 徐勇 | 一种基于情感分析的ugc模糊综合评价方法 |
CN106021413A (zh) * | 2016-05-13 | 2016-10-12 | 清华大学 | 基于主题模型的自展式特征选择方法及系统 |
CN106681986A (zh) * | 2016-12-13 | 2017-05-17 | 成都数联铭品科技有限公司 | 一种多维度情感分析系统 |
CN106919551A (zh) * | 2015-12-28 | 2017-07-04 | 株式会社理光 | 一种情感词极性的分析方法、装置及设备 |
CN107066585A (zh) * | 2017-04-17 | 2017-08-18 | 济南大学 | 一种概率主题计算与匹配的舆情监测方法及系统 |
CN107168945A (zh) * | 2017-04-13 | 2017-09-15 | 广东工业大学 | 一种融合多特征的双向循环神经网络细粒度意见挖掘方法 |
CN107209861A (zh) * | 2015-01-22 | 2017-09-26 | 微软技术许可有限责任公司 | 使用否定数据优化多类别多媒体数据分类 |
CN107357785A (zh) * | 2017-07-05 | 2017-11-17 | 浙江工商大学 | 主题特征词抽取方法及系统、情感极性判断方法及系统 |
CN107391483A (zh) * | 2017-07-13 | 2017-11-24 | 武汉大学 | 一种基于卷积神经网络的商品评论数据情感分类方法 |
CN107633007A (zh) * | 2017-08-09 | 2018-01-26 | 五邑大学 | 一种基于层次化ap聚类的商品评论数据标签化系统和方法 |
CN107943966A (zh) * | 2017-11-28 | 2018-04-20 | 合肥工业大学 | 基于微博文本的异常个性判定方法及装置 |
CN107943790A (zh) * | 2017-11-23 | 2018-04-20 | 中译语通科技股份有限公司 | 一种基于最大熵模型和tf‑idf特征的情感分析方法 |
CN108009297A (zh) * | 2017-12-27 | 2018-05-08 | 广州市云润大数据服务有限公司 | 基于自然语言处理的文本情感分析方法与系统 |
CN108038627A (zh) * | 2017-12-27 | 2018-05-15 | 科大讯飞股份有限公司 | 一种对象评估方法及装置 |
CN108121734A (zh) * | 2016-11-29 | 2018-06-05 | 北京国双科技有限公司 | 文本的情感倾向判断方法及装置 |
CN108170827A (zh) * | 2018-01-08 | 2018-06-15 | 合肥工业大学 | 基于微博数据的个人性格建模方法及装置 |
CN108256016A (zh) * | 2018-01-08 | 2018-07-06 | 合肥工业大学 | 基于个人微博的个人异常情绪检测方法及装置 |
CN108269169A (zh) * | 2017-12-29 | 2018-07-10 | 武汉璞华大数据技术有限公司 | 一种导购方法及系统 |
CN108388608A (zh) * | 2018-02-06 | 2018-08-10 | 金蝶软件(中国)有限公司 | 基于文本感知的情感反馈方法、装置、计算机设备和存储介质 |
CN108694176A (zh) * | 2017-04-06 | 2018-10-23 | 北京京东尚科信息技术有限公司 | 文档情感分析的方法、装置、电子设备和可读存储介质 |
CN105243129B (zh) * | 2015-09-30 | 2018-10-30 | 清华大学深圳研究生院 | 商品属性特征词聚类方法 |
CN108763390A (zh) * | 2018-05-18 | 2018-11-06 | 浙江新能量科技股份有限公司 | 基于滑动窗口技术的细粒度主题提取方法 |
CN109190121A (zh) * | 2018-09-03 | 2019-01-11 | 重庆工商大学 | 基于汽车本体和词性规则的汽车评论情感分析方法 |
CN109271512A (zh) * | 2018-08-29 | 2019-01-25 | 中国平安保险(集团)股份有限公司 | 舆情评论信息的情感分析方法、装置及存储介质 |
CN109446341A (zh) * | 2018-10-23 | 2019-03-08 | 国家电网公司 | 知识图谱的构建方法及装置 |
CN109635108A (zh) * | 2018-11-22 | 2019-04-16 | 华东师范大学 | 一种基于人机交互的远程监督实体关系抽取方法 |
CN109671487A (zh) * | 2019-02-25 | 2019-04-23 | 上海海事大学 | 一种社交媒体用户心理危机预警方法 |
CN110069780A (zh) * | 2019-04-19 | 2019-07-30 | 中译语通科技股份有限公司 | 一种基于特定领域文本的情感词识别方法和系统 |
CN110096618A (zh) * | 2019-05-10 | 2019-08-06 | 北京友普信息技术有限公司 | 一种基于分维度情感分析的电影推荐方法 |
CN110866087A (zh) * | 2019-08-12 | 2020-03-06 | 上海大学 | 一种基于主题模型的面向实体的文本情感分析方法 |
CN111259661A (zh) * | 2020-02-11 | 2020-06-09 | 安徽理工大学 | 一种基于商品评论的新情感词提取方法 |
CN111597304A (zh) * | 2020-05-15 | 2020-08-28 | 上海财经大学 | 一种中文企业名实体精准识别二次匹配方法 |
CN112417858A (zh) * | 2020-11-23 | 2021-02-26 | 北京明略昭辉科技有限公司 | 一种实体权重评分方法、系统、电子设备及存储介质 |
CN112802575A (zh) * | 2021-04-10 | 2021-05-14 | 浙江大学 | 基于图形状态机的用药决策支持方法、装置、设备、介质 |
CN107862343B (zh) * | 2017-11-28 | 2021-07-13 | 南京理工大学 | 基于规则和神经网络的商品评论属性级情感分类方法 |
CN113343714A (zh) * | 2021-07-02 | 2021-09-03 | 马上消费金融股份有限公司 | 信息提取方法、模型训练方法及相关设备 |
CN113535891A (zh) * | 2021-06-07 | 2021-10-22 | 广东东华发思特软件有限公司 | 互联网短文本主题特征与情感倾向分析方法、系统及介质 |
CN113792118A (zh) * | 2021-09-08 | 2021-12-14 | 浙江力石科技股份有限公司 | 基于景区评价的满意度提升系统和方法 |
CN114429109A (zh) * | 2022-04-06 | 2022-05-03 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于评论有用性的自动用户评论摘要的方法 |
CN115392199A (zh) * | 2022-08-22 | 2022-11-25 | 再惠(上海)网络科技有限公司 | 评价分析和报告生成的方法、装置、电子设备及存储介质 |
WO2022267454A1 (zh) * | 2021-06-24 | 2022-12-29 | 平安科技(深圳)有限公司 | 分析文本的方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101127042A (zh) * | 2007-09-21 | 2008-02-20 | 浙江大学 | 一种基于语言模型的情感分类方法 |
CN101609459A (zh) * | 2009-07-21 | 2009-12-23 | 北京大学 | 一种情感特征词提取系统 |
CN101727487A (zh) * | 2009-12-04 | 2010-06-09 | 中国人民解放军信息工程大学 | 一种面向网络评论的观点主题识别方法和系统 |
US20120124052A1 (en) * | 2008-11-24 | 2012-05-17 | The ClogWorks, Inc. | Contextual Assignment of an External Descriptive and Informative Quality to a Person and/or an Object Located within a Temporal Framework |
CN102890707A (zh) * | 2012-08-28 | 2013-01-23 | 华南理工大学 | 一种基于条件随机场的网络短评论情感倾向性挖掘系统 |
CN103207855A (zh) * | 2013-04-12 | 2013-07-17 | 广东工业大学 | 针对产品评论信息的细粒度情感分析系统及方法 |
-
2014
- 2014-09-22 CN CN201410486635.7A patent/CN104268197B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101127042A (zh) * | 2007-09-21 | 2008-02-20 | 浙江大学 | 一种基于语言模型的情感分类方法 |
US20120124052A1 (en) * | 2008-11-24 | 2012-05-17 | The ClogWorks, Inc. | Contextual Assignment of an External Descriptive and Informative Quality to a Person and/or an Object Located within a Temporal Framework |
CN101609459A (zh) * | 2009-07-21 | 2009-12-23 | 北京大学 | 一种情感特征词提取系统 |
CN101727487A (zh) * | 2009-12-04 | 2010-06-09 | 中国人民解放军信息工程大学 | 一种面向网络评论的观点主题识别方法和系统 |
CN102890707A (zh) * | 2012-08-28 | 2013-01-23 | 华南理工大学 | 一种基于条件随机场的网络短评论情感倾向性挖掘系统 |
CN103207855A (zh) * | 2013-04-12 | 2013-07-17 | 广东工业大学 | 针对产品评论信息的细粒度情感分析系统及方法 |
Non-Patent Citations (1)
Title |
---|
张冬梅: "文本情感分类及观点摘要关键问题研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (64)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107209861A (zh) * | 2015-01-22 | 2017-09-26 | 微软技术许可有限责任公司 | 使用否定数据优化多类别多媒体数据分类 |
CN107209861B (zh) * | 2015-01-22 | 2021-12-31 | 微软技术许可有限责任公司 | 使用否定数据优化多类别多媒体数据分类 |
CN105069072B (zh) * | 2015-07-30 | 2018-08-21 | 天津大学 | 基于情感分析的混合用户评分信息推荐方法及其推荐装置 |
CN105069072A (zh) * | 2015-07-30 | 2015-11-18 | 天津大学 | 基于情感分析的混合用户评分信息推荐方法及其推荐装置 |
CN105243129B (zh) * | 2015-09-30 | 2018-10-30 | 清华大学深圳研究生院 | 商品属性特征词聚类方法 |
CN105512245A (zh) * | 2015-11-30 | 2016-04-20 | 青岛智能产业技术研究院 | 一种基于回归模型建立企业画像的方法 |
CN105512245B (zh) * | 2015-11-30 | 2018-08-21 | 青岛智能产业技术研究院 | 一种基于回归模型建立企业画像的方法 |
CN105589941A (zh) * | 2015-12-15 | 2016-05-18 | 北京百分点信息科技有限公司 | 网络文本的情感信息检测方法和装置 |
CN106919551A (zh) * | 2015-12-28 | 2017-07-04 | 株式会社理光 | 一种情感词极性的分析方法、装置及设备 |
CN106919551B (zh) * | 2015-12-28 | 2020-08-18 | 株式会社理光 | 一种情感词极性的分析方法、装置及设备 |
CN105718446A (zh) * | 2016-03-08 | 2016-06-29 | 徐勇 | 一种基于情感分析的ugc模糊综合评价方法 |
CN106021413B (zh) * | 2016-05-13 | 2019-07-02 | 清华大学 | 基于主题模型的自展式特征选择方法及系统 |
CN106021413A (zh) * | 2016-05-13 | 2016-10-12 | 清华大学 | 基于主题模型的自展式特征选择方法及系统 |
CN108121734A (zh) * | 2016-11-29 | 2018-06-05 | 北京国双科技有限公司 | 文本的情感倾向判断方法及装置 |
CN106681986A (zh) * | 2016-12-13 | 2017-05-17 | 成都数联铭品科技有限公司 | 一种多维度情感分析系统 |
CN108694176A (zh) * | 2017-04-06 | 2018-10-23 | 北京京东尚科信息技术有限公司 | 文档情感分析的方法、装置、电子设备和可读存储介质 |
CN108694176B (zh) * | 2017-04-06 | 2021-05-25 | 北京京东尚科信息技术有限公司 | 文档情感分析的方法、装置、电子设备和可读存储介质 |
CN107168945B (zh) * | 2017-04-13 | 2020-07-14 | 广东工业大学 | 一种融合多特征的双向循环神经网络细粒度意见挖掘方法 |
CN107168945A (zh) * | 2017-04-13 | 2017-09-15 | 广东工业大学 | 一种融合多特征的双向循环神经网络细粒度意见挖掘方法 |
CN107066585A (zh) * | 2017-04-17 | 2017-08-18 | 济南大学 | 一种概率主题计算与匹配的舆情监测方法及系统 |
CN107066585B (zh) * | 2017-04-17 | 2019-10-01 | 济南大学 | 一种概率主题计算与匹配的舆情监测方法及系统 |
CN107357785A (zh) * | 2017-07-05 | 2017-11-17 | 浙江工商大学 | 主题特征词抽取方法及系统、情感极性判断方法及系统 |
CN107391483A (zh) * | 2017-07-13 | 2017-11-24 | 武汉大学 | 一种基于卷积神经网络的商品评论数据情感分类方法 |
CN107633007B (zh) * | 2017-08-09 | 2021-09-28 | 五邑大学 | 一种基于层次化ap聚类的商品评论数据标签化系统和方法 |
CN107633007A (zh) * | 2017-08-09 | 2018-01-26 | 五邑大学 | 一种基于层次化ap聚类的商品评论数据标签化系统和方法 |
CN107943790A (zh) * | 2017-11-23 | 2018-04-20 | 中译语通科技股份有限公司 | 一种基于最大熵模型和tf‑idf特征的情感分析方法 |
CN107862343B (zh) * | 2017-11-28 | 2021-07-13 | 南京理工大学 | 基于规则和神经网络的商品评论属性级情感分类方法 |
CN107943966A (zh) * | 2017-11-28 | 2018-04-20 | 合肥工业大学 | 基于微博文本的异常个性判定方法及装置 |
CN108009297A (zh) * | 2017-12-27 | 2018-05-08 | 广州市云润大数据服务有限公司 | 基于自然语言处理的文本情感分析方法与系统 |
CN108009297B (zh) * | 2017-12-27 | 2020-09-04 | 云润大数据服务有限公司 | 基于自然语言处理的文本情感分析方法与系统 |
CN108038627B (zh) * | 2017-12-27 | 2022-06-07 | 科大讯飞股份有限公司 | 一种对象评估方法及装置 |
CN108038627A (zh) * | 2017-12-27 | 2018-05-15 | 科大讯飞股份有限公司 | 一种对象评估方法及装置 |
CN108269169A (zh) * | 2017-12-29 | 2018-07-10 | 武汉璞华大数据技术有限公司 | 一种导购方法及系统 |
CN108256016A (zh) * | 2018-01-08 | 2018-07-06 | 合肥工业大学 | 基于个人微博的个人异常情绪检测方法及装置 |
CN108170827A (zh) * | 2018-01-08 | 2018-06-15 | 合肥工业大学 | 基于微博数据的个人性格建模方法及装置 |
CN108388608B (zh) * | 2018-02-06 | 2020-08-04 | 金蝶软件(中国)有限公司 | 基于文本感知的情感反馈方法、装置、计算机设备和存储介质 |
CN108388608A (zh) * | 2018-02-06 | 2018-08-10 | 金蝶软件(中国)有限公司 | 基于文本感知的情感反馈方法、装置、计算机设备和存储介质 |
CN108763390A (zh) * | 2018-05-18 | 2018-11-06 | 浙江新能量科技股份有限公司 | 基于滑动窗口技术的细粒度主题提取方法 |
CN109271512A (zh) * | 2018-08-29 | 2019-01-25 | 中国平安保险(集团)股份有限公司 | 舆情评论信息的情感分析方法、装置及存储介质 |
CN109271512B (zh) * | 2018-08-29 | 2023-11-24 | 中国平安保险(集团)股份有限公司 | 舆情评论信息的情感分析方法、装置及存储介质 |
CN109190121A (zh) * | 2018-09-03 | 2019-01-11 | 重庆工商大学 | 基于汽车本体和词性规则的汽车评论情感分析方法 |
CN109446341A (zh) * | 2018-10-23 | 2019-03-08 | 国家电网公司 | 知识图谱的构建方法及装置 |
CN109635108A (zh) * | 2018-11-22 | 2019-04-16 | 华东师范大学 | 一种基于人机交互的远程监督实体关系抽取方法 |
CN109671487A (zh) * | 2019-02-25 | 2019-04-23 | 上海海事大学 | 一种社交媒体用户心理危机预警方法 |
CN110069780B (zh) * | 2019-04-19 | 2021-11-19 | 中译语通科技股份有限公司 | 一种基于特定领域文本的情感词识别方法 |
CN110069780A (zh) * | 2019-04-19 | 2019-07-30 | 中译语通科技股份有限公司 | 一种基于特定领域文本的情感词识别方法和系统 |
CN110096618A (zh) * | 2019-05-10 | 2019-08-06 | 北京友普信息技术有限公司 | 一种基于分维度情感分析的电影推荐方法 |
CN110096618B (zh) * | 2019-05-10 | 2021-06-15 | 北京友普信息技术有限公司 | 一种基于分维度情感分析的电影推荐方法 |
CN110866087B (zh) * | 2019-08-12 | 2023-11-17 | 上海大学 | 一种基于主题模型的面向实体的文本情感分析方法 |
CN110866087A (zh) * | 2019-08-12 | 2020-03-06 | 上海大学 | 一种基于主题模型的面向实体的文本情感分析方法 |
CN111259661A (zh) * | 2020-02-11 | 2020-06-09 | 安徽理工大学 | 一种基于商品评论的新情感词提取方法 |
CN111597304A (zh) * | 2020-05-15 | 2020-08-28 | 上海财经大学 | 一种中文企业名实体精准识别二次匹配方法 |
CN111597304B (zh) * | 2020-05-15 | 2023-04-07 | 上海财经大学 | 一种中文企业名实体精准识别二次匹配方法 |
CN112417858A (zh) * | 2020-11-23 | 2021-02-26 | 北京明略昭辉科技有限公司 | 一种实体权重评分方法、系统、电子设备及存储介质 |
CN112802575A (zh) * | 2021-04-10 | 2021-05-14 | 浙江大学 | 基于图形状态机的用药决策支持方法、装置、设备、介质 |
CN113535891A (zh) * | 2021-06-07 | 2021-10-22 | 广东东华发思特软件有限公司 | 互联网短文本主题特征与情感倾向分析方法、系统及介质 |
WO2022267454A1 (zh) * | 2021-06-24 | 2022-12-29 | 平安科技(深圳)有限公司 | 分析文本的方法、装置、设备及存储介质 |
CN113343714B (zh) * | 2021-07-02 | 2022-06-07 | 马上消费金融股份有限公司 | 信息提取方法、模型训练方法及相关设备 |
CN113343714A (zh) * | 2021-07-02 | 2021-09-03 | 马上消费金融股份有限公司 | 信息提取方法、模型训练方法及相关设备 |
CN113792118A (zh) * | 2021-09-08 | 2021-12-14 | 浙江力石科技股份有限公司 | 基于景区评价的满意度提升系统和方法 |
CN114429109A (zh) * | 2022-04-06 | 2022-05-03 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于评论有用性的自动用户评论摘要的方法 |
CN114429109B (zh) * | 2022-04-06 | 2022-07-19 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于评论有用性的用户评论摘要的方法 |
CN115392199A (zh) * | 2022-08-22 | 2022-11-25 | 再惠(上海)网络科技有限公司 | 评价分析和报告生成的方法、装置、电子设备及存储介质 |
CN115392199B (zh) * | 2022-08-22 | 2023-08-04 | 再惠(上海)网络科技有限公司 | 评价分析和报告生成的方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN104268197B (zh) | 2017-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104268197A (zh) | 一种行业评论数据细粒度情感分析方法 | |
Swathi et al. | An optimal deep learning-based LSTM for stock price prediction using twitter sentiment analysis | |
Luo et al. | Incorporating glosses into neural word sense disambiguation | |
CN110929034A (zh) | 一种基于改进lstm的商品评论细粒度情感分类方法 | |
CN100353361C (zh) | 一种新的面向文本分类的特征向量权重的方法及装置 | |
CN101782898A (zh) | 一种情感词倾向性的分析方法 | |
CN105512687A (zh) | 训练情感分类模型和文本情感极性分析的方法及系统 | |
CN103544242A (zh) | 面向微博的情感实体搜索系统 | |
CN104572797A (zh) | 基于主题模型的个性化服务推荐系统和方法 | |
CN103049435A (zh) | 文本细粒度情感分析方法及装置 | |
CN105975475A (zh) | 基于中文短语串的细粒度主题信息抽取方法 | |
CN105608166A (zh) | 一种标签提取方法及装置 | |
CN111767725A (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN108388554A (zh) | 基于协同过滤注意力机制的文本情感识别系统 | |
Sadr et al. | Unified topic-based semantic models: a study in computing the semantic relatedness of geographic terms | |
CN112069312B (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN103869998A (zh) | 一种对输入法所产生的候选项进行排序的方法及装置 | |
Zhao et al. | Sentiment analysis on the online reviews based on hidden Markov model | |
CN105095430A (zh) | 构建词语网络及抽取关键词的方法和装置 | |
CN109446423A (zh) | 一种新闻以及文本的情感判断系统及方法 | |
Kurniawan et al. | Indonesian twitter sentiment analysis using Word2Vec | |
CN107015965A (zh) | 一种中文文本情感分析装置及方法 | |
CN104881399A (zh) | 基于概率软逻辑psl的事件识别方法和系统 | |
Sharupa et al. | Emotion detection of Twitter post using multinomial Naive Bayes | |
Fu et al. | Improving distributed word representation and topic model by word-topic mixture model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20180523 Address after: 100190 Room 502, 5 Building 4 South four street, Haidian District, Beijing, Zhongguancun. Patentee after: Zhong kjia speed (Beijing) Information Technology Co., Ltd. Address before: 100190 South four street, Zhongguancun, Haidian District, Beijing, 4 Patentee before: SINOPARADOFT (BEIJING) PARALLEL SOFTWARE CO., LTD. |
|
TR01 | Transfer of patent right |