CN105740382A - 一种对短评论文本进行方面分类方法 - Google Patents
一种对短评论文本进行方面分类方法 Download PDFInfo
- Publication number
- CN105740382A CN105740382A CN201610056103.9A CN201610056103A CN105740382A CN 105740382 A CN105740382 A CN 105740382A CN 201610056103 A CN201610056103 A CN 201610056103A CN 105740382 A CN105740382 A CN 105740382A
- Authority
- CN
- China
- Prior art keywords
- short
- comment text
- comment
- short comment
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Abstract
本发明提供一种对短评论文本进行方面分类方法,该方法包括以下步骤:S1:对短评论文本集进行预处理,得到短评论文本集中各个词的词向量;S2:利用短评论文本集中各个词的词向量来计算方面类别相关的标准词向量,并计算各个短评论文本的特征;S3:计算各个短评论文本评论对象实体的特征;S4:根据各个短评论文本的特征及其评论对象实体的特征来训练分类器来进行短评论文本方面分类。该方法分类结果由评论实体和实体属性组成,将评论对象实体的特征单独提取作为最终输入特征的一部分,有效的提升了分类的精确度,也更符合实际分类中的思想,使结果更具可解释性。
Description
技术领域
本发明涉及自然语言处理领域,更具体地,涉及一种基于神经网络的对短评论文本进行方面分类方法。
背景技术
互联网已成为人们表达观点,获取信息不可或缺的一种途径。网上出现各种大量的短文本资源,如购物评论,微博消息等。通过对商品评论进行情感分析,进行商品市场反馈分析,对商家和消费者都有重要意义。然而一句话往往不只包含一种情感,评价对象经常会被细分为多种属性,传统的粗粒度的情感分析已不能满足需求,这就需要更细粒度的识别才能有效实现情感分析。在对评价方面这一粒度的情感分析中,主要包括方面分类和情感分析两部分,其中一个重要的任务就是对评价方面的分类,通过研究发现方面类别均由评论实体和实体属性两部分组成。例如:在餐馆的评论中,我们需要区分出食物的质量、食物的价格、餐馆的环境等等因素,其中,食物、餐馆为评论实体,质量、价格、环境为实体属性。然而,在面对海量的评论数据时,一方面,人工标注方面类别的方法会耗费大量的人力和时间。另一方面,现有的基于特征工程的方法随着情感力度的细化和分类类别的增加,有效性大大降低。
现有基于特征工程的技术实施分类的有效性有限,原因如下:
1、特征表示大多是基于基本的词性或统计特征,不能很好地体现高层语义关系;
2、需要设计大量的特征,实施起来比较繁琐。
因此,需要一种可以自动学习的,能够用于表达高层语义特征的方法进行方面监测的工作。
发明内容
本发明提供一种基于神经网络的对短评论文本进行方面分类方法,该方法设计简单、有效性较高。
为了达到上述技术效果,本发明的技术方案如下:
一种对短评论文本进行方面分类方法,包括以下步骤:
S1:对短评论文本集进行预处理,得到短评论文本集中各个词的词向量;
S2:利用短评论文本集中各个词的词向量来计算方面类别相关的标准词向量,并计算各个短评论文本的特征;
S3:计算各个短评论文本评论对象实体的特征;
S4:根据各个短评论文本的特征及其评论对象实体的特征来训练分类器来进行短评论文本方面分类。
进一步地,所述步骤S3中采用前馈型神经网络模型来计算各个短评论文本评论对象实体的特征。
进一步地,所述短评论文本包括餐馆、数码产品的评论数据集,所述短评论文本所属方面分类由评论对象实体和评论对象的属性构成。
进一步地,对短评论文本集进行预处理的过程包括对短评论文本的分词、去停词,并对不在词典中的词向量进行随机初始化。其中,词典词向量由开源项目word2vec以及领域相关的语料库训练得到。
进一步地,所述标准词向量为方面类别关键词的词向量平均值。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出的是一个解决短文本方面分类的方法,其中分类结果由评论实体和实体属性组成,将评论对象实体的特征单独提取作为最终输入特征的一部分,有效的提升了分类的精确度,也更符合实际分类中的思想,使结果更具可解释性。
附图说明
图1是本发明分类方法流程图;
图2是基于关键字的评论文本特征生成过程示意图;
图3是自动提取实体特征示意图;
图4是最终的分类器模型示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
一般认为分类类别包括评论实体和实体属性,对于每一条短评论,都可以同时属于多个类别。
形式上,假设短评论文本集合为E,其实体属性集合为A,由E和A组成的实体属性对,也就是最终的分类类别集合为A={a1,a2,a3,...,aN},共有N种可能的组合。短评论文本集D={r1,r2,r3,...,rK}共有K条。对于每一条,需要预测的输出结果为向量y={y1,y2,y3,...,yN},其中每个元素yi表示这句话描述内容是否属于该类,yi=1表示属于此类,yi=0则不属于。即在训练集S上进行学习,学习的结果是输出一个分类器C:S->2N。
根据图1所示的分类流程图,可以将分类过程分为以下4部分:
1、预处理
预处理包括对短评论文本的分词,去停词,对不在词典中的词向量进行随机初始化。使用word2vec和相关领域的语料库进行词向量学习,得到词向量词典。
2、短评论文本特征
在提取关键字时,名词和形容词更能表现与类别相关的语义。选取只属于某一类的评论,在该评论下选出所有名词和形容词作为该类别的关键词。
将各个方面类别下的关键词求平均得到标准词向量。
在求评论文本特征时,使用如图2所示方法,将标准词向量与评论文本中各个词的词向量相似度作为权值,将评论文本中所有此进行加权平均,得到关于特定类别的评论文本特征。
3、短评论实体的特征
在自动提取实体特征时,看作是对评论实体的分类问题,如图3所示,训练一个关于评论实体的多分类神经网络模型。模型训练使用后向传播算法,损失函数如下:
取模型的隐藏层作为该评论下的实体特征。
4、训练生成分类器
最终训练生成N个神经网络分类器。如图4所示,对于某个方面类别的分类器,输入由短评论实体特征和该方面类别下的短评论文本特征共同组成。模型训练使用后向传播算法,损失函数如下:
L2=-yi·logσ(Oi)-(1-yi)log[1-σ(Oi)],i∈[1,N],其中,Oi为神经网络输出值。
本发明方法通过关键词提取找出各个词的权重,对短评论中各个词做加权平均,从而对使预测的分类结果更加准确。其中,分类结果由短评论实体和实体属性组成,通过观察,我们发现在人工标注类别时会首先确定实体,然后决定短评论实体的属性。将短评论对象实体特征单独提取作为最终输入特征的一部分,有效的提升了分类的精确度。也更符合实际分类中的思想,使结果更具可解释性。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (5)
1.一种对短评论文本进行方面分类方法,其特征在于,包括以下步骤:
S1:对短评论文本集进行预处理,得到短评论文本集中各个词的词向量;
S2:利用短评论文本集中各个词的词向量来计算方面类别相关的标准词向量,并计算各个短评论文本的特征;
S3:计算各个短评论文本评论对象实体的特征;
S4:根据各个短评论文本的特征及其评论对象实体的特征来训练分类器来进行短评论文本方面分类。
2.根据权利要求1所述的对短评论文本进行方面分类方法,其特征在于,所述步骤S3中采用前馈型神经网络模型来计算各个短评论文本评论对象实体的特征。
3.根据权利要求1所述的对短评论文本进行方面分类方法,其特征在于,所述短评论文本包括餐馆、数码产品的评论数据集,所述短评论文本所属方面分类由评论对象实体和评论对象的属性构成。
4.根据权利要求1所述的对短评论文本进行方面分类方法,其特征在于,对短评论文本集进行预处理的过程包括对短评论文本的分词、去停词,并对不在词典中的词向量进行随机初始化。
5.根据权利要求1所述的对短评论文本进行方面分类方法,其特征在于,所述标准词向量为方面类别关键词的词向量平均值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610056103.9A CN105740382A (zh) | 2016-01-27 | 2016-01-27 | 一种对短评论文本进行方面分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610056103.9A CN105740382A (zh) | 2016-01-27 | 2016-01-27 | 一种对短评论文本进行方面分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105740382A true CN105740382A (zh) | 2016-07-06 |
Family
ID=56247775
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610056103.9A Pending CN105740382A (zh) | 2016-01-27 | 2016-01-27 | 一种对短评论文本进行方面分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105740382A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108228758A (zh) * | 2017-12-22 | 2018-06-29 | 北京奇艺世纪科技有限公司 | 一种文本分类方法及装置 |
CN108335110A (zh) * | 2017-01-17 | 2018-07-27 | 阿里巴巴集团控股有限公司 | 聊天信息处理方法及装置 |
CN108628868A (zh) * | 2017-03-16 | 2018-10-09 | 北京京东尚科信息技术有限公司 | 文本分类方法和装置 |
CN109614475A (zh) * | 2018-12-07 | 2019-04-12 | 广东工业大学 | 一种基于深度学习的产品特征确定方法 |
CN110019822A (zh) * | 2019-04-16 | 2019-07-16 | 中国科学技术大学 | 一种少样本关系分类方法及系统 |
CN111506726A (zh) * | 2020-03-18 | 2020-08-07 | 大箴(杭州)科技有限公司 | 基于词性编码的短文本聚类方法、装置及计算机设备 |
CN111639483A (zh) * | 2019-02-14 | 2020-09-08 | 顺丰科技有限公司 | 一种评价方面确定方法和装置 |
CN111966888A (zh) * | 2019-05-20 | 2020-11-20 | 南京大学 | 融合外部数据的基于方面类别的可解释性推荐方法及系统 |
CN112115715A (zh) * | 2020-09-04 | 2020-12-22 | 北京嘀嘀无限科技发展有限公司 | 自然语言文本处理方法、装置、存储介质和电子设备 |
CN112241453A (zh) * | 2020-10-20 | 2021-01-19 | 虎博网络技术(上海)有限公司 | 情感属性确定方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7756535B1 (en) * | 2006-07-07 | 2010-07-13 | Trend Micro Incorporated | Lightweight content filtering system for mobile phones |
CN102262632A (zh) * | 2010-05-28 | 2011-11-30 | 国际商业机器公司 | 进行文本处理的方法和系统 |
CN104573046A (zh) * | 2015-01-20 | 2015-04-29 | 成都品果科技有限公司 | 一种基于词向量的评论分析方法及系统 |
CN104794212A (zh) * | 2015-04-27 | 2015-07-22 | 清华大学 | 基于用户评论文本的上下文情感分类方法及分类系统 |
-
2016
- 2016-01-27 CN CN201610056103.9A patent/CN105740382A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7756535B1 (en) * | 2006-07-07 | 2010-07-13 | Trend Micro Incorporated | Lightweight content filtering system for mobile phones |
CN102262632A (zh) * | 2010-05-28 | 2011-11-30 | 国际商业机器公司 | 进行文本处理的方法和系统 |
CN104573046A (zh) * | 2015-01-20 | 2015-04-29 | 成都品果科技有限公司 | 一种基于词向量的评论分析方法及系统 |
CN104794212A (zh) * | 2015-04-27 | 2015-07-22 | 清华大学 | 基于用户评论文本的上下文情感分类方法及分类系统 |
Non-Patent Citations (1)
Title |
---|
XINJIE ZHOU 等: "《Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence》", 9 February 2015 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108335110A (zh) * | 2017-01-17 | 2018-07-27 | 阿里巴巴集团控股有限公司 | 聊天信息处理方法及装置 |
CN108628868B (zh) * | 2017-03-16 | 2021-08-10 | 北京京东尚科信息技术有限公司 | 文本分类方法和装置 |
CN108628868A (zh) * | 2017-03-16 | 2018-10-09 | 北京京东尚科信息技术有限公司 | 文本分类方法和装置 |
CN108228758A (zh) * | 2017-12-22 | 2018-06-29 | 北京奇艺世纪科技有限公司 | 一种文本分类方法及装置 |
CN108228758B (zh) * | 2017-12-22 | 2020-09-01 | 北京奇艺世纪科技有限公司 | 一种文本分类方法及装置 |
CN109614475A (zh) * | 2018-12-07 | 2019-04-12 | 广东工业大学 | 一种基于深度学习的产品特征确定方法 |
CN111639483B (zh) * | 2019-02-14 | 2023-06-23 | 顺丰科技有限公司 | 一种评价方面确定方法和装置 |
CN111639483A (zh) * | 2019-02-14 | 2020-09-08 | 顺丰科技有限公司 | 一种评价方面确定方法和装置 |
CN110019822A (zh) * | 2019-04-16 | 2019-07-16 | 中国科学技术大学 | 一种少样本关系分类方法及系统 |
CN110019822B (zh) * | 2019-04-16 | 2021-07-06 | 中国科学技术大学 | 一种少样本关系分类方法及系统 |
CN111966888A (zh) * | 2019-05-20 | 2020-11-20 | 南京大学 | 融合外部数据的基于方面类别的可解释性推荐方法及系统 |
CN111966888B (zh) * | 2019-05-20 | 2023-12-15 | 南京大学 | 融合外部数据的基于方面类别的可解释性推荐方法及系统 |
CN111506726A (zh) * | 2020-03-18 | 2020-08-07 | 大箴(杭州)科技有限公司 | 基于词性编码的短文本聚类方法、装置及计算机设备 |
CN111506726B (zh) * | 2020-03-18 | 2023-09-22 | 大箴(杭州)科技有限公司 | 基于词性编码的短文本聚类方法、装置及计算机设备 |
CN112115715A (zh) * | 2020-09-04 | 2020-12-22 | 北京嘀嘀无限科技发展有限公司 | 自然语言文本处理方法、装置、存储介质和电子设备 |
CN112241453A (zh) * | 2020-10-20 | 2021-01-19 | 虎博网络技术(上海)有限公司 | 情感属性确定方法、装置及电子设备 |
CN112241453B (zh) * | 2020-10-20 | 2023-10-13 | 虎博网络技术(上海)有限公司 | 情感属性确定方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105740382A (zh) | 一种对短评论文本进行方面分类方法 | |
CN107133224B (zh) | 一种基于主题词的语言生成方法 | |
CN109829166B (zh) | 基于字符级卷积神经网络的民宿顾客意见挖掘方法 | |
Song et al. | Personalized sentiment classification based on latent individuality of microblog users | |
CN107862343A (zh) | 基于规则和神经网络的商品评论属性级情感分类方法 | |
CN110245229A (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
Sharma et al. | A document-level sentiment analysis approach using artificial neural network and sentiment lexicons | |
CN106445919A (zh) | 一种情感分类方法及装置 | |
CN105183833A (zh) | 一种基于用户模型的微博文本推荐方法及其推荐装置 | |
CN103064971A (zh) | 一种基于评分和中文情感分析的垃圾评论检测方法 | |
CN107885883A (zh) | 一种基于社会媒体的宏观经济领域情感分析方法及系统 | |
CN106202481A (zh) | 一种感知数据的评价方法和系统 | |
Rokade et al. | Business intelligence analytics using sentiment analysis-a survey | |
CN109522412A (zh) | 文本情感分析方法、装置及介质 | |
CN110134934A (zh) | 文本情感分析方法和装置 | |
CN107688870A (zh) | 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 | |
CN107818173B (zh) | 一种基于向量空间模型的中文虚假评论过滤方法 | |
CN108564429A (zh) | 一种基于深度学习的美食门店推荐方法 | |
Mozafari et al. | Emotion detection by using similarity techniques | |
Siddharth et al. | Sentiment analysis on twitter data using machine learning algorithms in python | |
Leopairote et al. | Software quality in use characteristic mining from customer reviews | |
CN115329085A (zh) | 一种社交机器人分类方法及系统 | |
CN111966888B (zh) | 融合外部数据的基于方面类别的可解释性推荐方法及系统 | |
Biswas et al. | Sentiment analysis on user reaction for online food delivery services using bert model | |
CN110209767A (zh) | 一种用户画像构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160706 |