CN109063096A - 一种快速训练泰文情感分析模型的方法 - Google Patents

一种快速训练泰文情感分析模型的方法 Download PDF

Info

Publication number
CN109063096A
CN109063096A CN201810841591.3A CN201810841591A CN109063096A CN 109063096 A CN109063096 A CN 109063096A CN 201810841591 A CN201810841591 A CN 201810841591A CN 109063096 A CN109063096 A CN 109063096A
Authority
CN
China
Prior art keywords
comment
thai language
trained
sentiment analysis
quick
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810841591.3A
Other languages
English (en)
Inventor
吴杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Digital Peak Technology Co Ltd
Chengdu Rui Code Technology Co Ltd
Original Assignee
Hangzhou Digital Peak Technology Co Ltd
Chengdu Rui Code Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Digital Peak Technology Co Ltd, Chengdu Rui Code Technology Co Ltd filed Critical Hangzhou Digital Peak Technology Co Ltd
Priority to CN201810841591.3A priority Critical patent/CN109063096A/zh
Publication of CN109063096A publication Critical patent/CN109063096A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种快速训练泰文情感分析模型的方法,本发明通过将评论分为两类减少了人工标注样本的工作量,缩短了开发周期,降低了开发成本;本发明利用海量数据对不熟悉的泰文进行快速建立泰文情感分析能力,本发明可以对泰文电商网站的评论进行快速情感分类,从而高效率从大量评论数据中直接分析出各评论所针对的产品的特征,以及用户对该产品的情感倾向,具有较好的实用性。

Description

一种快速训练泰文情感分析模型的方法
技术领域
本发明属于情感分析模型训练的技术领域,具体涉及一种快速训练泰文情感分析模型的方法。
背景技术
伴随着互联网的普及,电子消费在近几年成为了广大网民的互联网活动中颇为重要的一个方面。消费者们享受着互联网带来的便利,在通过网络消费的同时,他们也留下了数量众多的评论信息。这些评论信息中主要包含了消费者对所选商品或服务的评价与看法,对于商家和其他的消费者均有重要的参考价值。电商们通过消费者的反馈信息可以进一步地完善自己的服务,提高商品质量;其他消费者也可以在无法亲自接触实物商品的情况下根据其他顾客的反馈与评价做出自己的选择。但是,若要人工地阅读所有的评论信息,再而进一步地从中总结出对于特定商品的量化评价是非常困难的,尤其对于一些热门商品常常拥有成千上万条评论。目前常用的处理方法是采用计算机应用对大数据进行智能分析。
传统上训练情感分析有两种,监督学习和无监督学习。无监督学习对服务器要求较高,非常耗时。监督学习是人工智能领域中机器学习的一大分支,另外的分支是无监督学习和半监督学习。其中监督学习是目前最成熟的,监督学习训练速度较快,但是标注样本耗时很长。监督学习的特征是,先人工标注样本,样本的数量越大,通常学习的效果越好,因此在整个监督学习方案中,人工标注样本是最花时间,成本最高的地方。专利申请号为201510907394.3、申请日为2015.12.10的中国发明专利公开了一种有监督学习的产品评论分析方法及系统的技术方案,但是监督学习的标注量较大,成为了数据处理的负担。
随着我国经济的发展,国际贸易快速发展,跨国网购成为了热潮,尤其周边国家的代购成为了人们追捧的对象。泰国的地理位置决定的地方性产品受到大家的喜爱,泰文的网购网站也随之发展,针对泰国网站的购物评论成为了产品好坏的重要指标。然而,针对泰文网站的评论的情感分析的方法还没有公开。
发明内容
本发明的目的在于提供一种快速训练泰文情感分析模型的方法,本发明通过将评论分为两类减少了人工标注样本的工作量,缩短了开发周期,降低了开发成本;本发明利用海量数据对不熟悉的泰文进行快速建立泰文情感分析能力,本发明可以对泰文电商网站的评论进行快速情感分类,从而高效率从大量评论数据中直接分析出各评论所针对的产品的特征,以及用户对该产品的情感倾向,具有较好的实用性。
本发明主要通过以下技术方案实现:一种快速训练泰文情感分析模型的方法,主要包括以下步骤:
步骤S101:使用爬虫工具抓取泰文电商网站的评论,并将评论分为两类,其中好评的数据为一类,中评和差评的数据为一类;
步骤S102:采用泰文分词工具对泰文进行分词,所述泰文分词工具使用开源项目PyThaiNLP,然后使用N-gram计算词向量,使用N-gram规则将分词后的语料转换为词向量;
步骤S103:用卷积神经网络建模,并将词向量作为输入,经训练输出卷积结果;将卷积结果进行最大池化;经过多次卷积-池化循环,最后使用逻辑回归函数将池化结果分类,得到正向值和负向值,模型训练完成。
所述泰文分词工具使用开源项目PyThaiNLP,其余泰文分词工具还有开源项目Cutkum, SWATH。在泰文分词工具中,PyThaiNLP功能最全面。
泰文属于东亚语系/汉藏语系,和汉语比,只是语法顺序有区别。因此可借鉴中文情感分析的方式来进行训练情感分析模型。本发明的优势:1.传统上使用监督机器学习方式来进行情感分析训练,需要人工标注样本,工作量巨大。本发明使用爬虫技术搜集公开电商评论资源,免去了样本标注工作。
为了更好的实现本发明,进一步的,所述步骤S101中所述泰文电商网站为主流的大型泰文电商网站。
为了更好的实现本发明,进一步的,所述步骤S102中,在分词的过程中去掉标点符号、数字英文字符以及停用词和语气助词。
为了更好的实现本发明,进一步的,所述S103中卷积神经网络包含输入层、卷积层、池化层、全连接层四个部分;输入层将评论数据的向量输入到卷积神经网络中,并与下一层相连,其中输入层的数据是二维的评论特征矩阵,评论特征矩阵的每一行为评论的特征向量,评论特征矩阵的行数等于评论的条数,文本特征矩阵的列数等于单词的词向量的长度;池化层从卷积层中得到的feature-map中提取最关键的特征,起到一个信息过滤的作用,且经过池化层处理后,feature-map的尺寸减小,起到了参数约减的作用,降低了模型的训练难度;全连接层将经过卷积和池化步骤后得到的二维的feature-map变形为一维的向量,便于后续输入得到支持向量机分类器中,做情感分类操作。
为了更好的实现本发明,进一步的,所述S103中将卷积结果进行最大池化是在给定的池化窗口中选取元素值最大的那个作为下一层对应位置的特征。
我们的方案是抓取泰文电商网站的评论数据,电商网站的评论特性是,电商网站的评论除了有评论文字外,还有好评,中评和差评的评价数据,因此我们可以直接利用程序把差评和中评对应的文字标注为负面倾向,好评的文字标注为正面倾向。所以说,减少了人工标注样本的时间,缩短了开发周期,降低了开发成本。
我们的专利的特点是,可以在自身对泰文不熟悉的情况下,依然可以快速获得泰文情感分析能力,因为海量数据的关系,我们能得到较高的精度。另一创新之处是,指出了汉藏语系的文字均可利用本专利的方案来快速习得其情感分析的能力。
本方案主要包括以下步骤:
1.首先我们找到一个主流泰文电商网站,比如WeLoveShopping,他的网址为https://www.weloveshopping.com,其有较多评论,将网站上的评论分为好评、中评和差评三类。
2.自建爬虫工具或者使用第三方爬虫工具将整个网站的评论抓取下来,数量级将在百万乃至千万以上。
3.将抓取的数据分成两类,好评是一类,中评和差评是一类。中评和差评都是对所购物品不同程度的不满意,故合并为一类。
4.泰文和中文语法类似,故考虑使用泰文分词工具,将泰文评论进行分词。使用N-gram规则,将分词后的语料转换为词向量。
5.以卷积神经网络建模,并将词向量作为输入。经训练输出卷积结果。将卷积结果进行最大池化。卷积-池化可循环多次,最后将池化结果使用逻辑回归函数进行分类,输出二分类得到正向值和负向值。模型训练完成。
本发明的有益效果:
(1)使用爬虫工具抓取泰文电商网站的评论,并将评论分为两类,其中好评的数据为一类,中评和差评的数据为一类。本发明通过将评论分为两类减少了人工标注样本的工作量,缩短了开发周期,降低了开发成本;本发明利用海量数据对不熟悉的泰文进行快速建立泰文情感分析能力,本发明可以对泰文电商网站的评论进行快速情感分类,从而高效率从大量评论数据中直接分析出各评论所针对的产品的特征,以及用户对该产品的情感倾向,具有较好的实用性。
(2)所述步骤S101中所述泰文电商网站为主流的大型泰文电商网站。通过数据的丰富性和可靠性,从而提高情感分析模型的可靠性。
附图说明
图1为本发明的原理流程图。
具体实施方式
实施例1:
一种快速训练泰文情感分析模型的方法,如图1所示,主要包括以下步骤:
步骤S101:使用爬虫工具抓取泰文电商网站的评论,并将评论分为两类,其中好评的数据为一类,中评和差评的数据为一类;
步骤S102:步骤S102:采用泰文分词工具对泰文进行分词,所述泰文分词工具使用开源项目PyThaiNLP,然后使用N-gram计算词向量,使用N-gram规则将分词后的语料转换为词向量;
步骤S103:用卷积神经网络建模,并将词向量作为输入,经训练输出卷积结果;将卷积结果进行最大池化;经过多次卷积-池化循环,最后使用逻辑回归函数将池化结果分类,得到正向值和负向值,模型训练完成。
本发明通过将评论分为两类减少了人工标注样本的工作量,缩短了开发周期,降低了开发成本;本发明利用海量数据对不熟悉的泰文进行快速建立泰文情感分析能力,本发明可以对泰文电商网站的评论进行快速情感分类,从而高效率从大量评论数据中直接分析出各评论所针对的产品的特征,以及用户对该产品的情感倾向,具有较好的实用性。
实施例2:
本实施例是在实施例1的基础上进一步优化,所述步骤S101中所述泰文电商网站为主流的大型泰文电商网站。所述步骤S102中,在分词的过程中去掉标点符号、数字英文字符以及停用词和语气助词。
所述S103中卷积神经网络包含输入层、卷积层、池化层、全连接层四个部分;输入层将评论数据的向量输入到卷积神经网络中,并与下一层相连,其中输入层的数据是二维的评论特征矩阵,评论特征矩阵的每一行为评论的特征向量,评论特征矩阵的行数等于评论的条数,文本特征矩阵的列数等于单词的词向量的长度;池化层从卷积层中得到的feature-map中提取最关键的特征,起到一个信息过滤的作用,且经过池化层处理后,feature-map的尺寸减小,起到了参数约减的作用,降低了模型的训练难度;全连接层将经过卷积和池化步骤后得到的二维的feature-map变形为一维的向量,便于后续输入得到支持向量机分类器中,做情感分类操作。所述S103中将卷积结果进行最大池化是在给定的池化窗口中选取元素值最大的那个作为下一层对应位置的特征。
所述步骤S101中所述泰文电商网站为主流的大型泰文电商网站。通过数据的丰富性和可靠性,从而提高情感分析模型的可靠性。本发明通过将评论分为两类减少了人工标注样本的工作量,缩短了开发周期,降低了开发成本;本发明利用海量数据对不熟悉的泰文进行快速建立泰文情感分析能力,本发明可以对泰文电商网站的评论进行快速情感分类,从而高效率从大量评论数据中直接分析出各评论所针对的产品的特征,以及用户对该产品的情感倾向,具有较好的实用性。
本实施例的其他部分与实施例1相同,故不再赘述。
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。

Claims (5)

1.一种快速训练泰文情感分析模型的方法,其特征在于,主要包括以下步骤:
步骤S101:使用爬虫工具抓取泰文电商网站的评论,并将评论分为两类,其中好评的数据为一类,中评和差评的数据为一类;
步骤S102:采用泰文分词工具对泰文进行分词,所述泰文分词工具使用开源项目PyThaiNLP,然后使用N-gram计算词向量,使用N-gram规则将分词后的语料转换为词向量;
步骤S103:用卷积神经网络建模,并将词向量作为输入,经训练输出卷积结果;将卷积结果进行最大池化;经过多次卷积-池化循环,最后使用逻辑回归函数将池化结果分类,得到正向值和负向值,模型训练完成。
2.根据权利要求1所述的一种快速训练泰文情感分析模型的方法,其特征在于,所述步骤S101中所述泰文电商网站为主流的大型泰文电商网站。
3.根据权利要求2所述的一种快速训练泰文情感分析模型的方法,其特征在于,所述步骤S102中,在分词的过程中去掉标点符号、数字英文字符以及停用词和语气助词。
4.根据权利要求1或3所述的一种快速训练泰文情感分析模型的方法,其特征在于,所述S103中卷积神经网络包含输入层、卷积层、池化层、全连接层四个部分;输入层将评论数据的向量输入到卷积神经网络中,并与下一层相连,其中输入层的数据是二维的评论特征矩阵,评论特征矩阵的每一行为评论的特征向量,评论特征矩阵的行数等于评论的条数,文本特征矩阵的列数等于单词的词向量的长度;池化层从卷积层中得到的feature-map中提取最关键的特征,起到一个信息过滤的作用,且经过池化层处理后,feature-map的尺寸减小,起到了参数约减的作用,降低了模型的训练难度;全连接层将经过卷积和池化步骤后得到的二维的feature-map变形为一维的向量,便于后续输入得到支持向量机分类器中,做情感分类操作。
5.根据权利要求4所述的一种快速训练泰文情感分析模型的方法,其特征在于,所述S103中将卷积结果进行最大池化是在给定的池化窗口中选取元素值最大的那个作为下一层对应位置的特征。
CN201810841591.3A 2018-07-27 2018-07-27 一种快速训练泰文情感分析模型的方法 Pending CN109063096A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810841591.3A CN109063096A (zh) 2018-07-27 2018-07-27 一种快速训练泰文情感分析模型的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810841591.3A CN109063096A (zh) 2018-07-27 2018-07-27 一种快速训练泰文情感分析模型的方法

Publications (1)

Publication Number Publication Date
CN109063096A true CN109063096A (zh) 2018-12-21

Family

ID=64836705

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810841591.3A Pending CN109063096A (zh) 2018-07-27 2018-07-27 一种快速训练泰文情感分析模型的方法

Country Status (1)

Country Link
CN (1) CN109063096A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111966944A (zh) * 2020-08-17 2020-11-20 中电科大数据研究院有限公司 一种多层级用户评论安全审核的模型构建方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138548A (zh) * 2015-07-13 2015-12-09 广西达译商务服务有限责任公司 汉泰双语平行语料自动采集的系统及实现方法
CN106874410A (zh) * 2017-01-22 2017-06-20 清华大学 基于卷积神经网络的中文微博文本情绪分类方法及其系统
CN107391483A (zh) * 2017-07-13 2017-11-24 武汉大学 一种基于卷积神经网络的商品评论数据情感分类方法
US20180060302A1 (en) * 2016-08-24 2018-03-01 Microsoft Technology Licensing, Llc Characteristic-pattern analysis of text

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138548A (zh) * 2015-07-13 2015-12-09 广西达译商务服务有限责任公司 汉泰双语平行语料自动采集的系统及实现方法
US20180060302A1 (en) * 2016-08-24 2018-03-01 Microsoft Technology Licensing, Llc Characteristic-pattern analysis of text
CN106874410A (zh) * 2017-01-22 2017-06-20 清华大学 基于卷积神经网络的中文微博文本情绪分类方法及其系统
CN107391483A (zh) * 2017-07-13 2017-11-24 武汉大学 一种基于卷积神经网络的商品评论数据情感分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
洪玄贵(WUTTHITHANAKON WUTTHIPONG): "泰语句子相似度计算研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111966944A (zh) * 2020-08-17 2020-11-20 中电科大数据研究院有限公司 一种多层级用户评论安全审核的模型构建方法
CN111966944B (zh) * 2020-08-17 2024-04-09 中电科大数据研究院有限公司 一种多层级用户评论安全审核的模型构建方法

Similar Documents

Publication Publication Date Title
Mahtab et al. Sentiment analysis on bangladesh cricket with support vector machine
Stojanovski et al. Twitter sentiment analysis using deep convolutional neural network
Venugopalan et al. Exploring sentiment analysis on twitter data
CN107862343A (zh) 基于规则和神经网络的商品评论属性级情感分类方法
CN108363725B (zh) 一种用户评论观点提取和观点标签生成的方法
CN107391483A (zh) 一种基于卷积神经网络的商品评论数据情感分类方法
Zhang et al. Building emotional conversation systems using multi-task Seq2Seq learning
CN107357793A (zh) 信息推荐方法和装置
CN108388660A (zh) 一种改进的电商产品痛点分析方法
Dragoni A three-phase approach for exploiting opinion mining in computational advertising
CN105740382A (zh) 一种对短评论文本进行方面分类方法
CN107885785A (zh) 文本情感分析方法和装置
Zhao et al. Sentiment analysis on the online reviews based on hidden Markov model
CN110489553A (zh) 一种基于多源信息融合的情感分类方法
CN109145090B (zh) 一种基于深度学习的微博用户情感影响力分析方法
Alkalbani et al. Sentiment analysis and classification for software as a service reviews
CN106055633A (zh) 一种中文微博主客观句分类方法
Sharma et al. Twitter sentiment analysis for brand reputation of smart phone companies in India
Tang et al. Evaluation of Chinese sentiment analysis APIs based on online reviews
Hassan et al. Sentimental analysis of Amazon reviews using naïve bayes on laptop products with MongoDB and R
Habbat et al. LSTM-CNN deep learning model for french online product reviews classification
Yamada et al. A text mining approach for automatic modeling of Kansei evaluation from review texts
CN110069686A (zh) 用户行为分析方法、装置、计算机装置及存储介质
Song et al. Extracting product features from online reviews for sentimental analysis
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181221