CN109063096A

CN109063096A - 一种快速训练泰文情感分析模型的方法

Info

Publication number: CN109063096A
Application number: CN201810841591.3A
Authority: CN
Inventors: 吴杨
Original assignee: Hangzhou Digital Peak Technology Co Ltd; Chengdu Rui Code Technology Co Ltd
Current assignee: Hangzhou Digital Peak Technology Co Ltd; Chengdu Rui Code Technology Co Ltd
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2018-12-21

Abstract

本发明公开了一种快速训练泰文情感分析模型的方法，本发明通过将评论分为两类减少了人工标注样本的工作量，缩短了开发周期，降低了开发成本；本发明利用海量数据对不熟悉的泰文进行快速建立泰文情感分析能力，本发明可以对泰文电商网站的评论进行快速情感分类，从而高效率从大量评论数据中直接分析出各评论所针对的产品的特征，以及用户对该产品的情感倾向，具有较好的实用性。

Description

一种快速训练泰文情感分析模型的方法

技术领域

本发明属于情感分析模型训练的技术领域，具体涉及一种快速训练泰文情感分析模型的方法。

背景技术

伴随着互联网的普及，电子消费在近几年成为了广大网民的互联网活动中颇为重要的一个方面。消费者们享受着互联网带来的便利，在通过网络消费的同时，他们也留下了数量众多的评论信息。这些评论信息中主要包含了消费者对所选商品或服务的评价与看法，对于商家和其他的消费者均有重要的参考价值。电商们通过消费者的反馈信息可以进一步地完善自己的服务，提高商品质量；其他消费者也可以在无法亲自接触实物商品的情况下根据其他顾客的反馈与评价做出自己的选择。但是，若要人工地阅读所有的评论信息，再而进一步地从中总结出对于特定商品的量化评价是非常困难的，尤其对于一些热门商品常常拥有成千上万条评论。目前常用的处理方法是采用计算机应用对大数据进行智能分析。

传统上训练情感分析有两种，监督学习和无监督学习。无监督学习对服务器要求较高，非常耗时。监督学习是人工智能领域中机器学习的一大分支，另外的分支是无监督学习和半监督学习。其中监督学习是目前最成熟的，监督学习训练速度较快，但是标注样本耗时很长。监督学习的特征是，先人工标注样本，样本的数量越大，通常学习的效果越好，因此在整个监督学习方案中，人工标注样本是最花时间，成本最高的地方。专利申请号为201510907394.3、申请日为2015.12.10的中国发明专利公开了一种有监督学习的产品评论分析方法及系统的技术方案，但是监督学习的标注量较大，成为了数据处理的负担。

随着我国经济的发展，国际贸易快速发展，跨国网购成为了热潮，尤其周边国家的代购成为了人们追捧的对象。泰国的地理位置决定的地方性产品受到大家的喜爱，泰文的网购网站也随之发展，针对泰国网站的购物评论成为了产品好坏的重要指标。然而，针对泰文网站的评论的情感分析的方法还没有公开。

发明内容

本发明的目的在于提供一种快速训练泰文情感分析模型的方法，本发明通过将评论分为两类减少了人工标注样本的工作量，缩短了开发周期，降低了开发成本；本发明利用海量数据对不熟悉的泰文进行快速建立泰文情感分析能力，本发明可以对泰文电商网站的评论进行快速情感分类，从而高效率从大量评论数据中直接分析出各评论所针对的产品的特征，以及用户对该产品的情感倾向，具有较好的实用性。

本发明主要通过以下技术方案实现：一种快速训练泰文情感分析模型的方法，主要包括以下步骤：

步骤S101：使用爬虫工具抓取泰文电商网站的评论，并将评论分为两类，其中好评的数据为一类，中评和差评的数据为一类；

步骤S102：采用泰文分词工具对泰文进行分词，所述泰文分词工具使用开源项目PyThaiNLP，然后使用N-gram计算词向量，使用N-gram规则将分词后的语料转换为词向量；

步骤S103：用卷积神经网络建模，并将词向量作为输入，经训练输出卷积结果；将卷积结果进行最大池化；经过多次卷积-池化循环，最后使用逻辑回归函数将池化结果分类，得到正向值和负向值，模型训练完成。

所述泰文分词工具使用开源项目PyThaiNLP，其余泰文分词工具还有开源项目Cutkum, SWATH。在泰文分词工具中，PyThaiNLP功能最全面。

泰文属于东亚语系/汉藏语系，和汉语比，只是语法顺序有区别。因此可借鉴中文情感分析的方式来进行训练情感分析模型。本发明的优势：1.传统上使用监督机器学习方式来进行情感分析训练，需要人工标注样本，工作量巨大。本发明使用爬虫技术搜集公开电商评论资源，免去了样本标注工作。

为了更好的实现本发明，进一步的，所述步骤S101中所述泰文电商网站为主流的大型泰文电商网站。

为了更好的实现本发明，进一步的，所述步骤S102中，在分词的过程中去掉标点符号、数字英文字符以及停用词和语气助词。

为了更好的实现本发明，进一步的，所述S103中卷积神经网络包含输入层、卷积层、池化层、全连接层四个部分；输入层将评论数据的向量输入到卷积神经网络中，并与下一层相连，其中输入层的数据是二维的评论特征矩阵，评论特征矩阵的每一行为评论的特征向量，评论特征矩阵的行数等于评论的条数，文本特征矩阵的列数等于单词的词向量的长度；池化层从卷积层中得到的feature-map中提取最关键的特征，起到一个信息过滤的作用，且经过池化层处理后，feature-map的尺寸减小，起到了参数约减的作用，降低了模型的训练难度；全连接层将经过卷积和池化步骤后得到的二维的feature-map变形为一维的向量，便于后续输入得到支持向量机分类器中，做情感分类操作。

为了更好的实现本发明，进一步的，所述S103中将卷积结果进行最大池化是在给定的池化窗口中选取元素值最大的那个作为下一层对应位置的特征。

我们的方案是抓取泰文电商网站的评论数据，电商网站的评论特性是，电商网站的评论除了有评论文字外，还有好评，中评和差评的评价数据，因此我们可以直接利用程序把差评和中评对应的文字标注为负面倾向，好评的文字标注为正面倾向。所以说，减少了人工标注样本的时间，缩短了开发周期，降低了开发成本。

我们的专利的特点是，可以在自身对泰文不熟悉的情况下，依然可以快速获得泰文情感分析能力，因为海量数据的关系，我们能得到较高的精度。另一创新之处是，指出了汉藏语系的文字均可利用本专利的方案来快速习得其情感分析的能力。

本方案主要包括以下步骤：

1．首先我们找到一个主流泰文电商网站，比如WeLoveShopping，他的网址为https://www.weloveshopping.com，其有较多评论，将网站上的评论分为好评、中评和差评三类。

2．自建爬虫工具或者使用第三方爬虫工具将整个网站的评论抓取下来，数量级将在百万乃至千万以上。

3．将抓取的数据分成两类，好评是一类，中评和差评是一类。中评和差评都是对所购物品不同程度的不满意，故合并为一类。

4．泰文和中文语法类似，故考虑使用泰文分词工具，将泰文评论进行分词。使用N-gram规则，将分词后的语料转换为词向量。

5．以卷积神经网络建模，并将词向量作为输入。经训练输出卷积结果。将卷积结果进行最大池化。卷积-池化可循环多次，最后将池化结果使用逻辑回归函数进行分类，输出二分类得到正向值和负向值。模型训练完成。

本发明的有益效果：

（1）使用爬虫工具抓取泰文电商网站的评论，并将评论分为两类，其中好评的数据为一类，中评和差评的数据为一类。本发明通过将评论分为两类减少了人工标注样本的工作量，缩短了开发周期，降低了开发成本；本发明利用海量数据对不熟悉的泰文进行快速建立泰文情感分析能力，本发明可以对泰文电商网站的评论进行快速情感分类，从而高效率从大量评论数据中直接分析出各评论所针对的产品的特征，以及用户对该产品的情感倾向，具有较好的实用性。

（2）所述步骤S101中所述泰文电商网站为主流的大型泰文电商网站。通过数据的丰富性和可靠性，从而提高情感分析模型的可靠性。

附图说明

图1为本发明的原理流程图。

具体实施方式

实施例1：

一种快速训练泰文情感分析模型的方法，如图1所示，主要包括以下步骤：

步骤S102：步骤S102：采用泰文分词工具对泰文进行分词，所述泰文分词工具使用开源项目PyThaiNLP，然后使用N-gram计算词向量，使用N-gram规则将分词后的语料转换为词向量；

本发明通过将评论分为两类减少了人工标注样本的工作量，缩短了开发周期，降低了开发成本；本发明利用海量数据对不熟悉的泰文进行快速建立泰文情感分析能力，本发明可以对泰文电商网站的评论进行快速情感分类，从而高效率从大量评论数据中直接分析出各评论所针对的产品的特征，以及用户对该产品的情感倾向，具有较好的实用性。

实施例2：

本实施例是在实施例1的基础上进一步优化，所述步骤S101中所述泰文电商网站为主流的大型泰文电商网站。所述步骤S102中，在分词的过程中去掉标点符号、数字英文字符以及停用词和语气助词。

所述S103中卷积神经网络包含输入层、卷积层、池化层、全连接层四个部分；输入层将评论数据的向量输入到卷积神经网络中，并与下一层相连，其中输入层的数据是二维的评论特征矩阵，评论特征矩阵的每一行为评论的特征向量，评论特征矩阵的行数等于评论的条数，文本特征矩阵的列数等于单词的词向量的长度；池化层从卷积层中得到的feature-map中提取最关键的特征，起到一个信息过滤的作用，且经过池化层处理后，feature-map的尺寸减小，起到了参数约减的作用，降低了模型的训练难度；全连接层将经过卷积和池化步骤后得到的二维的feature-map变形为一维的向量，便于后续输入得到支持向量机分类器中，做情感分类操作。所述S103中将卷积结果进行最大池化是在给定的池化窗口中选取元素值最大的那个作为下一层对应位置的特征。

所述步骤S101中所述泰文电商网站为主流的大型泰文电商网站。通过数据的丰富性和可靠性，从而提高情感分析模型的可靠性。本发明通过将评论分为两类减少了人工标注样本的工作量，缩短了开发周期，降低了开发成本；本发明利用海量数据对不熟悉的泰文进行快速建立泰文情感分析能力，本发明可以对泰文电商网站的评论进行快速情感分类，从而高效率从大量评论数据中直接分析出各评论所针对的产品的特征，以及用户对该产品的情感倾向，具有较好的实用性。

本实施例的其他部分与实施例1相同，故不再赘述。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.一种快速训练泰文情感分析模型的方法，其特征在于，主要包括以下步骤：

2.根据权利要求1所述的一种快速训练泰文情感分析模型的方法，其特征在于，所述步骤S101中所述泰文电商网站为主流的大型泰文电商网站。

3.根据权利要求2所述的一种快速训练泰文情感分析模型的方法，其特征在于，所述步骤S102中，在分词的过程中去掉标点符号、数字英文字符以及停用词和语气助词。

4.根据权利要求1或3所述的一种快速训练泰文情感分析模型的方法，其特征在于，所述S103中卷积神经网络包含输入层、卷积层、池化层、全连接层四个部分；输入层将评论数据的向量输入到卷积神经网络中，并与下一层相连，其中输入层的数据是二维的评论特征矩阵，评论特征矩阵的每一行为评论的特征向量，评论特征矩阵的行数等于评论的条数，文本特征矩阵的列数等于单词的词向量的长度；池化层从卷积层中得到的feature-map中提取最关键的特征，起到一个信息过滤的作用，且经过池化层处理后，feature-map的尺寸减小，起到了参数约减的作用，降低了模型的训练难度；全连接层将经过卷积和池化步骤后得到的二维的feature-map变形为一维的向量，便于后续输入得到支持向量机分类器中，做情感分类操作。

5.根据权利要求4所述的一种快速训练泰文情感分析模型的方法，其特征在于，所述S103中将卷积结果进行最大池化是在给定的池化窗口中选取元素值最大的那个作为下一层对应位置的特征。