CN105760502A

CN105760502A - 一种基于大数据文本挖掘的商品质量情感词典构建系统

Info

Publication number: CN105760502A
Application number: CN201610097347.1A
Authority: CN
Inventors: 李华康; 钟鑫; 杨天若; 杨天楚
Original assignee: CHANGZHOU PUSHI INFORMATION TECHNOLOGY Co Ltd
Current assignee: CHANGZHOU PUSHI INFORMATION TECHNOLOGY Co Ltd
Priority date: 2016-02-23
Filing date: 2016-02-23
Publication date: 2016-07-13

Abstract

本发明涉及一种电商质量情感词典的构建系统，特别涉及一种基于大数据文本挖掘技术的情感词典构建系统。消费者的消费决策很多程度上取决于其他消费者的评价情感词，而基于自然语言的消费评论很多是基于一个现有的情感词库来实现的。本发明解决了商品质量情感词典的自动构建以及商品的基本属性评价和个人使用评价的分离问题。本发明的目的在于提供一种基于电商平台评价语料库的电商商品质量情感极性词典和程度词典的自动抽取、更新方法，将消费者对商品评价中的商品属性描述和个人使用状况描述相分离，为更多的消费者提供简洁、客观的产品质量评估结果，完善基于商品评论的在线消费决策机制。

Description

一种基于大数据文本挖掘的商品质量情感词典构建系统

技术领域

本发明涉及一种电商质量情感词典的构建系统，特别涉及一种基于大数据文本挖掘技术的情感词典构建系统。

背景技术

电子商务代表着未来贸易模式的发展方向，它的应用和推广给中国的经济发展及社会进步带来了巨大的效益。从二十世纪九十年代开始电子商务的发展离不开互联网的发展，截止2001年1月，我国电子商务网站数量已经到达1500余家。2015年中国移动市场规模超过3500亿元，用户规模超过5.2亿人。中国的电子商务逐渐形成多种趋势，包括：移动购物、平台化、电子商务向三四五线城市渗透、物联网、社交购物、O2O、云服务和电子商务解决方案、大数据的应用、精准化营销和个性化服务、互联网金融。

由于网络所具有的先对高度互动性、匿名性、便利性、时效性和开放性等特征，越来越多的消费者在电商购买消费品之后会通过在线评价系统发表自己对商品、物流的评价，自己使用情况以及各方面的情感。据2005年美国KRC研究所在线调研结果显示，网络购物者在线搜索、评价产品时，其他消费者对产品的评价和使用时的心得，很大的影响了他们的购买决策。据CNNIC在2009年发布的报告显示，在线商品评论是我国消费者购买决策的重要信息来源之一。市场调研公司尼尔森在2012年的报告显示，70％的消费者表示他们信任在线产品评价。

消费决策制定包括以下几个阶段：问题识别、信息搜索、决策制定、购后评估。郝媛媛在《在线评论对消费者感知与购买行为影响的实证研究》中将定性分析和定量分析相结合对消费者感知与购买行为影响进行研究，文本情感趋于正面的评价可能会缺乏有用性的投票，从而影响消费者购买决策。王孟萍在《在线评论对消费者购买意愿的影响研究》中指出含有情感线索的在线评论对信息受众的购买意愿更大，情感线索会让网民产生更加强烈的移情反应，并且信息受众的移情反应有显著地影响信息受众的消费意愿，从而导致不同的消费决策。

很多社交媒体和文本分析研究者通过算法的方式处理情感分类问题。严馨等人在“一种基于微博的新词情感倾向判定方法”[CN201510485811.X]中通过中文分词工具对微博语料进行分词，通过去停用词后采用B-Gram算法统计词频获得新词集，然后再用知网的情感词典计算出新词集中各词的情感分布，通过构建线性分类器得到新词的情感倾向。严勤等人在“一种应用于金融Web领域的文本情感倾向分析方法”[CN201510406228.5]中，根据Web金融文本特点构建金融情感词典，设计了无关信息清理算法和Web金融文本情感倾向分类算法进行Web文本情感倾向分类。彭德中等人在“一种基于SO-PMI商品评价信息的情感分析方法”[CN201510383251.7]中，在情感词典的基础上，以每条评价语句S为单位，以该语句中的每个情感词WS为分隔符，对两个分隔符之间的断句phrase进行情感权值计算，然后将每个断句的权值求和得出S的总体情感倾向值，实现对评价语句的情感分类。徐华等人在“基于用户评论文本的上下文情感分类方法及分类系统”[CN201510203118.9]采用以下步骤实现评论情感分类：获取多条用户评论文本；对多条用户评论进行分词；对分词后的多条用户评论文本进行训练，以得到候选特征集；从候选特征集中根据上下文结构特征提取有效特征，以得到训练集；根据训练集分类模型，通过分类对用户评论文本进行情感分类。

综上所述，消费者的消费决策很多程度上取决于其他消费者的评价情感词，而基于自然语言的消费评论很多是基于一个现有的情感词库来实现的。原来越来越多的网络专业用语以新的风格出现在不断增长变化的电商消费平台上，简单的人工构建的网络情感词典已经无法满足网络信息挖掘的需求。于此同时，电商评价中部分是用户个人对商品使用情况的评定，具有很大的个体客观性，对商品的设计和研发具有一定的指导意义，但是在其他消费者的购买指导方面并没有太多的参考价值。而本发明就是解决了商品质量情感词典的自动构建以及商品的基本属性评价和个人使用评价的分离问题。

发明内容

本发明的目的在于提供一种基于电商平台评价语料库的电商商品质量情感极性词典和程度词典的自动抽取、更新方法，将消费者对商品评价中的商品属性描述和个人使用状况描述相分离，为更多的消费者提供简洁、客观的产品质量评估结果，完善基于商品评论的在线消费决策机制。

本发明系统解决其技术问题所采取的技术方案是：一种基于大数据的词典构建方法，该方法包括一个原始语料数据库、一个三元组抽取模块、一个第三方词典库、一个简单的人工标定模块、一个机器学习模块、以及最终的极性词典和程度词典。

原始语料数据库：通过爬虫软件获得原始电商评价语料库。

三元组抽取模块：从商品文本评价信息中抽取FLO(Feature,level,option)三元组，FLO模型请参照前期专利“一种面向海量互联网信息的文本语义建模方法”[CN201610075760.8]实现并获得三元组集合，三元组集合主要包含{特征词、程度词、特征量化词}。

第三方词典库：第三方词典主要包括知网(HowNet)情感分析用词语集(beta版)和NTUSD词典。HowNet包含了“正面情感词”、“正面评价词”、“负面情感词”、“负面评价词”、“主张词”和“程度词”六个词表共计9193个中文用词。NTUSD简体版本包含正负情感两个词典，其中正面情感词2810个，负面情感词8276个。

人工标定模块：通过定义的商品极性和程度用词定义及格式人工标定部分关键词，得到一个基础样本集用于机器学习。两种词典的定义和格式如下：

word＝sentiment，sentiment是{p,n,m,s,e}的总集

LevelWord＝degree，一个程度词的度数，量化刻度为{1,2,3,4,5}。根据商品评分和词频的统计结果，并选择词频排序top10％进行人工标定。

机器学习模块：对人工标定的样本集合作为训练数据，采用SVM机器学习算法得到训练模型。模型同时将三方词典库的关键词导入训练模型。介于本方法仅标记了少量训练样本数据，在对剩余的大量三元组集合，采用小数据较差训练的模式确保机器学习结果的准确性。

极性词典：包含三个词典库，OptionSentimentDict、LevelSentimentDictheSentenceDict词典。

程度词典：对各程度词进行量化后得到的词典，以UTF-8格式存储，并建立Hash索引表。

有效效果：

1、本发明提供的商品极性词典和程度词典，可以为诸多在线推荐系统/自动评价系统提供文本特征空间和特征量化值，便于更多的在线平台快速实现非结构化数据挖掘。该系统还能扩展带其他面向非结构化文本的评价/舆情系统。

2、本发明通过将简单的情感词典划分为极性词典和程度词典，更加便于消费者从海量的商品评价中更快地找到针对商品质量的评价，乃至符合自己条件的使用情况评价。一方面帮助消费者更好地做出在线消费决策，另一方面提升消费者在电商平台的体验。

附图说明

图1本发明系统结构示意图

图2本发明的极性词典实例

图3本发明的程度词典实例

具体实施方式

下面结合说明书附图对本发明创造作进一步的详细说明。

如图1所示，本发明系统提供了一种基于大数据的商品质量情感词典构建系统，该系统包括以下几个模块：一种基于大数据的词典构建方法，该方法包括一个原始语料数据库、一个三元组抽取模块、一个第三方词典库、一个简单的人工标定模块、一个机器学习模块、以及最终的极性词典和程度词典。

原始语料数据库：通过爬虫软件获得原始电商评价语料库。语料库由以下信息构成：

●电商信息：电商名、URL、企业名、企业基本信息等

●店铺信息：店铺名、URL、企业名、企业基本信息等

●商品信息：商品名、URL、企业名、企业基本信息等

●评价信息：用户ID、时间、评分、文本评价信息等

三元组抽取模块：从商品文本评价信息中抽取FLO(Feature,level,option)三元组，FLO模型请参照前期专利“一种面向海量互联网信息的文本语义建模方法”[CN.201610075760.8]实现并获得三元组集合，三元组集合主要包含{特征词、程度词、特征量化词}，如{质感、非常、好}

word＝sentiment，sentiment是{p,n,m,s,e}的总集

●p:positive，正极词汇

●n:negative，负极词汇

●m:median，中性词汇

●s:stop，停用词

●e:extention，扩展符号

LevelWord＝degree，一个程度词的度数，量化刻度为{1,2,3,4,5}。根据商品评分和词频的统计结果，并选择词频排序top10％进行人工标定。例如

●非常5

●很4

●相互3

●有点2

●稍微1

例如整个三元组集合包含692305条，人工标定的样本集仅1000条，机器学习的测试模块每次导入的数量为已标定数据的20％。如首次导入1000*0.2＝200条，第二次导入1200*0.2＝240条，第三次导入1440*0.2＝288条，直到所有的三元组集合标定结束。

极性词典：包含三个词典库

●OptionSentimentDict文件，存储关联Option维度的用词；

●LevelSentimentDict文件，存储三元组极性词典，包含了{p,n,m}三种，主要结合其他两个维度的极性对三元组进行极性判定

●SentenceDict文件，按照Option维度中的词保存成多个库文件，每个文件的内容词条对应Feature维度文本信息，在OptionSentimentDict极性为“e”的扩展词汇。

Claims

1.本发明系统解决其技术问题所采取的技术方案是：一种基于大数据的词典构建方法，该方法包括一个原始语料数据库、一个三元组抽取模块、一个第三方词典库、一个简单的人工标定模块、一个机器学习模块、以及最终的极性词典和程度词典。

2.原始语料数据库：通过爬虫软件获得原始电商评价语料库。

3.三元组抽取模块：从商品文本评价信息中抽取FLO(Feature,level,option)三元组，FLO模型请参照前期专利“一种面向海量互联网信息的文本语义建模方法”[CN201610075760.8]实现并获得三元组集合，三元组集合主要包含{特征词、程度词、特征量化词}。

4.第三方词典库：第三方词典主要包括知网(HowNet)情感分析用词语集(beta版)和NTUSD词典，HowNet包含了“正面情感词”、“正面评价词”、“负面情感词”、“负面评价词”、“主张词”和“程度词”六个词表共计9193个中文用词，NTUSD简体版本包含正负情感两个词典，其中正面情感词2810个，负面情感词8276个。

5.人工标定模块：通过定义的商品极性和程度用词定义及格式人工标定部分关键词，得到一个基础样本集用于机器学习，两种词典的定义和格式如下：word=sentiment，sentiment是{p,n,m,s,e}的总集；LevelWord=degree，一个程度词的度数，量化刻度为{1,2,3,4,5}，根据商品评分和词频的统计结果，并选择词频排序top10%进行人工标定。

6.机器学习模块：对人工标定的样本集合作为训练数据，采用SVM机器学习算法得到训练模型，模型同时将三方词典库的关键词导入训练模型，介于本方法仅标记了少量训练样本数据，在对剩余的大量三元组集合，采用小数据较差训练的模式确保机器学习结果的准确性。

7.极性词典：包含三个词典库，OptionSentimentDict、LevelSentimentDictheSentenceDict词典。

8.程度词典：对各程度词进行量化后得到的词典，以UTF-8格式存储，并建立Hash索引表。