CN104794212A

CN104794212A - 基于用户评论文本的上下文情感分类方法及分类系统

Info

Publication number: CN104794212A
Application number: CN201510203118.9A
Authority: CN
Inventors: 徐华
Original assignee: Tsinghua University; Wuxi Research Institute of Applied Technologies of Tsinghua University
Current assignee: Tsinghua University; Wuxi Research Institute of Applied Technologies of Tsinghua University
Priority date: 2015-04-27
Filing date: 2015-04-27
Publication date: 2015-07-22
Anticipated expiration: 2035-04-27
Also published as: CN104794212B

Abstract

本发明公开了一种基于用户评论文本的上下文情感分类方法及分类系统，其中，方法包括以下步骤：获取多条用户评论文本；对多条用户评论文本进行分词；对分词后的多条用户评论文本进行训练，以得到候选特征集；从候选特征集中根据上下文结构特征提取有效特征，以得到训练集；根据训练集训练分类模型，以通过分类模型对用户评论文本进行情感分类。本发明实施例的方法，通过上下文结构特征提取有效特征，实现情感分类，提高了分类准确度，更好地识别出文本中用户的情感倾向，简单方便。

Description

基于用户评论文本的上下文情感分类方法及分类系统

技术领域

本发明涉及计算机应用于互联网技术领域，特别涉及一种基于用户评论文本的上下文情感分类方法及分类系统。

背景技术

近些年来，在论坛、博客、电子商务、微博等新兴互联网元素的推动下，越来越多的用户习惯于在这些网络平台上发表自己的观点和表达自己的感受。但是，随之而来的一个问题就是互联网上的用户越来越多，用户评论数量也呈爆炸式增长，导致光靠人力进行分析总结变得很难。尤其是大型电商网站上的热门商品的评论往往都会有成千上万条，对于用户来说，要完全浏览这些评论是不现实的，而浏览少量信息又会得到有偏差的结论，无法获得大众对于此款产品的综合评价。更加复杂的是，这些海量评论中还会存在着许多相互矛盾的观点，在这种情况下，用户很难甄别出对自己有价值的信息。因此，让计算机来帮助用户对海量评论进行分析甄选，从中抽取出有价值的信息就变得尤为重要。

这种新的上下文情感分类方法具有如下几个主要特点：1)时间成本低。对于产品的用户评论，用户不需要进行人工分析，便可以获知大众对该产品的褒贬倾向。2)适用范围广。该方法可以由电商网站或生产厂商使用，分析用户对于产品的总体评价，方便改进产品；也可以由用户和消费者使用，分析自己和他人的情感倾向，以作出购买决策。3)特征筛选准。然而，以往的情感分类方法很少关注对于文本中语义特征的提取，降低了分类准确度，无法很好地识别出文本中用户的情感倾向。

发明内容

本发明旨在至少在一定程度上解决上述相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种能够提高了分类准确度，更好地识别出文本中用户的情感倾向的基于用户评论文本的上下文情感分类方法。

本发明的另一个目的在于提出一种基于用户评论文本的上下文情感分类系统。

为达到上述目的，本发明一方面实施例提出了一种基于用户评论文本的上下文情感分类方法，包括以下步骤：从互联网上获取多条用户评论文本；对所述多条用户评论文本进行分词；对分词后的多条用户评论文本进行训练，以获取每个词的特征向量得到候选特征集；通过基于情感词典或词性的特征选择方法从所述候选特征集中根据上下文结构特征提取有效特征，以得到训练集；以及根据所述训练集训练分类模型，以通过所述分类模型对用户评论文本进行情感分类。

根据本发明实施例提出的基于用户评论文本的上下文情感分类方法，首先通过对用户评论文本进行分词得到候选特征集，其次根据上下文结构特征从候选集中提取有效特征，从而训练分类模型，实现对用户评论文本的情感分类，通过上下文结构特征提取有效特征，实现情感分类，提高了分类准确度，更好地识别出文本中用户的情感倾向，具有时间成本低、适用范围广、特征筛选准确等优点，简单方便，更好地满足用户的使用需求。

另外，根据本发明上述实施例的基于用户评论文本的上下文情感分类方法还可以具有如下附加的技术特征：

进一步地，在本发明的一个实施例中，根据HowNet情感词典与IAR情感词典获取所述情感词典。

进一步地，在本发明的一个实施例中，通过word2vec对分词后的多条用户评论文本进行训练以获得所述候选特征集。

进一步地，在本发明的一个实施例中，所述分类模型可以为SVMperf分类模型。

进一步地，在本发明的一个实施例中，所述上下文结构特征包括否定词特征、程度词特征和转折词特征。

本发明另一方面实施例提出了一种基于用户评论文本的上下文情感分类系统，包括：数据获取模块，用于从互联网上获取多条用户评论文本；分词模块，用于对所述多条用户评论文本进行分词；词向量训练模块，用于对分词后的多条用户评论文本进行训练，以获取每个词的特征向量得到候选特征集；特征选择模块，用于通过基于情感词典或词性的特征选择方法从所述候选特征集中根据上下文结构特征提取有效特征，以得到训练集；以及分类模块，用于根据所述训练集训练分类模型，以通过所述分类模型对用户评论文本进行情感分类。

根据本发明实施例提出的基于用户评论文本的上下文情感分类系统，首先通过对用户评论文本进行分词得到候选特征集，其次根据上下文结构特征从候选集中提取有效特征，从而训练分类模型，实现对用户评论文本的情感分类，通过上下文结构特征提取有效特征，实现情感分类，提高了分类准确度，更好地识别出文本中用户的情感倾向，具有时间成本低、适用范围广、特征筛选准确等优点，简单方便，更好地满足用户的使用需求。

另外，根据本发明上述实施例的基于用户评论文本的上下文情感分类系统还可以具有如下附加的技术特征：

进一步地，在本发明的一个实施例中，上述系统还包括：获取模块，用于根据HowNet情感词典与IAR情感词典获取所述情感词典。

进一步地，在本发明的一个实施例中，所述词向量训练模块通过word2vec对分词后的多条用户评论文本进行训练以获得所述候选特征集。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的基于用户评论文本的上下文情感分类方法的流程图；

图2为根据本发明一个实施例的基于用户评论文本的上下文情感分类方法的流程图；

图3为根据本发明一个实施例的基于用户评论文本的上下文情感分类系统的结构示意图；

图4为根据本发明一个具体实施例的基于用户评论文本的上下文情感分类系统的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触，也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且，第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正上方和斜上方，或仅仅表示第一特征水平高度小于第二特征。

下面参照附图描述根据本发明实施例提出的基于用户评论文本的上下文情感分类方法及分类系统，首先将参照附图描述根据本发明实施例提出的基于用户评论文本的上下文情感分类方法。参照图1所示，该方法包括以下步骤：

S101，从互联网上获取多条用户评论文本。

在本发明的一个实施例中，参照图2所示，本发明实施例主要是从互联网上爬取大量的用户评论作为语料，以便进行情感分类工作。本发明实施例的数据主要是通过JAVA爬虫程序从中文亚马逊网站(amazon.cn)上获取的服装产品的用户评论文本，并保存到数据库中。

S102，对多条用户评论文本进行分词。

S103，对分词后的多条用户评论文本进行训练，以获取每个词的特征向量得到候选特征集。

进一步地，在本发明的一个实施例中，通过word2vec对分词后的多条用户评论文本进行训练以获得候选特征集。

具体地，本发明实施例利用word2vec工具对分词后的文本语料进行训练，得到每个词的词向量表示，作为候选特征向量。其中，获得的词向量可以很好地提取出蕴含在词之间的语义特征，为情感分类工作做好铺垫。

S104，通过基于情感词典或词性的特征选择方法从候选特征集中根据上下文结构特征提取有效特征，以得到训练集。其中，采用基于情感词典和基于词性的特征选择方法来对候选特征进行筛选，只保留对情感分类工作有价值的特征。在实际应用中，两种特征选择方法是可选的，可以灵活对比两种方法的情感分类结果。

具体地，本发明实施例采用基于情感词典和基于词性的两种特征选择方法从候选特征集中筛选出有效特征。

其中，基于情感词典的特征选择方法需要用到已经构建好的中文领域的情感词典来做特征的筛选。当下述的分类模型为SVMperf模型时，为了生成SVMperf模型所支持的数据格式，本发明实施例在用word2vec训练语料库获取词向量时，将-size参数设为1，即训练得到的模型文件中每个词只包含1维词向量。然后将模型文件与扩充后的情感词典进行匹配，筛选出情感词特征，并编号，所对应的词向量即为特征值。接下来逐行读取语料库中的每一条评论文本，判断是否包含情感词特征；如果包含，则依特征编号次序按SVMperf的数据格式逐行写入数据，最终得到训练集。

基于词性的特征选择方法主要是根据语料中词语的不同词性来筛选出有用的特征。在用户评论中，可以表达出用户情感的往往是语句中的实词，例如，形容词、动词、名词等，而诸如介词、连词和感叹词等一些虚词则很少会蕴含用户的情感，对评论的情感分类作用不会很大。如果把这些对情感分类没有意义的虚词也作为特征，将会给算法带来很大噪声，从而直接影响情感分类的效果。因此，在筛选有效特征时，本发明首先将评论文本中的无意义的虚词剔除掉，只留下可以对识别语句情感极性有贡献的几类实词作为有效特征。而且在中文情感分类中，不同的词性选择组合会得到不同的实验结果。例如，如果仅仅选择形容词作为有效特征，会比同时选择副词、动词以及形容词时得到的分类效果差，因为不只有形容词，其它词性的实词往往也会带有情感特征。经过词性筛选后，本发明只保留形容词、动词、副词和名词四种词性的词和对应词向量，然后通过不同的组合得到有效特征，按格式写入训练文件，得到训练集。

进一步地，在本发明的一个实施例中，根据HowNet情感词典与IAR情感词典获取情感词典。

具体地，在中文情感分类领域，虽然前人已经做了非常多的研究工作，但当前仍然没有一个较为权威的中文情感词典。许多单位和机构虽然都总结出了各自的情感词典，但都不够完善。情感词典中情感词的质量和数量，制约了情感分类的效果。

基于上述理由，本发明实施例选取了两个相对较为成熟和准确的中文情感词典作为原始词典，一个是中国知网(HowNet)的中文情感分析用词语集，一个是清华大学智能技术与系统国家重点实验室的IAR课题组所搜集的情感词典。HowNet中文情感分析用词语集包含正面情感词语，负面情感词语，正面评价词语和负面评价词语四个文件。本发明实施例将情感词语和评价词语都看作是对情感分类有作用的情感词，把四个文件整合为一个文件作为本次情感分类研究所用的HowNet情感词典，包含词语约8936个。清华大学IAR课题组搜集的情感词典是在以前研究的基础上，综合已有的情感词典和语言学特点等资源构建而成，相对较为完整。在构建过程中，主要筛选了台湾大学自然语言处理实验室总结的中文情感词典和清华大学自然语言处理组的中文褒贬义词典。通过对上述两个情感词典的筛选和补充，构建出了一个相对完备的中文情感词典，包含词语约14514个。其中，本发明实施例进一步将HowNet情感词典和IAR情感词典做了合并，将重复的情感词删除掉，合并后的情感词典包含词语约18060个。

进一步地，在本发明的一个实施例中，上下文结构特征包括否定词特征、程度词特征和转折词特征。

具体地，本发明实施例可以主要采用否定词特征、程度词特征和转折词特征这三个研究较多的上下文结构特征来抽取有效特征。本发明实施例需要抽取出形如<否定词+情感词>、<程度词+情感词>、<否定词+程度词+情感词>、<程度词+否定词+情感词>等四种组合单元作为有效的上下文结构特征。首先对语料库进行分词，然后遍历每一条用户评论，判断当前词与其后两个词是否符合以上四种组合单元的情况，如符合，则将此组合单元不重复地写入文件中，如不符合，则将窗口滑到下一词再做判断。最终遍历完整个语料库后，便获得了语料库中的上下文结构特征。

S105，根据训练集训练分类模型，以通过分类模型对用户评论文本进行情感分类。

优选地，在本发明的一个实施例中，分类模型可以为SVMperf分类模型。具体地，本发明实施例采用SVMperf分类模型作为分类器进行情感分类。其中，SVMperf的训练数据和测试数据格式是相同的。第一行可以包含文件的说明，但须以#开头，表明此行不列入有效数据之内。以下每一行代表一条训练样例，数据格式如下：

<target>.＝.{+1,-1}

<line>指示每一行的训练样例，<target>指示此行训练样例的类别，有+1和-1两个取值，<feature>代表特征的编号，整数型，<value>代表特征的权重，浮点型。<feature>和<value>是成对出现的，<target>和每一对<feature>:<value>之间要用空格分隔。<feature>:<value>对必须按照特征编号递增排列，若值为0，则该<feature>:<value>对可以跳过。

举例而言，如-1 1:0.43 3:0.12 9284:0.2，其表示的是此训练样例为负例，其中1号特征值为0.43，3号特征值为0.12，9284号特征值为0.2，其他特征值均为0。

SVMperf提供的训练和测试命令为：

svm_perf_learn[options]train.dat model.dat

svm_perf_classify[options]test.dat model.dat predictions

其中，svm_perf_learn是SVMperf的学习模块，svm_perf_classify是预测模块。train.dat是训练数据，model.dat是svm_perf_learn通过学习得到的模型文件，svm_perf_classify需要读取model.dat来对测试数据test.dat进行分类预测，预测结果会写进predictions文件中。

在本发明的实施例中，本发明实施例采用SVMperf分类模型对数据集进行分类和预测。数据集被分为训练集和测试集。分类模型在训练集上训练，在测试集上检验效果。效果评价指标采用准确率(Precision)、召回率(Recall)、F1值(F1-Score)和全局正确率(Accuracy)来评价。分类结果如表1所示，所用数据都是从中文亚马逊网站抓取的原创评论文本，共10000条。

表1

在本发明的实施例中，本发明实施例在给定的电商网站服装产品用户评论文本中，通过有效提取出了文本中的语义特征，并且考虑上下文结构特征对于分类准确度的影响，可以更好地识别出文本中用户的情感倾向，并且通过采用的SVMperf分类模型凭借其改进的内核算法，拥有在处理大文本数据集上更快的分类速度和更准的分类精度。其中，本发明实施例通过采用自然语言处理与机器学习的方法解决情感词典的构建、特征选择、上下文结构特征的提取和分类器训练这四个难题。

根据本发明实施例提出的基于用户评论文本的上下文情感分类方法，首先通过对用户评论文本进行分词得到候选特征集，其次根据上下文结构特征从候选集中提取有效特征，从而训练分类模型，实现对用户评论文本的情感分类，通过上下文结构特征提取有效特征，实现情感分类，提高了分类准确度，更好地识别出文本中用户的情感倾向，具有时间成本低、适用范围广、特征筛选准确等优点，简单方便，提高了分类速度和精度，更好地满足用户的使用需求。

下面参照附图描述根据本发明实施例提出的基于用户评论文本的上下文情感分类系统。参照图3所示，根据本发明实施例的基于用户评论文本的上下文情感分类系统(以下简称分类系统100)包括：数据获取模块10、分词模块20、词向量训练模块30、特征选择模块40和分类模块50。

其中，数据获取模块10用于从互联网上获取多条用户评论文本。分词模块20用于对多条用户评论文本进行分词。词向量训练模块30用于对分词后的多条用户评论文本进行训练，以获取每个词的特征向量得到候选特征集。特征选择模块40用于通过基于情感词典或词性的特征选择方法从候选特征集中根据上下文结构特征提取有效特征，以得到训练集。分类模块50用于根据训练集训练分类模型，以通过分类模型对用户评论文本进行情感分类。

进一步地，在本发明的一个实施例中，词向量训练模块30通过word2vec对分词后的多条用户评论文本进行训练以获得候选特征集。

其中，采用基于情感词典和基于词性的特征选择方法来对候选特征进行筛选，只保留对情感分类工作有价值的特征。在实际应用中，两种特征选择方法是可选的，可以灵活对比两种方法的情感分类结果。

进一步地，在本发明的一个实施例中，本发明实施例的分类系统100还包括：获取模块(图中未具体标识)。其中，获取模块根据HowNet情感词典与IAR情感词典获取情感词典。

<target>.＝.{+1,-1}

SVMperf提供的训练和测试命令为：

svm_perf_learn[options]train.dat model.dat

svm_perf_classify[options]test.dat model.dat predictions

在本发明的一个具体实施例中，参照图4所示，上述的分类系统100还可以包括：用户界面模块60和数据库接口模块70。

其中，用户界面模块60用于给分类系统100的使用者即用户提供一个图形化的友好的用户操作界面，以方便用户浏览自己和他人的情绪状况。数据库接口模块70用于提供了整个系统的数据库80的读写接口，方便其它各个不同的功能模块进行数据的I/O操作。

进一步地，在本发明的一个实施例中，该分类系统100的数据获取模块10、分词模块20、词向量训练模块30、特征选择模块40、分类模块50、用户界面模块60和数据库接口模块70均在Windows下用C#、Java等语言开发实现。进一步地，基于上述开发平台，该分类系统100的部署运行需要如下几个层次运行环境的支撑。首先在操作系统层，分类系统100需要在Windows或其兼容的操作系统平台之上运行，同时还需要程序运行支撑环境，也就是Java和C#运行支撑环境。当具备了上述支撑环境时，该分类系统100才能可正常运行。本发明实施例的分类系统100可以对用户评论文本进行自动地情感分类，并将结果动态展示，提高用户的使用体验。

根据本发明实施例提出的基于用户评论文本的上下文情感分类系统，首先通过对用户评论文本进行分词得到候选特征集，其次根据上下文结构特征从候选集中提取有效特征，从而训练分类模型，实现对用户评论文本的情感分类，通过上下文结构特征提取有效特征，实现情感分类，提高了分类准确度，更好地识别出文本中用户的情感倾向，具有时间成本低、适用范围广、特征筛选准确等优点，简单方便，提高了分类速度和精度，更好地满足用户的使用需求。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于用户评论文本的上下文情感分类方法，其特征在于，包括以下步骤：

从互联网上获取多条用户评论文本；

对所述多条用户评论文本进行分词；

对分词后的多条用户评论文本进行训练，以获取每个词的特征向量得到候选特征集；

通过基于情感词典或词性的特征选择方法从所述候选特征集中根据上下文结构特征提取有效特征，以得到训练集；以及

根据所述训练集训练分类模型，以通过所述分类模型对用户评论文本进行情感分类。

2.根据权利要求1所述的基于用户评论文本的上下文情感分类方法，其特征在于，根据HowNet情感词典与IAR情感词典获取所述情感词典。

3.根据权利要求1所述的基于用户评论文本的上下文情感分类方法，其特征在于，通过word2vec对分词后的多条用户评论文本进行训练以获得所述候选特征集。

4.根据权利要求1所述的基于用户评论文本的上下文情感分类方法，其特征在于，所述分类模型为SVMperf分类模型。

5.根据权利要求1所述的基于用户评论文本的上下文情感分类方法，其特征在于，所述上下文结构特征包括否定词特征、程度词特征和转折词特征。

6.一种基于用户评论文本的上下文情感分类系统，其特征在于，包括：

数据获取模块，用于从互联网上获取多条用户评论文本；

分词模块，用于对所述多条用户评论文本进行分词；

词向量训练模块，用于对分词后的多条用户评论文本进行训练，以获取每个词的特征向量得到候选特征集；

特征选择模块，用于通过基于情感词典或词性的特征选择方法从所述候选特征集中根据上下文结构特征提取有效特征，以得到训练集；以及

分类模块，用于根据所述训练集训练分类模型，以通过所述分类模型对用户评论文本进行情感分类。

7.根据权利要求6所述的基于用户评论文本的上下文情感分类系统，其特征在于，还包括：获取模块，用于根据HowNet情感词典与IAR情感词典获取所述情感词典。

8.根据权利要求6所述的基于用户评论文本的上下文情感分类系统，其特征在于，所述词向量训练模块通过word2vec对分词后的多条用户评论文本进行训练以获得所述候选特征集。

9.根据权利要求6所述的基于用户评论文本的上下文情感分类系统，其特征在于，所述分类模型为SVMperf分类模型。

10.根据权利要求6所述的基于用户评论文本的上下文情感分类系统，其特征在于，所述上下文结构特征包括否定词特征、程度词特征和转折词特征。