CN106844632A - 基于改进支持向量机的产品评论情感分类方法及装置 - Google Patents
基于改进支持向量机的产品评论情感分类方法及装置 Download PDFInfo
- Publication number
- CN106844632A CN106844632A CN201710042849.9A CN201710042849A CN106844632A CN 106844632 A CN106844632 A CN 106844632A CN 201710042849 A CN201710042849 A CN 201710042849A CN 106844632 A CN106844632 A CN 106844632A
- Authority
- CN
- China
- Prior art keywords
- vector
- feature
- svms
- text
- improving
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Abstract
本发明公开了一种基于改进支持向量机的产品评论情感分类方法及装置,其中,方法包括:从互联网上获取多条评论文本;通过改进双向传播算法对多条评论文本进行特征抽取,以获取数据特征;通过文本向量空间模型将数据特征转换为预设维度的向量;根据预设维度的向量使用改进支持向量机进行训练,以得到情感分类结果。该方法可以有效的对产品评论进行情感分类,并且通过分类器自动调节有效降低错误率,提高分类准确性,且有效提高分类效率,提高用户的使用体验。
Description
技术领域
本发明涉及计算机应用机器学习技术领域,特别涉及一种基于改进支持向量机的产品评论情感分类方法及装置。
背景技术
目前,电商作为一个新兴的大型购物平台,由于其便捷高效等特性广为人们所使用。作为一个车拥有庞大市场的新星平台,其出售的产品的质量就显得尤为重要。用户能否快速准确的找到高质量的商品也是衡量一个电商平台的重要标准。虽然如此,由于“竞价”规则和刷单两大不规范的商业行为,电商首页往往充斥的低质量的商品,使得消费者无从下手。这样一来,用户的使用体验会大幅度下降,甚至转而使用其他购物方法,从而不利于平台的长远发展。因此,想要使得电商平台稳定健康的发展,我们应该着重从产品下手,精准的分辨出高质量和低质量的商品,进而大幅度的方便用户。但是,这个过程往往十分复杂,导致电商固有的评分系统所收集的数据高度冗余,用户希望得到的信息通常掩藏在成千上万条评论当中难以发现。另外,一些恶意评分也严重干扰了其他用户的选择。由此可见,让用户自己根据产品评论分辨产品的好坏是一个十分复杂而棘手的过程。产品评论状况虽然复杂,但不是无规律可循。根据过往的研究,产品评论大多会集中描述产品的某些属性的好坏,可一通过对评论中产品属性的抽取和分析,来判断该评论的极性,这也是人工智能中一个重要的研究领域。通过对大规模产品评论的分析,可以精确地指出产品某个具体属性的好坏,进而改善用户的使用体验。
然而,为了实现基于大规模产品评论的情感分类系统,需要解决三个方面的主要难题:1)特征抽取和降维方法;2)文本向量空间模型的生成;3)情感分类器的选择与训练。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于改进支持向量机的产品评论情感分类方法,该方法可以提高分类准确性,且提高分类效率,以及提高用户的使用体验。
本发明的另一个目的在于提出一种基于改进支持向量机的产品评论情感分类装置。
为达到上述目的,本发明一方面实施例提出了一种基于改进支持向量机的产品评论情感分类方法,包括以下步骤:从互联网上获取多条评论文本;通过改进双向传播算法对所述多条评论文本进行特征抽取,以获取数据特征;通过文本向量空间模型将所述数据特征转换为预设维度的向量;根据所述预设维度的向量使用改进支持向量机进行训练,以得到情感分类结果。
本发明实施例的基于改进支持向量机的产品评论情感分类方法,基于产品评论,通过利用改进双向传播算法进行评论特征抽取,并将高性能的相似度向量空间模型应用于支持向量机,将用户产品评论分为正向和负向,实现产品评论情感的分类,可以有效的对产品评论进行情感分类,并且通过分类器自动调节有效降低错误率,提高分类准确性,且有效提高分类效率,提高用户的使用体验。
另外,根据本发明上述实施例的基于改进支持向量机的产品评论情感分类方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述通过改进双向传播算法对所述多条评论文本进行特征抽取,进一步包括:将初始特征空间置空;利用先验知识从评论文本中挑选特征进入特征空间;根据特征之间的关联关系从所述评论文本中挑选新特征进入特征空间,直至所述改进双向传播算法收敛。
进一步地,在本发明的一个实施例中,所述通过改进双向传播算法对所述多条评论文本进行特征抽取具体包括:通过加入限制条件的fp-growth算法提取出训练集的高频词汇,以利用词频和tf-idf信息提取出语料中高频词汇和高频二元关联词汇;根据所述高频词汇和高频二元关联词汇的词性标注信息进行筛选,以保留名词而形成初始特征词典;利用所述改进双向传播算法生成情感词典,并扩展所述情感词典和所述初始特征词典,以扩展主要使用句法关联关系,其中,根据LTP系统采集的句法关系采集与所述初始特征词典有关联的单词,以使用词性标注进行筛选后生成所述情感词典,并且利用所述句法关系扩展所述特征词典,并用所述词性标注信息进行筛选,直到所述特征词典和所述情感词典收敛。
进一步地,在本发明的一个实施例中,所述通过文本向量空间模型将所述数据特征转换为预设维度的向量,进一步包括:采集每个抽取出的被评论对象特征对应的情感词的向量;采用四个相似度系数,将原始文本向量转化为对其相应的中心相似度向量;生成文本的特征相似度向量空间,得到所述文本向量空间模型,以划分正向的数据集的边界。
进一步地,在本发明的一个实施例中,所述根据所述预设维度的向量使用改进支持向量机进行训练,进一步包括:对所述文本向量空间模型生成的相似度值进行平衡处理,其中,通过加权求和方法得到综合相似度向量;将所述综合相似度向量用于所述改进支持向量机训练,以通过训练后的所述改进支持向量机获取所述情感分类结果。
为达到上述目的,本发明另一方面实施例提出了一种基于改进支持向量机的产品评论情感分类装置,包括:获取模块,用于从互联网上获取多条评论文本;抽取模块,用于通过改进双向传播算法对所述多条评论文本进行特征抽取,以获取数据特征;转换模块,用于通过文本向量空间模型将所述数据特征转换为预设维度的向量;分类模块,用于根据所述预设维度的向量使用改进支持向量机进行训练,以得到情感分类结果。
本发明实施例的基于改进支持向量机的产品评论情感分类装置,基于产品评论,通过利用改进双向传播算法进行评论特征抽取,并将高性能的相似度向量空间模型应用于支持向量机,将用户产品评论分为正向和负向,实现产品评论情感的分类,可以有效的对产品评论进行情感分类,并且通过分类器自动调节有效降低错误率,提高分类准确性,且有效提高分类效率,提高用户的使用体验。
另外,根据本发明上述实施例的基于改进支持向量机的产品评论情感分类装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述抽取模块进一步用于将初始特征空间置空,并且利用先验知识从评论文本中挑选特征进入特征空间,以及根据特征之间的关联关系从所述评论文本中挑选新特征进入特征空间,直至所述改进双向传播算法收敛。
进一步地,在本发明的一个实施例中,所述抽取模块具体用于通过加入限制条件的fp-growth算法提取出训练集的高频词汇,以利用词频和tf-idf信息提取出语料中高频词汇和高频二元关联词汇,根据所述高频词汇和高频二元关联词汇的词性标注信息进行筛选,以保留名词而形成初始特征词典,且利用所述改进双向传播算法生成情感词典,并扩展所述情感词典和所述初始特征词典,以扩展主要使用句法关联关系,其中,根据LTP系统采集的句法关系采集与所述初始特征词典有关联的单词,以使用词性标注进行筛选后生成所述情感词典,并且利用所述句法关系扩展所述特征词典,并用所述词性标注信息进行筛选,直到所述特征词典和所述情感词典收敛。
进一步地,在本发明的一个实施例中,所述转换模块进一步用于采集每个抽取出的被评论对象特征对应的情感词的向量,采用四个相似度系数,将原始文本向量转化为对其相应的中心相似度向量,并且生成文本的特征相似度向量空间,得到所述文本向量空间模型,以划分正向的数据集的边界。
进一步地,在本发明的一个实施例中,所述分类模块进一步用于对所述文本向量空间模型生成的相似度值进行平衡处理,其中,通过加权求和方法得到综合相似度向量,并且将所述综合相似度向量用于所述改进支持向量机训练,以通过训练后的所述改进支持向量机获取所述情感分类结果。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的基于改进支持向量机的产品评论情感分类方法的流程图;
图2为根据本发明一个实施例的基于改进支持向量机的产品评论情感分类方法的流程图;
图3为根据本发明一个实施例的原始数据预处理的流程图;
图4为根据本发明一个实施例的特征抽取方法的流程图;
图5为根据本发明一个实施例的相似度向量空间生成方法的流程图;
图6为根据本发明实施例的基于改进支持向量机的产品评论情感分类装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于改进支持向量机的产品评论情感分类方法及装置,首先将参照附图描述根据本发明实施例提出的基于改进支持向量机的产品评论情感分类方法。
图1是本发明实施例的基于改进支持向量机的产品评论情感分类方法的流程图。
如图1所示,该基于改进支持向量机的产品评论情感分类方法包括以下步骤:
在步骤S101中,从互联网上获取多条评论文本。
具体地,结合图2和图3所示,由于产品评论的口语化程度很高,需要用于模型训练要先根据数据特点进行数据预处理,其中包括数据去重、删除无关内容以及数据标注三个步骤,通过初步的处理,就可以得噪声较小,相关度比较高的处理后的数据集。
由于所使用的数据均直接由爬虫程序从电商网站不加筛选的直接爬取,因此每条记录十分详细。这就会带来两方面的影响:首先,我们可以得到完整的评论信息,了解用户对该产品全方位的评价;但是,另一方面原始记录中也存在许多相互重复的信息以及和高度无关的无用信息,这些信息会造成最后误差增大,使得训练变得更加困难。
在得到初步处理的数据后,就要对数据进行标注。对于产品评论这样的信息来说,原始的数据对后续模型的训练意义不大。真正可用于后续模型的是原始数据的标注信息。本发明实施例可以使用哈工大开源的云平台LTP工具,采集了评论的分词,词性标注以及句法结构以便后续使用。同时,在标注过程中,对标注结果进行了处理以更加契合实际情况,如程度副词和形容词毗邻的情况下,将这两个词连接成一个新词并标注为形容词。
在步骤S102中,通过改进双向传播算法对多条评论文本进行特征抽取,以获取数据特征。
其中,在本发明的一个实施例中,通过改进双向传播算法对多条评论文本进行特征抽取,进一步包括:将初始特征空间置空;利用先验知识从评论文本中挑选特征进入特征空间;根据特征之间的关联关系从评论文本中挑选新特征进入特征空间,直至改进双向传播算法收敛。
可以理解的是,对于一般的机器学习问题,原始数据中常常包含大量的无关噪声和重复数据,因此在特征用于学习之前,往往需要进行从高维特征空间到低维特征空的映射,保留有用信息,从而降低模型训练的复杂度,本发明实施例使用了改进的双向传播算法来进行特征抽取。
其中,双向传播算法是一种简单高效的特征抽取算法,其主要流程如下:
1.初始特征空间为空;
2.利用先验知识从文本中挑选特征进入特征空间;
3.利用特征之间的关联关系,从文本中挑选新的特征进入特征空间;
4.重复第3步,直到算法收敛。
进一步地,在本发明的一个实施例中,通过改进双向传播算法对多条评论文本进行特征抽取具体包括:通过加入限制条件的fp-growth算法提取出训练集的高频词汇,以利用词频和tf-idf信息提取出语料中高频词汇和高频二元关联词汇;根据高频词汇和高频二元关联词汇的词性标注信息进行筛选,以保留名词而形成初始特征词典;利用改进双向传播算法生成情感词典,并扩展情感词典和初始特征词典,以扩展主要使用句法关联关系,其中,根据LTP系统采集的句法关系采集与初始特征词典有关联的单词,以使用词性标注进行筛选后生成情感词典,并且利用句法关系扩展特征词典,并用词性标注信息进行筛选,直到特征词典和情感词典收敛。
具体地,结合图2和图4所示,特征抽取的主要作用是进一步去除无用的以及相关性不大的信息,减轻预处理时数据维数膨胀带来的影响。
在本发明的实施例中,情感分析是基于产品被评论特征的,也就是说,要将原始数据的高维度信息进行降维处理,只保留产品的被评论特征和评论的情感特征。本发明实施例使用了一个改进的双向传播算法用于提取这两个信息。
算法的开始,使用加入限制条件的fp-growth算法提取出训练集的高频词汇,该算法利用词频和tf-idf信息,提取出语料中高频词汇和高频二元关联词汇,随后使用这些词的词性标注信息进行筛选,只保留名词而形成初始特征词典。接下来,本本发明实施例将利用双向传播算法生成情感词典并扩展其和初始特征词典。扩展主要使用句法关联关系,利用上述LTP系统采集的句法关系,采集和初始特征词典有关联的单词,使用词性标注进行筛选后生成情感词典。接着再次利用相同的句法关系扩展特征词典并用词性标注信息进行筛选,其中,该步骤会迭代执行,直到特征词典和情感词典收敛。
在步骤S103中,通过文本向量空间模型将数据特征转换为预设维度的向量。
进一步地,在本发明的一个实施例中,通过文本向量空间模型将数据特征转换为预设维度的向量,进一步包括:采集每个抽取出的被评论对象特征对应的情感词的向量;采用四个相似度系数,将原始文本向量转化为对其相应的中心相似度向量;生成文本的特征相似度向量空间,得到文本向量空间模型,以划分正向的数据集的边界。
可以理解的是,向量空间模型一直是机器学习中研究的一大重要领域,即将文本转化成一定维度的向量以便于进一步处理,传统的向量空间模型生成方法有布尔模型,n-gram模型,tf-idf模型和Word2Vec模型。
布尔模型是基于集合论和布尔代数的一种简单向量空间模型,其权重设置基于二元判定标准,即每个单词在生成维度的时候根据判定标准只有0,1两种值,该模型易受维度灾难的问题困扰。
N-Gram(有时也称为N元模型)是自然语言处理中一个非常重要的概念。该模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。其生成方法如下:
设一个句子S可以表示为序列S=w1w2w3……wn则其生成的概率为:
对应到每个单词上,其生成概率:
其中,C(w1w2……wi-1wi)代表了w1w2……wi-1wi在训练集中出现的次数。但是n-gram模型有两个缺陷,一是参数空间过大,无法实用化;二是数据稀疏严重。所以在应用中,常常将马尔科夫假设加入其中,令一个词的出现只依赖于前面有限个词。一般情况下为两个到三个,这样的n-gram模型称之为bi-gram和tri-gram。
Tf-idf是一种改进的向量空间模型生成方法。其中tf为词频,idf为逆向文档频率,向量上每个维度的值表示该维度的重要程度。其生成公式如下:
对某一特定文档j中的单词ti来说,其重要性tf-idfi可表示为:
tf-idfi=tfi,j*idfi,
其中,ni,j代表单词ti在文档j中出现的频率,∑knk,j代表总词频,|D|代表数据集总文档数,|{d:ti∈d}|代表单词ti出现过的文档数。
而Word2Vec模型由Google公司在2013年提出,该模型由3层神经网络生成文档的词向量,该方法简单、高效。其神经网结构如下:
1.输入层:包含Context(x)中2c个词的词向量;
2.投影层:将输入层的2c个向量做求和累加;
3.输出层:输出层对应一棵二叉树,它以语料中出现过的词当作叶子结点,以各词在语料中出现的次数当作权值来构造Huffman树。
因此,由于Word2Vec的高效和准确,本发明实施例采用它生成初始文档向量空间。
具体地,结合图2与图5所示,本发明实施例使用Word2Vec对抽取的特征-情感词二元组生成初始的文档向量空间。传统方法在向量空间生成后直接将该模型用于线性分类器或神经网络分类器进行分类。这样的做法忽略了正向情感词汇之间以及负向情感词汇之间的高度相似性。因此,本发明实施例将传统的向量空间进行转化处理,使其兼顾上下文信息和相似度信息。
首先,对于每个抽取出的被评论对象特征f,系统将会采集其所有对应的情感词的向量。该向量由上文提到的Word2Vec生成。其模型采用了对常见字友好的Skip-gram模型,单词向量维度为1000维。初始文本向量空间生成后,本发明实施例使用下列公式生成每个特征的正向中心向量cf:
其中,α和β为经验值,分别设定为16和4,D+和D-分别代表正向和负向数据集,xi表示对应的原始文档向量。随后,采用四个相似度系数,将原始文本向量转化为对其相应的中心相似度向量,具体应用时,可以使用了余弦相似度,高尔距离,莱斯相似系数和杰卡德相似系数四种方法计算相似度。其相似度计算公式如下,其中Pi和Qi为两个向量:
最终,可以生成文本的特征相似度向量空间,在该空间下,每一条评论将会由几个特征以及其相似度向量表示。在球形的高维空间中,该相似度方法能够很好的将正向的数据集的边界划分出来,即言,在分类过程中,只要不在正向边界方向内的向量都将被划分为负向,极大的提升了分类器的准确度。
在步骤S104中,根据预设维度的向量使用改进支持向量机进行训练,以得到情感分类结果。
进一步地,在本发明的一个实施例中,根据预设维度的向量使用改进支持向量机进行训练,进一步包括:对文本向量空间模型生成的相似度值进行平衡处理,其中,通过加权求和方法得到综合相似度向量;将综合相似度向量用于改进支持向量机训练,以通过训练后的改进支持向量机获取情感分类结果。
可以理解的是,对于一般的情感分析,在文本的向量空间模型建立完成之后,往往选用直接选用支持向量机(SVM)进行训练。然而由于传统向量空间只包含了文本的结构信息,不能包含文本的语义信息,所以分类器的效率往往不高。为了解决这个问题,本发明实施例采用了以产品被评论特征为基础的正向中心相似度向量模型空间进行改进,并使用相比于传统支持向量机SVM更为简单高效的改进支持向量机SVMperf。
SVMperf是SVMlight开发者在其基础上的基础上采用更优化的内核算法得到的新型分类模型。SVMperf相较于SVMlight有三点优势:分类速度更快;分类精度更高;适合大数据集。与SVM不同的是,SVMperf只接受一维向量。所以要对生成的四个相似度值进行平衡处理。本发明实施例使用加权求和的方法将四个相似度度量值合成一个新的综合相似度向量以用于SVMperf的训练。在相似度向量的四个维度上,可以设定每个维度的权值都为0.25。
需要说明的是,一个领域专用的产品评论线性分类器将通过对训练集的数据分析建立起来,该分类器将可以很好的处理该领域的产品评论的情感极向分类问题。
具体而言,本发明实施例的主要目的是通过对从电商网站爬取的产品评论的分析,判断出该类产品的评论情感极向。本发明实施例的主要内容为提出了针产品评论的情感极向问题,设计了一系列的特征抽取方法,通过数据之间相关性的分析,提取关键信息,使用支持向量机的分类模型取得了较高的准确率,并且通过变量独立假设,给出了一种对输入系统参数进行合理的修正,从而提高分类准确率的方法。
如图2所示,首先对电商服务器的原始数据进行抽取,预处理,特征降维处理,之后使用改进的特征中心向量生成相似度向量空间,最后使用支持向量机进行训练,对于新到的评论数据,使用训练好的模型进行测试,并且给出评论情感极性的预测结果,进而客观整体的对产品进行评价。
具体地,首先是特征的读入处理,之后是特征降维处理,接着是模型的训练阶段,和系统的使用阶段。在模型训练阶段,主要需要完成后台的数据库原始数据分析。首先,将原始数据进行去重删冗降维,采集语料的分词,词性标注以及句法结构信息,将符合规则的毗邻词合并完成数据预处理操作,然后对特征数据进行基于特征正向中心向量的文本向量空间的生成,并使用支持向量机SVMperf进行训练。在系统的使用阶段,用户可以提交需要判断的产品评论,系统会自动返回线性分类器的测试结果,报告当前数据情感极性情况。
其中,服务器信息抽取,预处理技术、特征抽取技术、向量空间模型技术、支持向量机分类技术等核心技术可以结合图形用户界面、数据读入等功能均在Windows下用java、C++等语言开发实现,并且基于上述开发平台,首先在操作系统层,预测系统需要在WindowsXP或其兼容的操作系统平台之上运行;同时还需要程序运行支撑环境,也就是java和C++运行支撑环境。只有具备了上述支撑环境,从而可以正常地运行。
根据本发明实施例的基于改进支持向量机的产品评论情感分类方法,基于产品评论,通过利用改进双向传播算法进行评论特征抽取,并将高性能的相似度向量空间模型应用于支持向量机,将用户产品评论分为正向和负向,实现产品评论情感的分类,可以有效的对产品评论进行情感分类,并且通过分类器自动调节有效降低错误率,提高分类准确性,且有效提高分类效率,提高用户的使用体验。
其次参照附图描述根据本发明实施例提出的基于改进支持向量机的产品评论情感分类装置。
图6是本发明实施例的基于改进支持向量机的产品评论情感分类装置的结构示意图。
如图6所示,该基于改进支持向量机的产品评论情感分类装置10包括:获取模块100、抽取模块200、转换模块300和分类模块400。
其中,获取模块100用于从互联网上获取多条评论文本。抽取模块200用于通过改进双向传播算法对多条评论文本进行特征抽取,以获取数据特征。转换模块300用于通过文本向量空间模型将数据特征转换为预设维度的向量。分类模块400用于根据预设维度的向量使用改进支持向量机进行训练,以得到情感分类结果。本发明实施例的装置10可以有效的对产品评论进行情感分类,并且通过分类器自动调节有效降低错误率,提高分类准确性,且有效提高分类效率,提高用户的使用体验。
进一步地,在本发明的一个实施例中,抽取模块200进一步用于将初始特征空间置空,并且利用先验知识从评论文本中挑选特征进入特征空间,以及根据特征之间的关联关系从评论文本中挑选新特征进入特征空间,直至改进双向传播算法收敛。
进一步地,在本发明的一个实施例中,抽取模块200具体用于通过加入限制条件的fp-growth算法提取出训练集的高频词汇,以利用词频和tf-idf信息提取出语料中高频词汇和高频二元关联词汇,根据高频词汇和高频二元关联词汇的词性标注信息进行筛选,以保留名词而形成初始特征词典,且利用改进双向传播算法生成情感词典,并扩展情感词典和初始特征词典,以扩展主要使用句法关联关系,其中,根据LTP系统采集的句法关系采集与初始特征词典有关联的单词,以使用词性标注进行筛选后生成情感词典,并且利用句法关系扩展特征词典,并用词性标注信息进行筛选,直到特征词典和情感词典收敛。
进一步地,在本发明的一个实施例中,转换模块300进一步用于采集每个抽取出的被评论对象特征对应的情感词的向量,采用四个相似度系数,将原始文本向量转化为对其相应的中心相似度向量,并且生成文本的特征相似度向量空间,得到文本向量空间模型,以划分正向的数据集的边界。
进一步地,在本发明的一个实施例中,分类模块400进一步用于对文本向量空间模型生成的相似度值进行平衡处理,其中,通过加权求和方法得到综合相似度向量,并且将综合相似度向量用于改进支持向量机训练,以通过训练后的改进支持向量机获取情感分类结果。
需要说明的是,前述对基于改进支持向量机的产品评论情感分类方法实施例的解释说明也适用于该实施例的基于改进支持向量机的产品评论情感分类装置,此处不再赘述。
根据本发明实施例的基于改进支持向量机的产品评论情感分类装置,基于产品评论,通过利用改进双向传播算法进行评论特征抽取,并将高性能的相似度向量空间模型应用于支持向量机,将用户产品评论分为正向和负向,实现产品评论情感的分类,可以有效的对产品评论进行情感分类,并且通过分类器自动调节有效降低错误率,提高分类准确性,且有效提高分类效率,提高用户的使用体验。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于改进支持向量机的产品评论情感分类方法,其特征在于,包括以下步骤:
从互联网上获取多条评论文本;
通过改进双向传播算法对所述多条评论文本进行特征抽取,以获取数据特征;
通过文本向量空间模型将所述数据特征转换为预设维度的向量;以及
根据所述预设维度的向量使用改进支持向量机进行训练,以得到情感分类结果。
2.根据权利要求1所述的基于改进支持向量机的产品评论情感分类方法,其特征在于,所述通过改进双向传播算法对所述多条评论文本进行特征抽取,进一步包括:
将初始特征空间置空;
利用先验知识从评论文本中挑选特征进入特征空间;
根据特征之间的关联关系从所述评论文本中挑选新特征进入特征空间,直至所述改进双向传播算法收敛。
3.根据权利要求1或2所述的基于改进支持向量机的产品评论情感分类方法,其特征在于,所述通过改进双向传播算法对所述多条评论文本进行特征抽取具体包括:
通过加入限制条件的fp-growth算法提取出训练集的高频词汇,以利用词频和tf-idf信息提取出语料中高频词汇和高频二元关联词汇;
根据所述高频词汇和高频二元关联词汇的词性标注信息进行筛选,以保留名词而形成初始特征词典;
利用所述改进双向传播算法生成情感词典,并扩展所述情感词典和所述初始特征词典,以扩展主要使用句法关联关系,其中,根据LTP系统采集的句法关系采集与所述初始特征词典有关联的单词,以使用词性标注进行筛选后生成所述情感词典,并且利用所述句法关系扩展所述特征词典,并用所述词性标注信息进行筛选,直到所述特征词典和所述情感词典收敛。
4.根据权利要求1所述的基于改进支持向量机的产品评论情感分类方法,其特征在于,所述通过文本向量空间模型将所述数据特征转换为预设维度的向量,进一步包括:
采集每个抽取出的被评论对象特征对应的情感词的向量;
采用四个相似度系数,将原始文本向量转化为对其相应的中心相似度向量;
生成文本的特征相似度向量空间,得到所述文本向量空间模型,以划分正向的数据集的边界。
5.根据权利要求1-5任一项所述的基于改进支持向量机的产品评论情感分类方法,其特征在于,所述根据所述预设维度的向量使用改进支持向量机进行训练,进一步包括:
对所述文本向量空间模型生成的相似度值进行平衡处理,其中,通过加权求和方法得到综合相似度向量;
将所述综合相似度向量用于所述改进支持向量机训练,以通过训练后的所述改进支持向量机获取所述情感分类结果。
6.一种基于改进支持向量机的产品评论情感分类装置,其特征在于,包括:
获取模块,用于从互联网上获取多条评论文本;
抽取模块,用于通过改进双向传播算法对所述多条评论文本进行特征抽取,以获取数据特征;
转换模块,用于通过文本向量空间模型将所述数据特征转换为预设维度的向量;以及
分类模块,用于根据所述预设维度的向量使用改进支持向量机进行训练,以得到情感分类结果。
7.根据权利要求6所述的基于改进支持向量机的产品评论情感分类装置,其特征在于,所述抽取模块进一步用于将初始特征空间置空,并且利用先验知识从评论文本中挑选特征进入特征空间,以及根据特征之间的关联关系从所述评论文本中挑选新特征进入特征空间,直至所述改进双向传播算法收敛。
8.根据权利要求6或7所述的基于改进支持向量机的产品评论情感分类装置,其特征在于,所述抽取模块具体用于通过加入限制条件的fp-growth算法提取出训练集的高频词汇,以利用词频和tf-idf信息提取出语料中高频词汇和高频二元关联词汇,根据所述高频词汇和高频二元关联词汇的词性标注信息进行筛选,以保留名词而形成初始特征词典,且利用所述改进双向传播算法生成情感词典,并扩展所述情感词典和所述初始特征词典,以扩展主要使用句法关联关系,其中,根据LTP系统采集的句法关系采集与所述初始特征词典有关联的单词,以使用词性标注进行筛选后生成所述情感词典,并且利用所述句法关系扩展所述特征词典,并用所述词性标注信息进行筛选,直到所述特征词典和所述情感词典收敛。
9.根据权利要求6所述的基于改进支持向量机的产品评论情感分类装置,其特征在于,所述转换模块进一步用于采集每个抽取出的被评论对象特征对应的情感词的向量,采用四个相似度系数,将原始文本向量转化为对其相应的中心相似度向量,并且生成文本的特征相似度向量空间,得到所述文本向量空间模型,以划分正向的数据集的边界。
10.根据权利要求6-9任一项所述的基于改进支持向量机的产品评论情感分类装置,其特征在于,所述分类模块进一步用于对所述文本向量空间模型生成的相似度值进行平衡处理,其中,通过加权求和方法得到综合相似度向量,并且将所述综合相似度向量用于所述改进支持向量机训练,以通过训练后的所述改进支持向量机获取所述情感分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710042849.9A CN106844632B (zh) | 2017-01-20 | 2017-01-20 | 基于改进支持向量机的产品评论情感分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710042849.9A CN106844632B (zh) | 2017-01-20 | 2017-01-20 | 基于改进支持向量机的产品评论情感分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106844632A true CN106844632A (zh) | 2017-06-13 |
CN106844632B CN106844632B (zh) | 2020-02-21 |
Family
ID=59120115
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710042849.9A Active CN106844632B (zh) | 2017-01-20 | 2017-01-20 | 基于改进支持向量机的产品评论情感分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106844632B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107491432A (zh) * | 2017-06-20 | 2017-12-19 | 北京百度网讯科技有限公司 | 基于人工智能的低质量文章识别方法及装置、设备及介质 |
CN108563625A (zh) * | 2018-01-04 | 2018-09-21 | 福建中金在线信息科技有限公司 | 文本分析方法、装置、电子设备和计算机存储介质 |
CN108897754A (zh) * | 2018-05-07 | 2018-11-27 | 广东省电信规划设计院有限公司 | 基于大数据的工单类型的识别方法、系统和计算设备 |
CN108920457A (zh) * | 2018-06-15 | 2018-11-30 | 腾讯大地通途(北京)科技有限公司 | 地址识别方法和装置及存储介质 |
CN109376230A (zh) * | 2018-12-18 | 2019-02-22 | 广东博维创远科技有限公司 | 犯罪定罪预测方法、系统、存储介质及服务器 |
CN109947947A (zh) * | 2019-03-29 | 2019-06-28 | 北京泰迪熊移动科技有限公司 | 一种文本分类方法、装置及计算机可读存储介质 |
CN110069634A (zh) * | 2019-04-24 | 2019-07-30 | 北京泰迪熊移动科技有限公司 | 一种生成分类模板的方法、装置及计算机可读存储介质 |
US10394959B2 (en) | 2017-12-21 | 2019-08-27 | International Business Machines Corporation | Unsupervised neural based hybrid model for sentiment analysis of web/mobile application using public data sources |
CN110297906A (zh) * | 2019-06-28 | 2019-10-01 | 谭浩 | 生成访谈报告的方法、计算机可读存储介质和终端设备 |
CN110532548A (zh) * | 2019-08-12 | 2019-12-03 | 上海大学 | 一种基于FP-Growth算法的上下位关系抽取方法 |
CN111027023A (zh) * | 2019-12-11 | 2020-04-17 | 重庆锐云科技有限公司 | 一种基于频繁分析的房产在线开盘检测方法及系统 |
WO2020113918A1 (zh) * | 2018-12-06 | 2020-06-11 | 平安科技(深圳)有限公司 | 基于语义解析的语句合理性判断方法、装置、计算机设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080154698A1 (en) * | 2006-12-20 | 2008-06-26 | Microsoft Corporation | Dyanmic product classification for opinion aggregation |
CN104794212A (zh) * | 2015-04-27 | 2015-07-22 | 清华大学 | 基于用户评论文本的上下文情感分类方法及分类系统 |
CN104965822A (zh) * | 2015-07-29 | 2015-10-07 | 中南大学 | 一种基于计算机信息处理技术的中文文本情感分析方法 |
CN105354183A (zh) * | 2015-10-19 | 2016-02-24 | Tcl集团股份有限公司 | 一种家电产品互联网评论的分析方法、装置及系统 |
-
2017
- 2017-01-20 CN CN201710042849.9A patent/CN106844632B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080154698A1 (en) * | 2006-12-20 | 2008-06-26 | Microsoft Corporation | Dyanmic product classification for opinion aggregation |
CN104794212A (zh) * | 2015-04-27 | 2015-07-22 | 清华大学 | 基于用户评论文本的上下文情感分类方法及分类系统 |
CN104965822A (zh) * | 2015-07-29 | 2015-10-07 | 中南大学 | 一种基于计算机信息处理技术的中文文本情感分析方法 |
CN105354183A (zh) * | 2015-10-19 | 2016-02-24 | Tcl集团股份有限公司 | 一种家电产品互联网评论的分析方法、装置及系统 |
Non-Patent Citations (2)
Title |
---|
QIU GUANG 等: "Expanding domain sentiment lexicon through double propagation", 《TWENTY-FIRST INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE》 * |
郗亚辉: "产品评论特征及观点抽取研究", 《情报学报》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107491432A (zh) * | 2017-06-20 | 2017-12-19 | 北京百度网讯科技有限公司 | 基于人工智能的低质量文章识别方法及装置、设备及介质 |
US11645554B2 (en) | 2017-06-20 | 2023-05-09 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for recognizing a low-quality article based on artificial intelligence, device and medium |
US10394959B2 (en) | 2017-12-21 | 2019-08-27 | International Business Machines Corporation | Unsupervised neural based hybrid model for sentiment analysis of web/mobile application using public data sources |
US10719665B2 (en) | 2017-12-21 | 2020-07-21 | International Business Machines Corporation | Unsupervised neural based hybrid model for sentiment analysis of web/mobile application using public data sources |
CN108563625A (zh) * | 2018-01-04 | 2018-09-21 | 福建中金在线信息科技有限公司 | 文本分析方法、装置、电子设备和计算机存储介质 |
CN108897754A (zh) * | 2018-05-07 | 2018-11-27 | 广东省电信规划设计院有限公司 | 基于大数据的工单类型的识别方法、系统和计算设备 |
CN108897754B (zh) * | 2018-05-07 | 2020-12-11 | 广东省电信规划设计院有限公司 | 基于大数据的工单类型的识别方法、系统和计算设备 |
CN108920457A (zh) * | 2018-06-15 | 2018-11-30 | 腾讯大地通途(北京)科技有限公司 | 地址识别方法和装置及存储介质 |
CN108920457B (zh) * | 2018-06-15 | 2022-01-04 | 腾讯大地通途(北京)科技有限公司 | 地址识别方法和装置及存储介质 |
WO2020113918A1 (zh) * | 2018-12-06 | 2020-06-11 | 平安科技(深圳)有限公司 | 基于语义解析的语句合理性判断方法、装置、计算机设备 |
CN109376230A (zh) * | 2018-12-18 | 2019-02-22 | 广东博维创远科技有限公司 | 犯罪定罪预测方法、系统、存储介质及服务器 |
CN109947947A (zh) * | 2019-03-29 | 2019-06-28 | 北京泰迪熊移动科技有限公司 | 一种文本分类方法、装置及计算机可读存储介质 |
CN110069634A (zh) * | 2019-04-24 | 2019-07-30 | 北京泰迪熊移动科技有限公司 | 一种生成分类模板的方法、装置及计算机可读存储介质 |
CN110297906A (zh) * | 2019-06-28 | 2019-10-01 | 谭浩 | 生成访谈报告的方法、计算机可读存储介质和终端设备 |
CN110297906B (zh) * | 2019-06-28 | 2021-10-08 | 谭浩 | 生成访谈报告的方法、计算机可读存储介质和终端设备 |
CN110532548A (zh) * | 2019-08-12 | 2019-12-03 | 上海大学 | 一种基于FP-Growth算法的上下位关系抽取方法 |
CN111027023A (zh) * | 2019-12-11 | 2020-04-17 | 重庆锐云科技有限公司 | 一种基于频繁分析的房产在线开盘检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN106844632B (zh) | 2020-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106844632A (zh) | 基于改进支持向量机的产品评论情感分类方法及装置 | |
Swathi et al. | An optimal deep learning-based LSTM for stock price prediction using twitter sentiment analysis | |
CN104834729B (zh) | 题目推荐方法和题目推荐装置 | |
CN110750640B (zh) | 基于神经网络模型的文本数据分类方法、装置及存储介质 | |
Bauer et al. | Quantitive evaluation of Web site content and structure | |
CN109977413A (zh) | 一种基于改进cnn-lda的情感分析方法 | |
CN105045875B (zh) | 个性化信息检索方法及装置 | |
CN110909164A (zh) | 一种基于卷积神经网络的文本增强语义分类方法及系统 | |
CN110245229A (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
CN107229610A (zh) | 一种情感数据的分析方法及装置 | |
CN103123633A (zh) | 评价参数的生成方法以及基于评价参数的信息搜索方法 | |
CN111241410B (zh) | 一种行业新闻推荐方法及终端 | |
CN104361037B (zh) | 微博分类方法及装置 | |
CN109189926A (zh) | 一种科技论文语料库的构建方法 | |
CN106557558A (zh) | 一种数据分析方法及装置 | |
CN112508600A (zh) | 一种基于互联网公开数据的车辆价值评估方法 | |
CN108920521A (zh) | 基于伪本体的用户画像-项目推荐系统及方法 | |
CN113312480A (zh) | 基于图卷积网络的科技论文层级多标签分类方法及设备 | |
CN106294736A (zh) | 基于关键词频率的文本特征提取方法 | |
CN114238573A (zh) | 基于文本对抗样例的信息推送方法及装置 | |
CN115329085A (zh) | 一种社交机器人分类方法及系统 | |
CN112528136A (zh) | 一种观点标签的生成方法、装置、电子设备和存储介质 | |
CN116108191A (zh) | 一种基于知识图谱的深度学习模型推荐方法 | |
CN112862569B (zh) | 基于图像和文本多模态数据的产品外观风格评价方法和系统 | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |