CN105975594A - 基于组合特征向量和SVMperf的情感分类方法及装置 - Google Patents
基于组合特征向量和SVMperf的情感分类方法及装置 Download PDFInfo
- Publication number
- CN105975594A CN105975594A CN201610302834.7A CN201610302834A CN105975594A CN 105975594 A CN105975594 A CN 105975594A CN 201610302834 A CN201610302834 A CN 201610302834A CN 105975594 A CN105975594 A CN 105975594A
- Authority
- CN
- China
- Prior art keywords
- perf
- svm
- characteristic vector
- word
- assemblage characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Abstract
本发明公开了一种基于组合特征向量和SVMperf的情感分类方法及装置,其中,方法包括以下步骤:从互联网上获取多条评论文本;对多条评论文本进行分词,划分出各个子成分词;获取句子的词法特征;提取每条评论文本的句法特征;通过预设算法使词法特征和句法特征相结合得到每条评论文本的组合特征向量;根据每条评论文本的组合特征向量训练SVMperf模型,进而通过调整SVMperf的运行参数得到最佳的分类结果。该方法通过组合特征向量和SVMperf对评论文本进行情感分类,从而得到最佳的分类结果,提高了分类精度,更好地识别出文本中用户的情感倾向,简单方便。
Description
技术领域
本发明涉及计算机与互联网技术领域,特别涉及一种基于组合特征向量和SVMperf的中文情感分类方法及装置。
背景技术
随着网络与Web 2.0的不断发展,电子商务已经成为了人们日常生活中不可或缺的购物重要渠道。在电商网站上,买家可以对所购买的物品做出评论,表达自己的看法和满意程度,而这些评论往往含有情感因素,包含着购买者的态度。通过对用户发布的购买评论进行分析,从而可以分类出用户的情绪。各个电商公司也都充分认识到这部分数据信息的重要价值,努力去更准确有效的获取从而为今后的决策提供数据支持。但是,一个电商平台的交易量每一日都可以达到数以万计,从而产生的评论信息的庞大数量,也是人工很难可以及时有效处理的,且费事费力。因此,计算机实现情感分类计算的需求性就充分体现,且同时追求最高的准确率。
发明内容
本申请是基于发明人对以下问题的认识和发现作出的:
基于组合特征向量和SVMperf的情感分类方法具有如下几个主要特点:
1)节省时间和人工成本。不需要人工分析,可以快速的得到评论的情感倾向。
2)适用范围广。该方法可以由厂商或主管部门使用,分析用户整体的情感趋势,便于对决策作出调整;也可以由单个用户自己使用,分析自己和他人的情感状况和起伏变化。
3)分类精度度高。以往的情感分类算法都是以词向量作为主要分类特征,
但是,为了实现基于组合特征向量和SVMperf的情感分类,需要解决四个方面的主题难题:1)词法特征获得;2)句法特征获得及抽取;3)两种特征结合;4)用支持向量机进行分类获得结果。
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于组合特征向量和SVMperf的情感分类方法,该方法可以提高分类精度,更好地识别文本中的情感倾向。
本发明的另一个目的在于提出一种基于组合特征向量和SVMperf的情感分类装置。
为达到上述目的,本发明一方面实施例提出了一种基于组合特征向量和SVMperf的情感分类方法,包括以下步骤:从互联网上获取多条评论文本;对所述多条评论文本进行分词,划分出各个子成分词;获取句子的词法特征;提取每条评论文本的句法特征;通过预设算法使所述词法特征和所述句法特征相结合得到每条评论文本的组合特征向量;以及根据所述每条评论文本的组合特征向量训练SVMperf模型,进而通过调整SVMperf的运行参数得到最佳的分类结果。
本发明实施例的基于组合特征向量和SVMperf的情感分类方法,通过词法特征和句法特征得到组合特征向量,进而根据组合特征向量通过调整SVMperf的运行参数得到最佳的分类结果,实现情感分类,提高了分类精度,更好地识别出文本中用户的情感倾向,具有时间成本低、适用范围广、特征筛选准确等优点,简单方便,更好地满足用户的使用需求。
另外,根据本发明上述实施例的基于组合特征向量和SVMperf的情感分类方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述词法特征的提取方式为:将所述各个子成分词转化为对应的词向量;获取蕴含着词之间的词法信息,向量的余弦距离为词与词之间的相关性,从而得到所述词法特征。
进一步地,在本发明的一个实施例中,所述句法特征的提取方式为:通过依存句法分析结果获取句子中的词语搭配关系;判断所述词语搭配关系中链接的两个词是否对情感分类产生影响,以提取对情感分类有价值的所述句法特征。
进一步地,在本发明的一个实施例中,所述组合特征向量的获取方式为:抽取所述每条评论对应的多个句法关系;将所述多个句法关系连接的词分别获取对应的词向量做替换;将所述对应的词向量按照升序排列并去除重复词,以得到所述组合特征向量。
进一步地,在本发明的一个实施例中,所述根据所述每条评论文本的组合特征向量训练SVMperf模型,进而通过调整SVMperf的运行参数得到最佳的分类结果,进一步包括:将所述每条评论文本划分为积极情绪或者消极情绪;计算出分类的效率值。
为达到上述目的,本发明另一方面实施例提出了一种基于组合特征向量和SVMperf的情感分类装置,包括:数据获取模块,用于从互联网上获取多条评论文本;文本处理模块,用于对所述多条评论文本进行分词,划分出各个子成分词;词法获取模块,用于获取句子的词法特征;特征提取模块,用于提取每条评论文本的句法特征;特征结合模块,用于通过预设算法使所述词法特征和所述句法特征相结合得到每条评论文本的组合特征向量;以及分类模块,用于根据所述每条评论文本的组合特征向量训练SVMperf模型,进而通过调整SVMperf的运行参数得到最佳的分类结果。
本发明实施例的基于组合特征向量和SVMperf的情感分类装置,通过词法特征和句法特征得到组合特征向量,进而根据组合特征向量通过调整SVMperf的运行参数得到最佳的分类结果,实现情感分类,提高了分类精度,更好地识别出文本中用户的情感倾向,具有时间成本低、适用范围广、特征筛选准确等优点,简单方便,更好地满足用户的使用需求。
另外,根据本发明上述实施例的基于组合特征向量和SVMperf的情感分类装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述文本处理模块进一步用于:将所述各个子成分词转化为对应的词向量;获取蕴含着词之间的词法信息,向量的余弦距离为词与词之间的相关性,从而得到所述词法特征。
进一步地,在本发明的一个实施例中,所述特征提取模块还用于:通过依存句法分析结果获取句子中的词语搭配关系;判断所述词语搭配关系中链接的两个词是否对情感分类产生影响,以提取对情感分类有价值的所述句法特征。
进一步地,在本发明的一个实施例中,所述特征结合模块进一步用于:抽取所述每条评论对应的多个句法关系;将所述多个句法关系连接的词分别获取对应的词向量做替换;将所述对应的词向量按照升序排列并去除重复词,以得到所述组合特征向量。
进一步地,在本发明的一个实施例中,所述分类模块进一步用于:将所述每条评论文本划分为积极情绪或者消极情绪;计算出分类的效率值。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的基于组合特征向量和SVMperf的情感分类方法的流程图;
图2为根据本发明一个实施例的特征向量的结合方法例解图;
图3为根据本发明一个实施例的基于组合特征向量和SVMperf的情感分类方法的流程图;
图4为根据本发明一个实施例的基于组合特征向量和SVMperf的情感分类装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于组合特征向量和SVMperf的情感分类方法及装置,首先将参照附图描述根据本发明实施例提出的基于组合特征向量和SVMperf的情感分类方法。
图1是本发明实施例的基于组合特征向量和SVMperf的情感分类方法的流程图。
如图1所示,该基于组合特征向量和SVMperf的情感分类方法包括以下步骤:
在步骤S101中,从互联网上获取多条评论文本。
在步骤S102中,对多条评论文本进行分词,划分出各个子成分词。
在步骤S103中,获取句子的词法特征。
需要说明的是,上述划分子成分词为后续获取词法特征和句法特征两项步骤的基础工作。
其中,在本发明的一个实施例中,词法特征的提取方式为:将各个子成分词转化为对应的词向量;获取蕴含着词之间的词法信息,向量的余弦距离为词与词之间的相关性,从而得到词法特征。
具体地,在获取分类特征前,需要先对句子进行分词处理,划分出各个子成分词。本发明实施例可以使用中科院ICTCLAS分词系统进行分词,并标定词性。
对分词后的结果可以使用Word2vec进行词的向量化,将每一个子成分词转化为一个对应的一维向量,并按照顺序编号,如:“1:是/vshi 0.561772”,“2:好/a 0.444945”等。通过Word2vec获得的词向量蕴含着词之间的词法信息,向量的余弦距离即体现了词与词的相关性,从而获得句子的词法特征。
在步骤S104中,提取每条评论文本的句法特征。
其中,在本发明的一个实施例中,句法特征的提取方式为:通过依存句法分析结果获取句子中的词语搭配关系;判断词语搭配关系中链接的两个词是否对情感分类产生影响,以提取对情感分类有价值的句法特征。
本发明实施例可以采用Stanford parser句法分析器获得语句的依存句法分析结果。在依存句法分析结果中,包含了该句子中所有的词语搭配关系,如否定词关系“neg(正品-5,不-3)”。通过判断关系中链接的两个词是否对情感分类会产生影响,来提取对情感分类有价值的句法特征关系。经过仔细的筛选和实验效果的对比后,选出了一组最佳的句法特征:advmod(状语),dep(依赖关系),dobj(直接宾语),neg(否定词),nn(名词组合形式),nsubj(名词主语),xsubj(控制主语)。
在步骤S105中,通过预设算法使词法特征和句法特征相结合得到每条评论文本的组合特征向量。预设算法可以根据实际情况进行设置。
其中,在本发明的一个实施例中,组合特征向量的获取方式为:抽取每条评论对应的多个句法关系;将多个句法关系连接的词分别获取对应的词向量做替换;将对应的词向量按照升序排列并去除重复词,以得到组合特征向量。
具体地,在分别获得了词法和句法特征后,需要将其结合在一起作为分类的特征向量。组合的特征向量需要能够代表这一条评论的情感信息,并且要符合向量组的形式来通过SVMperf进行分类。当两个子特征的形式为:词-词向量,句法结构-词。句法是词的搭配关系,而词法关系又以词向量的形式体现,因而这个层次化的符合形式就应运而生:将选中的句法关系中连接的词提取出来,并用词向量代替表示,之后排序整合。
具体操作为,如图2所示,先抽取出每条评论对应的几个句法关系,将这几个关系链接的词分别找出其对应的词向量做替换,然后将这些向量组按照升序排列并去除重复词(SVMperf框架要求),即得到了该句子的组合特征向量。
在步骤S106中,根据每条评论文本的组合特征向量训练SVMperf模型,进而通过调整SVMperf的运行参数得到最佳的分类结果。
另外,在本发明的一个实施例中,根据每条评论文本的组合特征向量训练SVMperf模型,进而通过调整SVMperf的运行参数得到最佳的分类结果,进一步包括:将每条评论文本划分为积极情绪或者消极情绪;计算出分类的效率值。
具体地,SVM是一种机器学习模型,用来处理线性可分的数据。当数据线性不可分时,SVM会将数据映射到高维空间中使其线性可分。同时,为了避免高维空间中的运算复杂性,SVM会使用核函数(Kernel Function)来计算结果。
优选地,本发明实施例使用的是SVMperf。SVMperf是SVM的一个分支。相比于普通的SVM,SVMperf特殊的内核算法使得它对于大规模的数据有更高的计算效率和准确率。SVMperf有一个重要的运行参数C,调整C的值从而获得最佳的分类结果。优选地,例如在对本数据集的实验中,C在取值650左右时获得最佳分类结果。
具体而言,在本发明的实施例中,如图3所示,本发明实施例在给定的电商评论文本中,利用一个如图所示的情感分类体系,通过分别提取句子的词法特征和句法特征并设计算法将其结合,得到组合特征向量并通过支持向量机(Support Vector Machine,SVM)来对电商评论文本进行情感分类,将每条评论发出者的情感倾向划分为积极情绪和消极情绪,并计算出分类的效率值。
下面参照附图3所示,对本发明实施例的基于组合特征向量和SVMperf的情感分类方法的原理进行详细描述。
本发明实施例的主要目的是从电商评论文本中分析出情感倾向,并计算分类的准确率和F1值等效率值。本发明实施例的主要内容是提出了一套基于词法和句法组合特征向量和SVMperf分类模型的情感分类方法。即:针对互联网上的基于电商平台买家评论文本的情感分类问题,提出了词法特征提取、句法特征提取、特征向量结合和分类器训练等方法。如图3所示,包括以下步骤:
S1,数据文本获取和处理。
数据文本来源可以为电商网站,从中获取购买者的评论信息,例如数据可以来源于亚马逊网站。根据网站提供的评论分级,对爬取的文本做初始标定,如一星级的评论标定为消极情绪(-1),五星级的标为积极(+1),用于SVMperf分类时的学习部分。
完成获取和标定后对句子进行分词处理。使用的分词工具可以为ICTCLAS,ICTCLAS全部采用C/C++编写,支持Linux、FreeBSD及Windows系列操作系统,支持C/C++/C#/Delphi/Java等主流的开发语言。其速度快精度高,是现在世界上最好的汉语词法分析器,从而最大程度的保证了对文本的预处理效果,为后续的处理打下好的基础。
S2,特征抽取。
在分词预处理之后的文本基础上,特征抽取分两部分进行,分别抽取词法和句法特征。
在词法特征的抽取上,通过Word2vec将词转化为词向量的形式,表示词的个体和关联特征。词向量,即词的向量表示,将词映射到一个新的维度空间中兵役N维的连续实数向量进行表示,可以通过计算向量之间的距离(欧式距离、余弦距离)来体现词与词之间的相似性。而词向量并没有直接的模型可以训练得到,只能在训练语言模型的同时获得词向量。Word2vec即是这样的一个工具,通过神经网络及其学习算法来训练N-grams语言模型,并在训练过程中求出词所对应的向量。Word2vec有一个重要的特性:
Vectors(man)–vectors(woman)+vectors(daughters)=vectors(son)
两对意义相近的词之间的距离相等。由此可看出,其生成的词向量结果很好的体现了词之间的词法特征和关系。
Word2vec运行时需要设置维度参数,即生成多少维的词向量。此处由于后续分类模型SVMperf的限制,目前只能对一维词向量进行计算分类,所以维度设置为1。通过Word2vec获得了每个词对应的词向量表示,也就是所需的词法特征。
另一部分,句法特征的提取可以借助于斯坦福大学开发的句法分析器Stanford Parser。Stanford Parser处理中文的句法分析时调用中文的分析器xinhuaFactoredSegmenting.ser.gz。在使用时,Stanford Parser一次只能对一个句子做出处理,所以需要一个批处理文件来使得其能在大规模数据集上运行,自动的处理所有的文本。在运行指令中,设置的参数除了调用stanford-parser的jar包和中文处理分析器外,还要设置其占用的处理器最大空间。由于分析的数据集庞大,所以在实验过程中为了使程序平稳正常运行,从而可以将此参数设置的较大,如5000m。
句法分析的结果分为两部分。一部分是句子的依存句法分析树,呈现了句子的完成结构和层次;另一部分是句子中词与词之间的搭配关系。从第二部分中提取有价值的句法结构作为评论的句法特征。提取的判断标准为该关系是否反映了语句的情感,对情感的划分上是否有帮助。这条标准就又可以引申为,关系所连接的两个词是否是可以反映情感信息的词。基于这一理念,可以从分析结果中的近20种关系中提取出了7个作为情感分类的句法特征。经过后续试验效果的对比和多次调整,这7种关系的组合已被有效的证明在电子商务评论的文本领域有着最好的情感分类效果。通过这样的方法,在这一部分提取出了句法特征。
S3,特征结合。
词法特征和句法特征都提取出后,上述的思路和方法去进行特征向量的结合。结合算法由Python语言编写实现,在Python2.7下运行。其整体流程如附图2所示。具体算法实现为,第一层遍历Stanford Parser运行生成的依存句法分析结果文件,对于每一条评论根据关系名称找出所需提取的句法关系(七种),每找到一个有效关系,过滤掉关系格式中的符号,提取出两个中文词语,进入到第二层依次去遍历词法特征的文件,分别找到两个词对应的序号和词向量,然后以空格为间隔,以“序号:词向量”的格式输出到结果文件中。当第一层遍历中读取过了一条评论的全部关系,则在结果文件中输入一个换行符,使得每一行特征向量对应一条评论。直到第一层遍历结束,结合程序也完成运行并停止。
获得完整的特征向量文件后,需要对其进行整合和排序。SVMperf要求输入的待分类文件每行第一个位置标出本行信息的真实分类结果(+1或-1)用于学习过程和对分类结果的准确率计算,另外每行内的向量须按照序号以升序排列。这部分后续文件处理的程序依然由Python语言编程实现。除去以上两个分类模型的要求外,还需对空行(不含有符合7个有效句法特征的评论)进行清除,防止对分类效果的噪声干扰。经过以上处理后,就得到了可以进行分类处理的特征向量文件。
S4,SVMperf分类。
SVMperf作为一个机器学习模型,其工作过程分为两部分:学习(Learn)和分类(Classify)。因此将特征向量文件按比例划分为两部分,学习文件和分类文件。本发明实施例可以使用的SVMperf是由康奈尔大学提供的开源程序,可以在Windows环境下运行。第一步运行学习程序,以学习文件作为输入,并设置参数C。运行会生成对应学习得到的model文件,即从特征向量中学习到的分类特征和参数。第二步运行分类程序,以分类文件和第一步中得到的model文件作为输入,得到输出的分类预测结果文件以及计算得到的分类效率数值,后者包括正确率、准确率、召回率和F1值等。至此完成了全部情感分类方法。
在本发明的实施例中,综合考虑了句子的词法和句法特征,并且通过层次化的方法将两种特征以向量的形式相结合,分类的依据更加充分具体,数据集测试中如表1所示可以达到90%以上的分类准确率。表1具体如下:
参数C | 准确率(%) | F1值(%) |
650 | 91.80 | 95.47 |
根据本发明实施例的基于组合特征向量和SVMperf的情感分类方法,通过词法特征和句法特征得到组合特征向量,进而根据组合特征向量通过调整SVMperf的运行参数得到最佳的分类结果,实现情感分类,提高了分类精度,更好地识别出文本中用户的情感倾向,具有时间成本低、适用范围广、特征筛选准确等优点,简单方便,更好地满足用户的使用需求。
其次参照附图描述根据本发明实施例提出的基于组合特征向量和SVMperf的情感分类装置。
图4是本发明实施例的基于组合特征向量和SVMperf的情感分类装置的结构示意图。
如图4所示,该基于组合特征向量和SVMperf的情感分类装置10包括:数据获取模块100、文本处理模块200、词法获取模块300、特征提取模块400、特征结合模块500与分类模块600。
其中,数据获取模块100用于从互联网上获取多条评论文本。文本处理模块200用于对多条评论文本进行分词,划分出各个子成分词。词法获取模块300用于获取句子的词法特征。特征提取模块400用于提取每条评论文本的句法特征。特征结合模块500用于根据词法特征和句法特征得到每条评论文本的组合特征向量。分类模块600用于根据每条评论文本的组合特征向量训练SVMperf模型,进而通过调整SVMperf的运行参数得到最佳的分类结果。本发明实施例的装置10可以通过组合特征向量和SVMperf对评论文本进行情感分类,从而得到最佳的分类结果,提高了分类精度,更好地识别出文本中用户的情感倾向,简单方便。
进一步地,在本发明的一个实施例中,文本处理模块200进一步用于:将各个子成分词转化为对应的词向量;获取蕴含着词之间的词法信息,向量的余弦距离为词与词之间的相关性,从而得到词法特征。
进一步地,在本发明的一个实施例中,特征提取模块400还用于:通过依存句法分析结获取句子中的词语搭配关系;判断词语搭配关系中链接的两个词是否对情感分类产生影响,以提取对情感分类有价值的句法特征。
进一步地,在本发明的一个实施例中,特征结合模块500进一步用于:抽取每条评论对应的多个句法关系;将多个句法关系连接的词分别获取对应的词向量做替换;将对应的词向量按照升序排列并去除重复词,以得到组合特征向量。
进一步地,在本发明的一个实施例中,分类模块600进一步用于:将每条评论文本划分为积极情绪或者消极情绪;计算出分类的效率值。
需要说明的是,前述对基于组合特征向量和SVMperf的情感分类方法实施例的解释说明也适用于该实施例的基于组合特征向量和SVMperf的情感分类装置,此处不再赘述。
根据本发明实施例的基于组合特征向量和SVMperf的情感分类装置,通过词法特征和句法特征得到组合特征向量,进而根据组合特征向量通过调整SVMperf的运行参数得到最佳的分类结果,实现情感分类,提高了分类精度,更好地识别出文本中用户的情感倾向,具有时间成本低、适用范围广、特征筛选准确等优点,简单方便,更好地满足用户的使用需求。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于组合特征向量和SVMperf的情感分类方法,其特征在于,包括以下步骤:
从互联网上获取多条评论文本;
对所述多条评论文本进行分词,划分出各个子成分词;
获取句子的词法特征;
提取每条评论文本的句法特征;
通过预设算法使所述词法特征和所述句法特征相结合得到每条评论文本的组合特征向量;以及
根据所述每条评论文本的组合特征向量训练SVMperf模型,进而通过调整SVMperf的运行参数得到最佳的分类结果。
2.根据权利要求1所述的基于组合特征向量和SVMperf的情感分类方法,其特征在于,所述词法特征的提取方式为:
将所述各个子成分词转化为对应的词向量;
获取蕴含着词之间的词法信息,向量的余弦距离为词与词之间的相关性,从而得到所述词法特征。
3.根据权利要求2所述的基于组合特征向量和SVMperf的情感分类方法,其特征在于,所述句法特征的提取方式为:
通过依存句法分析结果获取句子中的词语搭配关系;
判断所述词语搭配关系中链接的两个词是否对情感分类产生影响,以提取对情感分类有价值的所述句法特征。
4.根据权利要求3所述的基于组合特征向量和SVMperf的情感分类方法,其特征在于,所述组合特征向量的获取方式为:
抽取所述每条评论对应的多个句法关系;
将所述多个句法关系连接的词分别获取对应的词向量做替换;
将所述对应的词向量按照升序排列并去除重复词,以得到所述组合特征向量。
5.根据权利要求1所述的基于组合特征向量和SVMperf的情感分类方法,其特征在于,所述根据所述每条评论文本的组合特征向量训练SVMperf模型,进而通过调整SVMperf的运行参数得到最佳的分类结果,进一步包括:
将所述每条评论文本划分为积极情绪或者消极情绪;
计算出分类的效率值。
6.一种基于组合特征向量和SVMperf的情感分类装置,其特征在于,包括:
数据获取模块,用于从互联网上获取多条评论文本;
文本处理模块,用于对所述多条评论文本进行分词,划分出各个子成分词;
词法获取模块,用于获取句子的词法特征;
特征提取模块,用于提取每条评论文本的句法特征;
特征结合模块,用于通过预设算法使所述词法特征和所述句法特征相结合得到每条评论文本的组合特征向量;以及
分类模块,用于根据所述每条评论文本的组合特征向量训练SVMperf模型,进而通过调整SVMperf的运行参数得到最佳的分类结果。
7.根据权利要求6所述的基于组合特征向量和SVMperf的情感分类装置,其特征在于,所述文本处理模块进一步用于:
将所述各个子成分词转化为对应的词向量;
获取蕴含着词之间的词法信息,向量的余弦距离为词与词之间的相关性,从而得到所述词法特征。
8.根据权利要求7所述的基于组合特征向量和SVMperf的情感分类装置,其特征在于,所述特征提取模块还用于:
通过依存句法分析结果获取句子中的词语搭配关系;
判断所述词语搭配关系中链接的两个词是否对情感分类产生影响,以提取对情感分类有价值的所述句法特征。
9.根据权利要求8所述的基于组合特征向量和SVMperf的情感分类装置,其特征在于,所述特征结合模块进一步用于:
抽取所述每条评论对应的多个句法关系;
将所述多个句法关系连接的词分别获取对应的词向量做替换;
将所述对应的词向量按照升序排列并去除重复词,以得到所述组合特征向量。
10.根据权利要求6所述的基于组合特征向量和SVMperf的情感分类装置,其特征在于,所述分类模块进一步用于:
将所述每条评论文本划分为积极情绪或者消极情绪;
计算出分类的效率值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610302834.7A CN105975594A (zh) | 2016-05-09 | 2016-05-09 | 基于组合特征向量和SVMperf的情感分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610302834.7A CN105975594A (zh) | 2016-05-09 | 2016-05-09 | 基于组合特征向量和SVMperf的情感分类方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105975594A true CN105975594A (zh) | 2016-09-28 |
Family
ID=56992122
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610302834.7A Pending CN105975594A (zh) | 2016-05-09 | 2016-05-09 | 基于组合特征向量和SVMperf的情感分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105975594A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106502989A (zh) * | 2016-10-31 | 2017-03-15 | 东软集团股份有限公司 | 情感分析方法及装置 |
CN106503646A (zh) * | 2016-10-19 | 2017-03-15 | 竹间智能科技(上海)有限公司 | 多模态情感辨识系统及方法 |
CN107291696A (zh) * | 2017-06-28 | 2017-10-24 | 达而观信息科技(上海)有限公司 | 一种基于深度学习的评论词情感分析方法及系统 |
CN107958025A (zh) * | 2017-11-13 | 2018-04-24 | 北京工业大学 | 弱监督实体关系抽取方法及其装置和电子设备 |
CN108304468A (zh) * | 2017-12-27 | 2018-07-20 | 中国银联股份有限公司 | 一种文本分类方法以及文本分类装置 |
CN108804417A (zh) * | 2018-05-21 | 2018-11-13 | 山东科技大学 | 一种基于特定领域情感词的文档级情感分析方法 |
CN109241518A (zh) * | 2017-07-11 | 2019-01-18 | 北京交通大学 | 一种基于情感分析的检测网络水军方法 |
CN109726391A (zh) * | 2018-12-11 | 2019-05-07 | 中科恒运股份有限公司 | 对文本进行情感分类的方法、装置及终端 |
CN110232340A (zh) * | 2019-05-30 | 2019-09-13 | 北京百度网讯科技有限公司 | 建立视频分类模型以及视频分类的方法、装置 |
CN111428034A (zh) * | 2020-03-23 | 2020-07-17 | 京东数字科技控股有限公司 | 分类模型的训练方法、评论信息的分类方法及装置 |
CN112307209A (zh) * | 2020-11-05 | 2021-02-02 | 江西高创保安服务技术有限公司 | 一种基于字符向量的短文本分类方法及系统 |
CN113392190A (zh) * | 2021-08-17 | 2021-09-14 | 财付通支付科技有限公司 | 一种文本识别方法、相关设备及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104794212A (zh) * | 2015-04-27 | 2015-07-22 | 清华大学 | 基于用户评论文本的上下文情感分类方法及分类系统 |
CN104834747A (zh) * | 2015-05-25 | 2015-08-12 | 中国科学院自动化研究所 | 基于卷积神经网络的短文本分类方法 |
-
2016
- 2016-05-09 CN CN201610302834.7A patent/CN105975594A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104794212A (zh) * | 2015-04-27 | 2015-07-22 | 清华大学 | 基于用户评论文本的上下文情感分类方法及分类系统 |
CN104834747A (zh) * | 2015-05-25 | 2015-08-12 | 中国科学院自动化研究所 | 基于卷积神经网络的短文本分类方法 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503646A (zh) * | 2016-10-19 | 2017-03-15 | 竹间智能科技(上海)有限公司 | 多模态情感辨识系统及方法 |
CN106502989A (zh) * | 2016-10-31 | 2017-03-15 | 东软集团股份有限公司 | 情感分析方法及装置 |
CN107291696A (zh) * | 2017-06-28 | 2017-10-24 | 达而观信息科技(上海)有限公司 | 一种基于深度学习的评论词情感分析方法及系统 |
CN109241518A (zh) * | 2017-07-11 | 2019-01-18 | 北京交通大学 | 一种基于情感分析的检测网络水军方法 |
CN109241518B (zh) * | 2017-07-11 | 2021-01-22 | 北京交通大学 | 一种基于情感分析的检测网络水军方法 |
CN107958025B (zh) * | 2017-11-13 | 2021-12-28 | 北京工业大学 | 弱监督实体关系抽取方法及其装置和电子设备 |
CN107958025A (zh) * | 2017-11-13 | 2018-04-24 | 北京工业大学 | 弱监督实体关系抽取方法及其装置和电子设备 |
CN108304468A (zh) * | 2017-12-27 | 2018-07-20 | 中国银联股份有限公司 | 一种文本分类方法以及文本分类装置 |
CN108804417A (zh) * | 2018-05-21 | 2018-11-13 | 山东科技大学 | 一种基于特定领域情感词的文档级情感分析方法 |
CN108804417B (zh) * | 2018-05-21 | 2022-03-15 | 山东科技大学 | 一种基于特定领域情感词的文档级情感分析方法 |
CN109726391A (zh) * | 2018-12-11 | 2019-05-07 | 中科恒运股份有限公司 | 对文本进行情感分类的方法、装置及终端 |
CN109726391B (zh) * | 2018-12-11 | 2024-01-09 | 中科恒运股份有限公司 | 对文本进行情感分类的方法、装置及终端 |
CN110232340A (zh) * | 2019-05-30 | 2019-09-13 | 北京百度网讯科技有限公司 | 建立视频分类模型以及视频分类的方法、装置 |
CN111428034A (zh) * | 2020-03-23 | 2020-07-17 | 京东数字科技控股有限公司 | 分类模型的训练方法、评论信息的分类方法及装置 |
CN112307209A (zh) * | 2020-11-05 | 2021-02-02 | 江西高创保安服务技术有限公司 | 一种基于字符向量的短文本分类方法及系统 |
CN112307209B (zh) * | 2020-11-05 | 2024-04-26 | 江西高创保安服务技术有限公司 | 一种基于字符向量的短文本分类方法及系统 |
CN113392190A (zh) * | 2021-08-17 | 2021-09-14 | 财付通支付科技有限公司 | 一种文本识别方法、相关设备及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105975594A (zh) | 基于组合特征向量和SVMperf的情感分类方法及装置 | |
CN105930503A (zh) | 基于组合特征向量和深度学习的情感分类方法及装置 | |
CN107491531B (zh) | 基于集成学习框架的中文网络评论情感分类方法 | |
CN106919689B (zh) | 基于术语释义知识单元的专业领域知识图谱动态构建方法 | |
CN108304468B (zh) | 一种文本分类方法以及文本分类装置 | |
CN105843897B (zh) | 一种面向垂直领域的智能问答系统 | |
CN110287494A (zh) | 一种基于深度学习bert算法的短文本相似匹配的方法 | |
CN106021410A (zh) | 一种基于机器学习的源代码注释质量评估方法 | |
CN106445919A (zh) | 一种情感分类方法及装置 | |
CN104516986A (zh) | 一种语句识别方法及装置 | |
CN105468713A (zh) | 一种多模型融合的短文本分类方法 | |
CN106528528A (zh) | 文本情感分析的方法及装置 | |
CN106997341A (zh) | 一种创新方案匹配方法、装置、服务器及系统 | |
CN101404036B (zh) | PowerPoint电子演示文稿的关键词抽取方法 | |
JP2002541590A5 (zh) | ||
CN103207913A (zh) | 商品细粒度语义关系的获取方法和系统 | |
CN104484374A (zh) | 一种创建网络百科词条的方法及装置 | |
CN109960756A (zh) | 新闻事件信息归纳方法 | |
CN106844632A (zh) | 基于改进支持向量机的产品评论情感分类方法及装置 | |
CN102708164B (zh) | 电影期望值的计算方法及系统 | |
CN110232123A (zh) | 文本的情感分析方法及其装置、计算设备与可读介质 | |
CN108763539A (zh) | 一种基于词性分类的文本分类方法和系统 | |
CN108536673B (zh) | 新闻事件抽取方法及装置 | |
CN107194617A (zh) | 一种app软件工程师软技能分类系统及方法 | |
KR101948257B1 (ko) | 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 다중분류 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160928 |