CN105912576A - 情感分类方法及系统 - Google Patents

情感分类方法及系统 Download PDF

Info

Publication number
CN105912576A
CN105912576A CN201610197160.9A CN201610197160A CN105912576A CN 105912576 A CN105912576 A CN 105912576A CN 201610197160 A CN201610197160 A CN 201610197160A CN 105912576 A CN105912576 A CN 105912576A
Authority
CN
China
Prior art keywords
tested
sample
classification
probability
generic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610197160.9A
Other languages
English (en)
Other versions
CN105912576B (zh
Inventor
徐月梅
王子厚
冯驿
曾颖菲
刘苗苗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Foreign Studies University
Original Assignee
Beijing Foreign Studies University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Foreign Studies University filed Critical Beijing Foreign Studies University
Priority to CN201610197160.9A priority Critical patent/CN105912576B/zh
Publication of CN105912576A publication Critical patent/CN105912576A/zh
Application granted granted Critical
Publication of CN105912576B publication Critical patent/CN105912576B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种情感分类方法及系统。该分类方法包括:对待测样本进行数据预处理操作,获得待测样本的特征词集合;运用朴素贝叶斯算法对待测样本的特征词集合进行运算,生成待测样本的特征集合所属类别的概率;运用支持向量机对待测样本的特征集合所属类别的概率进行修正,确定待测样本的分类。本发明通过构建跨文化传播领域的情感词典和情感特征词,更细粒度地分析跨文化传播视角下的互联网用户情感,提高情感分类的准确率。

Description

情感分类方法及系统
技术领域
本发明涉及跨文化传播、用户情感分析领域,特别涉及一种情感分类方法及系统。
背景技术
跨文化指的是来自不同文化背景的个体、群体或组织之间进行的交流活动。我国跨文化传播研究始于20世纪80年代,早期的研究主要侧重于外语教学与文化的关系,之后逐渐扩展到不同文化背景的人群之间的沟通以及促进跨文化交流的方法。早期缺乏对跨文化传播数据的采集工具,因此使跨文化传播的实证研究有很大限制。如今,互联网作为新兴的舆论载体和传播途径,在跨文化传播信息发起和传播中起着越来越重要的作用,并且有着电视、收音机、报纸等传统的文化传播路径所不可比拟的优势。
基于互联网的跨文化传播有着分众化、个人化的特点,使得普通民众能够参与到跨文化传播过程中。这些民众在Web上发表的信息与评论表达着个人对经济、政治等社会事件的观点态度和情感倾向,并且推动着文化的对外传播。如何针对互联网传播渠道的新特性,分析跨文化传播的受众——互联网用户的情感倾向是一个亟待解决的问题。本专利提出一种研究跨文化传播过程中互联网用户发布内容的情感倾向性方法,探索互联网用户在对外文化传播、交流过程的情感。
互联网用户的情感倾向性研究是指根据用户发表的文本及回复判断用户的情感倾向。文本情感分类即根据用户发布的内容分析其情感倾向,可追溯到1997年Rosalind教授提出的“情感计算”,其主要任务是让计算 机通过处理文本和机器学习实现自动识别文本的情感倾向。目前普遍采用二分类或三分类方法进行文本情感分类:前者将文本的情感分成积极和消极,后者将情感分为积极、中性和消极。
虽然基于机器学习方法和向量空间模型的情感分析研究领域已取得许多成果,但国内外有关情感分析的研究大多集中于产品评论方面。例如:Pang Bo等人研究机器学习算法对电影评情感分析的效果;Palpin等人提出的基于特征的观点挖掘和Mei等人提出来的多方面观点挖掘属于对产品属性的情感倾向研究。目前针对跨文化传播中对互联网用户发表内容进行情感分析的研究还很少。在情感分析过程中,情感特征词的情感极性依赖于领域信息并且对情感倾向分析有着举足轻重的作用,因此使得基于产品评论的情感分析算法不适用于跨文化传播领域。例如:对于形容词“unpredictable”,在电影评论中“unpredictable plot”的表述具有正面情感极性;而在政治评论中“unpredictable steering”则具有负的情感极性。可见不同领域的情感特征词的情感极性不尽相同。
Mullen等人分析了非正式的在线政治评论的特点并进行了初步的统计测试。Malouf等人利用话语中的协同引用关系,研究Web上的非正式政治文本的倾向分类问题。陶富民等人提出一种用于篇章级新闻评论情感分析的特征提取方法。这些工作对在线政治评论和新闻评论的情感倾向进行了一定研究,但都没有涉及跨文化传播领域。我们前期对我国现有的8家中央重点对外传播网站(如中国日报英文版)采集数据以及分析发现:跨文化传播领域涉及的话题除了政治、经济,还涉及学校、信用、世界。
现有的情感分类方法普遍采用的二分类(积极和消极)和三分类(积极、消极和中性)方法不适用于跨文化传播领域的文本情感分类。原因在于跨文化传播领域涉及的话题包括政治、经济、学校、信用、世界,经过数据抓取研究发现,互联网用户对这些话题涉及的情感表达比较隐晦,情感倾向并不如产品或电影评论领域中的强烈,因此采用二分类或三分类的 方法,很难对本文进行人工标注从而得到训练集。
发明内容
本发明的目的是为了现有技术的问题,提出了一种情感分类的方法及系统。
为实现上述目的,一方面,本发明提供了一种情感分类方法,该情感分类方法包括:。
对待测样本进行数据预处理操作,获得待测样本的特征词集合;
运用朴素贝叶斯算法对待测样本的特征词集合进行运算,生成待测样本的特征集合所属类别的概率;
运用支持向量机对待测样本的特征集合所属类别的概率进行修正,确定待测样本的分类。
优选地,数据预处理的具体步骤包括:
对待测样本进行数据爬取操作,确定待测样本的情感倾向;
对待测样本运用进行数据清洗去噪操作,剔除待测样本中不需要的部分,不需要的部分包括待测样本的格式和标题;
对待测样本进行分词,英文语法和拼写错误纠正,并使用正则表达式去除标点符号和长度小于3的单词,并将单词转换为小写;
对待测样本进行特征提取,过滤掉文本中对于表达情感和话题贡献不大的词语,压缩文本处理后生成向量空间的维数。
优选地,特征提取的具体步骤包括:
对待测样本进行分词后运用停用词表去除停用词;
通过词形还原和词干提取获得词的原型,并进行同义词的合并,完成待测样本的特征提取。
优选地,方法还包括:
对待测样本的特征集合构建情感词典,并根据情感词典生成待测样本的 特征集合所属类别的概率。
优选地,对待测样本的特征集合构建情感词典,并根据情感词典生成待测样本的特征集合所属类别的概率的步骤包括:
对待测样本的特征集合进行高频词移除,优化特征词集合;
选取优化后的特征词集合的所属类别最大的特征词,定义为所属类别最大特征词集合,并将所属类别最大特征词集合的并集,定义为情感词典;
基于情感词典,生成待测样本的所属类别的概率。
优选地,运用支持向量机对待测样本的特征集合所属类别的概率进行修正,确定待测样本的分类的步骤具体包括:
运用支持向量机算法在m维空间中,确定分割超平面,并将处在分割超平面一侧的定义为一个类别,完成分类。
另一方面,本发明提供了一种情感分类系统,该系统包括:处理模块、计算模块和分类模块;
处理模块用于对待测样本进行数据预处理操作,获得待测样本的特征词集合;
计算模块用于运用朴素贝叶斯算法对待测样本的特征词集合进行运算,生成待测样本的特征集合所属类别的概率;
分类模块用于运用支持向量机对待测样本的特征集合所属类别的概率进行修正,确定待测样本的分类。
优选地,处理模块包括数据爬取单元、清洗去噪单元、文本分词单元和特征提取单元;其中,
数据爬取单元用于对待测样本进行数据爬取操作,确定待测样本的情感倾向;
清洗去噪单元用于对待测样本运用进行数据清洗去噪操作,剔除待测样本中不需要的部分,不需要的部分包括待测样本的格式和标题;
文本分词单元用于进行分词,英文语法和拼写错误纠正,并使用正则表 达式去除标点符号和长度小于3的单词,并将单词转换为小写;
特征提取单元进行特征提取,过滤掉文本中对于表达情感和话题贡献不大的词语,压缩文本处理后生成向量空间的维数。
优选地,系统还包括构建情感词典模块;
构建情感词典模块用于对待测样本的特征集合构建情感词典,并根据情感词典生成待测样本的特征集合所属类别的概率。
优选地,构建情感词典单元具体用于:
对待测样本的特征集合进行高频词移除,优化特征词集合;
选取优化后的特征词集合的所属类别最大的特征词,定义为所属类别最大特征词集合,并将所属类别最大特征词集合的并集,定义为情感词典;
基于情感词典,生成待测样本的所属类别的概率。
本发明通过构建跨文化传播领域的情感词典和情感特征词,更细粒度地分析跨文化传播视角下的互联网用户情感,提高情感分类的准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种情感分类方法的结构流程图;
图2为本发明实施例提供的另一种情感分类方法的结构流程图;
图3为图1和图2中数据预处理的结构流程图;
图4为图2中构建情感词典的结构流程图;
图5为本发明实施例提供的一种情感分类系统的结构示意图;
图6为本发明实施例提供的另一种情感分类系统的结构示意图;
图7为本发明实施例对比图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
本发明的情感分类主要有基于规则和基于统计两种方法。由于新词的不断出现、表达方式的变化以及复杂的语言处理使得基于规则的情感分类方法难以适用。基于统计的情感分类方法则是采用机器学习方法和文本表示模型。其中,情感分析主要采用的机器学习方法包括:朴素贝叶斯(Naive Bayesian)、K近邻(K-Nearest Neighbor,KNN)、支持向量机(Support Vector Machine,SVM)。文本表示模型主要采用向量空间模型(vector space model,VSM),VSM认为文档都是在词典空间中进行表示的,即一个文档是一个一对多的映射,表现为文档->词。
图1为本发明实施例提供的一种情感分类方法的结构流程图。如图1所示,情感分类方法包括的步骤如下:
步骤s100:对待测样本进行数据预处理操作,获得待测样本的特征词集合;
步骤S110:运用朴素贝叶斯算法对待测样本的特征词集合进行运算,生成待测样本的特征集合所属类别的概率;
步骤S120:运用支持向量机对待测样本的特征集合所属类别的概率进行修正,确定待测样本的分类。
本发明通过数据预处理操作对待测样本进行处理,得到待测样本的特征词集合;再通过朴素贝叶斯算法对特征词集合进行运算得到特征集合所属类别的概率;接着运用支持向量机对朴素贝叶斯算法计算出概率进行修正,提高分类的准确性。
图2为本发明实施例提供的另一种情感分类方法的结构流程图。如图2所示,情感分类方法的步骤包括以下步骤:
步骤S200:运用朴素贝叶斯算法对待测样本的特征词集合进行运算,生 成待测样本的特征集合所属类别的概率;
步骤S210:对所述待测样本的特征集合构建情感词典,并根据所述情感词典生成所述待测样本的特征集合所属类别的概率;
步骤S220:运用支持向量机对待测样本的特征集合所属类别的概率进行修正,确定待测样本的分类。
本发明通过在数据样本集合足够大的时候,构建情感词典,再根据情感词典得到特征词集合的所属类别的概率。一方面降低了所属类别的概率计算的复杂度,另一方面提高了计算概率的准确性。
图3为图1和图2中数据预处理的结构流程图。如图3所示,数据预处理的步骤包括数据爬取、数据清洗去噪、文本分词和特征提取;其中;
步骤S300:是数据爬取。为了研究用户发布内容的情感倾向,本发明实施例则是通过爬取了用户所发表帖子的标题及内容。
步骤S310:数据清洗去噪,采用正则表达式剔除数据中不需要的部分,比如html tag。由于英文存在Unicode和utf-8的转换问题,因此将编码统一为Unicode。
步骤S320:文本分词。对文本进行分词(tokenize)、英文语法和拼写错误纠正,并使用正则表达式去除标点符号和长度小于3的单词,并将所有单词转换成小写。
步骤S330:特征提取,这一步最为重要。进行正确的特征提取将有助于提高分类错误率。文本进行分词后形成的特征空间具有高纬度和过于稀疏的问题,会增加运算处理的时间复杂度以及空间复杂度。通过特征选取,过滤掉文本中对于表达情感和话题贡献不大的词语,压缩文本处理后生成的向量空间的维数,提到分类的准确性。为达到这一目的,要对分词后的文本进行以下处理:
(1)去除停用词来过滤掉类似于“the”、“this”这些被大量使用但是没有实际意义的词。可以通过停用词表来去除停用词,也可以采用其 他的操作来去除停用词。
(2)通过词形还原(lemmatization)和词干提取(stemming)获得词的原型并进行同义词的合并。
朴素贝叶斯算法生成样本所属类别的概率的步骤包括:
跨文化传播领域情感词典的构建以从我国6家中央重点对外传播网站(如人民网(http://english.peopledaily.com.cn/)、新闻网(http://www.news.cn/english/)、中国网(http://www.china.org.cn/index.htm)、“国际在线”(http://www.cri.com.cn)、中国日报网站(http://www.chinadaily.com.cn)、央视国际(http://english.cntv.cn/))抓取的数据为来源,采取人工标注情感,根据朴素贝叶斯分类器计算每个单词的极性强度,再根据文本频率选取特征、优化文本向量空间、构建跨文化传播领域的情感词典以及统计每个文本的情感倾向概率值。
令di,i∈[1,N]表示抓取的一个数据文本(新闻报道、事件评论等),N为数据集合样本的个数。
经过数据预处理以后,得到特征词集合A1,A2,...,An,则每个文本可用一个n维特征向量表示如下:
di=(wi1,wi2,...,win)
其中,wik表示文本di对特征词Ak的度量,例如特征词Ak在文本di出现的次数。根据朴素贝叶斯原理,给定一个未知的数据文本di(即没有类标号),计算di属于类别Cj的概率P(Cj|di)计算如下:
P ( C j | d i ) = p ( d i | C j ) p ( C j ) p ( d i )
p(di)对所有类别为常数,取因此只需要计算p(di|Cj)p(Cj)。 p(Cj)计算如下:
p ( C j ) = N j N
其中,Nj表示在样本集合中类别Cj的文本个数。根据特征项之间条件独立的朴素假定,即特征之间不存在依赖关系,可得p(di|Cj)如下:
p(di|Cj)=p(wi1|Cj)p(wi2|Cj)...p(win|Cj)
其中,p(wik|Cj)=wik×p(Ak|Cj),k∈[1,n],即p(wik|Cj)等于特征词Ak在文本di中的度量值wik乘以p(Ak|Cj)。而p(Ak|Cj)表示在类别Cj中出现特征词Ak的概率,等于特征词Ak在类别Cj中出现的次数除以特征词Ak在数据集合中出现的总次数。
综合公式
p(di|Cj)=p(wi1|Cj)p(wi2|Cj)...p(win|Cj)可得到P(Cj|di)的计算:
P ( C j | d i ) = N j Σ k = 1 , w i k ≠ 0 n w i k p ( A k | C j )
对每个文档di,i∈[1,N],计算m个P(Cj|di),j=1,2...,m,将其表示为m维的概率向量Xi
Xi=(P(C1|di),P(C2|di)...,P(Cm|di))
需要说明的是,本发明实施例采用朴素贝叶斯算法来计算所属类别的概率,并不是固定的方法,只是很符合本发明实施例中概率的计算,具体的方法可以根据对样本不同的分类来做调整。
本发明实施例采用多分类方法,令m表示情感分类的类别。例如取m=5,定义文本的情感分为积极、一般积极、中性、一般消极和消极,用类别C1,C2,C3,C4,C5表示。在实际应用过程中,分类的类别个数越多,有助于细化情感倾向程度,但可能导致分类算法的时间复杂度过高。因此,分类的类别个数通过均衡数据集合的情感倾向程度以及分类的时间复杂度要求 后决定。
图4为图2中构建情感词典的结构流程图,如图4所示,利用朴素贝叶斯算法生成情感词典所属类别的概率的步骤包括:
从朴素贝叶斯算法生成样本所属类别的概率的步骤中计算p(di|Cj),i∈[1,N],j∈[1,m,]则要求p(Ak|Cj),k∈[1,n],j∈[1,m],即求在每一个类别下出现每一个特征词的概率值。如果令数据集合的样本足够大,根据p(Ak|Cj),k∈[1,n],j∈[1,m]可以构建跨文化传播领域的情感词典,并根据构建的情感词典优化朴素贝叶斯算法生成样本所属类别的概率的步骤中对文本的多分类情感概率计算。具体步骤如下:
移除高频词。对进行数据预处理后得到特征词集合A1,A2,...,An进一步移除高频词。在China Daily英文论坛抓取了32000篇英文本文进行数据预处理得到特征词集合后发现,出现次数最多的30个词涵盖了所有用词的30%,产生这个现象的原因是语言中大部分都是冗余的和结构辅助性内容。在A1,A2,...,An基础上移除出现频次最高的Top-N个高频词,进一步精简特征词集合。N的选取根据实际数据集合用统计方法得到。
构建情感词典。在移除高频词的特征词集合基础上,针对每一个类别Cj,j∈[1,m],选取p(Ak|Cj)值最大的Top-M特征词,用集合ΑMj表示。p(Ak|Cj)值越大意味着在类别Cj出现Ak的概率越大,则Ak越能代表类别Cj的特征。将每一个类别选取的Top-M特征词的并集,即ΑM1∪ΑM2...∪ΑMm,定义为构建的情感词典,用A1,A2,...,An'表示。情感词典中的每一个特征词Ak属于每一个情感类别的概率用p(Ak|C1),p(Ak|C2),...,p(Ak|Cm)表示,其中p(Ak|Cj)等于特征词Ak在类别Cj中出现的次数除以特征词Ak在数据集合中出现的总次数。
基于构建的情感词典,根据朴素贝叶斯算法生成样本所属类别的概率的步骤中计算所属类别的概率中的公式重新计算每个文本的多分类情感概率。将情感词典中的特征词集合用A1,A2,...,An'表示,该情感词典中的特征词数量远 远小于经过图3中数据预处理后的特征词集合,并且更能代表跨文化传播领域的特征;一方面降低多分情感概率计算的复杂度,另一方面提高情感计算的准确性。
运用支持向量机对朴素贝叶斯算法预测的分类效果进行修正,提高情感分类的准确性的步骤包括:
利用朴素贝叶斯算法得到每个文档di在情感类别分布概率向量Xi。朴素贝叶斯算法取Xi中最大的P(Cj|di),j=1,2...,m值,即将类别Cj*=max{Cj:P(Cj|di),j=1,2...,m}定义为文档di的类别。然而这种方法可能会导致错误的情感分类,如某一个文档在5分类情感分析中计算得到的情感分布概率向量分别为0.255,0.245,0.265,0.26,0.24。由于5个概率值非常接近,取最大值将文档类别定义为类别3并不合适,合理的文档分类应该考虑训练集中所有文档的5维概率向量情况决定,即考虑当前文档与其他文档之间的关系,将数据集合聚类后决定文档的所属类别。因此,本提案提出利用支持向量机算法进一步优化基于朴素贝叶斯算法得到的多分类情感概率结果,通过计算每个文档之间的距离,对数据集合中的文档聚类后决定每个文档的所属类别。
将每个文档di看作m维空间的一个点,具体在m维空间的位置由其情感类别分布概率向量Xi决定。数据集合中的N个文档表现为m维空间中的N个点。利用支持向量机算法在m维空间找到将数据集分隔开的分割超平面,将分布在分割超平面一侧的所有点定义为一个类别。
分割超平面可表示为WTX+b,其中W和b可通过支持向量机的具体实现方法如序列最小优化算法得到,并不在本提案设计的范畴。在m类别情感分类中,通过支持向量机找到m-1个分割超平面,用 表示。于是对于每个文档di,其所属类别的判定如下:
(1)如果则文档di属于类别1,结束判断;反之跳到(2)
(2)如果则文档di属于类别m,结束判断;反之跳到(3)
(3)对于j∈[2,m-2],如果定义文档属于类别j,结束判断。
图5本发明实施例提供的一种情感分类系统的结构示意图。如图5所示,该情感分类系统包括:处理模块、计算模块和分类模块;
处理模块用于对待测样本进行数据预处理操作,获得待测样本的特征词集合;
计算模块用于运用朴素贝叶斯算法对待测样本的特征词集合进行运算,生成待测样本的特征集合所属类别的概率;
分类模块用于运用支持向量机对待测样本的特征集合所属类别的概率进行修正,确定待测样本的分类。
图6为本发明实施例提供的另一种情感分类系统的结构示意图。如图6所示,该情感系统包括:处理模块、构建情感模块和分类模块;
处理模块用于对待测样本进行数据预处理操作,获得待测样本的特征词集合;
所述构建情感词典模块用于对所述待测样本的特征集合构建情感词典,并根据所述情感词典生成所述待测样本的特征集合所属类别的概率;
分类模块用于运用支持向量机对待测样本的特征集合所属类别的概率进行修正,确定待测样本的分类。
图5和图6都是情感分类的系统,图6在图5的基础上进行了改进,降低了情感分类概率计算的复杂度,同时提高了情感分类的准确度。
图7为本发明实施例的对比图。如图7所示,为验证本方案的具体效果,我们选取了China Daily英文论坛的文本进行情感研究,共爬取了32000篇文本,通过去掉客观性描述的文本,最后选择了具有代表性(内容丰富、回帖多于一页)的主观性描述的6000篇文本进行4分类的情感分 析,即(积极,一般积极,一般消极,消极)。经过数据预处理、去掉高频词以及TOP-M特征词选取后得到构建的情感词典和情感词典中每个特征词所属情感类别的概率。该情感词典包括14303个特征词,表中列举了一部分具有代表性的特征词。
从表中可以看出不同领域的情感词汇有区别,在跨文化传播领域credit(信用)、country(国家)、school(学校)、world(世界)、government(政府)是最常讨论的话题,因此情感词典里有credit、festival、upgrade、wedding这些一般情感词典不具备的特征词。可见建立跨文化传播领域的情感词典很有必要。此外,由于China Daily论坛中帖子的话题大多集中在对某一社会话题的探讨,情感倾向并非极端,表现在情感词典中每个情感特征词都可能在每个类别中出现,因此表中的概率值没有出现0值。最后,本发明实施例采用的6000个样本集仅仅作为一个实施例,为了保证生成情感词典的完备性和准确性,需要大量的训练集进行统计。
在生成情感词典后,并根据朴素贝叶斯算法生成样本所属类别的概率的步骤中计算所属类别概率的公式计算每个文本的多分类情感概率后,我们进一步验证在多分类情感概率计算基础上利用支持向量机进行情感分类的效果。本发明实施例通过随机选取5000篇文档作为训练集,1000篇文档作为测试集。本发明实施例的评价方法采用留存交叉验证求出错误率,并通过多次迭代来更精确地估计平均错误率。
图7为本发明实施例的方法与传统的取P(C1|di),P(C2|di)...,P(Cm|di)中最大概率值分类方法的错误率性能比较。可以看出,在进行的10次留存交叉验证实验过程中,本发明实施例的情感分类错误率远远小于取最大概率值分类方法,表明通过构建情感词典、计算文本的多分类情感概率、再利用支持向量机进行分类能够提高文本的情感分类概率。
情感分类错误率比较示例中支持向量机参数为RBF,k1=20,C=1。
内核函数 K1 C 错误率
Linear 1.3 0.3 0.35
RBF 20 200 0.1025
RBF 20 10 0.09
RBF 20 0.0001 0.3425
RBF 20 0.1 0.2925
RBF 20 1 0.23
RBF 20 5 0.05
RBF 20 6 0.015
RBF 20 7 0.0175
RBF 20 8 0.035
RBF 1.3 0.3 0.003
本发明实施例在得到每个文本的多分类情感概率向量后,采用的是支 持向量机构建分割超平面进行分类,因此最终分类的性能受到支持向量机采用的内核函数、k1和C参数的影响。上表为列举了不同的支持向量机参数对情感分类错误率的影响。其中,内核函数表示是否采用径向基核函数进行低维空间到高维空间的映射。内核函数为Linear,表示不进行映射,将问题等价于线性问题;而内核函数为RBF时,则表示进行核函数转换。大量对照实验(核函数不同,其他参数相同)证明,本发明实施例设计的问题适用于RBF核函数转换。K1和C是两个用户自定义的参数,针对不同的数据集,需要不同的值以得到问题最优解。
本发明通过构建跨文化传播领域的情感词典和情感特征词,更细粒度地分析跨文化传播视角下的互联网用户情感,提高情感分类的准确率。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种情感分类方法,其特征在于,包括:
对待测样本进行数据预处理操作,获得所述待测样本的特征词集合;
运用朴素贝叶斯算法对所述待测样本的特征词集合进行运算,生成所述待测样本的特征集合所属类别的概率;
运用支持向量机对所述待测样本的特征集合所属类别的概率进行修正,确定所述待测样本的分类。
2.根据权利要求1所述的方法,其特征在于,所述数据预处理的具体步骤包括:
对所述待测样本进行数据爬取操作,确定所述待测样本的情感倾向;
对所述待测样本运用进行数据清洗去噪操作,剔除所述待测样本中不需要的部分,所述不需要的部分包括所述待测样本的格式和标题;
对所述待测样本进行分词,英文语法和拼写错误纠正,并使用正则表达式去除标点符号和长度小于3的单词,并将单词转换为小写;
对所述待测样本进行特征提取,过滤掉文本中对于表达情感和话题贡献不大的词语,压缩文本处理后生成向量空间的维数。
3.根据权利要求2所述的方法,其特征在于,所述特征提取的具体步骤包括:
对所述待测样本进行分词后运用停用词表去除停用词;
通过词形还原和词干提取获得词的原型,并进行同义词的合并,完成所述待测样本的特征提取。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述待测样本的特征集合构建情感词典,并根据所述情感词典生成所述待测样本的特征集合所属类别的概率。
5.根据权利要求4所述的方法,其特征在于,所述对所述待测样本的特征集合构建情感词典,并根据所述情感词典生成所述待测样本的特征集合所属类别的概率的步骤包括:
对所述待测样本的特征集合进行高频词移除,优化所述特征词集合;
选取所述优化后的特征词集合的所属类别最大的特征词,定义为所属类别最大特征词集合,并将所述所属类别最大特征词集合的并集,定义为所述情感词典;
基于所述情感词典,生成所述待测样本的所属类别的概率。
6.根据权利要求1所述的方法,其特征在于,所述运用支持向量机对所述待测样本的特征集合所属类别的概率进行修正,确定所述待测样本的分类的步骤具体包括:
运用支持向量机算法在m维空间中,确定分割超平面,并将处在所述分割超平面一侧的定义为一个类别,完成分类。
7.一种情感分析系统,其特征在于,包括:处理模块、计算模块和分类模块;
所述处理模块用于对待测样本进行数据预处理操作,获得所述待测样本的特征词集合;
所述计算模块用于运用朴素贝叶斯算法对所述待测样本的特征词集合进行运算,生成所述待测样本的特征集合所属类别的概率;
所述分类模块用于运用支持向量机对所述待测样本的特征集合所属类别的概率进行修正,确定所述待测样本的分类。
8.根据权利要求1所述的系统,其特征在于,所述处理模块包括数据爬取单元、清洗去噪单元、文本分词单元和特征提取单元;其中,
所述数据爬取单元用于对所述待测样本进行数据爬取操作,确定所述待测样本的情感倾向;
所述清洗去噪单元用于对所述待测样本运用进行数据清洗去噪操作,剔除所述待测样本中不需要的部分,所述不需要的部分包括所述待测样本的格式和标题;
所述文本分词单元用于进行分词,英文语法和拼写纠正,并使用正则表达式去除标点符号和长度小于3的单词,并将单词转换为小写;
所述特征提取单元进行特征提取,过滤掉文本中对于表达情感和话题贡献不大的词语,压缩文本处理后生成向量空间的维数。
9.根据权利要求7所述的系统,其特征在于,所述系统还包括构建情感词典模块;
所述构建情感词典模块用于对所述待测样本的特征集合构建情感词典,并根据所述情感词典生成所述待测样本的特征集合所属类别的概率。
10.根据权利要求9所述的系统,其特征在于,所述构建情感词典单元具体用于:
对所述待测样本的特征集合进行高频词移除,优化所述特征词集合;
选取所述优化后的特征词集合的所属类别最大的特征词,定义为所属类别最大特征词集合,并将所述所属类别最大特征词集合的并集,定义为所述情感词典;
基于所述情感词典,生成所述待测样本的所属类别的概率。
CN201610197160.9A 2016-03-31 2016-03-31 情感分类方法及系统 Active CN105912576B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610197160.9A CN105912576B (zh) 2016-03-31 2016-03-31 情感分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610197160.9A CN105912576B (zh) 2016-03-31 2016-03-31 情感分类方法及系统

Publications (2)

Publication Number Publication Date
CN105912576A true CN105912576A (zh) 2016-08-31
CN105912576B CN105912576B (zh) 2020-06-09

Family

ID=56744505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610197160.9A Active CN105912576B (zh) 2016-03-31 2016-03-31 情感分类方法及系统

Country Status (1)

Country Link
CN (1) CN105912576B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599072A (zh) * 2016-11-21 2017-04-26 东软集团股份有限公司 一种文本聚类方法及装置
CN106844743A (zh) * 2017-02-14 2017-06-13 国网新疆电力公司信息通信公司 维吾尔语文本的情感分类方法及装置
CN107291902A (zh) * 2017-06-23 2017-10-24 中国人民解放军国防科学技术大学 一种基于混合分类技术的大众贡献审阅自动标注方法
CN107608961A (zh) * 2017-09-08 2018-01-19 广州汪汪信息技术有限公司 基于视角的情感分析方法、电子设备、存储介质、系统
CN107783959A (zh) * 2017-09-02 2018-03-09 南京中孚信息技术有限公司 一种基于贝叶斯预测的处警、接警信息评分方法
CN108319692A (zh) * 2018-02-01 2018-07-24 北京云知声信息技术有限公司 异常标点清洗方法、存储介质及服务器
CN108647212A (zh) * 2018-05-18 2018-10-12 大连民族大学 机器学习的影评情感倾向性分析中形成特征集合的方法
CN108733652A (zh) * 2018-05-18 2018-11-02 大连民族大学 基于机器学习的影评情感倾向性分析的测试方法
CN108763203A (zh) * 2018-05-18 2018-11-06 大连民族大学 影评情感分析中使用特征词集将影评以特征向量表示的方法
CN108846431A (zh) * 2018-06-05 2018-11-20 成都信息工程大学 基于改进贝叶斯模型的视频弹幕情感分类方法
CN109191354A (zh) * 2018-08-21 2019-01-11 安徽讯飞智能科技有限公司 一种基于自然语言处理的全民社管任务分发方法
CN109948148A (zh) * 2019-02-28 2019-06-28 北京学之途网络科技有限公司 一种文本信息情感判定方法和判定装置
CN110069780A (zh) * 2019-04-19 2019-07-30 中译语通科技股份有限公司 一种基于特定领域文本的情感词识别方法和系统
CN110852111A (zh) * 2018-08-03 2020-02-28 天津大学 能同时过滤无关评论和对相关评论进行情感分类的方法
CN111221962A (zh) * 2019-11-18 2020-06-02 重庆邮电大学 一种基于新词扩展与复杂句式扩展的文本情感分析方法
CN111753082A (zh) * 2020-03-23 2020-10-09 北京沃东天骏信息技术有限公司 基于评论数据的文本分类方法及装置、设备和介质
CN112690793A (zh) * 2020-12-28 2021-04-23 中国人民解放军战略支援部队信息工程大学 情绪脑电迁移模型训练方法、系统及情绪识别方法和设备
CN113032791A (zh) * 2021-04-01 2021-06-25 深圳市纽创信安科技开发有限公司 一种ip核、ip核的管理方法和芯片

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116637A (zh) * 2013-02-08 2013-05-22 无锡南理工科技发展有限公司 一种面向中文Web评论的文本情感分类方法
US8949211B2 (en) * 2011-01-31 2015-02-03 Hewlett-Packard Development Company, L.P. Objective-function based sentiment
CN104331506A (zh) * 2014-11-20 2015-02-04 北京理工大学 一种面向双语微博文本的多类情感分析方法与系统
CN104951548A (zh) * 2015-06-24 2015-09-30 烟台中科网络技术研究所 一种负面舆情指数的计算方法及系统
CN105335352A (zh) * 2015-11-30 2016-02-17 武汉大学 基于微博情感的实体识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8949211B2 (en) * 2011-01-31 2015-02-03 Hewlett-Packard Development Company, L.P. Objective-function based sentiment
CN103116637A (zh) * 2013-02-08 2013-05-22 无锡南理工科技发展有限公司 一种面向中文Web评论的文本情感分类方法
CN104331506A (zh) * 2014-11-20 2015-02-04 北京理工大学 一种面向双语微博文本的多类情感分析方法与系统
CN104951548A (zh) * 2015-06-24 2015-09-30 烟台中科网络技术研究所 一种负面舆情指数的计算方法及系统
CN105335352A (zh) * 2015-11-30 2016-02-17 武汉大学 基于微博情感的实体识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
J LI 等: "Chinese Text Emotion Classification Based On Emotion Dictionary", 《IEEE SYMPOSIUM ON WEB SOCIETY》 *
YUEMEI XU 等: "A Novel NB-SVM-Based Sentiment Analysis Algorithm in Cross-Cultural Communication", 《INTERNATIONAL CONFERENCE ON APPLICATIONS AND TECHNIQUES IN INFORMATION SECURITY》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599072A (zh) * 2016-11-21 2017-04-26 东软集团股份有限公司 一种文本聚类方法及装置
CN106844743B (zh) * 2017-02-14 2020-04-24 国网新疆电力公司信息通信公司 维吾尔语文本的情感分类方法及装置
CN106844743A (zh) * 2017-02-14 2017-06-13 国网新疆电力公司信息通信公司 维吾尔语文本的情感分类方法及装置
CN107291902A (zh) * 2017-06-23 2017-10-24 中国人民解放军国防科学技术大学 一种基于混合分类技术的大众贡献审阅自动标注方法
CN107291902B (zh) * 2017-06-23 2020-05-08 中国人民解放军国防科学技术大学 一种基于混合分类技术的大众贡献审阅自动标注方法
CN107783959A (zh) * 2017-09-02 2018-03-09 南京中孚信息技术有限公司 一种基于贝叶斯预测的处警、接警信息评分方法
CN107608961A (zh) * 2017-09-08 2018-01-19 广州汪汪信息技术有限公司 基于视角的情感分析方法、电子设备、存储介质、系统
CN108319692A (zh) * 2018-02-01 2018-07-24 北京云知声信息技术有限公司 异常标点清洗方法、存储介质及服务器
CN108319692B (zh) * 2018-02-01 2021-03-19 云知声智能科技股份有限公司 异常标点清洗方法、存储介质及服务器
CN108647212A (zh) * 2018-05-18 2018-10-12 大连民族大学 机器学习的影评情感倾向性分析中形成特征集合的方法
CN108763203A (zh) * 2018-05-18 2018-11-06 大连民族大学 影评情感分析中使用特征词集将影评以特征向量表示的方法
CN108763203B (zh) * 2018-05-18 2022-11-11 大连民族大学 影评情感分析中使用特征词集将影评以特征向量表示的方法
CN108733652A (zh) * 2018-05-18 2018-11-02 大连民族大学 基于机器学习的影评情感倾向性分析的测试方法
CN108846431A (zh) * 2018-06-05 2018-11-20 成都信息工程大学 基于改进贝叶斯模型的视频弹幕情感分类方法
CN108846431B (zh) * 2018-06-05 2021-09-28 成都信息工程大学 基于改进贝叶斯模型的视频弹幕情感分类方法
CN110852111A (zh) * 2018-08-03 2020-02-28 天津大学 能同时过滤无关评论和对相关评论进行情感分类的方法
CN109191354A (zh) * 2018-08-21 2019-01-11 安徽讯飞智能科技有限公司 一种基于自然语言处理的全民社管任务分发方法
CN109948148A (zh) * 2019-02-28 2019-06-28 北京学之途网络科技有限公司 一种文本信息情感判定方法和判定装置
CN110069780B (zh) * 2019-04-19 2021-11-19 中译语通科技股份有限公司 一种基于特定领域文本的情感词识别方法
CN110069780A (zh) * 2019-04-19 2019-07-30 中译语通科技股份有限公司 一种基于特定领域文本的情感词识别方法和系统
CN111221962A (zh) * 2019-11-18 2020-06-02 重庆邮电大学 一种基于新词扩展与复杂句式扩展的文本情感分析方法
CN111221962B (zh) * 2019-11-18 2023-05-26 重庆邮电大学 一种基于新词扩展与复杂句式扩展的文本情感分析方法
CN111753082A (zh) * 2020-03-23 2020-10-09 北京沃东天骏信息技术有限公司 基于评论数据的文本分类方法及装置、设备和介质
CN112690793B (zh) * 2020-12-28 2023-05-16 中国人民解放军战略支援部队信息工程大学 情绪脑电迁移模型训练方法、系统及情绪识别方法和设备
CN112690793A (zh) * 2020-12-28 2021-04-23 中国人民解放军战略支援部队信息工程大学 情绪脑电迁移模型训练方法、系统及情绪识别方法和设备
CN113032791A (zh) * 2021-04-01 2021-06-25 深圳市纽创信安科技开发有限公司 一种ip核、ip核的管理方法和芯片
CN113032791B (zh) * 2021-04-01 2024-05-31 深圳市纽创信安科技开发有限公司 一种ip核、ip核的管理方法和芯片

Also Published As

Publication number Publication date
CN105912576B (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
CN105912576A (zh) 情感分类方法及系统
Neelakandan et al. A gradient boosted decision tree-based sentiment classification of twitter data
CN102929861B (zh) 一种文本情感指数计算方法和系统
CN105468713A (zh) 一种多模型融合的短文本分类方法
CN101520802A (zh) 一种问答对的质量评价方法和系统
CN112749341B (zh) 重点舆情推荐方法、可读存储介质及数据处理装置
CN106202372A (zh) 一种网络文本信息情感分类的方法
Ginting et al. Hate speech detection on twitter using multinomial logistic regression classification method
CN103177024A (zh) 一种话题信息展现方法和装置
CN104951548A (zh) 一种负面舆情指数的计算方法及系统
Gao et al. Generation of topic evolution graphs from short text streams
CN107463703A (zh) 基于信息增益的英文社交媒体账号分类方法
CN107463715A (zh) 基于信息增益的英文社交媒体账号分类方法
CN111339772B (zh) 俄语文本情感分析方法、电子设备和存储介质
CN104794209B (zh) 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统
Zhang et al. Sentiment analysis of China's education policy online opinion based on text mining
Hasanati et al. Implementation of support vector machine with lexicon based for sentimenT ANALYSIS ON TWITter
Wang et al. Joint Learning on Relevant User Attributes in Micro-blog.
Baboo et al. Sentiment analysis and automatic emotion detection analysis of twitter using machine learning classifiers
Al-Anzi et al. A micro-word based approach for arabic sentiment analysis
Fatihin et al. Public Sentiment on User Reviews about Application in Handling COVID-19 using Naive Bayes Method and Support Vector Machine
Khatoon Real-time twitter data analysis of Saudi telecom companies for enhanced customer relationship management
Banados et al. Optimizing support vector machine in classifying sentiments on product brands from Twitter
Shah et al. Cyber-bullying detection in hinglish languages using machine learning
CN112507115B (zh) 一种弹幕文本中情感词的分类方法、装置及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant