CN105824922B - 一种融合深层特征和浅层特征的情感分类方法 - Google Patents

一种融合深层特征和浅层特征的情感分类方法 Download PDF

Info

Publication number
CN105824922B
CN105824922B CN201610151146.5A CN201610151146A CN105824922B CN 105824922 B CN105824922 B CN 105824922B CN 201610151146 A CN201610151146 A CN 201610151146A CN 105824922 B CN105824922 B CN 105824922B
Authority
CN
China
Prior art keywords
text
word
vector
corpus
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610151146.5A
Other languages
English (en)
Other versions
CN105824922A (zh
Inventor
唐贤伦
周冲
周家林
白银
刘想德
张毅
马艺玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201610151146.5A priority Critical patent/CN105824922B/zh
Publication of CN105824922A publication Critical patent/CN105824922A/zh
Application granted granted Critical
Publication of CN105824922B publication Critical patent/CN105824922B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明请求保护一种融合深层特征和浅层特征的情感分类方法,选用融合Doc2vec的深层特征和TF‑IDF的浅层特征来表示文本的特征,该融合方法不仅解决了Doc2vec中固定词特征表述不清楚的问题,而且也解决了TF‑IDF方法没有考虑到词语之间语义的问题,使得文本向量对于文本的表示更加清楚。选用SVM分类方法,分类器的分类性能较好。结合上述方法处理情感分类问题可显著提高情感分类的准确率。

Description

一种融合深层特征和浅层特征的情感分类方法
技术领域
本发明属于一种情感分类方法,尤其涉及一种融合深层特征和浅层特征的情感分类方法。
背景技术
情感分析是一种常见的自然语言处理(NLP)方法的应用,特别是在以提取文本的情感内容为目标的分类方法中。情感分类已经有很多有用的实践,比如企业分析消费者对产品的反馈信息,或者检测在线评论中的差评信息。
情感文本的向量表示一般有两种表达方式,One-hot Representation和Distributed Representation。One-hot Representation最大的问题是无法分析词与词之间的语义关系,此外这种方法还容易发生维数灾难。Distributed Representation方法则很好地克服了这些缺点,其中word2vec就是Distributed Representation的典型代表。word2vec是深度学习模型,虽然word2vec很好的分析了词与词之间的语义关系并且解决了维数灾难问题,但是没有考虑到词与词之间的顺序问题,因此不同的句子可能会有相同的表示,从而导致误判率较高。Doc2vec跟word2vec很相似,Doc2vec在word2vec的模型的基础上增加了一个段落向量(Paragraph Id)。Doc2vec不但考虑到了词与词之间的语义关系,并且解决了维数灾难,还考虑到了词与词之间的顺序问题。虽然Doc2vec解决了词与词之间的语义关系,但是词语本身的特征描述却被淡化,因此,可以把Doc2vec训练出来的特征称为深层特征。
TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。用TF-IDF方法来表示文本特征时,文本特征的每一维都表示文本中的一个固定的词,虽然单个词语的特征表示很清楚,却忽略了词与词之间的语义关系。因此,与深层特征相对应,把TF-IDF训练出来的特征称为浅层特征。
融合Doc2vec的深层特征和TF-IDF的浅层特征向量,可弥补两种算法各自的不足之处,使得文本的特征向量表示更准确,显著提高情感分类的准确率。
发明内容
针对以上技术的不足,提出了一种可显著提高情感分类的准确率的融合深层特征和浅层特征的情感分类方法。本发明的技术方案如下:一种融合深层特征和浅层特征的情感分类方法,其包括以下步骤:
步骤1:根据已经准备好的情感文本语料集,人工标记类别,积极情绪的文本语料标签为1,消极情绪的文本语料标签为2,并将情感文本语料集分为训练语料集和测试语料集;
步骤2:采用基于词典逆向最大匹配算法和统计分词策略相结合的中文分词算法对步骤1中经过人工标记类别的语料进行分词,然后去除语料中的停用词;
步骤3:对语料的分词、去停用词工作完成后提取语料中的标签、名词、副词、形容词和介词组成新的语料,采用TF-IDF对得到的新语料进行训练并得到情感文本的浅层特征向量;得到情感文本的浅层特征向量后采用Doc2vec对经过步骤2分词、去停用词后的语料进行训练,得到词向量模型和情感文本的深层特征向量;
步骤4:将步骤3中得到的浅层特征向量和深层特征向量进行融合,得到新的情感文本特征向量,所述新的情感文本特征向量包括训练语料集的情感文本特征向量和测试语料集的文本特征向量;
步骤5:将步骤4中得到的训练语料集的情感文本特征向量输入SVM训练出情感分类模型;
步骤6:将步骤4中得到的测试语料集的文本特征向量输入SVM,根据步骤5中已经训练好的情感分类模型进行情感类别分类并计算出情感分类的准确率。
进一步的,所述步骤2采用基于词典逆向最大匹配算法具体为:分级构造分词词典,由核心词典和临时词典两部分构成分词词典集合,统计出权威性的词条语料,采用二级哈希结构存储构造核心词典,选取情感词典作为临时词典加载的语料;分词词典初步构成后,分词系统进入自主学习阶段,对情感文本进行分词时,如果临时词典中有新统计的词,该词的词频加一,否则将该新词重新加入临时词典;累计词频后判断词频是否满足设定阈值,若满足则移到核心词典中,并在临时词典中清空该词条,统计记录学习情感文本的数量,若大于预定值,则清空临时词典;采用更新后的核心词典中的词条作为分词依据。
进一步的,步骤2中分完词后,每个文本是由以空格隔开的单词组成的文本语料;然后搜集停用词表,人工删除停用词表中对实验有用的词汇,并根据停用词表去除分完词后的语料中的停用词。
进一步的,所述步骤3利用正则表达式,提取步骤2中的得到的语料中的标签、名词、副词、形容词和介词组成新的语料。
进一步的,所述步骤3采用Doc2vec对经过步骤2分词、去停用词后的语料进行训练,具体为:使用Doc2vec中基于Hierarchical Softmax算法的PV-DM模型,将步骤2中处理好的的语料输入模型中,把每个长度可变段落和对应段落中的每个词分别映射成唯一的段落向量和唯一的词向量,将所有文本向量和所有对应的词向量累加或者连接起来,作为输出层Softmax的输入;构建目标函数,在训练过程中保持文本向量不变,使用随机梯度上升法进行词向量更新,在预测阶段保持已经更新好的词向量和输出层Softmax的参数不变,重新利用随机梯度上升法训练待预测的文本,得到最终的情感文本深层特征向量并将这些深层特征向量处理成可以使用SVM的数据格式。
进一步的,所述步骤3采用TF-IDF对得到的新语料进行训练并得到情感文本的浅层特征向量的步骤具体为:首先计算一个文本中的其中一个词的词频,然后再计算这个词的反文档频率,把这个词的词频和反文档频率相乘就得到了这个的TF-IDF值;然后将一个情感文本中的所有词语都计算一遍,将得到的TF-IDF值放入到一个新的文本中就得到了这个文本的浅层特征向量,最后计算出所有文本的浅层特征向量。
进一步的,所述步骤4:将步骤3中得到的浅层特征向量和深层特征向量进行融合,得到新的情感文本特征向量具体为:将所有文本浅层特征向量放入到一个文本中,每一行代表一个文本向量,同样将得到的所有深层文本向量也放入到一个文本中,每一行也代表一个文本向量,设定两种特征的权重比为1:1,将两个文本的每一行直接进行首尾相连,得到新的情感文本特征向量。
进一步的,所述步骤5具体为:将步骤4中得到的情感文本特征向量输入SVM,最优超平面中的核函数设计为非线性核函数,把输入空间Rn映射到m维的特征空间,在高维空间中构造分界超平面:将积极情绪文本和消极情绪文本分开,式中wj *是连接特征空间至输出空间的权值,b*为偏置值,φ(x)为向量x在高维特征空间的非线性映射,训练完成后,保存情感分类模型。
进一步的,所述步骤6具体为将步骤4中的语料中的测试集的文本特征向量输入SVM,根据步骤5中已经训练好的模型进行情感类别分类,如果实际输出文本的标签等于1,判定该文本表现的是积极情绪,如果实际输出文本的标签不等于1即标签等于2,判定该文本表现的是消极情绪,统计实际输出文本的标签与期望输出文本的标签之间不同的个数,计算情感分类的准确率。
进一步的,所述Doc2vec中基于Hierarchical Softmax算法的PV-DM模型,PV-DM模型的输入是一个长度可变的段落Paragraph Id和该段落中的所有单词Words,ParagraphId代表的是情感文本,输出是根据ParagraphId和Words预测出的单词,PV-DM模型的训练过程:将每个Paragraph Id和Words分别映射成唯一的段落向量和唯一的词向量,并且将所有Paragraph Vector按列放入矩阵D和所有Word Vector按列放入矩阵W中;将ParagraphVector和WordVector累加或者连接起来,作为输出层Softmax的输入,输出层Softmax是以Paragraph Id中的词条作为叶子结点,词条在文本语料中出现的次数当作权值,构造的哈弗曼树。
本发明的优点及有益效果如下:
本发明选用融合Doc2vec的深层特征和TF-IDF的浅层特征来表示文本的特征,该方法不仅解决了TF-IDF方法没有考虑到词语之间语义的问题,而且也解决了Doc2vec中固定词特征表述不清楚的问题。选用SVM分类方法,使得分类器的分类性能得到较好的改善。结合上述方法处理情感分类问题可显著提高情感分类的准确率。
附图说明
图1是本发明提供优选实施例一种融合深层特征和浅层特征的情感分类方法的流程图。
具体实施方式
以下结合附图,对本发明作进一步说明:
如图1所示,本发明融合深层和浅层特征的情感分类方法的具体步骤是:
步骤1:从网上搜集情感文本语料集,人工标记类别,如情感表现为积极情绪的文本标签为1,情感表现为消极情绪的文本标签为2。并且去除文本的首尾空格,将文本里的数据表示成一个句子,这样方便后续的处理工作。并将语料集分为训练集和测试集。训练集用来训练情感分类的模型,测试集用来测试模型分类的效果。
步骤2:首先从网上搜集情感词典,情感词典是文本情感分析的基础资源,实际就是情感词的集合。从广义上讲,指包含感情倾向性的短语或者句子;从狭义上讲,指包含有感情倾向性的词语集合。情感词典一般包含两个部分,正面情感词词典和负面情感词词典。
然后对步骤1中的语料集进行中文分词,本文使用的分词方法是基于词典逆向最大匹配算法和统计分词策略相结合的中文分词算法。分级构造分词词典,由核心词典和临时词典两部分构成分词词典集合。统计出权威性的词条语料,采用二级哈希结构存储构造核心词典。选取情感词典作为临时词典加载的语料。分词词典初步构成后,分词系统进入自主学习的阶段,对情感文本进行分词时,如果临时词典中有新统计的词,该词的词频加一,否则将该新词重新加入临时词典。累计词频后判断词频是否满足设定阈值,若满足则移到核心词典中,并在临时词典中清空该词条。统计记录学习情感文本的数量,若大于预定值,则清空临时词典。采用更新后的核心词典中的词条作为分词依据,采用逆向最大匹配算法进行情感文本的分词。
分完词后,每个文本是由以空格隔开的单词组成的文本语料。然后搜集停用词表,人工删除停用词表中对实验有用的词汇,并根据停用词表去除分完词后的语料中的停用词。去除停用词是为了节省存储空间和提高效率。
步骤3:利用正则表达式,提取步骤2中的得到的语料中的标签、名词、副词、形容词和介词组成新的语料。如果文本过大,表示成特征向量时很容易造成维数灾难,提取文本中一部分重要的词语可以更好的表示文本,并且可以解决维数灾难问题。
步骤4:采用Doc2vec对步骤2中的语料训练出词向量模型并得到情感文本深层特征向量。Doc2vec是用来得到词和文本深层特征的浅层模型,它不但考虑到了各词之间的语义关系,而且也考虑到了词与词之间的顺序,能够很好的表示出词与文本的特征。Doc2vec用到两个重要的模型——PV-DBOW和PV-DM模型,针对PV-DBOW和PV-DM两种模型又给出了两套算法——Hierarchical Softmax和Negative Sampling。本文使用基于HierarchicalSoftmax算法的PV-DM模型。PV-DM模型的输入是一个长度可变的段落(Paragraph Id)和该段落中的所有单词(Words),本文中的Paragraph Id代表的是情感文本。输出是根据ParagraphId和Words预测出的单词。
PV-DM模型的训练过程:
将每个Paragraph Id和Words分别映射成唯一的段落向量(Paragraph Vector)和唯一的词向量(Word Vector),并且将所有Paragraph Vector按列放入矩阵D和所有WordVector按列放入矩阵W中。将Paragraph Vector和WordVector累加或者连接起来,作为输出层Softmax的输入。输出层Softmax是以Paragraph Id中的词条作为叶子结点,词条在文本语料中出现的次数当作权值,构造的哈弗曼(Huffman)树。建立目标函数:
其中T代表词向量的个数,wt,wt-k等代表每个词向量。
每个yi是每个词向量i的未规范化对数概率,yi的计算公式为:
y=b+Uh(wt-k,...,wt+k;W,D)(3)
其中U,b是Softmax的参数,h是由从D和W矩阵中提取的Paragraph Vector和WordVector累加或者连接构成的。
在训练过程中,Paragraph Id保持不变,文本中的所有单词共享着同一个Paragraph Vector,相当于每次在预测单词的概率时,都利用了整个文本的语义。对这个目标函数进行优化,从而求得最优的词的向量表示。利用随机梯度上升法对上式的目标函数进行优化,得到迭代过程中词u的向量θu的更新公式为:
的更新公式为:
θu∈Rn表示词u对应的一个辅助向量,Lx(u)表示词u的标签,表示词对应的向量,σ是一个逻辑回归函数,表示词的标签,η表示学习率。在迭代过程中词u的向量θu和词的向量都在原来的基础上进行了更新,使得向量对词的表达能力更强,向量随着更新而不断进化,向量的表示质量也随着提升。
在预测阶段,给待预测的文本重新分配一个Paragraph Id,词向量和输出层Softmax的参数保持训练阶段得到的参数不变,重新利用随机梯度上升法训练待预测的文本。待收敛后,最终得到了文本的Paragraph Vector,也就是文本的深层特征向量,并将这些深层特征向量处理成可以使用SVM的数据格式。
步骤5:采用TF-IDF对步骤3中得到的语料进行训练并得到情感文本的浅层特征向量。
在一个给定的情感文本中,词频(term frequency,TF)指的是某一个给定的词语在该文本中出现的频率。这个数字是对词数(term count)的归一化,以防止它偏向长的文本。(同一个词语在长文本里可能会比短文本有更高的词数,而不管该词语重要与否。)对于在某一特定文件里的词语ti来说,它的重要性可表示为:
其中ni,j表示该词在文本dj中出现的次数,而分词则是在文件dj中所有字词的出现次数之和。
逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文本数目除以包含该词语之文本的数目,再将得到的商取对数得到:
其中|D|表示情感语料库中的文本总数,|{j:ti∈dj}|表示包含词语ti的文件总数,如果该词语不在语料库中,就会导致被除数为零,因此一般情况下使用1+|{j:ti∈dj}|,最后得到一个词语的TF-IDF值为:
tfidfi,j=tfi,j×idfi (8)
将一个情感文本中的所有词语都计算一遍,将得到的TF-IDF值放入到一个新的文本中就得到了这个文本的浅层特征向量。然后计算出所有文本的浅层特征向量。
步骤6:将步骤4中得到的所有文本的深层特征向量放入到一个文本中,每一行代表一个文本向量,同样将步骤5中得到的所有文本的浅层特征向量也放入到一个文本中,每一行也代表一个文本向量,由于步骤4中得到的深层特征和步骤5中得到的浅层特征在情感分类中同等重要,因此设定两种特征的权重比为1:1,将两个文本的每一行直接进行首尾相连,得到新的情感文本特征向量。
步骤7:将步骤6中的语料中的训练集的文本特征向量输入SVM训练出情感分类模型。
引入非线性函数φ(x),把输入空间Rn映射到m维的特征空间,然后在高维空间中构造一个分界超平面,该超平面可以定义如下:
其中wj *是连接特征空间至输出空间的权值,b*为偏置值。
为了获得最优超平面,权向量和偏置值应最小化,而且满足约束条件:yi(wxi+b)≥1-ξi,i=1,2,...,m,式中,ξi是正松弛变量,增加松弛变量的可容错性。根据结构风险最小化原理,这时最小化目标函数为:
其中C是惩罚参数,依据拉格朗日定理,引入拉格朗日乘子αi,核函数K(xi,x)=φ(xi)φ(x),可转化成求解下述目标函数最小值:
其中满足约束条件:
最优超平面可以表示为:
分类决策函数可表示为:
训练完成后,保存情感分类模型。
步骤8:将步骤6中的语料中的测试集的文本特征向量输入SVM,根据步骤7中已经训练好的模型进行情感类别分类,如果实际输出文本的标签等于1,判定该文本表现的是积极情绪,如果实际输出文本的标签不等于1(即标签等于2),判定该文本表现的是消极情绪,统计实际输出文本的标签与期望输出文本的标签之间不同的个数,计算情感分类的准确率。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (9)

1.一种融合深层特征和浅层特征的情感分类方法,其特征在于,包括以下步骤:
步骤1:根据准备好的情感文本语料集,人工标记类别,积极情绪的文本语料标签为1,消极情绪的文本语料标签为2,并将情感文本语料集分为训练语料集和测试语料集,并采用基于词典逆向最大匹配算法和统计分词策略相结合的中文分词算法对情感文本语料集进行分词,然后去除语料中的停用词;
步骤2:对语料的分词、去停用词工作完成后提取语料中的标签、名词、副词、形容词和介词组成新的语料,采用TF-IDF算法对得到的新语料进行训练并得到情感文本的浅层特征向量;得到情感文本的浅层特征向量后采用Doc2vec算法对经过分词、去停用词后的语料进行训练,得到词向量模型和情感文本的深层特征向量;
步骤3:将步骤2中得到的浅层特征向量和深层特征向量进行融合,得到新的情感文本特征向量,所述新的情感文本特征向量包括训练语料集的情感文本特征向量和测试语料集的文本特征向量;
步骤4:将步骤3中得到的训练语料集的情感文本特征向量输入SVM训练出情感分类模型;然后将步骤3中得到的测试语料集的文本特征向量输入SVM,根据已经训练好的情感分类模型进行情感类别分类并计算出情感分类的准确率。
2.根据权利要求1所述的融合深层特征和浅层特征的情感分类方法,其特征在于,所述步骤1采用基于词典逆向最大匹配算法具体为:分级构造分词词典,由核心词典和临时词典两部分构成分词词典集合,统计出权威性的词条语料,采用二级哈希结构存储构造核心词典,选取情感词典作为临时词典加载的语料;分词词典初步构成后,分词系统进入自主学习阶段,对情感文本进行分词时,如果临时词典中有新统计的词,该词的词频加一,否则将该新词重新加入临时词典;累计词频后判断词频是否满足设定阈值,若满足则移到核心词典中,并在临时词典中清空该词条,统计记录学习情感文本的数量,若大于预定值,则清空临时词典;采用更新后的核心词典中的词条作为分词依据。
3.根据权利要求1所述的融合深层特征和浅层特征的情感分类方法,其特征在于,步骤1中分完词后,每个文本是由以空格隔开的单词组成的文本语料;然后搜集停用词表,人工删除停用词表中对实验有用的词汇,并根据停用词表去除分完词后的语料中的停用词。
4.根据权利要求1所述的融合深层特征和浅层特征的情感分类方法,其特征在于,所述步骤2利用正则表达式,提取经过步骤1分词、去停用词后的语料中的标签、名词、副词、形容词和介词组成新的语料,采用TF-IDF算法对得到的新语料进行训练并得到情感文本的浅层特征向量,步骤具体为:首先计算一个文本中的其中一个词的词频,然后再计算这个词的反文档频率,把这个词的词频和反文档频率相乘就得到了这个词的TF-IDF值;然后将一个情感文本中的所有词语都计算一遍,将得到的TF-IDF值放入到一个新的文本中就得到了这个文本的浅层特征向量,最后计算出所有文本的浅层特征向量。
5.根据权利要求1所述的融合深层特征和浅层特征的情感分类方法,其特征在于,所述步骤2采用Doc2vec对经过步骤1分词、去停用词后的语料进行训练,具体为:使用Doc2vec中基于Hierarchical Softmax算法的PV-DM模型,将步骤2中处理好的语料输入模型中,把每个长度可变段落和对应段落中的每个词分别映射成唯一的段落向量和唯一的词向量,将所有文本向量和所有对应的词向量累加或者连接起来,作为输出层Softmax的输入;构建目标函数,在训练过程中保持文本向量不变,使用随机梯度上升法进行词向量更新,在预测阶段保持已经更新好的词向量和输出层Softmax的参数不变,重新利用随机梯度上升法训练待预测的文本,得到最终的情感文本深层特征向量。
6.根据权利要求5所述的融合深层特征和浅层特征的情感分类方法,其特征在于,所述Doc2vec中基于Hierarchical Softmax算法的PV-DM模型,PV-DM模型的输入是一个长度可变的段落Paragraph Id和该段落中的所有单词Words,Paragraph Id代表的是情感文本,输出是根据ParagraphId和Words预测出的单词,PV-DM模型的训练过程:将每个Paragraph Id和Words分别映射成唯一的段落向量和唯一的词向量,并且将所有Paragraph Vector按列放入矩阵D和所有Word Vector按列放入矩阵W中;将Paragraph Vector和WordVector累加或者连接起来,作为输出层Softmax的输入,输出层Softmax是以Paragraph Id中的词条作为叶子结点,词条在文本语料中出现的次数当作权值,构造的哈弗曼树。
7.根据权利要求1所述的融合深层特征和浅层特征的情感分类方法,其特征在于,所述步骤3:将步骤2中得到的浅层特征向量和深层特征向量进行融合,得到新的情感文本特征向量具体为:将所有文本浅层特征向量放入到一个文本中,每一行代表一个文本向量,同样将得到的所有深层文本向量也放入到一个文本中,每一行也代表一个文本向量,设定两种特征的权重比为1:1,将两个文本的每一行直接进行首尾相连,得到新的文本,新的文本即装载有新的情感文本特征向量。
8.根据权利要求1所述的融合深层特征和浅层特征的情感分类方法,其特征在于,所述步骤4训练SVM情感分类模型的具体步骤为:将步骤3中得到的训练语料集的情感文本特征向量输入SVM,最优超平面中的核函数设计为非线性核函数,把输入空间Rn映射到m维的特征空间,在高维空间中构造分界超平面:将积极情绪文本和消极情绪文本分开,式中wj *是连接特征空间至输出空间的权值,b*为偏置值,φ(x)为向量x在高维特征空间的非线性映射,训练完成后,保存情感分类模型。
9.根据权利要求1所述的融合深层特征和浅层特征的情感分类方法,其特征在于,所述步骤4得到情感分类模型后,将步骤3中得到的测试语料集的情感文本特征向量输入SVM,根据已经训练好的情感分类模型进行情感类别分类,如果实际输出文本的标签等于1,判定该文本表现的是积极情绪,如果实际输出文本的标签不等于1即标签等于2,判定该文本表现的是消极情绪,统计实际输出文本的标签与期望输出文本的标签之间不同的个数,计算情感分类的准确率。
CN201610151146.5A 2016-03-16 2016-03-16 一种融合深层特征和浅层特征的情感分类方法 Active CN105824922B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610151146.5A CN105824922B (zh) 2016-03-16 2016-03-16 一种融合深层特征和浅层特征的情感分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610151146.5A CN105824922B (zh) 2016-03-16 2016-03-16 一种融合深层特征和浅层特征的情感分类方法

Publications (2)

Publication Number Publication Date
CN105824922A CN105824922A (zh) 2016-08-03
CN105824922B true CN105824922B (zh) 2019-03-08

Family

ID=56524605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610151146.5A Active CN105824922B (zh) 2016-03-16 2016-03-16 一种融合深层特征和浅层特征的情感分类方法

Country Status (1)

Country Link
CN (1) CN105824922B (zh)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105824922B (zh) * 2016-03-16 2019-03-08 重庆邮电大学 一种融合深层特征和浅层特征的情感分类方法
CN106445919A (zh) * 2016-09-28 2017-02-22 上海智臻智能网络科技股份有限公司 一种情感分类方法及装置
CN106502989A (zh) * 2016-10-31 2017-03-15 东软集团股份有限公司 情感分析方法及装置
CN108205542A (zh) * 2016-12-16 2018-06-26 北京酷我科技有限公司 一种歌曲评论的分析方法和系统
CN108205522A (zh) * 2016-12-16 2018-06-26 北京酷我科技有限公司 情感标注的方法及其系统
CN107247699A (zh) * 2017-04-20 2017-10-13 中国农业大学 一种游戏设计要素的提取方法及装置
CN107247702A (zh) * 2017-05-05 2017-10-13 桂林电子科技大学 一种文本情感分析处理方法和系统
CN107315797A (zh) * 2017-06-19 2017-11-03 江西洪都航空工业集团有限责任公司 一种网络新闻获取及文本情感预测系统
CN110019769A (zh) * 2017-07-14 2019-07-16 元素征信有限责任公司 一种智能企业分类算法
CN107590134A (zh) * 2017-10-26 2018-01-16 福建亿榕信息技术有限公司 文本情感分类方法、存储介质及计算机
CN107818153B (zh) * 2017-10-27 2020-08-21 中航信移动科技有限公司 数据分类方法和装置
CN108021609B (zh) * 2017-11-01 2020-08-18 深圳市牛鼎丰科技有限公司 文本情感分类方法、装置、计算机设备和存储介质
CN107908716A (zh) * 2017-11-10 2018-04-13 国网山东省电力公司电力科学研究院 基于词向量模型的95598工单文本挖掘方法和装置
CN108052505A (zh) * 2017-12-26 2018-05-18 上海智臻智能网络科技股份有限公司 文本情感分析方法及装置、存储介质、终端
CN108090048B (zh) * 2018-01-12 2021-05-25 安徽大学 一种基于多元数据分析的高校评价系统
CN108509427B (zh) * 2018-04-24 2022-03-11 北京慧闻科技(集团)有限公司 文本数据的数据处理方法及应用
CN109255025A (zh) * 2018-08-01 2019-01-22 华中科技大学鄂州工业技术研究院 一种短文本分类方法
CN109284376A (zh) * 2018-09-10 2019-01-29 成都信息工程大学 基于领域自适应的跨领域新闻数据情感分析方法
CN109492105B (zh) * 2018-11-10 2022-11-15 上海五节数据科技有限公司 一种基于多特征集成学习的文本情感分类方法
CN109657057A (zh) * 2018-11-22 2019-04-19 天津大学 一种结合svm和文档向量的短文本情感分类方法
CN109271493B (zh) * 2018-11-26 2021-10-08 腾讯科技(深圳)有限公司 一种语言文本处理方法、装置和存储介质
CN109257393A (zh) * 2018-12-05 2019-01-22 四川长虹电器股份有限公司 基于机器学习的xss攻击防御方法及装置
CN111447574B (zh) * 2018-12-27 2022-06-03 中国移动通信集团辽宁有限公司 短信分类方法、装置、系统和存储介质
CN109918667B (zh) * 2019-03-06 2023-03-24 合肥工业大学 基于word2vec模型的短文本数据流的快速增量式分类方法
CN110059181B (zh) * 2019-03-18 2021-06-25 中国科学院自动化研究所 面向大规模分类体系的短文本标签方法、系统、装置
CN109933670B (zh) * 2019-03-19 2021-06-04 中南大学 一种基于组合矩阵计算语义距离的文本分类方法
CN110060749B (zh) * 2019-04-10 2022-07-01 华侨大学 基于sev-sdg-cnn的电子病历智能诊断方法
CN110069632B (zh) * 2019-04-10 2022-06-07 华侨大学 一种集成浅层语义表示向量的深度学习文本分类方法
CN110059187B (zh) * 2019-04-10 2022-06-07 华侨大学 一种集成浅层语义预判模态的深度学习文本分类方法
CN110532380B (zh) * 2019-07-12 2020-06-23 杭州电子科技大学 一种基于记忆网络的文本情感分类方法
CN110532372B (zh) * 2019-07-15 2022-03-15 电子科技大学 一种基于神经协同过滤挖掘深层特征的文本对象精准推送方法
CN110737837B (zh) * 2019-10-16 2022-03-08 河海大学 ResearchGate平台下基于多维特征的科研合作者推荐方法
CN111159340B (zh) * 2019-12-24 2023-11-03 重庆兆光科技股份有限公司 基于随机优化预测的机器阅读理解的答案匹配方法及系统
CN112861541B (zh) * 2020-12-15 2022-06-17 哈尔滨工程大学 一种基于多特征融合的商品评论情感分析方法
CN113343012B (zh) * 2021-08-05 2022-03-04 人民网科技(北京)有限公司 一种新闻配图方法、装置、设备及存储介质
CN115795000A (zh) * 2023-02-07 2023-03-14 南方电网数字电网研究院有限公司 基于联合相似度算法对比的围标识别方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778161A (zh) * 2015-04-30 2015-07-15 车智互联(北京)科技有限公司 基于Word2Vec和Query log抽取关键词方法
CN105824922A (zh) * 2016-03-16 2016-08-03 重庆邮电大学 一种融合深层特征和浅层特征的情感分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778161A (zh) * 2015-04-30 2015-07-15 车智互联(北京)科技有限公司 基于Word2Vec和Query log抽取关键词方法
CN105824922A (zh) * 2016-03-16 2016-08-03 重庆邮电大学 一种融合深层特征和浅层特征的情感分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
An Efficient Method for Document Categorization Based on Word2vec and Latent Semantic Analysis;Ronghui Ju等;《2015 IEEE International Conference on Computer and Information Technology》;20151228;全文
Chinese comments sentiment classification based on word2vec and SVMperf;Dongwen Zhang等;《Expert Systems with Applications》;20140822;全文
情感增强词向量构建方法及应用;杨东强;《中国优秀硕士学位论文全文数据库》;20151015;全文

Also Published As

Publication number Publication date
CN105824922A (zh) 2016-08-03

Similar Documents

Publication Publication Date Title
CN105824922B (zh) 一种融合深层特征和浅层特征的情感分类方法
CN105740349B (zh) 一种结合Doc2vec和卷积神经网络的情感分类方法
WO2019080863A1 (zh) 文本情感分类方法、存储介质及计算机
CN112001185A (zh) 一种结合中文句法和图卷积神经网络的情感分类方法
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN111666752B (zh) 一种基于关键词注意力机制的电路教材实体关系抽取方法
Subramanian et al. A survey on sentiment analysis
CN110765769A (zh) 一种基于子句特征的实体属性依赖情感分析方法
CN113343690A (zh) 一种文本可读性自动评估方法及装置
CN111126067A (zh) 实体关系抽取方法及装置
CN114997288A (zh) 一种设计资源关联方法
Jin et al. Multi-label sentiment analysis base on BERT with modified TF-IDF
CN112287656A (zh) 文本比对方法、装置、设备和存储介质
Kasri et al. Word2Sent: A new learning sentiment‐embedding model with low dimension for sentence level sentiment classification
CN114942974A (zh) 电商平台商品用户评价情感倾向分类方法
CN111241271B (zh) 文本情感分类方法、装置及电子设备
CN113934835A (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN110888944B (zh) 基于多卷积窗尺寸注意力卷积神经网络实体关系抽取方法
Bafna et al. An Application of Zipf's Law for Prose and Verse Corpora Neutrality for Hindi and Marathi Languages
CN110489624B (zh) 基于句子特征向量的汉越伪平行句对抽取的方法
CN117291190A (zh) 一种基于情感词典和lda主题模型的用户需求计算方法
CN117251524A (zh) 一种基于多策略融合的短文本分类方法
Shah et al. Emotion enriched retrofitted word embeddings

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant