CN110489557A

CN110489557A - 一种SVM与Bootstrapping相融合的股评类文本情感分析方法

Info

Publication number: CN110489557A
Application number: CN201910781151.8A
Authority: CN
Inventors: 王小芳; 邹倩颖; 刘树林; 刘洪江
Original assignee: Chengdu College of University of Electronic Science and Technology of China
Current assignee: Chengdu College of University of Electronic Science and Technology of China
Priority date: 2019-08-22
Filing date: 2019-08-22
Publication date: 2019-11-22

Abstract

本发明公开了一种SVM与Bootstrapping相融合的股评类文本情感分析方法，包括如下步骤：采用基于特定网页分析的聚焦爬虫算法实现网页页面的抓取以及对网页文本内容的提取，得到文本数据集；利用SVM支持向量机构建小样本S‑B分类器；利用Bootstrapping算法对步骤二中构建的S‑B分类器进行分类器重构，扩大S‑B分类器，得到待评价模型；利用步骤三得到扩大的S‑B分类器的对步骤一中提取到的文本数据集进行情感分析，得到正向或负向情感倾向。根据本发明，可以实现在处理关键情感词时较传统算法而言更合理，提高了准确率与召回率，使得平衡准确率与召回率的整体F值提高。

Description

一种SVM与Bootstrapping相融合的股评类文本情感分析方法

技术领域

本发明涉及机器学习领域，具体是一种SVM与Bootstrapping相融合的股评类文本情感分析方法。

背景技术

随着互联网技术的发展，网上评论信息呈现爆发式增长，如何在海量数据中寻找有价值的信息显得尤其重要。尤其对于股票评论数据，存在内容丰富，情感表象不明确，如何通过股评信息对股票进行判断成为股民关注的重点及热点，吸引许多专家学者探讨。

目前，有人提出利用非监督学习方法，利用语义倾向方法，对词或短语对股评文本进行情感实分析，以判定篇章类别，该算法虽能对文本进行很好的分类，但不能精确的判断领域词的情感倾向。还有提出基于意见目标句抽取的中文股评情感分析方法，该算法利用半监督学习分类方法借助主动词识别器情感并进行情感判别，该算法虽利用股评文章特点改善股评文章情感分析的准确性，但不适合篇章级别的股评文本情感分析。还有提出基于文本情感分析的方法对网络股评走势影响分析，该算法通过建立ARMA-GARCHX模型和ARMAX-GARCH模型计算情感指数，进而分析网络股评中情感因素和股市走势间关系，该算法分析结果虽能很好的分析出投资人情感倾向预测股票价格波动，但只能分析当前和前期情感，对后期情感预测效果不佳。

发明内容

本发明的目的在于克服现有技术的不足，提供一种SVM与Bootstrapping相融合的股评类文本情感分析方法，包括如下步骤：

步骤一：采用基于特定网页分析的聚焦爬虫算法实现网页页面的抓取以及对网页文本内容的提取，得到文本数据集；

步骤二：利用SVM构建小样本S-B分类器，

步骤三：利用S-B分类器对文本数据集进行分类，得到小规模分类器的特征词集；

步骤四：利用Bootstrapping算法对步骤三中构建的S-B分类器进行分类器重构，扩大分类器，得到全特征词集即待评价模型；

步骤五：采用模型评价对待评价模型的采用召回率、准确率和F值进行分析，得到待评价模型的股评效果。

进一步的，还包括对评价模型的评价效果的评价方法，包括如下过程：采用召回率、准确率和F值来对评价模型的评价效果进行评价，召回率计算公式如下：

其中，TP表示正倾向类别中正确预测为正倾向的样本数量，FN表示正倾向类别中被错误预测为负倾向的样本数量，TP+FN表示实际的正倾向类别的样本数量；

准确率计算如下式所示：

其中，FP表示负倾向类别中正确预测为负倾向的样本数量，TP+FP表示预测为正倾向的总的样本数量；

F值公式如下式所示

其中，准确率表示在判断为正倾向的句子中，有多少是实际正倾向的；F值表示召回率和正确率的加权调和平均，平衡两者的值，用于反映该模型对正倾向的预测效果。

进一步的，所述步骤一中的网页文本内容提取采用正则表达式来提取，采用如下公式：

re＝∧[\u4E00-\u9FA5A-Za-z0-9-]+＄

其中，^表示匹配开始标志，\u4E00-\u9FA5表示匹配简体中文，A-Za-z表示匹配英文，0-9表示匹配数字，表示匹配下划线，＄表示匹配结束标志，该正则表达式可以匹配数字、汉字、英文和下划线等。

进一步的，所述的步骤二中采用SVM构建S-B分类器包括如下过程：

第一步，利用ICTCLAS分词系统提取文本特征；

第二步，使用IF-IDF计算词权值以进行文本特征表示；

第三步，通过归一化处理消除指标差异，通过超平面划分，完成S-B分类器构建。

进一步的，利用Bootstrapping算法对步骤二中构建的S-B分类器进行分类器重构，扩大S-B分类器，得到待评价模型，包括如下过程：

输入-训练集D＝{S，U}，其中S为训练好的文本小样本数据集，U为大规模的待分类文本数据集；

输出-训练SVM分类器F，筛选领域文档M；

(1)令i＝1；

(2)用s_i来训练SVM分类器F_i，其中i表示循环的次数；

(3)从U_i中随机抽取部分文档u，使用F_i对u进行分类，得到领域文本m；

(4)将m添加进领域文本集M_i中：M_i+1＝M_i+m，从U_i中去除已经训练过的部分文档：u_i+1＝U_i-u；

(5)将m中文章按置信度高低排序，选取置信度最高的n篇文章，加入到训练文本S_i+1中：S_i+1＝S_i+n；

(6)

(7)如果i≤|u|/|u|，则i++，执行步骤(2)，否则结束，输出F＝F_k。

由于每次循环都会加入新训练集，加入的训练集可能存在误差，因此，特征词类别概率公式中引入权重计算公式，调整特征词属于类别，其公式如式(1)、式(2)所示

w`_k＝w_k*δ(w_k，U_j) (1)

其中，i表示当前循环次数，δ表示权重因子，用于不同阶段的训练样本。

本发明的有益效果是：(1)本方法能对文本进行很好的分类，精确的判断领域词的情感倾向；(2)适合篇章级别的股评文本情感分析；(3)不仅能分析当前和前期情感，对后期情感预测效果也有较大提升。

附图说明

图1为一种SVM与Bootstrapping相融合的股评类文本情感分析方法的流程示意图；

图2为传统SVM算法与改进算法就看多、看空和看空三方面的召回率的对比示意图；

图3为传统SVM算法与改进算法就看多、看空和看空三方面的精准率的对比示意图；

图4为传统SVM算法与改进算法就看多、看空和看空三方面的F值的对比示意图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1所示，本发明采用基于特定页面分析的聚焦爬虫模块实现对非重复的股评文章获取。该爬虫技术采用模块化思想，利用多线程任务技术，在最大程度上满足对股评文本数据集提取的需求。此聚焦爬虫技术的优势是能获取大量新数据且无重复数据，其可维护性和针对性强，与通用爬虫比较如表1所示。

表1通用爬虫与聚焦爬虫对比

基于特点给页面分析的聚焦爬虫算法的核心模块是利用正则表达式实现对股评内容的获取，其公式如式(2)所示。

re＝^[\u4E00-\u9FA5A-Za-z0-9-]+＄ (2)

其中，^表示匹配开始标志，\u4E00-\u9FA5表示匹配简体中文，A-Za-z表示匹配英文0-9表示匹配数字，表示匹配下划线，＄表示匹配结束标志，该正则表达式可以匹配数字、汉字、英文和下划线等[6]。

本发明利用SVM支持向量机构建小样本S-B分类器，构建过程分为四步，其中第一步利用ICTCLAS(Institute of Computing Technology，Chinese Lexical AnalysisSystem)提取文本特征，第二步，使用IF-IDF计算词权值以进行文本特征表示，第三步，通过归一化处理消除指标差异，最后通过超平面划分，从而实现小样本分类器构建。

特征提取是将文本进行分词然后再提取有属性、有情感词的过程。本发明采用中科院研发的ICTCLAS分词系统实现文本分词。分词后，由于停用词对股评分析没有意义，为减少对文本干扰，加速处理速度，本发明在进行特提取前，先将切分后得到的停用词从数据集中去除。然后进行特征提取。对于文本特征提取，本发明使用基于Java版本的ICTCLAS4J，其使用My Lexicon类描述分词模块，模块成员如表2所示。

分词模块成员	功能
		Sinput	输入字符串
Ursdir	用户自定义词典路径
		Lctclas50	创建的对象进行中文分词
AtiveBates	存放分词后的结果数组
		Add Dictionary(file Name)	添加用户词典
Text Process(str)	对传入的str字符串分词返回结果

表1分词模块的成员

如表1，其中Add Dictionary(file Name)方法使用由ICTCLAS4J提供的ICTCLAS50类中ICTCLA_Import UictFile(usrdirb，n)方法获取导入用户词语个数，Text Process(str)方法使用ICTCLAS50类中的ICTCLAS_Paragraph Process(str)方法进行分词。所得字符串以空格分割，然后读取存放属性词典与情感词典的资源文件，一一对比分割好的词与资源文件中词语，提取其属性词和情感词，构成属性词集(attrset)和情感词集(sentset)，进行下一步处理。

经特征提取后，得到多维特征词集，由于股评集D经特征提取后，其特征词集为多维，词典规模巨大，将会产生纬度灾难，难以实现有效计算。为方便计算和处理，本发明将属性词集attrset和情感词集sentset确定为特征集对多为特征词集进行降维。先进行特征选择，从特征集中选择有代表性的词实现有效降维。经特征选择后再进行特征抽取，从而实现二次降维。本发明采用Topic Modeling的原理，利用映射将高纬度空间映射到低维空间，从而实现降维。本发明衡量是否有代表性的方法是计算词的权值，采用TF-IDF公式对特征集进行计算。如式(3)所示：

其中，词频tf表示某一个词语在该文件中出现的频率，n_i，j表示该词t_i在文件d_j中的出现次数，(∑_kn_k，j)表示在文件d_j中所有字词的出现次数之和，而字词出现次数之和采用公式词频统计公式进行计算，如式(4)所示。

其中，idf表示逆向文件频率，是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数除以包含该词语的文件数目，再将得到的商再取对数得到。|D|表示特征集中的文件总数，|{j：t_i∈d_j|表示包含词语t_i的文件数目(即n_ij不等于0的文件数目)如果该词语不在特征集中，就会导致被除数为零，为了防止被除数出现为零的情况，本发明采用1+|{j：t_i∈d_j|。

最后对词频(tf_i，j)和逆向文件频率(idf_i)进行乘积运算得到词的权值，如式(3)所示：

tfidf_i，j＝tf_i，j*idf_i (5)

将(4)式代入(5)式得到权值计算结果，如式(6)所示：

经过TF-IDF计算词的权值后，从股评特征集D选出具有代表性特征词集，再对其进行特征抽取。用特征抽取后的股评特征词集D(即构建的情感词典)最终实现降维，得到具有代表性的特征词典。

在机器学习领域中，不同的情感词往往具有不同的分析指标，这样的情况会影响到分析的结果，为了消除指标之间影响，本发明对上述结果进行标准化(归一化)处理，以解决指标之间的可比性。本分采用标准归一化和最大最小归一化两种方式进行，具体如下：

(1)标准归一化

标准归一化是把不同因子(即不同的情感词)趋于同一化，同一化后的情感

词具有相同标准的分析指标，计算公式(5)如下：

其中，μ为所有特征词集权值的均值，λ为所有特征词集权值的标准差。标准归一化将特征词集归一化为均值为0、方差为1的新特征词集，标准归一化得到的新特征词集会再进一步处理。

(2)最大最小归一化

由于标准归一化得到的新特征词集的个别权值趋于过大或过小，本发明采用

最大最小归一化实现极端因子趋于同一化，最大最小归一化计算公式，如式(6)所示。

其中，x_max、x_min分别为特征词集权值的最大值与最小值。

归一化处理将情感词典限制在本发明需要的一定范围内，以消除奇异样本导致的不良影响。经归一化处理后，各指标处于同一量级，得到小样本分类器。

股评集D经过上述三步处理后，得到D1和D2数据集，其中训练集D1(包含样本特征集S)将用于构建S-B分类器，本发明训练集D1中的小部分样本集S在上述处理中是与D1中其他大规模待分类文本(U)区别分开的，不与U混合处理。

对处理后得到的样本特征词集S，采用超平面进行样本集划分。进而构建一个小规模分类器。对于样本集S，存在S维空间，采用超平面方程计算样本空间，确定正反面(即看涨和看空)，如式(7)所示。

w^tx+b＝0 (7)

其中，W和X代表S维列向量，X表示平面上的点，W为平面上的法向量，决定了超平面的方向，b表示一个实数，代表超平面到原点的距离。对S维向量W和X进行转置计算得到样本空间特征集x和平面空间w，转置计算如式(8)、(9)所示。

x＝(x1，x2，....，x_d)^T (8)

w＝(w1，w2，....，w_d)^T (9)

其中，样本空间中任意点x(即样本特征词集中任意一个词)，到超平面(w，b)的距离，由距离计算公式计算，具体如式(10)所示。

一个超平面可以将它所在的空间分为两半，它的法向量指向的那一半对应的一面是它的正面，另一面则是它的反面，判断超平面的正反。本发明利用数学判断进行分析，情况如式(11)所示：

X在A的

其中，W代表法向量，令σ＝W∧T*X+b，σ可正可负。若σ值向正越大，则代表点在平面正向且与平面距离越远，即情感正倾向越强。反之，σ值向负越大，代表点在平面反向且与平面距离越远，即情感负倾向越强。

样本特征词集S经超平面划分后得到小规模分类器，其中词的情感倾向性十分清楚明，分为正向与负向两类，即股评领域中的看多与看空。

在传统的SVM文本分类算法中，构建小规模分类器，并用此处理大规模待处理文本U，采用计算语义相似度的方法处理训练集D1中剩余的大规模待处理文本U。由于构建的分类器规模较小，其性能很难得到可靠的保障。本发明基于以上问题提出引入Bootstrapping的本体标注算法实现基于小规模分类器的样本扩展，利用样本特征词集S构建好的小规模分类器，循环地将大规模待处理文本U扩展到分类器中，使得分类器扩大到一定规模，且足以可靠地完成下一步测试集的测试工作。

具体处理过程如下：

输出-训练SVM分类器F，筛选领域文档M；

(4)令i＝1；

(5)用s_i来训练SVM分类器F_i，其中i表示循环的次数；

(6)从U_i中随机抽取部分文档u，使用F_i对u进行分类，得到领域文本m；

(6)

由于每次循环都会加入新训练集，加入的训练集可能存在误差，因此，特征词类别概率公式中引入权重计算公式，调整特征词属于类别，其公式如式(12)、式(13)如示。

w`k＝w_k*δ(w_k，U_j) (12)

其中，i表示当前虚幻次数，δ表示权重因子，用于不同阶段的训练样本。

传统SVM算法中的模型评价其评价效果和衡量准确率十分出色，为得到有效的分析结果，本发明采用同SVM相同模型评价方法，即使用召回率(Recall)、准确率(Precision)和F值(Jia Wei Hetal)来衡量改进算法的股评效果。由于F值可平衡召回率和准确率，因此，F值用于评价模型的有效性。其中，召回率计算，如式(14)所示。

由式(13)可知，TP表示正倾向类别中正确预测为正倾向的样本数量，FN表示正倾向类别中被错误预测为负倾向的样本数量，TP+FN表示实际的正倾向类别的样本数量。

准确率计算如式(15)所示：

其中，FP表示负倾向类别中正确预测为负倾向的样本数量，TP+FP表示预测为正倾向的总的样本数量。

F值公式计算，如式(16)所示

由式(15)可知，准确率表示在判断为正倾向的句子中，有多少是实际正倾向的；F值表示召回率和正确率的加权调和平均，平衡两者的值，用于反映该模型对正倾向的预测效果。

本发明以今年上半年新浪博客22500篇财经博主股评文章为实验数据，对传统SVM算法和本发明所提出的改进算法在相同实验环境中对股评结果的召回率、准确率和F值三个评判参数进行分析，分析结果如下。

对传统SVM算法与改进算法就看多、看平和看空三方面的召回率进行分析，分析结果如图2所示，由图2可知，融合技术的实验结果在看多的召回率为92.7％，传统算法在看多的召回率为88.3％，融合技术较传统算法提高幅度为4.4％；融合技术的实验结果在看平的召回率为89.9％，传统算法在看平召回率为88.5％，融合技术较传统算法提高幅度为1.4％；融合技术的实验结果在看空的召回率为90.3％，而传统算法在看空的召回率为86.4％，融合技术较传统算法提高幅度为3.9％。融合技术在看多和看空三方面的召回率平均提升幅度为3.3％，本算法明显由于传统算法。

对传统SVM算法与改进算法就看多、看平和看空三方面的精准率进行分析，分析结果如图3所示，准确率为94.3％，而传统算法在看多的准确率为88.5％，融合技术较传统算法提高幅度为5.8％；融合技术在看平的准确率为89.9％，而传统算法准确率为88.7％，融合技术较传统算法提高幅度为1.2％；融合技术在看空的准确率为90.3％，传统算法为85.7％，融合技术较传统算法提高幅度为4.6％。由实验数据可得看多、看平、看空三方面，融合算法的准确率皆超过传统单一方法，平均提升幅度为3.9％。纠其原因在于，在构建分类器时与传统方法有较大不同，改进算法融入Bootstrapping本体标注算法进一步优化提高SVM文本分类的准确率，使得该分类器性能得到极大提升，且在处理下一步数据集时更好地保证训练的准确性。

对传统SVM算法与改进算法就看多、看空和看空三方面的F值进行分析，分析结果如图4所示，由图4可知，作为平衡准确率与召回率的F值，比较融合技术与传统方法后，融合技术的F值同样超过了传统方法。融合技术的看多F值为93.7％，传统算法为88.9％，融合技术较传统算法提高幅度为4.8％；融合技术的看平F值为91.9％，传统算法为88.7％，融合技术较传统算法提高幅度为3.2％；融合技术的看空F值为90.3％，传统算法为86.3％，融合技术较传统算法提高幅度为3.7％。此三个方面的F值都超过传统算法，且平均提升幅度为3.9％。综合原因，本发明综合传统SVM文本分类方法和Bootstrapping本体标注方法，使得训练的分类器性能更优，该算法在处理关键情感词较传统算法而言更合理，从而提高了准确率与召回率，使得平衡准确率与召回率的整体F值提高到91.7％。以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本发明所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本发明所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种SVM与Bootstrapping相融合的股评类文本情感分析方法，其特征在于，包括如下步骤：

步骤二：利用SVM构建小样本S-B分类器，

2.根据权利要求1所述的一种SVM与Bootstrapping相融合的股评类文本情感分析方法，其特征在于，所述的步骤五中对待评价模型的评价效果的模型评价方法，包括如下过程：采用召回率、准确率和F值来对评价模型的评价效果进行评价，召回率计算公式如下：

准确率计算如下式所示：

F值公式如下式所示

3.根据权利要求1所述的所述的一种SVM与Bootstrapping相融合的股评类文本情感分析方法，其特征在于，所述步骤一中的网页文本内容提取采用正则表达式来提取，采用如下公式：

re＝^[\u4E00-\u9FA5A-Za-z0-9_]+$

其中，^表示匹配开始标志，\u4E00-\u9FA5表示匹配简体中文，A-Za-z表示匹配英文，0-9表示匹配数字，_表示匹配下划线，$表示匹配结束标志，该正则表达式可以匹配数字、汉字、英文和下划线等。

4.根据权利要求1所述的所述的一种SVM与Bootstrapping相融合的股评类文本情感分析方法，其特征在于，所述的步骤二中利用SVM支持向量机构建小样本S-B分类器包括如下过程：

第一步，利用ICTCLAS分词系统提取文本特征；

第二步，使用IF-IDF计算词权值以进行文本特征表示；

5.根据权利要求1所述的所述的一种SVM与Bootstrapping相融合的股评类文本情感分析方法，其特征在于，利用Bootstrapping算法对步骤二中构建的S-B分类器进行分类器重构，扩大S-B分类器，得到待评价模型，包括如下过程：

输入—训练集D＝{S，U}，其中S为训练好的文本小样本数据集，U为大规模的待分类文本数据集；

输出—训练SVM分类器F，筛选领域文档M；

(1)令i＝1；

(2)用s_i来训练SVM分类器F_i，其中i表示循环的次数；

(6)

(7)如果i≤|U|/|u|，则i++，执行步骤(2),否则结束，输出F＝F_k。

w`_k＝w_k*δ(w_k,U_j) (1)