CN109871889B

CN109871889B - 突发事件下大众心理评估方法

Info

Publication number: CN109871889B
Application number: CN201910095431.3A
Authority: CN
Inventors: 邢红梅; 韩耀廷; 王慧; 张丽霞
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2019-12-24
Anticipated expiration: 2039-01-31
Also published as: CN109871889A

Abstract

本发明一种突发事件下大众心理评估方法，是一种基于Boosting算法的Batch SVM增量心理评估算法，该算法主要通过对样本集的操作来生成一系列的弱分类器，通过迭代替换部分训练样本，更新支持向量机分类器。然后对这些弱分类器进行加权集成，产生一个最终的融合强分类器。采用该方法能够获得更准确的大众心理评估结果，同时构建了在线心理评估机制，从而能够对网络突发事件中的大众心理情况进行在线实时分析，可应用于基于云平台的大型分布式心理评估系统中，并且实施简单，准确率高，大幅度降低了心理评估的时延，具有很强的应用价值和现实意义。

Description

突发事件下大众心理评估方法

技术领域

本发明属于大数据分析与应用技术领域，涉及舆情分析，特别涉及一种突发事件下大众心理评估方法。

背景技术

随着大数据时代的到来，互联网得到了快速发展，通过网络网民能够积极参与社会管理。与此同时，网络突发事件具有越来越高的发生频率，其影响由网络空间进入现实生活，从虚拟议题走向社会现实，政府对于治理突发事件危机面临新的挑战。高度重视网络突发事件，尤其是对大众心理进行评估，以切实加强其应对能力，已经成为我国政府不可回避的重要任务。

在现有技术中，对突发事件的大众心理评估方法分为三种。第一种是基于情感词典和规则的方法，这种方法通过计算句子中负面情感词和正面情感词的个数来识别情感倾向。第二种是基于机器学习的方法，通过挑选合适的特征来训练模型。第三种是基于深度学习的方法，这种方法可以用大量无标签数据来获取特征并训练模型。

然而，上述三种心理评估方法在实际应用中存在一些问题。在基于情感词典方法中，构建情感词典费时费力，同时在运用构建的情感词典进行心理评估时，心理评估的准确性过于依赖所构建情感词典的效果。基于规则的心理评估过于依赖人工制定规则的效果，而规则的制定取决于人的主观意志。在基于机器学习的方法中，现有机器学习的方法面临训练模型耗时较长的问题，这个问题在数据量庞大时更为突出。且模型无法随数据的增加进行更新，无法满足模型实时更新的动态性。在基于深度学校的方法中，传统心理评估方法训练模型需要较长的时间，在突发事件过程中无法及时分析大众心理。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种突发事件下大众心理评估方法，基于Boosting-SVM算法，实现了高效的增量心理评估。

为了实现上述目的，本发明采用的技术方案是：

一种突发事件下大众心理评估方法，包括如下步骤：

步骤1)获取突发事件的数据集并进行预处理；

步骤2)训练k个弱分类器C，若存在新增数据，则将历史支持向量文本集与新增文本集合并，使用合并后的数据集对k个弱分类器进行迭代更新；

步骤3)将k个弱分类器进行投票集成，产生最终的强分类器C*；

步骤4)利用强分类器C*，对待测试样本进行识别。

所述步骤1)中，数据集是从网络上爬取获得的文本数据，将得到的文本进行人工标注，清洗过滤，进行整理和处理，并对文本进行分词、去停用词、去除无意义符号处理的操作；然后使用基于卡方统计量选择特征向量，再用TF-IDF对数据进行量化处理，将文本数据转化为SVM的输入数据格式，最后使用LIBSVM的归一化工具对数据进行归一化处理。

所述人工标注是从待标注数据中选择一条数据，随机指派给两个标注人员，如果两个标注人员标注结果一致，则直接写入已标数据文档；如果两个标注人员标注的结果不一致，再指派给第三个标注人员标注，把多数一致的标注结果写入已标注数据文档；所述清洗过滤的目的是去除文档中的噪声即不完整的数据和错误数据，以及删除重复的数据；所述整理和处理是将数据整理为相应的格式，比如将每条数据存为一个.txt文档，便于后续的分词，去停用词。

所述步骤2)中，以线性SVM分类器作为基本弱分类器，利用Boosting算法进行增强学习和融合学习，从而训练得到弱分类器C，以提高分类器的性能。

所述k可取3，弱分类器C的训练方法为：首先从样本集合D中，不放回的随机抽样n1<n个样本，得到集合D1训练弱分类器C1，然后，从样本集合D中，抽取n2<n个样本，其中合并进一半被C1分类错误的样本，得到样本集合D2，训练得到弱分类器C2，之后抽取D样本集合中，C1和C2分类不一致的样本，组成样本集合D3，训练得到弱分类器C3。

所述步骤3)中，使用加权集成方式对k个弱分类器进行投票，每个弱分类器的权重均为1，针对测试集中的每个测试样本x，将x输入SVM集成分类器即强分类器C*中的k个基分类器即弱分类器C中，计算k个基分类器的投票结果，输出分类结果。

所述基分类器中的投票公式为：

C^*(x)＝vote(C₁(x),C₂(x),C₃(x))＝δ(∑_isign(C_i(x)＝y))

当判别条件r：C₁(x)＝y成立时，sign(r)＝1，反之，sign(r)＝-1，当判别条件q:∑_isign(C_i(x)＝y)＞0成立时，δ(q)＝1，表示积极心理；q:∑_isign(C_i(x)＝y)＜0成立时，δ(q)＝-1，表示消极心理，其中x代表测试数据，y代表预测结果，C_i代表单个弱分类器，i＝1～k，q代表判别条件，δ(q)代表投票结果。

所述步骤4)中，将所述心理评估方法嵌入到Storm平台中，构建在线心理评估机制，并将Storm与Kafka合并，以实现短社交媒体文本的实时处理机制，其中Kafka用于构建实时文本管道。

本发明为所述Storm设计拓扑结构，该拓扑结构嵌入了所述心理评估方法和实时文本流处理过程，该拓扑结构包括：

1)Kafka和Spout：解决多个Spout组件并行读取文本的问题，使用Kafka系统处理收到的在线文本，通过队列为文本分配存储空间，使得Bolt组件能够使用队列中的缓存文本；其中Spout代表Storm中的数据源，将Spout组件作为Storm平台中Kafka管道的消费者，Bolt组件在以下步骤中处理Spout组件中的数据；

2)ProcessBolt：Bolt组件是Storm平台中的主要处理逻辑，ProcessBolt组件缓存从Spout组件接收的数据，并对数据执行所述步骤1)中的预处理流程；

3)TransferBolt：TransferBolt组件缓存从ProcessBolt组件接收的数据，并将副本发送到PredictBolt；并且TransferBolt组件实现了ACK机制，以便协调TBolt组件和PredictBolt组件同步数据处理；

4)TBolt：在TBolt组件中，首先判断它是否是第一次训练SVM分类器，如果是，直接训练模型，如果数据为增量数据时，TBolt组件将进行模型更新，即将历史数据文本集与增量数据文本集合并组成新的训练数据集，重新训练SVM分类器，最后，将模型文件传递给PredictBolt组件，与此同时，ACK信号被发送到上游Transferbolt组件并通知它为下游PredictBolt组件分配新数据并获得其心理评估结果；

5)PredictBolt：PredictBolt组件旨在保存经过多次训练的模型文件，PredictBolt组件从TBolt组件获得增量短文本在线心理评估模型，从UpstreamTransferBolt组件接收相应的文本后，PredictBolt组件使用短文本分类模型对测试文本集进行评估并确定心理评估结果，最后，PredictBolt组件将测试集文本表示结果发送给HBase以支持在线心理评估。

与现有技术相比，本发明的有益效果是：

本发明提出基于Boosting算法的Batch SVM增量心理评估算法，该算法主要通过对样本集的操作来生成一系列的弱分类器，通过迭代替换部分训练样本，更新支持向量机分类器。然后对这些弱分类器进行加权集成，产生一个最终的融合强分类器。采用该方法能够获得更准确的大众心理评估结果，同时构建了在线心理评估机制，从而能够对网络突发事件中的大众心理情况进行在线实时分析，可应用于基于云平台的大型分布式心理评估系统中，并且实施简单，准确率高，大幅度降低了心理评估的时延，具有很强的应用价值和现实意义。

附图说明

图1为根据本发明实施例的基于Boosting算法的Batch SVM增量心理评估算法的流程示意图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

如图1所示，一种突发事件下大众心理评估方法，包括如下步骤：

步骤1)获取突发事件的数据集并进行预处理。

具体地，在本步骤中，从网络上爬取突发事件获得文本数据作为数据集，对文本进行人工标注，清洗过滤，对数据进行整理和处理。并对文本进行分词、去停用词、去除无意义符号处理的操作。然后使用基于卡方统计量选择特征向量，再用TF-IDF对数据进行量化处理，将文本数据转化为SVM的输入数据格式。最后使用LIBSVM的归一化工具对数据进行归一化处理；

其中，人工标注是从待标注数据中选择一条数据，随机指派给两个标注人员，如果两个标注人员标注结果一致，则直接写入已标数据文档；如果两个标注人员标注的结果不一致，再指派给第三个标注人员标注，把多数一致的标注结果写入已标注数据文档；清洗过滤是指去除文档中的噪声即不完整的数据和错误数据，以及删除重复的数据；整理和处理是将数据整理为相应的格式，比如将每条数据存为一个.txt文档，便于后续的分词，去停用词。

步骤2)训练k个弱分类器C，若存在新增数据，则将历史支持向量文本集与新增文本集合并，使用合并后的数据集对k个弱分类器进行迭代更新。

具体地，以线性SVM分类器作为基本弱分类器，利用Boosting算法进行增强学习和融合学习，从而训练得到弱分类器C，以提高分类器的性能。当k取3时，弱分类器C的训练方法为：首先从样本集合D中，不放回的随机抽样n1<n个样本，得到集合D1训练弱分类器C1，然后，从样本集合D中，抽取n2<n个样本，其中合并进一半被C1分类错误的样本，得到样本集合D2，训练得到弱分类器C2，之后抽取D样本集合中，C1和C2分类不一致的样本，组成样本集合D3，训练得到弱分类器C3。若存在增量数据集则将历史支持向量文本集与新增文本集合并，使用合并后的数据集对k个弱分类器进行迭代更新。

步骤3)将k个弱分类器进行投票集成，产生最终的强分类器C*。

具体地，使用加权集成方式对k个弱分类器的心理评估结果进行投票，每个弱分类器的权重均为1，针对测试集中的每个测试样本x，将x输入SVM集成分类器即强分类器C*中的k个基分类器即弱分类器C中，计算k个基分类器的投票结果，输出分类结果。基分类器中的投票公式为：

C^*(x)＝vote(C₁(x),C₂(x),C₃(x))＝δ(∑_isign(C_i(x)＝y))

步骤4)利用强分类器C*，对待测试样本进行识别。

具体地，将上述步骤1)-3)的心理评估方法嵌入到Storm平台中，构建在线心理评估机制，并将Storm与Kafka合并，以实现短社交媒体文本的实时处理机制，其中Kafka用于构建实时文本管道。为Storm设计拓扑结构，该拓扑结构嵌入了所述心理评估方法和实时文本流处理过程，从而在增量SVM的基础上引入storm分布式思想，加快了增量SVM模型的训练和预测处理速度，增强了心理评估的实时性，实现了多个SVM模型训练过程以及预测过程的并行化，解决了海量数据处理的高并发问题，提升了心理评估的整体效率。

本发明拓扑结构包括：

2)ProcessBolt：Bolt组件是Storm平台中的主要处理逻辑，ProcessBolt组件缓存从Spout组件接收的数据，并对数据执行所述步骤1)中的预处理流程；包括对原始数据进行分词、去停用词以及去除一些高频无意义词，同时去除所有标点符号。之后使用基于卡方统计量技术实现选择特征向量。为每个类别下的每个词都进行计算得到一个CHI值，然后对这个类别下所有词基于CHI值进行排序，选出最大topN个词。最后将多个类别下选择的多组topN个词进行合并，得到最终的特征向量。接下来为每个词给出唯一的编号，输出量化数据文件。对每条文本数据计算TF-IDF。最后对量化后的数据使用LIBSVM的归一化工具进行归一化处理。

5)PredictBolt：PredictBolt组件旨在保存经过多次训练的模型文件，PredictBolt组件可以从TBolt组件获得增量短文本在线心理评估模型，从UpstreamTransferBolt组件接收相应的文本后，PredictBolt组件使用短文本分类模型对测试文本集进行评估并确定心理评估结果，最后，PredictBolt组件将测试集文本表示结果发送给HBase以支持在线心理评估。

在本发明的实施例中，爬取网络突发事件文本数据如2010年3月17日山西问题疫苗事件相关微博文本共计23452条，对爬取的网络突发事件中文文本进行去重操作，选取其中20000条作为本实施例的文本集。然后对数据进行人工标注，将网络突发事件下的每条微博文本标注为+1代表网民为积极心理，-1代表网民为消极心理。清洗过滤，对数据进行整理和处理。并对文本进行分词、去停用词、去除无意义符号处理的操作。然后使用基于卡方统计量选择特征向量，再用TF-IDF对数据进行量化处理，将文本数据转化为SVM的输入数据格式。最后使用LIBSVM的归一化工具对数据进行归一化处理，将数据按照80％为训练数据，20％为测试数据将数据进行人工划分，实验使用准确率、召回率和F1值作为评价标准。

以初始数据集8000条，增量数据集8000条为例进行说明。首先选取8000条数据作为本示例的数据文本集。从中抽取n1＝4000作为样本集D1训练弱分类器C1。使用弱分类器C1预测初始8000条数据，将预测错误的数据共计3423条提取出来，再从8000条数据中取n2＝3423条数据，与C1预测错误的数据合并，得到样本集合D2共计6846条，训练弱分类器C2。用C2预测8000条数据，抽取出预测错误的数据1068条，将C1和C2预测错误的数据合并作为样本集D3共计4491条，训练分类器C3。当增量数据8000进入时，从中抽取n3＝4000和历史支持向量文本集2021条合并作为样本集ND1训练弱分类器C1，使用若弱类器C1预测增量数据集，将预测错误的数据2027条提取出来。再次从增量数据集中抽取n4＝2027条，将C1预测错误的数据与n4以及历史支持向量文本集3604合并为ND2共9658条数据集，训练弱分类器C2，使用C2预测增量数据集，将C1预测错误的3244条与C2预测错误的927条以及历史支持向量文本集2075条合并作为ND3共6246条训练弱分类器C3。

现假设某条测试数据x，C1分类器检测结果为+1，代表积极心理，C2分类器检测结果为-1，代表消极心理，C3分类器检测结果为+1，代表积极心理。根据投票公式C^*(x)＝vote(C₁(x),C₂(x),C₃(x))＝δ(∑_isign(C_i(x)＝y))可知，最后三个分类器结果的判别条件δ(q)＝1，表示为积极心理。票数最多的为最终的结果，此时使用该方法对数据进行评估获得准确率为85.77％，召回率为87.46％，F1值为86.61％，用时52s。

在本方法构建的基于Storm平台的在线增量心理评估机制上对真实数据集进行处理。获得准确率为85.77％，召回率为87.46％，F1值为86.61％，用时22s。本方法构建的机制大大提升了本发明提出算法的效率，有效降低了处理时延。

Claims

1.一种突发事件下大众心理评估方法，其特征在于，包括如下步骤：

步骤1)获取突发事件的数据集并进行预处理；

步骤2)以线性SVM分类器作为基本弱分类器，利用Boosting算法进行增强学习和融合学习，训练得到3个弱分类器C，训练方法为：首先从样本集合D中，不放回的随机抽样n1<n个样本，得到集合D1训练弱分类器C1，然后，从样本集合D中，抽取n2<n个样本，其中合并进一半被C1分类错误的样本，得到样本集合D2，训练得到弱分类器C2，之后抽取D样本集合中，C1和C2分类不一致的样本，组成样本集合D3，训练得到弱分类器C3；若存在新增数据，则将历史支持向量文本集与新增文本集合并，使用合并后的数据集对3个弱分类器进行迭代更新；

步骤3)将3个弱分类器进行投票集成，产生最终的强分类器C*；

步骤4)利用强分类器C*，对待测试样本进行识别，方法为：将所述心理评估方法嵌入到Storm平台中，构建在线心理评估机制，并将Storm与Kafka合并，以实现短社交媒体文本的实时处理机制，其中，为所述Storm设计拓扑结构，该拓扑结构嵌入了所述心理评估方法和实时文本流处理过程，所述Kafka用于构建实时文本管道。

2.根据权利要求1所述突发事件下大众心理评估方法，其特征在于，所述步骤1)中，数据集是从网络上爬取获得的文本数据，将得到的文本进行人工标注，清洗过滤，进行整理和处理，并对文本进行分词、去停用词、去除无意义符号处理的操作；然后使用基于卡方统计量选择特征向量，再用TF-IDF对数据进行量化处理，将文本数据转化为SVM的输入数据格式，最后使用LIBSVM的归一化工具对数据进行归一化处理。

3.根据权利要求2所述突发事件下大众心理评估方法，其特征在于，所述人工标注是从待标注数据中选择一条数据，随机指派给两个标注人员，如果两个标注人员标注结果一致，则直接写入已标数据文档；如果两个标注人员标注的结果不一致，再指派给第三个标注人员标注，把多数一致的标注结果写入已标注数据文档；所述清洗过滤的目的是去除文档中的噪声即不完整的数据和错误数据，以及删除重复的数据；所述整理和处理是将数据整理为相应的格式，便于后续的分词，去停用词。

4.根据权利要求1所述突发事件下大众心理评估方法，其特征在于，所述步骤3)中，使用加权集成方式对3个弱分类器进行投票，每个弱分类器的权重均为1，针对测试集中的每个测试样本x，将x输入SVM集成分类器即强分类器C*中的3个基分类器即弱分类器C中，计算3个基分类器的投票结果，输出分类结果。

5.根据权利要求4所述突发事件下大众心理评估方法，其特征在于，所述基分类器中的投票公式为：

C^*(x)＝vote(C₁(x),C₂(x),C₃(x))＝δ(∑_isign(C_i(x)＝y))

当判别条件r:C₁(x)＝y成立时，sign(r)＝1，反之，sign(r)＝-1，当判别条件q:∑_isign(C_i(x)＝y)＞0成立时，δ(q)＝1，表示积极心理；q:∑_isign(C_i(x)＝y)＜0成立时，δ(q)＝-1，表示消极心理，其中x代表测试数据，y代表预测结果，C_i代表单个弱分类器，i＝1～k，q代表判别条件，δ(q)代表投票结果。

6.根据权利要求1所述突发事件下大众心理评估方法，其特征在于，所述拓扑结构包括：

5)PredictBolt：PredictBolt组件旨在保存经过多次训练的模型文件，PredictBolt组件从TBolt组件获得增量短文本在线心理评估模型，从Upstream TransferBolt组件接收相应的文本后，PredictBolt组件使用短文本分类模型对测试文本集进行评估并确定心理评估结果，最后，PredictBolt组件将测试集文本表示结果发送给HBase以支持在线心理评估。