CN110688484A

CN110688484A - 一种基于不平衡贝叶斯分类的微博敏感事件言论检测方法

Info

Publication number: CN110688484A
Application number: CN201910905103.5A
Authority: CN
Inventors: 韩忠明; 刘聃; 段大高; 杨伟杰
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2020-01-14
Anticipated expiration: 2039-09-24
Also published as: CN110688484B

Abstract

本发明公开一种基于不平衡贝叶斯分类的微博敏感事件言论检测方法，包括：S1、选取需要检测的微博言论数据集，通过文本特征处理构建不平衡数据集，构建分类模型；指定分类模型在参数ω上的先验分布，对参数ω随机初始化，得到初始参数向量ω⁰；S2、计算参数为ω⁰的分类模型对各类别子数据集的间隔似然值；S3、计算分类模型在参数ω⁰上的后验概率；S4、采样新参数点；S5、记录采样到的参数序列；S6、分类模型计算待测言论特征属于各类别的概率分布向量p，预测待测言论特征的类别为p中概率最高的类别；本发明不需大量数据支撑训练过程，克服了异常类样本过拟合的问题,从而有效提高了异常类言论数量过少时数据集的分类精度。

Description

一种基于不平衡贝叶斯分类的微博敏感事件言论检测方法

技术领域

本发明涉及数据挖掘技术领域，特别是涉及一种基于不平衡贝叶斯分类的微博敏感事件言论检测方法。

背景技术

在互联网快速发展的时代，越来越多的人使用互联网进行交流，但是互联网自身的匿名性会使人在网上发出不负责任的言论，包括对敏感事件进行不负责任的评价，例如涉黄涉恐言论、谣言、辱华言论等。在微博等社交平台中，人工筛查微博言论不再可行，需要通过深度学习等方法对这些言论进行识别检测。但是在敏感事件言论检测这个任务中，多数人发的微博并不涉及敏感事件，仅有很少一部分人的言论涉及敏感事件，造成数据集中正常类和异常类的微博样本数量差异很大，这种数据集称为不平衡数据集。传统分类算法假定数据集具有平衡的类分布或各类别具有相等的错误分类代价，因此，当处理微博敏感事件言论检测任务时，传统分类算法不能正确表示数据的分布特征，使模型的分类结果倾向于正常类而忽略异常类。

现有可用于微博敏感事件言论检测的不平衡分类方法通常基于函数逼近方法，大致分为重采样和改进损失函数。重采样通过减少正常类样本或增加异常类样本等手段构造具有平衡类分布的训练数据集，而改进损失函数对不同的类别设置不同的错误分类代价使模型可以在不平衡数据集上训练。函数逼近方法要求训练数据集能够反映真实的数据分布，但是在微博敏感事件言论检测中，涉及敏感事件的言论较少，数据集存在异常样本过少的问题，导致异常类样本由于数量不足而无法良好刻画真实的数据分布，使模型对异常类样本存在过拟合的现象。

发明内容

本发明的目的是提供一种基于不平衡贝叶斯分类的微博敏感事件言论检测方法，以解决上述现有技术存在的问题，提高异常类样本量过少时数据集分类的准确度。

为实现上述目的，本发明提供了如下方案：本发明提供一种基于不平衡贝叶斯分类的微博敏感事件言论检测方法方法，包括如下步骤：

S1、选取需要检测的微博言论数据集，通过文本特征处理构建不平衡数据集(X,Y)，其中X为言论特征向量的集合,Y为数据的类别标签构成的集合,提取数据集(X,Y)的数据维度和类别数量，构建分类模型F；指定分类模型F在参数ω上的先验分布P(ω)，使用P(ω)对参数ω进行随机初始化，得到初始参数向量ω⁰；

S2、计算参数为ω⁰的分类模型F对数据集(X,Y)中类别为c的子数据集(X_c,Y_c)的间隔似然值；

S3、计算分类模型F在数据集(X,Y)上的类间隔似然值，并根据分类模型F在数据集(X,Y)上的类间隔似然值，计算分类模型F在参数ω⁰上的后验概率；

S5、重复步骤S4，直至时刻t＝T+T′，其中T表示收敛时刻数，T′表示采样时刻数，并记录采样到的参数序列为Ω＝{ω^T+1,ω^T+2,…,ω^T+T′}；

S6、分类模型F使用参数序列Ω中的所有参数计算待测言论特征x属于各类别的概率分布向量p，预测待测言论特征x的类别为概率分布向量p中概率最高的类别,实现对微博敏感事件言论的检测。

优选的，步骤S1中的分类模型F是一种基于函数逼近的分类模型，并使用标准正态分布作为分类模型F的参数ω的先验分布P(ω)。

优选的，步骤S1中的分类模型F为单层全连接神经网络分类模型，并使用Softmax函数作为单层全连接神经网络分类模型的激活函数。

优选的，步骤S2中，参数为ω⁰的分类模型F对子数据集(X_c,Y_c)的间隔似然值的计算方法如公式1和公式2所示：

其中，M(y_i|x_i,ω⁰)表示分类模型F对数据(x_i,y_i)的间隔值，(x_i,y_i)表示数据集(X_c,Y_c)上的一条数据，F(y_i|x_i,ω⁰)表示模型参数为ω⁰时，分类模型F计算输入数据x_i的类别为y_i的概率；F(c|x_i,ω⁰)表示模型参数为ω⁰时，分类模型F计算输入数据x_i的类别为c的概率；M(Y_c|X_c,ω⁰)表示模型参数为ω⁰时，分类模型F在c类上的间隔似然值；C表示数据集(X,Y)中所有类别构成的集合。

优选的，步骤3中，分类模型F在数据集(X,Y)上的类间隔似然值的计算方法如公式3所示，分类模型F在参数ω⁰上的后验概率的计算方法如公式4所示：

其中，

表示模型参数为ω⁰时，模型F在数据集(X,Y)上的类间隔似然值，P(ω⁰|X,Y)表示参数ω⁰在数据集(X,Y)上的后验概率，P(ω⁰)表示参数ω⁰的先验概率。

优选的，步骤4中设定参数点的转移接受概率α为0.6。

优选的，步骤6中，待测样本x属于各类别的概率分布向量p的计算方法如公式5所示：

其中，F(x|ω^T+i)表示模型参数为ω^T+i的模型F根据待测样本x计算得到的概率向量。

本发明公开了以下技术效果：针对微博敏感事件言论检测任务中存在异常类样本过少的问题，本发明提出了基于不平衡贝叶斯分类的微博敏感事件言论检测方法，基于贝叶斯学习的假设，微博敏感事件发生的概率是对事件发生的信念度，而不是事件发生次数的均值，由于微博敏感事件较少，从大量非敏感内容中分类处敏感内容是一个不平衡分类问题，本发明构建了新的损失函数，对不同的类别设置不同的错误分类代价，然后采用贝叶斯学习在微博敏感事件的不平衡样本集上训练，这样有效避免了统计模型中需要大量数据满足中心极限定理的收敛条件，同时，本发明使用概率模型的推理方法，改善了现有微博敏感事件言论检测方法对异常类样本过拟合的问题,能够在异常类样本过少的数据集上达到良好的学习效果，从而在敏感事件言论检测任务中，学习到一个对正常类和异常类言论均达到高分类精度的模型，有效提高了微博敏感事件言论检测精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于不平衡贝叶斯分类的微博敏感事件言论检测方法流程图；

图2为本发明分类模型F结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1-2所示，本实施例提供一种基于不平衡贝叶斯分类的微博敏感事件言论检测方法，包括如下步骤：

S1、获取一组微博言论数据，对微博言论进行文本特征处理得到高维的言论特征，为简化、方便描述，本实施例采用降维方法将特征维度降至二维。构造言论特征和标签的构成的数据集(X,Y)，其中X为言论特征向量的集合,Y为数据的类别标签构成的集合,如表1所示，X特征维度为2，正常类和异常类分别用标签“0”、“1”标记，构建分类模型F；本实施例构造单层全连接神经网络作为分类模型F，使用Softmax函数作为激活函数，使用标准正态分布作为分类模型F的参数ω的先验分布P(ω)，使用P(ω)对参数ω进行随机初始化，从标准正态分布中进行多次采样，得到初始参数向量ω⁰：

表1

S2、在参数为ω⁰时，计算分类模型F对数据集(X,Y)中类别为c的子数据集(X_c,Y_c)的间隔似然值，如公式1和公式2所示，计算结果如表2所示：

表2

编号	F(0\|x,ω<sup>0</sup>)	F(1\|x,ω<sup>0</sup>)	M(y\|x,ω<sup>0</sup>)
				(x<sub>1</sub>,y<sub>1</sub>)	0.806	0.194	0.648
(x<sub>2</sub>,y<sub>2</sub>)	0.790	0.210	0.641
				(x<sub>3</sub>,y<sub>3</sub>)	0.791	0.209	0.642
(x<sub>4</sub>,y<sub>4</sub>)	0.766	0.234	0.630
				(x<sub>5</sub>,y<sub>5</sub>)	0.538	0.462	0.481
(x<sub>6</sub>,y<sub>6</sub>)	0.559	0.441	0.470

S3、使用类间隔似然函数计算分类模型F在数据集(X,Y)上的类间隔似然值，如公式3所示，并根据分类模型F在数据集(X,Y)上的类间隔似然值，计算分类模型F在参数ω⁰上的后验概率，如公式4所示；

其中，表示模型参数为ω⁰时，模型F在数据集(X,Y)上的类间隔似然值，P(ω⁰|X,Y)表示参数ω⁰在数据集(X,Y)上的后验概率，P(ω⁰)表示参数ω⁰的先验概率；

经计算，参数ω⁰的先验概率值为：P(ω⁰)＝1.74×10^-4，参数ω⁰的后验概率值为：P(ω⁰|X,Y)＝5.34×10^-5。

“0”类的间隔似然值为：M(Y₀|X₀,ω′)＝0.1761，

“1”类的间隔似然值为：M(Y₁|X₁,ω′)＝0.2215，

参数ω′的先验概率值为：P(ω′)＝1.85×10^-4，

参数ω′的后验概率为值：P(ω′|X,Y)＝5.63×10^-4，

参数ω′的后验概率值大于ω⁰，接受转移，ω¹＝ω′。

S5、重复步骤S4，直至时刻t＝T+T′，其中T表示收敛时刻数，T′表示采样时刻数，并记录采样到的参数序列为Ω＝{ω^T+1,ω^T+2,…,ω^T+T′}；本实施例设定收敛时刻数T和采样时刻数T^′均为2,即迭代重复步骤S4至参数随机移动4次；第二次迭代结果如下：

模拟参数随机移动至ω′，计算ω′对应的后验概率值，模拟及计算结果如下：

“0”类的间隔似然值为：M(Y₀|X₀,ω′)＝0.1769，

“1”类的间隔似然值为：M(Y₁|X₁,ω′)＝0.2219，

参数ω′的先验概率值为：P(ω′)＝2.20×10^-4，

参数ω′的后验概率值为：P(ω′|X,Y)＝6.15×10^-4，

参数ω′的后验概率值小于ω⁰，随机采样γ为0.81，α＜γ,拒绝转移，ω²＝ω¹；第三、四次参数采样结果如下：

采样迭代期为第三次和第四次迭代，记录ω³和ω⁴的参数值作为模型参数序列Ω。

S6、分类模型F使用参数序列Ω中的所有参数计算待测言论特征x属于各类别的概率分布向量p，如公式5所示，预测待测言论特征x的类别为概率分布向量p中概率最高的类别，实现对微博敏感事件言论的检测，如公式6所示：

c＝argmax(p) 6其中，F(x|ω^T+i)表示模型参数为ω^T+i的模型F根据待测样本x计算得到的概率向量；

本实施例以表1中的x₁作为待测样本，使用参数为ω³和ω⁴的分类模型F得到的概率向量分别为：

F(x|ω³)＝[0.666 0.334]，F(x|ω⁴)＝[0.647 0.353]，

根据公式5：

根据公式6，c＝argmax(p)＝“0”，即待测样本x₁的分类结果为“0”类。

可见，本发明能够在敏感事件言论检测任务中，学习到一个对正常类和异常类言论均达到高分类精度的模型，有效提高了微博敏感事件言论检测精度。同时，本发明中的不平衡贝叶斯分类方法能够推广应用于异常检测、文本分析、医疗诊断、入侵识别等多个技术领域，用于不平衡样本分类识别，有效提高了机器学习的易用性。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。

在发明的描述中，需要理解的是，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

以上所述的实施例仅是对本发明的优选方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种基于不平衡贝叶斯分类的微博敏感事件言论检测方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的基于不平衡贝叶斯分类的微博敏感事件言论检测方法，其特征在于：步骤S1中的分类模型F是一种基于函数逼近的分类模型，并使用标准正态分布作为分类模型F的参数ω的先验分布P(ω)。

3.根据权利要求2所述的基于不平衡贝叶斯分类的微博敏感事件言论检测方法，其特征在于：步骤S1中的分类模型F为单层全连接神经网络分类模型，并使用Softmax函数作为单层全连接神经网络分类模型的激活函数。

4.根据权利要求1所述的基于不平衡贝叶斯分类的微博敏感事件言论检测方法，其特征在于：步骤S2中，参数为ω⁰的分类模型F对子数据集(X_c,Y_c)的间隔似然值的计算方法如公式1和公式2所示：

5.根据权利要求1所述的基于不平衡贝叶斯分类的微博敏感事件言论检测方法，其特征在于：步骤3中，分类模型F在数据集(X,Y)上的类间隔似然值的计算方法如公式3所示，分类模型F在参数ω⁰上的后验概率的计算方法如公式4所示：

其中，

6.根据权利要求1所述的基于不平衡贝叶斯分类的微博敏感事件言论检测方法，其特征在于：步骤4中设定参数点的转移接受概率α为0.6。

7.根据权利要求1所述的基于不平衡贝叶斯分类的微博敏感事件言论检测方法，其特征在于：步骤6中，待测样本x属于各类别的概率分布向量p的计算方法如公式5所示：