CN108804651B

CN108804651B - 一种基于强化贝叶斯分类的社交行为检测方法

Info

Publication number: CN108804651B
Application number: CN201810578405.1A
Authority: CN
Inventors: 薛丽; 陈志�; 张怡婷; 岳文静; 金广华; 郑瑶嘉; 张姝彦
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2018-06-07
Filing date: 2018-06-07
Publication date: 2022-08-19
Anticipated expiration: 2038-06-07
Also published as: CN108804651A

Abstract

本发明公开了一种基于强化贝叶斯分类的社交行为检测方法具体为：步骤1)收集中文社交网站言论的文本训练样本集,包括攻击性言论文本及赞赏性言论文本等类别文本,建立社交网站言论的文本训练样本集；步骤2)根据停用词词库对中文社交网站言论的文本训练样本集进行中文分词得到某个中文训练集的词序列v_i，i∈{1,2,3,...f}，f为训练样本总数；步骤3)通过TF‑IDF中文分词算法对中文社交网站言论的文本训练样本集中不同行为类别文本的进行特征提取；步骤4)输入特征词序列，使用贝叶斯模型进行学习识别；步骤5)通过强化贝叶斯分类器对分类器进行强化。本发明方法能够更加精确和高效的对人物社交行为进行检测，具有较好的应用前景。

Description

一种基于强化贝叶斯分类的社交行为检测方法

技术领域

本发明涉及一种基于强化贝叶斯分类的社交行为检测方法，尤其是在在线社交网络中进行社交行为检测，通过TF-IDF中文分词算法对社交网络人物言论进行检测分类，并且提取特征词及特征值权值，之后特征词及其权值输入贝叶斯分类器中进行社交网络人物行为进行分类检测。

背景技术

贝叶斯算法以其高效、易于实现、扩展性好的特点,已广泛的应用在行为分类的过程中此外,贝叶斯算法能够通过对中文语言样本的训练,自动学习样本内容来对社交人物行为进行检测。在现有的社交人物行为进行检测中,贝叶斯算法在行为检测中显现出了极好的应用效果。

TF-IDF是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

加强学习是一种迭代的算法，会对同一个训练集使用不同的分类器训练，之后，再把这些分类器集合起来，构建一个最终的最强的分类器。其算法本身是通过改变一个权重D的分布来实现的，该权重D初始化一致，然后改变之后交给下一次分类器。使用加强分类器能够过滤掉一些不必要的训练数据特征，然后放在关键的训练数据上面。

发明内容

技术问题：本发明公开了一种基于强化贝叶斯分类的社交行为检测方法。该方法首先将人物的言论量化为行为向量，行为向量的每个维度的值相当于人物对该行为的取值。使用朴素贝叶斯分类模型实现对人物行为向量进行简单分类。

技术方案：本发明的一种基于强化贝叶斯分类的社交行为检测方法主要包括以下步骤：

步骤1)收集中文社交网站言论的文本训练样本集,包括攻击性言论文本及赞赏性言论文本等类别文本,建立社交网站言论的文本训练样本集；

步骤2)根据停用词词库对中文社交网站言论的文本训练样本集进行中文分词得到某个中文训练集的词序列V_i，i∈{1,2,3,...f}，f为训练样本总数；

步骤3)通过TF-IDF中文分词算法对中文社交网站言论的文本训练样本集中不同行为类别文本的进行特征提取；

步骤4)输入特征词序列，使用贝叶斯模型进行学习识别；

步骤5)通过强化贝叶斯分类器对分类器进行强化。

其中，

步骤3)所述通过TF-IDF中文分词算法对中文社交网站言论的文本训练样本集中不同行为类别文本的进行特征提取,根据提取的特征词以及特征词权值更新特征词词库，具体如下：

步骤31)计算v_i词语序列中的第j个词语v_i,j的正向词频

公式中的n_i,j是词语v_i,j在词序列v_i中的出现次数，∑n_i,j是次序列v_i所有字词的出现次数之和；

步骤32)计算v_i词语序列中的第j个词语v_i,j的逆文件词频

|D| 是语料库中的文件总数，countsum是包含词语v_i,j的文件总数；

步骤33)计算v_i词语序列中的第j个词语v_i,j的词频逆文件词频值； tf_i,j-idf_i,j＝tf_i,j×idf_i,j，保留v_i序列中留tf_i,j-idf_i,j值超过阙值t的词语作为特征词。

所述步骤4)输入特征词序列，使用贝叶斯模型进行学习识别的过程为：

步骤41)、特征词序列x＝{a_k}，k∈{1,2,3,...m}为一个待分类项，a_k为特征词序列的第k个特征词，总共有m个特征词；

步骤42)有社交行为类别集合C＝{y_z}，z∈{1,2,3,...n}，其中的y_z是第z个社交行为类别，总共有n社交行为类别；

步骤43)在各个特征属性是条件独立的基础上，见算出每个类别下的各个属性的条件概率

P(*)为贝叶斯概率公式，*为概率事件；

步骤44)根据公式

对每个类别的概率P(x|y_z)P(y_z)进行计算，P(y_z)为类别y_z的概率。P(a_k|y_z)是在分类属性为a_k条件下的的条概率，u为迭代变量u∈{1,2，...m}；

步骤45)计算出P(x|y_z)P(y_z)最大项，作为词序列x所属类别并得到弱分类器函数h(x_p)，x_p为词序列x的第P个属性值。

所述步骤5)加强贝叶斯分类器进行训练的方法为：

步骤51)：准备N个训练样本{(x_p，y_q)}，p∈{1,2,3,...m}组成训练集和D，y_q是x_p对应的第q个社交行为类别，赋予每个样本相等的权重

权重；

步骤52)：训练样本集D上，利用样本权重ω和步骤4中学习得到弱分类器 h(x_p)计算弱分类器h(x_p)的错误率

I(h(x_p)≠y_q)为每个分类器偏差率；

步骤53)假设ε＞0.5，使用简单贝叶斯进行分类，否则计算模型迭代权值a，

步骤54)根据公式

计算出强化贝叶斯分类模型h^*。T为总的行为总类数目，x中文文本的特征词序列，a是不同类别的加权值，h^*是强化分类器模型，I(h(x_p)≠y_q)为每个分类器正确率。

有益效果：本发明采用以上技术方案与现有技术相比：

(1)本发明算法较为简单，节省了计算成本，能够更好地提取文章关键词。

(2)本发明方法基于词典对训练集的属性进行筛选，并且朴素贝叶斯分类对数据进行分类，使用使用强化贝叶斯分类模型对模型进行连接，能够更加精确和高效的对人物社交行为进行检测，检测准确度非常高。

具体实施方式

本发明的一种基于强化贝叶斯分类的社交行为检测方法方法主要包括以下步骤：

步骤1)收集中文社交网站言论的文本训练样本集,包括攻击性言论文本及赞赏性言论文本等类别文本，建立社交网站言论的文本训练样本集。

步骤2)根据停用词词库对中文社交网站言论的文本训练样本集进行中文分词得到某个中文训练集的词序列V_i，i∈{1,2,3,...f}，f为训练样本总数，f为500，第i个文本训练集为内容为“这是一个非常优秀的人，喜欢帮助别人，热爱学习”，分词后的词序列V_i为{优秀，帮助，热爱，学习，非常，这，是，一个，喜欢，帮助}；

步骤3)通过TF-IDF中文分词算法对中文社交网站言论的文本训练样本集中不同行为类别文本的进行特征提取，步骤如下：

步骤31)计算v_i词语序列中的第j个词语v_i,j的正向词频

步骤32)计算v_i词语序列中的第j个词语v_i,j的逆文件词频

|D| 是语料库中的文件总数，countsum是包含词语v_i，j的文件总数；

步骤33)计算v_i词语序列中的第j个词语v_i,j的词频逆文件词频值 tf_i,j-idf_i,j＝tf_i,j×idf_i,j，保留v_i序列中留tf_i,j-idf_i,j值超过阙值t的词语作为特征词，阙值t为50。

步骤4)输入特征词序列，使用贝叶斯模型进行学习识别,具体步骤如下：

步骤41)、特征词序列x＝{a_k}，k∈{1,2,3,...m}为一个待分类项，a_k为特征词序列的第k个特征词，总共有m个特征词。特征词序列x为{帮助，喜欢，热爱}，m的值为4。社交行为类别集合C＝{赞赏，攻击，喜爱，痴迷，讨厌}，n 为5。

步骤42)有社交行为类别集合C＝{y_z}，z∈{1,2,3,...n}，其中的y_z是第z个社交行为类别，总共有n社交行为类别。

P(*)为贝叶斯概率公式，*为概率事件。

步骤44)根据公式

对每个类别的概率P(x|y_z)P(y_z)进行计算，P(y_z)为类别y_z的概率。P(a_k|y_z)是在分类属性为a_k条件下的的条概率，u为迭代变量u∈{1,2，...m}。

步骤5)通过强化贝叶斯分类器对分类器进行强化，具体步骤如下：

权重，N为500，ω为0.002；

I(h(x_p)≠y_q)为每个分类器偏差率。

步骤53)假设ε＝0.6，使用简单贝叶斯进行分类，否则计算模型迭代权值a，

步骤54)根据公式

通过该方法验证得知，该文本社交数据属于攻击性言论。