CN108804651B - 一种基于强化贝叶斯分类的社交行为检测方法 - Google Patents

一种基于强化贝叶斯分类的社交行为检测方法 Download PDF

Info

Publication number
CN108804651B
CN108804651B CN201810578405.1A CN201810578405A CN108804651B CN 108804651 B CN108804651 B CN 108804651B CN 201810578405 A CN201810578405 A CN 201810578405A CN 108804651 B CN108804651 B CN 108804651B
Authority
CN
China
Prior art keywords
word
chinese
text
sample set
training sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810578405.1A
Other languages
English (en)
Other versions
CN108804651A (zh
Inventor
薛丽
陈志�
张怡婷
岳文静
金广华
郑瑶嘉
张姝彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201810578405.1A priority Critical patent/CN108804651B/zh
Publication of CN108804651A publication Critical patent/CN108804651A/zh
Application granted granted Critical
Publication of CN108804651B publication Critical patent/CN108804651B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于强化贝叶斯分类的社交行为检测方法具体为:步骤1)收集中文社交网站言论的文本训练样本集,包括攻击性言论文本及赞赏性言论文本等类别文本,建立社交网站言论的文本训练样本集;步骤2)根据停用词词库对中文社交网站言论的文本训练样本集进行中文分词得到某个中文训练集的词序列vi,i∈{1,2,3,...f},f为训练样本总数;步骤3)通过TF‑IDF中文分词算法对中文社交网站言论的文本训练样本集中不同行为类别文本的进行特征提取;步骤4)输入特征词序列,使用贝叶斯模型进行学习识别;步骤5)通过强化贝叶斯分类器对分类器进行强化。本发明方法能够更加精确和高效的对人物社交行为进行检测,具有较好的应用前景。

Description

一种基于强化贝叶斯分类的社交行为检测方法
技术领域
本发明涉及一种基于强化贝叶斯分类的社交行为检测方法,尤其是在在线社交网络中进行社交行为检测,通过TF-IDF中文分词算法对社交网络人物言论进行检测分类,并且提取特征词及特征值权值,之后特征词及其权值输入贝叶斯分类器中进行社交网络人物行为进行分类检测。
背景技术
贝叶斯算法以其高效、易于实现、扩展性好的特点,已广泛的应用在行为分类的过程中此外,贝叶斯算法能够通过对中文语言样本的训练,自动学习样本内容来对社交人物行为进行检测。在现有的社交人物行为进行检测中,贝叶斯算法在行为检测中显现出了极好的应用效果。
TF-IDF是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
加强学习是一种迭代的算法,会对同一个训练集使用不同的分类器训练,之后,再把这些分类器集合起来,构建一个最终的最强的分类器。其算法本身是通过改变一个权重D的分布来实现的,该权重D初始化一致,然后改变之后交给下一次分类器。使用加强分类器能够过滤掉一些不必要的训练数据特征,然后放在关键的训练数据上面。
发明内容
技术问题:本发明公开了一种基于强化贝叶斯分类的社交行为检测方法。该方法首先将人物的言论量化为行为向量,行为向量的每个维度的值相当于人物对该行为的取值。使用朴素贝叶斯分类模型实现对人物行为向量进行简单分类。
技术方案:本发明的一种基于强化贝叶斯分类的社交行为检测方法主要包括以下步骤:
步骤1)收集中文社交网站言论的文本训练样本集,包括攻击性言论文本及赞赏性言论文本等类别文本,建立社交网站言论的文本训练样本集;
步骤2)根据停用词词库对中文社交网站言论的文本训练样本集进行中文分词得到某个中文训练集的词序列Vi,i∈{1,2,3,...f},f为训练样本总数;
步骤3)通过TF-IDF中文分词算法对中文社交网站言论的文本训练样本集中不同行为类别文本的进行特征提取;
步骤4)输入特征词序列,使用贝叶斯模型进行学习识别;
步骤5)通过强化贝叶斯分类器对分类器进行强化。
其中,
步骤3)所述通过TF-IDF中文分词算法对中文社交网站言论的文本训练样本集中不同行为类别文本的进行特征提取,根据提取的特征词以及特征词权值更新特征词词库,具体如下:
步骤31)计算vi词语序列中的第j个词语vi,j的正向词频
Figure BDA0001687770000000011
公式中的ni,j是词语vi,j在词序列vi中的出现次数,∑ni,j是次序列vi所有字词的出现次数之和;
步骤32)计算vi词语序列中的第j个词语vi,j的逆文件词频
Figure BDA0001687770000000021
|D| 是语料库中的文件总数,countsum是包含词语vi,j的文件总数;
步骤33)计算vi词语序列中的第j个词语vi,j的词频逆文件词频值; tfi,j-idfi,j=tfi,j×idfi,j,保留vi序列中留tfi,j-idfi,j值超过阙值t的词语作为特征词。
所述步骤4)输入特征词序列,使用贝叶斯模型进行学习识别的过程为:
步骤41)、特征词序列x={ak},k∈{1,2,3,...m}为一个待分类项,ak为特征词序列的第k个特征词,总共有m个特征词;
步骤42)有社交行为类别集合C={yz},z∈{1,2,3,...n},其中的yz是第z个社交行为类别,总共有n社交行为类别;
步骤43)在各个特征属性是条件独立的基础上,见算出每个类别下的各个属性的条件概率
Figure BDA0001687770000000022
P(*)为贝叶斯概率公式,*为概率事件;
步骤44)根据公式
Figure BDA0001687770000000023
对每个类别的概率P(x|yz)P(yz)进行计算,P(yz)为类别yz的概率。P(ak|yz)是在分类属性为ak条件下的的条概率,u为迭代变量u∈{1,2,...m};
步骤45)计算出P(x|yz)P(yz)最大项,作为词序列x所属类别并得到弱分类器函数h(xp),xp为词序列x的第P个属性值。
所述步骤5)加强贝叶斯分类器进行训练的方法为:
步骤51):准备N个训练样本{(xp,yq)},p∈{1,2,3,...m}组成训练集和D,yq是xp对应的第q个社交行为类别,赋予每个样本相等的权重
Figure BDA0001687770000000024
权重;
步骤52):训练样本集D上,利用样本权重ω和步骤4中学习得到弱分类器 h(xp)计算弱分类器h(xp)的错误率
Figure BDA0001687770000000025
Figure BDA0001687770000000026
I(h(xp)≠yq)为每个分类器偏差率;
步骤53)假设ε>0.5,使用简单贝叶斯进行分类,否则计算模型迭代权值a,
Figure BDA0001687770000000031
步骤54)根据公式
Figure BDA0001687770000000032
计算出强化贝叶斯分类模型h*。T为总的行为总类数目,x中文文本的特征词序列,a是不同类别的加权值,h*是强化分类器模型,I(h(xp)≠yq)为每个分类器正确率。
有益效果:本发明采用以上技术方案与现有技术相比:
(1)本发明算法较为简单,节省了计算成本,能够更好地提取文章关键词。
(2)本发明方法基于词典对训练集的属性进行筛选,并且朴素贝叶斯分类对数据进行分类,使用使用强化贝叶斯分类模型对模型进行连接,能够更加精确和高效的对人物社交行为进行检测,检测准确度非常高。
具体实施方式
本发明的一种基于强化贝叶斯分类的社交行为检测方法方法主要包括以下步骤:
步骤1)收集中文社交网站言论的文本训练样本集,包括攻击性言论文本及赞赏性言论文本等类别文本,建立社交网站言论的文本训练样本集。
步骤2)根据停用词词库对中文社交网站言论的文本训练样本集进行中文分词得到某个中文训练集的词序列Vi,i∈{1,2,3,...f},f为训练样本总数,f为500,第i个文本训练集为内容为“这是一个非常优秀的人,喜欢帮助别人,热爱学习”,分词后的词序列Vi为{优秀,帮助,热爱,学习,非常,这,是,一个,喜欢,帮助};
步骤3)通过TF-IDF中文分词算法对中文社交网站言论的文本训练样本集中不同行为类别文本的进行特征提取,步骤如下:
步骤31)计算vi词语序列中的第j个词语vi,j的正向词频
Figure BDA0001687770000000033
公式中的ni,j是词语vi,j在词序列vi中的出现次数,∑ni,j是次序列vi所有字词的出现次数之和;
步骤32)计算vi词语序列中的第j个词语vi,j的逆文件词频
Figure BDA0001687770000000034
|D| 是语料库中的文件总数,countsum是包含词语vi,j的文件总数;
步骤33)计算vi词语序列中的第j个词语vi,j的词频逆文件词频值 tfi,j-idfi,j=tfi,j×idfi,j,保留vi序列中留tfi,j-idfi,j值超过阙值t的词语作为特征词,阙值t为50。
步骤4)输入特征词序列,使用贝叶斯模型进行学习识别,具体步骤如下:
步骤41)、特征词序列x={ak},k∈{1,2,3,...m}为一个待分类项,ak为特征词序列的第k个特征词,总共有m个特征词。特征词序列x为{帮助,喜欢,热爱},m的值为4。社交行为类别集合C={赞赏,攻击,喜爱,痴迷,讨厌},n 为5。
步骤42)有社交行为类别集合C={yz},z∈{1,2,3,...n},其中的yz是第z个社交行为类别,总共有n社交行为类别。
步骤43)在各个特征属性是条件独立的基础上,见算出每个类别下的各个属性的条件概率
Figure BDA0001687770000000041
P(*)为贝叶斯概率公式,*为概率事件。
步骤44)根据公式
Figure BDA0001687770000000042
对每个类别的概率P(x|yz)P(yz)进行计算,P(yz)为类别yz的概率。P(ak|yz)是在分类属性为ak条件下的的条概率,u为迭代变量u∈{1,2,...m}。
步骤45)计算出P(x|yz)P(yz)最大项,作为词序列x所属类别并得到弱分类器函数h(xp),xp为词序列x的第p个属性值。
步骤5)通过强化贝叶斯分类器对分类器进行强化,具体步骤如下:
步骤51):准备N个训练样本{(xp,yq)},p∈{1,2,3,...m}组成训练集和D,yq是xp对应的第q个社交行为类别,赋予每个样本相等的权重
Figure BDA0001687770000000043
权重,N为500,ω为0.002;
步骤52):训练样本集D上,利用样本权重ω和步骤4中学习得到弱分类器 h(xp)计算弱分类器h(xp)的错误率
Figure BDA0001687770000000044
Figure BDA0001687770000000045
I(h(xp)≠yq)为每个分类器偏差率。
步骤53)假设ε=0.6,使用简单贝叶斯进行分类,否则计算模型迭代权值a,
Figure BDA0001687770000000046
步骤54)根据公式
Figure BDA0001687770000000051
计算出强化贝叶斯分类模型h*。T为总的行为总类数目,x中文文本的特征词序列,a是不同类别的加权值,h*是强化分类器模型,I(h(xp)≠yq)为每个分类器正确率。
通过该方法验证得知,该文本社交数据属于攻击性言论。

Claims (2)

1.一种基于强化贝叶斯分类的社交行为检测方法,其特征在于,该方法主要包括以下步骤:
步骤1)收集中文社交网站言论的文本训练样本集,包括攻击性言论文本及赞赏性言论文本类别文本,建立社交网站言论的文本训练样本集;
步骤2)根据停用词词库对中文社交网站言论的文本训练样本集进行中文分词得到某个中文训练集的词序列vi,i∈{1,2,3,...f},f为训练样本总数;
步骤3)通过TF-IDF中文分词算法对中文社交网站言论的文本训练样本集中不同行为类别文本进行特征提取;
步骤4)输入特征词序列,使用贝叶斯模型进行学习识别;
步骤5)通过强化贝叶斯分类器对分类器进行强化;
其中,
所述步骤4)输入特征词序列,使用贝叶斯模型进行学习识别的过程为:
步骤41)、特征词序列x={ak},k∈{1,2,3,...m}为一个待分类项,ak为特征词序列的第k个特征词,总共有m个特征词;
步骤42)有社交行为类别集合C={yz},z∈{1,2,3,...n},其中的yz是第z个社交行为类别,总共有n个社交行为类别;
步骤43)在各个特征属性是条件独立的基础上,计算出每个类别下的各个属性的条件概率
Figure FDA0003740039130000011
P(*)为贝叶斯概率公式,*为概率事件;
步骤44)根据公式
Figure FDA0003740039130000012
对每个类别的概率P(x|yz)P(yz)进行计算,P(yz)为类别yz的概率;P(ak|yz)是在分类属性为ak条件下的条件概率,u为迭代变量u∈{1,2,...m};
步骤45)计算出P(x|yz)P(yz)最大项,作为词序列x所属类别并得到弱分类器函数h(xp),xp为词序列x的第P个属性值;
所述步骤5)加强贝叶斯分类器进行训练的方法为:
步骤51):准备N个训练样本{(xp,yq)},p∈{1,2,3,...m}组成训练集和D,yq是xp对应的第q个社交行为类别,赋予每个样本相等的权重
Figure FDA0003740039130000013
权重;
步骤52):训练样本集D上,利用样本权重ω和步骤4中学习得到弱分类器h(xp)计算弱分类器h(xp)的错误率
Figure FDA0003740039130000021
Figure FDA0003740039130000022
为每个分类器偏差率;
步骤53)假设ε>0.5,使用简单贝叶斯进行分类,否则计算模型迭代权值a,
Figure FDA0003740039130000023
步骤54)根据公式
Figure FDA0003740039130000024
计算出强化贝叶斯分类模型h*;T为总的行为总类数目,x是中文文本的特征词序列,a是不同类别的加权值,h*是强化分类器模型,I(h(xp)≠yq)为每个分类器正确率。
2.根据权利要求1所述的一种基于强化贝叶斯分类的社交行为检测方法,其特征在于,步骤3)所述通过TF-IDF中文分词算法对中文社交网站言论的文本训练样本集中不同行为类别文本进行特征提取,其中,根据提取的特征词以及特征词权值更新特征词词库,具体如下:
步骤31)计算vi词语序列中的第j个词语vi,j的正向词频
Figure FDA0003740039130000025
公式中的ni,j是词语vi,j在词序列vi中的出现次数,∑ni,j是词序列vi所有字词的出现次数之和;
步骤32)计算vi词语序列中的第j个词语vi,j的逆文件词频
Figure FDA0003740039130000026
|D|是语料库中的文件总数,countsum是包含词语vi,j的文件总数;
步骤33)计算vi词语序列中的第j个词语vi,j的词频逆文件词频值;tfi,j-idfi,j=tfi,j×idfi,j,保留vi序列中留tfi,j-idfi,j值超过阙值t的词语作为特征词。
CN201810578405.1A 2018-06-07 2018-06-07 一种基于强化贝叶斯分类的社交行为检测方法 Active CN108804651B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810578405.1A CN108804651B (zh) 2018-06-07 2018-06-07 一种基于强化贝叶斯分类的社交行为检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810578405.1A CN108804651B (zh) 2018-06-07 2018-06-07 一种基于强化贝叶斯分类的社交行为检测方法

Publications (2)

Publication Number Publication Date
CN108804651A CN108804651A (zh) 2018-11-13
CN108804651B true CN108804651B (zh) 2022-08-19

Family

ID=64087542

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810578405.1A Active CN108804651B (zh) 2018-06-07 2018-06-07 一种基于强化贝叶斯分类的社交行为检测方法

Country Status (1)

Country Link
CN (1) CN108804651B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109583208A (zh) * 2018-12-03 2019-04-05 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于移动应用评论数据的恶意软件识别方法和系统
CN109635092A (zh) * 2018-12-14 2019-04-16 泰康保险集团股份有限公司 分析员工工作状态的方法、装置、介质及电子设备
CN110688484B (zh) * 2019-09-24 2021-12-31 北京工商大学 一种基于不平衡贝叶斯分类的微博敏感事件言论检测方法
CN111553388A (zh) * 2020-04-07 2020-08-18 哈尔滨工程大学 一种基于在线AdaBoost的垃圾邮件检测方法
CN112667943A (zh) * 2020-11-10 2021-04-16 中科金审(北京)科技有限公司 一种非法网站识别和锁定方法
CN112949713B (zh) * 2021-03-01 2023-11-21 武汉工程大学 一种基于复杂网络的集成学习的文本情感分类方法
CN113987185A (zh) * 2021-11-03 2022-01-28 国网天津市电力公司 面向国网云架构的html数据的自动分类方法
CN114564582B (zh) * 2022-02-25 2024-06-28 苏州浪潮智能科技有限公司 一种短文本分类方法、装置、设备及存储介质
CN115713307B (zh) * 2022-11-17 2024-02-06 西安电子科技大学广州研究院 运营商智能定责方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107086952A (zh) * 2017-04-19 2017-08-22 中国石油大学(华东) 一种基于tf‑idf中文分词的贝叶斯垃圾邮件过滤方法
CN107748783A (zh) * 2017-10-24 2018-03-02 天津大学 一种基于句向量的多标签公司描述文本分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107086952A (zh) * 2017-04-19 2017-08-22 中国石油大学(华东) 一种基于tf‑idf中文分词的贝叶斯垃圾邮件过滤方法
CN107748783A (zh) * 2017-10-24 2018-03-02 天津大学 一种基于句向量的多标签公司描述文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A Review of Machine Learning Algorithms for Text-Documents Classification;Aurangzeb Khan 等;《JOURNAL OF ADVANCES IN INFORMATION TECHNOLOGY》;20100228;全文 *

Also Published As

Publication number Publication date
CN108804651A (zh) 2018-11-13

Similar Documents

Publication Publication Date Title
CN108804651B (zh) 一种基于强化贝叶斯分类的社交行为检测方法
CN108897857B (zh) 面向领域的中文文本主题句生成方法
CN111125358B (zh) 一种基于超图的文本分类方法
CN111125349A (zh) 基于词频和语义的图模型文本摘要生成方法
CN109471942B (zh) 基于证据推理规则的中文评论情感分类方法及装置
CN110287323B (zh) 一种面向目标的情感分类方法
CN108399230A (zh) 一种基于卷积神经网络的中文财经新闻文本分类方法
CN112836509B (zh) 一种专家系统知识库构建方法及系统
CN109101584B (zh) 一种将深度学习与数学分析相结合的句子分类改进方法
CN108388554B (zh) 基于协同过滤注意力机制的文本情感识别系统
CN110929034A (zh) 一种基于改进lstm的商品评论细粒度情感分类方法
CN111125367B (zh) 一种基于多层次注意力机制的多种人物关系抽取方法
CN110175221B (zh) 利用词向量结合机器学习的垃圾短信识别方法
CN108536801A (zh) 一种基于深度学习的民航微博安保舆情情感分析方法
CN111680225B (zh) 基于机器学习的微信金融消息分析方法及系统
CN101714135B (zh) 一种跨领域文本情感倾向性分析方法
CN110263174B (zh) —基于焦点关注的主题类别分析方法
CN109815400A (zh) 基于长文本的人物兴趣提取方法
CN107180084A (zh) 词库更新方法及装置
CN104008187B (zh) 一种基于最小编辑距离的半结构化文本匹配方法
CN106599054A (zh) 一种题目分类及推送的方法及系统
CN111046183A (zh) 用于文本分类的神经网络模型的构建方法和装置
CN112070139B (zh) 基于bert与改进lstm的文本分类方法
CN112434164B (zh) 一种兼顾话题发现和情感分析的网络舆情分析方法及系统
CN110781679A (zh) 一种基于关联语义链网络的新闻事件关键词挖掘方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant