CN108804651B - 一种基于强化贝叶斯分类的社交行为检测方法 - Google Patents
一种基于强化贝叶斯分类的社交行为检测方法 Download PDFInfo
- Publication number
- CN108804651B CN108804651B CN201810578405.1A CN201810578405A CN108804651B CN 108804651 B CN108804651 B CN 108804651B CN 201810578405 A CN201810578405 A CN 201810578405A CN 108804651 B CN108804651 B CN 108804651B
- Authority
- CN
- China
- Prior art keywords
- word
- chinese
- text
- sample set
- training sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011273 social behavior Effects 0.000 title claims abstract description 24
- 238000001514 detection method Methods 0.000 title claims abstract description 14
- 230000006399 behavior Effects 0.000 claims abstract description 18
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 12
- 230000011218 segmentation Effects 0.000 claims abstract description 12
- 238000000034 method Methods 0.000 claims abstract description 9
- 230000002349 favourable effect Effects 0.000 claims abstract description 4
- 238000005728 strengthening Methods 0.000 claims abstract description 4
- 238000013145 classification model Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 230000014759 maintenance of location Effects 0.000 claims description 3
- 239000013598 vector Substances 0.000 description 3
- 206010012289 Dementia Diseases 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于强化贝叶斯分类的社交行为检测方法具体为:步骤1)收集中文社交网站言论的文本训练样本集,包括攻击性言论文本及赞赏性言论文本等类别文本,建立社交网站言论的文本训练样本集;步骤2)根据停用词词库对中文社交网站言论的文本训练样本集进行中文分词得到某个中文训练集的词序列vi,i∈{1,2,3,...f},f为训练样本总数;步骤3)通过TF‑IDF中文分词算法对中文社交网站言论的文本训练样本集中不同行为类别文本的进行特征提取;步骤4)输入特征词序列,使用贝叶斯模型进行学习识别;步骤5)通过强化贝叶斯分类器对分类器进行强化。本发明方法能够更加精确和高效的对人物社交行为进行检测,具有较好的应用前景。
Description
技术领域
本发明涉及一种基于强化贝叶斯分类的社交行为检测方法,尤其是在在线社交网络中进行社交行为检测,通过TF-IDF中文分词算法对社交网络人物言论进行检测分类,并且提取特征词及特征值权值,之后特征词及其权值输入贝叶斯分类器中进行社交网络人物行为进行分类检测。
背景技术
贝叶斯算法以其高效、易于实现、扩展性好的特点,已广泛的应用在行为分类的过程中此外,贝叶斯算法能够通过对中文语言样本的训练,自动学习样本内容来对社交人物行为进行检测。在现有的社交人物行为进行检测中,贝叶斯算法在行为检测中显现出了极好的应用效果。
TF-IDF是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
加强学习是一种迭代的算法,会对同一个训练集使用不同的分类器训练,之后,再把这些分类器集合起来,构建一个最终的最强的分类器。其算法本身是通过改变一个权重D的分布来实现的,该权重D初始化一致,然后改变之后交给下一次分类器。使用加强分类器能够过滤掉一些不必要的训练数据特征,然后放在关键的训练数据上面。
发明内容
技术问题:本发明公开了一种基于强化贝叶斯分类的社交行为检测方法。该方法首先将人物的言论量化为行为向量,行为向量的每个维度的值相当于人物对该行为的取值。使用朴素贝叶斯分类模型实现对人物行为向量进行简单分类。
技术方案:本发明的一种基于强化贝叶斯分类的社交行为检测方法主要包括以下步骤:
步骤1)收集中文社交网站言论的文本训练样本集,包括攻击性言论文本及赞赏性言论文本等类别文本,建立社交网站言论的文本训练样本集;
步骤2)根据停用词词库对中文社交网站言论的文本训练样本集进行中文分词得到某个中文训练集的词序列Vi,i∈{1,2,3,...f},f为训练样本总数;
步骤3)通过TF-IDF中文分词算法对中文社交网站言论的文本训练样本集中不同行为类别文本的进行特征提取;
步骤4)输入特征词序列,使用贝叶斯模型进行学习识别;
步骤5)通过强化贝叶斯分类器对分类器进行强化。
其中,
步骤3)所述通过TF-IDF中文分词算法对中文社交网站言论的文本训练样本集中不同行为类别文本的进行特征提取,根据提取的特征词以及特征词权值更新特征词词库,具体如下:
步骤33)计算vi词语序列中的第j个词语vi,j的词频逆文件词频值; tfi,j-idfi,j=tfi,j×idfi,j,保留vi序列中留tfi,j-idfi,j值超过阙值t的词语作为特征词。
所述步骤4)输入特征词序列,使用贝叶斯模型进行学习识别的过程为:
步骤41)、特征词序列x={ak},k∈{1,2,3,...m}为一个待分类项,ak为特征词序列的第k个特征词,总共有m个特征词;
步骤42)有社交行为类别集合C={yz},z∈{1,2,3,...n},其中的yz是第z个社交行为类别,总共有n社交行为类别;
步骤45)计算出P(x|yz)P(yz)最大项,作为词序列x所属类别并得到弱分类器函数h(xp),xp为词序列x的第P个属性值。
所述步骤5)加强贝叶斯分类器进行训练的方法为:
有益效果:本发明采用以上技术方案与现有技术相比:
(1)本发明算法较为简单,节省了计算成本,能够更好地提取文章关键词。
(2)本发明方法基于词典对训练集的属性进行筛选,并且朴素贝叶斯分类对数据进行分类,使用使用强化贝叶斯分类模型对模型进行连接,能够更加精确和高效的对人物社交行为进行检测,检测准确度非常高。
具体实施方式
本发明的一种基于强化贝叶斯分类的社交行为检测方法方法主要包括以下步骤:
步骤1)收集中文社交网站言论的文本训练样本集,包括攻击性言论文本及赞赏性言论文本等类别文本,建立社交网站言论的文本训练样本集。
步骤2)根据停用词词库对中文社交网站言论的文本训练样本集进行中文分词得到某个中文训练集的词序列Vi,i∈{1,2,3,...f},f为训练样本总数,f为500,第i个文本训练集为内容为“这是一个非常优秀的人,喜欢帮助别人,热爱学习”,分词后的词序列Vi为{优秀,帮助,热爱,学习,非常,这,是,一个,喜欢,帮助};
步骤3)通过TF-IDF中文分词算法对中文社交网站言论的文本训练样本集中不同行为类别文本的进行特征提取,步骤如下:
步骤33)计算vi词语序列中的第j个词语vi,j的词频逆文件词频值 tfi,j-idfi,j=tfi,j×idfi,j,保留vi序列中留tfi,j-idfi,j值超过阙值t的词语作为特征词,阙值t为50。
步骤4)输入特征词序列,使用贝叶斯模型进行学习识别,具体步骤如下:
步骤41)、特征词序列x={ak},k∈{1,2,3,...m}为一个待分类项,ak为特征词序列的第k个特征词,总共有m个特征词。特征词序列x为{帮助,喜欢,热爱},m的值为4。社交行为类别集合C={赞赏,攻击,喜爱,痴迷,讨厌},n 为5。
步骤42)有社交行为类别集合C={yz},z∈{1,2,3,...n},其中的yz是第z个社交行为类别,总共有n社交行为类别。
步骤45)计算出P(x|yz)P(yz)最大项,作为词序列x所属类别并得到弱分类器函数h(xp),xp为词序列x的第p个属性值。
步骤5)通过强化贝叶斯分类器对分类器进行强化,具体步骤如下:
通过该方法验证得知,该文本社交数据属于攻击性言论。
Claims (2)
1.一种基于强化贝叶斯分类的社交行为检测方法,其特征在于,该方法主要包括以下步骤:
步骤1)收集中文社交网站言论的文本训练样本集,包括攻击性言论文本及赞赏性言论文本类别文本,建立社交网站言论的文本训练样本集;
步骤2)根据停用词词库对中文社交网站言论的文本训练样本集进行中文分词得到某个中文训练集的词序列vi,i∈{1,2,3,...f},f为训练样本总数;
步骤3)通过TF-IDF中文分词算法对中文社交网站言论的文本训练样本集中不同行为类别文本进行特征提取;
步骤4)输入特征词序列,使用贝叶斯模型进行学习识别;
步骤5)通过强化贝叶斯分类器对分类器进行强化;
其中,
所述步骤4)输入特征词序列,使用贝叶斯模型进行学习识别的过程为:
步骤41)、特征词序列x={ak},k∈{1,2,3,...m}为一个待分类项,ak为特征词序列的第k个特征词,总共有m个特征词;
步骤42)有社交行为类别集合C={yz},z∈{1,2,3,...n},其中的yz是第z个社交行为类别,总共有n个社交行为类别;
步骤45)计算出P(x|yz)P(yz)最大项,作为词序列x所属类别并得到弱分类器函数h(xp),xp为词序列x的第P个属性值;
所述步骤5)加强贝叶斯分类器进行训练的方法为:
2.根据权利要求1所述的一种基于强化贝叶斯分类的社交行为检测方法,其特征在于,步骤3)所述通过TF-IDF中文分词算法对中文社交网站言论的文本训练样本集中不同行为类别文本进行特征提取,其中,根据提取的特征词以及特征词权值更新特征词词库,具体如下:
步骤33)计算vi词语序列中的第j个词语vi,j的词频逆文件词频值;tfi,j-idfi,j=tfi,j×idfi,j,保留vi序列中留tfi,j-idfi,j值超过阙值t的词语作为特征词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810578405.1A CN108804651B (zh) | 2018-06-07 | 2018-06-07 | 一种基于强化贝叶斯分类的社交行为检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810578405.1A CN108804651B (zh) | 2018-06-07 | 2018-06-07 | 一种基于强化贝叶斯分类的社交行为检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108804651A CN108804651A (zh) | 2018-11-13 |
CN108804651B true CN108804651B (zh) | 2022-08-19 |
Family
ID=64087542
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810578405.1A Active CN108804651B (zh) | 2018-06-07 | 2018-06-07 | 一种基于强化贝叶斯分类的社交行为检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108804651B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109583208A (zh) * | 2018-12-03 | 2019-04-05 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 基于移动应用评论数据的恶意软件识别方法和系统 |
CN109635092A (zh) * | 2018-12-14 | 2019-04-16 | 泰康保险集团股份有限公司 | 分析员工工作状态的方法、装置、介质及电子设备 |
CN110688484B (zh) * | 2019-09-24 | 2021-12-31 | 北京工商大学 | 一种基于不平衡贝叶斯分类的微博敏感事件言论检测方法 |
CN111553388A (zh) * | 2020-04-07 | 2020-08-18 | 哈尔滨工程大学 | 一种基于在线AdaBoost的垃圾邮件检测方法 |
CN112667943A (zh) * | 2020-11-10 | 2021-04-16 | 中科金审(北京)科技有限公司 | 一种非法网站识别和锁定方法 |
CN112949713B (zh) * | 2021-03-01 | 2023-11-21 | 武汉工程大学 | 一种基于复杂网络的集成学习的文本情感分类方法 |
CN113987185A (zh) * | 2021-11-03 | 2022-01-28 | 国网天津市电力公司 | 面向国网云架构的html数据的自动分类方法 |
CN114564582B (zh) * | 2022-02-25 | 2024-06-28 | 苏州浪潮智能科技有限公司 | 一种短文本分类方法、装置、设备及存储介质 |
CN115713307B (zh) * | 2022-11-17 | 2024-02-06 | 西安电子科技大学广州研究院 | 运营商智能定责方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107086952A (zh) * | 2017-04-19 | 2017-08-22 | 中国石油大学(华东) | 一种基于tf‑idf中文分词的贝叶斯垃圾邮件过滤方法 |
CN107748783A (zh) * | 2017-10-24 | 2018-03-02 | 天津大学 | 一种基于句向量的多标签公司描述文本分类方法 |
-
2018
- 2018-06-07 CN CN201810578405.1A patent/CN108804651B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107086952A (zh) * | 2017-04-19 | 2017-08-22 | 中国石油大学(华东) | 一种基于tf‑idf中文分词的贝叶斯垃圾邮件过滤方法 |
CN107748783A (zh) * | 2017-10-24 | 2018-03-02 | 天津大学 | 一种基于句向量的多标签公司描述文本分类方法 |
Non-Patent Citations (1)
Title |
---|
A Review of Machine Learning Algorithms for Text-Documents Classification;Aurangzeb Khan 等;《JOURNAL OF ADVANCES IN INFORMATION TECHNOLOGY》;20100228;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108804651A (zh) | 2018-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804651B (zh) | 一种基于强化贝叶斯分类的社交行为检测方法 | |
CN108897857B (zh) | 面向领域的中文文本主题句生成方法 | |
CN111125358B (zh) | 一种基于超图的文本分类方法 | |
CN111125349A (zh) | 基于词频和语义的图模型文本摘要生成方法 | |
CN109471942B (zh) | 基于证据推理规则的中文评论情感分类方法及装置 | |
CN110287323B (zh) | 一种面向目标的情感分类方法 | |
CN108399230A (zh) | 一种基于卷积神经网络的中文财经新闻文本分类方法 | |
CN112836509B (zh) | 一种专家系统知识库构建方法及系统 | |
CN109101584B (zh) | 一种将深度学习与数学分析相结合的句子分类改进方法 | |
CN108388554B (zh) | 基于协同过滤注意力机制的文本情感识别系统 | |
CN110929034A (zh) | 一种基于改进lstm的商品评论细粒度情感分类方法 | |
CN111125367B (zh) | 一种基于多层次注意力机制的多种人物关系抽取方法 | |
CN110175221B (zh) | 利用词向量结合机器学习的垃圾短信识别方法 | |
CN108536801A (zh) | 一种基于深度学习的民航微博安保舆情情感分析方法 | |
CN111680225B (zh) | 基于机器学习的微信金融消息分析方法及系统 | |
CN101714135B (zh) | 一种跨领域文本情感倾向性分析方法 | |
CN110263174B (zh) | —基于焦点关注的主题类别分析方法 | |
CN109815400A (zh) | 基于长文本的人物兴趣提取方法 | |
CN107180084A (zh) | 词库更新方法及装置 | |
CN104008187B (zh) | 一种基于最小编辑距离的半结构化文本匹配方法 | |
CN106599054A (zh) | 一种题目分类及推送的方法及系统 | |
CN111046183A (zh) | 用于文本分类的神经网络模型的构建方法和装置 | |
CN112070139B (zh) | 基于bert与改进lstm的文本分类方法 | |
CN112434164B (zh) | 一种兼顾话题发现和情感分析的网络舆情分析方法及系统 | |
CN110781679A (zh) | 一种基于关联语义链网络的新闻事件关键词挖掘方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |