CN101996241A - 一种基于贝叶斯算法的内容过滤方法 - Google Patents

一种基于贝叶斯算法的内容过滤方法 Download PDF

Info

Publication number
CN101996241A
CN101996241A CN 201010516057 CN201010516057A CN101996241A CN 101996241 A CN101996241 A CN 101996241A CN 201010516057 CN201010516057 CN 201010516057 CN 201010516057 A CN201010516057 A CN 201010516057A CN 101996241 A CN101996241 A CN 101996241A
Authority
CN
China
Prior art keywords
entry
information
reference source
feature
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201010516057
Other languages
English (en)
Inventor
黄杰
蒲文静
王平
霍贵超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN 201010516057 priority Critical patent/CN101996241A/zh
Publication of CN101996241A publication Critical patent/CN101996241A/zh
Pending legal-status Critical Current

Links

Images

Abstract

基于贝叶斯算法的内容过滤方法,针对第三代移动通信核心网中文本信息进行内容过滤,其使用基于双重阈值的贝叶斯算法来进行文本分类,设C1为正常信息,C2为垃圾信息,分类器将测算代表数据样本的特征向量X属于每个类别Ci的概率,进行测算的贝叶斯公式为:P(Ci|X)=P(X|Ci)P(Ci)/P(X) 1≤i≤2,其中后验概率P(Ci|X)的最大值被称为最大后验概率,对每个类错误!未找到引用源,只需计算错误!未找到引用源,未知样本特征向量X将被指派到其错误!未找到引用源的风险值最低的Ci类。采用文档频率(DF)进行特征选择,使用基于最小风险的双重阈值贝叶斯决策进行分类。在TD-SCDMA移动互联网内容监管系统中,此算法具有更强的可控性,能够实现大量文本信息的实时高效率分类。

Description

一种基于贝叶斯算法的内容过滤方法 
技术领域
本发明方法是一种基于最小风险的双重阈值贝叶斯决策方法,它针对移动通信网分组域文本信息,对其中的内容进行检测和分类,实现高效实时的文本内容监管。属于信息安全领域。 
背景技术
中国互联网协会发布的一项调查显示:中国手机用户平均每周收到8.29条垃圾信息,作为世界上最大的移动通信市场,中国的手机用户数已经超过4.43亿,按照每条信息收费0.15元计算,垃圾信息每天为运营企业带来的收入约为7800多万元。随着3G时代的到来,用户通过手机能够浏览和查阅的信息越来越多,但他们也面临着五花八门的垃圾信息的骚扰。倘若我们能在信息传输的过程中截取并过滤掉垃圾信息,就能够打破垃圾信息传播的“生态链”,让非法分子无机可乘。故研究一种能够有效识别垃圾文本信息的过滤方法具有重要的经济价值和社会价值。 
垃圾信息的分类过滤是在协议解析以后对解析出的具体内容进行检测,属于内容过滤技术的范畴。文本的分类可以看成模式识别的一个具体应用。本发明利用基于最小风险的双重阈值贝叶斯决策的方法,在TD-SCDMA移动互联网内容监管系统中对真实的文本通信内容进行分类。实验证明,它拥有较高的准确率,正常文本信息极少会被判定为垃圾信息,且处理速度较快,完全能够满足实时处理的需求。 
发明内容
技术问题:本发明的目的是提供一种高速的文本内容过滤方法,可以实现对核心网分组域中的文本内容进行检测,防止垃圾或者违法信息对通信网用户造成干扰,在保证通信质量的前提下减少了用户有用信息的损失,对垃圾信息也得到了很好的抑制,实现第三代移动通信移动网内容监管数据的高速实时处理。 
技术方案:本发明采用基于最小风险的双重阈值贝叶斯算法对文本信息进行实时的分析、检测,从而实现对第三代移动通信网络中数据内容的监管。 
本发明的基于贝叶斯算法的内容过滤方法针对3G(第三代移动通信)核心网中文本信息进行内容过滤,其使用基于双重阈值的贝叶斯算法来进行文本分类,设C1为正常信息,C2为垃圾信息,分类器将测算代表数据样本的特征向量X属于每个类别Ci的概率,进行测算的贝叶斯公式为: 
P(Ci|X)=P(X|Ci)P(Ci)/P(X)  1≤i≤2, 
其中后验概率P(Ci|X)的最大值被称为最大后验概率,对每个类错误!未找到引用源。,只需计算错误!未找到引用源。,未知样本特征向量X将被指派到其错误!未找到引用源。的风险值最低的Ci类, 
基于贝叶斯算法的内容过滤方法具体流程如下: 
1)每个数据样本用一个n维特征向量X=(x1,x2,...xn)错误!未找到引用源。表示,其中x1,x2,...xn表示某个数据样本中n个特征词条A1,A2,...An错误!未找到引用源。的度量; 
2)计算概率p(xk|Ci),其由训练样本估计,采用经过平滑处理后的词频计算式,计算的公式为p(xt|Ci)=(1+ft)/(n+fi),其中ft为特征词xt在Ci类文本中出现的次数,fi为Ci类所有文本的特征词总数,n为向量维数; 
3)对p(xk|Ci)进行风险计算,先验概率的风险系数设定如下: 
条件1:某个词语出现在垃圾信息中的概率大于出现在正常信息中的频率, 
a)将其判定为正常词语时所带来的损失设定为1; 
b)将其判定为垃圾词语所带来的损失设为b,其中b<1; 
条件2:若词条出现在正常信息中的概率大于出现在垃圾信息中的概率, 
a)将其判定为垃圾词语所带来损失设定为d,可知d>1, 
b)将其判定为正常词语带来的损失值小于1,在此仍设为b,其中b<1, 
将词语分量xk判定为垃圾词条要满足的条件为: 
p(xt|C1)/p(xt|C2)<φ,其中φ=(1-b)/(d-b), 
由b<1、d>1,得到φ<1,当针对某个词条的先验概率之比满足上式的时候,才将该词条归为垃圾词条,即完成了对p(xk|Ci)的风险计算; 
4)计算类的先验概率P(Ci),计算的公式为P(Ci)=si/s,其中si是类Ci错误!未找到引用源。中的训练样本数,而s是训练样本总数; 
5)计算P(X|Ci),为了降低运算错误!未找到引用源。的开销,假定特征词之间相互条件独立,即属性间不存在依赖关系,计算的公式为 
Figure BDA0000029171540000021
6)进行了如上假设和处理后,对每个类错误!未找到引用源。,计算P(X|Ci)P(Ci),并对其进行风险计算,后验概率的风险系数设定如下: 
条件1:信息被正确判定时,不会给用户带来任何损失,相应的损失设定为0; 
条件2:垃圾信息被误判为正常信息时所带来的损失设定为1; 
条件3:正常信息被误判为垃圾信息时所带来的损失设定为k,可知k要大于1, 
将未知样本特征向量X判定为垃圾信息要满足的条件为: 
P(C2|X)>θ,其中θ=k/(1+k), 
由k>1,得到θ<1,当针对某个未知样本的后验概率满足上式的时候,才将该样本归为垃圾信息,即完成了对P(Ci|X)的风险计算,若最终得到P(C2|X)>θ,判 定该信息为垃圾信息;反之,判定其为正常信息。 
具体流程步骤1)中每个数据样本用一个n维特征向量X=(x1,x2,...xn)错误!未找到引用源。表示,其中x1,x2,...xn表示某个数据样本中n个特征词条A1,A2,...An错误!未找到引用源。的度量,特征词A1,A2,...An的分词算法使用最大匹配方法FMM,具体分词步骤如下: 
11)选取分词词典中最长词长度的字串,将该字串与词典中的词条相匹配, 
12)如果在字典中查找到了相同的词条,那么分词成功,然后执行步骤14), 
13)如果不能匹配,若词条长度大于两个中字,就去掉最后一个汉字,执行步骤12);若等于两个中字,确定为单字,执行步骤14), 
14)移动指针读入新的内容继续按照上面的方法进行查找。 
具体流程具体步骤1)中每个数据样本用一个n维特征向量X=(x1,x2,...xn)错误!未找到引用源。表示,其中x1,x2,...xn表示某个数据样本中n个特征词条A1,A2,...An错误!未找到引用源。的度量,筛选特征词A1,A2,...An错误!未找到引用源。的方法采用文档频率DF方法,具体执行步骤如下: 
21)首先计算每个词条的DF值,一个词条的DF值即为训练语料中包含该词条的文档数; 
22)将DF值低于某一特定阈值的词条从原始特征空间中移除。 
在步骤21)中计算每个词条的DF值,一个词条的DF值即为训练语料中包含该词条的文档数,消耗的时间较长,故将筛选特征词的整体置于后台,统计筛选完成之后的特征词输出形成文件供分类器使用,整体的分类功能逻辑上分为两个部分来实现:后台特征库模块以及前台文本分类模块。 
后台特征库形成模块包括对训练文本的分词以及特征筛选等功能;前台实时分类模块包括改进的贝叶斯分类算法对文本进行分类。两个模块通过特征文件关联起来。特征文件由后台特征库模块生成,其记录特征词条的同时也记录下特征词条在两类信息,即垃圾信息以及正常信息中的权重。形成的特征文件将作为实时分类检测模块的重要依据来对输入的文本内容进行计算和判别。 
有益效果:本发明提供了一种基于最小风险的双重阈值贝叶斯文本分类方法。通信网中的包含了大量的用户通信信息,其具体内容是否合法不可能投入大量人力来进行筛选和检测。基于最小风险的双重阈值贝叶斯决策的内容过滤系统达到了我们预期的效果,维持文本内容过滤的准确率,同时也降低了因正常信息的误判而带来的风险。保证了用户通信隐私的同时,也有效抑制了垃圾文本信息的传输。该方法分类耗时短,对系统资源占用少,适用于移动通信网。该方法有效地控制垃圾文本数量,同时能保证整个监管系统稳定、有效地运行。 
附图说明
图1是文本分类算法流程图; 
图2是字典链表结构; 
图3是切分后的词语插入的链表结构; 
图4是分词流程图。 
具体实施方式
本发明中的文本分类方法应用在协议解析以后对解析出的文本内容进行检测,属于内容过滤技术的范畴。对于结果有问题的内容,输出警告标志提供给用户;而检测安全的信息则输出安全标志。文本信息的分类可以看成是模式识别的一个具体的运用,是一个文本分类技术的应用。设计的文本分类算法的流程如图1所示。 
垃圾文本信息过滤系统分为两个子模块来实现:特征库模块(后台)和文本分类模块(前台)。两个模块通过特征文件关联起来。特征文件由后台特征库形成模块生成,其记录特征词条的同时也记录下词条在两类信息,即垃圾信息以及正常信息中的权重。形成的特征文件将作为文本分类模块的重要依据来对输入的文本内容进行计算和判别。 
在分类检测之前,必须对大量的语料进行分析和学习,语料的来源须来自真实的应用环境,从而才能真实有效地反应出通信网分组域文本信息词条和词频的分布情况,为实时文本分类模块进行正确的文本分类打下坚实的基础。下面具体介绍两个模块的工作步骤。 
1.特征库模块。 
步骤1:分词。分词的基础是一本“词典”,就是包含了汉语中所有词汇的文件以便后面的分词和词频的统计。将字典文件读入内存,为了方便查找匹配,我们是用如图2所示的结构进行存储。我们使用正向最大匹配方法FMM来进行分词。具体分词步骤如下: 
(1)选取分词词典中最长词长度的字串,将该字串与词典中的词条相匹配; 
(2)如果在字典中查找到了相同的词条,那么分词成功,然后执行步骤(4); 
(3)如果不能匹配,若词条长度大于两个中字,就去掉最后一个汉字,执行步骤(2);若等于两个中字,确定为单字,执行步骤(4)。 
(4)移动指针读入新的内容继续按照上面的方法进行查找。 
FMM法分词速度快,效率高,实现简单,针对移动通信网的特点,通信中所传播的垃圾文本内容具有相似性,大批量性,FMM方法可以比较好的满足特征提取的要求,并且可以提高运算速度,减少占用的资源。切分出的词语及其相关记录按照图3的方式进行存储,以便后面进行特征词的筛选。 
步骤2:特征筛选。预处理之后的文本会被转化为很多词语,其构成的空间维数是相当巨大的,其存储结构如图3所示。为了减少不必要的冗余计算,提高存储空 间的利用率,所以我们采取分词即记录词频的方式来简化运算,得到的分词结果也包含了对应词频的统计结果,故设计的分词流程如图4所示。 
我们采用特征选择的方法进行降维,即不改变原始特征空间的性质,只是从原始特征空间中选择了一部分重要的特征,组成一个新的低维空间。DF是一种经验方法。筛选特征词的条件直接影响到建模时空间向量模型维数的大小。DF特征选择的步骤如下: 
(1)首先计算每个词条的DF值,一个词条的DF值即为训练语料中包含该词条的文档数; 
(2)将DF值低于某一特定阈值的词条从原始特征空间中移除,从而达到降维和特征选择的目的。 
步骤3:特征文件的形成。经过筛选特征词之后,以特征词条目数作为向量的维数来表示文本,降低了原向量空间的大小。在移动通信网中,为了缩短建模时间而达到实时效果,我们采取将统计完成的词条频度统一写入文件的方法来提高分类运算速度。进行筛选后的词语,其中包含其合法词频和非法词频,以特定ASCII码作为分隔符,作为特征词条写入特征文件,形成特征库存储在进行文本内容过滤的计算机中,为后面的文本信息的检测分类提供依据。 
特征数据文件的准确性直接影响到文本分类的正确率,所以管理员应定期更换训练集语料以适应垃圾信息变化快、周期短的特点。贝叶斯内容过滤反馈学习的问题上,我们采取重新学习的方法,来获得新的精确的特征数据文件,从而保证文本内容过滤结果的高正确率。 
2.文本分类模块 
贝叶斯分类器具有坚实的数学理论基础以及综合先验信息和数据样本信息的能力,使其正在成为当前机器学习的研究热点之一。其思想是利用个体和类别的联合概率来估计给定的事物属于各个类别的概率,倘若属于某一类别的概率满足最终的分类指标,则将接受判断的事物归结于其中的某一类。结合到本发明,它实质是利用词和类别的联合概率来比较给定的文本信息分别属于两个类别概率的大小。 
前台文本分类模块使用基于最小风险的双重阈值贝叶斯算法进行分类。具体流程图如图1所示,执行步骤如下: 
1)每个数据样本(即未知的且经过特征分词后的文本)用一个n维特征向量X=(x1,x2,...xn)错误!未找到引用源。表示,其中x1,x2,...xn表示某个数据样本中n个特征词条A1,A2,...An错误!未找到引用源。的度量。 
2)计算概率p(xk|Ci),其由训练样本估计,采用经过平滑处理后的词频计算式,故计算的公式为p(xt|Ci)=(1+ft)/(n+fi)。其中ft为特征词xt在Ci类文本中出现的次数,fi为Ci类所有文本的特征词总数,n为向量维数。 
3)对p(xk|Ci)进行风险计算。基于先验概率的风险系数定义如下表1所示: 
表1  基于先验概率的风险系数 
某个词语,即分量xk出现在垃圾信息中的概率大于出现在正常信息中的频率,将其判定为正常词语时所带来的损失设定为1,而将其判定为垃圾词语所带来的损失远小于1,设为b,其中b<1;如果词条出现在正常信息中的概率大于出现在垃圾信息中的概率,则出现在正常信息中的概率大于垃圾信息中的概率,而判定为垃圾词语所带来损失设定为d,由前面的分析可知d>1,而判定为正常词语带来的损失值小于1,在此仍设为b,其中b<1。 
针对先验概率的风险计算如下: 
词条决策为垃圾词条的条件风险为:r(xt|C2)=b×p(xt|C2)+d×p(xt|C1
词条决策为正常词条的条件风险为:r(xt|C1)=1×p(xt|C2)+b×p(xt|C1
判定为垃圾词条要满足r(xt|C2)<r(xt|C1
整理得到:(d-b)p(xt|C1)>(1-b)p(xt|C2
令φ=(1-b)/(d-b),整理得p(xt|C1)/p(xt|C2)<φ 
故将词语分量xk判定为垃圾词条要满足的条件为:p(xt|C1)/p(xt|C2)<φ 
其中φ=(1-b)/(d-b)。因为b<1、d>1,故φ<1。当针对某个词条的先验概率之比满足上式的时候,才将该词条归为垃圾词条,即完成了对p(xk|Ci)的风险计算。 
4)设C1为正常信息,C2为垃圾信息,计算类的先验概率P(Ci),计算的公式为P(Ci)=si/s。其中si是类Ci错误!未找到引用源。中的训练样本数,而s是训练样本总数; 
5)计算P(X|Ci),由于预处理之后的特征词条数目仍然比较多,为了降低运算错误!未找到引用源。的开销,假定特征词之间相互条件独立,即属性间不存在依赖关系。大量研究表明,这种假设很有效。计算的公式为 
6)进行了如上假设和处理后,对每个类错误!未找到引用源。,计算P(X|Ci)P(Ci),并对其进行风险计算。基于后验概率的风险系数定义如下表2所示: 
表2基于后验概率的风险系数 
  文本信息   实际为正常信息   实际为垃圾信息
  判定为正常信息   0   1
  判定为垃圾信息   k   0
信息被正确判定时,不会给用户带来任何损失,因此,相应的损失设定为0;垃 圾信息被误判为正常信息时所带来的损失设定为1;正常信息被误判为垃圾信息时所带来的损失设定为k,由前面的分析可知k要大于1。 
针对后验概率的风险计算如下: 
决策为垃圾信息的条件风险为:R(C2|X)=0×P(C2|X)+k×P(C1|X) 
决策为正常信息的条件风险为:R(C1|X)=1×P(C2|X)+0×P(C1|X) 
判定为垃圾信息要满足R(C2|X)<R(C1|X)即:k×(1-P(C2|X))<P(C2|X) 
令θ=k/(1+k),整理得P(C2|X)>θ。 
故将未知样本特征向量X判定为垃圾信息要满足的条件为:P(C2|X)>θ 
其中θ=k/(1+k)。因为k>1,故θ<1。当针对某个未知样本的后验概率满足上式的时候,才将该样本归为垃圾信息,即完成了对P(Ci|X)的风险计算。若最终得到P(C2|X)>θ,判定该信息为垃圾信息;反之,判定其为正常信息。 

Claims (4)

1.一种基于贝叶斯算法的内容过滤方法,其特征在于该过滤方法针对第三代移动通信核心网中文本信息进行内容过滤,其使用基于双重阈值的贝叶斯算法来进行文本分类,设C1为正常信息,C2为垃圾信息,分类器将测算代表数据样本的特征向量X属于每个类别Ci的概率,进行测算的贝叶斯公式为:
P(Ci|X)=P(X|Ci)P(Ci)/P(X)  1≤i≤2,
其中后验概率P(Ci|X)的最大值被称为最大后验概率,对每个类错误!未找到引用源。,只需计算错误!未找到引用源。,未知样本特征向量X将被指派到其错误!未找到引用源。的风险值最低的Ci类,
基于贝叶斯算法的内容过滤方法具体流程如下:
1)每个数据样本用一个n维特征向量X=(x1,x2,...xn)错误!未找到引用源。表示,其中x1,x2,...xn表示某个数据样本中n个特征词条A1,A2,...An错误!未找到引用源。的度量;
2)计算概率p(xk|Ci),其由训练样本估计,采用经过平滑处理后的词频计算式,计算的公式为p(xt|Ci)=(1+ft)/(n+fi),其中ft为特征词xt在Ci类文本中出现的次数,fi为Ci类所有文本的特征词总数,n为向量维数;
3)对p(xk|Ci)进行风险计算,先验概率的风险系数设定如下:
条件1:某个词语出现在垃圾信息中的概率大于出现在正常信息中的频率,
a)将其判定为正常词语时所带来的损失设定为1;
b)将其判定为垃圾词语所带来的损失设为b,其中b<1;
条件2:若词条出现在正常信息中的概率大于出现在垃圾信息中的概率,
a)将其判定为垃圾词语所带来损失设定为d,可知d>1,
b)将其判定为正常词语带来的损失值小于1,在此仍设为b,其中b<1,
将词语分量xk判定为垃圾词条要满足的条件为:
p(xt|C1)/p(xt|C2)<φ,其中φ=(1-b)/(d-b),
由b<1、d>1,得到φ<1,当针对某个词条的先验概率之比满足上式的时候,才将该词条归为垃圾词条,即完成了对p(xk|Ci)的风险计算;
4)计算类的先验概率P(Ci),计算的公式为P(Ci)=si/s,其中si是类Ci错误!未找到引用源。中的训练样本数,而s是训练样本总数;
5)计算P(X|Ci),为了降低运算错误!未找到引用源。的开销,假定特征词之间相互条件独立,即属性间不存在依赖关系,计算的公式为 
Figure FDA0000029171530000011
6)进行了如上假设和处理后,对每个类错误!未找到引用源。,计算P(X|Ci)P(Ci),并对其进行风险计算,后验概率的风险系数设定如下:
条件1:信息被正确判定时,不会给用户带来任何损失,相应的损失设定为0; 
条件2:垃圾信息被误判为正常信息时所带来的损失设定为1;
条件3:正常信息被误判为垃圾信息时所带来的损失设定为k,可知k要大于1,
将未知样本特征向量X判定为垃圾信息要满足的条件为:
P(C2|X)>θ,其中θ=k/(1+k),
由k>1,得到θ<1,当针对某个未知样本的后验概率满足上式的时候,才将该样本归为垃圾信息,即完成了对P(Ci|X)的风险计算,若最终得到P(C2|X)>θ,判定该信息为垃圾信息;反之,判定其为正常信息。
2.根据权利要求1所述的基于贝叶斯算法的内容过滤方法,其特征在于具体流程步骤1)中每个数据样本用一个n维特征向量X=(x1,x2,...xn)错误!未找到引用源。表示,其中x1,x2,...xn表示某个数据样本中n个特征词条A1,A2,...An错误!未找到引用源。的度量,特征词A1,A2,...An的分词算法使用最大匹配方法FMM,具体分词步骤如下:
11)选取分词词典中最长词长度的字串,将该字串与词典中的词条相匹配,
12)如果在字典中查找到了相同的词条,那么分词成功,然后执行步骤14),
13)如果不能匹配,若词条长度大于两个中字,就去掉最后一个汉字,执行步骤12);若等于两个中字,确定为单字,执行步骤14),
14)移动指针读入新的内容继续按照上面的方法进行查找。
3.根据权利要求1所述的基于贝叶斯算法的内容过滤方法,其特征在于具体流程具体步骤1)中每个数据样本用一个n维特征向量X=(x1,x2,...xn)错误!未找到引用源。表示,其中x1,x2,...xn表示某个数据样本中n个特征词条A1,A2,...An错误!未找到引用源。的度量,筛选特征词A1,A2,...An错误!未找到引用源。的方法采用文档频率DF方法,具体执行步骤如下:
21)首先计算每个词条的DF值,一个词条的DF值即为训练语料中包含该词条的文档数;
22)将DF值低于某一特定阈值的词条从原始特征空间中移除。
4.根据权利要求3所述的基于贝叶斯算法的内容过滤方法,其特征在于在步骤21)中计算每个词条的DF值,一个词条的DF值即为训练语料中包含该词条的文档数,消耗的时间较长,故将筛选特征词的整体置于后台,统计筛选完成之后的特征词输出形成文件供分类器使用,整体的分类功能逻辑上分为两个部分来实现:后台特征库模块以及前台文本分类模块。 
CN 201010516057 2010-10-22 2010-10-22 一种基于贝叶斯算法的内容过滤方法 Pending CN101996241A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010516057 CN101996241A (zh) 2010-10-22 2010-10-22 一种基于贝叶斯算法的内容过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010516057 CN101996241A (zh) 2010-10-22 2010-10-22 一种基于贝叶斯算法的内容过滤方法

Publications (1)

Publication Number Publication Date
CN101996241A true CN101996241A (zh) 2011-03-30

Family

ID=43786395

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010516057 Pending CN101996241A (zh) 2010-10-22 2010-10-22 一种基于贝叶斯算法的内容过滤方法

Country Status (1)

Country Link
CN (1) CN101996241A (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092975A (zh) * 2013-01-25 2013-05-08 武汉大学 基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法
CN103336766A (zh) * 2013-07-04 2013-10-02 微梦创科网络科技(中国)有限公司 短文本垃圾识别以及建模方法和装置
CN103778109A (zh) * 2014-02-13 2014-05-07 北京奇艺世纪科技有限公司 一种识别用户评论的方法及装置
CN103905289A (zh) * 2012-12-26 2014-07-02 航天信息软件技术有限公司 一种垃圾邮件过滤方法
CN104216876A (zh) * 2013-05-29 2014-12-17 中国电信股份有限公司 信息文本过滤方法及系统
CN104331396A (zh) * 2014-11-26 2015-02-04 深圳市英威诺科技有限公司 一种智能识别广告的方法
CN104408087A (zh) * 2014-11-13 2015-03-11 百度在线网络技术(北京)有限公司 作弊文本的识别方法和系统
CN106127265A (zh) * 2016-06-22 2016-11-16 北京邮电大学 一种基于激活力模型的图片中文本识别纠错方法
CN106294346A (zh) * 2015-05-13 2017-01-04 厦门美柚信息科技有限公司 一种论坛帖子识别方法及装置
CN106559260A (zh) * 2016-11-02 2017-04-05 合肥微梦软件技术有限公司 一种基于互联网信息中心网络监管系统
CN106708961A (zh) * 2016-11-30 2017-05-24 北京粉笔蓝天科技有限公司 垃圾文本库的建立方法、过滤方法及系统
CN107086952A (zh) * 2017-04-19 2017-08-22 中国石油大学(华东) 一种基于tf‑idf中文分词的贝叶斯垃圾邮件过滤方法
CN107155178A (zh) * 2016-03-03 2017-09-12 深圳市新悦蓝图网络科技有限公司 一种基于智能算法的垃圾短信过滤方法
CN107239512A (zh) * 2017-05-18 2017-10-10 华中科技大学 一种结合评论关系网络图的微博垃圾评论识别方法
CN107483420A (zh) * 2017-07-31 2017-12-15 北京百悟科技有限公司 信息审核装置及方法
CN107577794A (zh) * 2017-09-19 2018-01-12 北京神州泰岳软件股份有限公司 一种新闻分类方法及装置
CN107644101A (zh) * 2017-09-30 2018-01-30 百度在线网络技术(北京)有限公司 信息分类方法和装置、信息分类设备及计算机可读介质
CN108108348A (zh) * 2017-11-17 2018-06-01 腾讯科技(成都)有限公司 信息的处理方法、服务器、存储介质和电子装置
CN108228622A (zh) * 2016-12-15 2018-06-29 平安科技(深圳)有限公司 业务问题的分类方法及装置
CN108268459A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种基于朴素贝叶斯的社区言论过滤系统
CN109034271A (zh) * 2018-08-23 2018-12-18 锦上包装江苏有限公司 基于机器学习的Android平台垃圾短信检测系统
CN110688484A (zh) * 2019-09-24 2020-01-14 北京工商大学 一种基于不平衡贝叶斯分类的微博敏感事件言论检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6161130A (en) * 1998-06-23 2000-12-12 Microsoft Corporation Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set
CN101604322A (zh) * 2009-06-24 2009-12-16 北京理工大学 一种决策级文本自动分类融合方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6161130A (en) * 1998-06-23 2000-12-12 Microsoft Corporation Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set
CN101604322A (zh) * 2009-06-24 2009-12-16 北京理工大学 一种决策级文本自动分类融合方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《Wireless Communications Networking and Mobile Computing,2010 6th International Conference》 20100925 Huang Jie etc. A Bayesian approach for Text Filter on 3G network 1-5 , 2 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103905289A (zh) * 2012-12-26 2014-07-02 航天信息软件技术有限公司 一种垃圾邮件过滤方法
CN103092975A (zh) * 2013-01-25 2013-05-08 武汉大学 基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法
CN104216876A (zh) * 2013-05-29 2014-12-17 中国电信股份有限公司 信息文本过滤方法及系统
CN103336766A (zh) * 2013-07-04 2013-10-02 微梦创科网络科技(中国)有限公司 短文本垃圾识别以及建模方法和装置
CN103336766B (zh) * 2013-07-04 2016-12-28 微梦创科网络科技(中国)有限公司 短文本垃圾识别以及建模方法和装置
CN103778109A (zh) * 2014-02-13 2014-05-07 北京奇艺世纪科技有限公司 一种识别用户评论的方法及装置
CN104408087A (zh) * 2014-11-13 2015-03-11 百度在线网络技术(北京)有限公司 作弊文本的识别方法和系统
CN104331396A (zh) * 2014-11-26 2015-02-04 深圳市英威诺科技有限公司 一种智能识别广告的方法
CN106294346A (zh) * 2015-05-13 2017-01-04 厦门美柚信息科技有限公司 一种论坛帖子识别方法及装置
CN107155178A (zh) * 2016-03-03 2017-09-12 深圳市新悦蓝图网络科技有限公司 一种基于智能算法的垃圾短信过滤方法
CN106127265B (zh) * 2016-06-22 2018-02-06 北京邮电大学 一种基于激活力模型的图片中文本识别纠错方法
CN106127265A (zh) * 2016-06-22 2016-11-16 北京邮电大学 一种基于激活力模型的图片中文本识别纠错方法
CN106559260A (zh) * 2016-11-02 2017-04-05 合肥微梦软件技术有限公司 一种基于互联网信息中心网络监管系统
CN106708961A (zh) * 2016-11-30 2017-05-24 北京粉笔蓝天科技有限公司 垃圾文本库的建立方法、过滤方法及系统
CN106708961B (zh) * 2016-11-30 2020-11-06 北京粉笔蓝天科技有限公司 垃圾文本库的建立方法、过滤方法及系统
CN108228622A (zh) * 2016-12-15 2018-06-29 平安科技(深圳)有限公司 业务问题的分类方法及装置
CN108268459A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种基于朴素贝叶斯的社区言论过滤系统
CN107086952A (zh) * 2017-04-19 2017-08-22 中国石油大学(华东) 一种基于tf‑idf中文分词的贝叶斯垃圾邮件过滤方法
CN107239512A (zh) * 2017-05-18 2017-10-10 华中科技大学 一种结合评论关系网络图的微博垃圾评论识别方法
CN107483420B (zh) * 2017-07-31 2019-12-24 北京百悟科技有限公司 信息审核装置及方法
CN107483420A (zh) * 2017-07-31 2017-12-15 北京百悟科技有限公司 信息审核装置及方法
CN107577794A (zh) * 2017-09-19 2018-01-12 北京神州泰岳软件股份有限公司 一种新闻分类方法及装置
CN107644101A (zh) * 2017-09-30 2018-01-30 百度在线网络技术(北京)有限公司 信息分类方法和装置、信息分类设备及计算机可读介质
CN108108348A (zh) * 2017-11-17 2018-06-01 腾讯科技(成都)有限公司 信息的处理方法、服务器、存储介质和电子装置
CN109034271A (zh) * 2018-08-23 2018-12-18 锦上包装江苏有限公司 基于机器学习的Android平台垃圾短信检测系统
CN110688484A (zh) * 2019-09-24 2020-01-14 北京工商大学 一种基于不平衡贝叶斯分类的微博敏感事件言论检测方法

Similar Documents

Publication Publication Date Title
CN101996241A (zh) 一种基于贝叶斯算法的内容过滤方法
CN109492026B (zh) 一种基于改进的主动学习技术的电信欺诈分类检测方法
Méndez et al. A comparative performance study of feature selection methods for the anti-spam filtering domain
CN106383877B (zh) 一种社交媒体在线短文本聚类和话题检测方法
CN103678670B (zh) 一种微博热词与热点话题挖掘系统及方法
CN101408883B (zh) 一种网络舆情观点收集方法
CN108763484A (zh) 一种基于lda主题模型的法条推荐方法
CN108388651A (zh) 一种基于图核和卷积神经网络的文本分类方法
CN108509425A (zh) 一种基于新颖度的中文新词发现方法
CN105824802A (zh) 一种获取知识图谱向量化表示的方法以及装置
CN101021838A (zh) 文本处理方法和系统
CN101295381B (zh) 一种垃圾邮件检测方法
CN101784022A (zh) 短信过滤、分类方法及系统
CN103678564A (zh) 一种基于数据挖掘的互联网产品调研系统
CN105022754A (zh) 基于社交网络的对象分类方法及装置
CN109446423B (zh) 一种新闻以及文本的情感判断系统及方法
CN111460164B (zh) 一种基于预训练语言模型的电信工单智能判障方法
Tsai et al. D2S: document-to-sentence framework for novelty detection
CN102426585A (zh) 一种基于贝叶斯网络的网页自动分类方法
CN109522544A (zh) 基于卡方检验的句向量计算方法、文本分类方法及系统
CN103780588A (zh) 数字家庭网络中用户异常行为检测方法
CN114936277A (zh) 相似问题匹配方法和户相似问题匹配系统
CN111737477A (zh) 一种基于知识产权大数据的情报调查方法、系统和存储介质
Yang et al. Three-way multi-granularity learning towards open topic classification
CN105117466A (zh) 一种互联网信息筛选系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110330