CN102096703A - 短消息的过滤方法和设备 - Google Patents

短消息的过滤方法和设备 Download PDF

Info

Publication number
CN102096703A
CN102096703A CN201010611864.9A CN201010611864A CN102096703A CN 102096703 A CN102096703 A CN 102096703A CN 201010611864 A CN201010611864 A CN 201010611864A CN 102096703 A CN102096703 A CN 102096703A
Authority
CN
China
Prior art keywords
mrow
short message
msub
message
classification model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201010611864.9A
Other languages
English (en)
Other versions
CN102096703B (zh
Inventor
牟小峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Feinno Communication Technology Co Ltd
Original Assignee
Beijing Feinno Communication Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Feinno Communication Technology Co Ltd filed Critical Beijing Feinno Communication Technology Co Ltd
Priority to CN201010611864.9A priority Critical patent/CN102096703B/zh
Publication of CN102096703A publication Critical patent/CN102096703A/zh
Application granted granted Critical
Publication of CN102096703B publication Critical patent/CN102096703B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种短消息的过滤方法和设备,涉及电子信息技术领域,能够灵活应对不断变化的垃圾消息,提高了分类模型的分类精度和对垃圾消息的过滤准确率,且无需为分类模型额外构建训练语料库,降低了成本。本发明实施例提供的一种短消息的过滤方法包括:利用当前的分类模型对接收到的短消息的类别进行判断;当短消息的类别为垃圾消息时,过滤所述短消息;当短消息的类别为正常消息时,对所述短消息进行文本指纹提取,得到对应于所述短消息的指纹信息;根据所述指纹信息确认需要对所述短消息进行审核且审核结果为垃圾消息时,利用所述短消息对当前的分类模型进行更新,以利用更新后的分类模型执行下一次的过滤流程。

Description

短消息的过滤方法和设备
技术领域
本发明涉及电子信息技术领域,特别是涉及一种短消息的过滤方法和设备。
背景技术
短信是人们经常使用的信息交流方式之一,与此同时,垃圾短信也开始逐步泛滥。统计显示,在数量庞大的短信中,约30%属于垃圾短信。对普通用户而言,垃圾短信严重干扰日常生活;对运营商而言,垃圾短信占据大量流量空间,降低信息传送效率。
目前最通用的一种垃圾短信过滤方法是基于敏感词和串匹配的方法,该方法通过在服务器端布置敏感词表并通过模式匹配的方法来过滤垃圾短信。然而,这种方法的“误杀率”较高,且通过敏感词列举的方式无法穷尽所有的敏感词形式,这种方法始终滞后于垃圾短信的传播。
现有技术还提出了一种基于分类模型的垃圾短信的过滤方法,这种方法通过把短信分割为独立的部分,计算这些部分与类别的关系来判断短信是否为垃圾短信。这种基于内容比较的方法可以一定程度上避开敏感词过滤的缺陷,从整体内容上判断短信是否为垃圾短信。
然而,现有的基于分类模型的垃圾短信的过滤方法也存在不少不足之处,例如,主流的分类模型,如支持向量机模型、贝叶斯模型和最大熵模型等,往往需要构建一定规模的训练语料库来得到分类用的参数,训练语料库规模较小时,分类的准确率较低,而为了构建一定规模的训练语料库,又需要花费极大的代价,成本过高;并且,垃圾短信的发送者会不断对垃圾短信进行变形或增加新型的垃圾短信,以避开消息过滤机制,而现有基于分类模型的垃圾短信过滤方法只能对已出现过的垃圾短信具有过滤效果,而无法过滤未曾出现过的垃圾短信,无法灵活应对垃圾短信的变化,过滤准确率较低。
发明内容
本发明提供了一种短消息的过滤方法和设备,能够灵活应对不断变化的垃圾消息,提高了分类模型的分类精度和对垃圾消息的过滤准确率,且无需为分类模型额外构建训练语料库,降低了成本。
为达到上述目的,本发明的技术方案是这样实现的:
本发明实施例公开了一种短消息的过滤方法,包括:
利用当前的分类模型对接收到的短消息的类别进行判断,所述短消息的类别包括垃圾消息和正常消息;
当所述短消息的类别为垃圾消息时,过滤所述短消息;
当所述短消息的类别为正常消息时,对所述短消息进行文本指纹提取,得到对应于所述短消息的指纹信息;根据所述指纹信息确认需要对所述短消息进行审核且审核结果为垃圾消息时,利用所述短消息对当前的分类模型进行更新,以利用更新后的分类模型执行下一次的过滤流程。
本发明实施例还公开了一种短消息的过滤设备,包括:
分类模型判断单元,用于利用当前的分类模型对接收到的短消息的类别进行判断,所述短消息的类别包括垃圾消息和正常消息;
垃圾消息过滤单元,用于当所述短消息的类别为垃圾消息时,过滤所述短消息;
指纹分析及参数更新单元,用于当所述短消息的类别为正常消息时,对所述短消息进行文本指纹提取,得到对应于所述短消息基本内容的指纹信息;根据所述指纹信息确认需要对所述短消息进行审核且审核结果为垃圾消息时,利用所述短消息对当前的分类模型进行更新,以利用更新后的分类模型执行下一次的过滤流程。
由上所述,本发明实施例的技术方案,通过文本指纹分析提取反映短消息基本内容的指纹信息,能够不断截获各种新型的垃圾消息和已有垃圾消息的变形;并且,将新增的垃圾消息作为训练数据增量对分类模型进行训练,对所采用的分类模型进行实时动态的更新,能够不断提高分类模型分类的准确率和精度。本发明实施例的技术方案不但能够灵活应对不断变化的垃圾消息,提高了过滤准确率,且无需为分类模型额外构建训练语料库,降低了成本。实验证明,本发明实施例的技术方案对垃圾消息的过滤具有很好的效果,垃圾消息的过滤准确率达到99.11%,算法复杂度也较低,满足了实际的需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的一种短消息的过滤方法流程示意图;
图2(a)为一般贝叶斯模型的结构示意图;
图2(b)为本发明实施例采用的朴素贝叶斯模型的结构示意图;
图3为本发明实施例二提供的一种文本指纹分析方法流程示意图;
图4为本发明实施例三提供的一种短消息的过滤设备结构示意图。
具体实施方式
下面将结合本发明的附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例一提供了一种短消息的过滤方法,参见图1,所述方法包括:
11:利用当前的分类模型对接收到的短消息的类别进行判断,所述短消息的类别包括垃圾消息和正常消息;
12:当所述短消息的类别为垃圾消息时,过滤所述短消息;
13:当所述短消息的类别为正常消息时,对所述短消息进行文本指纹提取,得到对应于所述短消息基本内容的指纹信息;根据所述指纹信息确认需要对所述短消息进行审核且审核结果为垃圾消息时,利用所述短消息对当前的分类模型进行更新,以利用更新后的分类模型执行下一次的过滤流程。
进一步的,上述分类模型可以采用朴素贝叶斯模型,并且由于朴素贝叶斯模型只是一种理论上比较完美的模型,为了使该分类模型适用于实际的环境,本发明实施例还采用了为该分类模型中取值为零的参数重新赋值的“平滑”处理,忽略单字词对短消息分类的影响以及通过短消息中字符串与类别的似然值的差值是否超过一定阈值来判断该短消息是否为垃圾消息的规则判断法。
由上所述,本发明实施例的技术方案,通过文本指纹分析提取反映短消息基本内容的指纹信息,能够不断截获各种新型的垃圾消息和已有垃圾消息的变形;并且,将新增的垃圾消息作为训练数据增量对分类模型进行训练,对所采用的分类模型进行实时动态的更新,能够不断提高分类模型分类的准确率和精度。本发明实施例的技术方案不但能够灵活应对不断变化的垃圾消息,提高了过滤准确率,且无需为分类模型额外构建训练语料库,降低了成本。实验证明,本发明实施例的技术方案对垃圾消息的过滤具有很好的效果,垃圾消息的过滤准确率达到99.11%,算法复杂度也较低,满足了实际的需求。
下面对本发明实施例二提供的短消息的过滤方法进行说明。
11:利用当前的分类模型对接收到的短消息的类别进行判断,所述短消息的类别包括垃圾消息和正常消息。
在本发明实施例中,仅以短消息的类别包括垃圾消息(不正常消息)和正常消息两种类别为例进行说明,可以理解,对于需要细化短消息类别的场景,如将短消息的类别进一步细化为包括垃圾消息、正常消息、广告消息和获奖消息等,同样适用于本发明实施例的技术方案。
本发明实施例采用的分类模型为朴素贝叶斯模型,为了更加清楚地说明本发明实施例的技术方案,下面对贝叶斯模型的一些相关技术特征进行说明。
假设短消息x可以分为m个类别,则定义消息类别集合C={c1,K,cm},m之2。
给定短消息x,判定其所属的最优消息类别
Figure BDA0000041328830000051
可以表示为:
c ^ = arg max c k ∈ C p ( c k | x ) 1≤k≤m
p ( c k | x ) = p ( x | c k ) p ( c k ) p ( x ) 1≤k≤m
p ( x ) = Σ k = 1 m p ( x | c k ) p ( c k )
p(ck)表示类别ck的先验概率。
p(x|ck)表示给定类别ck的情况下短消息x的条件概率。
p(x)表示归一化因子,以保证p(x|ck)p(ck)的值为0与1之间的实数。
上述为通用的一般贝叶斯模型,然而,短消息由字符串组成,字符串与字符串之间存在的语义联系,采用一般贝叶斯模型进行分类时对这种内在的语义联系进行建模极为困难,计算复杂度也极高。
为了降低分类模型的复杂度,可以认为词语之间没有联系,相互独立,即采用朴素贝叶斯模型。参见图2(a)和图2(b),分别显示了一般贝叶斯模型和朴素贝叶斯模型的结构示意图,其中,c表示类别,w表示字符串。
对于朴素贝叶斯模型,若消息x由n个相互独立的字符串组成,则可将短消息x定义为n维特征向量的形式:x={w1,K,wn},其中wj是短消息x的第j个字符串,则有:
p ( x | c k ) = Π j = 1 n p ( w j | c k )
通过把消息分割为相互独立的字符串,则所判定的短消息x所属的类别
Figure BDA0000041328830000062
表示为:
c ^ = arg max c k ∈ C p ( c k | x )
= arg max c k ∈ C p ( x | c k ) p ( c k ) Σ k = 1 m p ( x | c k ) p ( c k )
= arg max c k ∈ C Π j = 1 n p ( w j | c k ) p ( c k ) Σ k = 1 m Π j = 1 n p ( w j | c k ) p ( c k )
在上述模型中,比较重要的参数包括先验概率值p(ck)和似然值p(wj|ck)。
其中,给定类别ck,上述先验概率的计算公式如下:
p ( c k ) = count ( c k ) Σ j count ( c j )
count(ck)表示ck出现的次数。
给定词语wj和类别ck,上述似然值的计算公式表示如下:
p ( w j | c k ) = count ( w j , c k ) count ( c k )
count(wj,ck)表示wj和类别ck的共现次数。
为了提高计算效率,对所有概率均取对数,把概率乘法变为概率对数的加法,加快计算速度。另外,由于所有p(x|ck)p(ck)都必须除以p(x),而最终结果是求最优的
Figure BDA0000041328830000068
与具体数值的大小无关,因此可以忽略分母p(x),以降低计算的复杂度,则所采用的朴素贝叶斯模型的计算公式可以表示如下:
c ^ = arg max c k ∈ C p ( c k | x )
= arg max c k ∈ C p ( x | c k ) p ( c k )
= arg max c k ∈ C Σ j = 1 n logp ( w j | c k ) + log p ( c k )
其中,
Figure BDA0000041328830000074
表示判定的短消息x的类别,参数p(wj|ck)表示给定第k类别ck的情况下短消息x中第j字符串wj的似然值,参数p(ck)表示类别ck的先验概率,k、j为序号;
由于朴素贝叶斯模型只是一种理论上比较完美的模型,直接采用该分类模型虽然会降低计算的复杂度,但对垃圾短信的过滤效果不够理想。
为了使该分类模型适用于实际的环境,本发明实施例还采用了为该分类模型中取值为零的参数重新赋值的“平滑”处理,忽略单字词对短消息分类的影响以及通过短消息中字符串与类别的似然值的差值是否超过一定阈值来判断该短消息是否为垃圾消息的规则判断法。下面分别对这三种改进处理进行说明。
一、平滑处理。
在上述计算公式中,参数p(wj|ck)容易出现为0的情况,即表示词语wj和类别ck没有共同出现过。这样就在分类的计算过程中,出现了一种类似“断点”的情况,导致计算的结果误差较大。然而,实际上造成这种现象的主要原因是用于训练分类模型的短消息数据不足,而不一定是词语wj和类别ck没有共同出现过。所以,为了更加符合客观实际情况,在本发明实施例中里,当所述参数p(wj|ck)的取值为零时,为所述参数p(wj|ck)赋予预定的正数值,以对该参数进行平滑处理,在此,选取0.1作为该预定的正数值。实验证明,平滑处理后的分类模型的过滤准确率有了明显的改善。
二、忽略单字的字符串。
根据一般的语言规律,单字词对短消息的分类所起的作用比较有限。这些词往往是虚词、连词、感叹词和未出现过的词的片段等等。在本方法里,所有单字词均不参与消息分类的判断。通过这种处理在不影响分类效果的前提下,降低了计算的复杂度。
三、规则判断法。
在短消息中有一部分词语与某个类别的关系非常紧密,这些词语往往是敏感词。在有些消息中,由于消息内容整体上并不敏感,所以采用分类模型进行判断时,判断的结果为正常消息。
但是,由于短消息中含有敏感词,这些消息应该被判断为垃圾消息。为了解决分类模型的这种缺陷,在本发明实施例中,通过词语与类别的似然值的差值是否超过一定的阈值来判断消息是否为垃圾消息。
可以计算出短消息中划分出的每个字符串与每个类别之间的似然值,然而,若一个字符串一般仅仅在一个类别中出现时,则该字符串与该类别的似然值会较大,而该字符串与其他类别的似然值会较小,这样通过部分字符串在不同类别下似然值之间差值可以直接判断短消息的类别,而不用再计算该短消息中其他字符串的似然值。例如,当所述短消息中一个字符串在第一类别下的似然值与该字符串在第二类别下的似然值的差值超过预定阈值时,确定所述短消息为垃圾消息。
12:当所述短消息的类别为垃圾消息时,过滤所述短消息。
根据当前的分类模型判断出接收到的短消息为垃圾消息时,对该短消息进行过滤。
13:当所述短消息的类别为正常消息时,对所述短消息进行文本指纹提取,得到对应于所述短消息基本内容的指纹信息;根据所述指纹信息确认需要对所述短消息进行审核且审核结果为垃圾消息时,利用所述短消息对当前的分类模型进行更新,以利用更新后的分类模型执行下一次的过滤流程。
参见图3,显示了本发明实施例提供的一种文本指纹分析方法流程示意图。
31:静态过滤。
对于接收到的短消息,根据预定的过滤信息对该短消息进行静态过滤(或称为简单过滤),得到第一提取消息。
为了便于清楚描述本发明实施例的技术方案,在发明的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分,本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定。
上述预定的过滤信息可以包括各种控制字符、全角半角标点符号等等,上述预定的过滤信息也可以包括预定的停用词,停用词包括数字、标点符号和部分极高频的词语。
其中,数字和标点符号可以通过字符内码直接识别,高频词的提取通过词语的idf值体现。
词语的idf值计算公式如下:
idf t i = log | D | | d : t i ∈ d |
|D|为所有语料库中的文本总数;|d:ti∈d|为所述语料库中包括所述词语ti的文本数量;为词语ti的逆文档频率值。
按idf值从大到小给所有词语排序,通过设置一定的阈值,把idf值超过阈值之上的词语作为停用词。在本发明实施例里,停用词取idf值最高的300个词语。
32:汉语分词。
对经过静态过滤的第一提取消息进行分词,得到第二提取消息,所述第二提取消息中包括至少两个字符串。
可以利用最大匹配和字本位结合的方法来进行分词,以达到速度快、准确率高的效果。
33:动态过滤。
对所述第二提取消息通过词性计算进行动态过滤(或称之为高级过滤),得到第三提取消息。通过动态过滤步骤过滤短消息分词后的不重要的字符串。
不同词性的字词能够表达不同的内容,对短消息的分类所起的作用也不同。例如,名词和动词往往是文本表达的重点,反映了短消息的基本内容,而副词和形容词往往仅表示名词和动词的属性和状态。这些属性和状态并不影响文本基本内容的表达。
从自动句法分析来看,能够成为句子中心成分的词往往能够影响基本内容的表达,反之,不能成为句子中心成分的词并不会影响基本内容。基于这些分析,本发明实施例
将词性分为包括保留词性和不保留词性的至少两种类别;为各个词性设置相应的权重值,其中,为所述保留词性设置的权重值大于为所述不保留词性设置的权重值。参见下面的表1和表2,显示了本发明实施例提供的一种对词性的权重进行分组的示例。
表1保留词性
  名形词   简称略语   用语   名语素
  名词   人名   地名   机构团体
  其他专名   处所词   时语素   时间词
  动语素   动词   副动词   名动词
表2不保留词性
  数词   标点   语气词   叹词
  形容词   副词   介词   量词
  助词   成语   习用语   连词
  区别词   方位词   代词   状态词
对所述第二提取消息中具有多种词性的字符串,利用所述各词性的类别以及相应的权重值计算所述字符串的词性判决量;
根据所述词性判决量去除或者保留所述第二提取消息中的字符串,得到第三提取消息。
34:指纹提取。
按照消息摘要算法第五版(Message Digest Algorithm 5,MD5)计算所述第三提取消息的MD5值。将第三提取消息映射为一固定长度的字符串,例如,映射为32字符的字符串,计算该位串的MD5值,将该MD5值作为所述短消息的指纹信息。
上述指纹信息与短消息的基本内容相对应的,利用该指纹信息为每条短消息赋予唯一的标识以便于消息内容的比较,能够有效地对垃圾消息的变体形式进行识别和过滤。例如,垃圾消息发送者往往会在垃圾消息中加入其它字符形成垃圾消息的变体,以绕过过滤机制。然而文本指纹计算时不考虑短消息中不重要的词语,仅会对与基本内容相关的词语进行指纹计算,所以对垃圾消息以及该垃圾消息的变体所提取的指纹信息是一致的,从而提高了识别垃圾消息的能力和过滤垃圾消息的准确率。
35:指纹比对。
将所述短消息的MD5值与已经收集到的MD5值进行比对,当所述短消息的MD5值所出现的总次数超过预定阈值时,确认需要对所述短消息进行审核。
保存已经处理过的短消息的MD5值,或者,预先收集若干短消息的MD5值并保存,若已保存的MD5值中存在与当前短消息的MD5值相同的MD5值,则将该MD5值出现的总次数加1,如为该MD5值设置累加值,将该累加值的数值加1。
当MD5值出现的总次数超过预定阈值,如500次时,确认需要对相应的短消息进行审核;或者,将所有的MD5值按照出现的总次数从高到低进行排序,对前1000个MD5值所对应的短消息进行审核。
由上所述,进行指纹对比时,主要考虑到垃圾消息的一个显著特点就是群发,所以利用指纹信息来汇聚出现频率较高的短消息,然后对这些出线频率较高的短消息再进行进一步的审核。
36:人工审核。
由于分类模型的判断结果还无法达到全部正确,在此考虑由人工审核作为补充,操作者对出现频率较高的短消息进行审核,通过预定的审核标准判断这些短消息是否为垃圾消息。
当对所述短消息的审核结果为垃圾消息时,利用所述短消息对分类模型的参数进行训练,将训练后的参数反馈到分类模型中,以对所述分类模型进行更新。这种处理方式能够在短消息的处理过程对分类模型进行实时动态的更新,改善了分类模型的性能,提高了对垃圾消息的过滤准确率。
在更新参数时,在一次更新过程中可能无法对所有的参数进行更新,则利用新发现的垃圾消息对部分参数进行训练后,与已有的参数进行合并。在此,主要需要对参数p(wj|ck)进行更新。
进一步的,本发明实施例能够利用上述审核后确定为垃圾消息的短消息从大量消息中进行新词语的发现,找出新型的垃圾消息。
由上所述,本发明实施例的技术方案,通过文本指纹分析提取反映短消息基本内容的指纹信息,能够不断截获各种新型的垃圾消息和已有垃圾消息的变形;并且,将新增的垃圾消息作为训练数据增量对分类模型进行训练,对所采用的分类模型进行实时动态的更新,能够不断提高分类模型分类的准确率和精度。本发明实施例的技术方案不但能够灵活应对不断变化的垃圾消息,提高了过滤准确率,且无需为分类模型额外构建训练语料库,降低了成本。实验证明,本发明实施例的技术方案对垃圾消息的过滤具有很好的效果,垃圾消息的过滤准确率达到99.11%,算法复杂度也较低,满足了实际的需求。
本发明实施例三还公开了一种短消息的过滤设备,参见图4,包括:
分类模型判断单元41,用于利用当前的分类模型对接收到的短消息的类别进行判断,所述短消息的类别包括垃圾消息和正常消息;
垃圾消息过滤单元42,用于当所述短消息的类别为垃圾消息时,过滤所述短消息;
指纹分析及参数更新单元43,用于当所述短消息的类别为正常消息时,对所述短消息进行文本指纹提取,得到对应于所述短消息基本内容的指纹信息;根据所述指纹信息确认需要对所述短消息进行审核且审核结果为垃圾消息时,利用所述短消息对当前的分类模型进行更新,以利用更新后的分类模型执行下一次的过滤流程。
进一步的,所述分类模型判断单元41,具体用于利用朴素贝叶斯模型得到所述分类模型,该分类模型通过如下公式对所述短消息的类别进行判断:
c ^ = arg max c k ∈ C p ( c k | x )
= arg max c k ∈ C p ( x | c k ) p ( c k )
= arg max c k ∈ C Σ j = 1 n logp ( w j | c k ) + log p ( c k )
其中,
Figure BDA0000041328830000134
表示判定的短消息x的类别,参数p(wj|ck)表示给定第k类别ck的情况下短消息x中第j字符串wj的似然值,参数p(ck)表示类别ck的先验概率,k、j为序号;
以及,
所述分类模型判断单元41,还用于利用所述朴素贝叶斯模型并结合下述的至少一种方式或其组合,对短消息的类别进行判断:
当所述参数p(wj|ck)的取值为零时,为所述参数p(wj|ck)赋予预定的正数值,以对该参数进行平滑处理;或者,
当所述字符串wj为单字的字符串时,不利用所述单字词对所述短消息进行分类判断;或者,
根据所述短消息中部分字符串在不同类别下的似然值之间的差值,对所述短消息的类别进行判断。
本发明设备实施例中各功能模块的具体工作方式可以参见本发明的方法实施例。上述短消息的过滤设备中各功能模块可以由单独的设备实现,也可以集成在一个设备中实现。
由上所述,本发明实施例的技术方案,通过文本指纹分析提取反映短消息基本内容的指纹信息,能够不断截获各种新型的垃圾消息和已有垃圾消息的变形;并且,将新增的垃圾消息作为训练数据增量对分类模型进行训练,对所采用的分类模型进行实时动态的更新,能够不断提高分类模型分类的准确率和精度。本发明实施例的技术方案不但能够灵活应对不断变化的垃圾消息,提高了过滤准确率,且无需为分类模型额外构建训练语料库,降低了成本。实验证明,本发明实施例的技术方案对垃圾消息的过滤具有很好的效果,垃圾消息的过滤准确率达到99.11%,算法复杂度也较低,满足了实际的需求。
本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种短消息的过滤方法,其特征在于,所述方法包括:
利用当前的分类模型对接收到的短消息的类别进行判断,所述短消息的类别包括垃圾消息和正常消息;
当所述短消息的类别为垃圾消息时,过滤所述短消息;
当所述短消息的类别为正常消息时,对所述短消息进行文本指纹提取,得到对应于所述短消息基本内容的指纹信息;根据所述指纹信息确认需要对所述短消息进行审核且审核结果为垃圾消息时,利用所述短消息对当前的分类模型进行更新,以利用更新后的分类模型执行下一次的过滤流程。
2.根据权利要求1所述的方法,其特征在于,所述对所述短消息进行文本指纹提取,得到对应于所述短消息的指纹信息包括:
根据预定的过滤信息对所述短消息进行静态过滤,得到第一提取消息;
对所述第一提取消息进行分词,得到第二提取消息,所述第二提取消息中包括至少两个字符串;
对所述第二提取消息通过词性计算进行动态过滤,得到第三提取消息;
按照消息摘要算法第五版MD5计算所述第三提取消息的MD5值,将该MD5值作为所述短消息的指纹信息。
3.根据权利要求2所述的方法,其特征在于,所述对所述第二提取消息通过词性计算进行动态过滤,得到第三提取消息包括:
将词性分为包括保留词性和不保留词性的至少两种类别;
为各个词性设置相应的权重值,其中,为所述保留词性设置的权重值大于为所述不保留词性设置的权重值;
对所述第二提取消息中具有多种词性的字符串,利用所述各词性的类别以及相应的权重值计算所述字符串的词性判决量;
根据所述词性判决量去除或者保留所述第二提取消息中的字符串,得到第三提取消息。
4.根据权利要求2所述的方法,其特征在于,所述根据所述指纹信息确认需要对所述短消息进行审核且审核结果为垃圾消息包括:
将所述短消息的MD5值与已经收集到的MD5值进行比对,当所述短消息的MD5值所出现的总次数超过预定阈值时,确认需要对所述短消息进行审核。
5.根据权利要求1所述的方法,其特征在于,
利用朴素贝叶斯模型得到所述分类模型,该分类模型通过如下公式对所述短消息的类别进行判断:
c ^ = arg max c k ∈ C p ( c k | x )
= arg max c k ∈ C p ( x | c k ) p ( c k )
= arg max c k ∈ C Σ j = 1 n logp ( w j | c k ) + log p ( c k )
其中,
Figure FDA0000041328820000024
表示短消息x的类别,参数p(wj|ck)表示给定第k类别ck的情况下短消息x中第j字符串wj的似然值,参数p(ck)表示类别ck的先验概率,k、j为序号。
6.根据权利要求5所述的方法,其特征在于,所述利用所述短消息对当前的分类模型进行更新包括:
当对所述短消息的审核结果为垃圾消息时,利用所述短消息对分类模型的参数进行训练,将训练后的参数反馈到分类模型中,以对所述分类模型进行更新,所述参数包括似然值p(wj|ck)。
7.根据权利要求5所述的方法,其特征在于,
利用所述朴素贝叶斯模型并结合下述的至少一种方式或其组合,对短消息的类别进行判断:
当所述参数p(wj|ck)的取值为零时,为所述参数p(wj|ck)赋予预定的正数值,以对该参数进行平滑处理;或者,
当所述字符串wj为单字的字符串时,不利用所述单字词对所述短消息进行分类判断;或者,
根据所述短消息中部分字符串在不同类别下的似然值之间的差值,对所述短消息的类别进行判断。
8.根据权利要求7所述的方法,其特征在于,
当对参数p(wj|ck)进行平滑处理时,选取0.1作为所述预定的正数值;以及,
当所述短消息中一个字符串在第一类别下的似然值与该字符串在第二类别下的似然值的差值超过预定阈值时,确定所述短消息为垃圾消息。
9.一种短消息的过滤设备,其特征在于,所述设备包括:
分类模型判断单元,用于利用当前的分类模型对接收到的短消息的类别进行判断,所述短消息的类别包括垃圾消息和正常消息;
垃圾消息过滤单元,用于当所述短消息的类别为垃圾消息时,过滤所述短消息;
指纹分析及参数更新单元,用于当所述短消息的类别为正常消息时,对所述短消息进行文本指纹提取,得到对应于所述短消息基本内容的指纹信息;根据所述指纹信息确认需要对所述短消息进行审核且审核结果为垃圾消息时,利用所述短消息对当前的分类模型进行更新,以利用更新后的分类模型执行下一次的过滤流程。
10.根据权利要求9所述的设备,其特征在于,
所述分类模型判断单元,具体用于利用朴素贝叶斯模型得到所述分类模型,该分类模型通过如下公式对所述短消息的类别进行判断:
c ^ = arg max c k ∈ C p ( c k | x )
= arg max c k ∈ C p ( x | c k ) p ( c k )
= arg max c k ∈ C Σ j = 1 n logp ( w j | c k ) + log p ( c k )
其中,
Figure FDA0000041328820000044
表示判定的短消息x的类别,参数p(wj|ck)表示给定第k类别ck的情况下短消息x中第j字符串wj的似然值,参数p(ck)表示类别ck的先验概率,k、j为序号;
以及,
所述分类模型判断单元,还用于利用所述朴素贝叶斯模型并结合下述的至少一种方式或其组合,对短消息的类别进行判断:
当所述参数p(wj|ck)的取值为零时,为所述参数p(wj|ck)赋予预定的正数值,以对该参数进行平滑处理;或者,
当所述字符串wj为单字的字符串时,不利用所述单字词对所述短消息进行分类判断;或者,
根据所述短消息中部分字符串在不同类别下的似然值之间的差值,对所述短消息的类别进行判断。
CN201010611864.9A 2010-12-29 2010-12-29 短消息的过滤方法和设备 Active CN102096703B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010611864.9A CN102096703B (zh) 2010-12-29 2010-12-29 短消息的过滤方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010611864.9A CN102096703B (zh) 2010-12-29 2010-12-29 短消息的过滤方法和设备

Publications (2)

Publication Number Publication Date
CN102096703A true CN102096703A (zh) 2011-06-15
CN102096703B CN102096703B (zh) 2013-06-12

Family

ID=44129798

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010611864.9A Active CN102096703B (zh) 2010-12-29 2010-12-29 短消息的过滤方法和设备

Country Status (1)

Country Link
CN (1) CN102096703B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102231874A (zh) * 2011-06-23 2011-11-02 中兴通讯股份有限公司 一种短信处理方法、装置及系统
CN102929872A (zh) * 2011-08-08 2013-02-13 阿里巴巴集团控股有限公司 由计算机实施的消息过滤方法、消息过滤装置及系统
CN104252479A (zh) * 2013-06-27 2014-12-31 华为技术有限公司 信息的处理方法、装置和系统
CN105260357A (zh) * 2015-10-14 2016-01-20 北京京东尚科信息技术有限公司 基于哈希有向图的敏感词检查方法和设备
WO2016062090A1 (zh) * 2014-10-20 2016-04-28 中兴通讯股份有限公司 短信过滤方法及短信过滤装置
CN105786792A (zh) * 2014-12-26 2016-07-20 中国移动通信集团公司 一种信息处理方法及装置
CN107341256A (zh) * 2017-07-12 2017-11-10 深圳市乐唯科技开发有限公司 一种基于信息交换场景中敏感话题过滤的解决方法
CN107609173A (zh) * 2017-09-28 2018-01-19 云天弈(北京)信息技术有限公司 一种用于资讯内容违规量化分析的方法
CN107943791A (zh) * 2017-11-24 2018-04-20 北京奇虎科技有限公司 一种垃圾短信的识别方法、装置和移动终端
CN107943941A (zh) * 2017-11-23 2018-04-20 珠海金山网络游戏科技有限公司 一种可迭代更新的垃圾文本识别方法和系统
WO2018107398A1 (zh) * 2016-12-14 2018-06-21 华为技术有限公司 验证消息合法性的方法和服务器
CN108319582A (zh) * 2017-12-29 2018-07-24 北京城市网邻信息技术有限公司 文本消息的处理方法、装置和服务器
CN108573031A (zh) * 2018-03-26 2018-09-25 上海万行信息科技有限公司 一种基于内容的投诉分类方法和系统
CN109413595A (zh) * 2017-08-17 2019-03-01 中国移动通信集团公司 一种垃圾短信的识别方法、装置及存储介质
CN103902552B (zh) * 2012-12-25 2019-03-26 深圳市世纪光速信息技术有限公司 停用词的挖掘方法和装置、搜索方法和装置、评测方法和装置
CN111090753A (zh) * 2018-10-24 2020-05-01 马上消费金融股份有限公司 分类模型的训练方法、分类方法、装置、计算机存储介质
CN111628859A (zh) * 2020-06-05 2020-09-04 上海创蓝文化传播有限公司 一种基于分布式高并发条件下审核短信文本的方法及装置
CN114466362A (zh) * 2022-04-11 2022-05-10 武汉卓鹰世纪科技有限公司 基于BiLSTM的5G通信下垃圾短信过滤方法及装置
CN117880767A (zh) * 2024-03-13 2024-04-12 深圳市诚立业科技发展有限公司 一种低延迟的短信数据传输方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101137087A (zh) * 2007-08-01 2008-03-05 浙江大学 短信息监控中心及监控方法
CN101304589A (zh) * 2008-04-14 2008-11-12 中国联合通信有限公司 利用短信网关发送垃圾短信的监控与过滤方法及系统
CN101389085A (zh) * 2008-10-14 2009-03-18 中国联合通信有限公司 基于发送行为的垃圾短消息识别系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101137087A (zh) * 2007-08-01 2008-03-05 浙江大学 短信息监控中心及监控方法
CN101304589A (zh) * 2008-04-14 2008-11-12 中国联合通信有限公司 利用短信网关发送垃圾短信的监控与过滤方法及系统
CN101389085A (zh) * 2008-10-14 2009-03-18 中国联合通信有限公司 基于发送行为的垃圾短消息识别系统及方法

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012174823A1 (zh) * 2011-06-23 2012-12-27 中兴通讯股份有限公司 一种短信处理方法、装置及系统
CN102231874A (zh) * 2011-06-23 2011-11-02 中兴通讯股份有限公司 一种短信处理方法、装置及系统
CN102929872A (zh) * 2011-08-08 2013-02-13 阿里巴巴集团控股有限公司 由计算机实施的消息过滤方法、消息过滤装置及系统
CN102929872B (zh) * 2011-08-08 2016-04-27 阿里巴巴集团控股有限公司 由计算机实施的消息过滤方法、消息过滤装置及系统
CN103902552B (zh) * 2012-12-25 2019-03-26 深圳市世纪光速信息技术有限公司 停用词的挖掘方法和装置、搜索方法和装置、评测方法和装置
CN104252479B (zh) * 2013-06-27 2018-05-18 华为技术有限公司 信息的处理方法、装置和系统
CN104252479A (zh) * 2013-06-27 2014-12-31 华为技术有限公司 信息的处理方法、装置和系统
WO2016062090A1 (zh) * 2014-10-20 2016-04-28 中兴通讯股份有限公司 短信过滤方法及短信过滤装置
CN105786792A (zh) * 2014-12-26 2016-07-20 中国移动通信集团公司 一种信息处理方法及装置
CN105260357A (zh) * 2015-10-14 2016-01-20 北京京东尚科信息技术有限公司 基于哈希有向图的敏感词检查方法和设备
CN105260357B (zh) * 2015-10-14 2018-03-30 北京京东尚科信息技术有限公司 基于哈希有向图的敏感词检查方法和设备
WO2018107398A1 (zh) * 2016-12-14 2018-06-21 华为技术有限公司 验证消息合法性的方法和服务器
CN109076317A (zh) * 2016-12-14 2018-12-21 华为技术有限公司 验证消息合法性的方法和服务器
CN107341256A (zh) * 2017-07-12 2017-11-10 深圳市乐唯科技开发有限公司 一种基于信息交换场景中敏感话题过滤的解决方法
CN109413595B (zh) * 2017-08-17 2020-09-25 中国移动通信集团公司 一种垃圾短信的识别方法、装置及存储介质
CN109413595A (zh) * 2017-08-17 2019-03-01 中国移动通信集团公司 一种垃圾短信的识别方法、装置及存储介质
CN107609173A (zh) * 2017-09-28 2018-01-19 云天弈(北京)信息技术有限公司 一种用于资讯内容违规量化分析的方法
CN107943941A (zh) * 2017-11-23 2018-04-20 珠海金山网络游戏科技有限公司 一种可迭代更新的垃圾文本识别方法和系统
CN107943941B (zh) * 2017-11-23 2021-10-15 珠海金山网络游戏科技有限公司 一种可迭代更新的垃圾文本识别方法和系统
CN107943791A (zh) * 2017-11-24 2018-04-20 北京奇虎科技有限公司 一种垃圾短信的识别方法、装置和移动终端
CN108319582A (zh) * 2017-12-29 2018-07-24 北京城市网邻信息技术有限公司 文本消息的处理方法、装置和服务器
CN108573031A (zh) * 2018-03-26 2018-09-25 上海万行信息科技有限公司 一种基于内容的投诉分类方法和系统
CN111090753A (zh) * 2018-10-24 2020-05-01 马上消费金融股份有限公司 分类模型的训练方法、分类方法、装置、计算机存储介质
CN111628859A (zh) * 2020-06-05 2020-09-04 上海创蓝文化传播有限公司 一种基于分布式高并发条件下审核短信文本的方法及装置
CN114466362A (zh) * 2022-04-11 2022-05-10 武汉卓鹰世纪科技有限公司 基于BiLSTM的5G通信下垃圾短信过滤方法及装置
CN114466362B (zh) * 2022-04-11 2022-06-28 武汉卓鹰世纪科技有限公司 基于BiLSTM的5G通信下垃圾短信过滤方法及装置
CN117880767A (zh) * 2024-03-13 2024-04-12 深圳市诚立业科技发展有限公司 一种低延迟的短信数据传输方法
CN117880767B (zh) * 2024-03-13 2024-05-28 深圳市诚立业科技发展有限公司 一种低延迟的短信数据传输方法

Also Published As

Publication number Publication date
CN102096703B (zh) 2013-06-12

Similar Documents

Publication Publication Date Title
CN102096703B (zh) 短消息的过滤方法和设备
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
CN108416375B (zh) 工单分类方法及装置
WO2021068683A1 (zh) 正则表达式生成方法、装置、服务器及计算机可读存储介质
CN113407679B (zh) 文本主题挖掘方法、装置、电子设备及存储介质
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN101464898A (zh) 一种提取文本主题词的方法
CN109635297A (zh) 一种实体消歧方法、装置、计算机装置及计算机存储介质
CN109086355B (zh) 基于新闻主题词的热点关联关系分析方法及系统
CN108776709A (zh) 计算机可读存储介质及词典更新方法
CN103813279A (zh) 一种垃圾短信检测方法及装置
CN110399483A (zh) 一种主题分类方法、装置、电子设备及可读存储介质
CN115186654B (zh) 一种公文文本摘要生成方法
CN111310467B (zh) 一种在长文本中结合语义推断的主题提取方法及系统
CN112989235A (zh) 基于知识库的内链构建方法、装置、设备和存储介质
CN114186061A (zh) 语句意图预测方法、装置、存储介质及计算机设备
CN112632982A (zh) 一种能用于供应商评价的对话文本情感分析方法
CN103514168B (zh) 数据处理方法和设备
CN107092679A (zh) 一种特征词向量获得方法、文本分类方法及装置
CN112528640A (zh) 一种基于异常子图检测的领域术语自动抽取方法
CN113761104A (zh) 知识图谱中实体关系的检测方法、装置和电子设备
CN103092838B (zh) 一种获取英文词的方法及装置
WO2023125336A1 (en) Methods and devices for generating sensitive text detectors
CN108573025B (zh) 基于混合模板抽取句子分类特征的方法及装置
CN114662486B (zh) 一种基于机器学习的突发事件敏感词检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: Room 810, 8 / F, 34 Haidian Street, Haidian District, Beijing 100080

Patentee after: BEIJING D-MEDIA COMMUNICATION TECHNOLOGY Co.,Ltd.

Address before: 100089 Beijing city Haidian District wanquanzhuang Road No. 28 Wanliu new building A block 5 layer

Patentee before: BEIJING D-MEDIA COMMUNICATION TECHNOLOGY Co.,Ltd.