CN105589845B - 垃圾文本识别方法、装置及系统 - Google Patents

垃圾文本识别方法、装置及系统 Download PDF

Info

Publication number
CN105589845B
CN105589845B CN201510959231.XA CN201510959231A CN105589845B CN 105589845 B CN105589845 B CN 105589845B CN 201510959231 A CN201510959231 A CN 201510959231A CN 105589845 B CN105589845 B CN 105589845B
Authority
CN
China
Prior art keywords
text
identified
rubbish
probability
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510959231.XA
Other languages
English (en)
Other versions
CN105589845A (zh
Inventor
常富洋
张金晶
李强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201510959231.XA priority Critical patent/CN105589845B/zh
Publication of CN105589845A publication Critical patent/CN105589845A/zh
Application granted granted Critical
Publication of CN105589845B publication Critical patent/CN105589845B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种垃圾文本识别方法、装置及系统。该方法包括:客户端获取待识别文本,并从待识别文本中提取一个或多个字符串;基于一个或多个字符串,计算待识别文本为垃圾文本的联合概率;确定待识别文本为垃圾文本的联合概率是否大于或等于预设阈值,若是,则识别出待识别文本为垃圾文本。本发明实施例在原有贝叶斯算法的基础上引入联合概率,基于待识别文本中的一个或多个字符串,计算待识别文本为垃圾文本的联合概率,通过比较联合概率与预设阈值来识别待识别文本是否为垃圾文本,提高了识别垃圾短信的准确度,减少了文本形式的垃圾短信被误拦的情况。

Description

垃圾文本识别方法、装置及系统
技术领域
本发明涉及计算机技术领域,特别是涉及一种垃圾文本识别方法、装置及系统。
背景技术
随着计算机技术的不断发展,移动终端(如,手机等具有通信功能的设备)已经成为人们日常生活、工作中不可缺少的通讯工具,由于其携带方便,所以人们可以随时随地的保持联系,不仅拉近了人与人之间的距离,而且会带给人们一定的安全感。每当节日到来,一条来自亲朋好友的祝福短信,一个来自家人的问候电话,足以让人感动。由于移动终端几乎已经成为每个人必备的通讯工具,所以也成为了一些商家的推销媒介,甚至成为一些不法分子进行诈骗的渠道。
目前市场上已经存在一些用于拦截骚扰短信的客户端,通过在本地设定一些具体的分类规则对骚扰短信进行拦截,或者直接利用贝叶斯算法对短信进行识别并拦截出垃圾短信。但是采用这些方式拦截骚扰短信,会占用大量的本地存储空间,并且直接利用贝叶斯算法拦截垃圾短信,虽然垃圾短信的召回率很高,但是准确率较低,容易产生误拦的情况。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的垃圾文本识别方法以及相应的装置。
依据本发明的一个方面,提供了一种垃圾文本识别方法,包括:
获取待识别文本,从所述待识别文本中提取一个或多个字符串;
基于所述一个或多个字符串,计算所述待识别文本为垃圾文本的联合概率;
确定所述待识别文本为垃圾文本的联合概率是否大于或等于预设阈值;
若是,则识别所述待识别文本为垃圾文本。
可选地,所述方法还包括:
若确定所述待识别文本为垃圾文本的联合概率小于预设阈值,则识别所述待识别文本为正常文本。
可选地,基于所述一个或多个字符串,计算所述待识别文本为垃圾文本的联合概率,包括:
对于所述一个或多个字符串中的各个字符串,计算在该字符串存在的条件下,所述待识别文本为垃圾文本的后验概率;
根据所述各个字符串对于所述待识别文本为垃圾文本的后验概率,计算所述待识别文本为垃圾文本的联合概率。
可选地,根据所述各个字符串对于所述待识别文本为垃圾文本的后验概率,计算所述待识别文本为垃圾文本的联合概率,包括:
对所述各个字符串对于所述待识别文本为垃圾文本的后验概率进行从大到小排序,选取排序在前的N个字符串;
根据所述N个字符串中各个字符串对于所述待识别文本为垃圾文本的后验概率,计算所述待识别文本为垃圾文本的联合概率。
可选地,所述方法还包括:
获取两组已经被识别的文本集,其中,一组为正常文本集,另一组为垃圾文本集;
分别提取两组文本集中的至少一个字符串;
计算所述至少一个字符串分别在所述正常文本集和所述垃圾文本集中出现的概率,并生成概率资料库。
可选地,计算所述至少一个字符串分别在所述正常文本集和所述垃圾文本集中出现的概率,包括:
若所述至少一个字符串仅出现在所述垃圾文本集中,则该字符串出现在所述正常文本集中的概率规定为第一数值;
若所述至少一个字符串仅出现在所述正常文本集中,则该字符串出现在所述垃圾文本集中的概率规定为第二数值。
可选地,根据所述各个字符串对于所述待识别文本为垃圾文本的后验概率,计算所述待识别文本为垃圾文本的联合概率,包括:
获取所述各个字符串在所述垃圾文本集中的权重;
根据所述各个字符串在所述垃圾文本集中的权重和该字符串对于所述待识别文本为垃圾文本的后验概率,计算所述待识别文本为垃圾文本的联合概率。
可选地,对于所述一个或多个字符串中的各个字符串,计算在该字符串存在的条件下,所述待识别文本为垃圾文本的后验概率,包括:
确定所述待识别文本分别为垃圾文本和正常文本的先验概率;
对于所述一个或多个字符串中的各个字符串,从所述概率资料库中获取该字符串分别在所述垃圾文本集和所述正常文本集中出现的概率;
根据确定的所述待识别文本分别为垃圾文本和正常文本的先验概率、以及获取的该字符串分别在所述垃圾文本集和所述正常文本集中出现的概率,计算在该字符串存在的条件下,所述待识别文本为垃圾文本的后验概率。
可选地,所述方法还包括:
若从所述概率资料库中未获取到该字符串分别在所述垃圾文本集和所述正常文本集中出现的概率,则设定该字符串分别在所述垃圾文本集和所述正常文本集中出现的概率分别为第一指定值和第二指定值。
可选地,所述待识别文本为垃圾文本的先验概率和所述待识别文本为正常文本的先验概率,均为一具体设定数值。
可选地,在识别所述待识别文本为垃圾文本之后,所述方法还包括:
对所述待识别文本进行拦截。
可选地,当所述待识别文本为短信时,在识别所述待识别文本为正常文本之后,所述方法还包括:
获取所述短信的发送方的电话号码,确定所述短信的发送方的电话号码的归属地和/或地区编码;
比较所述短信的发送方的电话号码的归属地和/或地区编码与所述短信接收方的电话号码的归属地和/或地区编码,得到比较结果;
根据所述比较结果,确定是否对所述短信执行拦截操作。
可选地,根据所述比较结果,确定是否对所述短信执行拦截操作,包括:
若所述比较结果为所述短信的发送方的电话号码的归属地与所述短信接收方的电话号码的归属地不一致,则对所述短信执行拦截操作;或者
若所述比较结果为所述短信的发送方的电话号码的地区编码与所述短信接收方的电话号码的地区编码不一致,则对所述短信执行拦截操作。
依据本发明的另一个方面,还提供了一种垃圾文本识别装置,包括:
提取模块,适于获取待识别文本,从所述待识别文本中提取一个或多个字符串;
计算模块,适于基于所述一个或多个字符串,计算所述待识别文本为垃圾文本的联合概率;
确定模块,适于确定所述待识别文本为垃圾文本的联合概率是否大于或等于预设阈值;
识别模块,适于若所述确定模块确定所述待识别文本为垃圾文本的联合概率大于或等于预设阈值,则识别所述待识别文本为垃圾文本。
可选地,所述识别模块还适于:
若所述确定模块确定所述待识别文本为垃圾文本的联合概率小于预设阈值,则识别所述待识别文本为正常文本。
可选地,所述计算模块还适于:
对于所述一个或多个字符串中的各个字符串,计算在该字符串存在的条件下,所述待识别文本为垃圾文本的后验概率;
根据所述各个字符串对于所述待识别文本为垃圾文本的后验概率,计算所述待识别文本为垃圾文本的联合概率。
可选地,所述计算模块还适于:
对所述各个字符串对于所述待识别文本为垃圾文本的后验概率进行从大到小排序,选取排序在前的N个字符串;
根据所述N个字符串中各个字符串对于所述待识别文本为垃圾文本的后验概率,计算所述待识别文本为垃圾文本的联合概率。
可选地,所述装置还包括训练模块,所述训练模块包括:
获取单元,适于获取两组已经被识别的文本集,其中,一组为正常文本集,另一组为垃圾文本集;
提取单元,适于分别提取两组文本集中的至少一个字符串;
生成单元,适于计算所述至少一个字符串分别在所述正常文本集和所述垃圾文本集中出现的概率,并生成概率资料库。
可选地,所述生成单元还适于:
若所述至少一个字符串仅出现在所述垃圾文本集中,则该字符串出现在所述正常文本集中的概率规定为第一数值;
若所述至少一个字符串仅出现在所述正常文本集中,则该字符串出现在所述垃圾文本集中的概率规定为第二数值。
可选地,所述计算模块还适于:
获取所述各个字符串在所述垃圾文本集中的权重;
根据所述各个字符串在所述垃圾文本集中的权重和该字符串对于所述待识别文本为垃圾文本的后验概率,计算所述待识别文本为垃圾文本的联合概率。
可选地,所述计算模块还适于:
确定所述待识别文本分别为垃圾文本和正常文本的先验概率;
对于所述一个或多个字符串中的各个字符串,从所述概率资料库中获取该字符串分别在所述垃圾文本集和所述正常文本集中出现的概率;
根据确定的所述待识别文本分别为垃圾文本和正常文本的先验概率、以及获取的该字符串分别在所述垃圾文本集和所述正常文本集中出现的概率,计算在该字符串存在的条件下,所述待识别文本为垃圾文本的后验概率。
可选地,所述计算模块还适于:
若从所述概率资料库中未获取到该字符串分别在所述垃圾文本集和所述正常文本集中出现的概率,则设定该字符串分别在所述垃圾文本集和所述正常文本集中出现的概率分别为第一指定值和第二指定值。
可选地,所述待识别文本为垃圾文本的先验概率和所述待识别文本为正常文本的先验概率,均为一具体设定数值。
可选地,所述装置还包括:
拦截模块,适于在所述识别模块识别所述待识别文本为垃圾文本之后,对所述待识别文本进行拦截。
可选地,所述装置还包括处理模块,适于:
获取所述短信的发送方的电话号码,确定所述短信的发送方的电话号码的归属地和/或地区编码;
比较所述短信的发送方的电话号码的归属地和/或地区编码与所述短信接收方的电话号码的归属地和/或地区编码,得到比较结果;
根据所述比较结果,确定是否对所述短信执行拦截操作。
可选地,所述处理模块还适于:
若所述比较结果为所述短信的发送方的电话号码的归属地与所述短信接收方的电话号码的归属地不一致,则对所述短信执行拦截操作;或者
若所述比较结果为所述短信的发送方的电话号码的地区编码与所述短信接收方的电话号码的地区编码不一致,则对所述短信执行拦截操作。
依据本发明的又一个方面,还提供了一种垃圾文本识别系统,包括终端设备和云端服务器;
所述终端设备,适于根据垃圾文本识别装置识别待识别文本是否为垃圾文本,并将识别结果上传给所述云端服务器;
所述云端服务器,适于利用所述识别结果,生成字符串的概率资料库。
可选地,所述云端服务器还适于:
从所述识别结果的文本中提取至少一个字符串,其中,所述识别结果的文本包括垃圾文本和正常文本;
计算所述至少一个字符串分别在所述正常文本和所述垃圾文本中出现的概率,并生成概率资料库。
可选地,所述云端服务器还适于:
将生成的字符串的概率资料库下发给所述终端设备,以更新所述终端设备中的概率资料库。
在本发明实施例中,首先,客户端获取待识别文本,并从待识别文本中提取一个或多个字符串。然后,基于一个或多个字符串,计算待识别文本为垃圾文本的联合概率。最后,确定待识别文本为垃圾文本的联合概率是否大于或等于预设阈值,若是,则识别出待识别文本为垃圾文本。现有技术中直接利用贝叶斯算法进行文本形式的垃圾短信的识别,使得垃圾短信的召回率很高,然而存在一些正常的短信被误拦的情况。本发明实施例在原有贝叶斯算法的基础上引入联合概率,基于待识别文本中的一个或多个字符串,计算待识别文本为垃圾文本的联合概率,通过比较联合概率与预设阈值来识别待识别文本是否为垃圾文本,提高了识别垃圾短信的准确度,减少了文本形式的垃圾短信被误拦的情况。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是根据本发明一个实施例的垃圾文本识别方法的流程示意图;
图2是根据本发明另一个实施例的垃圾文本识别方法的流程示意图;
图3是根据本发明一个实施例的训练贝叶斯过滤器的方法的流程示意图;
图4是根据本发明另一个实施例的垃圾文本识别方法的流程示意图;
图5a是根据本发明一个实施例的垃圾文本识别装置的结构示意图;
图5b是根据本发明另一个实施例的垃圾文本识别装置的结构示意图;
图6是根据本发明一个实施例的垃圾文本识别装置的训练模块的结构示意图;以及
图7是根据本发明一个实施例的垃圾文本识别系统的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为解决上述技术问题,本发明实施例提供了一种垃圾文本识别方法,可以应用在需要对文本进行识别的终端或服务器。图1是根据本发明一个实施例的垃圾文本识别方法的流程示意图。参见图1,该方法至少可以包括步骤S102至步骤S108。
步骤S102,获取待识别文本,从待识别文本中提取一个或多个字符串。
步骤S104,基于一个或多个字符串,计算待识别文本为垃圾文本的联合概率。
步骤S106,确定待识别文本为垃圾文本的联合概率是否大于或等于预设阈值。
步骤S108,若是,则识别待识别文本为垃圾文本。
在本发明实施例中,首先,客户端获取待识别文本,并从待识别文本中提取一个或多个字符串。然后,基于一个或多个字符串,计算待识别文本为垃圾文本的联合概率。最后,确定待识别文本为垃圾文本的联合概率是否大于或等于预设阈值,若是,则识别出待识别文本为垃圾文本。现有技术中利用贝叶斯算法进行文本形式的垃圾短信的识别,使得垃圾短信的召回率很高,然而存在一些正常的短信被误拦的情况。本发明实施例在原有贝叶斯算法的基础上引入联合概率,基于待识别文本中的一个或多个字符串,计算待识别文本为垃圾文本的联合概率,通过比较联合概率与预设阈值来识别待识别文本是否为垃圾文本,提高了识别垃圾短信的准确度,减少了文本形式的垃圾短信被误拦的情况。
上文步骤S104中的联合概率指的是,在多个事件同时发生(即,从待识别文本中提取出一个或多个字符串)的情况下,另一个事件发生(即,待识别文本为垃圾文本)的概率有多大。例如,已知W1和W2是两个不同的词语,它们都出现在同一条文本之中,那么这条文本是垃圾文本的概率,也就是这两个词语的联合概率。在原有贝叶斯算法的基础上加入联合概率,对于可能是垃圾短信的文本,会设置一个置信度,利用该置信度可以对于疑似或者非常确定是垃圾短信的文本进行拦截,从而可以有效地提升拦截垃圾短信的精确度。
在本发明一实施例中,当需要进行文本识别的终端为移动终端时,待识别文本可以是短信或消息,此时,可以通过如下方式获取短信或消息,以获取短信为例:首先在移动终端的操作系统中注册一个客户端,当移动终端获取到一条短信时,移动终端的操作系统就会广播该短信接收消息,此消息中携带有短信发送方的电话号码。此时,客户端可以监控到该短信接收消息,并根据这条短信接收消息获取到短信发送方的电话号码。
在上文步骤S102中,获取待识别文本,并从待识别文本中提取一个或多个字符串,在该步骤之前需要对待识别文本进行分词操作。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。具体的,将待识别文本拆分成一个或多个单独的字符串,然后按照一定的规则将拆分后的每一个字符串与一个足够大的词典中的字符串进行匹配,如果在词典中找到了某一个字符串,则匹配成功。匹配成功之后,就可以提取该匹配成功的字符串。
图2是根据本发明另一个实施例的垃圾文本识别方法的流程示意图。参见图2,该方法至少可以包括步骤S202至步骤S210。
步骤S202,获取待识别文本,从待识别文本中提取一个或多个字符串。
步骤S204,基于一个或多个字符串,计算待识别文本为垃圾文本的联合概率。
步骤S206,确定待识别文本为垃圾文本的联合概率是否大于或等于预设阈值。若是,则继续执行步骤S208;若否,则继续执行步骤S210。
步骤S208,识别待识别文本为垃圾文本。
步骤S210,识别待识别文本为正常文本。
在本发明实施例中,当确定出一条待识别文本的联合概率值后,比较该联合概率值与预设阈值的大小,当联合概率大于或等于预设阈值,则确定待识别文本为垃圾文本;当联合概率小于预设阈值,则确定待识别文本为正常文本。例如,设定预设阈值为0.99,当联合概率大于0.99时,表示多个词联合认定,这条文本有99%以上的可能属于垃圾文本;当联合概率小于0.99,就表示这条文本是正常文本。另外,还可能存在灰色文本的情况,此时可以预设第一阈值和第二阈值,且第一阈值大于第二阈值,例如,当联合概率小于第一阈值且大于第二阈值时,确定该待识别文本为灰色文本;当联合概率小于第二阈值时,确定该待识别文本为正常文本。
在本发明一实施例中,在上述步骤S104或步骤S204中基于一个或多个字符串,计算待识别文本为垃圾文本的联合概率,还可以对于一个或多个字符串中的各个字符串,计算在该字符串存在的条件下,待识别文本为垃圾文本的后验概率。然后,根据各个字符串对于待识别文本为垃圾文本的后验概率,计算待识别文本为垃圾文本的联合概率。
在本发明又一实施例中,根据各个字符串对于待识别文本为垃圾文本的后验概率,计算待识别文本为垃圾文本的联合概率,本发明实施例提供了一种可选的方案,在该方案中,可以对各个字符串对于待识别文本为垃圾文本的后验概率进行从大到小排序,并选取排序在前的N个字符串。然后,根据N个字符串中各个字符串对于待识别文本为垃圾文本的后验概率,计算待识别文本为垃圾文本的联合概率。例如,选取待识别文本中后验概率排名前20个的字符串,根据这20个字符串中各个字符串对于待识别文本为垃圾文本的后验概率,计算待识别文本为垃圾文本的联合概率。
在上述实施例的基础上,如果其中某一个字符串为第一次出现,则无法确定该字符串的后验概率,进而无法计算得到联合概率。此时,可以设定该字符串的后验概率为一个具体数值,例如设定该字符串的后验概率为0.4,因为垃圾文本往往用的都是一些固定的词语,所以,如果一个词语第一次出现,那么该词语多半是正常词语。
在本发明一实施例中,首先,根据待识别文本的发送方的电话号码,查找该电话号码是否在骚扰电话列表中,如果骚扰电话列表中存在该电话号码,则直接判断待识别文本为垃圾文本,如果骚扰电话列表中不存在该电话号码,则继续执行步骤S202至步骤S210。其中,骚扰电话列表存储于本地数据库中。并且,骚扰电话列表中的每条骚扰电话记录都包含有骚扰电话号码以及该骚扰电话号码的属性信息。例如,骚扰电话号码的属性信息可以包括:骚扰电话类型和/或骚扰电话标记次数。骚扰电话类型可以为通过云端服务器中的分类器所获取的分类信息,例如诈骗类、房产中介类、广告推销类、响一声类、公司电话类、教育培训中介类、欺诈类、服务类或保险类等类型。骚扰电话标记次数是指用户对骚扰电话的标记次数,反映了该骚扰电话的活跃度。
在本发明一实施例中,终端设备需要定期向云端服务器上报所接收到的骚扰电话或短信的标识信息。具体地,终端设备上报骚扰电话可以采用两种方式:一种方式是,终端设备定期向云端服务器上报所接收到的所有已拨打电话,云端服务器将这些已拨打电话与云端数据库中记录的骚扰电话进行比对,从中提取出属于骚扰电话的已拨打电话;另一种方式是,如果终端设备中本地存储有骚扰电话本地数据库,终端设备根据该本地数据库识别出骚扰电话,将其上报给云端服务器。需要说明的是,对于以上两种方式的使用不做限制,可以单独应用其中的一个或两个,也可以将上述两种方法结合起来应用。例如,终端设备每天或每隔几天上报所接收到的骚扰电话和/或已拨打电话,云端服务器存储终端设备上报或自身识别的过去30天内已拨打骚扰电话。当定时时间到达时,云端服务器根据终端设备过去30天内所接收到的骚扰电话从云端数据库中提取与这些已拨打骚扰电话相关的骚扰电话。
在本发明一优选实施例中,可以对骚扰电话列表进行升级,以提升骚扰电话列表(即骚扰短信黑名单)的时效性,其中,升级过程为:云端服务器每隔一段定时时间从云端数据库提取一次骚扰短信号码列表,然后再下发给终端设备。举例来说,设终端设备每天做一次骚扰电话列表的升级,对应的云端服务器每天提取一次最新的骚扰短信号码列表。比如,将每天晚上12点设为定时时间,云端服务器在该定时时间到达时,自动进行骚扰电话列表的提取。
本发明实施例还提供了一种训练贝叶斯过滤器的方法,图3是根据本发明一个实施例的训练贝叶斯过滤器的方法的流程示意图。参照图3所示,该方法至少可以包括步骤S302至步骤S306。
步骤S302,获取两组已经被识别的文本集,其中,一组为正常文本集,另一组为垃圾文本集。
步骤S304,分别提取两组文本集中的至少一个字符串。
步骤S306,计算至少一个字符串分别在正常文本集和垃圾文本集中出现的概率,并生成概率资料库。
在本发明一实施例中,在上述步骤S302中,获取两组已经被识别的文本集,其中,获取文本的数量越大,则训练出的贝叶斯过滤器的实施效果越好。例如,设定已经被识别的正常文本集和垃圾文本集中分别有4000条文本,假设在正常文本集中,带有“充值”这个词的文本有2条,那么该词在正常文本集中出现的概率为2/4000=0.05%;在垃圾文本集中,带有“充值”这个词的文本有200条,那么该词在垃圾文本集中出现的概率为200/4000=5%。
在本发明一实施例中,计算至少一个字符串分别在正常文本集和垃圾文本集中出现的概率。为了避免字符串在某个文本集中出现的概率为0,其中,若至少一个字符串仅出现在垃圾文本集中,则该字符串出现在正常文本集中的概率规定为第一数值;若至少一个字符串仅出现在正常文本集中,则该字符串出现在垃圾文本集中的概率规定为第二数值。例如,如果某个词只出现在垃圾文本集中,那么设置该词在正常文本集中出现的概率为1%。具体的,如果“充值”这个词只出现在垃圾文本集中,那么该词在正常文本集中出现的概率为1%。
为了更清楚地呈现本发明实施例,现给出一个具体的实施方式来介绍本发明的垃圾文本识别方法的实现过程。图4是根据本发明另一个实施例的垃圾文本识别方法的流程示意图。参照图4所示,该方法至少可以包括步骤S402至步骤S416。
步骤S402,训练一个贝叶斯过滤器,并生成概率资料库。
该步骤中,对贝叶斯过滤器进行训练可以参照前文图3所示的方法,此处不再赘述。
步骤S404,获取待识别文本,确定待识别文本分别为垃圾文本和正常文本的先验概率。
步骤S406,从待识别文本中提取一个或多个字符串,对于一个或多个字符串中的各个字符串,从概率资料库中获取该字符串分别在垃圾文本集和正常文本集中出现的概率。
步骤S408,根据确定的待识别文本分别为垃圾文本和正常文本的先验概率、以及获取的该字符串分别在垃圾文本集和正常文本集中出现的概率,计算在该字符串存在的条件下,待识别文本为垃圾文本的后验概率。
步骤S410,根据各个字符串对于待识别文本为垃圾文本的后验概率,计算待识别文本为垃圾文本的联合概率。
步骤S412,确定待识别文本为垃圾文本的联合概率是否大于或等于预设阈值,若是,则继续执行步骤S414;若否,则继续执行步骤S416。
步骤S414,识别待识别文本为垃圾文本。
步骤S416,识别待识别文本为正常文本。
在本发明一实施例中,在上述步骤S404中,先验概率是指在未经统计分析之前,假定待识别文本为垃圾文本或正常文本的概率。例如,可以分别设定待识别文本为垃圾文本或正常文本的先验概率为一具体数值,如设定待识别文本为垃圾文本的先验概率为50%,设定待识别文本为正常文本的先验概率为50%,本发明对此不作限制。
在本发明一具体实施例中,比如,“sex”这个词在正常文本集中出现的概率为0.05%,而在垃圾文本集中出现的概率为5%。用P(W|H)和P(W|S)分别代表“sex”这个词在正常文本集和垃圾文本集中出现的概率,即P(W|H)=0.05%,P(W|S)=5%。当获取到一条待识别文本时,先确定该待识别文本分别为垃圾文本和正常文本的先验概率均为50%。用P(S)和P(H)分别表示该待识别文本分别为垃圾文本和正常文本的先验概率,即,P(S)=50%,P(H)=50%。后验概率用P(S|W)表示,那么
代入具体数值,可得P(S|W)=99.0%。因此,这条待识别文本是垃圾文本的概率等于99%。这说明,sex这个词的推断能力很强,将50%的先验概率一下子提高到了99%的后验概率。
在本发明一实施例中,根据各个字符串对于待识别文本为垃圾文本的后验概率,计算待识别文本为垃圾文本的联合概率,本发明实施例提供了一种可选的方案,在该方案中,可以获取各个字符串在垃圾文本集中的权重,并根据各个字符串在垃圾文本集中的权重和该字符串对于待识别文本为垃圾文本的后验概率,计算待识别文本为垃圾文本的联合概率。
在上述实施例的基础上,在得到上述的后验概率还不能作为sex这个词的最终作为判断的概率,还需要看这个词语的影响程度及该词语的权重,比如sex这个词,在正常文本中出现了500次,在垃圾文本中出现了1000次,用一种简单的方法求其权重即1000/1500>0.5,即该词语的影响程度为1。最终得P(S|W)=P(S|W)*P(weight)=99%*1=99%。
在本发明一实施例中,在上述步骤S406中,若从概率资料库中未获取到该字符串分别在垃圾文本集和正常文本集中出现的概率,则设定该字符串分别在垃圾文本集和正常文本集中出现的概率分别为第一指定值和第二指定值。
在本发明一具体实施例中,在上述步骤S410中,根据各个字符串对于待识别文本为垃圾文本的后验概率,计算待识别文本为垃圾文本的联合概率。以两个词的联合概率计算方法为例,例如W1和W2是两个不同的词语,它们都出现在同一条待识别文本之中,那么这条待识别文本是垃圾文本的概率,就是这两个词语联合概率。在已知W1和W2存在的情况下,这条待识别文本无非就是两种结果(在这里假定所有事件都是独立事件):垃圾文本(事件E1)或正常文本(事件E2)。其中,W1、W2和这条待识别文本为垃圾文本的先验概率分别如表1:
表1
事件 W<sub>1</sub> W<sub>2</sub> 先验概率
E<sub>1</sub> P(S|W<sub>1</sub>) P(S|W<sub>2</sub>) P(S)
E<sub>2</sub> 1-P(S|W<sub>1</sub>) 1-P(S|W<sub>2</sub>) 1-P(S)
由表1可以算出:
P(E1)=P(S|W1)P(S|W2)P(S)
P(E2)=(1-P(S|W1))(1-P(S|W2))(1-P(S))
所以在W1和W2存在的情况下,待识别文本为垃圾文本的联合概率为
设定待识别文本为垃圾文本的先验概率为0.5,将0.5代入此公式中,得出
将P(S|W1)记为P1,P(S|W2)记为P2,得出联合功率的计算公式为
当选取待识别文本中的M个字符串的后验概率来确定该待识别文本的联合概率时,公式为
通过上述公式可以基于M个字符串,计算待识别文本为垃圾文本的联合概率。
当确定出一条待识别文本的联合概率后,比较该联合概率与预设阈值的大小,当联合概率大于或等于预设阈值,则确定待识别文本为垃圾文本;当联合概率小于预设阈值,则确定待识别文本为正常文本。
需要说明的是,上述例子中待识别文本为垃圾文本的先验概率的取值0.5仅是示意性的,本发明实施例还可以根据具体需求进行取值。
在本发明一实施例中,当识别待识别文本为垃圾文本之后,还可以对待识别文本进行拦截。客户端拦截掉识别出的垃圾文本。
在本发明一实施例中,当待识别文本为短信时,在识别待识别文本为正常文本之后,还可以通过获取短信的发送方的电话号码,来确定短信的发送方的电话号码的归属地和/或地区编码,进而比较短信的发送方的电话号码的归属地和/或地区编码与短信接收方的电话号码的归属地和/或地区编码,得到比较结果,并根据比较结果,确定是否对短信执行拦截操作。
在本发明一实施例中,当待识别文本为短信时,并且通过识别得到待识别文本为正常文本,那么对短信的发送方的电话号码的归属地和/或地区编码与短信接收方的电话号码的归属地和/或地区编码进行比较,并得到比较结果,进而对该比较结果进行分析,若比较结果为短信的发送方的电话号码的归属地与短信接收方的电话号码的归属地不一致,则对短信执行拦截操作,若一致,则不拦该截短信;若比较结果为短信的发送方的电话号码的地区编码与短信接收方的电话号码的地区编码不一致,则对短信执行拦截操作,若一致,则不拦截该短信。另外,如果接收短信的移动终端的通信录中不存在与该电话号码的归属地和/或地区编码相同的联系电话,则对该短信执行拦截操作,相反,如果接收短信的移动终端的通信录中存在与该电话号码的归属地和/或地区编码相同的联系电话,则不拦截该短信。例如,当收到陌生号码发来的短信时,通过识别得到该短信为正常文本,但解析出该陌生号码的归属地为“西安”。并且该陌生号码的归属地“西安”与短信接收机主所在地“北京”不相同,为此可以将该短信当作拦截对象进行拦截。由于短信接收机主的通讯录中可能存有很多异地联系人,收到异地的非垃圾短信也是容易出现的,所以还可以在解析出目标短信的归属地位为“西安”时,执行另一种拦截策略,即,判断在该机主的通讯录中所有的联系电话中是否存在归属地位为“西安”的联系电话,若不存在,将这条目标短信拦截;若存在,则放弃执行拦截操作。
基于同一发明构思,本发明实施例还提供了一种垃圾文本识别装置,图5a是根据本发明一个实施例的垃圾文本识别装置的结构示意图。如图5a所示,垃圾文本识别装置500a至少可以包括:提取模块510、计算模块520、确定模块530以及识别模块540。
现介绍本发明实施例的垃圾文本识别装置500a的各组成或器件的功能以及各部分间的连接关系:
提取模块510,适于获取待识别文本,从待识别文本中提取一个或多个字符串;
计算模块520,与提取模块510耦合,适于基于一个或多个字符串,计算待识别文本为垃圾文本的联合概率;
确定模块530,与计算模块520耦合,适于确定待识别文本为垃圾文本的联合概率是否大于或等于预设阈值;
识别模块540,与确定模块530耦合,适于若确定模块530确定待识别文本为垃圾文本的联合概率大于或等于预设阈值,则识别待识别文本为垃圾文本。
在本发明一实施例中,识别模块540还适于:若确定模块530确定待识别文本为垃圾文本的联合概率小于预设阈值,则识别待识别文本为正常文本。
在本发明一实施例中,计算模块520还适于:
对于一个或多个字符串中的各个字符串,计算在该字符串存在的条件下,待识别文本为垃圾文本的后验概率,并根据各个字符串对于所述待识别文本为垃圾文本的后验概率,计算待识别文本为垃圾文本的联合概率。
在本发明一实施例中,计算模块520还适于:
对各个字符串对于待识别文本为垃圾文本的后验概率进行从大到小排序,选取排序在前的N个字符串;
根据N个字符串中各个字符串对于待识别文本为垃圾文本的后验概率,计算待识别文本为垃圾文本的联合概率。
在本发明一实施例中,如图6所示,垃圾文本识别装置500a还可以包括训练模块600,其中,训练模块600至少可以包括:获取单元610、提取单元620以及生成单元630。
现介绍本发明实施例的垃圾文本识别装置的训练模块600各组成或器件的功能以及各部分间的连接关系:
获取单元610,适于获取两组已经被识别的文本集,其中,一组为正常文本集,另一组为垃圾文本集;
提取单元620,与获取单元610耦合,适于分别提取两组文本集中的至少一个字符串;
生成单元630,与提取单元620耦合,适于计算至少一个字符串分别在正常文本集和垃圾文本集中出现的概率,并生成概率资料库。
在本发明一实施例中,生成单元630还适于:
若至少一个字符串仅出现在垃圾文本集中,则该字符串出现在正常文本集中的概率规定为第一数值;
若至少一个字符串仅出现在正常文本集中,则该字符串出现在垃圾文本集中的概率规定为第二数值。
在本发明一实施例中,计算模块520还适于:
获取各个字符串在垃圾文本集中的权重;
根据各个字符串在垃圾文本集中的权重和该字符串对于待识别文本为垃圾文本的后验概率,计算待识别文本为垃圾文本的联合概率。
在本发明一实施例中,计算模块520还适于:
确定待识别文本分别为垃圾文本和正常文本的先验概率;
对于一个或多个字符串中的各个字符串,从概率资料库中获取该字符串分别在垃圾文本集和正常文本集中出现的概率;
根据确定的待识别文本分别为垃圾文本和正常文本的先验概率、以及获取的该字符串分别在垃圾文本集和正常文本集中出现的概率,计算在该字符串存在的条件下,待识别文本为垃圾文本的后验概率。
在本发明一实施例中,计算模块520还适于:
若从概率资料库中未获取到该字符串分别在垃圾文本集和正常文本集中出现的概率,则设定该字符串分别在垃圾文本集和正常文本集中出现的概率分别为第一指定值和第二指定值。
在本发明一实施例中,待识别文本为垃圾文本的先验概率和待识别文本为正常文本的先验概率,均为一具体设定数值。
在本发明一实施例中,图5b还提供了另一种垃圾文本识别装置500b,参见图5b,该装置中除了包含有垃圾文本识别装置500a中的模块内容,还包括:
拦截模块550,与识别模块540耦合,适于在识别模块540识别待识别文本为垃圾文本之后,对待识别文本进行拦截。
在本发明一实施例中,垃圾文本识别装置500b还包括处理模块560,与拦截模块550耦合,适于:
获取短信的发送方的电话号码,确定短信的发送方的电话号码的归属地和/或地区编码;
比较短信的发送方的电话号码的归属地和/或地区编码与短信接收方的电话号码的归属地和/或地区编码,得到比较结果;
根据比较结果,确定是否对短信执行拦截操作。
在本发明一实施例中,处理模块560还适于:
若比较结果为短信的发送方的电话号码的归属地与短信接收方的电话号码的归属地不一致,则通过拦截模块550对短信执行拦截操作;或者
若比较结果为短信的发送方的电话号码的地区编码与短信接收方的电话号码的地区编码不一致,则通过拦截模块550对短信执行拦截操作。
基于同一发明构思,本发明实施例还提供了一种垃圾文本识别系统700。图7是根据本发明一个实施例的垃圾文本识别系统700的结构示意图,参照图7所示,该系统至少可以包括终端设备710和云端服务器720。
终端设备710,适于根据图5a或图6所示的装置识别待识别文本是否为垃圾文本,并将识别结果上传给云端服务器720;
云端服务器720,适于利用上述识别结果,生成字符串的概率资料库。
在本发明一实施例中,云端服务器720还适于:
从识别结果的文本中提取至少一个字符串,其中,识别结果的文本包括垃圾文本和正常文本;
计算至少一个字符串分别在正常文本和垃圾文本中出现的概率,并生成概率资料库。
在本发明一实施例中,云端服务器720还适于:
将生成的字符串的概率资料库下发给终端设备,以更新终端设备中的概率资料库。
在本发明实施例中,终端设备710在接收到一条短信后,通过垃圾文本识别装置500b对该条短信进行文本识别,识别出该条短信是否为垃圾短信,若是,则通过拦截模块550对该短信进行拦截,若不是,则拦截模块550不执行拦截操作。终端设备710将已经被识别的短信通过发送模块711上传到云端服务器720中,云端服务器720从识别结果的短信中提取至少一个字符串,计算至少一个字符串分别在正常文本和垃圾文本中出现的概率,对训练模块600中的生成单元630中的概率信息进行数据的更新。最后将跟新后的字符串的概率资料库通过下发模块722下发给终端设备710,以更新终端设备710中的概率资料库,终端设备710中的接收模块712用于接收云端服务器720下发的更新后的概率资料库。
根据上述任意一个优选实施例或多个优选实施例的组合,本发明实施例能够达到如下有益效果:
在本发明实施例中,首先,客户端获取待识别文本,并从待识别文本中提取一个或多个字符串。然后,基于一个或多个字符串,计算待识别文本为垃圾文本的联合概率。最后,确定待识别文本为垃圾文本的联合概率是否大于或等于预设阈值,若是,则识别出待识别文本为垃圾文本。现有技术中直接利用贝叶斯算法进行文本形式的垃圾短信的识别,使得垃圾短信的召回率很高,然而存在一些正常的短信被误拦的情况。本发明实施例在原有贝叶斯算法的基础上引入联合概率,基于待识别文本中的一个或多个字符串,计算待识别文本为垃圾文本的联合概率,通过比较联合概率与预设阈值来识别待识别文本是否为垃圾文本,提高了识别垃圾短信的准确度,减少了文本形式的垃圾短信被误拦的情况。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的垃圾文本识别装置及系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。
本发明实施例还公开了A1、一种垃圾文本识别方法,包括:
获取待识别文本,从所述待识别文本中提取一个或多个字符串;
基于所述一个或多个字符串,计算所述待识别文本为垃圾文本的联合概率;
确定所述待识别文本为垃圾文本的联合概率是否大于或等于预设阈值;
若是,则识别所述待识别文本为垃圾文本。
A2、根据A1所述的方法,其中,还包括:
若确定所述待识别文本为垃圾文本的联合概率小于预设阈值,则识别所述待识别文本为正常文本。
A3、根据A1或A2所述的方法,其中,基于所述一个或多个字符串,计算所述待识别文本为垃圾文本的联合概率,包括:
对于所述一个或多个字符串中的各个字符串,计算在该字符串存在的条件下,所述待识别文本为垃圾文本的后验概率;
根据所述各个字符串对于所述待识别文本为垃圾文本的后验概率,计算所述待识别文本为垃圾文本的联合概率。
A4、根据A3所述的方法,其中,根据所述各个字符串对于所述待识别文本为垃圾文本的后验概率,计算所述待识别文本为垃圾文本的联合概率,包括:
对所述各个字符串对于所述待识别文本为垃圾文本的后验概率进行从大到小排序,选取排序在前的N个字符串;
根据所述N个字符串中各个字符串对于所述待识别文本为垃圾文本的后验概率,计算所述待识别文本为垃圾文本的联合概率。
A5、根据A1-A4任一项所述的方法,其中,还包括:
获取两组已经被识别的文本集,其中,一组为正常文本集,另一组为垃圾文本集;
分别提取两组文本集中的至少一个字符串;
计算所述至少一个字符串分别在所述正常文本集和所述垃圾文本集中出现的概率,并生成概率资料库。
A6、根据A5所述的方法,其中,计算所述至少一个字符串分别在所述正常文本集和所述垃圾文本集中出现的概率,包括:
若所述至少一个字符串仅出现在所述垃圾文本集中,则该字符串出现在所述正常文本集中的概率规定为第一数值;
若所述至少一个字符串仅出现在所述正常文本集中,则该字符串出现在所述垃圾文本集中的概率规定为第二数值。
A7、根据A1-A6任一项所述的方法,其中,根据所述各个字符串对于所述待识别文本为垃圾文本的后验概率,计算所述待识别文本为垃圾文本的联合概率,包括:
获取所述各个字符串在所述垃圾文本集中的权重;
根据所述各个字符串在所述垃圾文本集中的权重和该字符串对于所述待识别文本为垃圾文本的后验概率,计算所述待识别文本为垃圾文本的联合概率。
A8、根据A3所述的方法,其中,对于所述一个或多个字符串中的各个字符串,计算在该字符串存在的条件下,所述待识别文本为垃圾文本的后验概率,包括:
确定所述待识别文本分别为垃圾文本和正常文本的先验概率;
对于所述一个或多个字符串中的各个字符串,从所述概率资料库中获取该字符串分别在所述垃圾文本集和所述正常文本集中出现的概率;
根据确定的所述待识别文本分别为垃圾文本和正常文本的先验概率、以及获取的该字符串分别在所述垃圾文本集和所述正常文本集中出现的概率,计算在该字符串存在的条件下,所述待识别文本为垃圾文本的后验概率。
A9、根据A8所述的方法,其中,还包括:
若从所述概率资料库中未获取到该字符串分别在所述垃圾文本集和所述正常文本集中出现的概率,则设定该字符串分别在所述垃圾文本集和所述正常文本集中出现的概率分别为第一指定值和第二指定值。
A10、根据A8或A9所述的方法,其中,所述待识别文本为垃圾文本的先验概率和所述待识别文本为正常文本的先验概率,均为一具体设定数值。
A11、根据A1所述的方法,其中,在识别所述待识别文本为垃圾文本之后,所述方法还包括:
对所述待识别文本进行拦截。
A12、根据A2所述的方法,其中,当所述待识别文本为短信时,在识别所述待识别文本为正常文本之后,所述方法还包括:
获取所述短信的发送方的电话号码,确定所述短信的发送方的电话号码的归属地和/或地区编码;
比较所述短信的发送方的电话号码的归属地和/或地区编码与所述短信接收方的电话号码的归属地和/或地区编码,得到比较结果;
根据所述比较结果,确定是否对所述短信执行拦截操作。
A13、根据A12所述的方法,其中,根据所述比较结果,确定是否对所述短信执行拦截操作,包括:
若所述比较结果为所述短信的发送方的电话号码的归属地与所述短信接收方的电话号码的归属地不一致,则对所述短信执行拦截操作;或者
若所述比较结果为所述短信的发送方的电话号码的地区编码与所述短信接收方的电话号码的地区编码不一致,则对所述短信执行拦截操作。
B14、一种垃圾文本识别装置,包括:
提取模块,适于获取待识别文本,从所述待识别文本中提取一个或多个字符串;
计算模块,适于基于所述一个或多个字符串,计算所述待识别文本为垃圾文本的联合概率;
确定模块,适于确定所述待识别文本为垃圾文本的联合概率是否大于或等于预设阈值;
识别模块,适于若所述确定模块确定所述待识别文本为垃圾文本的联合概率大于或等于预设阈值,则识别所述待识别文本为垃圾文本。
B15、根据B14所述的装置,其中,所述识别模块还适于:
若所述确定模块确定所述待识别文本为垃圾文本的联合概率小于预设阈值,则识别所述待识别文本为正常文本。
B16、根据B14或15所述的装置,其中,所述计算模块还适于:
对于所述一个或多个字符串中的各个字符串,计算在该字符串存在的条件下,所述待识别文本为垃圾文本的后验概率;
根据所述各个字符串对于所述待识别文本为垃圾文本的后验概率,计算所述待识别文本为垃圾文本的联合概率。
B17、根据B16所述的装置,其中,所述计算模块还适于:
对所述各个字符串对于所述待识别文本为垃圾文本的后验概率进行从大到小排序,选取排序在前的N个字符串;
根据所述N个字符串中各个字符串对于所述待识别文本为垃圾文本的后验概率,计算所述待识别文本为垃圾文本的联合概率。
B18、根据B14-B17任一项所述的装置,其中,还包括训练模块,所述训练模块包括:
获取单元,适于获取两组已经被识别的文本集,其中,一组为正常文本集,另一组为垃圾文本集;
提取单元,适于分别提取两组文本集中的至少一个字符串;
生成单元,适于计算所述至少一个字符串分别在所述正常文本集和所述垃圾文本集中出现的概率,并生成概率资料库。
B19、根据B18所述的装置,其中,所述生成单元还适于:
若所述至少一个字符串仅出现在所述垃圾文本集中,则该字符串出现在所述正常文本集中的概率规定为第一数值;
若所述至少一个字符串仅出现在所述正常文本集中,则该字符串出现在所述垃圾文本集中的概率规定为第二数值。
B20、根据B14-19任一项所述的装置,其中,所述计算模块还适于:
获取所述各个字符串在所述垃圾文本集中的权重;
根据所述各个字符串在所述垃圾文本集中的权重和该字符串对于所述待识别文本为垃圾文本的后验概率,计算所述待识别文本为垃圾文本的联合概率。
B21、根据B20所述的装置,其中,所述计算模块还适于:
确定所述待识别文本分别为垃圾文本和正常文本的先验概率;
对于所述一个或多个字符串中的各个字符串,从所述概率资料库中获取该字符串分别在所述垃圾文本集和所述正常文本集中出现的概率;
根据确定的所述待识别文本分别为垃圾文本和正常文本的先验概率、以及获取的该字符串分别在所述垃圾文本集和所述正常文本集中出现的概率,计算在该字符串存在的条件下,所述待识别文本为垃圾文本的后验概率。
B22、根据B21所述的装置,其中,所述计算模块还适于:
若从所述概率资料库中未获取到该字符串分别在所述垃圾文本集和所述正常文本集中出现的概率,则设定该字符串分别在所述垃圾文本集和所述正常文本集中出现的概率分别为第一指定值和第二指定值。
B23、根据B21或B22所述的装置,其中,所述待识别文本为垃圾文本的先验概率和所述待识别文本为正常文本的先验概率,均为一具体设定数值。
B24、根据B14所述的装置,其中,还包括:
拦截模块,适于在所述识别模块识别所述待识别文本为垃圾文本之后,对所述待识别文本进行拦截。
B25、根据B15所述的装置,其中,还包括处理模块,适于:
获取所述短信的发送方的电话号码,确定所述短信的发送方的电话号码的归属地和/或地区编码;
比较所述短信的发送方的电话号码的归属地和/或地区编码与所述短信接收方的电话号码的归属地和/或地区编码,得到比较结果;
根据所述比较结果,确定是否对所述短信执行拦截操作。
B26、根据B25所述的装置,其中,所述处理模块还适于:
若所述比较结果为所述短信的发送方的电话号码的归属地与所述短信接收方的电话号码的归属地不一致,则对所述短信执行拦截操作;或者
若所述比较结果为所述短信的发送方的电话号码的地区编码与所述短信接收方的电话号码的地区编码不一致,则对所述短信执行拦截操作。
C27、一种垃圾文本识别系统,包括终端设备和云端服务器;
所述终端设备,适于根据B14-B26任一项所述装置识别待识别文本是否为垃圾文本,并将识别结果上传给所述云端服务器;
所述云端服务器,适于利用所述识别结果,生成字符串的概率资料库。
C28、根据C27所述的系统,其中,所述云端服务器还适于:
从所述识别结果的文本中提取至少一个字符串,其中,所述识别结果的文本包括垃圾文本和正常文本;
计算所述至少一个字符串分别在所述正常文本和所述垃圾文本中出现的概率,并生成概率资料库。
C29、根据C27或C28所述的系统,其中,所述云端服务器还适于:
将生成的字符串的概率资料库下发给所述终端设备,以更新所述终端设备中的概率资料库。

Claims (25)

1.一种垃圾文本识别方法,包括:
获取待识别文本,从所述待识别文本中提取一个或多个字符串;
基于所述一个或多个字符串,计算所述待识别文本为垃圾文本的联合概率;
确定所述待识别文本为垃圾文本的联合概率是否大于或等于预设阈值;
若是,则识别所述待识别文本为垃圾文本;
其中,基于所述一个或多个字符串,计算所述待识别文本为垃圾文本的联合概率,包括:
确定所述待识别文本分别为垃圾文本和正常文本的先验概率;
对于所述一个或多个字符串中的各个字符串,从概率资料库中获取该字符串分别在垃圾文本集和正常文本集中出现的概率;
根据确定的所述待识别文本分别为垃圾文本和正常文本的先验概率、以及获取的该字符串分别在垃圾文本集和正常文本集中出现的概率,计算在该字符串存在的条件下,所述待识别文本为垃圾文本的后验概率;
根据所述各个字符串对于所述待识别文本为垃圾文本的后验概率,计算所述待识别文本为垃圾文本的联合概率。
2.根据权利要求1所述的方法,其中,还包括:
若确定所述待识别文本为垃圾文本的联合概率小于预设阈值,则识别所述待识别文本为正常文本。
3.根据权利要求1所述的方法,其中,根据所述各个字符串对于所述待识别文本为垃圾文本的后验概率,计算所述待识别文本为垃圾文本的联合概率,包括:
对所述各个字符串对于所述待识别文本为垃圾文本的后验概率进行从大到小排序,选取排序在前的N个字符串;
根据所述N个字符串中各个字符串对于所述待识别文本为垃圾文本的后验概率,计算所述待识别文本为垃圾文本的联合概率。
4.根据权利要求1-3任一项所述的方法,其中,还包括:
获取两组已经被识别的文本集,其中,一组为正常文本集,另一组为垃圾文本集;
分别提取两组文本集中的至少一个字符串;
计算所述至少一个字符串分别在所述正常文本集和所述垃圾文本集中出现的概率,并生成概率资料库。
5.根据权利要求4所述的方法,其中,计算所述至少一个字符串分别在所述正常文本集和所述垃圾文本集中出现的概率,包括:
若所述至少一个字符串仅出现在所述垃圾文本集中,则该字符串出现在所述正常文本集中的概率规定为第一数值;
若所述至少一个字符串仅出现在所述正常文本集中,则该字符串出现在所述垃圾文本集中的概率规定为第二数值。
6.根据权利要求4所述的方法,其中,根据所述各个字符串对于所述待识别文本为垃圾文本的后验概率,计算所述待识别文本为垃圾文本的联合概率,包括:
获取所述各个字符串在所述垃圾文本集中的权重;
根据所述各个字符串在所述垃圾文本集中的权重和该字符串对于所述待识别文本为垃圾文本的后验概率,计算所述待识别文本为垃圾文本的联合概率。
7.根据权利要求1所述的方法,其中,还包括:
若从所述概率资料库中未获取到该字符串分别在所述垃圾文本集和所述正常文本集中出现的概率,则设定该字符串分别在所述垃圾文本集和所述正常文本集中出现的概率分别为第一指定值和第二指定值。
8.根据权利要求1所述的方法,其中,所述待识别文本为垃圾文本的先验概率和所述待识别文本为正常文本的先验概率,均为一具体设定数值。
9.根据权利要求1所述的方法,其中,在识别所述待识别文本为垃圾文本之后,所述方法还包括:
对所述待识别文本进行拦截。
10.根据权利要求2所述的方法,其中,当所述待识别文本为短信时,在识别所述待识别文本为正常文本之后,所述方法还包括:
获取所述短信的发送方的电话号码,确定所述短信的发送方的电话号码的归属地和/或地区编码;
比较所述短信的发送方的电话号码的归属地和/或地区编码与所述短信接收方的电话号码的归属地和/或地区编码,得到比较结果;
根据所述比较结果,确定是否对所述短信执行拦截操作。
11.根据权利要求10所述的方法,其中,根据所述比较结果,确定是否对所述短信执行拦截操作,包括:
若所述比较结果为所述短信的发送方的电话号码的归属地与所述短信接收方的电话号码的归属地不一致,则对所述短信执行拦截操作;或者
若所述比较结果为所述短信的发送方的电话号码的地区编码与所述短信接收方的电话号码的地区编码不一致,则对所述短信执行拦截操作。
12.一种垃圾文本识别装置,包括:
提取模块,适于获取待识别文本,从所述待识别文本中提取一个或多个字符串;
计算模块,适于基于所述一个或多个字符串,计算所述待识别文本为垃圾文本的联合概率;
确定模块,适于确定所述待识别文本为垃圾文本的联合概率是否大于或等于预设阈值;
识别模块,适于若所述确定模块确定所述待识别文本为垃圾文本的联合概率大于或等于预设阈值,则识别所述待识别文本为垃圾文本;
其中,所述计算模块还适于:
确定所述待识别文本分别为垃圾文本和正常文本的先验概率;
对于所述一个或多个字符串中的各个字符串,从概率资料库中获取该字符串分别在垃圾文本集和正常文本集中出现的概率;
根据确定的所述待识别文本分别为垃圾文本和正常文本的先验概率、以及获取的该字符串分别在垃圾文本集和正常文本集中出现的概率,计算在该字符串存在的条件下,所述待识别文本为垃圾文本的后验概率;
根据所述各个字符串对于所述待识别文本为垃圾文本的后验概率,计算所述待识别文本为垃圾文本的联合概率。
13.根据权利要求12所述的装置,其中,所述识别模块还适于:
若所述确定模块确定所述待识别文本为垃圾文本的联合概率小于预设阈值,则识别所述待识别文本为正常文本。
14.根据权利要求12所述的装置,其中,所述计算模块还适于:
对所述各个字符串对于所述待识别文本为垃圾文本的后验概率进行从大到小排序,选取排序在前的N个字符串;
根据所述N个字符串中各个字符串对于所述待识别文本为垃圾文本的后验概率,计算所述待识别文本为垃圾文本的联合概率。
15.根据权利要求12-14任一项所述的装置,其中,还包括训练模块,所述训练模块包括:
获取单元,适于获取两组已经被识别的文本集,其中,一组为正常文本集,另一组为垃圾文本集;
提取单元,适于分别提取两组文本集中的至少一个字符串;
生成单元,适于计算所述至少一个字符串分别在所述正常文本集和所述垃圾文本集中出现的概率,并生成概率资料库。
16.根据权利要求15所述的装置,其中,所述生成单元还适于:
若所述至少一个字符串仅出现在所述垃圾文本集中,则该字符串出现在所述正常文本集中的概率规定为第一数值;
若所述至少一个字符串仅出现在所述正常文本集中,则该字符串出现在所述垃圾文本集中的概率规定为第二数值。
17.根据权利要求15所述的装置,其中,所述计算模块还适于:
获取所述各个字符串在所述垃圾文本集中的权重;
根据所述各个字符串在所述垃圾文本集中的权重和该字符串对于所述待识别文本为垃圾文本的后验概率,计算所述待识别文本为垃圾文本的联合概率。
18.根据权利要求12所述的装置,其中,所述计算模块还适于:
若从所述概率资料库中未获取到该字符串分别在所述垃圾文本集和所述正常文本集中出现的概率,则设定该字符串分别在所述垃圾文本集和所述正常文本集中出现的概率分别为第一指定值和第二指定值。
19.根据权利要求12所述的装置,其中,所述待识别文本为垃圾文本的先验概率和所述待识别文本为正常文本的先验概率,均为一具体设定数值。
20.根据权利要求12所述的装置,其中,还包括:
拦截模块,适于在所述识别模块识别所述待识别文本为垃圾文本之后,对所述待识别文本进行拦截。
21.根据权利要求13所述的装置,其中,还包括处理模块,适于:
当所述待识别文本为短信时,在所述识别模块识别所述待识别文本为正常文本之后,获取所述短信的发送方的电话号码,确定所述短信的发送方的电话号码的归属地和/或地区编码;
比较所述短信的发送方的电话号码的归属地和/或地区编码与所述短信接收方的电话号码的归属地和/或地区编码,得到比较结果;
根据所述比较结果,确定是否对所述短信执行拦截操作。
22.根据权利要求21所述的装置,其中,所述处理模块还适于:
若所述比较结果为所述短信的发送方的电话号码的归属地与所述短信接收方的电话号码的归属地不一致,则对所述短信执行拦截操作;或者
若所述比较结果为所述短信的发送方的电话号码的地区编码与所述短信接收方的电话号码的地区编码不一致,则对所述短信执行拦截操作。
23.一种垃圾文本识别系统,包括终端设备和云端服务器;
所述终端设备,适于根据权利要求12-22任一项所述装置识别待识别文本是否为垃圾文本,并将识别结果上传给所述云端服务器;
所述云端服务器,适于利用所述识别结果,生成字符串的概率资料库。
24.根据权利要求23所述的系统,其中,所述云端服务器还适于:
从所述识别结果的文本中提取至少一个字符串,其中,所述识别结果的文本包括垃圾文本和正常文本;
计算所述至少一个字符串分别在所述正常文本和所述垃圾文本中出现的概率,并生成概率资料库。
25.根据权利要求23或24所述的系统,其中,所述云端服务器还适于:
将生成的字符串的概率资料库下发给所述终端设备,以更新所述终端设备中的概率资料库。
CN201510959231.XA 2015-12-18 2015-12-18 垃圾文本识别方法、装置及系统 Expired - Fee Related CN105589845B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510959231.XA CN105589845B (zh) 2015-12-18 2015-12-18 垃圾文本识别方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510959231.XA CN105589845B (zh) 2015-12-18 2015-12-18 垃圾文本识别方法、装置及系统

Publications (2)

Publication Number Publication Date
CN105589845A CN105589845A (zh) 2016-05-18
CN105589845B true CN105589845B (zh) 2019-02-26

Family

ID=55929435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510959231.XA Expired - Fee Related CN105589845B (zh) 2015-12-18 2015-12-18 垃圾文本识别方法、装置及系统

Country Status (1)

Country Link
CN (1) CN105589845B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679401A (zh) * 2017-09-04 2018-02-09 北京知道未来信息技术有限公司 一种恶意网页识别方法和装置
CN107644162A (zh) * 2017-09-04 2018-01-30 北京知道未来信息技术有限公司 一种Web攻击识别方法和装置
CN108108348A (zh) * 2017-11-17 2018-06-01 腾讯科技(成都)有限公司 信息的处理方法、服务器、存储介质和电子装置
CN109033224B (zh) * 2018-06-29 2022-02-01 创新先进技术有限公司 一种风险文本识别方法和装置
CN109344396A (zh) * 2018-08-31 2019-02-15 阿里巴巴集团控股有限公司 文本识别方法、装置、及计算机设备
CN111090787A (zh) * 2018-10-23 2020-05-01 阿里巴巴集团控股有限公司 一种消息处理方法、设备、系统及存储介质
CN111681670B (zh) * 2019-02-25 2023-05-12 北京嘀嘀无限科技发展有限公司 信息识别方法、装置、电子设备及存储介质
CN111144100B (zh) * 2019-12-24 2023-08-18 五八有限公司 一种问题文本识别方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101945358A (zh) * 2010-09-07 2011-01-12 成都市华为赛门铁克科技有限公司 垃圾短信的过滤方法、系统、终端和服务器
CN103634473A (zh) * 2013-12-05 2014-03-12 南京理工大学连云港研究院 基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统
CN104168548A (zh) * 2014-08-21 2014-11-26 北京奇虎科技有限公司 短信拦截方法及装置、云端服务器
CN104640092A (zh) * 2015-01-27 2015-05-20 北京奇虎科技有限公司 识别垃圾短信的方法、客户端、云端服务器和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9391997B2 (en) * 2007-08-23 2016-07-12 Intel Deutschland Gmbh Message processing apparatus, wireless device and method of storing a message in a wireless device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101945358A (zh) * 2010-09-07 2011-01-12 成都市华为赛门铁克科技有限公司 垃圾短信的过滤方法、系统、终端和服务器
CN103634473A (zh) * 2013-12-05 2014-03-12 南京理工大学连云港研究院 基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统
CN104168548A (zh) * 2014-08-21 2014-11-26 北京奇虎科技有限公司 短信拦截方法及装置、云端服务器
CN104640092A (zh) * 2015-01-27 2015-05-20 北京奇虎科技有限公司 识别垃圾短信的方法、客户端、云端服务器和系统

Also Published As

Publication number Publication date
CN105589845A (zh) 2016-05-18

Similar Documents

Publication Publication Date Title
CN105589845B (zh) 垃圾文本识别方法、装置及系统
CN110956547B (zh) 一种基于搜索引擎的实时识别欺诈团伙的方法及系统
CN103530751B (zh) 提供运单信息的方法及装置
CN104270521A (zh) 对来电号码进行处理的方法和移动终端
CN105095211B (zh) 多媒体数据的获取方法和装置
CN104850550B (zh) 一种提示消息的排序方法和装置
WO2017186090A1 (zh) 通信号码处理方法及装置
US20130297694A1 (en) Systems and methods for interactive presentation and analysis of social media content collection over social networks
CN108491720B (zh) 一种应用识别方法、系统以及相关设备
CN101784022A (zh) 短信过滤、分类方法及系统
CN106296195A (zh) 一种风险识别方法及装置
CN104462509A (zh) 垃圾评论检测方法及装置
CN102289467A (zh) 确定目标网点的方法和装置
CN104717674A (zh) 号码属性识别方法、装置、终端和服务器
CN106162584A (zh) 识别垃圾短信的方法、客户端、云端服务器和系统
CN102567534B (zh) 互动产品用户生成内容拦截系统及其拦截方法
CN103176982A (zh) 一种电子图书推荐的方法及系统
CN103368992A (zh) 一种信息推送方法及装置
CN105630767A (zh) 一种文本相似性的比较方法以及装置
CN105893615B (zh) 基于手机取证数据的机主特征属性挖掘方法及其系统
CN102438205B (zh) 一种基于移动用户行为的业务推送的方法与系统
CN105426759A (zh) Url的合法性识别方法及装置
CN103106573A (zh) 一种基于关系图的海量电子邮件分析方法及系统
CN104933191A (zh) 一种基于贝叶斯算法的垃圾评论识别方法、系统及终端
CN104243661A (zh) 确定来电号码的类型的方法、服务器和移动终端

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220728

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190226

CF01 Termination of patent right due to non-payment of annual fee