CN105138611A - 短信类别识别方法及装置 - Google Patents

短信类别识别方法及装置 Download PDF

Info

Publication number
CN105138611A
CN105138611A CN201510484715.3A CN201510484715A CN105138611A CN 105138611 A CN105138611 A CN 105138611A CN 201510484715 A CN201510484715 A CN 201510484715A CN 105138611 A CN105138611 A CN 105138611A
Authority
CN
China
Prior art keywords
note
identified
text
content
feature words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510484715.3A
Other languages
English (en)
Inventor
张金晶
李强
常富洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201510484715.3A priority Critical patent/CN105138611A/zh
Publication of CN105138611A publication Critical patent/CN105138611A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Abstract

本发明提供了一种短信类别识别方法及装置。该方法包括:当接收到一待识别短信时,调用在所述客户端预先构建的字典库,其中,所述字典库中的特征词的长度包含一个或多个字符;将所述待识别短信的文本内容与所述字典库中的特征词进行匹配,确定所述待识别短信的包含相应特征词的多个分词;根据所述多个分词对所述待识别短信进行打分,得到所述待识别短信的打分值;根据所述待识别短信的打分值识别出所述待识别短信的类别。本发明实施例能够通过待识别短信的打分值识别该短信的类别,从而解决了现有技术中通过人工查看并标记而存在的费时费力、效率较低的问题。

Description

短信类别识别方法及装置
技术领域
本发明涉及信息识别技术领域,特别是一种短信类别识别方法及装置。
背景技术
随着移动终端的应用发展,短信已经成为人与人之间交流的一种重要的手段,短信在加强彼此联系的同时,也出现了诸如中奖之类的骚扰短信,影响了用户的正常工作和生活,用户对此十分不满。
目前,主要由人工对短信标记类别,如中奖、诈骗、房地产、股票等类别,并利用人工标记好的类别对短信进行过滤,以实现骚扰短信的拦截。一般人工标记时,一天大概能标记5000条短信,对于大量过去的短信以及每天产生的新短信,通过人工标记的方式显然费时费力,效率较低,因而亟待提供一种有效的短信类别识别方案。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的短信类别识别方法及装置。
依据本发明的一方面,提供了一种短信类别识别方法,应用于客户端,包括:
当接收到一待识别短信时,调用在所述客户端预先构建的字典库,其中,所述字典库中的特征词的长度包含一个或多个字符;
将所述待识别短信的文本内容与所述字典库中的特征词进行匹配,确定所述待识别短信的包含相应特征词的多个分词;
根据所述多个分词对所述待识别短信进行打分,得到所述待识别短信的打分值;
根据所述待识别短信的打分值识别出所述待识别短信的类别。
可选地,将所述待识别短信的文本内容与所述字典库中的特征词进行匹配,包括:
定义初始长度的窗口;
利用所述初始长度的窗口从所述待识别短信的文本内容中提取初始长度的文本内容,并与所述字典库中的特征词进行匹配。
可选地,利用所述初始长度的窗口从所述待识别短信的文本内容中提取初始长度的文本内容,并与所述字典库中的特征词进行匹配,包括:
利用所述初始长度的窗口从所述待识别短信的文本内容的第一位置提取第一初始长度的文本内容;
将所述第一初始长度的文本内容与所述字典库中的特征词进行匹配;
若存在匹配的特征词,则将所述第一初始长度的文本内容作为所述待识别短信的包含相应特征词的分词。
可选地,将所述第一初始长度的文本内容与所述字典库中的特征词进行匹配之后,还包括:
若不存在匹配的特征词,则从所述第一位置移动所述初始长度的窗口,提取第二位置的第二初始长度的文本内容;
将所述第二初始长度的文本内容与所述字典库中的特征词进行匹配;
若存在匹配的特征词,则将所述第二初始长度的文本内容作为所述待识别短信的包含相应特征词的分词;
若不存在匹配的特征词,则从所述第二位置移动所述初始长度的窗口,提取第三位置的第三初始长度的文本内容,将所述第三初始长度的文本内容与所述字典库中的特征词进行匹配,以此类推,确定所述待识别短信的包含相应特征词的多个分词。
可选地,利用所述初始长度的窗口从所述待识别短信的文本内容中提取初始长度的文本内容,并与所述字典库中的特征词进行匹配之后,还包括:
将所述窗口的初始长度调整为当前长度;
利用所述当前长度的窗口从所述待识别短信的文本内容提取当前长度的文本内容,并与所述字典库中的特征词进行匹配。
可选地,根据所述多个分词对所述待识别短信进行打分,包括:
确定所述多个分词的权重;
根据确定的权重和所述多个分词对所述待识别短信进行打分。
可选地,确定所述多个分词的权重,包括:
获取在所述客户端预先建立的所述字典库的特征词与权重的对应关系;
根据所述对应关系,查找所述多个分词的权重。
可选地,通过以下步骤建立所述对应关系:
采用预置的短信分类规则,构造多分类的短信分类器,其中,所述短信分类器中的各个权重参数依据短信的各个特征词进行设置;
获取多种类别的短信,其中,每种类别的短信包含多条;
将所述多种类别的短信作为训练语料对所述短信分类器进行训练,计算所述短信分类器中的各个权重参数;
在所述各个特征词与所述各个权重参数之间建立所述对应关系。
可选地,采用预置的短信分类规则,构造多分类的短信分类器,包括:
采用线性分类库Liblinear构造多分类的短信分类器;或者,
采用支持向量机分类库Libsvm构造多分类的短信分类器。
可选地,采用线性分类库Liblinear构造多分类的短信分类器,包括:
调用所述Liblinear的动态分类库;
利用调用的动态分类库构造多分类的短信分类器。
可选地,根据所述待识别短信的打分值识别出所述待识别短信的类别,包括:
获取预先建立的打分区间与短信类别的映射关系,在所述映射关系中查找所述待识别短信的打分值所属的打分区间;
根据所述待识别短信的打分值所属的打分区间,确定所述待识别短信的类别。
可选地,所述方法还包括:
当所述待识别短信为指定类别时,生成提示消息通知用户。
可选地,所述方法还包括:
当接收到一待识别短信时,判断该待识别短信对应的电话号码是否为陌生电话号码;
若是,则执行调用在所述客户端预先构建的字典库的操作。
可选地,所述方法还包括:
当接收到一待识别短信时,判断该待识别短信对应的电话号码的归属地和/或地区编码号段是否与所述客户端所在终端的电话号码的归属地和/或地区编码号段相同;
若不同,则执行调用在所述客户端预先构建的字典库的操作。
可选地,所述方法还包括:
当接收到一待识别短信时,获取所述客户端所在终端的当前所在地信息;
判断该待识别短信对应的电话号码的归属地是否与所述客户端所在终端的当前所在地相同;
若不同,则执行调用在所述客户端预先构建的字典库的操作。
可选地,所述方法还包括:
当接收到一待识别短信时,获取所述客户端所在终端中保存的通讯录信息;
判断所述通讯录中是否存在与该待识别短信对应的电话号码具有相同归属地和/或地区编码号段的电话号码;
若不存在,则执行调用在所述客户端预先构建的字典库的操作。
依据本发明的另一方面,还提供了一种短信类别识别装置,应用于客户端,包括:
调用模块,适于当接收到一待识别短信时,调用在所述客户端预先构建的字典库,其中,所述字典库中的特征词的长度包含一个或多个字符;
匹配模块,适于将所述待识别短信的文本内容与所述字典库中的特征词进行匹配,确定所述待识别短信的包含相应特征词的多个分词;
打分模块,适于根据所述多个分词对所述待识别短信进行打分,得到所述待识别短信的打分值;
识别模块,适于根据所述待识别短信的打分值识别出所述待识别短信的类别。
可选地,所述匹配模块还适于:
定义初始长度的窗口;
利用所述初始长度的窗口从所述待识别短信的文本内容中提取初始长度的文本内容,并与所述字典库中的特征词进行匹配。
可选地,所述匹配模块还适于:
利用所述初始长度的窗口从所述待识别短信的文本内容的第一位置提取第一初始长度的文本内容;
将所述第一初始长度的文本内容与所述字典库中的特征词进行匹配;
若存在匹配的特征词,则将所述第一初始长度的文本内容作为所述待识别短信的包含相应特征词的分词。
可选地,所述匹配模块还适于:
若不存在匹配的特征词,则从所述第一位置移动所述初始长度的窗口,提取第二位置的第二初始长度的文本内容;
将所述第二初始长度的文本内容与所述字典库中的特征词进行匹配;
若存在匹配的特征词,则将所述第二初始长度的文本内容作为所述待识别短信的包含相应特征词的分词;
若不存在匹配的特征词,则从所述第二位置移动所述初始长度的窗口,提取第三位置的第三初始长度的文本内容,将所述第三初始长度的文本内容与所述字典库中的特征词进行匹配,以此类推,确定所述待识别短信的包含相应特征词的多个分词。
可选地,所述匹配模块还适于:
将所述窗口的初始长度调整为当前长度;
利用所述当前长度的窗口从所述待识别短信的文本内容提取当前长度的文本内容,并与所述字典库中的特征词进行匹配。
可选地,所述打分模块还适于:
确定所述多个分词的权重;
根据确定的权重和所述多个分词对所述待识别短信进行打分。
可选地,所述打分模块还适于:
获取在所述客户端预先建立的所述字典库的特征词与权重的对应关系;
根据所述对应关系,查找所述多个分词的权重。
可选地,所述装置还包括:
建立模块,适于采用预置的短信分类规则,构造多分类的短信分类器,其中,所述短信分类器中的各个权重参数依据短信的各个特征词进行设置;
获取多种类别的短信,其中,每种类别的短信包含多条;
将所述多种类别的短信作为训练语料对所述短信分类器进行训练,计算所述短信分类器中的各个权重参数;
在所述各个特征词与所述各个权重参数之间建立所述对应关系。
可选地,所述建立模块还适于:
采用线性分类库Liblinear构造多分类的短信分类器;或者,
采用支持向量机分类库Libsvm构造多分类的短信分类器。
可选地,所述建立模块还适于:
调用所述Liblinear的动态分类库;
利用调用的动态分类库构造多分类的短信分类器。
可选地,所述识别模块还适于:
获取预先建立的打分区间与短信类别的映射关系,在所述映射关系中查找所述待识别短信的打分值所属的打分区间;
根据所述待识别短信的打分值所属的打分区间,确定所述待识别短信的类别。
可选地,所述装置还包括:
提示模块,适于当所述待识别短信为指定类别时,生成提示消息通知用户。
可选地,所述装置还包括:
判断模块,适于当接收到一待识别短信时,判断该待识别短信对应的电话号码是否为陌生电话号码;若是,则执行调用在所述客户端预先构建的字典库的操作。
可选地,所述判断模块还适于:
当接收到一待识别短信时,判断该待识别短信对应的电话号码的归属地和/或地区编码号段是否与所述客户端所在终端的电话号码的归属地和/或地区编码号段相同;若不同,则执行调用在所述客户端预先构建的字典库的操作。
可选地,所述判断模块还适于:
当接收到一待识别短信时,获取所述客户端所在终端的当前所在地信息;
判断该待识别短信对应的电话号码的归属地是否与所述客户端所在终端的当前所在地相同;若不同,则执行调用在所述客户端预先构建的字典库的操作。
可选地,所述判断模块还适于:
当接收到一待识别短信时,获取所述客户端所在终端中保存的通讯录信息;判断所述通讯录中是否存在与该待识别短信对应的电话号码具有相同归属地和/或地区编码号段的电话号码;若不存在,则执行调用在所述客户端预先构建的字典库的操作。
本发明实施例中,当接收到一待识别短信时,调用在客户端预先构建的字典库,将待识别短信的文本内容与字典库中的特征词进行匹配,确定待识别短信的包含相应特征词的多个分词。随后,根据多个分词对待识别短信进行打分,得到待识别短信的打分值,根据待识别短信的打分值识别出待识别短信的类别。由此,本发明实施例能够通过待识别短信的打分值识别该短信的类别,从而解决了现有技术中通过人工查看并标记而存在的费时费力、效率较低的问题。并且,本发明实施例直接调用在客户端预先构建的字典库,对待识别短信的文本内容进行分词,对多个分词打分得到待识别短信的打分值,根据打分值直接识别出待识别短信的类别,整个过程无需与服务器进行信息交互,可以应用在客户端无网络连接的情况。进一步,本发明实施例中字典库中的特征词的长度包含一个或多个字符,因而可以将待识别短信的文本内容与一个或多个字符的特征词进行匹配,而现有技术中只能通过固定长度的字符进行匹配,本发明实施例的匹配方式更加灵活,并且识别效果更佳。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一实施例的短信类别识别方法的流程图;
图2示出了根据本发明一实施例的利用窗口进行分词的示意图;
图3示出了根据本发明一实施例的利用窗口进行分词的另一示意图;
图4示出了根据本发明另一实施例的短信类别识别方法的流程图;
图5示出了根据本发明一实施例的短信类别识别装置的结构示意图;以及
图6示出了根据本发明另一实施例的短信类别识别装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
现有技术中,移动终端通过WIFI(WirelessFidelity,无线保真)网络或其他通信网络与服务器建立连接,利用服务器中的标记库来确定短信或来电的类型,但是,在接收到陌生号码的短信或来电时,移动终端很有可能不在WIFI的覆盖范围之内,例如,在上下班时间,移动终端一般都不在WIFI的覆盖范围之内;在这种无网络情况下,移动终端无法通过服务器中的标记库确定短信或来电的类型,因此,移动终端的系统无法提示本地客户端以外存储的骚扰短信或电话信息,以至于无法实时地进行拦截或提示,造成用户体验降低。
为解决上述技术问题,本发明实施例提供了一种短信类别识别方法,该方法可以应用于客户端,实现在无网络的情况下对短信进行及时识别,以便对一些骚扰短信进行拦截或提示。图1示出了根据本发明一实施例的短信类别识别方法的流程图。参见图1,该方法至少可以包括步骤S102至步骤S108。
步骤S102,当接收到一待识别短信时,调用在客户端预先构建的字典库,其中,该字典库中的特征词的长度包含一个或多个字符。
步骤S104,将待识别短信的文本内容与字典库中的特征词进行匹配,确定待识别短信的包含相应特征词的多个分词。
步骤S106,根据多个分词对待识别短信进行打分,得到待识别短信的打分值。
步骤S108,根据待识别短信的打分值识别出待识别短信的类别。
本发明实施例中,当接收到一待识别短信时,调用在客户端预先构建的字典库,将待识别短信的文本内容与字典库中的特征词进行匹配,确定待识别短信的包含相应特征词的多个分词。随后,根据多个分词对待识别短信进行打分,得到待识别短信的打分值,根据待识别短信的打分值识别出待识别短信的类别。由此,本发明实施例能够通过待识别短信的打分值识别该短信的类别,从而解决了现有技术中通过人工查看并标记而存在的费时费力、效率较低的问题。并且,本发明实施例直接调用在客户端预先构建的字典库,对待识别短信的文本内容进行分词,对多个分词打分得到待识别短信的打分值,根据打分值直接识别出待识别短信的类别,整个过程无需与服务器进行信息交互,可以应用在客户端无网络连接的情况。进一步,本发明实施例中字典库中的特征词的长度包含一个或多个字符,因而可以将待识别短信的文本内容与一个或多个字符的特征词进行匹配,而现有技术中只能通过固定长度的字符进行匹配,本发明实施例的匹配方式更加灵活,并且识别效果更佳。
上文步骤S102中提及的字典库中的特征词,可以是能够代表诈骗短信类别的特征词,如“中奖”、“奖励”、“买赠”、“戳这里,领奖”、诈骗电话号码等,也可以是代表其他类别的特征词,如房产中介类、广告推销类、响一声类、公司电话类、教育培训类、商家促销类或保险类等,可以进一步细分,本发明不限于此。
进一步,字典库中特征词的选择可以通过开方检验、信息增益等方法来实现。信息增益(IG,InformationGain)是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越高,该特征越应该被保留。在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要,具体可以通过熵值来描述信息量。
在步骤S104中将待识别短信的文本内容与字典库中的特征词进行匹配,本发明实施例提供了一种可选的方案,在该方案中,定义初始长度的窗口,然后利用初始长度的窗口从待识别短信的文本内容中提取初始长度的文本内容,并与字典库中的特征词进行匹配。
进一步,本发明实施例中,可以利用初始长度的窗口从待识别短信的文本内容的第一位置提取第一初始长度的文本内容,将第一初始长度的文本内容与字典库中的特征词进行匹配,若存在匹配的特征词,则将第一初始长度的文本内容作为待识别短信的包含相应特征词的分词。反之,若不存在匹配的特征词,则从第一位置移动初始长度的窗口,提取第二位置的第二初始长度的文本内容,将第二初始长度的文本内容与字典库中的特征词进行匹配。接着,判断第二初始长度的文本内容是否与字典库中的特征词匹配,若存在匹配的特征词,则将第二初始长度的文本内容作为待识别短信的包含相应特征词的分词;若不存在匹配的特征词,则从第二位置移动初始长度的窗口,提取第三位置的第三初始长度的文本内容,将第三初始长度的文本内容与字典库中的特征词进行匹配,以此类推,最后确定出待识别短信的包含相应特征词的多个分词。这里,可以采用前向匹配的方式,即,将第一位置设置在待识别短信的文本内容的开始位置,从该开始位置移动初始长度的窗口,依次进行匹配,最后得到待识别短信的包含相应特征词的多个分词。
举例来说,设置初始长度为5个字符,利用5个字符的窗口从待识别短信的文本内容的开始位置提取5个字符的文本内容,如图2所示。随后,将提取的5个字符的文本内容与字典库中的特征词进行匹配,确定不存在匹配的特征词,则从开始位置移动初始长度的窗口,在移动的过程中窗口的长度保持不变,可以移动1个、2个、5个或多个字符,如图3所示为移动2个字符的示意图,提取当前的5个字符的文本内容。之后,将当前提取的5个字符的文本内容与字典库中的特征词进行匹配,若存在匹配的特征词,则将当前的5个字符的文本内容作为待识别短信的包含相应特征词的分词,若不存在匹配的特征词,可以从当前位置继续移动,以此类推。需要说明的是,此处的例举仅是示意性的,并不限制本发明。
在本发明的另一实施例中,若确定出的待识别短信的包含相应特征词的分词个数小于指定阈值或者为了进一步提高短信类别识别的效率,本发明实施例还可以对窗口的初始长度进行调整,如调整为当前长度,调整之后利用当前长度的窗口从待识别短信的文本内容中提取当前长度的文本内容,并与字典库中的特征词进行匹配。这里,可以参考上文介绍的利用初始长度的窗口从待识别短信的文本内容中提取初始长度的文本内容,并与字典库中的特征词进行匹配的方案,此处不再赘述。
在步骤S106中根据多个分词对待识别短信进行打分,得到待识别短信的打分值,本发明实施例提供了一种可选的方案,即,确定多个分词的权重,进而根据确定的权重和多个分词对待识别短信进行打分。例如,对确定的权重和多个分词量化的分词值进行加权求和,将加权求和的值作为打分值。举例来说,在食品类短信中,分词可以包括食品、食品商行、食品有限、食品预警、餐券、餐厅、餐厅世贸、餐厅广场、参送、餐饮等,这些分词分别对应相应的权重,即-1.0009、1.0702、-1.3659、0.8186、-0.8336、-0.8733、0.8206、0.85122、-0.7160、1.1960等。这里多个分词量化的分词值可以是改分词的信息量,将分词的信息量与权重进行加权求和,得到的值即为打分值。
在本发明的另一实施例中,确定多个分词的权重可以通过多种方式来实现,如根据专家经验或者根据实际情况进行等。在本发明实施例中,可以获取在客户端预先建立的字典库的特征词与权重的对应关系,根据对应关系,查找多个分词的权重。
进一步,本发明实施例提供了一种可选的方案来建立字典库的特征词与权重的对应关系,在该方案中,首先采用预置的短信分类规则,构造多分类的短信分类器,其中,该短信分类器中的各个权重参数依据短信的各个特征词进行设置,随后获取多种类别的短信,其中,每种类别的短信包含多条,将获取的多种类别的短信作为训练语料对短信分类器进行训练,计算短信分类器中的各个权重参数,在各个特征词与各个权重参数之间建立对应关系,该对应关系即为字典库的特征词与权重的对应关系。这里,可以采用Liblinear(线性分类库)构造多分类的短信分类器,或者采用Libsvm(支持向量机分类库)构造多分类的短信分类器,训练语料即训练样本。进一步,可以调用Liblinear的动态分类库,利用调用的动态分类库构造多分类的短信分类器。
在本发明实施例中,短信分类器中的各个权重参数依据短信的各个特征词进行设置,这里的特征词可以如短信中文本内容的特征词,也可以是短信发送方的电话号码,根据电话号码设置各个参数。
这里,根据电话号码设置各个参数,举例来说,可以通过对电话号码进行分类的方式,即将电话号码的分类来表示短信的分类。另外,陌生号码所属的分类信息包括:号码归属地信息和号码所属领域信息,或者号码归属地信息、号码所属领域信息和号码所属使用者的信息。例如:“15210xxxxxx,我爱我家”,则通过预先训练的分类器,通过信息匹配,可以得知此号码的所属分类信息为房产中介。
服务器可以统计一个星期或者一个月等时间段内多个监测装置上传的同一陌生号码所属的类别,据此可确定该陌生号码的分类信息。例如,云端服务器在一周内接收6次监测装置上报的同一陌生号码,以及该陌生号码的类别,此时有五个监测装置上报的同一陌生号码所属类别为“房产中介”,一个监测装置上报的该陌生号码的类别为“快递”,此时,可判定该陌生号码的分类信息为“房产中介”。
在本发明实施例中,也可以通过用户设备举报信息确定陌生号码的分类,例如,通过接收用户设备的举报信息,获知来电号码的类型,或者通过判断某一号码拨打的号码多为陌生号码,且通话时间很短(例如,通话时间小于20秒)来确定该号码为骚扰号码。在确定出来电号码的类型之后,对该号码进行标注,从而确定出指示来电号码的类型的标注。
在步骤S108中,本发明实施例具体可以获取预先建立的打分区间与短信类别的映射关系,在该映射关系中查找待识别短信的打分值所属的打分区间,进而根据待识别短信的打分值所属的打分区间,确定待识别短信的类别。进一步,当待识别短信为指定类别时,生成提示消息通知用户,例如,当待识别短信为诈骗短信时,生成提示消息通知用户。
在本发明一实施例中,当接收到一待识别短信时,判断该待识别短信对应的电话号码是否为陌生电话号码,若是,则执行步骤S102调用在客户端预先构建的字典库的操作。若否,则确定是白名单中的电话号码还是黑名单中的。在本实施例中,预先设置的黑名单、白名单中的具体内容本实施例不限定,为了能够根据预先设置的黑、白名单来筛选需要拦截或放行的通信信息,本实施例提供的方法中,黑名单包括需要拦截的号码,用于筛选需要拦截的短信,白名单包括可放行的号码,用于筛选需要放行的短信。预先设置黑名单/白名单时,可根据通讯录中记录的电话号码来设置黑名单/白名单中的号码,或者,将用户输入的号码设置为黑名单/白名单中的号码,本实施例不对设置黑名单/白名单的方式进行限定。
在本发明一实施例中,当接收到一待识别短信时,判断该待识别短信对应的电话号码的归属地和/或地区编码号段是否与客户端所在终端的电话号码的归属地和/或地区编码号段相同,若不同,则执行步骤S102调用在客户端预先构建的字典库的操作。若相同,则标记该待识别短信为指定类别的短信。
在本发明一实施例中,当接收到一待识别短信时,获取客户端所在终端的当前所在地信息,判断该待识别短信对应的电话号码的归属地是否与客户端所在终端的当前所在地相同,若不同,则执行步骤S102调用在客户端预先构建的字典库的操作。若相同,则标记该待识别短信为指定类别的短信。
在本发明一实施例中,当接收到一待识别短信时,获取客户端所在终端中保存的通讯录信息,判断通讯录中是否存在与该待识别短信对应的电话号码具有相同归属地和/或地区编码号段的电话号码,若不存在,则执行步骤S102调用在客户端预先构建的字典库的操作。若存在,则标记该待识别短信为指定类别的短信。
下面通过一具体实施例详细介绍本发明的短信类别识别方法的实现过程。图4示出了根据本发明另一实施例的短信类别识别方法的流程图。参见图4,该方法至少可以包括步骤S402至步骤S412。
步骤S402,当接收到一待识别短信时,调用在客户端预先构建的字典库,其中,该字典库中的特征词的长度包含一个或多个字符。
步骤S404,定义初始长度的窗口。
步骤S406,利用初始长度的窗口从待识别短信的文本内容中提取初始长度的文本内容,并与字典库中的特征词进行匹配,确定待识别短信的包含相应特征词的多个分词。
该步骤中,可以利用初始长度的窗口从待识别短信的文本内容的第一位置提取第一初始长度的文本内容,将第一初始长度的文本内容与字典库中的特征词进行匹配,若存在匹配的特征词,则将第一初始长度的文本内容作为待识别短信的包含相应特征词的分词。反之,若不存在匹配的特征词,则从第一位置移动初始长度的窗口,提取第二位置的第二初始长度的文本内容,将第二初始长度的文本内容与字典库中的特征词进行匹配。接着,判断第二初始长度的文本内容是否与字典库中的特征词匹配,若存在匹配的特征词,则将第二初始长度的文本内容作为待识别短信的包含相应特征词的分词;若不存在匹配的特征词,则从第二位置移动初始长度的窗口,提取第三位置的第三初始长度的文本内容,将第三初始长度的文本内容与字典库中的特征词进行匹配,以此类推,最后确定出待识别短信的包含相应特征词的多个分词。
这里,可以采用前向匹配的方式,即,将第一位置设置在待识别短信的文本内容的开始位置,从该开始位置移动初始长度的窗口,依次进行匹配,最后得到待识别短信的包含相应特征词的多个分词。
此外,若确定出的待识别短信的包含相应特征词的分词个数小于指定阈值或者为了进一步提高骚扰短信识别的效率,本发明实施例还可以对窗口的初始长度进行调整,如调整为当前长度,调整之后利用当前长度的窗口从待识别短信的文本内容中提取当前长度的文本内容,并与字典库中的特征词进行匹配,这里的当前长度小于初始长度。
步骤S408,确定多个分词的权重,进而根据确定的权重和多个分词对待识别短信进行打分,得到待识别短信的打分值。
该步骤中,可以参考上文介绍的确定多个分词的权重,此处不再赘述。
步骤S410,获取预先建立的打分区间与短信类别的映射关系,在该映射关系中查找待识别短信的打分值所属的打分区间。
步骤S412,根据待识别短信的打分值所属的打分区间,确定待识别短信的类别。
在该步骤中,当待识别短信为指定类别时,生成提示消息通知用户,例如,当待识别短信为诈骗短信时,生成提示消息通知用户
本发明实施例中,通过待识别短信的打分值识别该短信的类别,从而解决了现有技术中通过人工查看并标记而存在的费时费力、效率较低的问题。并且,本发明实施例直接调用在客户端预先构建的字典库,对待识别短信的文本内容进行分词,对多个分词打分得到待识别短信的打分值,根据打分值直接识别出待识别短信的类别,整个过程无需与服务器进行信息交互,可以应用在客户端无网络连接的情况。
基于同一发明构思,本发明实施例还提供一种短信类别识别装置,应用于客户端。图5示出了根据本发明一实施例的短信类别识别装置的结构示意图。参见图5,该装置至少可以包括:调用模块510、匹配模块520、打分模块530以及识别模块540。
现介绍本发明实施例的短信类别识别装置的各组成或器件的功能以及各部分间的连接关系:
调用模块510,适于当接收到一待识别短信时,调用在客户端预先构建的字典库,其中,字典库中的特征词的长度包含一个或多个字符;
匹配模块520,与调用模块510相耦合,适于将待识别短信的文本内容与字典库中的特征词进行匹配,确定待识别短信的包含相应特征词的多个分词;
打分模块530,与匹配模块520相耦合,适于根据多个分词对待识别短信进行打分,得到待识别短信的打分值;
识别模块540,与打分模块530相耦合,适于根据待识别短信的打分值识别出待识别短信的类别。
在本发明一实施例中,上述匹配模块520还适于:
定义初始长度的窗口;
利用初始长度的窗口从待识别短信的文本内容中提取初始长度的文本内容,并与字典库中的特征词进行匹配。
在本发明一实施例中,上述匹配模块520还适于:
利用初始长度的窗口从待识别短信的文本内容的第一位置提取第一初始长度的文本内容;
将第一初始长度的文本内容与字典库中的特征词进行匹配;
若存在匹配的特征词,则将第一初始长度的文本内容作为待识别短信的包含相应特征词的分词。
在本发明一实施例中,上述匹配模块520还适于:
若不存在匹配的特征词,则从第一位置移动初始长度的窗口,提取第二位置的第二初始长度的文本内容;
将第二初始长度的文本内容与字典库中的特征词进行匹配;
若存在匹配的特征词,则将第二初始长度的文本内容作为待识别短信的包含相应特征词的分词;
若不存在匹配的特征词,则从第二位置移动初始长度的窗口,提取第三位置的第三初始长度的文本内容,将第三初始长度的文本内容与字典库中的特征词进行匹配,以此类推,确定待识别短信的包含相应特征词的多个分词。
在本发明一实施例中,上述匹配模块520还适于:
将窗口的初始长度调整为当前长度;
利用当前长度的窗口从待识别短信的文本内容提取当前长度的文本内容,并与字典库中的特征词进行匹配。
在本发明一实施例中,上述打分模块530还适于:
确定多个分词的权重;
根据确定的权重和多个分词对待识别短信进行打分。
在本发明一实施例中,上述打分模块530还适于:
获取在客户端预先建立的字典库的特征词与权重的对应关系;
根据对应关系,查找多个分词的权重。
在本发明一实施例中,如图6所示,上文图5展示的装置还可以包括:
建立模块550,与打分模块530相耦合,适于采用预置的短信分类规则,构造多分类的短信分类器,其中,该短信分类器中的各个权重参数依据短信的各个特征词进行设置;获取多种类别的短信,其中,每种类别的短信包含多条;将多种类别的短信作为训练语料对短信分类器进行训练,计算短信分类器中的各个权重参数;在各个特征词与各个权重参数之间建立对应关系。
在本发明一实施例中,上述建立模块550还适于:
采用线性分类库Liblinear构造多分类的短信分类器;或者,
采用支持向量机分类库Libsvm构造多分类的短信分类器。
在本发明一实施例中,上述建立模块550还适于:
调用Liblinear的动态分类库;
利用调用的动态分类库构造多分类的短信分类器。
在本发明一实施例中,上述识别模块540还适于:
获取预先建立的打分区间与短信类别的映射关系,在映射关系中查找待识别短信的打分值所属的打分区间;
根据待识别短信的打分值所属的打分区间,确定待识别短信的类别。
在本发明一实施例中,如图6所示,上文图5展示的装置还可以包括:
提示模块560,与识别模块540相耦合,适于当待识别短信为指定类别时,生成提示消息通知用户。
在本发明一实施例中,如图6所示,上文图5展示的装置还可以包括:
判断模块570,与调用模块510相耦合,适于当接收到一待识别短信时,判断该待识别短信对应的电话号码是否为陌生电话号码;若是,则执行调用在客户端预先构建的字典库的操作。
在本发明一实施例中,上述判断模块570还适于:
当接收到一待识别短信时,判断该待识别短信对应的电话号码的归属地和/或地区编码号段是否与客户端所在终端的电话号码的归属地和/或地区编码号段相同;若不同,则执行调用在客户端预先构建的字典库的操作。
在本发明一实施例中,上述判断模块570还适于:
当接收到一待识别短信时,获取客户端所在终端的当前所在地信息;
判断该待识别短信对应的电话号码的归属地是否与客户端所在终端的当前所在地相同;若不同,则执行调用在客户端预先构建的字典库的操作。
在本发明一实施例中,上述判断模块570还适于:
当接收到一待识别短信时,获取客户端所在终端中保存的通讯录信息;判断通讯录中是否存在与该待识别短信对应的电话号码具有相同归属地和/或地区编码号段的电话号码;若不存在,则执行调用在客户端预先构建的字典库的操作。
根据上述任意一个优选实施例或多个优选实施例的组合,本发明实施例能够达到如下有益效果:
本发明实施例中,当接收到一待识别短信时,调用在客户端预先构建的字典库,将待识别短信的文本内容与字典库中的特征词进行匹配,确定待识别短信的包含相应特征词的多个分词。随后,根据多个分词对待识别短信进行打分,得到待识别短信的打分值,根据待识别短信的打分值识别出待识别短信的类别。由此,本发明实施例能够通过待识别短信的打分值识别该短信的类别,从而解决了现有技术中通过人工查看并标记而存在的费时费力、效率较低的问题。并且,本发明实施例直接调用在客户端预先构建的字典库,对待识别短信的文本内容进行分词,对多个分词打分得到待识别短信的打分值,根据打分值直接识别出待识别短信的类别,整个过程无需与服务器进行信息交互,可以应用在客户端无网络连接的情况。进一步,本发明实施例中字典库中的特征词的长度包含一个或多个字符,因而可以将待识别短信的文本内容与一个或多个字符的特征词进行匹配,而现有技术中只能通过固定长度的字符进行匹配,本发明实施例的匹配方式更加灵活,并且识别效果更佳。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的短信类别识别装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。
本发明实施例还公开了:A1、一种短信类别识别方法,应用于客户端,包括:
当接收到一待识别短信时,调用在所述客户端预先构建的字典库,其中,所述字典库中的特征词的长度包含一个或多个字符;
将所述待识别短信的文本内容与所述字典库中的特征词进行匹配,确定所述待识别短信的包含相应特征词的多个分词;
根据所述多个分词对所述待识别短信进行打分,得到所述待识别短信的打分值;
根据所述待识别短信的打分值识别出所述待识别短信的类别。
A2、根据A1所述的方法,其中,将所述待识别短信的文本内容与所述字典库中的特征词进行匹配,包括:
定义初始长度的窗口;
利用所述初始长度的窗口从所述待识别短信的文本内容中提取初始长度的文本内容,并与所述字典库中的特征词进行匹配。
A3、根据A2所述的方法,其中,利用所述初始长度的窗口从所述待识别短信的文本内容中提取初始长度的文本内容,并与所述字典库中的特征词进行匹配,包括:
利用所述初始长度的窗口从所述待识别短信的文本内容的第一位置提取第一初始长度的文本内容;
将所述第一初始长度的文本内容与所述字典库中的特征词进行匹配;
若存在匹配的特征词,则将所述第一初始长度的文本内容作为所述待识别短信的包含相应特征词的分词。
A4、根据A3所述的方法,其中,将所述第一初始长度的文本内容与所述字典库中的特征词进行匹配之后,还包括:
若不存在匹配的特征词,则从所述第一位置移动所述初始长度的窗口,提取第二位置的第二初始长度的文本内容;
将所述第二初始长度的文本内容与所述字典库中的特征词进行匹配;
若存在匹配的特征词,则将所述第二初始长度的文本内容作为所述待识别短信的包含相应特征词的分词;
若不存在匹配的特征词,则从所述第二位置移动所述初始长度的窗口,提取第三位置的第三初始长度的文本内容,将所述第三初始长度的文本内容与所述字典库中的特征词进行匹配,以此类推,确定所述待识别短信的包含相应特征词的多个分词。
A5、根据A2-A4任一项所述的方法,其中,利用所述初始长度的窗口从所述待识别短信的文本内容中提取初始长度的文本内容,并与所述字典库中的特征词进行匹配之后,还包括:
将所述窗口的初始长度调整为当前长度;
利用所述当前长度的窗口从所述待识别短信的文本内容提取当前长度的文本内容,并与所述字典库中的特征词进行匹配。
A6、根据A1-A5任一项所述的方法,其中,根据所述多个分词对所述待识别短信进行打分,包括:
确定所述多个分词的权重;
根据确定的权重和所述多个分词对所述待识别短信进行打分。
A7、根据A6所述的方法,其中,确定所述多个分词的权重,包括:
获取在所述客户端预先建立的所述字典库的特征词与权重的对应关系;
根据所述对应关系,查找所述多个分词的权重。
A8、根据A7所述的方法,其中,通过以下步骤建立所述对应关系:
采用预置的短信分类规则,构造多分类的短信分类器,其中,所述短信分类器中的各个权重参数依据短信的各个特征词进行设置;
获取多种类别的短信,其中,每种类别的短信包含多条;
将所述多种类别的短信作为训练语料对所述短信分类器进行训练,计算所述短信分类器中的各个权重参数;
在所述各个特征词与所述各个权重参数之间建立所述对应关系。
A9、根据A8所述的方法,其中,采用预置的短信分类规则,构造多分类的短信分类器,包括:
采用线性分类库Liblinear构造多分类的短信分类器;或者,
采用支持向量机分类库Libsvm构造多分类的短信分类器。
A10、根据A9所述的方法,其中,采用线性分类库Liblinear构造多分类的短信分类器,包括:
调用所述Liblinear的动态分类库;
利用调用的动态分类库构造多分类的短信分类器。
A11、根据A1-A10任一项所述的方法,其中,根据所述待识别短信的打分值识别出所述待识别短信的类别,包括:
获取预先建立的打分区间与短信类别的映射关系,在所述映射关系中查找所述待识别短信的打分值所属的打分区间;
根据所述待识别短信的打分值所属的打分区间,确定所述待识别短信的类别。
A12、根据A11所述的方法,其中,还包括:
当所述待识别短信为指定类别时,生成提示消息通知用户。
A13、根据A1-A12任一项所述的方法,其中,还包括:
当接收到一待识别短信时,判断该待识别短信对应的电话号码是否为陌生电话号码;
若是,则执行调用在所述客户端预先构建的字典库的操作。
A14、根据A1-A13任一项所述的方法,其中,还包括:
当接收到一待识别短信时,判断该待识别短信对应的电话号码的归属地和/或地区编码号段是否与所述客户端所在终端的电话号码的归属地和/或地区编码号段相同;
若不同,则执行调用在所述客户端预先构建的字典库的操作。
A15、根据A1-A14任一项所述的方法,其中,还包括:
当接收到一待识别短信时,获取所述客户端所在终端的当前所在地信息;
判断该待识别短信对应的电话号码的归属地是否与所述客户端所在终端的当前所在地相同;
若不同,则执行调用在所述客户端预先构建的字典库的操作。
A16、根据A1-A15任一项所述的方法,其中,还包括:
当接收到一待识别短信时,获取所述客户端所在终端中保存的通讯录信息;
判断所述通讯录中是否存在与该待识别短信对应的电话号码具有相同归属地和/或地区编码号段的电话号码;
若不存在,则执行调用在所述客户端预先构建的字典库的操作。
B17、一种短信类别识别装置,应用于客户端,包括:
调用模块,适于当接收到一待识别短信时,调用在所述客户端预先构建的字典库,其中,所述字典库中的特征词的长度包含一个或多个字符;
匹配模块,适于将所述待识别短信的文本内容与所述字典库中的特征词进行匹配,确定所述待识别短信的包含相应特征词的多个分词;
打分模块,适于根据所述多个分词对所述待识别短信进行打分,得到所述待识别短信的打分值;
识别模块,适于根据所述待识别短信的打分值识别出所述待识别短信的类别。
B18、根据B17所述的装置,其中,所述匹配模块还适于:
定义初始长度的窗口;
利用所述初始长度的窗口从所述待识别短信的文本内容中提取初始长度的文本内容,并与所述字典库中的特征词进行匹配。
B19、根据B18所述的装置,其中,所述匹配模块还适于:
利用所述初始长度的窗口从所述待识别短信的文本内容的第一位置提取第一初始长度的文本内容;
将所述第一初始长度的文本内容与所述字典库中的特征词进行匹配;
若存在匹配的特征词,则将所述第一初始长度的文本内容作为所述待识别短信的包含相应特征词的分词。
B20、根据B19所述的装置,其中,所述匹配模块还适于:
若不存在匹配的特征词,则从所述第一位置移动所述初始长度的窗口,提取第二位置的第二初始长度的文本内容;
将所述第二初始长度的文本内容与所述字典库中的特征词进行匹配;
若存在匹配的特征词,则将所述第二初始长度的文本内容作为所述待识别短信的包含相应特征词的分词;
若不存在匹配的特征词,则从所述第二位置移动所述初始长度的窗口,提取第三位置的第三初始长度的文本内容,将所述第三初始长度的文本内容与所述字典库中的特征词进行匹配,以此类推,确定所述待识别短信的包含相应特征词的多个分词。
B21、根据B17-B20任一项所述的装置,其中,所述匹配模块还适于:
将所述窗口的初始长度调整为当前长度;
利用所述当前长度的窗口从所述待识别短信的文本内容提取当前长度的文本内容,并与所述字典库中的特征词进行匹配。
B22、根据B17-B21任一项所述的装置,其中,所述打分模块还适于:
确定所述多个分词的权重;
根据确定的权重和所述多个分词对所述待识别短信进行打分。
B23、根据B22所述的装置,其中,所述打分模块还适于:
获取在所述客户端预先建立的所述字典库的特征词与权重的对应关系;
根据所述对应关系,查找所述多个分词的权重。
B24、根据B23所述的装置,其中,还包括:
建立模块,适于采用预置的短信分类规则,构造多分类的短信分类器,其中,所述短信分类器中的各个权重参数依据短信的各个特征词进行设置;
获取多种类别的短信,其中,每种类别的短信包含多条;
将所述多种类别的短信作为训练语料对所述短信分类器进行训练,计算所述短信分类器中的各个权重参数;
在所述各个特征词与所述各个权重参数之间建立所述对应关系。
B25、根据B24所述的装置,其中,所述建立模块还适于:
采用线性分类库Liblinear构造多分类的短信分类器;或者,
采用支持向量机分类库Libsvm构造多分类的短信分类器。
B26、根据B25所述的装置,其中,所述建立模块还适于:
调用所述Liblinear的动态分类库;
利用调用的动态分类库构造多分类的短信分类器。
B27、根据B17-B26任一项所述的装置,其中,所述识别模块还适于:
获取预先建立的打分区间与短信类别的映射关系,在所述映射关系中查找所述待识别短信的打分值所属的打分区间;
根据所述待识别短信的打分值所属的打分区间,确定所述待识别短信的类别。
B28、根据B27所述的装置,其中,还包括:
提示模块,适于当所述待识别短信为指定类别时,生成提示消息通知用户。
B29、根据B17-B28任一项所述的装置,其中,还包括:
判断模块,适于当接收到一待识别短信时,判断该待识别短信对应的电话号码是否为陌生电话号码;若是,则执行调用在所述客户端预先构建的字典库的操作。
B30、根据B17-B29任一项所述的装置,其中,所述判断模块还适于:
当接收到一待识别短信时,判断该待识别短信对应的电话号码的归属地和/或地区编码号段是否与所述客户端所在终端的电话号码的归属地和/或地区编码号段相同;若不同,则执行调用在所述客户端预先构建的字典库的操作。
B31、根据B17-B30任一项所述的装置,其中,所述判断模块还适于:
当接收到一待识别短信时,获取所述客户端所在终端的当前所在地信息;
判断该待识别短信对应的电话号码的归属地是否与所述客户端所在终端的当前所在地相同;若不同,则执行调用在所述客户端预先构建的字典库的操作。
B32、根据B17-B31任一项所述的装置,其中,所述判断模块还适于:
当接收到一待识别短信时,获取所述客户端所在终端中保存的通讯录信息;判断所述通讯录中是否存在与该待识别短信对应的电话号码具有相同归属地和/或地区编码号段的电话号码;若不存在,则执行调用在所述客户端预先构建的字典库的操作。

Claims (10)

1.一种短信类别识别方法,应用于客户端,包括:
当接收到一待识别短信时,调用在所述客户端预先构建的字典库,其中,所述字典库中的特征词的长度包含一个或多个字符;
将所述待识别短信的文本内容与所述字典库中的特征词进行匹配,确定所述待识别短信的包含相应特征词的多个分词;
根据所述多个分词对所述待识别短信进行打分,得到所述待识别短信的打分值;
根据所述待识别短信的打分值识别出所述待识别短信的类别。
2.根据权利要求1所述的方法,其中,将所述待识别短信的文本内容与所述字典库中的特征词进行匹配,包括:
定义初始长度的窗口;
利用所述初始长度的窗口从所述待识别短信的文本内容中提取初始长度的文本内容,并与所述字典库中的特征词进行匹配。
3.根据权利要求2所述的方法,其中,利用所述初始长度的窗口从所述待识别短信的文本内容中提取初始长度的文本内容,并与所述字典库中的特征词进行匹配,包括:
利用所述初始长度的窗口从所述待识别短信的文本内容的第一位置提取第一初始长度的文本内容;
将所述第一初始长度的文本内容与所述字典库中的特征词进行匹配;
若存在匹配的特征词,则将所述第一初始长度的文本内容作为所述待识别短信的包含相应特征词的分词。
4.根据权利要求3所述的方法,其中,将所述第一初始长度的文本内容与所述字典库中的特征词进行匹配之后,还包括:
若不存在匹配的特征词,则从所述第一位置移动所述初始长度的窗口,提取第二位置的第二初始长度的文本内容;
将所述第二初始长度的文本内容与所述字典库中的特征词进行匹配;
若存在匹配的特征词,则将所述第二初始长度的文本内容作为所述待识别短信的包含相应特征词的分词;
若不存在匹配的特征词,则从所述第二位置移动所述初始长度的窗口,提取第三位置的第三初始长度的文本内容,将所述第三初始长度的文本内容与所述字典库中的特征词进行匹配,以此类推,确定所述待识别短信的包含相应特征词的多个分词。
5.根据权利要求2-4任一项所述的方法,其中,利用所述初始长度的窗口从所述待识别短信的文本内容中提取初始长度的文本内容,并与所述字典库中的特征词进行匹配之后,还包括:
将所述窗口的初始长度调整为当前长度;
利用所述当前长度的窗口从所述待识别短信的文本内容提取当前长度的文本内容,并与所述字典库中的特征词进行匹配。
6.根据权利要求1-5任一项所述的方法,其中,根据所述多个分词对所述待识别短信进行打分,包括:
确定所述多个分词的权重;
根据确定的权重和所述多个分词对所述待识别短信进行打分。
7.根据权利要求6所述的方法,其中,确定所述多个分词的权重,包括:
获取在所述客户端预先建立的所述字典库的特征词与权重的对应关系;
根据所述对应关系,查找所述多个分词的权重。
8.根据权利要求7所述的方法,其中,通过以下步骤建立所述对应关系:
采用预置的短信分类规则,构造多分类的短信分类器,其中,所述短信分类器中的各个权重参数依据短信的各个特征词进行设置;
获取多种类别的短信,其中,每种类别的短信包含多条;
将所述多种类别的短信作为训练语料对所述短信分类器进行训练,计算所述短信分类器中的各个权重参数;
在所述各个特征词与所述各个权重参数之间建立所述对应关系。
9.根据权利要求8所述的方法,其中,采用预置的短信分类规则,构造多分类的短信分类器,包括:
采用线性分类库Liblinear构造多分类的短信分类器;或者,
采用支持向量机分类库Libsvm构造多分类的短信分类器。
10.一种短信类别识别装置,应用于客户端,包括:
调用模块,适于当接收到一待识别短信时,调用在所述客户端预先构建的字典库,其中,所述字典库中的特征词的长度包含一个或多个字符;
匹配模块,适于将所述待识别短信的文本内容与所述字典库中的特征词进行匹配,确定所述待识别短信的包含相应特征词的多个分词;
打分模块,适于根据所述多个分词对所述待识别短信进行打分,得到所述待识别短信的打分值;
识别模块,适于根据所述待识别短信的打分值识别出所述待识别短信的类别。
CN201510484715.3A 2015-08-07 2015-08-07 短信类别识别方法及装置 Pending CN105138611A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510484715.3A CN105138611A (zh) 2015-08-07 2015-08-07 短信类别识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510484715.3A CN105138611A (zh) 2015-08-07 2015-08-07 短信类别识别方法及装置

Publications (1)

Publication Number Publication Date
CN105138611A true CN105138611A (zh) 2015-12-09

Family

ID=54723959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510484715.3A Pending CN105138611A (zh) 2015-08-07 2015-08-07 短信类别识别方法及装置

Country Status (1)

Country Link
CN (1) CN105138611A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105791543A (zh) * 2016-02-23 2016-07-20 北京奇虎科技有限公司 一种清理短信的方法、装置、客户端和系统
CN105979101A (zh) * 2016-07-18 2016-09-28 广东乐源数字技术有限公司 一种未读消息选择性推送的系统
CN105979089A (zh) * 2016-05-06 2016-09-28 北京奇虎科技有限公司 一种清理短信的方法和装置
CN107135314A (zh) * 2017-06-21 2017-09-05 北京奇虎科技有限公司 骚扰短信的检测方法、系统、移动终端和服务器
CN108898167A (zh) * 2018-06-14 2018-11-27 北京奇虎科技有限公司 失信号码的显示方法及装置
CN109408795A (zh) * 2017-08-17 2019-03-01 中国移动通信集团公司 一种文本识别方法、设备、计算机可读存储介质及装置
CN110555105A (zh) * 2018-03-26 2019-12-10 北京京东尚科信息技术有限公司 对象处理方法及系统、计算机系统及计算机可读存储介质
CN110972086A (zh) * 2018-09-29 2020-04-07 北京奇虎科技有限公司 短信息处理方法、装置、电子设备及计算机可读存储介质
CN111259207A (zh) * 2018-11-30 2020-06-09 阿里巴巴集团控股有限公司 短信的识别方法、装置及设备
CN112784192A (zh) * 2021-01-22 2021-05-11 南京万得资讯科技有限公司 一种清洗页面正文内容中被植入广告的方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101155182A (zh) * 2006-09-30 2008-04-02 阿里巴巴公司 一种基于网络的垃圾信息过滤方法和装置
CN101600178A (zh) * 2009-06-26 2009-12-09 成都市华为赛门铁克科技有限公司 垃圾信息确认方法和装置、终端
CN101784022A (zh) * 2009-01-16 2010-07-21 北京炎黄新星网络科技有限公司 短信过滤、分类方法及系统
CN101888445A (zh) * 2010-04-30 2010-11-17 南京邮电大学 一种引进查询软件的综合性短信过滤方法
CN101902523A (zh) * 2010-07-09 2010-12-01 中兴通讯股份有限公司 一种移动终端及其短信的过滤方法
CN101945358A (zh) * 2010-09-07 2011-01-12 成都市华为赛门铁克科技有限公司 垃圾短信的过滤方法、系统、终端和服务器
CN102024045A (zh) * 2010-12-14 2011-04-20 成都市华为赛门铁克科技有限公司 信息分类处理方法、装置和终端
CN103067896A (zh) * 2013-01-17 2013-04-24 中国联合网络通信集团有限公司 垃圾短信过滤方法及装置
CN104794125A (zh) * 2014-01-20 2015-07-22 中国科学院深圳先进技术研究院 一种垃圾短信的识别方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101155182A (zh) * 2006-09-30 2008-04-02 阿里巴巴公司 一种基于网络的垃圾信息过滤方法和装置
US20100058178A1 (en) * 2006-09-30 2010-03-04 Alibaba Group Holding Limited Network-Based Method and Apparatus for Filtering Junk Messages
CN101784022A (zh) * 2009-01-16 2010-07-21 北京炎黄新星网络科技有限公司 短信过滤、分类方法及系统
CN101600178A (zh) * 2009-06-26 2009-12-09 成都市华为赛门铁克科技有限公司 垃圾信息确认方法和装置、终端
CN101888445A (zh) * 2010-04-30 2010-11-17 南京邮电大学 一种引进查询软件的综合性短信过滤方法
CN101902523A (zh) * 2010-07-09 2010-12-01 中兴通讯股份有限公司 一种移动终端及其短信的过滤方法
CN101945358A (zh) * 2010-09-07 2011-01-12 成都市华为赛门铁克科技有限公司 垃圾短信的过滤方法、系统、终端和服务器
CN102024045A (zh) * 2010-12-14 2011-04-20 成都市华为赛门铁克科技有限公司 信息分类处理方法、装置和终端
CN103067896A (zh) * 2013-01-17 2013-04-24 中国联合网络通信集团有限公司 垃圾短信过滤方法及装置
CN104794125A (zh) * 2014-01-20 2015-07-22 中国科学院深圳先进技术研究院 一种垃圾短信的识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄宜华: "《深入理解大数据 大数据处理与编程实践》", 31 August 2014 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105791543A (zh) * 2016-02-23 2016-07-20 北京奇虎科技有限公司 一种清理短信的方法、装置、客户端和系统
CN105979089A (zh) * 2016-05-06 2016-09-28 北京奇虎科技有限公司 一种清理短信的方法和装置
CN105979101A (zh) * 2016-07-18 2016-09-28 广东乐源数字技术有限公司 一种未读消息选择性推送的系统
CN105979101B (zh) * 2016-07-18 2021-06-01 深圳市禅游科技股份有限公司 一种未读消息选择性推送的系统
CN107135314A (zh) * 2017-06-21 2017-09-05 北京奇虎科技有限公司 骚扰短信的检测方法、系统、移动终端和服务器
CN109408795A (zh) * 2017-08-17 2019-03-01 中国移动通信集团公司 一种文本识别方法、设备、计算机可读存储介质及装置
CN109408795B (zh) * 2017-08-17 2022-04-15 中国移动通信集团公司 一种文本识别方法、设备、计算机可读存储介质及装置
CN110555105A (zh) * 2018-03-26 2019-12-10 北京京东尚科信息技术有限公司 对象处理方法及系统、计算机系统及计算机可读存储介质
CN108898167A (zh) * 2018-06-14 2018-11-27 北京奇虎科技有限公司 失信号码的显示方法及装置
CN110972086A (zh) * 2018-09-29 2020-04-07 北京奇虎科技有限公司 短信息处理方法、装置、电子设备及计算机可读存储介质
CN111259207A (zh) * 2018-11-30 2020-06-09 阿里巴巴集团控股有限公司 短信的识别方法、装置及设备
CN112784192A (zh) * 2021-01-22 2021-05-11 南京万得资讯科技有限公司 一种清洗页面正文内容中被植入广告的方法

Similar Documents

Publication Publication Date Title
CN105138611A (zh) 短信类别识别方法及装置
CN107835496B (zh) 一种垃圾短信的识别方法、装置和服务器
CN107612893B (zh) 短信的审核系统和方法以及构建短信审核模型方法
US8892572B2 (en) Video search system and method of use
CN104270521A (zh) 对来电号码进行处理的方法和移动终端
CN105516499A (zh) 一种对短信进行分类的方法、装置、通信终端及服务器
CN105303112B (zh) 组件调用漏洞的检测方法及装置
US20200364249A1 (en) Method and apparatus for processing information of a terminal
CN105101124A (zh) 标注短信类别的方法及装置
CN104185158A (zh) 基于伪基站的恶意短信息处理方法及客户端
CN103516908B (zh) 辅助回复通讯消息的方法及装置
CN104079475A (zh) 一种消息处理方法和系统
CN104104778A (zh) 一种移动终端的短消息处理方法和装置
EP3048539A1 (en) Method and apparatus for recognizing junk messages
CN104834855A (zh) 一种系统数据的获取方法、装置和移动终端
CN105589845B (zh) 垃圾文本识别方法、装置及系统
CN102438205B (zh) 一种基于移动用户行为的业务推送的方法与系统
CN105915440A (zh) 邮件识别方法及装置
CN104010064A (zh) 联网搜索号码的方法及装置
CN103763358A (zh) 一种信息的推送方法和装置
CN102340424A (zh) 不良报文的检测方法及不良报文的检测装置
CN111652661B (zh) 一种手机客户端用户流失预警处理方法
CN101389085B (zh) 基于发送行为的垃圾短消息识别系统及方法
CN105488031A (zh) 一种检测相似短信的方法及装置
CN109714393A (zh) 一种应用程序推荐的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20151209