CN103108290A - 短信处理方法和装置 - Google Patents
短信处理方法和装置 Download PDFInfo
- Publication number
- CN103108290A CN103108290A CN2011103556400A CN201110355640A CN103108290A CN 103108290 A CN103108290 A CN 103108290A CN 2011103556400 A CN2011103556400 A CN 2011103556400A CN 201110355640 A CN201110355640 A CN 201110355640A CN 103108290 A CN103108290 A CN 103108290A
- Authority
- CN
- China
- Prior art keywords
- note
- refuse messages
- key message
- content
- pond
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种短信处理方法和装置,其中,该方法包括:对于需要判断的短信,从短信的内容中提取关键信息;将提取的关键信息与预设的垃圾短信池中的垃圾短信所包含的关键信息进行匹配;在提取的关键信息与垃圾短信所包含的关键信息匹配成功的情况下,将需要判断的短信确定为垃圾短信。本发明通过根据短信内容中的关键信息进行垃圾短信的判断,能够减少人工审核垃圾短信的工作量,提高短信的审核效率和准确率,降低审核的成本。
Description
技术领域
本发明涉及通信领域,并且特别地,涉及一种短信处理方法和装置。
背景技术
目前各个地区的移动运营商部署的“收、发端垃圾短信拦截系统”只是对其判断的疑似短信做简单的排重后提交给人工做审核,而无自动审核的机制。
移动运营商现有人工审核疑似短信的工作量大,每天均有海量短信数据需要人工客服进行审核处理,投入了大量的人力物力。
针对相关技术中人工方式审核垃圾短信导致工作量大、效率低、成本高的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出一种短信处理方法和装置,能够降低短信审核的成本,提高审核效率,降低工作量。
本发明的技术方案是这样实现的:
根据本发明的一个方面,提供了一种短信处理方法。
该方法包括:对于需要判断的短信,从短信的内容中提取关键信息;将提取的关键信息与预设的垃圾短信池中的垃圾短信所包含的关键信息进行匹配;在提取的关键信息与垃圾短信所包含的关键信息匹配成功的情况下,将需要判断的短信确定为垃圾短信。
其中,关键信息包括广告主号码、关键字、散列值、短信内容。
此外,将提取的关键信息与预设的垃圾短信池中的垃圾短信所包含的关键信息进行匹配包括:根据预定匹配策略,判断从需要判断的短信的内容中提取的关键信息与垃圾短信池的关键信息是否匹配,并在确定结果为是的情况下,确定提取的关键信息与垃圾短信所包含的关键信息匹配成功。
此外,可以通过以下方式中的至少之一,提取需要判断的短信的关键信息、或确定垃圾短信池中垃圾短信所包含的关键信息:对该短信的内容进行全角解析和半角解析;通过对该短信的内容进行形似数字解析,将与数字类似的符号或文字转换为数字;确定该短信的内容中数字串的含义和类型;对该短信的内容中包含的广告主号码的数量进行判断;将该短信中数字串的字符之间的分割符号去除。
此外,在将需要判断的短信确定为垃圾短信之后,该方法可进一步包括:将该短信存入垃圾短信池。
根据本发明的另一方面,还提供了一种短信处理装置。
该装置包括:提取模块,用于从需要判断的短信的内容中提取关键信息;比较模块,用于将提取的关键信息与预设的垃圾短信池中的垃圾短信所包含的关键信息进行匹配;存储模块,用于存储垃圾短信池;确定模块,在提取的关键信息与垃圾短信所包含的关键信息匹配成功的情况下,将需要判断的短信确定为垃圾短信。
其中,关键信息包括广告主号码、关键字、散列值、短信内容。
并且,比较模块具体用于根据预定匹配策略,判断从需要判断的短信的内容中提取的关键信息与垃圾短信池的关键信息是否匹配,并且比较模块还用于在确定结果为是的情况下,确定提取的关键信息与垃圾短信所包含的关键信息匹配成功。
此外,提取模块用于通过以下方式中的至少之一,提取需要判断的短信的关键信息、或确定垃圾短信池中垃圾短信所包含的关键信息:对该短信的内容进行全角解析和半角解析;通过对该短信的内容进行形似数字解析,将与数字类似的符号或文字转换为数字;确定该短信的内容中数字串的含义和类型;对该短信的内容中包含的广告主号码的数量进行判断;将该短信中数字串的字符之间的分割符号去除。
此外,处理模块还用于在将需要判断的短信确定为垃圾短信之后,通过预定的维度策略判断是否需要将该垃圾短信存入存储模块保存的垃圾短信池中。
本发明通过根据短信内容中的关键信息进行垃圾短信的判断,能够减少人工审核垃圾短信的工作量,提高短信的审核效率和准确率,降低审核的成本。
附图说明
图1是根据本发明实施例的短信处理方法的流程图;
图2是根据本发明实施例的短信处理装置的框图。
具体实施方式
根据本发明的实施例,提供了一种短信处理方法。
如图1所示,根据本发明实施例的短信处理方法包括:
步骤S101,对于需要判断的短信(可称为疑似垃圾短信),从短信的内容中提取关键信息;
步骤S103,将提取的关键信息与预设的垃圾短信池中的垃圾短信所包含的关键信息进行匹配;
需要注意的是,在垃圾短信池中的数据应当认为是可靠的,这是因为在将垃圾短信存储到垃圾短信池的时候,已经按照了一定的策略(这其中包括举报次数等多重维度),将人工审核或者自动审核后的数据再次抽取,以确保垃圾短信池中的数据的正确性和有效性。
步骤S105,在提取的关键信息与垃圾短信所包含的关键信息匹配成功的情况下,将需要判断的短信确定为垃圾短信。
其中,关键信息包括广告主号码(其中,该号码可以包括QQ号码、电子邮箱地址、电话号码等)、关键字、散列值、短信内容。
在将提取的关键信息与预设的垃圾短信池中的垃圾短信所包含的关键信息进行匹配时,可以根据预定匹配策略,判断从需要判断的短信的内容中提取的关键信息与垃圾短信池的关键信息是否匹配,并在确定结果为是的情况下,确定提取的关键信息与垃圾短信所包含的关键信息匹配成功。
其中,在将提取的关键信息与预设的垃圾短信池中的垃圾短信所包含的关键信息进行匹配时,可以采用单一方式或者多种组合方式的策略进行匹配。例如,可以将匹配策略设置为关键字和广告主的组合,当垃圾短信池中的关键信息(也就是关键字和广告主)与当前判断的短信的关键信息相匹配的时候,则可以认为,当前判断的短信属于垃圾短信。
在另一个实例中,可以将匹配策略设置为散列值,同样的,当垃圾短信池中的关键信息(这里,该关键信息为散列值)与当前判断的短信的关键信息(散列信息)相匹配的时候,则可以认为当前判断的短信属于垃圾短信。
在以上列举的实例中,从需要判断的短信中提取的X是指已经完成修正和还原的广告主号码,例如,假设一个电话号码为“10000”,很多垃圾短信中会将其中的数字“0”写为大些字母“O”,从而避免被过滤,此时提取的X是已经修正了这些形似字或形似符号后还原得到的广告主号码。类似地,关键字A、B和C同样是经过还原处理后的关键字。
在进行比较时,不论是对于需要判断的短信还是对于垃圾短信池中的垃圾短信,都需要获得(提取)上述还原后的关键信息(包括广告主号码)和关键字),可以通过以下方式中的至少之一确定短信中的关键信息:
对该短信的内容进行全角解析和半角解析;
通过对该短信的内容进行形似数字解析,将与数字类似的符号或文字转换为数字;
确定该短信的内容中数字串的含义和类型;
对该短信的内容中包含的广告主号码的数量进行判断;
将该短信中数字串的字符之间的分割符号去除。
此外,在将需要判断的短信确定为垃圾短信之后,可以将该短信按照一定策略存入垃圾短信池,并,例如,对于一条被判断为垃圾短信的短信息,可以根据用户举报的次数、该短信出现的频率、用户终端举报时提交的信息(例如,该短信是否是通过该终端电话表之外的未知号码发送到该终端的)来进行维度计算,并根据维度判断策略确定是否将该短信加入垃圾短信池中,并且,在判断时,不同的条件可以赋予不同的权重值。此外,还可以对该垃圾短信池进行定时维护,例如,可以清理一段时间没有出现的垃圾短信。这样,随着已审核垃圾短信池的不断更新充实,使得能够通过自动判断的短信关键信息的种类越来越丰富,相应地需要人工审核的短信和工作量将越来越少,从而进一步降低人工审核的工作量。
而且,存储到垃圾短信池中的数据,可以来自自动审核,也可以来自人工审核,这样做的目的,是为了保持垃圾短信池的有效成长,以应对更多的垃圾短信的判断。
在实际应用中,可以首先对疑似垃圾段短信内容中的数字、字母及中文关键字进行判断条件提取,将已提取的判断条件内容与“垃圾短信池中的关键信息进行匹配,同时满足数字/字母与关键字的匹配条件则对该条短信数据进行自动审核。
之后,可以将已经进行自动审核匹配的数据提交至移动运营商人工客服。
另外,除了用数字/字母及中文关键字做自动审核外,还可以用短信的散列值来与“已审核垃圾短信池”中的垃圾短信做匹配和自动审核。
根据本发明的另一实施例,提供了一种短信处理装置。
如图2所示,根据本发明实施例的短信处理装置包括:
提取模块21,用于从需要判断的短信的内容中提取关键信息;
比较模块22,连接至提取模块21,用于将提取的关键信息与预设的垃圾短信池中的垃圾短信所包含的关键信息进行匹配;
存储模块23,连接至比较模块22,用于存储垃圾短信池;
确定模块24,连接至比较模块22,用于在提取的关键信息与垃圾短信所包含的关键信息匹配成功的情况下,将需要判断的短信确定为垃圾短信。
其中,关键信息包括广告主号码、关键字、散列值、短信内容。
此外,比较模块具体用于将需要判断的疑似短信的关键信息与垃圾短信池中的关键信息进行匹配,匹配的时候可以选择一定的策略,如:选用广告主和关键字,或者散列值,或者短信内容,或者组合使用上述条件,当选用了一定的策略,并在需要判断的短信与垃圾短信池中的数据相匹配的时候,确定该短信的垃圾属性。
提取模块则可以用于提取需要判断的短信进行关键信息(包括广告主、关键字、散列值以及短信内容),通过以下方式中的至少之一,提取需要判断的短信的关键信息、或确定垃圾短信池中垃圾短信所包含的关键信息:
对该短信的内容进行全角解析和半角解析;
通过对该短信的内容进行形似数字解析,将与数字类似的符号或文字转换为数字;确定该短信的内容中数字串的含义和类型;对该短信的内容中包含的广告主号码的数量进行判断;将该短信中数字串的字符之间的分割符号去除。
处理模块还用于在将需要判断的短信确定为垃圾短信之后,将该短信存入存储模块保存的垃圾短信池中。
综上所述,借助于本发明的上述技术方案,通过根据短信内容中的关键信息进行垃圾短信的判断,能够减少人工审核垃圾短信的工作量,将以往通过人工等审核的短信数据作为基础数据库并自动生成对应匹配规则,以此方式对短信息纪录进行自动审核匹配,提高短信的审核效率和准确率,并且能够通过提取和判断方式的学习来完善短信审核,使移动运营商垃圾短信人工客服审核工作量下降至少80%。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种短信处理方法,其特征在于,包括:
对于需要判断的短信,从所述短信的内容中提取关键信息;
将提取的所述关键信息与预设的垃圾短信池中的垃圾短信所包含的关键信息进行匹配;
在提取的所述关键信息与所述垃圾短信所包含的关键信息匹配成功的情况下,将所述需要判断的短信确定为垃圾短信。
2.根据权利要求1所述的短信处理方法,其特征在于,所述关键信息包括广告主号码、关键字、散列值、短信内容。
3.根据权利要求1所述的短信处理方法,其特征在于,将提取的所述关键信息与预设的垃圾短信池中的垃圾短信所包含的关键信息进行匹配包括:
根据预定匹配策略,判断从所述需要判断的短信的内容中提取的所述的关键信息与所述垃圾短信池的所述关键信息是否匹配,并在确定结果为是的情况下,确定提取的所述关键信息与所述垃圾短信所包含的关键信息匹配成功。
4.根据权利要求1所述的短信处理方法,其特征在于,通过以下方式中的至少之一,提取所述需要判断的短信的关键信息、或确定所述垃圾短信池中垃圾短信所包含的关键信息:
对该短信的内容进行全角解析和半角解析;
通过对该短信的内容进行形似数字解析,将与数字类似的符号或文字转换为数字;
确定该短信的内容中数字串的含义和类型;
对该短信的内容中包含的广告主号码的数量进行判断;
将该短信中数字串的字符之间的分割符号去除。
5.根据权利要求1所述的短信处理方法,其特征在于,在将所述需要判断的短信确定为垃圾短信之后,所述方法进一步包括:
将该短信存入所述垃圾短信池。
6.一种短信处理装置,其特征在于,包括:
提取模块,用于从需要判断的短信的内容中提取关键信息;
比较模块,用于将提取的所述关键信息与预设的垃圾短信池中的垃圾短信所包含的关键信息进行匹配;
存储模块,用于存储所述垃圾短信池;
确定模块,在提取的所述关键信息与所述垃圾短信所包含的关键信息匹配成功的情况下,将所述需要判断的短信确定为垃圾短信。
7.根据权利要求6所述的短信处理装置,其特征在于,所述关键信息包括广告主号码、关键字、散列值、短信内容。
8.根据权利要求7所述的短信处理装置,其特征在于,所述比较模块具体用于根据预定匹配策略,判断从所述需要判断的短信的内容中提取的所述的关键信息与所述垃圾短信池的所述关键信息是否匹配,并且所述比较模块还用于在确定结果为是的情况下,确定提取的所述关键信息与所述垃圾短信所包含的关键信息匹配成功。
9.根据权利要求6所述的短信处理装置,其特征在于,所述提取模块用于通过以下方式中的至少之一,提取所述需要判断的短信的关键信息、或确定所述垃圾短信池中垃圾短信所包含的关键信息:
对该短信的内容进行全角解析和半角解析;
通过对该短信的内容进行形似数字解析,将与数字类似的符号或文字转换为数字;
确定该短信的内容中数字串的含义和类型;
对该短信的内容中包含的广告主号码的数量进行判断;
将该短信中数字串的字符之间的分割符号去除。
10.根据权利要求6所述的短信处理装置,其特征在于,所述处理模块还用于在将所述需要判断的短信确定为垃圾短信之后,通过预定的维度策略判断是否需要将该垃圾短信存入所述存储模块保存的垃圾短信池中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011103556400A CN103108290A (zh) | 2011-11-09 | 2011-11-09 | 短信处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011103556400A CN103108290A (zh) | 2011-11-09 | 2011-11-09 | 短信处理方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103108290A true CN103108290A (zh) | 2013-05-15 |
Family
ID=48315798
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011103556400A Pending CN103108290A (zh) | 2011-11-09 | 2011-11-09 | 短信处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103108290A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103888921A (zh) * | 2013-09-21 | 2014-06-25 | 天津思博科科技发展有限公司 | 一种短信智能删除模块 |
WO2015010453A1 (en) * | 2013-07-24 | 2015-01-29 | Tencent Technology (Shenzhen) Company Limited | Systems and methods for spam interception |
CN105354284A (zh) * | 2015-10-30 | 2016-02-24 | 小米科技有限责任公司 | 模板的处理方法及装置、短信识别方法及装置 |
CN105516940A (zh) * | 2014-09-22 | 2016-04-20 | 中兴通讯股份有限公司 | 一种短信处理的方法及装置 |
CN105721697A (zh) * | 2016-02-18 | 2016-06-29 | 吴伟东 | 手机短信屏蔽方法及系统 |
CN105893501A (zh) * | 2016-03-30 | 2016-08-24 | 中国联合网络通信集团有限公司 | 信息查询短信处理方法和系统 |
WO2017139955A1 (zh) * | 2016-02-18 | 2017-08-24 | 吴伟东 | 手机短信屏蔽方法及系统 |
CN109525951A (zh) * | 2018-12-03 | 2019-03-26 | 中国联合网络通信集团有限公司 | 垃圾短信处理方法、装置及设备 |
CN112004201A (zh) * | 2020-08-14 | 2020-11-27 | 苏宁云计算有限公司 | 一种短信的发送方法、装置及计算机系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080001729A (ko) * | 2006-06-29 | 2008-01-04 | 삼성전자주식회사 | 단문 메시지 처리 방법 및 장치 |
CN101697620A (zh) * | 2009-10-30 | 2010-04-21 | 中兴通讯股份有限公司 | 一种垃圾短信的确定方法和系统 |
CN102045652A (zh) * | 2009-10-21 | 2011-05-04 | 深圳市彩讯科技有限公司 | 基于特征相似度的垃圾短信拦截方法 |
CN102088697A (zh) * | 2010-12-17 | 2011-06-08 | 北京华中融合科技有限公司 | 垃圾短信的处理方法和系统 |
-
2011
- 2011-11-09 CN CN2011103556400A patent/CN103108290A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080001729A (ko) * | 2006-06-29 | 2008-01-04 | 삼성전자주식회사 | 단문 메시지 처리 방법 및 장치 |
CN102045652A (zh) * | 2009-10-21 | 2011-05-04 | 深圳市彩讯科技有限公司 | 基于特征相似度的垃圾短信拦截方法 |
CN101697620A (zh) * | 2009-10-30 | 2010-04-21 | 中兴通讯股份有限公司 | 一种垃圾短信的确定方法和系统 |
CN102088697A (zh) * | 2010-12-17 | 2011-06-08 | 北京华中融合科技有限公司 | 垃圾短信的处理方法和系统 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015010453A1 (en) * | 2013-07-24 | 2015-01-29 | Tencent Technology (Shenzhen) Company Limited | Systems and methods for spam interception |
CN103888921A (zh) * | 2013-09-21 | 2014-06-25 | 天津思博科科技发展有限公司 | 一种短信智能删除模块 |
CN105516940A (zh) * | 2014-09-22 | 2016-04-20 | 中兴通讯股份有限公司 | 一种短信处理的方法及装置 |
CN105354284A (zh) * | 2015-10-30 | 2016-02-24 | 小米科技有限责任公司 | 模板的处理方法及装置、短信识别方法及装置 |
CN105354284B (zh) * | 2015-10-30 | 2019-12-03 | 小米科技有限责任公司 | 模板的处理方法及装置、短信识别方法及装置 |
CN105721697A (zh) * | 2016-02-18 | 2016-06-29 | 吴伟东 | 手机短信屏蔽方法及系统 |
WO2017139955A1 (zh) * | 2016-02-18 | 2017-08-24 | 吴伟东 | 手机短信屏蔽方法及系统 |
CN105893501A (zh) * | 2016-03-30 | 2016-08-24 | 中国联合网络通信集团有限公司 | 信息查询短信处理方法和系统 |
CN109525951A (zh) * | 2018-12-03 | 2019-03-26 | 中国联合网络通信集团有限公司 | 垃圾短信处理方法、装置及设备 |
CN112004201A (zh) * | 2020-08-14 | 2020-11-27 | 苏宁云计算有限公司 | 一种短信的发送方法、装置及计算机系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103108290A (zh) | 短信处理方法和装置 | |
CN101784022A (zh) | 短信过滤、分类方法及系统 | |
CN102761872A (zh) | 一种垃圾短信拦截方法 | |
CN101510879A (zh) | 一种垃圾内容过滤的方法及装置 | |
CN102648464A (zh) | 用于从网络数据中生成词汇的系统和方法 | |
CN101335968B (zh) | 一种垃圾短消息监控后续处理的方法及系统 | |
GB2496120A (en) | Analysis of emails using a hidden Markov model to recognize sections of the email, e.g. header, body, signature block and disclaimer | |
CN101159704A (zh) | 基于微内容相似度的反垃圾方法 | |
CN102761848B (zh) | 一种确定短信拦截关键词的方法 | |
CN102088697A (zh) | 垃圾短信的处理方法和系统 | |
MX2011005771A (es) | Metodo y dispositivo para interceptar correo basura. | |
CN103714056A (zh) | 一种基于后台程序的关键字/敏感词过滤方法 | |
CN102404249A (zh) | 一种基于协同训练的垃圾邮件过滤方法和装置 | |
CN103415004A (zh) | 一种检测垃圾短消息的方法及装置 | |
CN102158428A (zh) | 快速高准确率的垃圾邮件过滤方法 | |
CN101697620A (zh) | 一种垃圾短信的确定方法和系统 | |
CN101909261A (zh) | 一种垃圾短信监控的方法和系统 | |
CN103796183A (zh) | 一种垃圾短信识别方法及装置 | |
CN105589845A (zh) | 垃圾文本识别方法、装置及系统 | |
CN101494546B (zh) | 协作式垃圾邮件防范方法 | |
CN101389085B (zh) | 基于发送行为的垃圾短消息识别系统及方法 | |
CN102045268A (zh) | 一种电子邮件数据恢复方法及装置 | |
CN101094197B (zh) | 反垃圾邮件的方法及其邮件服务器 | |
CN103796207A (zh) | 一种虚假用户号码识别方法及装置 | |
CN102801548A (zh) | 一种智能预警的方法、装置及信息系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20130515 |