CN103874033B - 一种基于中文分词识别不规则垃圾短信的方法 - Google Patents

一种基于中文分词识别不规则垃圾短信的方法 Download PDF

Info

Publication number
CN103874033B
CN103874033B CN201210533577.XA CN201210533577A CN103874033B CN 103874033 B CN103874033 B CN 103874033B CN 201210533577 A CN201210533577 A CN 201210533577A CN 103874033 B CN103874033 B CN 103874033B
Authority
CN
China
Prior art keywords
short message
irregular
word segmentation
refuse messages
chinese word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210533577.XA
Other languages
English (en)
Other versions
CN103874033A (zh
Inventor
肖克华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LIANGJIANG COMMUNICATIONS SYSTEM CO Ltd
Original Assignee
LIANGJIANG COMMUNICATIONS SYSTEM CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LIANGJIANG COMMUNICATIONS SYSTEM CO Ltd filed Critical LIANGJIANG COMMUNICATIONS SYSTEM CO Ltd
Priority to CN201210533577.XA priority Critical patent/CN103874033B/zh
Publication of CN103874033A publication Critical patent/CN103874033A/zh
Application granted granted Critical
Publication of CN103874033B publication Critical patent/CN103874033B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于中文分词识别不规则垃圾短信的方法,对于同一短信,依据短信的内容,先按照正常的横向读取进行中文分词,根据分词结果的单词个数计算权重。再根据不规则短信必须控制每行短信字符数的特点,判定不规则短信内容的范围,对不规则排列短信内容范围内的字符采取竖向转换为横向排列,然后进行中文分词,根据总体的分词结果的单词个数计算权重。然后根据两次权重比较,判断此短信是正常排列的短信,还是不规则排列的短信。进而依据排列的类型,再采用内容分析匹配关键字,识别是否垃圾短信,进而避免了垃圾短信的漏判,提高垃圾短信的查全率和查准率。

Description

一种基于中文分词识别不规则垃圾短信的方法
技术领域
本发明涉及一种垃圾短信的识别方法,尤其涉及一种基于中文分词识别不规则垃圾短信的方法。
背景技术
目前,短信息服务作为移动通信网络的一种基本业务,在为用户提供便捷消息通信服务的同时,也成为反动、涉黄和诈骗等非法短信的发送渠道。在垃圾短信治理领域,具有申请号:200710036831.4的专利《一种基于信令处理技术的短信净化系统》,该专利定义的系统由若干台连接于七号信令网中信令链路的信令消息检测处理装置MPM和一业务管理中心CSM构成。MPM对流经的短信消息进行分析处理,根据业务规则与黑白名单,实现短信的选通与拦截处理,将相关消息传送给CSM,CSM进行频次统计、业务规则与用户数据管理与同步。
在MPM和CSM系统中,针对垃圾短信的发送特征多为诈骗或者广告,采用发送行为分析(流量)和文本特征分析(关键字等)方式进行短信治理,对于垃圾短信的发现和治理是一定成效的。而在短信内容过滤上,一般按照短信的编码顺序,分析短信,判断是否符合关键字过滤规则,也就是在手机上通常看到的从左到右的短信排列方式。但是,为了规避关键字过滤,垃圾短信出现了采用了不规则排列方式,如仿照古文从上至下的文本排列方式,区别与正常短信排列方式,以逃避关键字过滤。
对于此种不规则垃圾短信,目前多采用单个关键字组合联合判定的方式,判定短信是否符合关键字规则,即把关键字“发票”拆分为“发”和“票”两个关键字,同时符合“发”和“票”的短信等同于“发票”。此种方法虽然一定程度上识别出符合关键字的不规则垃圾短信,但也同时造成部分不是包含“发票”的正常短信被判别为垃圾短信,降低了垃圾短信识别的准确率。
发明内容
本发明的目的在于提供一种基于中文分词识别不规则垃圾短信的方法,该方法采用中文分词技术,从横向和竖向两方面分别分析短信的词语组成,分别计算短信权重,判定是否为不规则垃圾短信,对于通过竖排试图规避内容过滤的短信,判定为不规则短信后,可以根据竖排的读取方式,过滤短信,避免了垃圾短信的漏判,进而提高垃圾短信的查全率和查准率。
实现上述目的的技术方案是:
一种基于中文分词识别不规则垃圾短信的方法,包括下列步骤:
步骤S1,接收短信,读取短信内容;
步骤S2,根据短信内容,按照从左到右的横向排列方式,进行中文分词;
步骤S 3,按步骤S2的中文分词结果,记录单词个数W1,W1为正整数,计算短信横排权重Q1=1/(1+W1);
步骤S4,根据不规则排列短信用控制字符控制每行短信字符数的特点,计算上述接收的短信的不规则区域,将不规则区域中的短信内容按照竖向排列方式读取,按照读取的短信内容,将上述接收的短信转换为横向排列的短信;
步骤S5,对步骤S4中转换得到的短信,按照从左到右的横向排列方式进行中文分词;
步骤S6,按步骤S5的中文分词结果,记录单词个数W2,W2为正整数,计算短信竖排权重Q2=1/(1+W2);
步骤S7,比较短信横排权重Q1与短信竖排权重Q2,若Q1<Q2,进入步骤S8b;若Q1>=Q2,进入步骤S8a;
步骤S8a,判定短信为正常排列短信;
步骤S8b,判定短信为不规则排列短信。
上述的基于中文分词识别不规则垃圾短信的方法,其中,所述步骤S4中,所述的计算上述接收的短信的不规则区域,指:计算每行字符的个数,按照每行的字符个数模型,确定短信的不规则区域。
上述的基于中文分词识别不规则垃圾短信的方法,其中,所述的每行的字符个数模型,指:等长规则或者等差规则,其中,等长规则指:当前行的字符个数和上一行的字符个数相等;等差规则指:当前行的字符个数与上一行的字符个数的差等于同一个常数。
上述的基于中文分词识别不规则垃圾短信的方法,其中,所述的不规则排列短信包括:竖排短信、横竖混排短信和竖排异形短信。
上述的基于中文分词识别不规则垃圾短信的方法,其中,根据判定的短信类型,采用内容分析匹配关键字,依据规则识别出是否符合关键字,从而识别是否为垃圾短信。
上述的基于中文分词识别不规则垃圾短信的方法,其中,所述方法基于连接于七号信令网中信令链路的信令消息检测处理装置以及连接所述信令消息检测处理装置的业务管理中心。
本发明的有益效果是:本发明通过分析短信内容,采用中文分词技术,从横向和竖向两方面分别分析短信的词语组成,根据分词单词个数,分别计算短信权重,按语义判定短信应该是正常的从左至右排列方式读取,还是不规则排列的读取。进而为短信内容分析提供依据,完成短信内容过滤,提高垃圾短信的查全率和查准率。本发明对于通过竖排试图规避内容过滤的短信,在判定为不规则短信后,可以根据竖排的读取方式,过滤短信,避免了垃圾短信的漏判。
附图说明
图1是本发明的基于中文分词识别不规则垃圾短信的方法的流程图。
具体实施方式
下面将结合附图对本发明作进一步说明。
为了便于本领域技术人员理解和实现本发明,以下列短信为例,描述本发明的实施例:
如上,为规避关键字识别,垃圾短信采用不规则排列方式。在通常设置“发票”或者“提供”等关键字时,正常排短信短信能够匹配关键字,而采用不规则排列方式,按照正常排列无法匹配关键字。
请参阅图1,本发明的基于中文分词识别不规则垃圾短信的方法,包括下列步骤:
步骤S1,接收短信,读取短信内容;以上述短信为例:
内容实际对应的一种编码(UCS2):
通用字符集(Universal Character Set,UCS)是由ISO制定的ISO 10646标准所定义的标准字符集。短信可以采用三种编码方式来对内容进行编码,它们是7-bit、8-bit和UCS2编码,对于包含中文的短信采用UCS2编码。UCS2用两个字节编码。
步骤S2,根据上述短信内容,按照传统正常的从左到右的横向排列方式,进行中文分词,如下:
步骤S3,按步骤S2的中文分词结果,记录单词个数W1,W1为正整数,计算短信横排权重Q1=1/(1+W1);计算结果为:W1=11,Q1=0.0833。
步骤S4,根据不规则排列短信的控制字符的特点,即必须控制每行短信字符数(因为电话屏幕宽度不同,必须控制每行字符数),计算上述接收的短信的不规则区域,即计算每行字符的个数,按照每行的字符个数模型,确定短信的不规则区域,将不规则区域中的短信内容按照竖向排列方式读取,然后按照读取的短信内容,将上述接收的短信转换为横向排列的短信,转换后的短信如下:
上述的每行的字符个数模型指:等长规则或者等差规则,其中,等长规则指:当前行的字符个数和上一行的字符个数相等;等差规则指:当前行的字符个数与上一行的字符个数的差等于同一个常数。
步骤S5,对步骤S4中转换得到的短信,按照从左到右的横向排列方式进行中文分词,如下;
步骤S6,按步骤S5的中文分词结果,记录单词个数W2,W2为正整数,计算短信竖排权重Q2=1/(1+W2);计算结果为:W2=7,Q2=0.125。
步骤S7,比较短信横排权重Q1与短信竖排权重Q2,若Q1<Q2,进入步骤S8b;若Q1>=Q2,进入步骤S8a;
步骤S8a,判定短信为正常排列短信;
步骤S8b,判定短信为不规则排列短信。显然,因为Q1=0.0833<Q2=0.125,所以上述接收短信为不规则排列短信。不规则排列短信包括:竖排短信、横竖混排短信和竖排异形短信。
最后,根据判定的短信类型,采用内容分析匹配关键字,依据排列规则识别出是否符合关键字,从而识别是否为垃圾短信。
本发明基于连接于七号信令网中信令链路的信令消息检测处理装置以及连接所述信令消息检测处理装置的业务管理中心。
综上,本发明对于同一短信,依据短信的内容,按照正常的横向读取进行中文分词,根据分词结果的单词个数计算权重;然后根据不规则短信必须控制每行短信字符数的技术特点,判定不规则短信内容的范围,对不规则排列短信内容范围内的字符按照竖向读取,转换为横向排列,进行中文分词,根据总体的分词结果的单词个数计算权重。根据两次权重大小,判断此短信是正常排列的短信,还是不规则排列的短信。进而依据排列类型采用内容分析匹配关键字,识别是否垃圾短信。进而为短信内容分析提供依据,完成短信内容过滤,提高垃圾短信的查全率和查准率。
以上实施例仅供说明本发明之用,而非对本发明的限制,有关技术领域的技术人员,在不脱离本发明的精神和范围的情况下,还可以作出各种变换或变型,因此所有等同的技术方案也应该属于本发明的范畴,应由各权利要求所限定。

Claims (4)

1.一种基于中文分词识别不规则垃圾短信的方法,其特征在于,包括下列步骤:
步骤S1,接收短信,读取短信内容;
步骤S2,根据短信内容,按照从左到右的横向排列方式,进行中文分词;
步骤S3,按步骤S2的中文分词结果,记录单词个数W1,W1为正整数,计算短信横排权重Q1=1/(1+W1);
步骤S4,根据不规则排列短信用控制字符控制每行短信字符数的特点,计算上述接收的短信的不规则区域,将不规则区域中的短信内容按照竖向排列方式读取,按照读取的短信内容,将上述接收的短信转换为横向排列的短信;
步骤S5,对步骤S4中转换得到的短信,按照从左到右的横向排列方式进行中文分词;
步骤S6,按步骤S5的中文分词结果,记录单词个数W2,W2为正整数,计算短信竖排权重Q2=1/(1+W2);
步骤S7,比较短信横排权重Q1与短信竖排权重Q2,若Q1<Q2,进入步骤S8b;若Q1>=Q2,进入步骤S8a;
步骤S8a,判定短信为正常排列短信;
步骤S8b,判定短信为不规则排列短信,
所述步骤S4中,所述的计算上述接收的短信的不规则区域,指:计算每行字符的个数,按照每行的字符个数模型,确定短信的不规则区域,
所述的每行的字符个数模型,指:等长规则或者等差规则,其中,等长规则指:当前行的字符个数和上一行的字符个数相等;等差规则指:当前行的字符个数与上一行的字符个数的差等于同一个常数。
2.根据权利要求1所述的基于中文分词识别不规则垃圾短信的方法,其特征在于,所述的不规则排列短信包括:竖排短信、横竖混排短信和竖排异形短信。
3.根据权利要求2所述的基于中文分词识别不规则垃圾短信的方法,其特征在于,根据判定的短信类型,采用内容分析匹配关键字,依据规则识别出是否符合关键字,从而识别是否为垃圾短信。
4.根据权利要求1所述的基于中文分词识别不规则垃圾短信的方法,其特征在于,所述方法基于连接于七号信令网中信令链路的信令消息检测处理装置以及连接所述信令消息检测处理装置的业务管理中心。
CN201210533577.XA 2012-12-12 2012-12-12 一种基于中文分词识别不规则垃圾短信的方法 Expired - Fee Related CN103874033B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210533577.XA CN103874033B (zh) 2012-12-12 2012-12-12 一种基于中文分词识别不规则垃圾短信的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210533577.XA CN103874033B (zh) 2012-12-12 2012-12-12 一种基于中文分词识别不规则垃圾短信的方法

Publications (2)

Publication Number Publication Date
CN103874033A CN103874033A (zh) 2014-06-18
CN103874033B true CN103874033B (zh) 2017-11-24

Family

ID=50912083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210533577.XA Expired - Fee Related CN103874033B (zh) 2012-12-12 2012-12-12 一种基于中文分词识别不规则垃圾短信的方法

Country Status (1)

Country Link
CN (1) CN103874033B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105898722B (zh) * 2016-03-31 2019-07-26 联想(北京)有限公司 一种非正常短信息的鉴别方法、装置和电子设备
CN108052508B (zh) * 2017-12-29 2021-11-09 北京嘉和海森健康科技有限公司 一种信息抽取方法及装置
CN109597987A (zh) * 2018-10-25 2019-04-09 阿里巴巴集团控股有限公司 一种文本还原方法、装置及电子设备
CN112380323A (zh) * 2020-12-01 2021-02-19 合肥大多数信息科技有限公司 一种基于中文分词识别技术的垃圾信息剔除系统及方法
CN115410207B (zh) * 2021-05-28 2023-08-29 国家计算机网络与信息安全管理中心天津分中心 一种针对竖排文本的检测方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101329668A (zh) * 2007-06-18 2008-12-24 电子科技大学 一种信息规则生成方法及装置、信息类型判断方法及系统
CN101621391A (zh) * 2009-08-07 2010-01-06 北京百问百答网络技术有限公司 基于概率主题进行短文本分类的方法及系统
CN102761872A (zh) * 2012-08-01 2012-10-31 成都四方信息技术有限公司 一种垃圾短信拦截方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8150679B2 (en) * 2008-08-15 2012-04-03 Hewlett-Packard Development Company, L.P. Apparatus, and associated method, for detecting fraudulent text message

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101329668A (zh) * 2007-06-18 2008-12-24 电子科技大学 一种信息规则生成方法及装置、信息类型判断方法及系统
CN101621391A (zh) * 2009-08-07 2010-01-06 北京百问百答网络技术有限公司 基于概率主题进行短文本分类的方法及系统
CN102761872A (zh) * 2012-08-01 2012-10-31 成都四方信息技术有限公司 一种垃圾短信拦截方法

Also Published As

Publication number Publication date
CN103874033A (zh) 2014-06-18

Similar Documents

Publication Publication Date Title
CN103874033B (zh) 一种基于中文分词识别不规则垃圾短信的方法
EP3214861B1 (en) Method, device and system for detecting fraudulent user
CN102801859B (zh) 垃圾短信的识别方法、装置和具有该装置的移动通信终端
CN103067896B (zh) 垃圾短信过滤方法及装置
CN103414600B (zh) 近似匹配方法和相关设备及通信系统
US10387460B2 (en) Method and apparatus for processing text information
CN106412861B (zh) 一种短信分发方法及系统
CN102932775A (zh) 一种利用imei与ua结合进行终端识别的方法及装置
CN111225350B (zh) 一种短信的智能路由方法及其装置
CN105404639A (zh) 未读消息推送显示排序的方法及装置
CN105516084B (zh) 一种呼叫方法、呼叫服务器
CN101296441A (zh) 一种扫描二维条码发送消息的方法及装置
CN108366052A (zh) 验证短信的处理方法及系统
CN103369486A (zh) 诈骗短信防范系统与防范方法
CN102098640B (zh) 一种识别并阻止设备发送垃圾短信的方法、设备和系统
CN109474755B (zh) 基于排序学习和集成学习的异常电话主动预测方法、系统及计算机可读存储介质
CN102905236B (zh) 一种垃圾短消息监控方法、装置及系统
CN112217944B (zh) 在线话单处理方法、装置、设备以及存储介质
CN109104429B (zh) 一种针对网络诈骗信息的检测方法
CN108990061B (zh) 一种身份证号防盗用的方法、装置及系统
CN106412903A (zh) 移动终端数据传输方法和装置
CN111356004B (zh) 通用视频文件的存储方法及系统
CN105426405B (zh) 信息处理方法及移动终端
KR101565821B1 (ko) 메시지 필터링 방법, 이를 수행하는 사용자 단말 및 이를 저장하는 기록매체
KR100962045B1 (ko) 메시지 필터링 장치 및 그 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171124

Termination date: 20201212

CF01 Termination of patent right due to non-payment of annual fee