CN104714938B - 一种信息处理的方法及电子设备 - Google Patents

一种信息处理的方法及电子设备 Download PDF

Info

Publication number
CN104714938B
CN104714938B CN201310683961.2A CN201310683961A CN104714938B CN 104714938 B CN104714938 B CN 104714938B CN 201310683961 A CN201310683961 A CN 201310683961A CN 104714938 B CN104714938 B CN 104714938B
Authority
CN
China
Prior art keywords
information
junk
electronic equipment
character
described information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310683961.2A
Other languages
English (en)
Other versions
CN104714938A (zh
Inventor
吴昱明
周丹
王石
曹存根
贾炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Institute of Computing Technology of CAS
Original Assignee
Lenovo Beijing Ltd
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd, Institute of Computing Technology of CAS filed Critical Lenovo Beijing Ltd
Priority to CN201310683961.2A priority Critical patent/CN104714938B/zh
Publication of CN104714938A publication Critical patent/CN104714938A/zh
Application granted granted Critical
Publication of CN104714938B publication Critical patent/CN104714938B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种信息处理方法,应用于一电子设备中,所述电子设备能够获得一垃圾信息样本数据库,当所述电子设备接收到一信息时,所述方法包括:通过第一预定规则判断所述信息是否为垃圾信息;当通过所述第一预定规则判断所述信息不是垃圾信息时,将所述信息与所述垃圾信息样本数据库中的垃圾信息样本进行匹配,判断匹配结果是否满足第二预定规则;当匹配不成功时,通过第三预定规则判断所述信息是否为垃圾信息。通过该方法,消除了现有技术中垃圾信息过滤精度有限的技术问题,实现了提高垃圾信息过滤准确性的技术效果。

Description

一种信息处理的方法及电子设备
技术领域
本发明涉及电子技术领域,尤其涉及一种信息处理的方法及电子设备。
背景技术
垃圾信息过滤是应用自然语言处理技术,对手机以及其他即时通讯软件接收到的带有欺骗、色情、广告等内容的短信进行过滤。
从信息内容的是否合法的角度来看,垃圾信息可分为非法垃圾信息和普通垃圾信息。非法垃圾信息的类型包括诈骗、色情服务、发票等,这类垃圾信息为避免被关键词过滤系统过滤,对信息中出现的关键词汇通常采用变体处理,如“发票”变体为“发\票\”。普通垃圾信息的主要房产广告、运营商推送信息、商家促销活动信息等,这类垃圾信息一般不包含变体。
已有的垃圾信息过滤方法主要存在以下问题:
通过垃圾信息中出现的关键词进行过滤,难以避免自然语言经常出现的组合;依据文本的词汇语法特征对文本进行过滤,难以过滤掉不包含明显语法特征的垃圾信息;所需数据资源规模大,难以直接部署到手机客户端,需要将信息上传至服务器进行过滤,这存在泄露用户隐私风险。
因此,迫切需要一种能提高垃圾信息过滤精度的方法,从而更好保护用户隐私,提高垃圾信息过滤的准确性。
发明内容
本申请实施例通过提供一种信息处理的方法及电子设备,消除了现有技术中垃圾信息过滤精度有限的技术问题,实现了提高垃圾信息过滤准确性的技术效果。
本申请实施例提供了一种信息处理方法,应用于一电子设备中,所述电子设备能够获得一垃圾信息样本数据库,当所述电子设备接收到一信息时,所述方法包括:通过第一预定规则判断所述信息是否为垃圾信息;当通过所述第一预定规则判断所述信息不是垃圾信息时,将所述信息与所述垃圾信息样本数据库中的垃圾信息样本进行匹配,判断匹配结果是否满足第二预定规则;当匹配不成功时,通过第三预定规则判断所述信息是否为垃圾信息。
可选的,所述通过第一预定规则判断所述信息是否为垃圾信息,包括:检测第一类字符在所述信息中的种类和/或数量是否达到第一预设条件。
可选的,所述将所述信息与所述垃圾信息样本数据库中的垃圾信息样本进行匹配,判断匹配结果是否满足第二预定规则,具体包括:保留所述信息中的文字字符,去除所述信息中的其它字符符号,获得信息文本;将所述信息文本与所述垃圾信息样本数据库中的垃圾信息样本进行匹配;判断所述信息文本与所述垃圾信息样本相似值是否达到一预设值。
可选的,当所述信息为垃圾信息时,所述方法还包括:保留所述信息中的文字字符,去除所述信息中的其它字符符号,获得信息文本;将所述信息文本添加到所述垃圾信息样本数据库中。
可选的,所述通过第三预定规则判断所述信息是否为垃圾信息,具体包括:对所述信息进行语义分析,获得一分析结果;基于一预定义的垃圾短信语义文法规则,判断所述分析结果是否与所述垃圾短信语义文法规则匹配。
可选的,所述方法还包括:去除所述垃圾信息样本数据库中出现频率小于第二预设值的词汇;去除所述词汇的子串词汇。
可选的,所述电子设备还能够获得一合法词汇表,判断所述信息为垃圾信息后,所述方法还包括:检测所述信息中是否包含有所述合法词汇表的字符;当所述信息包含所述合法词汇表的字符,召回所述信息。
本发明还提供了一种电子设备,能够获得一垃圾信息样本数据库,所述电子设备包括:第一处理模块,用于当所述电子设备接收到一信息时,通过第一预定规则判断所述信息是否为垃圾信息;第二处理模块,用于当通过所述第一预定规则判断所述信息不是垃圾信息时,将所述信息与所述垃圾信息样本数据库中的垃圾信息样本进行匹配,判断匹配结果是否满足第二预定规则;第三处理模块,用于当匹配不成功时,通过第三预定规则判断所述信息是否为垃圾信息。
可选的,所述第一处理模块具体用于:检测第一类字符在所述信息中的种类和/或数量是否达到第一预设条件。
可选的,所述第二处理模块具体用于:保留所述信息中的文字字符,去除所述信息中的其它字符符号,获得信息文本;将所述信息文本与所述垃圾信息样本数据库中的垃圾信息样本进行匹配;判断所述信息文本与所述垃圾信息样本相似值是否达到一预设值。
可选的,所述电子设备还包括:第四处理模块,用于当所述信息为垃圾信息时,保留所述信息中的文字字符,去除所述信息中的其它字符符号,获得信息文本;将所述信息文本添加到所述垃圾信息样本数据库中。
可选的,所述第三处理模块具体用于:对所述信息进行语义分析,获得一分析结果;基于一预定义的垃圾短信语义文法规则,判断所述分析结果是否与所述垃圾短信语义文法规则匹配。
可选的,所述电子设备还包括:第五处理模块,用于去除所述垃圾信息样本数据库中出现频率小于第二预设值的词汇;去除所述词汇的子串词汇。
可选的,所述电子设备还能够获得一合法词汇表,所述电子设备还包括:第六处理模块,用于判断所述信息为垃圾信息后,检测所述信息中是否包含有所述合法词汇表的字符;当所述信息包含所述合法词汇表的字符,召回所述信息。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
首先,通过第一预定规则判断信息是否为垃圾信息,其次,将信息与垃圾信息样本数据库中的垃圾信息样本进行匹配,最后,通过第三预定规则判断信息是否为垃圾信息。通过将这三种方法结合,层层递进,判断并过滤垃圾信息,消除了现有技术中垃圾信息过滤精度有限的技术问题,实现了提高垃圾信息过滤准确性的技术效果。
附图说明
图1A-图1C为本发明一实施例中的信息处理方法的流程图;
图2A-图2C为本发明一实施例中基于相似性的过滤方法的流程图;
图3A-图3C为本发明一实施例中根据预定义的垃圾短信语义文法规则,对短信文本内容进行匹配的方法流程图;
图4为本发明一实施例中的电子设备的功能框图。
具体实施方式
本申请实施例通过提供一种信息处理的方法及电子设备,消除了现有技术中垃圾信息过滤精度有限的技术问题,实现了从语法和语义相结合角度对垃圾信息进行过滤,进而提高了垃圾信息过滤准确性的技术效果。
本申请实施例中的技术方案为解决上述的技术问题,总体思路如下:
本发明一实施例中提供一种信息处理的方法,应用于一电子设备中,所述电子设备能够获得一垃圾信息样本数据库,当所述电子设备接收到一信息时,所述方法包括:通过第一预定规则判断所述信息是否为垃圾信息;当通过所述第一预定规则判断所述信息不是垃圾信息时,将所述信息与所述垃圾信息样本数据库中的垃圾信息样本进行匹配,判断匹配结果是否满足第二预定规则;当匹配不成功时,通过第三预定规则判断所述信息是否为垃圾信息。首先,通过第一预定规则判断信息是否为垃圾信息,其次,将信息与垃圾信息样本数据库中的垃圾信息样本进行匹配,最后,通过第三预定规则判断信息是否为垃圾信息。通过将这三种方法结合,层层递进,判断并过滤垃圾信息,消除了现有技术中垃圾信息过滤精度有限的技术问题,实现了从语法和语义相结合角度对垃圾信息进行过滤,进而提高了垃圾信息过滤准确性的技术效果。
为了更好的理解上述技术方案,下面结合附图对本申请实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。
请参考图1A,本发明一实施例提供一种信息处理的方法,应用于一电子设备中,该电子设备可以是笔记本电脑,平板电脑,手机等等。该电子设备能够获得一垃圾信息样本数据库,当电子设备接收到一信息时,方法包括:
步骤101:通过第一预定规则判断信息是否为垃圾信息;
步骤102:当通过第一预定规则判断信息不是垃圾信息时,将信息与垃圾信息样本数据库中的垃圾信息样本进行匹配,判断匹配结果是否满足第二预定规则;
步骤103:当匹配不成功时,通过第三预定规则判断信息是否为垃圾信息。
其中,垃圾信息样本数据库可以是存储在电子设备的存储单元中,也可以是存储在服务器上,当电子设备更新垃圾信息样本数据库或需要将信息与垃圾信息样本匹配时,将垃圾信息样本数据库下载到电子设备中。电子设备接收到的信息可以是短信,此时,本发明方法可以在手机中用于拦截垃圾短信;电子设备接收到的信息也可以是即时通讯软件接收到的网络信息,例如QQ,微信等通信软件之间在进行通信的过程中,收到的信息。
进一步,步骤101中,通过第一预定规则判断信息是否为垃圾信息,具体包括:检测第一类字符在信息中的种类和/或数量是否达到第一预设条件。
在具体实施过程中,第一类字符可以是特殊字符,特殊字符包含但不限于以下内容:“*”、“/”、“\”、“~”、“#”等,例如,“如需办理《国#地#》税#《票据》上网可验.价点优惠联系电话:①③⑥⑥⑦⑨OO⑤⑧⑧小王”的信息中的“#”、“《”、“》”是特殊字符。当然,在实际运用中,上述例子中的变体字符“①”、“⑤”、“⑥”、“⑦”、“⑨”等也可以是特殊字符。
在实际运用中,第一类字符也可以是特殊词汇,特殊词汇可以是在信息原文中包含特殊字符的词汇,例如“好!-贵州,地~~国-税等普通~税--票(机打,手写)-对外。电;187866402018王小红”,其中,“国税”在短信原文中包含特殊字符“-”;“税票”在短信原文中包含特殊字符“--”。当然,特殊词汇也可以是包含赌博、色情等敏感词汇,也可以是简体信息中包含的繁体字。第一预设条件可以是第一类字符在信息中的种类和/或数量所需要达到的一预设值,或者是第一类字符的种类和/或数量在信息中占有的比例所需要达到的一预设值。
以下通过几个具体的手机垃圾短信过滤的实施例来介绍本发明步骤101中的信息处理方法,下面的实施例主要介绍了该信息处理的方法的可能实现过程。需要说明的是,本发明中的实施例只用于解释本发明,而不能用于限制本发明。一切符合本发明思想的实施例均在本发明的保护范围之内,本领域技术人员自然知道应该如何根据本发明的思想进行变形。
(一)识别短信中繁体内容,若存在,则判定为垃圾短信。
在此实施例中,第一类字符是短信中包含的繁体字,第一预设条件是繁体字在短信中的数量不为0。因此,步骤101在此实施例中即为:检测繁体字在短信中的数量是否大于0。
例如:“只要您有对方号^玛,便能帮您复*制对方SIM佧,轻松了解对方的通_话和讯_息内容,電:15989171212李”,其中“電”是繁体字”,直接判定为垃圾短信。当然,此实施例在习惯使用繁体字的地区并不适用,例如台湾地区。较优的,可以设定为:在简体短信中,若存在繁体内容,则判定为垃圾短信。
(二)识别短信中的变体字符若存在判定为垃圾短信。
在此实施例中,第一类字符是短信中包含的变体字符,第一预设条件是变体字符在短信中的数量不为0。因此,步骤101在此实施例中即为:检测变体字符在短信中的数量是否大于0。
例如:“如需办理《国#地#》税#《票据》上网可验.价点优惠联系电话:①③⑥⑥⑦⑨OO⑤⑧⑧小王”,其中包含变体符号“①”、“⑤”、“⑥”、“⑦”、“⑨”,直接判断为垃圾短信。
(三)对短信中的词汇、符号进行量化,定下如下特征:
F1:特殊词汇的数量,在短信原文中包含特殊字符的词汇数量。
例如:“好!-贵州,地~~国-税等普通~税--票(机打,手写)-对外。电;187866402018王小红”分词得到“好!贵州,地国税等普通税票(机打,手写)对外。电;187866402018王小红”。
其中“国税”在短信原文中包含特殊字符“-”;“税票”在短信原文中包含特殊字符“--”,故F1=2。
F2:特殊字符的种类,即在短信原文中出现的特殊字符去掉重复后的数量。
例如上例中有特殊字符“~”和“-”,故F2=2。
F3:特殊字符的数量,即在短信原文中出现的特殊字符去掉重复前的数量。
例如上例中特殊字符“~”出现3次,“-”出现5次,故F3=3+5=8。
F4:特殊字符比例,即去掉空格以后,特殊字符数量占全部字符数量的比例。
例如“最新变牌感应仪,不须练习不限环境。出售最新扑克分析仪,桌上不需放东西。牛牛$三公$金花$对子等庄闲通吃!158748322212”中,特殊符号为“$”,有3个,比例为0.0476,即F4=0.0476。
通过第一预定规则判断短信是否为垃圾短信在此实施例中可以为:
若特殊词汇的数量F1,满足F1>2,则是垃圾短信;
若特殊字符的种类F2,满足F2>2,则是垃圾短信;
若特殊字符的数量F3,满足F3>4,则是垃圾短信;
若特殊符号的个数F3和特殊字符比例F4,满足0.02<F4<0.05,且F3>2,则是垃圾短信;
若特殊符号的种类F2和特殊字符比例F4,满足F2=1,且F3>3,则是垃圾短信。
当然,在此实施例中,F1、F2、F3和F4也可以是在满足其他设定的条件下,判断短信为垃圾短信,对此本申请不做具体限定。
当通过步骤101判断出短信不是垃圾短信时,执行步骤102,即当通过第一预定规则判断信息不是垃圾信息时,将信息与垃圾信息样本数据库中的垃圾信息样本进行匹配,判断匹配结果是否满足第二预定规则。
其中,垃圾信息样本数据库中的垃圾信息样本是对信息进行如下处理获得的:首先,检测第一类字符在信息中的种类和/或数量是否达到第一预设条件,具体实施过程如前述步骤101;其次,如果达到第一预设条件,则判定为垃圾信息;最后,保留信息中的文字字符,去除信息中的其它字符符号,获得信息文本,将信息文本作为垃圾信息样本。
进一步,请参考图1B,步骤102包括以下步骤:
步骤1021:保留信息中的文字字符,去除信息中的其它字符符号,获得信息文本。
在具体实施过程中,去除信息中的其他字符符号,包括过滤掉信息中的网址、电话号码、QQ号码、电子邮件地址以及其他特殊字符。步骤1021中,去除信息中的其它字符符号,其目的是防止非文字字符干扰相似性计算。在获得纯文字字符信息文本后,执行步骤1022。
步骤1022:将信息文本与垃圾信息样本数据库中的垃圾信息样本进行匹配;
在具体实施过程中,可以通过n-gram算法将信息文本和垃圾信息样本拆分成字符块的两个集合,再把这两个集合进行匹配。这时,匹配可以是通过统计两个集合中相同字符块的数量,来计算两个集合的相似值。当然,在实际运用中,也可以是通过其它算法拆分信息文本和垃圾信息样本,匹配也可以是直接统计信息文本和垃圾信息样本相同的文字在信息文本中所占的比例。将信息文本与垃圾信息样本数据库中的垃圾信息样本进行匹配,获得相似值后,执行步骤1023。
步骤1023:判断信息文本与垃圾信息样本相似值是否达到一预设值。
在具体实施过程中,预设值可以是100%,表示只有当信息文本与垃圾信息样本完全相同时,判定为垃圾信息;预设值也可以设置为60%,表示只有当信息文本与垃圾信息样本的相似度达到60%以上时,才判定为垃圾信息。当然,在实际运用中,当将信息文本与垃圾信息样本数据库中的垃圾信息样本进行匹配为统计信息文本和垃圾信息样本相同的文字在信息文本中所占的比例时,预设值设置为60%表示,只有在信息文本中与垃圾信息样本相同的文字所占的比例,超过60%以上时,才判定为垃圾信息。
以下通过一个具体的手机垃圾短信过滤的实施例来介绍本发明步骤102中的信息处理方法,下面的实施例主要介绍了该信息处理的方法的可能实现过程。需要说明的是,本发明中的实施例只用于解释本发明,而不能用于限制本发明。一切符合本发明思想的实施例均在本发明的保护范围之内,本领域技术人员自然知道应该如何根据本发明的思想进行变形。
(四)根据新短信与垃圾短信样本的相似程度判定新短信是否为垃圾短信。
在此实施例中使用了如下符号,定义如下:
(1)SMSG表示垃圾短信样本与新短信集合;
(2)MSGi表示SMSG中新短信的元素,MSGj表示SMSG中垃圾短信样本的元素,MSGi∈SMSG,MSGj∈SMSG,1≤i≤|SMSG|,1≤j≤|SMSG|;
(3)GRAMi为MSGi的n-gram表示,GRAMj为MSGj的n-gram表示;
(4)SSMSG表示垃圾短信样本集合。
请参考图2A,基于相似性的过滤方法包含如下步骤:
步骤201:过滤掉新短信中的网址、电话、QQ、电子邮件以及其他特殊字符,获得新短信文本;
步骤202:确定新短信文本与垃圾短信样本之间的n-gram相似性计算方法;
步骤203:根据新短信与垃圾短信样本的相似性判定新短信为垃圾短信。
进一步,请参考图2B,步骤202包含如下子步骤:
步骤2021:将文本内容添加虚拟开始标志“^”和结束标志“$”。
例如:“请速回电”添加虚拟开始标志和结束标志得到“^请速回电$”。
步骤2022:将步骤2021得到的内容进行n-gram分解,在本实施例中n=2。
例如:“^请速回电$”进行2-gram分解后得到集合{^请,请速,速回,回电,电$}。
步骤2023:计算短信内容的n-gram相似性,令短信MSGi的2-gram分解后得到的集合为GRAMi,短信MSGj的2-gram分解后得到的集合为GRAMj,则MSGi和MSGj的相似值定义为:
其中GRAMi∩GRAMj表示GRAMi和GRAMj的交集,GRAMi∪GRAMj表示GRAMi和GRAMj的并集,|SET|表示集合SET的基数。
通过步骤202获得相似性计算方法后之后,执行步骤203,根据新短信与垃圾短信样本的相似性判定新短信为垃圾短信。
一方面,步骤203可以为:当新短信与垃圾短信样本的相似值达到一预设值时,判定新短信为垃圾短信。在此实施例中,我们可以设定相似值Sim(MSGi,MSGj)达到0.5以上时,判定新短信为垃圾短信。
另一方面,请参考图2C,步骤203还可以包含如下子步骤:
步骤2031:对垃圾短信的样本集合SSMSG进行倒排索引,提高手机客户端相似性计算效率,需要说明的是该步骤仅在服务端计算一次,仅将SSMSG部署在手机客户端;
步骤2032:对于新短信MSGnew依据倒排索引技术从SSMSG检索出与MSGnew相似性大于0的短信集合,记为SS’MSG,若如下条件成立,则判定为垃圾短信,
|{MSGi∈SS’MSG|Sim(MSGi,MSGnew)>θ}|≥K
其中,在具体实施例中θ=0.12,K=2。
当通过步骤102判断出短信不是垃圾短信时,执行步骤103,即当匹配不成功时,通过第三预定规则判断信息是否为垃圾信息。
进一步,请参考图1C,步骤103具体包括:
步骤1031:对信息进行语义分析,获得一分析结果;
在具体实施过程中,
步骤1032:基于一预定义的垃圾短信语义文法规则,判断分析结果是否与垃圾短信语义文法规则匹配。
在具体实施过程中,预定义的垃圾短信语义文法规则可以是对垃圾短信样本进行语义分析而获得的分析结果作为垃圾短信语义文法规则,也可以是电子设备存储单元中预存有预定义的垃圾短信语义文法规则,通过把步骤1031中对信息进行语义分析的结果与垃圾短信语义文法规则匹配,匹配成功,则判定垃圾短信,否则判定非垃圾短信。
以下通过一个具体的手机垃圾短信过滤的实施例来介绍本发明步骤103中的信息处理方法,下面的实施例主要介绍了该信息处理的方法的可能实现过程。需要说明的是,本发明中的实施例只用于解释本发明,而不能用于限制本发明。一切符合本发明思想的实施例均在本发明的保护范围之内,本领域技术人员自然知道应该如何根据本发明的思想进行变形。
(五)根据预定义的垃圾短信语义文法规则,对短信文本内容进行匹配。
在此实施例中使用了如下符号,定义如下:
(1)字符集定义为任何汉字、任何字母、任何标点、任何数字构成的文本形式的符号,以及通配符“*”;
在使用垃圾短信语义文法匹配短信的过程中,“*”匹配任何内容;
(2)终结符集合定义为由字符集中字符形成的词汇的有限集合;
(3)语义类定义为终结符集合中,有两个或两个以上词义相同或相近的词汇构成的集合;
例如:“代开词类”包含“待办”、“代开”、“代办”、“办理”、“提供”等词汇;
(4)垃圾短信语义文法可定义为四元组(S,N,T,P),其中:
a)S是开始符号集合;
b)N是非终结符集合,语义类属于非终结符集合,S∈N,;
c)T是中介符集合;
d)P是产生式集合,P中元素形如<LHS>::=<RHS>,其中<LHS>是N中元素,是由N∪T中元素构成的序列。
垃圾短信语义文法在实施例中的片段形如:
垃圾短信语义文法=(S,N,T,P);
S=<垃圾短信语义文法开始符号>;
N={…,<违法发票短信>,<诈骗短信>,<代开词类>,…};
T={…,待办,代开,代办,办理,提供,…};
P={…,<违法发票短信>::=*<代开词类>*<票据词类>,…}。
请参考图3A,在此实施例中,包括如下步骤:
步骤301:对垃圾短信样本文法解析,用于将文本文件形式表示的垃圾短信语义文法初始化为内存结构,用于新短信语义文法匹配。
进一步,请参考图3B,该步骤301包含以下步骤:
步骤3011:初始化终结符集合;
步骤3012:初始化词类集合,以及词类对应的正则表达集合;
步骤3013:初始化非终结符集合;
步骤3014:初始化产生式集合;
步骤3015:依据步骤3011至3014的内容构建自动机,用于语义文法匹配。
步骤301之后执行步骤302:使用垃圾短信语义文法,对新短信文本进行语义分析,获得一分析结果。
进一步,请参考图3C,该步骤302包含以下步骤:
步骤3021:使用正则表达式“(\(\d{3,4}\)|\d{3,4}-|\s)?\d{3,14}”识别新短信中的电话号码,标记为<TEL>;
步骤3022:使用正则表达式“(http://){0,1}([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?”识别新短信中的网址,标记为<ADDRESS>;
步骤3023:使用正则表达式“(\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*;)”识别新短信中的邮件地址,标记为<EMAIL>;
步骤3024:使用正则表达式“\d{5,10}”识别垃圾短信中的QQ号码,标记为<QQ>。
步骤302之后执行步骤303:使用步骤3015生成的自动机,对垃圾短信内容进行匹配,如匹配成成功,则判定为垃圾短信;否则判定为非垃圾短信。
进一步,为了使得垃圾短信样本越来越丰富,使得具有该信息处理方法的电子设备具有自主学习的功能,当信息为垃圾信息时,还对垃圾信息样本数据库进行更新,其中,方法还包括:保留信息中的文字字符,去除信息中的其它字符符号,获得信息文本;将信息文本添加到垃圾信息样本数据库中。
进一步,为了能够减小垃圾信息样本数据库和信息在电子设备中占有的存储空间,方法还包括:去除垃圾信息样本数据库中出现频率小于第二预设值的词汇;去除词汇的子串词汇。
在具体实施过程中,该方法可以是在维护垃圾信息数据库的过程中执行的,也可以是在步骤101之前,即通过第一预定规则判断信息是否为垃圾信息之前对信息进行上述处理。第二预设值可以设定为2,即去除垃圾信息样本数据库中出现频率小于2的词汇,由于该词汇出现频率较低,此时可以认定该词汇并不是垃圾短信样本中的关键词;在去除垃圾信息样本数据库中出现频率小于2的词汇之后,去除包含该词汇的子串词汇。当然,实际运用中,第二预设值也可以设定为3,对此,本申请不做具体限定。
进一步,为了提高垃圾信息过滤的准确性,电子设备还能够获得一合法词汇表,判断信息为垃圾信息后,方法还包括:检测信息中是否包含有合法词汇表的字符;当信息包含合法词汇表的字符,召回信息。
在具体实施过程中,合法词汇表可以是手工整理出来的,也可以通过其他方法(如计算机筛选方法)生成的。合法词汇表,是包含特殊符号的合法词汇,包含但不限于以下内容:“元/年”、“元/月”、“元/日”、“元/首”等,设置该词汇表的目的是防止正常的短信被误识别为垃圾短信。当信息被判定为垃圾信息后,检测信息中是否包含有合法词汇表的字符,例如“元/年”、“元/月”等,当信息中包含有合法词汇表的字符,召回信息。较佳的,该方法只在步骤101之后执行,这是因为步骤101是通过检测第一类字符在信息中的种类和/或数量是否达到第一预设条件来判定信息位垃圾短信,如果信息中包含特殊符号的合法词汇,很可能会因为特殊符号而被误判为垃圾信息。
对于该信息处理方法,通过3000条真实的垃圾短信进行测试,内容涉及虚开发票、办理假证、色情服务等7个类别,在此实验中,阈值θ为0.12,阈值K为2时,所达到的垃圾短信过滤效果最佳。经过反复实验,获得以下测试结果:总体精度0.88,召回垃圾信息的总体召回率0.93。该方法的分项召回率如下表:
序号 类别名 召回率
1 虚开发票类 0.94
2 办理假证类 0.98
3 诈骗类 0.93
4 非法金融活动类 0.95
5 走私类 0.97
6 代考 0.96
7 广告类 0.88
从以上大规模试验结果可以看出,本发明所介绍的技术不仅速度快,而且实用性强,完全具备大规模推广应用,对各类垃圾短信进行精确的过滤。
由以上对本实施例中信息处理方法的实施过程详细的描述可以看出,首先,通过第一预定规则判断信息是否为垃圾信息,其次,将信息与垃圾信息样本数据库中的垃圾信息样本进行匹配,最后,通过第三预定规则判断信息是否为垃圾信息。通过将这三种方法结合,层层递进,判断并过滤垃圾信息,消除了现有技术中垃圾信息过滤精度有限的技术问题,实现了提高垃圾信息过滤准确性的技术效果。
基于同一发明构思,本发明一实施例还提供一种电子设备,请参考图4所示,该电子设备包括:能够获得一垃圾信息样本数据库,电子设备包括:第一处理模块401,用于当电子设备接收到一信息时,通过第一预定规则判断信息是否为垃圾信息;第二处理模块402,用于当通过第一预定规则判断信息不是垃圾信息时,将信息与垃圾信息样本数据库中的垃圾信息样本进行匹配,判断匹配结果是否满足第二预定规则;第三处理模块403,用于当匹配不成功时,通过第三预定规则判断信息是否为垃圾信息。
可选的,第一处理模块401具体用于:检测第一类字符在信息中的种类和/或数量是否达到第一预设条件。
可选的,第二处理模块402具体用于:保留信息中的文字字符,去除信息中的其它字符符号,获得信息文本;将信息文本与垃圾信息样本数据库中的垃圾信息样本进行匹配;判断信息文本与垃圾信息样本相似值是否达到一预设值。
可选的,电子设备还包括:第四处理模块404,用于当信息为垃圾信息时,保留信息中的文字字符,去除信息中的其它字符符号,获得信息文本;将信息文本添加到垃圾信息样本数据库中。
可选的,第三处理模块403具体用于:对信息进行语义分析,获得一分析结果;基于一预定义的垃圾短信语义文法规则,判断分析结果是否与垃圾短信语义文法规则匹配。
可选的,电子设备还包括:第五处理模块405,用于去除垃圾信息样本数据库中出现频率小于第二预设值的词汇;去除垃圾信息样本数据库中的词汇的子串词汇。
可选的,电子设备还能够获得一合法词汇表,电子设备还包括:第六处理模块406,用于判断信息为垃圾信息后,检测信息中是否包含有合法词汇表的字符;当信息包含合法词汇表的字符,召回信息。
上述实施例中的电子设备和前述图1及其各变形实施例中的信息处理方法是基于同一构思下的发明,通过前述对信息处理方法及其各种变化形式的详细描述,本领域技术人员可以清楚的了解本实施例中电子设备的实施过程,所以为了说明书的简洁,在此不再赘述。
通过本发明中的上述实施例中的一个实施例或多个实施例,至少可以实现如下技术效果:
一、首先,通过第一预定规则判断信息是否为垃圾信息,其次,将信息与垃圾信息样本数据库中的垃圾信息样本进行匹配,最后,通过第三预定规则判断信息是否为垃圾信息。通过将这三种方法结合,层层递进,判断并过滤垃圾信息,消除了现有技术中垃圾信息过滤精度有限的技术问题,实现了提高垃圾信息过滤准确性的技术效果。
二、当信息判定为垃圾信息时,将信息文本添加到垃圾信息样本数据库中,进而,垃圾信息样本数据库能够自动更新,垃圾短信样本越来越丰富,从而实现了具有该信息处理方法的电子设备具有自主学习的功能,过滤垃圾信息的精度也越来越高的技术效果。
三、通过对垃圾信息样本数据库进行处理,即去除垃圾信息样本数据库中出现频率小于第二预设值的词汇,及其子串词汇,实现了减小垃圾信息样本数据库在电子设备中占有的存储空间的技术效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
具体来讲,本申请实施例中的信息处理方法应用于一电子设备,所述电子设备能够获得一垃圾信息样本数据库。本申请实施例中的信息处理方法对应的计算机程序指令可以被存储在光盘,硬盘,U盘等存储介质上,当存储介质中的与信息处理方法对应的计算机程序指令被一电子设备读取或被执行时,包括如下步骤:
通过第一预定规则判断所述信息是否为垃圾信息;当通过所述第一预定规则判断所述信息不是垃圾信息时,将所述信息与所述垃圾信息样本数据库中的垃圾信息样本进行匹配,判断匹配结果是否满足第二预定规则;当匹配不成功时,通过第三预定规则判断所述信息是否为垃圾信息。
可选的,所述存储介质中存储的与步骤所述通过第一预定规则判断所述信息是否为垃圾信息对应的计算机指令在具体被执行过程中,具体包括如下步骤:检测第一类字符在所述信息中的种类和/或数量是否达到第一预设条件。
可选的,所述存储介质中存储的与步骤所述将所述信息与所述垃圾信息样本数据库中的垃圾信息样本进行匹配,判断匹配结果是否满足第二预定规则,对应的计算机指令在具体被执行过程中,具体包括如下步骤:保留所述信息中的文字字符,去除所述信息中的其它字符符号,获得信息文本;将所述信息文本与所述垃圾信息样本数据库中的垃圾信息样本进行匹配;判断所述信息文本与所述垃圾信息样本相似值是否达到一预设值。
可选的,所述存储介质中还存储有另外一些计算机指令,这些计算机指令在与步骤:当所述信息为垃圾信息时,被执行,在被执行时包括如下步骤:
保留所述信息中的文字字符,去除所述信息中的其它字符符号,获得信息文本;将所述信息文本添加到所述垃圾信息样本数据库中。
可选的,所述存储介质中存储的与步骤所述通过第三预定规则判断所述信息是否为垃圾信息,对应的计算机指令在具体被执行过程中,具体包括如下步骤:对所述信息进行语义分析,获得一分析结果;基于一预定义的垃圾短信语义文法规则,判断所述分析结果是否与所述垃圾短信语义文法规则匹配。
可选的,所述存储介质中还存储有另外一些计算机指令,这些计算机指令在被执行时包括如下步骤:去除所述垃圾信息样本数据库中出现频率小于第二预设值的词汇;去除所述垃圾信息样本数据库中的所述词汇的子串词汇。
可选的,所述存储介质中还存储有另外一些计算机指令,这些计算机指令在与步骤:所述电子设备还能够获得一合法词汇表,判断所述信息为垃圾信息后,被执行,在被执行时包括如下步骤:检测所述信息中是否包含有所述合法词汇表的字符;当所述信息包含所述合法词汇表的字符,召回所述信息。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (12)

1.一种信息处理的方法,应用于一电子设备中,所述电子设备能够获得一垃圾信息样本数据库,当所述电子设备接收到一信息时,所述方法包括:
通过第一预定规则判断所述信息是否为垃圾信息,其中包括:检测第一类字符在所述信息中的种类和/或数量是否达到第一预设条件;
当通过所述第一预定规则判断所述信息不是垃圾信息时,将所述信息与所述垃圾信息样本数据库中的垃圾信息样本进行匹配,判断匹配结果是否满足第二预定规则;
当匹配不成功时,通过第三预定规则判断所述信息是否为垃圾信息。
2.如权利要求1所述的方法,其特征在于,所述将所述信息与所述垃圾信息样本数据库中的垃圾信息样本进行匹配,判断匹配结果是否满足第二预定规则,具体包括:
保留所述信息中的文字字符,去除所述信息中的其它字符符号,获得信息文本;
将所述信息文本与所述垃圾信息样本数据库中的垃圾信息样本进行匹配;
判断所述信息文本与所述垃圾信息样本相似值是否达到一预设值。
3.如权利要求1所述的方法,其特征在于,当所述信息为垃圾信息时,所述方法还包括:
保留所述信息中的文字字符,去除所述信息中的其它字符符号,获得信息文本;
将所述信息文本添加到所述垃圾信息样本数据库中。
4.如权利要求1所述的方法,其特征在于,所述通过第三预定规则判断所述信息是否为垃圾信息,具体包括:
对所述信息进行语义分析,获得一分析结果;
基于一预定义的垃圾短信语义文法规则,判断所述分析结果是否与所述垃圾短信语义文法规则匹配。
5.如权利要求1所述的方法,其特征在于,所述方法还包括:
去除所述垃圾信息样本数据库中出现频率小于第二预设值的词汇;
去除所述词汇的子串词汇。
6.如权利要求1所述的方法,其特征在于,所述电子设备还能够获得一合法词汇表,判断所述信息为垃圾信息后,所述方法还包括:
检测所述信息中是否包含有所述合法词汇表的字符;
当所述信息包含所述合法词汇表的字符,召回所述信息。
7.一种电子设备,能够获得一垃圾信息样本数据库,包括:
第一处理模块,用于当所述电子设备接收到一信息时,通过第一预定规则判断所述信息是否为垃圾信息,具体用于检测第一类字符在所述信息中的种类和/或数量是否达到第一预设条件;
第二处理模块,用于当通过所述第一预定规则判断所述信息不是垃圾信息时,将所述信息与所述垃圾信息样本数据库中的垃圾信息样本进行匹配,判断匹配结果是否满足第二预定规则;
第三处理模块,用于当匹配不成功时,通过第三预定规则判断所述信息是否为垃圾信息。
8.如权利要求7所述的电子设备,其特征在于,所述第二处理模块具体用于:
保留所述信息中的文字字符,去除所述信息中的其它字符符号,获得信息文本;
将所述信息文本与所述垃圾信息样本数据库中的垃圾信息样本进行匹配;
判断所述信息文本与所述垃圾信息样本相似值是否达到一预设值。
9.如权利要求7所述的电子设备,其特征在于,所述电子设备还包括:
第四处理模块,用于当所述信息为垃圾信息时,保留所述信息中的文字字符,去除所述信息中的其它字符符号,获得信息文本;
将所述信息文本添加到所述垃圾信息样本数据库中。
10.如权利要求7所述的电子设备,其特征在于,所述第三处理模块具体用于:
对所述信息进行语义分析,获得一分析结果;
基于一预定义的垃圾短信语义文法规则,判断所述分析结果是否与所述垃圾短信语义文法规则匹配。
11.如权利要求7所述的电子设备,其特征在于,所述电子设备还包括:
第五处理模块,用于去除所述垃圾信息样本数据库中出现频率小于第二预设值的词汇;去除所述词汇的子串词汇。
12.如权利要求7所述的电子设备,其特征在于,所述电子设备还能够获得一合法词汇表,所述电子设备还包括:
第六处理模块,用于判断所述信息为垃圾信息后,检测所述信息中是否包含有所述合法词汇表的字符;当所述信息包含所述合法词汇表的字符,召回所述信息。
CN201310683961.2A 2013-12-12 2013-12-12 一种信息处理的方法及电子设备 Expired - Fee Related CN104714938B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310683961.2A CN104714938B (zh) 2013-12-12 2013-12-12 一种信息处理的方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310683961.2A CN104714938B (zh) 2013-12-12 2013-12-12 一种信息处理的方法及电子设备

Publications (2)

Publication Number Publication Date
CN104714938A CN104714938A (zh) 2015-06-17
CN104714938B true CN104714938B (zh) 2017-12-29

Family

ID=53414284

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310683961.2A Expired - Fee Related CN104714938B (zh) 2013-12-12 2013-12-12 一种信息处理的方法及电子设备

Country Status (1)

Country Link
CN (1) CN104714938B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426405B (zh) * 2015-10-29 2019-05-17 维沃移动通信有限公司 信息处理方法及移动终端
CN106874253A (zh) * 2015-12-11 2017-06-20 腾讯科技(深圳)有限公司 识别敏感信息的方法及装置
CN105843856A (zh) * 2016-03-16 2016-08-10 中国联合网络通信集团有限公司 垃圾信息处理方法、装置和系统
CN107229638A (zh) * 2016-03-24 2017-10-03 北京搜狗科技发展有限公司 一种文本信息处理方法及装置
CN106372185B (zh) * 2016-08-31 2017-07-04 广东京奥信息科技有限公司 一种异构数据源的数据预处理方法
CN106446149B (zh) * 2016-09-21 2020-01-10 联动优势科技有限公司 一种通知信息的过滤方法及装置
CN108092941A (zh) * 2016-11-23 2018-05-29 中国移动通信有限公司研究院 一种网络安全防护方法、装置及系统
CN109033300A (zh) * 2018-07-16 2018-12-18 江苏满运软件科技有限公司 一种过滤宣传信息的方法及系统
CN109544904A (zh) * 2018-12-29 2019-03-29 上海易点时空网络有限公司 用于违章的信息处理方法及装置、服务器
CN116996840B (zh) * 2023-09-26 2023-12-29 北京百悟科技有限公司 短信审核方法、装置、设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1614607A (zh) * 2004-11-25 2005-05-11 中国科学院计算技术研究所 垃圾邮件过滤的方法和系统
CN101784022A (zh) * 2009-01-16 2010-07-21 北京炎黄新星网络科技有限公司 短信过滤、分类方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8533270B2 (en) * 2003-06-23 2013-09-10 Microsoft Corporation Advanced spam detection techniques

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1614607A (zh) * 2004-11-25 2005-05-11 中国科学院计算技术研究所 垃圾邮件过滤的方法和系统
CN101784022A (zh) * 2009-01-16 2010-07-21 北京炎黄新星网络科技有限公司 短信过滤、分类方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于MTK平台的手机垃圾短信过滤系统设计与实现;坚兆文;《中国优秀硕士学位论文全文数据库信息科技辑》;20130215(第02期);第21页第4.2节,第25页第4.4节,第26页第2-3段,第28页第4.5节,图4-3 *

Also Published As

Publication number Publication date
CN104714938A (zh) 2015-06-17

Similar Documents

Publication Publication Date Title
CN104714938B (zh) 一种信息处理的方法及电子设备
CN104408093B (zh) 一种新闻事件要素抽取方法与装置
CN110020422B (zh) 特征词的确定方法、装置和服务器
US8688690B2 (en) Method for calculating semantic similarities between messages and conversations based on enhanced entity extraction
WO2019153612A1 (zh) 问答数据处理方法、电子装置及存储介质
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
US9323839B2 (en) Classification rule generation device, classification rule generation method, classification rule generation program, and recording medium
CN107437038B (zh) 一种网页篡改的检测方法及装置
CN105786793B (zh) 解析口语文本信息的语义的方法和装置
CN107038178A (zh) 舆情分析方法和装置
CN103729474B (zh) 用于识别论坛用户马甲账号的方法和系统
CN104067567B (zh) 用于使用字符直方图进行垃圾邮件检测的系统和方法
EP2378476A1 (en) Method for calculating entity similarities
WO2017173093A1 (en) Method and device for identifying spam mail
CN103218363B (zh) 信息处理方法及装置
CN109582791A (zh) 文本的风险识别方法及装置
CN104640116B (zh) 一种诈骗短信防护方法和通信终端
CN103577989A (zh) 一种基于产品识别的信息分类方法及信息分类系统
CN111078978A (zh) 一种基于网站文本内容的网贷网站实体识别方法及系统
CN107239694A (zh) 一种基于用户评论的Android应用权限推理方法及装置
CN113903363B (zh) 基于人工智能的违规行为检测方法、装置、设备及介质
CN111985896A (zh) 邮件过滤方法及装置
CN109446299B (zh) 基于事件识别的搜索电子邮件内容的方法及系统
CN104281560B (zh) 一种记忆文本信息的显示方法、装置及终端
CN104376304B (zh) 一种文本广告图像的识别方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171229

Termination date: 20191212

CF01 Termination of patent right due to non-payment of annual fee