CN109451447A - 一种鉴别垃圾信息的方法、装置、存储介质和设备 - Google Patents

一种鉴别垃圾信息的方法、装置、存储介质和设备 Download PDF

Info

Publication number
CN109451447A
CN109451447A CN201811343360.6A CN201811343360A CN109451447A CN 109451447 A CN109451447 A CN 109451447A CN 201811343360 A CN201811343360 A CN 201811343360A CN 109451447 A CN109451447 A CN 109451447A
Authority
CN
China
Prior art keywords
information
sender
textual information
textual
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811343360.6A
Other languages
English (en)
Inventor
李佳
李强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201811343360.6A priority Critical patent/CN109451447A/zh
Publication of CN109451447A publication Critical patent/CN109451447A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/12Messaging; Mailboxes; Announcements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/12Detection or prevention of fraud

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明实施例提供了一种垃圾短信鉴别的方法、装置、存储介质和设备,所述方法包括:从待鉴别的信息中提取出非文本信息;判断所述非文本信息是否满足第一预设规则;如果所述非文本信息满足第一预设规则,将所述信息鉴别为垃圾信息。

Description

一种鉴别垃圾信息的方法、装置、存储介质和设备
技术领域
本发明涉及信息安全技术领域,尤其涉及一种鉴别垃圾信息的方法、装置、存储介质和设备。
背景技术
随着用户对信息安全的需求增长,垃圾信息鉴别技术也日益普及化和精准化。例如,基于伪基站发送的垃圾信息拦截率目前已接近100%,垃圾信息发送者想要通过伪基站成功将垃圾信息发送给用户已经十分困难了。而基于关键词、黑名单号码等鉴别方式也同样达到了准确率很高的水准。
然而在此情况下,垃圾信息发送者却开始逐渐将广告、骚扰、色情内容的文本和图片编辑为彩信发送给用户。由于现有技术针对垃圾信息的鉴别尚停留在短信,未涉及彩信,这就导致垃圾彩信几乎全部被漏检,进而导致垃圾彩信顺利进入正常信息列表并被用户查看。
因此,现有垃圾信息鉴别方法漏检率还很高。
发明内容
本发明实施例提供了一种鉴别垃圾信息的方法、装置、存储介质和设备,用于降低垃圾信息漏检率。
第一方面,本发明提供了一种鉴别垃圾信息的方法,包括:
从待鉴别的信息中提取出非文本信息;
判断所述非文本信息是否满足第一预设规则;
如果所述非文本信息满足第一预设规则,将所述信息鉴别为垃圾信息。
可选的,如果所述非文本信息包括图片,所述判断所述非文本信息是否满足第一预设规则,包括:
判断所述图片中是否包含预设特征元素;
如果所述图片包含所述预设特征元素,表示所述非文本信息满足所述第一预设规则。
可选的,如果所述非文本信息包括图片,所述判断所述非文本信息是否满足第一预设规则,包括:
判断所述图片对应的特征字符串是否包含预设字符串;
如果所述图片对应的特征字符串包含所述预设字符串,表示所述非文本信息满足所述第一预设规则。
可选的,所述方法还包括:
从所述信息中提取出文本信息;
判断所述文本信息是否满足第二预设规则;
如果所述非文本信息满足所述第一预设规则,和/或所述文本信息满足所述第二预设规则,将所述信息鉴别为垃圾信息。
可选的,如果所述非文本信息包括音频,所述判断所述非文本信息是否满足第一预设规则,包括:
将所述音频转化为子文本信息;
判断所述子文本信息是否满足所述第二预设条件;
如果所述子文本信息满足所述第二预设条件,表示所述非文本信息满足所述第一预设条件。
可选的,在所述从待鉴别的信息中提取出非文本信息之前,还包括:
从所述信息中提取所述信息的发送者号码;
判断所述发送者号码是否为异常号码;
如果所述发送者号码为所述异常号码,将所述信息鉴别为垃圾信息;如果所述发送者号码不为所述异常号码,则执行所述从待鉴别的信息中提取出非文本信息的步骤。
可选的,所述判断所述发送者号码是否为异常号码,包括:
判断所述发送者号码在第一预设时间段内的发送量是否达到第一阈值,或者判断所述发送者号码在第二预设时间段内针对所述信息的发送量是否达到第二阈值;
如果所述发送者号码在所述第一预设时间段内的发送量达到所述第一阈值,或者所述发送者号码在所述第二预设时间段内针对所述信息的发送量达到所述第二阈值,表示所述发送者号码为异常号码。
第二方面,本发明提供了一种鉴别垃圾信息的装置,包括:
第一提取模块,用于从待鉴别的信息中提取出非文本信息;
第一判断模块,用于判断所述非文本信息是否满足第一预设规则;
鉴别模块,用于如果所述非文本信息满足第一预设规则,将所述信息鉴别为垃圾信息。
可选的,如果所述非文本信息包括图片,所述第一判断模块用于判断所述图片中是否包含预设特征元素,如果所述图片包含所述预设特征元素,表示所述非文本信息满足所述第一预设规则。
可选的,如果所述非文本信息包括图片,所述第一判断模块用于判断所述图片对应的特征字符串是否包含预设字符串,如果所述图片对应的特征字符串包含所述预设字符串,表示所述非文本信息满足所述第一预设规则。
可选的,所述装置还包括:
第二提取模块,用于从所述信息中提取出文本信息;
第二判断模块,用于判断所述文本信息是否满足第二预设规则;
所述鉴别模块用于如果所述非文本信息满足所述第一预设规则,和/或所述文本信息满足所述第二预设规则,将所述信息鉴别为垃圾信息。
可选的,如果所述非文本信息包括音频,所述第一判断模块用于将所述音频转化为子文本信息,判断所述子文本信息是否满足所述第二预设条件,如果所述子文本信息满足所述第二预设条件,表示所述非文本信息满足所述第一预设条件。
可选的,所述装置还包括:
第三提取模块,用于在从待鉴别的信息中提取出非文本信息之前,从所述信息中提取所述信息的发送者号码;
第三判断模块,用于判断所述发送者号码是否为异常号码;
所述鉴别模块用于如果所述发送者号码为所述异常号码,将所述信息鉴别为垃圾信息;
如果所述发送者号码不为所述异常号码,则通知所述第一提取模块执行所述从待鉴别的信息中提取出非文本信息的步骤。
可选的,所述第三判断模块用于判断所述发送者号码在第一预设时间段内的发送量是否达到第一阈值,或者判断所述发送者号码在第二预设时间段内针对所述信息的发送量是否达到第二阈值;如果所述发送者号码在所述第一预设时间段内的发送量达到所述第一阈值,或者所述发送者号码在所述第二预设时间段内针对所述信息的发送量达到所述第二阈值,表示所述发送者号码为异常号码。
第三方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面任一项所述方法的步骤。
第四方面,本发明提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面任一项所述方法的步骤。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
由于彩信往往包含图片等非文本信息,因此在本发明实施例的技术方案中,首先从待鉴别的信息中提取出非文本信息,然后判断非文本信息是否满足第一预设规则,如果非文本信息满足第一预设规则,则将信息鉴别为垃圾信息,由此检测出垃圾彩信,故而本发明解决了现有技术漏检垃圾彩信的技术问题,实现了降低漏检率的技术效果。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例中鉴别垃圾信息的方法流程图;
图2为本发明实施例中鉴别垃圾信息的装置示意图;
图3为本发明实施例中计算机设备的结构示意图。
具体实施方式
本发明实施例提供了一种鉴别垃圾信息的方法、装置、存储介质和设备,用于降低垃圾信息漏检率。
为了解决上述技术问题,本发明提供的技术方案思路如下:
由于彩信往往包含图片等非文本信息,因此在本发明实施例的技术方案中,首先从待鉴别的信息中提取出非文本信息,然后判断非文本信息是否满足第一预设规则,如果非文本信息满足第一预设规则,则将信息鉴别为垃圾信息,由此检测出垃圾彩信,故而本发明解决了现有技术漏检垃圾彩信的技术问题,实现了降低漏检率的技术效果。
下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本发明第一方面提供了一种鉴别垃圾信息的方法,请参考图1,为鉴别垃圾信息的方法流程图。该方法包括:
S101:从待鉴别的信息中提取出非文本信息;
S102:判断非文本信息是否满足第一预设规则;
S103:如果非文本信息满足第一预设规则,将信息鉴别为垃圾信息。
具体来讲,彩信与短信的不同之处在于,彩信除了携带文本信息,还可以携带非文本信息,例如图片、音频、视频和联系人等,并且按照经验,彩信往往也会携带非文本信息。因此,在本发明实施例的S101中,就是提取出待鉴别彩信中的非文本信息。然后,判断该彩信中的非文本信息是否满足第一预设规则,第一预设规则为表示彩信非文本信息为垃圾内容的规则,例如彩信图片中包括广告内容,音频文件中包括诈骗内容等,因此如果非文本信息满足第一预设规则,则在S103中,将该信息鉴别为垃圾信息。
在具体实现过程中,本发明实施例中的方法可以由客户端执行,即客户端在接收到彩信后执行本发明实施例中的方法以鉴别并拦截垃圾彩信;或者,也可以由彩信鉴别服务器执行,即彩信鉴权服务器在接收到彩信中心发送的新彩信后执行本发明实施例中的方法以鉴别彩信是否为垃圾彩信,如果为垃圾彩信则不会进一步发送给客户端,如果不为垃圾彩信则发送给客户端。本发明所属领域普通技术人员可以根据实际进行选择,本发明不做具体限制。
可选的,一些实施例中非文本信息包括图片,即在这些实施例中彩信具体为包括图片的彩信,那么对于包括图片的彩信如何鉴别垃圾彩信,以下介绍其中两种方法。
第一种:
S102具体通过如下过程实现:判断图片中是否包含预设特征元素,如果图片包含预设特征元素,表示非文本信息满足第一预设规则。
具体来讲,预设特征元素为可以标识垃圾图片的元素,例如图片中的文字,如“特价”、“刷单”、“赌博”等文字,或者例如图片中的对象,如图片中的“老虎机”、“枪支”、“刀具”等,再例如图片整体也可以成为预设特征元素,本发明不做具体限制。
在一些实施例中,首先对图片进行区域分割,例如分割出图片中的前景和后景,然后进一步在一个或多个区域中提取图片的元素。举例来说,首先对图片进行前后景分离,由于图片的重要元素通常置于前景,因此此处仅对图片的前景区域进行元素提取。在另一些实施例中,对图片进行OCR(光学字符识别,Optical Character Recognition),以提取图片中的文字。
接下来,将从图片中提取出的元素与预设特征元素进行匹配,预设元素例如为“拼单”、“驾校”或“赌博”等文字图片元素,或者预设特征元素例如为“老虎机”、“枪支”、“刀具”和色情的图片元素。如果从图片中提取出的元素与其中一个或多个预设特征元素匹配,则表示彩信的图片中包括预设特征元素,进而表示该彩信的非文本信息满足第一预设条件,此时就鉴别彩信为垃圾信息。
或者,也可以将图片中提取的元素、或者不提取元素而直接将图片整体输入预设特征元素识别模型中进行识别。具体来讲,预设特征元素识别模型为预先训练完成的模型,可以是基于深度学习训练的模型,也可以是基于机器学习训练的模型。下面以深度学习训练为例来进行介绍。
利用训练好的Inception-v3卷积神经网络对图片进行特征提取,然后将提取得到的特征向量作为输入来训练一个全新的全连接神经网络处理新的分类。所述新的分类具体为垃圾彩信的分类,例如分类为广告、骚扰、诈骗、色情和正常,其中正常类别的彩信即表示彩信为正常彩信。然后,通过迁移学习来对特征向量进行分类,进而对预设特征元素识别模型的最后一层全连接进行训练。
训练完成后,将要鉴别的彩信图片本身或者图片的元素输入预设特征元素识别模型,如果模型输出结果表示图片分类为“正常”,则表示图片不包含预设特征元素,该彩信的非文本信息不满足第一预设规则,进而鉴别彩信不为垃圾信息;反之,如果模型输出结果表示图片分类为其他类型,例如“广告”,则表示图片包含预设特征元素,该彩信的非文本信息满足第一预设规则,进而鉴别彩信为垃圾信息。
通过上述第一种方式,就判断出了彩信的图片中是否包含预设特征元素。
第二种:
S102具体通过如下过程实现:判断图片对应的特征字符串是否包含预设字符串,如果图片对应的特征字符串包含预设字符串,表示非文本信息满足第一预设规则。
具体来讲,为了便于传输和存储,图片往往会被表示为特征字符串,例如MD5字符串或者其他字符串。那么反过来,图片的特征字符串也就在一定程度上体现了图片的内容是否为垃圾内容。
所以,在第二种方式中,预先收集垃圾图片,并转化得到垃圾图片的特征字符串,将这些垃圾图片的特征字符串作为预设字符串。进而,在鉴别垃圾彩信时,提取出彩信图片的特征字符串,然后与多个预设字符串进行比较,如果彩信图片的特征字符串包含其中一个或多个预设字符串,则表示彩信图片包含了这些预设字符串所对应的图片或者元素,故而此时判断非文本信息满足第一预设规则,该彩信为垃圾信息。
通过上述第二种方式,就判断出了彩信的图片中是否包含预设特征元素。
另外,彩信中除了包括图片等非文本信息之外,还可以包括文本信息,例如通过彩信向某联系人发送图片,就可能将要发送的图片添加为彩信的非文本信息,然后输入文本对图片进行介绍,这些介绍图片的文本就是彩信的文本信息。
因此可选的,本发明实施例中的鉴别垃圾信息的方法还包括:从信息中提取出文本信息,判断文本信息是否满足第二预设规则,如果非文本信息满足第一预设规则,和/或文本信息满足第二预设规则,将信息鉴别为垃圾信息。
具体来讲,从彩信中提取文本信息,如果从彩信中未提取出文本信息,则表示彩信不包含文本信息,那么采用本发明实施例介绍的其他方法鉴别彩信。如果从彩信中提取出了文本信息,那么接下来则判断提取出的文本信息是否满足第二预设规则。在本发明实施例中,判断文本信息是否满足第二预设条件的方法包括但不限于:判断文本信息中是否包括预设关键词,如果文本信息中包括预设关键词,则表示文本信息满足第一预设条件,预设关键词例如为“刷单”、“特价”和“驾校”等;或者,判断文本信息的拼音是否与预设拼音匹配,如果文本信息的拼音与预设拼音匹配,则表示文本信息满足第一预设条件,预设拼音为预设关键词的拼音,例如“shua dan”,“te jia”和“jia xiao”等。在具体实现过程中,本发明所属领域的普通技术人员可以根据实际选择判断文本信息是否满足第二预设条件的方法,本发明不做具体限制。
进一步,在本发明实施例中,无论文本信息满足第二预设条件,非文本信息满足第一预设条件,还是文本信息满足第二预设条件的同时非文本信息满足第一预设条件,都表示彩信的内容包含了本发明认为的垃圾内容,故而在非文本信息满足第一预设规则,和/或文本信息满足第二预设规则时,将信息鉴别为垃圾信息。
由上述描述可知,通过提取彩信中的文本信息,并判断文本信息是否满足第二预设条件,如果非文本信息满足第一预设规则,和/或文本信息满足第二预设规则,都将信息鉴别为垃圾信息,可以提高垃圾彩信鉴别的准确率,并进一步降低漏检率。
除了携带图片和文本,彩信还可以携带音频,因此可选的,对于彩信非文本信息包括音频的情况,本发明则通过如下方式来鉴别垃圾信息:
将音频转化为子文本信息,判断子文本信息是否满足第二预设条件,如果子文本信息满足第二预设条件,表示非文本信息满足第一预设条件。
具体来讲,垃圾彩信发送者将要传播的垃圾内容录制为音频发送给用户,因此在本发明实施例中,当彩信的非文本信息包含音频时,通过语音识别将音频的内容转化为子文本信息。然后,按照上文介绍的判断文本信息是否满足第二预设条件的方法,判断子文本信息是否满足第二预设条件,这里就不再重复赘述了。在本发明实施例中,如果子文本信息满足第二预设条件,则认为非文本信息满足第一预设条件,进而鉴别彩信为垃圾彩信。
由上述描述可以看出,通过将音频转化为子文本信息,进而在子文本信息满足第二预设条件时,判断彩信为垃圾信息,从而实现在彩信包含音频时鉴别垃圾彩信的技术效果,降低了垃圾信息的漏检率。
可选的,在S101之前,还可以进一步包括:
从所述信息中提取所述信息的发送者号码,判断发送者号码是否为异常号码,如果发送者号码为异常号码,将信息鉴别为垃圾信息;如果发送者号码不为异常号码,则执行是S101。
具体来讲,在提取非文本信息或者文本信息之前,首先从信息中提取出发送者号码,然后判断发送者号码是否为异常号码,异常号码例如为黑名单号码,伪基站号码等,如果发送者号码为异常号码,则表明该彩信为垃圾信息的可能性非常大,因此可以直接鉴别该彩信为垃圾信息;反之,如果发送者号码为正常号码,则并不能肯定彩信为垃圾彩信,因此进一步执行S101即后续步骤进行鉴别。
具体地,判断发送者号码是否为异常号码可以通过如下两种方式实现:判断发送者号码在第一预设时间段内的发送量是否达到第一阈值,如果发送者号码在第一预设时间段内的发送量达到第一阈值,表示发送者号码为异常号码。或者,判断发送者号码在第二预设时间段内针对该信息的发送量是否达到第二阈值,如果发送者号码在第二预设时间段内针对该信息的发送量达到第二阈值,表示发送者号码为异常号码。
具体来讲,第一预设时间段和第二预设时间段例如为24小时或者一周等,本发明所属领域的普通技术人员可以根据实际进行设置。第一预设时间段和第二预设时间段可以相同也可以不同,第一阈值和第二阈值也可以相同或者不同,本发明也不做具体限制。可选的,由于第一阈值是相较于同一发送者号码的全部信息发送量,第二阈值是相较于发送者号码针对同一信息的发送量,因此可以设置第一阈值为较大的数,第二阈值为较小的数,例如设置第一阈值为100,第二阈值为20。
由于正常号码一般全部信息的发送量不会很大,对于同一彩信的发送量也不会很大,因此如果发送者号码在第一预设时间段内的发送量达到第一阈值,或者在第二预设时间段内针对同一信息的发送量达到第二阈值,则认为发送者号码为异常号码。
举例来说,假设第一预设时间段为24小时,第一阈值为100。假如发送者号码在24小时内总共发送了200条信息,而正常号码往往不会有如此大的发送量,因此认为这个发送者号码为异常号码。再例如第二预设时间段为5小时,第二阈值为20,假如上述发送者号码在5个小时内对待鉴别的彩信就发送了30条,正常号码往往不会对同一信息反复发送如此多次,因此也可以认为这个发送者为异常号码。
由于发送者号码为异常号码,而异常号码发送的垃圾彩信的几率很大,因此就可以直接鉴别待鉴别彩信为垃圾彩信,而当通过发送者号码无法鉴别时,再进一步按照上文介绍的方法鉴别。因此,上述方法不仅提高了鉴别的效率,降低了设备消耗,还降低了漏检率。
基于与前述实施例中方法同样的发明构思,如图2所示,本发明第二方面还提供了一种鉴别垃圾信息的装置,包括:
第一提取模块101,用于从待鉴别的信息中提取出非文本信息;
第一判断模块102,用于判断非文本信息是否满足第一预设规则;
鉴别模块103,用于如果非文本信息满足第一预设规则,将信息鉴别为垃圾信息。
可选的,如果非文本信息包括图片,第一判断模块101用于判断图片中是否包含预设特征元素,如果图片包含预设特征元素,表示非文本信息满足第一预设规则。
可选的,如果非文本信息包括图片,第一判断模块101用于判断图片对应的特征字符串是否包含预设字符串,如果图片对应的特征字符串包含预设字符串,表示非文本信息满足第一预设规则。
可选的,所述装置还包括:
第二提取模块,用于从信息中提取出文本信息;
第二判断模块,用于判断文本信息是否满足第二预设规则;
鉴别模块103用于如果非文本信息满足第一预设规则,和/或文本信息满足第二预设规则,将信息鉴别为垃圾信息。
可选的,如果非文本信息包括音频,第一判断模块101用于将音频转化为子文本信息,判断子文本信息是否满足第二预设条件,如果子文本信息满足第二预设条件,表示非文本信息满足第一预设条件。
可选的,所述装置还包括:
第三提取模块,用于在从待鉴别的信息中提取出非文本信息之前,从信息中提取信息的发送者号码;
第三判断模块,用于判断发送者号码是否为异常号码;
鉴别模块103用于如果发送者号码为异常号码,将信息鉴别为垃圾信息;
如果发送者号码不为异常号码,则通知第一提取模块101执行从待鉴别的信息中提取出非文本信息的步骤。
可选的,第三判断模块用于判断发送者号码在第一预设时间段内的发送量是否达到第一阈值,或者判断发送者号码在第二预设时间段内针对信息的发送量是否达到第二阈值;如果发送者号码在第一预设时间段内的发送量达到第一阈值,或者发送者号码在第二预设时间段内针对信息的发送量达到第二阈值,表示发送者号码为异常号码。
前述图1实施例中的垃圾短信鉴别的方法的各种变化方式和具体实例同样适用于本实施例的垃圾短信鉴别的装置,通过前述对垃圾短信鉴别的方法的详细描述,本领域技术人员可以清楚的知道本实施例中垃圾短信鉴别的装置的实施方法,所以为了说明书的简洁,在此不再详述。
基于与前述实施例中鉴别垃圾信息的方法同样的发明构思,本发明第三方面还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述实施例任一方法的步骤。
基于与前述实施例中鉴别垃圾信息的方法同样的发明构思,本发明第四方面还提供一种计算机设备,如图3所示,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该计算机设备可以为包括手机、平板电脑、PDA(Personal Digital Assistant,个人数字助理)、POS(Point of Sales,销售终端)、车载电脑等任意计算机设备,以计算机设备为手机为例:
图3示出的是与本发明实施例提供的计算机设备相关的手机的部分结构的框图。参考图3,手机包括:射频(Radio Frequency,RF)电路310、存储器320、输入单元330、显示单元340、传感器350、音频电路360、无线保真(wireless-fidelity,Wi-Fi)模块370、处理器380、以及电源390等部件。本领域技术人员可以理解,图3中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图3对手机的各个构成部件进行具体的介绍:
RF电路310可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器380处理;另外,将设计上行的数据发送给基站。通常,RF电路310包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,LNA)、双工器等。此外,RF电路310还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication,GSM)、通用分组无线服务(General Packet RadioService,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
存储器320可用于存储软件程序以及模块,处理器380通过运行存储在存储器320的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器320可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器320可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元330可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元330可包括触控面板331以及其他输入设备332。触控面板331,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板331上或在触控面板331附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板331可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器380,并能接收处理器380发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板331。除了触控面板331,输入单元330还可以包括其他输入设备332。具体地,其他输入设备332可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元340可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元340可包括显示面板341,可选的,可以采用液晶显示器(Liquid CrystalDisplay,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板341。进一步的,触控面板331可覆盖显示面板341,当触控面板331检测到在其上或附近的触摸操作后,传送给处理器380以确定触摸事件的类型,随后处理器380根据触摸事件的类型在显示面板341上提供相应的视觉输出。虽然在图3中,触控面板331与显示面板341是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板331与显示面板341集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器350,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板341的亮度,接近传感器可在手机移动到耳边时,关闭显示面板341和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路360、扬声器361,传声器362可提供用户与手机之间的音频接口。音频电路360可将接收到的音频数据转换后的电信号,传输到扬声器361,由扬声器361转换为声音信号输出;另一方面,传声器362将收集的声音信号转换为电信号,由音频电路360接收后转换为音频数据,再将音频数据输出处理器380处理后,经RF电路310以发送给比如另一手机,或者将音频数据输出至存储器320以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块370可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图3示出了WiFi模块370,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器380是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器320内的软件程序和/或模块,以及调用存储在存储器320内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器380可包括一个或多个处理单元;优选的,处理器380可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器380中。
手机还包括给各个部件供电的电源390(比如电池),优选的,电源可以通过电源管理系统与处理器380逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本发明实施例中,该计算机设备所包括的处理器380执行存储器存储的程序时实现前述实施例中任一方法的步骤。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
由于彩信往往包含图片等非文本信息,因此在本发明实施例的技术方案中,首先从待鉴别的信息中提取出非文本信息,然后判断非文本信息是否满足第一预设规则,如果非文本信息满足第一预设规则,则将信息鉴别为垃圾信息,由此检测出垃圾彩信,故而本发明解决了现有技术漏检垃圾彩信的技术问题,实现了降低漏检率的技术效果。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网关、代理服务器、系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本发明公开了,A1、一种鉴别垃圾信息的方法,其特征在于,包括:
从待鉴别的信息中提取出非文本信息;
判断所述非文本信息是否满足第一预设规则;
如果所述非文本信息满足第一预设规则,将所述信息鉴别为垃圾信息。
A2、根据A1所述的方法,其特征在于,如果所述非文本信息包括图片,所述判断所述非文本信息是否满足第一预设规则,包括:
判断所述图片中是否包含预设特征元素;
如果所述图片包含所述预设特征元素,表示所述非文本信息满足所述第一预设规则。
A3、根据A1所述的方法,其特征在于,如果所述非文本信息包括图片,所述判断所述非文本信息是否满足第一预设规则,包括:
判断所述图片对应的特征字符串是否包含预设字符串;
如果所述图片对应的特征字符串包含所述预设字符串,表示所述非文本信息满足所述第一预设规则。
A4、根据A1所述的方法,其特征在于,所述方法还包括:
从所述信息中提取出文本信息;
判断所述文本信息是否满足第二预设规则;
如果所述非文本信息满足所述第一预设规则,和/或所述文本信息满足所述第二预设规则,将所述信息鉴别为垃圾信息。
A5、根据A4所述的方法,其特征在于,如果所述非文本信息包括音频,所述判断所述非文本信息是否满足第一预设规则,包括:
将所述音频转化为子文本信息;
判断所述子文本信息是否满足所述第二预设条件;
如果所述子文本信息满足所述第二预设条件,表示所述非文本信息满足所述第一预设条件。
A6、根据A1所述的方法,其特征在于,在所述从待鉴别的信息中提取出非文本信息之前,还包括:
从所述信息中提取所述信息的发送者号码;
判断所述发送者号码是否为异常号码;
如果所述发送者号码为所述异常号码,将所述信息鉴别为垃圾信息;如果所述发送者号码不为所述异常号码,则执行所述从待鉴别的信息中提取出非文本信息的步骤。
A7、根据A6所述的方法,其特征在于,所述判断所述发送者号码是否为异常号码,包括:
判断所述发送者号码在第一预设时间段内的发送量是否达到第一阈值,或者判断所述发送者号码在第二预设时间段内针对所述信息的发送量是否达到第二阈值;
如果所述发送者号码在所述第一预设时间段内的发送量达到所述第一阈值,或者所述发送者号码在所述第二预设时间段内针对所述信息的发送量达到所述第二阈值,表示所述发送者号码为异常号码。
B8、一种鉴别垃圾信息的装置,其特征在于,包括:
第一提取模块,用于从待鉴别的信息中提取出非文本信息;
第一判断模块,用于判断所述非文本信息是否满足第一预设规则;
鉴别模块,用于如果所述非文本信息满足第一预设规则,将所述信息鉴别为垃圾信息。
B9、根据B8所述的装置,其特征在于,如果所述非文本信息包括图片,所述第一判断模块用于判断所述图片中是否包含预设特征元素,如果所述图片包含所述预设特征元素,表示所述非文本信息满足所述第一预设规则。
B10、根据B8所述的装置,其特征在于,如果所述非文本信息包括图片,所述第一判断模块用于判断所述图片对应的特征字符串是否包含预设字符串,如果所述图片对应的特征字符串包含所述预设字符串,表示所述非文本信息满足所述第一预设规则。
B11、根据B8所述的装置,其特征在于,所述装置还包括:
第二提取模块,用于从所述信息中提取出文本信息;
第二判断模块,用于判断所述文本信息是否满足第二预设规则;
所述鉴别模块用于如果所述非文本信息满足所述第一预设规则,和/或所述文本信息满足所述第二预设规则,将所述信息鉴别为垃圾信息。
B12、根据B11所述的装置,其特征在于,如果所述非文本信息包括音频,所述第一判断模块用于将所述音频转化为子文本信息,判断所述子文本信息是否满足所述第二预设条件,如果所述子文本信息满足所述第二预设条件,表示所述非文本信息满足所述第一预设条件。
B13、根据B8所述的装置,其特征在于,所述装置还包括:
第三提取模块,用于在从待鉴别的信息中提取出非文本信息之前,从所述信息中提取所述信息的发送者号码;
第三判断模块,用于判断所述发送者号码是否为异常号码;
所述鉴别模块用于如果所述发送者号码为所述异常号码,将所述信息鉴别为垃圾信息;
如果所述发送者号码不为所述异常号码,则通知所述第一提取模块执行所述从待鉴别的信息中提取出非文本信息的步骤。
B14、根据B13所述的装置,其特征在于,所述第三判断模块用于判断所述发送者号码在第一预设时间段内的发送量是否达到第一阈值,或者判断所述发送者号码在第二预设时间段内针对所述信息的发送量是否达到第二阈值;如果所述发送者号码在所述第一预设时间段内的发送量达到所述第一阈值,或者所述发送者号码在所述第二预设时间段内针对所述信息的发送量达到所述第二阈值,表示所述发送者号码为异常号码。
C15、一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求A1-A7任一项所述方法的步骤。
D16、一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求A1-A7任一项所述方法的步骤。

Claims (10)

1.一种鉴别垃圾信息的方法,其特征在于,包括:
从待鉴别的信息中提取出非文本信息;
判断所述非文本信息是否满足第一预设规则;
如果所述非文本信息满足第一预设规则,将所述信息鉴别为垃圾信息。
2.如权利要求1所述的方法,其特征在于,如果所述非文本信息包括图片,所述判断所述非文本信息是否满足第一预设规则,包括:
判断所述图片中是否包含预设特征元素;
如果所述图片包含所述预设特征元素,表示所述非文本信息满足所述第一预设规则。
3.如权利要求1所述的方法,其特征在于,如果所述非文本信息包括图片,所述判断所述非文本信息是否满足第一预设规则,包括:
判断所述图片对应的特征字符串是否包含预设字符串;
如果所述图片对应的特征字符串包含所述预设字符串,表示所述非文本信息满足所述第一预设规则。
4.如权利要求1所述的方法,其特征在于,所述方法还包括:
从所述信息中提取出文本信息;
判断所述文本信息是否满足第二预设规则;
如果所述非文本信息满足所述第一预设规则,和/或所述文本信息满足所述第二预设规则,将所述信息鉴别为垃圾信息。
5.如权利要求4所述的方法,其特征在于,如果所述非文本信息包括音频,所述判断所述非文本信息是否满足第一预设规则,包括:
将所述音频转化为子文本信息;
判断所述子文本信息是否满足所述第二预设条件;
如果所述子文本信息满足所述第二预设条件,表示所述非文本信息满足所述第一预设条件。
6.如权利要求1所述的方法,其特征在于,在所述从待鉴别的信息中提取出非文本信息之前,还包括:
从所述信息中提取所述信息的发送者号码;
判断所述发送者号码是否为异常号码;
如果所述发送者号码为所述异常号码,将所述信息鉴别为垃圾信息;如果所述发送者号码不为所述异常号码,则执行所述从待鉴别的信息中提取出非文本信息的步骤。
7.如权利要求6所述的方法,其特征在于,所述判断所述发送者号码是否为异常号码,包括:
判断所述发送者号码在第一预设时间段内的发送量是否达到第一阈值,或者判断所述发送者号码在第二预设时间段内针对所述信息的发送量是否达到第二阈值;
如果所述发送者号码在所述第一预设时间段内的发送量达到所述第一阈值,或者所述发送者号码在所述第二预设时间段内针对所述信息的发送量达到所述第二阈值,表示所述发送者号码为异常号码。
8.一种鉴别垃圾信息的装置,其特征在于,包括:
第一提取模块,用于从待鉴别的信息中提取出非文本信息;
第一判断模块,用于判断所述非文本信息是否满足第一预设规则;
鉴别模块,用于如果所述非文本信息满足第一预设规则,将所述信息鉴别为垃圾信息。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-7任一项所述方法的步骤。
CN201811343360.6A 2018-11-13 2018-11-13 一种鉴别垃圾信息的方法、装置、存储介质和设备 Pending CN109451447A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811343360.6A CN109451447A (zh) 2018-11-13 2018-11-13 一种鉴别垃圾信息的方法、装置、存储介质和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811343360.6A CN109451447A (zh) 2018-11-13 2018-11-13 一种鉴别垃圾信息的方法、装置、存储介质和设备

Publications (1)

Publication Number Publication Date
CN109451447A true CN109451447A (zh) 2019-03-08

Family

ID=65551557

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811343360.6A Pending CN109451447A (zh) 2018-11-13 2018-11-13 一种鉴别垃圾信息的方法、装置、存储介质和设备

Country Status (1)

Country Link
CN (1) CN109451447A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110866543A (zh) * 2019-10-18 2020-03-06 支付宝(杭州)信息技术有限公司 图片检测及图片分类模型的训练方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101674543A (zh) * 2009-10-09 2010-03-17 中国联合网络通信集团有限公司 一种彩信过滤方法及其系统
CN101887523A (zh) * 2010-06-21 2010-11-17 南京邮电大学 利用图片文字与局部不变特征检测图像垃圾邮件的方法
CN102075883A (zh) * 2011-03-10 2011-05-25 成都四方信息技术有限公司 基于模型组合的垃圾彩信消息监控方法
CN105446987A (zh) * 2014-06-30 2016-03-30 北京金山安全软件有限公司 图片类垃圾文件的识别方法、装置和电子设备
CN105848114A (zh) * 2016-04-29 2016-08-10 维沃移动通信有限公司 一种彩信的处理方法及移动终端
CN106559759A (zh) * 2015-09-30 2017-04-05 北京奇虎科技有限公司 一种在移动设备中拦截彩信的方法和装置
CN106792579A (zh) * 2016-12-01 2017-05-31 北京奇虎科技有限公司 一种彩信拦截方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101674543A (zh) * 2009-10-09 2010-03-17 中国联合网络通信集团有限公司 一种彩信过滤方法及其系统
CN101887523A (zh) * 2010-06-21 2010-11-17 南京邮电大学 利用图片文字与局部不变特征检测图像垃圾邮件的方法
CN102075883A (zh) * 2011-03-10 2011-05-25 成都四方信息技术有限公司 基于模型组合的垃圾彩信消息监控方法
CN105446987A (zh) * 2014-06-30 2016-03-30 北京金山安全软件有限公司 图片类垃圾文件的识别方法、装置和电子设备
CN106559759A (zh) * 2015-09-30 2017-04-05 北京奇虎科技有限公司 一种在移动设备中拦截彩信的方法和装置
CN105848114A (zh) * 2016-04-29 2016-08-10 维沃移动通信有限公司 一种彩信的处理方法及移动终端
CN106792579A (zh) * 2016-12-01 2017-05-31 北京奇虎科技有限公司 一种彩信拦截方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110866543A (zh) * 2019-10-18 2020-03-06 支付宝(杭州)信息技术有限公司 图片检测及图片分类模型的训练方法和装置
CN110866543B (zh) * 2019-10-18 2022-07-15 支付宝(杭州)信息技术有限公司 图片检测及图片分类模型的训练方法和装置

Similar Documents

Publication Publication Date Title
US20230109816A1 (en) Notification display method and terminal
CN104239535B (zh) 一种为文字配图的方法、服务器、终端及系统
CN106528745B (zh) 在移动终端上推荐资源的方法、装置及移动终端
CN107301213A (zh) 智能问答方法及装置
CN104182488A (zh) 搜索方法、服务器及客户端
CN107918850A (zh) 一种快递信息处理方法、终端和计算机可读存储介质
CN109063583A (zh) 一种基于点读操作的学习方法及电子设备
CN108156508B (zh) 弹幕信息处理的方法、装置、移动终端、服务器及系统
CN105335398A (zh) 一种服务推荐方法及终端
CN108920235A (zh) 未读标记控制方法、移动终端及计算机可读存储介质
TWI597964B (zh) 訊息儲存方法、裝置及通訊終端
CN107480123A (zh) 一种垃圾弹幕的识别方法、装置及计算机设备
CN104714938B (zh) 一种信息处理的方法及电子设备
CN104717674A (zh) 号码属性识别方法、装置、终端和服务器
CN104951432A (zh) 一种对信息进行处理的方法及装置
CN108549681B (zh) 数据处理方法和装置、电子设备、计算机可读存储介质
CN109543014B (zh) 人机对话方法、装置、终端及服务器
CN109656510A (zh) 一种网页中语音输入的方法及终端
CN108769360A (zh) 移动终端控制方法、移动终端及存储介质
CN108268438A (zh) 一种页面内容提取方法、装置以及客户端
CN110276010A (zh) 一种权重模型训练方法和相关装置
CN106534528A (zh) 一种文本信息的处理方法、装置及移动终端
CN106486119B (zh) 一种识别语音信息的方法和装置
CN109067979A (zh) 一种提示方法及移动终端
CN109451447A (zh) 一种鉴别垃圾信息的方法、装置、存储介质和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190308