CN104580100B - 一种恶意消息的识别方法及装置、服务器 - Google Patents

一种恶意消息的识别方法及装置、服务器 Download PDF

Info

Publication number
CN104580100B
CN104580100B CN201310501326.8A CN201310501326A CN104580100B CN 104580100 B CN104580100 B CN 104580100B CN 201310501326 A CN201310501326 A CN 201310501326A CN 104580100 B CN104580100 B CN 104580100B
Authority
CN
China
Prior art keywords
malicious messages
user
feature
dimension
malicious
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310501326.8A
Other languages
English (en)
Other versions
CN104580100A (zh
Inventor
赵立
沈飞
周斌
谢波
刘婷婷
杨正朋
稂衡峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310501326.8A priority Critical patent/CN104580100B/zh
Publication of CN104580100A publication Critical patent/CN104580100A/zh
Application granted granted Critical
Publication of CN104580100B publication Critical patent/CN104580100B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

一种恶意消息的识别方法及装置,该方法包括:识别每一分析周期内训练信息源的每一维度的各类相同消息特征的聚集度;若每一维度的各类相同消息特征的聚集度中存在聚集度大于等于该维度对应的聚集阈值,提取聚集度大于等于该维度对应的聚集阈值的相同消息特征加入恶意消息特征集合;从聚集度大于等于该维度对应的聚集阈值的相同消息特征中每一消息特征所属消息内,提取该消息特征所属消息包括的位于其他维度的消息特征加入恶意消息特征集合;当检测到用户输入的信息源时,若判断用户输入的信息源包括的消息特征属于恶意消息特征集合包括的恶意消息特征,识别出用户输入的信息源包括的恶意消息特征所属消息为恶意消息。能够提高恶意消息的识别率。

Description

一种恶意消息的识别方法及装置、服务器
技术领域
本发明涉及互联网技术领域,具体涉及一种恶意消息的识别方法及装置、服务器。
背景技术
众所周知,用户可以通过互联网工具(如论坛)来进行信息源发表(即发帖),而在实践中发现,用户通过互联网工具发表的信息源中可能会包括用户反复灌水的恶意消息。为了识别这些恶意消息,现有技术中通常会在固定的分析周期内切割信息源,以获得某一维度(如发帖的用户信息、用户IP等)的消息特征,进一步地可以分析这一维度的相同消息特征的聚集度,当聚集度大于等于预设聚集度时,可以识别出消息特征所属消息为恶意消息。然而,仅将某一维度的消息特征作为分析对象而忽略了其他维度的消息特征,会降低恶意消息的识别率。
发明内容
本发明实施例公开了一种恶意消息的识别方法及装置,能够提高恶意消息的识别率。
本发明实施例第一方面公开一种恶意消息的识别方法,包括:
识别每一分析周期内训练信息源的每一维度的各类相同消息特征的聚集度;
判断所述每一维度的各类相同消息特征的聚集度中是否存在聚集度大于等于所述维度对应的聚集阈值,若存在,提取所述聚集度大于等于所述维度对应的聚集阈值的相同消息特征加入恶意消息特征集合;以及,从所述聚集度大于等于所述维度对应的聚集阈值的相同消息特征中每一消息特征所属消息内,提取该消息特征所属消息包括的位于其他维度的消息特征加入所述恶意消息特征集合;
当检测到用户输入的信息源时,判断所述用户输入的信息源包括的消息特征是否属于所述恶意消息特征集合包括的恶意消息特征,若属于,识别出所述用户输入的信息源包括的恶意消息特征所属消息为恶意消息。
本发明实施例第二方面公开一种恶意消息的识别装置,包括:
第一识别单元,用于识别每一分析周期内训练信息源的每一维度的各类相同消息特征的聚集度;
第一判断单元,用于判断所述每一维度的各类相同消息特征的聚集度中是否存在聚集度大于等于所述维度对应的聚集阈值;
第一提取单元,用于在所述第一判断单元的辨别结果为是时,提取所述聚集度大于等于所述维度对应的聚集阈值的相同消息特征加入恶意消息特征集合;以及,从所述聚集度大于等于所述维度对应的聚集阈值的相同消息特征中每一消息特征所属消息内,提取该消息特征所属消息包括的位于其他维度的消息特征加入所述恶意消息特征集合;
第二判断单元,用于当检测到用户输入的信息源时,判断所述用户输入的信息源包括的消息特征是否属于所述恶意消息特征集合包括的恶意消息特征,
第二识别单元,用于在所述第二判断单元的判断结果为是时,识别出所述用户输入的信息源包括的恶意消息特征所属消息为恶意消息。
本发明实施例第三方面公开一种服务器,所述服务器包括本发明实施例第二方面公开的恶意消息的识别装置。
本发明实施例中,在识别出每一分析周期内训练信息源的每一维度的各类相同消息特征的聚集度之后,若判断出每一维度的各类相同消息特征的聚集度中存在聚集度大于等于该维度对应的聚集阈值,则提取聚集度大于等于该维度对应的聚集阈值的相同消息特征加入恶意消息特征集合,以及从聚集度大于等于该维度对应的聚集阈值的相同消息特征中每一消息特征所属消息内,提取该消息特征所属消息包括的位于其他维度的消息特征加入恶意消息特征集合,从而可以提高对恶意消息特征的覆盖度,在此基础上,当判断出用户输入的信息源包括的消息特征属于恶意消息特征集合包括的恶意消息特征时,即可识别出用户输入的信息源包括的恶意消息特征所属消息为恶意消息,从而可以提高恶意消息的识别率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种恶意消息的识别方法的流程示意图;
图2是本发明实施例公开的一种不同分析周期下训练信息源的各个维度的消息特征的分布示意图;
图3是本发明实施例公开的另一种恶意消息的识别方法的流程示意图;
图4是本发明实施例公开的又一种恶意消息的识别方法的流程示意图;
图5是本发明实施例公开的一种恶意消息的识别装置的结构示意图;
图6是本发明实施例公开的另一种恶意消息的识别装置的结构示意图;
图7是本发明实施例公开的又一种恶意消息的识别装置的结构示意图;
图8是本发明实施例公开的一种服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种恶意消息的识别方法及装置,可以提高对恶意消息特征的覆盖度,从而能够提高恶意消息的识别率。以下分别进行详细说明。
请参阅图1,图1是本发明实施例公开的一种恶意消息的识别方法的流程示意图。其中,图1所示的恶意消息的识别方法可以适用于论坛服务器、社交服务器以及其他具有信息发布功能的服务器、平台,本发明实施例不作限定。如图1所示,该恶意消息的识别方法可以包括以下步骤。
S101、识别每一分析周期内训练信息源的每一维度的各类相同消息特征的聚集度。
本发明实施例中,可以由论坛服务器、社交服务器等服务器来识别每一分析周期内训练信息源的每一维度的各类相同消息特征的聚集度。
本发明实施例中,每一分析周期内训练信息源的每一维度的各类相同消息特征的聚集度是指,每一分析周期内训练信息源的每一维度的各类相同消息特征的数目。如图2所示,假设在分析周期A、B、C内,训练信息源包括3个维度,分别是维度α、维度β以及维度σ,在每一维度中小方块均表示消息特征,而且相同颜色的小方块代表一类相同的消息特征,其中,不同维度在同一垂直线上的消息特征属于同一消息。如图2所示,在分析周期A内维度α的白色小方块表示的一类相同消息特征的聚集度为2,黑色小方块表示的另一类相同消息特征的聚集度为3。如图2所示,在分析周期A内维度β的灰色小方块表示的一类相同消息特征的聚集度为2。如图2所示,在分析周期A内维度σ的浅色小方块表示的一类相同消息特征的聚集度为5。
S102、判断每一维度的各类相同消息特征的聚集度中是否存在聚集度大于等于该维度对应的聚集阈值,若存在,提取聚集度大于等于该维度对应的聚集阈值的相同消息特征加入恶意消息特征集合;以及,从聚集度大于等于该维度对应的聚集阈值的相同消息特征中每一消息特征所属消息内,提取该消息特征所属消息包括的位于其他维度的消息特征加入恶意消息特征集合。
本发明实施例中,服务器在识别每一分析周期内训练信息源的每一维度的各类相同消息特征的聚集度之后,可以执行上述步骤S102。
举例来说,在图2中假设维度α对应的聚集阈值为3,那么服务器通过执行上述步骤S102,在分析周期A内可以判断出维度α中的黑色小方块表示的一类相同消息特征的聚集度(即3)大于等于维度α对应的聚集阈值3,因此,服务器可以提取维度α中的黑色小方块表示的相同消息特征加入恶意消息特征集合;以及,服务器可以从维度α中的黑色小方块表示的相同消息特征中每一消息特征所属消息中,提取该消息特征所属消息包括的位于维度β以及维度σ的消息特征加入恶意消息特征集合(其中,维度α、维度β以及维度σ在同一垂直线上的消息特征属于同一消息),从而可以提高对恶意消息特征的覆盖度。
举例来说,在图2中假设维度β对应的聚集阈值为2,那么服务器通过执行上述步骤S102,在分析周期A内可以判断出维度β中的灰色小方块表示的一类相同消息特征的聚集度(即2)大于等于维度β对应的聚集阈值2,因此,服务器可以提取维度β中的灰色小方块表示的相同消息特征加入恶意消息特征集合;以及,服务器可以从维度β中的灰色小方块表示的相同消息特征中每一消息特征所属消息中,提取该消息特征所属消息包括的位于维度α以及维度σ的消息特征加入恶意消息特征集合(其中,维度α、维度β以及维度σ在同一垂直线上的消息特征属于同一消息),从而可以提高对恶意消息特征的覆盖度。
举例来说,在图2中假设维度σ对应的聚集阈值为3,那么服务器通过执行上述步骤S102,在分析周期A内可以判断出维度σ中的浅色小方块表示的一类相同消息特征的聚集度(即5)大于等于维度σ对应的聚集阈值3,因此,服务器可以提取维度σ中的浅色小方块表示的相同消息特征加入恶意消息特征集合;以及,服务器可以从维度σ中的浅色小方块表示的相同消息特征中每一消息特征所属消息中,提取该消息特征所属消息包括的位于维度α以及维度σ的消息特征加入恶意消息特征集合(其中,维度α、维度β以及维度σ在同一垂直线上的消息特征属于同一消息),从而可以提高对恶意消息特征的覆盖度。
S103、当检测到用户输入的信息源时,判断用户输入的信息源包括的消息特征是否属于恶意消息特征集合包括的恶意消息特征,若属于,识别出用户输入的信息源包括的恶意消息特征所属消息为恶意消息。
本发明实施例中,训练信息源的维度可以包括文本内容、图片、音视频、发帖用户信息、发帖用户IP以及被转载者信息中的两个或两个以上。举例来说,当训练信息源的维度为文本内容、图片或音视频时,消息特征可以是文本内容、图片或音视频的链接地址;当训练信息源的维度为发帖用户信息时,消息特征可以是发帖用户的账号信息;当训练信息源的维度为发帖用户IP时,消息特征可以是发帖用户IP。
在图1所描述的方法中,在识别出每一分析周期内训练信息源的每一维度的各类相同消息特征的聚集度之后,若判断出每一维度的各类相同消息特征的聚集度中存在聚集度大于等于该维度对应的聚集阈值,则提取聚集度大于等于该维度对应的聚集阈值的相同消息特征加入恶意消息特征集合,以及从聚集度大于等于该维度对应的聚集阈值的相同消息特征中每一消息特征所属消息内,提取该消息特征所属消息包括的位于其他维度的消息特征加入恶意消息特征集合,从而可以提高对恶意消息特征的覆盖度,在此基础上,当判断出用户输入的信息源包括的消息特征属于恶意消息特征集合包括的恶意消息特征时,即可识别出用户输入的信息源包括的恶意消息特征所属消息为恶意消息,从而可以提高恶意消息的识别率。
请参阅图3,图3是本发明实施例公开的另一种恶意消息的识别方法的流程示意图。其中,图3所示的恶意消息的识别方法可以适用于论坛服务器、社交服务器以及其他具有信息发布功能的服务器、平台,本发明实施例不作限定。如图3所示,该恶意消息的识别方法可以包括以下步骤。
S301、服务器识别每一分析周期内训练信息源的每一维度的各类相同消息特征的聚集度。
本发明实施例中,每一分析周期内训练信息源的每一维度的各类相同消息特征的聚集度是指,每一分析周期内训练信息源的每一维度的各类相同消息特征的数目。如图2所示,假设在分析周期A、B、C内,训练信息源包括3个维度,分别是维度α、维度β以及维度σ,在每一维度中小方块均表示消息特征,而且相同颜色的小方块代表一类相同的消息特征,其中,不同维度在同一垂直线上的消息特征属于同一消息。如图2所示,在分析周期A内维度α的白色小方块表示的一类相同消息特征的聚集度为2,黑色小方块表示的另一类相同消息特征的聚集度为3。如图2所示,在分析周期A内维度β的灰色小方块表示的一类相同消息特征的聚集度为2。如图2所示,在分析周期A内维度σ的浅色小方块表示的一类相同消息特征的聚集度为5。
S302、服务器判断每一维度的各类相同消息特征的聚集度中是否存在聚集度大于等于该维度对应的聚集阈值,若存在,执行步骤S303;若不存在,结束本流程。
S303、服务器提取聚集度大于等于该维度对应的聚集阈值的相同消息特征加入恶意消息特征集合;以及,从聚集度大于等于该维度对应的聚集阈值的相同消息特征中每一消息特征所属消息内,提取该消息特征所属消息包括的位于其他维度的消息特征加入恶意消息特征集合。
举例来说,在图2中假设维度α对应的聚集阈值为3,那么服务器通过执行上述步骤S302,在分析周期A内可以判断出维度α中的黑色小方块表示的一类相同消息特征的聚集度(即3)大于等于维度α对应的聚集阈值3,因此,服务器可以提取维度α中的黑色小方块表示的相同消息特征加入恶意消息特征集合;以及,服务器可以从维度α中的黑色小方块表示的相同消息特征中每一消息特征所属消息中,提取该消息特征所属消息包括的位于维度β以及维度σ的消息特征加入恶意消息特征集合(其中,维度α、维度β以及维度σ在同一垂直线上的消息特征属于同一消息),从而可以提高对恶意消息特征的覆盖度。
S304、当检测到用户输入的信息源时,服务器判断用户输入的信息源包括的消息特征是否属于恶意消息特征集合包括的恶意消息特征,若属于,执行步骤S305;若不属于,结束本流程。
S305、服务器判断用户输入的信息源包括的恶意消息特征的数量与恶意消息特征集合包括的恶意消息特征的总数量的比值是否大于等于预设阈值,如果是,执行步骤S306;如果否,执行步骤S307。
S306、服务器识别出用户输入的信息源包括的恶意消息特征所属消息为恶意消息,结束本流程。
S307、服务器识别出用户输入的信息源包括的恶意消息特征所属消息为非恶意消息,结束本流程。
本发明实施例中,训练信息源的维度可以包括文本内容、图片、音视频、发帖用户信息、发帖用户IP以及被转载者信息中的两个或两个以上。举例来说,当训练信息源的维度为文本内容、图片或音视频时,消息特征可以是文本内容、图片或音视频的链接地址;当训练信息源的维度为发帖用户信息时,消息特征可以是发帖用户的账号信息;当训练信息源的维度为发帖用户IP时,消息特征可以是发帖用户IP。
在图3所描述的方法中,在识别出每一分析周期内训练信息源的每一维度的各类相同消息特征的聚集度之后,若判断出每一维度的各类相同消息特征的聚集度中存在聚集度大于等于该维度对应的聚集阈值,则提取聚集度大于等于该维度对应的聚集阈值的相同消息特征加入恶意消息特征集合,以及从聚集度大于等于该维度对应的聚集阈值的相同消息特征中每一消息特征所属消息内,提取该消息特征所属消息包括的位于其他维度的消息特征加入恶意消息特征集合,从而可以提高对恶意消息特征的覆盖度,在此基础上,当判断出用户输入的信息源包括的消息特征属于恶意消息特征集合包括的恶意消息特征,且用户输入的信息源包括的恶意消息特征的数量与恶意消息特征集合包括的恶意消息特征的总数量的比值大于等于预设阈值时,即可识别出用户输入的信息源包括的恶意消息特征所属消息为恶意消息,从而可以提高恶意消息的识别率。
请参阅图4,图4是本发明实施例公开的又一种恶意消息的识别方法的流程示意图。其中,图4所示的恶意消息的识别方法可以适用于论坛服务器、社交服务器以及其他具有信息发布功能的服务器、平台,本发明实施例不作限定。如图4所示,该恶意消息的识别方法可以包括以下步骤。
S401、服务器识别每一分析周期内训练信息源的每一维度的各类相同消息特征的聚集度。
本发明实施例中,每一分析周期内训练信息源的每一维度的各类相同消息特征的聚集度是指,每一分析周期内训练信息源的每一维度的各类相同消息特征的数目。如图2所示,假设在分析周期A、B、C内,训练信息源包括3个维度,分别是维度α、维度β以及维度σ,在每一维度中小方块均表示消息特征,而且相同颜色的小方块代表一类相同的消息特征,其中,不同维度在同一垂直线上的消息特征属于同一消息。如图2所示,在分析周期A内维度α的白色小方块表示的一类相同消息特征的聚集度为2,黑色小方块表示的另一类相同消息特征的聚集度为3。如图2所示,在分析周期A内维度β的灰色小方块表示的一类相同消息特征的聚集度为2。如图2所示,在分析周期A内维度σ的浅色小方块表示的一类相同消息特征的聚集度为5。
S402、服务器判断每一维度的各类相同消息特征的聚集度中是否存在聚集度大于等于该维度对应的聚集阈值,若存在,执行步骤S403;若不存在,结束本流程。
S403、服务器提取聚集度大于等于该维度对应的聚集阈值的相同消息特征加入恶意消息特征集合;以及,从聚集度大于等于该维度对应的聚集阈值的相同消息特征中每一消息特征所属消息内,提取该消息特征所属消息包括的位于其他维度的消息特征加入恶意消息特征集合。
举例来说,在图2中假设维度α对应的聚集阈值为3,那么服务器通过执行上述步骤S402,在分析周期A内可以判断出维度α中的黑色小方块表示的一类相同消息特征的聚集度(即3)大于等于维度α对应的聚集阈值3,因此,服务器可以提取维度α中的黑色小方块表示的相同消息特征加入恶意消息特征集合;以及,服务器可以从维度α中的黑色小方块表示的相同消息特征中每一消息特征所属消息中,提取该消息特征所属消息包括的位于维度β以及维度σ的消息特征加入恶意消息特征集合(其中,维度α、维度β以及维度σ在同一垂直线上的消息特征属于同一消息),从而可以提高对恶意消息特征的覆盖度。
S404、服务器从训练信息源中,提取聚集度大于等于该维度对应的聚集阈值的相同消息特征中每一消息特征所属消息的用户属性;以及将用户属性加入恶意用户属性集合。
本发明实施例中,用户属性可以包括用户名称、账号、用户IP等,本发明实施例不作限定。
本发明实施例中,将用户属性加入恶意用户属性集合,可以形成长期信用度及短期作恶记录。
S405、当检测到用户输入的信息源时,服务器判断用户输入的信息源包括的消息特征是否属于恶意消息特征集合包括的恶意消息特征,若属于,执行步骤S406;若不属于,结束本流程。
S406、服务器判断用户输入的信息源包括的恶意消息特征的数量与恶意消息特征集合包括的恶意消息特征的总数量的比值是否大于等于预设阈值,如果是,执行步骤S407;如果否,执行步骤S409。
S407、服务器判断用户输入的信息源包括的恶意消息特征所属消息的用户属性是否属于恶意用户属性集合包括的恶意用户属性,若属于,执行步骤S408;若不属于,执行步骤S409。
S408、服务器识别出用户输入的信息源包括的恶意消息特征所属消息为恶意消息,结束本流程。
S409、服务器识别出用户输入的信息源包括的恶意消息特征所属消息为非恶意消息,结束本流程。
本发明实施例中,训练信息源的维度可以包括文本内容、图片、音视频、发帖用户信息、发帖用户IP以及被转载者信息中的两个或两个以上。举例来说,当训练信息源的维度为文本内容、图片或音视频时,消息特征可以是文本内容、图片或音视频的链接地址;当训练信息源的维度为发帖用户信息时,消息特征可以是发帖用户的账号信息;当训练信息源的维度为发帖用户IP时,消息特征可以是发帖用户IP。
在图4所描述的方法中,在识别出每一分析周期内训练信息源的每一维度的各类相同消息特征的聚集度之后,若判断出每一维度的各类相同消息特征的聚集度中存在聚集度大于等于该维度对应的聚集阈值,则提取聚集度大于等于该维度对应的聚集阈值的相同消息特征加入恶意消息特征集合,以及从聚集度大于等于该维度对应的聚集阈值的相同消息特征中每一消息特征所属消息内,提取该消息特征所属消息包括的位于其他维度的消息特征加入恶意消息特征集合,从而可以提高对恶意消息特征的覆盖度,在此基础上,还可以从训练信息源中,提取聚集度大于等于该维度对应的聚集阈值的相同消息特征中每一消息特征所属消息的用户属性;以及将用户属性加入恶意用户属性集合,当判断出用户输入的信息源包括的消息特征属于恶意消息特征集合包括的恶意消息特征,且用户输入的信息源包括的恶意消息特征的数量与恶意消息特征集合包括的恶意消息特征的总数量的比值大于等于预设阈值,且用户输入的信息源包括的恶意消息特征所属消息的用户属性属于恶意用户属性集合包括的恶意用户属性时,即可识别出用户输入的信息源包括的恶意消息特征所属消息为恶意消息,从而可以提高恶意消息的识别率。
请参阅图5,图5是本发明实施例公开的一种恶意消息的识别装置的结构示意图。其中,图5所示的恶意消息的识别装置既可以是一种独立装置,也可以是对论坛服务器、社交服务器以及其他具有信息发布功能的服务器、平台所新增的一部分,本发明实施例不作限定。如图5所示,该恶意消息的识别装置可以包括:
第一识别单元501,用于识别每一分析周期内训练信息源的每一维度的各类相同消息特征的聚集度;
第一判断单元502,用于判断每一维度的各类相同消息特征的聚集度中是否存在聚集度大于等于该维度对应的聚集阈值;
第一提取单元503,用于在第一判断单元502的辨别结果为是时,提取聚集度大于等于该维度对应的聚集阈值的相同消息特征加入恶意消息特征集合;以及,从聚集度大于等于该维度对应的聚集阈值的相同消息特征中每一消息特征所属消息内,提取该消息特征所属消息包括的位于其他维度的消息特征加入恶意消息特征集合;
第二判断单元504,用于当检测到用户输入的信息源时,判断用户输入的信息源包括的消息特征是否属于恶意消息特征集合包括的恶意消息特征,
第二识别单元505,用于在第二判断单元504的判断结果为是时,识别出用户输入的信息源包括的恶意消息特征所属消息为恶意消息。
本发明实施例中,恶意消息特征集合可以存储在第一提取单元503中。
请一并参阅图6,图6是本发明实施例公开的另一种恶意消息的识别装置的结构示意图。其中,图6所示的恶意消息的识别装置是由图5所示的一种恶意消息的识别装置进行优化得到的,与图5所示的一种恶意消息的识别装置相比较,图6所示的一种恶意消息的识别装置还包括:
第三判断单元506,用于在第二判断单元504的判断结果为是时,判断用户输入的信息源包括的恶意消息特征的数量与恶意消息特征集合包括的恶意消息特征的总数量的比值是否大于等于预设阈值;
第三识别单元507,用于在第三判断单元506的判断结果为是时,识别出用户输入的信息源包括的恶意消息特征所属消息为恶意消息。
本发明实施例中,在图6所示的恶意消息的识别装置中,可以有管理人员根据实际情况自行决定是启动第二识别单元505,还是启动第三判断单元506和第三识别单元507。例如,当管理人员想进行一步提高恶意消息的识别率时,管理人员可以不启动第二识别单元505,而启动第三判断单元506和第三识别单元507。
请一并参阅图7,图7是本发明实施例公开的另一种恶意消息的识别装置的结构示意图。其中,图7所示的恶意消息的识别装置是由图5所示的一种恶意消息的识别装置进行优化得到的,与图5所示的一种恶意消息的识别装置相比较,图7所示的一种恶意消息的识别装置还包括:
第二提取单元508,用于从训练信息源中,提取聚集度大于等于该维度对应的聚集阈值的相同消息特征中每一消息特征所属消息的用户属性;以及,将用户属性加入恶意用户属性集合。
第四判断单元509,用于在第二判断单元504的判断结果为是时,判断用户输入的信息源包括的恶意消息特征的数量与恶意消息特征集合包括的恶意消息特征的总数量的比值是否大于等于预设阈值,如果是,判断用户输入的信息源包括的恶意消息特征所属消息的用户属性是否属于恶意用户属性集合包括的恶意用户属性;
第四识别单元510,用于在第四判断单元509判断出用户输入的信息源包括的恶意消息特征所属消息的用户属性属于恶意用户属性集合包括的恶意用户属性结果时,识别出用户输入的信息源包括的恶意消息特征所属消息为恶意消息。
本发明实施例中,在图7所示的恶意消息的识别装置中,可以有管理人员根据实际情况自行决定是启动第二识别单元505,还是启动第二提取单元508、第四判断单元509和第四识别单元510。例如,当管理人员想进行一步提高恶意消息的识别率时,管理人员可以不启动第二识别单元505,而启动第二提取单元508、第四判断单元509和第四识别单元510。
本发明实施例中,训练信息源的维度可以包括文本内容、图片、音视频、发帖用户信息、发帖用户IP以及被转载者信息中的两个或两个以上。举例来说,当训练信息源的维度为文本内容、图片或音视频时,消息特征可以是文本内容、图片或音视频的链接地址;当训练信息源的维度为发帖用户信息时,消息特征可以是发帖用户的账号信息;当训练信息源的维度为发帖用户IP时,消息特征可以是发帖用户IP。
本发明实施例公开的恶意消息的识别装置可以提高对恶意消息特征的覆盖度,在此基础上,可以提高恶意消息的识别率。
请参阅图8,图8是本发明实施例公开的一种服务器的结构示意图。其中,图8所示的服务器可以包括恶意消息的识别装置,该恶意消息的识别装置的结构、功能可以和图5~图7中任一个恶意消息的识别装置的结构、功能相同,本发明实施例不作赘述。其中,图8公开的一种服务器可以提高对恶意消息特征的覆盖度,在此基础上,可以提高恶意消息的识别率。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random AccessMemory,RAM)、磁盘或光盘等。
以上对本发明实施例公开的一种恶意消息的识别方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (11)

1.一种恶意消息的识别方法,其特征在于,包括:
识别每一分析周期内训练信息源的每一维度的各类相同消息特征的聚集度;
判断所述每一维度的各类相同消息特征的聚集度中是否存在聚集度大于等于所述维度对应的聚集阈值,若存在,提取所述聚集度大于等于所述维度对应的聚集阈值的相同消息特征加入恶意消息特征集合;以及,从所述聚集度大于等于所述维度对应的聚集阈值的相同消息特征中每一消息特征所属消息内,提取该消息特征所属消息包括的位于其他维度的消息特征加入所述恶意消息特征集合;
当检测到用户输入的信息源时,判断所述用户输入的信息源包括的消息特征是否属于所述恶意消息特征集合包括的恶意消息特征,若属于,识别出所述用户输入的信息源包括的恶意消息特征所属消息为恶意消息。
2.根据权利要求1所述的方法,其特征在于,若判断所述用户输入的信息源包括的消息特征属于所述恶意消息特征集合包括的恶意消息特征,所述方法还包括:
判断所述用户输入的信息源包括的恶意消息特征的数量与所述恶意消息特征集合包括的恶意消息特征的总数量的比值是否大于等于预设阈值,如果是,识别出所述用户输入的信息源包括的恶意消息特征所属消息为恶意消息。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从所述训练信息源中,提取所述聚集度大于等于所述维度对应的聚集阈值的相同消息特征中每一消息特征所属消息的用户属性;以及将所述用户属性加入恶意用户属性集合。
4.根据权利要求3所述的方法,其特征在于,若判断所述用户输入的信息源包括的消息特征属于所述恶意消息特征集合包括的恶意消息特征,所述方法还包括:
判断所述用户输入的信息源包括的恶意消息特征的数量与所述恶意消息特征集合包括的恶意消息特征的总数量的比值是否大于等于预设阈值,如果是,判断所述用户输入的信息源包括的恶意消息特征所属消息的用户属性是否属于所述恶意用户属性集合包括的恶意用户属性,若属于,识别出所述用户输入的信息源包括的恶意消息特征所属消息为恶意消息。
5.根据权利要求1~4任一项所述的方法,其特征在于,所述训练信息源的维度包括文本内容、图片、音视频、发帖用户信息以及被转载者信息中的两个或两个以上。
6.一种恶意消息的识别装置,其特征在于,包括:
第一识别单元,用于识别每一分析周期内训练信息源的每一维度的各类相同消息特征的聚集度;
第一判断单元,用于判断所述每一维度的各类相同消息特征的聚集度中是否存在聚集度大于等于所述维度对应的聚集阈值;
第一提取单元,用于在所述第一判断单元的辨别结果为是时,提取所述聚集度大于等于所述维度对应的聚集阈值的相同消息特征加入恶意消息特征集合;以及,从所述聚集度大于等于所述维度对应的聚集阈值的相同消息特征中每一消息特征所属消息内,提取该消息特征所属消息包括的位于其他维度的消息特征加入所述恶意消息特征集合;
第二判断单元,用于当检测到用户输入的信息源时,判断所述用户输入的信息源包括的消息特征是否属于所述恶意消息特征集合包括的恶意消息特征,
第二识别单元,用于在所述第二判断单元的判断结果为是时,识别出所述用户输入的信息源包括的恶意消息特征所属消息为恶意消息。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第三判断单元,用于在所述第二判断单元的判断结果为是时,判断所述用户输入的信息源包括的恶意消息特征的数量与所述恶意消息特征集合包括的恶意消息特征的总数量的比值是否大于等于预设阈值;
第三识别单元,用于在所述第三判断单元的判断结果为是时,识别出所述用户输入的信息源包括的恶意消息特征所属消息为恶意消息。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第二提取单元,用于从所述训练信息源中,提取所述聚集度大于等于所述维度对应的聚集阈值的相同消息特征中每一消息特征所属消息的用户属性;以及,将所述用户属性加入恶意用户属性集合。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第四判断单元,用于在所述第二判断单元的判断结果为是时,判断所述用户输入的信息源包括的恶意消息特征的数量与所述恶意消息特征集合包括的恶意消息特征的总数量的比值是否大于等于预设阈值,如果是,判断所述用户输入的信息源包括的恶意消息特征所属消息的用户属性是否属于所述恶意用户属性集合包括的恶意用户属性;
第四识别单元,用于在所述第四判断单元判断出所述用户输入的信息源包括的恶意消息特征所属消息的用户属性属于所述恶意用户属性集合包括的恶意用户属性结果时,识别出所述用户输入的信息源包括的恶意消息特征所属消息为恶意消息。
10.根据权利要求6~9任一项所述的装置,其特征在于,所述训练信息源的维度包括文本内容、图片、音视频、发帖用户信息以及被转载者信息中的两个或两个以上。
11.一种服务器,其特征在于,所述服务器包括权利要求6~10任一项所述的恶意消息的识别装置。
CN201310501326.8A 2013-10-23 2013-10-23 一种恶意消息的识别方法及装置、服务器 Active CN104580100B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310501326.8A CN104580100B (zh) 2013-10-23 2013-10-23 一种恶意消息的识别方法及装置、服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310501326.8A CN104580100B (zh) 2013-10-23 2013-10-23 一种恶意消息的识别方法及装置、服务器

Publications (2)

Publication Number Publication Date
CN104580100A CN104580100A (zh) 2015-04-29
CN104580100B true CN104580100B (zh) 2018-12-07

Family

ID=53095298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310501326.8A Active CN104580100B (zh) 2013-10-23 2013-10-23 一种恶意消息的识别方法及装置、服务器

Country Status (1)

Country Link
CN (1) CN104580100B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106937258B (zh) * 2017-03-10 2019-07-12 Oppo广东移动通信有限公司 一种广播的控制方法、装置及移动终端
CN111193697B (zh) * 2019-08-07 2021-06-25 腾讯科技(深圳)有限公司 社交账号的不可信度检测方法、装置及系统
CN111818089A (zh) * 2020-07-31 2020-10-23 北京微步在线科技有限公司 一种网络攻击事件的展示方法及存储介质
US11687648B2 (en) * 2020-12-10 2023-06-27 Abnormal Security Corporation Deriving and surfacing insights regarding security threats

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102315952A (zh) * 2010-06-29 2012-01-11 百度在线网络技术(北京)有限公司 一种用于社区网络中检测垃圾帖子的方法与设备
CN102591854A (zh) * 2012-01-10 2012-07-18 凤凰在线(北京)信息技术有限公司 针对文本特征的广告过滤系统及其过滤方法
CN103092975A (zh) * 2013-01-25 2013-05-08 武汉大学 基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法
CN103176984A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种用户生成内容中欺骗性垃圾意见检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9137318B2 (en) * 2008-01-16 2015-09-15 Avaya Inc. Method and apparatus for detecting events indicative of inappropriate activity in an online community

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102315952A (zh) * 2010-06-29 2012-01-11 百度在线网络技术(北京)有限公司 一种用于社区网络中检测垃圾帖子的方法与设备
CN103176984A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种用户生成内容中欺骗性垃圾意见检测方法
CN102591854A (zh) * 2012-01-10 2012-07-18 凤凰在线(北京)信息技术有限公司 针对文本特征的广告过滤系统及其过滤方法
CN103092975A (zh) * 2013-01-25 2013-05-08 武汉大学 基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法

Also Published As

Publication number Publication date
CN104580100A (zh) 2015-04-29

Similar Documents

Publication Publication Date Title
CN104580100B (zh) 一种恶意消息的识别方法及装置、服务器
Sunderlin et al. Forest tenure rights and REDD+: From inertia to policy solutions
CN105471808B (zh) 生成验证码的方法以及安全验证的方法、装置及系统
CN104462152B (zh) 一种网页的识别方法及装置
Imsamai et al. 3D CAPTCHA: A next generation of the CAPTCHA
CN107547555A (zh) 一种网站安全监测方法及装置
CN104463855B (zh) 一种基于频域和空域结合的显著区域检测方法
CN107749859A (zh) 一种面向网络加密流量的恶意移动应用检测方法
CN104091140B (zh) 一种信息处理方法及电子设备
CN102955912B (zh) 一种程序恶意属性判别方法和服务器
CN106789233B (zh) 一种网络攻防实验平台的自动评分方法及装置
EP3336715A1 (en) Method and device for displaying map information, and storage medium
CN105354481B (zh) 网络验证方法和网络验证服务器
CN104852916A (zh) 一种基于社会工程学的网页验证码识别方法及系统
CN107800686A (zh) 一种钓鱼网站识别方法和装置
KR101363668B1 (ko) 캡차를 이용한 사용자 인증 장치 및 방법
Aldwairi et al. Efficient and secure flash-based gaming CAPTCHA
CN108109071A (zh) 基于人员社会关系动态关联的监控方法及电子设备
CN107294902B (zh) 一种风险识别方法和设备
Nguyen et al. Attacking animated CAPTCHAs via character extraction
US10354060B2 (en) Applying a partial captcha
CN105868986A (zh) 一种用于提供用户设备的安全信息的方法及设备
Sawada et al. Effective CAPTCHA with Amodal Completion and Aftereffects
Liu et al. Research and design of rootkit detection method
CN105160256A (zh) 一种检测web页面漏洞的方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190731

Address after: Shenzhen Futian District City, Guangdong province 518000 Zhenxing Road, SEG Science Park 2 East Room 403

Co-patentee after: Tencent cloud computing (Beijing) limited liability company

Patentee after: Tencent Technology (Shenzhen) Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518000 Zhenxing Road, SEG Science Park 2 East Room 403

Patentee before: Tencent Technology (Shenzhen) Co., Ltd.