CN104866478A

CN104866478A - 恶意文本的检测识别方法及装置

Info

Publication number: CN104866478A
Application number: CN201410059149.7A
Authority: CN
Inventors: 王俊乐
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2014-02-21
Filing date: 2014-02-21
Publication date: 2015-08-26
Anticipated expiration: 2034-02-21
Also published as: CN104866478B

Abstract

本发明实施例公开了一种恶意文本的检测识别方法及装置，涉及信息技术领域，可以提高恶意文本的检测识别准确率和精度。所述方法包括：首先获取文本对应的SimHash值，然后根据所述文本对应的SimHash值和恶意文本数据库中保存的各个恶意文本分别对应的SimHash值，获取所述文本与所述各个恶意文本之间的汉明距离，若所述汉明距离中存在小于或等于预设阈值的汉明距离，则确定所述文本为恶意文本。

Description

恶意文本的检测识别方法及装置

技术领域

本发明涉及信息技术领域，特别涉及一种恶意文本的检测识别方法及装置。

背景技术

随着互联网的不断发展，社交媒体产品的种类也越来越多，其中，微博作为一种社交平台被用户广泛的应用。微博的消息长度通常较短，而微博中的用户昵称、话题等消息的长度更短，因此，如何针对这种长度较短的消息文本进行恶意文本识别已经成为需要解决的关键技术问题。

目前，通常是通过基于关键词的匹配算法来进行长度较短的恶意文本检测识别，即根据线上的一些投诉情况或者恶意案例来选定关键词，然后基于选定的关键词进行恶意文本匹配。然而由于根据线上的一些投诉情况或者恶意案例选定的关键词的准确率和精度较低，并且攻击方只需对恶意文本中的词语进行微调，即可避免与选定的关键词相同或相似，从而造成现有针对长度较短的恶意文本识别方法的准确率和精度较低。

发明内容

本发明实施例提供一种恶意文本的检测识别方法及装置，可以提高针对长度较短的恶意文本的检测识别准确率和精度。

本发明实施例采用的技术方案为：

一种恶意文本的检测识别方法，包括：

获取文本对应的SimHash值；

根据所述文本对应的SimHash值和恶意文本数据库中保存的各个恶意文本分别对应的SimHash值，获取所述文本与所述各个恶意文本之间的汉明距离；

若所述汉明距离中存在小于或等于预设阈值的汉明距离，则确定所述文本为恶意文本。

一种恶意文本的检测识别装置，包括：

获取单元，用于获取文本对应的SimHash值；

所述获取单元，还用于根据所述文本对应的SimHash值和恶意文本数据库中保存的各个恶意文本分别对应的SimHash值，获取所述文本与所述各个恶意文本之间的汉明距离；

确定单元，用于若所述汉明距离中存在小于或等于预设阈值的汉明距离，则确定所述文本为恶意文本。

本发明实施例提供的恶意文本的检测识别方法及装置，首先获取文本对应的SimHash值，然后根据所述文本对应的SimHash值和恶意文本数据库中保存的各个恶意文本分别对应的SimHash值，获取所述文本与所述各个恶意文本之间的汉明距离，若所述汉明距离中存在小于或等于预设阈值的汉明距离，则确定所述文本为恶意文本。与目前通过基于关键词的匹配算法来进行恶意文本检测识别相比，本发明基于文本对应的SimHash值进行恶意文本检测识别，可以提高针对长度较短的恶意文本的检测识别准确率和精度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种恶意文本的检测识别方法流程图；

图2为本发明实施例提供的另一种恶意文本的检测识别方法流程图；

图3为本发明实施例提供的一种恶意文本的检测识别装置结构示意图；

图4为本发明实施例提供的另一种恶意文本的检测识别装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

为使本发明技术方案的优点更加清楚，下面结合附图和实施例对本发明作详细说明。

本发明实施例提供一种恶意文本的检测识别方法，如图1所示，所述方法包括：

101、获取文本对应的SimHash值。

对于本发明实施例，步骤101具体可以包括对文本包含的特征进行SimHash计算，从而获取文本对应的SimHash值。其中，文本通常为长度较短的消息文本，可以为长度在15个汉字以内的微博昵称、微博话题等。文本包含的特征可以为文本包含的每个中文字和每个中文字分别对应的汉语拼音，例如，对于文本查看减肥方法，文本包含的特征为查、cha、看、kan、减、jian、肥、fei、方、fang、法、fa。

其中，SimHash算法是一种用于网页去重最常用的哈希算法，SimHash算法不同于传统的哈希算法，对于两个相似的文本内容，通过SimHash算法能够提供差异不大的语义指纹哈希值。

优选地，步骤101之前还可以包括：对文本进行预处理，预处理可以为对文本进行繁简转换，或者将文本中包含的英文、阿拉伯数字、中文数字等进行过滤。通过在获取文本对应的SimHash值之前，对文本进行预处理，可以将文本中包含的不相关信息过滤掉，进一步提高针对长度较短的恶意文本的检测识别效率。例如，对于文本点击查看瘦三十斤，经过预处理后的文本为点击查看瘦斤。

102、根据所述文本对应的SimHash值和恶意文本数据库中保存的各个恶意文本分别对应的SimHash值，获取所述文本与所述各个恶意文本之间的汉明距离。

其中，两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数，即将一个字符串变换成另外一个字符串所需要替换的字符个数。例如：对于二进制字符串1011101与1001001之间的汉明距离是2，对于字符串2143896与2233796之间的汉明距离是3。

优选地，可以采用抽屉原理将各个恶意文本分别对应的SimHash值保存在恶意文本数据库中，从而可以降低文本与所述各个恶意文本之间的汉明距离的获取复杂度，进一步提高针对长度较短的恶意文本的检测识别效率。

103、若所述汉明距离中存在小于或等于预设阈值的汉明距离，则确定所述文本为恶意文本。

其中，预设阈值可以根据实际需求进行设定，例如，将预设阈值设定为5，则此时汉明距离小于5时，则确定文本与恶意文本相似，即将该文本确定为恶意文本。

本发明实施例提供的一种恶意文本的检测识别方法，首先获取文本对应的SimHash值，然后根据所述文本对应的SimHash值和恶意文本数据库中保存的各个恶意文本分别对应的SimHash值，获取所述文本与所述各个恶意文本之间的汉明距离，若所述汉明距离中存在小于或等于预设阈值的汉明距离，则确定所述文本为恶意文本。与目前通过基于关键词的匹配算法来进行恶意文本检测识别相比，本发明基于文本对应的SimHash值进行恶意文本检测识别，可以提高针对长度较短的恶意文本的检测识别准确率和精度。

进一步地，本发明实施例提供另一种恶意文本的检测识别方法，如图2所示，所述方法包括：

201、建立所述恶意文本数据库。

其中，所述恶意文本数据库中保存有多个恶意文本和与所述多个恶意文本分别对应的SimHash值。

对于本发明实施例，步骤201具体可以包括：首先将任意一个文本划分为多个特征词，然后分别计算所述多个特征词在各个预置恶意类别中分别对应的概率，再根据所述多个特征词在各个预置恶意类别中分别对应的概率，获取所述文本在各个预置恶意类别中分别对应的概率，若所述文本在各个预置恶意类别分别对应的概率中，存在大于或等于预设概率阈值的概率，则将所述文本和所述文本对应的SimHash值保存在所述恶意文本数据库中，并且将所述文本包含的多个特征词保存在对应的预置恶意类别中，其中，预设概率阈值可以根据实际需求进行设定，本发明实施例不做限定。将所述文本包含的多个特征词保存在对应的预置恶意类别中具体可以包括：若对应的预置恶意类别中已保存有文本包含的多个特征词，则将多个特征词在该预置恶意类别中分别对应的出现频数累计加1，若多个特征词中存在未在预置恶意类别中保存过的特征词，则在该预置恶意类别中增加未保存过的特征词，并将该特征词的出现频数标记为1.

其中，可以采用w-singling方式将文本划分为多个特征词，w可以配置为任意数字。例如对于文本我喜欢使用微博，若采用3-singling方式进行划分，划分后的特征词分别为我喜欢、喜欢使、欢使用、使用微、用微博。预置恶意类别的个数可以根据实际需求进行配置，预置恶意类别具体可以为广告、团购、色情等类别，本发明实施例不做限定。进一步地，还可以额外配置一个非恶意类别。

上述分别计算所述多个特征词在各个预置恶意类别中分别对应的概率的步骤可以包括：根据所述恶意文本数据库中保存的所述多个特征词在各个预置恶意类别中分别对应的出现频数，计算所述多个特征词在各个预置恶意类别中分别对应的概率。例如，某一特征词查看在类别1中出现的频数为16，在类别2中出现的频数为14，则特征词查看在类别1中对应的概率为16/30，在类别2中对应的概率为14/30。

上述根据所述多个特征词在各个预置恶意类别中分别对应的概率，获取所述文本在各个预置恶意类别中分别对应的概率的步骤可以包括：根据公式Px＝Pr(类别x|特征A)*Pr(类别x|特征B)*...Pr(类别x|特征N)获取所述文本在各个预置恶意类别中分别对应的概率。其中，Px为文本在类别x中对应的概率，Pr(类别x|特征N)为文本包含的特征词N在类别x中对应的概率。

优选地，将任意一个文本划分为多个特征词的步骤之前还可以包括：对文本进行预处理，预处理可以为过滤掉文本中的英文、阿拉数字、中文数字、非中文等，从而可以进一步降低计算复杂度，提高恶意文本数据库的训练效率。例如，对于文本点击查看瘦十二kg方法，经过预处理后的文本为点击查看瘦方法。

202、获取文本对应的SimHash值。

对于本发明实施例中的文本，通常为长度较短的消息文本，例如，长度在15个汉字以内的微博昵称、微博话题等。

对于本发明实施例，步骤202具体可以包括：首先获取所述文本中包含的各个中文字分别对应的汉语拼音，然后计算所述各个中文字分别对应的哈希值和所述汉语拼音分别对应的哈希值，最后根据所述各个中文字分别对应的哈希值和所述汉语拼音分别对应的哈希值，获取所述文本对应的SimHash值。其中，可以采用Wang/Jenkins哈希算法计算所述各个中文字分别对应的哈希值和所述汉语拼音分别对应的哈希值。

优选地，步骤202之前还可以包括：对文本进行预处理，预处理可以为对文本进行繁简转换，或者将文本中包含的英文、阿拉伯数字、中文数字等进行过滤。通过在获取文本对应的SimHash值之前，对文本进行预处理，可以将文本中包含的不相关信息过滤掉，进一步提高恶意文本的检测识别效率。例如，对于文本点击查看瘦三十斤，经过预处理后的文本为点击查看瘦斤。

203、根据所述文本对应的SimHash值和恶意文本数据库中保存的各个恶意文本分别对应的SimHash值，获取所述文本与所述各个恶意文本之间的汉明距离。

204、若所述汉明距离中存在小于或等于预设阈值的汉明距离，则确定所述文本为恶意文本。

其中，预设阈值可以根据实际需求进行设定，例如，将预设阈值设定为6，则此时汉明距离小于6时，则确定文本与恶意文本相似，即将该文本确定为恶意文本。

本发明实施例提供的另一种恶意文本的检测识别方法，首先获取文本对应的SimHash值，然后根据所述文本对应的SimHash值和恶意文本数据库中保存的各个恶意文本分别对应的SimHash值，获取所述文本与所述各个恶意文本之间的汉明距离，若所述汉明距离中存在小于或等于预设阈值的汉明距离，则确定所述文本为恶意文本。与目前通过基于关键词的匹配算法来进行恶意文本检测识别相比，本发明基于文本对应的SimHash值进行恶意文本检测识别，可以提高针对长度较短的恶意文本的检测识别准确率和精度。

再进一步地，作为图1所示方法的具体实现，本发明实施例提供一种恶意文本的检测识别装置，所述装置的实体可以为服务器，如图3所示，所述装置可以包括：获取单元31、确定单元32。

获取单元31，可以用于获取文本对应的SimHash值。

获取单元31，还可以用于根据所述文本对应的SimHash值和恶意文本数据库中保存的各个恶意文本分别对应的SimHash值，获取所述文本与所述各个恶意文本之间的汉明距离。

确定单元32，可以用于若所述汉明距离中存在小于或等于预设阈值的汉明距离，则确定所述文本为恶意文本。

需要说明的是，本发明实施例提供的装置所涉及各功能单元的其他相应描述，可以参考图1中的对应描述，在此不再赘述。

再进一步地，作为图2所示方法的具体实现，本发明实施例提供一种恶意文本的检测识别装置，所述装置的实体可以为服务器，如图4所示，所述装置可以包括：获取单元41、确定单元42、建立单元43。

获取单元41，可以用于获取文本对应的SimHash值。

获取单元41，还可以用于根据所述文本对应的SimHash值和恶意文本数据库中保存的各个恶意文本分别对应的SimHash值，获取所述文本与所述各个恶意文本之间的汉明距离。

确定单元42，可以用于若所述汉明距离中存在小于或等于预设阈值的汉明距离，则确定所述文本为恶意文本。

获取单元41，可以用于获取所述文本中包含的各个中文字分别对应的汉语拼音。

获取单元41，还可以用于计算所述各个中文字分别对应的哈希值和所述汉语拼音分别对应的哈希值。

获取单元41，还可以用于根据所述各个中文字分别对应的哈希值和所述汉语拼音分别对应的哈希值，获取所述文本对应的SimHash值。

建立单元43，可以用于建立所述恶意文本数据库，所述恶意文本数据库中保存有多个恶意文本和所述多个恶意文本分别对应的SimHash值。

建立单元43可以包括：划分模块4301、计算模块4302、获取模块4303、保存模块4304。

划分模块4301，可以用于将任意一个文本划分为多个特征词。

计算模块4302，可以用于分别计算所述划分模块4301划分的多个特征词在各个预置恶意类别中分别对应的概率。

获取模块4303，可以用于根据所述计算模块4302计算的多个特征词在各个预置恶意类别中分别对应的概率，获取所述文本在各个预置恶意类别中分别对应的概率。

保存模块4304，可以用于若所述文本在各个预置恶意类别分别对应的概率中，存在大于或等于预设概率阈值的概率，则将所述文本和所述文本对应的SimHash值保存在所述恶意文本数据库中，并且将所述文本包含的多个特征词保存在对应的预置恶意类别中。

计算模块4302，可以用于根据所述恶意文本数据库中保存的所述多个特征词在各个预置恶意类别中分别对应的出现频数，计算所述多个特征词在各个预置恶意类别中分别对应的概率。

需要说明的是，本发明实施例提供的装置所涉及各功能单元的其他相应描述，可以参考图2中的对应描述，在此不再赘述。

本发明实施例提供的恶意文本的检测识别装置，首先获取文本对应的SimHash值，然后根据所述文本对应的SimHash值和恶意文本数据库中保存的各个恶意文本分别对应的SimHash值，获取所述文本与所述各个恶意文本之间的汉明距离，若所述汉明距离中存在小于或等于预设阈值的汉明距离，则确定所述文本为恶意文本。与目前通过基于关键词的匹配算法来进行恶意文本检测识别相比，本发明基于文本对应的SimHash值进行恶意文本检测识别，可以提高针对长度较短的恶意文本的检测识别准确率和精度。

本发明实施例提供的恶意文本的检测识别装置可以实现上述提供的方法实施例，具体功能实现请参见方法实施例中的说明，在此不再赘述。本发明实施例提供的恶意文本的检测识别方法及装置可以适用于信息技术领域，但不仅限于此。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random Access Memory，RAM）等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种恶意文本的检测识别方法，其特征在于，包括：

获取文本对应的SimHash值；

2.根据权利要求1所述的恶意文本的检测识别方法，其特征在于，所述获取所述文本对应的SimHash值的步骤包括：

获取所述文本中包含的各个中文字分别对应的汉语拼音；

计算所述各个中文字分别对应的哈希值和所述汉语拼音分别对应的哈希值；

根据所述各个中文字分别对应的哈希值和所述汉语拼音分别对应的哈希值，获取所述文本对应的SimHash值。

3.根据权利要求1所述的恶意文本的检测识别方法，其特征在于，所述获取文本对应的SimHash值的步骤之前还包括：

建立所述恶意文本数据库，所述恶意文本数据库中保存有多个恶意文本和与所述多个恶意文本分别对应的SimHash值。

4.根据权利要求3所述的恶意文本的检测识别方法，其特征在于，所述建立所述恶意文本数据库的步骤包括：

将任意一个文本划分为多个特征词；

分别计算所述多个特征词在各个预置恶意类别中分别对应的概率；

根据所述多个特征词在各个预置恶意类别中分别对应的概率，获取所述文本在各个预置恶意类别中分别对应的概率；

若所述文本在各个预置恶意类别分别对应的概率中，存在大于或等于预设概率阈值的概率，则将所述文本和所述文本对应的SimHash值保存在所述恶意文本数据库中，并且将所述文本包含的多个特征词保存在对应的预置恶意类别中。

5.根据权利要求4所述的恶意文本的检测识别方法，其特征在于，所述分别计算所述多个特征词在各个预置恶意类别中分别对应的概率的步骤包括：

根据所述恶意文本数据库中保存的所述多个特征词在各个预置恶意类别中分别对应的出现频数，计算所述多个特征词在各个预置恶意类别中分别对应的概率。

6.一种恶意文本的检测识别装置，其特征在于，包括：

获取单元，用于获取文本对应的SimHash值；

7.根据权利要求6所述的恶意文本的检测识别装置，其特征在于，

所述获取单元，用于获取所述文本中包含的各个中文字分别对应的汉语拼音；

所述获取单元，还用于计算所述各个中文字分别对应的哈希值和所述汉语拼音分别对应的哈希值；

所述获取单元，还用于根据所述各个中文字分别对应的哈希值和所述汉语拼音分别对应的哈希值，获取所述文本对应的SimHash值。

8.根据权利要求6所述的恶意文本的检测识别装置，其特征在于，所述装置还包括：

建立单元，用于建立所述恶意文本数据库，所述恶意文本数据库中保存有多个恶意文本和所述多个恶意文本分别对应的SimHash值。

9.根据权利要求8所述的恶意文本的检测识别装置，其特征在于，所述建立单元包括：

划分模块，用于将任意一个文本划分为多个特征词；

计算模块，用于分别计算所述划分模块划分的多个特征词在各个预置恶意类别中分别对应的概率；

获取模块，用于根据所述计算模块计算的多个特征词在各个预置恶意类别中分别对应的概率，获取所述文本在各个预置恶意类别中分别对应的概率；

保存模块，用于若所述文本在各个预置恶意类别分别对应的概率中，存在大于或等于预设概率阈值的概率，则将所述文本和所述文本对应的SimHash值保存在所述恶意文本数据库中，并且将所述文本包含的多个特征词保存在对应的预置恶意类别中。

10.根据权利要求8所述的恶意文本的检测识别装置，其特征在于，

所述计算模块，用于根据所述恶意文本数据库中保存的所述多个特征词在各个预置恶意类别中分别对应的出现频数，计算所述多个特征词在各个预置恶意类别中分别对应的概率。