CN104866478A - 恶意文本的检测识别方法及装置 - Google Patents

恶意文本的检测识别方法及装置 Download PDF

Info

Publication number
CN104866478A
CN104866478A CN201410059149.7A CN201410059149A CN104866478A CN 104866478 A CN104866478 A CN 104866478A CN 201410059149 A CN201410059149 A CN 201410059149A CN 104866478 A CN104866478 A CN 104866478A
Authority
CN
China
Prior art keywords
text
malice
corresponding respectively
classification
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410059149.7A
Other languages
English (en)
Other versions
CN104866478B (zh
Inventor
王俊乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201410059149.7A priority Critical patent/CN104866478B/zh
Publication of CN104866478A publication Critical patent/CN104866478A/zh
Application granted granted Critical
Publication of CN104866478B publication Critical patent/CN104866478B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明实施例公开了一种恶意文本的检测识别方法及装置,涉及信息技术领域,可以提高恶意文本的检测识别准确率和精度。所述方法包括:首先获取文本对应的SimHash值,然后根据所述文本对应的SimHash值和恶意文本数据库中保存的各个恶意文本分别对应的SimHash值,获取所述文本与所述各个恶意文本之间的汉明距离,若所述汉明距离中存在小于或等于预设阈值的汉明距离,则确定所述文本为恶意文本。

Description

恶意文本的检测识别方法及装置
技术领域
本发明涉及信息技术领域,特别涉及一种恶意文本的检测识别方法及装置。
背景技术
随着互联网的不断发展,社交媒体产品的种类也越来越多,其中,微博作为一种社交平台被用户广泛的应用。微博的消息长度通常较短,而微博中的用户昵称、话题等消息的长度更短,因此,如何针对这种长度较短的消息文本进行恶意文本识别已经成为需要解决的关键技术问题。
目前,通常是通过基于关键词的匹配算法来进行长度较短的恶意文本检测识别,即根据线上的一些投诉情况或者恶意案例来选定关键词,然后基于选定的关键词进行恶意文本匹配。然而由于根据线上的一些投诉情况或者恶意案例选定的关键词的准确率和精度较低,并且攻击方只需对恶意文本中的词语进行微调,即可避免与选定的关键词相同或相似,从而造成现有针对长度较短的恶意文本识别方法的准确率和精度较低。
发明内容
本发明实施例提供一种恶意文本的检测识别方法及装置,可以提高针对长度较短的恶意文本的检测识别准确率和精度。
本发明实施例采用的技术方案为:
一种恶意文本的检测识别方法,包括:
获取文本对应的SimHash值;
根据所述文本对应的SimHash值和恶意文本数据库中保存的各个恶意文本分别对应的SimHash值,获取所述文本与所述各个恶意文本之间的汉明距离;
若所述汉明距离中存在小于或等于预设阈值的汉明距离,则确定所述文本为恶意文本。
一种恶意文本的检测识别装置,包括:
获取单元,用于获取文本对应的SimHash值;
所述获取单元,还用于根据所述文本对应的SimHash值和恶意文本数据库中保存的各个恶意文本分别对应的SimHash值,获取所述文本与所述各个恶意文本之间的汉明距离;
确定单元,用于若所述汉明距离中存在小于或等于预设阈值的汉明距离,则确定所述文本为恶意文本。
本发明实施例提供的恶意文本的检测识别方法及装置,首先获取文本对应的SimHash值,然后根据所述文本对应的SimHash值和恶意文本数据库中保存的各个恶意文本分别对应的SimHash值,获取所述文本与所述各个恶意文本之间的汉明距离,若所述汉明距离中存在小于或等于预设阈值的汉明距离,则确定所述文本为恶意文本。与目前通过基于关键词的匹配算法来进行恶意文本检测识别相比,本发明基于文本对应的SimHash值进行恶意文本检测识别,可以提高针对长度较短的恶意文本的检测识别准确率和精度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种恶意文本的检测识别方法流程图;
图2为本发明实施例提供的另一种恶意文本的检测识别方法流程图;
图3为本发明实施例提供的一种恶意文本的检测识别装置结构示意图;
图4为本发明实施例提供的另一种恶意文本的检测识别装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
为使本发明技术方案的优点更加清楚,下面结合附图和实施例对本发明作详细说明。
本发明实施例提供一种恶意文本的检测识别方法,如图1所示,所述方法包括:
101、获取文本对应的SimHash值。
对于本发明实施例,步骤101具体可以包括对文本包含的特征进行SimHash计算,从而获取文本对应的SimHash值。其中,文本通常为长度较短的消息文本,可以为长度在15个汉字以内的微博昵称、微博话题等。文本包含的特征可以为文本包含的每个中文字和每个中文字分别对应的汉语拼音,例如,对于文本查看减肥方法,文本包含的特征为查、cha、看、kan、减、jian、肥、fei、方、fang、法、fa。
其中,SimHash算法是一种用于网页去重最常用的哈希算法,SimHash算法不同于传统的哈希算法,对于两个相似的文本内容,通过SimHash算法能够提供差异不大的语义指纹哈希值。
优选地,步骤101之前还可以包括:对文本进行预处理,预处理可以为对文本进行繁简转换,或者将文本中包含的英文、阿拉伯数字、中文数字等进行过滤。通过在获取文本对应的SimHash值之前,对文本进行预处理,可以将文本中包含的不相关信息过滤掉,进一步提高针对长度较短的恶意文本的检测识别效率。例如,对于文本点击查看瘦三十斤,经过预处理后的文本为点击查看瘦斤。
102、根据所述文本对应的SimHash值和恶意文本数据库中保存的各个恶意文本分别对应的SimHash值,获取所述文本与所述各个恶意文本之间的汉明距离。
其中,两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数,即将一个字符串变换成另外一个字符串所需要替换的字符个数。例如:对于二进制字符串1011101与1001001之间的汉明距离是2,对于字符串2143896与2233796之间的汉明距离是3。
优选地,可以采用抽屉原理将各个恶意文本分别对应的SimHash值保存在恶意文本数据库中,从而可以降低文本与所述各个恶意文本之间的汉明距离的获取复杂度,进一步提高针对长度较短的恶意文本的检测识别效率。
103、若所述汉明距离中存在小于或等于预设阈值的汉明距离,则确定所述文本为恶意文本。
其中,预设阈值可以根据实际需求进行设定,例如,将预设阈值设定为5,则此时汉明距离小于5时,则确定文本与恶意文本相似,即将该文本确定为恶意文本。
本发明实施例提供的一种恶意文本的检测识别方法,首先获取文本对应的SimHash值,然后根据所述文本对应的SimHash值和恶意文本数据库中保存的各个恶意文本分别对应的SimHash值,获取所述文本与所述各个恶意文本之间的汉明距离,若所述汉明距离中存在小于或等于预设阈值的汉明距离,则确定所述文本为恶意文本。与目前通过基于关键词的匹配算法来进行恶意文本检测识别相比,本发明基于文本对应的SimHash值进行恶意文本检测识别,可以提高针对长度较短的恶意文本的检测识别准确率和精度。
进一步地,本发明实施例提供另一种恶意文本的检测识别方法,如图2所示,所述方法包括:
201、建立所述恶意文本数据库。
其中,所述恶意文本数据库中保存有多个恶意文本和与所述多个恶意文本分别对应的SimHash值。
对于本发明实施例,步骤201具体可以包括:首先将任意一个文本划分为多个特征词,然后分别计算所述多个特征词在各个预置恶意类别中分别对应的概率,再根据所述多个特征词在各个预置恶意类别中分别对应的概率,获取所述文本在各个预置恶意类别中分别对应的概率,若所述文本在各个预置恶意类别分别对应的概率中,存在大于或等于预设概率阈值的概率,则将所述文本和所述文本对应的SimHash值保存在所述恶意文本数据库中,并且将所述文本包含的多个特征词保存在对应的预置恶意类别中,其中,预设概率阈值可以根据实际需求进行设定,本发明实施例不做限定。将所述文本包含的多个特征词保存在对应的预置恶意类别中具体可以包括:若对应的预置恶意类别中已保存有文本包含的多个特征词,则将多个特征词在该预置恶意类别中分别对应的出现频数累计加1,若多个特征词中存在未在预置恶意类别中保存过的特征词,则在该预置恶意类别中增加未保存过的特征词,并将该特征词的出现频数标记为1.
其中,可以采用w-singling方式将文本划分为多个特征词,w可以配置为任意数字。例如对于文本我喜欢使用微博,若采用3-singling方式进行划分,划分后的特征词分别为我喜欢、喜欢使、欢使用、使用微、用微博。预置恶意类别的个数可以根据实际需求进行配置,预置恶意类别具体可以为广告、团购、色情等类别,本发明实施例不做限定。进一步地,还可以额外配置一个非恶意类别。
上述分别计算所述多个特征词在各个预置恶意类别中分别对应的概率的步骤可以包括:根据所述恶意文本数据库中保存的所述多个特征词在各个预置恶意类别中分别对应的出现频数,计算所述多个特征词在各个预置恶意类别中分别对应的概率。例如,某一特征词查看在类别1中出现的频数为16,在类别2中出现的频数为14,则特征词查看在类别1中对应的概率为16/30,在类别2中对应的概率为14/30。
上述根据所述多个特征词在各个预置恶意类别中分别对应的概率,获取所述文本在各个预置恶意类别中分别对应的概率的步骤可以包括:根据公式Px=Pr(类别x|特征A)*Pr(类别x|特征B)*...Pr(类别x|特征N)获取所述文本在各个预置恶意类别中分别对应的概率。其中,Px为文本在类别x中对应的概率,Pr(类别x|特征N)为文本包含的特征词N在类别x中对应的概率。
优选地,将任意一个文本划分为多个特征词的步骤之前还可以包括:对文本进行预处理,预处理可以为过滤掉文本中的英文、阿拉数字、中文数字、非中文等,从而可以进一步降低计算复杂度,提高恶意文本数据库的训练效率。例如,对于文本点击查看瘦十二kg方法,经过预处理后的文本为点击查看瘦方法。
202、获取文本对应的SimHash值。
对于本发明实施例中的文本,通常为长度较短的消息文本,例如,长度在15个汉字以内的微博昵称、微博话题等。
对于本发明实施例,步骤202具体可以包括:首先获取所述文本中包含的各个中文字分别对应的汉语拼音,然后计算所述各个中文字分别对应的哈希值和所述汉语拼音分别对应的哈希值,最后根据所述各个中文字分别对应的哈希值和所述汉语拼音分别对应的哈希值,获取所述文本对应的SimHash值。其中,可以采用Wang/Jenkins哈希算法计算所述各个中文字分别对应的哈希值和所述汉语拼音分别对应的哈希值。
优选地,步骤202之前还可以包括:对文本进行预处理,预处理可以为对文本进行繁简转换,或者将文本中包含的英文、阿拉伯数字、中文数字等进行过滤。通过在获取文本对应的SimHash值之前,对文本进行预处理,可以将文本中包含的不相关信息过滤掉,进一步提高恶意文本的检测识别效率。例如,对于文本点击查看瘦三十斤,经过预处理后的文本为点击查看瘦斤。
203、根据所述文本对应的SimHash值和恶意文本数据库中保存的各个恶意文本分别对应的SimHash值,获取所述文本与所述各个恶意文本之间的汉明距离。
优选地,可以采用抽屉原理将各个恶意文本分别对应的SimHash值保存在恶意文本数据库中,从而可以降低文本与所述各个恶意文本之间的汉明距离的获取复杂度,进一步提高针对长度较短的恶意文本的检测识别效率。
204、若所述汉明距离中存在小于或等于预设阈值的汉明距离,则确定所述文本为恶意文本。
其中,预设阈值可以根据实际需求进行设定,例如,将预设阈值设定为6,则此时汉明距离小于6时,则确定文本与恶意文本相似,即将该文本确定为恶意文本。
本发明实施例提供的另一种恶意文本的检测识别方法,首先获取文本对应的SimHash值,然后根据所述文本对应的SimHash值和恶意文本数据库中保存的各个恶意文本分别对应的SimHash值,获取所述文本与所述各个恶意文本之间的汉明距离,若所述汉明距离中存在小于或等于预设阈值的汉明距离,则确定所述文本为恶意文本。与目前通过基于关键词的匹配算法来进行恶意文本检测识别相比,本发明基于文本对应的SimHash值进行恶意文本检测识别,可以提高针对长度较短的恶意文本的检测识别准确率和精度。
再进一步地,作为图1所示方法的具体实现,本发明实施例提供一种恶意文本的检测识别装置,所述装置的实体可以为服务器,如图3所示,所述装置可以包括:获取单元31、确定单元32。
获取单元31,可以用于获取文本对应的SimHash值。
获取单元31,还可以用于根据所述文本对应的SimHash值和恶意文本数据库中保存的各个恶意文本分别对应的SimHash值,获取所述文本与所述各个恶意文本之间的汉明距离。
确定单元32,可以用于若所述汉明距离中存在小于或等于预设阈值的汉明距离,则确定所述文本为恶意文本。
需要说明的是,本发明实施例提供的装置所涉及各功能单元的其他相应描述,可以参考图1中的对应描述,在此不再赘述。
再进一步地,作为图2所示方法的具体实现,本发明实施例提供一种恶意文本的检测识别装置,所述装置的实体可以为服务器,如图4所示,所述装置可以包括:获取单元41、确定单元42、建立单元43。
获取单元41,可以用于获取文本对应的SimHash值。
获取单元41,还可以用于根据所述文本对应的SimHash值和恶意文本数据库中保存的各个恶意文本分别对应的SimHash值,获取所述文本与所述各个恶意文本之间的汉明距离。
确定单元42,可以用于若所述汉明距离中存在小于或等于预设阈值的汉明距离,则确定所述文本为恶意文本。
获取单元41,可以用于获取所述文本中包含的各个中文字分别对应的汉语拼音。
获取单元41,还可以用于计算所述各个中文字分别对应的哈希值和所述汉语拼音分别对应的哈希值。
获取单元41,还可以用于根据所述各个中文字分别对应的哈希值和所述汉语拼音分别对应的哈希值,获取所述文本对应的SimHash值。
建立单元43,可以用于建立所述恶意文本数据库,所述恶意文本数据库中保存有多个恶意文本和所述多个恶意文本分别对应的SimHash值。
建立单元43可以包括:划分模块4301、计算模块4302、获取模块4303、保存模块4304。
划分模块4301,可以用于将任意一个文本划分为多个特征词。
计算模块4302,可以用于分别计算所述划分模块4301划分的多个特征词在各个预置恶意类别中分别对应的概率。
获取模块4303,可以用于根据所述计算模块4302计算的多个特征词在各个预置恶意类别中分别对应的概率,获取所述文本在各个预置恶意类别中分别对应的概率。
保存模块4304,可以用于若所述文本在各个预置恶意类别分别对应的概率中,存在大于或等于预设概率阈值的概率,则将所述文本和所述文本对应的SimHash值保存在所述恶意文本数据库中,并且将所述文本包含的多个特征词保存在对应的预置恶意类别中。
计算模块4302,可以用于根据所述恶意文本数据库中保存的所述多个特征词在各个预置恶意类别中分别对应的出现频数,计算所述多个特征词在各个预置恶意类别中分别对应的概率。
需要说明的是,本发明实施例提供的装置所涉及各功能单元的其他相应描述,可以参考图2中的对应描述,在此不再赘述。
本发明实施例提供的恶意文本的检测识别装置,首先获取文本对应的SimHash值,然后根据所述文本对应的SimHash值和恶意文本数据库中保存的各个恶意文本分别对应的SimHash值,获取所述文本与所述各个恶意文本之间的汉明距离,若所述汉明距离中存在小于或等于预设阈值的汉明距离,则确定所述文本为恶意文本。与目前通过基于关键词的匹配算法来进行恶意文本检测识别相比,本发明基于文本对应的SimHash值进行恶意文本检测识别,可以提高针对长度较短的恶意文本的检测识别准确率和精度。
本发明实施例提供的恶意文本的检测识别装置可以实现上述提供的方法实施例,具体功能实现请参见方法实施例中的说明,在此不再赘述。本发明实施例提供的恶意文本的检测识别方法及装置可以适用于信息技术领域,但不仅限于此。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种恶意文本的检测识别方法,其特征在于,包括:
获取文本对应的SimHash值;
根据所述文本对应的SimHash值和恶意文本数据库中保存的各个恶意文本分别对应的SimHash值,获取所述文本与所述各个恶意文本之间的汉明距离;
若所述汉明距离中存在小于或等于预设阈值的汉明距离,则确定所述文本为恶意文本。
2.根据权利要求1所述的恶意文本的检测识别方法,其特征在于,所述获取所述文本对应的SimHash值的步骤包括:
获取所述文本中包含的各个中文字分别对应的汉语拼音;
计算所述各个中文字分别对应的哈希值和所述汉语拼音分别对应的哈希值;
根据所述各个中文字分别对应的哈希值和所述汉语拼音分别对应的哈希值,获取所述文本对应的SimHash值。
3.根据权利要求1所述的恶意文本的检测识别方法,其特征在于,所述获取文本对应的SimHash值的步骤之前还包括:
建立所述恶意文本数据库,所述恶意文本数据库中保存有多个恶意文本和与所述多个恶意文本分别对应的SimHash值。
4.根据权利要求3所述的恶意文本的检测识别方法,其特征在于,所述建立所述恶意文本数据库的步骤包括:
将任意一个文本划分为多个特征词;
分别计算所述多个特征词在各个预置恶意类别中分别对应的概率;
根据所述多个特征词在各个预置恶意类别中分别对应的概率,获取所述文本在各个预置恶意类别中分别对应的概率;
若所述文本在各个预置恶意类别分别对应的概率中,存在大于或等于预设概率阈值的概率,则将所述文本和所述文本对应的SimHash值保存在所述恶意文本数据库中,并且将所述文本包含的多个特征词保存在对应的预置恶意类别中。
5.根据权利要求4所述的恶意文本的检测识别方法,其特征在于,所述分别计算所述多个特征词在各个预置恶意类别中分别对应的概率的步骤包括:
根据所述恶意文本数据库中保存的所述多个特征词在各个预置恶意类别中分别对应的出现频数,计算所述多个特征词在各个预置恶意类别中分别对应的概率。
6.一种恶意文本的检测识别装置,其特征在于,包括:
获取单元,用于获取文本对应的SimHash值;
所述获取单元,还用于根据所述文本对应的SimHash值和恶意文本数据库中保存的各个恶意文本分别对应的SimHash值,获取所述文本与所述各个恶意文本之间的汉明距离;
确定单元,用于若所述汉明距离中存在小于或等于预设阈值的汉明距离,则确定所述文本为恶意文本。
7.根据权利要求6所述的恶意文本的检测识别装置,其特征在于,
所述获取单元,用于获取所述文本中包含的各个中文字分别对应的汉语拼音;
所述获取单元,还用于计算所述各个中文字分别对应的哈希值和所述汉语拼音分别对应的哈希值;
所述获取单元,还用于根据所述各个中文字分别对应的哈希值和所述汉语拼音分别对应的哈希值,获取所述文本对应的SimHash值。
8.根据权利要求6所述的恶意文本的检测识别装置,其特征在于,所述装置还包括:
建立单元,用于建立所述恶意文本数据库,所述恶意文本数据库中保存有多个恶意文本和所述多个恶意文本分别对应的SimHash值。
9.根据权利要求8所述的恶意文本的检测识别装置,其特征在于,所述建立单元包括:
划分模块,用于将任意一个文本划分为多个特征词;
计算模块,用于分别计算所述划分模块划分的多个特征词在各个预置恶意类别中分别对应的概率;
获取模块,用于根据所述计算模块计算的多个特征词在各个预置恶意类别中分别对应的概率,获取所述文本在各个预置恶意类别中分别对应的概率;
保存模块,用于若所述文本在各个预置恶意类别分别对应的概率中,存在大于或等于预设概率阈值的概率,则将所述文本和所述文本对应的SimHash值保存在所述恶意文本数据库中,并且将所述文本包含的多个特征词保存在对应的预置恶意类别中。
10.根据权利要求8所述的恶意文本的检测识别装置,其特征在于,
所述计算模块,用于根据所述恶意文本数据库中保存的所述多个特征词在各个预置恶意类别中分别对应的出现频数,计算所述多个特征词在各个预置恶意类别中分别对应的概率。
CN201410059149.7A 2014-02-21 2014-02-21 恶意文本的检测识别方法及装置 Active CN104866478B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410059149.7A CN104866478B (zh) 2014-02-21 2014-02-21 恶意文本的检测识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410059149.7A CN104866478B (zh) 2014-02-21 2014-02-21 恶意文本的检测识别方法及装置

Publications (2)

Publication Number Publication Date
CN104866478A true CN104866478A (zh) 2015-08-26
CN104866478B CN104866478B (zh) 2020-06-05

Family

ID=53912317

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410059149.7A Active CN104866478B (zh) 2014-02-21 2014-02-21 恶意文本的检测识别方法及装置

Country Status (1)

Country Link
CN (1) CN104866478B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106331827A (zh) * 2016-08-18 2017-01-11 中国联合网络通信集团有限公司 广告弹窗处理方法、设备及系统
CN106874253A (zh) * 2015-12-11 2017-06-20 腾讯科技(深圳)有限公司 识别敏感信息的方法及装置
CN107124386A (zh) * 2016-02-24 2017-09-01 深圳市深信服电子科技有限公司 黑色产业内容的检测分析方法及装置
CN107861941A (zh) * 2017-10-10 2018-03-30 武汉斗鱼网络科技有限公司 用户昵称真实性评估方法、存储介质、电子设备及系统
CN108062302A (zh) * 2016-11-08 2018-05-22 北京国双科技有限公司 一种特定文本信息的识别方法及装置
CN108170650A (zh) * 2016-12-07 2018-06-15 北京京东尚科信息技术有限公司 文本比较方法以及文本比较装置
CN108416221A (zh) * 2018-01-22 2018-08-17 西安电子科技大学 一种云环境中安全的相似数据拥有证明方案
CN109547319A (zh) * 2017-09-22 2019-03-29 中移(杭州)信息技术有限公司 一种消息处理方法及装置
CN109614610A (zh) * 2018-11-27 2019-04-12 新华三大数据技术有限公司 相似文本识别方法及装置
CN110610066A (zh) * 2018-06-15 2019-12-24 武汉安天信息技术有限责任公司 仿冒应用检测方法和相关装置
CN110909535A (zh) * 2019-12-06 2020-03-24 北京百分点信息科技有限公司 命名实体校对方法、装置、可读存储介质及电子设备
CN111159338A (zh) * 2019-12-23 2020-05-15 北京达佳互联信息技术有限公司 一种恶意文本的检测方法、装置、电子设备及存储介质
CN111544892A (zh) * 2020-05-06 2020-08-18 福建天晴数码有限公司 一种游戏中长文本消息合法性校验的方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101187921A (zh) * 2007-12-20 2008-05-28 腾讯科技(深圳)有限公司 一种中文复合词的提取方法及提取系统
CN101887457A (zh) * 2010-07-02 2010-11-17 杭州电子科技大学 基于内容的复制图像检测方法
CN103123618A (zh) * 2011-11-21 2013-05-29 北京新媒传信科技有限公司 文本相似度获取方法和装置
US20130254191A1 (en) * 2011-12-06 2013-09-26 The Trustees Of Columbia University In The City Of New York Systems and methods for mobile search using bag of hash bits and boundary reranking
CN103595614A (zh) * 2012-08-16 2014-02-19 无锡华御信息技术有限公司 一种基于用户反馈的垃圾邮件检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101187921A (zh) * 2007-12-20 2008-05-28 腾讯科技(深圳)有限公司 一种中文复合词的提取方法及提取系统
CN101887457A (zh) * 2010-07-02 2010-11-17 杭州电子科技大学 基于内容的复制图像检测方法
CN103123618A (zh) * 2011-11-21 2013-05-29 北京新媒传信科技有限公司 文本相似度获取方法和装置
US20130254191A1 (en) * 2011-12-06 2013-09-26 The Trustees Of Columbia University In The City Of New York Systems and methods for mobile search using bag of hash bits and boundary reranking
CN103595614A (zh) * 2012-08-16 2014-02-19 无锡华御信息技术有限公司 一种基于用户反馈的垃圾邮件检测方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874253A (zh) * 2015-12-11 2017-06-20 腾讯科技(深圳)有限公司 识别敏感信息的方法及装置
CN107124386A (zh) * 2016-02-24 2017-09-01 深圳市深信服电子科技有限公司 黑色产业内容的检测分析方法及装置
CN106331827B (zh) * 2016-08-18 2019-04-16 中国联合网络通信集团有限公司 广告弹窗处理方法、设备及系统
CN106331827A (zh) * 2016-08-18 2017-01-11 中国联合网络通信集团有限公司 广告弹窗处理方法、设备及系统
CN108062302A (zh) * 2016-11-08 2018-05-22 北京国双科技有限公司 一种特定文本信息的识别方法及装置
US11010554B2 (en) 2016-11-08 2021-05-18 Beijing Gridsum Technology Co., Ltd. Method and device for identifying specific text information
CN108062302B (zh) * 2016-11-08 2019-03-26 北京国双科技有限公司 一种文本信息的识别方法及装置
CN108170650B (zh) * 2016-12-07 2021-05-25 北京京东尚科信息技术有限公司 文本比较方法以及文本比较装置
CN108170650A (zh) * 2016-12-07 2018-06-15 北京京东尚科信息技术有限公司 文本比较方法以及文本比较装置
CN109547319A (zh) * 2017-09-22 2019-03-29 中移(杭州)信息技术有限公司 一种消息处理方法及装置
CN107861941B (zh) * 2017-10-10 2021-04-23 武汉斗鱼网络科技有限公司 用户昵称真实性评估方法、存储介质、电子设备及系统
CN107861941A (zh) * 2017-10-10 2018-03-30 武汉斗鱼网络科技有限公司 用户昵称真实性评估方法、存储介质、电子设备及系统
CN108416221A (zh) * 2018-01-22 2018-08-17 西安电子科技大学 一种云环境中安全的相似数据拥有证明方案
CN110610066A (zh) * 2018-06-15 2019-12-24 武汉安天信息技术有限责任公司 仿冒应用检测方法和相关装置
CN109614610A (zh) * 2018-11-27 2019-04-12 新华三大数据技术有限公司 相似文本识别方法及装置
CN110909535A (zh) * 2019-12-06 2020-03-24 北京百分点信息科技有限公司 命名实体校对方法、装置、可读存储介质及电子设备
CN110909535B (zh) * 2019-12-06 2023-04-07 北京百分点科技集团股份有限公司 命名实体校对方法、装置、可读存储介质及电子设备
CN111159338A (zh) * 2019-12-23 2020-05-15 北京达佳互联信息技术有限公司 一种恶意文本的检测方法、装置、电子设备及存储介质
CN111544892A (zh) * 2020-05-06 2020-08-18 福建天晴数码有限公司 一种游戏中长文本消息合法性校验的方法及系统

Also Published As

Publication number Publication date
CN104866478B (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
CN104866478A (zh) 恶意文本的检测识别方法及装置
US11734329B2 (en) System and method for text categorization and sentiment analysis
US11799823B2 (en) Domain name classification systems and methods
CN107862070B (zh) 基于文本聚类的线上课堂讨论短文本即时分组方法及系统
US20100254613A1 (en) System and method for duplicate text recognition
US20150356091A1 (en) Method and system for identifying microblog user identity
WO2021227831A1 (zh) 威胁情报的主题检测方法、装置和计算机存储介质
US11227002B2 (en) Method and apparatus for identifying semantically related records
CN111160030B (zh) 一种信息抽取方法、装置、及存储介质
CN105095222B (zh) 单元词替换方法、搜索方法及装置
US10049128B1 (en) Outlier detection in databases
US9779363B1 (en) Disambiguating personal names
CN106569989A (zh) 一种用于短文本的去重方法及装置
CN105512104A (zh) 词典降维方法及装置、信息分类方法及装置
US10248646B1 (en) Token matching in large document corpora
US20220114198A1 (en) System and method for entity disambiguation for customer relationship management
Medvet et al. Brand-related events detection, classification and summarization on twitter
CN110750731A (zh) 针对新闻舆情的去重方法及系统
CN116561298A (zh) 基于人工智能的标题生成方法、装置、设备及存储介质
CN111985212A (zh) 文本关键字识别方法、装置、计算机设备及可读存储介质
CN111680146A (zh) 确定新词的方法、装置、电子设备及可读存储介质
CN109213972B (zh) 确定文档相似度的方法、装置、设备和计算机存储介质
US20170091311A1 (en) Generation and use of delta index
CN113609846A (zh) 一种语句中实体关系的抽取方法及装置
CN106547822A (zh) 一种文本相关性确定方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant