CN111083141A - 一种仿冒账号的识别方法、装置、服务器和存储介质 - Google Patents
一种仿冒账号的识别方法、装置、服务器和存储介质 Download PDFInfo
- Publication number
- CN111083141A CN111083141A CN201911283152.6A CN201911283152A CN111083141A CN 111083141 A CN111083141 A CN 111083141A CN 201911283152 A CN201911283152 A CN 201911283152A CN 111083141 A CN111083141 A CN 111083141A
- Authority
- CN
- China
- Prior art keywords
- account
- suspected
- release
- target
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明实施例公开了一种仿冒账号的识别方法、装置、服务器和存储介质。其中,该方法包括:确定用户账号中在当前时段内的账号特征与目标账号集合下的账号特征之间满足预设相似要求的各个目标账号的疑似账号;若疑似账号在历史时段内的发布信息与该疑似账号匹配的目标账号的发布信息的相似发布数量超出第一发布阈值,且疑似账号与该目标账号的属性特征相似,则确定疑似账号为该目标账号的仿冒账号。本发明实施例提供的技术方案,实现仿冒账号在不同时段内的自动识别,在每一时段内及时从疑似账号中准确识别相应的仿冒账号,扩大了仿冒账号的召回范围,同时在保证仿冒账号的召回率的基础上,提高了仿冒账号的准确性。
Description
技术领域
本发明实施例涉及互联网技术领域,尤其涉及一种仿冒账号的识别方法、装置、服务器和存储介质。
背景技术
随着互联网技术的快速发展,面向大量用户之间进行信息传播的社交软件已经越来越普遍,例如直播类或者信息推送类应用等,同时由于在该社交软件中会存在一些非常受其他用户欢迎或者粉丝数量较多的用户,该类用户在社交软件中发布的信息会被广泛传播,产生较大的公众影响,因此一些不法分子会通过仿冒该类用户的账号来被众多其他用户误识别,而传播一些违法信息。
目前,通常通过解析用户举报消息,或者定期人工审核排查的方式来识别此类仿冒账号,但由于仿冒账号的数量较多,通过人工审核的方式无法及时排查出全部的仿冒账号,且排查效率极低。
发明内容
本发明实施例提供了一种仿冒账号的识别方法、装置、服务器和存储介质,实现仿冒账号的自动识别,提高仿冒账号的召回率和准确率。
第一方面,本发明实施例提供了一种仿冒账号的识别方法,该方法包括:
确定用户账号中在当前时段内的账号特征与目标账号集合下的账号特征之间满足预设相似要求的各个目标账号的疑似账号;
若所述疑似账号在历史时段内的发布信息与该疑似账号匹配的目标账号的发布信息的相似发布数量超出第一发布阈值,且所述疑似账号与该目标账号的属性特征相似,则确定所述疑似账号为该目标账号的仿冒账号。
第二方面,本发明实施例提供了一种仿冒账号的识别装置,该装置包括:
疑似账号确定模块,用于确定用户账号中在当前时段内的账号特征与目标账号集合下的账号特征之间满足预设相似要求的各个目标账号的疑似账号;
仿冒账号识别模块,用于若所述疑似账号在历史时段内的发布信息与该疑似账号匹配的目标账号的发布信息的相似发布数量超出第一发布阈值,且所述疑似账号与该目标账号的属性特征相似,则确定所述疑似账号为该目标账号的仿冒账号。
第三方面,本发明实施例提供了一种服务器,该服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所述的仿冒账号的识别方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所述的仿冒账号的识别方法。
本发明实施例提供的一种仿冒账号的识别方法、装置、服务器和存储介质,首先判断各个用户账号在当前时段内的账号特征与目标账号集合下的账号特征之间是否满足预设相似要求,从而在大量用户账号中筛选出目标账号集合下的各个目标账号的疑似账号,后续判断每一疑似账号在历史时段内的发布信息与对应目标账号的发布信息的相似发布数量是否超出第一发布阈值,且该疑似账号与该目标账号的属性特征是否相似,进而在疑似账号中进一步筛选出目标账号的仿冒账号,实现仿冒账号在不同时段内的自动识别,无需通过定期人工审查的方式识别,此时在每一时段内及时从初步筛选的疑似账号中准确识别相应的仿冒账号,扩大了仿冒账号的召回范围,同时通过对疑似账号中发布信息的相似发布数量和属性特征的相似度进行判断,在保证仿冒账号的召回率的基础上,提高了仿冒账号的准确性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1A为本发明实施例一提供的一种仿冒账号的识别方法的流程图;
图1B为本发明实施例一提供的仿冒账号的识别过程的原理示意图;
图2A为本发明实施例二提供的一种仿冒账号的识别方法的流程图;
图2B为本发明实施例二提供的仿冒账号的识别过程的原理示意图;
图3A为本发明实施例三提供的一种仿冒账号的识别方法的流程图;
图3B为本发明实施例三提供的仿冒账号的识别过程的原理示意图;
图4为本发明实施例四提供的一种仿冒账号的识别装置的结构示意图;
图5为本发明实施例五提供的一种服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。此外,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
图1A为本发明实施例一提供的一种仿冒账号的识别方法的流程图,本实施例可应用于从社交应用的用户账号中识别出任一目标账号的仿冒账号的情况中。本实施例提供的一种仿冒账号的识别方法可以由本发明实施例提供的仿冒账号的识别装置来执行,该装置可以通过软件和/或硬件的方式来实现,并集成在执行本方法的服务器中,该服务器可以是注册有大量用户账号的社交应用对应的后台服务器。
具体的,参考图1A,该方法可以包括如下步骤:
S110,确定用户账号中在当前时段内的账号特征与目标账号集合下的账号特征之间满足预设相似要求的各个目标账号的疑似账号。
具体的,由于现有的社交应用通常面向大量不同用户进行信息传播,此时该社交应用中会注册有多种不同类型的用户账号,例如不具备较大公众影响力的普通用户申请注册的账号,或者由于发布内容受到较大粉丝欢迎而具备较大公众影响力的网红用户注册的账号等,此时本实施例中的目标账号是指该类具备较大公众影响力的网红用户注册的账号,一些不法分子可能会通过仿冒该目标账号去发布一些不当信息,而被认作该目标账号在网络中广泛传播,从而为目标账号带来较大负面影响,因此本实施例需要从社交应用的大量用户账号中准确排查出目标账号的仿冒账号。
其中,由于社交应用会实时展示不同用户账号的发布信息,为了保证仿冒账号排查的全面性和及时性,本实施例会预先设定对应的排查时段,定期对不同时段内在社交应用中发布信息的用户账号进行排查,及时判断不同时段内出现的各用户账号与目标账号之间的关联程度,从而避免用户账号的排查遗漏。
同时,由于社交应用中的目标账号较多,本实施例可以同时对各个目标账号的仿冒账号进行排查,此时预先设定相应的目标账号集合,通过预先对多个目标账号的账号特征进行分析,在该目标账号集合中全面记录每一目标账号的账号特征,以便后续通过分析各用户账号的账号特征和该目标账号集合下的账号特征之间的相似性,同时初步筛选出各个目标账号的疑似账号,减少各个目标账号下特征相似的排查次数。
可选的,本实施例会定期在不同时段内检测在社交应用中发布各类信息的用户账号,后续对该用户账号进行仿冒排查,首先获取社交应用中在当前时段内所发布出的各类信息,将每一发布信息匹配到对应的发布对象,从而查找出在当前时段内发布过信息的用户账号,此时由于不法分子仿冒目标账号时,会将仿冒账号与目标账号的显示信息设置的极为相似,以迷惑该目标用户的粉丝,因此在查找出当前时段内的用户账号时,如图1B所示,首先需要确定该用户账号下展示的容易被误认为目标账号的账号特征,该账号特征可以是用户账号的发布信息等,此时由于用户账号在不同时段内可能会更新对应的账号特征,本实施例确定每一用户账号下在当前时段内对应的账号特征,并依次与目标账号集合下包含的全部账号特征进行比对,分析两者之间的相似程度,并判断该相似程度是否满足为初始排除所设定的预设相似要求,该预设相似要求为用户账号能够被认作目标账号集合下的目标账号时账号特征所满足的基本相似条件;进而从各个用户账号中预先筛选出在当前时段内的账号特征与目标账号集合下的账号特征之间满足预设相似要求的用户账号,作为满足预设相似要求的账号特征对应的目标账号的疑似账号,从而同时筛选出目标账号集合下的各个目标账号的疑似账号,后续对该疑似账号与对应的目标账号之间的相似性进行具体分析,保证仿冒账号排查的准确性。
S120,若疑似账号在历史时段内的发布信息与该疑似账号匹配的目标账号的发布信息的相似发布数量超出第一发布阈值,且疑似账号与该目标账号的属性特征相似,则确定疑似账号为该目标账号的仿冒账号。
具体的,由于不法分子在仿冒目标账号时,需要将仿冒账号在社交应用中面向大众的显示信息设置的与目标账号极为相似,而使大众无法及时分辨出两者的不同,此时用户账号在社交应用中面向大众直观显示的信息可以是用户账号的头像或名称等属性特征,以及发布信息等,因此本实施例在确定出疑似账号后,可以通过判断疑似账号与匹配的目标账号之间属性特征的相似程度,以及疑似账号与目标账号之间发布信息的相似数量,来进一步准确判断各个疑似账号是否为目标账号的仿冒账号;需要说明的是,由于疑似账号排查时已经对当前时段的账号特征进行判断,因此对仿冒账号的进一步排查可以具体限定对历史时段内的发布信息的相似进行判断。
在本实施例中,可以预先设定仿冒账号的排查要求为:1)疑似账号在历史时段内的发布信息与目标账号的发布信息的相似发布数量超出第一发布阈值;2)疑似账号与目标账号的属性特征相似。
此时,在社交应用中当前时段内出现的大量用户账号中初步排查出目标账号的疑似账号后,依次对每一疑似账号是否为目标账号的仿冒账号进行判断,如图1B所示,此时针对每一疑似账号,首先会查找出该疑似账号在历史时段内的各个发布信息,并逐一判断每一发布信息与目标账号的各个发布信息之间的相似程度,若该疑似账号在历史时段内的某一发布信息与目标账号下的某一发布信息相似,则确定该疑似账号下的该发布信息为目标账号的相似发布信息,进而根据该疑似账号下的每一发布信息是否为目标账号的相似发布信息,确定疑似账号在历史时段内的发布信息的与目标账号的发布信息的相似发布数量,在该疑似账号的相似发布数量超出第一发布阈值时,说明该疑似账号极有可能为目标账号的仿冒账号,进而继续查找该疑似账号的用户头像或名称等属性特征,由于该属性特征一般不会变化,因此仅判断该疑似账号的属性特征是否与目标账号的属性特征是否相似,例如采用图像识别技术分别识别疑似账号和目标账号的用户图像,并判断头像之间的相似程度,或者通过分析疑似账号和目标账号的用户名称中连续字符相似度,判断名称之间的相似程度,如果进一步确定该疑似账号的属性特征与目标账号的属性特征相似,则确定该疑似账号为目标账号的仿冒账号,此时按照上述步骤,判断初步筛选出的每一疑似账号是否为该目标账号的仿冒账号。
示例性的,若本实施例中的社交应用为直播应用,此时目标账号可以为该直播应用中的某一主播账号,而发布信息可以为个直播账号下的直播视频,此时首先查找出在当前时段内发布过直播视频的直播账号,并确定该类直播账号在当前时段内的头像、名称或直播视频等账号特征,并分别与预设的目标账号集合下各个目标账号的账号特征进行比对,初步筛选出满足预设相似要求的各个目标账号的疑似账号,进而针对每一疑似账号,获取该疑似账号在历史时段内发布的全部直播视频,并逐一判断每一直播视频是否与对应的目标账号下的某个直播视频相似,从而确定该疑似账号在历史时段内发布的直播视频中与目标账号的某一直播视频相似的相似发布数量,在该相似发布数量超出第一发布阈值时,说明该疑似账号下存在大量直播视频与目标账号下的直播视频相似,进而继续判断该疑似账号的主播头像或主播名称等属性特征是否与该目标账号的属性特征相似,若属性特征也相似,则确定该疑似账号为该目标账号的仿冒账号。
同时,本实施例中的属性特征在为用户名称时,由多个字符构成,因此可以通过判断疑似账号和目标账号的属性特征下的名称字符串中连续相似字符子串的长度是否大于预设相似字符阈值来判断用户名称是否相识,或者判断将疑似账号的属性特征下的名称字符串转换为目标账号的属性特征下的名称字符串时所需要的最小编辑次数是否小于预设编辑阈值来判断用户名称是否相识。
此外,在确定出目标账号的仿冒账号后,为了制止社交应用中仿冒账号的出现,本实施例可以对该仿冒账号进行一定的惩罚措施,从而避免出现目标账号的仿冒现象。
本实施例提供的技术方案,首先判断各个用户账号在当前时段内的账号特征与目标账号集合下的账号特征之间是否满足预设相似要求,从而在大量用户账号中筛选出目标账号集合下的各个目标账号的疑似账号,后续判断每一疑似账号在历史时段内的发布信息与对应目标账号的发布信息的相似发布数量是否超出第一发布阈值,且该疑似账号与该目标账号的属性特征是否相似,进而在疑似账号中进一步筛选出目标账号的仿冒账号,实现仿冒账号在不同时段内的自动识别,无需通过定期人工审查的方式识别,此时在每一时段内及时从初步筛选的疑似账号中准确识别相应的仿冒账号,扩大了仿冒账号的召回范围,同时通过对疑似账号中发布信息的相似发布数量和属性特征的相似度进行判断,在保证仿冒账号的召回率的基础上,提高了仿冒账号的准确性。
实施例二
图2A为本发明实施例二提供的一种仿冒账号的识别方法的流程图,图2B为本发明实施例二提供的仿冒账号的识别过程的原理示意图。本实施例是在上述实施例的基础上进行优化,本实施例主要对于从大量用户账号中初步筛选疑似账号的具体过程进行详细的解释说明。
可选的,如图2A所示,本实施例可以包括如下步骤:
S210,确定用户账号中在当前时段内的发布信息与目标账号集合下各个目标账号的发布信息的相似发布数量超出第二发布阈值的各个目标账号的疑似账号。
可选的,本实施例可以从发布信息相似数量来筛选出满足预设相似要求的疑似账号,进而扩大疑似账号的召回范围。
具体的,首先在社交应用中检测在当前时段内发布过信息的各个用户账号,并确定各个用户账号在当前时段内的发布信息,进而从发布信息相似度来判断与目标账号集合下各个目标账号的相似度,进而筛选出对应目标账号的疑似账号。示例性的,将用户账号在当前时段内的每一发布信息依次与目标账号集合下每一目标账号的各个发布信息进行相似度比对,筛选出各用户账号在当前时段内与每一目标账号下的某一发布信息相似的发布信息,进而确定出每一用户账号下与各目标账号的发布信息的相似发布数量,并将与某一目标账号的发布信息的相似发布数量超出第二发布阈值的用户账号作为该目标账号的疑似账号,进而筛选出目标账号集合下的每一目标账号的疑似账号。
此时,若直接分析每一用户账号在各个时段内的发布信息与目标账号集合下各个目标账号的发布信息的相似发布数量,来排查各个目标用户的仿冒账号时,需要对每一用户账号在当前时段和历史时段内的发布信息进行分析,计算量过大,因此本实施例中首先根据每一用户账号中在当前时段内的发布信息与目标账号集合下各个目标账号的发布信息的相似发布数量确定出各个目标账号的疑似账号,后续仅需要分析疑似账号在历史时段内的发布信息与该疑似账号匹配的目标账号的发布信息的相似发布数量,从疑似账号中确定目标账号的仿冒账号,无需对每一用户账号在历史时段内的发布信息进行分析,极大减少了发布信息的相似排查数量,提高了仿冒账号的排查效率。
需要说明的是,由于第一发布阈值针对历史时段内发布信息的相似发布数量,第二发布阈值针对当前时段内的发布信息的相似发布数量,而用户账号在历史时段的发布信息一定多于当前时段内的发布信息,因此为了保证仿冒排查的准确性,本实施例可以设定第一发布阈值大于第二发布阈值。同时,由于用户账号中在当前时段内的发布信息与目标账号集合下各个目标账号的发布信息的相似发布数量较少时,如用户账号在当前时段内仅存在一个或者两个发布信息与目标账号集合中的发布信息相似,其他发布信息均不相似,则存在该用户账号极大可能不是仿冒账号,在后续通过历史时段内的发布信息进行再次排查时也会排查出来,而且增加了后续排查的数据量,因此本实施例会设定相应的第二发布阈值,只有相似发布数量超出第二发布阈值的用户账号为疑似账号,而不会在判断出用户账号与目标账号集合中存在相似的发布信息时,就将该用户账号作为疑似账号,提高了疑似账号的排查要求,从而减少了疑似账号的数量,降低后续再次排查时的计算量。
此外,后续通过疑似账号的发布信息和属性特征进一步排查目标账号的仿冒账号时,首先需要确定各个疑似账号在当前时段内的发布信息和属性特征,此时为了便于对属性特征和发布信息进行分区判断,本实施例可以记录各个用户账号的发布信息和属性特征,从而预先构建相应的属性数据库和发布信息数据库,避免后续疑似账号的信息遗漏,如图2B所示,通过属性数据库存储用户账号的属性特征,通过发布信息数据库存储用户账号的发布信息,此时本实施例还可以包括:定期根据用户账号在当前时段内的发布记录,更新预先构建的属性数据库和发布信息数据库。
具体的,为了保证仿冒排查的全面性,本实施例定期检测在当前时段内发布过信息的各个用户账号,同时将统计每一用户账号在当前时段内的发布记录,进而确定在当前时段内出现的用户账号的用户头像或名称等属性特征,以及在当前时段内的发布信息,并将在当前时段内出现的用户账号的属性特征添加至属性数据库中当前时段所对应的存储区域内,将在当前时段内出现的用户账号的属性特征添加至发布信息数据库中当前时段所对应的存储区域内,从而定期更新属性数据库和发布信息数据库中当前时段的内容,后续直接在属性数据库判断在当前时段内的属性特征是否与目标账号的属性特征相似,以及在发布信息数据库中判断在当前时段内的发布信息与目标账号的发布信息的相似发布数量,通过定时检索属性数据库和发布信息数据库,提高仿冒排查的及时性。
具体的,对于用户账号中在当前时段内的发布信息与目标账号的发布信息的相似发布数量的确定过程,本实施例可以在发布信息数据库中在当前时段所对应的存储区域内的各个发布信息中识别出与目标账号的某一发布信息相似的发布信息相似对,并将各发布信息相似对转换为对应的用户账号对,进而在各个用户账号对中确定出每一用户账号与各目标账号的相似次数,作为用户账号在当前时段内的发布信息与各目标账号的发布信息的相似发布数量。
S220,对疑似账号去重。
可选的,由于本实施例从用户账号和目标账号的发布信息的相似发布数量来筛选各个目标账号的疑似账号,而由于目标账号也会在当前时段内发布信息,使得此时所筛选出的疑似账号中可能会出现该目标账号,因此需要对疑似账号进行去重,将疑似账号中的目标账号去除,避免执行多余的无效排查操作,提高仿冒账号的排查效率。
S230,若疑似账号在历史时段内的发布信息与该疑似账号匹配的目标账号的发布信息的相似发布数量超出第一发布阈值,且疑似账号与该目标账号的属性特征相似,则确定疑似账号为该目标账号的仿冒账号。
本实施例提供的技术方案,预先从用户账号与目标账号之间的属性特征和发布信息两方面来筛选目标账号的疑似账号,提高疑似账号的召回率,并对疑似账号去重,在后续通过判断每一疑似账号在历史时段内的发布信息与目标账号的发布信息的相似发布数量是否超出第一发布阈值,且该疑似账号与目标账号的属性特征是否相似,而在疑似账号中进一步筛选出目标账号的仿冒账号时,避免对同一疑似账号进一步筛选的重复性,保证仿冒排查的效率,同时实现仿冒账号在不同时段内的自动识别,在每一时段内及时从初步筛选的疑似账号中准确识别相应的仿冒账号,扩大了仿冒账号的召回范围,同时通过对疑似账号中发布信息的相似发布数量和属性特征的相似度进行判断,在保证仿冒账号的召回率的基础上,提高了仿冒账号的准确性。
实施例三
图3A为本发明实施例三提供的一种仿冒账号的识别方法的流程图,图3B为本发明实施例三提供的仿冒账号的识别过程的原理示意图。本实施例是在上述实施例的基础上进行优化,本实施例主要对于从疑似账号中进一步筛选仿冒账号的具体过程进行详细的解释说明。
可选的,如图3A所示,本实施例可以包括如下步骤:
S310,确定用户账号中在当前时段内的账号特征与目标账号集合下的账号特征之间满足预设相似要求的各个目标账号的疑似账号。
S320,提取疑似账号在历史时段内各个发布信息的发布特征。
可选的,从大量用户账号中初步筛选出目标账号的疑似账号后,首先查找出每一疑似账号在历史时段内的各个发布信息,例如疑似账号在直播场景下的各个直播视频等,进而提取出各个发布信息中包含的能够描述该发布信息具体内容的发布特征,以便后续与目标账号的发布特征进行相似度比对。
在本实施例中,如图3B所示,提取疑似账号在历史时段内各个发布信息的发布特征,具体可以包括:查找疑似账号在历史时段内的发布信息,并确定对应的发布类型;通过发布类型下预先构建的特征模型提取疑似账号在历史时段内各个发布信息的发布特征。
具体的,首先查找出每一疑似账号在历史时段内的各个发布信息,并判断发布信息所属的文字信息、图片或者视频等对应的发布类型,例如发布信息为直播场景下的直播视频时,确定该发布类型为包含人脸信息的视频;为了准确提取不同发布类型下的发布特征,本实施例会预先采用大量该发布类型下的发布信息样本来训练对应的特征模型,训练完成后该特征模型能够准确提取该发布类型下各个发布信息的发布特征,因此本实施例在确定疑似账号的发布信息对应的发布类型后,直接将该疑似账号在历史时段内的各个发布信息分别输入该发布类型下预先构建的特征模型中,从而准确提取出该疑似账号在历史时段内各个发布信息的发布特征。
示例性的,若发布类型为包含人脸信息的视频,则训练对应的人脸识别模型,通过人脸识别模型来提取疑似账号在历史时段内的短视频中的人脸特征,后续判断该人脸特征与目标账号中的人脸特征之间的相似度;若发布类型为不包含人脸信息的普通视频,则训练对应的图片检测模型,通过该图片检测模型来提取疑似账号在历史时段内的短视频中的图像特征,后续判断该图像特征与目标账号中的图像特征之间的相似度。
需要说明的是,本实施例在初步筛选目标账号的疑似账号时所针对判断相似发布数量的发布信息可以是各种类型下的发布信息,例如发布的文字内容或非人脸特征等,而在从目标账号的疑似账号中进一步筛选仿冒账号时所针对判断相似发布数量的发布信息可以特指包含人脸特征的发布信息,两者可以不同。
S330,根据疑似账号与该疑似账号匹配的目标账号之间发布信息的发布特征相似度,确定疑似账号在历史时段内发布信息的相似发布数量。
可选的,在提取出疑似账号在历史时段内的各个发布信息的发布特征后,可以将每一发布信息的发布特征依次与目标账号的各个发布信息的发布特征进行相似度比对,从而在疑似账号在历史时段内的各个发布信息中选取出发布特征与目标账号的某一发布信息的发布特征相似的发布信息,进而确定疑似账号在历史时段内发布信息的相似发布数量,以便后续在疑似账号中准确识别出目标账号的仿冒账号。
示例性的,本实施例中根据疑似账号与目标账号之间发布信息的发布特征相似度,确定疑似账号在历史时段内发布信息的相似发布数量,可以具体包括:选取疑似账号匹配的目标账号在对应发布类型下预先构建的特征检索库;根据特征检索库中存在的疑似账号的发布信息的发布特征数量,确定疑似账号在历史时段内发布信息的相似发布数量。
其中,特征检索库中存储目标账号的发布特征,为了对目标账号的发布信息的发布特征进行预先统计,本实施例首先确定目标账号下各个发布信息的发布类型,并通过该发布类型下预先构建的特征模型准确提取目标账号下各个发布信息的发布特征,并采用现有的建库技术对目标账号下的发布特征构建对应的特征检索库,本实施例中的建库技术包括但不限于最近邻搜索算法、模糊相似搜索算法和faiss算法,主要取决于实际的数据特征规模和机器规模。
具体的,将疑似账号下各个发布信息的发布特征依次输入目标账号在对应发布类型下构建的特征检索库中进行相似搜索,判断疑似账号下的各个发布特征是否存在与该特征检索库中,从而确定该特征检索库中存在的疑似账号的发布信息的发布特征数量,作为该疑似账号在历史时段内发布信息的相似发布数量,后续根据该相似发布数量判断该疑似账号是否为目标账号的仿冒账号。
S340,若疑似账号在历史时段内的发布信息与该疑似账号匹配的目标账号的发布信息的相似发布数量超出第一发布阈值,且疑似账号与该目标账号的属性特征相似,则确定疑似账号为该目标账号的仿冒账号。
本实施例提供的技术方案,首先判断各个用户账号在当前时段内的账号特征与目标账号的账号特征之间是否满足预设相似要求,从而在大量用户账号中筛选出目标账号的疑似账号,后续通过疑似账号与目标账号下发布特征之间的相似度,确定疑似账号在历史时段内发布信息的相似发布数量,保证相似发布数量的准确性,并判断每一疑似账号在历史时段内的发布信息与目标账号的发布信息的相似发布数量是否超出第一发布阈值,且该疑似账号与目标账号的属性特征是否相似,进而在疑似账号中进一步筛选出目标账号的仿冒账号,实现仿冒账号在不同时段内的自动识别,此时在每一时段内及时从初步筛选的疑似账号中准确识别相应的仿冒账号,扩大了仿冒账号的召回范围,同时通过对疑似账号中发布信息的相似发布数量和属性特征的相似度进行判断,在保证仿冒账号的召回率的基础上,提高了仿冒账号的准确性。
实施例四
图4为本发明实施例四提供的一种仿冒账号的识别装置的结构示意图,具体的,如图4所示,该装置可以包括:
疑似账号确定模块410,用于确定用户账号中在当前时段内的账号特征与目标账号集合下的账号特征之间满足预设相似要求的各个目标账号的疑似账号;
仿冒账号识别模块420,用于若疑似账号在历史时段内的发布信息与该疑似账号匹配的目标账号的发布信息的相似发布数量超出第一发布阈值,且疑似账号与目标账号的属性特征相似,则确定疑似账号为目标账号的仿冒账号。
本实施例提供的技术方案,首先判断各个用户账号在当前时段内的账号特征与目标账号集合下的账号特征之间是否满足预设相似要求,从而在大量用户账号中筛选出目标账号集合下的各个目标账号的疑似账号,后续判断每一疑似账号在历史时段内的发布信息与对应目标账号的发布信息的相似发布数量是否超出第一发布阈值,且该疑似账号与该目标账号的属性特征是否相似,进而在疑似账号中进一步筛选出目标账号的仿冒账号,实现仿冒账号在不同时段内的自动识别,无需通过定期人工审查的方式识别,此时在每一时段内及时从初步筛选的疑似账号中准确识别相应的仿冒账号,扩大了仿冒账号的召回范围,同时通过对疑似账号中发布信息的相似发布数量和属性特征的相似度进行判断,在保证仿冒账号的召回率的基础上,提高了仿冒账号的准确性。
进一步的,上述疑似账号确定模块410,可以具体用于:
确定用户账号中在当前时段内的发布信息与目标账号集合下各个目标账号的发布信息的相似发布数量超出第二发布阈值的各个目标账号的疑似账号。
进一步的,上述仿冒账号的识别装置,还可以包括:
数据库更新模块,用于定期根据用户账号在当前时段内的发布记录,更新预先构建的属性数据库和发布信息数据库,属性数据库中存储用户账号的属性特征,发布信息数据库中存储用户账号的发布信息。
进一步的,上述仿冒账号的识别装置,还可以包括:
去重模块,用于对疑似账号去重。
进一步的,上述第一发布阈值大于第二发布阈值。
进一步的,上述仿冒账号的识别装置,还可以包括:
特征提取模块,用于提取所述疑似账号在历史时段内各个发布信息的发布特征;
相似数量确定模块,用于根据疑似账号与该疑似账号匹配的目标账号之间发布信息的发布特征相似度,确定疑似账号在历史时段内发布信息的相似发布数量。
进一步的,上述特征提取模块,可以具体用于:
查找疑似账号在历史时段内的发布信息,并确定对应的发布类型;
通过发布类型下预先构建的特征模型提取疑似账号在历史时段内各个发布信息的发布特征。
进一步的,上述相似数量确定模块,可以具体用于:
选取疑似账号匹配的目标账号在对应发布类型下预先构建的特征检索库,特征检索库中存储目标账号的发布特征;
根据特征检索库中存在的疑似账号的发布信息的发布特征数量,确定疑似账号在历史时段内发布信息的相似发布数量。
本实施例提供的视频转码的装置可适用于上述任意实施例提供的视频转码的方法,具备相应的功能和有益效果。
实施例五
图5为本发明实施例五提供的一种服务器的结构示意图,如图5所示,该服务器包括处理器50、存储装置51和通信装置52;服务器中处理器50的数量可以是一个或多个,图5中以一个处理器50为例;服务器中的处理器50、存储装置51和通信装置52可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储装置51作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中提供的仿冒账号的识别方法对应的程序指令/模块。处理器50通过运行存储在存储装置51中的软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述仿冒账号的识别方法。
存储装置51可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储装置51可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置51可进一步包括相对于处理器50远程设置的存储器,这些远程存储器可以通过网络连接至服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
通信装置62可用于实现服务器与终端之间的网络连接或者移动数据连接。
本实施例提供的一种服务器可用于执行上述任意实施例提供的仿冒账号的识别方法,具备相应的功能和有益效果。
实施例六
本发明实施例六还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可实现上述任意实施例中的仿冒账号的识别方法。
该方法具体可以包括:
确定用户账号中在当前时段内的账号特征与目标账号的账号特征之间满足预设相似要求的疑似账号;
若疑似账号在历史时段内的发布信息与目标账号的发布信息的相似发布数量超出第一发布阈值,且疑似账号与目标账号的属性特征相似,则确定疑似账号为目标账号的仿冒账号。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的仿冒账号的识别方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述仿冒账号的识别装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (11)
1.一种仿冒账号的识别方法,其特征在于,包括:
确定用户账号中在当前时段内的账号特征与目标账号集合下的账号特征之间满足预设相似要求的各个目标账号的疑似账号;
若所述疑似账号在历史时段内的发布信息与该疑似账号匹配的目标账号的发布信息的相似发布数量超出第一发布阈值,且所述疑似账号与该目标账号的属性特征相似,则确定所述疑似账号为该目标账号的仿冒账号。
2.根据权利要求1所述的方法,其特征在于,所述确定用户账号中在当前时段内的账号特征与目标账号集合下的账号特征之间满足预设相似要求的各个目标账号的疑似账号,包括:
确定用户账号中在当前时段内的发布信息与目标账号集合下各个目标账号的发布信息的相似发布数量超出第二发布阈值的各个目标账号的疑似账号。
3.根据权利要求2所述的方法,其特征在于,在确定用户账号中在当前时段内的账号特征与目标账号集合下的账号特征之间满足预设相似要求的各个目标账号的疑似账号之前,还包括:
定期根据所述用户账号在当前时段内的发布记录,更新预先构建的属性数据库和发布信息数据库,所述属性数据库中存储用户账号的属性特征,所述发布信息数据库中存储用户账号的发布信息。
4.根据权利要求2所述的方法,其特征在于,在确定用户账号中在当前时段内的账号特征与目标账号集合下的账号特征之间满足预设相似要求的各个目标账号的疑似账号之后,还包括:
对所述疑似账号去重。
5.根据权利要求2所述的方法,其特征在于,所述第一发布阈值大于所述第二发布阈值。
6.根据权利要求1所述的方法,其特征在于,在确定用户账号中在当前时段内的账号特征与目标账号集合下的账号特征之间满足预设相似要求的各个目标账号的疑似账号之后,还包括:
提取所述疑似账号在历史时段内各个发布信息的发布特征;
根据所述疑似账号与该疑似账号匹配的目标账号之间发布信息的发布特征相似度,确定所述疑似账号在历史时段内发布信息的相似发布数量。
7.根据权利要求6所述的方法,其特征在于,所述提取所述疑似账号在历史时段内各个发布信息的发布特征,包括:
查找所述疑似账号在历史时段内的发布信息,并确定对应的发布类型;
通过所述发布类型下预先构建的特征模型提取所述疑似账号在历史时段内各个发布信息的发布特征。
8.根据权利要求6所述的方法,其特征在于,根据所述疑似账号与该疑似账号匹配的目标账号之间发布信息的发布特征相似度,确定所述疑似账号在历史时段内发布信息的相似发布数量,包括:
选取所述疑似账号匹配的目标账号在对应发布类型下预先构建的特征检索库,所述特征检索库中存储该目标账号的发布特征;
根据所述特征检索库中存在的所述疑似账号的发布信息的发布特征数量,确定所述疑似账号在历史时段内发布信息的相似发布数量。
9.一种仿冒账号的识别装置,其特征在于,包括:
疑似账号确定模块,用于确定用户账号中在当前时段内的账号特征与目标账号集合下的账号特征之间满足预设相似要求的各个目标账号的疑似账号;
仿冒账号识别模块,用于若所述疑似账号在历史时段内的发布信息与该疑似账号匹配的目标账号的发布信息的相似发布数量超出第一发布阈值,且所述疑似账号与该目标账号的属性特征相似,则确定所述疑似账号为该目标账号的仿冒账号。
10.一种服务器,其特征在于,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的仿冒账号的识别方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的仿冒账号的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911283152.6A CN111083141A (zh) | 2019-12-13 | 2019-12-13 | 一种仿冒账号的识别方法、装置、服务器和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911283152.6A CN111083141A (zh) | 2019-12-13 | 2019-12-13 | 一种仿冒账号的识别方法、装置、服务器和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111083141A true CN111083141A (zh) | 2020-04-28 |
Family
ID=70314411
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911283152.6A Pending CN111083141A (zh) | 2019-12-13 | 2019-12-13 | 一种仿冒账号的识别方法、装置、服务器和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111083141A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737519A (zh) * | 2020-06-09 | 2020-10-02 | 北京奇艺世纪科技有限公司 | 识别机器人账号的方法、装置、电子设备及计算机可读存储介质 |
CN111881304A (zh) * | 2020-07-21 | 2020-11-03 | 百度在线网络技术(北京)有限公司 | 一种作者识别方法、装置、设备和存储介质 |
CN112348104A (zh) * | 2020-11-17 | 2021-02-09 | 百度在线网络技术(北京)有限公司 | 仿冒程序的识别方法、装置、设备及存储介质 |
CN112579903A (zh) * | 2020-12-24 | 2021-03-30 | 北京百度网讯科技有限公司 | 用户账号处理方法、装置、设备和存储介质 |
CN113014591A (zh) * | 2021-03-08 | 2021-06-22 | 中国工商银行股份有限公司 | 假冒公众号的检测方法和装置、电子设备、及介质 |
CN113068067A (zh) * | 2021-03-19 | 2021-07-02 | 北京达佳互联信息技术有限公司 | 帐户召回方法及装置 |
CN113536870A (zh) * | 2020-07-09 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 一种异常头像识别方法及装置 |
CN114756709A (zh) * | 2022-03-25 | 2022-07-15 | 北京卓越乐享网络科技有限公司 | 发布者的比对方法、装置、设备、存储介质和程序产品 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103281320A (zh) * | 2013-05-23 | 2013-09-04 | 中国科学院计算机网络信息中心 | 基于网页图标匹配的品牌仿冒网站检测方法 |
US20140040152A1 (en) * | 2012-08-02 | 2014-02-06 | Jing Fang | Methods and systems for fake account detection by clustering |
US20140196110A1 (en) * | 2013-01-08 | 2014-07-10 | Yigal Dan Rubinstein | Trust-based authentication in a social networking system |
CN104092601A (zh) * | 2014-07-28 | 2014-10-08 | 北京微众文化传媒有限公司 | 社交网络账号的识别方法和装置 |
CN107169499A (zh) * | 2016-03-07 | 2017-09-15 | 阿里巴巴集团控股有限公司 | 一种风险识别方法及装置 |
CN108234454A (zh) * | 2017-12-13 | 2018-06-29 | 中国银联股份有限公司 | 一种身份认证方法、服务器及客户端设备 |
CN109151518A (zh) * | 2018-08-06 | 2019-01-04 | 武汉斗鱼网络科技有限公司 | 一种被盗账号的识别方法、装置及电子设备 |
CN109165705A (zh) * | 2018-03-13 | 2019-01-08 | 深圳真智能科技有限公司 | 一种基于微信公众号的实时防伪系统及方法 |
CN110032859A (zh) * | 2018-12-25 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 异常帐户鉴别方法与装置及介质 |
-
2019
- 2019-12-13 CN CN201911283152.6A patent/CN111083141A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140040152A1 (en) * | 2012-08-02 | 2014-02-06 | Jing Fang | Methods and systems for fake account detection by clustering |
US20140196110A1 (en) * | 2013-01-08 | 2014-07-10 | Yigal Dan Rubinstein | Trust-based authentication in a social networking system |
CN103281320A (zh) * | 2013-05-23 | 2013-09-04 | 中国科学院计算机网络信息中心 | 基于网页图标匹配的品牌仿冒网站检测方法 |
CN104092601A (zh) * | 2014-07-28 | 2014-10-08 | 北京微众文化传媒有限公司 | 社交网络账号的识别方法和装置 |
CN107169499A (zh) * | 2016-03-07 | 2017-09-15 | 阿里巴巴集团控股有限公司 | 一种风险识别方法及装置 |
CN108234454A (zh) * | 2017-12-13 | 2018-06-29 | 中国银联股份有限公司 | 一种身份认证方法、服务器及客户端设备 |
CN109165705A (zh) * | 2018-03-13 | 2019-01-08 | 深圳真智能科技有限公司 | 一种基于微信公众号的实时防伪系统及方法 |
CN109151518A (zh) * | 2018-08-06 | 2019-01-04 | 武汉斗鱼网络科技有限公司 | 一种被盗账号的识别方法、装置及电子设备 |
CN110032859A (zh) * | 2018-12-25 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 异常帐户鉴别方法与装置及介质 |
Non-Patent Citations (2)
Title |
---|
知乎: "揭秘:微博QQ上高仿明星号的黑色产业!", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/35181490》 * |
知网: "微博"高仿号"成诈骗新手段", 《中国防伪报道》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737519A (zh) * | 2020-06-09 | 2020-10-02 | 北京奇艺世纪科技有限公司 | 识别机器人账号的方法、装置、电子设备及计算机可读存储介质 |
CN111737519B (zh) * | 2020-06-09 | 2023-10-03 | 北京奇艺世纪科技有限公司 | 识别机器人账号的方法、装置、电子设备及计算机可读存储介质 |
CN113536870A (zh) * | 2020-07-09 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 一种异常头像识别方法及装置 |
CN111881304A (zh) * | 2020-07-21 | 2020-11-03 | 百度在线网络技术(北京)有限公司 | 一种作者识别方法、装置、设备和存储介质 |
CN111881304B (zh) * | 2020-07-21 | 2024-04-26 | 百度在线网络技术(北京)有限公司 | 一种作者识别方法、装置、设备和存储介质 |
CN112348104A (zh) * | 2020-11-17 | 2021-02-09 | 百度在线网络技术(北京)有限公司 | 仿冒程序的识别方法、装置、设备及存储介质 |
CN112348104B (zh) * | 2020-11-17 | 2023-08-18 | 百度在线网络技术(北京)有限公司 | 仿冒程序的识别方法、装置、设备及存储介质 |
CN112579903A (zh) * | 2020-12-24 | 2021-03-30 | 北京百度网讯科技有限公司 | 用户账号处理方法、装置、设备和存储介质 |
CN113014591A (zh) * | 2021-03-08 | 2021-06-22 | 中国工商银行股份有限公司 | 假冒公众号的检测方法和装置、电子设备、及介质 |
CN113068067A (zh) * | 2021-03-19 | 2021-07-02 | 北京达佳互联信息技术有限公司 | 帐户召回方法及装置 |
CN113068067B (zh) * | 2021-03-19 | 2022-08-12 | 北京达佳互联信息技术有限公司 | 帐户召回方法及装置 |
CN114756709A (zh) * | 2022-03-25 | 2022-07-15 | 北京卓越乐享网络科技有限公司 | 发布者的比对方法、装置、设备、存储介质和程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111083141A (zh) | 一种仿冒账号的识别方法、装置、服务器和存储介质 | |
CN110704682B (zh) | 一种基于视频多维特征智能推荐背景音乐的方法及系统 | |
CN111191067A (zh) | 绘本识别方法、终端设备及计算机可读存储介质 | |
CN105159913B (zh) | 一种待清理文件确定方法及装置 | |
CN113779308B (zh) | 一种短视频检测和多分类方法、装置及存储介质 | |
CN111400607A (zh) | 搜索内容输出方法、装置、计算机设备及可读存储介质 | |
CN112883734B (zh) | 区块链安全事件舆情监测方法及系统 | |
CN111488813B (zh) | 视频的情感标注方法、装置、电子设备及存储介质 | |
CN113282754A (zh) | 针对新闻事件的舆情检测方法、装置、设备和存储介质 | |
CN114881685A (zh) | 广告投送方法、装置、电子装置及存储介质 | |
KR102093790B1 (ko) | 문자 중계 데이터로부터 이벤트 정보를 추출하는 이벤트 정보 추출 방법 및 그 방법을 수행하는 사용자 단말 | |
CN108921016B (zh) | 一种基于图像识别的图书评分获取方法、电子设备及存储介质 | |
CN115983873B (zh) | 一种基于大数据的用户数据分析管理系统及方法 | |
CN111709324A (zh) | 一种基于时空一致性的新闻视频拆条方法 | |
CN103093213A (zh) | 视频文件分类方法及终端 | |
CN113704400B (zh) | 虚假新闻识别方法、装置、设备及芯片 | |
CN113365100B (zh) | 视频处理方法及装置 | |
CN111651987B (zh) | 身份判别方法及装置、计算机可读存储介质、电子设备 | |
CN109446330B (zh) | 网络服务平台情感倾向识别方法、装置、设备和存储介质 | |
CN115565193A (zh) | 问卷信息录入方法、装置、电子设备及存储介质 | |
CN114189754A (zh) | 一种视频情节分段方法及系统 | |
CN104850606A (zh) | 一种移动群智感知中社会事件的总结方法 | |
CN111061924A (zh) | 词组提取方法、装置、设备和存储介质 | |
CN113129054B (zh) | 用户识别方法和装置 | |
CN113849667B (zh) | 一种舆情监控方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200428 |