CN115269765A - 账号识别方法、装置、电子设备和存储介质 - Google Patents

账号识别方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN115269765A
CN115269765A CN202210630507.XA CN202210630507A CN115269765A CN 115269765 A CN115269765 A CN 115269765A CN 202210630507 A CN202210630507 A CN 202210630507A CN 115269765 A CN115269765 A CN 115269765A
Authority
CN
China
Prior art keywords
account
user name
target
determining
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210630507.XA
Other languages
English (en)
Inventor
李张涛
张博威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202210630507.XA priority Critical patent/CN115269765A/zh
Publication of CN115269765A publication Critical patent/CN115269765A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开关于账号识别方法、装置、电子设备和存储介质,该方法包括:获取满足预设第一条件的目标账号的目标用户名,并获取目标用户名包括的多个字符;从多个待识别账号中确定用户名包含字符的数量超过预设第一数量的第一待识别账号;将第一待识别账号的头像和目标账号的头像进行相似度比对,得到第一相似度,并将第一待识别账号的用户名的拼音与目标用户名的拼音进行相似度比对,得到第二相似度;根据第一相似度和第二相似度,从第一待识别账号中确定疑似异常账号,并从疑似异常账号中确定异常账号。本方案利用计算机程序将目标账号和待识别账号的用户名、头像、用户名拼音进行多维度相似度比对,相比于人工审核,提高了异常账号识别的准确度。

Description

账号识别方法、装置、电子设备和存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及账号识别方法、装置、电子设备和存储介质。
背景技术
在社交网站上,一些普通账号为了增加曝光率,会将自己的账号名称设置为与公众人物相关的名称,或者设置为与官方网站、机构或城市相关的名称等。这样当用户在社交网站上搜索这些名称时,搜索结果页面会展示这些异常账号。然而用户搜索的目标大概率不是这些异常账号,因此在搜索结果页面展示这些异常账号会影响用户的搜索体验。
目前的解决方法是通过人工审核排查的方式来发现这一类异常账号,但是,人工审核排查的方式识别异常账号的准确度较低。
发明内容
本公开提供账号识别方法、装置、电子设备和存储介质,以至少解决相关技术中文本和图像匹配精度不高的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种账号识别方法,包括:
获取满足预设第一条件的目标账号的目标用户名,并获取所述目标用户名包括的多个字符;
利用倒排索引,从多个待识别账号中确定用户名包含所述字符的数量超过预设第一数量的第一待识别账号;
将所述第一待识别账号的头像和所述目标账号的头像进行相似度比对,得到第一相似度,并将所述第一待识别账号的用户名的拼音与所述目标用户名的拼音进行相似度比对,得到第二相似度;
根据所述第一相似度和所述第二相似度,从所述第一待识别账号中确定疑似异常账号,并从所述疑似异常账号中确定异常账号。
可选的,所述预设第一条件为所述账号已通过身份认证且所述账号的被关注数量大于或等于预设第二数量。
可选的,所述利用倒排索引,从多个待识别账号中确定用户名包含所述字符的数量超过预设第一数量的第一待识别账号,包括:
从多个待识别账号的用户名中搜索包含所述多个字符中的其中一个字符的用户名,得到第一用户名集合;
从所述第一用户名集合中,搜索包含剩余字符中的其中一个字符的用户名,得到第二用户名集合;所述剩余字符为所述多个字符去除已被搜索字符后剩余的字符;
基于所述第二用户名集合继续进行搜索,其中,从上一个字符搜索得到的用户名集合中,搜索包含当前字符的用户名,直到所述多个字符被搜索完毕;
根据各用户名集合中用户名包含的所述字符的数量,确定所述数量大于或等于预设第一数量的目标用户名集合;
将所述目标用户名集合中包含的账号,确定为第一待识别账号。
可选的,所述从所述疑似异常账号中确定异常账号,包括:
分别确定所述疑似异常账号的头像的图像哈希值和所述目标账号的头像的图像哈希值,得到第一哈希值和第二哈希值;
若所述第一哈希值和所述第二哈希值相等,则将所述疑似异常账号确定为异常账号。
可选的,所述方法还包括:
获取热度满足预设第二条件且描述对象为实体对象的目标词条,所述热度根据所述词条被浏览的次数、被编辑的次数和被清洗的次数确定;
将所述待识别账号的用户名和所述目标词条进行正则匹配,得到匹配结果;
根据所述匹配结果,从所述待识别账号中确定疑似异常账号,并从所述疑似异常账号中确定异常账号。
可选的,所述从所述疑似异常账号中确定异常账号,包括:
确定所述疑似异常账号中是否存在优质账号;所述优质账号为满足预设认证条件的账号,或在当前时刻之前的第一时间段内有效点击率大于预设第四阈值的账号;
将所述优质账号从所述疑似异常账号中去除,得到异常账号。
可选的,所述从所述疑似异常账号中确定异常账号,包括:
分别获取所述疑似异常账号在当前时刻之前的第二时间段内和第三时间段内,将账号名称修改为不同的所述目标用户名或所述目标词条的次数;所述第二时间段大于所述第三时间段;
若所述次数满足预设第三条件,则确定所述疑似异常账号为异常账号。
可选的,所述从所述疑似异常账号中确定异常账号,包括:
识别所述疑似异常账号的头像中是否存在目标字符;
对于存在所述目标字符的第一疑似异常账号,获取所述第一疑似异常账号的认证状态和线上热度数据;
若所述认证状态为未认证,且所述线上热度数据不满足预设第四条件,则确定所述第一疑似异常账号为异常账号。
可选的,在从所述疑似异常账号中确定异常账号之后,还包括:
获取用户输入的搜索关键词;
当所述搜索关键词为所述目标用户名或所述目标词条时,从所述异常账号中确定与所述目标用户名或所述目标词条匹配的目标异常账号;
在搜索结果中显示所述搜索关键词对应的正常账号,所述正常账号为与所述搜索关键词匹配的账号集合中去除所述目标异常账号后剩余的账号。
根据本公开实施例的第二方面,提供一种账号识别装置,包括:
字符获取模块,被配置为执行获取满足预设第一条件的目标账号的目标用户名,并获取所述目标用户名包括的多个字符;
待识别账号确定模块,被配置为执行利用倒排索引,从多个待识别账号中确定用户名包含所述字符的数量超过预设第一数量的第一待识别账号;
相似度比对模块,被配置为执行将所述第一待识别账号的头像和所述目标账号的头像进行相似度比对,得到第一相似度,并将所述第一待识别账号的用户名的拼音与所述目标用户名的拼音进行相似度比对,得到第二相似度;
异常账号第一确定模块,被配置为执行根据所述第一相似度和所述第二相似度,从所述第一待识别账号中确定疑似异常账号,并从所述疑似异常账号中确定异常账号。
可选的,所述预设第一条件为所述账号已通过身份认证且所述账号的被关注数量大于或等于预设第二数量。
可选的,所述待识别账号确定模块具体被配置为执行:
从多个待识别账号的用户名中搜索包含所述多个字符中的其中一个字符的用户名,得到第一用户名集合;
从所述第一用户名集合中,搜索包含剩余字符中的其中一个字符的用户名,得到第二用户名集合;所述剩余字符为所述多个字符去除已被搜索字符后剩余的字符;
基于所述第二用户名集合继续进行搜索,其中,从上一个字符搜索得到的用户名集合中,搜索包含当前字符的用户名,直到所述多个字符被搜索完毕;
根据各用户名集合中用户名包含的所述字符的数量,确定所述数量大于或等于预设第一数量的目标用户名集合;
将所述目标用户名集合中包含的账号,确定为第一待识别账号。
可选的,所述异常账号第一确定模块具体被配置为执行:
图像哈希计算模块,被配置为执行分别确定所述疑似异常账号的头像的图像哈希值和所述目标账号的头像的图像哈希值,得到第一哈希值和第二哈希值;
第一异常账号确定模块,被配置为执行若所述第一哈希值和所述第二哈希值相等,则将所述疑似异常账号确定为异常账号。
可选的,所述装置还包括:
目标词条获取模块,被配置为执行获取热度满足预设第二条件且描述对象为实体对象的目标词条,所述热度根据所述词条被浏览的次数、被编辑的次数和被清洗的次数确定;
正则匹配模块,被配置为执行将所述待识别账号的用户名和所述目标词条进行正则匹配,得到匹配结果;
异常账号第二确定模块,被配置为执行根据所述匹配结果,从所述待识别账号中确定疑似异常账号,并从所述疑似异常账号中确定异常账号。
可选的,所述异常账号第一确定模块或所述异常账号第二确定模块进一步被配置为执行:
确定所述疑似异常账号中是否存在优质账号;所述优质账号为满足预设认证条件的账号,或在当前时刻之前的第一时间段内有效点击率大于预设第四阈值的账号;
将所述优质账号从所述疑似异常账号中去除,得到异常账号。
可选的,所述异常账号第一确定模块或所述异常账号第二确定模块进一步被配置为执行:
分别获取所述疑似异常账号在当前时刻之前的第二时间段内和第三时间段内,将账号名称修改为不同的所述目标用户名或所述目标词条的次数;所述第二时间段大于所述第三时间段;
若所述次数满足预设第三条件,则确定所述疑似异常账号为异常账号。
可选的,所述异常账号第一确定模块或所述异常账号第二确定模块进一步被配置为执行:
识别所述疑似异常账号的头像中是否存在目标字符;
对于存在所述目标字符的第一疑似异常账号,获取所述第一疑似异常账号的认证状态和线上热度数据;
若所述认证状态为未认证,且所述线上热度数据不满足预设第四条件,则确定所述第一疑似异常账号为异常账号。
可选的,所述装置还包括:
搜索关键词获取模块,被配置为执行获取账号输入的搜索关键词;
目标异常账号确定模块,被配置为执行当所述搜索关键词为所述目标用户名或所述目标词条时,从所述异常账号中确定与所述目标用户名或所述目标词条匹配的目标异常账号;
显示模块,被配置为执行在搜索结果中显示所述搜索关键词对应的正常账号,所述正常账号为与所述搜索关键词匹配的账号集合中去除所述目标异常账号后剩余的账号。
根据本公开实施例的第三方面,提供一种电子设备,包括:
处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的账号识别方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由服务器的处理器执行时,使得服务器能够执行如第一方面所述的账号识别方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现第一方面所述的账号识别方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
在本公开的实施例中,获取满足预设第一条件的目标账号的目标用户名,并获取所述目标用户名包括的多个字符;利用倒排索引,从多个待识别账号中确定用户名包含所述字符的数量超过预设第一数量的第一待识别账号;将所述第一待识别账号的头像和所述目标账号的头像进行相似度比对,得到第一相似度,并将所述第一待识别账号的用户名的拼音与所述目标用户名的拼音进行相似度比对,得到第二相似度;根据所述第一相似度和所述第二相似度,从所述第一待识别账号中确定疑似异常账号,并从所述疑似异常账号中确定异常账号。本方案利用计算机程序将目标账号和待识别账号的用户名、头像、用户名拼音进行多维度相似度比对,相比于人工审核,提高了异常账号识别的准确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种应用于本申请账号识别方法的示例性架构;
图2是根据一示例性实施例示出的第一种账号识别方法的步骤流程图;
图3是根据一示例性实施例示出的第二种账号识别方法的步骤流程图;
图4是根据一示例性实施例示出的一种账号识别装置的结构框图;
图5是根据一示例性实施例示出的一种用于账号识别的电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种应用于本申请账号识别方法的示例性架构。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。终端设备101、102、103之间通信连接构成拓扑网络,网络104用以在终端设备101、102、 103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
终端设备101、102、103可以是支持网络连接从而进行数据交互和数据处理的硬件设备或软件。当终端设备101、102、103为硬件时,其可以是支持网络连接,信息获取、交互、显示、处理等功能的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如获取账号通过终端设备101、102、103发送的搜索关键词,确定第一待识别账号和目标名称之间的第一相似度等。可选的,服务器可以将搜索结果反馈至终端设备。作为示例,服务器105可以是云端服务器。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
还需要说明的是,本申请的实施例所提供的账号识别方法可以由服务器执行,也可以由终端设备执行,还可以由服务器和终端设备彼此配合执行。相应地,账号识别装置包括的各个部分(例如各个模块)可以全部设置于服务器中,也可以全部设置于终端设备中,还可以分别设置于服务器和终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。当账号识别方法运行于其上的电子设备不需要与其他电子设备进行数据传输时,该系统架构可以仅包括账号识别方法运行于其上的电子设备(例如服务器或终端设备)。
图2是根据一示例性实施例示出的第一种账号识别方法的步骤流程图,如图2所示,该方法包括以下步骤。
在步骤S21中,获取满足预设第一条件的目标账号的目标用户名,并获取所述目标用户名包括的多个字符。
具体地,满足预设第一条件的目标账号是在社交网站上受到较多用户欢迎且具备较大公众影响力的账号,例如公众人物或官方机构在社交网站上注册的账号,俗称为大V(Verified,认证)账号。
一些普通账号为了增加曝光率,会将自己的账号设置为与目标账号的用户名相似或相同的名称,以骗取用户的关注和点击,这对目标账号带来较大负面影响。本公开实施例可从社交网站上大量的普通账号中识别出此类异常账号。
具体地,从站内获取目标账号的目标用户名,然后将目标用户名以字符为粒度进行切分,得到多个字符。例如,对于目标用户名:ABC,以字符为粒度切分后得到A、B、C 三个字符。
在一种可能的实施方式中,所述预设第一条件为所述账号已通过身份认证且所述账号的被关注数量大于或等于预设第二数量。
具体地,第二数量可以根据需求进行预设,示例性地,可以设置为50万。
已通过身份认证且所述账号的被关注数量大于或等于预设第二数量的目标账号,其一般是有一定知名度的学者或名人,受到大批用户信任,在信息传播中有着重要的影响,因此也是异常账号主体优先关注的对象。
在步骤S22中,利用倒排索引,从多个待识别账号中确定用户名包含所述字符的数量超过预设第一数量的第一待识别账号。
倒排索引以上述字符为查询关键字进行索引,关键字所对应的记录表项记录了出现这个字符的所有待识别账号。而正排索引是以待识别账号的ID为关键字,记录待识别账号中每个字符的位置信息,查找时扫描每个字符的位置信息,直到找出所有包含查询关键字的账号。倒排索引在查询的时候由于可以一次得到查询关键字所对应的所有账号,所以效率高于正排索引。因此,为了实现查询的实时性,本公开采用倒排索引,从待识别账号的用户名中查询包含所述字符的用户名。
具体地,待识别账号可以为社交网站内除了目标账号以外的任意一个普通账号,可以一次性将多个普通账号作为待识别账号进行识别。
在确定用户名包含所述字符的数量时,可以采用最长公共子序列算法,即计算目标用户名和待识别账号的用户名之间的最长公共子序列的长度。
第一数量可以根据需求进行预设,例如可以设置为2,则待识别账号中包含所述字符的数量为2个或2个以上,即与目标用户名重叠的字符的数量为2个或2个以上的账号被确定为第一待识别账号。而待识别账号中与目标用户名重叠的字符的数量为1个或0个的账号为正常账号,将不再进行下一步识别。
在一种可能的实施方式中,步骤S22可以包括以下步骤S221-步骤S225:
在步骤S221中,从多个待识别账号的用户名中搜索包含所述多个字符中的其中一个字符的用户名,得到第一用户名集合;
在步骤S222中,从所述第一用户名集合中,搜索包含剩余字符中的其中一个字符的用户名,得到第二用户名集合;所述剩余字符为所述多个字符去除已被搜索字符后剩余的字符;
在步骤S223中,基于所述第二用户名集合继续进行搜索,其中,从上一个字符搜索得到的用户名集合中,搜索包含当前字符的用户名,直到所述多个字符被搜索完毕;
在步骤S224中,根据各用户名集合中用户名包含的所述字符的数量,确定所述数量大于或等于预设第一数量的目标用户名集合;
在步骤S225中,将所述目标用户名集合中包含的账号,确定为第一待识别账号。
在步骤S221-步骤S225中,假设待识别账号的用户名中包含第一字符、第二字符、……、第N字符等多个字符。首先从多个待识别账号的用户名中搜索包含上述其中一个字符的用户名,例如搜索第一字符,得到包含所述第一字符的第一用户名集合。然后从第一用户名集合中搜索包含剩余字符中的其中一个字符的用户名,例如搜索第二字符,得到既包含第一字符又包含第二字符的第二用户名集合。以此类推,若当前为第N次搜索,则从第N-1次搜索得到的第N-1用户名集合中,搜索第N字符,得到第N用户名集合,直到将N个字符搜索完毕。
这样,相比于每次搜索全量的待识别账号,减少了每次的搜索量,提高了搜索效率。
得到多个用户名集合后,分别确定每个用户名集合中包括的与目标用户名重叠的字符数量,将重叠的字符数量大于或等于第一数量的账号,确定为第一待识别账号。
在步骤S23中,将所述第一待识别账号的头像和所述目标账号的头像进行相似度比对,得到第一相似度,并将所述第一待识别账号的用户名的拼音与所述目标用户名的拼音进行相似度比对,得到第二相似度。
对于第一待识别账号,可以根据账号的头像和用户名的拼音进行进一步比对。
账号的头像为二维图像,可以采用CNN(Convolutional Neural Networks,卷积神经网络)算法,具体采用余弦相似度的度量方法,进行头像相似度比对,得到第一相似度。
可以理解,也可以采用其他算法计算第一相似度,本公开实施例对此不做具体限定。
在现实中,有些普通账号虽然用户名与目标用户名有差异,但是读音是相同或相似的,这样也容易对公众产生误导。
为了识别出这类用户名,还对第一待识别账号的用户名的拼音与目标用户名的拼音进行相似度比对,得到第二相似度。
对于经过用户名比对后得到的第一待识别账号,还采用头像相似度和拼音相似度进行比对,这样以多种角度对待识别账号进行比对识别,增加了比对维度,提高了对异常账号的识别精准度。
在步骤S24中,根据所述第一相似度和所述第二相似度,从所述第一待识别账号中确定疑似异常账号,并从所述疑似异常账号中确定异常账号。
第一相似度对应的是头像相似度,第二相似度对应的是拼音相似度,可以预先为两者分别设置第一相似度阈值和第二相似度阈值。当第一相似度大于或等于第一相似度阈值,且第二相似度大于或等于第二相似度阈值时,判定待识别账号为疑似异常账号;当第一相似度小于第一相似度阈值,或,第二相似度小于第二相似度阈值时,则可判定待识别账号为正常账号。
例如,设置第一相似度阈值为0.9,第二相似度阈值为0.85,则当第一相似度≥0.9且同时第二相似度≥0.85时,判定待识别账号为疑似异常账号。
为了降低对异常账号的误判概率,还可以进一步采用判别方案,从疑似异常账号中确定出异常账号,以提高识别的精准度。
这样通过多种维度比对,以及对不同维度设置不同的阈值,优化了异常账号识别的方法步骤,提高了识别的精准度,降低了正常账号被误判为异常账号的概率。
上述方法已应用到实际工作中,并在初期已识别出站内的仿冒用户200万,相对于传统人工审核的方法提高了审核效率、扩大了排查的覆盖面。
在一种可能的实施方式中,所述从所述疑似异常账号中确定异常账号,包括步骤S25- 步骤S26:
在步骤S25中,分别确定所述疑似异常账号的头像的图像哈希值和所述目标账号的头像的图像哈希值,得到第一哈希值和第二哈希值。
在得到疑似异常账号后,为了进一步识别出异常账号,可以根据图像哈希算法确定疑似异常账号的头像和目标账号的头像的相似度。
具体地,图像哈希相似度比较常用的有均值哈希、差值哈希和感知哈希等,可以选择任意一种算法。
在步骤S26中,若所述第一哈希值和所述第二哈希值相等,则将所述疑似异常账号确定为异常账号。
若第一哈希值和第二哈希值相等,则说明疑似异常账号的头像和目标账号的头像完全相同,则疑似异常账号为异常账号无误。
本公开实施例根据图像哈希算法确定疑似异常账号的头像和目标账号的头像之间的相似度,可以进一步确定疑似异常账号的仿冒程度,提高了识别的精准度。
综上,本公开实施例中,获取满足预设第一条件的目标账号的目标用户名,并获取所述目标用户名包括的多个字符;利用倒排索引,从多个待识别账号中确定用户名包含所述字符的数量超过预设第一数量的第一待识别账号;将所述第一待识别账号的头像和所述目标账号的头像进行相似度比对,得到第一相似度,并将所述第一待识别账号的用户名的拼音与所述目标用户名的拼音进行相似度比对,得到第二相似度;根据所述第一相似度和所述第二相似度,从所述第一待识别账号中确定疑似异常账号,并从所述疑似异常账号中确定异常账号。本方案利用计算机程序将目标账号和待识别账号的用户名、头像、用户名拼音进行多维度相似度比对,相比于人工审核,提高了异常账号识别的准确度。
图3是根据一示例性实施例示出的第二种账号识别方法的步骤流程图,如图3所示,该方法包括以下步骤。
在步骤S31中,获取热度满足预设第二条件且描述对象为实体对象的目标词条,所述热度根据所述词条被浏览的次数、被编辑的次数和被清洗的次数确定。
异常账号主体关注的对象除了在社交网站内部已经注册的目标账号,还包括未在社交网站上注册,但公众较为熟知、具有较大公众影响力的实体对象名称,例如名人姓名、官方网站名称、城市名称、机构名称等。
具体地,可以在词条数据库中提取热度满足预设第二条件且描述对象为实体的目标词条。其中,该热度根据词条被浏览的次数、被编辑的次数和被清洗的次数确定。
相应地,第二条件可以设置为词条被浏览的次数、被编辑的次数和被清洗的次数分别达到相应次数,这样,可以获取到具有较高热度的目标词条。
在步骤S32中,将所述待识别账号的用户名和所述目标词条进行正则匹配,得到匹配结果。
正则匹配(regular expression)就是用一个“字符串”来描述一个特征,然后去验证另一个“字符串”是否符合这个特征。
在正则匹配时,首先将待识别用户名中的空格、符号等特殊字符和表情去掉,将得到的有效字符和目标词条进行匹配。
示例性地,若待识别用户名为“ABC$~”,则有效字符为“ABC”,将有效字符“ABC”与目标词条“ABC”进行正则匹配,可以得到匹配度为1,即匹配成功。
进行正则匹配之后,计算机会返回相应的匹配结果,匹配结果包括匹配成功和匹配失败两种。
在步骤S33中,根据所述匹配结果,从所述待识别账号中确定疑似异常账号,并从所述疑似异常账号中确定异常账号。
若匹配成功,则将待识别账号确定为疑似异常账号;若匹配失败,则将待识别账号确定为正常账号。
为了降低对异常账号的误判概率,还可以进一步采用判别方案,从疑似异常账号中确定出异常账号,以提高识别的精准度。
综上,在本公开实施例中,获取热度满足预设第二条件且描述对象为实体的目标词条,将所述待识别账号的用户名和所述目标词条进行正则匹配,得到匹配结果;根据所述匹配结果,从所述待识别账号中确定疑似异常账号,并从疑似异常账号中确定异常账号。这样,本方案可以从待识别账号中识别出模仿社交网站外部实体对象名称的账号,扩大了异常账号的识别范围,且采用正则匹配方法进行识别,提高了识别精度。
在一种可能的实施方式中,所述从所述疑似异常账号中确定异常账号,包括以下步骤 S41-S42:
在步骤S41中,确定所述疑似异常账号中是否存在优质账号;所述优质账号为满足预设认证条件的账号,或在当前时刻之前的第一时间段内有效点击率大于预设第四阈值的账号;
在步骤S42中,将所述优质账号从所述疑似异常账号中去除,得到异常账号。
在步骤S41-步骤S42中,为了防止对社交网站内的优质账号进行误判,可以从异常账号中筛选出优质账号。优质账号为满足预设认证条件的账号,以及在当前时刻之前的第一时间段内有效点击率大于预设第四阈值的账号。
预设认证条件是指已经获得当前社交网站的认证或者签约。例如:认证人物账号、认证机构账号和签约账号为满足预设认证条件的账号。
其中,签约账号可以包括社交网站的签约作者和签约主播,认证人物账号包括入驻社交网站并通过认证的人物账号,认证机构账号包括国家或个体机构的账号。
此外,还包括在近期内发布作品的有效点击率大于预设第四阈值的账号,近期可以利用预先设置的第一时间段来划分。示例性地,第一时间段可以是3天、7天等较短的时间段。
本公开实施例从疑似异常账号中筛选出优质账号,并将优质账号从疑似异常账号中去除,可以保证优质用户不被误判和打压,保证了优质用户的权益。
在一种可能的实施方式中,所述从所述疑似异常账号中确定异常账号,包括以下步骤 S51-S52:
在步骤S51中,分别获取所述疑似异常账号在当前时刻之前的第二时间段内和第三时间段内,将账号名称修改为不同的所述目标名称或所述目标词条的次数;所述第二时间段大于所述第三时间段;
在步骤S52中,若所述次数满足预设第三条件,则确定所述疑似异常账号为异常账号。
在步骤S51-步骤S52中,可以进一步从疑似异常账号中识别出经常进行异常改名的异常账号。具体地,可以获取疑似异常账号在较长的历史时间段内实施异常改名行为的次数,以及在距离当前较近的时间段内实施异常改名的次数。实施异常改名的次数,可以通过获取疑似异常账号的曾用名来获取,若曾用名为目标账号或目标词条,则计入一次异常改名行为。
其中,第二时间段为一个较长的历史时间段,示例性地,第二时间段可以设置为6个月或1年等。第三时间段为距离当前较近的时间段,示例性地,第三时间段可以设置为 1个月或7天等。
分别获取疑似异常账号在当前时刻之前的第二时间段内和第三时间段内,将账号修改为目标名称或目标词条的次数,得到第一次数和第二次数。
第三条件可以预先设置为第一次数达到第一次数阈值且第二次数达到第二次数阈值,则若疑似异常账号满足第三条件,可以将疑似异常账号确定为异常账号。通过第三条件的设置,可以避免对一些历史上有过异常改名行为,但近期已经改正的账号进行误伤,也可以有效的识别出一直在实施异常改号的惯犯。
本公开实施例通过分别获取所述疑似异常账号在当前时刻之前的第二时间段内和第三时间段内,将账号名称修改为不同的所述目标名称或所述目标词条的次数,可以识别出异常账号,进一步对疑似异常账号中异常改名较为严重的账号进行了识别,以便进行精准打击。
在一种可能的实施方式中,所述从所述疑似异常账号中确定异常账号,还包括以下步骤S61-S64:
在步骤S61中,识别所述疑似异常账号的头像中是否存在目标字符;
在步骤S62中,对于存在所述目标字符的第一疑似异常账号,获取所述第一疑似异常账号的认证状态和线上热度数据;
在步骤S63中,若所述认证状态为未认证,且所述线上热度数据不满足预设第四条件,则确定所述第一疑似异常账号为异常账号。
在步骤S61-步骤S63中,在确定疑似异常账号后,为进一步筛选出异常行为比较明显的账号,可以利用光学字符识别技术(Optical Character Recognition,OCR)对异常账号头像中的文字进行识别。
具体地,可以重点对头像中的预设区域进行识别,该预设区域可以为头像的正下方区域。
目标字符可以为头像挂件中的字段,例如“直播中”字段。若账号正在直播,则系统会为账号的头像添加“直播中”这样的头像挂件,该头像挂件不属于账号的头像,在提取头像时,头像挂件不会被提取。因此,若对疑似异常账号的头像进行识别后,发现头像中包含“直播中”字段,则说明该字段是用户使用图像编辑软件添加上去的,并不是头像挂件。这样,头像中存在目标字符的疑似异常账号极有可能为非法账号,将其作为第一疑似异常账号,采用其他方式进一步进行判定。
具体地,可以对第一疑似异常账号的认证状态和线上热度数据进行考察。认证状态是指账号是否进行了官方的身份认证,线上热度数据可以包括线上点击数据和关注数据,分别是指账号所发布的内容被点击的概率和被关注的概率。
若认证状态为未认证,且线上热度数据不满足预设第四条件,则确定该第一疑似异常账号为异常账号。
示例性地,若一个账号被展示了1000次,其中1000次中被点击200次,则其点击率为:200/1000=0.2,但关注只发生了10次,则其关注率为10/1000=0.01。若第四条件为线上点击率大于或等于0.5,关注率为大于或等于0.1,则该账号不满足第四条件,则说明该账号有很大可能是一个异常账号。但若该账号的线上点击率和关注率均满足第四条件,则认为该账号是正常账号。
这样,对疑似异常账号头像中的文字进行识别,在确定包含目标字符后,再根据第一疑似异常账号的认证状态和线上热度数据情况,确定第一疑似异常账号是否为异常账号,本方案从对头像挂件识别的角度筛选出了异常账号,因为采用了上述层层递进式判定策略,提高了识别异常账号的准确度。
在一种可能的实施方式中,在从所述疑似异常账号中确定异常账号之后,还包括以下步骤S71-S73:
在步骤S71中,获取账号输入的搜索关键词;
在步骤S72中,当所述搜索关键词为所述目标用户名或所述目标词条时,从所述异常账号中确定所述目标用户名或所述目标词条对应的目标异常账号;
在步骤S73中,在搜索结果中显示所述搜索关键词对应的正常账号,所述正常账号为与所述搜索关键词匹配的账号集合中去除所述目标异常账号后剩余的账号。
在步骤S71-步骤S73中,当用户在社交网站的搜索框输入搜索关键词时,服务器获取该搜索关键词,并确定该搜索关键词是否为目标用户名或目标词条。若是目标用户名或目标词条,则为了防止搜索结果中出现异常账号,可以从异常账号中获取搜索关键词对应的目标异常账号,并在显示搜索结果时对目标异常账号进行屏蔽处理,从而使搜索结果中仅显示正常账号。
这样对异常账号进行精准的打压处理,减少了异常账号的曝光机会,给用户呈现了一个纯净的搜索结果页面,提高了用户搜索体验。
图4是根据一示例性实施例示出的一种账号识别装置的结构框图。如图4所示,该账号识别装置80包括:
字符获取模块81,被配置为执行获取满足预设第一条件的目标账号的目标用户名,并获取所述目标用户名包括的多个字符;
待识别账号确定模块82,被配置为执行利用倒排索引,从多个待识别账号中确定用户名包含所述字符的数量超过预设第一数量的第一待识别账号;
相似度比对模块83,被配置为执行将所述第一待识别账号的头像和所述目标账号的头像进行相似度比对,得到第一相似度,并将所述第一待识别账号的用户名的拼音与所述目标用户名的拼音进行相似度比对,得到第二相似度;
异常账号第一确定模块84,被配置为根据所述第一相似度和所述第二相似度,从所述第一待识别账号中确定疑似异常账号,并从所述疑似异常账号中确定异常账号。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图5是根据一示例性实施例示出的一种用于账号识别的电子设备的框图。其内部结构图可以如图5所示。该服务器或电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该服务器或电子设备的处理器用于提供计算和控制能力。该服务器或电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该服务器或电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种账号识别方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本公开方案相关的部分结构的框图,并不构成对本公开方案所应用于其上的服务器或电子设备的限定,具体的服务器或电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在示例性实施例中,还提供了一种服务器或电子设备,包括:处理器;用于存储该处理器可执行指令的存储器;其中,该处理器被配置为执行该指令,以实现如本公开实施例中的账号识别方法。
在示例性实施例中,还提供了一种计算机可读存储介质,当该计算机可读存储介质中的指令由服务器或电子设备的处理器执行时,使得服务器或电子设备能够执行本公开实施例中的账号识别方法。计算机可读存储介质可以是ROM、随机存取存储器(RAM)、 CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行本公开实施例中的账号识别方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM 以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路 (Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (13)

1.一种账号识别方法,其特征在于,包括:
获取满足预设第一条件的目标账号的目标用户名,并获取所述目标用户名包括的多个字符;
利用倒排索引,从多个待识别账号中确定用户名包含所述字符的数量超过预设第一数量的第一待识别账号;
将所述第一待识别账号的头像和所述目标账号的头像进行相似度比对,得到第一相似度,并将所述第一待识别账号的用户名的拼音与所述目标用户名的拼音进行相似度比对,得到第二相似度;
根据所述第一相似度和所述第二相似度,从所述第一待识别账号中确定疑似异常账号,并从所述疑似异常账号中确定异常账号。
2.根据权利要求1所述的方法,其特征在于,所述预设第一条件为所述账号已通过身份认证且所述账号的被关注数量大于或等于预设第二数量。
3.根据权利要求1所述的方法,其特征在于,所述利用倒排索引,从多个待识别账号中确定用户名包含所述字符的数量超过预设第一数量的第一待识别账号,包括:
从多个待识别账号的用户名中搜索包含所述多个字符中的其中一个字符的用户名,得到第一用户名集合;
从所述第一用户名集合中,搜索包含剩余字符中的其中一个字符的用户名,得到第二用户名集合;所述剩余字符为所述多个字符去除已被搜索字符后剩余的字符;
基于所述第二用户名集合继续进行搜索,其中,从上一个字符搜索得到的用户名集合中,搜索包含当前字符的用户名,直到所述多个字符被搜索完毕;
根据各用户名集合中用户名包含的所述字符的数量,确定所述数量大于或等于预设第一数量的目标用户名集合;
将所述目标用户名集合中包含的账号,确定为第一待识别账号。
4.根据权利要求1所述的方法,其特征在于,所述从所述疑似异常账号中确定异常账号,包括:
分别确定所述疑似异常账号的头像的图像哈希值和所述目标账号的头像的图像哈希值,得到第一哈希值和第二哈希值;
若所述第一哈希值和所述第二哈希值相等,则将所述疑似异常账号确定为异常账号。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取热度满足预设第二条件且描述对象为实体对象的目标词条,所述热度根据所述词条被浏览的次数、被编辑的次数和被清洗的次数确定;
将所述待识别账号的用户名和所述目标词条进行正则匹配,得到匹配结果;
根据所述匹配结果,从所述待识别账号中确定疑似异常账号,并从所述疑似异常账号中确定异常账号。
6.根据权利要求1或5所述的方法,其特征在于,所述从所述疑似异常账号中确定异常账号,包括:
确定所述疑似异常账号中是否存在优质账号;所述优质账号为满足预设认证条件的账号,或在当前时刻之前的第一时间段内有效点击率大于预设第四阈值的账号;
将所述优质账号从所述疑似异常账号中去除,得到异常账号。
7.根据权利要求1或5所述的方法,其特征在于,所述从所述疑似异常账号中确定异常账号,包括:
分别获取所述疑似异常账号在当前时刻之前的第二时间段内和第三时间段内,将账号名称修改为不同的所述目标用户名或所述目标词条的次数;所述第二时间段大于所述第三时间段;
若所述次数满足预设第三条件,则确定所述疑似异常账号为异常账号。
8.根据权利要求1或5所述的方法,其特征在于,所述从所述疑似异常账号中确定异常账号,包括:
识别所述疑似异常账号的头像中是否存在目标字符;
对于存在所述目标字符的第一疑似异常账号,获取所述第一疑似异常账号的认证状态和线上热度数据;
若所述认证状态为未认证,且所述线上热度数据不满足预设第四条件,则确定所述第一疑似异常账号为异常账号。
9.根据权利要求1-8任一所述的方法,其特征在于,在从所述疑似异常账号中确定异常账号之后,还包括:
获取用户输入的搜索关键词;
当所述搜索关键词为所述目标用户名或所述目标词条时,从所述异常账号中确定与所述目标用户名或所述目标词条匹配的目标异常账号;
在搜索结果中显示所述搜索关键词对应的正常账号,所述正常账号为与所述搜索关键词匹配的账号集合中去除所述目标异常账号后剩余的账号。
10.一种账号识别装置,其特征在于,包括:
字符获取模块,被配置为执行获取满足预设第一条件的目标账号的目标用户名,并获取所述目标用户名包括的多个字符;
待识别账号确定模块,被配置为执行利用倒排索引,从多个待识别账号中确定用户名包含所述字符的数量超过预设第一数量的第一待识别账号;
相似度比对模块,被配置为执行将所述第一待识别账号的头像和所述目标账号的头像进行相似度比对,得到第一相似度,并将所述第一待识别账号的用户名的拼音与所述目标用户名的拼音进行相似度比对,得到第二相似度;
异常账号第一确定模块,被配置为执行根据所述第一相似度和所述第二相似度,从所述第一待识别账号中确定疑似异常账号,并从所述疑似异常账号中确定异常账号。
11.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至9中任一项所述的账号识别方法。
12.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由服务器的处理器执行时,使得服务器能够执行如权利要求1至9中任一项所述的账号识别方法。
13.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现权利要求1至9中任一项所述的账号识别方法。
CN202210630507.XA 2022-06-06 2022-06-06 账号识别方法、装置、电子设备和存储介质 Pending CN115269765A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210630507.XA CN115269765A (zh) 2022-06-06 2022-06-06 账号识别方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210630507.XA CN115269765A (zh) 2022-06-06 2022-06-06 账号识别方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN115269765A true CN115269765A (zh) 2022-11-01

Family

ID=83759349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210630507.XA Pending CN115269765A (zh) 2022-06-06 2022-06-06 账号识别方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN115269765A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115859988A (zh) * 2023-02-08 2023-03-28 成都无糖信息技术有限公司 一种针对社交文本的实体账号抽取方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115859988A (zh) * 2023-02-08 2023-03-28 成都无糖信息技术有限公司 一种针对社交文本的实体账号抽取方法及系统
CN115859988B (zh) * 2023-02-08 2023-10-03 成都无糖信息技术有限公司 一种针对社交文本的实体账号抽取方法及系统

Similar Documents

Publication Publication Date Title
US11122333B2 (en) User feature generation method and apparatus, device, and computer-readable storage medium
US11481402B2 (en) Search ranking method and apparatus, electronic device and storage medium
US11782970B2 (en) Query categorization based on image results
US11176124B2 (en) Managing a search
CN109829629B (zh) 风险分析报告的生成方法、装置、计算机设备和存储介质
WO2020057022A1 (zh) 关联推荐方法、装置、计算机设备和存储介质
US9348900B2 (en) Generating an answer from multiple pipelines using clustering
US20180107933A1 (en) Web page training method and device, and search intention identifying method and device
US8498455B2 (en) Scalable face image retrieval
CN110377558B (zh) 文档查询方法、装置、计算机设备和存储介质
CN112328762A (zh) 基于文本生成模型的问答语料生成方法和装置
CN110637316B (zh) 用于预期对象识别的系统和方法
US10565253B2 (en) Model generation method, word weighting method, device, apparatus, and computer storage medium
CN112651236B (zh) 提取文本信息的方法、装置、计算机设备和存储介质
CN110362798B (zh) 裁决信息检索分析方法、装置、计算机设备和存储介质
CN110909120B (zh) 简历搜索/投递方法、装置、系统及电子设备
CN110880006A (zh) 用户分类方法、装置、计算机设备和存储介质
CN112685475A (zh) 报表查询方法、装置、计算机设备及存储介质
CN112559526A (zh) 数据表导出方法、装置、计算机设备及存储介质
CN110377618B (zh) 裁决结果分析方法、装置、计算机设备和存储介质
CN115269765A (zh) 账号识别方法、装置、电子设备和存储介质
CN110688516A (zh) 图像检索方法、装置、计算机设备和存储介质
CN110717008B (zh) 基于语意识别的搜索结果排序方法及相关装置
US10552459B2 (en) Classifying a document using patterns
EP2780830A1 (en) Fast database matching

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination