CN111737519A - 识别机器人账号的方法、装置、电子设备及计算机可读存储介质 - Google Patents

识别机器人账号的方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111737519A
CN111737519A CN202010519903.6A CN202010519903A CN111737519A CN 111737519 A CN111737519 A CN 111737519A CN 202010519903 A CN202010519903 A CN 202010519903A CN 111737519 A CN111737519 A CN 111737519A
Authority
CN
China
Prior art keywords
identified
images
image pair
account
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010519903.6A
Other languages
English (en)
Other versions
CN111737519B (zh
Inventor
韩立伟
王世明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN202010519903.6A priority Critical patent/CN111737519B/zh
Publication of CN111737519A publication Critical patent/CN111737519A/zh
Application granted granted Critical
Publication of CN111737519B publication Critical patent/CN111737519B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • G06Q30/0185Product, service or business identity fraud
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/08Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
    • H04L9/0861Generation of secret information including derivation or calculation of cryptographic keys or passwords
    • H04L9/0866Generation of secret information including derivation or calculation of cryptographic keys or passwords involving user or device identifiers, e.g. serial number, physical or biometrical information, DNA, hand-signature or measurable physical characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Image Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)

Abstract

本发明实施例提供了一种识别机器人账号的方法、装置、电子设备及计算机可读存储介质,该方法包括:获取待识别账号的头像以作为确定为待识别图像;采用第一图像相似度算法,从待识别图像中选出候选图像对,其中,候选图像对中包括的两个待识别图像的相似度大于第一预设相似度;采用第二图像相似度算法,从候选图像对中选出相似图像对,相似图像对包括的两个待识别图像的相似度大于第二预设相似度;获取目标账号在网络平台上传数据的行为信息,目标账号为相似图像对中包括的待识别图像所属的待识别账号;根据行为信息,识别目标账号中的机器人账号。因此,本发明的方案,可以在一定程度上提升识别机器人账号的准确度。

Description

识别机器人账号的方法、装置、电子设备及计算机可读存储 介质
技术领域
本发明涉及计算机技术领域,特别是涉及一种识别机器人账号的方法、装置、电子设备及计算机可读存储介质。
背景技术
每一个视频平台都需要优质的内容,特别在互联网2.0时代,更多优质的内容都是用户上传的。但是,也难免有一些内容是机器人操作的内容,这部分机器人账号对于视频平台保护原创用户、原创内容构成了干扰和影响。所以,需要识别机器人账号。
其中,机器人账号往往直接搬运原创内容上传到视频平台,因而,现有技术一般通过账号上传的视频画面来识别机器人账号。但是,某些机器人账号有时还会对搬运的原创内容进行简单处理,例如滤镜、添加标志,这时仅仅通过上传的视频画面则无法识别出机器人账号。
由此可见,现有技术中,识别机器人账号的准确度较低。
发明内容
本发明实施例的目的在于提供一种识别机器人账号的方法、装置、电子设备及计算机可读存储介质,以在一定程度上提升识别机器人账号的准确度。具体技术方案如下:
在本发明实施的第一方面,首先提供了一种识别机器人账号的方法,所述方法包括:
获取待识别账号的头像以作为待识别图像;
采用第一图像相似度算法,从所述待识别图像中选出候选图像对,其中,所述候选图像对中包括的两个待识别图像的相似度大于第一预设相似度;
采用第二图像相似度算法,从所述候选图像对中选出相似图像对,所述相似图像对包括的两个待识别图像的相似度大于第二预设相似度;
获取目标账号在网络平台上传数据的行为信息,所述目标账号为所述相似图像对中包括的待识别图像所属的待识别账号;
根据所述行为信息,识别所述目标账号中的机器人账号。
在本发明实施的第二方面,还提供了一种识别机器人账号的装置,所述装置包括:
头像获取模块,用于获取待识别账号的头像以作为待识别图像;
第一选择模块,用于采用第一图像相似度算法,从所述待识别图像中选出候选图像对,其中,所述候选图像对中包括的两个待识别图像的相似度大于第一预设相似度;
第二选择模块,用于采用第二图像相似度算法,从所述候选图像对中选出相似图像对,所述相似图像对包括的两个待识别图像的相似度大于第二预设相似度;
行为信息获取模块,用于获取目标账号在网络平台上传数据的行为信息,所述目标账号为所述相似图像对中包括的待识别图像所属的待识别账号;
机器人账号识别模块,用于根据所述行为信息,识别所述目标账号中的机器人账号。
在本发明实施例的第三方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述所述的识别机器人账号的方法。
在本发明实施的第四方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的识别机器人账号的方法。
在本发明实施的第五方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的识别机器人账号的方法。
本发明实施例的识别机器人账号的方法,获取待识别账号的头像以作为待识别图像,然后先采用第一图像相似度算法从待识别图像中选出相似的图像作为候选图像对,再采用第二图像相似度算法进一步从候选图像对中选出相似图像对,进而再根据识别出的相似图像对应的账号在网络平台上传数据的行为信息,进一步筛选出机器人账号。
其中,机器人账号在进行注册时,可能会对昵称进行修改,在网络平台上传数据时也可能会对数据进行较少修改,但一般不会修改头像,则机器人账号之间的头像相似的较多,因而本发明的实施例,首先通过头像识别出可能的机器人账号,然后进一步根据这些账号的行为信息进行筛选,并且本发明的实施例采用两种图像相似度算法的结合,从待识别账号的头像中识别出相似的头像,提升了相似头像识别的准确率,进而提升了识别机器人账号的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的一种识别机器人账号的方法的步骤流程图;
图2为本发明实施例提供的另一种识别机器人账号的方法的步骤流程图;
图3为本发明实施例的识别机器人账号的方法的具体实施方式的流程示意图;
图4为本发明实施例提供的一种识别机器人账号的装置的框图;
图5为本发明实施例提供的另一种识别机器人账号的装置的框图;
图6为本发明实施例提供的电子设备的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
图1是本发明实施例提供的一种识别机器人账号的方法。如图1所示,该识别机器人账号的方法可以包括以下步骤:
步骤101:获取待识别账号的头像以作为待识别图像。
其中,机器人账号在进行注册时,可能会对昵称进行修改,在网络平台上传数据时可能会对数据进行较少修改,但一般不会修改头像,则机器人账号之间的头像相似的较多,因而,本发明的实施例,可以首先从待识别账号中,筛选出头像相似的账号,然后进一步从这些头像相似的账号中,识别出机器人账号。因此,采用本发明实施例的识别机器人账号的方法,需要提取待识别账号的头像。
步骤102:采用第一图像相似度算法,从所述待识别图像中选出候选图像对。
其中,所述候选图像对中包括的两个待识别图像的相似度大于第一预设相似度。
步骤103:采用第二图像相似度算法,从所述候选图像对中选出相似图像对。
其中,所述相似图像对包括的两个待识别图像的相似度大于第二预设相似度。
例如存在1000个待识别图像,且通过第一图像相似度算法,从1000个待识别图像中选出400个候选图像对,则需进一步采用第二图像相似度算法,判断这400个候选图像对是否属于相似图像对。
步骤104:获取目标账号在网络平台上传数据的行为信息。
其中,所述目标账号为所述相似图像对中包括的待识别图像所属的待识别账号。
本发明的实施例,两种不同的图像相似度算法,已经从待识别账号中选出头像相似的账号(即目标账号),则这些账号很大程度上属于机器人账号。而本发明的实施例中,对于这些目标账号,根据其在网络平台上传数据的行为信息,可以进一步确定出哪些属于机器人账号,从而提升识别机器人账号的准确度。
步骤105:根据所述行为信息,识别所述目标账号中的机器人账号。
由上述可知,本发明实施例的识别机器人账号的方法,获取待识别账号的头像以作为待识别图像,然后先采用第一图像相似度算法从待识别图像中选出相似的图像作为候选图像对,再采用第二图像相似度算法进一步从候选图像对中选出相似图像对,进而再根据识别出的相似图像对应的账号在网络平台上传数据的行为信息,进一步筛选出机器人账号。
其中,机器人账号在进行注册时,可能会对昵称进行修改,在网络平台上传数据时也可能会对数据进行较少修改,但一般不会修改头像,则机器人账号之间的头像相似的较多,因而本发明的实施例,首先通过头像识别出可能的机器人账号,然后进一步根据这些账号的行为信息进行筛选,并且本发明的实施例采用两种图像相似度算法的结合,从待识别账号的头像中识别出相似的头像,提升了相似头像识别的准确率,进而提升了机器人账号的识别度。
图2是本发明实施例提供的另一种识别机器人账号的方法。如图2所示,该识别机器人账号的方法可以包括以下步骤:
步骤201:获取待识别账号的头像以作为待识别图像。
步骤202:采用预先确定的哈希算法的第一参数,计算每一个所述待识别图像的第一哈希值,得到多个第一哈希值。
其中,通过哈希算法,可以创建“数字指纹”。则本发明实施例中,采用哈希算法,计算获得的待识别图像的第一哈希值,即为待识别图像的“数字指纹”。
可选的,上述第一参数包括缩小比例,则采用预先确定的哈希算法的第一参数,计算每一个所述待识别图像的第一哈希值的过程包括:
采用第一参数包括的缩小比例,将待识别图像缩小为该缩小比例对应的尺寸,获得第一目标图像,从而去除待识别图像高频和细节;
将第一目标图像转换为灰度图像,获得第二目标图像;
计算第二目标图像的像素的灰度值的第一平均值;
将第二目标图像中的每个像素的灰度值,与第一平均值进行比较,并将灰度值大于或等于第一平均值的像素的灰度值调整为第一预设值,将灰度值小于第一平均值的像素的灰度值调整为第二预设值,得到第三目标图像;
将第三目标图像的各个像素的灰度值,组成第一哈希值。
例如,针对采用哈希算法,计算一个待识别图像的第一哈希值的过程举例如下:
首先,将待识别图像缩小到8x8的尺寸,获得第一目标图像,则第一目标图像总共64个像素,其中,不要需要保持待识别图像的纵横比,只需将其变成8*8的正方形。这样就可以比较任意大小的图像,摒弃不同尺寸、比例带来的图像差异。
其次,简化色彩,即将8*8的第一目标图像由彩色图像转换成灰度图像,获得第二目标图像。
再次,计算第二目标图像的所有64个像素的灰度值的平均值;
再次,将第二目标图像的每个像素的灰度值,与平均值进行比较,并将灰度值大于或等于该平均值的像素的灰度值调整为1,将灰度值小于该平均值的像素的灰度值调整为0,得到第三目标图像。
最后,将第三目标图像的各个像素点的灰度值组合在一起,就构成了一个64位的整数,即得到待识别图像的第一哈希值。
步骤203:计算所述多个第一哈希值中每两个第一哈希值之间的汉明距离,并选出汉明距离小于或等于预先确定的第一阈值的第一哈希值,以作为第一目标参数。
其中,汉明距离小于或等于所述第一阈值表示该汉明距离对应的两个第一哈希值所属的待识别图像的相似度大于所述第一预设相似度。
可选的,每一个第一哈希值均包括N位数字;所述计算所述多个第一哈希值之间的汉明距离,并选出汉明距离小于或等于预先确定的第一阈值的第一哈希值,包括:
对所述多个第一哈希值进行分组,其中,第i个分组中的每一个第一哈希值,在所述第i个分组中均存在至少一个与自身的第M*i+1位至第M*(i+1)位数字相同的第一哈希值,其中,i取值为0至n的整数,n=N/M-1,M为整数,N是M的整数倍;
分别在i取值为0至n的每一个整数时,将第i个分组中第M*i+1位至第M*(i+1)位数字为同一组数字的第一哈希值,确定为一类哈希值;
将同一类别的第一哈希值存储在同一个第一集合中;
计算同一个第一集合中的每两个第一哈希值的汉明距离;
从每一个第一集合包括的第一哈希值中,选出汉明距离小于或等于所述第一阈值的第一哈希值。
例如存在一万个待识别图像,则通过步骤202可以获得一万个第一哈希值,则若这一万个第一哈希值,每两个计算一次汉明距离,则存在十个亿的计算量,显然计算量过多,则会耗费较多的时间。
而本发明的实施例,先对所有第一哈希值进行分组,其中,第i个分组中的每一个第一哈希值,在所述第i个分组中均存在至少一个与自身的第M*i+1位至第M*(i+1)位数字相同的第一哈希值,其中,i取值为0至n的整数,n=N/M-1,M为整数,N是M的整数倍。
具体的,例如N=16时,M的取值可以为4,则i=0时,第0个分组中包括的每一个第一哈希值均存在至少一个与自身的第1~4位数字相同的第一哈希值;第1个分组中包括的每一个第一哈希值均存在至少一个与自身的第5~8位数字相同的第一哈希值;第2个分组中包括的每一个第一哈希值均存在至少一个与自身的第9~12位数字相同的第一哈希值;第3个分组中包括的每一个第一哈希值均存在至少一个与自身的第13~16位数字相同的第一哈希值。
例如为上述得到的所有第一哈希值进行编号,其中,编号为1~10的第一哈希值具体如表1所示。
表1编号为1~10的第一哈希值
编号 第一哈希值
1 0000 1111 0000 0000
2 0000 0000 1111 1111
3 0001 1111 0101 0001
4 1110 1111 1110 1110
5 0011 1011 0001 0001
6 0101 0101 0001 0101
7 1111 1010 0010 0111
8 0001 0101 0100 0111
9 0111 0111 0111 0100
10 0110 0110 0110 0100
则上述编号为1~8的第一哈希值中,编号为1和2的第一哈希值的第1~4位的数字均为“0000”,则编号为1和2的第一哈希值属于第0组;编号为3和4的第一哈希值的第5~8位的数字均为“1111”,则编号为3和4的第一哈希值属于第1组;编号为5和6的第一哈希值的第9~12位的数字均为“0001”,则编号为5和6的第一哈希值属于第2组;编号为7和8的第一哈希值的第13~16位的数字均为“0111”,则编号为7和8的第一哈希值属于第3组;编号为9和10的第一哈希值的第13~16位的数字均为“0100”,则编号为7和8的第一哈希值属于第3组。
对上述第一哈希值进行分组后,还需要针对每一个分组中的第一哈希值,进行分类,其中,第i个分组中第M*i+1位至第M*(i+1)位数字为同一组数字的第一哈希值,为一类哈希值。例如,上述表1中的编号为1~10的第一哈希值中,编号为1、2的第一哈希值属于一类,编号为3、4的第一哈希值属于一类,编号为5、6的第一哈希值属于一类,编号为7、8的第一哈希值属于一类,编号为9、10的第一哈希值属于一类。
对上述第一哈希值进行分类后,将属于一类的第一哈希值保存在一个集合中,从而在后续计算汉明距离时,只计算同一个集合中的各个第一哈希值之间的汉明距离,而不需要计算不同集合中的第一哈希值之间的汉明距离,从而减少了计算量。
其中,对上述第一哈希值进行分组之后,还可将同组内的第一哈希值存储于同一集合中,然后针对各个集合中的第一哈希值进行分类,从而在计算汉明距离时,针对每一个集合,分别计算该集合中存储的各个类别内部每两个第一哈希值的汉明距离。此种方式,只是第一哈希值的存储方式不同,但对于汉明距离的计算,同样只计算同一个类别中的各个第一哈希值之间的汉明距离,而不需要计算不同类别中的第一哈希值之间的汉明距离。
步骤204:将与同一个汉明距离对应的两个所述第一目标参数所属的待识别图像,确定为一个候选图像对。
其中,两个待识别图像的第一哈希值之间的汉明距离越小,这两个待识别图像越相似,则两个待识别图像的第一哈希值之间的汉明距离小于或等于第一阈值,则表示这两个待识别图像的相似度大于第一预设相似度。
可选的,所述第一参数和所述第一阈值的确定过程包括:
采用哈希算法的第一预设初始参数,计算预先确定的样本库中的样本图像的第二哈希值,得到多个第二哈希值;
计算所述多个第二哈希值中每两个第二哈希值之间的汉明距离,并选出汉明距离小于或等于第一预设初始阈值的第二哈希值,以作为第二目标参数;
获取第一类样本图像的第一数量,所述第一类样本图像为所述第二目标参数所属的样本图像;
在所述第一数量与所述样本图像的总数量之比小于第一预设比值的情况下,调整所述第一预设初始参数的大小和/或所述第一预设初始阈值的大小,直到所述第一数量与所述样本图像的总数量之比大于或等于所述第一预设比值时,将此时的第一预设初始参数确定为所述第一参数,并将此时的第一预设初始阈值,确定为所述第一阈值。
其中,样本库中的样本图像是人工选择的账号的头像,这些头像中包括至少部分明显相似的头像,从而便于对这些头像进行训练,来获取采用哈希算法对待识别图像进行相似性判断所需的参数(即第一参数和第一阈值)。
即预先通过人工选择多对明显相似的头像,保存到样本库中,并预先确定用于计算图像的哈希值的第一预设初始参数和第一预设初始阈值;然后,利用该第一预设初始参数,计算样本库中的每一个样本图像的第二哈希值;再计算这些第二哈希值中的每两个第二哈希值之间的汉明距离,从而从样本库中选出小于或等于第一预设初始阈值的汉明距离对应的第二哈希值所属的样本图像,其中,汉明距离小于或等于第一预设初始阈值,表示该汉明距离对应的第二哈希值所属的样本图像是相似的,即以第一预设初始阈值为标准,利用第一预设初始参数首先从样本图像库中选出一批相似的图像;此后,再判断本次选出的相似的图像的数量与样本库中的样本图像的总数量之比是否达到预先的期望值(即第一预设比值),若未达到,则对第一预设初始参数和第一预设初始阈值进行调整(即将第一预设初始参数增大或减小第一数值,将第一预设初始阈值增大或减小第二数值),并在调整之后,重复执行前面的过程,直到某一次选出的相似的图像的数量与样本库中的样本图像的总数量之比达到了期望值时,将此时的第一预设初始参数确定为第一参数,并将此时第一预设初始阈值确定为第一阈值。
例如,样本库中有2000个图像,其中有1000个两两重复或相似(包括人眼认为重复的)的图像,则首先采用哈希算法第一预设初始参数和第一预设初始阈值,对样本图中的这2000个图像进行识别,从而判断其中的1000个两两重复或相似的图像是否能够被识别出来。假如多次调整第一预设初始阈值的取值,以及第一预设初始参数的取值之后,能够识别出980个相似图像对,则将该此时的第一预设初始阈值记录下来,并确定为第一阈值,并将此时的第一预设初始参数记录下来,并确定为第一参数。
可选的,上述第一预设初始参数包括缩小比例,则采用哈希算法的第一预设初始参数,计算预先确定的样本库中的样本图像的第二哈希值的过程包括:
采用第一预设初始参数包括的缩小比例,将样本图像缩小为缩小比例对应的尺寸,获得第四目标图像,从而去除样本图像的高频和细节;
将第四目标图像转换为灰度图像,获得第五目标图像;
计算第五目标图像的像素的灰度值的第二平均值;
将第五目标图像中的每个像素的灰度值,与第二平均值进行比较,并将灰度值大于或等于第二平均值的像素的灰度值调整为第三预设值,将灰度值小于第二平均值的像素的灰度值调整为第四预设值,得到第六目标图像;
将第六目标图像的各个像素的灰度值,组成第二哈希值。
可选的,每一个第二哈希值均包括N位数字;
所述计算所述多个第二哈希值之间的汉明距离,并选出汉明距离小于或等于第一预设初始阈值的第二哈希值,包括:
对所述多个第二哈希值进行分组,其中,第i个分组中的每一个第二哈希值,在所述第i个分组中均存在至少一个与自身的第M*i+1位至第M*(i+1)位数字相同的第二哈希值,其中,i取值为0至n的整数,n=N/M-1,M为整数,N是M的整数倍;
分别在i取值为0至n的每一个整数时,将第i个分组中第M*i+1位至第M*(i+1)位数字为同一组数字的第二哈希值,确定为一类哈希值;
将同一类别的第二哈希值存储在同一个第二集合中;
计算同一个第二集合中的每两个第二哈希值的汉明距离;
从每一个第二集合包括的第二哈希值中,选出汉明距离小于或等于所述第一预设初始阈值的第二哈希值。
例如样本库中存在一万个样本图像,则可以获得一万个第二哈希值,则若这一万个第二哈希值,每两个计算一次汉明距离,则存在十个亿的计算量,显然计算量过多,则会耗费较多的时间。
而本发明的实施例,先将第二哈希值进行分组,然后对每一个分组中的第二哈希值进行分类,并将同一类别的第二哈希值存储于同一个集合中,进而在后续计算汉明距离时,只计算同一个集合中的各个第二哈希值之间的汉明距离,而不需要计算不同集合中的第二哈希值之间的汉明距离,可以大大减小计算量。
其中,对上述第二哈希值进行分组之后,还可将同组内的第二哈希值存储于同一集合中,然后针对各个集合中的第二哈希值进行分类,从而在计算汉明距离时,针对每一个集合,分别计算该集合中存储的各个类别内部每两个第二哈希值的汉明距离。此种方式,只是第二哈希值的存储方式不同,但对于汉明距离的计算,同样只计算同一个类别中的各个第二哈希值之间的汉明距离,而不需要计算不同类别中的第二哈希值之间的汉明距离。
步骤205:采用预先确定的梯度直方图算法的第二参数,计算每一个所述候选图像对中的两个待识别图像的第一直方图,以作为所述候选图像对对应的两个第一直方图。
其中,第二参数包括梯度直方图的单位,即块(Block)。一般一个块由若干单元(Cell)组成,一个单元都由若干个像素点组成,比如:块的大小为3x3单元格,单元格的大小为6x6像素。
另外,在采用梯度直方图算法,计算一个图像的直方图时,首先按照梯度直方图算法的第二参数,即梯度直方图的单位的大小,对该图像进行分割,然后计算分割获得的每个区块(patch)的梯度直方图,进而由所有区块的梯度直方图组成整个图像的直方图。
步骤206:计算与同一个候选图像对对应的两个第一直方图的归一化相关系数,并选出归一化相关系数大于第二阈值的第一直方图,以作为第三目标参数。
其中,所述归一化相关系数可以为巴氏距离或者直方图相交距离。
步骤207:将与同一个归一化相关系数对应的两个第三目标参数所属的待识别图像,确定为一个相似图像对。
其中,归一化相关系数大于所述第二阈值表示该归一化相关系数对应的两个直方图所属的待识别图像的相似度大于所述第二预设相似度。即两个图像的直方图的归一化相关系数越大,这两个图像越相似,则两个图像的直方图的归一化相关系数大于第二阈值,则表示这两个图像的相似度大于第二预设相似度。
另外,直方图能够很好的归一化。那么两幅分辨率不同的图像可以直接通过计算直方图来计算相似度,而且计算量比较小,因而本发明的实施例中,采用梯度直方图算法,从候选图像对中进一步筛选出相似图像对,可以减少其中的计算量。
可选的,所述第二参数和所述第二阈值的确定过程包括:
采用梯度直方图的第二预设初始参数,计算预先确定的样本库中的样本图像的第二直方图,得到多个第二直方图;
计算所述多个第二直方图中的每两个第二直方图的归一化相关系数,并选出归一化相关系数大于第二预设初始阈值的第二直方图,以作为第四目标参数;
获取第二类样本图像的第二数量,所述第二类样本图像为所述第四目标参数所属的样本图像;
在所述第二数量与所述样本图像的总数量之比小于第二预设比值的情况下,调整所述第二预设初始参数的大小和/或所述第二预设初始阈值的大小,直到所述第二数量与所述样本图像的总数量之比大于或等于所述第二预设比值时,将此时的第二预设初始参数确定为所述第二参数,并将此时的第二预设初始阈值,确定为所述第二阈值。
即预先通过人工选择多对明显相似的头像,保存到样本库中,并预先确定用于计算图像的直方图的第二预设初始参数和第二预设初始阈值;然后,利用该第二预设初始参数,计算样本库中的每一个样本图像的直方图;再计算每两个直方图的归一化相关系数,并选出归一化相关系数大于第二预设初始阈值的直方图所属的样本图像,作为本次选出的相似图像;此后,再判断本次选出的相似的图像的数量与样本库中的样本图像的总数量之比是否达到预先的期望值(即第二预设比值),若未达到,则对第二预设初始参数和第二预设初始阈值进行调整(即将第二预设初始参数增大或减小第三数值,将第二预设初始阈值增大或减小第四数值),并在调整之后,重复执行前面的过程,直到某一次选出的相似的图像的数量与样本库中的样本图像的总数量之比达到了期望值时,将此时的第二预设初始参数确定为第二参数,并将此时第二预设初始阈值确定为第二阈值。
例如,样本库中有2000个图像,其中有1000个两两重复或相似(包括人眼认为重复的)的图像,则首先采用梯度直方图算法的第二预设初始参数和第二预设初始阈值,对样本图中的这2000个图像进行识别,从而判断其中的1000个两两重复或相似的图像是否能够被识别出来。假如多次调整第二预设初始阈值的取值,以及第二预设初始参数的取值之后,能够识别出980个相似图像对,则仍把此时的第二预设初始阈值记录下来,并确定为第二阈值,并将此时的第二预设初始参数记录下来,并确定为第二参数。
由上述可知,本发明的实施例,通过哈希算法和梯度直方图算法的结合,从待识别账号的头像中识别出相似的头像,提升了相似头像识别的准确率,进而提升了机器人账号的识别度。
可选的,从所述候选图像对中选出相似图像对之后,所述方法还包括以下步骤H1~H3:
步骤H1:接收用户针对所述待识别图像中被识别出的相似图像对的第一输入;
步骤H2:在所述第一输入针对的相似图像对包括的两个待识别图像的相似度,小于或等于所述第二预设相似度的情况下,将所述第一输入针对的相似图像对包括的两个待识别图像,添加到所述样本库中,获得修改后的所述样本库;
步骤H3:根据修改后的所述样本库,修改所述第一参数和所述第一阈值。
同理,可选的,从所述候选图像对中选出相似图像对之后,所述方法还包括以下步骤H4~H6:
步骤H4:接收用户针对所述待识别图像中被识别出的相似图像对的第一输入;
步骤H5:在所述第一输入针对的相似图像对包括的两个待识别图像的相似度,小于或等于所述第二预设相似度的情况下,将所述第一输入针对的相似图像对包括的两个待识别图像,添加到所述样本库中,获得修改后的所述样本库;
步骤H6:根据修改后的所述样本库,修改所述第二参数和所述第二阈值。
由上述可知,在采用上述步骤201~207的方法,从待识别图像中选出相似图像对之后,由于某些误差,可能在两个并不相似的图像被识别为相似图像对,此种情况下,对于识别出的相似图像对,可以通过人工判断这些被识别出的相似图像中是否存在并不相似的情况,并在存在时将这类图像重新加入样本库中,得到修改后的样本库,以利用修改后的样本库,来修改上述第一参数、第一阈值,以及第二参数和第二阈值,从而进一步提升识别相似图像的准确度。
可选的,从所述候选图像对中选出相似图像对之后,所述方法还包括以下步骤H7~H9:
步骤H7:接收用户针对所述待识别图像中未被识别出的相似图像对的第二输入;
步骤H8:根据所述第二输入,将所述第二输入针对的相似图像对包括的两个待识别图像,添加到所述样本库中,获得修改后的所述样本库;
步骤H9:根据修改后的所述样本库,修改所述第一参数和所述第一阈值。
同理,可选的,从所述候选图像对中选出相似图像对之后,所述方法还包括以下步骤H10~H12:
步骤H10:接收用户针对所述待识别图像中未被识别出的相似图像对的第二输入;
步骤H11:根据所述第二输入,将所述第二输入针对的相似图像对包括的两个待识别图像,添加到所述样本库中,获得修改后的所述样本库;
步骤H12:根据修改后的所述样本库,修改所述第二参数和所述第二阈值。
由上述可知,在采用上述步骤201~207的方法,从待识别图像中选出相似图像对之后,由于某些误差,使得两个相似的图像却未被识别出来,则对于上述待识别图像中除去被识别出的相似图像对之外的图像,也可以通过人工判断这些图像中是否存在未被识别出的相似图像,并在存在时,将这类图像重新加入样本库中,得到修改后的样本库,以利用修改后的样本库,来修改上述第一参数、第一阈值、第二参数和第二阈值,从而进一步提升识别相似图像的准确度。
即通过哈希算法和梯度直方图算法的结合,对于相似图像的识别可能无法达到100%的准确,即对待识别图像的识别结果中可能存在一些不正确的结果,比如不应该相似的两个图像计算的最终结果是相似,或应该相似的两个图像没有判断为相似,此种情况下,则可以识别错误的图像加入样本库中,通过重复执行上述第一参数和第一阈值的确定过程,以及第二参数和第二阈值的确定过程,从而得到新的第一参数、第一阈值、第二参数和第二阈值。此后,则可以利用新的第一参数、第一阈值、第二参数和第二阈值,从待识别图像中选出相似的图像,进一步提升相似图像的识别准确度。
步骤208:获取目标账号在网络平台上传数据的行为信息。
其中,所述目标账号为所述相似图像对中包括的待识别图像所属的待识别账号。所述行为信息可以包括上传数据的内容、上传时间。
步骤209:根据所述行为信息,识别所述目标账号中的机器人账号。
可选的,所述根据所述行为信息,识别所述目标账号中的机器人账号,包括:
根据所述目标账号在预设时间段内,向所述网络平台上传的数据的内容和上传时间,获取在所述预设时间段内上传了相同内容的数据,且该数据的上传时间的间隔小于预设阈值的目标账号,并确定为机器人账号。
本发明的实施例,采用哈希算法和梯度直方图算法,已经从待识别账号中选出头像相似的账号(即目标账号),则这些账号很大程度上属于机器人账号。而机器人账号还存在一个特点,即搬运原创内容并上传至网络平台,因而两个机器人账号若在网络平台上传了相同的内容,其上传的时间间隔一般较短。因而本发明的实施例,对于这些目标账号,根据其在网络平台上传数据的内容和时间,可以进一步确定出哪些属于机器人账号。
例如针对在视频平台的视频上传,可以比较相似的头像所属的待识别账号某个时间段是否上传相同的内容的视频,判断上传时间的间隔是否小于预设阈值,从而可以判断出相似的头像所属的待识别账号中的其中一个或多个是机器人账号。其中,也可以通过对视频的版权性进行分析,以确定是否属于机器人账号。
由上述可知,本发明的实施例,获取待识别账号的头像,并确定为待识别图像,然后先后采用哈希算法和梯度直方图算法,从待识别图像中选出相似图像,进而再根据识别出的相似图像对应的账号在网络平台上传数据的行为信息,进一步筛选出机器人账号。其中,机器人账号在进行注册时,可能会对昵称进行修改,在网络平台上传数据时可能会对数据进行较少修改,但一般不会修改头像,因而,机器人账号之间的头像相似的较多,而本发明的实施例,通过哈希算法和梯度直方图算法的结合,从待识别账号的头像中识别出相似的头像,提升了相似头像识别的准确率,进而提升了机器人账号的识别度。
综上所述,本发明实施例的识别机器人账号的方法的具体实施方式可如图3所示。
具体的,预先通过人工选择一些明显相似的账号的头像,作为样本图像放入样本库中,然后调整哈希算法中的参数(例如缩小比例)以及阈值,并利用调整后的参数和阈值,识别样本库中的相似图像,并判断对样本库中相似图像的识别结果的比较是否达到预期的要求,进而将识别结果达到预期的要求时的参数和阈值记录下来,即分别记为第一参数和第一阈值。
另外,还需要调整梯度直方图算法的相关参数(例如梯度直方图的单位的大小)和阈值,并利用调整后的参数和阈值,识别样本库中的相似图像,并判断对样本库中相似图像的识别结果的比较是否达到预期的要求,进而将识别结果达到预期的要求时的参数和阈值记录下来,即分别记为第二参数和第二阈值。
此后,获取待识别账号的头像,并利用哈希算法的第一参数,计算待识别头像的哈希值。
然后,对哈希值进行分类并将同一类别的哈希值存储到同一集合中,具体的:首先,对所有待识别头像的哈希值行分组,其中,第i个分组中的每一个哈希值,在第i个分组中均存在至少一个与自身的第M*i+1位至第M*(i+1)位数字相同的哈希值,其中,i取值为0至n的整数,n=N/M-1,M为整数,N是M的整数倍;其次,分别在i取值为0至n的每一个整数时,将第i个分组中第M*i+1位至第M*(i+1)位数字为同一组数字的哈希值,确定为一类哈希值。
再次,计算集合内的哈希值之间的汉明距离,即计算每个集合内每两个哈希值的汉明距离,从而选出小于或等于第一阈值的汉明距离,并将小于或等于第一阈值的汉明距离对应的哈希值所属的头像,确定为候选头像对,将大于第一阈值的汉明距离对应的哈希值所属的头像,确定为非相似头像。
再次,采用梯度直方图的第二参数,计算选出的候选头像对中的头像的直方图,然后计算候选头像对中的两个头像的直方图的归一化相关系数,从而选出大于第二阈值的归一化相关系数对应的直方图所属的头像,并确定为相似头像对,将小于或等于第二阈值的归一化相关系数对应的直方图所属的头像,确定为非相似头像。
最后,获取这些相似头像所属的待识别账号对在网络平台上传数据的行为信息,并根据这些行为信息,进一步从这些相似头像对所属的待识别账号中筛选出机器人账号。
其中,现有技术中识别机器人账号的方式有很多,但是,本发明的实施例,通过筛选待识别账号中的头像相似的账号,可以快速的找出部分机器人账号。另外,识别相似图像的算法有多种,例如均值哈希感知算法、余弦变换哈希感知算法等。其中,使用余弦变换哈希感知算法可以为每一张图像计算一个哈希值,然后计算他们之间的汉明距离,从而判断两个图像是否相似。然而,头像具有一定的特殊性,例如有圆图、方图、并且部分图像单一颜色较多等,并且经过实践发现无论是均值哈希感知算法、还是余弦变换哈希感知算法等,对相似头像的识别的准确率都比较低高。而本发明的实施例,采用哈希算法与梯度直方图相结合的算法,即首先采用哈希算法进行一次相似头像的识别,然后,再次通过使用梯度直方图算法进一步次判断头像是否相似,可以提升对相似头像的识别的准确度。
另外,识别出机器人账号,有利于维护原创用户和原创内容的权益,提升视频平台的内容质量,从而使得视频平台的视频生态更加健康。
图4是本发明实施例提供的一种识别机器人账号的装置的结构框图。如图4所示,该识别机器人账号的装置40可以包括:
头像获取模块401,用于获取待识别账号的头像以作为待识别图像;
第一选择模块402,用于采用第一图像相似度算法,从所述待识别图像中选出候选图像对,其中,所述候选图像对中包括的两个待识别图像的相似度大于第一预设相似度;
第二选择模块403,用于采用第二图像相似度算法,从所述候选图像对中选出相似图像对,所述相似图像对包括的两个待识别图像的相似度大于第二预设相似度;
行为信息获取模块404,用于获取目标账号在网络平台上传数据的行为信息,所述目标账号为所述相似图像对中包括的待识别图像所属的待识别账号;
机器人账号识别模块405,用于根根据所述行为信息,识别所述目标账号中的机器人账号。
由此可知,本发明实施例的识别机器人账号的装置,获取待识别账号的头像,并确定为待识别图像,然后先采用第一图像相似度算法从待识别图像、中选出相似的图像、作为候选图像、对,再采用第二图像相似度算法进一步从候选图像、对中选出相似图像、对,进而再根据识别出的相似图像、对应的账号在网络平台上传数据的行为信息,进一步筛选出机器人账号。其中,机器人账号在进行注册时,可能会对昵称进行修改,在网络平台上传数据时也可能会对数据进行较少修改,但一般不会修改头像,则机器人账号之间的头像相似的较多,因而本发明的实施例,首先通过头像识别出可能的机器人账号,然后进一步根据这些账号的行为信息进行筛选,并且本发明的实施例采用两种图像相似度算法的结合,从待识别账号的头像中识别出相似的头像,提升了相似头像识别的准确率,进而提升了机器人账号的识别度。
图5是本发明实施例提供的一种识别机器人账号的装置的结构框图。如图5所示,该识别机器人账号的装置50可以包括:
头像获取模块501,用于获取待识别账号的头像以作为待识别图像;
第一选择模块502,用于采用第一图像相似度算法,从所述待识别图像中选出候选图像对,其中,所述候选图像对中包括的两个待识别图像的相似度大于第一预设相似度;
第二选择模块503,用于采用第二图像相似度算法,从所述候选图像对中选出相似图像对,所述相似图像对包括的两个待识别图像的相似度大于第二预设相似度;
行为信息获取模块504,用于获取目标账号在网络平台上传数据的行为信息,所述目标账号为所述相似图像对中包括的待识别图像所属的待识别账号;
机器人账号识别模块505,用于根据所述行为信息,识别所述目标账号中的机器人账号。
可选的,所述第一选择模块502包括:
第一哈希值计算子模块5021,用于采用预先确定的哈希算法的第一参数,计算每一个所述待识别图像的第一哈希值,得到多个第一哈希值;
第一选择子模块5022,用于计算所述多个第一哈希值中每两个第一哈希值之间的汉明距离,并选出汉明距离小于或等于预先确定的第一阈值的第一哈希值,以作为第一目标参数;
候选图像对确定子模块5023,用于将与同一个汉明距离对应的两个所述第一目标参数所属的待识别图像,确定为一个候选图像对。
可选的,每一个第一哈希值均包括N位数字,所述第一选择子模块5022具体用于:
对所述多个第一哈希值进行分组,其中,第i个分组中的每一个第一哈希值,在所述第i个分组中均存在至少一个与自身的第M*i+1位至第M*(i+1)位数字相同的第一哈希值,其中,i取值为0至n的整数,n=N/M-1,M为整数,N是M的整数倍;
分别在i取值为0至n的每一个整数时,将第i个分组中第M*i+1位至第M*(i+1)位数字为同一组数字的第一哈希值,确定为一类哈希值;
将同一类别的第一哈希值存储在同一个第一集合中;
计算同一个第一集合中的每两个第一哈希值的汉明距离;
从每一个第一集合包括的第一哈希值中,选出汉明距离小于或等于所述第一阈值的第一哈希值。
可选的,所述装置还包括第一确定模块506,用于确定所述第一参数和所述第一阈值;
所述第一确定模块506包括:
第二哈希值计算子模块5061,用于采用哈希算法的第一预设初始参数,计算预先确定的样本库中的样本图像的第二哈希值,得到多个第二哈希值;
第二选择子模块5062,用于计算所述多个第二哈希值中每两个第二哈希值之间的汉明距离,并选出汉明距离小于或等于第一预设初始阈值的第二哈希值,以作为第二目标参数;
第一数量获取子模块5063,用于获取第一类样本图像的第一数量,所述第一类样本图像为所述第二目标参数所属的样本图像;
第一调整子模块5064,用于在所述第一数量与所述样本图像的总数量之比小于第一预设比值的情况下,调整所述第一预设初始参数的大小和/或所述第一预设初始阈值的大小,直到所述第一数量与所述样本图像的总数量之比大于或等于所述第一预设比值时,将此时的第一预设初始参数确定为所述第一参数,并将此时的第一预设初始阈值,确定为所述第一阈值。
可选的,每一个第二哈希值均包括N位数字;所述第二选择子模块5062具体用于包括:
对所述多个第二哈希值进行分组,其中,第i个分组中的每一个第二哈希值,在所述第i个分组中均存在至少一个与自身的第M*i+1位至第M*(i+1)位数字相同的第二哈希值,其中,i取值为0至n的整数,n=N/M-1,M为整数,N是M的整数倍;
分别在i取值为0至n的每一个整数时,将第i个分组中第M*i+1位至第M*(i+1)位数字为同一组数字的第二哈希值,确定为一类哈希值;
将同一类别的第二哈希值存储在同一个第二集合中;
计算同一个第二集合中的每两个第二哈希值的汉明距离;
从每一个第二集合包括的第二哈希值中,选出汉明距离小于或等于所述第一预设初始阈值的第二哈希值。
可选的,所述第二选择模块503包括:
第一直方图计算子模块5031,用于采用预先确定的梯度直方图算法的第二参数,计算每一个所述候选图像对中的两个待识别图像的第一直方图,以作为所述候选图像对对应的两个第一直方图;
第一系数计算子模块5032,用于计算与同一个候选图像对对应的两个第一直方图的归一化相关系数,并选出归一化相关系数大于第二阈值的第一直方图,以作为第三目标参数;
相似图像对确定子模块5033,用于将与同一个归一化相关系数对应的两个第三目标参数所属的待识别图像,确定为一个相似图像对。
可选的,所述装置还包括:第二确定模块507,用于确定所述第二参数和所述第二阈值;
所述第二确定模块507包括:
第二直方图计算子模块5071,用于采用梯度直方图的第二预设初始参数,计算预先确定的样本库中的样本图像的第二直方图,得到多个第二直方图;
第二系数计算子模块5072,用于计算所述多个第二直方图中的每两个第二直方图的归一化相关系数,并选出归一化相关系数大于第二预设初始阈值的第二直方图,以作为第四目标参数;
第二数量获取子模块5073,用于获取第二类样本图像的第二数量,所述第二类样本图像为所述第四目标参数所属的样本图像;
第二调整子模块5074,用于在所述第二数量与所述样本图像的总数量之比小于第二预设比值的情况下,调整所述第二预设初始参数的大小和/或所述第二预设初始阈值的大小,直到所述第二数量与所述样本图像的总数量之比大于或等于所述第二预设比值时,将此时的第二预设初始参数确定为所述第二参数,并将此时的第二预设初始阈值,确定为所述第二阈值。
可选的,所述装置还包括:
第一接收模块508,用于接收用户针对所述待识别图像中被识别出的相似图像对的第一输入;
第一添加模块509,用于在所述第一输入针对的相似图像对包括的两个待识别图像的相似度,小于或等于所述第二预设相似度的情况下,将所述第一输入针对的相似图像对包括的两个待识别图像,添加到所述样本库中,获得修改后的所述样本库;
第一修改模块510,用于根据修改后的所述样本库,修改所述第一参数和所述第一阈值。
可选的,所述装置还包括:
第一接收模块508,用于接收用户针对所述待识别图像中被识别出的相似图像对的第一输入;
第一添加模块509,用于在所述第一输入针对的相似图像对包括的两个待识别图像的相似度,小于或等于所述第二预设相似度的情况下,将所述第一输入针对的相似图像对包括的两个待识别图像,添加到所述样本库中,获得修改后的所述样本库;
第二修改模块511,用于根据修改后的所述样本库,修改所述第二参数和所述第二阈值。
可选的,所述装置还包括:
第二接收模块512,用于接收用户针对所述待识别图像中未被识别出的相似图像对的第二输入;
第二添加模块513,用于根据所述第二输入,将所述第二输入针对的相似图像对包括的两个待识别图像,添加到所述样本库中,获得修改后的所述样本库;
第三修改模块514,用于根据修改后的所述样本库,修改所述第一参数和所述第一阈值。
可选的,所述装置还包括:
第二接收模块512,用于接收用户针对所述待识别图像中未被识别出的相似图像对的第二输入;
第二添加模块513,用于根据所述第二输入,将所述第二输入针对的相似图像对包括的两个待识别图像,添加到所述样本库中,获得修改后的所述样本库;
第二修改模块515,用于根据修改后的所述样本库,修改所述第二参数和所述第二阈值。
可选的,所述行为信息包括在预设时间段内上传的数据的内容和上传时间;所述机器人账号识别模块505具体用于:
根据所述目标账号在预设时间段内,向所述网络平台上传的数据的内容和上传时间,获取在所述预设时间段内上传了相同内容的数据,且该数据的上传时间的间隔小于预设阈值的目标账号,并确定为机器人账号。
由上述可知,本发明的实施例,获取待识别账号的头像,并确定为待识别图像,然后先后采用哈希算法和梯度直方图算法,从待识别图像中选出相似图像,进而再根据识别出的相似图像对应的账号在网络平台上传数据的行为信息,进一步筛选出机器人账号。其中,机器人账号在进行注册时,可能会对昵称进行修改,在网络平台上传数据时可能会对数据进行较少修改,但一般不会修改头像,因而,机器人账号之间的头像相似的较多,而本发明的实施例,通过哈希算法和梯度直方图算法的结合,从待识别账号的头像中识别出相似的头像,提升了相似头像识别的准确率,进而提升了机器人账号的识别度。
本发明实施例还提供了一种电子设备,如图6所示,包括处理器61、通信接口62、存储器63和通信总线64,其中,处理器61,通信接口62,存储器63通过通信总线64完成相互间的通信,
存储器63,用于存放计算机程序;
处理器61,用于执行存储器63上所存放的程序时,实现如下步骤:
获取待识别账号的头像以作为待识别图像;
采用第一图像相似度算法,从所述待识别图像中选出候选图像对,其中,所述候选图像对中包括的两个待识别图像的相似度大于第一预设相似度;
采用第二图像相似度算法,从所述候选图像对中选出相似图像对,所述相似图像对包括的两个待识别图像的相似度大于第二预设相似度;
获取目标账号在网络平台上传数据的行为信息,所述目标账号为所述相似图像对中包括的待识别图像所属的待识别账号;
根据所述行为信息,识别所述目标账号中的机器人账号。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的识别机器人账号的方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的识别机器人账号的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (15)

1.一种识别机器人账号的方法,其特征在于,所述方法包括:
获取待识别账号的头像以作为待识别图像;
采用第一图像相似度算法,从所述待识别图像中选出候选图像对,其中,所述候选图像对中包括的两个待识别图像的相似度大于第一预设相似度;
采用第二图像相似度算法,从所述候选图像对中选出相似图像对,所述相似图像对包括的两个待识别图像的相似度大于第二预设相似度;
获取目标账号在网络平台上传数据的行为信息,所述目标账号为所述相似图像对中包括的待识别图像所属的待识别账号;
根据所述行为信息,识别所述目标账号中的机器人账号。
2.根据权利要求1所述的识别机器人账号的方法,其特征在于,所述采用第一图像相似度算法,从所述待识别图像中选出候选图像对,包括:
采用预先确定的哈希算法的第一参数,计算每一个所述待识别图像的第一哈希值,得到多个第一哈希值;计算所述多个第一哈希值中每两个第一哈希值之间的汉明距离,并选出汉明距离小于或等于预先确定的第一阈值的第一哈希值,以作为第一目标参数;
将与同一个汉明距离对应的两个所述第一目标参数所属的待识别图像,确定为一个候选图像对。
3.根据权利要求2所述的识别机器人账号的方法,其特征在于,每一个第一哈希值均包括N位数字;
所述计算所述多个第一哈希值之间的汉明距离,并选出汉明距离小于或等于预先确定的第一阈值的第一哈希值,包括:
对所述多个第一哈希值进行分组,其中,第i个分组中的每一个第一哈希值,在所述第i个分组中均存在至少一个与自身的第M*i+1位至第M*(i+1)位数字相同的第一哈希值,i取值为0至n的整数,n=N/M-1,M为整数,N是M的整数倍;
分别在i取值为0至n的每一个整数时,将第i个分组中第M*i+1位至第M*(i+1)位数字为同一组数字的第一哈希值,确定为一类哈希值;
将同一类别的第一哈希值存储在同一个第一集合中;
计算同一个第一集合中的每两个第一哈希值的汉明距离;
从每一个第一集合包括的第一哈希值中,选出汉明距离小于或等于所述第一阈值的第一哈希值。
4.根据权利要求2所述的识别机器人账号的方法,其特征在于,所述第一参数和所述第一阈值的确定过程包括:
采用哈希算法的第一预设初始参数,计算预先确定的样本库中的样本图像的第二哈希值,得到多个第二哈希值;
计算所述多个第二哈希值中每两个第二哈希值之间的汉明距离,并选出汉明距离小于或等于第一预设初始阈值的第二哈希值,以作为第二目标参数;
获取第一类样本图像的第一数量,所述第一类样本图像为所述第二目标参数所属的样本图像;
在所述第一数量与所述样本图像的总数量之比小于第一预设比值的情况下,调整所述第一预设初始参数的大小和/或所述第一预设初始阈值的大小,直到所述第一数量与所述样本图像的总数量之比大于或等于所述第一预设比值时,将此时的第一预设初始参数确定为所述第一参数,并将此时的第一预设初始阈值,确定为所述第一阈值。
5.根据权利要求4所述的识别机器人账号的方法,其特征在于,每一个第二哈希值均包括N位数字;
所述计算所述多个第二哈希值之间的汉明距离,并选出汉明距离小于或等于第一预设初始阈值的第二哈希值,包括:
对所述多个第二哈希值进行分组,其中,第i个分组中的每一个第二哈希值,在所述第i个分组中均存在至少一个与自身的第M*i+1位至第M*(i+1)位数字相同的第二哈希值,i取值为0至n的整数,n=N/M-1,M为整数,N是M的整数倍;
分别在i取值为0至n的每一个整数时,将第i个分组中第M*i+1位至第M*(i+1)位数字为同一组数字的第二哈希值,确定为一类哈希值;
将同一类别的第二哈希值存储在同一个第二集合中;
计算同一个第二集合中的每两个第二哈希值的汉明距离;
从每一个第二集合包括的第二哈希值中,选出汉明距离小于或等于所述第一预设初始阈值的第二哈希值。
6.根据权利要求1所述的识别机器人账号的方法,其特征在于,所述采用第二图像相似度算法,从所述候选图像对中选出相似图像对,包括:
采用预先确定的梯度直方图算法的第二参数,计算每一个所述候选图像对中的两个待识别图像的第一直方图,以作为所述候选图像对对应的两个第一直方图;
计算与同一个候选图像对对应的两个第一直方图的归一化相关系数,并选出归一化相关系数大于第二阈值的第一直方图,以作为第三目标参数;
将与同一个归一化相关系数对应的两个第三目标参数所属的待识别图像,确定为一个相似图像对。
7.根据权利要求6所述的识别机器人账号的方法,其特征在于,所述第二参数和所述第二阈值的确定过程包括:
采用梯度直方图的第二预设初始参数,计算预先确定的样本库中的样本图像的第二直方图,得到多个第二直方图;
计算所述多个第二直方图中的每两个第二直方图的归一化相关系数,并选出归一化相关系数大于第二预设初始阈值的第二直方图,以作为第四目标参数;
获取第二类样本图像的第二数量,所述第二类样本图像为所述第四目标参数所属的样本图像;
在所述第二数量与所述样本图像的总数量之比小于第二预设比值的情况下,调整所述第二预设初始参数的大小和/或所述第二预设初始阈值的大小,直到所述第二数量与所述样本图像的总数量之比大于或等于所述第二预设比值时,将此时的第二预设初始参数确定为所述第二参数,并将此时的第二预设初始阈值,确定为所述第二阈值。
8.根据权利要求4所述的识别机器人账号的方法,其特征在于,从所述候选图像对中选出相似图像对之后,所述方法还包括:
接收用户针对所述待识别图像中被识别出的相似图像对的第一输入;
在所述第一输入针对的相似图像对包括的两个待识别图像的相似度,小于或等于所述第二预设相似度的情况下,将所述第一输入针对的相似图像对包括的两个待识别图像,添加到所述样本库中,获得修改后的所述样本库;
根据修改后的所述样本库,修改所述第一参数和所述第一阈值。
9.根据权利要求7所述的识别机器人账号的方法,其特征在于,从所述候选图像对中选出相似图像对之后,所述方法还包括:
接收用户针对所述待识别图像中被识别出的相似图像对的第一输入;
在所述第一输入针对的相似图像对包括的两个待识别图像的相似度,小于或等于所述第二预设相似度的情况下,将所述第一输入针对的相似图像对包括的两个待识别图像,添加到所述样本库中,获得修改后的所述样本库;
根据修改后的所述样本库,修改所述第二参数和所述第二阈值。
10.根据权利要求4所述的识别机器人账号的方法,其特征在于,从所述候选图像对中选出相似图像对之后,所述方法还包括:
接收用户针对所述待识别图像中未被识别出的相似图像对的第二输入;
根据所述第二输入,将所述第二输入针对的相似图像对包括的两个待识别图像,添加到所述样本库中,获得修改后的所述样本库;
根据修改后的所述样本库,修改所述第一参数和所述第一阈值。
11.根据权利要求7所述的识别机器人账号的方法,其特征在于,从所述候选图像对中选出相似图像对之后,所述方法还包括:
接收用户针对所述待识别图像中未被识别出的相似图像对的第二输入;
根据所述第二输入,将所述第二输入针对的相似图像对包括的两个待识别图像,添加到所述样本库中,获得修改后的所述样本库;
根据修改后的所述样本库,修改所述第二参数和所述第二阈值。
12.根据权利要求1所述的识别机器人账号的方法,其特征在于,所述行为信息包括在预设时间段内上传的数据的内容和上传时间;所述根据所述行为信息,识别所述目标账号中的机器人账号,包括:
根据所述目标账号在预设时间段内,向所述网络平台上传的数据的内容和上传时间,获取在所述预设时间段内上传了相同内容的数据,且该数据的上传时间的间隔小于预设阈值的目标账号,并确定为机器人账号。
13.一种识别机器人账号的装置,其特征在于,所述装置包括:
头像获取模块,用于获取待识别账号的头像以作为待识别图像;
第一选择模块,用于采用第一图像相似度算法,从所述待识别图像中选出候选图像对,其中,所述候选图像对中包括的两个待识别图像的相似度大于第一预设相似度;
第二选择模块,用于采用第二图像相似度算法,从所述候选图像对中选出相似图像对,所述相似图像对包括的两个待识别图像的相似度大于第二预设相似度;
行为信息获取模块,用于获取目标账号在网络平台上传数据的行为信息,所述目标账号为所述相似图像对中包括的待识别图像所属的待识别账号;
机器人账号识别模块,用于根据所述行为信息,识别所述目标账号中的机器人账号。
14.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-12任一所述的识别机器人账号的方法。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-12中任一所述的识别机器人账号的方法。
CN202010519903.6A 2020-06-09 2020-06-09 识别机器人账号的方法、装置、电子设备及计算机可读存储介质 Active CN111737519B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010519903.6A CN111737519B (zh) 2020-06-09 2020-06-09 识别机器人账号的方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010519903.6A CN111737519B (zh) 2020-06-09 2020-06-09 识别机器人账号的方法、装置、电子设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111737519A true CN111737519A (zh) 2020-10-02
CN111737519B CN111737519B (zh) 2023-10-03

Family

ID=72650099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010519903.6A Active CN111737519B (zh) 2020-06-09 2020-06-09 识别机器人账号的方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111737519B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632953A (zh) * 2020-12-22 2021-04-09 云汉芯城(上海)互联网科技股份有限公司 一种快速准确侦测多次上传的物料清单属于同一产品的方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070239756A1 (en) * 2006-03-28 2007-10-11 Microsoft Corporation Detecting Duplicate Images Using Hash Code Grouping
KR20120090131A (ko) * 2011-01-03 2012-08-17 엔에이치엔(주) 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
CN102722450A (zh) * 2012-05-25 2012-10-10 清华大学 一种基于位置敏感哈希的删冗块设备存储方法
US20130208942A1 (en) * 2010-09-30 2013-08-15 British Telecommunications Public Limited Company Digital video fingerprinting
CN105447523A (zh) * 2015-11-26 2016-03-30 国网北京市电力公司 图片源相机型号的检测方法和装置
US20160110356A1 (en) * 2014-03-31 2016-04-21 Empire Technology Development Llc Hash table construction for utilization in recognition of target object in image
CN106681688A (zh) * 2016-12-28 2017-05-17 北京酷云互动科技有限公司 一种基于minhash的集合相似度计算方法和系统
CN107977461A (zh) * 2017-12-21 2018-05-01 厦门美图之家科技有限公司 一种视频特征提取方法及装置
CN108664654A (zh) * 2018-05-18 2018-10-16 北京奇艺世纪科技有限公司 一种基于用户相似度的主播推荐方法及装置
CN109308463A (zh) * 2018-09-12 2019-02-05 北京奇艺世纪科技有限公司 一种视频目标识别方法、装置及设备
CN109829467A (zh) * 2017-11-23 2019-05-31 财团法人资讯工业策进会 图像标注方法、电子装置及非暂态电脑可读取储存媒体
CA3011713A1 (en) * 2018-07-17 2020-01-17 Avigilon Coporation Hash-based appearance search
CN110807473A (zh) * 2019-10-12 2020-02-18 浙江大华技术股份有限公司 目标检测方法、装置及计算机存储介质
CN111083141A (zh) * 2019-12-13 2020-04-28 广州市百果园信息技术有限公司 一种仿冒账号的识别方法、装置、服务器和存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070239756A1 (en) * 2006-03-28 2007-10-11 Microsoft Corporation Detecting Duplicate Images Using Hash Code Grouping
US20130208942A1 (en) * 2010-09-30 2013-08-15 British Telecommunications Public Limited Company Digital video fingerprinting
KR20120090131A (ko) * 2011-01-03 2012-08-17 엔에이치엔(주) 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
CN102722450A (zh) * 2012-05-25 2012-10-10 清华大学 一种基于位置敏感哈希的删冗块设备存储方法
US20160110356A1 (en) * 2014-03-31 2016-04-21 Empire Technology Development Llc Hash table construction for utilization in recognition of target object in image
CN105447523A (zh) * 2015-11-26 2016-03-30 国网北京市电力公司 图片源相机型号的检测方法和装置
CN106681688A (zh) * 2016-12-28 2017-05-17 北京酷云互动科技有限公司 一种基于minhash的集合相似度计算方法和系统
CN109829467A (zh) * 2017-11-23 2019-05-31 财团法人资讯工业策进会 图像标注方法、电子装置及非暂态电脑可读取储存媒体
CN107977461A (zh) * 2017-12-21 2018-05-01 厦门美图之家科技有限公司 一种视频特征提取方法及装置
CN108664654A (zh) * 2018-05-18 2018-10-16 北京奇艺世纪科技有限公司 一种基于用户相似度的主播推荐方法及装置
CA3011713A1 (en) * 2018-07-17 2020-01-17 Avigilon Coporation Hash-based appearance search
CN109308463A (zh) * 2018-09-12 2019-02-05 北京奇艺世纪科技有限公司 一种视频目标识别方法、装置及设备
CN110807473A (zh) * 2019-10-12 2020-02-18 浙江大华技术股份有限公司 目标检测方法、装置及计算机存储介质
CN111083141A (zh) * 2019-12-13 2020-04-28 广州市百果园信息技术有限公司 一种仿冒账号的识别方法、装置、服务器和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632953A (zh) * 2020-12-22 2021-04-09 云汉芯城(上海)互联网科技股份有限公司 一种快速准确侦测多次上传的物料清单属于同一产品的方法

Also Published As

Publication number Publication date
CN111737519B (zh) 2023-10-03

Similar Documents

Publication Publication Date Title
CN110324660B (zh) 一种重复视频的判断方法及装置
CN108337551B (zh) 一种屏幕录制方法、存储介质及终端设备
US11836898B2 (en) Method and apparatus for generating image, and electronic device
CN108197638B (zh) 对待评估样本进行分类的方法及装置
Xie et al. Bag-of-words feature representation for blind image quality assessment with local quantized pattern
CN110929638A (zh) 一种人体关键点识别方法、装置及电子设备
CN111210402A (zh) 人脸图像质量评分方法、装置、计算机设备及存储介质
CN112188310B (zh) 测试序列构建方法、装置、电子设备及存储介质
CN111199186A (zh) 图像质量评分模型训练方法、装置、设备及存储介质
CN110909664A (zh) 一种人体关键点识别方法、装置及电子设备
CN113297420A (zh) 视频图像处理方法、装置、存储介质及电子设备
CN109740621B (zh) 一种视频分类方法、装置及设备
CN111737519B (zh) 识别机器人账号的方法、装置、电子设备及计算机可读存储介质
US20150058579A1 (en) Systems and methods for memory utilization for object detection
CN111695381B (zh) 一种文本特征提取方法、装置、电子设备及可读存储介质
CN113076961A (zh) 一种图像特征库更新方法、图像检测方法和装置
CN111369531A (zh) 图像清晰度的评分方法、设备及存储装置
CN113496476A (zh) 花屏图像判断方法、设备及计算机存储介质
CN111222558A (zh) 图像处理方法及存储介质
CN113015004B (zh) 水印视频帧的识别方法、生产方法、装置及电子设备
KR102361444B1 (ko) 다각형 기반의 객체 인식 성능 보정 장치 및 방법
CN111612766B (zh) 图像质量评价方法、装置和电子设备
CN111260623A (zh) 图片评价方法、装置、设备及存储介质
CN112929729B (zh) 弹幕数据调整方法、装置、设备及存储介质
CN110222763B (zh) 一种直方图匹配方法、移动终端和计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant