CN115048543B - 图像相似判断方法、图像搜索方法及设备 - Google Patents

图像相似判断方法、图像搜索方法及设备 Download PDF

Info

Publication number
CN115048543B
CN115048543B CN202210971726.4A CN202210971726A CN115048543B CN 115048543 B CN115048543 B CN 115048543B CN 202210971726 A CN202210971726 A CN 202210971726A CN 115048543 B CN115048543 B CN 115048543B
Authority
CN
China
Prior art keywords
image
similarity
candidate
searched
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210971726.4A
Other languages
English (en)
Other versions
CN115048543A (zh
Inventor
龙专
赵武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huashun Xin'an Information Technology Co ltd
Beijing Huashunxinan Technology Co ltd
Original Assignee
Beijing Huashun Xin'an Information Technology Co ltd
Beijing Huashunxinan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Huashun Xin'an Information Technology Co ltd, Beijing Huashunxinan Technology Co ltd filed Critical Beijing Huashun Xin'an Information Technology Co ltd
Priority to CN202210971726.4A priority Critical patent/CN115048543B/zh
Publication of CN115048543A publication Critical patent/CN115048543A/zh
Application granted granted Critical
Publication of CN115048543B publication Critical patent/CN115048543B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种图像相似判断方法、图像搜索方法及设备,以提升对图像和图标进行相似度判断的准确度和对图像进行搜索的准确度。该图像相似判断方法包括:确定待搜索图像对应的目标字符序列和候选图像对应的候选字符序列;基于所述候选字符序列和所述目标字符序列中各相同序列位置的字符的相似度,确定所述候选图像和所述待搜索图像的相似度;所述目标字符序列和所述候选字符序列中均包含N个字符,所述N为正整数;所述目标字符序列和所述候选字符序列是利用目标哈希算法,分别将所述待搜索图像和所述候选图像转换为哈希值后对所述哈希值进行转换得到的。

Description

图像相似判断方法、图像搜索方法及设备
技术领域
本发明涉及图像处理技术领域,尤其涉及一种图像相似判断方法、图像搜索方法及设备。
背景技术
随着互联网和计算机技术的不断发展,信息资产变得越来越重要,关键信息基础设施资产收集和管理也越来越重要;绝大部分企业都有自己专属的网站的图标(logo),在一些规模很大的企业或集团公司,每个子公司会采用与母公司具有些许区别的图标,不过子公司和母公司的图标的相似度一般都较高;因此可以通过识别公司/集团的图标的相似度来对同一个企业或集团的信息资产进行收集和管理。
发明内容
本发明提供一种图像相似判断方法、图像搜索方法及设备,用以提升对图像和图标进行相似度判断的准确度和对图像进行搜索的准确度。
第一方面,本发明实施例提供一种图像相似判断方法,所述方法包括:
确定待搜索图像对应的目标字符序列和候选图像对应的候选字符序列;其中:所述目标字符序列和所述候选字符序列中均包含N个字符,所述N为正整数;所述目标字符序列和所述候选字符序列是利用目标哈希算法,分别将所述待搜索图像和所述候选图像转换为哈希值后对所述哈希值进行转换得到的;
基于所述候选字符序列和所述目标字符序列中各相同序列位置的字符的相似度,确定所述候选图像和所述待搜索图像的相似度。
上述方法中通过目标哈希算法及对应的数据转换方法,将需要进行相似度比对的待搜索图像和候选图像转换为包含N个字符的目标字符序列和候选字符序列,进而基于两个字符序列中相同序列位置的字符相似度确定待搜索图像和候选图像的相似度,通过将需要比对的两张图像转换成唯一性标识的位图(即目标字符序列和候选字符序列),进而通过比对两个唯一性标识的位图确定两张图像的相似度,提升了对多张图像进行相似度判断的准确度。
第二方面,本发明实施例提供的一种图像搜索方法,所述图像搜索方法包括:
利用目标哈希算法将待处理图像转换为目标哈希值;
将所述目标哈希值转换成所述待处理图像对应的目标字符序列;
利用本发明第一方面任一项所述的图像相似判断方法,确定候选图像集中各候选图像和所述待处理图像的相似度;
根据确定的各相似度,从所述候选图像集中确定出所述待搜索图像的相似图像。
上述方法中,通过目标哈希算法及对应的数据转换方法,将需要进行图像搜索的待搜索图像转换为包含N个字符的目标字符序列,进而基于待检索的候选图像库中各候选图像的候选字符序列和目标字符序列中相同序列位置的字符相似度,确定各候选图像和待搜索图像相似度,进而基于相似度从候选图像库中筛选出与所述待搜索图像相似度高的图像,即通过将需要比对的各个候选图像和待搜索图像转换得到的唯一性标识的位图(即目标字符序列和候选字符序列)的相似度,确定各候选图像和待搜索图像的相似度,提升了图像搜索时图像的召回准确度和搜索准确度。
第三方面,本发明实施例提供的一种计算机设备,该设备包括处理器和存储器,所述存储器用于存储所述处理器可执行的程序,所述处理器用于读取所述存储器中的程序并执行本发明第一方面任一项所述的图像相似判断方法或本发明第二方面任一项所述的图像搜索方法的步骤。
第四方面,本发明实施例还提供一种图像相似判断装置,所述图像相似判断装置包括:
图像特征获取单元,用于确定待搜索图像对应的目标字符序列和候选图像对应的候选字符序列;其中:所述目标字符序列和所述候选字符序列中均包含N个字符,所述N为正整数;所述目标字符序列和所述候选字符序列是利用目标哈希算法,分别将所述待搜索图像和所述候选图像转换为哈希值后对所述哈希值进行转换得到的;
相似判断单元,用于基于所述候选字符序列和所述目标字符序列中各相同序列位置的字符的相似度,确定所述候选图像和所述待搜索图像的相似度。
第五方面,本发明实施例还提供一种图像搜索装置,所述图像搜索装置包括:
第一图像处理单元,用于利用目标哈希算法将待处理图像转换为目标哈希值;
第二图像处理单元,用于将所述目标哈希值转换成所述待处理图像对应的目标字符序列;
第一图像搜索单元,用于利用本发明第一方面中任一项所述的图像相似判断方法,确定候选图像集中各候选图像和所述待处理图像的相似度;
第二图像搜索单元,用于根据确定的各相似度,从所述候选图像集中确定出所述待搜索图像的相似图像。
第六方面,本发明实施例还提供计算机存储介质,其上存储有计算机程序,该程序被处理器执行时用于实现本发明第一方面任一项所述的图像相似判断方法或本发明第二方面任一项所述的图像搜索方法的步骤。
本申请的这些方面或其他方面在以下的实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种图像相似判定方法的流程图;
图2为本发明实施例提供的一种获取待处理图像的字符序列的方法的流程图;
图3为本发明实施例提供的一种图像搜索方法的流程图;
图4为本发明实施例提供的一种图像相似判断装置的结构示意图;
图5为本发明实施例提供的一种图像搜索装置的结构示意图;
图6为本发明实施例提供的一种计算机设备的示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本发明实施例描述的应用场景是为了更加清楚的说明本发明实施例的技术方案,并不构成对于本发明实施例提供的技术方案的限定,本领域普通技术人员可知,随着新应用场景的出现,本发明实施例提供的技术方案对于类似的技术问题,同样适用。其中,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本申请实施例提供一种图像相似判断方法、图像搜索方法及设备;在图像相似判断方法中,首先确定待搜索图像对应的目标字符序列和候选图像对应的候选字符序列,进而基于所述候选字符序列和所述目标字符序列中各相同序列位置的字符的相似度,确定所述候选图像和所述待搜索图像的相似度,其中:所述目标字符序列和所述候选字符序列中均包含N个字符,所述N为正整数;所述目标字符序列和所述候选字符序列是利用目标哈希算法,分别将所述待搜索图像和所述候选图像转换为哈希值后对所述哈希值进行转换得到的。
其中,本申请实施例提供的图像相似判断方法中的待搜索图像和候选图像,可以是需要进行相似度判定的任意两张相同图像类型的图像,所述图像类型可以基于图像的采集设备、数据格式、表达含义等中任意一项进行区分;如图像类型可以但不局限于包括可见光图像、遥感图像、红外图像、网络工具的标识图标,所述网络工具包括网站、应用程序、软件工具中的至少一个。
进一步地,本申请实施例中还可以将同一企业的不同标识图标或logo分别作为所述待搜索图像和候选图像;也可以将属于同一企业的不同子公司的标识图像/logo分别作为所述待搜索图像和候选图像,还可以将属于同一企业的母公司和子公司的分别作为所述待搜索图像和候选图像;本领域的技术人员可根据实际需求设置所述待搜索图像和候选图像。
在本申请实施例提供的图像搜索方法中,可以在确定需要进行图像搜索的待搜索图像后,利用目标哈希算法将待处理图像转换为目标哈希值,将所述目标哈希值转换成所述待处理图像对应的目标字符序列;并获取待检索的候选图像库中各候选图像的候选字符序列,并利用所述的图像相似判断方法,确定候选图像集中各候选图像和所述待处理图像的相似度,根据确定的各相似度,从所述候选图像集中确定出所述待搜索图像的相似图像。
其中,在本申请实施例提供的图像搜索方法中的待搜索图像是需要进行图像搜索的任意图像,如待检索图像可以但不局限于是见光图像、遥感图像、红外图像、网络工具的标识图标、公司/集团/组织/联盟的标识图标/logo等,所述网络工具包括网站、应用程序、软件工具中的至少一个;候选图像可以是与待搜索图像的图像类型相同的图像,所述图像类型可以参考所述内容,此处不再重复叙述。
以下对本申请实施例提供的一种图像相似判定方法进行详细说明;请参见图1,本申请实施例提供的一种图像相似判定方法主要包括如下步骤S110至步骤S120:
步骤S110,确定待搜索图像对应的目标字符序列和候选图像对应的候选字符序列;其中:所述目标字符序列和所述候选字符序列中均包含N个字符,所述N为正整数;所述目标字符序列和所述候选字符序列是利用目标哈希算法,分别将所述待搜索图像和所述候选图像转换为哈希值后对所述哈希值进行转换得到的。
作为一种实施例,本领域的技术人员可根据实际需求设置所述字符序列(目标字符序列和候选字符序列)中包含的字符的类型及数量N,如字符的类型可以但不局限于包括大写英文字母、小写英文字母、阿拉伯数字、特殊字符、二进制数值等中的任意一种,数量N可以但不局限于为4的倍数;如作为一种实施例,可以将所述N设置为64,字符的类型设置为二进制数值,则字符序列便为一个64位的二进制数值序列,为便于理解字符序列的概念,本申请实施例在此处给出一个64位的二进制数值序列的字符序列的示例“0011100011000100000011000000011101000000000110001100000100001100”。
步骤S120,基于所述候选字符序列和所述目标字符序列中各相同序列位置的字符的相似度,确定所述候选图像和所述待搜索图像的相似度。
作为一种实施例,步骤S110中的目标字符序列和候选字符序列可以是在进行图像相似判断之前进行的,也可以是在确定待搜索图像和候选图像之后,对待搜索图像和候选图像进行图像处理得到的。
作为一种实施例,参见图2,提供一种获取待处理图像的字符序列的方法,该方法可以用于将待搜索图像作为待处理图像获取目标字符序列,也可以用于将候选图像作为待处理图像获取候选字符序列,该目标字符序列和候选字符序列可以是在进行图像相似判断之前进行的,也可以是在确定待搜索图像和候选图像包括步骤S210和S220:
步骤S210,利用目标哈希算法将待处理图像转换为目标哈希值。
作为一种实施例,对目标哈希算法的具体哈希算法不做限定,哈希算法可以将任意长度的明文(在计算机中一般表达为二进制码)通过特定的计算算法输出一段固定长度的哈希值;本申请实施例中的目标哈希算法可以但不局限于包括WhirlpoolDigest、RIPEMD-256、BLAKE2b-256、SHA3-256/Keccak-256、Skein256、感知哈希算法(perceptualHash ,pHash)中的至少一种哈希算法,本领域的技术人员可基于实际需求设置;当目标哈希算法为pHash算法时,本申请实施例对利用pHash算法将待处理图像转换为perceptualhash,这个可以使用公开的库,也可以自行编码实现。
应当说明的是,本申请实施例中的目标哈希算法区别于一般的加密哈希算法,加密哈希算法依赖于输入值的微小变化导致输出值急剧变化的雪崩效应;而本申请实施例中的目标哈希算法则不是,如所述pHash算法可生成各种形式的多媒体信息的片段或指纹。pHash算法是一种对位置敏感的哈希,如果不同多媒体信息的功能相似,则其对应的pHash值类似。
步骤S220,将步骤S210获得的目标哈希值转换成所述待处理图像对应的字符序列。
应当说明的是,本申请实施例对将目标哈希值转换成待处理图像对应的字符序列的具体方式不做限定,本领域的技术人员可根据实际需求设置,如可以但不局限于将目标哈希值转换成二进制数值的字符序列等。
作为一种实施例,在步骤120中,可以确定所述候选图像对应的候选字符序列和所述目标字符序列中,各相同序列位置的两个字符的字符相似度,基于确定的各字符相似度,确定所述候选图像和所述待搜索图像的相似度。
作为一种实施例,在基于确定的各字符相似度,确定所述候选图像和所述待搜索图像的相似度的过程中,可以但不局限于通过如下相似度判定方法A1至A3中任意一种确定候选图像和所述待搜索图像的相似度:
相似度判定方法A1:
确定小于第一阈值的字符相似度的数量为第一参考数量;基于所述第一参考数量,确定所述候选图像和所述待搜索图像的相似度,所述相似度和所述第一参考数量成负相关;其中对第一阈值不做限定,本领域的技术人员可根据实际需求或业务经验设置。
作为一种实施例,在该方法中可以但不局限于按照如下公式(1),基于第一参考数量确定候选图像和待搜索图像的相似度:
Figure 821689DEST_PATH_IMAGE001
公式(1)
公式(1)中,C为候选图像和待搜索图像的相似度;K1为第一参考数量,m1为常量,
Figure 293122DEST_PATH_IMAGE002
为常量,且m和
Figure 816507DEST_PATH_IMAGE002
可由技术人员根据实际需求设置。
作为一种实施例,本申请实施例中还可以基于先验经验设置第一参考数量和相似度的第一对应关系,进而在相似度判定方法A1中可以基于所述第一对应关系,将当前确定的第一参数数量对应的相似度,确定为当前的候选图像和待搜索图像的相似度;其中,可以在实施本申请实施例的图像相似判断之前,可以对不同图像的相似度和基于不同图像的字符序列确定的第一参考数量进行分析,确定所述第一对应关系。
相似度判定方法A2:
确定大于第二阈值的字符相似度的数量为第二参考数量,并基于所述第二参考数量,确定所述候选图像和所述待搜索图像的相似度,所述相似度和所述第二参考数量成正相关。
作为一种实施例,在该方法中可以但不局限于按照如下公式(2),基于第二参考数量确定候选图像和待搜索图像的相似度:
Figure 43089DEST_PATH_IMAGE003
公式(2)
公式(2)中,C为候选图像和待搜索图像的相似度;K2为第二参考数量,m2为常量,
Figure 284715DEST_PATH_IMAGE004
为常量,且m和
Figure 294259DEST_PATH_IMAGE004
可由技术人员根据实际需求设置。
作为一种实施例,本申请实施例中还可以基于先验经验设置第二参考数量和相似度的第二对应关系,进而在相似度判定方法A2中可以基于所述第二对应关系,将当前确定的第二参数数量对应的相似度,确定为当前的候选图像和待搜索图像的相似度;其中,可以在实施本申请实施例的图像相似判断之前,可以对不同图像的相似度和基于不同图像的字符序列确定的第二参考数量进行分析,确定所述第二对应关系。
相似度判定方法A3:
基于各字符对应的序列位置对各字符相似度进行加权处理,确定所述候选图像和所述待搜索图像的相似度。
作为一种实施例,可以但不局限于基于如下公式(3),确定候选图像和待搜索图像的相似度:
Figure 734468DEST_PATH_IMAGE005
公式(3)
公式(3)中,C为候选图像和待搜索图像的相似度;i为目标字符序列和候选字符序列中的序列位置,
Figure 69634DEST_PATH_IMAGE006
是目标字符序列和候选字符序列中序列位置为i的两个字符的字符相似度,
Figure 532976DEST_PATH_IMAGE007
是标识为i的序列位置的加权权重,N为目标字符序列和候选字符序列中每个字符序列包含的字符的数量。
作为一种实施例,本申请实施例中以感知哈希算法作为目标哈希算法时,所述N为4的倍数,如N可以但不局限于为16、32、64或128等,所述N个字符为N个二进制数值;则在步骤S120中还可以基于所述候选字符序列和所述目标字符序列的汉明距离,确定所述候选字符序列和所述目标字符序列的相似度,所述相似度和所述汉明距离成负相关。
作为一种实施例,本申请实施例中还可以基于先验经验设置汉明距离和相似度的第三对应关系,进而基于所述候选字符序列和所述目标字符序列的汉明距离,确定所述候选字符序列和所述目标字符序列的相似度时,可以基于所述第三对应关系,将当前确定的汉明距离对应的相似度,确定为当前的候选图像和待搜索图像的相似度;其中,可以在实施本申请实施例的图像相似判断之前,可以对不同图像的相似度和基于不同图像的字符序列确定的汉明距离进行分析,确定所述第三对应关系;其中,汉明距离是一个概念,它可以表示两个(相同长度)字对应位不同的数量,可以以d(x,y)表示两个字x,y之间的汉明距离,对目标字符序列和候选字符序列进行异或运算,并统计结果为1的数量作为目标字符序列和候选字符序列的汉明距离。
请参见表1,为便于理解,此处给出一个所述第三对应关系的示例
表1:汉明距离和相似度的第三对应关系的示例
Figure 611791DEST_PATH_IMAGE008
作为一种实施例,所述步骤S110至步骤S120提供的图像相似判定方法可以用于单独的两张图像进行相似度比对的过程中,还可以应用于图像搜索过程中,以下对本申请实施例提供的一种图像搜索方法进行详细说明;请参见图2本申请实施例提供的一种图像搜索方法主要包括如下步骤S310至步骤340:
步骤S310,利用目标哈希算法将待搜索图像转换为目标哈希值。
步骤S320,将目标哈希值转换成待搜索图像对应的目标字符序列。
其中,S310和S320的具体处理过程可参见所述步骤S210和步骤S220的说明内容,此处不再重复说明。
步骤S330,基于候选图像集中各候选图像对应的候选字符序列和目标字符序列中各相同序列位置的字符的相似度,确定候选图像集中各候选图像和所述待搜索图像的相似度。
其中,步骤S230中获取各候选图像和所述待搜索图像的相似度的过程可参考所述步骤S120的处理过程及所述相似度判定方法A1至A3的实施方式,此处不再重复说明。
步骤S340,根据确定的各相似度,从候选图像集中确定出所述待搜索图像的相似图像。
应当说明的是,所述步骤S340中确定出的相似图像可以是一个候选图像,也可以是多个候选图像,本领域的技术人员可基于实际需求设置。
作为一种实施例,在步骤S240中,可以将所述候选图像集中满足图像搜索要求的相似度对应的候选图像,确定为所述待搜索图像的相似图像;其中满足图像搜索要求的相似度可以是按照从大到小排序后排列在最前的Q个的相似度或大于相似度阈值的相似度,所述Q为正整数,本领域的技术人员可基于实际需求设置所述图像搜索要求,如可以但不局限于将Q设置为1、3或5等。
作为一种实施例,步骤S210之前,还可以将用户通过图像搜索页面指示的图像,确定为所述搜索图像;进而在步骤S340从至少一个候选图像中确定出所述待搜索图像的相似图像之后,通过所述图像搜索页面展示所述相似图像。
作为一种实施例,待搜索图像是网络工具的标识图标,或待搜索图像是企业/组织的标识图标/logo时,在步骤S310之前还包括:
响应通过图像搜索页面触发的图像搜索操作,确定所述图像搜索操作指示网络工具的身份标识;基于所述网络工具的身份标识,将所述网络工具关联的标识图标确定为所述待搜索图像;或响应通过图像搜索页面触发的图像搜索操作,确定所述图像搜索操作指示企业/组织的身份标识;基于所述企业/组织的身份标识,将所述企业/组织的标识图标/logo确定为所述待搜索图像。
以下给出所述步骤S310至步骤S340所示的图像搜索方法的具体示例,该示例中以目标网站的标识图标(ICON)作为待搜索图像的具体示例,以pHash算法作为目标哈希算法的具体示例,以二进制数值(包括0和1)作为候选字符序列和目标字符序列中的字符并将N设置为64,其中,对目标网站的类型不做限制,本领域的技术人员可根据实际需求设置,如目标网站为一个企业或工具对应的网站等,则该示例具体包括:
步骤S1,抓取目标网站的 ICON;
具体地,可以抓取目标网站的网页内容,并对网页内容进行解析获得ICON的互联网地址(URL地址),请求该互联网地址,并获取二进制内容;也有可能ICON就是base64编码的内容,这个可以直接获取内容并使用;
本示例中抓取的ICON即为所述待搜索图像,目标网站的ICON可能是一个,也可能是多个,若网站的ICON包含多个时,则可分别将每个ICON作为待搜索图像进行图像搜索的过程。
步骤S2,利用pHash算法将抓取的icon转换为目标哈希值(perceptual hash)。
所述步骤S2可以使用公开的库实现,也可以自行编码实现,本申请实施例对此不做过多限定。
步骤S3,将标哈希值(perceptual hash)的值转换为包含64 个二进制数值(即64比特)的目标字符序列,每个比特(bit)的值为二进制的0和1;其中,perceptual hash的值是一个无符号long类型的值,将其转换为二进制数。
步骤S4,将包含64 bit的二进制数值的目标字符序列按位分解后存储到数据库中。
其中,数据库可以是ES数据库,也可以是其他数据库,本领域的技术人员可根据实际需求设置;同时,步骤S4是可选步骤,本领域的技术人员可根据实际需求选择是否将目标字符序列存储到数据库中。
步骤S5,基于候选图像集中各候选图像对应的候选字符序列和目标字符序列中的汉明距离,确定各候选图像和抓取的ICON的相似度。
作为一种实施例,步骤S5中的候选图像集中可以包含各种样本图像,候选图像集中也可以仅包含ICON,候选图像集中还可以仅包含待搜索的M个网站的ICON,以提升对ICON进行图像搜索的效率,其中,对M的值不做限定,本领域的技术人员可根据实际需求设置,如可以但不局限于将M设置成5、10、20或100等。
步骤S6,基于各候选图像和抓取的ICON的相似度,从候选图像集中确定出与抓取的ICON相似的相似ICON。
其中,可以但不局限于将候选图像集中相似度大于阈值的ICON确定为所述相似ICON,也可以将候选图像集中相似度从大到小排列后排列在前3的ICON确定为所述相似ICON。
请参见图4,基于同一发明构思,本发明实施例还提供一种图像相似判断装置400,图像相似判断装置400包括:
图像特征获取单元410,用于确定待搜索图像对应的目标字符序列和候选图像对应的候选字符序列;其中:所述目标字符序列和所述候选字符序列中均包含N个字符,所述N为正整数;所述目标字符序列和所述候选字符序列是利用目标哈希算法,分别将所述待搜索图像和所述候选图像转换为哈希值后对所述哈希值进行转换得到的;
相似判断单元420,用于基于所述候选字符序列和所述目标字符序列中各相同序列位置的字符的相似度,确定所述候选图像和所述待搜索图像的相似度。
作为一种实施例,所相似判断单元420具体用于:
确定所述候选图像对应的候选字符序列和所述目标字符序列中,各相同序列位置的两个字符的字符相似度;
基于确定的各字符相似度,确定所述候选图像和所述待搜索图像的相似度。
作为一种实施例,所相似判断单元420具体用于:
确定小于第一阈值的字符相似度的数量为第一参考数量,并基于所述第一参考数量,确定所述候选图像和所述待搜索图像的相似度,所述相似度和所述第一参考数量成负相关;或确定大于第二阈值的字符相似度的数量为第二参考数量,并基于所述第二参考数量,确定所述候选图像和所述待搜索图像的相似度,所述相似度和所述第二参考数量成正相关;或基于各字符对应的序列位置对各字符相似度进行加权处理,确定所述候选图像和所述待搜索图像的相似度。
作为一种实施例,所述目标哈希算法为感知哈希算法,所述N为4的倍数,所述N个字符为N个二进制数值;
所述所相似判断单元420具体用于:基于所述候选字符序列和所述目标字符序列的汉明距离,确定所述候选字符序列和所述目标字符序列的相似度,所述相似度和所述汉明距离成负相关。
请参见图5,基于同一发明构思,本发明实施例还提供一种图像搜索装置500,所述图像搜索装置500包括:
第一图像处理单元510,用于利用目标哈希算法将待处理图像转换为目标哈希值;
第二图像处理单元520,用于将所述目标哈希值转换成所述待处理图像对应的目标字符序列;
第一图像搜索单元530,用于利用本发明第一方面中任一项所述的图像相似判断方法,确定候选图像集中各候选图像和所述待处理图像的相似度;
第二图像搜索单元540,用于根据确定的各相似度,从所述候选图像集中确定出所述待搜索图像的相似图像。
作为一种实施例,第二图像搜索单元540具体用于:将所述候选图像集中满足图像搜索要求的相似度对应的候选图像,确定为所述待搜索图像的相似图像。
作为一种实施例,第一图像处理单元510还用于:利用目标哈希算法将待搜索图像转换为目标哈希值之前,将用户通过图像搜索页面指示的图像,确定为所述搜索图像;第二图像搜索单元540还用于:从至少一个候选图像中确定出所述待搜索图像的相似图像之后,通过所述图像搜索页面展示所述相似图像。
作为一种实施例,所述待搜索图像包括可见光图像、遥感图像、红外图像、网络工具的标识图标;所述网络工具包括网站、应用程序、软件工具中的至少一个。
作为一种实施例,所述待搜索图像包括所述网络工具的标识图标时,第一图像处理单元510还用于:利用目标哈希算法将待搜索图像转换为目标哈希值之前,响应通过图像搜索页面触发的图像搜索操作,确定所述图像搜索操作指示网络工具的身份标识;基于所述网络工具的身份标识,将所述网络工具关联的标识图标确定为所述待搜索图像。
如图6所示,基于同一发明构思,本申请实施例提供一种计算机设备,该计算机设备包括处理器610和存储器620,所述存储器用于存储所述处理器可执行的程序,所述处理器用于读取所述存储器中的程序并执行本申请第一方面任一项所述的图像相似判断方法或本申请第二方面任一项所述的图像搜索方法的步骤,此处不再重复说明。
基于同一发明构思,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行时适用于本申请第一方面任一项所述的图像相似判断方法或本申请第二方面任一项所述的图像搜索方法的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器620中,使得存储在该计算机可读存储器620中的指令产生包括指令设备的制造品,该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种图像相似判断方法,其特征在于,包括:
确定待搜索图像对应的目标字符序列和候选图像对应的候选字符序列;其中:所述目标字符序列和所述候选字符序列中均包含N个字符,所述N为正整数;所述目标字符序列和所述候选字符序列是利用目标哈希算法,分别将所述待搜索图像和所述候选图像转换为哈希值后对所述哈希值进行转换得到的;
基于所述候选字符序列和所述目标字符序列中各相同序列位置的字符的相似度,确定所述候选图像和所述待搜索图像的相似度;
所述基于所述候选字符序列和所述目标字符序列中各相同序列位置的字符的相似度,确定所述候选图像和所述待搜索图像的相似度,包括:
确定所述候选图像对应的候选字符序列和所述目标字符序列中,各相同序列位置的两个字符的字符相似度;
基于确定的各字符相似度,确定所述候选图像和所述待搜索图像的相似度;
所述基于确定的各字符相似度,确定所述候选图像和所述待搜索图像的相似度,包括:
确定小于第一阈值的字符相似度的数量为第一参考数量,并基于所述第一参考数量,确定所述候选图像和所述待搜索图像的相似度,所述相似度和所述第一参考数量成负相关;或
确定大于第二阈值的字符相似度的数量为第二参考数量,并基于所述第二参考数量,确定所述候选图像和所述待搜索图像的相似度,所述相似度和所述第二参考数量成正相关;或
基于各字符对应的序列位置对各字符相似度进行加权处理,确定所述候选图像和所述待搜索图像的相似度;
通过相似度判定方法A1或A2或A3确定候选图像和所述待搜索图像的相似度:
相似度判定方法A1:
确定小于第一阈值的字符相似度的数量为第一参考数量;基于所述第一参考数量,确定所述候选图像和所述待搜索图像的相似度,所述相似度和所述第一参考数量成负相关;
基于第一参考数量确定候选图像和待搜索图像的相似度:
Figure 812237DEST_PATH_IMAGE001
公式(1)
公式(1)中,C为候选图像和待搜索图像的相似度;K1为第一参考数量,m1为常量,
Figure 729377DEST_PATH_IMAGE002
为常量;
基于先验经验设置第一参考数量和相似度的第一对应关系,进而在相似度判定方法A1中可以基于所述第一对应关系,将当前确定的第一参数数量对应的相似度,确定为当前的候选图像和待搜索图像的相似度;在图像相似判断之前,对不同图像的相似度和基于不同图像的字符序列确定的第一参考数量进行分析,确定所述第一对应关系;
相似度判定方法A2:
确定大于第二阈值的字符相似度的数量为第二参考数量,并基于所述第二参考数量,确定所述候选图像和所述待搜索图像的相似度,所述相似度和所述第二参考数量成正相关;
基于第二参考数量确定候选图像和待搜索图像的相似度:
Figure 774694DEST_PATH_IMAGE003
公式(2)
公式(2)中,C为候选图像和待搜索图像的相似度;K2为第二参考数量,m2为常量,
Figure 169903DEST_PATH_IMAGE004
为常量;
基于先验经验设置第二参考数量和相似度的第二对应关系,进而在相似度判定方法A2中可以基于所述第二对应关系,将当前确定的第二参数数量对应的相似度,确定为当前的候选图像和待搜索图像的相似度;在图像相似判断之前,对不同图像的相似度和基于不同图像的字符序列确定的第二参考数量进行分析,确定所述第二对应关系;
相似度判定方法A3:
基于各字符对应的序列位置对各字符相似度进行加权处理,确定所述候选图像和所述待搜索图像的相似度;
确定候选图像和待搜索图像的相似度:
Figure 249855DEST_PATH_IMAGE005
公式(3)
公式(3)中,C为候选图像和待搜索图像的相似度;i为目标字符序列和候选字符序列中的序列位置,
Figure 72317DEST_PATH_IMAGE006
是目标字符序列和候选字符序列中序列位置为i的两个字符的字符相似度,
Figure 604930DEST_PATH_IMAGE007
是标识为i的序列位置的加权权重,N为目标字符序列和候选字符序列中每个字符序列包含的字符的数量。
2.如权利要求1所述的图像相似判断方法,其特征在于,所述目标哈希算法为感知哈希算法,所述N为4的倍数,所述N个字符为N个二进制数值;
所述基于所述候选字符序列和所述目标字符序列中各相同序列位置的字符的相似度,确定所述候选图像和所述待搜索图像的相似度,包括:
基于所述候选字符序列和所述目标字符序列的汉明距离,确定所述候选字符序列和所述目标字符序列的相似度,所述相似度和所述汉明距离成负相关。
3.一种图像搜索方法,其特征在于,所述图像搜索方法包括:
利用目标哈希算法将待搜索图像转换为目标哈希值;
将所述目标哈希值转换成所述待搜索图像对应的目标字符序列;
利用权利要求1-2中任一项所述的图像相似判断方法,确定候选图像集中各候选图像和所述待搜索图像的相似度;
根据确定的各相似度,从所述候选图像集中确定出所述待搜索图像的相似图像。
4.如权利要求3所述的图像搜索方法,其特征在于,所述根据确定的各相似度,从所述候选图像集中确定出所述待搜索图像的相似图像,包括:
将所述候选图像集中满足图像搜索要求的相似度对应的候选图像,确定为所述待搜索图像的相似图像。
5.如权利要求3所述的图像搜索方法,其特征在于,所述利用目标哈希算法将待搜索图像转换为目标哈希值之前,还包括:
将用户通过图像搜索页面指示的图像,确定为所述搜索图像;
所述根据确定的各相似度,从所述候选图像集中确定出所述待搜索图像的相似图像之后,还包括:
通过所述图像搜索页面展示所述相似图像。
6.如权利要求3所述的图像搜索方法,所述待搜索图像包括可见光图像、遥感图像、红外图像、网络工具的标识图标;所述网络工具包括网站、应用程序、软件工具中的至少一个。
7.如权利要求6所述的图像搜索方法,其特征在于,所述待搜索图像包括所述网络工具的标识图标时,所述利用目标哈希算法将待搜索图像转换为目标哈希值之前,还包括:
响应通过图像搜索页面触发的图像搜索操作,确定所述图像搜索操作指示网络工具的身份标识;
基于所述网络工具的身份标识,将所述网络工具关联的标识图标确定为所述待搜索图像。
8.一种用于图像处理的计算机设备,其特征在于,该设备包括处理器和存储器,所述存储器用于存储所述处理器可执行的程序,所述处理器用于读取所述存储器中的程序并执行权利要求1-2任一项所述的图像相似判断方法或权利要求3-7任一项所述的图像搜索方法的步骤。
9.一种计算机存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-2任一项所述的图像相似判断方法或权利要求3-7任一项所述的图像搜索方法的步骤。
CN202210971726.4A 2022-08-15 2022-08-15 图像相似判断方法、图像搜索方法及设备 Active CN115048543B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210971726.4A CN115048543B (zh) 2022-08-15 2022-08-15 图像相似判断方法、图像搜索方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210971726.4A CN115048543B (zh) 2022-08-15 2022-08-15 图像相似判断方法、图像搜索方法及设备

Publications (2)

Publication Number Publication Date
CN115048543A CN115048543A (zh) 2022-09-13
CN115048543B true CN115048543B (zh) 2022-10-25

Family

ID=83166374

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210971726.4A Active CN115048543B (zh) 2022-08-15 2022-08-15 图像相似判断方法、图像搜索方法及设备

Country Status (1)

Country Link
CN (1) CN115048543B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013041599A (ja) * 2012-10-05 2013-02-28 Rakuten Inc 画像検索エンジン
CN105844669A (zh) * 2016-03-28 2016-08-10 华中科技大学 一种基于局部哈希特征的视频目标实时跟踪方法
CN111563180A (zh) * 2020-04-08 2020-08-21 西北工业大学 一种基于深度哈希方法的商标图像检索方法
CN112347284A (zh) * 2020-09-16 2021-02-09 华南师范大学 一种组合商标图像检索方法
CN114329024A (zh) * 2021-12-30 2022-04-12 杭州每刻科技有限公司 一种iconfont图标搜索方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013041599A (ja) * 2012-10-05 2013-02-28 Rakuten Inc 画像検索エンジン
CN105844669A (zh) * 2016-03-28 2016-08-10 华中科技大学 一种基于局部哈希特征的视频目标实时跟踪方法
CN111563180A (zh) * 2020-04-08 2020-08-21 西北工业大学 一种基于深度哈希方法的商标图像检索方法
CN112347284A (zh) * 2020-09-16 2021-02-09 华南师范大学 一种组合商标图像检索方法
CN114329024A (zh) * 2021-12-30 2022-04-12 杭州每刻科技有限公司 一种iconfont图标搜索方法和系统

Also Published As

Publication number Publication date
CN115048543A (zh) 2022-09-13

Similar Documents

Publication Publication Date Title
RU2686590C1 (ru) Способ и устройство для сравнения схожих элементов высокоразмерных признаков изображений
CN107229668B (zh) 一种基于关键词匹配的正文抽取方法
CN106033416B (zh) 一种字符串处理方法及装置
EP2657884B1 (en) Identifying multimedia objects based on multimedia fingerprint
CN103136228A (zh) 一种图片搜索方法以及图片搜索装置
CN110929125A (zh) 搜索召回方法、装置、设备及其存储介质
CN106372202B (zh) 文本相似度计算方法及装置
CN109933502B (zh) 电子装置、用户操作记录的处理方法和存储介质
CN112559526A (zh) 数据表导出方法、装置、计算机设备及存储介质
CN111224923A (zh) 一种仿冒网站的检测方法、装置及系统
CN112364014A (zh) 数据查询方法、装置、服务器及存储介质
CN106878242B (zh) 一种确定用户身份类别的方法及装置
CN112990792B (zh) 一种侵权风险自动化检测方法、装置和电子设备
CN110019193B (zh) 相似帐号识别方法、装置、设备、系统及可读介质
CN117216239A (zh) 文本去重方法、装置、计算机设备及存储介质
CN112487181B (zh) 关键词确定方法和相关设备
CN117423124A (zh) 基于表格图像的表格数据处理方法和装置、设备及介质
CN115048543B (zh) 图像相似判断方法、图像搜索方法及设备
CN113821630A (zh) 一种数据聚类的方法和装置
CN110855635A (zh) Url识别方法、装置及数据处理设备
CN112328779B (zh) 训练样本构建方法、装置、终端设备及存储介质
CN114282119A (zh) 一种基于异构信息网络的科技信息资源检索方法及系统
CN114528908A (zh) 网络请求数据分类模型训练方法、分类方法及存储介质
CN111597368A (zh) 一种数据处理方法及装置
CN112100670A (zh) 一种基于大数据的隐私数据分级保护方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant