CN113139653A - 用于图像哈希求解的神经网络训练方法及装置 - Google Patents
用于图像哈希求解的神经网络训练方法及装置 Download PDFInfo
- Publication number
- CN113139653A CN113139653A CN202110291179.0A CN202110291179A CN113139653A CN 113139653 A CN113139653 A CN 113139653A CN 202110291179 A CN202110291179 A CN 202110291179A CN 113139653 A CN113139653 A CN 113139653A
- Authority
- CN
- China
- Prior art keywords
- image
- neural network
- loss
- training
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 254
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 41
- 238000003062 neural network model Methods 0.000 claims abstract description 186
- 230000006870 function Effects 0.000 claims description 192
- 230000004913 activation Effects 0.000 claims description 78
- 238000004364 calculation method Methods 0.000 claims description 60
- 230000015654 memory Effects 0.000 claims description 17
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 230000003213 activating effect Effects 0.000 claims description 5
- 239000000463 material Substances 0.000 description 15
- 238000012512 characterization method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 239000000047 product Substances 0.000 description 4
- 239000012612 commercial material Substances 0.000 description 3
- 239000013065 commercial product Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种用于图像哈希求解的神经网络训练方法及装置,该方法包括:确定训练图像数据集;确定目标神经网络模型的网络架构;所述目标神经网络模型的网络架构用于求解出成对损失、分类损失和余弦损失;确定目标神经网络模型的损失函数;所述损失函数为根据所述成对损失、所述分类损失和所述余弦损失确定出的;将所述训练图像数据集输入至所述目标神经网络模型中进行迭代训练,直至所述损失函数收敛,得到训练后的目标神经网络模型。可见,本发明能够优化神经网络模型的架构,使得神经网络模型在训练时快速收敛,且后续在应用在图像哈希值求解时能够求解得到表征能力更高的哈希值。
Description
技术领域
本发明涉及神经网络技术领域,尤其涉及一种用于图像哈希求解的神经网络训练方法及装置。
背景技术
在现有的商业模式中,图像往往比文字更有吸引力,其展示和推广效果更加显著。因此,如何利用图像为用户进行商业素材的推荐显得尤为重要。然而,要做到在大量图像中进行实时的推荐,需要对图像进行精准的特征提取,同时要使其提取出的特征能保证尽量多的信息量和尽量少的特征维度。传统的图像特征提取算法并不能满足这样的要求,而近些年兴起的深度学习神经网络,更多的是提取图像的浮点特征,导致搜索时间过长,在满足精度的要求却不能满足实时的要求。因此,用于图像哈希求解的神经网络模型开始进入研究者的视野。这类神经网络能自动学习到图像的二值化特征,在减少搜索时间的同时能满足精度的要求,是利用图像进行素材推荐的理想选择。
但是现今众多的用于图像哈希求解的神经网络模型中,往往直接使用单一的损失函数来训练网络,这样的训练方式难以收敛,且效果并不好。
发明内容
本发明所要解决的技术问题在于,提供一种用于图像哈希求解的神经网络训练确定方法及装置,能够优化神经网络模型的架构,使其可以计算图像间的多种损失,并将损失函数确定为多种损失的结合,从而能够使得神经网络模型在训练时快速收敛,且后续在应用在图像哈希值求解时能够求解得到表征能力更高的哈希值。
为了解决上述技术问题,本发明第一方面公开了一种用于图像哈希求解的神经网络训练方法,所述方法包括:
确定训练图像数据集;所述训练图像数据集包括有多组训练图像组;每一组所述训练图像组包括有多个训练图像;
确定目标神经网络模型的网络架构;所述目标神经网络模型的网络架构用于求解出所述训练图像数据集中的每一组所述训练图像组中的多个训练图像之间的成对损失、分类损失和余弦损失;
确定目标神经网络模型的损失函数;所述损失函数为根据所述成对损失、所述分类损失和所述余弦损失确定出的;
将所述训练图像数据集输入至所述目标神经网络模型中进行迭代训练,直至所述损失函数收敛,得到训练后的目标神经网络模型;所述训练后的目标神经网络模型用于求解图像的哈希值。
作为一种可选的实施方式,在本发明第一方面中,每一组所述训练图像组包括有目标训练图像、相似训练图像和区别训练图像;所述相似训练图像与所述目标训练图像的图像属性相同;所述区别训练图像与所述目标训练图像的图像属性不同。
作为一种可选的实施方式,在本发明第一方面中,所述确定目标神经网络模型的网络架构,包括:
确定目标神经网络模型的网络架构为包括有卷积层、第一全连接层、tanh激活函数、sigmoid激活函数、第二全连接层、softmax激活函数、用于计算所述成对损失的成对损失计算函数、用于计算所述分类损失的分类损失计算函数和用于计算所述余弦损失的余弦损失计算函数;
其中,所述卷积层的输入为所述目标神经网络模型的输入,所述卷积层的输出连接至所述第一全连接层的输入,所述第一全连接层的输出分别连接至所述tanh激活函数和所述sigmoid激活函数的输入,所述tanh激活函数的输出连接至所述成对损失计算函数,所述sigmoid激活函数的输出连接至所述第二全连接层的输入,所述第二全连接层的输出分别连接至softmax激活函数的输入和所述余弦损失计算函数;所述softmax激活函数的输出连接至所述分类损失计算函数。
作为一种可选的实施方式,在本发明第一方面中,所述成对损失计算函数基于以下公式计算所述成对损失:
Lpaired=sijLsimilar+(1-sij)Ldissimilar;
其中,Lpaired为当前计算的图像对的所述成对损失,Ldissimilar为当前计算的图像对的不相似损失,Lsimilar为当前计算的图像对的相似损失,sij在当前计算的图像对为相似图像对时为1,sij在当前计算的图像对为区别图像对时为0,所述相似图像对由所述相似训练图像与所述目标训练图像组成,所述区别图像对由所述区别训练图像与所述目标训练图像组成;<fi,fj>为当前计算的图像对包括的两个成对图像分别对应的第一特征信息fi和fj的内积;所述第一特征信息为所述tanh激活函数输出的对应于所述成对图像的特征信息;
和/或,所述分类损失计算函数为交叉熵损失计算函数;
和/或,所述余弦损失计算函数基于以下公式计算所述余弦损失:
Lcosine=sij(cos<hi,hj>-1)2+(1-sij)(cos<hi,hj>+1)2;
其中,Lcosine为当前计算的图像对的所述余弦损失,<hi,hj>为当前计算的图像对包括的两个余弦图像分别对应的第二特征信息hi和hj的余弦距离;所述第一特征信息为所述第二全连接层输出的对应于所述余弦图像的特征信息。
作为一种可选的实施方式,在本发明第一方面中,所述确定目标神经网络模型的损失函数,包括:
确定目标神经网络模型的损失函数为:
L=Lpaired+αLclassify+βLcosine;
其中,L为所述目标神经网络模型的损失函数,Lpaired为所述成对损失,Lclassify为所述分类损失,α为所述分类损失的系数,Lcosine为所述余弦损失,β为所述余弦损失的系数。
作为一种可选的实施方式,在本发明第一方面中,所述方法还包括:
将检索图像和多个匹配图像输入至所述训练后的目标神经网络模型,以求解得到所述检索图像和所述多个匹配图像的哈希值;
根据所述检索图像的哈希值,和所述多个匹配图像的哈希值,从所述多个匹配图像中确定出至少一个与所述检索图像相似的匹配图像作为所述检索图像对应的推荐图像。
作为一种可选的实施方式,在本发明第一方面中,所述将检索图像和多个匹配图像输入至所述训练后的目标神经网络模型,以求解得到所述检索图像和所述多个匹配图像的哈希值,包括:
将检索图像和多个匹配图像中的任一图像输入至所述训练后的目标神经网络模型;
获取所述训练后的目标神经网络模型中所述sigmoid激活函数输出的特征信息;
对所述特征信息进行哈希转化处理,得到所述检索图像和多个匹配图像中的任一图像的哈希值。
本发明第二方面公开了一种用于图像哈希求解的神经网络训练装置,所述装置包括:
第一确定模块,用于确定训练图像数据集;所述训练图像数据集包括有多组训练图像组;每一组所述训练图像组包括有多个训练图像;
第二确定模块,用于确定目标神经网络模型的网络架构;所述目标神经网络模型的网络架构用于求解出所述训练图像数据集中的每一组所述训练图像组中的多个训练图像之间的成对损失、分类损失和余弦损失;
第三确定模块,用于确定目标神经网络模型的损失函数;所述损失函数为根据所述成对损失、所述分类损失和所述余弦损失确定出的;
训练模块,用于将所述训练图像数据集输入至所述目标神经网络模型中进行迭代训练,直至所述损失函数收敛,得到训练后的目标神经网络模型;所述训练后的目标神经网络模型用于求解图像的哈希值。
作为一种可选的实施方式,在本发明第二方面中,每一组所述训练图像组包括有目标训练图像、相似训练图像和区别训练图像;所述相似训练图像与所述目标训练图像的图像属性相同;所述区别训练图像与所述目标训练图像的图像属性不同。
作为一种可选的实施方式,在本发明第二方面中,所述第二确定模块确定目标神经网络模型的网络架构的具体方式,包括:
确定目标神经网络模型的网络架构为包括有卷积层、第一全连接层、tanh激活函数、sigmoid激活函数、第二全连接层、softmax激活函数、用于计算所述成对损失的成对损失计算函数、用于计算所述分类损失的分类损失计算函数和用于计算所述余弦损失的余弦损失计算函数;
其中,所述卷积层的输入为所述目标神经网络模型的输入,所述卷积层的输出连接至所述第一全连接层的输入,所述第一全连接层的输出分别连接至所述tanh激活函数和所述sigmoid激活函数的输入,所述tanh激活函数的输出连接至所述成对损失计算函数,所述sigmoid激活函数的输出连接至所述第二全连接层的输入,所述第二全连接层的输出分别连接至softmax激活函数的输入和所述余弦损失计算函数;所述softmax激活函数的输出连接至所述分类损失计算函数。
作为一种可选的实施方式,在本发明第二方面中,所述成对损失计算函数基于以下公式计算所述成对损失:
Lpaired=sijLsimilar+(1-sij)Ldissimilar;
其中,Lpaired为当前计算的图像对的所述成对损失,Ldissimilar为当前计算的图像对的不相似损失,Lsimilar为当前计算的图像对的相似损失,sij在当前计算的图像对为相似图像对时为1,sij在当前计算的图像对为区别图像对时为0,所述相似图像对由所述相似训练图像与所述目标训练图像组成,所述区别图像对由所述区别训练图像与所述目标训练图像组成;<fi,fj>为当前计算的图像对包括的两个成对图像分别对应的第一特征信息fi和fj的内积;所述第一特征信息为所述tanh激活函数输出的对应于所述成对图像的特征信息;
和/或,所述分类损失计算函数为交叉熵损失计算函数;
和/或,所述余弦损失计算函数基于以下公式计算所述余弦损失:
Lcosine=sij(cos<hi,hj>-1)2+(1-sij)(cos<hi,hj>+1)2;
其中,Lcosine为当前计算的图像对的所述余弦损失,<hi,hj>为当前计算的图像对包括的两个余弦图像分别对应的第二特征信息hi和hj的余弦距离;所述第一特征信息为所述第二全连接层输出的对应于所述余弦图像的特征信息。
作为一种可选的实施方式,在本发明第二方面中,所述第三确定模块确定目标神经网络模型的损失函数的具体方式,包括:
确定目标神经网络模型的损失函数为:
L=Lpaired+αLclassify+βLcosine;
其中,L为所述目标神经网络模型的损失函数,Lpaired为所述成对损失,Lclassify为所述分类损失,α为所述分类损失的系数,Lcosine为所述余弦损失,β为所述余弦损失的系数。
作为一种可选的实施方式,在本发明第二方面中,所述装置还包括:
求解模块,用于将检索图像和多个匹配图像输入至所述训练后的目标神经网络模型,以求解得到所述检索图像和所述多个匹配图像的哈希值;
推荐模块,用于根据所述检索图像的哈希值,和所述多个匹配图像的哈希值,从所述多个匹配图像中确定出至少一个与所述检索图像相似的匹配图像作为所述检索图像对应的推荐图像。
作为一种可选的实施方式,在本发明第二方面中,所述求解模块将检索图像和多个匹配图像输入至所述训练后的目标神经网络模型,以求解得到所述检索图像和所述多个匹配图像的哈希值的具体方式,包括:
将检索图像和多个匹配图像中的任一图像输入至所述训练后的目标神经网络模型;
获取所述训练后的目标神经网络模型中所述sigmoid激活函数输出的特征信息;
对所述特征信息进行哈希转化处理,得到所述检索图像和多个匹配图像中的任一图像的哈希值。
本发明第三方面公开了另一种用于图像哈希求解的神经网络训练装置,所述装置包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明实施例第一方面公开的用于图像哈希求解的神经网络训练方法中的部分或全部步骤。
本发明实施例第四方面公开了一种计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明实施例第一方面公开的用于图像哈希求解的神经网络训练方法中的部分或全部步骤。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例中,确定训练图像数据集;所述训练图像数据集包括有多组训练图像组;每一组所述训练图像组包括有多个训练图像;确定目标神经网络模型的网络架构;所述目标神经网络模型的网络架构用于求解出所述训练图像数据集中的每一组所述训练图像组中的多个训练图像之间的成对损失、分类损失和余弦损失;确定目标神经网络模型的损失函数;所述损失函数为根据所述成对损失、所述分类损失和所述余弦损失确定出的;将所述训练图像数据集输入至所述目标神经网络模型中进行迭代训练,直至所述损失函数收敛,得到训练后的目标神经网络模型;所述训练后的目标神经网络模型用于求解图像的哈希值。可见,本发明能够优化神经网络模型的架构使其可以计算图像间的多种损失,并将损失函数确定为多种损失的结合,从而能够使得神经网络模型在训练时快速收敛,且后续在应用在图像哈希值求解时能够求解得到表征能力更高的哈希值。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种用于图像哈希求解的神经网络训练方法的流程示意图;
图2是本发明实施例公开的另一种用于图像哈希求解的神经网络训练方法的流程示意图;
图3是本发明实施例公开的一种用于图像哈希求解的神经网络训练装置的结构示意图;
图4是本发明实施例公开的另一种用于图像哈希求解的神经网络训练装置的结构示意图;
图5是本发明实施例公开的又一种用于图像哈希求解的神经网络训练装置的结构示意图。
图6是本发明实施例公开的一种用于图像哈希求解的神经网络模型的网络结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明公开了一种用于图像哈希求解的神经网络训练方法及装置,能够优化神经网络模型的架构使其可以计算图像间的多种损失,并将损失函数确定为多种损失的结合,从而能够使得神经网络模型在训练时快速收敛,且后续在应用在图像哈希值求解时能够求解得到表征能力更高的哈希值。以下分别进行详细说明。
实施例一
请参阅图1,图1是本发明实施例公开的一种用于图像哈希求解的神经网络训练方法的流程示意图。其中,图1所描述的方法应用于神经网络模型的训练装置中,该训练装置可以是相应的训练终端、训练设备或服务器,且该服务器可以是本地服务器,也可以是云服务器,本发明实施例不做限定。如图1所示,该用于图像哈希求解的神经网络训练方法可以包括以下操作:
101、确定训练图像数据集。
本发明实施例中,训练图像数据集包括有多组训练图像组,其中,每一训练图像组包括有多个训练图像。可选的,该训练图像可以为与后续的图像推荐应用场景中的检索图像或匹配图像相关的图像,此处的相关可以为图像类别、图像内容或图像风格的相似。
102、确定目标神经网络模型的网络架构。
本发明实施例中,目标神经网络模型的网络架构用于求解出训练图像数据集中的每一组训练图像组中的多个训练图像之间的成对损失、分类损失和余弦损失。
103、确定目标神经网络模型的损失函数。
本发明实施例中,损失函数为根据成对损失、分类损失和余弦损失确定出的。可选的,损失函数可以为包含有成对损失、分类损失和余弦损失的关系式。通过这样设置,损失函数中的分类损失有助于帮助后续目标神经网络模型的训练时的快速收敛,而损失函数中的成对损失和余弦损失则可以使得训练后的目标神经网络模型用于求解图像的哈希值时可以得到具有更高辨识度的哈希值,以用于更好地表征对应图像的特征信息。
104、将训练图像数据集输入至目标神经网络模型中进行迭代训练,直至损失函数收敛,得到训练后的目标神经网络模型。
本发明实施例中,训练后的目标神经网络模型用于求解图像的哈希值。
可见,实施本发明实施例所描述的方法能够优化神经网络模型的架构使其可以计算图像间的多种损失,并将损失函数确定为多种损失的结合,从而能够使得神经网络模型在训练时快速收敛,且后续在应用在图像哈希值求解时能够求解得到表征能力更高的哈希值。
在一个可选的实施方式中,每一组训练图像组包括有目标训练图像、相似训练图像和区别训练图像。其中,相似训练图像与目标训练图像的图像属性相同,区别训练图像与目标训练图像的图像属性不同。
本发明实施例中,图像属性可以为图像的类别或特征,可选的,图像属性可以包括但不限于图像的色彩风格、图像的画面布局、图像的内容或图像的参数等客观的或主观的图像特征,本发明不做限定。
可见,通过实施该可选的实施方式,为每一组训练图像设置了目标训练图像、相似训练图像和区别训练图像,从而便于后续在计算不同图像对的分类损失或成对损失提供了数据基础,进而有利于目标神经网络模型的训练。
在另一个可选的实施方式中,步骤101中的,确定训练图像数据集,可以包括:
获取目标用户集合对应的历史图像检索属性数据,根据历史图像检索属性数据确定目标用户集合对应的图像检索属性;
将图像检索属性确定为图像属性,并基于确定出的图像属性,确定训练图像数据集。
本发明实施例中,历史图像检索属性数据为目标用户集合中的目标用户在检索图像时输入的图像属性。
本发明实施例中,该目标用户集合为目标神经网络模型对应的目标服务用户集合中的一个或多个目标服务用户。其中,目标服务用户被设定为将使用包括目标神经网络模型在内的软件或硬件进行图像哈希值求解和/或图像推荐的用户。
可见,实施该可选的实施方式能够根据目标用户集合对应的历史图像检索属性数据确定目标用户集合对应的图像检索属性,以根据该图像检索属性确定训练图像数据集,从而使得后续通过该训练图像数据集训练得到的目标神经网络模型能够更好针对目标用户集合的图像检索需求来进行图像哈希值的求解。
在又一个可选的实施方式中,上述步骤中的,根据历史图像检索属性数据确定目标用户集合对应的图像检索属性,可以包括:
根据历史图像检索属性数据中包括的目标用户集合中的多个目标用户在目标历史时间段的图像检索属性数据,确定出目标图像检索属性;
将确定出的目标图像检索属性,确定为目标用户集合对应的图像检索属性。
在该可选的实施方式中,该目标图像检索属性为多个目标用户在目标历史时间段的图像检索属性数据中出现次数最多的图像属性。
可见,实施该可选的实施方式,根据历史图像检索属性数据中包括的目标用户集合中的多个目标用户在目标历史时间段的图像检索属性数据,确定出其中出现次数最多的图像属性,有利于精确确定出目标用户集合对应的图像检索属性,从而使得后续通过基于该图像检索属性的训练图像数据集训练得到的目标神经网络模型能够更好针对目标用户集合的图像检索需求来进行图像哈希值的求解。
在又一个可选的实施方式中,步骤102中,确定目标神经网络模型的网络架构,包括:
确定目标神经网络模型的网络架构为包括有卷积层、第一全连接层、tanh激活函数、sigmoid激活函数、第二全连接层、softmax激活函数、用于计算成对损失的成对损失计算函数、用于计算分类损失的分类损失计算函数和用于计算余弦损失的余弦损失计算函数。
本发明实施例中,参见图6示出的目标神经网络模型的网络结构,其中,卷积层的输入为目标神经网络模型的输入,用于接收训练图像数据集或后续的检索图像以进行卷积操作。需要注意的是,本发明中所述的卷积层并不意味着该结构只有一层卷积结构,本领域技术人员知悉神经网络中的卷积层可以为多种卷积层次设置,在此不再赘述。可选的,卷积层的结构可以为ResNet、DenseNet或EfficientNet等卷积网络结构,本发明不做限定。
具体的,卷积层的输出连接至第一全连接层的输入,第一全连接层的输出分别连接至tanh激活函数和sigmoid激活函数的输入,其中tanh激活函数可以为带系数的tanh激活函数,用于基于以下公式将第一全连接层输出的特征映射到(-1,1)区间:
σ(x)=[e(ax)-e(-ax)]/[e(ax)+e(-ax)];
其中,σ(x)为tanh激活函数的输出特征,e为自然对数,a为tanh激活函数的系数,随着目标神经网络模型的迭代训练次数增加,a使得σ(x)逼近-1或1,x为第一全连接层的输出特征。
具体的,tanh激活函数的输出连接至成对损失计算函数,以使得成对损失计算函数根据tanh激活函数的输出特征进行成对损失的计算。
其中,sigmoid激活函数可以为带系数的sigmoid激活函数,用于基于以下公式将第一全连接层输出的特征映射到(0,1)区间:
具体的,sigmoid激活函数的输出连接至第二全连接层的输入,第二全连接层的输出分别连接至softmax激活函数的输入和余弦损失计算函数,其中softmax激活函数用于将第二全连接层的输出特征缩放成处于区间(0,1)的特征概率信息,并将特征概率信息输出连接至分类损失计算函数。
可见,实施该可选的实施方式确定出的目标神经网络模型的网络架构,能够有效对输入的训练数据集的多种损失进行计算,以得到训练数据集中的尽可能多的图像特征,从而得到的多种损失,可以用于后续神经网络模型的训练收敛,为后续的神经网络模型训练以及图像哈希值求解建立基础。
在一个可选的实施方式中,成对损失计算函数基于以下公式计算成对损失:
Lpaired=sijLsimilar+(1-sij)Ldissimilar;
其中,Lpaired为当前计算的图像对的成对损失,Ldissimilar为当前计算的图像对的不相似损失,Lsimilar为当前计算的图像对的相似损失,sij在当前计算的图像对为相似图像对时为1,sij在当前计算的图像对为区别图像对时为0,相似图像对由相似训练图像与目标训练图像组成,区别图像对由区别训练图像与目标训练图像组成;<fi,fj>为当前计算的图像对包括的两个成对图像分别对应的第一特征信息fi和fj的内积;第一特征信息为tanh激活函数输出的对应于所述成对图像的特征信息。
本发明实施例中,当前计算的图像对用于指代当前计算的成对损失所针对的图像对,该图像对可以为相似图像对或区别图像对。具体的,第一特征信息为输入的该图像对中的图像经过神经网络模型的网络架构的处理,从tanh激活函数输出的特征信息,由上面的阐述可知,该第一特征信息被映射至(-1,1)区间,以便于成对损失计算函数的计算。
可见,实施本可选的实施方式,可以基于成对损失计算公式计算当前计算的图像对的成对损失,从而可以基于成对损失减少相似图像对的特征之间的汉明距离,以及增加区别图像对的特征之间的汉明距离,进而使得后续基于该目标神经网络模型得到的图像哈希值能够具有更高的表征能力。
在一个可选的实施方式中,分类损失计算函数为交叉熵损失计算函数,具体的,其基于以下公式进行分类损失的计算:
Lclassify=-ylog(yi);
其中,Lclassify为当前计算的图像的分类损失,y为当前计算的图像的标签,yi为softmax激活函数输出的对应于当前计算的图像的特征概率信息,由上可知,该特征概率信息处于区间(0,1)。
可见,实施本可选的实施方式,可以基于分类损失计算公式计算当前计算的图像的分类损失,从而可以增强图像的判别特征,进而使得后续基于包括有该分类损失的损失函数的该目标神经网络模型的训练的收敛速度得到提高。
在一个可选的实施方式中,余弦损失计算函数基于以下公式计算余弦损失:
Lcosine=sij(cos<hi,hj>-1)2+(1-sij)(cos<hi,hj>+1)2;
其中,Lcosine为当前计算的图像对的余弦损失,sij在当前计算的图像对为相似图像对时为1,sij在当前计算的图像对为区别图像对时为0,相似图像对由相似训练图像与目标训练图像组成,区别图像对由区别训练图像与目标训练图像组成,<hi,hj>为当前计算的图像对包括的两个余弦图像分别对应的第二特征信息hi和hj的余弦距离;第一特征信息为第二全连接层输出的对应于余弦图像的特征信息。
需要注意的是,本发明实施例中所述的余弦图像即训练图像,其名称是为了区别于成对图像或其他图像,用于表征其是用于计算余弦损失的图像对中的训练图像,而并非用于指示图像的余弦特性或属性。
可见,实施本可选的实施方式,可以基于余弦损失计算公式计算当前计算的图像对的余弦损失,从而可以调整图像对的特征之间的向量角度,减小相似图像对之间的向量角度,增加区别图像对之间的向量角度,进而使得后续基于该目标神经网络模型得到的图像哈希值能够具有更高的表征能力。
在一个可选的实施方式中,步骤103中,确定目标神经网络模型的损失函数,包括:
确定目标神经网络模型的损失函数为:
L=Lpaired+αLclassify+βLcosine;
其中,L为目标神经网络模型的损失函数,Lpaired为成对损失,Lclassify为分类损失,α为分类损失的系数,Lcosine为余弦损失,β为余弦损失的系数。
本发明实施例中,该目标神经网络模型的损失函数用于在迭代目标神经网络模型过程中被最小化,以驱动目标神经网络模型的收敛,并得到训练后的目标神经网络模型。
可见,实施本可选的实施方式,能够将目标神经网络模型的损失函数确定为多种损失的结合,从而能够使得神经网络模型在训练时快速收敛,且后续在应用在图像哈希值求解时能够求解得到表征能力更高的哈希值。
实施例二
请参阅图2,图2是本发明实施例公开的另一种用于图像哈希求解的神经网络训练方法的流程示意图。其中,图2所描述的方法应用于神经网络模型的训练装置中,该训练装置可以是相应的训练终端、训练设备或服务器,且该服务器可以是本地服务器,也可以是云服务器,本发明实施例不做限定。如图2所示,该用于图像哈希求解的神经网络训练方法可以包括以下操作:
201、确定训练图像数据集。
202、确定目标神经网络模型的网络架构。
203、确定目标神经网络模型的损失函数。
204、将训练图像数据集输入至目标神经网络模型中进行迭代训练,直至损失函数收敛,得到训练后的目标神经网络模型。
上述步骤201-204的具体的技术细节和技术名词解释,可以参照实施一中对步骤101-104的表述,在此不再赘述。
205、将检索图像和多个匹配图像输入至训练后的目标神经网络模型,以求解得到检索图像和多个匹配图像的哈希值。
本发明实施例中,检索图像为进行图像推荐时的基础图像,其可以为用户通过预设的输入路径输入的,或根据用户的历史浏览数据自动确定的,例如,可以获取用户的历史浏览数据,并从用户的历史浏览数据中确定出用户的浏览频次和/或浏览回顾次数和/或搜索频次和/或购买频次最高的商业素材对应的图像数据,并将该图像数据确定为检索图像。
本发明实施例中,商业素材可以为商业商品或商业服务,在此不作限定。
本发明实施例中,多个匹配图像为进行图像推荐时,用于与检索图像进行比对的待确定图像数据集合中的图像,其可以为预先储存好的图像素材库,也可以为临时从网络获取的图像素材,在此不做限定。
206、根据检索图像的哈希值,和多个匹配图像的哈希值,从多个匹配图像中确定出至少一个与检索图像相似的匹配图像作为检索图像对应的推荐图像。
可见,本发明实施例能够基于训练后的目标神经网络模型计算检索图像和多个匹配图像的哈希值,并基于图像的哈希值进行图像素材的推荐,从而能够基于该目标神经网络模型的训练特性提高计算出的图像哈希值的表征能力,进而提高图像素材推荐的精确度和高效性。
在另一个可选的实施方式中,步骤205中,将检索图像和多个匹配图像输入至训练后的目标神经网络模型,以求解得到检索图像和多个匹配图像的哈希值,包括:
将检索图像和多个匹配图像中的任一图像输入至训练后的目标神经网络模型;
获取训练后的目标神经网络模型中sigmoid激活函数输出的特征信息;
对该特征信息进行哈希转化处理,得到检索图像和多个匹配图像中的任一图像的哈希值。
需要注意的是,本可选的实施方式中的训练后的目标神经网络模型的网络架构,与训练前的目标神经网络模型的网络架构无异,只是其将sigmoid激活函数输出的特征信息作为网络输出以进行哈希转化处理,本领域技术人员知悉神经网络的网络架构并不被训练所改变,在此不再赘述。
可选的,对该特征信息进行哈希转化处理,可以包括:
将该特征信息中的所有数值中大于预设的数值阈值的数值确定为第一值,将该特征信息中的所有数值中小于数值阈值的数值确定为第二值,将所有第一值和第二值依据对应的数值在该特征信息中的位置进行排序,以得到该特征信息对应的哈希值。
本可选的实施方式中,如实施例一中对目标神经网络模型的网络架构的阐述,sigmoid激活函数输出的特征信息中的所有值处于(0,1)区间,因此可以只需将大于0.5的值置为1,小于0.5的值置为0,以得到特征信息的哈希值。
可见,该可选的实施方式能够获取训练后的目标神经网络模型中sigmoid激活函数输出的特征信息,并对该特征信息进行哈希转化处理,得到对应的哈希值,从而能够基于该目标神经网络模型的网络结构特性提高计算出的图像哈希值的表征能力,进而提高后续基于该哈希值的图像素材推荐的精确度和高效性。
在又一个可选的实施方式中,步骤206中,根据检索图像的哈希值,和多个匹配图像的哈希值,从多个匹配图像中确定出至少一个与检索图像相似的匹配图像作为检索图像对应的推荐图像,包括:
计算检索图像与多个匹配图像中的任一匹配图像之间的汉明距离信息;
将多个匹配图像中,与检索图像之间的汉明距离信息最小的预设数量个匹配图像,确定为检索图像对应的推荐图像。
本发明实施例中,汉明距离信息为检索图像与任一匹配图像的哈希值之间的汉明距离。
可见,该可选的实施方式能够将多个匹配图像中,与检索图像之间的汉明距离信息最小的预设数量个匹配图像确定为检索图像对应的推荐图像,从而能够基于该目标神经网络模型的图像哈希值的高表征能力,提高计算出的图像间的汉明距离信息对图像相似度的表征能力,进而提高图像素材推荐的精确度和高效性。
实施例三
请参阅图3,图3是本发明实施例公开的一种用于图像哈希求解的神经网络训练装置的结构示意图。其中,图3所描述的装置可以应用于相应的训练终端、训练设备或服务器,且该服务器可以是本地服务器,也可以是云服务器,本发明实施例不做限定。如图3所示,该装置可以包括:
第一确定模块301,用于确定训练图像数据集。
本发明实施例中,训练图像数据集包括有多组训练图像组,其中,每一训练图像组包括有多个训练图像。可选的,该训练图像可以为与后续的图像推荐应用场景中的检索图像或匹配图像相关的图像,此处的相关可以为图像类别、图像内容或图像风格的相似。
第二确定模块302,用于确定目标神经网络模型的网络架构。
本发明实施例中,目标神经网络模型的网络架构用于求解出训练图像数据集中的每一组训练图像组中的多个训练图像之间的成对损失、分类损失和余弦损失。
第三确定模块303,用于确定目标神经网络模型的损失函数。
本发明实施例中,损失函数为根据成对损失、分类损失和余弦损失确定出的。可选的,损失函数可以为包含有成对损失、分类损失和余弦损失的关系式。通过这样设置,损失函数中的分类损失有助于帮助后续目标神经网络模型的训练时的快速收敛,而损失函数中的成对损失和余弦损失则可以使得训练后的目标神经网络模型用于求解图像的哈希值时可以得到具有更高辨识度的哈希值,以用于更好地表征对应图像的特征信息。
训练模块304,用于将训练图像数据集输入至目标神经网络模型中进行迭代训练,直至损失函数收敛,得到训练后的目标神经网络模型。
本发明实施例中,训练后的目标神经网络模型用于求解图像的哈希值。
可见,实施本发明实施例所描述的装置能够优化神经网络模型的架构使其可以计算图像间的多种损失,并将损失函数确定为多种损失的结合,从而能够使得神经网络模型在训练时快速收敛,且后续在应用在图像哈希值求解时能够求解得到表征能力更高的哈希值。
作为一种可选的实施方式,每一组训练图像组包括有目标训练图像、相似训练图像和区别训练图像。其中,相似训练图像与目标训练图像的图像属性相同,区别训练图像与目标训练图像的图像属性不同。
本发明实施例中,图像属性可以为图像的类别或特征,可选的,图像属性可以包括但不限于图像的色彩风格、图像的画面布局、图像的内容或图像的参数等客观的或主观的图像特征,本发明不做限定。
可见,通过实施该可选的实施方式,为每一组训练图像设置了目标训练图像、相似训练图像和区别训练图像,从而便于后续在计算不同图像对的分类损失或成对损失提供了数据基础,进而有利于目标神经网络模型的训练。
在另一个可选的实施方式中,第一确定模块301确定训练图像数据集的具体方式,可以包括:
获取目标用户集合对应的历史图像检索属性数据,根据历史图像检索属性数据确定目标用户集合对应的图像检索属性;
将图像检索属性确定为图像属性,并基于确定出的图像属性,确定训练图像数据集。
本发明实施例中,历史图像检索属性数据为目标用户集合中的目标用户在检索图像时输入的图像属性。
本发明实施例中,该目标用户集合为目标神经网络模型对应的目标服务用户集合中的一个或多个目标服务用户。其中,目标服务用户被设定为将使用包括目标神经网络模型在内的软件或硬件进行图像哈希值求解和/或图像推荐的用户。
可见,实施该可选的实施方式能够根据目标用户集合对应的历史图像检索属性数据确定目标用户集合对应的图像检索属性,以根据该图像检索属性确定训练图像数据集,从而使得后续通过该训练图像数据集训练得到的目标神经网络模型能够更好针对目标用户集合的图像检索需求来进行图像哈希值的求解。
在又一个可选的实施方式中,第一确定模块301根据历史图像检索属性数据确定目标用户集合对应的图像检索属性的具体方式,可以包括:
根据历史图像检索属性数据中包括的目标用户集合中的多个目标用户在目标历史时间段的图像检索属性数据,确定出目标图像检索属性;
将确定出的目标图像检索属性,确定为目标用户集合对应的图像检索属性。
在该可选的实施方式中,该目标图像检索属性为多个目标用户在目标历史时间段的图像检索属性数据中出现次数最多的图像属性。
可见,实施该可选的实施方式,根据历史图像检索属性数据中包括的目标用户集合中的多个目标用户在目标历史时间段的图像检索属性数据,确定出其中出现次数最多的图像属性,有利于精确确定出目标用户集合对应的图像检索属性,从而使得后续通过基于该图像检索属性的训练图像数据集训练得到的目标神经网络模型能够更好针对目标用户集合的图像检索需求来进行图像哈希值的求解。
作为一种可选的实施方式,第二确定模块302确定目标神经网络模型的网络架构的具体方式,包括:
确定目标神经网络模型的网络架构为包括有卷积层、第一全连接层、tanh激活函数、sigmoid激活函数、第二全连接层、softmax激活函数、用于计算成对损失的成对损失计算函数、用于计算分类损失的分类损失计算函数和用于计算余弦损失的余弦损失计算函数。
本发明实施例中,参见图6示出的目标神经网络模型的网络结构,其中,卷积层的输入为目标神经网络模型的输入,用于接收训练图像数据集或后续的检索图像以进行卷积操作。需要注意的是,本发明中所述的卷积层并不意味着该结构只有一层卷积结构,本领域技术人员知悉神经网络中的卷积层可以为多种卷积层次设置,在此不再赘述。可选的,卷积层的结构可以为ResNet、DenseNet或EfficientNet等卷积网络结构,本发明不做限定。
具体的,卷积层的输出连接至第一全连接层的输入,第一全连接层的输出分别连接至tanh激活函数和sigmoid激活函数的输入,其中tanh激活函数可以为带系数的tanh激活函数,用于基于以下公式将第一全连接层输出的特征映射到(-1,1)区间:
σ(x)=[e(ax)-e(-ax)]/[e(ax)+e(-ax)];
其中,σ(x)为tanh激活函数的输出特征,e为自然对数,a为tanh激活函数的系数,随着目标神经网络模型的迭代训练次数增加,a使得σ(x)逼近-1或1,x为第一全连接层的输出特征。
具体的,tanh激活函数的输出连接至成对损失计算函数,以使得成对损失计算函数根据tanh激活函数的输出特征进行成对损失的计算。
其中,sigmoid激活函数可以为带系数的sigmoid激活函数,用于基于以下公式将第一全连接层输出的特征映射到(0,1)区间:
具体的,sigmoid激活函数的输出连接至第二全连接层的输入,第二全连接层的输出分别连接至softmax激活函数的输入和余弦损失计算函数,其中softmax激活函数用于将第二全连接层的输出特征缩放成处于区间(0,1)的特征概率信息,并将特征概率信息输出连接至分类损失计算函数。
可见,实施该可选的实施方式确定出的目标神经网络模型的网络架构,能够有效对输入的训练数据集的多种损失进行计算,以得到训练数据集中的尽可能多的图像特征,从而得到的多种损失,可以用于后续神经网络模型的训练收敛,为后续的神经网络模型训练以及图像哈希值求解建立基础。
在一个可选的实施方式中,成对损失计算函数基于以下公式计算成对损失:
Lpaired=sijLsimilar+(1-sij)Ldissimilar;
其中,Lpaired为当前计算的图像对的成对损失,Ldissimilar为当前计算的图像对的不相似损失,Lsimilar为当前计算的图像对的相似损失,sij在当前计算的图像对为相似图像对时为1,sij在当前计算的图像对为区别图像对时为0,相似图像对由相似训练图像与目标训练图像组成,区别图像对由区别训练图像与目标训练图像组成;<fi,fj>为当前计算的图像对包括的两个成对图像分别对应的第一特征信息fi和fj的内积;第一特征信息为tanh激活函数输出的对应于所述成对图像的特征信息。
本发明实施例中,当前计算的图像对用于指代当前计算的成对损失所针对的图像对,该图像对可以为相似图像对或区别图像对。具体的,第一特征信息为输入的该图像对中的图像经过神经网络模型的网络架构的处理,从tanh激活函数输出的特征信息,由上面的阐述可知,该第一特征信息被映射至(-1,1)区间,以便于成对损失计算函数的计算。
可见,实施本可选的实施方式,可以基于成对损失计算公式计算当前计算的图像对的成对损失,从而可以基于成对损失减少相似图像对的特征之间的汉明距离,以及增加区别图像对的特征之间的汉明距离,进而使得后续基于该目标神经网络模型得到的图像哈希值能够具有更高的表征能力。
在一个可选的实施方式中,分类损失计算函数为交叉熵损失计算函数,具体的,其基于以下公式进行分类损失的计算:
Lclassify=-ylog(yi);
其中,Lclassify为当前计算的图像的分类损失,y为当前计算的图像的标签,yi为softmax激活函数输出的对应于当前计算的图像的特征概率信息,由上可知,该特征概率信息处于区间(0,1)。
可见,实施本可选的实施方式,可以基于分类损失计算公式计算当前计算的图像的分类损失,从而可以增强图像的判别特征,进而使得后续基于包括有该分类损失的损失函数的该目标神经网络模型的训练的收敛速度得到提高。
在一个可选的实施方式中,余弦损失计算函数基于以下公式计算余弦损失:
Lcosine=sij(cos<hi,hj>-1)2+(1-sij)(cos<hi,hj>+1)2;
其中,Lcosine为当前计算的图像对的余弦损失,sij在当前计算的图像对为相似图像对时为1,sij在当前计算的图像对为区别图像对时为0,相似图像对由相似训练图像与目标训练图像组成,区别图像对由区别训练图像与目标训练图像组成,<hi,hj>为当前计算的图像对包括的两个余弦图像分别对应的第二特征信息hi和hj的余弦距离;第一特征信息为第二全连接层输出的对应于余弦图像的特征信息。
需要注意的是,本发明实施例中所述的余弦图像即训练图像,其名称是为了区别于成对图像或其他图像,用于表征其是用于计算余弦损失的图像对中的训练图像,而并非用于指示图像的余弦特性或属性。
可见,实施本可选的实施方式,可以基于余弦损失计算公式计算当前计算的图像对的余弦损失,从而可以调整图像对的特征之间的向量角度,减小相似图像对之间的向量角度,增加区别图像对之间的向量角度,进而使得后续基于该目标神经网络模型得到的图像哈希值能够具有更高的表征能力。
作为一种可选的实施方式,第三确定模块303确定目标神经网络模型的损失函数的具体方式,包括:
确定目标神经网络模型的损失函数为:
L=Lpaired+αLclassify+βLcosine;
其中,L为目标神经网络模型的损失函数,Lpaired为成对损失,Lclassify为分类损失,α为分类损失的系数,Lcosine为余弦损失,β为余弦损失的系数。
本发明实施例中,该目标神经网络模型的损失函数用于在迭代目标神经网络模型过程中被最小化,以驱动目标神经网络模型的收敛,并得到训练后的目标神经网络模型。
可见,实施本可选的实施方式,能够将目标神经网络模型的损失函数确定为多种损失的结合,从而能够使得神经网络模型在训练时快速收敛,且后续在应用在图像哈希值求解时能够求解得到表征能力更高的哈希值。
作为一种可选的实施方式,该装置还包括:
求解模块305,用于将检索图像和多个匹配图像输入至训练后的目标神经网络模型,以求解得到检索图像和多个匹配图像的哈希值。
本发明实施例中,检索图像为进行图像推荐时的基础图像,其可以为用户通过预设的输入路径输入的,或根据用户的历史浏览数据自动确定的,例如,可以获取用户的历史浏览数据,并从用户的历史浏览数据中确定出用户的浏览频次和/或浏览回顾次数和/或搜索频次和/或购买频次最高的商业素材对应的图像数据,并将该图像数据确定为检索图像。
本发明实施例中,商业素材可以为商业商品或商业服务,在此不作限定。
本发明实施例中,多个匹配图像为进行图像推荐时,用于与检索图像进行比对的待确定图像数据集合中的图像,其可以为预先储存好的图像素材库,也可以为临时从网络获取的图像素材,在此不做限定。
推荐模块306,用于根据检索图像的哈希值,和多个匹配图像的哈希值,从多个匹配图像中确定出至少一个与检索图像相似的匹配图像作为检索图像对应的推荐图像。
可见,本发明实施例能够基于训练后的目标神经网络模型计算检索图像和多个匹配图像的哈希值,并基于图像的哈希值进行图像素材的推荐,从而能够基于该目标神经网络模型的训练特性提高计算出的图像哈希值的表征能力,进而提高图像素材推荐的精确度和高效性。
作为一种可选的实施方式,求解模块305将检索图像和多个匹配图像输入至训练后的目标神经网络模型,以求解得到检索图像和多个匹配图像的哈希值的具体方式,包括:
将检索图像和多个匹配图像中的任一图像输入至训练后的目标神经网络模型;
获取训练后的目标神经网络模型中sigmoid激活函数输出的特征信息;
对特征信息进行哈希转化处理,得到检索图像和多个匹配图像中的任一图像的哈希值。
需要注意的是,本可选的实施方式中的训练后的目标神经网络模型的网络架构,与训练前的目标神经网络模型的网络架构无异,只是其将sigmoid激活函数输出的特征信息作为网络输出以进行哈希转化处理,可以参照图6,本领域技术人员知悉神经网络的网络架构并不被训练所改变,在此不再赘述。
可选的,求解模块305对该特征信息进行哈希转化处理的具体方式,可以包括:
将该特征信息中的所有数值中大于预设的数值阈值的数值确定为第一值,将该特征信息中的所有数值中小于数值阈值的数值确定为第二值,将所有第一值和第二值依据对应的数值在该特征信息中的位置进行排序,以得到该特征信息对应的哈希值。
本可选的实施方式中,如实施例一中对目标神经网络模型的网络架构的阐述,sigmoid激活函数输出的特征信息中的所有值处于(0,1)区间,因此可以只需将大于0.5的值置为1,小于0.5的值置为0,以得到特征信息的哈希值。
可见,该可选的实施方式能够获取训练后的目标神经网络模型中sigmoid激活函数输出的特征信息,并对该特征信息进行哈希转化处理,得到对应的哈希值,从而能够基于该目标神经网络模型的网络结构特性提高计算出的图像哈希值的表征能力,进而提高后续基于该哈希值的图像素材推荐的精确度和高效性。
在又一个可选的实施方式中,推荐模块306根据检索图像的哈希值,和多个匹配图像的哈希值,从多个匹配图像中确定出至少一个与检索图像相似的匹配图像作为检索图像对应的推荐图像的具体方式,包括:
计算检索图像与多个匹配图像中的任一匹配图像之间的汉明距离信息;
将多个匹配图像中,与检索图像之间的汉明距离信息最小的预设数量个匹配图像,确定为检索图像对应的推荐图像。
本发明实施例中,汉明距离信息为检索图像与任一匹配图像的哈希值之间的汉明距离。
可见,该可选的实施方式能够将多个匹配图像中,与检索图像之间的汉明距离信息最小的预设数量个匹配图像确定为检索图像对应的推荐图像,从而能够基于该目标神经网络模型的图像哈希值的高表征能力,提高计算出的图像间的汉明距离信息对图像相似度的表征能力,进而提高图像素材推荐的精确度和高效性。
实施例四
请参阅图5,图5是本发明实施例公开的又一种用于图像哈希求解的神经网络训练装置的结构示意图。如图5所示,该装置可以包括:
存储有可执行程序代码的存储器401;
与存储器401耦合的处理器402;
处理器402调用存储器401中存储的可执行程序代码,执行本发明实施例一或实施例二公开的用于图像哈希求解的神经网络训练方法中的部分或全部步骤。
实施例五
本发明实施例公开了一种计算机存储介质,该计算机存储介质存储有计算机指令,该计算机指令被调用时,用于执行本发明实施例一或实施例二公开的用于图像哈希求解的神经网络训练方法中的部分或全部步骤。
以上所描述的装置实施例仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
最后应说明的是:本发明实施例公开的一种用于图像哈希求解的神经网络训练方法及装置所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。
Claims (10)
1.一种用于图像哈希求解的神经网络训练方法,其特征在于,所述方法包括:
确定训练图像数据集;所述训练图像数据集包括有多组训练图像组;每一组所述训练图像组包括有多个训练图像;
确定目标神经网络模型的网络架构;所述目标神经网络模型的网络架构用于求解出所述训练图像数据集中的每一组所述训练图像组中的多个训练图像之间的成对损失、分类损失和余弦损失;
确定目标神经网络模型的损失函数;所述损失函数为根据所述成对损失、所述分类损失和所述余弦损失确定出的;
将所述训练图像数据集输入至所述目标神经网络模型中进行迭代训练,直至所述损失函数收敛,得到训练后的目标神经网络模型;所述训练后的目标神经网络模型用于求解图像的哈希值。
2.根据权利要求1所述的用于图像哈希求解的神经网络训练方法,其特征在于,每一组所述训练图像组包括有目标训练图像、相似训练图像和区别训练图像;所述相似训练图像与所述目标训练图像的图像属性相同;所述区别训练图像与所述目标训练图像的图像属性不同。
3.根据权利要求2所述的用于图像哈希求解的神经网络训练方法,其特征在于,所述确定目标神经网络模型的网络架构,包括:
确定目标神经网络模型的网络架构为包括有卷积层、第一全连接层、tanh激活函数、sigmoid激活函数、第二全连接层、softmax激活函数、用于计算所述成对损失的成对损失计算函数、用于计算所述分类损失的分类损失计算函数和用于计算所述余弦损失的余弦损失计算函数;
其中,所述卷积层的输入为所述目标神经网络模型的输入,所述卷积层的输出连接至所述第一全连接层的输入,所述第一全连接层的输出分别连接至所述tanh激活函数和所述sigmoid激活函数的输入,所述tanh激活函数的输出连接至所述成对损失计算函数,所述sigmoid激活函数的输出连接至所述第二全连接层的输入,所述第二全连接层的输出分别连接至softmax激活函数的输入和所述余弦损失计算函数;所述softmax激活函数的输出连接至所述分类损失计算函数。
4.根据权利要求3所述的用于图像哈希求解的神经网络训练方法,其特征在于,所述成对损失计算函数基于以下公式计算所述成对损失:
Lpaired=sijLsimilar+(1-sij)Ldissimilar;
其中,Lpaired为当前计算的图像对的所述成对损失,Ldissimilar为当前计算的图像对的不相似损失,Lsimilar为当前计算的图像对的相似损失,sij在当前计算的图像对为相似图像对时为1,sij在当前计算的图像对为区别图像对时为0,所述相似图像对由所述相似训练图像与所述目标训练图像组成,所述区别图像对由所述区别训练图像与所述目标训练图像组成;<fi,fj>为当前计算的图像对包括的两个成对图像分别对应的第一特征信息fi和fj的内积;所述第一特征信息为所述tanh激活函数输出的对应于所述成对图像的特征信息;
和/或,所述分类损失计算函数为交叉熵损失计算函数;
和/或,所述余弦损失计算函数基于以下公式计算所述余弦损失:
Lcosine=sij(cos<hi,hj>-1)2+(1-sij)(cos<hi,hj>+1)2;
其中,Lcosine为当前计算的图像对的所述余弦损失,<hi,hj>为当前计算的图像对包括的两个余弦图像分别对应的第二特征信息hi和hj的余弦距离;所述第一特征信息为所述第二全连接层输出的对应于所述余弦图像的特征信息。
5.根据权利要求1所述的用于图像哈希求解的神经网络训练方法,其特征在于,所述确定目标神经网络模型的损失函数,包括:
确定目标神经网络模型的损失函数为:
L=Lpaired+αLclassify+βLcosine;
其中,L为所述目标神经网络模型的损失函数,Lpaired为所述成对损失,Lclassify为所述分类损失,α为所述分类损失的系数,Lcosine为所述余弦损失,β为所述余弦损失的系数。
6.根据权利要求3所述的用于图像哈希求解的神经网络训练方法,其特征在于,所述方法还包括:
将检索图像和多个匹配图像输入至所述训练后的目标神经网络模型,以求解得到所述检索图像和所述多个匹配图像的哈希值;
根据所述检索图像的哈希值,和所述多个匹配图像的哈希值,从所述多个匹配图像中确定出至少一个与所述检索图像相似的匹配图像作为所述检索图像对应的推荐图像。
7.根据权利要求6所述的用于图像哈希求解的神经网络训练方法,其特征在于,所述将检索图像和多个匹配图像输入至所述训练后的目标神经网络模型,以求解得到所述检索图像和所述多个匹配图像的哈希值,包括:
将检索图像和多个匹配图像中的任一图像输入至所述训练后的目标神经网络模型;
获取所述训练后的目标神经网络模型中所述sigmoid激活函数输出的特征信息;
对所述特征信息进行哈希转化处理,得到所述检索图像和多个匹配图像中的任一图像的哈希值。
8.一种用于图像哈希求解的神经网络训练装置,其特征在于,所述装置包括:
第一确定模块,用于确定训练图像数据集;所述训练图像数据集包括有多组训练图像组;每一组所述训练图像组包括有多个训练图像;
第二确定模块,用于确定目标神经网络模型的网络架构;所述目标神经网络模型的网络架构用于求解出所述训练图像数据集中的每一组所述训练图像组中的多个训练图像之间的成对损失、分类损失和余弦损失;
第三确定模块,用于确定目标神经网络模型的损失函数;所述损失函数为根据所述成对损失、所述分类损失和所述余弦损失确定出的;
训练模块,用于将所述训练图像数据集输入至所述目标神经网络模型中进行迭代训练,直至所述损失函数收敛,得到训练后的目标神经网络模型;所述训练后的目标神经网络模型用于求解图像的哈希值。
9.一种用于图像哈希求解的神经网络训练装置,其特征在于,所述装置包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1-7任一项所述的用于图像哈希求解的神经网络训练方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行如权利要求1-7任一项所述的用于图像哈希求解的神经网络训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110291179.0A CN113139653A (zh) | 2021-03-18 | 2021-03-18 | 用于图像哈希求解的神经网络训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110291179.0A CN113139653A (zh) | 2021-03-18 | 2021-03-18 | 用于图像哈希求解的神经网络训练方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113139653A true CN113139653A (zh) | 2021-07-20 |
Family
ID=76811711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110291179.0A Pending CN113139653A (zh) | 2021-03-18 | 2021-03-18 | 用于图像哈希求解的神经网络训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113139653A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108874889A (zh) * | 2018-05-15 | 2018-11-23 | 中国科学院自动化研究所 | 基于目标体图像的目标体检索方法、系统及装置 |
CN108920720A (zh) * | 2018-07-30 | 2018-11-30 | 电子科技大学 | 基于深度哈希和gpu加速的大规模图像检索方法 |
US20190220746A1 (en) * | 2017-08-29 | 2019-07-18 | Boe Technology Group Co., Ltd. | Image processing method, image processing device, and training method of neural network |
CN110969191A (zh) * | 2019-11-07 | 2020-04-07 | 吉林大学 | 基于相似性保持度量学习方法的青光眼患病概率预测方法 |
US20200242422A1 (en) * | 2019-01-29 | 2020-07-30 | Boe Technology Group Co., Ltd. | Method and electronic device for retrieving an image and computer readable storage medium |
WO2020200030A1 (zh) * | 2019-04-02 | 2020-10-08 | 京东方科技集团股份有限公司 | 神经网络的训练方法、图像处理方法、图像处理装置和存储介质 |
CN112507159A (zh) * | 2020-11-20 | 2021-03-16 | 有米科技股份有限公司 | 哈希网络训练方法、广告图像素材检索方法及相关装置 |
-
2021
- 2021-03-18 CN CN202110291179.0A patent/CN113139653A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190220746A1 (en) * | 2017-08-29 | 2019-07-18 | Boe Technology Group Co., Ltd. | Image processing method, image processing device, and training method of neural network |
CN108874889A (zh) * | 2018-05-15 | 2018-11-23 | 中国科学院自动化研究所 | 基于目标体图像的目标体检索方法、系统及装置 |
CN108920720A (zh) * | 2018-07-30 | 2018-11-30 | 电子科技大学 | 基于深度哈希和gpu加速的大规模图像检索方法 |
US20200242422A1 (en) * | 2019-01-29 | 2020-07-30 | Boe Technology Group Co., Ltd. | Method and electronic device for retrieving an image and computer readable storage medium |
WO2020200030A1 (zh) * | 2019-04-02 | 2020-10-08 | 京东方科技集团股份有限公司 | 神经网络的训练方法、图像处理方法、图像处理装置和存储介质 |
CN110969191A (zh) * | 2019-11-07 | 2020-04-07 | 吉林大学 | 基于相似性保持度量学习方法的青光眼患病概率预测方法 |
CN112507159A (zh) * | 2020-11-20 | 2021-03-16 | 有米科技股份有限公司 | 哈希网络训练方法、广告图像素材检索方法及相关装置 |
Non-Patent Citations (1)
Title |
---|
毛雪宇;彭艳兵;: ""增量角度域损失和多特征融合的地标识别"", 《中国图象图形学报》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020221298A1 (zh) | 文本检测模型训练方法、文本区域、内容确定方法和装置 | |
US11670071B2 (en) | Fine-grained image recognition | |
CN110162593B (zh) | 一种搜索结果处理、相似度模型训练方法及装置 | |
CN108829822B (zh) | 媒体内容的推荐方法和装置、存储介质、电子装置 | |
WO2019119505A1 (zh) | 人脸识别的方法和装置、计算机装置及存储介质 | |
CN111523621A (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN108550065B (zh) | 评论数据处理方法、装置及设备 | |
WO2018196718A1 (zh) | 图像消歧方法、装置、存储介质和电子设备 | |
WO2018068648A1 (zh) | 一种信息匹配方法及相关装置 | |
CN110472043B (zh) | 一种针对评论文本的聚类方法及装置 | |
CN107291845A (zh) | 一种基于预告片的电影推荐方法及系统 | |
CN110135681A (zh) | 风险用户识别方法、装置、可读存储介质及终端设备 | |
CN111078832A (zh) | 一种智能客服的辅助应答方法及系统 | |
CN111260428A (zh) | 一种商品推荐方法和装置 | |
CN113095333A (zh) | 无监督特征点检测方法及装置 | |
CN108805280B (zh) | 一种图像检索的方法和装置 | |
CN113094478A (zh) | 表情回复方法、装置、设备及存储介质 | |
CN110147460B (zh) | 基于卷积神经网络与多视角图的三维模型检索方法及装置 | |
CN111401343A (zh) | 识别图像中人的属性的方法、识别模型的训练方法和装置 | |
CN113590798B (zh) | 对话意图识别、用于识别对话意图的模型的训练方法 | |
CN113792594B (zh) | 一种基于对比学习的视频中语言片段定位方法及装置 | |
CN109635004A (zh) | 一种数据库的对象描述提供方法、装置及设备 | |
CN113486670A (zh) | 基于目标语义的文本分类方法、装置、设备及存储介质 | |
CN110839242A (zh) | 异常号码识别方法及装置 | |
CN113011532A (zh) | 分类模型训练方法、装置、计算设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |