CN113627421A - 一种图像处理方法、模型的训练方法以及相关设备 - Google Patents
一种图像处理方法、模型的训练方法以及相关设备 Download PDFInfo
- Publication number
- CN113627421A CN113627421A CN202110741936.XA CN202110741936A CN113627421A CN 113627421 A CN113627421 A CN 113627421A CN 202110741936 A CN202110741936 A CN 202110741936A CN 113627421 A CN113627421 A CN 113627421A
- Authority
- CN
- China
- Prior art keywords
- training
- image
- model
- feature
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 774
- 238000000034 method Methods 0.000 title claims abstract description 171
- 238000003672 processing method Methods 0.000 title claims abstract description 15
- 238000013528 artificial neural network Methods 0.000 claims abstract description 112
- 238000000605 extraction Methods 0.000 claims abstract description 104
- 230000006870 function Effects 0.000 claims description 343
- 238000012545 processing Methods 0.000 claims description 92
- 230000015654 memory Effects 0.000 claims description 51
- 238000003860 storage Methods 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 10
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 238000003786 synthesis reaction Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 abstract description 45
- 238000010586 diagram Methods 0.000 description 46
- 239000011159 matrix material Substances 0.000 description 25
- 238000013473 artificial intelligence Methods 0.000 description 18
- 238000004364 calculation method Methods 0.000 description 10
- 238000013461 design Methods 0.000 description 10
- 230000009286 beneficial effect Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 238000010606 normalization Methods 0.000 description 7
- 238000013500 data storage Methods 0.000 description 6
- 238000012800 visualization Methods 0.000 description 6
- 238000012544 monitoring process Methods 0.000 description 5
- 241000282326 Felis catus Species 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 239000008269 hand cream Substances 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000011022 operating instruction Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 101150041570 TOP1 gene Proteins 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 239000000872 buffer Substances 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241000283973 Oryctolagus cuniculus Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Abstract
本申请实施例公开一种图像处理方法、模型的训练方法以及相关设备,该方法可用于人工智能领域的图像处理领域中。方法包括:通过目标特征提取网络生成与第一图像对应的第一特征信息,通过第一神经网络模块生成用于指示第一特征信息中类别为前景的元素的第一指示信息,目标特征提取网络和第一神经网络模块包括于采用第一损失函数训练得到的第一模型,第一损失函数指示第二指示信息和第三指示信息之间的相似度,第二指示信息和第三指示信息均指示第一图像中的前景区域,第二指示信息根据第一特征信息和第一指示信息得到,第三指示信息由执行过训练操作的第二模型生成。不再需要对图像的前景区域进行人工标注,提高了整个训练过程的效率。
Description
技术领域
本申请涉及人工智能领域,尤其涉及一种图像处理方法、模型的训练方法以及相关设备。
背景技术
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
基于视觉搜索的检索技术成为人工智能常见的一个应用方式,具体的,用户在获取到目标产品的图像后,利用模型生成到该目标产品的图像的前景特征,并根据与目标产品的图像对应的前景特征执行检索操作,以得到目标产品的产品信息。
但在对上述模型的训练过程中,需要获取训练图像的正确的前景区域,但训练图像的正确的前景区域的标注成本高,因此,一种不需要对图像的前景区域进行标注的训练方案亟待推出。
发明内容
本申请实施例提供了一种图像处理方法、模型的训练方法以及相关设备,利用训练好的第二模型生成第一模型的训练过程的监督信息,在第一模型的训练过程中不再需要训练图像的前景区域,也即不再需要对训练图像的前景区域进行人工标注,提高了整个训练过程的效率。
为解决上述技术问题,本申请实施例提供以下技术方案:
第一方面,本申请实施例提供一种模型的训练方法,可用于人工智能领域的图像处理领域中。方法用于对第一模型进行训练,第一模型包括目标特征提取网络(backbone)和第一神经网络模块,方法包括:训练设备将第一训练图像输入目标特征提取网络,以通过目标特征提取网络进行特征提取,得到与第一训练图像对应的第一特征信息;通过第一神经网络模块生成与第一特征信息对应的第一指示信息,第一指示信息用于指示第一特征信息中类别为前景的元素;根据第一特征信息和第一指示信息,生成第二指示信息,第二指示信息用于指示第一训练图像中的前景区域;训练设备将第一训练图像输入第二模型,以通过第二模型生成第三指示信息,第三指示信息用于指示第一训练图像中的前景区域,第二模型为执行过训练操作的模型;训练设备根据第一损失函数,对第一模型进行训练,直至满足预设条件,得到训练后的第一模型,其中,第一损失函数的训练目标为提高第二指示信息和第三指示信息之间的相似度。
本实现方式中,通过第一模型能够生成第一训练图像的第一指示信息,第一指示信息用于指示第一训练图像的特征信息中哪些元素的类别为前景,从而基于第一模型能够得到第一训练图像的前景特征;且本方案提供的训练方法是根据特征信息和第一指示信息,生成第二指示信息,第二指示信息用于指示第一训练图像中的前景区域,并利用训练好的第二模型生成第一模型的训练过程的监督信息,在第一模型的训练过程中不再需要训练图像的前景区域,也即不再需要对训练图像的前景区域进行人工标注,提高了整个训练过程的效率。
在第一方面的一种可能实现方式中,训练设备将第一训练图像输入目标特征提取网络,以通过目标特征提取网络进行特征提取,得到与第一训练图像对应的C个第一特征信息,每个第一特征信息包括N个第一元素,C和N均为大于或等于1的整数;进一步地,第一特征信息具体可以表现为二维的矩阵(也即第一特征信息为特征图)、一维的向量或更高维的数据等。C的个数可以与目标特征提取网络的通道数一致,也即目标特征提取网络可以包括C个通道。训练设备通过第一神经网络模块生成与第一特征信息对应的第一指示信息,第一指示信息用于指示C个第一特征信息包括的所有第一元素中类别为前景的元素,也即第一指示信息用于指示每个第一特征信息包括的N个第一元素中的类别为前景的元素。训练设备根据第一特征信息和第一指示信息,生成第二指示信息;第二指示信息用于指示第一训练图像中的前景区域,第二指示信息用于指示第一训练图像中每个像素点是属于第一训练图像中的前景区域,还是属于第一训练图像中的背景区域。训练设备将第一训练图像输入第二模型,以通过第二模型生成第三指示信息。其中,第三指示信息用于指示第一训练图像中的前景区域,第二模型为基于第二训练图像执行过训练操作的神经网络,第二训练图像和第一训练图像归属于不同的数据域。第二模型的功能包括获取图像中的前景区域,或者,第二模型的功能也可以称为获取图像中的显著性目标。作为示例,例如第二模型具体可以采用关注边缘的显著性分割网络、池化网络或全局上下文关注的进步式网络。训练设备根据第一损失函数,对第一模型进行训练,直至满足预设条件,得到训练后的第一模型,其中,第一损失函数的训练目标为提高第二指示信息和第三指示信息之间的相似度。
在第一方面的一种可能实现方式中,第一模型还包括第二神经网络模块,方法还可以包括:训练设备根据第一特征信息和第一指示信息,通过第二神经网络模块,生成第一训练图像的前景特征;根据第一训练图像的前景特征,对第一训练图像执行分类操作,得到第一训练图像的第一预测类别;其中,图像的前景特征为图像的前景区域的特征信息,也可以称为图像的显著性区域的特征信息,也即图像的前景区域也可以理解为图像的显著性区域。训练设备根据第一损失函数,对第一模型进行训练,包括:训练设备根据第一损失函数和第二损失函数,对第一模型进行训练;其中,第二损失函数用于指示第一训练图像的第一预测类别和第一训练图像的正确类别之间的相似度,第二损失函数的训练目标为提高第一训练图像的第一预测类别和第一训练图像的正确类别之间的相似度。
本实现方式中,同时采用第一损失函数和第二损失函数对第一模型进行训练,由于第二损失函数的训练目标为提高第一训练图像的第一预测类别的准确率,也即第二损失函数的训练目标为使得第一模型能够提取到当前数据域的图像更为准确的前景特征,有利于提高训练后的第一模型与当前数据域的适配程度,以提高训练后的第一模型的精度。
在第一方面的一种可能实现方式中,方法还可以包括:训练设备根据第一特征信息和第一指示信息,生成第一训练图像的前景特征和第一训练图像的背景特征;通过第一模型,生成第三训练图像的前景特征,第三训练图像和第一训练图像归属于相同的数据域且类别相同;其中,图像的背景特征包括图像的背景区域的特征信息,图像的背景区域为图像中前景区域之外的区域。训练设备根据第一损失函数,对第一模型进行训练,可以包括:训练设备根据第一损失函数和第三损失函数,对第一模型进行训练;其中,第三损失函数包括用于指示第一训练图像的前景特征和第三训练图像的前景特征之间的相似度的第一损失项,和,用于指示第一训练图像的前景特征和第一训练图像的背景特征之间的相似度的第二损失项;第三损失函数的训练目标包括提高第一训练图像的前景特征和第三训练图像的前景特征之间的相似度,第二损失函数的训练目标还包括降低第一训练图像的前景特征和第一训练图像的背景特征之间的相似度。
本实现方式中,同时采用第一损失函数和第三损失函数对第一模型进行训练,由于第三损失函数的训练目标为提高相同类别的图像的前景特征之间的相似度,并且降低同一图像的前景特征和背景特征之间的相似度,以加大第一模型生成的前景特征和背景特征之间的区别程度,以进一步降低图像的背景区域对图像的前景区域的干扰。
在第一方面的一种可能实现方式中,方法还可以包括:训练设备根据第一训练图像的前景特征和第一训练图像的背景特征,对第一训练图像执行分类操作,得到第一训练图像的第二预测类别。训练设备根据第一损失函数和第三损失函数,对第一模型进行训练,可以包括:训练设备根据第一损失函数、第三损失函数和第四损失函数,对第一模型进行训练;其中,第四损失函数用于指示第一训练图像的第二预测类别和第一训练图像的正确类别之间的相似度,第四损失函数的训练目标为提高第一训练图像的第二预测类别和第一训练图像的正确类别之间的相似度。
本实现方式中,还会利用第四损失函数对第一模型进行训练,第四损失函数指示第一训练图像的第二预测类别和第一训练图像的正确类别之间的相似度,第一训练图像的第二预测类别是基于第一训练图像的前景特征和第一训练图像的背景特征得到的,也即训练的目标包括得到更为准确的图像的前景特征和图像的背景特征,也即训练的目标为第一指示信息的准确度越来越高,有利于提高训练后的第一模型的准确率。
在第一方面的一种可能实现方式中,训练设备通过第一神经网络模块生成与第一特征信息对应的第一指示信息,包括:训练设备通过第一神经网络模块生成与第一特征信息对应的第一相似度信息,第一相似度信息用于指示N个第一元素中任意两个第一元素之间的相似度;第一相似度信息可以表现为一个相似性图(affinity map),也即第一相似度信息可以表现为一个长为(H*W)且宽为(H*W)的第一矩阵,第一矩阵中的每个数值代表N个第一元素中任意两个第一元素之间的相似度。根据第一相似度信息和第一特征信息,通过第一神经网络模块生成第一指示信息;训练设备将第一相似度信息与第一特征信息相乘,以得到第一指示信息。本实现方式中,提供了训练设备通过第一神经网络模块生成第一指示信息的具体实现方案,提高了本方案的可执行性。
在第一方面的一种可能实现方式中,针对第一相似度信息的生成过程。在一种实现方式中,训练设备根据C个第一特征信息,通过第一神经网络模块执行类同(Affinity)操作,得到第一相似度信息。具体的,训练设备可以对C个第一特征信息进行再次卷积,得到C个更新后的第一特征信息;对C个更新后的第一特征信息进行转置,得到C个转置后的第一特征信息。训练设备将C个更新后的第一特征信息与C个转置后的第一特征信息相乘得到相乘结果,再利用矩阵变换(Reshape)函数对前述相乘结果进行处理,可以得到该第一相似度信息。
在第一方面的一种可能实现方式中,训练设备将第一训练图像输入第二模型,以通过第二模型生成第三指示信息,包括:训练设备通过第二模型对第一训练图像进行特征提取,得到与第一训练图像对应的第二特征信息,第二特征信息包括N个第二元素;通过第二模型生成与第二特征信息对应的第二相似度信息,第二相似度信息用于指示N个第二元素中任意两个第二元素之间的相似度,第二相似度的概念与第一相似度的概念类似,此处不做赘述;根据第二特征信息和第二相似度信息,通过第二模型生成第三指示信息。训练设备根据第一损失函数,对第一模型进行训练,包括:训练设备根据第一损失函数和第五损失函数,对第一模型进行训练;其中,第五损失函数用于指示第一相似度信息和第二相似度信息之间的相似度,第五损失函数的训练目标为提高第一相似度信息和第二相似度信息之间的相似度。
本实现方式中,还会采用第五损失函数来提高第一相似度信息和第二相似度信息之间的相似度,也即将第二模型在生成第三指示信息过程中生成的第二相似度信息作为监督信息,来提高第一模型生成的第一相似度信息的准确率,以进一步提高训练后的第一模型的精度。
在第一方面的一种可能实现方式中,方法还可以包括:训练设备通过第一模型,生成第四训练图像的前景特征和第五训练图像的前景特征,第四训练图像和第一训练图像归属于相同的数据域且类别相同,第五训练图像和第一训练图像归属于相同的数据域且类别不同。训练设备根据第一损失函数,对第一模型进行训练,包括:训练设备根据第一损失函数和第六损失函数,对第一模型进行训练;其中,第六损失函数包括用于指示第一训练图像的前景特征和第四训练图像的前景特征之间的相似度的第三损失项,和用于指示第一训练图像的前景特征和第五训练图像的前景特征之间的相似度的第四损失项。第六损失函数的训练目标包括提高第一训练图像的前景特征和第四训练图像的前景特征之间的相似度;还包括降低第一训练图像的前景特征和第五训练图像的前景特征之间的相似度。
第二方面,本申请实施例提供了一种图像处理方法,可用于人工智能领域的图像处理领域中。方法可以包括:执行设备将第一图像输入目标特征提取网络,以通过目标特征提取网络进行特征提取,得到与第一图像对应的第一特征信息;通过第一神经网络模块生成与第一特征信息对应的第一指示信息,第一指示信息用于指示第一特征信息中类别为前景的元素,目标特征提取网络和第一神经网络模块均包括于第一模型;根据第一指示信息,通过第一模型生成与第一图像对应的目标处理结果。其中,第一模型为采用第一损失函数训练得到,第一损失函数的训练目标为提高第二指示信息和第三指示信息之间的相似度,第二指示信息和第三指示信息均用于指示第一图像中的前景区域,第二指示信息为根据第一特征信息和第一指示信息得到,第三指示信息由第二模型生成,第二模型为执行过训练操作的模型。
本实现方式中,采用第一模型执行推理阶段的步骤,由于在训练阶段,根据第一特征信息和第一指示信息得到第二指示信息,并且以第三指示信息作为监督信息来知道第一模型的训练,第三指示信息是训练好的第二模型生成的,也即在第一模型的训练过程中不再需要训练图像的前景区域,从而不再需要对训练图像的前景区域进行人工标注,提高了第一模型的训练过程的效率。
在第二方面的一种可能实现方式中,执行设备将第一图像输入目标特征提取网络,以通过目标特征提取网络进行特征提取,得到与第一图像对应的C个第一特征信息,每个第一特征信息包括N个第一元素,C和N均为大于或等于1的整数;进一步地,第一特征信息具体可以表现为二维的矩阵(也即第一特征信息为特征图)、一维的向量或更高维的数据等;C的个数可以与目标特征提取网络的通道数一致,也即目标特征提取网络可以包括C个通道。执行设备通过第一神经网络模块生成与第一特征信息对应的第一指示信息,第一指示信息用于指示C个第一特征信息中类别为前景的元素,也即第一指示信息用于指示每个第一特征信息包括的N个第一元素中的类别为前景的元素,目标特征提取网络和第一神经网络模块均包括于第一模型。执行设备根据第一指示信息,通过第一模型生成与第一图像对应的目标处理结果。其中,第一模型为采用第一损失函数训练得到,第一损失函数用于指示第二指示信息和第三指示信息之间的相似度,第一损失函数的训练目标为提高第二指示信息和第三指示信息之间的相似度;第二指示信息和第三指示信息均用于指示第一图像中的前景区域,也即第二指示信息和第三指示信息均用于指示第一图像中每个像素点是属于第一训练图像中的前景区域,还是属于第一训练图像中的背景区域。第二指示信息为根据第一特征信息和第一指示信息得到,第三指示信息由第二模型生成,第二模型为基于第二图像执行过训练操作的神经网络,第二图像和第一图像归属于不同的数据域。进一步地,第二模型的功能包括获取图像中的前景区域,或者,第二模型的功能也可以称为获取图像中的显著性目标。作为示例,例如第二模型具体可以采用关注边缘的显著性分割网络、池化网络或全局上下文关注的进步式网络。
在第二方面的一种可能实现方式中,第一模型为采用第一损失函数和第三损失函数训练得到;其中,第三损失函数的训练目标包括提高第一图像的前景特征和第三图像的前景特征之间的相似度,第三损失函数的训练目标还包括降低第一图像的前景特征和第一图像的背景特征之间的相似度,第三图像和第一图像归属于相同的数据域且类别相同。
在第二方面的一种可能实现方式中,第一特征信息包括N个第一元素,N为大于或等于1的整数,执行设备通过第一神经网络模块生成与第一特征信息对应的第一指示信息,可以包括:执行设备通过第一神经网络模块生成与第一特征信息对应的第一相似度信息,第一相似度信息用于指示N个第一元素中任意两个第一元素之间的相似度;根据第一相似度信息和第一特征信息,通过第一神经网络模块生成第一指示信息。
在第二方面的一种可能实现方式中,目标处理结果包括第一图像的前景特征,方法应用于利用图像的前景特征进行产品搜索的应用场景中;或者,目标处理结果包括第一图像的前景特征,方法应用于图像分类的应用场景中;或者,目标处理结果用于指示第一图像的前景区域,方法应用于图像合成的应用场景中。本实现方式中,提供了第一模型的多种具体应用场景,提高了本方案的实现灵活性。
对于本申请实施例第二方面以及第二方面的各种名词的含义、各种可能实现方式的具体实现步骤,以及每种可能实现方式所带来的有益效果,均可以参考第一方面中各种可能的实现方式中的描述,此处不再一一赘述。
第三方面,本申请实施例提供了一种模型的训练方法,可用于人工智能领域的图像处理领域中。方法用于对第一模型进行训练,第一模型包括目标特征提取网络和第一神经网络模块,方法可以包括:训练设备将第一训练图像输入目标特征提取网络,以通过目标特征提取网络进行特征提取,得到与第一训练图像对应的第一特征信息;通过第一神经网络模块生成与第一特征信息对应的第一指示信息,第一指示信息用于指示第一特征信息中类别为前景的元素;根据第一特征信息和第一指示信息,生成第二指示信息,第二指示信息用于指示第一训练图像中的前景区域;训练设备将第一训练图像输入第二模型,以通过第二模型生成第三指示信息,第三指示信息用于指示第一训练图像中的前景区域,第二模型为执行过训练操作的模型;根据第二指示信息和第三指示信息,对第一模型进行训练。
本申请实施例的第三方面中,训练设备还可以执行第一方面的各个可能实现方式中训练设备执行的步骤,对于本申请实施例第三方面以及第三方面的各种可能实现方式的具体实现步骤,以及每种可能实现方式所带来的有益效果,均可以参考第一方面中各种可能的实现方式中的描述,此处不再一一赘述。
第四方面,本申请实施例提供了一种模型的训练方法,可用于人工智能领域的图像处理领域中。方法用于对第一模型进行训练,第一模型包括目标特征提取网络和第一神经网络模块,方法可以包括:训练设备将第一训练图像输入目标特征提取网络,以通过目标特征提取网络进行特征提取,得到与第一训练图像对应的第一特征信息;通过第一神经网络模块生成与第一特征信息对应的第一指示信息,第一指示信息用于指示第一特征信息中的类别为前景的元素;根据第一特征信息和第一指示信息,生成第一训练图像的前景特征和第一训练图像的背景特征。训练设备通过第一模型,生成第三训练图像的前景特征,第三训练图像和第一训练图像归属于相同的数据域且类别相同。训练设备根据第三损失函数对第一模型进行训练,直至满足预设条件,得到训练后的第一模型,其中,第三损失函数的训练目标包括提高第一训练图像的前景特征和第三训练图像的前景特征之间的相似度,第二损失函数的训练目标还包括降低第一训练图像的前景特征和第一训练图像的背景特征之间的相似度。
在第四方面的一种可能实现方式中,方法还可以包括:训练设备根据第一特征信息和第一指示信息,生成第二指示信息,第二指示信息用于指示第一训练图像中的前景区域。训练设备将第一训练图像输入第二模型,以通过第二模型生成第三指示信息,第三指示信息用于指示第一训练图像中的前景区域,第二模型为基于第二训练图像执行过训练操作的神经网络,第二训练图像和第一训练图像归属于不同的数据域。训练设备根据第三损失函数对第一模型进行训练,可以包括:训练设备根据第三损失函数和第一损失函数,对第一模型进行训练,其中,第一损失函数的训练目标为提高第二指示信息和第三指示信息之间的相似度。
本申请实施例的第四方面中,训练设备还可以执行第一方面的各个可能实现方式中训练设备执行的步骤,对于本申请实施例第四方面以及第四方面的各种可能实现方式的具体实现步骤,以及每种可能实现方式所带来的有益效果,均可以参考第一方面中各种可能的实现方式中的描述,此处不再一一赘述。
第五方面,本申请实施例提供了一种图像处理装置,可用于人工智能领域的图像处理领域中。图像处理装置包括:特征提取单元,用于将第一图像输入目标特征提取网络,以通过目标特征提取网络进行特征提取,得到与第一图像对应的第一特征信息;生成单元,用于通过第一神经网络模块生成与第一特征信息对应的第一指示信息,第一指示信息用于指示第一特征信息中类别为前景的元素,目标特征提取网络和第一神经网络模块均包括于第一模型;生成单元,还用于根据第一指示信息,通过第一模型生成与第一图像对应的目标处理结果;其中,第一模型为采用第一损失函数训练得到,第一损失函数的训练目标为提高第二指示信息和第三指示信息之间的相似度,第二指示信息和第三指示信息均用于指示第一图像中的前景区域,第二指示信息为根据第一特征信息和第一指示信息得到,第三指示信息由第二模型生成,第二模型为基于第二图像执行过训练操作的神经网络,第二图像和第一图像归属于不同的数据域。
本申请实施例的第五方面提供的图像处理装置还可以执行第二方面的各个可能实现方式中执行设备执行的步骤,对于本申请实施例第五方面以及第五方面的各种可能实现方式的具体实现步骤,以及每种可能实现方式所带来的有益效果,均可以参考第二方面中各种可能的实现方式中的描述,此处不再一一赘述。
第六方面,本申请实施例提供了一种模型的训练装置,可用于人工智能领域的图像处理领域中,模型的训练装置用于对第一模型进行训练,第一模型包括目标特征提取网络和第一神经网络模块,装置包括:特征提取单元,用于将第一训练图像输入目标特征提取网络,以通过目标特征提取网络进行特征提取,得到与第一训练图像对应的第一特征信息;生成单元,用于通过第一神经网络模块生成与第一特征信息对应的第一指示信息,第一指示信息用于指示第一特征信息中的类别为前景的元素;生成单元,还用于根据第一特征信息和第一指示信息,生成第二指示信息,第二指示信息用于指示第一训练图像中的前景区域;生成单元,还用于将第一训练图像输入第二模型,以通过第二模型生成第三指示信息,第三指示信息用于指示第一训练图像中的前景区域,第二模型为基于第二训练图像执行过训练操作的神经网络,第二训练图像和第一训练图像归属于不同的数据域;训练单元,用于根据第一损失函数,对第一模型进行训练,直至满足预设条件,得到训练后的第一模型,其中,第一损失函数的训练目标为提高第二指示信息和第三指示信息之间的相似度。
本申请实施例的第六方面提供的模型的训练装置还可以执行第一方面的各个可能实现方式中训练设备执行的步骤,对于本申请实施例第六方面以及第六方面的各种可能实现方式的具体实现步骤,以及每种可能实现方式所带来的有益效果,均可以参考第一方面中各种可能的实现方式中的描述,此处不再一一赘述。
第七方面,本申请实施例提供了一种执行设备,可以包括处理器,处理器和存储器耦合,存储器存储有程序指令,当存储器存储的程序指令被处理器执行时实现上述第二方面所述的图像处理方法。
第八方面,本申请实施例提供了一种训练设备,可以包括处理器,处理器和存储器耦合,存储器存储有程序指令,当存储器存储的程序指令被处理器执行时实现上述第一方面、第三方面或第四方面所述的模型的训练方法。
第九方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得计算机执行上述第一方面所述的模型的训练方法,或者,使得计算机执行上述第三方面所述的模型的训练方法,或者,使得计算机执行上述第四方面所述的模型的训练方法,或者,使得计算机执行上述第二方面所述的图像处理方法。
第十方面,本申请实施例提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行上述第一方面所述的模型的训练方法,或者,使得计算机执行上述第三方面所述的模型的训练方法,或者,使得计算机执行上述第四方面所述的模型的训练方法,或者,使得计算机执行上述第二方面所述的图像处理方法。
第十一方面,本申请实施例提供了一种电路系统,所述电路系统包括处理电路,所述处理电路配置为执行上述第一方面所述的模型的训练方法,或者,所述处理电路配置为执行上述第三方面所述的模型的训练方法,所述处理电路配置为执行上述第四方面所述的模型的训练方法,或者,所述处理电路配置为执行上述第二方面所述的图像处理方法。
第十二方面,本申请实施例提供了一种芯片系统,该芯片系统包括处理器,用于实现上述各个方面中所涉及的功能,例如,发送或处理上述方法中所涉及的数据和/或信息。在一种可能的设计中,所述芯片系统还包括存储器,所述存储器,用于保存服务器或通信设备必要的程序指令和数据。该芯片系统,可以由芯片构成,也可以包括芯片和其他分立器件。
附图说明
图1a为本申请实施例提供的人工智能主体框架的一种结构示意图;
图1b为本申请实施例提供的模型的训练方法的一种应用场景图;
图2为本申请实施例提供的图像处理系统的一种系统架构图;
图3为本申请实施例提供的模型的训练方法的一种流程示意图;
图4为本申请实施例提供的模型的训练方法中生成第一指示信息的一种流程示意图;
图5为本申请实施例提供的模型的训练方法中对第一模型执行训练操作的一种示意图;
图6为本申请实施例提供的模型的训练方法中对第一模型执行训练操作的另一种示意图;
图7为本申请实施例提供的模型的训练方法中第三损失函数的一种示意图;
图8为本申请实施例提供的模型的训练方法中对第一模型执行训练操作的又一种示意图;
图9为本申请实施例提供的模型的训练方法中利用第一损失函数对第一模型执行训练操作的再一种示意图;
图10为本申请实施例提供的图像处理方法的一种流程示意图;
图11为本申请实施例提供的模型的训练方法的一种有益效果图;
图12为本申请实施例提供的模型的训练方法的另一种有益效果图;
图13为本申请实施例提供的模型的训练装置的一种结构示意图;
图14为本申请实施例提供的模型的训练装置的另一种结构示意图;
图15为本申请实施例提供的图像处理装置的一种结构示意图;
图16为本申请实施例提供的执行设备的一种结构示意图;
图17为本申请实施例提供的训练设备的一种结构示意图;
图18为本申请实施例提供的芯片的一种结构示意图。
具体实施方式
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
下面结合附图,对本申请的实施例进行描述。本领域普通技术人员可知,随着技术的发展和新场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
首先对人工智能系统总体工作流程进行描述,请参见图1a,图1a示出的为人工智能主体框架的一种结构示意图,下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。其中,“智能信息链”反映从数据的获取到处理的一列过程。举例来说,可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中,数据经历了“数据—信息—知识—智慧”的凝练过程。“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程,反映人工智能为信息技术产业带来的价值。
(1)基础设施
基础设施为人工智能系统提供计算能力支持,实现与外部世界的沟通,并通过基础平台实现支撑。通过传感器与外部沟通;计算能力由智能芯片提供,该智能芯片具体可以采用中央处理器(central processing unit,CPU)、嵌入式模型处理器(neural-networkprocessing unit,NPU)、图形处理器(graphics processing unit,GPU)、专用集成电路(application specific integrated circuit,ASIC)或现场可编程门阵列(fieldprogrammable gate array,FPGA)等硬件加速芯片;基础平台包括分布式计算框架及网络等相关的平台保障和支持,可以包括云存储和计算、互联互通网络等。举例来说,传感器和外部沟通获取数据,这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。
(2)数据
基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本,还涉及到传统设备的物联网数据,包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。
(3)数据处理
数据处理通常包括数据训练,机器学习,深度学习,搜索,推理,决策等方式。
其中,机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。
推理是指在计算机或智能系统中,模拟人类的智能推理方式,依据推理控制策略,利用形式化的信息进行机器思维和求解问题的过程,典型的功能是搜索与匹配。
决策是指智能信息经过推理后进行决策的过程,通常提供分类、排序、预测等功能。
(4)通用能力
对数据经过上面提到的数据处理后,进一步基于数据处理的结果可以形成一些通用的能力,比如可以是算法或者一个通用系统,例如,翻译,文本的分析,计算机视觉的处理,语音识别,图像的识别等等。
(5)智能产品及行业应用
智能产品及行业应用指人工智能系统在各领域的产品和应用,是对人工智能整体解决方案的封装,将智能信息决策产品化、实现落地应用,其应用领域主要包括:智能终端、智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶、智慧城市等。
本申请可以应用于上述种种应用领域中需要减弱图像中背景区域对前景区域的干扰的各种应用场景中。作为示例,在智能终端领域中,智能终端上配置有搜索系统的客户端,用户利用手机等智能终端对目标产品进行拍照得到待处理图像,待处理图像中存在有目标产品。智能终端生成待处理图像所对应的前景特征(也即待处理图像中目标产品的特征),智能终端可以将前述前景特征发送给搜索系统的服务器端,搜索系统的服务器端获取与该前景特征匹配的产品链接,并通过搜索系统的客户端对该产品链接进行展示。
为更直观地理解本方案,请参阅图1b,图1b为本申请实施例提供的模型的训练方法的一种应用场景图,图1b包括(a)和(b)两个子示意图,如图1b的(a)子示意图所示,A1代表对目标产品进行拍照的触发按钮,当用户点击A1时,可以触发进入图1b的(b)子示意图,也即用户通过终端设备上配置的相机获取到目标产品的待处理图像后,终端设备可以生成待处理图像所对应的前景特征(也即待处理图像中目标产品的特征),智能终端可以将前述前景特征发送给搜索系统的服务器,以通过搜索系统的服务器获取与之匹配的产品链接,在前述过程中,终端设备可以向用户展示图1b的(b)子示意图所示出的界面,应理解,图1b中的示例仅为方便理解本方案,不用于限定本方案。
作为另一示例,例如在智慧城市领域中,城市中安装有监控系统,通过监控系统可以采集到周围环境的图像,周围环境的图像中存在有目标人。由于周围环境的图像中的人脸图像可能比较模糊,监控系统的处理器可以生成该周围环境的图像所对应的前景特征(也即该周围环境的图像中目标人的特征),监控系统的处理器获取与前述前景特征匹配的清晰的人脸图像。
作为另一示例,例如在智能终端领域中,用户通过智能终端拍摄得到待处理图像,待处理图像为猫咪趴在地板上的图像,则待处理图像的前景部分是猫咪,待处理图像的背景部分是地板,用户想要获得一张猫咪趴在草地上的图像以及一张狗趴在地板上的图像,则用户需要通过智能终端分别获取到待处理图像的前景特征(也即待处理图像中猫咪区域的特征)和待处理图像的背景特征(也即待处理中地板区域的特征),根据待处理图像的前景特征和待处理图像的背景特征,分别获取待处理图像的前景区域和待处理图像的背景区域,将待处理图像的前景区域与草地这一背景进行合成,将狗与待处理图像的背景区域进行合成,以得到两个合成后的图像等等。
在上述种种应用场景中,均需要利用模型获取到图像的前景特征,应理解,上述种种举例仅为方便理解本方案的应用场景,此处不对本申请实施例的应用场景进行穷举。
在对本申请实施例提供的模型的训练方法进行详细介绍之前,先结合图2对本申请实施例提供的图像处理系统进行介绍。请先参阅图2,图2为本申请实施例提供的图像处理系统的一种系统架构图,在图2中,图像处理系统200包括执行设备210、训练设备220、数据库230和数据存储系统240,执行设备210中包括计算模块211。
其中,数据库230中存储有目标训练数据集合,目标训练数据集合包括多个训练图像,训练设备220生成第一模型/规则201,并利用数据库230中的目标训练数据集合对第一模型/规则201进行迭代训练,得到成熟的第一模型/规则201。第一模型/规则201具体可以表现为神经网络,也可以表现为非神经网络形式的模型,本申请实施例中仅以第一模型/规则201具体表现为神经网络为例进行说明;第一模型/规则201可以包括目标特征提取网络和第一神经网络模块。
具体的,训练设备220从目标训练数据集合中获取第一训练图像,将第一训练图像输入目标特征提取网络,以通过目标特征提取网络进行特征提取,得到与第一训练图像对应的第一特征信息,第一特征信息包括N个第一元素;通过第一神经网络模块生成与第一特征信息对应的第一指示信息,第一指示信息用于指示N个第一元素中的类别为前景的元素;根据第一特征信息和第一指示信息,生成第二指示信息,第二指示信息用于指示第一训练图像中的前景区域。训练设备220将第一训练图像输入第二模型/规则202,以通过第二模型/规则202生成第三指示信息,第三指示信息用于指示第一训练图像中的前景区域,第二模型/规则202为基于第二训练图像执行过训练操作的神经网络,第二训练图像和第一训练图像归属于不同的数据域,对于数据域这一概念的含义,将在后续实施例中进行描述。训练设备220根据第一损失函数,对第一模型/规则201进行训练,直至满足预设条件,得到训练后的第一模型/规则201,第一损失函数的训练目标为提高第二指示信息和第三指示信息之间的相似度。
训练设备220得到的成熟的第一模型/规则201可以应用不同的系统或设备中,例如手机、平板、笔记本电脑、虚拟现实(virtual reality,VR)设备、监控系统、雷达的数据处理系统等等。计算模块211可以通过第一模型/规则201进行图像处理以得到处理结果。其中,执行设备210可以调用数据存储系统240中的数据、代码等,也可以将数据、指令等存入数据存储系统240中。数据存储系统240可以置于执行设备210中,也可以为数据存储系统240相对执行设备210是外部存储器。
本申请实施例中,利用训练好的第二模型/规则202生成第一模型/规则201的训练过程的监督信息,在第一模型/规则201的训练过程中不再需要训练图像的前景区域,也即不再需要对训练图像的前景区域进行人工标注,提高了第一模型/规则201的整个训练过程的效率。
本申请的一些实施例中,请参阅图2,“用户”可以直接与执行设备210交互,也即执行设备210可以直接将第一模型/规则201输出的预测图像展示给“用户”,值得注意的,图2仅是本发明实施例提供的图像处理系统的一种架构示意图,图中所示设备、器件、模块等之间的位置关系不构成任何限制。例如,在本申请的另一些实施例中,执行设备210和客户设备也可以为分别独立的设备,执行设备210配置有输入/输出(in/out,I/O)接口,执行设备210通过I/O接口与客户设备进行数据交互。
结合上述描述可知,下面开始对本申请实施例提供的图像处理方法的训练阶段和推理阶段的具体实现流程进行描述。
一、训练阶段
本申请实施例中,训练阶段描述的是训练设备220如何利用数据库230中的图像数据集合生成成熟的模型的过程,具体的,请参阅图3,图3为本申请实施例提供的模型的训练方法的一种流程示意图,本申请实施例提供的模型的训练方法可以包括:
301、训练设备获取第一模型。
本申请实施例中,训练设备在对第一模型进行训练之前,需要先获取第一模型。第一模型至少包括目标特征提取网络(backbone)和第一神经网络模块;目标特征提取网络用于对图像进行特征提取,得到图像的第一特征信息,第一特征信息包括N个第一元素;第一神经网络模块用于生成与图像的第一特征信息对应的第一指示信息,第一指示信息用于指示N个第一元素中类别为前景的元素。
可选地,若整个第一模型的功能为获取图像的前景特征,则第一模型还可以包括第二神经网络模块,第二神经网络模块用于根据第一指示信息,从第一特征信息中获取图像的前景区域的特征信息。其中,图像的前景特征为图像的前景区域的特征信息,也可以称为图像的显著性区域的特征信息,也即图像的前景区域也可以理解为图像的显著性区域;作为示例,例如用户想要获取桌子上放置的护手霜的商品链接,则可以对桌子上的护手霜进行拍照得到待处理图像,待处理图像中的护手霜就是图像的前景区域,待处理图像中的桌子就是图像的背景区域。
若整个第一模型的功能为获取图像的前景特征和背景特征,则第一模型还可以包括第三神经网络模块,第一指示信息不仅用于指示N个第一元素中类别为前景的元素,还用于指示N个第一元素中类别为背景的元素,第三神经网络模块用于根据第一指示信息,从第一特征信息中获取图像的前景区域的特征信息以及图像的背景区域的特征信息。
若整个第一模型的功能为从图像中提取图像的前景区域,则第一模型还可以包括第四神经网络模块,第四神经网络模块用于根据第一指示信息和第一特征信息,生成第四指示信息,第四指示信息用于前景区域在图像中的位置。
通过上述说明可知,本申请实施例中,整个第一模型的功能可以为获取图像的前景区域的特征,但第一模型也可以为其它功能,只要是需要利用到第一特征信息和第一指示信息的神经网络均可,本申请实施例中不做限定。
302、训练设备将第一训练图像输入目标特征提取网络,以通过目标特征提取网络进行特征提取,得到与第一训练图像对应的第一特征信息。
本申请实施例中,训练设备中配置有目标训练数据集合,训练设备从目标训练数据集合中获取第一训练图像,将第一训练图像输入第一模型的目标特征提取网络中,以通过目标特征提取网络进行特征提取,得到与第一训练图像对应的C个第一特征信息,C为大于或等于1的整数;每个第一特征信息中均包括N个第一元素,第一元素也可以理解为第一特征信息中包括的特征值。
其中,目标特征提取网络可以为全连接神经网络、卷积神经网络或其他架构的神经网络,作为示例,例如目标特征提取网络可以采用残差网络(residual network,Resnet)50中用于进行特征提取的神经网络部分。
第一特征信息具体可以表现为二维的矩阵(也即第一特征信息为特征图)、一维的向量或更高维的数据等。C的个数可以与目标特征提取网络的通道数一致,也即目标特征提取网络可以包括C个通道。进一步地,若第一特征信息具体表现为H*W的矩阵的形式,则C个第一特征信息可以表现为H*W*C的张量,H和W均为大于或等于1的整数。
303、训练设备通过第一神经网络模块生成与第一特征信息对应的第一指示信息,第一指示信息用于指示第一特征信息中类别为前景的元素。
本申请实施例中,训练设备在通过目标特征提取网络生成与第一训练图像对应的第一特征信息之后,还会通过第一神经网络模块生成与第一特征信息对应的第一指示信息,第一指示信息用于指示C个第一特征信息包括的所有第一元素中类别为前景的元素,也即第一指示信息用于指示每个第一特征信息包括的N个第一元素中的类别为前景的元素。
具体的,步骤303可以包括:训练设备通过第一神经网络模块生成与C个第一特征信息对应的一个第一相似度信息,第一相似度信息用于指示N个第一元素中任意两个第一元素之间的相似度;根据第一相似度信息和第一特征信息,通过第一神经网络模块生成第一指示信息。本申请实施例中,提供了训练设备通过第一神经网络模块生成第一指示信息的具体实现方案,提高了本方案的可执行性。
更具体的,第一相似度信息可以表现为一个相似性图(affinity map),也即第一相似度信息可以表现为一个长为(H*W)且宽为(H*W)的第一矩阵,第一矩阵中的每个数值代表N个第一元素中任意两个第一元素之间的相似度。
针对第一相似度信息的生成过程。在一种实现方式中,训练设备根据C个第一特征信息,通过第一神经网络模块执行类同(Affinity)操作,得到第一相似度信息。具体的,针对第一神经网络模块执行Affinity操作的过程,训练设备可以对C个第一特征信息进行再次卷积,得到C个更新后的第一特征信息;对C个更新后的第一特征信息进行转置,得到C个转置后的第一特征信息。训练设备将C个更新后的第一特征信息与C个转置后的第一特征信息相乘得到相乘结果,再利用矩阵变换(Reshape)函数对前述相乘结果进行处理,可以得到该第一相似度信息。
在另一种实现方式中,训练设备可以将C个第一特征信息与C个第一特征信息相乘,再进行降维处理,得到第一相似度信息。
可选地,训练设备还可以对第一相似度信息中的每个值进行归一化(normalization)处理,也即将第一相似度信息中的每个值的取值约束至0到1之间,得到归一化后的第一相似度信息。进一步地,训练设备可以利用sigmoid函数或采用其他方式进行归一化处理。
训练设备将第一相似度信息(或归一化后的第一相似度信息)与第一特征信息相乘,以得到第一指示信息;作为示例,若C个第一特征信息具体表现为一个H*W*C的张量,则第一指示信息也可以表现为一个H*W*C的张量,用于指示C个第一特征信息中每个第一元素的类别为前景还是背景,或者,也可以用于指示C个第一特征信息中每个第一元素是否属于显著性区域,前述显著性区域也可以被称为用户感兴趣的区域。若C个第一特征信息具体表现为一个H*W*C的张量,由于每个第一特征信息中均包括H*W个第一元素(也即N个第一元素),则第一指示信息也可以表现为一个H*W的张量,则C个第一特征信息共用同一个第一指示信息。
为更直观地理解本方案,请参阅图4,图4为本申请实施例提供的模型的训练方法中生成第一指示信息的一种流程示意图,训练设备获取C个第一特征信息,C个第一特征信息表现为一个H*W*C的张量。训练设备对C个第一特征信息执行Affinity操作,再进行降维处理,并进行归一化处理后,得到第一相似度信息,第一相似度信息具体可以表现为一个长为(H*W)且宽为(H*W)的矩阵,图4中以P代表第一相似度信息为例。
训练设备将第一特征信息和P相乘得到第一结果,将第一特征信息和(1-P)相乘得到第二结果,将第一结果和第二结果相融合,对融合结果再次卷积并进行归一化处理后,得到与第一特征信息对应的第一指示信息,应理解,图4中的示例仅为方便理解本方案,不用于限定本方案。
304、训练设备根据第一特征信息和第一指示信息,生成第二指示信息,第二指示信息用于指示第一训练图像中的前景区域。
本申请实施例中,训练设备在得到第一指示信息后,可以通过第四神经网络执行卷积操作,根据第一特征信息和第一指示信息生成第二指示信息。其中,第二指示信息用于指示第一训练图像中的前景区域,第二指示信息具体可以表现为一个矩阵,前述矩阵中的每个值用于指示第一训练图像中每个像素点属于第一训练图像中的前景区域,还是属于第一训练图像中的背景区域。
305、训练设备将第一训练图像输入第二模型,以通过第二模型生成第三指示信息,第三指示信息用于指示第一训练图像中的前景区域,第二模型为基于第二训练图像执行过训练操作的神经网络,第二训练图像和第一训练图像归属于不同的数据域。
本申请实施例中,训练设备还会获取第二模型,并将第一训练图像输入第二模型,以通过第二模型生成第三指示信息。其中,第三指示信息用于指示第一训练图像中的前景区域,第三指示信息与第二指示信息的具体表现形式类似,此处不做赘述。
第二模型的功能包括获取图像中的前景区域,或者,第二模型的功能也可以称为获取图像中的显著性目标。第二模型具体可以采用神经网络,也可以采用非神经网络形式的模型,本申请的后续实施例中仅以第二模型采用神经网络为例进行说明。作为示例,例如第二模型具体可以采用关注边缘的显著性分割网络(boundary-aware salient objectdetection network,BASNet)、池化网络(pool network)、全局上下文关注的进步式网络(global context-aware progressive aggregation network,GCPANet)或其他用于获取图像中的显著性目标的神经网络等等。
第二模型为基于多个第二训练图像执行过训练操作的神经网络,第二训练图像和第一训练图像归属于不同的数据域(data domain)。进一步地,在一些场景中,不同数据域的图像可以为图像中的对象的种类不同;作为示例,例如第一训练图像中对象的种类为杯子,第二训练图像中对象的种类为人脸。
在另一些场景中,不同数据域的图像可以为图像来源于不同的图像采集地点,作为示例,例如第一训练图像的图像采集地点是背景,第二训练图像的图像采集地点是深圳。在另一些场景中,不同数据域的图像的采集时刻不同,作为示例,例如第一训练图像的图像采集时刻为白天,第二训练图像的图像采集时刻为夜晚。
在另一些场景中,不同数据域的图像来源于不同的图像生成装置,作为示例,例如第一训练图像是由仿真软件生成的,第二训练图像是通过相机拍摄得到等,以上举例均仅为方便理解不同数据域的图像这一概念,不用于限定本方案。
具体的,步骤305可以包括:训练设备通过第二模型对第一训练图像进行特征提取,得到与第一训练图像对应的C个第二特征信息,每个第二特征信息包括N个第二元素;通过第二模型生成与C个第二特征信息对应的第二相似度信息,第二相似度信息用于指示N个第二元素中任意两个第二元素之间的相似度;根据第二特征信息和第二相似度信息,通过第二模型生成第三指示信息。其中,“第二特征信息”的含义可以参阅上述对“第一特征信息”的含义的描述,“第二相似度信息”的含义可以参阅上述对“第一相似度信息”的含义的描述,区别在于“第一特征信息”和“第一相似度信息”为通过第一模型生成的,“第二特征信息”和“第二相似度信息”为通过第二模型生成的,此处不做赘述。
需要说明的是,本申请实施例不限定步骤305的执行顺序,步骤305可以在步骤301至步骤304以及步骤306至309中任意一个步骤之前执行,或者,步骤305可以在步骤301至步骤304以及步骤306至309中任意一个步骤之后执行。
306、训练设备根据第一特征信息和第一指示信息,通过第二神经网络模块,生成第一训练图像的前景特征。
本申请的一些实施例中,训练设备还会根据第一特征信息和第一指示信息,通过第二神经网络模块再次执行特征提取操作,以生成第一训练图像的前景特征。第二神经网络模块具体可以包括一层或多层卷积神经网络层;第一训练图像的前景特征的概念可以参阅上述描述,此处不做赘述。
307、训练设备根据第一训练图像的前景特征,对第一训练图像执行分类操作,得到第一训练图像的第一预测类别。
308、训练设备根据第一特征信息和第一指示信息,生成第一训练图像的前景特征和第一训练图像的背景特征。
本申请的一些实施例中,第一指示信息不仅用于指示第一特征信息包括的N个第一元素中哪些元素属于前景区域,还可以指示第一特征信息包括的N个第一元素中哪些元素属于背景区域。则训练设备还可以根据第一特征信息和第一指示信息,生成第一训练图像的前景特征和第一训练图像的背景特征。
其中,第一训练图像的背景特征包括第一训练图像的背景区域的特征信息,第一训练图像的背景区域为第一训练图像中前景区域之外的区域。作为示例,例如用户想要获取地板上放置的鞋子的商品链接,则可以对地板上放置的鞋子进行拍照得到待处理图像,待处理图像中的鞋子就是图像的前景区域,待处理图像中的地板就是图像的背景区域。
具体的,训练设备可以将第一特征信息和第一指示信息进行点积操作,得到第一训练图像的前景特征。若第一指示信息进行过归一化处理,则训练设备可以将1与第一指示信息相减得到计算结果,并将前述计算结果与第一特征信息进行点积操作,得到第一训练图像的背景特征。
309、训练设备根据第一训练图像的前景特征和第一训练图像的背景特征,对第一训练图像执行分类操作,得到第一训练图像的第二预测类别。
310、训练设备通过第一模型,生成第三训练图像的前景特征,第三训练图像和第一训练图像归属于相同的数据域且类别相同。
本申请的一些实施例中,训练设备配置的目标训练数据集包括的多个训练图像均来自于相同的数据域,目标训练数据集中还可以包括第三训练图像。训练设备还可以通过第一模型,生成第三训练图像的前景特征,前述步骤的具体实现方式可以参阅上述步骤中的描述,此处不做赘述。其中,第三训练图像和第一训练图像归属于相同的数据域且类别相同,对于数据域的概念可参阅上述步骤中的描述,此处不做赘述。
第三训练图像和第一训练图像的类别相同指的是第三训练图像和第一训练图像中的对象的类别相同,作为示例,例如第三训练图像和第一训练图像中的对象均为上衣;作为另一示例,例如第三训练图像和第一训练图像中的对象均为兔子等,此处举例仅为方便理解本方案,不用于限定本方案。
311、训练设备通过第一模型,生成第四训练图像的前景特征和第五训练图像的前景特征,第四训练图像和第一训练图像归属于相同的数据域且类别相同,第五训练图像和第一训练图像归属于相同的数据域且类别不同。
本申请的一些实施例中,目标训练数据集中还可以包括第四训练图像和第五训练图像,训练设备可以通过第一模型,分别生成第四训练图像的前景特征和第五训练图像的前景特征。其中,第四训练图像和第一训练图像归属于相同的数据域且类别相同,第五训练图像和第一训练图像归属于相同的数据域且类别不同;进一步地,第四训练图像和第三训练图像可以为相同的图像,也可以为不同的图像。
需要说明的是,第四训练图像的前景特征的含义和第五训练图像的前景特征的含义均可以参阅上述“第一训练图像的前景特征”进行理解,训练设备通过第一模型生成第四训练图像的前景特征和第五训练图像的前景特征的具体实现方式,也可以参阅上述步骤的描述,此处不做赘述。
312、训练设备根据损失函数,对第一模型进行训练。
本申请实施例中,训练设备会根据损失函数,对第一模型进行迭代训练,直至满足预设条件,得到训练后的第一模型;预设条件可以为达到损失函数的收敛条件,或者,预设条件可以为对第一模型进行训练的次数达到预设次数。
具体的,在一种实现方式中,步骤312可以包括:训练设备根据第一损失函数,对第一模型进行训练,直至满足预设条件,得到训练后的第一模型。第一损失函数用于指示第二指示信息和第三指示信息之间的相似度,第一损失函数的训练目标为提高第二指示信息和第三指示信息之间的相似度;第一损失函数具体可以采用均方误差(mean square error,MSE)损失函数、平均绝对误差(mean absolute error,MAE)损失函数、交叉熵(crossentropy)损失函数或其他类型的损失函数等,此处不做穷举。
更具体的,针对训练设备对第一模型进行一次训练的过程。训练设备根据第二指示信息和第三指示信息,生成第一损失函数的函数值,并根据第一损失函数的函数值反向更新第一模型的参数,以完成对第一模型的一次训练。
为更直观地理解本方案,请参阅图5,图5为本申请实施例提供的模型的训练方法中对第一模型执行训练操作的一种示意图。图5可以结合上述对图4的描述进行理解,训练设备在执行卷积以及归一化处理后得到了第一指示信息,将第一指示信息和第一特征信息相乘,对相乘得到的结果再次进行卷积处理后,得到第二指示信息,第二指示信息用于指示第一训练图像中的前景区域。训练设备还可以将第一训练图像输入第二模型中,以通过第二模型生成第三指示信息,第二模型为执行过训练操作的模型,第三指示信息用于指示第一训练图像中的前景区域。训练设备根据第二指示信息和第三指示信息,生成第一损失函数的函数值,并根据第一损失函数的函数值,反向更新第一模型的参数,应理解,图5中的示例仅为方便理解本方案,不用于限定本方案。
在另一种实现方式中,步骤306和307为可选步骤,若执行步骤306和307,则步骤312可以包括:训练设备还可以根据第一损失函数和第二损失函数,对第一模型进行训练。具体的,训练设备可以从目标训练数据集中获取第一训练图像的正确类别,根据第一损失函数的函数值和第二损失函数的函数值,生成总的损失函数的函数值,并根据总的损失函数的函数值反向更新第一模型的参数,以完成对第一模型的一次训练。
其中,第二损失函数用于指示第一训练图像的第一预测类别和第一训练图像的正确类别之间的相似度,第二损失函数的训练目标为提高第一训练图像的第一预测类别和第一训练图像的正确类别之间的相似度。进一步地,第二损失函数具体可以采用交叉熵损失函数、MAE损失函数或其他类型的损失函数等。
为更直观地理解本方案,请参阅图6,图6为本申请实施例提供的模型的训练方法中对第一模型执行训练操作的另一种示意图。如图6所示,训练设备通过目标特征网络生成第一训练图像的第一特征信息,通过第一神经网络模块生成与第一特征信息对应的第一指示信息,根据第一特征信息和第一指示信息,生成第二指示信息;训练设备还会将第一训练图像输入第二模型中,以通过第二模型生成第三指示信息,训练设备根据第二指示信息和第三指示信息,生成第一损失函数的函数值,具体实现方式可参阅上述描述,此处不做赘述。
训练设备还会根据第一特征信息和第一指示信息,通过第二神经网络模块,生成第一训练图像的前景特征;基于第一训练图像的前景特征执行分类操作,得到第一训练图像的第一预测类别,根据第一训练图像的第一预测类别和第一训练图像的正确类别,生成第二损失函数的函数值。训练设备根据第一损失函数的函数值和第二损失函数的函数值,反向更新第一模型的参数,应理解,图6中的示例仅为方便理解本方案,不用于限定本方案。
本申请实施例中,同时采用第一损失函数和第二损失函数对第一模型进行训练,由于第二损失函数的训练目标为提高第一训练图像的第一预测类别的准确率,也即第二损失函数的训练目标为使得第一模型能够提取到当前数据域的图像更为准确的前景特征,有利于提高训练后的第一模型与当前数据域的适配程度,以提高训练后的第一模型的精度。
在另一种实现方式中,步骤308和309为可选步骤,若执行步骤308和309,则步骤312可以包括:训练设备在通过步骤309生成第一训练图像的第二预测类别之后,可以根据第一损失函数和第四损失函数,对第一模型进行训练。其中,第四损失函数用于指示第一训练图像的第二预测类别和第一训练图像的正确类别之间的相似度,第四损失函数的训练目标为提高第一训练图像的第二预测类别和第一训练图像的正确类别之间的相似度。第四损失函数可以采用交叉熵损失函数、MAE损失函数、间隔损失函数(margin loss)或其他类型的损失函数等,此处不做穷举。
在另一种实现方式中,步骤308和310为可选步骤,若执行步骤308和310,则步骤312可以包括:训练设备在通过步骤308生成第一训练图像的前景特征和第一训练图像的背景特征,并通过步骤310生成第三训练图像的前景特征之后,可以根据第一损失函数和第三损失函数,对第一模型进行训练。
其中,第三损失函数包括用于指示第一训练图像的前景特征和第三训练图像的前景特征之间的相似度的第一损失项,和,用于指示第一训练图像的前景特征和第一训练图像的背景特征之间的相似度的第二损失项;第三损失函数的训练目标包括提高第一训练图像的前景特征和第三训练图像的前景特征之间的相似度,也即第三损失函数的训练目标包括提高相同种类的图像的前景特征之间的相似度;第二损失函数的训练目标还包括降低第一训练图像的前景特征和第一训练图像的背景特征之间的相似度。第三损失函数可以采用三元组损失函数(triplets loss)、交叉熵损失函数、对比损失函数(contrastive loss)、排序损失函数(ranking loss)或其他类型的损失函数等,此处不做穷举。
为更直观地理解本方案,请参阅图7,图7为本申请实施例提供的模型的训练方法中第三损失函数的一种示意图。Z代表通过第一神经网络模块生成的与第一特征信息对应的第一指示信息,第一指示信息用于指示第一特征信息包括的N个第一元素中哪些第一元素的类别为前景,(1-Z)用于指示第一特征信息包括的N个第一元素中哪些第一元素的类别为背景,该第一指示信息的具体生成方式可参阅上述描述,此处不做赘述。训练设备还会根据第一特征信息和第一指示信息,生成第一训练图像的前景特征和第一训练图像的背景特征;训练设备还会通过目标特征提取网络和第一神经网络模块,生成第三训练图像的前景特征,第三训练图像和第一训练图像归属于相同的数据域且类别相同。训练设备根据第一训练图像的前景特征、第一训练图像的背景特征和第三训练图像的前景特征,生成第三损失函数的函数值,应理解,图7中的示例仅为方便理解本方案,不用于限定本方案。
本申请实施例中,同时采用第一损失函数和第三损失函数对第一模型进行训练,由于第三损失函数的训练目标为提高相同类别的图像的前景特征之间的相似度,并且降低同一图像的前景特征和背景特征之间的相似度,以加大第一模型生成的前景特征和背景特征之间的区别程度,以进一步降低图像的背景区域对图像的前景区域的干扰。
在另一种实现方式中,训练设备通过步骤303生成第一相似度信息,并通过步骤305生成第二相似度信息之后,还可以根据第一损失函数和第五损失函数,对第一模型进行训练。其中,第五损失函数用于指示第一相似度信息和第二相似度信息之间的相似度,第五损失函数的训练目标为提高第一相似度信息和第二相似度信息之间的相似度。第五损失函数具体可以采用MSE损失函数、交叉熵损失函数或其他类型的损失函数等。
为更直观地理解本方案,请参阅图8,图8为本申请实施例提供的模型的训练方法中对第一模型执行训练操作的又一种示意图。图8可以结合上述对图5以及图6的描述进行理解,对于第一损失函数的函数值的具体生成方式,此处不做赘述。
参阅上述对步骤303的描述,训练设备在利用第一神经网络模块生成第一指示信息的过程中,会生成第一相似度信息。参阅上述对步骤305的描述,训练设备在利用第二模型生成第二指示信息的过程中,会生成第二相似度信息。训练设备可以根据第一相似度信息和第二相似度信息,生成第五损失函数的函数值。进而根据第一损失函数的函数值和第五损失函数的函数值,反向更新第一模型的参数,应理解,图8中的示例仅为方便理解本方案,不用于限定本方案。
本申请实施例中,还会采用第五损失函数来提高第一相似度信息和第二相似度信息之间的相似度,也即将第二模型在生成第三指示信息过程中生成的第二相似度信息作为监督信息,来提高第一模型生成的第一相似度信息的准确率,以进一步提高训练后的第一模型的精度。
在另一种实现方式中,步骤306和311为可选步骤,若执行步骤306和311,步骤312可以包括:训练设备在通过步骤306生成第一训练图像的前景特征,并通过步骤311生成第四训练图像的前景特征和第五训练图像的前景特征之后,可以根据第一损失函数和第六损失函数,对第一模型进行训练。
其中,第六损失函数包括用于指示第一训练图像的前景特征和第四训练图像的前景特征之间的相似度的第三损失项,和用于指示第一训练图像的前景特征和第五训练图像的前景特征之间的相似度的第四损失项。第六损失函数的训练目标包括提高第一训练图像的前景特征和第四训练图像的前景特征之间的相似度;还包括降低第一训练图像的前景特征和第五训练图像的前景特征之间的相似度。第六损失函数可以采用三元组损失函数(triplets loss)、交叉熵损失函数、对比损失函数、排序损失函数或其他类型的损失函数等,此处不做穷举。
在另一种实现方式中,训练设备可以根据第一损失函数、第二损失函数和第三损失函数,对第一模型进行训练。具体的,训练设备在生成第一损失函数的函数值、第二损失函数的函数值和第三损失函数的函数值后,可以对第一损失函数的函数值、第二损失函数的函数值和第三损失函数的函数值进行加权求和,以得到总的损失函数的函数值,并根据总的损失函数的函数值,对第一模型的参数进行反向更新,以完成对第一模型的一次训练。
在另一种实现方式中,训练设备可以根据第一损失函数、第二损失函数和第四损失函数,对第一模型进行训练。在另一种实现方式中,训练设备可以根据第一损失函数、第二损失函数和第五损失函数,对第一模型进行训练。在另一种实现方式中,训练设备可以根据第一损失函数、第二损失函数和第六损失函数,对第一模型进行训练。
在另一种实现方式中,训练设备可以根据第一损失函数、第三损失函数和第四损失函数,对第一模型进行训练。本申请实施例中,还会利用第四损失函数对第一模型进行训练,第四损失函数指示第一训练图像的第二预测类别和第一训练图像的正确类别之间的相似度,第一训练图像的第二预测类别是基于第一训练图像的前景特征和第一训练图像的背景特征得到的,也即训练的目标包括得到更为准确的图像的前景特征和图像的背景特征,也即训练的目标为第一指示信息的准确度越来越高,有利于提高训练后的第一模型的准确率。
在另一种实现方式中,训练设备可以根据第一损失函数、第三损失函数和第五损失函数,对第一模型进行训练。在另一种实现方式中,训练设备可以根据第一损失函数、第三损失函数和第六损失函数,对第一模型进行训练。
在另一种实现方式中,训练设备可以根据第一损失函数、第四损失函数和第五损失函数,对第一模型进行训练。在另一种实现方式中,训练设备可以根据第一损失函数、第四损失函数和第六损失函数,对第一模型进行训练。
在另一种实现方式中,训练设备可以根据第一损失函数和第一损失函数集合,对第一模型进行训练,目标损失函数集合包括第二损失函数、第三损失函数、第四损失函数、第五损失函数和第六损失函数中的任意三种损失函数。
在另一种实现方式中,训练设备可以根据第一损失函数和第二损失函数集合,对第一模型进行训练,第二损失函数集合包括第二损失函数、第三损失函数、第四损失函数、第五损失函数和第六损失函数中的任意四种损失函数。
在另一种实现方式中,训练设备可以根据第一损失函数、第二损失函数、第三损失函数、第四损失函数、第五损失函数和第六损失函数,对第一模型进行训练。为更直观地理解本方案,请参阅图9,图9为本申请实施例提供的模型的训练方法中利用第一损失函数对第一模型执行训练操作的再一种示意图。图9可以结合上述对图5至图8的描述进行理解,此处不再对第一损失函数、第二损失函数、第三损失函数以及第五损失函数的生成方式进行介绍。训练设备在得到第一训练图像的前景特征和第一训练图像的背景特征后,还可以根据第一训练图像的前景特征和第一训练图像的背景特征,执行分类操作,得到第一训练图像的第二预测类别,根据第一训练图像的第二预测类别和第一训练图像的正确类别,生成第四损失函数的函数值。
训练设备还可以通过第一模型生成第四训练图像的前景特征和第五训练图像的前景特征,根据第一训练图像的前景特征、第四训练图像的前景特征和第五训练图像的前景特征生成第六损失函数的函数值。进而根据第一损失函数的函数值至第六损失函数的函数值,反向调整第一模型的参数,以实现对第一模型的训练,应理解,图9中的示例仅为方便理解本方案,不用于限定本方案。
本申请实施例中,通过第一模型能够生成第一训练图像的第一指示信息,第一指示信息用于指示第一训练图像的特征信息中哪些元素的类别为前景,从而基于第一模型能够得到第一训练图像的前景特征;且本方案提供的训练方法是根据特征信息和第一指示信息,生成第二指示信息,第二指示信息用于指示第一训练图像中的前景区域,并利用训练好的第二模型生成第一模型的训练过程的监督信息,在第一模型的训练过程中不再需要训练图像的前景区域,也即不再需要对训练图像的前景区域进行人工标注,提高了整个训练过程的效率。
二、推理阶段
本申请实施例中,推理阶段描述的是执行设备210如何利用第一模型/规则201进行图像处理以生成目标处理的过程,具体的,请参阅图10,图10为本申请实施例提供的图像处理方法的一种流程示意图,本申请实施例提供的图像处理方法可以包括:
1001、执行设备将第一图像输入目标特征提取网络,以通过目标特征提取网络进行特征提取,得到与第一图像对应的第一特征信息。
1002、执行设备通过第一神经网络模块生成与第一特征信息对应的第一指示信息,第一指示信息用于指示第一特征信息中类别为前景的元素,目标特征提取网络和第一神经网络模块均包括于第一模型。
本申请实施例中,执行设备执行步骤1001和1002的具体实现方式可以参阅图3对应实施例中步骤302和303的具体实现方式,“与第一图像对应的第一特征信息”的含义以及“与第一特征信息对应的第一指示信息”的含义均可以参阅图3对应实施例中的描述进行理解,此处均不做赘述。
1003、执行设备根据第一指示信息,通过第一模型生成与第一图像对应的目标处理结果。
本申请实施例中,执行设备在得到第一指示信息后,还会第一指示信息,通过第一模型生成与第一图像对应的目标处理结果。其中,第一模型是采用图3对应实施例中的步骤进行训练的。也即第一模型为采用第一损失函数训练得到,第一损失函数的训练目标为提高第二指示信息和第三指示信息之间的相似度,第二指示信息和第三指示信息均用于指示第一图像中的前景区域,第二指示信息为根据第一特征信息和第一指示信息得到,第三指示信息由第二模型生成,第二模型为基于第二图像执行过训练操作的神经网络,第二图像和第一图像归属于不同的数据域。
可选地,第一模型为采用第一损失函数和第三损失函数训练得到。第三损失函数的训练目标包括提高第一图像的前景特征和第三图像的前景特征之间的相似度,第三损失函数的训练目标还包括降低第一图像的前景特征和第一图像的背景特征之间的相似度,第三图像和第一图像归属于相同的数据域且类别相同。对于第一模型的具体训练方式可以参阅图3对应实施例中的描述,此处不做赘述。
若本申请实施例所提供的第一模型应用于利用图像的前景特征进行产品搜索的应用场景中,则目标处理结果包括第一图像的前景特征。或者,若本申请实施例所提供的第一模型应用于图像分类的应用场景中,则目标处理结果包括第一图像的前景特征。
或者,若本申请实施例所提供的第一模型应用于图像合成的应用场景中,则目标处理结果用于指示第一图像的前景区域;可选地,目标处理结果还可以用于指示第一图像的前景区域,对于第一模型的功能可以参阅图3对应实施例中步骤301中的描述,此处不做赘述。本申请实施例中,提供了第一模型的多种具体应用场景,提高了本方案的实现灵活性。
本申请实施例中,采用第一模型执行推理阶段的步骤,由于在训练阶段,根据第一特征信息和第一指示信息得到第二指示信息,并且以第三指示信息作为监督信息来知道第一模型的训练,第三指示信息是训练好的第二模型生成的,也即在第一模型的训练过程中不再需要训练图像的前景区域,从而不再需要对训练图像的前景区域进行人工标注,提高了第一模型的训练过程的效率。此外,不仅提供了第一模型的训练阶段的步骤,还提供了第一模型的应用阶段的步骤,扩展了本方案的应用场景,提高了本方案的实现灵活性。
为了对本申请实施例所带来的有益效果有进一步地理解,以下结合实验数据对本申请实施例所带来的有益效果进行描述。本实验中以在目标数据集上进行测试为例,目标数据集中包括大量的珠宝的图像,实验任务为对目标数据集中的图像进行特征提取,以获取与前述图像中的对象匹配的图像,请参阅如下表1。
Top1 | Top5 | Top10 | |
对照组 | 64.07%(0.66%) | 86.05%(0.24%) | 90.71%(0.21%) |
本申请实施例 | 66.23%(2.81%) | 87.51%(1.7%) | 91.44%(0.94%) |
表1
其中,对照组为采用第二模型执行该实验任务,表1中的所有数值均指代模型返回的匹配结果中出现正确结果的概率。Top1这一列分别指代第二模型返回的第一个匹配结果为正确结果的概率,和,训练后的第一模型返回的第一个匹配结果为正确结果的概率。Top5这一列分别指代第二模型返回的前5个匹配结果中存在正确结果的概率,和,训练后的第一模型返回的前5个匹配结果中存在正确结果的概率。Top10这一列分别指代第二模型返回的前10个匹配结果中存在正确结果的概率,和,训练后的第一模型返回的前10个匹配结果中存在正确结果的概率。通过表1中的展示可知,采用本申请实施例提供的方法得到的训练后的第一模型的准确度更高。
为了更直观地理解本申请实施例所带来的有益效果,请参阅图11,图11为本申请实施例提供的模型的训练方法的一种有益效果图。图11中以第一模型用于利用图像的前景特征进行产品搜索的应用场景中为例,图11包括(a)和(b)两个子示意图,图11的(a)子示意图和图11的(b)子示意图中的0号图片均为待处理图像,1-3号图像均为基于待处理图像的前景特征得到的产品的图像,图11的(a)子示意图展示的为采用对照组提供的方法得到的检索结果,图11的(b)子示意图展示的为采用本申请实施例提供的方法得到的检索结果。如图11所示,采用本申请实施例得到的查询结果更为准确。
请继续参阅图12,图12为本申请实施例提供的模型的训练方法的另一种有益效果图。图12中第一列和第二列均为对目标指示信息进行可视化处理所得到的视图,目标指示信息用于指示待处理图像的第一特征信息包括的N个第一元素中类别为前景的元素。图12中第一行为采用对照组提供的训练方法得到的训练后的模型所生成的目标指示信息所对应的可视化图,图12中第二行为采用本申请实施例提供的训练方法得到的训练后的第一模型所生成的目标指示信息(也即第一指示信息)所对应的可视化图。第一列为将目标指示信息进行二值化处理后,再进行可视化处理后得到;第二列为将目标指示信息进行可视化处理,并进行灰度化后得到。如图12所示,通过训练后的第一模型得到的第一指示信息更能展示出待处理图像的前景区域的特征。
图12中第三行为分别基于对照组和本申请实施例得到的模型对待处理图像的前景区域进行预测,将得到的前景区域进行可视化处理后得到的图像,通过对比可知,采用本申请实施例提供的训练方法得到的模型所获取到的前景区域更为准确。
在图3至图12所对应的实施例的基础上,为了更好的实施本申请实施例的上述方案,下面还提供用于实施上述方案的相关设备。具体参阅图13,图13为本申请实施例提供的模型的训练装置的一种结构示意图。模型的训练装置1300用于对第一模型进行训练,第一模型包括目标特征提取网络和第一神经网络模块,模型的训练装置1300包括:特征提取单元1301,用于将第一训练图像输入目标特征提取网络,以通过目标特征提取网络进行特征提取,得到与第一训练图像对应的第一特征信息;生成单元1302,用于通过第一神经网络模块生成与第一特征信息对应的第一指示信息,第一指示信息用于指示第一特征信息中的类别为前景的元素;生成单元1302,还用于根据第一特征信息和第一指示信息,生成第二指示信息,第二指示信息用于指示第一训练图像中的前景区域;生成单元1302,还用于将第一训练图像输入第二模型,以通过第二模型生成第三指示信息,第三指示信息用于指示第一训练图像中的前景区域,第二模型为基于第二训练图像执行过训练操作的神经网络,第二训练图像和第一训练图像归属于不同的数据域;训练单元1303,用于根据第一损失函数,对第一模型进行训练,直至满足预设条件,得到训练后的第一模型,其中,第一损失函数的训练目标为提高第二指示信息和第三指示信息之间的相似度。
在一种可能的设计中,请参阅图14,图14为本申请实施例提供的模型的训练装置的另一种结构示意图。第一模型还包括第二神经网络模块;生成单元1302,还用于根据第一特征信息和第一指示信息,通过第二神经网络模块,生成第一训练图像的前景特征;模型的训练装置1300还包括:分类单元1304,用于根据第一训练图像的前景特征,对第一训练图像执行分类操作,得到第一训练图像的第一预测类别;训练单元1303,具体用于根据第一损失函数和第二损失函数,对第一模型进行训练,第二损失函数用于指示第一训练图像的第一预测类别和第一训练图像的正确类别之间的相似度。
在一种可能的设计中,生成单元1302,还用于根据第一特征信息和第一指示信息,生成第一训练图像的前景特征和第一训练图像的背景特征;生成单元1302,还用于通过第一模型,生成第三训练图像的前景特征,第三训练图像和第一训练图像归属于相同的数据域且类别相同;训练单元1303,具体用于根据第一损失函数和第三损失函数,对第一模型进行训练,其中,第三损失函数的训练目标包括提高第一训练图像的前景特征和第三训练图像的前景特征之间的相似度,第三损失函数的训练目标还包括降低第一训练图像的前景特征和第一训练图像的背景特征之间的相似度。
在一种可能的设计中,请参阅图14,模型的训练装置1300还包括:分类单元1304,用于根据第一训练图像的前景特征和第一训练图像的背景特征,对第一训练图像执行分类操作,得到第一训练图像的第二预测类别;训练单元1303,具体用于根据第一损失函数、第三损失函数和第四损失函数,对第一模型进行训练,其中,第四损失函数用于指示第一训练图像的第二预测类别和第一训练图像的正确类别之间的相似度。
在一种可能的设计中,请参阅图14,第一特征信息包括N个第一元素,N为大于或等于1的整数,生成单元1302,具体包括:第一生成子单元13021,用于通过第一神经网络模块生成与第一特征信息对应的第一相似度信息,第一相似度信息用于指示N个第一元素中任意两个第一元素之间的相似度;第一生成子单元13021,还用于根据第一相似度信息和第一特征信息,通过第一神经网络模块生成第一指示信息。
在一种可能的设计中,请参阅图14,生成单元1302,具体包括:特征提取子单元13022,用于通过第二模型对第一训练图像进行特征提取,得到与第一训练图像对应的第二特征信息,第二特征信息包括N个第二元素;第二生成子单元13023,用于通过第二模型生成与第二特征信息对应的第二相似度信息,第二相似度信息用于指示N个第二元素中任意两个第二元素之间的相似度;第二生成子单元13023,还用于根据第二特征信息和第二相似度信息,通过第二模型生成第三指示信息;训练单元1303,具体用于根据第一损失函数和第五损失函数,对第一模型进行训练,其中,第五损失函数的训练目标为提高第一相似度信息和第二相似度信息之间的相似度。
需要说明的是,模型的训练装置1300中各模块/单元之间的信息交互、执行过程等内容,与本申请中图3至图9对应的各个方法实施例基于同一构思,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
本申请实施例还提供一种图像处理装置,请参阅图15,图15为本申请实施例提供的图像处理装置的一种结构示意图。图像处理装置1500包括:特征提取单元1501,用于将第一图像输入目标特征提取网络,以通过目标特征提取网络进行特征提取,得到与第一图像对应的第一特征信息;生成单元1502,用于通过第一神经网络模块生成与第一特征信息对应的第一指示信息,第一指示信息用于指示第一特征信息中类别为前景的元素,目标特征提取网络和第一神经网络模块均包括于第一模型;生成单元1502,还用于根据第一指示信息,通过第一模型生成与第一图像对应的目标处理结果;其中,第一模型为采用第一损失函数训练得到,第一损失函数的训练目标为提高第二指示信息和第三指示信息之间的相似度,第二指示信息和第三指示信息均用于指示第一图像中的前景区域,第二指示信息为根据第一特征信息和第一指示信息得到,第三指示信息由第二模型生成,第二模型为基于第二图像执行过训练操作的神经网络,第二图像和第一图像归属于不同的数据域。
在一种可能的设计中,第一模型为采用第一损失函数和第三损失函数训练得到,其中,第三损失函数的训练目标包括提高第一图像的前景特征和第三图像的前景特征之间的相似度,第三损失函数的训练目标还包括降低第一图像的前景特征和第一图像的背景特征之间的相似度,第三图像和第一图像归属于相同的数据域且类别相同。
在一种可能的设计中,第一特征信息包括N个第一元素,N为大于或等于1的整数,生成单元1502,具体用于通过第一神经网络模块生成与第一特征信息对应的第一相似度信息,并根据第一相似度信息和第一特征信息,通过第一神经网络模块生成第一指示信息,其中,第一相似度信息用于指示N个第一元素中任意两个第一元素之间的相似度。
在一种可能的设计中,目标处理结果包括第一图像的前景特征,装置应用于利用图像的前景特征进行产品搜索的应用场景中;或者,目标处理结果包括第一图像的前景特征,装置应用于图像分类的应用场景中;或者,目标处理结果用于指示第一图像的前景区域,装置应用于图像合成的应用场景中。
需要说明的是,图像处理装置1500中各模块/单元之间的信息交互、执行过程等内容,与本申请中图10对应的各个方法实施例基于同一构思,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
接下来介绍本申请实施例提供的一种执行设备,请参阅图16,图16为本申请实施例提供的执行设备的一种结构示意图,执行设备1600具体可以表现为虚拟现实VR设备、手机、平板、笔记本电脑、智能穿戴设备、监控数据处理设备或者雷达数据处理设备等,此处不做限定。其中,执行设备1600上可以部署有图15对应实施例中所描述的图像处理装置1500,用于实现图10对应实施例中执行设备的功能。具体的,执行设备1600包括:接收器1601、发射器1602、处理器1603和存储器1604(其中执行设备1600中的处理器1603的数量可以一个或多个,图16中以一个处理器为例),其中,处理器1603可以包括应用处理器16031和通信处理器16032。在本申请的一些实施例中,接收器1601、发射器1602、处理器1603和存储器1604可通过总线或其它方式连接。
存储器1604可以包括只读存储器和随机存取存储器,并向处理器1603提供指令和数据。存储器1604的一部分还可以包括非易失性随机存取存储器(non-volatile randomaccess memory,NVRAM)。存储器1604存储有处理器和操作指令、可执行模块或者数据结构,或者它们的子集,或者它们的扩展集,其中,操作指令可包括各种操作指令,用于实现各种操作。
处理器1603控制执行设备的操作。具体的应用中,执行设备的各个组件通过总线系统耦合在一起,其中总线系统除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都称为总线系统。
上述本申请实施例揭示的方法可以应用于处理器1603中,或者由处理器1603实现。处理器1603可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器1603中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1603可以是通用处理器、数字信号处理器(digital signal processing,DSP)、微处理器或微控制器,还可进一步包括专用集成电路(application specific integratedcircuit,ASIC)、现场可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。该处理器1603可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1604,处理器1603读取存储器1604中的信息,结合其硬件完成上述方法的步骤。
接收器1601可用于接收输入的数字或字符信息,以及产生与执行设备的相关设置以及功能控制有关的信号输入。发射器1602可用于通过第一接口输出数字或字符信息;发射器1602还可用于通过第一接口向磁盘组发送指令,以修改磁盘组中的数据;发射器1602还可以包括显示屏等显示设备。
本申请实施例中,处理器1603中的应用处理器16031,用于执行图10对应实施例中的执行设备执行的图像处理方法。需要说明的是,处理器1603中应用处理器16031执行前述各个步骤的具体方式,与本申请中图10对应的各个方法实施例基于同一构思,其带来的技术效果与本申请中图10对应的各个方法实施例相同,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
本申请实施例还提供了一种训练设备,请参阅图17,图17是本申请实施例提供的训练设备一种结构示意图,训练设备1700上可以部署有图13或图14对应实施例中所描述的模型的训练装置1300,用于实现图3至图9对应实施例中训练设备的功能,具体的,训练设备1700由一个或多个服务器实现,训练设备1700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1722(例如,一个或一个以上处理器)和存储器1732,一个或一个以上存储应用程序1742或数据1744的存储介质1730(例如一个或一个以上海量存储设备)。其中,存储器1732和存储介质1730可以是短暂存储或持久存储。存储在存储介质1730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对训练设备中的一系列指令操作。更进一步地,中央处理器1722可以设置为与存储介质1730通信,在训练设备1700上执行存储介质1730中的一系列指令操作。
训练设备1700还可以包括一个或一个以上电源1726,一个或一个以上有线或无线网络接口1750,一个或一个以上输入输出接口1758,和/或,一个或一个以上操作系统1741,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本申请实施例中,中央处理器1722,用于执行图3至图9对应实施例中的训练设备执行的图像处理方法。需要说明的是,中央处理器1722执行上述各个步骤的具体方式,与本申请中图3至图9对应的各个方法实施例基于同一构思,其带来的技术效果与本申请中图3至图9对应的各个方法实施例相同,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
本申请实施例中还提供一种包括计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行如前述图10所示实施例描述的方法中执行设备所执行的步骤,或者,使得计算机执行如前述图3至图9所示实施例描述的方法中训练设备所执行的步骤。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有程序,当该程序在计算机上运行时,使得计算机执行如前述图10所示实施例描述的方法中执行设备所执行的步骤,或者,使得计算机执行如前述图3至图9所示实施例描述的方法中训练设备所执行的步骤。
本申请实施例提供的图像处理装置、模型的训练装置、执行设备以及训练设备具体可以为芯片,芯片包括:处理单元和通信单元,所述处理单元例如可以是处理器,所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令,以使芯片执行上述图10所示实施例描述的图像处理方法,或者,以使芯片执行上述图3至图9所示实施例描述的模型的训练方法。可选地,所述存储单元为所述芯片内的存储单元,如寄存器、缓存等,所述存储单元还可以是所述无线接入设备端内的位于所述芯片外部的存储单元,如只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)等。
具体的,请参阅图18,图18为本申请实施例提供的芯片的一种结构示意图,所述芯片可以表现为模型处理器NPU 180,NPU 180作为协处理器挂载到主CPU(Host CPU)上,由Host CPU分配任务。NPU的核心部分为运算电路1803,通过控制器1804控制运算电路1803提取存储器中的矩阵数据并进行乘法运算。
在一些实现中,运算电路1803内部包括多个处理单元(Process Engine,PE)。在一些实现中,运算电路1803是二维脉动阵列。运算电路1803还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中,运算电路1803是通用的矩阵处理器。
举例来说,假设有输入矩阵A,权重矩阵B,输出矩阵C。运算电路从权重存储器1802中取矩阵B相应的数据,并缓存在运算电路中每一个PE上。运算电路从输入存储器1801中取矩阵A数据与矩阵B进行矩阵运算,得到的矩阵的部分结果或最终结果,保存在累加器(accumulator)1808中。
统一存储器1806用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器(Direct Memory Access Controller,DMAC)1805,DMAC被搬运到权重存储器1802中。输入数据也通过DMAC被搬运到统一存储器1806中。
BIU为Bus Interface Unit即,总线接口单元1810,用于AXI总线与DMAC和取指存储器(Instruction Fetch Buffer,IFB)1809的交互。
总线接口单元1810(Bus Interface Unit,简称BIU),用于取指存储器1809从外部存储器获取指令,还用于存储单元访问控制器1805从外部存储器获取输入矩阵A或者权重矩阵B的原数据。
DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器1806或将权重数据搬运到权重存储器1802中或将输入数据数据搬运到输入存储器1801中。
向量计算单元1807包括多个运算处理单元,在需要的情况下,对运算电路的输出做进一步处理,如向量乘,向量加,指数运算,对数运算,大小比较等等。主要用于模型中非卷积/全连接层网络计算,如Batch Normalization(批归一化),像素级求和,对特征平面进行上采样等。
在一些实现中,向量计算单元1807能将经处理的输出的向量存储到统一存储器1806。例如,向量计算单元1807可以将线性函数和/或非线性函数应用到运算电路1803的输出,例如对卷积层提取的特征平面进行线性插值,再例如累加值的向量,用以生成激活值。在一些实现中,向量计算单元1807生成归一化的值、像素级求和的值,或二者均有。在一些实现中,处理过的输出的向量能够用作到运算电路1803的激活输入,例如用于在模型中的后续层中的使用。
控制器1804连接的取指存储器(instruction fetch buffer)1809,用于存储控制器1804使用的指令;
统一存储器1806,输入存储器1801,权重存储器1802以及取指存储器1809均为On-Chip存储器。外部存储器私有于该NPU硬件架构。
其中,图3至图9示出的实施例中第一模型以及第二模型中各个神经网络层的运算可以由运算电路1803或向量计算单元1807执行。
其中,上述任一处提到的处理器,可以是一个通用中央处理器,微处理器,ASIC,或一个或多个用于控制上述第一方面方法的程序执行的集成电路。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本申请提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,训练设备,或者网络设备等)执行本申请各个实施例所述的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、训练设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、训练设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。
Claims (25)
1.一种图像处理方法,其特征在于,所述方法包括:
将第一图像输入目标特征提取网络,以通过所述目标特征提取网络进行特征提取,得到与所述第一图像对应的第一特征信息;
通过第一神经网络模块生成与所述第一特征信息对应的第一指示信息,所述第一指示信息用于指示所述第一特征信息中类别为前景的元素,所述目标特征提取网络和所述第一神经网络模块均包括于第一模型;
根据所述第一指示信息,通过所述第一模型生成与所述第一图像对应的目标处理结果;
其中,所述第一模型为采用第一损失函数训练得到,所述第一损失函数的训练目标为提高第二指示信息和第三指示信息之间的相似度,所述第二指示信息和所述第三指示信息均用于指示所述第一图像中的前景区域,所述第二指示信息为根据所述第一特征信息和所述第一指示信息得到,所述第三指示信息由第二模型生成,所述第二模型为执行过训练操作的模型。
2.根据权利要求1所述的方法,其特征在于,
所述第一模型为采用所述第一损失函数和第三损失函数训练得到,其中,所述第三损失函数的训练目标包括提高所述第一图像的前景特征和第三图像的前景特征之间的相似度,所述第三损失函数的训练目标还包括降低所述第一图像的前景特征和所述第一图像的背景特征之间的相似度,所述第三图像和所述第一图像的类别相同。
3.根据权利要求1或2所述的方法,其特征在于,所述第一特征信息包括N个第一元素,N为大于或等于1的整数,所述通过第一神经网络模块生成与所述第一特征信息对应的第一指示信息,包括:
通过所述第一神经网络模块生成与所述第一特征信息对应的第一相似度信息,所述第一相似度信息用于指示所述N个第一元素中任意两个第一元素之间的相似度;
根据所述第一相似度信息和所述第一特征信息,通过所述第一神经网络模块生成所述第一指示信息。
4.根据权利要求1或2所述的方法,其特征在于,所述目标处理结果包括所述第一图像的前景特征,所述方法应用于利用图像的前景特征进行产品搜索的应用场景中;或者,
所述目标处理结果包括所述第一图像的前景特征,所述方法应用于图像分类的应用场景中;或者,
所述目标处理结果用于指示所述第一图像的前景区域,所述方法应用于图像合成的应用场景中。
5.一种模型的训练方法,其特征在于,所述方法用于对第一模型进行训练,所述第一模型包括目标特征提取网络和第一神经网络模块,所述方法包括:
将第一训练图像输入所述目标特征提取网络,以通过所述目标特征提取网络进行特征提取,得到与所述第一训练图像对应的第一特征信息;
通过所述第一神经网络模块生成与所述第一特征信息对应的第一指示信息,所述第一指示信息用于指示所述第一特征信息中类别为前景的元素;
根据所述第一特征信息和所述第一指示信息,生成第二指示信息,所述第二指示信息用于指示所述第一训练图像中的前景区域;
将所述第一训练图像输入第二模型,以通过所述第二模型生成第三指示信息,所述第三指示信息用于指示所述第一训练图像中的前景区域,所述第二模型为执行过训练操作的模型;
根据第一损失函数,对所述第一模型进行训练,直至满足预设条件,得到训练后的第一模型,其中,所述第一损失函数的训练目标为提高所述第二指示信息和所述第三指示信息之间的相似度。
6.根据权利要求5所述的方法,其特征在于,所述第一模型还包括第二神经网络模块,所述方法还包括:
根据所述第一特征信息和所述第一指示信息,通过所述第二神经网络模块,生成所述第一训练图像的前景特征;
根据所述第一训练图像的前景特征,对所述第一训练图像执行分类操作,得到所述第一训练图像的第一预测类别;
所述根据第一损失函数,对所述第一模型进行训练,包括:
根据所述第一损失函数和第二损失函数,对所述第一模型进行训练,所述第二损失函数用于指示所述第一训练图像的第一预测类别和所述第一训练图像的正确类别之间的相似度。
7.根据权利要求5或6所述的方法,其特征在于,所述方法还包括:
根据所述第一特征信息和所述第一指示信息,生成所述第一训练图像的前景特征和所述第一训练图像的背景特征;
通过所述第一模型,生成第三训练图像的前景特征,所述第三训练图像和所述第一训练图像的类别相同;
所述根据第一损失函数,对所述第一模型进行训练,包括:
根据所述第一损失函数和第三损失函数,对所述第一模型进行训练,其中,所述第三损失函数的训练目标包括提高所述第一训练图像的前景特征和所述第三训练图像的前景特征之间的相似度,所述第三损失函数的训练目标还包括降低所述第一训练图像的前景特征和所述第一训练图像的背景特征之间的相似度。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
根据所述第一训练图像的前景特征和所述第一训练图像的背景特征,对所述第一训练图像执行分类操作,得到所述第一训练图像的第二预测类别;
所述根据所述第一损失函数和第三损失函数,对所述第一模型进行训练,包括:
根据所述第一损失函数、所述第三损失函数和第四损失函数,对所述第一模型进行训练,其中,所述第四损失函数用于指示所述第一训练图像的第二预测类别和所述第一训练图像的正确类别之间的相似度。
9.根据权利要求5或6所述的方法,其特征在于,所述第一特征信息包括N个第一元素,N为大于或等于1的整数,所述通过第一神经网络模块生成与所述第一特征信息对应的第一指示信息,包括:
通过所述第一神经网络模块生成与所述第一特征信息对应的第一相似度信息,所述第一相似度信息用于指示所述N个第一元素中任意两个第一元素之间的相似度;
根据所述第一相似度信息和所述第一特征信息,通过所述第一神经网络模块生成所述第一指示信息。
10.根据权利要求9所述的方法,其特征在于,所述将所述第一训练图像输入第二模型,以通过所述第二模型生成第三指示信息,包括:
通过所述第二模型对所述第一训练图像进行特征提取,得到与所述第一训练图像对应的第二特征信息,所述第二特征信息包括N个第二元素;
通过所述第二模型生成与所述第二特征信息对应的第二相似度信息,所述第二相似度信息用于指示所述N个第二元素中任意两个第二元素之间的相似度;
根据所述第二特征信息和所述第二相似度信息,通过所述第二模型生成所述第三指示信息;
所述根据第一损失函数,对所述第一模型进行训练,包括:
根据所述第一损失函数和第五损失函数,对所述第一模型进行训练,其中,所述第五损失函数的训练目标为提高所述第一相似度信息和所述第二相似度信息之间的相似度。
11.一种模型的训练方法,其特征在于,所述方法用于对第一模型进行训练,所述第一模型包括目标特征提取网络和第一神经网络模块,所述方法包括:
将第一训练图像输入所述目标特征提取网络,以通过所述目标特征提取网络进行特征提取,得到与所述第一训练图像对应的第一特征信息;
通过所述第一神经网络模块生成与所述第一特征信息对应的第一指示信息,所述第一指示信息用于指示所述第一特征信息中类别为前景的元素;
根据所述第一特征信息和所述第一指示信息,生成第二指示信息,所述第二指示信息用于指示所述第一训练图像中的前景区域;
将所述第一训练图像输入第二模型,以通过所述第二模型生成第三指示信息,所述第三指示信息用于指示所述第一训练图像中的前景区域,所述第二模型为执行过训练操作的模型;
根据所述第二指示信息和所述第三指示信息,对所述第一模型进行训练。
12.一种图像处理装置,其特征在于,所述装置包括:
特征提取单元,用于将第一图像输入目标特征提取网络,以通过所述目标特征提取网络进行特征提取,得到与所述第一图像对应的第一特征信息;
生成单元,用于通过第一神经网络模块生成与所述第一特征信息对应的第一指示信息,所述第一指示信息用于指示所述第一特征信息中类别为前景的元素,所述目标特征提取网络和所述第一神经网络模块均包括于第一模型;
所述生成单元,还用于根据所述第一指示信息,通过所述第一模型生成与所述第一图像对应的目标处理结果;
其中,所述第一模型为采用第一损失函数训练得到,所述第一损失函数的训练目标为提高第二指示信息和第三指示信息之间的相似度,所述第二指示信息和所述第三指示信息均用于指示所述第一图像中的前景区域,所述第二指示信息为根据所述第一特征信息和所述第一指示信息得到,所述第三指示信息由第二模型生成,所述第二模型为执行过训练操作的模型。
13.根据权利要求12所述的装置,其特征在于,
所述第一模型为采用所述第一损失函数和第三损失函数训练得到,其中,所述第三损失函数的训练目标包括提高所述第一图像的前景特征和第三图像的前景特征之间的相似度,所述第三损失函数的训练目标还包括降低所述第一图像的前景特征和所述第一图像的背景特征之间的相似度,所述第三图像和所述第一图像的类别相同。
14.根据权利要求12或13所述的装置,其特征在于,所述第一特征信息包括N个第一元素,N为大于或等于1的整数;
所述生成单元,具体用于通过所述第一神经网络模块生成与所述第一特征信息对应的第一相似度信息,并根据所述第一相似度信息和所述第一特征信息,通过所述第一神经网络模块生成所述第一指示信息,其中,所述第一相似度信息用于指示所述N个第一元素中任意两个第一元素之间的相似度。
15.根据权利要求12或13所述的装置,其特征在于,
所述目标处理结果包括所述第一图像的前景特征,所述装置应用于利用图像的前景特征进行产品搜索的应用场景中;或者,
所述目标处理结果包括所述第一图像的前景特征,所述装置应用于图像分类的应用场景中;或者,
所述目标处理结果用于指示所述第一图像的前景区域,所述装置应用于图像合成的应用场景中。
16.一种模型的训练装置,其特征在于,所述模型的训练装置用于对第一模型进行训练,所述第一模型包括目标特征提取网络和第一神经网络模块,所述装置包括:
特征提取单元,用于将第一训练图像输入所述目标特征提取网络,以通过所述目标特征提取网络进行特征提取,得到与所述第一训练图像对应的第一特征信息;
生成单元,用于通过所述第一神经网络模块生成与所述第一特征信息对应的第一指示信息,所述第一指示信息用于指示所述第一特征信息中类别为前景的元素;
所述生成单元,还用于根据所述第一特征信息和所述第一指示信息,生成第二指示信息,所述第二指示信息用于指示所述第一训练图像中的前景区域;
所述生成单元,还用于将所述第一训练图像输入第二模型,以通过所述第二模型生成第三指示信息,所述第三指示信息用于指示所述第一训练图像中的前景区域,所述第二模型为执行过训练操作的模型;
训练单元,用于根据第一损失函数,对所述第一模型进行训练,直至满足预设条件,得到训练后的第一模型,其中,所述第一损失函数的训练目标为提高所述第二指示信息和所述第三指示信息之间的相似度。
17.根据权利要求16所述的装置,其特征在于,所述第一模型还包括第二神经网络模块;
所述生成单元,还用于根据所述第一特征信息和所述第一指示信息,通过所述第二神经网络模块,生成所述第一训练图像的前景特征;
所述装置还包括:分类单元,用于根据所述第一训练图像的前景特征,对所述第一训练图像执行分类操作,得到所述第一训练图像的第一预测类别;
所述训练单元,具体用于根据所述第一损失函数和第二损失函数,对所述第一模型进行训练,所述第二损失函数用于指示所述第一训练图像的第一预测类别和所述第一训练图像的正确类别之间的相似度。
18.根据权利要求16或17所述的装置,其特征在于,
所述生成单元,还用于根据所述第一特征信息和所述第一指示信息,生成所述第一训练图像的前景特征和所述第一训练图像的背景特征;
所述生成单元,还用于通过所述第一模型,生成第三训练图像的前景特征,所述第三训练图像和所述第一训练图像的类别相同;
所述训练单元,具体用于根据所述第一损失函数和第三损失函数,对所述第一模型进行训练,其中,所述第三损失函数的训练目标包括提高所述第一训练图像的前景特征和所述第三训练图像的前景特征之间的相似度,所述第三损失函数的训练目标还包括降低所述第一训练图像的前景特征和所述第一训练图像的背景特征之间的相似度。
19.根据权利要求18所述的装置,其特征在于,
所述装置还包括:分类单元,用于根据所述第一训练图像的前景特征和所述第一训练图像的背景特征,对所述第一训练图像执行分类操作,得到所述第一训练图像的第二预测类别;
所述训练单元,具体用于根据所述第一损失函数、所述第三损失函数和第四损失函数,对所述第一模型进行训练,其中,所述第四损失函数用于指示所述第一训练图像的第二预测类别和所述第一训练图像的正确类别之间的相似度。
20.根据权利要求16或17所述的装置,其特征在于,所述第一特征信息包括N个第一元素,N为大于或等于1的整数,所述生成单元,具体包括:
第一生成子单元,用于通过所述第一神经网络模块生成与所述第一特征信息对应的第一相似度信息,所述第一相似度信息用于指示所述N个第一元素中任意两个第一元素之间的相似度;
所述第一生成子单元,还用于根据所述第一相似度信息和所述第一特征信息,通过所述第一神经网络模块生成所述第一指示信息。
21.根据权利要求20所述的装置,其特征在于,所述生成单元,具体包括:
特征提取子单元,用于通过所述第二模型对所述第一训练图像进行特征提取,得到与所述第一训练图像对应的第二特征信息,所述第二特征信息包括N个第二元素;
第二生成子单元,用于通过所述第二模型生成与所述第二特征信息对应的第二相似度信息,所述第二相似度信息用于指示所述N个第二元素中任意两个第二元素之间的相似度;
所述第二生成子单元,还用于根据所述第二特征信息和所述第二相似度信息,通过所述第二模型生成所述第三指示信息;
所述训练单元,具体用于根据所述第一损失函数和第五损失函数,对所述第一模型进行训练,其中,所述第五损失函数的训练目标为提高所述第一相似度信息和所述第二相似度信息之间的相似度。
22.一种计算机程序产品,其特征在于,当所述计算机程序产品在计算机上运行时,使得计算机执行如权利要求1至4中任意一项所述的方法,或者,使得计算机执行如权利要求5至10中任意一项所述的方法,或者,使得计算机执行如权利要求11所述的方法。
23.一种计算机可读存储介质,其特征在于,包括程序,当所述程序在计算机上运行时,使得计算机执行如权利要求1至4中任一项所述的方法,或者,使得计算机执行如权利要求5至10中任意一项所述的方法,或者,使得计算机执行如权利要求11所述的方法。
24.一种执行设备,其特征在于,包括处理器和存储器,所述处理器与所述存储器耦合,
所述存储器,用于存储程序;
所述处理器,用于执行所述存储器中的程序,使得所述执行设备执行如权利要求1至4中任一项所述的方法。
25.一种训练设备,其特征在于,包括处理器和存储器,所述处理器与所述存储器耦合,
所述存储器,用于存储程序;
所述处理器,用于执行所述存储器中的程序,使得所述训练设备执行如权利要求5至10中任一项所述的方法,或者,使得所述训练设备执行如权利要求11所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110741936.XA CN113627421A (zh) | 2021-06-30 | 2021-06-30 | 一种图像处理方法、模型的训练方法以及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110741936.XA CN113627421A (zh) | 2021-06-30 | 2021-06-30 | 一种图像处理方法、模型的训练方法以及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113627421A true CN113627421A (zh) | 2021-11-09 |
Family
ID=78378741
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110741936.XA Pending CN113627421A (zh) | 2021-06-30 | 2021-06-30 | 一种图像处理方法、模型的训练方法以及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113627421A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI817896B (zh) * | 2022-02-16 | 2023-10-01 | 鴻海精密工業股份有限公司 | 機器學習方法以及裝置 |
WO2023207531A1 (zh) * | 2022-04-29 | 2023-11-02 | 华为技术有限公司 | 一种图像处理方法及相关设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188760A (zh) * | 2019-04-01 | 2019-08-30 | 上海卫莎网络科技有限公司 | 一种图像处理模型训练方法、图像处理方法及电子设备 |
US20200327662A1 (en) * | 2019-04-12 | 2020-10-15 | Shanghai United Imaging Healthcare Co., Ltd. | Systems and methods for image generation |
CN111860588A (zh) * | 2020-06-12 | 2020-10-30 | 华为技术有限公司 | 一种用于图神经网络的训练方法以及相关设备 |
CN112016591A (zh) * | 2020-08-04 | 2020-12-01 | 杰创智能科技股份有限公司 | 一种图像识别模型的训练方法及图像识别方法 |
US20210056708A1 (en) * | 2019-06-26 | 2021-02-25 | Beijing Sensetime Technology Development Co., Ltd. | Target detection and training for target detection network |
-
2021
- 2021-06-30 CN CN202110741936.XA patent/CN113627421A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188760A (zh) * | 2019-04-01 | 2019-08-30 | 上海卫莎网络科技有限公司 | 一种图像处理模型训练方法、图像处理方法及电子设备 |
US20200327662A1 (en) * | 2019-04-12 | 2020-10-15 | Shanghai United Imaging Healthcare Co., Ltd. | Systems and methods for image generation |
US20210056708A1 (en) * | 2019-06-26 | 2021-02-25 | Beijing Sensetime Technology Development Co., Ltd. | Target detection and training for target detection network |
CN111860588A (zh) * | 2020-06-12 | 2020-10-30 | 华为技术有限公司 | 一种用于图神经网络的训练方法以及相关设备 |
CN112016591A (zh) * | 2020-08-04 | 2020-12-01 | 杰创智能科技股份有限公司 | 一种图像识别模型的训练方法及图像识别方法 |
Non-Patent Citations (2)
Title |
---|
HAO LU ET AL.: "Indices Matter: Learning to Index for Deep Image Matting", 2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV), pages 3265 - 3274 * |
刘易斯: "基于卷积神经网络的实例图像检索", 中国优秀硕士学位论文全文数据库信息科技辑, pages 138 - 1503 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI817896B (zh) * | 2022-02-16 | 2023-10-01 | 鴻海精密工業股份有限公司 | 機器學習方法以及裝置 |
WO2023207531A1 (zh) * | 2022-04-29 | 2023-11-02 | 华为技术有限公司 | 一种图像处理方法及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111797893B (zh) | 一种神经网络的训练方法、图像分类系统及相关设备 | |
CN112418392A (zh) | 一种神经网络构建方法以及装置 | |
CN112183718A (zh) | 一种用于计算设备的深度学习训练方法和装置 | |
CN113807399B (zh) | 一种神经网络训练方法、检测方法以及装置 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN111414915B (zh) | 一种文字识别方法以及相关设备 | |
CN111695596A (zh) | 一种用于图像处理的神经网络以及相关设备 | |
CN111797589A (zh) | 一种文本处理网络、神经网络训练的方法以及相关设备 | |
CN113095475A (zh) | 一种神经网络的训练方法、图像处理方法以及相关设备 | |
CN111931002A (zh) | 一种匹配方法以及相关设备 | |
WO2022111387A1 (zh) | 一种数据处理方法及相关装置 | |
CN111738403A (zh) | 一种神经网络的优化方法及相关设备 | |
CN114359289A (zh) | 一种图像处理方法及相关装置 | |
CN111950702A (zh) | 一种神经网络结构确定方法及其装置 | |
CN113627421A (zh) | 一种图像处理方法、模型的训练方法以及相关设备 | |
CN114241597A (zh) | 一种姿态识别方法及其相关设备 | |
EP4290459A1 (en) | Augmented reality method and related device thereof | |
CN115238909A (zh) | 一种基于联邦学习的数据价值评估方法及其相关设备 | |
CN114821096A (zh) | 一种图像处理方法、神经网络的训练方法以及相关设备 | |
CN114169393A (zh) | 一种图像分类方法及其相关设备 | |
CN113065634A (zh) | 一种图像处理方法、神经网络的训练方法以及相关设备 | |
WO2023197910A1 (zh) | 一种用户行为预测方法及其相关设备 | |
CN116739154A (zh) | 一种故障预测方法及其相关设备 | |
WO2023020185A1 (zh) | 一种图像分类方法及其相关设备 | |
CN115623242A (zh) | 一种视频处理方法及其相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |