CN110889316A - 一种目标对象识别方法、装置及存储介质 - Google Patents
一种目标对象识别方法、装置及存储介质 Download PDFInfo
- Publication number
- CN110889316A CN110889316A CN201811058343.8A CN201811058343A CN110889316A CN 110889316 A CN110889316 A CN 110889316A CN 201811058343 A CN201811058343 A CN 201811058343A CN 110889316 A CN110889316 A CN 110889316A
- Authority
- CN
- China
- Prior art keywords
- image
- loss
- feature tensor
- output
- target object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000015654 memory Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 description 37
- 238000010586 diagram Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供一种目标对象识别方法、装置及存储介质,该方法包括:获取目标对象的图像;通过目标网络识别该目标对象属于每个类别的概率,目标网络包括生成式对抗网络和残差网络;将概率最大的类别确定为目标对象所属类别。实施本发明实施例,可以提高目标对象识别的准确性。
Description
技术领域
本发明涉及图像识别技术领域,具体涉及一种目标对象识别方法、装置及存储介质。
背景技术
深度学习由于其在解决高级抽象的问题上有着较为明显的效果,例如神经网络。使用神经网络识别图像中目标对象可以明显提高目标对象识别的效率。然而,当图像中存在由于相机抖动、动态场景的快速移动或暗光环境产生的运动模糊和噪声时,神经网络识别图像中目标对象的准确性较低。
发明内容
本发明实施例提供一种目标对象识别方法、装置及存储介质,可以提高图像中目标对象识别的准确性。
本发明实施例第一方面提供一种目标对象识别方法,包括:
获取目标对象的图像;
通过目标网络识别所述目标对象属于每个类别的概率,所述目标网络包括生成式对抗网络(Generative Adversarial Nerworks,GAN)和残差网络(ResNet);
将所述概率最大的类别确定为所述目标对象所属类别。
在一个实施例中,所述方法还包括:
所述GAN包括第一生成器,所述方法还包括:
获取第一图像集和第二图像集,所述第一图像集为清晰图像的集合,所述第二图像集为模糊图像的集合;
将第一图像输入所述第一生成器,获得第一特征张量,所述第一图像为所述第一图像集中的任一图像;
将第二图像输入所述第一生成器,获得第二特征张量,所述第二图像为所述第二图像集中的任一图像;
将所述第一特征张量输入所述残差网络,获得所述第一图像中的对象属于每个类别的第一概率;
将所述第二特征张量输入所述残差网络,获得所述第二图像中的对象属于每个类别的第二概率;
根据所述第一图像、所述第一特征张量、所述第二图像、所述第二特征张量、所述第一概率和所述第二概率,计算总损失;
根据所述总损失优化所述GAN和所述残差网络的参数,获得目标网络。
在一个实施例中,所述根据所述第一图像、所述第一特征张量、所述第二图像、所述第二特征张量、所述第一概率和所述第二概率,计算总损失包括:
根据所述第一图像、所述第一特征张量、所述第二图像和所述第二特征张量,计算第一损失;
根据所述第一概率和所述第二概率,计算第二损失;
根据所述第一损失和所述第二损失,计算总损失。
在一个实施例中,所述根据所述第一图像、所述第一特征张量、所述第二图像和所述第二特征张量,计算第一损失包括:
根据所述第一特征张量和所述第二图像,计算第三损失;
根据所述第一图像和所述第二特征张量,计算第四损失;
根据所述第一图像、所述第一特征张量、所述第二图像和所述第二特征张量,计算第五损失;
根据所述第三损失、所述第四损失和所述第五损失,计算第一损失。
在一个实施例中,所述GAN还包括第一辨别器,所述根据所述第一特征张量和所述第二图像,计算第三损失包括:
将所述第一特征张量输入所述第一辨别器,获得第一输出;
将所述第二图像输入所述第一辨别器,获得第二输出;
根据所述第一输出和所述第二输出,计算第三损失。
在一个实施例中,所述根据所述第一输出和所述第二输出,计算第三损失包括:
根据所述第一输出、所述第二输出和第一损失函数,计算第三损失;
所述第一损失函数的表达式为:
L1=E[logDY(y)]+E[1-logDY(G(x))]
其中,x为所述第一图像,y为所述第二图像,G(x)为所述第一特征张量,DY(G(x))为所述第一输出,DY(y)为所述第二输出,E为均值操作算子。
在一个实施例中,所述GAN还包括第二辨别器,所述根据所述第一图像和所述第二特征张量,计算第四损失包括:
将所述第二特征张量输入所述第二辨别器,获得第三输出;
将所述第一图像输入所述第二辨别器,获得第四输出;
根据所述第三输出和所述第四输出,计算第四损失。
在一个实施例中,所述根据所述第三输出和所述第四输出,计算第四损失包括:
根据所述第三输出、所述第四输出和第二损失函数,计算第四损失;
所述第二损失函数的表达式为:
L2=E[logDX(x)]+E[1-logDX(G(y))]
其中,G(y)为所述第二特征张量,DX(G(y))为所述第三输出,DX(x)为所述第四输出。
在一个实施例中,所述GAN还包括第二生成器,所述根据所述第一图像、所述第一特征张量、所述第二图像和所述第二特征张量,计算第五损失包括:
将所述第一特征张量输入所述第二生成器,获得第五输出;
将所述第二特征张量输入所述第二生成器,获得第六输出;
根据所述第一图像、所述第二图像、所述第五输出和所述第六输出,计算第五损失。
在一个实施例中,所述根据所述第一图像、所述第二图像、所述第五输出和所述第六输出,计算第五损失包括:
根据所述第一图像、所述第二图像、所述第五输出、所述第六输出和第三损失函数,计算第五损失;
所述第三损失函数的表达式为:
L3=||F(G(x))-x||1+||F(G(y))-y||1
其中,F(G(x))为所述第五输出,F(G(y))为所述第六输出,||·||1表示平均绝对误差。
在一个实施例中,所述根据所述第一概率和所述第二概率,计算第二损失包括:
根据所述第一概率、所述第二概率和第四损失函数,计算第二损失;
所述第四损失函数的表达式为:
其中,m为所述第一图像集中图像数量和所述第二图像集中图像数量中的最大值,yi为所述第一图像集和所述第二图像集中的图像的标签,xi为所述第一图像集和所述第二图像集中的图像的概率,h(·)为非线性激活函数。
本发明实施例第二方面提供一种目标对象识别装置,包括用于执行第一方面或第一方面的任一实施例提供的目标对象识别方法的单元。
本发明实施例第三方面提供一种目标对象识别装置,包括处理器和存储器,所述处理器和所述存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于调用所述程序指令执行第一方面或第一方面的任一实施例提供的目标对象识别方法。
第四方面提供了一种可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行第一方面或第一方面的任一实施例提供的目标对象识别方法。
第五方面提供了一种应用程序,该应用程序用于在运行时执行第一方面或第一方面的任一实施例提供的目标对象识别方法。
本发明实施例中,通过包括GAN和ResNet的目标网络识别图像中目标对象属于每个类别的概率,将概率最大的类别确定为目标对象所属类别,由于结合GAN和ResNet共同识别图像中的目标对象,因此,可以提高图像中目标对象识别的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种目标对象识别方法的流程示意图;
图2是本发明实施例提供的另一种目标对象识别方法的流程示意图;
图3是本发明实施例提供的一种目标对象识别装置的结构示意图;
图4是本发明实施例提供的另一种目标对象识别装置的结构示意图;
图5是本发明实施例提供的一种ResNet的示意图;
图6是本发明实施例提供的一种残差模块的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种目标对象识别方法、装置及存储介质,可以提高图像中目标对象识别的准确性。以下分别进行详细说明。
请参阅图1,图1是本发明实施例提供的一种目标对象识别方法的流程示意图。根据不同的需求,图1所示的流程图中的某些步骤可以拆分为几个步骤。如图1所示,该目标对象识别方法可以包括以下步骤。
101、获取目标对象的图像。
本实施例中,当需要识别图像中的目标对象时,获取目标对象的图像。目标对象的图像可以是本地存储的图像,也可以是从网络或服务器获取的图像,还可以是通过采集装置采集的图像,本实施例不作限定。其中,目标对象的图像可以是需要识别的所有图像,也可以是需要识别的图像中的一张或多张图像。
102、通过包括GAN和ResNet的目标网络识别图像中目标对象属于每个类别的概率。
本实施例中,预先训练好包括GAN和ResNet的目标网络,获取到目标对象的图像之后,通过包括GAN和ResNet的目标网络识别图像中目标对象属于每个类别的概率,即将目标对象的图像输入包括GAN和ResNet的目标网络,输出多个值,每个值对应图像中目标对象属于一个类别的概率,这些值均为0到1之间的值,这些值的和为1。由于训练目标网络时,是通过一个总的损失函数同时优化生成式对抗网络和残差网络的参数,而不是通过一个损失函数优化生成式对抗网络的参数,通过另一个损失函数优化残差网络的参数,从而可以通过整体优化能够有效避免两个网络陷入各自最优解,可以互为约束,以便可以提高图像中目标对象识别准确性,尤其是模糊图像中目标对象的准确性。其中,GAN可以为CycleGAN,也可以为DiscoGAN,还可以为DualGAN。
本实施例中,应用场景不同,目标网络包括的类别可以不同。类别可以是大的分类,如动物、植物、人等;也可以是小的分类,例如:使用目标网络进行人脸图像识别时,每个类别代表一个人物。
103、将概率最大的类别确定为图像中目标对象所属类别。
本实施例中,通过包括GAN和ResNet的目标网络识别出图像中目标对象属于每个类别的概率之后,将概率最大的类别确定为目标对象所属类别,即对目标对象进行归类。
在图1所描述的目标对象识别方法中,结合GAN和ResNet共同识别图像中的目标对象,因此,可以提高图像中目标对象识别的准确性。
请参阅图2,图2是本发明实施例提供的另一种目标对象识别方法的流程示意图。根据不同的需求,图2所示的流程图中的某些步骤可以拆分为几个步骤。如图2所示,该目标对象识别方法可以包括以下步骤。
201、获取第一图像集和第二图像集。
本实施例中,可以获取用于训练的第一图像集和第二图像集,第一图像集为清晰图像的集合,第二图像集为模糊图像的集合。第一图像集和第二图像集中图像的数量可以相同,也可以不同。第一图像集和第二图像集中的图像可以是不同对象的图像,也可以是相同对象的图像。
202、使用第一图像集和第二图像集训练包括GAN和ResNet的网络,获得目标网络。
本实施例中,获取到第一图像集和第二图像集之后,使用第一图像集和第二图像集训练包括GAN和ResNet的网络获得目标网络,GAN可以包括第一生成器,可以将第一图像输入第一生成器获得第一特征张量,将第二图像输入第一生成器获得第二特征张量,将第一特征张量输入ResNet获得第一图像中的对象属于每个类别的第一概率,将第二特征张量输入ResNet获得第二图像中的对象属于每个类别的第二概率,根据第一图像、第一特征张量、第二图像、第二特征张量、第一概率和第二概率计算总损失,即根据第一图像、第一特征张量、第二图像、第二特征张量、第一概率、第二概率和总损失函数计算总损失,以识别性能提升为目标,之后根据总损失使用反向传播算法优化生GAN和ResNet的参数获得目标网络。其中,第一图像为第一图像集中的任一图像,第二图像为第二图像集中的任一图像。其中,输入GAN中的图像是成对的,即每次输入一张第一图像集中的图像和一张第二图像集中的图像。当第一图像集和第二图像集中图像的数量不同时,如果一个图像集中的图像已经全部用于训练,而另一个图像集中的图像还没有使用完,则可以重复使用已使用完的图像集中的图像,保证每个图像集中的数据都会遍历完全,图像数量较少的图像集的某些图像的重复遍历对性能影响不大。其中,GAN可以为CycleGAN,也可以为DiscoGAN,还可以为DualGAN。
请参阅图5,图5是本发明实施例提供的一种ResNet的示意图。如图5所示,ResNet可以包括四阶残差模块(ResBlock)、全连接层(Fully Connected layers,FC)和Softmax函数。请参阅图6,图6是本发明实施例提供的一种残差模块的示意图。如图6所示,残差模块包括卷积层(Convolution layer,Conv)、批量归一化(Batch Normalization,BN)层和非线性激活单元ReLU。Conv用于逐级提取特征,使特征变得越来越抽象,进而有利于对象的识别;BN层能够加强网络训练,防止模型过拟合;ReLU具有稀疏激活性,如果计算出的值小于0,就让它等于0,否则保持不变。跨接是将输入未经过前面的一些模块直接接入后面的模块,图6中是将输入没有经过卷积层-BN层-ReLU-卷积层-BN层,直接接入最后一个ReLU,具有两方面的作用,一方面为更高层特征(神经网络中更靠近输入端)和更低层特征(神经网络中靠近输出端)结合,具有更好特征表达能力;另一方面深度网络往往由于深度过深导致梯度弥散/爆炸成为训练深层次的网络的障碍,导致无法收敛,跨接方式通过回传残差梯度从而能有效训练深层网络。FC神经单元的个数和训练集中类别的数目相同。Softmax函数用于将FC的输出转化为概率。
本实施例中,可以根据第一图像、第一特征张量、第二图像和第二特征张量计算第一损失,即计算GAN的损失,并根据第一概率和第二概率计算第二损失,即计算ResNet的损失,之后根据第一损失和第二损失计算总损失,即计算整个网络的损失。
本实施例中,可以根据第一特征张量和第二图像计算第三损失,根据第一图像和第二特征张量计算第四损失,根据第一图像、第一特征张量、第二图像和第二特征张量计算第五损失,根据第三损失、第四损失和第五损失计算第一损失。
本实施例中,GAN还可以包括第一辨别器,将第一特征张量输入第一辨别器获得第一输出,将第二图像输入第一辨别器获得第二输出,根据第一输出和第二输出计算第三损失,可以根据第一输出、第二输出和第一损失函数计算第三损失。其中,第一损失函数的表达式可以为:
L1=E[logDY(y)]+E[1-logDY(G(x))]
其中,x为第一图像,y为第二图像,G(x)为第一特征张量,DY(G(x))为第一输出,DY(y)为第二输出,E为均值操作算子。
本实施例中,GAN还可以包括第二辨别器,可以将第二特征张量输入第二辨别器获得第三输出,将第一图像输入第二辨别器获得第四输出,根据第三输出和第四输出计算第四损失,可以根据第三输出、第四输出和第二损失函数计算第四损失。其中,第二损失函数的表达式可以为:
L2=E[logDX(x)]+E[1-logDX(G(y))]
其中,G(y)为第二特征张量,DX(G(y))为第三输出,DX(x)为第四输出。其中,第一损失函数和第二损失函数为对抗损失函数。第一辨别器和第二辨别器用于区分真实的图像与生成的图像。
本实施例中,GAN还可以包括第二生成器,可以将第一特征张量输入第二生成器获得第五输出,将第二特征张量输入第二生成器获得第六输出,根据第一图像、第二图像、第五输出和第六输出计算第五损失,可以根据第一图像、第二图像、第五输出、第六输出和第三损失函数计算第五损失。其中,第三损失函数的表达式可以为:
L3=||F(G(x))-x||1+||F(G(y))-y||1
其中,F(G(x))为第五输出,F(G(y))为第六输出,||·||1表示平均绝对误差。其中,第三损失函数为防止第一生成器和第二生成器互相矛盾的循环一致性损失函数。虽然第一损失函数和第二损失函数理论上能够保证真实的图像与生成的图像中数据分布一致,但无法保证图像结构信息正确,即无法保证输入的单个图像得到理想的输出,因此,引入第三损失函数,用于使一张图像依次经过第一生成器和第二生成器之后尽可能的变换回原始图像。其中,第一生成器和第二生成器用于使真实的图像与生成的图像越相似越好。
本实施例中,可以根据第一概率、第二概率和第四损失函数计算第二损失。其中,第四损失函数的表达式为:
其中,m为第一图像集中图像数量和第二图像集中图像数量中的最大值,yi为第一图像集和第二图像集中的图像的标签,xi为第一图像集和第二图像集中的图像的概率,h(·)为非线性激活函数。
本实施例中,总损失函数L=L1+L2+λL3+γL4,因此,总损失B=B1+γB2,B1为第一损失,B2为第二损失,B1=B3+B4+λB5,B3为第三损失,B4为第四损失,B5为第五损失,λ为调节L1+L2与L3两部分相对重要程度的参数,γ为用于调整GAN和ResNet权重的参数。
203、获取目标对象的图像。
本实施例中,当需要识别图像中的目标对象时,获取目标对象的图像。目标对象的图像可以是本地存储的图像,也可以是从网络或服务器获取的图像,还可以是通过采集装置采集的图像,本实施例不作限定。其中,目标对象的图像可以是需要识别的所有图像,也可以是需要识别的图像中的一张或多张图像。
204、通过包括GAN和ResNet的目标网络识别图像中目标对象属于每个类别的概率。
本实施例中,预先训练好包括GAN和ResNet的目标网络,获取到目标对象的图像之后,通过包括GAN和ResNet的目标网络识别图像中目标对象属于每个类别的概率,即将目标对象的图像输入包括GAN和ResNet的目标网络,输出多个值,每个值对应图像中目标对象属于一个类别的概率,这些值均为0到1之间的值,这些值的和为1。由于训练目标网络时,是通过一个总的损失函数同时优化生成式对抗网络和残差网络的参数,而不是通过一个损失函数优化生成式对抗网络的参数,通过另一个损失函数优化残差网络的参数,从而可以通过整体优化能够有效避免两个网络陷入各自最优解,可以互为约束,以便可以提高图像中目标对象识别准确性,尤其是模糊图像中目标对象的准确性。
本实施例中,应用场景不同,目标网络包括的类别可以不同。类别可以是大的分类,如动物、植物、人等;也可以是小的分类,例如:使用目标网络进行人脸图像识别时,每个类别代表一个人物。
205、将概率最大的类别确定为图像中目标对象所属类别。
本实施例中,通过包括GAN和ResNet的目标网络识别出图像中目标对象属于每个类别的概率之后,将概率最大的类别确定为目标对象所属类别,即对目标对象进行归类。
在图2所描述的目标对象识别方法中,结合GAN和ResNet共同识别图像中的目标对象,因此,可以提高图像中目标对象识别的准确性。
请参阅图3,图3是本发明实施例提供的一种目标对象识别装置的结构示意图。如图3所示,该目标对象装置可以包括:
第一获取单元301,用于获取目标对象的图像;
识别单元302,用于通过目标网络识别第一获取单元301获取的图像中目标对象属于每个类别的概率,目标网络包括GAN和ResNet;
确定单元303,用于将识别单元302识别出的概率最大的类别确定为第一获取单元301获取的图像中目标对象所属类别。
作为一种可能的实施方式,GAN可以包括第一生成器,该装置还可以包括:
第二获取单元304,用于获取第一图像集和第二图像集,第一图像集为清晰图像的集合,第二图像集为模糊图像的集合;
输入单元305,用于将第一图像输入第一生成器,获得第一特征张量,第一图像为第二获取单元304获取的第一图像集中的任一图像;
输入单元305,还用于将第二图像输入第一生成器,获得第二特征张量,第二图像为第二图像集中的任一图像;
输入单元305,还用于将第一特征张量输入ResNet,获得第一图像中的对象属于每个类别的第一概率;
输入单元305,还用于将第二特征张量输入ResNet,获得第二图像中的对象属于每个类别的第二概率;
计算单元306,用于根据第二获取单元304获取的第一图像、输入单元305获得的第一特征张量、第二图像、第二特征张量、第一概率和第二概率,计算总损失;
优化单元307,用于根据计算单元306计算的总损失优化GAN和ResNet的参数,获得目标网络。
具体地,识别单元302通过优化单元307获得的目标网络识别图像中目标对象属于每个类别的概率。
作为一种可能的实施方式,计算单元306可以包括:
根据第一图像、第一特征张量、第二图像和第二特征张量,计算第一损失;
根据第一概率和第二概率,计算第二损失;
根据第一损失和第二损失,计算总损失。
作为一种可能的实施方式,计算单元306根据第一图像、第一特征张量、第二图像和第二特征张量,计算第一损失包括:
根据第一特征张量和第二图像,计算第三损失;
根据第一图像和第二特征张量,计算第四损失;
根据第一图像、第一特征张量、第二图像和第二特征张量,计算第五损失;
根据第三损失、第四损失和第五损失,计算第一损失。
作为一种可能的实施方式,GAN还可以包括第一辨别器,计算单元306根据第一特征张量和第二图像,计算第三损失包括:
将第一特征张量输入第一辨别器,获得第一输出;
将第二图像输入第一辨别器,获得第二输出;
根据第一输出和第二输出,计算第三损失。
作为一种可能的实施方式,GAN还可以包括第二辨别器,计算单元306根据第一图像和第二特征张量,计算第四损失包括:
将第二特征张量输入第二辨别器,获得第三输出;
将第一图像输入第二辨别器,获得第四输出;
根据第三输出和第四输出,计算第四损失。
作为一种可能的实施方式,GAN还可以包括第二生成器,计算单元306根据第一图像、第一特征张量、第二图像和第二特征张量,计算第五损失包括:
将第一特征张量输入第二生成器,获得第五输出;
将第二特征张量输入第二生成器,获得第六输出;
根据第一图像、第二图像、第五输出和第六输出,计算第五损失。
有关上述第一获取单元301、识别单元302、确定单元303、第二获取单元304、输入单元305、计算单元306和优化单元307更详细的描述可以直接参考上述图1-图2所示的方法实施例中的相关描述直接得到,这里不加赘述。
请参阅图4,图4是本发明实施例提供的另一种目标对象识别装置的结构示意图。如图4所示,该目标对象识别装置可以包括处理器401、存储器402和总线403。处理器401可以是一个通用中央处理器(CPU)或多个CPU,单块或多块图形处理器(GPU),微处理器,特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本发明方案程序执行的集成电路。存储器402可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(randomaccess memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器402可以是独立存在,总线403与处理器401相连接。存储器402也可以和处理器401集成在一起。总线403在上述组件之间传送信息。其中:
存储器402中存储有一组程序代码,处理器401用于调用存储器402中存储的程序代码执行以下操作:
获取目标对象的图像;
通过目标网络识别图像中目标对象属于每个类别的概率,目标网络包括GAN和ResNet;
将概率最大的类别确定为图像中目标对象所属类别。
作为一种可能的实施方式,GAN可以包括第一生成器,处理器401还用于调用存储器402中存储的程序代码执行以下操作:
获取第一图像集和第二图像集,第一图像集为清晰图像的集合,第二图像集为模糊图像的集合;
将第一图像输入第一生成器,获得第一特征张量,第一图像为第一图像集中的任一图像;
将第二图像输入第一生成器,获得第二特征张量,第二图像为第二图像集中的任一图像;
将第一特征张量输入ResNet,获得第一图像中的对象属于每个类别的第一概率;
将第二特征张量输入ResNet,获得第二图像中的对象属于每个类别的第二概率;
根据第一图像、第一特征张量、第二图像、第二特征张量、第一概率和第二概率,计算总损失;
根据总损失优化GAN和ResNet的参数,获得目标网络。
作为一种可能的实施方式,处理器401根据第一图像、第一特征张量、第二图像、第二特征张量、第一概率和第二概率,计算总损失包括:
根据第一图像、第一特征张量、第二图像和第二特征张量,计算第一损失;
根据第一概率和第二概率,计算第二损失;
根据第一损失和第二损失,计算总损失。
作为一种可能的实施方式,处理器401根据第一图像、第一特征张量、第二图像和第二特征张量,计算第一损失包括:
根据第一特征张量和第二图像,计算第三损失;
根据第一图像和第二特征张量,计算第四损失;
根据第一图像、第一特征张量、第二图像和第二特征张量,计算第五损失;
根据第三损失、第四损失和第五损失,计算第一损失。
作为一种可能的实施方式,GAN还可以包括第一辨别器,处理器401根据第一特征张量和第二图像,计算第三损失包括:
将第一特征张量输入第一辨别器,获得第一输出;
将第二图像输入第一辨别器,获得第二输出;
根据第一输出和第二输出,计算第三损失。
作为一种可能的实施方式,GAN还可以包括第二辨别器,处理器401根据第一图像和第二特征张量,计算第四损失包括:
将第二特征张量输入第二辨别器,获得第三输出;
将第一图像输入第二辨别器,获得第四输出;
根据第三输出和第四输出,计算第四损失。
作为一种可能的实施方式,GAN还可以包括第二生成器,处理器401根据第一图像、第一特征张量、第二图像和第二特征张量,计算第五损失包括:
将第一特征张量输入第二生成器,获得第五输出;
将第二特征张量输入第二生成器,获得第六输出;
根据第一图像、第二图像、第五输出和第六输出,计算第五损失。
在一个实施例中提供了一种可读存储介质,该可读存储介质用于存储应用程序,应用程序用于在运行时执行图1或图2的目标对象识别方法。
在一个实施例中提供了一种应用程序,该应用程序用于在运行时执行图1或图2的目标对象识别方法。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random AccessMemory,RAM)、磁盘或光盘等。
以上对本发明实施例进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种目标对象识别方法,其特征在于,包括:
获取目标对象的图像;
通过目标网络识别所述目标对象属于每个类别的概率,所述目标网络包括生成式对抗网络和残差网络;
将所述概率最大的类别确定为所述目标对象所属类别。
2.根据权利要求1所述的方法,其特征在于,所述生成式对抗网络包括第一生成器,所述方法还包括:
获取第一图像集和第二图像集,所述第一图像集为清晰图像的集合,所述第二图像集为模糊图像的集合;
将第一图像输入所述第一生成器,获得第一特征张量,所述第一图像为所述第一图像集中的任一图像;
将第二图像输入所述第一生成器,获得第二特征张量,所述第二图像为所述第二图像集中的任一图像;
将所述第一特征张量输入所述残差网络,获得所述第一图像中的对象属于每个类别的第一概率;
将所述第二特征张量输入所述残差网络,获得所述第二图像中的对象属于每个类别的第二概率;
根据所述第一图像、所述第一特征张量、所述第二图像、所述第二特征张量、所述第一概率和所述第二概率,计算总损失;
根据所述总损失优化所述生成式对抗网络和所述残差网络的参数,获得目标网络。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一图像、所述第一特征张量、所述第二图像、所述第二特征张量、所述第一概率和所述第二概率,计算总损失包括:
根据所述第一图像、所述第一特征张量、所述第二图像和所述第二特征张量,计算第一损失;
根据所述第一概率和所述第二概率,计算第二损失;
根据所述第一损失和所述第二损失,计算总损失。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一图像、所述第一特征张量、所述第二图像和所述第二特征张量,计算第一损失包括:
根据所述第一特征张量和所述第二图像,计算第三损失;
根据所述第一图像和所述第二特征张量,计算第四损失;
根据所述第一图像、所述第一特征张量、所述第二图像和所述第二特征张量,计算第五损失;
根据所述第三损失、所述第四损失和所述第五损失,计算第一损失。
5.根据权利要求4所述的方法,其特征在于,所述生成式对抗网络还包括第一辨别器,所述根据所述第一特征张量和所述第二图像,计算第三损失包括:
将所述第一特征张量输入所述第一辨别器,获得第一输出;
将所述第二图像输入所述第一辨别器,获得第二输出;
根据所述第一输出和所述第二输出,计算第三损失。
6.根据权利要求5所述的方法,其特征在于,所述生成式对抗网络还包括第二辨别器,所述根据所述第一图像和所述第二特征张量,计算第四损失包括:
将所述第二特征张量输入所述第二辨别器,获得第三输出;
将所述第一图像输入所述第二辨别器,获得第四输出;
根据所述第三输出和所述第四输出,计算第四损失。
7.根据权利要求6所述的方法,其特征在于,所述生成式对抗网络还包括第二生成器,所述根据所述第一图像、所述第一特征张量、所述第二图像和所述第二特征张量,计算第五损失包括:
将所述第一特征张量输入所述第二生成器,获得第五输出;
将所述第二特征张量输入所述第二生成器,获得第六输出;
根据所述第一图像、所述第二图像、所述第五输出和所述第六输出,计算第五损失。
8.一种目标对象识别装置,其特征在于,包括:
第一获取单元,用于获取目标对象的图像;
识别单元,用于通过目标网络识别所述第一获取单元获取的图像中目标对象属于每个类别的概率,所述目标网络包括生成式对抗网络和残差网络;
确定单元,用于将所述识别单元识别出的概率最大的类别确定为所述第一获取单元获取的图像中目标对象所属类别。
9.一种目标对象识别装置,其特征在于,包括处理器和存储器,所述处理器和所述存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于调用所述程序指令执行如权利要求1-7任一项所述的目标对象识别方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的目标对象识别方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811058343.8A CN110889316B (zh) | 2018-09-11 | 2018-09-11 | 一种目标对象识别方法、装置及存储介质 |
PCT/CN2018/124846 WO2020052170A1 (zh) | 2018-09-11 | 2018-12-28 | 一种目标对象识别方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811058343.8A CN110889316B (zh) | 2018-09-11 | 2018-09-11 | 一种目标对象识别方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110889316A true CN110889316A (zh) | 2020-03-17 |
CN110889316B CN110889316B (zh) | 2020-11-24 |
Family
ID=69745560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811058343.8A Active CN110889316B (zh) | 2018-09-11 | 2018-09-11 | 一种目标对象识别方法、装置及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110889316B (zh) |
WO (1) | WO2020052170A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801128A (zh) * | 2020-12-14 | 2021-05-14 | 深圳云天励飞技术股份有限公司 | 非机动车识别方法、装置、电子设备及存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111951192A (zh) * | 2020-08-18 | 2020-11-17 | 义乌清越光电科技有限公司 | 一种拍摄图像的处理方法及拍摄设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106951919A (zh) * | 2017-03-02 | 2017-07-14 | 浙江工业大学 | 一种基于对抗生成网络的流速监测实现方法 |
WO2017223560A1 (en) * | 2016-06-24 | 2017-12-28 | Rensselaer Polytechnic Institute | Tomographic image reconstruction via machine learning |
CN107545245A (zh) * | 2017-08-14 | 2018-01-05 | 中国科学院半导体研究所 | 一种年龄估计方法及设备 |
CN108460408A (zh) * | 2018-02-05 | 2018-08-28 | 西安电子科技大学 | 基于残差学习和条件gan的极化sar图像分类方法 |
CN108509952A (zh) * | 2018-04-10 | 2018-09-07 | 深圳市唯特视科技有限公司 | 一种基于深度注意生成对抗网络的实例级图像翻译技术 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107423707A (zh) * | 2017-07-25 | 2017-12-01 | 深圳帕罗人工智能科技有限公司 | 一种基于复杂环境下的人脸情绪识别方法 |
CN107945118B (zh) * | 2017-10-30 | 2021-09-28 | 南京邮电大学 | 一种基于生成式对抗网络的人脸图像修复方法 |
CN108133238B (zh) * | 2017-12-29 | 2020-05-19 | 国信优易数据有限公司 | 一种人脸识别模型训练方法和装置及人脸识别方法和装置 |
CN108280413B (zh) * | 2018-01-17 | 2022-04-19 | 百度在线网络技术(北京)有限公司 | 人脸识别方法和装置 |
CN108319932B (zh) * | 2018-03-12 | 2021-12-07 | 中山大学 | 一种基于生成式对抗网络的多图像人脸对齐的方法及装置 |
CN108416752B (zh) * | 2018-03-12 | 2021-09-07 | 中山大学 | 一种基于生成式对抗网络进行图像去运动模糊的方法 |
-
2018
- 2018-09-11 CN CN201811058343.8A patent/CN110889316B/zh active Active
- 2018-12-28 WO PCT/CN2018/124846 patent/WO2020052170A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017223560A1 (en) * | 2016-06-24 | 2017-12-28 | Rensselaer Polytechnic Institute | Tomographic image reconstruction via machine learning |
CN106951919A (zh) * | 2017-03-02 | 2017-07-14 | 浙江工业大学 | 一种基于对抗生成网络的流速监测实现方法 |
CN107545245A (zh) * | 2017-08-14 | 2018-01-05 | 中国科学院半导体研究所 | 一种年龄估计方法及设备 |
CN108460408A (zh) * | 2018-02-05 | 2018-08-28 | 西安电子科技大学 | 基于残差学习和条件gan的极化sar图像分类方法 |
CN108509952A (zh) * | 2018-04-10 | 2018-09-07 | 深圳市唯特视科技有限公司 | 一种基于深度注意生成对抗网络的实例级图像翻译技术 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801128A (zh) * | 2020-12-14 | 2021-05-14 | 深圳云天励飞技术股份有限公司 | 非机动车识别方法、装置、电子设备及存储介质 |
CN112801128B (zh) * | 2020-12-14 | 2023-10-13 | 深圳云天励飞技术股份有限公司 | 非机动车识别方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2020052170A1 (zh) | 2020-03-19 |
CN110889316B (zh) | 2020-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112052787B (zh) | 基于人工智能的目标检测方法、装置及电子设备 | |
CN111414987B (zh) | 神经网络的训练方法、训练装置和电子设备 | |
CN111310814A (zh) | 利用不平衡正负样本对业务预测模型训练的方法及装置 | |
CN111507457A (zh) | 用于可解释人工智能的神经网络特征的影响的映射和量化 | |
CN111695421A (zh) | 图像识别方法、装置及电子设备 | |
US20240078428A1 (en) | Neural network model training method, data processing method, and apparatus | |
CN110889316B (zh) | 一种目标对象识别方法、装置及存储介质 | |
CN114187483A (zh) | 生成对抗样本的方法、检测器的训练方法及相关设备 | |
CN114091554A (zh) | 一种训练集处理方法和装置 | |
CN112989363A (zh) | 漏洞定位方法、装置、电子设备和存储介质 | |
CN113919497A (zh) | 针对连续学习能力系统的基于特征操纵的攻击和防御方法 | |
CN112836820A (zh) | 用于图像分类任务的深度卷积网络训方法、装置及系统 | |
CN111950579A (zh) | 分类模型的训练方法和训练装置 | |
CN111783936B (zh) | 卷积神经网络构建方法、装置、设备及介质 | |
US20230342626A1 (en) | Model processing method and related apparatus | |
KR102105951B1 (ko) | 추론을 위한 제한된 볼츠만 머신 구축 방법 및 추론을 위한 제한된 볼츠만 머신을 탑재한 컴퓨터 장치 | |
CN113490955A (zh) | 用于产生金字塔层的架构的系统和方法 | |
CN111079930A (zh) | 数据集质量参数的确定方法、装置及电子设备 | |
CN112861601A (zh) | 生成对抗样本的方法及相关设备 | |
CN114365155A (zh) | 具有快速逐点卷积的高效推断 | |
CN111402121A (zh) | 图像风格的转换方法、装置、计算机设备和存储介质 | |
CN116935102B (zh) | 一种轻量化模型训练方法、装置、设备和介质 | |
KR102608304B1 (ko) | 컴퓨터 비전의 지능확장을 위한 딥 러닝 시스템 및 방법 | |
JP6994572B2 (ja) | データ処理システムおよびデータ処理方法 | |
US20220300818A1 (en) | Structure optimization apparatus, structure optimization method, and computer-readable recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |