CN117011578A - 对象识别方法和装置、存储介质及电子设备 - Google Patents
对象识别方法和装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN117011578A CN117011578A CN202211446668.XA CN202211446668A CN117011578A CN 117011578 A CN117011578 A CN 117011578A CN 202211446668 A CN202211446668 A CN 202211446668A CN 117011578 A CN117011578 A CN 117011578A
- Authority
- CN
- China
- Prior art keywords
- picture
- module
- initial
- target
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 132
- 238000003860 storage Methods 0.000 title claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 153
- 230000008569 process Effects 0.000 claims abstract description 41
- 238000004590 computer program Methods 0.000 claims description 23
- 230000002441 reversible effect Effects 0.000 claims description 18
- 230000005540 biological transmission Effects 0.000 claims description 6
- 230000000644 propagated effect Effects 0.000 abstract description 9
- 230000006870 function Effects 0.000 description 75
- 238000004364 calculation method Methods 0.000 description 22
- 238000001514 detection method Methods 0.000 description 22
- 238000002372 labelling Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 12
- 238000013527 convolutional neural network Methods 0.000 description 11
- 238000005457 optimization Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000011176 pooling Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 230000006978 adaptation Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000002360 preparation method Methods 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 238000000513 principal component analysis Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000001788 irregular Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- AZFKQCNGMSSWDS-UHFFFAOYSA-N MCPA-thioethyl Chemical compound CCSC(=O)COC1=CC=C(Cl)C=C1C AZFKQCNGMSSWDS-UHFFFAOYSA-N 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 238000013140 knowledge distillation Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000004080 punching Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种对象识别方法和装置、存储介质及电子设备。其中,该方法包括:获取待识别的图片,将待识别的图片输入目标识别模块,得到目标识别结果,其中,目标识别模块是使用样本图片和样本标签对预训练的初始识别模块和预训练的目标数据分类模块进行联合训练得到的识别模块,初始识别模块用于确定目标对象在样本图片中的位置,目标数据分类模块用于在联合训练的过程中,确定样本图片的图片类别,并将梯度反向传播至初始识别模块,以减少初始识别模块提取的用于区分图片类别的特征信息。本申请解决了图片的识别准确率较低,识别图片的模型训练过程复杂的技术问题。
Description
技术领域
本申请涉及计算机领域,具体而言,涉及一种对象识别方法和装置、存储介质及电子设备。
背景技术
目前,使用生成数据训练初始识别模块方法包括采用生成数据对常规预训练模型进行训练,通常采用多层级联的网络对生成数据进行训练,从而提升初始识别模块对生成数据所在的目标场景的准确率。但是,上述方案需要对初始识别模块进行特殊设计,该过程需要对设计的模型进行反复训练验证,训练周期较长,且得到的网络无法自适应到其他的数据源,造成设计资源浪费,对不同场景的生成数据需要设计不同的网络结构进行适配,模型训练过程繁杂无法进行统一的模型结构适配。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种对象识别方法和装置、存储介质及电子设备,以至少解决图片的识别准确率较低,识别图片的模型训练过程复杂的技术问题。
根据本申请实施例的一个方面,提供了一种对象识别方法,包括:一种对象识别方法,其特征在于,包括:获取待识别的图片,其中,所述待识别的图片是与目标场景关联的图片;将所述待识别的图片输入目标识别模块,得到目标识别结果,其中,所述目标识别结果表示在所述目标场景下是否识别到目标对象以及在识别到所述目标对象的情况下,所述目标对象在所述待识别的图片中的位置,所述目标识别模块是使用样本图片和样本标签对预训练的初始识别模块和预训练的目标数据分类模块进行联合训练得到的识别模块,所述初始识别模块用于确定所述目标对象在所述样本图片中的位置,所述目标数据分类模块用于在所述联合训练的过程中,确定所述样本图片的图片类别,并将梯度反向传播至所述初始识别模块,以减少所述初始识别模块提取的用于区分所述图片类别的特征信息。
根据本申请实施例的另一方面,还提供了一种对象识别装置,包括:获取模块,用于获取待识别的图片,其中,所述待识别的图片是与目标场景关联的图片;识别模块,用于将所述待识别的图片输入目标识别模块,得到目标识别结果,其中,所述目标识别结果表示在所述目标场景下是否识别到目标对象以及在识别到所述目标对象的情况下,所述目标对象在所述待识别的图片中的位置,所述目标识别模块是使用样本图片和样本标签对预训练的初始识别模块和预训练的目标数据分类模块进行联合训练得到的识别模块,所述初始识别模块用于确定所述目标对象在所述样本图片中的位置,所述目标数据分类模块用于在所述联合训练的过程中,确定所述样本图片的图片类别,并将梯度反向传播至所述初始识别模块,以减少所述初始识别模块提取的用于区分所述图片类别的特征信息。
可选地,所述装置还用于:
通过如下方式训练初始数据分类模块,得到所述目标数据分类模块:
获取所述样本图片和对应的所述样本标签,其中,所述样本图片包括标注了真实标签的所述真实样本图片和标注了生成标签的所述生成样本图片;
将所述样本图片输入所述初始识别模块,得到所述中间层特征信息;
将所述中间层特征信息输入初始数据分类模块,对所述中间层特征信息进行分类操作,得到初始分类结果,其中,所述初始分类结果用于确定所述样本图片的图片类别;
根据所述初始分类结果与所述样本标签计算第一损失值;
根据所述第一损失值基于梯度下降的方式优化所述初始数据分类模块,直到训练结果满足第一损失条件,得到所述目标数据分类模块。
可选地,所述装置还用于:在所述第一损失值满足第一损失条件的情况下,将所述初始数据分类模块确定为所述目标数据分类模块之后,通过如下方式联合训练所述初始识别模块,得到所述目标识别模块:将所述中间层特征信息输入所述目标数据分类模块,得到目标分类结果,其中,所述目标分类结果用于确定所述中间层特征信息对应的图片类别;根据所述目标数据分类模块所产生的梯度信息反向更新所述初始识别模块,以调整所述初始识别模块的模块参数,减少所述初始识别模块提取的所述特征信息;获取所述初始识别模块输出的初始识别结果,并根据所述初始识别结果计算第二损失值;在所述第二损失值满足第二损失条件的情况下,将所述初始识别模块确定为所述目标识别模块;在所述第二损失值未满足所述第二损失条件的情况下,对所述初始识别模块的参数进行调整。
可选地,所述装置用于通过如下方式获取所述初始识别模块输出的初始识别结果,并根据所述初始识别结果计算第二损失值:在将所述生成样本图片和所述真实样本图片分别输入所述初始识别模块的情况下,得到样本中间层特征信息;根据所述样本中间层特征信息确定第一约束损失和第二约束损失,其中,所述第一约束损失与所述生成样本图片对应,所述第二约束损失与所述真实样本图片对应;将所述样本中间层特征信息输入所述目标数据分类模块,确定第三约束损失,其中,在所述目标数据分类模块识别正确时,反向更新所述初始识别模块的参数,在所述目标数据分类模块识别错误时,正向更新所述初始识别模块的参数,以减少所述初始识别模块提取的所述特征信息;根据所述第一约束损失、所述第二约束损失以及所述第三约束损失计算所述第二损失值。
可选地,所述装置用于通过如下方式将所述样本中间层特征信息输入所述目标数据分类模块,确定第三约束损失:将所述样本中间层特征信息输入所述目标数据分类模块,得到联合训练分类结果,其中,所述联合训练分类结果表示所述样本中间层特征信息是否是所述真实样本图片;根据所述联合训练分类结果和所述样本标签确定所述第三约束损失,其中,所述样本标签表示输入的所述样本图片的图片类别是所述真实样本图片或输入的所述样本图片的图片类别是所述生成样本图片。
可选地,所述装置用于通过如下方式将所述样本中间层特征信息输入所述目标数据分类模块,确定第三约束损失:将所述样本中间层特征信息输入所述目标数据分类模块,在梯度反向训练层中确定所述第三约束损失,其中,所述梯度反向训练层在进行前向传播时,输入与输出相同,在进行梯度更新时,将梯度的负数传播至所述初始识别模块,并确定所述第三约束损失。
根据本申请实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述对象识别方法。
根据本申请实施例的又一方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如以上对象识别方法。
根据本申请实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过所述计算机程序执行上述的对象识别方法。
在本申请实施例中,采用获取待识别的图片,其中,待识别的图片是与目标场景关联的图片,将待识别的图片输入目标识别模块,得到目标识别结果,其中,目标识别结果表示在目标场景下是否识别到目标对象以及在识别到目标对象的情况下,目标对象在待识别的图片中的位置,目标识别模块是使用样本图片和样本标签对预训练的初始识别模块和预训练的目标数据分类模块进行联合训练得到的识别模块,初始识别模块用于确定目标对象在样本图片中的位置,目标数据分类模块用于在联合训练的过程中,确定样本图片的图片类别,并将梯度反向传播至初始识别模块,以减少初始识别模块提取的用于区分图片类别的特征信息的方式,通过生成特定场景中的图片完成模型的训练,可对部署场景进行模拟减少图片的采集与标注过程,达到快速对模型进行场景适配的目的,采用真实图片与生成图片对识别模型进行联合优化,可以提升目标场景下识别模型的准确率,从而实现了简化识别图片的模型的训练过程,提高对象识别准确率的技术效果,进而解决了图片的识别准确率较低,识别图片的模型训练过程复杂的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种可选的对象识别方法的应用环境的示意图;
图2是根据本申请实施例的一种可选的对象识别方法的流程示意图;
图3是根据本申请实施例的一种可选的对象识别方法的示意图;
图4是根据本申请实施例的又一种可选的对象识别方法的流程图;
图5是根据本申请实施例的又一种可选的对象识别方法的流程图;
图6是根据本申请实施例的又一种可选的对象识别方法的流程图;
图7是根据本申请实施例的又一种可选的对象识别方法的示意图;
图8是根据本申请实施例的又一种可选的对象识别方法的流程图;
图9是根据本申请实施例的一种可选的对象识别装置的结构示意图;
图10是根据本申请实施例的一种可选的电子设备的结构示意图;
图11是根据本申请实施例的一种可选的对象识别装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或者术语适用于如下解释:
卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deeplearning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能力,能够按其阶层结构对输入信息进行分类。
下面结合实施例对本申请进行说明:
根据本申请实施例的一个方面,提供了一种对象识别方法,可选地,在本实施例中,上述对象识别方法可以应用于如图1所示的由服务器101和终端设备103所构成的硬件环境中。如图1所示,服务器101通过网络与终端103进行连接,可用于为终端设备或终端设备上安装的应用程序提供服务,应用程序可以是视频应用程序、即时通信应用程序、浏览器应用程序、教育应用程序、游戏应用程序等。可在服务器上或独立于服务器设置数据库105,用于为服务器101提供数据存储服务,例如,游戏数据存储服务器,上述网络可以包括但不限于:有线网络,无线网络,其中,该有线网络包括:局域网、城域网和广域网,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络,终端设备103可以是配置有应用程序的终端,可以包括但不限于以下至少之一:手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices,移动互联网设备)、PAD、台式电脑、智能电视、智能语音交互设备、智能家电、车载终端、飞行器等计算机设备,上述服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,或者是云服务器。
结合图1所示,上述对象识别方法可以在终端设备103通过如下步骤实现:
S1,在终端设备103上获取待识别的图片,其中,待识别的图片是与目标场景关联的图片;
S2,在终端设备103上将待识别的图片输入目标识别模块,得到目标识别结果,其中,目标识别结果表示在目标场景下是否识别到目标对象以及在识别到目标对象的情况下,目标对象在待识别的图片中的位置,目标识别模块是使用样本图片和样本标签对预训练的初始识别模块和预训练的目标数据分类模块进行联合训练得到的识别模块,初始识别模块用于确定目标对象在样本图片中的位置,目标数据分类模块用于在联合训练的过程中,确定样本图片的图片类别,并将梯度反向传播至初始识别模块,以减少初始识别模块提取的用于区分图片类别的特征信息。
可选地,在本实施例中,上述对象识别方法还可以通过服务器实现,例如,图1所示的服务器101中实现;或由终端设备和服务器共同实现。
上述仅是一种示例,本实施例不做具体的限定。
可选地,作为一种可选的实施方式,如图2所示,上述对象识别方法包括:
S202,获取待识别的图片,其中,待识别的图片是与目标场景关联的图片;
可选地,在本实施例中,上述待识别的图片获取的方法可以是使用相关场景中提前配置的图像采集设备进行采集的图片,其中,可以是提前设置定时功能使得图像采集设备相隔一定的时间对相关场景进行图像采集,还可以是使用带有计算机视觉技术的图像采集设备,自动识别场景中出现的相关物体的图像;还可以是将相应传感器和图像采集设备进行连接,例如,在相关场景中的地面上提前铺设压力传感器,当相关场景中出现物体时,压力传感器测定到的压力超过预定值时,图像采集设备进行图片采集;或者是在相关场景范围内提前配置声音采集装置,当该装置采集到相关场景范围内的声音大于预定值时,图像采集设备进行图片采集。在此不对待识别的图片获取的方法和触发图像采集设备工作的方式做特别的限定。
可选地,在本实施例中,上述目标场景可以包括但不限于是需要进行图像采集的区域,例如,学校或者小区门口、公司的打卡系统附近,家用门铃附近等需要进行图像采集的区域。
需要说明的是,计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
目前,计算机视觉技术的应用范围越来越广泛,其中,计算机视觉技术在人脸识别、图片识别分析、视频分析等领域发挥着重要的作用,除此以外计算机视觉在智能驾驶、三维图像视觉、工业视觉检测、医疗影像诊断等领域也发挥着重要的作用。
S204,将待识别的图片输入目标识别模块,得到目标识别结果,其中,目标识别结果表示在目标场景下是否识别到目标对象以及在识别到目标对象的情况下,目标对象在待识别的图片中的位置,目标识别模块是使用样本图片和样本标签对预训练的初始识别模块和预训练的目标数据分类模块进行联合训练得到的识别模块,初始识别模块用于确定目标对象在样本图片中的位置,目标数据分类模块用于在联合训练的过程中,确定样本图片的图片类别,并将梯度反向传播至初始识别模块,以减少初始识别模块提取的用于区分图片类别的特征信息。
可选地,在本实施例中,上述目标识别模块可以是对相关图片执行识别工作的模块,上述目标识别结果可以是目标识别模块对相关图片进行识别后输出的结果,该结果可以是由文字、数字或符号组成的文本信息,还可以是将相关图片中的部分内容作为结果,例如,可以包括但不限于识别出待识别的图片中是否存在目标对象,以及在识别到目标对象的情况下,识别出目标对象在待识别的图片中的位置坐标向量,该位置坐标向量可以用于表示检测框的位置,以在待识别的图片中标注出目标对象。
可选地,在本实施例中,上述目标对象可以包括但不限于是需要进行识别的对象,该目标对象可以是人,动物等。例如,工作人员、猫、狗等。
可选地,在本实施例中,上述初始识别模块可以包括但不限于是尚未进行联合训练,但已完成预训练的识别模块;上述目标识别模块可以包括但不限于是已经使用真实样本图片和生成样本图片对预训练的初始识别模块和预训练的目标数据分类模块进行联合训练后得到的识别模块。
需要说明的是,上述初始识别模块的预训练过程可以采用包括但不限于如下方式实现:
采用生成器输出的生成样本图片对初始识别模块进行辅助训练,将生成样本图片的场景信息调制到初始识别模块中,提升生成样本图片所在场景中的对象识别准确率。
图4是根据本申请实施例的一种可选的对象识别方法的示意图,如图4所示,在本阶段中主要是对初始识别模块进行初始化训练。
(1)对初始识别模块进行初始化训练,其流程与各个模块的功能如下:
(a)训练数据准备模块:该模块是在训练过程中,对训练数据进行读取,将读取到的数据组合成一个batch送入初始识别模块单元中进行处理。同时在该模块中加入不同的数据增强方案,如随机裁剪、旋转、随机翻转等。
(b)初始识别模块:本模块的功能是将输入对象图片进行对象框位置的提取,输出对象所在的坐标向量。本模块通常具有的结构为卷积神经网络(CNN),包含有卷积(convolution)计算、非线性激活函数(Relu)计算、池化(Pooling)计算等操作。
(c)对象识别目标函数计算模块,该模块是将初始识别模块所提取的对象框坐标与图片中真实坐标作为输入计算目标函数值。目标函数可选用各类距离度量函数(如L1、L2、smoth_L1),也可采用其他类型的目标函数。在对象识别中通常加上检测框分类与置信度分类等辅助损失函数。对于所有的对象识别损失函数,本实施例均可适用。
(d)对象识别目标函数优化模块,本模块基于梯度下降的方式(如随机梯度下降,带动量项的随机梯度下降,adam,adagard),对整个网络进行训练优化。训练中重复(a)~(d),直至训练的结果满足训练终止条件。终止模型训练的条件一般设置迭代次数满足设定的值,或者约束目标函数计算的loss小于设定的值即可完成模型的训练。
可选地,在本实施例中,上述真实样本图片可以包括但不限于是指在目标场景中使用图像采集设备进行采集到的用于模型训练的样本图片,其中真实样本图片的采集方式可以是提前设置定时功能使得图像采集设备相隔一定的时间对相关场景进行图像采集,还可以是使用带有计算机视觉技术的图像采集设备,自动识别场景中出现的相关物体的图像;还可以是将相应传感器和图像采集设备进行连接,例如,在相关场景中的地面上提前铺设压力传感器,当相关场景中出现物体时,压力传感器测定到的压力超过预定值时,图像采集设备进行图片采集;或者是在相关场景范围内提前配置声音采集装置,当该装置采集到相关场景范围内的声音大于预定值时,图像采集设备进行图片采集;还可以是使用Python爬虫爬取到的;或者是以上方案的任意组合,在此对真实样本图片的获取方式不做限定。
可选地,在本实施例中,上述生成样本图片可以包括但不限于是计算机根据数据库中存储的一些类别的图片进行拆分,合成等相关操作后得到的图片,其中,生成样本图片可以是由同类样本图片生成的,还可以是由不同类样本图片生成的。
例如,可以将两个不同的欧洲人图像中的样貌特征进行和合成,拼接等操作,生成一个拥有两人相关特征的样本图片,此时该样本图片即为生成样本图片;还可以将亚洲人图像和欧洲人图像的样貌特征进行拆分、拼接、合成等操作,生成拥有相关特征的样本图片,此时该样本图片也为生成样本图片。
需要说明的是,上述生成样本图片还可以包括但不限于由生成器、变分自编码器等神经网络模型生成的样本图片。
可选地,在本实施例中,上述在识别到目标对象的情况下,目标对象在待识别的图片中的位置可以包括但不限于通过识别模块输出的检测框信息确定,通过检测框信息在待识别图片上进行自动标注,以确定目标对象在待识别的图片中的位置。
需要说明的是,上述检测框信息可以包括但不限于自动识别出目标对象在真实图片中目标对象的坐标信息。上述真实样本图片在目标场景下的检测框信息通过预训练的目标数据分类模块迁移至生成样本图片,此迁移可以是将真实样本图片中的检测框信息直接迁移到生成样本图片相对应的位置的检测框上;还可以是在生成样本图片的任意位置先设置好检测框的位置,再将真实样本图片中的检测框信息迁移到生成样本图片中设置好的检测框内,在此不对迁移的方式做具体的限定。
可选地,在本实施例中,上述联合训练可以包括但不限于同时微调上述初始识别模块和目标数据分类模块的参数,需要说明的是,上述调整参数的本质是梯度的反向传播过程,在梯度的反向传播过程中,当目标数据分类模块确定样本图片的图片类别之后,根据确定的图片类别与样本标签进行比对,当确定的图片类别与样本标签不一致时,确定目标数据分类模块分类结果错误,此时,将梯度在目标数据分类模块反向传播,以使得目标数据分类模块朝可以准确分类图片类别的训练目标进行优化,并在传播至初始识别模块时,调整为将梯度正向传播至初始识别模块,以进一步使得初始识别模块无法提取出用于确定图片类别的特征信息,当确定的图片类别与样本标签一致时,确定目标数据分类模块分类结果正确,此时,将梯度在目标数据分类模块正向传播,以使得目标数据分类模块朝可以准确分类图片类别的训练目标进行优化,并在传播至初始识别模块时,调整为将梯度的反向传播至初始识别模块,以进一步使得初始识别模块无法提取出用于确定图片类别的特征信息。
通过本实施例,采用获取待识别的图片,其中,待识别的图片是与目标场景关联的图片,将待识别的图片输入目标识别模块,得到目标识别结果,其中,目标识别结果表示在目标场景下是否识别到目标对象以及在识别到目标对象的情况下,目标对象在待识别的图片中的位置,目标识别模块是使用样本图片和样本标签对预训练的初始识别模块和预训练的目标数据分类模块进行联合训练得到的识别模块,初始识别模块用于确定目标对象在样本图片中的位置,目标数据分类模块用于在联合训练的过程中,确定样本图片的图片类别,并将梯度反向传播至初始识别模块,以减少初始识别模块提取的用于区分图片类别的特征信息的方式,通过生成特定场景中的图片完成模型的训练,可对部署场景进行模拟减少图片的采集与标注过程,达到快速对模型进行场景适配的目的,采用真实图片与生成图片对识别模型进行联合优化,可以提升目标场景下识别模型的准确率,从而实现了简化识别图片的模型的训练过程,提高对象识别准确率的技术效果,进而解决了图片的识别准确率较低,识别图片的模型训练过程复杂的技术问题。
作为一种可选的方案,上述方法还包括:
通过如下方式训练初始数据分类模块,得到目标数据分类模块:
获取样本图片和对应的样本标签,其中,样本图片包括标注了真实标签的真实样本图片和标注了生成标签的生成样本图片;
将样本图片输入初始识别模块,得到中间层特征信息;
将中间层特征信息输入初始数据分类模块,对中间层特征信息进行分类操作,得到初始分类结果,其中,初始分类结果用于确定样本图片的图片类别;
根据初始分类结果与样本标签计算第一损失值;
根据第一损失值基于梯度下降的方式优化初始数据分类模块,直到训练结果满足第一损失条件,得到目标数据分类模块。
可选地,在本实施例中,上述样本图片可以包括但不限于是要被用于相关模型训练的图片,其中,样本图片可以包括真实样本图片和生成样本图片。上述标签可以包括但不限于是根据样本图片的相关信息进行标注以用于区别样本图片的内容。
需要说明的是,目前对图片进行标注标签的方法包括但不限于:
(1)语义分割,是指根据物体的属性,对复杂不规则图片进行区域划分,并标注对应上属性,以帮助训练图像识别模型,常应用于自动驾驶、人机交互、虚拟现实等领域。
(2)矩形框标注:又叫拉框标注,是目前应用最广泛的一种图像标注方法,能够以一种相对简单、便捷的方式在图像或视频数据中,迅速框定指定目标对象。
(3)多边形标注:在静态图片中,使用多边形框,标注出不规则的目标物体,相对于矩形框标注,多边形标注能够更精准地框定目标,同时对于不规则物体,也更具针对性。
(4)关键点标注:通过人工的方式,在规定位置标注上关键点,例如人脸特征点、人体骨骼连接点等,常用来训练面部识别模型以及统计模型。
(5)点云标注:点云是三维数据的一种重要表达方式,通过激光雷达等传感器,能够采集到各类障碍物以及其位置坐标,而标注员则需要将这些密集的点云分类,并标注上不同属性,常应用于自动驾驶领域。
(6)3D立方体标注:3D立方体标注还是基于二维平面图像的标注,标注员通过对立体物体的边缘框定,进而获得灭点,测量出物体之间的相对距离。
可选地,在本实施例中,上述初始数据分类模块可以是对样本图片进行分类的预训练的识别模块,其中,初始数据分类模块区分出相关样本图片是真实样本图片还是生成样本图片。上述初始分类结果可以包括但不限于是指用于表示样本图片是真实样本图片还是生成样本图片,其结果可以包括但不限于用文字、符号、图片等表示。其中,使用初始数据分类模块得到的初始分类结果与样本图片对应的标签(该样本标签既标注了样本是真实样本图片还是生成样本图片之外,还标注了目标对象的坐标向量)进行计算得到的损失值满足损失条件(对应于前述的第一损失条件)时,该初始数据分类模块即为目标数据分类模块。
需要说明的是,该初始数据分类模块的训练过程是采用梯度下降的方式进行训练得到的。
在一个示例性地实施例中,图5是根据本申请实施例的又一种可选的对象识别方法的示意图,目标数据分类模块确定的步骤如图5所示:
S502,获取样本图片和标签;
S504,将样本图片输入到初始数据分类模块;
S506,得到初始分类结果;
S508,计算第一损失值,其中第一损失值是根据初始分类结果与样本图片对应的标签计算得到的;
S510,判断第一损失值是否满足第一损失条件,若判断结果为“是”则执行S512,若判断结果为“否”则执行S514;
S512,将初始数据分类模块确定为目标数据分类模块;
S514,调整初始数据分类模块的参数,返回执行S506。
可选地,在本实施例中,上述第一损失值可以包括但不限于是初始分类结果与样本图片对应的标签之间的误差值,该误差值可以包括但不限于距离值,例如,欧氏距离、余弦距离等;上述预设终止条件可以是管理人员提前根据需要预先进行设置的损失条件;还可以是借鉴本领域相关技术人员的经验后得到的损失条件,在此不对损失条件的确定方法做具体的限定。
通过本实施例,采用通过如下方式训练初始数据分类模块,得到目标数据分类模块:获取样本图片和对应的样本标签,其中,样本图片包括标注了真实标签的真实样本图片和标注了生成标签的生成样本图片;将样本图片输入初始识别模块,得到中间层特征信息;将中间层特征信息输入初始数据分类模块,对中间层特征信息进行分类操作,得到初始分类结果,其中,初始分类结果用于确定样本图片的图片类别;根据初始分类结果与样本标签计算第一损失值;根据第一损失值基于梯度下降的方式优化初始数据分类模块,直到训练结果满足第一损失条件,得到目标数据分类模块方式,通过将经过标注的样本图片输入初始数据分类模块中进行分类,将初始分类结果与样本图片对应的标签计算第一损失值,调整相关参数使得第一损失值满足第一损失条件,得到目标数据分类模块,达到优化初始数据分类模块的目的,实现了提高分类模块准确率的技术效果,进而解决了图片的识别准确率较低,识别图片的模型训练过程复杂的技术问题。
作为一种可选的方案,在第一损失值满足第一损失条件的情况下,将初始数据分类模块确定为目标数据分类模块之后,上述方法还包括:通过如下方式联合训练初始识别模块,得到目标识别模块:将中间层特征信息输入目标数据分类模块,得到目标分类结果,其中,目标分类结果用于确定中间层特征信息对应的图片类别;根据目标数据分类模块所产生的梯度信息反向更新初始识别模块,以调整初始识别模块的模块参数,减少初始识别模块提取的特征信息;获取初始识别模块输出的初始识别结果,并根据初始识别结果计算第二损失值;在第二损失值满足第二损失条件的情况下,将初始识别模块确定为目标识别模块;在第二损失值未满足第二损失条件的情况下,对初始识别模块的参数进行调整。
可选地,在本实施例中,上述目标分类结果可以包括但不限于是指是目标数据分类模块对输入的样本图片进行分类后得到的结果,该结果用于表示样本图片是真实样本图片还是生成样本图片,其结果可以包括但不限于用文字、符号、图片等表示。
可选地,在本实施例中,上述中间层特征信息可以包括但不限于是样本图片中的目标对象区别于其他对象的相应特点和特性,或是这些特点和特征的集合,对于图片而言,每一张图片都具有能够区别于其他图片的自身特征,该特征信息可以包括但不限于:颜色特征信息、形状特征信息、纹理特征信息、空间关系信息特征等。上述根据目标数据分类模块所产生的梯度信息反向更新初始识别模块,以调整初始识别模块的模块参数,减少初始识别模块提取的特征信息可以理解为上述目标识别模块提取的特征信息不包括或尽可能少的包括表示样本图片是真实样本图片或者生成样本图片的特征信息,也即,根据提取的中间层特征信息是无法区分该提取特征信息是真实样本图片的特征信息还是生成样本图片的特征信息的。
需要说明的是,目前,从图片中特征信息的提取的方式可以包括但不限于以下方法:
线性方法:
主成分分析法:从一组特征中通过求解最优的正交变换,得到一组相互间方差最大的新特征,它们是原始特征的线性组合,且相互之间是不相关的,再对新特征进行重要性排序,选取前几个主成分。用较少的主成分来表示数据,可以实现特征的降维,还可以消除数据中的噪声。该算法不考虑样本的类别信息,是一种无监督的方法。
线性判别法:该方法基本思想是将高维的数据样本投影到最佳判别的矢量空间,以达到提取分类信息和压缩特征空间维数的效果,投影后保证数据样本在新的子空间类间距离最大和类内距离最小,即样本数据在该空间中有最佳的可分离性。
多维尺度法:其根据样本之间的距离关系或不相似度关系在低维空间里生成对样本的一种表示。MDS分为度量型和非度量型两种,度量型MDS把样本间的距离关系或不相似度关系看作一种定量的度量,尽可能的在低维空间里保持这种度量关系;非度量型MDS把样本间的距离关系或不相似度关系看作一种定性的关系,在低维空间里只需保持这种关系的顺序。
非线性方法:
核主成分分析法:该方法对样本进行非线性变换,通过在变换空间进行主成分分析来实现在原空间的非线性主成分分析。根据可再生希尔伯特空间的性质,在变换空间中的协方差矩阵可以通过原空间中的核函数进行运算,从而绕过复杂的非线性变换。核方法对于不同的问题选择合适的核函数类型,不同的核函数类型反映了对数据分布的不同假设,也可以看作是对数据引入了一种非线性距离度量。
流型学习方法:其基本思想是通过局部距离来定义非线性距离变量,再样本分布较密集的情况下可以实现各种复杂的非线性距离度量,具体方法包括:等容特征映射、局部线性嵌入、拉普拉斯特征映射等。
在一个示例性的实施例中,上述初始数据分类模块和目标数据分类模块执行分类任务可以是通过数据类型分类器来实现的,该数据分类器的功能是在训练中,对初始识别网络所提取的特征图进行分类,其中,在对数据分类器进行训练的过程中,需要配合使用初始识别模块,在训练的过程中初始识别模块的参数不进行更新。数据类型分类器对初始识别模块所产生的中间层特征进行分类,而其分类的结果在后续联合训练过程中以反向作用叠加在主干模型(对应于前述的初始识别模块)上,使得主干模型所提取的特征信息不包含或尽可能少包括用于区分真实数据或生成数据的信息,学习得到不同场景之间的共同信息。
可选地,在本实施例中,上述第二损失条件可以包括但不限于是预先设定的一个损失条件,例如,损失值<0.5或损失值<1等类似的限制条件,其中,该第二损失条件可以是管理人员提前根据需要预先进行设置的损失条件;还可以是借鉴本领域相关技术人员的经验后得到的损失条件,在此不对损失条件的确定方法做具体的限定
在一个示例性地实施例中,训练一个较好的数据类型分类器,该数据分类器的功能是在训练中,对初始识别模块所提取的特征图(对应于前述的中间层特征信息)进行分类。若采用随机初始化的数据分类器加入联合训练中,会导致该数据分类器产生与任务无关的随机梯度,严重影响效果,故需要先训练一个较好的数据分类器。
图6是根据本申请实施例的又一种可选的对象识别方法的示意图,在对数据类型分类器模块进行训练的过程中,需要配合使用初始识别模块(图6中的人脸检测网络单元模块),在训练过程中,该初始识别模块的参数并不进行更新。训练过程中有参数更新的部分已用颜色标注如图6所示。
(a)训练数据准备模块,本模块的功能与初始识别模块初始化训练中的训练数据准备模块一致。在本阶段中读取的数据为生成的对象数据与真实的对象数据,二者数据的一般设置为1:1。
(b)数据类型分类模块(二分类,表示输入的特征图是真实图片还是生成图片,分类器),该模块的功能是对初始识别模块所提取的特征进行分类。类别标签为真实图像或生成图像。该网络仍为一个分类网络。该网络结构一般由卷积神经网络组成,一般包含有卷积(convolution)计算、非线性激活函数(Relu)计算、池化(Pooling)计算等操作。该网络的结构也可为全连接网络,可根据其输入进行调整。图7是根据本申请实施例的又一种可选的对象识别方法的示意图,该网络的输入为初始识别模块中间层的输出特征,该模块与初始识别模块的关系为图7所示。初始识别模块由Backbone提取初步特征,采用Neck模块作为特征金字塔对特征进行增强,由Head模块对模型所提取到的特征进行损失函数计算,在本实施例中数据类型分类器连接位置为模型所提取的输出特征位置。
(c)交叉熵目标函数计算模块,该模块的功能是将初始数据分类模块的输出与图片所属模态的标签(是否为真实数据图片)作为输入,计算损失函数值(对应于前述的第二损失值),该损失函数采用交叉熵。
(d)交叉熵目标函数优化模块,本模块基于梯度下降的方式(如随机梯度下降,带动量项的随机梯度下降,adam,adagard),对整个网络进行训练优化。训练中重复(a)~(d),直至训练的结果满足训练终止条件。终止模型训练的条件一般设置迭代次数满足设定的值,或者交叉熵目标函数计算的loss小于设定的值即可完成模型的训练。
作为一种可选的方案,获取初始识别模块输出的初始识别结果,并根据初始识别结果计算第二损失值,包括:
在将生成样本图片和真实样本图片分别输入初始识别模块的情况下,得到样本中间层特征信息;
根据样本中间层特征信息确定第一约束损失和第二约束损失,其中,第一约束损失与生成样本图片对应,第二约束损失与真实样本图片对应;
将样本中间层特征信息输入目标数据分类模块,确定第三约束损失,其中,在目标数据分类模块识别正确时,反向更新初始识别模块的参数,在目标数据分类模块识别错误时,正向更新初始识别模块的参数,以减少初始识别模块提取的特征信息;
根据第一约束损失、第二约束损失以及第三约束损失计算第二损失值。
可选地,在本实施例中,上述第一约束损失可以包括但不限于是生成样本图片的目标对象与初始识别模块识别出的对象之间的误差值;上述第二约束损失可以包括但不限于是真实样本图片的目标对象与初始识别模块识别出的对象之间的误差值;上述第三约束损失可以包括但不限于真实样本图片所提取特征与生成样本图片所提取特征的误差值,上述第二损失值可以包括但不限于是真实样本图片提取的特征信息和生成样本图片提取的特征信息之间的误差值。
需要说明的是,初始数据分类模块以及目标数据分类模块的网络结构一般由卷积一般由卷积神经网络组成,一般包含有卷积计算、非线性激活函数(Relu)计算、池化计算等操作。该网络的结构也可为全连接网络,可根据其输入进行调整。并且可以采用相关的损失函数计算上述约束损失,如可以采用交叉熵损失函数、Zero-one Loss(0-1损失)、Perceptron Loss(感知损失)、平方误差损失等来计算上述第一约束损失、第二约束损失、第三约束损失。对初始识别模块的参数进行调整以使得第二损失值满足第二损失条件的过程即为对损失函数进行优化的过程,可以采用如随机梯度下降、带动量项的随机梯度下降等方式对损失函数进行优化。
在一个示例性地实施例中,图8是根据本申请实施例的又一种可选的对象识别方法的示意图,如图8所示,若生成数据(对应于上述生成样本图片)所产生的对象检测约束损失为L1(对应于上述第一约束损失),真实数据所产生的对象检测约束损失为L2(对应于上述第二约束损失),数据类型分类器所产生的约束损失为L3(对应于上述第三约束损失)。故损失函数累加为L=αL1+βL2+γL3,其中α、β、γ为相关函数参数权重。
作为一种可选的方案,将样本中间层特征信息输入目标数据分类模块,确定第三约束损失,包括:
将样本中间层特征信息输入目标数据分类模块,得到联合训练分类结果,其中,联合训练分类结果表示样本中间层特征信息是否是真实样本图片;
根据联合训练分类结果和样本标签确定第三约束损失,其中,样本标签表示输入的样本图片的图片类别是真实样本图片或输入的样本图片的图片类别是生成样本图片。
作为一种可选的方案,将样本中间层特征信息输入目标数据分类模块,确定第三约束损失,包括:
将样本中间层特征信息输入目标数据分类模块,在梯度反向训练层中确定第三约束损失,其中,梯度反向训练层在进行前向传播时,输入与输出相同,在进行梯度更新时,将梯度的负数传播至初始识别模块,并确定第三约束损失。
可选地,在本实施例中,如图8所示,利用真实图片与生成图片,对初始识别模块进行联合训练。使得初始识别模块将生成图片中有利于对象识别的信息调制到识别模型中,从而提升其信息的准确程度。在本阶段中引入一个梯度反向训练层,该层的作用为在做前向时,其输入与输出一致,当其进行梯度更新时,经过该层的梯度经过调整,该层的数学表达如公式1所示:
R(X)=X
其中,γ为随着迭代步数p变化的函数,如式(2)所示,其中,k为总迭代步数。
在训练过程中,数据类型分类器对初始识别模块所产生的特征进行分类,而其分类的结果以反向作用叠加在主干模型上,使得主干模型所提取的特征不包含可以用于区分真实数据或生成数据的特征信息,学习得到不同场景之间的共同信息。从而以真实数据为锚点对生成数据中的信息进行提取,达到对生成数据进行有效利用的目标。在本步骤中,生成数据所产生的对象检测约束损失为L1,真实数据所产生的对象检测约束损失为L2,数据类型分类器所产生的约束损失为L3。故损失函数累加为L=αL1+βL2+γL3,在本步骤中所有的参数均需参与更新训练。在本阶段中生成数据的监督函数权重为α,经验值取1.5左右。真实数据的监督函数权重β,经验值取1。场景分类监督函数权重γ权重,经验值取0.8。同时在本阶段中减少优化的学习率参数,只对网络进行微调。在进行完本阶段之后,部署的网络只采用初始识别模块即可,其他模块无需加入部署。
下面结合具体的示例,对本申请进行进一步的解释说明:
对象识别是对象识别与分析领域(如表情分析、姿态判断、质量分析、三维对象重建、三维动画等应用场景)的前置步骤。随着对象识别技术应用场景逐渐普及化,也给对象识别带来新的挑战。在实际的运用部署中,为保证模型在目标应用场景中的检测准确率,模型需要对不同的应用场景做适配。因此需要采集对应场景的数据对模型进行训练。但是由于部署场景的多样化,对不同场景的数据进行采集,需要耗费较大的资源。并且对采集到的数据进行快速的人工标注,存在人为标注误差的缺点。同时对对象图片进行采集时存在个人信息保护的隐式问题。因此采用对象图片生成模型生成特定场景中的对象图片对模型进行训练,可对部署场景进行模拟减少对象图片的采集与标注过程,达到快速对模型进行场景适配的目的。但由于生成数据中包含部分虚拟的细节大量采用或只采用生成数据对模型进行训练会导致模型对真实场景的检测能力下降。本申请采用正常对象图片数据与生成数据对初始识别模块进行联合优化,可以提升目标场景下初始识别模块的准确率。
真实图片与生成图片之间存在可迁移的共同信息即对象识别框位置,且初始识别模块在真实场景中准确率较高。在本申请中采用生成图片对真实初始识别模块进行辅助优化,将初始识别模块微调至生成图片所模拟的场景中。本申请采用数据分类器将真实图像所提取到的信息迁移到生成图像中,从而提升该模型在生成图片对应的场景中的模型检测能力。该数据分类器识别训练数据为来自真实采集图片或生成的数据图片,并在模型主干中采用反向梯度优化的方式对初始识别模块进行约束,使得模型在生成图片中得到与真实场景分布一致的特征表达,提升生成图片所在场景中对象识别的准确率。
本申请所提出的使用生成图片辅助训练初始识别模块的方法,是在对象识别提取主干特征的任务中,引入生成图片对模型主干网络进行微调适配训练。采用生成图片所包含的场景信息对识别模型进行微调,同时保证生成图片所包含的噪声不对正常对象识别产生影响。本申请不需要对生成图片标注繁琐的信息,在对目标场景进行数据生成时,只需要生成对应的标签即可。不增加数据采集的人力成本。其次在模型训练中未引入不同任务之间的权重超参。最后在训练中,该方案没有对初始识别模块进行特殊结构设计,而是采用通用的识别模型对对象识别任务进行训练。
本申请中的方法可以对生成图片进行有效利用,辅助初始识别模块在目标场景中进行适配。本方案现在应用于各项对象识别业务中(如智能门锁项目)。采用本申请之后,对各个场景中的初始识别模块适配效率得到提升。
本申请采用生成图片对对象识别网络进行辅助训练,将生成图片的场景信息调制到初始识别模块中,提升生成图片所在场景中的对象识别准确率。
本申请的总体技术方案入图3所示,主要分为三个阶段,初始化阶段,训练数据类型分类阶段,微调阶段。在初始化阶段,首先是利用真实场景图片对对象识别模块进行初始化训练,使得网络具有初步的对象识别的能力。该阶段主要的训练步骤为常规对象识别任务的训练方式。训练数据类型分类模块阶段,采用真实图像与生成图片图像联合步骤一中得到的模块对数据类型分类模块进行训练。该数据类型分类网络主要为区分识别模型特征提取主干网络所提取的特征为来自何种图片数据类型。微调模块阶段,该阶段采用阶段二中所得到的模型,利用真实图片与生成图像对该模型进行微调,同时采用训练数据类型分类网络对主干模型进行调整,将生成图片中对检测有用的信息调制到主干网络中,使得其保持对生成图片所在场景的检测能力。
如图4所示,在本阶段中主要是对对象识别模块进行初始化训练。
(1)对对象识别模块进行初始化训练,其流程与各个模块的功能如下:
(a)训练数据准备模块:该模块是在训练过程中,对训练数据进行读取,将读取到的数据组合成一个batch送入对象识别网络单元中进行处理。同时在该模块中加入不同的数据增强方案,如随机裁剪、旋转、随机翻转等。
(b)对象识别模块:本模块的功能是将输入对象图片进行对象框位置的提取,输出对象所在的坐标向量。本模块通常具有的结构为卷积神经网络(CNN),包含有卷积(convolution)计算、非线性激活函数(Relu)计算、池化(Pooling)计算等操作。
(c)对象识别目标函数计算模块,该模块是将对象识别主干网络所提取的对象框坐标与图片中真实坐标作为输入计算目标函数值。目标函数可选用各类距离度量函数(如L1、L2、smoth_L1),也可采用其他类型的目标函数。在对象识别中通常加上检测框分类与置信度分类等辅助损失函数。对于所有的对象识别损失函数,本申请均可适用。
(d)对象识别目标函数优化模块,本模块基于梯度下降的方式(如随机梯度下降,带动量项的随机梯度下降,adam,adagard),对整个网络进行训练优化。训练中重复(a)~(d),直至训练的结果满足训练终止条件。终止模型训练的条件一般设置迭代次数满足设定的值,或者约束目标函数计算的loss小于设定的值即可完成模型的训练。
(2)训练数据分类模块阶段,其流程与各个模块的功能如下:
在本阶段中,主要是训练一个较好的数据类型分类器。该数据分类器的功能是在训练中,对对象识别网络所提取的特征图进行分类。若采用随机初始化的数据分类器加入联合训练中,会导致该数据分类器产生与任务无关的随机梯度,严重影响效果,故需要先训练一个较好的数据分类器。
在对数据类型分类器模块进行训练的过程中,需要配合使用图4中的对象识别模块,在训练过程中,该对象识别网络模块的参数并不进行更新。训练过程中有参数更新的部分已标注如图6所示。
(a)训练数据准备模块,本模块的功能与对象识别单元模块初始化训练中的训练数据准备模块一致。在本阶段中读取的数据为生成的对象数据与真实的对象数据,二者数据的一般设置为1:1。
(b)数据类型分类模块,该模块的功能是对对象识别模块所提取的特征进行分类。类别标签为真实图像或生成图像。该网络仍为一个分类网络。该网络结构一般由卷积神经网络组成,一般包含有卷积(convolution)计算、非线性激活函数(Relu)计算、池化(Pooling)计算等操作。该网络的结构也可为全连接网络,可根据其输入进行调整。该网络的输入为对象识别网络中间层的输出特征,该模块与初始识别模块的关系为图7所示。初始识别模块由Backbone提取初步特征,采用Neck模块作为特征金字塔对特征进行增强,由Head模块对模型所提取到的特征进行损失函数计算,在本申请中数据类型分类器连接位置为模型所提取的输出特征位置。
(c)交叉熵目标函数计算模块,该模块的功能是将初始数据分类模块的输出与图片所属模态的标签(是否为真实图片图片)作为输入,计算损失函数值,该损失函数采用交叉熵。
(d)交叉熵目标函数优化模块,本模块基于梯度下降的方式(如随机梯度下降,带动量项的随机梯度下降,adam,adagard),对整个网络进行训练优化。训练中重复(a)~(d),直至训练的结果满足训练终止条件。终止模型训练的条件一般设置迭代次数满足设定的值,或者交叉熵目标函数计算的loss小于设定的值即可完成模型的训练。
(3)微调对象识别模块阶段,其流程与各个模块的功能如下
本步骤的目标是利用真实图片与生成图片,对初始识别模块进行联合训练。使得模型将生成图片中有利于对象识别的信息调制到识别模型中,从而提升其信息的准确程度。在本阶段中引入一个梯度反向训练层,该层的作用为在做前向时,其输入与输出一致,当其进行梯度更新时,经过该层的梯度经过调整,该层的数学表达如公式1所示:
R(x)=x,前向过程,对应图8梯度反向优化模块的输入和输出相同。
R(X)=X
其中,γ为随着迭代步数p变化的函数,如式(2)所示,其中k为总迭代步数。
在训练过程中,数据类型分类器对初始识别模块所产生的特征进行分类,而其分类的结果以反向作用叠加在主干模型上,使得主干模型所提取的特征不包含可以用于区分真实图片或生成图片的信息,学习得到不同场景之间的共同信息(真实图片和生成图片)。从而以真实图片为锚点对生成图片中的信息进行提取,达到对生成图片进行有效利用的目标。在本步骤中,生成图片所产生的对象识别约束损失为L1,真实图片所产生的对象识别约束损失为L2,数据类型分类器所产生的约束损失为L3。故损失函数累加为L=αL1+βL2+γL3,本步骤中的其他模块训练与步骤(1),(2)中类似。在本步骤中所有的参数均需参与更新训练。在本阶段中生成图片的监督函数权重为α,经验值取1.5左右。真实图片的监督函数权重β,经验值取1。场景分类监督函数权重γ权重,经验值取0.8。同时在本阶段中减少优化的学习率参数,只对网络进行微调。在进行完本阶段之后,部署的网络只采用对象识别模块即可,其他模块无需加入部署。
采用本申请可以有效利用生成图片对识别模型进行训练,达到利用生成图片对部署模型进行场景适配的效果,采用模型知识蒸馏技术,用准确率更高的大模型对小型模型进行知识蒸馏,还可以提升小模型的准确率
可以理解的是,在本申请的具体实施方式中,涉及到用户信息等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
根据本申请实施例的另一个方面,还提供了一种用于实施上述对象识别方法的对象识别装置。如图9所示,该装置包括:
获取模块902,用于获取待识别的图片,其中,所述待识别的图片是与目标场景关联的图片;
识别模块904,用于将所述待识别的图片输入目标识别模块,得到目标识别结果,其中,所述目标识别结果表示在所述目标场景下是否识别到目标对象以及在识别到所述目标对象的情况下,所述目标对象在所述待识别的图片中的位置,所述目标识别模块是使用样本图片和样本标签对预训练的初始识别模块和预训练的目标数据分类模块进行联合训练得到的识别模块,所述初始识别模块用于确定所述目标对象在所述样本图片中的位置,所述目标数据分类模块用于在所述联合训练的过程中,确定所述样本图片的图片类别,并将梯度反向传播至所述初始识别模块,以减少所述初始识别模块提取的用于区分所述图片类别的特征信息。
作为一种可选的方案,所述装置还用于:通过如下方式训练初始数据分类模块,得到所述目标数据分类模块:获取所述样本图片和对应的所述样本标签,其中,所述样本图片包括标注了真实标签的所述真实样本图片和标注了生成标签的所述生成样本图片;将所述样本图片输入所述初始识别模块,得到所述中间层特征信息;将所述中间层特征信息输入初始数据分类模块,对所述中间层特征信息进行分类操作,得到初始分类结果,其中,所述初始分类结果用于确定所述样本图片的图片类别;根据所述初始分类结果与所述样本标签计算第一损失值;根据所述第一损失值基于梯度下降的方式优化所述初始数据分类模块,直到训练结果满足第一损失条件,得到所述目标数据分类模块。
作为一种可选的方案,所述装置还用于:在所述第一损失值满足第一损失条件的情况下,将所述初始数据分类模块确定为所述目标数据分类模块之后,通过如下方式联合训练所述初始识别模块,得到所述目标识别模块:将所述中间层特征信息输入所述目标数据分类模块,得到目标分类结果,其中,所述目标分类结果用于确定所述中间层特征信息对应的图片类别;根据所述目标数据分类模块所产生的梯度信息反向更新所述初始识别模块,以调整所述初始识别模块的模块参数,减少所述初始识别模块提取的所述特征信息;获取所述初始识别模块输出的初始识别结果,并根据所述初始识别结果计算第二损失值;在所述第二损失值满足第二损失条件的情况下,将所述初始识别模块确定为所述目标识别模块;在所述第二损失值未满足所述第二损失条件的情况下,对所述初始识别模块的参数进行调整。
作为一种可选的方案,所述装置用于通过如下方式获取所述初始识别模块输出的初始识别结果,并根据所述初始识别结果计算第二损失值:在将所述生成样本图片和所述真实样本图片分别输入所述初始识别模块的情况下,得到样本中间层特征信息;根据所述样本中间层特征信息确定第一约束损失和第二约束损失,其中,所述第一约束损失与所述生成样本图片对应,所述第二约束损失与所述真实样本图片对应;将所述样本中间层特征信息输入所述目标数据分类模块,确定第三约束损失,其中,在所述目标数据分类模块识别正确时,反向更新所述初始识别模块的参数,在所述目标数据分类模块识别错误时,正向更新所述初始识别模块的参数,以减少所述初始识别模块提取的所述特征信息;根据所述第一约束损失、所述第二约束损失以及所述第三约束损失计算所述第二损失值。
作为一种可选的方案,所述装置用于通过如下方式将所述样本中间层特征信息输入所述目标数据分类模块,确定第三约束损失:将所述样本中间层特征信息输入所述目标数据分类模块,得到联合训练分类结果,其中,所述联合训练分类结果表示所述样本中间层特征信息是否是所述真实样本图片;根据所述联合训练分类结果和所述样本标签确定所述第三约束损失,其中,所述样本标签表示输入的所述样本图片的图片类别是所述真实样本图片或输入的所述样本图片的图片类别是所述生成样本图片。
作为一种可选的方案,所述装置用于通过如下方式将所述样本中间层特征信息输入所述目标数据分类模块,确定第三约束损失:将所述样本中间层特征信息输入所述目标数据分类模块,在梯度反向训练层中确定所述第三约束损失,其中,所述梯度反向训练层在进行前向传播时,输入与输出相同,在进行梯度更新时,将梯度的负数传播至所述初始识别模块,并确定所述第三约束损失。
根据本申请的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序/指令,该计算机程序/指令包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被中央处理器1001执行时,执行本申请实施例提供的各种功能。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
图10示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图。
需要说明的是,图10示出的电子设备的计算机系统1000仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图10所示,计算机系统1000包括中央处理器1001(Central Processing Unit,CPU),其可以根据存储在只读存储器1002(Read-Only Memory,ROM)中的程序或者从存储部分1008加载到随机访问存储器1003(Random Access Memory,RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器1003中,还存储有系统操作所需的各种程序和数据。中央处理器1001、在只读存储器1002以及随机访问存储器1003通过总线1004彼此相连。输入/输出接口1005(Input/Output接口,即I/O接口)也连接至总线1004。
以下部件连接至输入/输出接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1008;包括硬盘等的存储部分1008;以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至输入/输出接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
特别地,根据本申请的实施例,各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被中央处理器1001执行时,执行本申请的系统中限定的各种功能。
根据本申请实施例的又一个方面,还提供了一种用于实施上述对象识别方法的电子设备,该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为终端设备为例来说明。如图11所示,该电子设备包括存储器1102和处理器1104,该存储器1102中存储有计算机程序,该处理器1104被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取待识别的图片,其中,待识别的图片是与目标场景关联的图片;
S2,将待识别的图片输入目标识别模块,得到目标识别结果,其中,目标识别结果表示在目标场景下是否识别到目标对象以及在识别到目标对象的情况下,目标对象在待识别的图片中的位置,目标识别模块是使用样本图片和样本标签对预训练的初始识别模块和预训练的目标数据分类模块进行联合训练得到的识别模块,初始识别模块用于确定目标对象在样本图片中的位置,目标数据分类模块用于在联合训练的过程中,确定样本图片的图片类别,并将梯度反向传播至初始识别模块,以减少初始识别模块提取的用于区分图片类别的特征信息。
可选地,本领域普通技术人员可以理解,图11所示的结构仅为示意,电子装置电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图11其并不对上述电子装置电子设备的结构造成限定。例如,电子装置电子设备还可包括比图11中所示更多或者更少的组件(如网络接口等),或者具有与图11所示不同的配置。
其中,存储器1102可用于存储软件程序以及模块,如本申请实施例中的对象识别方法和装置对应的程序指令/模块,处理器1104通过运行存储在存储器1102内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的对象识别方法。存储器1102可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1102可进一步包括相对于处理器1104远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器1102具体可以但不限于用于真实图片或生成图片等信息。作为一种示例,如图11所示,上述存储器1102中可以但不限于包括上述对象识别装置中的获取模块902,识别模块904。此外,还可以包括但不限于上述对象识别装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置1106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1106包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1106为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子设备还包括:显示器1108,用于显示上述待识别的图片;和连接总线1110,用于连接上述电子设备中的各个模块部件。
在其他实施例中,上述终端设备或者服务器可以是一个分布式系统中的一个节点,其中,该分布式系统可以为区块链系统,该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中,节点之间可以组成点对点(P2P,Peer To Peer)网络,任意形式的计算设备,比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。
根据本申请的一个方面,提供了一种计算机可读存储介质,计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述对象识别方面的各种可选实现方式中提供的对象识别方法。
可选地,在本实施例中,上述计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取待识别的图片,其中,待识别的图片是与目标场景关联的图片;
S2,将待识别的图片输入目标识别模块,得到目标识别结果,其中,目标识别结果表示在目标场景下是否识别到目标对象以及在识别到目标对象的情况下,目标对象在待识别的图片中的位置,目标识别模块是使用样本图片和样本标签对预训练的初始识别模块和预训练的目标数据分类模块进行联合训练得到的识别模块,初始识别模块用于确定目标对象在样本图片中的位置,目标数据分类模块用于在联合训练的过程中,确定样本图片的图片类别,并将梯度反向传播至初始识别模块,以减少初始识别模块提取的用于区分图片类别的特征信息。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种对象识别方法,其特征在于,包括:
获取待识别的图片,其中,所述待识别的图片是与目标场景关联的图片;
将所述待识别的图片输入目标识别模块,得到目标识别结果,其中,所述目标识别结果表示在所述目标场景下是否识别到目标对象以及在识别到所述目标对象的情况下,所述目标对象在所述待识别的图片中的位置,所述目标识别模块是使用样本图片和样本标签对预训练的初始识别模块和预训练的目标数据分类模块进行联合训练得到的识别模块,所述初始识别模块用于确定所述目标对象在所述样本图片中的位置,所述目标数据分类模块用于在所述联合训练的过程中,确定所述样本图片的图片类别,并将梯度反向传播至所述初始识别模块,以减少所述初始识别模块提取的用于区分所述图片类别的特征信息。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过如下方式训练初始数据分类模块,得到所述目标数据分类模块:
获取所述样本图片和对应的所述样本标签,其中,所述样本图片包括标注了真实标签的真实样本图片和标注了生成标签的生成样本图片;
将所述样本图片输入所述初始识别模块,得到中间层特征信息;
将所述中间层特征信息输入初始数据分类模块,对所述中间层特征信息进行分类操作,得到初始分类结果,其中,所述初始分类结果用于确定所述样本图片的图片类别;
根据所述初始分类结果与所述样本标签计算第一损失值;
根据所述第一损失值基于梯度下降的方式优化所述初始数据分类模块,直到训练结果满足第一损失条件,得到所述目标数据分类模块。
3.根据权利要求2所述的方法,其特征在于,所述在所述第一损失值满足第一损失条件的情况下,将所述初始数据分类模块确定为所述目标数据分类模块之后,所述方法还包括:
通过如下方式联合训练所述初始识别模块,得到所述目标识别模块:
将所述中间层特征信息输入所述目标数据分类模块,得到目标分类结果,其中,所述目标分类结果用于确定所述中间层特征信息对应的图片类别;
根据所述目标数据分类模块所产生的梯度信息反向更新所述初始识别模块,以调整所述初始识别模块的模块参数,减少所述初始识别模块提取的特征信息;
获取所述初始识别模块输出的初始识别结果,并根据所述初始识别结果计算第二损失值;
在所述第二损失值满足第二损失条件的情况下,将所述初始识别模块确定为所述目标识别模块;
在所述第二损失值未满足所述第二损失条件的情况下,对所述初始识别模块的参数进行调整。
4.根据权利要求2所述的方法,其特征在于,所述获取所述初始识别模块输出的初始识别结果,并根据所述初始识别结果计算第二损失值,包括:
在将所述生成样本图片和所述真实样本图片分别输入所述初始识别模块的情况下,得到样本中间层特征信息;
根据所述样本中间层特征信息确定第一约束损失和第二约束损失,其中,所述第一约束损失与所述生成样本图片对应,所述第二约束损失与所述真实样本图片对应;
将所述样本中间层特征信息输入所述目标数据分类模块,确定第三约束损失,其中,在所述目标数据分类模块识别正确时,反向更新所述初始识别模块的参数,在所述目标数据分类模块识别错误时,正向更新所述初始识别模块的参数,以减少所述初始识别模块提取的特征信息;
根据所述第一约束损失、所述第二约束损失以及所述第三约束损失计算所述第二损失值。
5.根据权利要求4所述的方法,其特征在于,所述将所述样本中间层特征信息输入所述目标数据分类模块,确定第三约束损失,包括:
将所述样本中间层特征信息输入所述目标数据分类模块,得到联合训练分类结果,其中,所述联合训练分类结果表示所述样本中间层特征信息是否是所述真实样本图片;
根据所述联合训练分类结果和所述样本标签确定所述第三约束损失,其中,所述样本标签表示输入的所述样本图片的图片类别是所述真实样本图片或输入的所述样本图片的图片类别是所述生成样本图片。
6.根据权利要求4所述的方法,其特征在于,所述将所述样本中间层特征信息输入所述目标数据分类模块,确定第三约束损失,包括:
将所述样本中间层特征信息输入所述目标数据分类模块,在梯度反向训练层中确定所述第三约束损失,其中,所述梯度反向训练层在进行前向传播时,输入与输出相同,在进行梯度更新时,将梯度的负数传播至所述初始识别模块,并确定所述第三约束损失。
7.一种对象识别装置,其特征在于,包括:
获取模块,用于获取待识别的图片,其中,所述待识别的图片是与目标场景关联的图片;
识别模块,用于将所述待识别的图片输入目标识别模块,得到目标识别结果,其中,所述目标识别结果表示在所述目标场景下是否识别到目标对象以及在识别到所述目标对象的情况下,所述目标对象在所述待识别的图片中的位置,所述目标识别模块是使用样本图片和样本标签对预训练的初始识别模块和预训练的目标数据分类模块进行联合训练得到的识别模块,所述初始识别模块用于确定所述目标对象在所述样本图片中的位置,所述目标数据分类模块用于在所述联合训练的过程中,确定所述样本图片的图片类别,并将梯度反向传播至所述初始识别模块,以减少所述初始识别模块提取的用于区分所述图片类别的特征信息。
8.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序可被终端设备或计算机运行时执行所述权利要求1至6任一项中所述的方法。
9.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至6任一项中所述方法的步骤。
10.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至6任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211446668.XA CN117011578A (zh) | 2022-11-18 | 2022-11-18 | 对象识别方法和装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211446668.XA CN117011578A (zh) | 2022-11-18 | 2022-11-18 | 对象识别方法和装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117011578A true CN117011578A (zh) | 2023-11-07 |
Family
ID=88564261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211446668.XA Pending CN117011578A (zh) | 2022-11-18 | 2022-11-18 | 对象识别方法和装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117011578A (zh) |
-
2022
- 2022-11-18 CN CN202211446668.XA patent/CN117011578A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709409B (zh) | 人脸活体检测方法、装置、设备及介质 | |
CN109165645A (zh) | 一种图像处理方法、装置以及相关设备 | |
CN106326857A (zh) | 基于人脸图像的性别识别方法及装置 | |
CN110765882B (zh) | 一种视频标签确定方法、装置、服务器及存储介质 | |
CN111814620A (zh) | 人脸图像质量评价模型建立方法、优选方法、介质及装置 | |
CN115131698B (zh) | 视频属性确定方法、装置、设备及存储介质 | |
CN112668608A (zh) | 一种图像识别方法、装置、电子设备及存储介质 | |
CN115424056A (zh) | 模型训练方法和装置、图像分类方法、设备和介质 | |
CN113033507B (zh) | 场景识别方法、装置、计算机设备和存储介质 | |
CN113705301A (zh) | 图像处理方法及装置 | |
CN112906517A (zh) | 一种自监督的幂律分布人群计数方法、装置和电子设备 | |
CN116958729A (zh) | 对象分类模型的训练、对象分类方法、装置及存储介质 | |
CN112749711B (zh) | 视频获取方法和装置及存储介质 | |
CN113568983B (zh) | 场景图生成方法、装置、计算机可读介质及电子设备 | |
CN117011566A (zh) | 一种目标检测方法、检测模型训练方法、装置及电子设备 | |
CN111461091B (zh) | 万能指纹生成方法和装置、存储介质及电子装置 | |
CN117011578A (zh) | 对象识别方法和装置、存储介质及电子设备 | |
CN117011449A (zh) | 三维面部模型的重构方法和装置、存储介质及电子设备 | |
CN114841887A (zh) | 一种基于多层次差异学习的图像恢复质量评价方法 | |
Gang et al. | Skeleton-based action recognition with low-level features of adaptive graph convolutional networks | |
CN113569081A (zh) | 图像识别方法、装置、设备及存储介质 | |
CN117058498B (zh) | 分割图评估模型的训练方法、分割图的评估方法及装置 | |
CN113515660B (zh) | 基于三维张量对比策略的深度特征对比加权图像检索方法 | |
CN117541824A (zh) | 标识的识别方法和装置、存储介质及电子设备 | |
CN117218400A (zh) | 一种图像识别模型训练方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |