CN116912630A - 一种目标识别方法和装置 - Google Patents
一种目标识别方法和装置 Download PDFInfo
- Publication number
- CN116912630A CN116912630A CN202311168263.9A CN202311168263A CN116912630A CN 116912630 A CN116912630 A CN 116912630A CN 202311168263 A CN202311168263 A CN 202311168263A CN 116912630 A CN116912630 A CN 116912630A
- Authority
- CN
- China
- Prior art keywords
- neural network
- target
- parameters
- network block
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000013528 artificial neural network Methods 0.000 claims abstract description 336
- 238000012549 training Methods 0.000 claims abstract description 103
- 238000004590 computer program Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000005094 computer simulation Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 11
- 238000013527 convolutional neural network Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及计算机模型技术领域,提供了一种目标识别方法和装置。该方法通过目标识别模型对待识别目标图像进行目标识别,得到目标识别结果,该目标识别模型通过固定初始神经网络中的原始参数,并依据目标域中的图像训练数据对初始神经网络块中设置的可控神经网络参数进行目标识别阶段训练得到的;其中,目标识别模型中包含了训练完成的可控神经网络参数,使得目标识别模型能够准确对目标域中待识别图像进行目标识别,提升了目标识别模型对目标域的待识别目标图像进行目标识别的识别率,避免了仅通过源域数据训练得到的目标识别模型对目标域的待识别目标图像进行目标识别,导致的识别率低下的问题。
Description
技术领域
本申请涉及计算机模型技术领域,尤其涉及一种目标识别方法和装置、电子设备及存储介质。
背景技术
随着社会的发展,目标识别应用在越来越多的场景中,在训练用于目标识别的目标识别模型时,通常会收集大量不同风格的数据,形成源域数据,然后通过源域数据对目标识别模型进行训练,使得目标模型具有良好的泛化能力,然而,由于目标识别模型使用源域数据进行训练,导致目标识别模型对目标域数据的信息利用不够充分,若通过该训练完成的目标识别模型对属于目标域的数据进行目标识别,则会出现识别错误、识别率低下的问题。
发明内容
有鉴于此,本申请实施例提供了一种目标识别方法和装置,以解决现有技术中,目标识别模型对目标域的待识别目标图像进行目标识别,识别率低下的问题。
本申请实施例的第一方面,提供了一种目标识别方法,该方法包括:获取目标域的待识别目标图像;将待识别目标图像输入至包含目标神经网络块的目标识别模型,目标神经网络块是固定初始神经网络块中的原始参数,通过目标域中的图像训练数据对初始神经网络块中设置的可控神经网络参数进行目标识别阶段训练得到的;获取目标识别模型输出的目标识别结果,并根据目标识别结果确定待识别目标图像中是否包含目标对象。
本申请实施例的第二方面,提供了一种目标识别装置,该装置包括:获取模块,用于获取目标域的待识别目标图像;输入模块,用于将待识别目标图像输入至包含目标神经网络块的目标识别模型,目标神经网络块是固定初始神经网络块中的原始参数,通过目标域中的图像训练数据对初始神经网络块中设置的可控神经网络参数进行目标识别阶段训练得到的;确定模块,用于获取目标识别模型输出的目标识别结果,并根据目标识别结果确定待识别目标图像中是否包含目标对象。
本申请实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
本申请实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本申请实施例与现有技术相比存在的有益效果是:本申请实施例中通过固定初始神经网络块中的原始参数,并依据目标域中的图像训练数据对初始神经网络块中设置的可控神经网络参数进行目标识别阶段训练得到目标识别模型,然后基于该目标识别模型对待识别目标图像进行目标识别,得到目标识别结果,其中,目标识别模型中包含了训练完成的可控神经网络参数,使得目标识别模型能够准确对目标域中待识别图像进行目标识别,提升了目标识别模型对目标域的待识别目标图像进行目标识别的识别率,避免了仅通过源域数据训练得到的目标识别模型对目标域的待识别目标图像进行目标识别,导致的识别率低下的问题,同时,通过固定初始神经网络块中的原始参数然后再训练可控神经网络参数,避免了直接对初始神经网络块中的所有参数进行训练,导致重复训练原始参数的问题,实现了减少训练量;同时,固定初始神经网络块中的原始参数不变,使得得到的目标神经网络块中包含了原始参数,提升了目标神经网络块的泛化能力,进而提升了目标识别模型的泛化能力。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本申请实施例的应用场景的场景示意图;
图2是申请实施例提供的一种目标识别方法的流程示意图;
图3是本申请实施例提供的还一种目标识别方法的流程示意图;
图4是本申请实施例提供的另一种目标识别方法的流程示意图;
图5是本申请实施例提供的再一种目标识别方法的流程示意图;
图6是本申请实施例提供的又一种目标识别方法的流程示意图;
图7是本申请实施例提供的还一种可选的目标识别方法的流程示意图;
图8是本申请实施例提供的另一种可选的目标识别方法的流程示意图;
图9是本申请实施例提供的一种目标识别装置的结构示意图;
图10是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
下面将结合附图详细说明根据本申请实施例的一种目标识别方法和装置。
图1是本申请实施例的应用场景的场景示意图。该应用场景可以包括终端设备1、2和3、服务器4以及网络5。
终端设备1、2和3可以是硬件,也可以是软件。当终端设备1、2和3为硬件时,其可以是具有显示屏且支持与服务器4通信的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等;当终端设备1、2和3为软件时,其可以安装在如上的电子设备中。终端设备1、2和3可以实现为多个软件或软件模块,也可以实现为单个软件或软件模块,本申请实施例对此不作限制。进一步地,终端设备1、2和3上可以安装有各种应用,例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。
服务器4可以是提供各种服务的服务器,例如,对与其建立通信连接的终端设备发送的请求进行接收的后台服务器,该后台服务器可以对终端设备发送的请求进行接收和分析等处理,并生成处理结果。服务器4可以是一台服务器,也可以是由若干台服务器组成的服务器集群,或者还可以是一个云计算服务中心,本申请实施例对此不作限制。
需要说明的是,服务器4可以是硬件,也可以是软件。当服务器4为硬件时,其可以是为终端设备1、2和3提供各种服务的各种电子设备。当服务器4为软件时,其可以是为终端设备1、2和3提供各种服务的多个软件或软件模块,也可以是为终端设备1、2和3提供各种服务的单个软件或软件模块,本申请实施例对此不作限制。
网络5可以是采用同轴电缆、双绞线和光纤连接的有线网络,也可以是无需布线就能实现各种通信设备互联的无线网络,例如,蓝牙(Bluetooth)、近场通信(Near FieldCommunication,NFC)、红外(Infrared)等,本申请实施例对此不作限制。
用户可以通过终端设备1、2和3经由网络5与服务器4建立通信连接,以接收或发送信息等。
需要说明的是,终端设备1、2和3、服务器4以及网络5的具体类型、数量和组合可以根据应用场景的实际需求进行调整,本申请实施例对此不作限制。
下面将结合附图详细说明根据本申请实施例的一种目标识别方法和装置。
图2是本申请实施例提供的一种目标识别方法的流程示意图,如图2所示,该目标识别方法包括:
S201、获取目标域的待识别目标图像;
S202、将待识别目标图像输入至包含目标神经网络块的目标识别模型,目标神经网络块是固定初始神经网络块中的原始参数,通过目标域中的图像训练数据对初始神经网络块中设置的可控神经网络参数进行目标识别阶段训练得到的;
S203、获取目标识别模型输出的目标识别结果,并根据目标识别结果确定待识别目标图像中是否包含目标对象。
具体地,上述目标域是指图像数据所在的领域,目标域中图像数据所处领域与全量图像识别数据集中图像数据所处领域不同;或目标域中图像数据所处领域与全量图像识别数据集中图像数据所处领域部分相同。能够理解的是,全量图像识别数据集中包含各种领域的图像数据,而目标域中的图像训练数据则是特定领域的图像数据。其中,上述获取的待识别目标图像属于目标域。其中,本实施例并不限制上述目标识别模型的具体网络结构,例如,上述目标识别模型采用MobileFaceNet、ResNet50等任一深度学习模型的结构。
能够理解的是,初始神经网络块中包含有原始参数和可控神经网络参数,该原始参数是基于源域的全量图像识别数据集对神经网络块进行全量识别阶段训练而得到的;其中,目标神经网络块是固定初始神经网络块中的原始参数,通过目标域中的图像训练数据对初始神经网络块中设置的可控神经网络参数进行目标识别阶段训练得到的,使得目标神经网络块中包含了该原始参数,进而提升了模型的泛化能力。
具体地,在获取待识别图像后,将改待识别图像输入至包含目标神经网络块的目标识别模型,该目标神经网络识别模型通过目标神经网络块中的原始参数对待识别目标图像进行目标识别处理,得到第一特征值,根据目标神经网络块中更新后的可控神经网络参数对待识别目标图像进行目标识别处理得到第二特征值,并根据第一特征值和第二特征值得到目标识别结果。在获取到目标识别结果后,若该目标识别结果表征识别到目标对象,则确定待识别目标图像中包含目标对象,若该目标识别结果表征未识别到目标对象,则确定待识别目标图像中未包含目标对象。
根据本申请实施例提供的技术方案,通过固定初始神经网络块中的原始参数,并依据目标域中的图像训练数据对初始神经网络块中设置的可控神经网络参数进行目标识别阶段训练得到目标识别模型,然后基于该目标识别模型对待识别目标图像进行目标识别,得到目标识别结果,其中,目标识别模型中包含了训练完成的可控神经网络参数,使得目标识别模型能够准确对目标域中待识别图像进行目标识别,提升了目标识别模型对目标域的待识别目标图像进行目标识别的识别率,避免了仅通过源域数据训练得到的目标识别模型对目标域的待识别目标图像进行目标识别,导致的识别率低下的问题;同时,通过固定初始神经网络块中的原始参数然后再训练可控神经网络参数,避免了对初始神经网络块中的所有参数进行训练,导致重复训练原始参数的问题,实现了减少训练量;同时,固定初始神经网络块中的原始参数不变,使得得到的目标神经网络块中包含了原始参数,提升了目标神经网络块的泛化能力,进而提升了目标识别模型的泛化能力。
在一些实施例中,下游任务调整参数由第一可训练参数矩阵和第二可训练参数矩阵构成;如图3所示,将待识别目标图像输入至包含目标神经网络块的目标识别模型之前,方法还包括:
S301、通过全量图像识别数据集对待训练模型中的神经网络块进行全量识别阶段训练,得到初始神经网络块;
S302、根据初始神经网络块的原始参数为初始神经网络块设置可控神经网络参数;
S303、通过目标域的图像训练数据对初始神经网络块中设置的可控神经网络参数进行目标识别阶段训练,得到目标神经网络块;
S304、基于目标神经网络块得到目标识别模型,目标识别模型用于在目标域中进行目标识别。
具体的,该全量图像识别数据集属于源域的数据,该全量图像识别数据集中包含多种风格的目标识别图片;其中,待训练模型中的神经网络块中包含初始参数,通过全量图像识别数据集对待训练模型中的神经网络块进行全量识别阶段训练,得到初始神经网络块,该初始神经网络块中包含了原始参数。
承接上例,在得到初始神经网络块之后,根据初始神经网络块的原始参数为初始神经网络块设置可控神经网络参数,也即,该可控神经网络参数与原始参数具有关联关系,避免了将可控神经网络参数初始化为零,从零开始训练导致训练量大的问题,进而减小了可控神经网络参数的训练量;在为初始神经网络块设置可控神经网络参数后,通过目标域的图像训练数据对初始神经网络块中设置的可控神经网络参数进行目标识别阶段训练,得到目标神经网络块;最后基于目标神经网络块得到目标识别模型。
具体地,例如,通过全量图像识别数据集对待训练模型中的神经网络块进行全量识别阶段训练,得到初始神经网络块,将该初始神经网络块表示为,其中F表示初始神经网络块的函数,/>表示初始神经网络块的原始参数,上述初始神经网络块能够将输入特征图映射为输出特征图,具体的,设初始神经网络块中的输入特征图为x,初始神经网络块中的输出特征图为y,则初始神经网络块中的输出特征图/>。
承接上例,根据初始神经网络块的原始参数为初始神经网络块设置可控神经网络参数,并通过目标域的图像训练数据对初始神经网络块中设置的可控神经网络参数进行目标识别阶段训练,得到目标神经网络块,则该目标神经网络块中包含了设置有原始参数的原始分支/>,与包含训练完成的可控神经网络参数的对应的可控分支,设目标神经网络块中的输入特征图为x,目标神经网络块中输出特征图为y,可控分支为W,则目标神经网络块中输出特征图y=/>+/>,进而使得目标神经网络块中保留了原始参数,提高了目标神经网络块的泛化能力,同时仅对可控神经网络参数进行训练,减少了包含可控神经网络参数的目标神经网络块的训练量,最后基于目标神经网络块得到目标识别模型,提升了目标识别模型的泛化能力,同时减少了目标识别模型的训练量。
根据本申请实施例提供的技术方案,通过全量图像识别数据集对待训练模型中的神经网络块进行全量识别阶段训练,得到初始神经网络块;根据初始神经网络块的原始参数为初始神经网络块设置可控神经网络参数;通过目标域的图像训练数据对初始神经网络块中设置的可控神经网络参数进行目标识别阶段训练,得到目标神经网络块;基于目标神经网络块得到目标识别模型,目标识别模型用于在目标域中进行目标识别,其中,根据初始神经网络块的原始参数为初始神经网络块设置可控神经网络参数,避免了将可控神经网络参数初始化为零,进而减小了可控神经网络参数的训练量,此外,在目标神经网络块中保留原始参数,提高了目标神经网络块的泛化能力,同时仅对初始神经网络块中可控神经网络参数进行训练,减少了包含可控神经网络参数的目标神经网络块所需的训练量,最后基于目标神经网络块得到目标识别模型,提升了目标识别模型的泛化能力,同时减少了目标识别模型的训练量。
在一些实施例中,如图4所示,根据初始神经网络块的原始参数为初始神经网络块设置可控神经网络参数,包括:
S401、获取初始神经网络块的原始参数,拷贝原始参数作为可训练参数;
S402、确定零卷积神经网络的参数,基于可训练参数和零卷积神经网络的参数确定可控神经网络参数。
具体的,通过在初始神经网络块中设置可控神经网络参数,实现为初始神经网络块设置可控分支,以初始神经网络块表示为,其中F表示初始神经网络块的函数,/>表示初始神经网络块的原始参数为例,通过拷贝原始参数/>得到可训练参数/>。其中,拷贝原始参数作为可训练参数,实现利用原始参数已经学习到的特征加速可训练参数的训练过程;避免了直接新建一个可训练参数,导致需要更多的数据和时间来训练可训练参数的问题;同时,使得可训练参数与原始参数的特征一致,避免了可训练参数与原始参数的特征不一致,影响整体网络块的输出的问题,从而提高训练完成的目标神经网络块在目标域上的识别性能。
承接上例,在确定可训练参数后,本示例通过确定零卷积神经网络的参数,并基于可训练参数和零卷积神经网络的参数确定可控神经网络参数;具体的,以确定的零卷积神经网络的参数为为例,则该零卷积神经网络可表示为/>,最后通过零卷积神经网络对可控分支参数进行卷积即可得到可控神经网络参数,可控神经网络参数用于构成可控分支;具体的,设零卷积神经网络为/>,可训练参数/>,则可控神经网络参数构成的可控分支W能够表征为/>,该可控分支能够通过该可控神经网络参数将输入特征图x映射为输出特征图y,也即可控分支的输出特征图/>,其中F表示初始神经网络块的函数。
承接上例,则初始神经网络块的输出特征图,其中,x为输入特征图,/>表示初始神经网络块的原始参数,/>为可训练参数,/>为零卷积神经网络的参数,F为初始神经网络块的函数,Z为零卷积神经网络的函数,上述零卷积神经网络为权重和偏置均初始化为 0 的 1x1 卷积神经网络,在根据目标域的图像训练数据对可控神经网络进行训练的初始阶段,由于/>的参数均为0,因此第二项输出为0,等价于初始网络块。在后续的训练中,可控分支逐渐发挥作用,实现在根据目标域的图像训练数据对可控神经网络进行训练的初始阶段时,可控分支的输出与原始参数对应的输出相加与原始参数对应的输出相等,进而使得在初始阶段增加可控分支的初始神经网络块输出与未增加可控分支的初始神经网络块的输出一致,从而保留模型的泛化性能,避免引入额外的误差;实现了减少了参数的数量,从而节省了显存和存储空间,提高了模型微调的效率。
根据本申请实施例提供的技术方案,通过获取初始神经网络块的原始参数,拷贝原始参数作为可训练参数;确定零卷积神经网络的参数,基于可训练参数和零卷积神经网络的参数确定可控神经网络参数,其中,拷贝原始参数作为可训练参数实现利用原始参数已经学习到的特征,从而加速可训练参数的训练过程;避免了直接新建一个可训练参数,导致需要更多的数据和时间来训练可训练参数的问题,同时,设置零卷积神经网络,进而使得在初始阶段增加可控分支的初始神经网络块输出与未增加可控分支的初始神经网络块的输出一致,从而保留模型的泛化性能,避免引入额外的误差;实现了减少了参数的数量,从而节省了显存和存储空间,提高了模型微调的效率。
能够理解的是,上述零卷积神经网络还可以由相关人员根据实际需求所设置,本实施例并不用于限制零卷积神经网络为权重和偏置均为 0 的 1x1 卷积神经网络。
在一些实施例中,如图5所示,根据初始神经网络块的原始参数为初始神经网络块设置可控神经网络参数,包括:
S501、获取初始神经网络块的原始参数,拷贝原始参数作为可训练参数;
S502、根据加权参数对可训练参数进行加权处理,得到可控神经网络参数。
具体的,通过在初始神经网络块中设置可控神经网络参数,实现为初始神经网络块设置可控分支,以初始神经网络块表示为,其中F表示初始神经网络块的函数,/>表示初始神经网络块的原始参数为例,通过拷贝原始参数/>得到可训练参数/>。其中,拷贝原始参数作为可训练参数实现利用原始参数已经学习到的特征,从而加速可训练参数的训练过程。
承接上例,在确定可训练参数后,本示例通过根据加权参数对可训练参数进行加权处理,得到可控神经网络参数;具体的,以加权参数为M为例,则通过M对可训练参数进行加权,得到可控神经网络参数M,该可控神经网络参数用于构成可控分支,则可控神经网络参数构成的可控分支W能够表征为/>该可控分支能够通过该可控神经网络参数将输入特征图x映射为输出特征图y,也即可控分支的输出特征图,其中F表示初始神经网络块的函数。能够理解的是,上述加权参数可以由相关人员根据实际需求灵活设置。
根据本申请实施例提供的技术方案,通过获取初始神经网络块的原始参数,拷贝原始参数作为可训练参数;根据加权参数对可训练参数进行加权处理,得到可控神经网络参数,其中,拷贝原始参数,并对原始参数进行加权处理后得到可控神经网络参数,实现利用原始参数已经学习到的特征,从而加速可控神经网络参数的训练过程;避免了直接新建一个可控神经网络参数,导致需要更多的数据和时间来训练可控神经网络参数的问题;同时,使得可控神经网络参数与原始参数的特征一致,避免了可控神经网络参数与原始参数的特征不一致,影响整体网络块的输出的问题,从而提高训练完成的目标神经网络块在目标域上的识别性能。
在一些示例中,如图6所示,通过目标域的图像训练数据对初始神经网络块中设置的可控神经网络参数进行目标识别阶段训练,得到目标神经网络块,包括:
S601、固定初始神经网络块中的原始参数,并通过目标域的图像训练数据对初始神经网络块中设置的可控神经网络参数进行目标识别阶段训练,以对可控神经网络参数进行更新;
S602、根据初始神经网络块中的原始参数和更新后的可控神经网络参数,得到目标神经网络块。
具体的,以增加了可控神经网络参数的初始神经网络块为为例,其中,/>为原始参数,F为初始神经网络块的函数,为原始分支,/>为拷贝原始参数得到的可训练参数,/>为零卷积神经网络的参数,Z为零卷积神经网络的函数,/>为可控分支,可控神经网络参数由/>和/>共同构成;本示例通过固定/>,对可控分支中可控神经网络参数/>和/>进行训练,对/>和/>进行更新,最后根据初始神经网络块中的原始参数和更新后的可控神经网络参数,得到目标神经网络块。
承接上例,在一些示例中,零卷积神经网络为权重和偏置均初始化为 0 的 1x1卷积神经网络,在根据目标域的图像训练数据对可控神经网络进行训练的初始阶段,由于的参数均为0,因此可控分支/>的输出为0,等价于初始网络块。在后续的训练中,可控分支逐渐发挥作用,/>不在为零,因此,/>的输出不在为0,实现在根据目标域的图像训练数据对可控神经网络进行训练的初始阶段时,可控分支的输出与原始参数对应的输出相加与原始参数对应的输出相等,进而使得在初始阶段增加可控分支的初始神经网络块输出与未增加可控分支的初始神经网络块的输出一致,从而保留模型的泛化性能,避免引入额外的误差;实现了减少了参数的数量,从而节省了显存和存储空间,提高了模型微调的效率。
根据本申请实施例提供的技术方案,将固定初始神经网络块中的原始参数,并通过目标域的图像训练数据对初始神经网络块中设置的可控神经网络参数进行目标识别阶段训练,以对可控神经网络参数进行更新;其中,在目标神经网络块中固定原始参数,同时仅对初始神经网络块中可控神经网络参数进行训练,在提高目标神经网络块的泛化能力的基础上,减少了包含可控神经网络参数的目标神经网络块所需的训练量,基于目标神经网络块得到目标识别模型,同时减少了目标识别模型的训练量。
在一些示例中,如图7所示,通过全量识别数据集对待训练模型中的神经网络块进行全量识别阶段训练,得到初始神经网络块,包括:
S701、获取神经网络块对应的预设参数,通过全量识别数据集对神经网络块中的预设参数进行全量识别阶段训练,以对神经网络块中的预设参数进行更新得到原始参数;
S702、将包含原始参数的神经网络块作为初始神经网络块。
具体的,该全量图像识别数据集属于源域的数据,该全量图像识别数据集中包含多种风格的目标识别图片;其中,待训练模型中的神经网络块中包含初始参数,通过全量图像识别数据集对待训练模型中的神经网络块进行全量识别阶段训练,得到原始参数,然后将具有该原始参数的神经网络块作为初始神经网络块。
根据本申请实施例提供的技术方案,通过全量识别数据集对神经网络块中的预设参数进行全量识别阶段训练,以对神经网络块中的预设参数进行更新得到原始参数,使得初始神经网络块能够对属于源域的待识别图像进行识别,提高了模型的泛化能力。
在一些示例中,如图8所示,通过全量图像识别数据集对待训练模型中的神经网络块进行全量识别阶段训练,得到初始神经网络块之前,方法还包括:
S801、获取全量图像数据集,对全量图像数据集中的图像数据进行格式转换,使得全量图像数据集中所有的图像数据为目标格式;
S802、对进行格式转换后的全量图像数据集中的图像数据进行数据标注;
S803、对标注完成的全量图像数据集中的图像数据进行至少一次数据清洗,得到全量图像识别数据集。
具体的,获取全量图像数据集,然后对全量图像数据集中的图像数据进行格式转换,使得全量图像数据集中所有的图像数据为目标格式,以方便后续模型使用;例如,将全量图像数据集中的图像数据均转换为JPEG格式。能够理解的是,本示例并不用于将上述目标格式限定为JPEG格式,上述目标格式可以由相关人员灵活设置。然后对进行格式转换后的全量图像数据集中的图像数据进行数据标注,例如,将图像数据中的对象进行标注,方便后续训练和评估。
承接上例,在标注完成后,对标注完成的全量图像数据集中的图像数据进行至少一次数据清洗,得到全量图像识别数据集,其中,上述数据清洗包括但不限于数据去重、数据过滤、数据修复以及数据增强中的至少一种,其中,数据去重用于删除全量图像数据集中重复的图像数据,数据过滤用于删除全量图像数据集中低质量、不标准、不合理的图像数据,数据修复用于修复全量图像数据集中图像数据出现的缺失、噪声、伪影等问题,数据增强用于增加全量图像数据集中图像数据的数量和多样性,例如对图像进行旋转、平移、缩放、翻转等操作,以及在图像中添加噪声等 。
根据本申请实施例提供的技术方案,通过获取全量图像数据集,对全量图像数据集中的图像数据进行格式转换,使得全量图像数据集中所有的图像数据为目标格式;对进行格式转换后的全量图像数据集中的图像数据进行数据标注;对标注完成的全量图像数据集中的图像数据进行至少一次数据清洗,得到全量图像识别数据集。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
本实施例还提供一种目标识别装置,如图9所示,该装置包括:
获取模块901,被配置为获取待识别目标图像;
输入模块902,被配置为将待识别目标图像输入至包含目标神经网络块的目标识别模型,目标神经网络块是固定初始神经网络块中的原始参数,通过目标域中的图像训练数据对初始神经网络块中设置的可控神经网络参数进行目标识别阶段训练得到的;
确定模块903,被配置为获取目标识别模型输出的目标识别结果,并根据目标识别结果确定待识别目标图像中是否包含目标对象。
在本实施例的一些示例中,目标识别装置还包括训练模块904,该训练模块904被配置为通过全量图像识别数据集对待训练模型中的神经网络块进行全量识别阶段训练,得到初始神经网络块;根据初始神经网络块的原始参数为初始神经网络块设置可控神经网络参数;通过目标域的图像训练数据对初始神经网络块中设置的可控神经网络参数进行目标识别阶段训练,得到目标神经网络块;基于目标神经网络块得到目标识别模型,目标识别模型用于在目标域中进行目标识别。
在本实施例的一些示例中,该训练模块904还被配置为获取初始神经网络块的原始参数,拷贝原始参数作为可训练参数;确定零卷积神经网络的参数,基于可训练参数和零卷积神经网络的参数确定可控神经网络参数。
在本实施例的一些示例中,该训练模块904还被配置为获取初始神经网络块的原始参数,拷贝原始参数作为可训练参数;根据加权参数对可训练参数进行加权处理,得到可控神经网络参数。
在本实施例的一些示例中,该训练模块904还被配置为固定初始神经网络块中的原始参数,并通过目标域的图像训练数据对初始神经网络块中设置的可控神经网络参数进行目标识别阶段训练,以对可控神经网络参数进行更新;根据初始神经网络块中的原始参数和更新后的可控神经网络参数,得到目标神经网络块。
在本实施例的一些示例中,该训练模块904还被配置为获取神经网络块对应的初始参数,通过全量识别数据集对神经网络块中的初始参数进行全量识别阶段训练,以对神经网络块中的初始参数进行更新得到原始参数;将包含原始参数的神经网络块作为初始神经网络块。
在本实施例的一些示例中,该训练模块904还被配置为获取全量图像数据集,对全量图像数据集中的图像数据进行格式转换,使得全量图像数据集中所有的图像数据为目标格式;对进行格式转换后的全量图像数据集中的图像数据进行数据标注;对标注完成的全量图像数据集中的图像数据进行至少一次数据清洗,得到全量图像识别数据集。
根据本申请实施例提供的技术方案,本申请实施例的装置通过固定初始神经网络块中的原始参数,并依据目标域中的图像训练数据对初始神经网络块中设置的可控神经网络参数进行目标识别阶段训练得到目标识别模型,然后基于该目标识别模型对待识别目标图像进行目标识别,得到目标识别结果,其中,通过固定初始神经网络块中的原始参数然后再训练可控神经网络参数,避免了直接对初始神经网络块中的所有参数进行训练,导致重复训练原始参数,且使得初始神经网络块中训练量大,在保证了目标神经网络块对目标域的待识别图像的目标识别能力的基础上,减少了目标神经网络块的训练量;同时,在通过目标域中设置的图像训练数据对初始神经网络块中设置的可控神经网络参数进行目标识别阶段训练时,固定初始神经网络块中的原始参数不变,使得得到的目标神经网络块中包含了原始参数,提升了目标神经网络块的泛化能力,进而提升了目标识别模型的泛化能力。
图10是本申请实施例提供的电子设备10的示意图。如图10所示,该实施例的电子设备10包括:处理器1001、存储器1002以及存储在该存储器1002中并且可在处理器1001上运行的计算机程序1003。处理器1001执行计算机程序1003时实现上述各个方法实施例中的步骤。或者,处理器1001执行计算机程序1003时实现上述各装置实施例中各模块/单元的功能。
电子设备10可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备10可以包括但不仅限于处理器1001和存储器1002。本领域技术人员可以理解,图10仅仅是电子设备10的示例,并不构成对电子设备10的限定,可以包括比图示更多或更少的部件,或者不同的部件。
处理器1001可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
存储器1002可以是电子设备10的内部存储单元,例如,电子设备10的硬盘或内存。存储器1002也可以是电子设备10的外部存储设备,例如,电子设备10上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。存储器1002还可以既包括电子设备10的内部存储单元也包括外部存储设备。存储器1002用于存储计算机程序以及电子设备所需的其它程序和数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种目标识别方法,其特征在于,所述方法包括:
获取目标域的待识别目标图像;
将所述待识别目标图像输入至包含目标神经网络块的目标识别模型,所述目标神经网络块是固定初始神经网络块中的原始参数,通过目标域中的图像训练数据对所述初始神经网络块中设置的可控神经网络参数进行目标识别阶段训练得到的;
获取所述目标识别模型输出的目标识别结果,并根据所述目标识别结果确定所述待识别目标图像中是否包含目标对象。
2.根据权利要求1所述的方法,其特征在于,将所述待识别目标图像输入至包含目标神经网络块的目标识别模型之前,所述方法还包括:
通过全量图像识别数据集对待训练模型中的神经网络块进行全量识别阶段训练,得到所述初始神经网络块;
根据所述初始神经网络块的所述原始参数为所述初始神经网络块设置所述可控神经网络参数;
通过目标域的图像训练数据对所述初始神经网络块中设置的所述可控神经网络参数进行目标识别阶段训练,得到所述目标神经网络块;
基于所述目标神经网络块得到所述目标识别模型,所述目标识别模型用于在目标域中进行目标识别。
3.根据权利要求2所述的方法,其特征在于,根据所述初始神经网络块的所述原始参数为所述初始神经网络块设置所述可控神经网络参数,包括:
获取所述初始神经网络块的所述原始参数,拷贝所述原始参数作为可训练参数;
确定零卷积神经网络的参数,基于所述可训练参数和所述零卷积神经网络的参数确定所述可控神经网络参数。
4.根据权利要求2所述的方法,其特征在于,根据所述初始神经网络块的所述原始参数为所述初始神经网络块设置所述可控神经网络参数,包括:
获取所述初始神经网络块的所述原始参数,拷贝所述原始参数作为可训练参数;
根据加权参数对所述可训练参数进行加权处理,得到所述可控神经网络参数。
5.根据权利要求3或4所述的方法,其特征在于,通过目标域的图像训练数据对所述初始神经网络块中设置的所述可控神经网络参数进行目标识别阶段训练,得到所述目标神经网络块,包括:
固定所述初始神经网络块中的所述原始参数,并通过所述目标域的图像训练数据对所述初始神经网络块中设置的所述可控神经网络参数进行目标识别阶段训练,以对所述可控神经网络参数进行更新;
根据所述初始神经网络块中的所述原始参数和更新后的所述可控神经网络参数,得到所述目标神经网络块。
6.根据权利要求1所述的方法,其特征在于,通过全量识别数据集对待训练模型中的神经网络块进行全量识别阶段训练,得到所述初始神经网络块,包括:
获取所述神经网络块对应的初始参数,通过所述全量识别数据集对所述神经网络块中的所述初始参数进行全量识别阶段训练,以对所述神经网络块中的所述初始参数进行更新得到所述原始参数;
将包含所述原始参数的所述神经网络块作为所述初始神经网络块。
7.根据权利要求1所述的方法,其特征在于,通过全量图像识别数据集对待训练模型中的神经网络块进行全量识别阶段训练,得到初始神经网络块之前,所述方法还包括:
获取全量图像数据集,对所述全量图像数据集中的图像数据进行格式转换,使得所述全量图像数据集中所有的图像数据为目标格式;
对进行格式转换后的所述全量图像数据集中的图像数据进行数据标注;
对标注完成的所述全量图像数据集中的图像数据进行至少一次数据清洗,得到所述全量图像识别数据集。
8.一种目标识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别目标图像;
输入模块,用于将所述待识别目标图像输入至包含目标神经网络块的目标识别模型,所述目标神经网络块是固定初始神经网络块中的原始参数,通过目标域中的图像训练数据对所述初始神经网络块中设置的可控神经网络参数进行目标识别阶段训练得到的;
确定模块,用于获取所述目标识别模型输出的目标识别结果,并根据所述目标识别结果确定所述待识别目标图像中是否包含目标对象。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311168263.9A CN116912630A (zh) | 2023-09-12 | 2023-09-12 | 一种目标识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311168263.9A CN116912630A (zh) | 2023-09-12 | 2023-09-12 | 一种目标识别方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116912630A true CN116912630A (zh) | 2023-10-20 |
Family
ID=88356840
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311168263.9A Pending CN116912630A (zh) | 2023-09-12 | 2023-09-12 | 一种目标识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116912630A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614985A (zh) * | 2018-11-06 | 2019-04-12 | 华南理工大学 | 一种基于密集连接特征金字塔网络的目标检测方法 |
CN111860178A (zh) * | 2020-06-22 | 2020-10-30 | 中国科学院空天信息创新研究院 | 一种基于权重字典学习的小样本遥感目标检测方法及系统 |
CN114187440A (zh) * | 2021-12-07 | 2022-03-15 | 中山大学 | 一种基于动态分类器的小样本目标检测系统及方法 |
CN114966312A (zh) * | 2022-05-18 | 2022-08-30 | 广东电网有限责任公司 | 基于迁移卷积神经网络的配电网故障检测定位方法和系统 |
CN115439801A (zh) * | 2022-08-03 | 2022-12-06 | 北京航空航天大学 | 一种基于迁移学习的小样本军事车辆轻量化检测方法 |
-
2023
- 2023-09-12 CN CN202311168263.9A patent/CN116912630A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614985A (zh) * | 2018-11-06 | 2019-04-12 | 华南理工大学 | 一种基于密集连接特征金字塔网络的目标检测方法 |
CN111860178A (zh) * | 2020-06-22 | 2020-10-30 | 中国科学院空天信息创新研究院 | 一种基于权重字典学习的小样本遥感目标检测方法及系统 |
CN114187440A (zh) * | 2021-12-07 | 2022-03-15 | 中山大学 | 一种基于动态分类器的小样本目标检测系统及方法 |
CN114966312A (zh) * | 2022-05-18 | 2022-08-30 | 广东电网有限责任公司 | 基于迁移卷积神经网络的配电网故障检测定位方法和系统 |
CN115439801A (zh) * | 2022-08-03 | 2022-12-06 | 北京航空航天大学 | 一种基于迁移学习的小样本军事车辆轻量化检测方法 |
Non-Patent Citations (3)
Title |
---|
HEI_HEI_HEI_: "【论文阅读】ControlNet", pages 1 - 3, Retrieved from the Internet <URL:https://blog.csdn.net/hei_hei_hei_/article/details/131091451> * |
MICHAELFAN: "ControlNet:给以文生图模型添加约束条件", pages 1 - 4, Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/608161469> * |
多恩STONE: "ControlNet背后的数学原理-零卷积为什么work?", pages 1 - 3, Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/644169620> * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107633218B (zh) | 用于生成图像的方法和装置 | |
CN110413812B (zh) | 神经网络模型的训练方法、装置、电子设备及存储介质 | |
CN111831855B (zh) | 用于匹配视频的方法、装置、电子设备和介质 | |
CN111459364B (zh) | 图标更新方法、装置和电子设备 | |
CN110349107B (zh) | 图像增强的方法、装置、电子设备、及存储介质 | |
CN116385328A (zh) | 基于为图像添加噪声的图像数据增强方法及装置 | |
CN113033677A (zh) | 视频分类方法、装置、电子设备和存储介质 | |
CN110097004B (zh) | 面部表情识别方法和装置 | |
CN112380883B (zh) | 模型训练方法、机器翻译方法、装置、设备及存储介质 | |
CN112418249A (zh) | 掩膜图像生成方法、装置、电子设备和计算机可读介质 | |
CN110717405B (zh) | 人脸特征点定位方法、装置、介质及电子设备 | |
CN111915689A (zh) | 用于生成目标函数的方法、装置、电子设备和计算机可读介质 | |
CN110765304A (zh) | 图像处理方法、装置、电子设备及计算机可读介质 | |
CN116596748A (zh) | 图像风格化处理方法、装置、设备、存储介质和程序产品 | |
CN115953803A (zh) | 人体识别模型的训练方法及装置 | |
CN116912630A (zh) | 一种目标识别方法和装置 | |
CN110209851B (zh) | 模型训练方法、装置、电子设备及存储介质 | |
CN115100492A (zh) | Yolov3网络训练、pcb表面缺陷检测方法及装置 | |
CN113255812A (zh) | 视频边框检测方法、装置和电子设备 | |
CN116912631B (zh) | 目标识别方法、装置、电子设备及存储介质 | |
CN116910566B (zh) | 一种目标识别模型训练方法和装置 | |
CN111680754A (zh) | 图像分类方法、装置、电子设备及计算机可读存储介质 | |
CN111898658B (zh) | 图像分类方法、装置和电子设备 | |
EP4340374A1 (en) | Picture quality adjustment method and apparatus, and device and medium | |
CN115995030A (zh) | 目标检测中大规模数据集的生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |