CN116484967A - 图像识别模型的训练方法、图像识别方法以及电子设备 - Google Patents
图像识别模型的训练方法、图像识别方法以及电子设备 Download PDFInfo
- Publication number
- CN116484967A CN116484967A CN202310204470.9A CN202310204470A CN116484967A CN 116484967 A CN116484967 A CN 116484967A CN 202310204470 A CN202310204470 A CN 202310204470A CN 116484967 A CN116484967 A CN 116484967A
- Authority
- CN
- China
- Prior art keywords
- image
- model
- training
- sample
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 593
- 238000000034 method Methods 0.000 title claims abstract description 144
- 230000006870 function Effects 0.000 claims description 56
- 238000000605 extraction Methods 0.000 claims description 51
- 238000012545 processing Methods 0.000 claims description 15
- 230000003190 augmentative effect Effects 0.000 claims description 13
- 239000000523 sample Substances 0.000 description 366
- 230000008569 process Effects 0.000 description 44
- 238000010586 diagram Methods 0.000 description 21
- 230000005540 biological transmission Effects 0.000 description 12
- 230000005012 migration Effects 0.000 description 10
- 238000013508 migration Methods 0.000 description 10
- 230000006978 adaptation Effects 0.000 description 5
- 210000001508 eye Anatomy 0.000 description 5
- 210000003128 head Anatomy 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种图像识别模型的训练方法、图像识别方法以及电子设备。其中,该方法包括:获取训练图像样本;利用预训练模型对训练图像样本进行特征提取,得到训练图像样本的样本特征,其中,样本特征是通过对预训练模型提取到的不同层的特征进行整合所得到的;基于样本特征对预设模型进行调整,得到图像识别模型,其中,预设模型与预训练模型解耦。本申请解决了相关技术中对模型进行调整的效率较低的技术问题。
Description
技术领域
本申请涉及数据处理领域,具体而言,涉及一种图像识别模型的训练方法、图像识别方法以及电子设备。
背景技术
目前,应用机器学习模型时,常会出现样本及标注匮乏导致模型性能出现不佳的现象,为缓解这一问题,可以基于现有的下游任务数据对预训练模型进行调整,但是,随着机器学习模型的参数量逐渐增大,模型调整的过程较为复杂。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种图像识别模型的训练方法、图像识别方法以及电子设备,以至少解决相关技术中对模型进行调整的效率较低的技术问题。
根据本申请实施例的一个方面,提供了一种图像识别模型的训练方法,包括:获取训练图像样本;利用预训练模型对训练图像样本进行特征提取,得到训练图像样本的样本特征,其中,样本特征是通过对预训练模型提取到的不同层的特征进行整合所得到的;基于样本特征对预设模型进行调整,得到图像识别模型,其中,预设模型与预训练模型解耦。
根据本申请实施例的另一个方面,提供了一种图像识别模型的训练方法,包括:通过调用第一接口获取训练图像样本,其中,第一接口包括第一参数,第一参数的参数值为训练图像样本;利用预训练模型对训练图像样本进行特征提取,得到训练图像样本的样本特征,其中,样本特征是通过对预训练模型提取到的不同层的特征进行整合所得到的;基于样本特征对预设模型进行调整,得到图像识别模型,其中,预设模型与预训练模型解耦;通过调用第二接口输出图像识别模型,其中,第二接口包括第二参数,第二参数的参数值为图像识别模型。
根据本申请实施例的另一个方面,提供了一种图像识别方法,包括:获取待识别图像;利用预训练模型对待识别图像进行特征提取,得到待识别图像的图像特征,其中,图像特征是通过对预训练模型提取到的不同层的特征进行整合所得到的;利用图像识别模型和图像特征对待识别图像进行图像识别,得到待识别图像的图像识别结果,其中,图像识别模型是基于训练图像样本的样本特征对预设模型进行调整得到的,样本特征是利用预训练模型对训练图像样本进行特征提取得到的,预设模型与预训练模型解耦。
根据本申请实施例的另一个方面,提供了一种图像识别方法,包括:通过图像采集装置对道路进行拍摄,得到道路图像;利用预训练模型对道路图像进行特征提取,得到道路图像的道路特征,其中,道路特征是通过对预训练模型提取到的不同层的特征进行整合所得到的;利用图像识别模型和道路特征对道路图像进行图像识别,得到道路图像的图像识别结果,其中,图像识别模型是基于训练图像样本的样本特征对预设模型进行调整得到的,样本特征是利用预训练模型对训练图像样本进行特征提取得到的,预设模型与预训练模型解耦。
根据本申请实施例的另一个方面,提供了一种图像识别方法,包括:响应作用于操作界面上的输入指令,在操作界面上显示待识别图像;响应作用于操作界面上的图像识别指令,在操作界面上显示待识别图像的图像识别结果,其中,图像识别结果是利用图像识别模型和待识别图像的图像特征对待识别图像进行图像识别得到的,图像特征是利用预训练模型对待识别图像进行特征提取得到的,图像识别模型是基于训练图像样本的样本特征对预设模型进行调整得到的,样本特征是利用预训练模型对训练图像样本进行特征提取得到的,预设模型与预训练模型解耦。
根据本申请实施例的另一个方面,提供了一种图像识别方法,包括:在虚拟现实VR设备或增强现实AR设备的呈现画面上展示待识别图像;利用预训练模型对待识别图像进行特征提取,得到待识别图像的图像特征,其中,图像特征是通过对预训练模型提取到的不同层的特征进行整合所得到的;利用图像识别模型和图像特征对待识别图像进行图像识别,得到待识别图像的图像识别结果,其中,图像识别模型是基于训练图像样本的样本特征对预设模型进行调整得到的,样本特征是利用预训练模型对训练图像样本进行特征提取得到的,预设模型与预训练模型解耦;驱动VR设备或AR设备渲染展示图像识别结果。
根据本申请实施例的另一个方面,提供了一种图像识别方法,包括:通过调用第一接口获取待识别图像,其中,第一接口包括第一参数,第一参数的参数值为待识别图像;利用预训练模型对待识别图像进行特征提取,得到待识别图像的图像特征,其中,图像特征是通过对预训练模型提取到的不同层的特征进行整合所得到的;利用图像识别模型和图像特征对待识别图像进行图像识别,得到待识别图像的图像识别结果,其中,图像识别模型是基于训练图像样本的样本特征对预设模型进行调整得到的,样本特征是利用预训练模型对训练图像样本进行特征提取得到的,预设模型与预训练模型解耦;通过调用第二接口输出图像识别结果,其中,第二接口包括第二参数,第二参数的参数值为图像识别结果。
根据本申请实施例的另一个方面,提供了一种电子设备,包括:存储器,存储有可执行程序;处理器,用于运行程序,其中,程序运行时执行上述实施例中任意一项的方法。
根据本申请实施例的另一个方面,提供了一种计算机可读存储介质,计算机可读存储介质包括存储的可执行程序,其中,在可执行程序运行时控制计算机可读存储介质所在设备执行上述实施例中任意一项的方法。
在本申请实施例中,首先获取训练图像样本,利用预训练模型对训练图像样本进行特征提取,得到训练图像样本的样本特征,其中,样本特征是通过对预训练模型提取到的不同层的特征进行整合所得到的;基于样本特征对预设模型进行调整,得到图像识别模型,其中,预设模型和预训练模型解耦,实现了降低对模型进行调整的成本。容易注意到的是,由于样本特征是对预训练模型提取到的不同层的特征进行整合得到,因此,在后续利用样本特征对预设模型进行调整时,使得到的图像识别模型和预训练模型的性能相当,并且预设模型和预训练模型解耦,因此在对预设模型进行训练的过程中可以减少对预训练模型的访问次数,另外,由于在训练的过程中不调整与训练模型的参数,因此可以减少参数的调整次数,从而提高对模型进行调整的效率,进而解决了相关技术中对模型进行调整的效率较低的技术问题。
容易注意到的是,上面的通用描述和后面的详细描述仅仅是为了对本申请进行举例和解释,并不构成对本申请的限定。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种图像识别模型的训练方法的虚拟现实设备的硬件环境的示意图;
图2是根据本申请实施例的一种图像识别模型的训练方法的计算环境的结构框图;
图3是根据本申请实施例1的图像识别模型的训练方法的流程图;
图4是根据本申请实施例的一种图像识别模型的训练过程示意图;
图5是根据本申请实施例2的一种图像识别模型的训练方法的流程图;
图6是根据本申请实施例3的一种图像识别方法的流程图;
图7是根据本申请实施例4的一种图像识别方法的流程图;
图8是根据本申请实施例5的一种图像识别方法的流程图;
图9是根据本申请实施例6的一种图像识别方法的流程图;
图10是根据本申请实施例7的一种图像识别方法的流程图;
图11是根据本申请实施例8的一种图像识别模型的训练装置的示意图;
图12是根据本申请实施例9的一种图像识别模型的训练装置的示意图;
图13是根据本申请实施例10的一种图像识别装置的示意图;
图14是根据本申请实施例11的一种图像识别装置的示意图;
图15是根据本申请实施例12的一种图像识别装置的示意图;
图16是根据本申请实施例13的一种图像识别装置的示意图;
图17是根据本申请实施例14的一种图像识别装置的示意图;
图18是根据本申请实施例的一种计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
迁移学习:利用源域的信息(如数据或模型)辅助目标域机器学习模型的学习;
任务适应:迁移学习的源域任务和目标域任务不同时,需要利用任务适应的手段使源域信息适应于目标域任务;
预训练模型调整:一种任务适应方法,在数据丰富的源域训练预训练模型,并在目标域上进行训练调整,以完成任务适应;
探针模型:利用预训练模型提取样本特征,并利用所提取的特征训练与预训练模型解耦的外置模型。
实施例1
根据本申请实施例,提供了一种图像识别模型的训练方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本申请实施例的一种图像识别模型的训练方法的虚拟现实设备的硬件环境的示意图。如图1所示,虚拟现实设备104与终端106相连接,终端106与服务器102通过网络进行连接,上述虚拟现实设备104并不限定于:虚拟现实头盔、虚拟现实眼镜、虚拟现实一体机等,上述终端104并不限定于PC、手机、平板电脑等,服务器102可以为媒体文件运营商对应的服务器,上述网络包括但不限于:广域网、城域网或局域网。
可选地,该实施例的虚拟现实设备104包括:存储器、处理器和传输装置。存储器用于存储应用程序,该应用程序可以用于执行:获取训练图像样本;利用预训练模型对训练图像样本进行特征提取,得到训练图像样本的样本特征,其中,样本特征是通过对预训练模型提取到的不同层的特征进行整合所得到的;基于样本特征对预设模型进行调整,得到图像识别模型,其中,预设模型与预训练模型解耦,从而解决了相关技术中对模型进行调整的效率较低的技术问题。
该实施例的终端可以用于执行在虚拟现实(Virtual Reality,简称为VR)设备或增强现实(Augmented Reality,简称为AR)设备的呈现画面上展示待识别图像;利用预训练模型对待识别图像进行特征提取,得到待识别图像的图像特征,其中,图像特征是通过对预训练模型提取到的不同层的特征进行整合所得到的;利用图像识别模型和图像特征对待识别图像进行图像识别,得到待识别图像的图像识别结果,其中,图像识别模型是基于训练图像样本的样本特征对预设模型进行调整得到的,样本特征是利用预训练模型对训练图像样本进行特征提取得到的,预设模型与预训练模型解耦;驱动VR设备或AR设备渲染展示图像识别结果,并向虚拟现实设备104发送图像识别结果,虚拟现实设备104在接收到图像识别结果之后在目标投放位置显示出来。
可选地,该实施例的虚拟现实设备104带有的眼球追踪的HMD(Head MountDisplay,头戴式显示器)头显与眼球追踪模块与上述实施例中的作用相同,也即,HMD头显中的屏幕,用于显示实时的画面,HMD中的眼球追踪模块,用于获取用户眼球的实时运动轨迹。该实施例的终端通过跟踪系统获取用户在真实三维空间的位置信息与运动信息,并计算出用户头部在虚拟三维空间中的三维坐标,以及用户在虚拟三维空间中的视野朝向。
图1示出的硬件结构框图,不仅可以作为上述AR/VR设备(或移动设备)的示例性框图,还可以作为上述服务器的示例性框图,一种可选实施例中,图2以框图示出了使用上述图1所示的AR/VR设备(或移动设备)作为计算环境201中计算节点的一种实施例。图2是根据本申请实施例的一种图像识别模型的训练方法的计算环境的结构框图,如图2所示,计算环境201包括运行在分布式网络上的多个(图中采用210-1,210-2,…,来示出)计算节点(如服务器)。不同计算节点都包含本地处理和内存资源,终端用户202可以在计算环境201中远程运行应用程序或存储数据。应用程序可以作为计算环境201中的多个服务220-1,220-2,220-3和220-4进行提供,分别代表服务“A”,“D”,“E”和“H”。
终端用户202可以通过客户端上的web浏览器或其他软件应用程序提供和访问服务,在一些实施例中,可以将终端用户202的供应和/或请求提供给入口网关230。入口网关230可以包括一个相应的代理来处理针对服务(计算环境201中提供的一个或多个服务)的供应和/或请求。
服务是根据计算环境201支持的各种虚拟化技术来提供或部署的。在一些实施例中,可以根据基于虚拟机(Virtual Machine,VM)的虚拟化、基于容器的虚拟化和/或类似的方式提供服务。基于虚拟机的虚拟化可以是通过初始化虚拟机来模拟真实的计算机,在不直接接触任何实际硬件资源的情况下执行程序和应用程序。在虚拟机虚拟化机器的同时,根据基于容器的虚拟化,可以启动容器来虚拟化整个操作系统(Operating System,OS),以便多个工作负载可以在单个操作系统实例上运行。
在基于容器虚拟化的一个实施例中,服务的若干容器可以被组装成一个Pod(例如,Kubernetes Pod)。举例来说,如图2所示,服务220-2可以配备一个或多个Pod 240-1,240-2,…,240-N(统称为Pod)。Pod可以包括代理245和一个或多个容器242-1,242-2,…,242-M(统称为容器)。Pod中一个或多个容器处理与服务的一个或多个相应功能相关的请求,代理245通常控制与服务相关的网络功能,如路由、负载均衡等。其他服务也可以配备有类似的Pod。
在操作过程中,执行来自终端用户202的用户请求可能需要调用计算环境201中的一个或多个服务,执行一个服务的一个或多个功能需要调用另一个服务的一个或多个功能。如图2所示,服务“A”220-1从入口网关230接收终端用户202的用户请求,服务“A”220-1可以调用服务“D”220-2,服务“D”220-2可以请求服务“E”220-3执行一个或多个功能。
上述的计算环境可以是云计算环境,资源的分配由云服务提供上管理,允许功能的开发无需考虑实现、调整或扩展服务器。该计算环境允许开发人员在不构建或维护复杂基础设施的情况下执行响应事件的代码。服务可以被分割完成一组可以自动独立伸缩的功能,而不是扩展单个硬件设备来处理潜在的负载。
在上述运行环境下,本申请提供了如图3所示的图像识别模型的训练方法。需要说明的是,该实施例的图像识别模型的训练方法可以由图1所示实施例的移动终端执行。图3是根据本申请实施例1的图像识别模型的训练方法的流程图。如图3所示,该方法可以包括如下步骤:
步骤S302,获取训练图像样本。
上述的训练图像样本可以是不同应用场景下的训练图像样本,其中,应用场景可以为交通场景、农业场景、气象场景等,此处不做具体限定,可以根据实际的应用场景选择应用场景对应的训练图像样本。
在一种可选的实施例中,可以通过拍摄设备采集到训练图像样本,也可以是从本地选取训练图像样本,还可以是从网络上获取到训练图像样本,训练图像样本具体的获取方式在此不作限定,可以根据实际需求进行选取。
步骤S304,利用预训练模型对训练图像样本进行特征提取,得到训练图像样本的样本特征。
其中,样本特征是通过对预训练模型提取到的不同层的特征进行整合所得到的。
上述的预训练模型可以为是预训练的神经网络模型,例如,预训练的图像识别模型、预训练的图像分割模型、预训练的语音识别模型、预训练的语音分割模型,此处仅作实例表示,预训练模型还可以根据实际的处理需求进行选取。上述的预训练模型可以为模型参数较为复杂的基础模型,其可以提供模型处理的基础能力,例如,特征提取能力、特征池化能力等。
上述的样本特征可以是预训练模型的不同层对训练图像样本逐层进行特征提取得到的。
上述预训练模型中的不同层可以指代预训练模型中的预处理层、全连接神经网络层、池化层、预测层。
在一种可选的实施例中,可以通过结构化特征提取的方式提取预训练模型不同层的特征,并使用聚集函数对特征逐层求特征均值,可以对不同层的特征均值进行整合,以便降低特征维度,从而得到上述的样本特征。其中,聚集函数指用于表示处理集合(如表或其它容器)中数据的函数,聚集函数可以结合不同层的特征来创建一个新的计算或表达式。
步骤S306,基于样本特征对预设模型进行调整,得到图像识别模型。
其中,预设模型与预训练模型解耦。
上述,预设模型与预训练模型解耦可以表示为预设模型为预训练模型的外置模型,其中,预设模型的参数调整量可以小于预训练模型的参数调整量。
上述的预设模型可以为探针模型,其中,探针模型用于表示利用预训练模型提取样本特征,并利用所提取的特征训练与预训练模型解耦的外置模型。
由于预设模型与预训练模型解耦,无需对预训练模型进行改动,因此在对预设模型训练的过程中对下游任务进行迁移时可以减少对预训练模型的访问次数,在推断时无需修改预设模型的中间变量,由于在对预设模型进行调整的过程中无需对基础模型进行前向、反向传播,可以有效提高训练得到图像识别模型的效率。其中,下游任务可以是指对训练图像样本进行识别的任务。
在进行任务迁移时,一般是先固定预训练模型,并利用预训练模型提取的特征训练额外的探针模型,以完成在新任务上的迁移。需要说明的是,迁移学习在下游任务上性能的好坏,与下游任务所处的域有相关性:如果下游任务的域和预训练模型的预训练数据的域较近,则任务迁移性能较好,该任务较为容易;如果下游任务的域和预训练模型预训练数据的域较远,则任务迁移性能较差,该任务较为困难。对于容易的下游任务,使用预训练模型的深层特征、简单的线性探针模型就可以得到较好的效果;而对于困难的下游任务,需要加入更多的预训练模型中间层特征、使用更复杂的探针模型(如多层感知机)才能提升效果。
基于以上内容,本申请中设计了基于结构化模型正则的模型调整方法,基于结构化特征选择的结果,进行探针模型复杂度自适应训练,可以自动地为容易的下游任务得到简单的探针模型,而为困难的任务得到复杂的探针模型,满足不同类型下游任务的需要,从而达到理想的性能,同时能够高效地完成下游任务的迁移。
上述的方法可以应用在交通场景下的监测图像识别、交通图像识别、交通标示识别,在交通场景下的模型训练流程如下:
步骤S3102,获取交通场景下的训练交通图像样本;
步骤S3104,利用预训练模型对训练交通图像样本进行结构化特征提取,得到结构化特征;
步骤S3106,基于探针模型的模型参数、结构化特征和训练交通图像样本对应的类别数量,计算得到L1正则化项;
步骤S3108,基于L1正则化项对结构化特征进行特征选择,利用相关的求解算法求解能同时最小化损失函数与L1正则化项的探针模型中线性部分的参数,在此过程中,重要特征将被分配较高参数权重,不重要特征的参数权重接近于0,从而完成特征选择;
步骤S3110,基于探针模型中线性部分的参数、结构化特征,计算结构化非线性正则化项;
步骤S3112,基于结构化非线性正则化项对探针模型中非线性部分的参数进行调整,达到探针模型复杂度自适应训练的目的,最终得到图像识别模型。
若步骤S3108中选择较多的特征,则结构化非线性正则化项不对探针模型进行惩罚,以允许探针模型具有较高的复杂度;若选择较少的特征,则结构化非线性正则化项对探针模型进行惩罚,探针模型具有较小复杂度。
图像识别模型的应用流程如下:
步骤S3110,获取交通场景下的待识别图像;
步骤S3112,利用预训练模型对所述待识别图像进行结构化特征提取,得到结构化特征;
步骤S3114,利用图像识别对结构化特征进行识别,得到待识别图像的识别结果。
上述的方法可以应用在视频内容理解场景下的人物识别、地标识别、物体识别等,视频内容理解模型训练流程如下:
步骤S3202,获取视频内容理解场景下的训练视频图像样本;
步骤S3204,利用预训练模型对训练视频图像样本进行结构化特征提取,得到结构化特征;
步骤S3206,基于探针模型的模型参数、结构化特征和训练视频图像样本对应的类别数量,计算得到L1正则化项;
步骤S3208,基于L1正则化项对结构化特征进行特征选择,利用求解算法求解能同时最小化损失函数与L1正则化项的探针模型中线性部分的参数,在此过程中,重要特征将被分配较高参数权重,不重要特征的参数权重接近于0,从而完成特征选择;
步骤S3210,基于探针模型中线性部分的参数、结构化特征,计算结构化非线性正则化项;
步骤S3212,基于结构化非线性正则化项对探针模型中非线性部分的参数进行调整,达到探针模型复杂度自适应训练的目的,最终得到图像识别模型。
若步骤S3208中选择较多的特征,则结构化非线性正则化项不对探针模型进行惩罚,以允许探针模型具有较高的复杂度;若选择较少的特征,则结构化非线性正则化项对探针模型进行惩罚,探针模型具有较小复杂度。
图像识别模型的应用流程如下:
步骤S3210,获取视频内容理解场景下的待识别图像;
步骤S3212,利用预训练模型对所述待识别图像进行结构化特征提取,得到结构化特征;
步骤S3214,利用图像识别对结构化特征进行识别,得到待识别图像的识别结果。
随着基础模型的发展,当基于预训练的基础模型在下游任务上进行调整成为了目前流行的机器学习模型训练范式,比较简单的训练方式是进行全量精调(fully fine-tuning),然而全量精调会出现如下问题:
1、泛化性能下降:由于下游任务样本通常较少,基础模型参数较大,易于过拟合;
2、训练开销过大:由于基础模型参数量极大,更新模型所需资源开销大;
3、更新参数较多:模型的大部分参数都需要被更新,在部署新任务时都需要完整拷贝整个模型。尽管参数高效调整(parameter efficient tuning)能够解决其中部分问题,例如可以提升泛化性能同时减少参数更新数量,但同时仍存在如下问题:
1、训练开销仍然较大:训练过程中涉及到对基础模型的前向、反向传播,造成训练开销大;
2、与基础模型紧密耦合:在下游任务进行训练时,仍需获取基础模型的大部分参数;推断时需要对基础模型的中间变量进行修改。
对于上述问题,本申请提出的下游任务迁移方法可以实现如下效果:
1、高效训练:能够省去对基础模型的前向、反向传播过程;
2、具有良好的性能:下游任务上的性能不应该弱于现有的调整方法;
3、与基础模型解耦:在训练过程中对下游任务进行迁移时无需多次访问基础模型;推断时无需修改基础模型中间变量。
本申请所采用的方法能够在保持迁移性能的同时缓解训练开销的问题,因而具有极大实用价值。
通过上述步骤,首先获取训练图像样本,利用预训练模型对训练图像样本进行特征提取,得到训练图像样本的样本特征,其中,样本特征是通过对预训练模型提取到的不同层的特征进行整合所得到的;基于样本特征对预设模型进行调整,得到图像识别模型,其中,预设模型和预训练模型解耦,实现了降低对模型进行调整的成本。容易注意到的是,由于样本特征是对预训练模型提取到的不同层的特征进行整合得到,因此,在后续利用样本特征对预设模型进行调整时,使得到的图像识别模型和预训练模型的性能相当,并且预设模型和预训练模型解耦,因此在对预设模型进行训练的过程中可以减少对预训练模型的访问次数,另外,由于在训练的过程中不调整与训练模型的参数,因此可以减少参数的调整次数,从而提高对模型进行调整的效率,进而解决了相关技术中对模型进行调整的效率较低的技术问题。
本申请上述实施例中,利用预训练模型对训练图像样本进行特征提取,得到训练图像样本的样本特征,包括:将训练图像样本输入至预训练模型中,得到不同层的特征;对不同层的特征进行均值处理,得到样本特征。
在一种可选的实施例中,可以将训练图像样本输入至预训练模型中,得到训练图像样本不同层的特征,可以利用聚集函数对特征逐层求特征均值,并对不同层的特征均值进行整合,得到上述的样本特征。其中,对不同层的特征均值进行整合可以是对不同层的特征均值进行拼接,以便降低不同层的特征均值的特征维度。
在另一种可选的实施例中,可以通过结构化特征提取的方式输入至预训练模型的训练图像样本进行结构化特征提取,可以完整的提取出预训练模型的不同层的特征,从而能够实现预设模型与预训练模型的解耦,进而极大地提升了训练得到图像识别模型的速度。
探针模型的实现为:
f(x)=θTx+fW(x)
其中,x是输入样本,θ为探针模型线性部分的参数,W为探针模型非线性部分参数,fW(·)是由W参数化的非线性模型。
本申请上述实施例中,基于样本特征对预设模型进行调整,得到图像识别模型,包括:基于样本特征,对预设模型的第一参数进行调整,得到调整后的参数,其中,第一参数用于表征预设模型中线性结构对应的参数;基于样本特征和调整后的参数,对预设模型的第二参数进行调整,得到图像识别模型。
在一种可选的实施例中,可以通过对样本特征分配参数权重来实现对样本特征的选择,重要的特征被分配为较高参数权重,不重要特征的参数权重接近于0,从而可以挑选出来能够代表样本特征的结构化特征,可以根据样本特征的数量确定预设模型的复杂度,并基于预设模型的复杂度和调整后的参数对预设模型的第二参数进行调整,得到图像识别模型。
本申请上述实施例中,基于样本特征,对预设模型的第一参数进行调整,得到调整后的参数,包括:基于样本特征、预设数量和预设模型的第一参数,构建第一正则化项,其中,预设数量用于表征训练图像样本对应的识别类别的数量;至少对第一正则化项进行求解,得到调整后的参数。
上述的预设数量还可以用于表示图像识别模型能够识别的图像的类别的数量。
上述的第一正则化项可以为结构化稀疏正则项(Structured SparsityRegularizer)。
在一种可选的实施例中,可以基于样本特征、预设数量和预设模型的第一参数通过如下公式构建第一正则化项Ωsparsity(θ):
其中,θ为上述预设模型的第一参数,S为预训练模型提取特征时不同层的索引集合,n为上述的预设数量。
在一种可选的实施例中,可以利用第一正则化项对样本特征进行选择,选择的特征越多,对应的第一正则化项的值越大,因此,对于容易处理的任务,可以选择模型深层特征以便让预设模型的损失函数和正则化项的值较小;对于处理较为困难的任务,可以选择更多的特征以便让预设模型的损失函数和正则化项的值较小。
通过设计模型结构化正则,可以自适应性的为容易任务赋予简单的探针模型,为困难认为赋予复杂的探针模型,从而提升探针模型在下游任务上的性能。
本申请上述实施例中,至少对第一正则化项进行求解,得到调整后的参数,包括:利用预设模型对样本特征进行识别,得到训练图像样本的第一识别结果;基于训练图像样本的样本识别结果和第一识别结果,构建识别损失函数;对第一正则化项和识别损失函数进行求解,得到调整后的参数。
上述的训练图像样本的样本识别结果可以为预先对训练图像样本进行标注的结果。
通过构建识别损失函数,可以在对第一正则化项求解的过程中确保预设模型的精确度,若识别损失函数较小,则说明预设模型的识别精确度较高,因此,在求解第一正则化的过程中也需要考虑到识别损失函数;对于容易的任务,可以选择模型深层特征能够让识别损失函数和第一正则化项的值较小,对于困难的任务,可以选择更多的特征使得识别损失函数与第一正则化项的值较小。
本申请上述实施例中,基于样本特征和调整后的参数,对预设模型的第二参数进行调整,得到图像识别模型,包括:基于样本特征、调整后的参数和第二参数,构建第二正则化项;至少基于第二正则化项对预设模型的第二参数进行调整,得到图像识别模型。
上述的第二正则化项可以为结构化非线性正则化项(Structured Non-linearityRegularizer),可以通过该第二正则化项来控制图像识别模型的复杂度。
在一种可选的实施例中,可以基于样本特征、调整后的参数和第二参数通过如下公式构建第二正则化项Ωnon-linearity(θ,W):
其中,S为预训练模型提取特征时不同层的索引集合,W为预设模型的第二参数,Ws 1为上述第二参数中输入层中和s相关的参数,Ws 2:为第二参数中除W1其他层的参数,M1、M2为超参数,θ为预设模型的第一参数,θs为预设模型的第一参数中和s相关的参数。
在另一种可选的实施例中,如果选择的特征较少,则说明该任务较容易,需要一个简单的图像识别模型即可,由此可以对预设模型施加较强的正则,以便约束图像识别模型的复杂度,使得图像识别模型处理简单任务的效率更高;如果选择的特征较多,则说明是较为复杂的任务,应当使用一个更复杂的图像识别模型,由此可以对预设模型施加较弱的正则,以便增加图像识别模型的复杂度,使得图像识别模型可以处理比较复杂的任务。
本申请上述实施例中,至少基于第二正则化项对预设模型的第二参数进行调整,得到图像识别模型,包括:利用预设模型对样本特征进行识别,得到训练图像样本的第二识别结果;基于训练图像样本的样本识别结果和第二识别结果,构建识别损失函数;基于第二正则化项和识别损失函数对预设模型的第二参数进行调整,得到图像识别模型。
通过构建上述的识别损失函数,可以在对第二正则化项求解的过程中确保预设模型的精确度,若识别损失函数较小,则说明预设模型的识别精确度较高,因此,在求解第二正则化项的过程中也需要考虑到识别损失函数;若选择的特征较少,则说明图像识别任务较为容易,此时需要施加较强的正则使得第二正则化项和识别损失函数的值较小,若选择的特征较多,则说明图像识别认为较为复杂,此时需要施加较弱的正则使得第二正则化项和识别损失函数的值较大。
通过结构化非线性正则化项,可以达到自适应地为容易任务提供简单模型,为困难任务提供复杂模型的目的,由于完整流程不涉及到对预训练模型的反向传播,因此可以达到高效迁移的目的。
图4是根据本申请实施例的一种图像识别模型的训练过程示意图,如图4所示,可以将下游任务数据发送到预训练模型中,通过预训练模型对下游任务数据进行结构化特征提取,得到结构化特征,可以对结构化特征进行选择,并根据选择的样本特征的预设数量确定预设模型的复杂度,并根据选择的样本特征的数量对预设模型施加正则,以便约束或者增加预设模型的复杂度,从而完成对预设模型的训练,得到图像识别模型。
对于模型调整的计算成本较大的问题,本申请设计了模型结构正则,可以提取模型已有的特征,并进行结构化特征选择与结构化非线性变化,在无需对模型进行反向传播的情况下,更新下游任务上的性能,本申请可以极大的节省计算开销,大幅提升训练速度。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
实施例2
根据本申请实施例,还提供了一种图像识别模型的训练方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图5是根据本申请实施例2的一种图像识别模型的训练方法的流程图,如图5所示,该方法可以包括如下步骤:
步骤S502,通过调用第一接口获取训练图像样本。
其中,第一接口包括第一参数,第一参数的参数值为训练图像样本。
上述的第一接口可以为服务器与客户端之间进行数据交互的接口,客户端可以将训练图像样本传入接口函数,作为接口函数的第一参数,实现将训练图像样本上传至云服务器的目的。
步骤S504,利用预训练模型对训练图像样本进行特征提取,得到训练图像样本的样本特征。
其中,样本特征是通过对预训练模型提取到的不同层的特征进行整合所得到的。
步骤S506,基于样本特征对预设模型进行调整,得到图像识别模型。
其中,预设模型与预训练模型解耦。
步骤S508,通过调用第二接口输出图像识别模型。
其中,第二接口包括第二参数,第二参数的参数值为图像识别模型。
上述步骤中的第二接口可以是云服务器和客户端之间进行数据交换的接口,云服务器可以将图像识别模型传入接口函数,作为接口函数的第二参数,实现将图像识别模型下发至客户端的目的。
通过上述步骤,通过调用第一接口获取训练图像样本,其中,第一接口包括第一参数,第一参数的参数值为训练图像样本;利用预训练模型对训练图像样本进行特征提取,得到训练图像样本的样本特征,其中,样本特征是通过对预训练模型提取到的不同层的特征进行整合所得到的;基于样本特征对预设模型进行调整,得到图像识别模型,其中,预设模型与预训练模型解耦;通过调用第二接口输出图像识别模型,其中,第二接口包括第二参数,第二参数的参数值为图像识别模型,实现了降低对模型进行调整的成本。容易注意到的是,由于样本特征是对预训练模型提取到的不同层的特征进行整合得到,因此,在后续利用样本特征对预设模型进行调整时,使得到的图像识别模型和预训练模型的性能相当,并且预设模型和预训练模型解耦,因此在对预设模型进行训练的过程中可以减少对预训练模型的访问次数,另外,由于在训练的过程中不调整与训练模型的参数,因此可以减少参数的调整次数,从而提高对模型进行调整的效率,进而解决了相关技术中对模型进行调整的效率较低的技术问题。
需要说明的是,本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同,但不仅限于实施例1所提供的方案。
实施例3
根据本申请实施例,还提供了一种图像识别方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图6是根据本申请实施例3的一种图像识别方法的流程图,如图6所示,该方法可以包括如下步骤:
步骤S602,获取待识别图像。
上述的待识别图像可以是不同应用场景下的待识别图像,其中,应用场景可以为交通场景、农业场景、气象场景等,此处不做具体限定,可以根据实际的应用场景选择应用场景对应的待识别图像。
步骤S604,利用预训练模型对待识别图像进行特征提取,得到待识别图像的图像特征。
其中,图像特征是通过对预训练模型提取到的不同层的特征进行整合所得到的。
上述的图像特征可以是预训练模型的不同层对待识别图像逐层进行特征提取得到的。
步骤S606,利用图像识别模型和图像特征对待识别图像进行图像识别,得到待识别图像的图像识别结果。
其中,图像识别模型是基于训练图像样本的样本特征对预设模型进行调整得到的,样本特征是利用预训练模型对训练图像样本进行特征提取得到的,预设模型与预训练模型解耦。
在一种可选的实施例中,可以利用图像识别模型基于图像特征对待识别图像进行图像识别,得到待识别图像的图像识别结果;由于图像特征是基于待识别图像得到的,因此,还可以利用图像识别模型直接对图像特征进行识别,得到待识别图像的图像识别结果。
通过上述步骤,首先获取待识别图像,利用预训练模型对待识别图像进行特征提取,得到待识别图像的图像特征,其中,图像特征是通过对预训练模型提取到的不同层的特征进行整合所得到的,利用图像识别模型和图像特征对待识别图像进行图像识别,得到待识别图像的图像识别结果,其中,图像识别模型是基于训练图像样本的样本特征对预设模型进行调整得到的,样本特征是利用预训练模型对训练图像样本进行特征提取得到的,预设模型与预训练模型解耦,实现了降低对模型进行调整的成本。容易注意到的是,由于样本特征是对预训练模型提取到的不同层的特征进行整合得到,因此,在后续利用样本特征对预设模型进行调整时,使得到的图像识别模型和预训练模型的性能相当,并且预设模型和预训练模型解耦,因此在对预设模型进行训练的过程中可以减少对预训练模型的访问次数,另外,由于在训练的过程中不调整与训练模型的参数,因此可以减少参数的调整次数,从而提高对模型进行调整的效率,进而解决了相关技术中对模型进行调整的效率较低的技术问题。
需要说明的是,本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同,但不仅限于实施例1所提供的方案。
实施例4
根据本申请实施例,还提供了一种图像识别方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图7是根据本申请实施例4的一种图像识别方法的流程图,如图7所示,该方法可以包括如下步骤:
步骤S702,通过图像采集装置对道路进行拍摄,得到道路图像。
上述的图像采集装置包括但不限于摄像头、照相机等。
上述的道路可以为待进行图像识别的道路区间。
上述的道路图像可以为交通重要枢纽的图像,或者需要监测的道路的图像,此处对道路图像不做具体限定。
步骤S704,利用预训练模型对道路图像进行特征提取,得到道路图像的道路特征。
其中,道路特征是通过对预训练模型提取到的不同层的特征进行整合所得到的。
步骤S706,利用图像识别模型和道路特征对道路图像进行图像识别,得到道路图像的图像识别结果。
其中,图像识别模型是基于训练图像样本的样本特征对预设模型进行调整得到的,样本特征是利用预训练模型对训练图像样本进行特征提取得到的,预设模型与预训练模型解耦。
通过上述步骤,首先通过图像采集装置对道路进行拍摄,得到道路图像,利用预训练模型对道路图像进行特征提取,得到道路图像的道路特征,其中,道路特征是通过对预训练模型提取到的不同层的特征进行整合所得到的,利用图像识别模型和道路特征对道路图像进行图像识别,得到道路图像的图像识别结果,其中,图像识别模型是基于训练图像样本的样本特征对预设模型进行调整得到的,样本特征是利用预训练模型对训练图像样本进行特征提取得到的,预设模型与预训练模型解耦,实现了降低对模型进行调整的成本。容易注意到的是,由于样本特征是对预训练模型提取到的不同层的特征进行整合得到,因此,在后续利用样本特征对预设模型进行调整时,使得到的图像识别模型和预训练模型的性能相当,并且预设模型和预训练模型解耦,因此在对预设模型进行训练的过程中可以减少对预训练模型的访问次数,另外,由于在训练的过程中不调整与训练模型的参数,因此可以减少参数的调整次数,从而提高对模型进行调整的效率,进而解决了相关技术中对模型进行调整的效率较低的技术问题。
需要说明的是,本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同,但不仅限于实施例1所提供的方案。
实施例5
根据本申请实施例,还提供了一种图像识别方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图8是根据本申请实施例5的一种图像识别方法的流程图,如图8所示,该方法可以包括如下步骤:
步骤S802,响应作用于操作界面上的输入指令,在操作界面上显示待识别图像。
上述的操作界面可以为电子设备的用于进行操作的显示界面,还可以是其他任意可以操作的显示界面。
上述的输入指令可以为用户通过对操作界面进行操作得到上述的输入指令。
步骤S804,响应作用于操作界面上的图像识别指令,在操作界面上显示待识别图像的图像识别结果。
其中,图像识别结果是利用图像识别模型和待识别图像的图像特征对待识别图像进行图像识别得到的,图像特征是利用预训练模型对待识别图像进行特征提取得到的,图像识别模型是基于训练图像样本的样本特征对预设模型进行调整得到的,样本特征是利用预训练模型对训练图像样本进行特征提取得到的,预设模型与预训练模型解耦。
上述的识别指令可以为用户通过对操作界面进行操作得到的上述的识别指令。
通过上述步骤,首先响应作用于操作界面上的输入指令,在操作界面上显示待识别图像,响应作用于操作界面上的图像识别指令,在操作界面上显示待识别图像的图像识别结果,其中,图像识别结果是利用图像识别模型和待识别图像的图像特征对待识别图像进行图像识别得到的,图像特征是利用预训练模型对待识别图像进行特征提取得到的,图像识别模型是基于训练图像样本的样本特征对预设模型进行调整得到的,样本特征是利用预训练模型对训练图像样本进行特征提取得到的,预设模型与预训练模型解耦,实现了降低对模型进行调整的成本。容易注意到的是,由于样本特征是对预训练模型提取到的不同层的特征进行整合得到,因此,在后续利用样本特征对预设模型进行调整时,使得到的图像识别模型和预训练模型的性能相当,并且预设模型和预训练模型解耦,因此在对预设模型进行训练的过程中可以减少对预训练模型的访问次数,另外,由于在训练的过程中不调整与训练模型的参数,因此可以减少参数的调整次数,从而提高对模型进行调整的效率,进而解决了相关技术中对模型进行调整的效率较低的技术问题。
需要说明的是,本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同,但不仅限于实施例1所提供的方案。
实施例6
根据本申请实施例,还提供了一种可以应用于虚拟现实VR设备、增强现实AR设备等虚拟现实场景下的图像识别方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图9是根据本申请实施例6的一种图像识别方法的流程图。如图9所示,该方法可以包括如下步骤:
步骤S902,在虚拟现实VR设备或增强现实AR设备的呈现画面上展示待识别图像。
通过在虚拟现实VR设备或增强现实AR设备的呈现画面上展示待识别图像,可以提高待识别图像的适用场景。
步骤S904,利用预训练模型对待识别图像进行特征提取,得到待识别图像的图像特征。
其中,图像特征是通过对预训练模型提取到的不同层的特征进行整合所得到的。
步骤S906,利用图像识别模型和图像特征对待识别图像进行图像识别,得到待识别图像的图像识别结果。
其中,图像识别模型是基于训练图像样本的样本特征对预设模型进行调整得到的,样本特征是利用预训练模型对训练图像样本进行特征提取得到的,预设模型与预训练模型解耦。
通过上述步骤,首先驱动VR设备或AR设备渲染展示图像识别结果,在虚拟现实VR设备或增强现实AR设备的呈现画面上展示待识别图像,利用预训练模型对待识别图像进行特征提取,得到待识别图像的图像特征,其中,图像特征是通过对预训练模型提取到的不同层的特征进行整合所得到的,利用图像识别模型和图像特征对待识别图像进行图像识别,得到待识别图像的图像识别结果,其中,图像识别模型是基于训练图像样本的样本特征对预设模型进行调整得到的,样本特征是利用预训练模型对训练图像样本进行特征提取得到的,预设模型与预训练模型解耦,驱动VR设备或AR设备渲染展示图像识别结果,实现了降低对模型进行调整的成本。容易注意到的是,由于样本特征是对预训练模型提取到的不同层的特征进行整合得到,因此,在后续利用样本特征对预设模型进行调整时,使得到的图像识别模型和预训练模型的性能相当,并且预设模型和预训练模型解耦,因此在对预设模型进行训练的过程中可以减少对预训练模型的访问次数,另外,由于在训练的过程中不调整与训练模型的参数,因此可以减少参数的调整次数,从而提高对模型进行调整的效率,进而解决了相关技术中对模型进行调整的效率较低的技术问题。
可选地,在本实施例中,上述图像识别方法可以应用于由服务器、虚拟现实设备所构成的硬件环境中。在虚拟现实VR设备或增强现实AR设备的呈现画面上展示图像识别结果,服务器可以为媒体文件运营商对应的服务器,上述网络包括但不限于:广域网、城域网或局域网,上述虚拟现实设备并不限定于:虚拟现实头盔、虚拟现实眼镜、虚拟现实一体机等。
可选地,虚拟现实设备包括:存储器、处理器和传输装置。存储器用于存储应用程序,该应用程序可以用于执行:在虚拟现实VR设备或增强现实AR设备的呈现画面上展示待识别图像;利用预训练模型对待识别图像进行特征提取,得到待识别图像的图像特征,其中,图像特征是通过对预训练模型提取到的不同层的特征进行整合所得到的;利用图像识别模型和图像特征对待识别图像进行图像识别,得到待识别图像的图像识别结果,其中,图像识别模型是基于训练图像样本的样本特征对预设模型进行调整得到的,样本特征是利用预训练模型对训练图像样本进行特征提取得到的,预设模型与预训练模型解耦;驱动VR设备或AR设备渲染展示图像识别结果。
需要说明的是,该实施例的上述应用在VR设备或AR设备中的图像识别方法可以包括图9所示实施例的方法,以实现驱动VR设备或AR设备展示图像识别的目的。
可选地,该实施例的处理器可以通过传输装置调用上述存储器存储的应用程序以执行上述步骤。传输装置可以通过网络接收服务器发送的媒体文件,也可以用于上述处理器与存储器之间的数据传输。
可选地,在虚拟现实设备中,带有眼球追踪的头戴式显示器,该HMD头显中的屏幕,用于显示展示的视频画面,HMD中的眼球追踪模块,用于获取用户眼球的实时运动轨迹,跟踪系统,用于追踪用户在真实三维空间的位置信息与运动信息,计算处理单元,用于从跟踪系统中获取用户的实时位置与运动信息,并计算出用户头部在虚拟三维空间中的三维坐标,以及用户在虚拟三维空间中的视野朝向等。
在本申请实施例中,虚拟现实设备可以与终端相连接,终端与服务器通过网络进行连接,上述虚拟现实设备并不限定于:虚拟现实头盔、虚拟现实眼镜、虚拟现实一体机等,上述终端并不限定于PC、手机、平板电脑等,服务器可以为媒体文件运营商对应的服务器,上述网络包括但不限于:广域网、城域网或局域网。
实施例7
根据本申请实施例,还提供了一种图像识别方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图10是根据本申请实施例7的一种图像识别方法的流程图,如图10所示,该方法可以包括如下步骤:
步骤S1002,通过调用第一接口获取待识别图像。
其中,第一接口包括第一参数,第一参数的参数值为待识别图像。
上述的第一接口可以为服务器与客户端之间进行数据交互的接口,客户端可以将待识别图像传入接口函数,作为接口函数的第一参数,实现将待识别图像上传至云服务器的目的。
步骤S1004,利用预训练模型对待识别图像进行特征提取,得到待识别图像的图像特征。
其中,图像特征是通过对预训练模型提取到的不同层的特征进行整合所得到的。
步骤S1006,利用图像识别模型和图像特征对待识别图像进行图像识别,得到待识别图像的图像识别结果。
其中,图像识别模型是基于训练图像样本的样本特征对预设模型进行调整得到的,样本特征是利用预训练模型对训练图像样本进行特征提取得到的,预设模型与预训练模型解耦。
步骤S1008,通过调用第二接口输出图像识别结果。
其中,第二接口包括第二参数,第二参数的参数值为图像识别结果。
上述步骤中的第二接口可以是云服务器和客户端之间进行数据交换的接口,云服务器可以将图像识别结果传入接口函数,作为接口函数的第二参数,实现将图像识别结果下发至客户端的目的。
通过上述步骤,首先通过调用第一接口获取待识别图像,其中,所述第一接口包括第一参数,所述第一参数的参数值为所述待识别图像,利用预训练模型对所述待识别图像进行特征提取,得到所述待识别图像的图像特征,其中,所述图像特征是通过对所述预训练模型提取到的不同层的特征进行整合所得到的,利用图像识别模型和所述图像特征对所述待识别图像进行图像识别,得到所述待识别图像的图像识别结果,其中,所述图像识别模型是基于训练图像样本的样本特征对预设模型进行调整得到的,所述样本特征是利用所述预训练模型对所述训练图像样本进行特征提取得到的,所述预设模型与所述预训练模型解耦,通过调用第二接口输出所述图像识别结果,其中,所述第二接口包括第二参数,所述第二参数的参数值为所述图像识别结果,实现了降低对模型进行调整的成本。容易注意到的是,由于样本特征是对预训练模型提取到的不同层的特征进行整合得到,因此,在后续利用样本特征对预设模型进行调整时,使得到的图像识别模型和预训练模型的性能相当,并且预设模型和预训练模型解耦,因此在对预设模型进行训练的过程中可以减少对预训练模型的访问次数,另外,由于在训练的过程中不调整与训练模型的参数,因此可以减少参数的调整次数,从而提高对模型进行调整的效率,进而解决了相关技术中对模型进行调整的效率较低的技术问题。
需要说明的是,本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同,但不仅限于实施例1所提供的方案。
实施例8
根据本申请实施例,还提供了一种用于实施上述图像识别模型的训练方法的图像识别模型的训练装置,图11是根据本申请实施例8的一种图像识别模型的训练装置的示意图,如图11所示,该装置1100包括:获取模块1102、提取模块1104、调整模块1106。
其中,获取模块用于获取训练图像样本;提取模块用于利用预训练模型对训练图像样本进行特征提取,得到训练图像样本的样本特征,其中,样本特征是通过对预训练模型提取到的不同层的特征进行整合所得到的;调整模块用于基于样本特征对预设模型进行调整,得到图像识别模型,其中,预设模型与预训练模型解耦。
此处需要说明的是,上述获取模块1102、提取模块1104、调整模块1106对应于实施例1中的步骤S302至步骤S306,三个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块或单元可以是存储在存储器中并由一个或多个处理器处理的硬件组件或软件组件,上述模块也可以作为装置的一部分可以运行在实施例1提供的AR/VR设备中。
本申请上述实施例中,提取模块还用于将训练图像样本输入至预训练模型中,得到不同层的特征,对不同层的特征进行均值处理,得到样本特征。
本申请上述实施例中,调整模块用于基于样本特征,对预设模型的第一参数进行调整,得到调整后的参数,其中,第一参数用于表征预设模型中线性结构对应的参数,基于样本特征和调整后的参数,对预设模型的第二参数进行调整,得到图像识别模型。
本申请上述实施例中,调整模块还用于基于样本特征、预设数量和预设模型的第一参数,构建第一正则化项,其中,预设数量用于表征训练图像样本对应的识别类别的数量,至少对第一正则化项进行求解,得到调整后的参数。
本申请上述实施例中,调整模块还用于利用预设模型对样本特征进行识别,得到训练图像样本的第一识别结果,基于训练图像样本的样本识别结果和第一识别结果,构建识别损失函数,对第一正则化项和识别损失函数进行求解,得到调整后的参数。
本申请上述实施例中,调整模块还用于基于样本特征、调整后的参数和第二参数,构建第二正则化项,至少基于第一正则化项对预设模型的第二参数进行调整,得到图像识别模型。
本申请上述实施例中,调整模块还用于利用预设模型对样本特征进行识别,得到训练图像样本的第二识别结果;基于训练图像样本的样本识别结果和第二识别结果,构建识别损失函数;基于第二正则化项和识别损失函数对预设模型的第二参数进行调整,得到图像识别模型。
需要说明的是,本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同,但不仅限于实施例1所提供的方案。
实施例9
根据本申请实施例,还提供了一种用于实施上述图像识别模型的训练方法的图像识别模型的训练装置,图12是根据本申请实施例9的一种图像识别模型的训练装置的示意图,如图12所示,该装置1200包括:获取模块1202、提取模块1204、调整模块1206、输出模块1208。
其中,获取模块1202用于通过调用第一接口获取训练图像样本,其中,第一接口包括第一参数,第一参数的参数值为训练图像样本;提取模块1204用于利用预训练模型对训练图像样本进行特征提取,得到训练图像样本的样本特征,其中,样本特征是通过对预训练模型提取到的不同层的特征进行整合所得到的;调整模块1206用于基于样本特征对预设模型进行调整,得到图像识别模型,其中,预设模型与预训练模型解耦;输出模块1208用于通过调用第二接口输出图像识别模型,其中,第二接口包括第二参数,第二参数的参数值为图像识别模型。
此处需要说明的是,上述获取模块1202、提取模块1204、调整模块1206、输出模块1208对应于实施例2中的步骤S802至步骤S808,四个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块或单元可以是存储在存储器中并由一个或多个处理器处理的硬件组件或软件组件,上述模块也可以作为装置的一部分可以运行在实施例1提供的AR/VR设备中。
实施例10
根据本申请实施例,还提供了一种用于实施上述图像识别方法的图像识别装置,图13是根据本申请实施例10的一种图像识别装置的示意图,如图13所示,该装置1300包括:获取模块1302、提取模块1304、识别模块1306。
其中,获取模块1302用于获取待识别图像;提取模块1304用于利用预训练模型对待识别图像进行特征提取,得到待识别图像的图像特征,其中,图像特征是通过对预训练模型提取到的不同层的特征进行整合所得到的;识别模块1306用于利用图像识别模型和图像特征对待识别图像进行图像识别,得到待识别图像的图像识别结果,其中,图像识别模型是基于训练图像样本的样本特征对预设模型进行调整得到的,样本特征是利用预训练模型对训练图像样本进行特征提取得到的,预设模型与预训练模型解耦。
此处需要说明的是,上述获取模块1302、提取模块1304、识别模块1306对应于实施例3中的步骤S902至步骤S906,三个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块或单元可以是存储在存储器中并由一个或多个处理器处理的硬件组件或软件组件,上述模块也可以作为装置的一部分可以运行在实施例1提供的AR/VR设备中。
实施例11
根据本申请实施例,还提供了一种用于实施上述图像识别方法的图像识别装置,图14是根据本申请实施例11的一种图像识别装置的示意图,如图14所示,该装置1400包括:拍摄模块1402、提取模块1404、识别模块1406。
其中,拍摄模块1402用于通过图像采集装置对道路进行拍摄,得到道路图像;提取模块1404用于利用预训练模型对道路图像进行特征提取,得到道路图像的道路特征,其中,道路特征是通过对预训练模型提取到的不同层的特征进行整合所得到的;识别模块1406用于利用图像识别模型和道路特征对道路图像进行图像识别,得到道路图像的图像识别结果,其中,图像识别模型是基于训练图像样本的样本特征对预设模型进行调整得到的,样本特征是利用预训练模型对训练图像样本进行特征提取得到的,预设模型与预训练模型解耦。
此处需要说明的是,上述拍摄模块1402、提取模块1404、识别模块1406对应于实施例4中的步骤S702至步骤S706,三个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块或单元可以是存储在存储器中并由一个或多个处理器处理的硬件组件或软件组件,上述模块也可以作为装置的一部分可以运行在实施例1提供的AR/VR设备中。
实施例12
根据本申请实施例,还提供了一种用于实施上述图像识别方法的图像识别装置,图15是根据本申请实施例12的一种图像识别装置的示意图,如图1500所示,该装置150包括:第一显示模块1502、第二显示模块1504。
其中,第一显示模块1502用于响应作用于操作界面上的输入指令,在操作界面上显示待识别图像;第二显示模块1504用于响应作用于操作界面上的图像识别指令,在操作界面上显示待识别图像的图像识别结果,其中,图像识别结果是利用图像识别模型和待识别图像的图像特征对待识别图像进行图像识别得到的,图像特征是利用预训练模型对待识别图像进行特征提取得到的,图像识别模型是基于训练图像样本的样本特征对预设模型进行调整得到的,样本特征是利用预训练模型对训练图像样本进行特征提取得到的,预设模型与预训练模型解耦。
此处需要说明的是,上述第一显示模块1502、第二显示模块1504对应于实施例5中的步骤S802至步骤S804,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块或单元可以是存储在存储器中并由一个或多个处理器处理的硬件组件或软件组件,上述模块也可以作为装置的一部分可以运行在实施例1提供的AR/VR设备中。
实施例13
根据本申请实施例,还提供了一种用于实施上述图像识别方法的图像识别装置,图16是根据本申请实施例13的一种图像识别装置的示意图,如图16所示,该装置1600包括:展示模块1602、提取模块1604、识别模块1606、驱动模块1608。
其中,展示模块1602用于在虚拟现实VR设备或增强现实AR设备的呈现画面上展示待识别图像;提取模块1604用于利用预训练模型对待识别图像进行特征提取,得到待识别图像的图像特征,其中,图像特征是通过对预训练模型提取到的不同层的特征进行整合所得到的;识别模块1606用于利用图像识别模型和图像特征对待识别图像进行图像识别,得到待识别图像的图像识别结果,其中,图像识别模型是基于训练图像样本的样本特征对预设模型进行调整得到的,样本特征是利用预训练模型对训练图像样本进行特征提取得到的,预设模型与预训练模型解耦;驱动模块1608用于驱动VR设备或AR设备渲染展示图像识别结果。
此处需要说明的是,上述展示模块1602、提取模块1604、识别模块1606、驱动模块1608对应于实施例6中的步骤S902至步骤S908,四个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块或单元可以是存储在存储器中并由一个或多个处理器处理的硬件组件或软件组件,上述模块也可以作为装置的一部分可以运行在实施例1提供的AR/VR设备中。
实施例14
根据本申请实施例,还提供了一种用于实施上述图像识别方法的图像识别装置,图17是根据本申请实施例14的一种图像识别装置的示意图,如图17所示,该装置1700包括:获取模块1702、提取模块1704、识别模块1706、输出模块1708。
其中,获取模块1702用于通过调用第一接口获取待识别图像,其中,第一接口包括第一参数,第一参数的参数值为待识别图像;提取模块1704用于利用预训练模型对待识别图像进行特征提取,得到待识别图像的图像特征,其中,图像特征是通过对预训练模型提取到的不同层的特征进行整合所得到的;识别模块1706用于利用图像识别模型和图像特征对待识别图像进行图像识别,得到待识别图像的图像识别结果,其中,图像识别模型是基于训练图像样本的样本特征对预设模型进行调整得到的,样本特征是利用预训练模型对训练图像样本进行特征提取得到的,预设模型与预训练模型解耦;输出模块1708用于通过调用第二接口输出图像识别结果,其中,第二接口包括第二参数,第二参数的参数值为图像识别结果。
此处需要说明的是,上述获取模块1702、提取模块1704、识别模块1706、输出模块1708对应于实施例7中的步骤S1002至步骤S1008,四个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块或单元可以是存储在存储器中并由一个或多个处理器处理的硬件组件或软件组件,上述模块也可以作为装置的一部分可以运行在实施例1提供的AR/VR设备中。
实施例15
本申请的实施例可以提供一种电子设备,该电子设备可以为AR/VR设备,该AR/VR设备可以是AR/VR设备群中的任意一个AR/VR设备。可选地,在本实施例中,上述AR/VR设备也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述AR/VR设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述AR/VR设备可以执行图像识别模型的训练方法中以下步骤的程序代码:获取训练图像样本;利用预训练模型对训练图像样本进行特征提取,得到训练图像样本的样本特征,其中,样本特征是通过对预训练模型提取到的不同层的特征进行整合所得到的;基于样本特征对预设模型进行调整,得到图像识别模型,其中,预设模型与预训练模型解耦。
可选地,图18是根据本申请实施例的一种计算机终端的结构框图。如图18所示,该计算机终端A可以包括:一个或多个(图中仅示出一个)处理器102、存储器104、存储控制器、以及外设接口,其中,外设接口与射频模块、音频模块和显示器连接。
其中,存储器可用于存储软件程序以及模块,如本申请实施例中的图像识别模型的训练方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的图像识别模型的训练方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取训练图像样本;利用预训练模型对训练图像样本进行特征提取,得到训练图像样本的样本特征,其中,样本特征是通过对预训练模型提取到的不同层的特征进行整合所得到的;基于样本特征对预设模型进行调整,得到图像识别模型,其中,预设模型与预训练模型解耦。
可选的,上述处理器还可以执行如下步骤的程序代码:将训练图像样本输入至预训练模型中,得到不同层的特征;对不同层的特征进行均值处理,得到样本特征。
可选的,上述处理器还可以执行如下步骤的程序代码:基于样本特征,对预设模型的第一参数进行调整,得到调整后的参数,其中,第一参数用于表征预设模型中线性结构对应的参数;基于样本特征和调整后的参数,对预设模型的第二参数进行调整,得到图像识别模型。
可选的,上述处理器还可以执行如下步骤的程序代码:基于样本特征、预设数量和预设模型的第一参数,构建第一正则化项,其中,预设数量用于表征训练图像样本对应的识别类别的数量;至少对第一正则化项进行求解,得到调整后的参数。
可选的,上述处理器还可以执行如下步骤的程序代码:利用预设模型对样本特征进行识别,得到训练图像样本的第一识别结果;基于训练图像样本的样本识别结果和第一识别结果,构建识别损失函数;对第一正则化项和识别损失函数进行求解,得到调整后的参数。
可选的,上述处理器还可以执行如下步骤的程序代码:基于样本特征、调整后的参数和第二参数,构建第二正则化项;至少基于第二正则化项对预设模型的第二参数进行调整,得到图像识别模型。
可选的,上述处理器还可以执行如下步骤的程序代码:利用预设模型对样本特征进行识别,得到训练图像样本的第二识别结果;基于训练图像样本的样本识别结果和第二识别结果,构建识别损失函数;基于第二正则化项和识别损失函数对预设模型的第二参数进行调整,得到图像识别模型。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:通过调用第一接口获取训练图像样本,其中,第一接口包括第一参数,第一参数的参数值为训练图像样本;利用预训练模型对训练图像样本进行特征提取,得到训练图像样本的样本特征,其中,样本特征是通过对预训练模型提取到的不同层的特征进行整合所得到的;基于样本特征对预设模型进行调整,得到图像识别模型,其中,预设模型与预训练模型解耦;通过调用第二接口输出图像识别模型,其中,第二接口包括第二参数,第二参数的参数值为图像识别模型。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取待识别图像;利用预训练模型对待识别图像进行特征提取,得到待识别图像的图像特征,其中,图像特征是通过对预训练模型提取到的不同层的特征进行整合所得到的;利用图像识别模型和图像特征对待识别图像进行图像识别,得到待识别图像的图像识别结果,其中,图像识别模型是基于训练图像样本的样本特征对预设模型进行调整得到的,样本特征是利用预训练模型对训练图像样本进行特征提取得到的,预设模型与预训练模型解耦。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:通过图像采集装置对道路进行拍摄,得到道路图像;利用预训练模型对道路图像进行特征提取,得到道路图像的道路特征,其中,道路特征是通过对预训练模型提取到的不同层的特征进行整合所得到的;利用图像识别模型和道路特征对道路图像进行图像识别,得到道路图像的图像识别结果,其中,图像识别模型是基于训练图像样本的样本特征对预设模型进行调整得到的,样本特征是利用预训练模型对训练图像样本进行特征提取得到的,预设模型与预训练模型解耦。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:响应作用于操作界面上的输入指令,在操作界面上显示待识别图像;响应作用于操作界面上的图像识别指令,在操作界面上显示待识别图像的图像识别结果,其中,图像识别结果是利用图像识别模型和待识别图像的图像特征对待识别图像进行图像识别得到的,图像特征是利用预训练模型对待识别图像进行特征提取得到的,图像识别模型是基于训练图像样本的样本特征对预设模型进行调整得到的,样本特征是利用预训练模型对训练图像样本进行特征提取得到的,预设模型与预训练模型解耦。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:在虚拟现实VR设备或增强现实AR设备的呈现画面上展示待识别图像;利用预训练模型对待识别图像进行特征提取,得到待识别图像的图像特征,其中,图像特征是通过对预训练模型提取到的不同层的特征进行整合所得到的;利用图像识别模型和图像特征对待识别图像进行图像识别,得到待识别图像的图像识别结果,其中,图像识别模型是基于训练图像样本的样本特征对预设模型进行调整得到的,样本特征是利用预训练模型对训练图像样本进行特征提取得到的,预设模型与预训练模型解耦;驱动VR设备或AR设备渲染展示图像识别结果。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:通过调用第一接口获取待识别图像,其中,第一接口包括第一参数,第一参数的参数值为待识别图像;利用预训练模型对待识别图像进行特征提取,得到待识别图像的图像特征,其中,图像特征是通过对预训练模型提取到的不同层的特征进行整合所得到的;利用图像识别模型和图像特征对待识别图像进行图像识别,得到待识别图像的图像识别结果,其中,图像识别模型是基于训练图像样本的样本特征对预设模型进行调整得到的,样本特征是利用预训练模型对训练图像样本进行特征提取得到的,预设模型与预训练模型解耦;通过调用第二接口输出图像识别结果,其中,第二接口包括第二参数,第二参数的参数值为图像识别结果。
在本申请实施例中,首先获取训练图像样本,利用预训练模型对训练图像样本进行特征提取,得到训练图像样本的样本特征,其中,样本特征是通过对预训练模型提取到的不同层的特征进行整合所得到的;基于样本特征对预设模型进行调整,得到图像识别模型,其中,预设模型和预训练模型解耦,实现了降低对模型进行调整的成本。容易注意到的是,由于样本特征是对预训练模型提取到的不同层的特征进行整合得到,因此,在后续利用样本特征对预设模型进行调整时,使得到的图像识别模型和预训练模型的性能相当,并且预设模型和预训练模型解耦,因此在对预设模型进行训练的过程中可以减少对预训练模型的访问次数,另外,由于在训练的过程中不调整与训练模型的参数,因此可以减少参数的调整次数,从而提高对模型进行调整的效率,进而解决了相关技术中对模型进行调整的效率较低的技术问题。
本领域普通技术人员可以理解,图18所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(MobileInternetDevices,MID)、PAD等终端设备。图18并不对上述电子装置的结构造成限定。例如,计算机终端A还可包括比图18中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图18所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例16
本申请的实施例还提供了一种计算机可读存储介质。可选地,在本实施例中,上述计算机可读存储介质可以用于保存上述实施例1所提供的图像识别模型的训练方法所执行的程序代码。
可选地,在本实施例中,上述计算机可读存储介质可以位于AR/VR设备网络中AR/VR设备终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:获取训练图像样本;利用预训练模型对训练图像样本进行特征提取,得到训练图像样本的样本特征,其中,样本特征是通过对预训练模型提取到的不同层的特征进行整合所得到的;基于样本特征对预设模型进行调整,得到图像识别模型,其中,预设模型与预训练模型解耦。
可选地,上述存储介质还被设置为存储用于执行以下步骤的程序代码:将训练图像样本输入至预训练模型中,得到不同层的特征;对不同层的特征进行均值处理,得到样本特征。
可选地,上述存储介质还被设置为存储用于执行以下步骤的程序代码:基于样本特征,对预设模型的第一参数进行调整,得到调整后的参数,其中,第一参数用于表征预设模型中线性结构对应的参数;基于样本特征和调整后的参数,对预设模型的第二参数进行调整,得到图像识别模型。
可选地,上述存储介质还被设置为存储用于执行以下步骤的程序代码:基于样本特征、预设数量和预设模型的第一参数,构建第一正则化项,其中,预设数量用于表征训练图像样本对应的识别类别的数量;至少对第一正则化项进行求解,得到调整后的参数。
可选地,上述存储介质还被设置为存储用于执行以下步骤的程序代码:利用预设模型对样本特征进行识别,得到训练图像样本的第一识别结果;基于训练图像样本的样本识别结果和第一识别结果,构建识别损失函数;对第一正则化项和识别损失函数进行求解,得到调整后的参数。
可选地,上述存储介质还被设置为存储用于执行以下步骤的程序代码:基于样本特征、调整后的参数和第二参数,构建第二正则化项;至少基于第二正则化项对预设模型的第二参数进行调整,得到图像识别模型。
可选地,上述存储介质还被设置为存储用于执行以下步骤的程序代码:利用预设模型对样本特征进行识别,得到训练图像样本的第二识别结果;基于训练图像样本的样本识别结果和第二识别结果,构建识别损失函数;基于第二正则化项和识别损失函数对预设模型的第二参数进行调整,得到图像识别模型。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:通过调用第一接口获取训练图像样本,其中,第一接口包括第一参数,第一参数的参数值为训练图像样本;利用预训练模型对训练图像样本进行特征提取,得到训练图像样本的样本特征,其中,样本特征是通过对预训练模型提取到的不同层的特征进行整合所得到的;基于样本特征对预设模型进行调整,得到图像识别模型,其中,预设模型与预训练模型解耦;通过调用第二接口输出图像识别模型,其中,第二接口包括第二参数,第二参数的参数值为图像识别模型。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取待识别图像;利用预训练模型对待识别图像进行特征提取,得到待识别图像的图像特征,其中,图像特征是通过对预训练模型提取到的不同层的特征进行整合所得到的;利用图像识别模型和图像特征对待识别图像进行图像识别,得到待识别图像的图像识别结果,其中,图像识别模型是基于训练图像样本的样本特征对预设模型进行调整得到的,样本特征是利用预训练模型对训练图像样本进行特征提取得到的,预设模型与预训练模型解耦。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:通过图像采集装置对道路进行拍摄,得到道路图像;利用预训练模型对道路图像进行特征提取,得到道路图像的道路特征,其中,道路特征是通过对预训练模型提取到的不同层的特征进行整合所得到的;利用图像识别模型和道路特征对道路图像进行图像识别,得到道路图像的图像识别结果,其中,图像识别模型是基于训练图像样本的样本特征对预设模型进行调整得到的,样本特征是利用预训练模型对训练图像样本进行特征提取得到的,预设模型与预训练模型解耦。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:响应作用于操作界面上的输入指令,在操作界面上显示待识别图像;响应作用于操作界面上的图像识别指令,在操作界面上显示待识别图像的图像识别结果,其中,图像识别结果是利用图像识别模型和待识别图像的图像特征对待识别图像进行图像识别得到的,图像特征是利用预训练模型对待识别图像进行特征提取得到的,图像识别模型是基于训练图像样本的样本特征对预设模型进行调整得到的,样本特征是利用预训练模型对训练图像样本进行特征提取得到的,预设模型与预训练模型解耦。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:在虚拟现实VR设备或增强现实AR设备的呈现画面上展示待识别图像;利用预训练模型对待识别图像进行特征提取,得到待识别图像的图像特征,其中,图像特征是通过对预训练模型提取到的不同层的特征进行整合所得到的;利用图像识别模型和图像特征对待识别图像进行图像识别,得到待识别图像的图像识别结果,其中,图像识别模型是基于训练图像样本的样本特征对预设模型进行调整得到的,样本特征是利用预训练模型对训练图像样本进行特征提取得到的,预设模型与预训练模型解耦;驱动VR设备或AR设备渲染展示图像识别结果。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:通过调用第一接口获取待识别图像,其中,第一接口包括第一参数,第一参数的参数值为待识别图像;利用预训练模型对待识别图像进行特征提取,得到待识别图像的图像特征,其中,图像特征是通过对预训练模型提取到的不同层的特征进行整合所得到的;利用图像识别模型和图像特征对待识别图像进行图像识别,得到待识别图像的图像识别结果,其中,图像识别模型是基于训练图像样本的样本特征对预设模型进行调整得到的,样本特征是利用预训练模型对训练图像样本进行特征提取得到的,预设模型与预训练模型解耦;通过调用第二接口输出图像识别结果,其中,第二接口包括第二参数,第二参数的参数值为图像识别结果。
在本申请实施例中,首先获取训练图像样本,利用预训练模型对训练图像样本进行特征提取,得到训练图像样本的样本特征,其中,样本特征是通过对预训练模型提取到的不同层的特征进行整合所得到的;基于样本特征对预设模型进行调整,得到图像识别模型,其中,预设模型和预训练模型解耦,实现了降低对模型进行调整的成本。容易注意到的是,由于样本特征是对预训练模型提取到的不同层的特征进行整合得到,因此,在后续利用样本特征对预设模型进行调整时,使得到的图像识别模型和预训练模型的性能相当,并且预设模型和预训练模型解耦,因此在对预设模型进行训练的过程中可以减少对预训练模型的访问次数,另外,由于在训练的过程中不调整与训练模型的参数,因此可以减少参数的调整次数,从而提高对模型进行调整的效率,进而解决了相关技术中对模型进行调整的效率较低的技术问题。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (14)
1.一种图像识别模型的训练方法,其特征在于,包括:
获取训练图像样本;
利用预训练模型对所述训练图像样本进行特征提取,得到所述训练图像样本的样本特征,其中,所述样本特征是通过对所述预训练模型提取到的不同层的特征进行整合所得到的;
基于所述样本特征对预设模型进行调整,得到图像识别模型,其中,所述预设模型与所述预训练模型解耦。
2.根据权利要求1所述的方法,其特征在于,利用预训练模型对所述训练图像样本进行特征提取,得到所述训练图像样本的样本特征,包括:
将所述训练图像样本输入至所述预训练模型中,得到所述不同层的特征;
对所述不同层的特征进行均值处理,得到所述样本特征。
3.根据权利要求1所述的方法,其特征在于,基于所述样本特征对预设模型进行调整,得到图像识别模型,包括:
基于所述样本特征,对所述预设模型的第一参数进行调整,得到调整后的参数,其中,所述第一参数用于表征所述预设模型中线性结构对应的参数;
基于所述样本特征和所述调整后的参数,对所述预设模型的第二参数进行调整,得到所述图像识别模型。
4.根据权利要求3所述的方法,其特征在于,基于所述样本特征,对所述预设模型的第一参数进行调整,得到调整后的参数,包括:
基于所述样本特征、预设数量和所述预设模型的第一参数,构建第一正则化项,其中,所述预设数量用于表征所述训练图像样本对应的识别类别的数量;
至少对所述第一正则化项进行求解,得到所述调整后的参数。
5.根据权利要求4所述的方法,其特征在于,至少对所述第一正则化项进行求解,得到所述调整后的参数,包括:
利用所述预设模型对所述样本特征进行识别,得到所述训练图像样本的第一识别结果;
基于所述训练图像样本的样本识别结果和所述第一识别结果,构建识别损失函数;
对所述第一正则化项和所述识别损失函数进行求解,得到所述调整后的参数。
6.根据权利要求3所述的方法,其特征在于,基于所述样本特征和所述调整后的参数,对所述预设模型的第二参数进行调整,得到所述图像识别模型,包括:
基于所述样本特征、所述调整后的参数和所述第二参数,构建第二正则化项;
至少基于所述第二正则化项对所述预设模型的第二参数进行调整,得到所述图像识别模型。
7.根据权利要求6所述的方法,其特征在于,至少基于所述第二正则化项对所述预设模型的第二参数进行调整,得到所述图像识别模型,包括:
利用所述预设模型对所述样本特征进行识别,得到所述训练图像样本的第二识别结果;
基于所述训练图像样本的样本识别结果和所述第二识别结果,构建识别损失函数;
基于所述第二正则化项和所述识别损失函数对所述预设模型的第二参数进行调整,得到所述图像识别模型。
8.一种图像识别模型的训练方法,其特征在于,包括:
通过调用第一接口获取训练图像样本,其中,所述第一接口包括第一参数,所述第一参数的参数值为所述训练图像样本;
利用预训练模型对所述训练图像样本进行特征提取,得到所述训练图像样本的样本特征,其中,所述样本特征是通过对所述预训练模型提取到的不同层的特征进行整合所得到的;
基于所述样本特征对预设模型进行调整,得到图像识别模型,其中,所述预设模型与所述预训练模型解耦;
通过调用第二接口输出所述图像识别模型,其中,所述第二接口包括第二参数,所述第二参数的参数值为所述图像识别模型。
9.一种图像识别方法,其特征在于,包括:
获取待识别图像;
利用预训练模型对所述待识别图像进行特征提取,得到所述待识别图像的图像特征,其中,所述图像特征是通过对所述预训练模型提取到的不同层的特征进行整合所得到的;
利用图像识别模型和所述图像特征对所述待识别图像进行图像识别,得到所述待识别图像的图像识别结果,其中,所述图像识别模型是基于训练图像样本的样本特征对预设模型进行调整得到的,所述样本特征是利用所述预训练模型对所述训练图像样本进行特征提取得到的,所述预设模型与所述预训练模型解耦。
10.一种图像识别方法,其特征在于,包括:
响应作用于操作界面上的输入指令,在所述操作界面上显示待识别图像;
响应作用于所述操作界面上的图像识别指令,在所述操作界面上显示所述待识别图像的图像识别结果,其中,所述图像识别结果是利用图像识别模型和所述待识别图像的图像特征对所述待识别图像进行图像识别得到的,所述图像特征是利用预训练模型对所述待识别图像进行特征提取得到的,所述图像识别模型是基于训练图像样本的样本特征对预设模型进行调整得到的,所述样本特征是利用所述预训练模型对所述训练图像样本进行特征提取得到的,所述预设模型与所述预训练模型解耦。
11.一种图像识别方法,其特征在于,包括:
在虚拟现实VR设备或增强现实AR设备的呈现画面上展示待识别图像;
利用预训练模型对所述待识别图像进行特征提取,得到所述待识别图像的图像特征,其中,所述图像特征是通过对所述预训练模型提取到的不同层的特征进行整合所得到的;
利用图像识别模型和所述图像特征对所述待识别图像进行图像识别,得到所述待识别图像的图像识别结果,其中,所述图像识别模型是基于训练图像样本的样本特征对预设模型进行调整得到的,所述样本特征是利用所述预训练模型对所述训练图像样本进行特征提取得到的,所述预设模型与所述预训练模型解耦;
驱动所述VR设备或所述AR设备渲染展示所述图像识别结果。
12.一种图像识别方法,其特征在于,包括:
通过调用第一接口获取待识别图像,其中,所述第一接口包括第一参数,所述第一参数的参数值为所述待识别图像;
利用预训练模型对所述待识别图像进行特征提取,得到所述待识别图像的图像特征,其中,所述图像特征是通过对所述预训练模型提取到的不同层的特征进行整合所得到的;
利用图像识别模型和所述图像特征对所述待识别图像进行图像识别,得到所述待识别图像的图像识别结果,其中,所述图像识别模型是基于训练图像样本的样本特征对预设模型进行调整得到的,所述样本特征是利用所述预训练模型对所述训练图像样本进行特征提取得到的,所述预设模型与所述预训练模型解耦;
通过调用第二接口输出所述图像识别结果,其中,所述第二接口包括第二参数,所述第二参数的参数值为所述图像识别结果。
13.一种电子设备,其特征在于,包括:
存储器,存储有可执行程序;
处理器,用于运行所述程序,其中,所述程序运行时执行权利要求1至12中任意一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的可执行程序,其中,在所述可执行程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至12中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310204470.9A CN116484967A (zh) | 2023-02-27 | 2023-02-27 | 图像识别模型的训练方法、图像识别方法以及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310204470.9A CN116484967A (zh) | 2023-02-27 | 2023-02-27 | 图像识别模型的训练方法、图像识别方法以及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116484967A true CN116484967A (zh) | 2023-07-25 |
Family
ID=87220311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310204470.9A Pending CN116484967A (zh) | 2023-02-27 | 2023-02-27 | 图像识别模型的训练方法、图像识别方法以及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116484967A (zh) |
-
2023
- 2023-02-27 CN CN202310204470.9A patent/CN116484967A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115359261B (zh) | 图像识别方法、计算机可读存储介质以及电子设备 | |
WO2021103731A1 (zh) | 一种语义分割方法、模型训练方法及装置 | |
CN112215171A (zh) | 目标检测方法、装置、设备及计算机可读存储介质 | |
CN111833360A (zh) | 一种图像处理方法、装置、设备以及计算机可读存储介质 | |
CN111615002A (zh) | 视频后台播放控制方法、装置、系统及电子设备 | |
CN112906721A (zh) | 图像处理方法、装置、设备及计算机可读存储介质 | |
CN114360018A (zh) | 三维人脸表情的渲染方法及装置、存储介质及电子装置 | |
WO2023217138A1 (zh) | 一种参数配置方法、装置、设备、存储介质及产品 | |
CN113822114A (zh) | 一种图像处理方法、相关设备及计算机可读存储介质 | |
CN116485983A (zh) | 虚拟对象的纹理生成方法、电子设备以及存储介质 | |
CN112069412A (zh) | 信息推荐方法、装置、计算机设备及存储介质 | |
CN116071551A (zh) | 图像处理方法、计算机可读存储介质及电子设备 | |
CN115937968A (zh) | 手语动作的识别方法和离散化编码模型的训练方法 | |
CN116630485A (zh) | 虚拟形象的驱动方法、虚拟形象的渲染方法以及电子设备 | |
CN116597159A (zh) | 特征提取方法、生物对象部位的状态识别方法及电子设备 | |
CN116484967A (zh) | 图像识别模型的训练方法、图像识别方法以及电子设备 | |
CN115563334A (zh) | 图文数据的处理方法和处理器 | |
CN113808157B (zh) | 图像处理方法、装置、及计算机设备 | |
CN113515994A (zh) | 视频特征提取方法、装置、设备以及存储介质 | |
CN116188698B (zh) | 对象的处理方法和电子设备 | |
CN114579806B (zh) | 视频检测方法、存储介质和处理器 | |
CN113825013B (zh) | 图像显示方法和装置、存储介质及电子设备 | |
CN116189061A (zh) | 行为识别方法、电子设备及存储介质 | |
CN116259099A (zh) | 手势姿态估计方法、系统及计算机可读存储介质 | |
CN115512445A (zh) | 活体检测方法、存储介质和计算机终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |