CN117011635A - 模型训练方法、图像数据处理方法、装置及计算机设备 - Google Patents
模型训练方法、图像数据处理方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN117011635A CN117011635A CN202211507488.8A CN202211507488A CN117011635A CN 117011635 A CN117011635 A CN 117011635A CN 202211507488 A CN202211507488 A CN 202211507488A CN 117011635 A CN117011635 A CN 117011635A
- Authority
- CN
- China
- Prior art keywords
- class
- model
- data set
- image
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 185
- 238000000034 method Methods 0.000 title claims abstract description 103
- 238000012545 processing Methods 0.000 title claims abstract description 31
- 238000004590 computer program Methods 0.000 claims abstract description 35
- 230000000875 corresponding effect Effects 0.000 claims description 112
- 238000004364 calculation method Methods 0.000 claims description 25
- 238000003062 neural network model Methods 0.000 claims description 20
- 238000002372 labelling Methods 0.000 claims description 15
- 238000003709 image segmentation Methods 0.000 claims description 9
- 230000000873 masking effect Effects 0.000 claims description 9
- 230000002596 correlated effect Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 description 23
- 238000005516 engineering process Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 14
- 238000003672 processing method Methods 0.000 description 13
- 230000003068 static effect Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 8
- 230000001575 pathological effect Effects 0.000 description 8
- 238000013473 artificial intelligence Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 4
- 230000003902 lesion Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 239000012633 leachable Substances 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 230000007170 pathology Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000001502 supplementing effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000000153 supplemental effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000030279 gene silencing Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000005549 size reduction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/94—Hardware or software architectures specially adapted for image or video understanding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种模型训练方法、图像数据处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,可应用于自动驾驶领域。该模型训练方法包括:获取至少两个已标注数据集;同一已标注数据集中的各数据样本携带有相同对象类别的对象标签;不同已标注数据集中的各数据样本携带有不同对象类别的对象标签;使用各已标注数据集分别进行模型训练,得到每一已标注数据集各自对应的类别识别模型;基于各类别识别模型对各已标注数据集中数据样本的交叉识别结果,对各数据样本进行补充标注,获得全类别数据集;使用全类别数据集进行模型训练,得到用以识别各对象类别的对象的对象识别模型。采用上述方法能够扩展对象识别模型的应用场景。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种模型训练方法、图像数据处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
背景技术
随着计算机技术的快速发展,大量的数据呈现井喷式的增长。例如,随着时间的推移,基于计算机技术采集得到的数据可能发生样本分布、概念漂移或类别增长等变化,在此前提下,针对采集数据的对象识别任务也应对应调整以适应数据的变化。
以类别增长为例,传统技术中,在需要在原对象识别任务的基础上,增加新对象类别的识别任务时,使用已标注新对象类别的训练集进行模型训练,得到用以识别该新对象类别的对象的新对象识别模型,再将该新对象识别模型与原对象识别模型同时上线使用,以实现对新对象类别和原对象类别的同步识别,这无疑增加了应用过程中模型的计算量,使模型无法应用于低算力终端,限制了模型的应用场景。
发明内容
基于此,有必要针对上述技术问题,提供一种能够扩展模型的应用场景的模型训练方法、图像数据处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种模型训练方法。所述方法包括:
获取至少两个已标注数据集;同一已标注数据集中的各数据样本携带有相同对象类别的对象标签;不同已标注数据集中的各数据样本携带有不同对象类别的对象标签;
使用每一所述已标注数据集分别进行模型训练,得到每一所述已标注数据集各自对应的类别识别模型;
基于各所述类别识别模型对各所述已标注数据集中数据样本的交叉识别结果,对各所述数据样本进行补充标注,获得携带有补充对象标签的全类别数据集;
使用所述全类别数据集进行模型训练,得到用以识别各所述对象类别的对象的对象识别模型。
第二方面,本申请还提供了一种模型训练装置。所述装置包括:
数据集获取模块,用于获取至少两个已标注数据集;同一已标注数据集中的各数据样本携带有相同对象类别的对象标签;不同已标注数据集中的各数据样本携带有不同对象类别的对象标签;
类别识别模型训练模块,用于使用每一所述已标注数据集分别进行模型训练,得到每一所述已标注数据集各自对应的类别识别模型;
补充标注模块,用于基于各所述类别识别模型对各所述已标注数据集中数据样本的交叉识别结果,对各所述数据样本进行补充标注,获得携带有补充对象标签的全类别数据集;
对象识别模型训练模块,用于使用所述全类别数据集进行模型训练,得到用以识别各所述对象类别的对象的对象识别模型。
第三方面,本申请提供了一种图像数据处理方法。所述方法包括:
获取目标图像数据;
基于对象识别模型确定所述目标图像数据中的目标对象、以及所述目标对象的对象信息;所述对象识别模型采用上述的模型训练方法训练得到。
第四方面,本申请还提供了一种图像数据处理装置。所述装置包括:
图像数据获取模块,用于获取目标图像数据;
对象识别模块,用于基于对象识别模型确定所述目标图像数据中的目标对象、以及所述目标对象的对象信息;所述对象识别模型采用上述的模型训练方法训练得到。
第五方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取至少两个已标注数据集;同一已标注数据集中的各数据样本携带有相同对象类别的对象标签;不同已标注数据集中的各数据样本携带有不同对象类别的对象标签;
使用每一所述已标注数据集分别进行模型训练,得到每一所述已标注数据集各自对应的类别识别模型;
基于各所述类别识别模型对各所述已标注数据集中数据样本的交叉识别结果,对各所述数据样本进行补充标注,获得携带有补充对象标签的全类别数据集;
使用所述全类别数据集进行模型训练,得到用以识别各所述对象类别的对象的对象识别模型。
第六方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取目标图像数据;
基于对象识别模型确定所述目标图像数据中的目标对象、以及所述目标对象的对象信息;所述对象识别模型采用上述的模型训练方法训练得到。
第七方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取至少两个已标注数据集;同一已标注数据集中的各数据样本携带有相同对象类别的对象标签;不同已标注数据集中的各数据样本携带有不同对象类别的对象标签;
使用每一所述已标注数据集分别进行模型训练,得到每一所述已标注数据集各自对应的类别识别模型;
基于各所述类别识别模型对各所述已标注数据集中数据样本的交叉识别结果,对各所述数据样本进行补充标注,获得携带有补充对象标签的全类别数据集;
使用所述全类别数据集进行模型训练,得到用以识别各所述对象类别的对象的对象识别模型。
第八方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取目标图像数据;
基于对象识别模型确定所述目标图像数据中的目标对象、以及所述目标对象的对象信息;所述对象识别模型采用上述的模型训练方法训练得到。
第九方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取至少两个已标注数据集;同一已标注数据集中的各数据样本携带有相同对象类别的对象标签;不同已标注数据集中的各数据样本携带有不同对象类别的对象标签;
使用每一所述已标注数据集分别进行模型训练,得到每一所述已标注数据集各自对应的类别识别模型;
基于各所述类别识别模型对各所述已标注数据集中数据样本的交叉识别结果,对各所述数据样本进行补充标注,获得携带有补充对象标签的全类别数据集;
使用所述全类别数据集进行模型训练,得到用以识别各所述对象类别的对象的对象识别模型。
第十方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取目标图像数据;
基于对象识别模型确定所述目标图像数据中的目标对象、以及所述目标对象的对象信息;所述对象识别模型采用上述的模型训练方法训练得到。
上述模型训练方法、图像数据处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,获取至少两个已标注数据集;使用各已标注数据集分别进行模型训练,得到每一已标注数据集各自对应的类别识别模型;基于各类别识别模型对各已标注数据集中数据样本的交叉识别结果,对各数据样本进行补充标注,获得携带有补充对象标签的全类别数据集;使用全类别数据集进行模型训练,得到用以识别各对象类别的对象的对象识别模型。由于各已标注数据集中,同一已标注数据集中的各数据样本携带有相同对象类别的对象标签,不同已标注数据集中的各数据样本携带有不同对象类别的对象标签,因此,各已标注数据集各自对应的类别识别模型可以用于识别不同对象类别的对象,上述方法相当于利用各已标注数据集已有的标签信息,通过机器学习和补充标注的方式将各已标注数据集的知识迁移到全类别数据集上,并基于该全类别数据集训练得到具备全类别对象识别能力的全类别识别模型,这样,应用端只需使用该全类别识别模型即可实现各类别对象的识别,避免了在应用端使用多个模型所存在的高算力成本的问题,有效降低了应用端在应用模型过程中的算力成本,扩展了模型的应用场景。
附图说明
图1为一个实施例中模型训练方法和图像数据处理方法的应用环境图;
图2为一个实施例中模型训练方法的流程示意图;
图3为一个实施例中全类别数据集的确定过程示意图;
图4为一个实施例中类别识别模型的结构示意图;
图5为一个实施例中骨干网络的卷积层结构示意图;
图6为一个实施例中多尺度特征网络的卷积层结构示意图;
图7为一个实施例中残差卷积模块的结构示意图;
图8为一个实施例中骨干网络的预处理模块的结构示意图;
图9为另一个实施例中模型训练方法的流程示意图;
图10为再一个实施例中模型训练方法的流程示意图;
图11为一个实施例中基于数据集A和数据集B训练得到应用模型的过程示意图;
图12为一个实施例中图像数据处理方法的流程示意图;
图13为一个实施例中模型训练装置的结构框图;
图14为一个实施例中图像数据处理装置的结构框图;
图15为一个实施例中计算机设备的内部结构图;
图16为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的对象分类处理方法和图像数据处理方法可以是基于人工智能的,例如,本申请中的类别识别模型和对象识别模型可以是神经网络模型。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
图像识别技术是立体视觉、运动分析、数据融合等实用技术的基础,在导航、地图与地形配准、自然资源分析、天气预报、环境监测、生理病变研究等许多领域可广泛应用。图像识别技术属于计算机视觉(Computer Vision,CV)技术的一个分支。CV是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,CV研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的AI系统。CV技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition,OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
随着AI技术研究和进步,AI技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,AI技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的模型训练方法,涉及人工智能的机器学习技术,具体可以应用于如图1所示的应用环境中。其中,第一终端102和第二终端104可以通过网络与服务器106进行通信。数据存储系统可以存储服务器106需要处理的数据。数据存储系统可以集成在服务器106上,也可以放在云上或其他服务器上。第一终端102和第二终端104上可以安装有多种应用程序,例如可以安装即时通讯应用程序、视频采集应用程序、视频观看应用程序或车辆服务应用程序等。终端102上安装的应用程序中可以嵌入有小程序,例如即时通讯应用程序中嵌入有小程序,小程序包括但不限于是乘车小程序、外卖小程序或车辆服务小程序中的至少一种。
本申请涉及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、掌上电脑、个人电脑、可穿戴设备、智能语音交互设备、智能家电、车载终端、飞行器等,但并不局限于此。本申请可应用于各种场景,包括但不限于云技术、AI、智慧交通、辅助驾驶等。
具体地,服务器106可以从第一终端102获取至少两个已标注数据集,然后使用各已标注数据集分别进行模型训练,得到每一已标注数据集各自对应的类别识别模型,接着,再基于各类别识别模型对各已标注数据集中数据样本的交叉识别结果,对各数据样本进行补充标注,获得携带有补充对象标签的全类别数据集,最后,使用该全类别数据集进行模型训练,得到用以识别各对象类别的对象的对象识别模型。其中,同一已标注数据集中的各数据样本携带有相同对象类别的对象标签;不同已标注数据集中的各数据样本携带有不同对象类别的对象标签。得到对象识别模型后,服务器106可以将该对象识别模型下发至第二终端104,以便第二终端104能够基于该对象识别模型进行对象识别。以待识别对象为图像数据中的对象为例,第二终端104可以获取目标图像数据,基于对象识别模型对该目标图像数据进行对象识别,确定该目标图像数据中的目标对象、以及目标对象的对象信息,以便进行后续的处理。
在一种可能的实现方式中,该模型训练方法应用于广告检测场景中。服务器106可以从第一终端102获取至少两个已标注数据集,例如已标注食品广告或服饰广告的数据集,然后使用各已标注数据集分别进行模型训练,得到每一已标注数据集各自对应的类别识别模型,接着,再基于各类别识别模型对各已标注数据集中数据样本的交叉识别结果,对各数据样本进行补充标注,获得携带有补充广告标签的全类别数据集,最后,使用该全类别数据集进行模型训练,得到用以识别各类别广告的广告识别模型。得到广告识别模型后,服务器106可以将该广告识别模型下发至第二终端104,以便第二终端104能够基于该广告识别模型进行广告识别,并根据广告识别结果进行后续的广告过滤或广告消音等处理。
在另一种可能的实现方式中,该模型训练方法应用自动驾驶场景中,在该场景下,第二终端104为车载终端,服务器106可以从第一终端102获取至少两个已标注数据集,例如已标注交通路牌或行驶车辆等环境对象的数据集,然后使用各已标注数据集分别进行模型训练,得到每一已标注数据集各自对应的类别识别模型,接着,服务器106再基于各类别识别模型对各已标注数据集中数据样本的交叉识别结果,对各数据样本进行补充标注,获得携带有补充对象标签的全类别数据集,最后,服务器106使用该全类别数据集进行模型训练,得到用以识别各类别对象的对象识别模型。得到对象识别模型后,服务器106可以将该对象识别模型下发至第二终端104,以便第二终端104能够基于该对象识别模型进行对象识别,并根据对象识别结果确定自动驾驶过程中的驾驶参数。
需要说明的是,本申请的模型训练方法,同样适用于智能座舱、智能监测、机器人、智能零售等场景下的目标对象识别和检测。甚至也不限于对象识别或对象检测,对分类、语义分割等感知任务也同样适用。
下面对本申请中的模型训练方法进行介绍,该模型训练方法可以应用于服务器,也可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。在一些可能的实现方式中,若终端的数据处理能力满足模型训练过程的数据处理要求,则该模型训练方法也可以应用于终端。
在一个实施例中,如图2所示,提供了一种模型训练方法,以该方法应用于图1中的服务器为例进行说明,本实施例中,该方法包括以下步骤:
步骤202,获取至少两个已标注数据集。
其中,数据集是指包括多个数据样本的集合。该数据样本的具体类型由具体的对象识别任务确定。例如,对象识别任务为图像数据识别任务的情况下,数据样本为已标注的图像样本;对象识别任务为音频数据识别任务的情况下,数据样本为已标注的音频样本。已标注数据集中包含标注有对象标签的数据样本,该对象标签用于指示数据样本中目标内容的包含情况。以图像数据识别任务为例,当图像样本为病理图像时,对象标签用于指示病理图像中病变部分的包含情况,以及,当病理图像中包括病变部分时,对象标签还可以用于指示该病变部分的病变等级、以及该病变部分所在的图像区域;当图像样本为交通采集图像时,对象标签可以用于指示交通采集图像中交通工具的包含情况,以及,当交通采集图像中包括交通工具时,对象标签还可以用于指示交通采集图像中交通工具位置和标识,该标识例如可以是交通采集图像中车辆的车牌号;当图像样本为家居视频图像时,对象标签用于指示家居视频图像中生物体的包含情况,以及,当家居视频图像中包括生物体时,对象标签还用于指示家居视频图像中生物体的类型和所在位置,该生物体类型例如可以包括家居视频图像中的宠物,例如猫。
进一步地,对象类别是指数据样本中所包含的对象的具体类别。该对象类别可以是指音频数据识别任务所对应的人声、乐器声和自然声等声音类别,也可以是指图像数据识别任务所对应的图像样本中所包含的对象的类别。示例性的,当图像样本为病理图像时,该对象类别可以包括未病变、以及多个病变等级;当图像样本为交通采集图像时,该对象类别可以包括交通工具、交通路牌、交通信号等多种类别的环境对象;当图像样本为家具视频图像时,该对象类别可以包括人、宠物等多种类型的生物体。
具体到本申请,同一已标注数据集中的各数据样本携带有相同对象类别的对象标签;不同已标注数据集中的各数据样本携带有不同对象类别的对象标签。其中,同一已标注数据集中的各数据样本携带有相同对象类别的对象标签,是指同一已标注数据集中的各数据样本至少携带有某一对象类别的对象标签。例如,已标注数据集A中的各数据样本可以携带有交通工具的对象标签,已标注数据集A中的各数据样本也可以同时携带有交通工具和交通路牌的对象标签。也即,本申请对已标注数据集中携带的对象标签所属的对象类别的数量并不限定。在一个具体的应用中,服务器获取两个已标注的交通图像集,其中,一个已标注图像集中携带有交通工具、行人等动态对象的对象标签,另一个已标注图像集中携带有交通路牌、红绿灯、交通标识线等静态对象的对象标签。
具体地,服务器可以获取至少两个已标注数据集,该至少两个已标注数据集的具体标注方式可以是人工标注、半自动标注或自动标注。进一步地,服务器获取已标注数据集的具体方式,可以是主动获取,也可以是被动接收。
步骤204,使用每一已标注数据集分别进行模型训练,得到每一已标注数据集各自对应的类别识别模型。
其中,类别识别模型是指具备某一、或某一些对象类别的对象识别能力的识别模型。如前文所述的,同一已标注数据集中的各数据样本携带有相同对象类别的对象标签,则该已标注数据集对应的类别识别模型,具备识别该相同对象类别的对象识别能力。进一步地,该类别识别模型的具体类型并不唯一,例如可以是卷积神经网络模型(ConvolutionalNeural Network,CNN)、循环神经网络模型(Recurrent Neural Networks,RNN)或transformer模型等。
具体地,服务器使用每一已标注数据集分别进行模型训练,分别学习每一已标注数据集中的标签知识,得到每一已标注数据集各自对应的类别识别模型。进一步地,服务器可以在进行模型训练之前,对各已标注数据集中各数据样本所携带的对象标签进行过滤,保留同一已标注数据集中的各数据样本均携带的相同对象类别的对象标签,以避免其他对象类别的对象标签对模型训练过程的影响,提高训练效率和类别识别模型的识别结果的准确性。例如,已标注数据集A中的数据样本1携带有对象类别a的对象标签,数据样本2携带有对象类别a和b的对象标签,数据样本3携带有对象类别a和c的对象标签,服务器可以过滤掉数据样本2中对象类别b的对象标签、以及数据样本3中对象类别c的对象标签,仅保留各数据样本中对象类别a的对象标签,进而训练得到具备对象类别a的对象识别能力的类别识别模型。
步骤206,基于各类别识别模型对各已标注数据集中数据样本的交叉识别结果,对各数据样本进行补充标注,获得携带有补充对象标签的全类别数据集。
其中,交叉识别是指针对某一已标注数据集,使用除该已标注数据集以外的其他至少一个已标注数据集对应的类别识别模型,对该已标注数据集中的数据样本进行对象识别。交叉识别结果是指进行交叉识别后所获得的结果,该交叉识别结果可以包括被识别对象、以及被识别对象的对象信息,该对象信息例如可以包括位置信息和语义信息等等。该位置信息可以是目标对象在目标图像数据中的位置,该语义信息可以包括目标对象的对象标识、对象类型等信息中的至少一项。示例性的,针对交通采集图像,交叉识别结果可以包括该交通采集图像中某一类别对象(例如交通工具、红绿灯或交通路牌)的位置信息和语义信息。交通工具的语义信息可以包括交通工具的类型、车牌或行驶状态等信息中的至少一项;红绿灯的语义信息可以包括当前点亮的指示灯的颜色、允许行驶方向等信息中的至少一项;交通路牌的语义信息可以包括该交通路牌中的文字语义信息、符号语义信息等信息中的至少一项。
进一步地,补充对象标签是指基于交叉识别结果进行补充标注所得到的对象标签。示例性的,在已标注数据集包括已标注数据集A和已标注数据集B的情况下,可以得到已标注数据集A对应的类别识别模型Aa、以及已标注数据集B对应的类别识别模型Bb,则使用类别识别模型Aa对已标注数据集B进行对象识别,获得对象类别a的补充对象标签a,使用类别识别模型Bb对已标注数据集A进行对象识别,获得对象类别b的补充对象标签b。可以理解,全类别数据集中的各数据样本携带的对象标签,包括各对象类别各自的对象标签。在一个具体的应用中,全类别数据集中的每一数据样本,分别携带有每一对象类别的对象标签。以对象识别任务为识别对象类别a、b和c的对象的情况为例,则全类别数据集中的每一数据样本均携带有对象类别a、b和c各自对应的对象标签。
具体地,服务器可以基于各类别识别模型对各已标注数据集中数据样本进行交叉识别,获得交叉识别结果,再基于该交叉识别结果对各数据样本进行补充标注,获得携带有补充对象标签的更新数据样本,再对各更新数据样本进行数据融合处理,获得全类别数据集。进一步地,服务器对各更新数据样本进行数据融合处理的具体方式并不唯一。例如,服务器可以直接将各更新数据样本组合成全类别数据集;也可以对至少两个更新数据样本进行样本拼接处理,获得携带有每一对象类别的对象标签的全类别更新样本,进而确定包含各全类别更新样本的全类别数据集。
在一个可能的实现中,步骤S206包括:基于各类别识别模型对各已标注数据集中数据样本的交叉识别结果,对各数据样本进行补充标注,获得携带有补充对象标签的更新数据样本;从各更新数据样本中,确定携带有每一对象类别的对象标签的全类别更新样本;确定包含各全类别更新样本的全类别数据集。
具体地,服务器基于各类别识别模型对各已标注数据集中数据样本进行交叉识别,得到交叉识别结果,并基于该交叉识别结果对各数据样本进行补充标注,获得携带有补充对象标签的更新数据样本,然后,从各更新数据样本中,确定携带有每一对象类别的对象标签的全类别更新样本,进而确定包含各全类别更新样本的全类别数据集。示例性的,如图3所示,已标注数据集包括已标注数据集A、B和C、且对应的类别识别模型包括Aa、Bb和Cc的情况下,服务器可以使用类别识别模型Bb和Cc对已标注数据集A进行对象识别,使用类别识别模型Aa和Cc对已标注数据集B进行对象识别,使用类别识别模型Aa和Bb对已标注数据集C进行对象识别,获得更新数据样本,再从各更新数据样本中确定同时携带有对象类别a、b和c各自对应的对象标签的全类别更新样本,进而确定包含各全类别更新样本的全类别数据集。
本实施例中,在获得携带有补充对象标签的更新数据样本后,再进一步筛选得到携带有每一对象类别的对象标签的全类别更新样本,用于后续对象识别模型的训练,可以确保训练样本的标签对齐,有利于提高模型训练效率和模型准确率。
需要说明的是,在基于各类别识别模型对各已标注数据集中数据样本进行交叉识别的过程中,可以针对已标注数据集中的至少一部分进行交叉识别,只需基于交叉识别结果进行补充标注后所得到的全类别数据集中的数据样本的数量满足对象识别模型的训练需求即可。
在一个具体的应用中,基于各类别识别模型对各已标注数据集中数据样本的交叉识别结果,对各数据样本进行补充标注,获得携带有补充对象标签的更新数据样本,包括:从各已标注数据集中确定至少一个选定数据集;针对每一选定数据集,使用除该选定数据集以外的各剩余已标注数据集各自对应的类别识别模型,对选定数据集的各选定数据样本进行对象识别,获得交叉识别结果;基于交叉识别结果对各选定数据样本进行补充标注,获得携带有补充对象标签的更新数据样本。
其中,选定数据集的数量可以根据各已标注数据集中各自的数据集信息确定。该数据集信息例如可以包括数据样本数和样本平均数据量等。已标注数据集的数据样本数是指该已标注数据集中所包含的数据样本的数量,已标注数据集的样本平均数据量是指该已标注数据集中每个数据样本的平均数据量。可以理解,已标注数据集中所包含的数据样本的数量越多,通过补充标注后得到全类别更新样本的数量越多;平均每个数据样本的数据量越大,通过补充标注后得到全类别更新样本的概率越大。对应地,选定数据集的数量与已标注数据集中的数据样本数、以及样本平均数据量反相关。即,若已标注数据集中的数据样本数较多、样本平均数据量越大,则选定数据集的数量可以相对减少;已标注数据集中的数据样本数较少、样本平均数据量越小,则选定数据集的数量可以相对增加。示例性地,服务器可以对各已标注数据集进行排序,并按照包含数据样本数从大到小的顺序,依次将已标注数据集确定为选定数据集,直至各选定数据集中所包含的数据样本总数达到数量阈值。该数量阈值可以根据对象识别模型的训练需求确定。
具体地,服务器可以根据各已标注数据集的数据集信息,从各已标注数据集中确定至少一个选定数据集。然后,服务器再针对每一选定数据集,使用除该选定数据集以外的各剩余已标注数据集各自对应的类别识别模型,对该选定数据集的各选定数据样本进行对象识别,获得交叉识别结果,并基于交叉识别结果对各选定数据样本进行补充标注,获得携带有补充对象标签的更新数据样本。
本实施例中,从各已标注数据集中确定至少一个选定数据集进行补充标注,可以根据各已标注数据集中各自的情况灵活地选择进行补充标注的数据集,有利于提高模型过程的科学性,在确保训练所得到的对象识别模型的准确性的同时提高训练效率。
步骤208,使用全类别数据集进行模型训练,得到用以识别各对象类别的对象的对象识别模型。
其中,对象识别模型是指具备各对象标签各自对应的对象类别的识别能力的模型,也即,该对象识别模型具备对象识别任务所关联的所有类别对象的识别能力。该对象识别模型的具体类型并不唯一,例如可以是卷积神经网络模型(Convolutional NeuralNetwork,CNN)、循环神经网络模型(Recurrent Neural Networks,RNN)或transformer模型等。
具体地,服务器可以使用全类别数据集进行模型训练,得到用以识别各对象类别的对象的对象识别模型。在一些可能的实现中,服务器可以在预训练模型的基础上,使用全类别数据集对该预训练模型进行模型训练,以提高模型训练效率。在一个具体的应用中,对象识别模型可以是在保持精度的前提下,从模型大小和推理速度两方面综合对网络进行轻量化改造所得到的轻量化网络模型,以使对象识别模型更容易部署在移动端或嵌入式设备。以图像识别任务为例,该轻量化网络模型例如可以是SquezeNet、Xception、MobileNetv1~v3等模型。获得对象识别模型后,服务器可以将对象识别模型下发至终端,以便终端可以基于该对象识别模型实现对各对象类别的对象的识别。在一个实施例中,服务器可以将训练好的模型参数保持在本地,然后,将最新的模型参数下发至各个终端设备,或者,由终端设备从服务器中下载模型参数,以便更新终端本地的对象识别模型。
上述模型训练方法,获取至少两个已标注数据集;使用各已标注数据集分别进行模型训练,得到每一已标注数据集各自对应的类别识别模型;基于各类别识别模型对各已标注数据集中数据样本的交叉识别结果,对各数据样本进行补充标注,获得携带有补充对象标签的全类别数据集;使用全类别数据集进行模型训练,得到用以识别各对象类别的对象的对象识别模型。由于各已标注数据集中,同一已标注数据集中的各数据样本携带有相同对象类别的对象标签,不同已标注数据集中的各数据样本携带有不同对象类别的对象标签,因此,各已标注数据集各自对应的类别识别模型可以用于识别不同对象类别的对象,上述方法相当于利用各已标注数据集已有的标签信息,通过机器学习和补充标注的方式将各已标注数据集的知识迁移到全类别数据集上,并基于该全类别数据集训练得到具备全类别对象识别能力的全类别识别模型,这样,应用端只需使用该全类别识别模型即可实现各类别对象的识别,避免了在应用端使用多个模型所存在的高算力成本的问题,有效降低了应用端在应用模型过程中的算力成本,扩展了模型的应用场景。
需要说明的是,在使用每一已标注数据集分别进行模型训练,得到每一已标注数据集各自对应的类别识别模型的过程中,各类别识别模型的训练参数可以相同,也可以不相同。
在一个实施例中,步骤S204包括:针对每一已标注数据集,确定该已标注数据集中所包含的对象标签的目标对象类别;根据目标对象类别,确定已标注数据集对应的类别识别模型的模型训练参数;使用已标注数据集,基于模型训练参数对初始神经网络模型进行模型训练,获得用于识别目标对象类别的对象的类别识别模型。
其中,初始神经网络模型可以是未经过训练的神经网络模型,也可以是经过训练的神经网络模型。该经过训练的神经网络模型例如可以是预训练模型。模型训练参数可以包括学习率、迭代次数等。具体地,由于不同对象类别的对象特征不同,识别难度也各有差异,基于此,服务器可以针对每一已标注数据集,确定该已标注数据集中所包含的对象标签的目标对象类别,并确定该目标对象类别匹配的模型训练参数。以迭代次数为例,针对识别难度较小的对象类别,迭代次数可以相对较少;而对于识别难度较大的对象类别,迭代次数可以相对较多。确定好模型训练参数后,服务器再使用该已标注数据集,基于该模型训练参数对初始神经网络模型进行模型训练,获得用于识别目标对象类别的对象的类别识别模型。
本实施例中,根据已标注数据集中所包含的对象标签的目标对象类别,确定该已标注数据集对应的类别识别模型的模型训练参数,并基于该模型训练参数进行模型训练,可以确保模型训练参数与已标注数据集的匹配度,在保证类别识别模型的准确性的同时提高模型训练效率。
在一个实施例中,类别识别模型为包括下采样的骨干网络的图像识别模型;模型训练参数包括下采样尺度、总锚框数量和输出特征通道数。在该实施例的情形下,根据目标对象类别,确定已标注数据集对应的类别识别模型的模型训练参数,包括:分别确定各目标对象类别与其他对象类别的差异度,基于各差异度确定已标注数据集对应的类别识别模型的下采样尺度;分别确定各目标对象类别各自的已标注对象的几何尺寸差异,基于各几何尺寸差异确定已标注数据集对应的类别识别模型的总锚框数量;根据总锚框数量、以及目标对象类别的类别数,确定已标注数据集对应的类别识别模型的输出特征通道数。
其中,下采样又称降采样,是指通过缩小尺寸减少矩阵的采样点数进行采样的方法。下采样尺度是指下采样过程中,用以表征尺寸缩小程度的数值。该下采样尺度可以是指原图像尺寸与下采样尺寸的比值或差值。本实施例中,下采样尺度与差异度正相关,也即,差异度越大,下采样过程中的尺寸缩小程度越大。可以理解,目标对象类别与其他对象类别的差异度越大,说明目标对象类别的识别难度越小,此时,适当增大下采样尺度,可以提高模型训练过程的工作效率。
进一步地,锚框用于选定模型输入图像中的预设区域,例如可以选定交通工具区域,该锚框是指以锚点为中心,根据预设算法定义的多个先验框,该先验框的形状例如可以是矩形、三角形、菱形、圆形等。总锚框数量与几何尺寸差异正相关,是指,几何尺寸差异越大,总锚框数量越多。可以理解,目标对象类别各自的已标注对象的几何尺寸差异越大,说明目标对象类别的尺寸变化较大,此时,适当增加锚框数量可以确保该目标对象类别的对象能被模型识别。类别识别模型的输出特征通道数是指该类别识别模型所输出的特征的维度。
示例性的,如图4所示,类别识别模型可以包括下采样的骨干网络和上采样的多尺度特征网络。其中,骨干网络包括一个预处理模块(steam)和多个卷积层(B-layer)。骨干网络可以包含多个下采样尺度,例如图4中,输入图像为3通道彩色图像,该图像的高为h宽为w,则卷积层B-1的下采样尺度为4、卷积层B-2的下采样尺度为8,以此类推。图4中,最后三个B-layer的输出将传递到下一阶段的多尺度特征网络。为了网络更好地适应目标的尺度变化,基于上采样的多尺度特征网络将骨干网络输出的三个不同尺度特征进行融合,再在各个尺度上生成对应的输出特征,各尺度上输出特征的维度为n。进一步地,如图5所示,骨干网络的每一卷积层内又包含一个卷积步长(stride)为2的前置卷积模块、以及多个卷积步长为1的残差卷积模块(Res Block),该前置卷积模块用以实现下采样。其中,图5中的卷积层B可以是图4中的卷积层B-1、卷积层B-2、卷积层B-3或卷积层B-4。如图6所示,多尺度特征网络中的每一卷积层内包含多个卷积步长为1的残差卷积模块、以及一个转置卷积模块(Conv Transpose),该转置卷积模块用以实现上采样。其中,图6中的卷积层F可以是图4中的卷积层F-1、卷积层F-2或卷积层F-3。进一步地,如图7所示,图5或图6中的残差卷积模块可以包括多个依次设置的3*3卷积层、标准化层(BN)和激活层。如图8所示,骨干网络的预处理模块可以包括卷积步长为2的最大值池化层(Maxpool)、卷积步长为2的3*3卷积层、标准化层(Batch Normalization,BN)以及激活层。采用上述网络结果,相当于每一尺度的输出特征中均融合了各个尺度的特征,有利于提高输出特征与输入图像的契合度,进而提高识别结果的准确性。
具体地,一方面,服务器可以根据各目标对象类别各自的对象特征,通过计算特征相似度或特征距离等方式,分别确定各目标对象类别与其他对象类别的差异度,然后,基于各差异度确定已标注数据集对应的类别识别模型的下采样尺度。示例性地,针对交通工具等尺寸较大的目标对象类别,可以确定相对较大的下采样尺度,而针对交通指示灯等尺寸较小的目标对象类别,可以确定相对较小的下采样尺度。另一方面,服务器可以根据各目标对象类别各自的已标注对象的尺寸,分别确定各目标对象类别各自的已标注对象的几何尺寸差异,基于各几何尺寸差异确定已标注数据集对应的类别识别模型的总锚框数量。示例性地,针对交通工具等几何尺寸差异较大的目标对象类别,总锚框数量可以相应增加,而针对交通指示灯等几何尺寸较小的目标对象类别,总锚框数量可以相应减少。在一个具体的应用中,服务器可以获取目标对象类别的多个已标注对象,统计各已标注对象中目标框的宽高比,利用k均值法聚类产生k个宽高比例值,锚框的长宽比分别对应于聚类产生的k个值,就得到k类形状不一的锚框。
需要说明的是,在对象识别模型对应多个目标对象类别的情况下,服务器可以确定各目标对象类别各自对应的下采样尺度和总锚框数量,再通过对各下采样尺度进行统计计算确定该对象识别模型的下采样尺寸,并通过对各总锚框数量进行统计计算确定该对象识别模型的总锚框数量。其中,统计计算的具体算法例如可以是求均值、求中位数、取最大值等。
在确定总锚框数量的情况下,服务器可以根据总锚框数量、以及目标对象类别的类别数,确定输出特征的特征数量,并根据输出特征通道与输出特征的对应关系,确定已标注数据集对应的类别识别模型的输出特征通道数。在一个具体的应用中,输出特征通道与输出特征一一对应,输出特征通道数n可以表示为n=d*(5+e)。其中,d为确定的锚框数量,5表示对每个锚框的位置偏移量和尺寸偏移量的参数数量、以及预测框中存在交通标志的置信度。该位置偏移量可以包括中心横坐标和中心纵坐标的偏移量,尺寸偏移量可以包括宽度偏移量和高度偏移量。e表示预测框中是否存在目标对象类别的类别数,若类别识别模型用于确定预测框中是否存在交通工具,则e为1,若类别识别模型用于确定预测框中是否存在交通工具或交通指示灯,则e为2。对应地,类别识别模型的输出特征可以包括预测框相对锚框的位置偏移量、尺寸偏移量、以及预测框对应的置信度和对象类别识别结果。其中,锚框是指用做预测框的计算参考的框,在得到锚框对应的位置偏移量和尺寸偏移量后,可以根据锚框的位置、锚框的尺寸、锚框对应的位置偏移量和尺寸偏移量对锚框进行修正处理,得到锚框对应的预测框。
本实施例中,针对图像识别模型,确定与该图像识别模型所需识别对象的目标对象类别,确定对应的下采样尺度、总锚框数量和输出特征通道数,可以提高模型训练效率。
在一个实施例中,类别识别模型包括包含多个输出支路的多尺度特征网络。在该实施例的情形下,使用已标注数据集,基于模型训练参数对初始神经网络模型进行模型训练,获得用于识别目标对象类别的对象的类别识别模型,包括:使用已标注数据集,基于模型训练参数对初始神经网络模型进行模型训练,在各输出支路的损失统计值最小的情况下,获得用于识别目标对象类别的对象的类别识别模型。
其中,多尺度特征网络是指具备多尺度特征融合能力,包含多个输出支路的神经网络。如图4所示,该多尺度特征网络可以是指上采样的特征金字塔网络(FeaturePyramidNetworks,FPN)。具体地,多尺度特征网络包括多个输出支路,每一输出支路各自对应不同的支路损失,基于此,服务器可以使用已标注数据集,基于模型训练参数对初始神经网络模型进行模型训练,根据每一支路的输出特征确定该支路的支路损失,并对各支路损失进行统计计算,在各输出支路的损失统计值最小的情况下,获得用于识别目标对象类别的对象的类别识别模型。其中,对各支路损失进行统计计算的具体算法可以包括求和、求差和求商中的至少一项。
本实施例中,类别识别模型包括包含多个输出支路的多尺度特征网络,在各输出支路的损失统计值最小的情况下,获得用于识别目标对象类别的对象的类别识别模型,相当于综合考虑的各尺度的输出特征,有利于提高类别识别模型的准确率。
在一个具体的应用中,模型训练方法还包括:针对每一输出支路,对该输出支路中预测框相对锚框的位置偏移量损失、预测框相对锚框的尺寸偏移量损失、预测框对应的预测置信度与真实置信度之间的置信度损失、以及预测框对应的预测类别与真实类别之间的类别损失进行统计计算,确定该输出支路的支路损失;对各支路损失进行求和计算,获得各输出支路的损失统计值。
其中,预测框是指类别识别模型计算输出的框,锚框是指用做预测框的计算参考的框。预测框相对锚框的位置偏移量可以包括框中心横坐标偏移量和框中心纵坐标偏移量;预测框相对锚框的尺寸偏移量可以包括框高度偏移量和框宽度偏移量。对于每一输出支路,输出特征包括预测框相对锚框的位置偏移量、尺寸偏移量、以及预测框对应的置信度和对象类别识别结果。
具体地,训练得到类别识别模型的过程中,服务器针对每一输出支路,分别对预测框相对锚框的位置偏移量损失、预测框相对锚框的尺寸偏移量损失、预测框对应的预测置信度与真实置信度之间的置信度损失、以及预测框对应的预测类别与真实类别之间的类别损失进行统计计算,确定位置偏移量损失、尺寸偏移量损失、置信度损失和类别损失,然后,再对上述各类损失进行二次统计计算,确定该输出支路的支路损失,然后,再对各输出支路各自对应的支路损失进行求和计算,获得各输出支路的损失统计值。该求和计算可以是直接求和,也可以是加权求和。其中,加权求和过程中各支路损失的权重可以根据具体业务场景下各支路的重要度确定。例如,针对尺寸较小的对象,由于小采样尺度下的图像针对小尺寸对象的辨识度交底,小采样尺度对应的输出支路的支路损失的权重可以相对较小。
示例性的,以输出支路的数量为3的情况为例,则损失统计值loss可以表示为:
loss=loss1+loss2+loss3
其中,loss1、loss2和loss3分别表示三个输出支路的支路损失。进一步地,某一输出支路的支路损失可以lossn表示为:
上述公式中的第一行公式参数表示预测框相对锚框的位置偏移量损失,第二行公式参数表示预测框相对锚框的尺寸偏移量损失,Sn表示该输出支路的输出特征图的宽度和高度;bn表示输出特征图每个位置上的锚框数量;表示输出特征图的(i,j)位置是否在目标对象,如果存在则值为1,否则为0;第三行公式参数表示置信度损失;第四行公式参数表示类别损失;α为位置偏移量损失和尺寸偏移量损失的权重系数,β为置信度损失的权重系数,γ表示类别损失的权重系数,各类损失的权重系数可以根据具体业务场景下各类损失的重要程度确定;xij表示特征图在(i,j)位置上锚框的真实中心点横坐标值,yij表示特征图在(i,j)位置上锚框的真实中心点纵坐标值,wij表示特征图在(i,j)位置上对应的锚框的宽度,hij表示在(i,j)位置上对应的锚框的高度,Cij表示在(i,j)位置上对应的锚框的真实置信度,pi(k)表示真实类别结果,/>表示预测框相对锚框的中心点横坐标偏移量,/>表示预测框相对锚框的中心点纵坐标偏移量,/>表示预测框相对锚框的宽度偏移量,/>表示预测框相对锚框的高度偏移量,/>表示预测框的置信度,/>表示预测框的预测类别结果。
本实施例中,通过设置位置偏移量损失、尺寸偏移量损失、置信度损失和类别损失等多个分量构建损失函数,有利于提高基于损失函数所确定的损失统计值的准确性,进而提高类别识别模型的准确度。
在一个实施例中,初始神经网络模型为预训练图像模型。在该实施例的情形下,模型训练方法还包括:获取图像样本,对图像样本进行图像分割,得到图像样本对应的多个图像子块;对图像样本进行掩码处理,将多个图像子块划分成被掩码的掩码子块和未被掩码的目标子块;基于各目标子块各自对应的编码特征、以及各掩码子块对应的可学习特征,对图像样本进行解码处理,得到图像样本对应的预训练重建图像;在各图像样本各自对应的预训练重建图像与原始图像满足相似性条件的情况下,获得预训练图像模型。
其中,图像样本可以从开源模型预训练数据集中获取;该开源模型预训练数据集例如可以是ImageNet、CIFAR100或iNat19等等。图像分割是指将图像分割成多个图像子块的过程,各图像子块的尺寸可以相同也可以不相同。在一个具体的应用中,各图像子块为尺寸相同的矩形图像子块,以便于进行后续的特征编码处理。掩码处理是指对图像中的至少一部分区域、或者多个图像子块中的至少一部分进行屏蔽处理的过程。该掩码处理过程中的掩码位置通常是随机的,而掩码比例可以是随机的也可以固定的。该固定的掩码比例,例如可以是10%、20%或30%,等等。目标子块是指图像样本对应的多个图像子块中未被屏蔽的图像子块。对应地,多个图像子块中除目标子块以外的图像子块为被屏蔽的图像子块,将这些图像子块称为掩码子块,该掩码子块中存在图像信息的缺失。可学习特征是指用以表征掩码子块的特点的特征信息,在对图像进行掩码自编码处理的过程中,各掩码子块由一个共享的可学习特征表征。
具体地,服务器可以获取图像样本,并对该图像样本进行图像分割,得到该图像样本对应的多个图像子块。服务器对图像样本进行图像分割,得到该图像样本对应的多个图像子块的具体方式并不唯一。例如,服务器可以采用Unet图像分割网络或传统的图像分割方式,直接将图像样本分割成多个图像子块。又如,服务器可以先对图像样本进行特征提取,得到图像样本对应的特征图像,再将特征图像分割成多个图像子块,即为该图像样本对应的多个图像子块。获得多个图像子块后,服务器可以先对同一图像样本分别进行图像分割和掩码处理,获得掩码图像,再根据该图像样本对应的各图像子块在掩码图像中的位置信息,确定多个图像子块中被屏蔽的掩码子块、以及未被屏蔽的目标子块;也可以先对图像样本进行图像分割得到多个图像子块,再屏蔽多个图像子块中的至少一部分,从这多个图像子块中确定目标子块和掩码子块。
然后,服务器可以基于空间编码算法或变换编码算法等图像特征编码算法,对各目标子块进行编码处理,获得各目标子块各自对应的编码特征,并根据各图像子块在图像样本中的位置信息,确定各图像子块的顺序,接着,服务器将可学习特征与各编码特征按照各自对应的图像子块的顺序进行排序后,输入解码器进行解码处理,并将解码器的输出经过线性投影后,得到图像样本对应的预训练重建图像,在各图像样本各自对应的预训练重建图像与原始图像满足相似性条件的情况下,可以获得预训练图像模型。
本实施例中,先基于自监督学习,采用掩码自编码的方式获得与具体任务无关的预训练图像模型,再在预训练图像模型的基础上训练得到与对象识别任务关联的类别识别模型,可以使得类别识别模型的训练过程中,仅需少量的样本数就可以得到较好的泛化效果,有利于提高模型训练效率。
在一个实施例中,如图9所示,模型训练方法包括以下步骤:
步骤S901,获取图像样本,对图像样本进行图像分割,得到图像样本对应的多个图像子块;
步骤S902,对图像样本进行掩码处理,将多个图像子块划分成被掩码的掩码子块和未被掩码的目标子块;
步骤S903,基于各目标子块各自对应的编码特征、以及各掩码子块对应的可学习特征,对图像样本进行解码处理,得到图像样本对应的预训练重建图像;
步骤S904,在各图像样本各自对应的预训练重建图像与原始图像满足相似性条件的情况下,获得预训练图像模型;
步骤S905,获取至少两个已标注数据集;
其中,同一已标注数据集中的各数据样本携带有相同对象类别的对象标签;不同已标注数据集中的各数据样本携带有不同对象类别的对象标签;
步骤S906,针对每一已标注数据集,确定该已标注数据集中所包含的对象标签的目标对象类别;
步骤S907,分别确定各目标对象类别与其他对象类别的差异度,基于各差异度确定已标注数据集对应的类别识别模型的下采样尺度;
其中,下采样尺度与差异度正相关;
步骤S908,分别确定各目标对象类别各自的已标注对象的几何尺寸差异,基于各几何尺寸差异确定已标注数据集对应的类别识别模型的总锚框数量;
其中,总锚框数量与几何尺寸差异正相关;
步骤S909,根据总锚框数量、以及目标对象类别的类别数,确定已标注数据集对应的类别识别模型的输出特征通道数;
步骤S910,使用已标注数据集,基于模型训练参数对预训练图像模型进行模型训练,在各输出支路的损失统计值最小的情况下,获得用于识别目标对象类别的对象的类别识别模型;
其中,类别识别模型包括下采样的骨干网络、以及包含多个输出支路的多尺度特征网络;模型训练参数包括下采样尺度、总锚框数量以及输出特征通道数;各输出支路的损失统计值通过对各输出支路的支路损失进行求和计算得到;每一输出支路的支路损失可以通过对该输出支路中预测框相对锚框的位置偏移量损失、预测框相对锚框的尺寸偏移量损失、预测框对应的预测置信度与真实置信度之间的置信度损失、以及预测框对应的预测类别与真实类别之间的类别损失进行统计计算确定。
步骤S911,从各已标注数据集中确定至少一个选定数据集;
步骤S912,针对每一选定数据集,使用除该选定数据集以外的各剩余已标注数据集各自对应的类别识别模型,对选定数据集的各选定数据样本进行对象识别,获得交叉识别结果;
步骤S913,基于交叉识别结果对选定数据集中的各数据样本进行补充标注,获得携带有补充对象标签的更新数据样本;
步骤S914,从各更新数据样本中,确定携带有每一对象类别的对象标签的全类别更新样本,确定包含各全类别更新样本的全类别数据集;
步骤S915,使用全类别数据集进行模型训练,得到用以识别各对象类别的对象的对象识别模型。
下面以已标注数据集包括已标注动态对象的数据集A、以及已标注静态对象的数据集B的情况为例,对对象识别模型的确定过程进行说明。
在一个实施例中,如图10所示,模型训练方法包括:
步骤S1001,使用各数据集分别训练得到对应的检测大模型;
步骤S1002,基于检测大模型补充各数据集所缺类别标签;
步骤S1003,融合各数据集得到全量数据集;
步骤S1004,用全量数据集训练得到应用模型。
其中,各数据集包括已标注动态对象的数据集A、以及已标注静态对象的数据集B。各数据集各自对应的检测大模型包括用以识别动态对象的大模型A、以及用以识别静态对象的大模型B。如图11所示,该静态对象可以是交通采集图像中的交通工具,该动态对象可以是交通采集图像中的交通路牌、红绿灯和交通标识线等。应用模型是指同时具备动态对象和静态对象识别能力的对象识别模型。
具体地,如图11所示,数据集A的各数据样本中携带有动态对象的对象标签,数据集B的各数据样本中携带有静态对象的对象标签。服务器使用数据集A训练得到用于识别动态对象的大模型A,使用数据集B训练得到用于识别静态对象的大模型B,然后再使用两个大模型对两个数据集进行交叉识别,基于交叉识别所得到的交叉识别结果,补充各数据集所缺类别标签。如图11所示,针对数据集A中的数据样本,基于大模型B的识别结果补充该数据样本中静态对象的对象标签,得到包含更新数据样本的数据集A1;针对数据集B中的数据样本,基于大模型A的识别结果补充该数据样本中动态对象的对象标签,得到包含更新数据样本的数据集B1。接着,服务器融合数据集A1和数据集B1这两部分数据,得到全量数据集,并基于该全量数据集进行模型训练,得到同时具备静态对象识别能力和动态对象识别能力的应用模型。
采用上述方法,可以在类增长目标检测任务中,需要再进行人工补充标注,而是充分利用已有的标注数据,在数据集之间相互学习补充,得到完备的全量数据集,从而通过跨数据集训练实现全类目标的检测。这样既避免了人工标注的时间和经费成本,也避免了在应用端使用多个模型的高算力成本。
如前文所述的,获得对象识别模型后,服务器可以将对象识别模型下发至第二终端,以便第二终端能够基于该对象识别模型进行对象识别。下面以图像数据处理为例,对本申请中的对象识别模型的应用过程进行介绍。
在一个实施例中,如图12所示,本申请还提供了一种图像数据处理方法,以该方法应用于图1中的第二终端为例进行说明,本实施例中,该方法包括以下步骤:
步骤S1202,获取目标图像数据;
其中,目标图像数据是指待进行对象识别的图像数据,该图像数据可以是图片帧,也可以是包含多个图片帧的视频。该目标图像数据的具体类型由具体地业务场景确定。例如,病变组织识别场景下,目标图像数据可以是病例图像数据;交通图像识别场景下,目标图像数据可以是交通采集图像。具体地,第二终端可以获取图像采集装置采集得到的目标图像数据。该图像采集装置例如可以是摄像头、雷达等具备图像采集功能的硬件装置。
在一个具体的应用中,目标图像数据为交通采集图像。该交通采集图像可以包括车辆周围环境各个方向上的图像数据。具体地,第二终端可以获取多个图像采集装置采集得到车辆周围不同方向上的环境图像,通过拼接各环境图像后得到交通采集图像,并将该交通采集图像确定为目标图像数据。
步骤S1204,基于对象识别模型确定目标图像数据中的目标对象、以及目标对象的对象信息。
其中,对象识别模型采用上文各实施例所述的方法训练得到。目标对象的对象信息包括该目标对象的位置信息、语义信息等等。该位置信息可以是目标对象在目标图像数据中的位置,该语义信息可以包括目标对象的对象标识、对象类型等信息中的至少一项。当目标图像数据为交通采集图像时,该目标对象可以包括交通工具、交通路牌、交通信号等;当目标图像数据为家具视频图像时,该目标对象可以包括人、宠物等多种类型的生物体;当目标图像数据为病理图像时,该目标对象可以包括病变组织。
具体地,第二终端基于对象识别模型可以对目标图像数据进行对象识别,确定目标图像数据中的目标对象、以及目标对象的对象信息。
上述图像数据处理方法,获取目标图像数据;基于对象识别模型确定目标图像数据中的目标对象、以及目标对象的对象信息,由于对象识别模型具备全类别对象的识别能力,应用端只需使用该全类别识别模型即可实现各类别对象的识别,避免了在应用端使用多个模型所存在的高算力成本的问题,有效降低了应用端在应用模型过程中的算力成本,扩展了模型的应用场景,有利于提高图像数据处理效率。
在一个实施例中,对象信息包括位置信息和语义信息。在该实施例的情形下,步骤S1202包括:在目标交通工具启动的情况下,通过目标交通工具上安装的图像采集装置采集当前时刻下的目标图像数据。图像数据处理方法还包括:基于目标对象、以及目标对象的位置信息和语义信息,确定目标交通工具的行驶参数。
其中,目标对象的位置信息是目标对象在目标图像数据中所处的位置,可以理解,基于目标对象的位置信息可以估算出目标交通工具与目标对象之间的相对距离。目标对象的语义信息是指目标对象的含义,该语义信息可以包括目标对象的对象标识、对象类型等信息中的至少一项。示例性的,红绿灯、交通路牌和地面路标等道路元素均有其对应的语义,交通工具的语义信息可以包括交通工具的类型、车牌或行驶状态等信息中的至少一项;红绿灯的语义信息可以包括当前点亮的指示灯的颜色、允许行驶方向等信息中的至少一项;交通路牌的语义信息可以包括该交通路牌中的文字语义信息、符号语义信息等信息中的至少一项。可以理解,基于目标对象的语义信息可以确保目标交通工具按照交通规则在规划路线上行驶。例如,在目标图像数据的识别结果为绿灯的情况下,可以控制目标交通工具继续行驶;在目标图像数据的识别结果为红灯的情况下,可以控制目标交通工具及时刹车;在目标图像数据的识别结果为黄灯的情况下,可以控制目标交通工具减速行驶至停止线处,等待黄灯变为绿灯的时候再行驶。
具体地,当目标交通工具启动时,第二终端通过目标交通工具上安装的图像采集装置采集当前时刻下的目标图像数据,通过对目标图像数据进行对象识别,确定目标交通工具所在的行驶环境中,各目标对象的位置信息和语义信息,并基于目标对象、以及目标对象的位置信息和语义信息,确定目标交通工具的行驶参数,实现自动驾驶。
本实施例中,将对象识别模型布置于车载终端用以实现自动驾驶,由于对象识别模型具备全类别对象识别能力,有利于提高自动驾驶过程中所确定的形式参数的准确性,进而提高安全性。
在一个具体的应用中,图像数据处理方法还包括:向服务器发送目标图像数据的对象识别结果,以使服务器根据该对象识别结果确定对象识别模型的模型准确率,并在模型准确率不满足准确率条件的情况下,更新对象识别模型。
其中,准确率条件可以是指模型准确率小于准确率阈值,或者,模型准确率小于或等于准确率阈值。具体地,第二终端基于对象识别模型获得对象识别结果后,可以将对象识别结果反馈至服务器,以便服务器可以接收到来自不同终端设备发送的图像数据及其对象识别结果,并持续更新对象识别模型。以交通采集图像为例,车载终端可以将目标图像及其对应的对象识别结果上传至服务器,后台工作人员可定期对部分或全部的目标图像进行标注,得到真实对象标签。于是,根据目标图像的真实对象标签以及上报的对象识别结果,能够计算出对象识别模型的准确率。
本实施例中,通过对模型进行反馈调节,一方面能够给对象识别模型更新提供更多的样本数,另一方面,能够检验模型效果,有利于维持模型预测的准确性。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的模型训练方法的模型训练装置。该装置所提供的解决问题的实现方案与上述模型训练方法中所记载的实现方案相似,故下面所提供的一个或多个模型训练装置实施例中的具体限定可以参见上文中对于模型训练方法的限定,在此不再赘述。
在一个实施例中,如图13所示,提供了一种模型训练装置1300,包括:数据集获取模块1302、类别识别模型训练模块1304、补充标注模块1306和对象识别模型训练模块1308,其中:
数据集获取模块1302,用于获取至少两个已标注数据集;同一已标注数据集中的各数据样本携带有相同对象类别的对象标签;不同已标注数据集中的各数据样本携带有不同对象类别的对象标签;
类别识别模型训练模块1304,用于使用每一已标注数据集分别进行模型训练,得到每一已标注数据集各自对应的类别识别模型;
补充标注模块1306,用于基于各类别识别模型对各已标注数据集中数据样本的交叉识别结果,对各数据样本进行补充标注,获得携带有补充对象标签的全类别数据集;
对象识别模型训练模块1308,用于使用全类别数据集进行模型训练,得到用以识别各对象类别的对象的对象识别模型。
在一个实施例中,类别识别模型训练模块1304包括:目标对象类别确定单元,用于针对每一已标注数据集,确定已标注数据集中所包含的对象标签的目标对象类别;模型训练参数确定单元,用于根据目标对象类别,确定已标注数据集对应的类别识别模型的模型训练参数;类别识别模型训练单元,用于使用已标注数据集,基于模型训练参数对初始神经网络模型进行模型训练,获得用于识别目标对象类别的对象的类别识别模型。
在一个实施例中,类别识别模型为包括下采样的骨干网络的图像识别模型;模型训练参数包括下采样尺度、总锚框数量和输出特征通道数。在该实施例的情形下,模型训练参数确定单元具体用于:分别确定各目标对象类别与其他对象类别的差异度,基于各差异度确定已标注数据集对应的类别识别模型的下采样尺度;下采样尺度与差异度正相关;分别确定各目标对象类别各自的已标注对象的几何尺寸差异,基于各几何尺寸差异确定已标注数据集对应的类别识别模型的总锚框数量;总锚框数量与几何尺寸差异正相关;根据总锚框数量、以及目标对象类别的类别数,确定已标注数据集对应的类别识别模型的输出特征通道数。
在一个实施例中,类别识别模型包括包含多个输出支路的多尺度特征网络。在该实施例的情形下,类别识别模型训练单元具体用于:使用已标注数据集,基于模型训练参数对初始神经网络模型进行模型训练,在各输出支路的损失统计值最小的情况下,获得用于识别目标对象类别的对象的类别识别模型。
在一个实施例中,类别识别模型训练模块1304还包括损失统计值确定单元,用于:针对每一输出支路,对该输出支路中预测框相对锚框的位置偏移量损失、预测框相对锚框的尺寸偏移量损失、预测框对应的预测置信度与真实置信度之间的置信度损失、以及预测框对应的预测类别与真实类别之间的类别损失进行统计计算,确定该输出支路的支路损失;对各支路损失进行求和计算,获得各输出支路的损失统计值。
在一个实施例中,初始神经网络模型为预训练图像模型。在该实施例的情形下,模型训练装置1300还包括预训练模块,用于:获取图像样本,对图像样本进行图像分割,得到图像样本对应的多个图像子块;对图像样本进行掩码处理,将多个图像子块划分成被掩码的掩码子块和未被掩码的目标子块;基于各目标子块各自对应的编码特征、以及各掩码子块对应的可学习特征,对图像样本进行解码处理,得到图像样本对应的预训练重建图像;在各图像样本各自对应的预训练重建图像与原始图像满足相似性条件的情况下,获得预训练图像模型。
在一个实施例中,补充标注模块1306包括:补充标注单元,用于基于各类别识别模型对各已标注数据集中数据样本的交叉识别结果,对各数据样本进行补充标注,获得携带有补充对象标签的更新数据样本;全类别数据集确定单元,用于从各更新数据样本中,确定携带有每一对象类别的对象标签的全类别更新样本,并确定包含各全类别更新样本的全类别数据集。
在一个实施例中,补充标注单元具体用于:从各已标注数据集中确定至少一个选定数据集;针对每一选定数据集,使用除选定数据集以外的各剩余已标注数据集各自对应的类别识别模型,对选定数据集的各选定数据样本进行对象识别,获得交叉识别结果;基于交叉识别结果对各选定数据样本进行补充标注,获得携带有补充对象标签的更新数据样本。
上述模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的图像数据处理方法的图像数据处理装置。该装置所提供的解决问题的实现方案与上述图像数据处理方法中所记载的实现方案相似,故下面所提供的一个或多个图像数据处理装置实施例中的具体限定可以参见上文中对于图像数据处理方法的限定,在此不再赘述。
在一个实施例中,如图14所示,提供了一种图像数据处理装置1400,包括:图像数据获取模块1402和对象识别模块1404,其中:
图像数据获取模块1402,用于获取目标图像数据;
对象识别模块1404,用于基于对象识别模型确定目标图像数据中的目标对象、以及该目标对象的对象信息;对象识别模型采用上述的模型训练方法训练得到。
在一个实施例中,对象信息包括位置信息和语义信息。在该实施例的情形下,图像数据获取模块1402具体用于:在目标交通工具启动的情况下,通过目标交通工具上安装的图像采集装置采集当前时刻下的目标图像数据。图像数据处理装置1400还包括行驶参数确定模型,用于:基于目标对象、以及目标对象的位置信息和语义信息,确定目标交通工具的行驶参数。
上述图像数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图15所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述方法所涉及的数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种鉴权方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图16所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种鉴权方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置,显示屏可以是液晶显示屏或电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图15和图16中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (15)
1.一种模型训练方法,其特征在于,所述方法包括:
获取至少两个已标注数据集;同一已标注数据集中的各数据样本携带有相同对象类别的对象标签;不同已标注数据集中的各数据样本携带有不同对象类别的对象标签;
使用每一所述已标注数据集分别进行模型训练,得到每一所述已标注数据集各自对应的类别识别模型;
基于各所述类别识别模型对各所述已标注数据集中数据样本的交叉识别结果,对各所述数据样本进行补充标注,获得携带有补充对象标签的全类别数据集;
使用所述全类别数据集进行模型训练,得到用以识别各所述对象类别的对象的对象识别模型。
2.根据权利要求1所述的方法,其特征在于,所述使用每一所述已标注数据集分别进行模型训练,得到每一所述已标注数据集各自对应的类别识别模型,包括:
针对每一所述已标注数据集,确定所述已标注数据集中所包含的对象标签的目标对象类别;
根据所述目标对象类别,确定所述已标注数据集对应的类别识别模型的模型训练参数;
使用所述已标注数据集,基于所述模型训练参数对初始神经网络模型进行模型训练,获得用于识别所述目标对象类别的对象的类别识别模型。
3.根据权利要求2所述的方法,其特征在于,所述类别识别模型为包括下采样的骨干网络的图像识别模型;所述模型训练参数包括下采样尺度、总锚框数量和输出特征通道数;
所述根据所述目标对象类别,确定所述已标注数据集对应的类别识别模型的模型训练参数,包括:
分别确定各所述目标对象类别与其他对象类别的差异度,基于各所述差异度确定所述已标注数据集对应的类别识别模型的下采样尺度;所述下采样尺度与所述差异度正相关;
分别确定各所述目标对象类别各自的已标注对象的几何尺寸差异,基于各所述几何尺寸差异确定所述已标注数据集对应的类别识别模型的总锚框数量;所述总锚框数量与所述几何尺寸差异正相关;
根据所述总锚框数量、以及所述目标对象类别的类别数,确定所述已标注数据集对应的类别识别模型的输出特征通道数。
4.根据权利要求2所述的方法,其特征在于,所述类别识别模型包括包含多个输出支路的多尺度特征网络;
所述使用所述已标注数据集,基于所述模型训练参数对初始神经网络模型进行模型训练,获得用于识别所述目标对象类别的对象的类别识别模型,包括:
使用所述已标注数据集,基于所述模型训练参数对初始神经网络模型进行模型训练,在各所述输出支路的损失统计值最小的情况下,获得用于识别所述目标对象类别的对象的类别识别模型。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
针对每一输出支路,对所述输出支路中预测框相对锚框的位置偏移量损失、所述预测框相对所述锚框的尺寸偏移量损失、所述预测框对应的预测置信度与真实置信度之间的置信度损失、以及所述预测框对应的预测类别与真实类别之间的类别损失进行统计计算,确定所述输出支路的支路损失;
对各所述支路损失进行求和计算,获得各所述输出支路的损失统计值。
6.根据权利要求2所述的方法,其特征在于,所述初始神经网络模型为预训练图像模型;所述方法还包括:
获取图像样本,对所述图像样本进行图像分割,得到所述图像样本对应的多个图像子块;
对所述图像样本进行掩码处理,将所述多个图像子块划分成被掩码的掩码子块和未被掩码的目标子块;
基于各所述目标子块各自对应的编码特征、以及各所述掩码子块对应的可学习特征,对所述图像样本进行解码处理,得到所述图像样本对应的预训练重建图像;
在各所述图像样本各自对应的预训练重建图像与原始图像满足相似性条件的情况下,获得预训练图像模型。
7.根据权利要求1至6中任意一项所述的方法,其特征在于,所述基于各所述类别识别模型对各所述已标注数据集中数据样本的交叉识别结果,对各所述数据样本进行补充标注,获得携带有补充对象标签的全类别数据集,包括:
基于各所述类别识别模型对各所述已标注数据集中数据样本的交叉识别结果,对各所述数据样本进行补充标注,获得携带有补充对象标签的更新数据样本;
从各所述更新数据样本中,确定携带有每一所述对象类别的对象标签的全类别更新样本;
确定包含各所述全类别更新样本的全类别数据集。
8.根据权利要求7所述的方法,其特征在于,所述基于各所述类别识别模型对各所述已标注数据集中数据样本的交叉识别结果,对各所述数据样本进行补充标注,获得携带有补充对象标签的更新数据样本,包括:
从各所述已标注数据集中确定至少一个选定数据集;
针对每一所述选定数据集,使用除所述选定数据集以外的各剩余已标注数据集各自对应的类别识别模型,对所述选定数据集的各选定数据样本进行对象识别,获得交叉识别结果;
基于所述交叉识别结果对各所述选定数据样本进行补充标注,获得携带有补充对象标签的更新数据样本。
9.一种图像数据处理方法,其特征在于,所述方法包括:
获取目标图像数据;
基于对象识别模型确定所述目标图像数据中的目标对象、以及所述目标对象的对象信息;所述对象识别模型采用如权利要求1至8中任意一项所述的方法训练得到。
10.根据权利要求9所述的方法,其特征在于,所述对象信息包括位置信息和语义信息;所述获取目标图像数据,包括:
在目标交通工具启动的情况下,通过所述目标交通工具上安装的图像采集装置采集当前时刻下的目标图像数据;
所述方法还包括:
基于所述目标对象、以及所述目标对象的位置信息和语义信息,确定所述目标交通工具的行驶参数。
11.一种模型训练装置,其特征在于,所述装置包括:
数据集获取模块,用于获取至少两个已标注数据集;同一已标注数据集中的各数据样本携带有相同对象类别的对象标签;不同已标注数据集中的各数据样本携带有不同对象类别的对象标签;
类别识别模型训练模块,用于使用每一所述已标注数据集分别进行模型训练,得到每一所述已标注数据集各自对应的类别识别模型;
补充标注模块,用于基于各所述类别识别模型对各所述已标注数据集中数据样本的交叉识别结果,对各所述数据样本进行补充标注,获得携带有补充对象标签的全类别数据集;
对象识别模型训练模块,用于使用所述全类别数据集进行模型训练,得到用以识别各所述对象类别的对象的对象识别模型。
12.一种图像数据处理装置,其特征在于,所述装置包括:
图像数据获取模块,用于获取目标图像数据;
对象识别模块,用于基于对象识别模型确定所述目标图像数据中的目标对象、以及所述目标对象的对象信息;所述对象识别模型采用如权利要求1至8中任意一项所述的方法训练得到。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。
15.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211507488.8A CN117011635A (zh) | 2022-11-29 | 2022-11-29 | 模型训练方法、图像数据处理方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211507488.8A CN117011635A (zh) | 2022-11-29 | 2022-11-29 | 模型训练方法、图像数据处理方法、装置及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117011635A true CN117011635A (zh) | 2023-11-07 |
Family
ID=88560717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211507488.8A Pending CN117011635A (zh) | 2022-11-29 | 2022-11-29 | 模型训练方法、图像数据处理方法、装置及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117011635A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117436551A (zh) * | 2023-12-18 | 2024-01-23 | 杭州宇谷科技股份有限公司 | 一种智能客服模型的训练方法和系统 |
CN117496512A (zh) * | 2024-01-02 | 2024-02-02 | 广州锟元方青医疗科技有限公司 | 宫颈tct切片的多类型细胞核标注及多任务处理方法 |
-
2022
- 2022-11-29 CN CN202211507488.8A patent/CN117011635A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117436551A (zh) * | 2023-12-18 | 2024-01-23 | 杭州宇谷科技股份有限公司 | 一种智能客服模型的训练方法和系统 |
CN117496512A (zh) * | 2024-01-02 | 2024-02-02 | 广州锟元方青医疗科技有限公司 | 宫颈tct切片的多类型细胞核标注及多任务处理方法 |
CN117496512B (zh) * | 2024-01-02 | 2024-03-22 | 广州锟元方青医疗科技有限公司 | 宫颈tct切片的多类型细胞核标注及多任务处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117011635A (zh) | 模型训练方法、图像数据处理方法、装置及计算机设备 | |
US11983903B2 (en) | Processing images using self-attention based neural networks | |
Liu et al. | Traffic-light sign recognition using Capsule network | |
CN113947764B (zh) | 一种图像处理方法、装置、设备及存储介质 | |
CN112801236B (zh) | 图像识别模型的迁移方法、装置、设备及存储介质 | |
US11651191B2 (en) | Methods, apparatuses, and computer program products using a repeated convolution-based attention module for improved neural network implementations | |
CN115830402B (zh) | 一种细粒度图像识别分类模型训练方法、装置及设备 | |
CN114549369B (zh) | 数据修复方法、装置、计算机及可读存储介质 | |
WO2022217434A1 (zh) | 感知网络、感知网络的训练方法、物体识别方法及装置 | |
CN111931683A (zh) | 图像识别方法、装置及计算机可读存储介质 | |
CN115273032A (zh) | 交通标志识别方法、装置、设备及介质 | |
Cervera-Uribe et al. | U19-Net: a deep learning approach for obstacle detection in self-driving cars | |
CN112668675B (zh) | 一种图像处理方法、装置、计算机设备及存储介质 | |
CN116563840B (zh) | 基于弱监督跨模态对比学习的场景文本检测与识别方法 | |
CN117011416A (zh) | 一种图像处理方法、装置、设备、介质及程序产品 | |
Schennings | Deep convolutional neural networks for real-time single frame monocular depth estimation | |
CN114419338A (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN116883770A (zh) | 深度估计模型的训练方法、装置、电子设备及存储介质 | |
CN117693768A (zh) | 语义分割模型的优化方法和装置 | |
CN111881792A (zh) | 一种移动微卡口系统及其工作方法 | |
CN114332884B (zh) | 文档元素的识别方法、装置、设备及存储介质 | |
CN116977770A (zh) | 图像分类模型的构建方法、图像分类方法、装置和设备 | |
CN115115871A (zh) | 图像识别模型的训练方法、装置、设备及存储介质 | |
CN115661796A (zh) | 路牌的识别方法、装置及车辆 | |
CN116978027A (zh) | 图像处理方法、装置、计算机、可读存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |