CN111768438B - 一种图像处理方法、装置、设备以及计算机可读存储介质 - Google Patents
一种图像处理方法、装置、设备以及计算机可读存储介质 Download PDFInfo
- Publication number
- CN111768438B CN111768438B CN202010749413.5A CN202010749413A CN111768438B CN 111768438 B CN111768438 B CN 111768438B CN 202010749413 A CN202010749413 A CN 202010749413A CN 111768438 B CN111768438 B CN 111768438B
- Authority
- CN
- China
- Prior art keywords
- image
- depth
- image processing
- processing model
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 439
- 238000000034 method Methods 0.000 claims abstract description 66
- 238000005070 sampling Methods 0.000 claims description 108
- 238000004821 distillation Methods 0.000 claims description 42
- 230000006399 behavior Effects 0.000 claims description 39
- 230000006870 function Effects 0.000 claims description 32
- 238000011176 pooling Methods 0.000 claims description 25
- 238000004891 communication Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 15
- 238000013473 artificial intelligence Methods 0.000 description 24
- 238000012549 training Methods 0.000 description 21
- 230000008569 process Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 17
- 238000005516 engineering process Methods 0.000 description 17
- 238000000605 extraction Methods 0.000 description 12
- 238000013528 artificial neural network Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 11
- 230000008901 benefit Effects 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000013140 knowledge distillation Methods 0.000 description 7
- 230000004913 activation Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 6
- 241000283070 Equus zebra Species 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 206010039203 Road traffic accident Diseases 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/45—Controlling the progress of the video game
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2300/00—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
- A63F2300/80—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game specially adapted for executing a specific type of game
- A63F2300/8082—Virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种图像处理方法、装置、设备以及计算机可读存储介质,其中,方法包括:获取样本图像以及样本图像对应的标签深度图像;将样本图像输入已训练完成的第一图像处理模型,得到第一深度估计特征;将样本图像输入第二图像处理模型,得到第二深度估计特征,根据第二深度估计特征,生成样本图像对应的预测深度图像;第二图像处理模型中的模型参数数量小于第一图像处理模型中的模型参数数量;根据第一深度估计特征、第二深度估计特征、预测深度图像以及标签深度图像,对第二图像处理模型中的模型参数进行调整,生成轻量图像处理模型,基于轻量图像处理模型对图像进行深度图像处理。采用本申请,可以提高模型提取图像深度特征的准确度。
Description
技术领域
本申请涉及互联网技术领域,尤其涉及一种图像处理方法、装置、设备以及计算机可读存储介质。
背景技术
随着深度学习技术的快速普及以及计算能力的提升,人工智能被应用到各个领域。
游戏场景的深度估计是训练枪战游戏人工智能(Artificial Intelligence,AI)的重要组成部分,通过深度估计,计算机等机器能得到游戏角色所处环境中不同物体与游戏角色之间的距离,对于不同的距离,游戏AI能采取不同的行为,因此可以避免与障碍物发生碰撞,这样可以提升游戏AI的效果。
现有技术中,对游戏图像进行深度估计时所采用的小模型,即参数数量较小的模型,虽然对用户终端的硬件需求相对较低,更方便部署在用户终端,但由于小模型的深度浅,特征表示能力受限,所以小模型存在提取的深度特征准确度较低的缺陷,即估计的深度图像与真实的深度图像之间会存在较大误差。
发明内容
本申请实施例提供一种图像处理方法、装置、设备以及计算机可读存储介质,可以在具备较小参数数量的模型中提高模型提取图像深度特征的准确度。
本申请实施例一方面提供一种图像处理方法,包括:
获取样本图像以及样本图像对应的标签深度图像;
将样本图像输入已训练完成的第一图像处理模型,得到样本图像对应的第一深度估计特征;
将样本图像输入第二图像处理模型,得到样本图像对应的第二深度估计特征,根据第二深度估计特征,生成样本图像对应的预测深度图像;第二图像处理模型中的模型参数数量小于第一图像处理模型中的模型参数数量;
根据第一深度估计特征、第二深度估计特征、预测深度图像以及标签深度图像,对第二图像处理模型中的模型参数进行调整,生成轻量图像处理模型,基于轻量图像处理模型对图像进行深度图像处理。
本申请实施例一方面提供一种图像处理装置,包括:
第一获取模块,用于获取样本图像以及样本图像对应的标签深度图像;
第一输入模块,用于将样本图像输入已训练完成的第一图像处理模型,得到样本图像对应的第一深度估计特征;
第二输入模块,用于将样本图像输入第二图像处理模型,得到样本图像对应的第二深度估计特征,根据第二深度估计特征,生成样本图像对应的预测深度图像;第二图像处理模型中的模型参数数量小于第一图像处理模型中的模型参数数量;
第二输入模块,还用于根据第一深度估计特征、第二深度估计特征、预测深度图像以及标签深度图像,对第二图像处理模型中的模型参数进行调整,生成轻量图像处理模型,基于轻量图像处理模型对图像进行深度图像处理。
其中,第二输入模块,包括:
第一确定单元,用于根据第一深度估计特征、第二深度估计特征、预测深度图像以及标签深度图像,确定第二图像处理模型的模型损失值;
第二确定单元,用于根据模型损失值对第二图像处理模型中的模型参数进行调整,当调整后的第二图像处理模型满足模型收敛条件时,将调整后的第二图像处理模型确定为轻量图像处理模型。
其中,第一确定单元,包括:
第一确定子单元,用于根据第一深度估计特征以及第二深度估计特征,确定第二图像处理模型的蒸馏特征损失值;
第二确定子单元,用于根据预测深度图像以及标签深度图像,确定第二图像处理模型的深度误差损失值;
第三确定子单元,用于根据蒸馏特征损失值以及深度误差损失值,确定模型损失值。
其中,第一确定子单元,具体用于根据第一深度估计特征Wi以及第二深度估计特征Pi,确定第二图像处理模型中第二上采样层Ci的蒸馏特征损失值Si;其中,第一深度估计特征Wi为第一图像处理模型中的第一上采样层Di输出的深度估计特征;第二深度估计特征Pi为第二上采样层Ci输出的深度估计特征;
第一确定子单元,具体还用于根据第一深度估计特征Wi+1以及第二深度估计特征Pi+1,确定第二图像处理模型中第二上采样层Ci+1的蒸馏特征损失值Si+1;其中,第一深度估计特征Wi为第一图像处理模型中的第一上采样层Di+1输入的深度估计特征,第一深度估计特征Wi+1为第一上采样层Di+1输出的深度估计特征;第二深度估计特征Pi为第二上采样层Ci+1输入的深度估计特征,第二深度估计特征Pi+1为第二上采样层Ci+1输出的深度估计特征;
第一确定子单元,具体还用于根据蒸馏特征损失值Si以及蒸馏特征损失值Si+1,确定第二图像处理模型的蒸馏特征损失值。
其中,第二输入模块,包括:
第一输入单元,用于获取第二图像处理模型,将样本图像输入第二图像处理模型的输入层,得到样本图像对应的第二原始估计特征;
第一处理单元,用于通过第二下采样层对第二原始估计特征进行卷积处理以及池化处理,得到样本图像对应的第二初始估计特征;
第二处理单元,用于通过第二上采样层对第二初始估计特征进行反卷积处理,得到第二深度估计特征。
其中,图像处理装置,还包括:
第二获取模块,用于获取第一样本图像处理模型,将样本图像输入第一样本图像处理模型,得到样本图像对应的第一深度估计特征,根据第一深度估计特征,生成样本图像对应的估计深度图像;
第一确定模块,用于根据估计深度图像以及标签深度图像,确定第一样本图像处理模型的样本模型损失值;
第二确定模块,用于根据样本模型损失值对第一样本图像处理模型中的模型参数进行调整,当调整后的第一样本图像处理模型满足模型收敛条件时,将调整后的第一样本图像处理模型确定为已训练完成的第一图像处理模型。
其中,第二获取模块,包括:
第二输入单元,用于将样本图像输入第一样本图像处理模型的输入层,得到样本图像对应的第一原始估计特征;
第三处理单元,用于通过第一下采样层对第一原始估计特征进行卷积处理以及池化处理,得到样本图像对应的第一初始估计特征;第一下采样层的层数量大于第二下采样层的层数量;
第四处理单元,用于通过第一上采样层对第一初始估计特征进行反卷积处理,得到第一深度估计特征;
第一生成单元,用于根据第一深度估计特征,生成样本图像对应的估计深度图像。
其中,第一获取模块,包括:
第二生成单元,用于调用系统功能接口,通过系统功能接口获取采样频率,按照采样频率在第一时刻对系统数据库进行图像采样,生成第一采样图像,以及与第一采样图像对应的第一采样深度图像;
第二生成单元,还用于按照采样频率在第二时刻对系统数据库进行图像采样,生成第二采样图像,以及与第二采样图像对应的第二采样深度图像;第二时刻晚于第一时刻,且采样频率对应的采样时间间隔为第二时刻与第一时刻之间的时间间隔;
第三确定单元,用于将第一采样图像、第二采样图像,确定为样本图像,将第一采样深度图像以及第二采样深度图像确定为标签深度图像。
其中,第二输入模块,包括:
第三输入单元,用于获取图像,将图像输入轻量图像处理模型;轻量图像处理模型包括下采样层以及上采样层;
第三生成单元,用于通过下采样层提取图像中的深度特征信息,将深度特征信息输入上采样层,通过上采样层生成图像对应的深度图像;图像包括目标对象以及障碍对象,深度图像用于表征障碍对象与目标对象之间的距离;
第四确定单元,用于根据深度图像,获取图像中障碍对象与目标对象之间的距离,根据距离确定目标对象的目标行为。
其中,第四确定单元,包括:
获取距离子单元,用于根据深度图像,获取图像中第一障碍对象与目标对象之间的第一距离,获取图像中第二障碍对象与目标对象之间的第二距离;
第四确定子单元,用于从第一距离以及第二距离中确定最小距离,将最小距离对应的障碍对象确定为目标障碍对象;
第五确定子单元,用于根据目标障碍对象以及最小距离确定目标对象的目标行为。
其中,第五确定子单元,具体用于若最小距离大于距离阈值且目标对象的当前状态为运动状态,则确定目标对象的目标行为为保持运动状态;
第五确定子单元,具体还用于若最小距离小于或等于距离阈值,且目标对象的当前状态为运动状态,则识别目标障碍对象的对象类别;对象类别包括虚拟物品类别以及虚拟角色类别;
第五确定子单元,具体还用于若目标障碍对象的对象类别为虚拟物品类别,则将目标对象的目标行为切换为停止运动状态;
第五确定子单元,具体还用于若目标障碍对象的对象类别为虚拟角色类别,则将目标对象的目标行为切换为攻击状态;攻击状态用于指示目标对象攻击目标障碍对象。
本申请一方面提供了一种计算机设备,包括:处理器、存储器、网络接口;
上述处理器与上述存储器、上述网络接口相连,其中,上述网络接口用于提供数据通信功能,上述存储器用于存储计算机程序,上述处理器用于调用上述计算机程序,以执行本申请实施例中的方法。
本申请实施例一方面提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序包括程序指令,上述程序指令被处理器执行时,以执行本申请实施例中的方法。
本申请实施例一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中;计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例中的方法。
本申请实施例首先获取样本图像和样本图像对应的标签深度图像,然后将样本图像输入已训练完成的第一图像处理模型,得到样本图像对应的第一深度估计特征,由于第一图像处理模型是复杂的大模型,其模型参数数量多,特征表示能力高,所以第一图像处理模型生成的第一深度估计特征准确度高;随后,将样本图像输入第二图像处理模型,得到样本图像对应的第二深度估计特征,根据第二深度估计特征,生成样本图像对应的预测深度图像;第二图像处理模型是参数数量较小的小模型,具备方便部署,资源成本低的优势,本申请实施例考虑到小模型的深度浅,特征表示能力受限,所以不仅根据预测深度图像以及标签深度图像对第二图像处理模型中的模型参数进行调整,还根据第一深度估计特征以及第二深度估计特征对第二图像处理模型中的模型参数进行调整,生成轻量图像处理模型,基于轻量图像处理模型对图像进行深度图像处理。上述可知,通过转移第一图像处理模型的准确深度估计特征(第一深度估计特征)给第二图像处理模型,不仅保留了第二图像处理模型资源耗费较少,方便部署的优势,还提高了第二图像处理模型提取样本图像深度估计特征的准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种系统架构示意图;
图2是本申请实施例提供的一种图像处理的场景示意图;
图3a是本申请实施例提供的一种图像处理方法的流程示意图;
图3b是本申请实施例提供的一种图像处理方法的流程示意图;
图4是本申请实施例提供的一种图像处理方法的流程示意图;
图5a是本申请实施例提供的一种图像处理的场景示意图;
图5b是本申请实施例提供的一种图像处理模型的结构示意图;
图5c是本申请实施例提供的一种图像处理模型的结构示意图;
图5d是本申请实施例提供的一种图像处理方法的结构示意图;
图6是本申请实施例提供的一种图像处理的场景示意图;
图7是本申请实施例提供的一种图像处理装置的结构示意图;
图8是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解,首先对部分名词进行以下简单解释:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
卷积神经网络(Convolutional Neural Network,CNN)是首个真正被成功训练的深层神经网络,是影响深度学习的典型代表,卷积神经网络主要由输入层、卷积层、池化层、全连接层以及输出层组成。在卷积神经网络中,图像通过多个连续的卷积层和池化层进行特征提取,逐步将低层特征变为高层特征。
深度估计大模型:用于深度估计的耗时久和效果好的深度神经模型。
深度估计小模型:用于深度估计的耗时短和效果欠佳的深度神经模型。
知识蒸馏:约束深度估计小模型的估计特征和深度估计大模型的估计特征之间的相似性,让深度估计小模型从深度估计大模型中学习特征提取能力。
本申请实施例提供的方案涉及人工智能的计算机视觉技术以及深度学习等技术,具体过程通过如下实施例进行说明。
请参见图1,图1是本申请实施例提供的一种系统架构示意图。如图1所示,该系统可以包括服务器10a以及用户终端集群,用户终端集群可以包括:用户终端10b、用户终端10c、...、用户终端10d,其中,用户终端集群之间可以存在通信连接,例如用户终端10b与用户终端10c之间存在通信连接,用户终端10b与用户终端10d之间存在通信连接,且用户终端集群中的任一用户终端可以与服务器10a存在通信连接,例如用户终端10b与服务器10a之间存在通信连接,用户终端10c与服务器10a之间存在通信连接,其中,上述的通信连接不限定连接方式,可以通过有线或无线通信方式进行直接或间接地连接,也可以通过其他方式,本申请在此不做限制。
服务器10a通过通信连接为用户终端集群提供服务,当用户终端(可以是用户终端10b、用户终端10c或用户终端10d)获取到图像,并需要对该图像进行处理时,例如深度估计,用户终端可以将图像发送至服务器10a。服务器10a接收到用户终端所发送的图像后,基于提前训练好的轻量图像处理模型对图像进行深度估计,得到图像对应的深度图像。后续,服务器10a可以将生成的深度图像发送至用户终端,以及将图像以及深度图像关联存储在数据库中。用户终端接收到服务器10a发送的深度图像后,可以在屏幕显示该深度图像,并通过深度图像中每个像素点的值获取图像中每个像素点与中心像素点之间的距离,例如,图像是枪战游戏图像,深度图像可以表征枪战游戏图像中不同物体与游戏角色之间的距离,用户终端可以根据深度图像规划游戏角色的游戏路线以及游戏行为,以此提升枪战游戏人工智能的效果,进而提升游戏用户在游戏中的体验感。
其中,对图像进行深度估计是指对图像中的每个像素点与图像中的中心像素点进行距离估计,因此基于深度估计所生成的深度图像中每个像素点的值均对应着图像中像素点与中心像素点之间的距离,例如,图像是枪战游戏图像,则深度图像可以表征枪战游戏图像中每个像素点与游戏角色(即中心像素点)之间的距离,其中,游戏角色是指用户终端所操控的角色,该游戏角色可以在游戏界面中以第一人称或第三人称的方式呈现。
可选的,若用户终端的本地存储了训练好的轻量图像处理模型,则用户终端可以在本地将图像处理为深度图像,再根据深度图像进行后续处理。其中,由于训练轻量图像处理模型涉及到大量的离线计算,因此用户终端本地的轻量图像处理模型可以是由服务器10a训练完成后发送至用户终端。
可以理解的是,本申请实施例所提供的方法可以由计算机设备执行,计算机设备包括但不限于终端或服务器。本申请实施例中的服务器10a可以为计算机设备。上述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。上述终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
其中,图1中的用户终端10b、用户终端10c以及用户终端10d可以包括手机、平板电脑、笔记本电脑、掌上电脑、智能音响、移动互联网设备(MID,mobile internet device)、POS(Point Of Sales,销售点)机、可穿戴设备(例如智能手表、智能手环等)等。
下述以对枪战游戏图像进行深度估计为例(可以是在服务器10a中处理,也可以是在用户终端中处理),进行叙述,请参见图2,图2是本申请实施例提供的一种图像处理的场景示意图。游戏用户B点击用户终端10b中已安装完毕的枪战游戏A,然后用户终端10b的显示屏可以显示针对枪战游戏A的游戏操纵界面100a,游戏用户B可以对游戏操纵界面100a进行截屏获取一张枪战游戏图像,如图3a所示,用户终端10b响应游戏用户B针对游戏操纵界面100a的截屏操作,生成一张待确定枪战游戏图像,若游戏用户B想要放弃对待确定枪战游戏图像的保存,则可以点击显示屏中的“×”控件100c,则用户终端10b会退出截屏界面,返回至游戏操纵界面100a,若游戏用户B点击显示屏中的“√”控件100b,则用户终端10b可以将待确定枪战游戏图像确定为待处理枪战游戏图像,并保存至本地。可以理解的是,此处是以截屏获取待处理枪战游戏图像示例说明,实际上,获取待处理枪战游戏图像的方法有很多,本申请实施例不限定方法。
考虑到神经网络(本申请实施例是指轻量图像处理模型20a)的输入层可能对图像尺寸大小有固定要求,故在将待处理枪战游戏图像输入轻量图像处理模型20a前,先对待处理枪战游戏图像进行缩放处理,即进行图像尺寸调整,可以采用传统算法对待处理枪战游戏图像进行缩放,可以包括最近邻插值、三次样条插值、线性插值以及区域插值等传统算法,还可以采用小型神经网络对待处理枪战游戏图像进行上采样或下采样,实现尺寸缩放,此处不限定调整图像尺寸大小的方法,根据实际应用选择合适的算法即可。将符合轻量图像处理模型20a输入层尺寸大小的待处理枪战游戏图像称作枪战游戏图像100d,如图2所示。
深度估计是训练枪战游戏AI的重要组成部分,通过深度估计,能得到游戏角色所处环境中不同物体与游戏角色之间的距离,基于深度图像,游戏AI能避免与障碍物发生不必要的碰撞,这样能提升游戏AI的效果。请再参见图2,枪战游戏图像100d包括目标对象以及障碍对象,其中,目标对象是指目标游戏角色100e,障碍对象可以包括枪战游戏图像100d中除了目标游戏角色100e之外的其他对象,如枪战游戏图像100d所示,障碍对象可以包括集装箱100g、游戏角色100f、车子以及房屋等对象。
需要说明的是,本申请实施例提供的轻量图像处理模型20a是基于知识蒸馏的方法所生成的模型。总所周知,神经网络随着深度的增加(即网络层数变多),神经网络的特征提取能力越佳,图像处理效果越好,但是网络层数的增加,会使得神经网络的网络参数急速增加,进而神经网络的运行会变慢,且要耗费大量的硬件资源成本,所以存在难以部署的现实问题;浅层的神经网络耗费的硬件资源较少,方便深度估计模型的部署,但是浅层的神经网络的特征表示能力有限,估计的深度图像与真实的深度图像之间的差异较大,本申请实施例综合上述情况,提出一种新的图像处理模型训练方法,核心思想是转移深度估计大模型的深度估计特征给深度估计小模型,然后计算深度估计大模型的深度估计特征,以及深度估计小模型的深度估计特征之间的特征损失,通过特征损失来提升深度估计小模型的深度估计效果,请一并参见图3a,图3a是本申请实施例提供的一种图像处理方法的流程示意图。如图3a所示,该图像处理流程可以分为以下几个步骤:
步骤1:收集枪战游戏深度数据库。为了保证标签图像(本申请实施例特指标签深度图像)的可靠性,通过枪战游戏的接口自动采集枪战游戏图像和对应的深度图像,将游戏接口得到的深度图像作为标签深度图像,将收集的枪战游戏图像作为样本图像,根据样本图像以及标签深度图像得到枪战游戏深度数据库(即训练样本集)。
步骤2:训练深度估计大模型。收集完枪战游戏深度数据库后,将训练样本集输入复杂的深度估计大模型,通过深度估计大模型中的下采样层(包括卷积层以及池化层)提取样本图像的卷积特征,通过深度估计大模型中的上采样层增大卷积特征的尺度,生成样本图像的估计深度图像,通过将生成的估计深度图像和标签深度图像之间的差异最小化,来优化深度估计大模型的模型参数。
步骤3:基于知识蒸馏训练深度估计小模型。完成深度估计大模型的训练后,将训练样本集输入深度估计小模型,通过深度估计小模型中的下采样层提取样本图像的卷积特征,通过深度估计小模型中的上采样层增大卷积特征的尺度,生成样本图像的预测深度图像,与此同时,转移深度估计大模型的深度估计特征给深度估计小模型,提升深度估计小模型的深度估计效果,深度估计小模型的模型损失值不仅仅与预测深度图像以及标签深度图像关联,还与深度估计大模型的深度估计特征以及深度估计小模型的深度估计特征关联。根据模型损失值不断优化深度估计小模型的模型参数,直至深度估计小模型满足收敛条件,将满足收敛条件的深度估计小模型确定为轻量图像处理模型20a。
基于知识蒸馏的轻量化枪战游戏深度估计方法,主要解决的问题是如何从臃肿、难以部署的深度估计大模型中转移知识到的深度估计小模型,通过这种方式提升深度估计小模型的深度估计效果,同时深度估计小模型耗费的硬件资源较少,方便轻量图像处理模型20a的部署。
步骤4:生成枪战游戏深度图像。根据上述步骤1-步骤3的过程,可以得到轻量图像处理模型20a,其兼具了深度估计大模型以及深度估计小模型的优点,且避开了上述两个模型的缺陷。通过轻量图像处理模型20a,可以得到枪战游戏图像100d对应的深度图像100h,能为AI提供不同障碍对象与目标游戏角色100e之间的距离,有助于AI规避前方的障碍物。
请再参见图2,生成深度图像100h的具体过程如下所述:将枪战游戏图像100d输入轻量图像处理模型20a,轻量图像处理模型20a包括输入层20b、下采样层20d、上采样层20f以及输出层20h,通过输入层20b,将枪战游戏图像100d变成图像原始矩阵20c,通过下采样层20d提取图像原始矩阵20c中的深度特征信息20e,其中,下采样层20d包括多个卷积层、池化层以及激活层;将深度特征信息20e输入上采样层20f以扩充深度特征信息20e的尺寸大小,同时,降低深度特征信息20e的通道数量,生成与图像原始矩阵20c同样尺寸大小的深度特征矩阵20g,最后通过输出层生成上述枪战游戏图像100d对应的深度图像100h;深度图像100h用于表征枪战游戏图像100d中障碍对象与目标对象(即图2中的目标游戏角色100e)之间的距离。
本申请实施例仅以集装箱100g以及游戏角色100f为例示意说明,其余障碍对象可以参照下述过程,根据深度图像100h,获取集装箱100g与目标游戏角色100e之间的第一距离,获取游戏角色100f与目标游戏角色100e之间的第二距离;从第一距离以及第二距离中确定最小距离,将最小距离对应的障碍对象确定为目标障碍对象;假设第一距离大于第二距离,且第二距离小于系统设置的距离阈值,则可以确定目标游戏角色100e处于危险的情况,需要将目标游戏角色100e的游戏行为切换为攻击状态,攻击状态用于指示目标游戏角色100e攻击游戏角色100f(在确定游戏角色100f为敌方的情况下);若第二距离大于距离阈值且目标游戏角色100e的当前状态为运动状态,则可以确定目标游戏角色100e处于安全状态,此时,目标游戏角色100e的游戏行为可以为保持运动状态。
综合上述,生成深度图像100h的过程可以参见图3b,图3b是本申请实施例提供的一种图像处理方法的流程示意图。如图3b所示,该图像处理方法可以分为以下5个步骤:
步骤a、截取枪战游戏图像。
如图2所示,本申请实施例是以对游戏操纵界面100a进行截屏获取枪战游戏图像100d为例进行叙述,实际上,可以根据实际场景获取枪战游戏图像100d,此处不限定获取方法。
步骤b、缩放至模型指定大小。
由于模型在训练时,就需要规定输入层的尺寸大小,或者在输入层的前面添加一个预处理层,用来对输入到模型的图像进行统一的尺寸调整。
步骤c、输入深度估计轻量化模型。
深度估计轻量化模型是指图2中的轻量图像处理模型20a,该模型由上述的深度估计小模型训练生成,本申请实施例采用知识蒸馏的方式,首先收集大规模的深度数据库,训练深度估计大模型。随后,让深度估计轻量化模型从训练好的深度估计大模型中学习知识,以提升深度估计的效果。同时,深度估计轻量化模型能节约硬件资源,减少深度估计耗费的时间。
步骤d、生成深度图像。
根据步骤c中的深度估计轻量化模型得到枪战游戏图像100d对应的深度图像100h。
步骤e、游戏人工智能。
由于深度图像100h中每个像素的值代表该像素与目标游戏角色100e之间的距离,距离越近,对应的像素值越小,所以根据深度图像100h能得到目标游戏角色100e所处环境中不同物体与其之间的距离,进而可以训练游戏AI避免与障碍物发生碰撞,提升游戏AI的效果。
进一步地,请参见图4,图4是本申请实施例提供的一种图像处理方法的流程示意图。如图4所示,该图像处理过程包括如下步骤:
步骤S101,获取样本图像以及样本图像对应的标签深度图像。
具体的,调用系统功能接口,通过系统功能接口获取采样频率,按照采样频率在第一时刻对系统数据库进行图像采样,生成第一采样图像,以及与第一采样图像对应的第一采样深度图像;按照采样频率在第二时刻对系统数据库进行图像采样,生成第二采样图像,以及与第二采样图像对应的第二采样深度图像,第二时刻晚于第一时刻,且采样频率对应的采样时间间隔为第二时刻与第一时刻之间的时间间隔;将第一采样图像、第二采样图像,确定为样本图像,将第一采样深度图像以及第二采样深度图像确定为标签深度图像。
本申请实施例以生成游戏图像的深度图像为例进行说明,请一并参见图5a,图5a是本申请实施例提供的一种图像处理的场景示意图。如图5a所示,游戏用户在用户终端10b的游戏操纵界面上控制游戏角色100e,在游戏地图中的不同位置移动,通过游戏服务器提供的系统功能接口采集游戏图像以及游戏图像对应的深度图像,为了避免采样的游戏图像之间的冗余度过大,需要合理设置采样频率。
T0时刻,游戏角色100e所处的场景可以包括树以及房数,游戏角色100e处于快速运动状态,且游戏角色100e的后面有房屋,下面有树,因此游戏用户可以控制游戏角色100e往前面继续行走或跑步,T1时刻(第一时刻),系统对游戏操纵界面所显示的游戏场景(系统数据库)进行采样,生成游戏图像30a(第一采样图像)以及深度图像30b(第一采样深度图像),虽然T1时刻游戏角色100e所处的场景也包括房屋以及树,但明显地,T1时刻游戏角色100e所处的场景与T0时刻游戏角色100e所处的场景不一致,此时,游戏角色100e处于行走状态,且游戏角色100e的后面有房屋,因此游戏用户可以控制游戏角色100e继续往前面行走或跑步,如图5a所示。
按照采样频率,T2时刻(第二时刻),系统对游戏操纵界面所显示的游戏场景再次进行采样,生成游戏图像30c(第二采样图像)以及深度图像30d(第二采样深度图像),T2时刻游戏角色100e所处的场景包括汽车以及树,明显地,T2时刻游戏角色100e所处的场景与T1时刻游戏角色100e所处的场景不一致,其中,第二时刻晚于第一时刻,且采样频率对应的采样时间间隔为第二时刻与第一时刻之间的时间间隔,例如采样频率是1秒一帧,则第一时刻早于第二时刻1秒。
将游戏图像30a以及游戏图像30c确定为样本图像,将深度图像30b以及深度图像30d确定为标签深度图像。
可以理解的是,系统功能接口得到的深度图像(也包括图5a中的深度图像30b以及深度图像30d)的大小与对应的游戏图像(也包括图5a中的游戏图像30a以及游戏图像30c)大小一致,深度图像中每个像素的值代表该像素与游戏角色100e之间的距离,距离越近,对应的值越小,因此在显示该深度图像时,距离游戏角色100e越近的对象越黑,距离游戏角色100e越远的对象越白,如图5a所示。为了降低深度估计模型的训练难度以及降低训练时间,可以减小深度值的动态范围,例如将深度图像的取值范围设为0到100,将超过100的深度值强制转换为100。
步骤S102,将样本图像输入已训练完成的第一图像处理模型,得到样本图像对应的第一深度估计特征。
具体的,获取第一样本图像处理模型;第一图像处理模型包括第一下采样层以及第一上采样层,将样本图像输入第一样本图像处理模型的输入层,得到样本图像对应的第一原始估计特征;通过第一下采样层对第一原始估计特征进行卷积处理以及池化处理,得到样本图像对应的第一初始估计特征;通过第一上采样层对第一初始估计特征进行反卷积处理,得到第一深度估计特征;根据第一深度估计特征,生成样本图像对应的估计深度图像;根据估计深度图像以及标签深度图像,确定第一样本图像处理模型的样本模型损失值;根据样本模型损失值对第一样本图像处理模型中的模型参数进行调整,当调整后的第一样本图像处理模型满足模型收敛条件时,将调整后的第一样本图像处理模型确定为已训练完成的第一图像处理模型。
首先叙述训练第一样本图像处理模型得到训练完成的第一图像处理模型的过程,请一并参见图5b,图5b是本申请实施例提供的一种图像处理模型的结构示意图。图5b是第一图像处理模型,即训练好的第一样本图像处理模型,的简化结构,如图5b所示,该结构包括特征提取模块以及上采样层,需要理解的是,图5b中没有列出第一图像处理模型的输入层、输出层以及基本层,例如激活层、标准化层等,但实际应用时,基本层十分重要,本申请实施例是以激活层以及标准化层示例,不代表图5b所示的第一图像处理模型不包括一般神经网络的基本结构。
获取第一样本图像处理模型,由于神经网络的输入层的尺寸大小基本固定,因此在将步骤S101中的样本图像输入第一样本图像处理模型前,先将样本图像的尺寸大小进行缩放,例如第一样本图像处理模型的输入层尺寸为640*480,则将样本图像的尺寸大小调整至640*480,其中,图5b中所示的“640*480*3”中的“3”是指样本图像的维度为3,或者理解成样本图像输入到输入层的原始估计特征的通道数量为3。其中,调整样本图像尺寸大小的方法可以采用传统算法,例如最近邻插值、三次样条插值、线性插值以及区域插值等传统算法,还可以采用小型神经网络对样本图像进行上采样或下采样,实现尺寸缩放,此处不限定调整样本图像尺寸大小的方法,根据实际应用选择合适的算法即可。
将样本图像输入第一样本图像分割模型中的输入层,得到样本图像对应的第一原始估计特征,由图5b可知,第一原始估计特征的特征通道数为3;随后,将第一原始估计特征输入特征提取模块(即第一下采样层),其中,图5b中的特征提取模块包括卷积层以及池化层,卷积层从第一原始图像特征中学习一些特征信息,也就是说,对第一原始图像特征中的特征信息做卷积运算,从而获得样本图像不同位置上最显著的特征信息。在做完卷积运算后,已经提取到样本图像的特征信息,但仅仅通过卷积运算提取的特征数量大,为了减少计算量,还需进行池化运算,也就是将从样本图像中通过卷积运算提取的特征信息传输至池化层,对提取的特征信息进行聚合统计,这些统计特征信息的数量级要远远低于卷积运算提取到的特征信息的数量级,同时还会提高分割效果。常用的池化方法包括但不限于平均池化运算方法和最大池化运算方法,平均池化运算方法是在一个特征信息集合里计算出一个平均特征信息代表该特征信息集合的特征;最大池化运算是在一个特征信息集合里提取出最大特征信息代表该特征信息集合的特征。
其中,特征提取模块可以是通用的深度卷积神经网络或基于卷积神经网络构建的深度大模型,这里的深度大模型指模型参数数量多、下采样层层数多,在本申请实施例中,以ImageNet数据库下训练的dense169模型作为第一样本图像处理模型的特征提取模块,其中,dense169模型是在2017年提出的图像分类模型,其取得最优的图像分类精度。在构建第一样本图像处理模型时,去除dense169模型最后的全连接层,因为全连接层输出的是类别的概率,而本实施例需要的是图像的卷积特征。将预训练模型的参数作为特征提取模块的初始化参数,需要理解的是,预训练模型指的是用ImageNet数据库训练的denseNet169模型。
通过特征提取模块得到样本图像对应的初始估计特征,然后将上述的初始估计特征输入上采样层,如图5b所示,本申请实施例示意的第一样本图像处理模型采用5个上采样层还原初始估计特征的宽高,上采样层1的输入是特征提取模块生成的初始估计特征,上采样层1中的反卷积核的尺寸大小为4,移动步长为2,每个反卷积核的深度或维度等同于初始估计特征的维度,共有640个反卷积核,所以输出的估计特征维度为640,也可以理解成上采样层1输出的估计特征图有640个;将上采样层1所生成的640维估计特征输入上采样层2,由图5b可知,上采样层2中的反卷积核的尺寸大小为4,移动步长为2,每个反卷积核的深度或维度等于640,共有480个反卷积核,所以输出的估计特征维度为480;将上采样层2所生成的480维估计特征输入上采样层3,上采样层3中的反卷积核的尺寸大小为4,移动步长为2,每个反卷积核的深度或维度等于480,共有320个反卷积核,所以输出的估计特征维度为320;将上采样层3所生成的320维估计特征输入上采样层4,由图5b可知,上采样层4中的反卷积核的尺寸大小为4,移动步长为2,每个反卷积核的深度或维度等于320,共有240个反卷积核,所以输出的估计特征维度为240;将上采样层4所生成240维估计特征输入上采样层5,上采样层5中的反卷积核的尺寸大小为4,移动步长为2,每个反卷积核的深度或维度等于240,只有1个反卷积核,所以输出的估计特征维度为1,最后通过输出层输出与上采样层5所生成的估计特征相关联的估计深度图像,由图5b可知,第一样本图像处理模型生成的估计深度图像的图像尺寸大小等同于样本图像的尺寸大小,但样本图像是彩色图像,所以为3维图像,估计深度图像用于表征样本图像中每个像素点与目标对象之间的距离,为1维图像。
其中,下采样层(即图5b中的特征提取模块)和上采样层(包括图5b中示意的上采样层1、上采样层2、上采样层3、上采样层4以及上采样层5)后都会接一个激活层,激活层的目的是增加非线性,不添加的话,多个下采样层等同于一个卷积层,只是后续为了显示方便,结构示意图省去了激活层,常用的激活函数有Sigmod函数、Tanh函数、修正线性单元(Rectified Linear Unit,Relu)函数等,其中,ReLU函数具备以下优势:
(1)、ReLU函数解决了梯度消失的问题,至少输入在正区间内,神经元不会饱和;
(2)、由于ReLU线性、非饱和的形式,在随机梯度下降(stochastic gradientdescent,SGD)中能够快速收敛;
(3)、算法速度要快很多,ReLU函数只有线性关系,不需要指数计算,不管在前向传播还是反向传播,计算速度都比sigmoid函数和tanh函数快。
通过上述第一样本图像处理模型得到估计深度图像之后,还要减少估计深度图像与标签深度图像的像素差异,因此,第一样本图像处理模型的目标是生成的估计深度图像与标签深度图像尽量一致,损失公式如下公式(1)所示:
其中,n是样本图像的像素个数,yp是标签深度图像中第p个像素对应的值,y'p是估计深度图像中第p个像素对应的值,该损失的目标是减少估计深度图像与标签深度图像的像素差异。
根据上述损失值对第一样本图像处理模型中的模型参数进行调整,即不断的迭代运行,当调整后的第一样本图像处理模型满足模型收敛条件时,将调整后的第一样本图像处理模型确定为已训练完成的第一图像处理模型。可选的,系统设置第一样本图像处理模型的迭代次数阈值,当迭代次数等于迭代次数阈值时,停止第一样本图像处理模型的训练。
第一图像处理模型训练完成时,将上采样层1所生成的估计特征1A、上采样层2所生成的估计特征2A、上采样层3所生成的估计特征3A、上采样层4所生成的估计特征4A、上采样层5所生成的估计特征5A确定为第二深度估计特征。
步骤S103,将样本图像输入第二图像处理模型,得到样本图像对应的第二深度估计特征,根据第二深度估计特征,生成样本图像对应的预测深度图像;第二图像处理模型中的模型参数数量小于第一图像处理模型中的模型参数数量。
具体的,第二图像处理模型包括第二下采样层以及第二上采样层,获取第二图像处理模型,将样本图像输入第二图像处理模型的输入层,得到样本图像对应的第二原始估计特征;通过第二下采样层对第二原始估计特征进行卷积处理以及池化处理,得到样本图像对应的第二初始估计特征;通过第二上采样层对第二初始估计特征进行反卷积处理,得到第二深度估计特征。
得到训练好的第一图像处理模型后,本申请实施例设计第二图像处理模型,上述的第一图像处理模型是图2实施例中所述的深度估计大模型,第二图像处理模型是图2实施例中所述的深度估计小模型。由于深度估计大模型处理图像耗费的时间较久,不方便部署,深度估计小模型的目的就是降低模型的计算量,提升深度估计的速度。
请一并参见图5c,图5c是本申请实施例提供的一种图像处理模型的结构示意图。如图5c所示,该结构包括5个下采样层以及5个上采样层,其中,以下采样层1、下采样层2、下采样层3、下采样层4以及下采样层5组成编码器,以图5c中的上采样层1、上采样层2、上采样层3、上采样层4以及上采样层5组成解码器。与图5b中第一图像处理模型一样,图5c中没有列出输入层、输出层以及基本层,但实际应用时,第二图像处理模型会包括输入层、输出层以及基本层。同理,在将步骤S101中的样本图像输入第二图像处理模型前,先将样本图像的尺寸大小进行缩放,此过程与步骤S102一致,所以此处不再进行赘述,请参照步骤S102。
对样本图像进行下采样特征提取,得到尺寸较小,语义信息丰富的编码图;然后在利用对编码器得到的编码图像(特征矩阵)进行上采样,得到与样本原图尺寸大小一致的预测深度图像。具体过程请参见图5c,将样本图像输入第二图像处理模型的输入层,得到样本图像对应的第二原始估计特征,将第二原始估计特征输入下采样层1,下采样层1中的卷积核的尺寸大小为4,移动步长为2,每个卷积核的深度或维度等同于第二原始估计特征的维度,共有120个卷积核,所以输出的初始估计特征1的特征维度为120,也可以理解成下采样层1输出的估计特征图有120个;将下采样层1所生成的120维初始估计特征1输入下采样层2,由图5c可知,下采样层2中的卷积核的尺寸大小为4,移动步长为2,每个卷积核的深度或维度等于初始估计特征1的维度,共有240个卷积核,所以输出的初始估计特征2的特征维度为240;将下采样层2所生成的240维初始估计特征2输入下采样层3,下采样层3中的卷积核的尺寸大小为4,移动步长为2,每个卷积核的深度或维度等于初始估计特征2的维度,即240维,共有320个卷积核,所以输出的初始估计特征3的特征维度为320;将下采样层3所生成的320维初始估计特征3输入下采样层4,由图5c可知,下采样层4中的卷积核的尺寸大小为4,移动步长为2,每个卷积核的深度或维度等于320,共有480个卷积核,所以输出的初始估计特征4的特征维度为480;将下采样层4所生成480维初始估计特征4输入下采样层5,下采样层5中的卷积核的尺寸大小为4,移动步长为2,每个卷积核的深度或维度等于初始估计特征4的特征维度,即480维,共有640个卷积核,所以输出的初始估计特征维度为640。
图5c中的下采样层(包括下采样层1、下采样层2、下采样层3下采样层4以及下采样层5)可以包括卷积层以及池化层,上述可知,样本图像通过多个连续的卷积层和池化层进行特征提取,逐步将低层特征变为高层特征,通过连续的卷积操作和池化操作(子采样)可以增加更深层次的网络的感受野,捕获更多上下文信息。第二初始估计特征包括上述的初始估计特征1、初始估计特征2、初始估计特征3、初始估计特征4以及初始估计特征5。
请再参见图5c,将下采样层5所生成的初始估计特征5输入上采样层1,上采样层1中的反卷积核的尺寸大小为4,移动步长为2,每个反卷积核的深度或维度等同于初始估计特征5的维度,共有640个反卷积核,所以输出的估计特征1a维度为640,也可以理解成上采样层1输出的估计特征图有640个;将上采样层1所生成的640维估计特征1a输入上采样层2,由图5c可知,上采样层2中的反卷积核的尺寸大小为4,移动步长为2,每个反卷积核的深度或维度等于640,共有480个反卷积核,所以输出的估计特征2a维度为480;将上采样层2所生成的480维估计特征2a输入上采样层3,上采样层3中的反卷积核的尺寸大小为4,移动步长为2,每个反卷积核的深度或维度等于480,共有320个反卷积核,所以输出的估计特征3a维度为320;将上采样层3所生成的320维估计特征3a输入上采样层4,由图5c可知,上采样层4中的反卷积核的尺寸大小为4,移动步长为2,每个反卷积核的深度或维度等于320,共有240个反卷积核,所以输出的估计特征4a维度为240;将上采样层4所生成240维估计特征4a输入上采样层5,上采样层5中的反卷积核的尺寸大小为4,移动步长为2,每个反卷积核的深度或维度等于240,只有1个反卷积核,所以输出的估计特征5a维度为1,最后通过输出层输出与上采样层5所生成的估计特征5a相关联的预测深度图像,由图5c可知,第二图像处理模型生成的预测深度图像的图像尺寸大小等同于样本图像的尺寸大小,但样本图像是彩色图像,所以为3维图像,预测深度图像用于表征样本图像中每个像素点与目标对象之间的距离,为1维图像。
将第二图像处理模型的上采样层1中得到估计特征1a、上采样层2中得到估计特征2a、上采样层3中得到估计特征3a、上采样层4中得到估计特征4a以及上采样层4中得到估计特征4a确定为第二深度估计特征。
由于线性模型的表达能力不够,因此下采样层和上采样层后需要使用激活函数(激活层),以加入非线性因素,后续为了显示方便,图5c所示的结构图省去了激活层。
步骤S104,根据第一深度估计特征、第二深度估计特征、预测深度图像以及标签深度图像,对第二图像处理模型中的模型参数进行调整,生成轻量图像处理模型,基于轻量图像处理模型对图像进行深度图像处理。
具体的,第一深度估计特征包括第一深度估计特征Wi以及第一深度估计特征Wi+1,第二深度估计特征包括第二深度估计特征Pi以及第二深度估计特征Pi+1,i为正整数;根据第一深度估计特征Wi以及第二深度估计特征Pi,确定第二图像处理模型中第二上采样层Ci的蒸馏特征损失值Si,其中,第一深度估计特征Wi为第一图像处理模型中的第一上采样层Di输出的深度估计特征,第二深度估计特征Pi为第二上采样层Ci输出的深度估计特征。
根据第一深度估计特征Wi+1以及第二深度估计特征Pi+1,确定第二图像处理模型中第二上采样层Ci+1的蒸馏特征损失值Si+1,其中,第一深度估计特征Wi为第一图像处理模型中的第一上采样层Di+1输入的深度估计特征,第一深度估计特征Wi+1为第一上采样层Di+1输出的深度估计特征,第二深度估计特征Pi为第二上采样层Ci+1输入的深度估计特征,第二深度估计特征Pi+1为第二上采样层Ci+1输出的深度估计特征;根据蒸馏特征损失值Si以及蒸馏特征损失值Si+1,确定第二图像处理模型的蒸馏特征损失值。
根据预测深度图像以及标签深度图像,确定第二图像处理模型的深度误差损失值;根据蒸馏特征损失值以及深度误差损失值,确定模型损失值;根据模型损失值对第二图像处理模型中的模型参数进行调整,当调整后的第二图像处理模型满足模型收敛条件时,将调整后的第二图像处理模型确定为轻量图像处理模型。
可选的,获取图像,将图像输入轻量图像处理模型,轻量图像处理模型包括下采样层以及上采样层;通过下采样层提取图像中的深度特征信息,将深度特征信息输入上采样层,通过上采样层生成图像对应的深度图像;图像包括目标对象以及障碍对象,深度图像用于表征障碍对象与目标对象之间的距离,障碍对象包括第一障碍对象以及第二障碍对象。
根据深度图像,获取图像中第一障碍对象与目标对象之间的第一距离,获取图像中第二障碍对象与目标对象之间的第二距离;从第一距离以及第二距离中确定最小距离,将最小距离对应的障碍对象确定为目标障碍对象;若最小距离大于距离阈值且目标对象的当前状态为运动状态,则确定目标对象的目标行为为保持运动状态;若最小距离小于或等于距离阈值,且目标对象的当前状态为运动状态,则识别目标障碍对象的对象类别;对象类别包括虚拟物品类别以及虚拟角色类别;若目标障碍对象的对象类别为虚拟物品类别,则将目标对象的目标行为切换为停止运动状态;若目标障碍对象的对象类别为虚拟角色类别,则将目标对象的目标行为切换为攻击状态;攻击状态用于指示目标对象攻击目标障碍对象。
根据步骤S102以及步骤S103可知,第一图像处理模型是图2实施例中所述的深度估计大模型,第二图像处理模型是图2实施例中所述的深度估计小模型,由于第二图像处理模型的模型深度浅,提取深度特征的能力有限,本申请实施例通过将第二图像处理模型和第一图像处理模型之间的估计特征的差异最小化,来提升第二图像处理模型的深度估计效果。
为了实现知识蒸馏,将训练完毕的第一图像处理模型的第一深度估计特征分别输入至第二图像处理模型对应的上采样层,其目标是第一图像处理模型的5个上采样层输出的估计特征,与第二图像处理模型的5个上采样层的输出的估计特征相似,请一并参见图5d,图5d是本申请实施例提供的一种图像处理方法的结构示意图。上述的第一深度估计特征包括第一图像处理模型中的上采样层1输出的估计特征1A、上采样层2输出的估计特征2A、上采样层3输出的估计特征3A、上采样层4输出的估计特征4A以及上采样层5输出的估计特征5A,上述的第二深度估计特征包括第二图像处理模型中的上采样层1输出的估计特征1a、上采样层2输出的估计特征2a、上采样层3输出的估计特征3a、上采样层4输出的估计特征4a以及上采样层5输出的估计特征5a。
根据第一深度估计特征以及第二深度估计特征,确定第二图像处理模型的蒸馏特征损失值,请再参见图5d,将第一图像处理模型中的上采样层1输出的估计特征1A输入第二图像处理模型中的上采样层1中,得到估计特征1A与估计特征1a之间的第一子误差;将第一图像处理模型中的上采样层2输出的估计特征2A输入第二图像处理模型中的上采样层2中,得到估计特征2A与估计特征2a之间的第二子误差;将第一图像处理模型中的上采样层3输出的估计特征3A输入第二图像处理模型中的上采样层3中,得到估计特征3A与估计特征3a之间的第三子误差;将第一图像处理模型中的上采样层4输出的估计特征4A输入第二图像处理模型中的上采样层4中,得到估计特征4A与估计特征4a之间的第四子误差;将第一图像处理模型中的上采样层5输出的估计特征5A输入第二图像处理模型中的上采样层5中,得到估计特征5A与估计特征5a之间的第五子误差,根据第一子误差、第二子误差、第三子误差、第四子误差以及第五子误差确定第二图像处理模型的蒸馏特征损失值。
根据第一深度估计特征、第二深度估计特征、预测深度图像以及标签深度图像,确定第二图像处理模型的模型损失值,即根据上述的蒸馏特征损失值以及,由预测深度图像以及标签深度图像所生成的深度误差损失值,确定第二图像处理模型的模型损失值,根据模型损失值对第二图像处理模型中的模型参数进行调整,生成轻量图像处理模型。
综合上述,训练第二图像处理模型的损失由两种损失组成,如公式(2)所示:
L=Ldep(y,y')+Lat(f,f') (2)
第一种损失的目标是第二图像处理模型生成预测深度图像与标签深度图像尽量一致,第二种损失的目标是第二图像处理模型的上采样层输出的第二深度估计特征,和第一图像处理模型的上采样层输出的第一深度估计特征尽量相似。其中,公式(2)中y代表标签深度图像,y’代表预测深度图像,Ldep(y,y')代L表两个深度图像之间的像素差的绝对值,f代表第二图像处理模型的上采样层输出的第二深度估计特征,f'代表第一图像处理模型的上采样层输出的第一深度估计特征,Lat(f,f')代表两个深度估计特征之间差的绝对值,将其看作知识蒸馏损失值。本申请实施例根据第一图像处理模型和第二图像处理模型在5个上采样层输出的深度估计特征计算知识蒸馏损失,通过最小化两个深度估计特征之间的差异,能将第一图像处理模型学习的深度特征转移给第二图像处理模型,让其学习表达能力更强的深度特征,从而提升深度估计的效果。
根据上述模型损失值对第二图像处理模型中的模型参数进行调整,即不断的迭代运行,当调整后的第二样本图像处理模型满足模型收敛条件时,将调整后的第二样本图像处理模型确定为轻量图像处理模型。可选的,系统设置第二图像处理模型的迭代次数阈值,当迭代次数等于迭代次数阈值时,停止第二图像处理模型的训练,确定轻量图像处理模型。
基于轻量图像处理模型对图像进行深度图像处理,请再参见图2所对应的实施例,通过轻量图像处理模型20a可以生成枪战游戏图像100d的深度图像100h,具体生成过程请参见图2对应的实施例,生成其他类型的图像的深度图像亦如此,所以此处不再进行赘述。根据深度图像100h,获取枪战游戏图像100d中障碍对象与目标对象之间的距离,障碍对象可以包括图2中的集装箱100i、游戏角色100j以及车子等障碍物,目标对象是指枪战游戏图像100d中的目标游戏角色100k,根据每个障碍对象与目标对象之间的距离确定目标对象的目标行为。具体过程为:获取图像中第一障碍对象与目标对象之间的第一距离,获取图像中第二障碍对象与目标对象之间的第二距离;从第一距离以及第二距离中确定最小距离,将最小距离对应的障碍对象确定为目标障碍对象,假设第一障碍对象是图2中的游戏角色100j,第二距离为最小距离,所以游戏角色100j为目标障碍对象。若确定游戏角色100j为己方队友,此时,目标游戏角色100k可以保持当前游戏行为,假如目标游戏角色100k正在行走,则目标游戏角色100k可以继续行走;若确定游戏角色100j为敌方队友,此时,目标游戏角色100k需要改变当前游戏行为,假如目标游戏角色100k正在行走,则需要躲避游戏角色100j或者攻击游戏角色100j,防止自己被游戏角色100j伤害。
需要说明的是,在实际的枪战游戏场景中,目标游戏角色100k的目标行为十分丰富,本实施例是以简单行为进行说明。
可以理解的是,本申请实施例虽然是以枪战游戏场景进行叙述,但在实际应用时,可以用于文本分类、语音识别、行为分析等场景。请参见图6,图6是本申请实施例提供的一种图像处理的场景示意图。汽车智能化的普及可以很好的帮助驾驶员做出正确的驾驶行为,例如汽车后视镜的提示,在驾驶员倒车时,可以及时的提示驾驶员汽车后方情况。目前,无人驾驶得到了很好的发展,其主要是基于人工智能技术实现的,在生活中,我们也可以经常感受到基于无人驾驶的应用。如图6所示,无人驾驶汽车60a正在道路上前行,其装载有摄像设备60e,也安装有上述提及的轻量图像处理模型60h。无人驾驶汽车60a在自动驾驶时,通过摄像设备60e可以实时的监控并拍摄道路交通情况以及道路或道路附近的行人60d,然后生成道路图像60f,如图6所示,道路图像60f中可以包括斑马线60b、交通指示灯60c以及行人60d。摄像设备60e将道路图像60f发送至汽车人工智能60g,汽车人工智能60g获取到道路图像60f后,需要基于道路图像60f确定正确的驾驶行为,使得无人驾驶汽车60a可以避免交通事故,汽车人工智能60g调用轻量图像处理模型60h,将道路图像60f输入轻量图像处理模型60h,轻量图像处理模型60h生成道路图像60f的深度图像60i的具体过程可以参加图2对应的实施例或上述步骤S104对应的实施例,此处不再赘述。深度图像60i中的像素点的值表示道路图像60f中各个对象(包括斑马线60b、交通指示灯60c以及行人60d)与无人驾驶汽车60a之间的距离,假设斑马线60b(或者交通指示灯60c,或者行人60d)与无人驾驶汽车60a之间的距离已经小于汽车人工智能60g设置的距离阈值,则汽车人工智能60g可以确定无人驾驶汽车60a需要减速,防止交通事故的发生;当道路图像60f中的交通指示灯60c为红灯时,如图6所示,汽车人工智能60g可以确定无人驾驶汽车60a需要减速停车,当汽车人工智能60g根据上述驾驶行为(减速或者减速停车)控制无人驾驶汽车60a,如图6所示,无人驾驶汽车60a可以及时的停在斑马线60b前面,让行人60d可以安全地通过斑马线60b。
本申请实施例首先获取样本图像和样本图像对应的标签深度图像,然后将样本图像输入已训练完成的第一图像处理模型,得到样本图像对应的第一深度估计特征,由于第一图像处理模型是复杂的大模型,其模型参数数量多,特征表示能力高,所以第一图像处理模型生成的第一深度估计特征准确度高;随后,将样本图像输入第二图像处理模型,得到样本图像对应的第二深度估计特征,根据第二深度估计特征,生成样本图像对应的预测深度图像;第二图像处理模型是参数数量较小的小模型,具备方便部署,资源成本低的优势,本申请实施例考虑到小模型的深度浅,特征表示能力受限,所以不仅根据预测深度图像以及标签深度图像对第二图像处理模型中的模型参数进行调整,还根据第一深度估计特征以及第二深度估计特征对第二图像处理模型中的模型参数进行调整,生成轻量图像处理模型,基于轻量图像处理模型对图像进行深度图像处理。上述可知,通过转移第一图像处理模型的准确深度估计特征(第一深度估计特征)给第二图像处理模型,不仅保留了第二图像处理模型资源耗费较少,方便部署的优势,还提高了第二图像处理模型提取样本图像深度估计特征的准确度。
进一步地,请参见图7,图7是本申请实施例提供的一种图像处理装置的结构示意图。上述图像处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该图像处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图7所示,该图像处理装置1可以包括:第一获取模块11、第一输入模块12以及第二输入模块13。
第一获取模块11,用于获取样本图像以及样本图像对应的标签深度图像;
第一输入模块12,用于将样本图像输入已训练完成的第一图像处理模型,得到样本图像对应的第一深度估计特征;
第二输入模块13,用于将样本图像输入第二图像处理模型,得到样本图像对应的第二深度估计特征,根据第二深度估计特征,生成样本图像对应的预测深度图像;第二图像处理模型中的模型参数数量小于第一图像处理模型中的模型参数数量;
第二输入模块13,还用于根据第一深度估计特征、第二深度估计特征、预测深度图像以及标签深度图像,对第二图像处理模型中的模型参数进行调整,生成轻量图像处理模型,基于轻量图像处理模型对图像进行深度图像处理。
其中,第一获取模块11、第一输入模块12以及第二输入模块13的具体功能实现方式可以参见上述图4对应实施例中的步骤S101-步骤S104,这里不再进行赘述。
再请参见图7,第二输入模块13可以包括:第一确定单元131以及第二确定单元132。
第一确定单元131,用于根据第一深度估计特征、第二深度估计特征、预测深度图像以及标签深度图像,确定第二图像处理模型的模型损失值;
第二确定单元132,用于根据模型损失值对第二图像处理模型中的模型参数进行调整,当调整后的第二图像处理模型满足模型收敛条件时,将调整后的第二图像处理模型确定为轻量图像处理模型。
其中,第一确定单元131以及第二确定单元132的具体功能实现方式可以参见上述图4对应实施例中的步骤S104,这里不再进行赘述。
再请参见图7,第一确定单元131可以包括:第一确定子单元1311、第二确定子单元1312以及第三确定子单元1313。
第一确定子单元1311,用于根据第一深度估计特征以及第二深度估计特征,确定第二图像处理模型的蒸馏特征损失值;
第二确定子单元1312,用于根据预测深度图像以及标签深度图像,确定第二图像处理模型的深度误差损失值;
第三确定子单元1313,用于根据蒸馏特征损失值以及深度误差损失值,确定模型损失值。
其中,第一确定子单元1311、第二确定子单元1312以及第三确定子单元1313的具体功能实现方式可以参见上述图4对应实施例中的步骤S104,这里不再进行赘述。
再请参见图7,第一确定子单元1311,具体用于根据第一深度估计特征Wi以及第二深度估计特征Pi,确定第二图像处理模型中第二上采样层Ci的蒸馏特征损失值Si;其中,第一深度估计特征Wi为第一图像处理模型中的第一上采样层Di输出的深度估计特征;第二深度估计特征Pi为第二上采样层Ci输出的深度估计特征;
第一确定子单元1311,具体还用于根据第一深度估计特征Wi+1以及第二深度估计特征Pi+1,确定第二图像处理模型中第二上采样层Ci+1的蒸馏特征损失值Si+1;其中,第一深度估计特征Wi为第一图像处理模型中的第一上采样层Di+1输入的深度估计特征,第一深度估计特征Wi+1为第一上采样层Di+1输出的深度估计特征;第二深度估计特征Pi为第二上采样层Ci+1输入的深度估计特征,第二深度估计特征Pi+1为第二上采样层Ci+1输出的深度估计特征;
第一确定子单元1311,具体还用于根据蒸馏特征损失值Si以及蒸馏特征损失值Si+1,确定第二图像处理模型的蒸馏特征损失值。
其中,第一确定子单元1311的具体功能实现方式可以参见上述图4对应实施例中的步骤S104,这里不再进行赘述。
再请参见图7,拼接特征模块13可以包括:第一输入单元133、第一处理单元134以及第二处理单元135。
其中,第二输入模块13,包括:
第一输入单元133,用于获取第二图像处理模型,将样本图像输入第二图像处理模型的输入层,得到样本图像对应的第二原始估计特征;
第一处理单元134,用于通过第二下采样层对第二原始估计特征进行卷积处理以及池化处理,得到样本图像对应的第二初始估计特征;
第二处理单元135,用于通过第二上采样层对第二初始估计特征进行反卷积处理,得到第二深度估计特征。
其中,第一输入单元133、第一处理单元134以及第二处理单元135的具体功能实现方式可以参见上述图4对应实施例中的步骤S103,这里不再进行赘述。
再请参见图7,图像处理装置1,还可以包括:第二获取模块14、第一确定模块15以及第二确定模块16。
第二获取模块14,用于获取第一样本图像处理模型,将样本图像输入第一样本图像处理模型,得到样本图像对应的第一深度估计特征,根据第一深度估计特征,生成样本图像对应的估计深度图像;
第一确定模块15,用于根据估计深度图像以及标签深度图像,确定第一样本图像处理模型的样本模型损失值;
第二确定模块16,用于根据样本模型损失值对第一样本图像处理模型中的模型参数进行调整,当调整后的第一样本图像处理模型满足模型收敛条件时,将调整后的第一样本图像处理模型确定为已训练完成的第一图像处理模型。
其中,第二获取模块14、第一确定模块15以及第二确定模块16的具体功能实现方式可以参见上述图4对应实施例中的步骤S102,这里不再进行赘述。
再请参见图7,第二获取模块14可以包括:第二输入单元141、第三处理单元142、第四处理单元143以及第一生成单元144。
第二输入单元141,用于将样本图像输入第一样本图像处理模型的输入层,得到样本图像对应的第一原始估计特征;
第三处理单元142,用于通过第一下采样层对第一原始估计特征进行卷积处理以及池化处理,得到样本图像对应的第一初始估计特征;第一下采样层的层数量大于第二下采样层的层数量;
第四处理单元143,用于通过第一上采样层对第一初始估计特征进行反卷积处理,得到第一深度估计特征;
第一生成单元144,用于根据第一深度估计特征,生成样本图像对应的估计深度图像。
其中,第二输入单元141、第三处理单元142、第四处理单元143以及第一生成单元144的具体功能实现方式可以参见上述图4对应实施例中的步骤S102,这里不再进行赘述。
再请参见图7,第一获取模块11可以包括:第二生成单元111以及第三确定单元112。
第二生成单元111,用于调用系统功能接口,通过系统功能接口获取采样频率,按照采样频率在第一时刻对系统数据库进行图像采样,生成第一采样图像,以及与第一采样图像对应的第一采样深度图像;
第二生成单元111,还用于按照采样频率在第二时刻对系统数据库进行图像采样,生成第二采样图像,以及与第二采样图像对应的第二采样深度图像;第二时刻晚于第一时刻,且采样频率对应的采样时间间隔为第二时刻与第一时刻之间的时间间隔;
第三确定单元112,用于将第一采样图像、第二采样图像,确定为样本图像,将第一采样深度图像以及第二采样深度图像确定为标签深度图像。
其中,第二生成单元111以及第三确定单元112的具体功能实现方式可以参见上述图4对应实施例中的步骤S101,这里不再进行赘述。
再请参见图7,第二输入模块13可以包括:第三输入单元136、第三生成单元137以及第四确定单元138。
第三输入单元136,用于获取图像,将图像输入轻量图像处理模型;轻量图像处理模型包括下采样层以及上采样层;
第三生成单元137,用于通过下采样层提取图像中的深度特征信息,将深度特征信息输入上采样层,通过上采样层生成图像对应的深度图像;图像包括目标对象以及障碍对象,深度图像用于表征障碍对象与目标对象之间的距离;
第四确定单元138,用于根据深度图像,获取图像中障碍对象与目标对象之间的距离,根据距离确定目标对象的目标行为。
其中,第三输入单元136、第三生成单元137以及第四确定单元138的具体功能实现方式可以参见上述图4对应实施例中的步骤S104,这里不再进行赘述。
再请参见图7,第四确定单元138可以包括:获取距离子单元1381、第四确定子单元1382以及第五确定子单元1383。
获取距离子单元1381,用于根据深度图像,获取图像中第一障碍对象与目标对象之间的第一距离,获取图像中第二障碍对象与目标对象之间的第二距离;
第四确定子单元1382,用于从第一距离以及第二距离中确定最小距离,将最小距离对应的障碍对象确定为目标障碍对象;
第五确定子单元1383,用于根据目标障碍对象以及最小距离确定目标对象的目标行为。
其中,获取距离子单元1381、第四确定子单元1382以及第五确定子单元1383的具体功能实现方式可以参见上述图4对应实施例中的步骤S104,这里不再进行赘述。
再请参见图7,第五确定子单元1383,具体用于若最小距离大于距离阈值且目标对象的当前状态为运动状态,则确定目标对象的目标行为为保持运动状态;
第五确定子单元1383,具体还用于若最小距离小于或等于距离阈值,且目标对象的当前状态为运动状态,则识别目标障碍对象的对象类别;对象类别包括虚拟物品类别以及虚拟角色类别;
第五确定子单元1383,具体还用于若目标障碍对象的对象类别为虚拟物品类别,则将目标对象的目标行为切换为停止运动状态;
第五确定子单元1383,具体还用于若目标障碍对象的对象类别为虚拟角色类别,则将目标对象的目标行为切换为攻击状态;攻击状态用于指示目标对象攻击目标障碍对象。
其中,第五确定子单元1383的具体功能实现方式可以参见上述图4对应实施例中的步骤S104,这里不再进行赘述。
本申请实施例首先获取样本图像和样本图像对应的标签深度图像,然后将样本图像输入已训练完成的第一图像处理模型,得到样本图像对应的第一深度估计特征,由于第一图像处理模型是复杂的大模型,其模型参数数量多,特征表示能力高,所以第一图像处理模型生成的第一深度估计特征准确度高;随后,将样本图像输入第二图像处理模型,得到样本图像对应的第二深度估计特征,根据第二深度估计特征,生成样本图像对应的预测深度图像;第二图像处理模型是参数数量较小的小模型,具备方便部署,资源成本低的优势,本申请实施例考虑到小模型的深度浅,特征表示能力受限,所以不仅根据预测深度图像以及标签深度图像对第二图像处理模型中的模型参数进行调整,还根据第一深度估计特征以及第二深度估计特征对第二图像处理模型中的模型参数进行调整,生成轻量图像处理模型,基于轻量图像处理模型对图像进行深度图像处理。上述可知,通过转移第一图像处理模型的准确深度估计特征(第一深度估计特征)给第二图像处理模型,不仅保留了第二图像处理模型资源耗费较少,方便部署的优势,还提高了第二图像处理模型提取样本图像深度估计特征的准确度。
进一步地,请参见图8,图8是本申请实施例提供的一种计算机设备的结构示意图。如图8所示,上述计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非易失性的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图8所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图8所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取样本图像以及样本图像对应的标签深度图像;
将样本图像输入已训练完成的第一图像处理模型,得到样本图像对应的第一深度估计特征;
将样本图像输入第二图像处理模型,得到样本图像对应的第二深度估计特征,根据第二深度估计特征,生成样本图像对应的预测深度图像;第二图像处理模型中的模型参数数量小于第一图像处理模型中的模型参数数量;
根据第一深度估计特征、第二深度估计特征、预测深度图像以及标签深度图像,对第二图像处理模型中的模型参数进行调整,生成轻量图像处理模型,基于轻量图像处理模型对图像进行深度图像处理。
在一个实施例中,上述处理器1001在执行根据第一深度估计特征、第二深度估计特征、预测深度图像以及标签深度图像,对第二图像处理模型中的模型参数进行调整,生成轻量图像处理模型时,具体执行以下步骤:
根据第一深度估计特征、第二深度估计特征、预测深度图像以及标签深度图像,确定第二图像处理模型的模型损失值;
根据模型损失值对第二图像处理模型中的模型参数进行调整,当调整后的第二图像处理模型满足模型收敛条件时,将调整后的第二图像处理模型确定为轻量图像处理模型。
在一个实施例中,上述处理器1001在执行根据第一深度估计特征、第二深度估计特征、预测深度图像以及标签深度图像,确定第二图像处理模型的模型损失值时,具体执行以下步骤:
根据第一深度估计特征以及第二深度估计特征,确定第二图像处理模型的蒸馏特征损失值;
根据预测深度图像以及标签深度图像,确定第二图像处理模型的深度误差损失值;
根据蒸馏特征损失值以及深度误差损失值,确定模型损失值。
在一个实施例中,第一深度估计特征包括第一深度估计特征Wi以及第一深度估计特征Wi+1,第二深度估计特征包括第二深度估计特征Pi以及第二深度估计特征Pi+1,i为正整数;
上述处理器1001在执行根据第一深度估计特征以及第二深度估计特征,确定第二图像处理模型的蒸馏特征损失值时,具体执行以下步骤:
根据第一深度估计特征Wi以及第二深度估计特征Pi,确定第二图像处理模型中第二上采样层Ci的蒸馏特征损失值Si;其中,第一深度估计特征Wi为第一图像处理模型中的第一上采样层Di输出的深度估计特征;第二深度估计特征Pi为第二上采样层Ci输出的深度估计特征;
根据第一深度估计特征Wi+1以及第二深度估计特征Pi+1,确定第二图像处理模型中第二上采样层Ci+1的蒸馏特征损失值Si+1;其中,第一深度估计特征Wi为第一图像处理模型中的第一上采样层Di+1输入的深度估计特征,第一深度估计特征Wi+1为第一上采样层Di+1输出的深度估计特征;第二深度估计特征Pi为第二上采样层Ci+1输入的深度估计特征,第二深度估计特征Pi+1为第二上采样层Ci+1输出的深度估计特征;
根据蒸馏特征损失值Si以及蒸馏特征损失值Si+1,确定第二图像处理模型的蒸馏特征损失值。
在一个实施例中,第二图像处理模型包括第二下采样层以及第二上采样层;
上述处理器1001在执行将样本图像输入第二图像处理模型,得到样本图像对应的第二深度估计特征时,具体执行以下步骤:
获取第二图像处理模型,将样本图像输入第二图像处理模型的输入层,得到样本图像对应的第二原始估计特征;
通过第二下采样层对第二原始估计特征进行卷积处理以及池化处理,得到样本图像对应的第二初始估计特征;
通过第二上采样层对第二初始估计特征进行反卷积处理,得到第二深度估计特征。
在一个实施例中,上述处理器1001还具体执行以下步骤:
获取第一样本图像处理模型,将样本图像输入第一样本图像处理模型,得到样本图像对应的第一深度估计特征,根据第一深度估计特征,生成样本图像对应的估计深度图像;
根据估计深度图像以及标签深度图像,确定第一样本图像处理模型的样本模型损失值;
根据样本模型损失值对第一样本图像处理模型中的模型参数进行调整,当调整后的第一样本图像处理模型满足模型收敛条件时,将调整后的第一样本图像处理模型确定为已训练完成的第一图像处理模型。
在一个实施例中,第一图像处理模型包括第一下采样层以及第一上采样层;
上述处理器1001在执行将样本图像输入第一样本图像处理模型,得到样本图像对应的第一深度估计特征,根据第一深度估计特征,生成样本图像对应的估计深度图像时,具体执行以下步骤:
将样本图像输入第一样本图像处理模型的输入层,得到样本图像对应的第一原始估计特征;
通过第一下采样层对第一原始估计特征进行卷积处理以及池化处理,得到样本图像对应的第一初始估计特征;第一下采样层的层数量大于第二下采样层的层数量;
通过第一上采样层对第一初始估计特征进行反卷积处理,得到第一深度估计特征;
根据第一深度估计特征,生成样本图像对应的估计深度图像。
在一个实施例中,上述处理器1001在执行获取样本图像以及样本图像对应的标签深度图像时,具体执行以下步骤:
调用系统功能接口,通过系统功能接口获取采样频率,按照采样频率在第一时刻对系统数据库进行图像采样,生成第一采样图像,以及与第一采样图像对应的第一采样深度图像;
按照采样频率在第二时刻对系统数据库进行图像采样,生成第二采样图像,以及与第二采样图像对应的第二采样深度图像;第二时刻晚于第一时刻,且采样频率对应的采样时间间隔为第二时刻与第一时刻之间的时间间隔;
将第一采样图像、第二采样图像,确定为样本图像,将第一采样深度图像以及第二采样深度图像确定为标签深度图像。
在一个实施例中,上述处理器1001在执行基于轻量图像处理模型对图像进行深度图像处理时,具体执行以下步骤:
获取图像,将图像输入轻量图像处理模型;轻量图像处理模型包括下采样层以及上采样层;
通过下采样层提取图像中的深度特征信息,将深度特征信息输入上采样层,通过上采样层生成图像对应的深度图像;图像包括目标对象以及障碍对象,深度图像用于表征障碍对象与目标对象之间的距离;
根据深度图像,获取图像中障碍对象与目标对象之间的距离,根据距离确定目标对象的目标行为。
在一个实施例中,障碍对象包括第一障碍对象以及第二障碍对象;
上述处理器1001在执行根据深度图像,获取图像中障碍对象与目标对象之间的距离,根据距离确定目标对象的目标行为时,具体执行以下步骤:
根据深度图像,获取图像中第一障碍对象与目标对象之间的第一距离,获取图像中第二障碍对象与目标对象之间的第二距离;
从第一距离以及第二距离中确定最小距离,将最小距离对应的障碍对象确定为目标障碍对象;
根据目标障碍对象以及最小距离确定目标对象的目标行为。
在一个实施例中,上述处理器1001在执行根据目标障碍对象以及最小距离确定目标对象的目标行为时,具体执行以下步骤:
若最小距离大于距离阈值且目标对象的当前状态为运动状态,则确定目标对象的目标行为为保持运动状态;
若最小距离小于或等于距离阈值,且目标对象的当前状态为运动状态,则识别目标障碍对象的对象类别;对象类别包括虚拟物品类别以及虚拟角色类别;
若目标障碍对象的对象类别为虚拟物品类别,则将目标对象的目标行为切换为停止运动状态;
若目标障碍对象的对象类别为虚拟角色类别,则将目标对象的目标行为切换为攻击状态;攻击状态用于指示目标对象攻击目标障碍对象。
本申请实施例首先获取样本图像和样本图像对应的标签深度图像,然后将样本图像输入已训练完成的第一图像处理模型,得到样本图像对应的第一深度估计特征,由于第一图像处理模型是复杂的大模型,其模型参数数量多,特征表示能力高,所以第一图像处理模型生成的第一深度估计特征准确度高;随后,将样本图像输入第二图像处理模型,得到样本图像对应的第二深度估计特征,根据第二深度估计特征,生成样本图像对应的预测深度图像;第二图像处理模型是参数数量较小的小模型,具备方便部署,资源成本低的优势,本申请实施例考虑到小模型的深度浅,特征表示能力受限,所以不仅根据预测深度图像以及标签深度图像对第二图像处理模型中的模型参数进行调整,还根据第一深度估计特征以及第二深度估计特征对第二图像处理模型中的模型参数进行调整,生成轻量图像处理模型,基于轻量图像处理模型对图像进行深度图像处理。上述可知,通过转移第一图像处理模型的准确深度估计特征(第一深度估计特征)给第二图像处理模型,不仅保留了第二图像处理模型资源耗费较少,方便部署的优势,还提高了第二图像处理模型提取样本图像深度估计特征的准确度。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时实现图4中各个步骤所提供的图像处理方法,具体可参见上述图4各个步骤所提供的实现方式,在此不再赘述。
上述计算机可读存储介质可以是前述任一实施例提供的图像处理装置或者上述计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (12)
1.一种图像处理方法,其特征在于,包括:
获取样本图像以及所述样本图像对应的标签深度图像;
将所述样本图像输入已训练完成的第一图像处理模型,得到所述样本图像对应的第一深度估计特征;
将所述样本图像输入第二图像处理模型,得到所述样本图像对应的第二深度估计特征,根据所述第二深度估计特征,生成所述样本图像对应的预测深度图像;所述第二图像处理模型中的模型参数数量小于所述第一图像处理模型中的模型参数数量;
根据所述第一深度估计特征以及所述第二深度估计特征,确定所述第二图像处理模型的蒸馏特征损失值;
根据所述预测深度图像以及所述标签深度图像,确定所述第二图像处理模型的深度误差损失值;
根据所述蒸馏特征损失值以及所述深度误差损失值,确定模型损失值;
根据所述模型损失值对所述第二图像处理模型中的模型参数进行调整,当调整后的第二图像处理模型满足模型收敛条件时,将调整后的第二图像处理模型确定为轻量图像处理模型,基于所述轻量图像处理模型对图像进行深度图像处理。
2.根据权利要求1所述的方法,其特征在于,所述第一深度估计特征包括第一深度估计特征Wi以及第一深度估计特征Wi+1,所述第二深度估计特征包括第二深度估计特征Pi以及第二深度估计特征Pi+1,i为正整数;
所述根据所述第一深度估计特征以及所述第二深度估计特征,确定所述第二图像处理模型的蒸馏特征损失值,包括:
根据所述第一深度估计特征Wi以及所述第二深度估计特征Pi,确定所述第二图像处理模型中第二上采样层Ci的蒸馏特征损失值Si;其中,所述第一深度估计特征Wi为所述第一图像处理模型中的第一上采样层Di输出的深度估计特征;所述第二深度估计特征Pi为所述第二上采样层Ci输出的深度估计特征;
根据所述第一深度估计特征Wi+1以及所述第二深度估计特征Pi+1,确定所述第二图像处理模型中第二上采样层Ci+1的蒸馏特征损失值Si+1;其中,所述第一深度估计特征Wi为所述第一图像处理模型中的第一上采样层Di+1输入的深度估计特征,所述第一深度估计特征Wi+1为所述第一上采样层Di+1输出的深度估计特征;所述第二深度估计特征Pi为所述第二上采样层Ci+1输入的深度估计特征,所述第二深度估计特征Pi+1为所述第二上采样层Ci+1输出的深度估计特征;
根据所述蒸馏特征损失值Si以及所述蒸馏特征损失值Si+1,确定所述第二图像处理模型的所述蒸馏特征损失值。
3.根据权利要求1所述的方法,其特征在于,所述第二图像处理模型包括第二下采样层以及第二上采样层;
所述将所述样本图像输入第二图像处理模型,得到所述样本图像对应的第二深度估计特征,包括:
获取所述第二图像处理模型,将所述样本图像输入所述第二图像处理模型的输入层,得到所述样本图像对应的第二原始估计特征;
通过所述第二下采样层对所述第二原始估计特征进行卷积处理以及池化处理,得到所述样本图像对应的第二初始估计特征;
通过所述第二上采样层对所述第二初始估计特征进行反卷积处理,得到所述第二深度估计特征。
4.根据权利要求3所述的方法,其特征在于,还包括:
获取第一样本图像处理模型,将所述样本图像输入所述第一样本图像处理模型,得到所述样本图像对应的所述第一深度估计特征,根据所述第一深度估计特征,生成所述样本图像对应的估计深度图像;
根据所述估计深度图像以及所述标签深度图像,确定所述第一样本图像处理模型的样本模型损失值;
根据所述样本模型损失值对所述第一样本图像处理模型中的模型参数进行调整,当调整后的第一样本图像处理模型满足模型收敛条件时,将调整后的第一样本图像处理模型确定为已训练完成的所述第一图像处理模型。
5.根据权利要求4所述的方法,其特征在于,所述第一图像处理模型包括第一下采样层以及第一上采样层;
所述将所述样本图像输入所述第一样本图像处理模型,得到所述样本图像对应的所述第一深度估计特征,根据所述第一深度估计特征,生成所述样本图像对应的估计深度图像,包括:
将所述样本图像输入所述第一样本图像处理模型的输入层,得到所述样本图像对应的第一原始估计特征;
通过所述第一下采样层对所述第一原始估计特征进行卷积处理以及池化处理,得到所述样本图像对应的第一初始估计特征;所述第一下采样层的层数量大于所述第二下采样层的层数量;
通过所述第一上采样层对所述第一初始估计特征进行反卷积处理,得到所述第一深度估计特征;
根据所述第一深度估计特征,生成所述样本图像对应的所述估计深度图像。
6.根据权利要求1所述的方法,其特征在于,所述获取样本图像以及所述样本图像对应的标签深度图像,包括:
调用系统功能接口,通过所述系统功能接口获取采样频率,按照所述采样频率在第一时刻对系统数据库进行图像采样,生成第一采样图像,以及与所述第一采样图像对应的第一采样深度图像;
按照所述采样频率在第二时刻对所述系统数据库进行图像采样,生成第二采样图像,以及与所述第二采样图像对应的第二采样深度图像;所述第二时刻晚于所述第一时刻,且所述采样频率对应的采样时间间隔为所述第二时刻与所述第一时刻之间的时间间隔;
将所述第一采样图像、所述第二采样图像,确定为所述样本图像,将所述第一采样深度图像以及所述第二采样深度图像确定为所述标签深度图像。
7.根据权利要求1所述的方法,其特征在于,所述基于所述轻量图像处理模型对图像进行深度图像处理,包括:
获取所述图像,将所述图像输入所述轻量图像处理模型;所述轻量图像处理模型包括下采样层以及上采样层;
通过所述下采样层提取所述图像中的深度特征信息,将所述深度特征信息输入所述上采样层,通过所述上采样层生成所述图像对应的深度图像;所述图像包括目标对象以及障碍对象,所述深度图像用于表征所述障碍对象与所述目标对象之间的距离;
根据所述深度图像,获取所述图像中所述障碍对象与所述目标对象之间的距离,根据所述距离确定所述目标对象的目标行为。
8.根据权利要求7所述的方法,其特征在于,所述障碍对象包括第一障碍对象以及第二障碍对象;
所述根据所述深度图像,获取所述图像中所述障碍对象与所述目标对象之间的距离,根据所述距离确定所述目标对象的目标行为,包括:
根据所述深度图像,获取所述图像中所述第一障碍对象与所述目标对象之间的第一距离,获取所述图像中所述第二障碍对象与所述目标对象之间的第二距离;
从所述第一距离以及所述第二距离中确定最小距离,将所述最小距离对应的障碍对象确定为目标障碍对象;
根据所述目标障碍对象以及所述最小距离确定所述目标对象的所述目标行为。
9.根据权利要求8所述的方法,其特征在于,所述根据所述目标障碍对象以及所述最小距离确定所述目标对象的所述目标行为,包括:
若所述最小距离大于距离阈值且所述目标对象的当前状态为运动状态,则确定所述目标对象的所述目标行为为保持所述运动状态;
若所述最小距离小于或等于所述距离阈值,且所述目标对象的当前状态为所述运动状态,则识别所述目标障碍对象的对象类别;所述对象类别包括虚拟物品类别以及虚拟角色类别;
若所述目标障碍对象的所述对象类别为所述虚拟物品类别,则将所述目标对象的所述目标行为切换为停止运动状态;
若所述目标障碍对象的所述对象类别为所述虚拟角色类别,则将所述目标对象的所述目标行为切换为攻击状态;所述攻击状态用于指示所述目标对象攻击所述目标障碍对象。
10.一种图像处理装置,其特征在于,包括:
第一获取模块,用于获取样本图像以及所述样本图像对应的标签深度图像;
第一输入模块,用于将所述样本图像输入已训练完成的第一图像处理模型,得到所述样本图像对应的第一深度估计特征;
第二输入模块,用于将所述样本图像输入第二图像处理模型,得到所述样本图像对应的第二深度估计特征,根据所述第二深度估计特征,生成所述样本图像对应的预测深度图像;所述第二图像处理模型中的模型参数数量小于所述第一图像处理模型中的模型参数数量;
所述第二输入模块,还用于根据所述第一深度估计特征以及所述第二深度估计特征,确定所述第二图像处理模型的蒸馏特征损失值;
所述第二输入模块,还用于根据所述预测深度图像以及所述标签深度图像,确定所述第二图像处理模型的深度误差损失值;
所述第二输入模块,还用于根据所述蒸馏特征损失值以及所述深度误差损失值,确定模型损失值;
所述第二输入模块,还用于根据所述模型损失值对所述第二图像处理模型中的模型参数进行调整,当调整后的第二图像处理模型满足模型收敛条件时,将调整后的第二图像处理模型确定为轻量图像处理模型,基于所述轻量图像处理模型对图像进行深度图像处理。
11.一种计算机设备,其特征在于,包括:处理器、存储器以及网络接口;
所述处理器与所述存储器、所述网络接口相连,其中,所述网络接口用于提供数据通信功能,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行权利要求1至9中任一项所述方法的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,执行权利要求1至9中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010749413.5A CN111768438B (zh) | 2020-07-30 | 2020-07-30 | 一种图像处理方法、装置、设备以及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010749413.5A CN111768438B (zh) | 2020-07-30 | 2020-07-30 | 一种图像处理方法、装置、设备以及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111768438A CN111768438A (zh) | 2020-10-13 |
CN111768438B true CN111768438B (zh) | 2023-11-24 |
Family
ID=72727789
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010749413.5A Active CN111768438B (zh) | 2020-07-30 | 2020-07-30 | 一种图像处理方法、装置、设备以及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111768438B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112235434B (zh) * | 2020-10-16 | 2021-10-26 | 重庆理工大学 | 融合k-means及其胶囊网络的DGA网络域名检测识别系统 |
CN114615495B (zh) * | 2020-12-09 | 2024-10-01 | Oppo广东移动通信有限公司 | 模型量化方法、装置、终端及存储介质 |
CN114359649B (zh) * | 2021-11-22 | 2024-03-22 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备、存储介质及程序产品 |
CN115170840B (zh) * | 2022-09-08 | 2022-12-23 | 阿里巴巴(中国)有限公司 | 数据处理系统、方法和电子设备 |
WO2024092590A1 (zh) * | 2022-11-03 | 2024-05-10 | 华为技术有限公司 | 一种图像处理方法、模型训练方法、装置及终端设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107705242A (zh) * | 2017-07-20 | 2018-02-16 | 广东工业大学 | 一种结合深度学习与深度感知的图像风格化迁移方法 |
CN110059740A (zh) * | 2019-04-12 | 2019-07-26 | 杭州电子科技大学 | 一种针对嵌入式移动端的深度学习语义分割模型压缩方法 |
CN111091132A (zh) * | 2020-03-19 | 2020-05-01 | 腾讯科技(深圳)有限公司 | 基于人工智能的图像识别方法、装置、计算机设备及介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019182974A2 (en) * | 2018-03-21 | 2019-09-26 | Nvidia Corporation | Stereo depth estimation using deep neural networks |
KR102506959B1 (ko) * | 2018-05-17 | 2023-03-07 | 나이앤틱, 인크. | 깊이 추정 시스템의 자가 감독 훈련 |
-
2020
- 2020-07-30 CN CN202010749413.5A patent/CN111768438B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107705242A (zh) * | 2017-07-20 | 2018-02-16 | 广东工业大学 | 一种结合深度学习与深度感知的图像风格化迁移方法 |
CN110059740A (zh) * | 2019-04-12 | 2019-07-26 | 杭州电子科技大学 | 一种针对嵌入式移动端的深度学习语义分割模型压缩方法 |
CN111091132A (zh) * | 2020-03-19 | 2020-05-01 | 腾讯科技(深圳)有限公司 | 基于人工智能的图像识别方法、装置、计算机设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111768438A (zh) | 2020-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111768438B (zh) | 一种图像处理方法、装置、设备以及计算机可读存储介质 | |
WO2021190451A1 (zh) | 训练图像处理模型的方法和装置 | |
CN112446398B (zh) | 图像分类方法以及装置 | |
CN109558832B (zh) | 一种人体姿态检测方法、装置、设备及存储介质 | |
CN111368972B (zh) | 一种卷积层量化方法及其装置 | |
US20230419521A1 (en) | Unsupervised depth prediction neural networks | |
CN111833360B (zh) | 一种图像处理方法、装置、设备以及计算机可读存储介质 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN111160350A (zh) | 人像分割方法、模型训练方法、装置、介质及电子设备 | |
KR20180054407A (ko) | 로봇 시스템 | |
CN112037142B (zh) | 一种图像去噪方法、装置、计算机及可读存储介质 | |
CN117197878A (zh) | 基于机器学习的人物面部表情捕捉方法及系统 | |
CN114549369B (zh) | 数据修复方法、装置、计算机及可读存储介质 | |
CN113516227A (zh) | 一种基于联邦学习的神经网络训练方法及设备 | |
CN113793341B (zh) | 一种自动驾驶场景语义分割方法、电子设备及可读介质 | |
CN111950700A (zh) | 一种神经网络的优化方法及相关设备 | |
WO2022052782A1 (zh) | 图像的处理方法及相关设备 | |
CN111738403A (zh) | 一种神经网络的优化方法及相关设备 | |
CN113762261A (zh) | 一种对图像的字符识别方法、装置、设备及介质 | |
CN117252947A (zh) | 图像处理方法、装置、计算机、存储介质及程序产品 | |
CN112927127B (zh) | 一种运行在边缘设备上的视频隐私数据模糊化方法 | |
CN117746368A (zh) | 驾驶意图预测方法、装置、终端设备以及存储介质 | |
CN111008622B (zh) | 一种图像对象检测方法、装置以及计算机可读存储介质 | |
CN117808934A (zh) | 一种数据处理方法及相关设备 | |
CN111539420B (zh) | 基于注意力感知特征的全景图像显著性预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40030732 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |