CN113505800A - 图像处理方法及其模型的训练方法和装置、设备、介质 - Google Patents

图像处理方法及其模型的训练方法和装置、设备、介质 Download PDF

Info

Publication number
CN113505800A
CN113505800A CN202110735895.3A CN202110735895A CN113505800A CN 113505800 A CN113505800 A CN 113505800A CN 202110735895 A CN202110735895 A CN 202110735895A CN 113505800 A CN113505800 A CN 113505800A
Authority
CN
China
Prior art keywords
image
image processing
sample
processing model
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110735895.3A
Other languages
English (en)
Inventor
黄健文
秦梓鹏
黄展鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen TetrasAI Technology Co Ltd
Original Assignee
Shenzhen TetrasAI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen TetrasAI Technology Co Ltd filed Critical Shenzhen TetrasAI Technology Co Ltd
Priority to CN202110735895.3A priority Critical patent/CN113505800A/zh
Publication of CN113505800A publication Critical patent/CN113505800A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Abstract

本申请公开了一种图像处理方法及其模型的训练方法和装置、设备、介质,图像处理模型的训练方法包括:获取多张样本图像,其中,多张样本图像所属的图像类型为至少两种,样本图像对应有标注结果,样本图像的标注结果包括关于样本图像的内容的真实信息;分别利用图像处理模型对各样本图像进行处理,得到各样本图像的预测结果,其中,样本图像的预测结果包括关于样本图像的内容的预测信息;基于各样本图像的标注结果和预测结果,调整图像处理模型的参数。上述方案,通过使用多种图像类型的样本图像对模型进行训练,能够提高图像处理模型的适用性。

Description

图像处理方法及其模型的训练方法和装置、设备、介质
技术领域
本申请涉及图像处理技术领域,特别是涉及一种图像处理方法及其模型的训练方法和装置、设备、介质。
背景技术
目前,随着社会的进步,人们对生活和工作中的便捷性提出了较高的需求。例如,在图像处理技术领域中,现有的图像处理模型只能对单一图像类型的图像进行处理,一旦输入到图像处理模型中的是其他类型的模型,则图像处理模型对其进行图像处理的准确度相对会降低,无法满足日常工作需求。
发明内容
本申请至少提供一种图像处理方法及其模型的训练方法和装置、设备、介质。
本申请提供了一种图像处理模型的训练方法,包括获取多张样本图像,其中,多张样本图像所属的图像类型为至少两种,样本图像对应有标注结果,样本图像的标注结果包括关于样本图像的内容的真实信息;分别利用图像处理模型对各样本图像进行处理,得到各样本图像的预测结果,其中,样本图像的预测结果包括关于样本图像的内容的预测信息;基于各样本图像的标注结果和预测结果,调整图像处理模型的参数。
因此,通过使用多种图像类型的样本图像对图像处理模型进行训练,使得训练得到的图像处理模型能够对多种类型的图像进行图像处理,从而提高了图像处理模型的适用性。
其中,图像处理模型包括目标分类模型和显著性检测模型中的至少一者;在图像处理模型为目标分类模型的情况下,真实信息为样本图像中目标的真实类别,预测信息包括样本图像中目标的预测类别;在图像处理模型为显著性检测模型的情况下,真实信息为样本图像中关于显著性区域的真实位置信息,预测信息包括样本图像中关于显著性区域的预测位置信息。
因此,通过使用多种图像类型的样本图像对目标分类模型进行训练,使得训练得到的目标分类模型能够对多种类型的图像进行目标分类,从而提高了目标分类模型的适用性。以及,通过使用多种图像类型的样本图像对显著性检测模型进行训练,使得训练得到的显著性检测模型能够对多种类型的图像进行显著性检测,从而提高了显著性检测模型的适用性。
其中,样本图像的标注信息还包括样本图像的真实图像类型,样本图像的预测结果包括样本图像的预测图像类型。
因此,结合样本图像的真实图像类型以及样本图像的预测图像类型,对图像处理模型的参数进行调整,可以使得包含同一目标但是属于不同图像类型的图像所提取的特征在特征空间中的距离更接近,进而使得调整之后的图像处理模型对不同图像类型的图像的内容预测更加准确。
其中,基于各样本图像的标注结果和预测结果,调整图像处理模型的参数,包括:基于真实信息与预测信息,得到第一损失,以及基于真实图像类型和预测图像类型,得到第二损失;基于第一损失和第二损失,调整图像处理模型的参数。
因此,通过使用关于样本图像的内容的真实信息与其内容的预测信息之间的第一损失以及基于真实图像类型和预测图像类型的第二损失,调整图像处理模型的参数,能够提高训练后的图像处理模型的预测准确性。
其中,基于第一损失和第二损失,调整图像处理模型的参数,包括:获取第一损失与第二损失之间的损失差;利用损失差和第二损失,对图像处理模型的参数进行调整。
因此,通过使用第一损失和第二损失的损失差以及第二损失对图像处理模型的参数进行调整,能够提高训练后的图像处理模型的预测准确性。
其中,图像处理模型为目标分类模型,目标分类模型包括特征提取网络、目标分类网络以及图像类型分类网络;分别利用图像处理模型对各样本图像进行处理,得到各样本图像的预测结果,包括:利用特征提取网络对样本图像进行特征提取,得到样本特征;利用目标分类网络对样本特征进行目标分类,得到样本图像的预测信息;利用图像类型分类网络对样本特征进行图像类型分类,得到样本图像的预测图像类型;利用损失差和第二损失,对图像处理模型的参数进行调整,包括:利用第二损失,对图像类型分类网络的参数进行调整;利用损失差,对特征提取网络以及目标分类网络的参数进行调整。
因此,通过使用损失差对图像处理模型中的特征提取网络以及目标分类网络进行调整,使得图像处理模型得到的关于样本图像的内容的预测信息更准确,以及使用第二损失对图像类型分类网络的参数进行调整,能够提高图像类型分类网络的准确度。
其中,分别利用图像处理模型对各样本图像进行处理,得到各样本图像的预测结果,基于各样本图像的标注结果和预测结果,调整图像处理模型的参数,包括:从多张样本图像中选择若干样本图像作为当前样本图像;其中,若干样本图像所属的图像类型包含多张样本图像的所有图像类型;利用图像处理模型对当前样本图像进行处理,得到当前样本图像中的预测结果;基于当前样本图像的标注结果和预测结果,调整图像处理模型的参数;重复从多张样本图像选择若干样本图像作为当前样本图像以及后续步骤,直到图像处理模型满足预设要求。
因此,从多张样本图像中选择若干样本图像作为当前样本图像,并利用图像处理模型对当前样本图像进行处理,以分批次对图像处理模型进行训练,而且每批次训练均保证存在所有图像类型的的样本图像,可提高每批次对图像处理模型的训练效果。
其中,图像类型包括对目标拍摄得到的图像、手绘图、卡通图中的一种或多种。
因此,通过将常见的图像类型对应的样本图像用于对图像处理模型进行训练,使得训练得到的图像处理模型在日常生活或工作中更为适用。
本申请提供了一种图像处理方法,包括:获取待处理图像;利用图像处理模型对待处理图像进行处理,得到关于待处理图像的内容的预测信息,其中,图像处理模型是由上述图像处理模型的训练方法训练得到的。
因此,通过使用上述图像处理模型的训练方法训练得到的图像处理模型对待处理图像进行处理,能够提高图像处理的准确度。
其中,图像处理模型包括目标分类模型和显著性检测模型中的至少一者;在图像处理模型为目标分类模型的情况下,预测信息为待处理图像中目标的预测类别;在图像处理模型为显著性检测模型的情况下,预测信息为待处理图像中关于显著性区域的预测位置信息。
因此,通过使用上述图像处理模型的训练方法训练得到的目标分类模型对待处理图像进行处理,得到的目标的预测类别更为准确。和/或,通过使用上述图像处理模型的训练方法训练得到的显著性检测模型对待处理图像进行处理,得到的关于显著性区域的预测位置信息更为准确。
其中,在图像处理模型为目标分类模型的情况下,在利用图像处理模型对待处理图像进行处理,得到关于待处理图像的内容的预测信息之后,方法还包括以下至少一种:在显示待处理图像的界面上显示预测类别;选择与预测类别匹配的音频进行播放;选择与预测类别匹配的源骨骼,并将与源骨骼相关的第一动画驱动数据迁移至目标骨骼上,得到目标骨骼的第二动画驱动数据,其中,目标骨骼是基于待处理图像中目标进行骨骼提取得到的。
因此,通过在得到预测信息之后,还执行上述至少一步,以实现图像处理模型的分类结果进行进一步的智能化操作。
其中,在图像处理模型为显著性检测模型的情况下,在利用图像处理模型对待处理图像进行处理,得到关于待处理图像的内容的预测信息之后,方法还包括:利用预测位置信息,对显著性区域进行骨骼提取,得到目标骨骼;为目标骨骼选择一骨骼模型作为源骨骼;将与源骨骼相关的第一动画驱动数据迁移至目标骨骼上,得到目标骨骼的第二动画驱动数据。
因此,通过使用上述图像处理模型的训练方法训练得到的显著性检测模型输出的显著性区域,并以此对显著性区域进行骨骼提取得到目标骨骼,使得得到的目标骨骼更为准确。
本申请提供了一种图像处理模型的训练装置,包括:第一获取模块,用于获取多张样本图像,其中,多张样本图像所属的图像类型为至少两种,样本图像对应有标注结果,样本图像的标注结果包括关于样本图像的内容的真实信息;第一图像处理模块,用于分别利用图像处理模型对各样本图像进行处理,得到各样本图像的预测结果,其中,样本图像的预测结果包括关于样本图像的内容的预测信息;调整模块,用于基于各样本图像的标注结果和预测结果,调整图像处理模型的参数。
本申请提供了一种图像处理装置,包括:第二获取模块,用于获取待处理图像;第二图像处理模块,用于利用图像处理模型对待处理图像进行处理,得到关于待处理图像的内容的预测信息,其中,图像处理模型是由上述图像处理模型的训练方法训练得到的。
本申请提供了一种电子设备,包括存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述图像处理模型的训练方法和/或图像处理方法。
本申请提供了一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述图像处理模型的训练方法和/或图像处理方法。
上述方案,通过使用多种图像类型的样本图像对图像处理模型进行训练,使得训练得到的图像处理模型能够对多种类型的图像进行图像处理,从而提高了图像处理模型的适用性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本申请的实施例,并与说明书一起用于说明本申请的技术方案。
图1是本申请图像处理模型的训练方法一实施例的流程示意图;
图2是本申请图像处理模型的训练方法一实施例中示出对目标拍摄得到的图像的示意图;
图3是本申请图像处理模型的训练方法一实施例中示出的手绘图的示意图;
图4是本申请图像处理模型的训练方法一实施例中示出的卡通图的示意图;
图5是本申请图像处理方法一实施例的流程示意图;
图6是本申请图像处理方法一实施例示出映射关系的第一示意图;
图7是本申请图像处理方法一实施例示出映射关系的第二示意图;
图8是本申请图像处理方法一实施例示出映射关系的第三示意图;
图9是本申请图像处理模型的训练装置一实施例的结构示意图;
图10是本申请图像处理装置一实施例的结构示意图;
图11是本申请电子设备一实施例的结构示意图;
图12是本申请计算机可读存储介质一实施例的结构示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
本申请可应用于具备图像处理能力的设备。此外,该设备可以具备图像采集或是视频采集功能,比如,该设备可以包括诸如摄像头等用于采集图像或是视频的部件。或是该设备可以通过与其他设备进行数据传输或是数据交互的方式,以从其他设备中获取所需的视频流或是图像,或是从其他设备的存储资源中访问所需的视频流或是图像等。其中,其他设备具备图像采集或是视频采集功能,且与该设备之间具备通信连接,比如,该设备可以与其他设备之间通过蓝牙、无线网络等方式进行数据传输或是数据交互,在此对于二者之间的通信方式不予限定,可以包括但不限于上述例举的情况。在一种实现方式中,该设备可以包括手机、平板电脑、可交互屏幕等,在此不予限定。
请参阅图1,图1是本申请图像处理模型的训练方法一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S11:获取多张样本图像,其中,多张样本图像所属的图像类型为至少两种,样本图像对应有标注结果,样本图像的标注结果包括关于样本图像的内容的真实信息。
获取样本图像的方式有多种。例如,获取样本图像在执行本训练方法的执行设备中的存储位置,然后通过访问该存储位置以获得样本图像,或者通过蓝牙、无线网络等传输方式从其他设备中获取样本图像。
其中,样本图像所属的图像类型可以根据样本图像中的目标的表现形式确定。例如,目标是通过手绘或利用其他建模软件构建的不同维度的模型等等。
步骤S12:分别利用图像处理模型对各样本图像进行处理,得到各样本图像的预测结果,其中,样本图像的预测结果包括关于样本图像的内容的预测信息。
其中,图像处理模型包括但不限于卷积神经网络模型,例如可以采用MobileNetV3网络作为图像处理模型,以减少模型大小,加速模型预测,可以更加适用于处理能力较小的设备,例如手机、平板电脑等移动终端。
其中,图像处理模型可以同时对各样本图像进行处理,得到一个批次的预测结果,也可以分时对各样本图像进行处理,分别得到各样本图像对应的预测结果。
步骤S13:基于各样本图像的标注结果和预测结果,调整图像处理模型的参数。
其中,可以根据各样本图像的标注结果和预测结果之间的损失,调整图像处理模型的参数。
上述方案,通过使用多种图像类型的样本图像对图像处理模型进行训练,使得训练得到的图像处理模型能够对多种类型的图像进行图像处理,从而提高了图像处理模型的适用性。
其中,图像类型包括对目标拍摄得到的图像、手绘图、卡通图中的一种或多种。对目标拍摄得到的图像又可分为可见光图像以及红外图像等。手绘图可以是在纸上手绘的图,并对其拍摄得到手绘图,还可以是在绘图软件上绘制的图,例如,画师在手绘板上画制的简易米老鼠。本公开实施例中,手绘图进一步限定为预设背景颜色以及预设前景颜色的图,以及前景是由单色的线条构成,例如,背景为白色,前景是由黑色线条构成的米老鼠。卡通图可以是具备多种前景颜色的虚拟图像。
具体地,为更好地理解本公开实施例所述的对目标拍摄得到的图像、手绘图、卡通图,请同时参考图2-4,图2是本申请图像处理模型的训练方法一实施例中示出对目标拍摄得到的图像的示意图,图3是本申请图像处理模型的训练方法一实施例中示出的手绘图的示意图,图4是本申请图像处理模型的训练方法一实施例中示出的卡通图的示意图。如图2所示,图2是对真实存在的苹果拍摄得到的图像,图3是在真实的纸上绘制的苹果草图,图4是苹果的卡通形象。通过将常见的图像类型对应的样本图像用于对图像处理模型进行训练,使得训练得到的图像处理模型在日常生活或工作中更为适用。本公开实施例中,选择使用一万张上下的对目标拍摄得到的图像、两万张上下的手绘图以及两万张上下的卡通图进行训练。
一些公开实施例中,分别利用图像处理模型对各样本图像进行处理,得到各样本图像的预测结果,基于各样本图像的标注结果和预测结果,调整图像处理模型的参数的方式包括:
从多张样本图像中选择若干样本图像作为当前样本图像。其中,若干指的是1及以上。也就是,这里可以从多张样本图像中选择其中一张样本图像作为当前样本图像,也可以是选择两张及以上的样本图像作为当前样本图像。进一步地,选择出的若干样本图像所属的图像类型包含多张样本图像的所有图像类型。例如,在多张样本图像的图像类型一共包括上述三种图像类型时,从多张样本图像中选择出的若干张样本图像也包含上述三种图像类型。其中,每种图像类型的样本图像的数量可以相同,也可以是不同。然后,利用图像处理模型对当前样本图像进行处理,得到当前样本图像的预测结果。具体地,将当前样本图像作为一个批次,利用图像处理模型对这一个批次的样本图像进行处理,得到一个批次的预测结果。再基于当前样本图像的标注结果和预测结果,调整图像处理模型的参数。可选地,可以使用分别利用一个批次中各个标注结果与其对应的预测结果之间的损失对模型的参数进行调整,这种方式需要对参数调整若干次,还可以是结合各标注结果与其对应的预测结果之间的损失对模型的参数进行调整,这种方式只需要对模型的参数调整一次。重复执行从多张样本图像选择若干样本图像作为当前样本图像以及后续步骤,直到图像处理模型满足预设要求。其中,这里的预设要求可以是模型给出的预测结果与标注结果之间的误差大小。具体误差大小根据实际需求确定,此处不做规定。可选地,每次从多张样本图像中选择的若干样本图像可以与上一次选择的部分样本图像相同。另一些公开实施例中,每次从多张样本图像中选择的若干样本图像均不相同。从多张样本图像中选择若干样本图像作为当前样本图像,并利用图像处理模型对当前样本图像进行处理,以分批次对图像处理模型进行训练,而且每批次训练均保证存在所有图像类型的的样本图像,可提高每批次对图像处理模型的训练效果。
一些公开实施例中,样本图像可以是经过预处理的,也可以是未经过预处理的。
预处理方式可以是高斯模糊处理、裁剪以及旋转中的至少一种。其中,高斯模糊处理又可称之为高斯平滑,主要作用就是减少图像噪声以及降低细节层次,主要的做法是根据高斯曲线调节像素色值,有选择地模糊图像。裁剪,指的是将训练样本图像裁剪为不同大小的图像,例如将训练样本图像裁剪成尺寸为1024*2048或512*512大小的图像,当然,这尺寸仅是举例,在其他实施例中完全可以采取裁剪为其他尺寸的图像,因此,关于裁剪的尺寸此处不做具体规定。旋转可以是将训练样本图像旋转90°、180°或270°。当然,在其他实施例中,预处理方式还可以是调整分辨率等。
一些公开实施例中,图像处理模型包括目标分类模型和显著性检测模型中的至少一者。其中,目标分类模型用于对样本图像中的目标进行分类,例如,样本图像中的目标的真实信息为苹果,则目标分类模型的预测结果包括的关于样本图像的内容的预设信息可以是目标的预测分类信息,例如为苹果。显著性检测模型可以用于检测样本图像中显著性区域所在位置。
在图像处理模型为目标分类模型的情况下,真实信息为样本图像中目标的真实类别,预测信息包括样本图像中目标的预测类别。
在图像处理模型为显著性检测模型的情况下,真实信息为样本图像中关于显著性区域的真实位置信息,预测信息包括样本图像中目标的预测类别。
通过使用多种图像类型的样本图像对目标分类模型进行训练,使得训练得到的目标分类模型能够对多种类型的图像进行目标分类,从而提高了目标分类模型的适用性。以及,通过使用多种图像类型的样本图像对显著性检测模型进行训练,使得训练得到的显著性检测模型能够对多种类型的图像进行显著性检测,从而提高了显著性检测模型的适用性。
一些公开实施例中,在图像处理模型为显著性检测模型的情况下,对属于手绘图的样本图像进行筛选,剔除质量不高的样本图像。具体地,根据样本图像中显著性区域的真实位置信息,确定显著性区域的轮廓的缺失情况进行筛选,去除缺失情况不满足预设要求的样本图像。通过对手绘图进行筛选,保留显著性区域的轮廓较为完整的手绘图,使得训练完成的显著性检测模型的检测结果更为准确。
一些公开实施例中,样本图像的标注信息还包括样本图像的真实图像类型,样本图像的预测结果包括样本图像的预测图像类型,上述步骤S13具体可包括:利用关于样本图像的内容的真实信息与其内容的预测信息之间的差异、以及样本图像的真实图像类型以及样本图像的预测图像类型之间的差异,对图像处理模型的参数进行调整。其中,在图像处理模型为目标分类模型的情况下,图像处理模型的预测结果包括目标的预测类别以及样本图像的预测图像类型。在图像处理模型为显著性检测模型的情况下,预测信息为样本图像中目标的预测类别以及样本图像的预测图像类型。通过使用关于样本图像的内容的真实信息与其内容的预测信息,以及样本图像的真实图像类型以及样本图像的预测图像类型,对图像处理模型的参数进行调整,可以使得包含同一目标但是属于不同图像类型的图像所提取的特征在特征空间中的距离更接近,进而使得调整之后的图像处理模型对不同图像类型的图像的内容预测更加准确。
一些公开实施例中,基于各样本图像的标注结果和预测结果,调整图像处理模型的参数的方式可以是:基于真实信息和预测信息,得到第一损失,以及基于真实图像类型和预测图像类型,得到第二损失。然后,基于第一损失和第二损失,调整图像处理模型的参数。
具体地,基于真实信息和预测信息之间的误差,得到第一损失。以及基于真实图像类型和预测图像类型之间的误差,得到第二损失。具体地,通过结合一个批次的预测信息与对应的标注信息之间的误差,确定一个第一损失,以及结合一个批次的预测图像类型与真实的图像类型之间的误差,确定一个第二损失。结合第一损失和第二损失,调整图像处理模型的参数。通过使用关于样本图像的内容的真实信息与其内容的预测信息之间的第一损失以及基于真实图像类型和预测图像类型的第二损失,调整图像处理模型的参数,能够提高训练后的图像处理模型的预测准确性。
具体地,第一损失对模型的参数进行优化,使得图像处理模型得到的预测信息更接近真实信息,也就是二者之间的误差变小。通过使用第二损失对模型的参数进行调整,使得表示同一物体但属于不同图像类型的图像的特征向量在特征空间中的距离更接近,从而使得不同图像类型的的图像的特征向量都在距离较近的特征空间中。例如,训练得到的图像处理模型对表示苹果的手绘图、卡通图以及对苹果进行拍摄得到的图像进行特征提取得到的特征向量在特征空间的距离更为接近。
一些公开实施例中,基于第一损失和第二损失,调整图像处理模型的参数的方式可以是:获取第一损失与第二损失之间的损失差。然后利用损失差和第二损失,对图像处理模型的参数进行调整。具体地,该损失差为第一损失和第二损失作差得到。利用第一损失差和第二损失差,对图像处理模型的参数进行调整可以是先使用其中一个损失对模型的参数进行调整,再使用另一个损失对模型的参数进行调整。通过使用第一损失和第二损失的损失差以及第二损失对图像处理模型的参数进行调整,能够提高训练后的图像处理模型的预测准确性。
一些公开实施例中,图像处理模型为目标分类模型。目标分类模型包括特征提取网络、目标分类网络以及图像类型分类网络。
其中,分别利用图像处理模型对各样本图像进行处理,得到各样本图像的预测结果的方式可以是:利用特征提取网络对样本图像进行特征提取,得到样本特征。利用目标分类网络对样本特征进行目标分类,得到样本图像的预测信息。以及利用图像类型分类网络对样本特征进行图像类型分类,得到样本图像的预测图像类型。进一步地,将特征提取网络提取得到的样本特征输入目标分类网络,得到关于样本图像的预测信息,以及将特征提取网络提取得到的样本特征输入图像类型分类网络,得到关于样本图像的预测图像类型。其中,利用损失差和第二损失,对图像处理模型的参数进行调整的方式可以是:利用第二损失对图像类型分类网络的参数进行调整。以及利用损失差,对特征提取网络以及目标分类网络的参数进行调整。使用损失差和第二损失对参数进行调整的方式均为正向调整。通过使用损失差对图像处理模型中的特征提取网络以及目标分类网络进行调整,使得图像处理模型得到的关于样本图像的内容的预测信息更准确,以及使用第二损失对图像类型分类网络的参数进行调整,能够提高图像类型分类网络的准确度。
一些公开实施例中,训练得到的图像处理模型能够部署到手机端,进行图像处理。图像处理方法还可应用于内容分享、视频、直播、娱乐、教育、游戏等软件中。
上述方案,通过使用多种图像类型的样本图像对图像处理模型进行训练,使得训练得到的图像处理模型能够对多种类型的图像进行图像处理,从而提高了图像处理模型的适用性。
其中,图像处理模型的训练方法的执行主体可以是图像处理模型的训练装置,例如,图像处理模型的训练方法可以由终端设备或服务器或其它处理设备执行,其中,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该图像处理模型的训练方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
请参见图5,图5是本申请图像处理方法一实施例的流程示意图。
如图5所示,本公开实施例提供的图像处理方法包括以下步骤:
步骤S21:获取待处理图像。
其中,获取待处理图像的方式有多种,例如,通过执行图像处理方法的执行设备中的摄像组件进行拍摄得到,也可以是根据各种通信方式从其他设备中获取待处理图像。其中,待处理图像的图像类型可以是多种图像类型中的一种。例如,待处理图像的图像类型可以是对目标拍摄得到的图像、手绘图卡通图中的一种或多种。一些公开实施例中,还可从视频中获取待处理图像。例如,将一段视频输入图像处理模型,图像处理模型获取视频中的每一帧视频帧,并将每一帧视频帧作为待处理图像。
步骤S22:利用图像处理模型对待处理图像进行处理,得到关于待处理图像的内容的预测信息,其中,图像处理模型是图像处理模型的训练方法训练得到的。
其中,该图像处理模型利用了多种图像类型的样本图像进行训练。具体地,将待处理图像从图像处理模型的输入端输入该图像处理模型。图像处理模型对待处理图像进行处理得到待处理图像的预测信息。
上述方案,通过使用上述图像处理模型的训练方法训练得到的图像处理模型对待处理图像进行处理,能够提高图像处理的准确度。
一些公开实施例中,图像处理模型包括目标分类模型和显著性检测模型中的至少一者。在图像处理模型为目标分类模型的情况下,预测信息为待处理图像中目标的预测类别。在图像处理模型为显著性检测模型的情况下,预测信息为待处理图像中关于显著性区域的预测位置信息。通过使用上述图像处理模型的训练方法训练得到的目标分类模型对待处理图像进行处理,得到的目标的预测类别更为准确。和/或,通过使用上述图像处理模型的训练方法训练得到的显著性检测模型对待处理图像进行处理,得到的关于显著性区域的预测位置信息更为准确。
如上一实施例所述,在图像处理模型为目标分类模型的情况下,图像处理模型包括特征提取网络,目标分类网络以及图像类型分类网络。在训练完成之后,可以将图像分类网络去除或断开图像分类网络与特征提取网络的连接。也就是,在本公开实施例中,仅使用其中的特征提取网络以及目标分类网络,特征提取网络的输出作为目标分类网络的输入。
一些公开实施例中,在图像处理模型为目标分类模型的情况下,利用图像处理模型对待处理图像进行处理,得到关于待处理图像的内容的预测信息之后,图像处理方法还包括以下至少一个步骤:
1、在显示待处理图像的界面上显示预测类别。其中,显示的方式有多种,例如将预测类别标注在待处理图像上,以便将待处理图像和对应的预测类别一起在显示界面上显示,当然,还可以是在显示界面的不同区域分别显示待处理图像和对应的预测类别。一些公开实施例中,若待处理图像为两个及以上时,可以在显示界面的不同区域显示对应的待处理图像及其预测类别,或者以翻页的形式显示待处理图像及其预测类别。其中,在待处理图像是从视频中获取时,判断连续预设数量帧的视频帧的预测信息是否相同,若是,则认为预测信息正确。若否,则认为预测信息不正确。其中,可以选择将正确的预测信息输出,将错误的预测信息不输出,也可以选择将正确和错误的预测信息进行对应的批注,并输出。其中,预设数量帧可以是5帧、10帧等等,可根据具体使用场景确定。
2、选择与预测类别匹配的音频进行播放。其中,音频与预测类别之间的匹配关系可以是体现设置好的。在图像处理模型得到待处理图像中内容的预测类别之后,即可播放对应的音频。
3、选择与预测类别匹配的源骨骼,并将与源骨骼相关的第一动画驱动数据迁移至目标骨骼上,得到目标骨骼的第二动画驱动数据。其中,目标骨骼是基于待处理图像中目标进行骨骼提取得到的。选择与预测类别匹配的源骨骼的方式可以是将目标的预测类别与数据库存储的各源骨骼的类别进行匹配,得到与预测类别匹配的源骨骼。例如,预测类别为猫,则可以将猫作为关键词,在数据库中进行搜索,得到对应的源骨骼。
一些公开实施例中,在图像处理模型为显著性检测模型的情况下,利用图像处理模型对所述待处理图像进行处理,得到关于待处理图像的内容的预测信息之后,还包括以下步骤:
利用预测位置信息,对显著性区域进行骨骼提取,得到目标骨骼。以及为目标骨骼选择一骨骼模型作为源骨骼。该源骨骼上设置有动画数据。然后,将与源骨骼相关的第一动画驱动数据迁移到目标骨骼上,得到目标骨骼的第二动画驱动数据。
一些公开实施例中,利用预测位置信息,对显著性区域进行骨骼提取,得到目标骨骼的步骤可以是:对显著性区域进行轮廓提取,得到目标的轮廓,然后利用该轮廓,为目标生成三维网格模型。最后,从三维网格模型中提取得到目标骨骼。
其中,获取源骨骼的方式具体可以是对待处理图像进行分类,得到目标对象的类别,并选择与类别匹配的骨骼模型作为源骨骼。其中,目标骨骼可以理解为目标对象的骨骼,即该目标对象的类型可以理解为目标骨骼的类型。具体地,本公开实施例可以采用预测标签映射,也可以采用数据集标签映射。预测标签映射对目标对象的分类结果包括目标对象的预测骨骼拓扑结构类型,例如预测骨骼拓扑结构类型包括二足、四足等等。也就是,预测标签映射的过程主要是预测目标对象的骨骼拓扑结构特点。数据集标签映射的分类结果需要给出输入图像中目标对象的具体种类,例如目标对象为猫、狗、大熊猫、狗熊等等。本公开实施例选择采用预测标签映射,具体应用过程中,若目标对象为大熊猫,而预测标签映射给出的目标对象类别为四足,并选择与类别匹配的骨骼模型作为源骨骼,若选择的源骨骼为四足的狗熊。虽然大熊猫和狗熊不同,但是他们实际上具有大致相同的骨骼拓扑结构,因此,将狗熊的动画驱动数据迁移到大熊猫上也能够以自然合理的形式出现。也就是通过预测标签映射虽然无法得到完全正确的目标对象的类别,但是也不影响对最终目标骨骼的驱动。同时,因为预测标签映射没有进一步获知目标对象的具体类别,从而降低了计算成本。
确定与目标骨骼匹配的源骨骼后,将源骨骼与目标骨骼进行之间进行骨骼节点映射,得到二者之间的节点映射关系。一些公开实施例中,得到二者之间的节点映射关系的方式可以是:确定源骨骼和目标骨骼中各节点所在的骨骼分支数量。按照骨骼分支数量从多到少的顺序,依序对源骨骼和目标骨骼中的节点进行映射。其中,所在的骨骼分支数量最多的节点一般称之为根节点。其中,暂且将节点所在的骨骼分支数量称之为度数。也就是先构建两个骨骼中度数较大的节点之间的映射关系,再构建度数较少的节点之间的映射关系。又或者,可以采用骨骼分支映射误差值最小的原则进行映射。其中,如果源骨骼和目标骨骼之间的节点数不同,则选择成本最低的最小多对一映射。例如,可以通过在发生多对一或跳过映射的序列中执行一对一的联合匹配的方式进行映射。
通过获取目标对象的类别,并从与类别匹配的骨骼模型中选择源骨骼,方便快捷。通过按照骨骼分支数量从多到少的顺序,依序对骨骼和目标骨骼中的节点进行映射,能够提高映射的准确度。
一些公开实施例中,最终的目标骨骼与源骨骼的节点拓扑结构一致。或,最终目标骨骼与最终源骨骼之间的节点一一映射。也就是,最终的目标骨骼与最终的源骨骼的节点拓扑结构可能存在两种形式,一种是最终的目标骨骼与最终的源骨骼的节点拓扑结构完全一致,另一种是最终的目标骨骼中的节点均有最终的源骨骼的节点与之对应,但是最终的源骨骼中存在一些没有构建映射关系的节点。即,需要保证在动画迁移后,最终的目标骨骼的节点上均有对应的动画驱动数据。
在获得二者之间的节点映射关系之后,进行拓扑结构对齐以及节点对齐。
其中,进行拓扑结构对齐的方式可以包括以下至少一步:
一是在源骨骼和目标骨骼之间存在多个节点映射于同一节点的情况下,更新其中一个骨骼的节点拓扑结构。其中,经更新之后的两个骨骼之间的节点一一映射。通过更新骨骼的节点拓扑结构能够使得两个骨骼之间的多个节点映射于同一节点的情况调整为两个骨骼之间的节点一一映射,以减少后续动画驱动最终目标骨骼的过程中出现不合理的情况出现。
其中,更新其中一个骨骼的节点拓扑结构又可分为多种情况:第一种情况是在多个节点位于同一骨骼分支的情况下,更新多个节点所在的第一骨骼。其中,第一骨骼和第二骨骼中的其中一个为源骨骼,另一个为目标骨骼。通过更新多个节点所在的第一骨骼,使得两个骨骼之间的多个节点映射于同一节点的情况调整为两个骨骼之间的节点一一映射,进而减少后续动画驱动最终目标骨骼的过程中出现不合理的情况出现。可选地,更新多个节点所在的第一骨骼的方式可以是将第一骨骼中的多个节点合并为一个第一节点。其中,第一节点保留合并前多个节点的映射关系。并且,第一节点的位置取所有被合并节点的位置的平均值。
同时参见图6,图6是本申请图像处理方法一实施例示出映射关系的第一示意图。如图6所示,目标骨骼中的第二个节点和第三个节点同时映射于源骨骼中的第二个节点时。在这种情况下,将目标骨骼中的第二个节点和第三个节点进行合并为一个第一节点。其中,第一节点的位置取目标骨骼中第二个节点和第三个节点的位置的平均值。其中,当第一骨骼为源骨骼时,因为源骨骼中的节点携带有动画驱动数据,所以当节点合并之后,需要获取第一节点的动画驱动数据,此时,可以将被合并的所有节点的动画驱动数据进行合并。具体地,动画驱动数据一般可以用矩阵表示,矩阵的合并可以用矩阵乘法表示,即将动画驱动数据进行相乘,即可得到第一节点的动画驱动数据。第二种情况是在多个节点位于不同骨骼分支的情况下,更新不包括多个节点的第二骨骼。其中,第一骨骼和第二骨骼中的其中一个为源骨骼,另一个为目标骨骼。可选地,在第一骨骼中查找出多个节点所在的骨骼分支汇合的第二节点。具体做法可以是依次父节点遍历,从而得到第二节点。并在第二骨骼中查找出映射于第二节点的第三节点。然后找到多个节点对应的节点拓扑结构,在第三节点处新增至少一条骨骼分支。本公开实施例中,一个节点的父节点指的是在一条骨骼分支中,与该节点相邻且比该节点更靠近根节点的节点。其中,多个节点与第三节点处新增的骨骼分支和原始的骨骼分支中的节点一一映射。其中,新增的骨骼分支可以是复制原始的骨骼分支。复制的内容包括动画数据、以及该节点与其父节点之间的变换关系。例如,原始的骨骼分支中包括三个节点,则新增的骨骼分支中也包括三个节点,且新增的骨骼分支中的三个节点的动画驱动数据是通过复制原始的骨骼分支中对应节点的动画数据得到。
同时参见图7,图7是本申请图像处理方法一实施例示出映射关系的第二示意图。如图7所示,左边的节点拓扑结构为源骨骼的节点拓扑结构,右边的节点拓扑结构为目标骨骼的节点拓扑结构。图3中,目标骨骼的第一个节点映射于源骨骼的第一个节点,目标骨骼的第二个节点映射于源骨骼的第二个节点,目标骨骼的第二个节点下包括两个分支,即左分支与右分支,其中,左分支中的第一个节点和右分支中的第一个节点映射于源骨骼的第三个节点,左分支中的第二个节点和右分支中的第二个节点映射于源骨骼的第四个节点。这也就出现了目标骨骼中两个节点映射于源骨骼的第三个节点,且这两个节点属于不同的分支,以及目标骨骼中两个节点映射于源骨骼的第四个节点,且这两个节点属于不同的分支。其中,这两个分支汇合在目标骨骼的第二个节点。在源骨骼中找出映射于目标骨骼的第二个节点为第二个节点。按照目标骨骼这两个节点对应的节点拓扑结构,在源骨骼的第二个节点处新增一条骨骼分支。其中,新增的一条骨骼分支中的节点有两个。此时,目标骨骼中所有的节点均一一对应与源骨骼中的节点。因此,通过此种方式在实现节点一一映射的情况下,还能够最大化的保留第一骨骼的节点拓扑结构。
二是在骨骼中存在未有映射关系的情况下,更新未有映射关系的节点所在骨骼的节点拓扑结构。其中,两个骨骼包括源骨骼和目标骨骼,经更新之后的两个骨骼之间的节点一一映射。通过更新没有映射关系的节点所在骨骼的节点拓扑结构,减少没有映射关系的节点,使得更新后的两个骨骼之间的节点一一映射,从而减少后续动画驱动最终目标骨骼的过程中出现不合理的情况出现。可选地,将未有映射关系的节点合并至具有映射关系的相邻节点。其中,相邻节点为未有映射关系的节点在所在骨骼中的父节点或子节点。本公开实施例中将未有映射关系的节点向其父节点合并。
请参见图8,图8是本申请图像处理方法一实施例示出映射关系的第三示意图。如图8所示,目标骨骼的第一个节点映射于源骨骼的第一个节点,目标骨骼的第二个节点映射于源骨骼的第三个节点,目标骨骼的第三个节点映射于源骨骼的第四个节点。其中,源骨骼的第二个节点没有映射关系。可以将源骨骼的第二个节点向其父节点合并,也就是向源骨骼的第一个节点合并。当然,源骨骼中的节点合并都会伴随着动画驱动数据之间的合并,关于动画驱动数据之间的合并此处不再赘述。
其中,进行节点对齐,主要是为了确定源骨骼和目标骨骼之间的第一位姿变换关系。
具体地,按照从根源节点到叶源节点的顺序,分别将最终源骨骼中的各源节点与最终目标骨骼中对应映射的目标节点进行对齐,以得到各源节点与映射的目标节点之间的第一位姿变换关系。如上述,根节点为所在的骨骼分支数量最多的节点。则根源节点指的是最终源骨骼中的根节点,同理,根目标节点指的是最终目标骨骼的根节点。最终源骨骼和最终目标骨骼指的是经过拓扑结构对齐后的源骨骼和目标骨骼。其中,叶节点指的是具有父节点但没有子节点的节点。叶源节点指的是最终源骨骼中的叶节点,叶目标节点指的是最终目标骨骼中的叶节点。
第一位姿变换关系为源节点与映射的目标节点在第一坐标系中的变换关系。通过最终源骨骼的根源节点和最终目标骨骼的根目标节点均平移至第一坐标系的原点,能够获取最终源骨骼的根源节点和最终目标骨骼的根目标节点之间的偏移量。具体地,对于最终源骨骼中的每个源节点,获取使源节点对齐于映射的目标节点所需的偏移量。其中,偏移量包括平移分量和旋转分量。一般而言,平移分量中包括缩放分量。然后基于源节点对应的偏移量,得到源节点的第一位姿变换关系。
基于源节点对应的偏移量,得到源节点的第一位姿变换关系。具体地,基于源节点以及源节点的上级节点分别对应的偏移量,得到源节点的第一位姿变换关系。其中,源节点的上级节点为最终源骨骼中源节点的第一父节点、根源节点以及第一父节点与根源节点之间的节点。其中,偏移量均可以用矩阵表示,具体地,通过将源节点以及源节点的上级节点分别对应的偏移量进行矩阵乘法,即可得到源节点的第一位姿变换关系。
其中,若源骨骼的拓扑结构有发生改变,则源骨骼上的动画数据也对应发生改变。例如,源骨骼中某两个源节点发生合并,则将其节点对应的动画数据也进行合并。
由此,可以将源骨骼上的动画数据迁移到目标骨骼上,以驱动待处理图像中的目标进行运动。
通过在得到预测信息之后,还执行上述至少一步,以实现图像处理模型的分类结果进行进一步的智能化操作。
以及通过使用上述图像处理模型的训练方法训练得到的显著性检测模型输出的显著性区域,并以此对显著性区域进行骨骼提取得到目标骨骼,使得得到的目标骨骼更为准确。
上述方案,通过使用上述图像处理模型的训练方法训练得到的图像处理模型对待处理图像进行处理,能够提高图像处理的准确度。
其中,图像处理方法的执行主体可以是图像处理装置,例如,图像处理方法可以由终端设备或服务器或其它处理设备执行,其中,终端设备可以为用户设备(UserEquipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(PersonalDigital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该图像处理方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
请参阅图9,图9是本申请图像处理模型的训练装置一实施例的结构示意图。图像处理模型的训练装置30包括第一获取模块31、第一图像处理模块32以及调整模块33。第一获取模块31,用于获取多张样本图像,其中,多张样本图像所属的图像类型为至少两种,样本图像对应有标注结果,样本图像的标注结果包括关于样本图像的内容的真实信息;第一图像处理模块32,用于分别利用图像处理模型对各样本图像进行处理,得到各样本图像的预测结果,其中,样本图像的预测结果包括关于样本图像的内容的预测信息;调整模块33,用于基于各样本图像的标注结果和预测结果,调整图像处理模型的参数。
上述方案,通过使用多种图像类型的样本图像对图像处理模型进行训练,使得训练得到的图像处理模型能够对多种类型的图像进行图像处理,从而提高了图像处理模型的适用性。
一些公开实施例中,图像处理模型包括目标分类模型和显著性检测模型中的至少一者;在图像处理模型为目标分类模型的情况下,真实信息为样本图像中目标的真实类别,预测信息包括样本图像中目标的预测类别;在图像处理模型为显著性检测模型的情况下,真实信息为样本图像中关于显著性区域的真实位置信息,预测信息包括样本图像中关于显著性区域的预测位置信息。
上述方案,通过使用多种图像类型的样本图像对目标分类模型进行训练,使得训练得到的目标分类模型能够对多种类型的图像进行目标分类,从而提高了目标分类模型的适用性。以及,通过使用多种图像类型的样本图像对显著性检测模型进行训练,使得训练得到的显著性检测模型能够对多种类型的图像进行显著性检测,从而提高了显著性检测模型的适用性。
一些公开实施例中,样本图像的标注信息还包括样本图像的真实图像类型,样本图像的预测结果包括样本图像的预测图像类型。
上述方案,结合样本图像的真实图像类型以及样本图像的预测图像类型,对图像处理模型的参数进行调整,可以使得包含同一目标但是属于不同图像类型的图像所提取的特征在特征空间中的距离更接近,进而使得调整之后的图像处理模型对不同图像类型的图像的内容预测更加准确。
一些公开实施例中,调整模块33基于各样本图像的标注结果和预测结果,调整图像处理模型的参数,包括:基于真实信息与预测信息,得到第一损失,以及基于真实图像类型和预测图像类型,得到第二损失;基于第一损失和第二损失,调整图像处理模型的参数。
上述方案,通过使用关于样本图像的内容的真实信息与其内容的预测信息之间的第一损失以及基于真实图像类型和预测图像类型的第二损失,调整图像处理模型的参数,能够提高训练后的图像处理模型的预测准确性。
一些公开实施例中,调整模块33基于第一损失和第二损失,调整图像处理模型的参数,包括:获取第一损失与第二损失之间的损失差;利用损失差和第二损失,对图像处理模型的参数进行调整。
上述方案,通过使用第一损失和第二损失的损失差以及第二损失对图像处理模型的参数进行调整,能够提高训练后的图像处理模型的预测准确性。
一些公开实施例中,图像处理模型为目标分类模型,目标分类模型包括特征提取网络、目标分类网络以及图像类型分类网络;第一图像处理模块32分别利用图像处理模型对各样本图像进行处理,得到各样本图像的预测结果,包括:利用特征提取网络对样本图像进行特征提取,得到样本特征;利用目标分类网络对样本特征进行目标分类,得到样本图像的预测信息;利用图像类型分类网络对样本特征进行图像类型分类,得到样本图像的预测图像类型;调整模块33利用损失差和第二损失,对图像处理模型的参数进行调整,包括:利用第二损失,对图像类型分类网络的参数进行调整;利用损失差,对特征提取网络以及目标分类网络的参数进行调整。
上述方案,通过使用损失差对图像处理模型中的特征提取网络以及目标分类网络进行调整,使得图像处理模型得到的关于样本图像的内容的预测信息更准确,以及使用第二损失对图像类型分类网络的参数进行调整,能够提高图像类型分类网络的准确度。
一些公开实施例中,第一图像处理模块32分别利用图像处理模型对各样本图像进行处理,得到各样本图像的预测结果,基于各样本图像的标注结果和预测结果,调整图像处理模型的参数,包括:从多张样本图像中选择若干样本图像作为当前样本图像;其中,若干样本图像所属的图像类型包含多张样本图像的所有图像类型;利用图像处理模型对当前样本图像进行处理,得到当前样本图像中的预测结果;调整模块33基于当前样本图像的标注结果和预测结果,调整图像处理模型的参数;重复从多张样本图像选择若干样本图像作为当前样本图像以及后续步骤,直到图像处理模型满足预设要求。
上述方案,从多张样本图像中选择若干样本图像作为当前样本图像,并利用图像处理模型对当前样本图像进行处理,以分批次对图像处理模型进行训练,而且每批次训练均保证存在所有图像类型的的样本图像,可提高每批次对图像处理模型的训练效果。
一些公开实施例中,图像类型包括对目标拍摄得到的图像、手绘图、卡通图中的一种或多种。
上述方案,通过将常见的图像类型对应的样本图像用于对图像处理模型进行训练,使得训练得到的图像处理模型在日常生活或工作中更为适用。
上述方案,通过使用多种图像类型的样本图像对图像处理模型进行训练,使得训练得到的图像处理模型能够对多种类型的图像进行图像处理,从而提高了图像处理模型的适用性。
请参阅图10,图10是本申请图像处理装置一实施例的结构示意图。图像处理装置40包括第二获取模块41以及第二图像处理模块42。第二获取模块41,用于获取待处理图像;第二图像处理模块42,用于利用图像处理模型对待处理图像进行处理,得到关于待处理图像的内容的预测信息,其中,图像处理模型是由上述图像处理模型的训练方法训练得到的。
上述方案,通过使用上述图像处理模型的训练方法训练得到的图像处理模型对待处理图像进行处理,能够提高图像处理的准确度。
一些公开实施例中,图像处理模型包括目标分类模型和显著性检测模型中的至少一者;在图像处理模型为目标分类模型的情况下,预测信息为待处理图像中目标的预测类别;在图像处理模型为显著性检测模型的情况下,预测信息为待处理图像中关于显著性区域的预测位置信息。
上述方案,通过使用上述图像处理模型的训练方法训练得到的目标分类模型对待处理图像进行处理,得到的目标的预测类别更为准确。和/或,通过使用上述图像处理模型的训练方法训练得到的显著性检测模型对待处理图像进行处理,得到的关于显著性区域的预测位置信息更为准确。
一些公开实施例中,在图像处理模型为目标分类模型的情况下,在利用图像处理模型对待处理图像进行处理,得到关于待处理图像的内容的预测信息之后,第二图像处理模块42还用于执行以下至少一步:在显示待处理图像的界面上显示预测类别;选择与预测类别匹配的音频进行播放;选择与预测类别匹配的源骨骼,并将与源骨骼相关的第一动画驱动数据迁移至目标骨骼上,得到目标骨骼的第二动画驱动数据,其中,目标骨骼是基于待处理图像中目标进行骨骼提取得到的。
上述方案,通过在得到预测信息之后,还执行上述至少一步,以实现图像处理模型的分类结果进行进一步的智能化操作。
一些公开实施例中,在图像处理模型为显著性检测模型的情况下第二图像处理模块42,在利用图像处理模型对待处理图像进行处理,得到关于待处理图像的内容的预测信息之后,还用于:利用预测位置信息,对显著性区域进行骨骼提取,得到目标骨骼;为目标骨骼选择一骨骼模型作为源骨骼;将与源骨骼相关的第一动画驱动数据迁移至目标骨骼上,得到目标骨骼的第二动画驱动数据。
上述方案,通过使用上述图像处理模型的训练方法训练得到的显著性检测模型输出的显著性区域,并以此对显著性区域进行骨骼提取得到目标骨骼,使得得到的目标骨骼更为准确。
请参阅图11,图11是本申请电子设备一实施例的结构示意图。电子设备50包括存储器51和处理器52,处理器52用于执行存储器51中存储的程序指令,以实现上述任一图像处理模型的训练方法实施例中的步骤和/或图像处理方法实施例中的步骤。在一个具体的实施场景中,电子设备50可以包括但不限于:医疗设备、微型计算机、台式电脑、服务器,此外,电子设备50还可以包括笔记本电脑、平板电脑等移动设备,在此不做限定。
具体而言,处理器52用于控制其自身以及存储器51以实现上述任一图像处理模型的训练方法实施例中的步骤。处理器52还可以称为CPU(Central Processing Unit,中央处理单元)。处理器52可能是一种集成电路芯片,具有信号的处理能力。处理器52还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器52可以由集成电路芯片共同实现。
上述方案,通过使用多种图像类型的样本图像对图像处理模型进行训练,使得训练得到的图像处理模型能够对多种类型的图像进行图像处理,从而提高了图像处理模型的适用性。
请参阅图12,图12是本申请计算机可读存储介质一实施例的结构示意图。计算机可读存储介质60存储有能够被处理器运行的程序指令61,程序指令61用于实现上述任一图像处理模型的训练方法实施例中的步骤和/或图像处理方法实施例中的步骤。
上述方案,通过使用多种图像类型的样本图像对图像处理模型进行训练,使得训练得到的图像处理模型能够对多种类型的图像进行图像处理,从而提高了图像处理模型的适用性。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (16)

1.一种图像处理模型的训练方法,其特征在于,包括:
获取多张样本图像,其中,所述多张样本图像所属的图像类型为至少两种,所述样本图像对应有标注结果,所述样本图像的标注结果包括关于所述样本图像的内容的真实信息;
分别利用所述图像处理模型对各所述样本图像进行处理,得到各所述样本图像的预测结果,其中,所述样本图像的预测结果包括关于所述样本图像的内容的预测信息;
基于各所述样本图像的所述标注结果和所述预测结果,调整所述图像处理模型的参数。
2.根据权利要求1所述的方法,其特征在于,所述图像处理模型包括目标分类模型和显著性检测模型中的至少一者;
在所述图像处理模型为所述目标分类模型的情况下,所述真实信息为所述样本图像中目标的真实类别,所述预测信息包括所述样本图像中所述目标的预测类别;
在所述图像处理模型为所述显著性检测模型的情况下,所述真实信息为所述样本图像中关于显著性区域的真实位置信息,所述预测信息包括所述样本图像中关于显著性区域的预测位置信息。
3.根据权利要求1或2所述的方法,其特征在于,所述样本图像的标注信息还包括所述样本图像的真实图像类型,所述样本图像的预测结果包括所述样本图像的预测图像类型。
4.根据权利要求3所述的方法,其特征在于,所述基于各所述样本图像的所述标注结果和所述预测结果,调整所述图像处理模型的参数,包括:
基于所述真实信息与预测信息,得到第一损失,以及基于所述真实图像类型和预测图像类型,得到第二损失;
基于所述第一损失和第二损失,调整所述图像处理模型的参数。
5.根据权利要求4所述的方法,其特征在于,所述基于所述第一损失和第二损失,调整所述图像处理模型的参数,包括:
获取所述第一损失与所述第二损失之间的损失差;
利用所述损失差和所述第二损失,对所述图像处理模型的参数进行调整。
6.根据权利要求5所述的方法,其特征在于,所述图像处理模型为目标分类模型,所述目标分类模型包括特征提取网络、目标分类网络以及图像类型分类网络;
所述分别利用所述图像处理模型对各所述样本图像进行处理,得到各所述样本图像的预测结果,包括:
利用所述特征提取网络对所述样本图像进行特征提取,得到样本特征;
利用所述目标分类网络对所述样本特征进行目标分类,得到所述样本图像的所述预测信息;
利用所述图像类型分类网络对所述样本特征进行图像类型分类,得到所述样本图像的预测图像类型;
所述利用所述损失差和所述第二损失,对所述图像处理模型的参数进行调整,包括:
利用所述第二损失,对所述图像类型分类网络的参数进行调整;
利用所述损失差,对所述特征提取网络以及目标分类网络的参数进行调整。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述分别利用所述图像处理模型对各所述样本图像进行处理,得到各所述样本图像的预测结果,基于各所述样本图像的所述标注结果和预测结果,调整所述图像处理模型的参数,包括:
从所述多张样本图像中选择若干所述样本图像作为当前样本图像;其中,所述若干样本图像所属的图像类型包含所述多张样本图像的所有图像类型;
利用所述图像处理模型对所述当前样本图像进行处理,得到所述当前样本图像中的预测结果;
基于所述当前样本图像的标注结果和预测结果,调整所述图像处理模型的参数;
重复所述从所述多张样本图像选择若干所述样本图像作为当前样本图像以及后续步骤,直到所述图像处理模型满足预设要求。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述图像类型包括对目标拍摄得到的图像、手绘图、卡通图中的一种或多种。
9.一种图像处理方法,其特征在于,包括:
获取待处理图像;
利用图像处理模型对所述待处理图像进行处理,得到关于所述待处理图像的内容的预测信息,其中,所述图像处理模型是由权利要求1至8任一项方法训练得到的。
10.根据权利要求9所述的方法,其特征在于,所述图像处理模型包括目标分类模型和显著性检测模型中的至少一者;
在所述图像处理模型为所述目标分类模型的情况下,所述预测信息为所述待处理图像中所述目标的预测类别;
在所述图像处理模型为所述显著性检测模型的情况下,所述预测信息为所述待处理图像中关于显著性区域的预测位置信息。
11.根据权利要求10所述的方法,其特征在于,在所述图像处理模型为所述目标分类模型的情况下,在所述利用图像处理模型对所述待处理图像进行处理,得到关于所述待处理图像的内容的预测信息之后,所述方法还包括以下至少一种:
在显示所述待处理图像的界面上显示所述预测类别;
选择与所述预测类别匹配的音频进行播放;
选择与所述预测类别匹配的源骨骼,并将与所述源骨骼相关的第一动画驱动数据迁移至目标骨骼上,得到所述目标骨骼的第二动画驱动数据,其中,所述目标骨骼是基于所述待处理图像中目标进行骨骼提取得到的。
12.根据权利要求10所述的方法,其特征在于,在所述图像处理模型为所述显著性检测模型的情况下,在所述利用图像处理模型对所述待处理图像进行处理,得到关于所述待处理图像的内容的预测信息之后,所述方法还包括:
利用所述预测位置信息,对所述显著性区域进行骨骼提取,得到目标骨骼;
为所述目标骨骼选择一骨骼模型作为源骨骼;
将与所述源骨骼相关的第一动画驱动数据迁移至所述目标骨骼上,得到所述目标骨骼的第二动画驱动数据。
13.一种图像处理模型的训练装置,其特征在于,包括:
第一获取模块,用于获取多张样本图像,其中,所述多张样本图像所属的图像类型为至少两种,所述样本图像对应有标注结果,所述样本图像的标注结果包括关于所述样本图像的内容的真实信息;
第一图像处理模块,用于分别利用所述图像处理模型对各所述样本图像进行处理,得到各所述样本图像的预测结果,其中,所述样本图像的预测结果包括关于所述样本图像的内容的预测信息;
调整模块,用于基于各所述样本图像的所述标注结果和预测结果,调整所述图像处理模型的参数。
14.一种图像处理装置,其特征在于,包括:
第二获取模块,用于获取待处理图像;
第二图像处理模块,用于利用图像处理模型对所述待处理图像进行处理,得到关于所述待处理图像的内容的预测信息,其中,所述图像处理模型是由权利要求1至8任一项方法训练得到的。
15.一种电子设备,其特征在于,包括存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现权利要求1至12任一项所述的方法。
16.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求1至12任一项所述的方法。
CN202110735895.3A 2021-06-30 2021-06-30 图像处理方法及其模型的训练方法和装置、设备、介质 Pending CN113505800A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110735895.3A CN113505800A (zh) 2021-06-30 2021-06-30 图像处理方法及其模型的训练方法和装置、设备、介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110735895.3A CN113505800A (zh) 2021-06-30 2021-06-30 图像处理方法及其模型的训练方法和装置、设备、介质

Publications (1)

Publication Number Publication Date
CN113505800A true CN113505800A (zh) 2021-10-15

Family

ID=78009663

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110735895.3A Pending CN113505800A (zh) 2021-06-30 2021-06-30 图像处理方法及其模型的训练方法和装置、设备、介质

Country Status (1)

Country Link
CN (1) CN113505800A (zh)

Citations (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754391A (zh) * 2018-12-18 2019-05-14 北京爱奇艺科技有限公司 一种图像质量评价方法、装置及电子设备
CN109784424A (zh) * 2019-03-26 2019-05-21 腾讯科技(深圳)有限公司 一种图像分类模型训练的方法、图像处理的方法及装置
WO2019233341A1 (zh) * 2018-06-08 2019-12-12 Oppo广东移动通信有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备
WO2019233297A1 (zh) * 2018-06-08 2019-12-12 Oppo广东移动通信有限公司 数据集的构建方法、移动终端、可读存储介质
CN110751157A (zh) * 2019-10-18 2020-02-04 厦门美图之家科技有限公司 图像显著性分割、图像显著性模型训练方法及装置
CN110866897A (zh) * 2019-10-30 2020-03-06 上海联影智能医疗科技有限公司 一种图像检测方法及计算机可读存储介质
CN110929807A (zh) * 2019-12-06 2020-03-27 腾讯科技(深圳)有限公司 图像分类模型的训练方法、图像分类方法及装置
CN111275175A (zh) * 2020-02-20 2020-06-12 腾讯科技(深圳)有限公司 神经网络训练方法、装置、图像分类方法、设备和介质
CN111310767A (zh) * 2020-01-16 2020-06-19 浙江科技学院 一种基于边界增强的显著性检测方法
CN111311480A (zh) * 2018-12-11 2020-06-19 北京京东尚科信息技术有限公司 图像融合方法和装置
CN111325726A (zh) * 2020-02-19 2020-06-23 腾讯医疗健康(深圳)有限公司 模型训练方法、图像处理方法、装置、设备及存储介质
CN111340083A (zh) * 2020-02-20 2020-06-26 京东方科技集团股份有限公司 医学图像的处理方法、装置、设备及存储介质
CN111415741A (zh) * 2020-03-05 2020-07-14 北京深睿博联科技有限责任公司 基于隐式表观学习的乳腺x射线影像分类模型训练方法
CN111428602A (zh) * 2020-03-18 2020-07-17 浙江科技学院 卷积神经网络边缘辅助增强的双目显著性图像检测方法
CN111445432A (zh) * 2019-10-14 2020-07-24 浙江科技学院 一种基于信息融合卷积神经网络的图像显著性检测方法
CN112116613A (zh) * 2020-09-25 2020-12-22 贝壳技术有限公司 模型训练方法、图像分割方法、图像矢量化方法及其系统
CN112132197A (zh) * 2020-09-15 2020-12-25 腾讯科技(深圳)有限公司 模型训练、图像处理方法、装置、计算机设备和存储介质
CN112164129A (zh) * 2020-09-02 2021-01-01 北京电影学院 基于深度卷积网络的无配对动作迁移方法
CN112232293A (zh) * 2020-11-09 2021-01-15 腾讯科技(深圳)有限公司 图像处理模型训练、图像处理方法及相关设备
CN112232425A (zh) * 2020-10-21 2021-01-15 腾讯科技(深圳)有限公司 图像处理方法、装置、存储介质及电子设备
CN112307850A (zh) * 2019-08-01 2021-02-02 浙江商汤科技开发有限公司 神经网络训练方法、车道线检测方法、装置和电子设备
CN112529209A (zh) * 2020-12-07 2021-03-19 上海云从企业发展有限公司 模型训练方法、装置以及计算机可读存储介质
CN112560999A (zh) * 2021-02-18 2021-03-26 成都睿沿科技有限公司 一种目标检测模型训练方法、装置、电子设备及存储介质
CN112734641A (zh) * 2020-12-31 2021-04-30 百果园技术(新加坡)有限公司 目标检测模型的训练方法、装置、计算机设备及介质
WO2021087985A1 (zh) * 2019-11-08 2021-05-14 深圳市欢太科技有限公司 模型训练方法、装置、存储介质及电子设备
WO2021098796A1 (zh) * 2019-11-20 2021-05-27 Oppo广东移动通信有限公司 图像处理方法、装置、设备及计算机可读存储介质

Patent Citations (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019233341A1 (zh) * 2018-06-08 2019-12-12 Oppo广东移动通信有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备
WO2019233297A1 (zh) * 2018-06-08 2019-12-12 Oppo广东移动通信有限公司 数据集的构建方法、移动终端、可读存储介质
CN111311480A (zh) * 2018-12-11 2020-06-19 北京京东尚科信息技术有限公司 图像融合方法和装置
CN109754391A (zh) * 2018-12-18 2019-05-14 北京爱奇艺科技有限公司 一种图像质量评价方法、装置及电子设备
CN109784424A (zh) * 2019-03-26 2019-05-21 腾讯科技(深圳)有限公司 一种图像分类模型训练的方法、图像处理的方法及装置
CN112307850A (zh) * 2019-08-01 2021-02-02 浙江商汤科技开发有限公司 神经网络训练方法、车道线检测方法、装置和电子设备
CN111445432A (zh) * 2019-10-14 2020-07-24 浙江科技学院 一种基于信息融合卷积神经网络的图像显著性检测方法
CN110751157A (zh) * 2019-10-18 2020-02-04 厦门美图之家科技有限公司 图像显著性分割、图像显著性模型训练方法及装置
CN110866897A (zh) * 2019-10-30 2020-03-06 上海联影智能医疗科技有限公司 一种图像检测方法及计算机可读存储介质
WO2021087985A1 (zh) * 2019-11-08 2021-05-14 深圳市欢太科技有限公司 模型训练方法、装置、存储介质及电子设备
US20220270397A1 (en) * 2019-11-20 2022-08-25 Guangdong Oppo Mobile Telecommunication Corp., Ltd. Image processing method and device, equipment, and computer-readable storage medium
WO2021098796A1 (zh) * 2019-11-20 2021-05-27 Oppo广东移动通信有限公司 图像处理方法、装置、设备及计算机可读存储介质
CN110929807A (zh) * 2019-12-06 2020-03-27 腾讯科技(深圳)有限公司 图像分类模型的训练方法、图像分类方法及装置
CN111310767A (zh) * 2020-01-16 2020-06-19 浙江科技学院 一种基于边界增强的显著性检测方法
CN111325726A (zh) * 2020-02-19 2020-06-23 腾讯医疗健康(深圳)有限公司 模型训练方法、图像处理方法、装置、设备及存储介质
CN111275175A (zh) * 2020-02-20 2020-06-12 腾讯科技(深圳)有限公司 神经网络训练方法、装置、图像分类方法、设备和介质
CN111340083A (zh) * 2020-02-20 2020-06-26 京东方科技集团股份有限公司 医学图像的处理方法、装置、设备及存储介质
CN111415741A (zh) * 2020-03-05 2020-07-14 北京深睿博联科技有限责任公司 基于隐式表观学习的乳腺x射线影像分类模型训练方法
CN111428602A (zh) * 2020-03-18 2020-07-17 浙江科技学院 卷积神经网络边缘辅助增强的双目显著性图像检测方法
CN112164129A (zh) * 2020-09-02 2021-01-01 北京电影学院 基于深度卷积网络的无配对动作迁移方法
CN112132197A (zh) * 2020-09-15 2020-12-25 腾讯科技(深圳)有限公司 模型训练、图像处理方法、装置、计算机设备和存储介质
CN112116613A (zh) * 2020-09-25 2020-12-22 贝壳技术有限公司 模型训练方法、图像分割方法、图像矢量化方法及其系统
CN112232425A (zh) * 2020-10-21 2021-01-15 腾讯科技(深圳)有限公司 图像处理方法、装置、存储介质及电子设备
CN112232293A (zh) * 2020-11-09 2021-01-15 腾讯科技(深圳)有限公司 图像处理模型训练、图像处理方法及相关设备
CN112529209A (zh) * 2020-12-07 2021-03-19 上海云从企业发展有限公司 模型训练方法、装置以及计算机可读存储介质
CN112734641A (zh) * 2020-12-31 2021-04-30 百果园技术(新加坡)有限公司 目标检测模型的训练方法、装置、计算机设备及介质
CN112560999A (zh) * 2021-02-18 2021-03-26 成都睿沿科技有限公司 一种目标检测模型训练方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HWANG, SJ等: "Sharing Features Between Objects and Their Attributes", 2011 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), pages 1761 - 1768 *
TAGHANAKI, SA等: "Combo loss: Handling input and output imbalance in multi-organ segmentation", COMPUTERIZED MEDICAL IMAGING AND GRAPHICS, vol. 75, pages 24 - 33, XP085730671, DOI: 10.1016/j.compmedimag.2019.04.005 *
宋晓宇;金莉婷;赵阳;孙越;刘童;: "基于有效区域筛选的复杂背景植物图像识别方法", 激光与光电子学进展, no. 04, pages 181 - 191 *

Similar Documents

Publication Publication Date Title
CN110503703B (zh) 用于生成图像的方法和装置
CN110058685B (zh) 虚拟对象的显示方法、装置、电子设备和计算机可读存储介质
CN113505799B (zh) 显著性检测方法及其模型的训练方法和装置、设备、介质
CN110379020B (zh) 一种基于生成对抗网络的激光点云上色方法和装置
CN111739027B (zh) 一种图像处理方法、装置、设备及可读存储介质
CN111612696B (zh) 图像拼接方法、装置、介质及电子设备
CN115699082A (zh) 缺陷检测方法及装置、存储介质及电子设备
CN112101262B (zh) 一种多特征融合手语识别方法及网络模型
CN110648397A (zh) 场景地图生成方法、装置、存储介质及电子设备
CN110858277A (zh) 一种获得姿态分类模型的方法以及装置
CN110689020A (zh) 一种矿物浮选泡沫图像的分割方法及电子设备
Baggio et al. Mastering OpenCV 3
CN110969641A (zh) 图像处理方法和装置
CN114511041A (zh) 模型训练方法、图像处理方法、装置、设备和存储介质
CN110516598B (zh) 用于生成图像的方法和装置
CN114527877A (zh) 虚拟形象驱动方法、装置及服务器
CN117422851A (zh) 虚拟换衣方法及其装置、电子设备
CN114663810B (zh) 基于多模态的物体图像增广方法及装置、设备及存储介质
CN111107264A (zh) 图像处理方法、装置、存储介质以及终端
Englert et al. Enhancing the ar experience with machine learning services
CN113505800A (zh) 图像处理方法及其模型的训练方法和装置、设备、介质
CN114373050A (zh) 一种基于HoloLens的化学实验教学系统及方法
CN111353536B (zh) 图像的标注方法、装置、可读介质和电子设备
WO2023047162A1 (en) Object sequence recognition method, network training method, apparatuses, device, and medium
Kim et al. Vision-based all-in-one solution for augmented reality and its storytelling applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination