CN112949662A - 一种图像处理方法、装置、计算机设备以及存储介质 - Google Patents
一种图像处理方法、装置、计算机设备以及存储介质 Download PDFInfo
- Publication number
- CN112949662A CN112949662A CN202110524188.XA CN202110524188A CN112949662A CN 112949662 A CN112949662 A CN 112949662A CN 202110524188 A CN202110524188 A CN 202110524188A CN 112949662 A CN112949662 A CN 112949662A
- Authority
- CN
- China
- Prior art keywords
- image processing
- network
- model
- sub
- image frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了一种图像处理方法、装置、计算机设备以及存储介质,其中,该方法包括:获取当前图像帧,并获取当前图像帧的上一图像帧的图像处理结果;获取用于对所述当前图像帧进行处理的图像处理模型,并确定所述图像处理模型中的融合位置和融合方式;在所述图像处理模型提取所述当前图像帧的图像特征的过程中,按照所述融合方式将所述图像处理模型中位于所述融合位置之前的网络模块输出的图像特征和所述上一图像帧的图像处理结果进行融合,得到融合结果;将所述融合结果输入至所述图像处理模型中位于所述融合位置之后的网络模块进行图像处理,得到所述当前图像帧的图像处理结果。
Description
技术领域
本公开涉及图像处理的技术领域,具体而言,涉及一种图像处理方法、装置、计算机设备以及存储介质。
背景技术
随着人工智能技术和智能终端设备的快速发展,在智能终端设备中越来越多的应用程序开始部署用于进行图像处理的神经网络模型,例如,姿态估计网络模型、人脸识别模型、图像分割网络模型等各种类型的网络模型。在现有的神经网络模型的图像处理方法中,通过神经网络模型对每个图像进行单独的处理。且在图像的数量为多个的情况下,用于对多个图像进行图像处理的神经网络模型的结构是相同。在该处理方式下,并未实现在图像之间合理分配计算资源,从而导致神经网络模型的处理精度无法满足实际应用需求。
发明内容
本公开实施例至少提供一种图像处理方法、装置、计算机设备以及存储介质。
第一方面,本公开实施例提供了一种图像处理方法,包括:获取当前图像帧,并获取当前图像帧的上一图像帧的图像处理结果;获取用于对当前图像帧进行处理的图像处理模型,并确定所述图像处理模型中的融合位置和融合方式;在所述图像处理模型提取所述当前图像帧的图像特征的过程中,按照所述融合方式将所述图像处理模型中位于所述融合位置之前的网络模块输出的图像特征和所述上一图像帧的图像处理结果进行融合,得到融合结果;将所述融合结果输入至所述图像处理模型中位于所述融合位置之后的网络模块进行图像处理,得到所述当前图像帧的图像处理结果。
在本公开实施例中,在对当前图像帧进行处理时,通过结合上一图像帧的图像处理结果,可以实现将上一图像帧中的信息传递至当前图像帧中,从而将上一图像帧的图像处理结果作为当前图像帧的引导信息,通过引导信息对当前图像帧进行图像处理,可以更好地抓住当前图像帧中的特征信息,从而得到准确的图像处理结果。针对每个待处理的当前图像帧,通过为其设置对应的图像处理模型,并在该图像处理模型中设置上一图像帧的图像处理结果的融合位置和融合方式,可以实现在图像帧内为待计算的数据合理的分配计算资源,从而提高图像处理模型的处理精度,得到准确性更高的图像处理结果。
一种可选的实施方式中,所述获取用于对当前图像帧进行处理的图像处理模型,包括:基于超网络确定用于对所述当前图像帧进行处理的图像处理模型;所述超网络包括多个具有连接关系的网络模块。
上述实施方式中,
一种可选的实施方式中,基于超网络确定用于对所述当前图像帧进行处理的图像处理模型,包括:在所述当前图像帧所属的视频片段中确定包含所述当前图像帧的多个连续非关键帧;在预先训练的第一超网络中搜索满足第一计算资源约束条件的至少一个子网络模型组,其中,每个所述子网络模型组中包含为每个非关键帧搜索的第一子网络模型;基于所述至少一个子网络模型组确定用于对所述当前图像帧进行处理的图像处理模型。
上述实施方式中,通过在第一超网络中搜索满足第一计算资源约束条件的至少一个子网络模型组,进而根据该至少一个子网络模型组确定每个非关键帧所对应的图像处理模型的方式,可以实现在多个连续非关键帧所对应的图像处理模型满足整体计算资源约束(即,第一计算资源约束条件)的情况下,实现自动在多个连续非关键帧之间分配计算资源,从而实现图像处理方法的全局最优,以提高图像处理方法的处理准确度。
一种可选的实施方式中,所述基于所述至少一个子网络模型组确定用于对所述当前图像帧进行处理的图像处理模型,包括:获取目标测试样本;通过所述目标测试样本对每个所述子网络模型组进行测试,得到至少一个测试结果;在所述至少一个测试结果中选择目标测试结果所对应的目标子网络模型组,并根据所述目标子网络模型组确定所述图像处理模型,其中,所述目标测试结果为所述至少一个测试结果中满足第一测试条件的测试结果。
上述实施方式中,通过目标测试样本在至少一个子网络模型组中为多个连续非关键帧选择处理精度最优的子网络模型,可以提高图像处理的精度,从而得到准确度更高的图像处理结果,例如,姿态估计结果。
一种可选的实施方式中,所述在预先训练的第一超网络中搜索满足第一计算资源约束条件的至少一个子网络模型组,包括:确定每个非关键帧的目标搜索范围;其中,每个所述目标搜索范围中包含预设搜索维度中多个第一搜索维度的一个搜索范围;所述第一搜索维度包含:用于指示图像处理模型结构的空间搜索维度,以及用于指示所述融合位置和融合方式的时间搜索维度;基于各个非关键帧的目标搜索范围,在预先训练的第一超网络中搜索满足所述第一计算资源约束条件的子网络模型,并根据搜索到的子网络模型确定所述子网络模型组。
上述实施方式中,对于不同非关键帧可以使用同一超网络进行搜索,搜索得到一组空间结构,以及融合位置和融合方式各不相同的子网络模型。通过该处理方式,可以实现在多个连续的非关键帧之间合理的进行计算资源的分配,从而提高图像处理的精度,得到准确度更高的图像处理结果。
一种可选的实施方式中,通过以下步骤训练待训练的第一超网络:获取第一训练样本集,其中,所述第一训练样本集中包含多个第一训练样本,每个第一训练样本包含多个非关键帧;在待训练的第一超网络中提取多组待训练子网络;每组待训练子网络中子网络的数量与每个第一训练样本中非关键帧的数量相同,且一个待训练子网络对应处理该训练样本中的一个非关键帧;通过所述第一训练样本集对每组待训练子网络进行训练,训练之后得到所述第一超网络。
上述实施例中,通过上述训练方法对待训练的第一超网络进行训练,可以训练得到结构不相同,且长度可变的子网络模型;从而能够满足不同的约束条件,以满足不同的应用场景。
一种可选的实施方式中,在所述上一图像帧为关键帧的情况下,通过以下步骤确定所述上一图像帧所对应图像处理模型:在预设搜索维度中确定与所述上一图像帧相匹配的多个第二搜索维度的搜索范围;所述多个第二搜索维度包含用于指示所述上一图像帧所对应的图像处理模型结构的空间搜索维度;基于各个第二搜索维度的搜索范围对预先训练的第二超网络进行搜索,得到满足第二计算资源约束条件的至少一个第二子网络模型;其中,所述第二计算资源约束条件用于表征对关键帧进行处理的复杂度;基于所述至少一个第二子网络模型确定所述上一图像帧所对应图像处理模型。
上述实施方式中,通过设置第二搜索维度,并而根据第二搜索维度在第二超网络中为关键帧搜索相应的子网络模型作为图像处理模型的方式,可以自动的在第二超网络中确定满足要求的图像处理模型。
一种可选的实施方式中,所述基于所述至少一个第二子网络模型确定所述上一图像帧所对应图像处理模型,包括:通过每个第二子网络模型对预设测试集进行处理,得到多个测试结果;其中,所述测试结果用于表征对应第二子网络模型的预测准确度;在所述多个测试结果中确定目标测试结果所对应的第二子网络模型为所述上一图像帧所对应图像处理模型,其中,所述目标测试结果为多个测试结果中满足第二测试条件的测试结果。
上述实施方式中,通过预设测试集对筛选出的满足第二约束条件的至少一个第二子网络模型进行测试的方式,可以得到处理精度最优的第二子网络模型,从而可以在保证图像处理模型的处理精度的同时,选择出满足实时性要求较高的实际应用的图像处理模型。
一种可选的实施方式中,所述方法还包括:在所述至少一个第二子网络模型的测试结果中未确定出所述目标测试结果的情况下,更新每个第二搜索维度所对应的搜索范围;根据更新之后的搜索范围对第二超网络进行搜索,直至在搜索到满足所述第二计算资源约束条件的至少一个第二子网络模型的测试结果中确定出目标测试结果的情况下,基于该目标测试结果所对应的第二子网络模型确定所述上一图像帧所对应图像处理模型。
上述实施方式中,通过更新每个第二搜索维度的搜索范围,可以缩小第二超网络中图像处理模型的搜索范围,从而能够快速的从第二超网络中搜索到相应的轻量级的子网络模型作为上一图像帧所对应图像处理模型。
一种可选的实施方式中,通过以下步骤训练待训练的第二超网络:获取第二训练样本集;所述第二训练样本集中包含多个第二训练样本;在所述待训练的第二超网络中为每个第二训练样本抽取多个子网络模型;基于所述第二训练样本集中的多个第二训练样本对抽取到的所述多个子网络模型进行训练,训练之后得到所述第二超网络。
上述实施方式中,通过随机抽取至少一个子网络模型,并对抽取到的每个子网络模型进行训练的方式,可以实现通过对超网络的一次训练过程得到满足不同搜索条件的子网络模型,从而使得该超网络能够适应更为广泛的应用场景,从而减少了网络结构搜索的开销。
一种可选的实施方式中,所述预设搜索维度包括:空间搜索维度和时间搜索维度,所述空间搜索维度包括以下至少一种参数:模型结构参数、卷积层参数、注意力模块参数;所述时间搜索维度包括:融合参数;所述模型结构参数用于表征待搜索的图像处理模型在超网络中所需网络模块的数量;所述卷积层参数用于表征以下至少之一:待搜索的图像处理模型在超网络中所需网络模块输出的特征通道数量、待搜索的图像处理模型在超网络中所需卷积层的卷积核大小,和/或,用于表征待搜索的图像处理模型在超网络中所需卷积层的分组数量;所述注意力模块参数用于指示是否使用每个网络模块中预先设置的注意力模块;所述融合参数用于指示所述上一图像帧的图像处理结果融合至所述图像处理模型中的融合位置和融合方式。
上述实施例中,通过设置模型结构参数、卷积层参数、注意力模块参数和融合参数,可以在模型搜索空间中扩大神经网络模型的搜索空间,从而搜索出处理精度满足要求的轻量级神经网络模型,从而得到最优的图像处理结果。
第二方面,本公开实施例提供了一种图像处理装置,包括:第一获取单元,用于获取当前图像帧,并获取当前图像帧的上一图像帧的图像处理结果;第一获取单元,用于获取用于对所述当前图像帧进行处理的图像处理模型;确定单元,用于确定所述图像处理模型中的融合位置和融合方式;融合单元,用于在所述图像处理模型提取所述当前图像帧的图像特征的过程中,按照所述融合方式将所述图像处理模型中位于所述融合位置之前的网络模块输出的图像特征和所述上一图像帧的图像处理结果进行融合,得到融合结果;图像处理单元,用于将所述融合结果输入至所述图像处理模型中位于所述融合位置之后的网络模块进行图像处理,得到所述当前图像帧的图像处理结果。
第三方面,本公开实施例还提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
第四方面,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例所提供的一种图像处理方法的流程图;
图2示出了本公开实施例所提供的一种可选的基于模型深度参数进行模型搜索的展示示意图;
图3示出了本公开实施例所提供的一种可选的基于模型宽度参数进行模型搜索的展示示意图;
图4示出了本公开实施例所提供的一种可选的基于卷积核大小参数进行模型搜索的展示示意图;
图5示出了本公开实施例所提供的一种可选的基于卷积层分组数量参数进行模型搜索的展示示意图;
图6示出了本公开实施例所提供的一种可选的基于注意力模块参数进行模型搜索的展示示意图;
图7示出了本公开实施例所提供的另一种图像处理方法的流程图;
图8示出了本公开实施例所提供的一种图像处理装置的结构示意图;
图9示出了本公开实施例所提供的一种计算机设备的示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
本文中术语“和/或”,仅仅是描述一种关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
经研究发现,在现有的基于神经网络模型的图像处理方法中,所选用的方法为通过神经网络模型对每个图像进行单独的处理;且在图像的数量为多个的情况下,用于对每个图像进行图像处理的神经网络模型的结构是相同。在该处理方式下,并未实现在图像之间合理分配计算资源,从而导致神经网络模型的处理精度无法满足实际应用需求。
基于上述研究,本公开提供了一种图像处理方法。在本公开实施例中,在对当前图像帧进行处理时,通过结合上一图像帧的图像处理结果,可以实现将上一图像帧中的信息传递至当前图像帧中,从而将上一图像帧的图像处理结果作为当前图像帧的引导信息,通过引导信息对当前图像帧进行图像处理,可以更好地抓住当前帧的中的特征信息,从而得到准确的图像处理结果。
在本公开实施例中,针对每个待处理的当前图像帧,通过为其设置对应的图像处理模型,并在该图像处理模型中设置上一图像帧的图像处理结果的融合位置和融合方式,可以实现在图像帧内为待计算的数据合理的分配计算资源,从而提高图像处理模型的处理精度,得到准确性更高的图像处理结果。
为便于对本实施例进行理解,首先对本公开实施例所公开的一种图像处理方法进行详细介绍,本公开实施例所提供的图像处理方法的执行主体一般为具有一定计算能力的计算机设备,该计算机设备例如包括:终端设备或服务器或其它处理设备,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该图像处理方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
参见图1所示,为本公开实施例提供的一种图像处理方法的流程图,所述方法包括步骤S101~S107,其中:
S101:获取当前图像帧,并获取当前图像帧的上一图像帧的图像处理结果。
S103:获取用于对所述当前图像帧进行处理的图像处理模型,并确定所述图像处理模型中的融合位置和融合方式。
在本公开实施例中,可以为当前图像帧确定满足精度要求的图像处理模型。这里,融合位置可以理解为将上一图像帧的图像处理结果融合至搜索到的图像处理模型中的位置,还可以理解为图像处理模型中将上一图像帧的图像处理结果和当前图像帧的图像特征进行融合的时机。
融合方式可以理解为将上一图像帧的图像处理结果和当前图像帧的图像特征进行融合的具体融合算法。
在一个可选的实施方式中,该融合方式包括以下任一种:相加操作Add、相乘操作Mul、级联操作Cat。
这里需要说明的是,不同的图像帧所对应的图像处理模型的结构可以相同,或者不同;且不同的图像帧所对应的图像处理模型中,用于进行数据融合的融合位置和融合方式可以相同,或者不同,本公开对此不作具体限定。
S105:在所述图像处理模型提取所述当前图像帧的图像特征的过程中,按照所述融合方式将所述图像处理模型中位于所述融合位置之前的网络模块输出的图像特征和所述上一图像帧的图像处理结果进行融合,得到融合结果。
这里,为当前图像帧搜索到的图像处理模型中包含多个具有连接关系的网络模块,比如,可以包含以下类型的网络模块:卷积层、池化层、归一化层等。
在获取到图像处理模型之后,该图像处理模型中所包含的多个网络模块提取当前图像帧的图像特征。当特征提取至融合位置之前的网络模块时,将该网络模块输出的图像特征和上一图像帧的图像处理结果进行融合,从而得到融合结果。
比如,可以通过融合模块按照相加操作Add、相乘操作Mul、级联操作Cat中任意一种融合方式,将该网络模块输出的图像特征和上一图像帧的图像处理结果进行融合,从而得到融合结果。
S107:将所述融合结果输入至所述图像处理模型中位于所述融合位置之后的网络模块进行图像处理,得到所述当前图像帧的图像处理结果。
在图像处理模型为姿态估计模型的情况下,图像处理结果用于表征当前图像帧中所包含目标对象的姿态估计结果,其中,该姿态估计结果可以理解为目标对象的肢体关键点的特征信息。
在图像处理模型为人脸检测模型的情况下,图像处理结果用于表征当前图像帧中所包含目标人脸的人脸检测结果,其中,该人脸检测结果可以理解为目标人脸的人脸关键点的信息,该人脸关键点可以为用于表征五官的关键点。
在本公开实施例中,在对当前图像帧进行处理时,通过结合上一图像帧的图像处理结果,可以实现将上一图像帧中的信息传递至当前图像帧中,从而将上一图像帧的图像处理结果作为当前图像帧的引导信息,通过引导信息对当前图像帧进行图像处理,可以更好地抓住当前图像帧的中的特征信息,从而得到准确的图像处理结果。针对每个待处理的当前图像帧,通过为其设置对应的图像处理模型,并在该图像处理模型中设置上一图像帧的图像处理结果的融合位置和融合方式,可以实现在图像帧内为待计算的数据合理的分配计算资源,从而提高图像处理模型的处理精度,得到准确性更高的图像处理结果。
针对上述步骤S101、
当前图像帧及其上一图像帧可以为一个视频片段中的图像帧。针对该视频片段,预先设定了图像帧的类型,具体包括:关键帧和非关键帧。
在设定关键帧和非关键帧时,可以根据图像帧中所包含的内容进行设定。比如,相较于上一图像帧,当前图像帧的图像内容发生了变化(比如,图像帧中所包含的目标对象发生了变化),此时,可以将该当前图像帧确定为关键帧。在当前图像帧为关键帧的情况下,视频片段中位于当前图像帧之后,且位于下一个关键帧之前的图像帧为非关键帧。
举例来说,视频片段中可以包含以下图像帧:关键帧A1、非关键帧B1、非关键帧B2、关键帧A2、非关键帧B3、非关键帧B4、非关键帧B5,关键帧A3,…。
在本公开实施例中,针对关键帧和非关键帧,确定与之对应的图像处理模型的方式是不相同的,具体将在下述实施方式中进行介绍。
这里,可以将关键帧A1、非关键帧B1、非关键帧B2作为一组图像帧,然后为该组图像帧中的每个图像确定相应的图像处理模型;还可以将关键帧A2、非关键帧B3、非关键帧B4、非关键帧B5作为另一组图像帧,然后为该组图像帧中的每个图像确定相应的图像处理模型。
针对步骤S103:获取用于对当前图像帧进行处理的图像处理模型,包括如下步骤:
基于超网络确定用于对所述当前图像帧进行处理的图像处理模型;所述超网络包括多个具有连接关系的网络模块。
这里,超网络可以为预先设定的包含多个网络模块的神经网络模型;或者说超网络可以理解为一个大型神经网络,在该大型神经网络中包含多个网络模块block。
在本公开实施例中,可以在超网络中为当前图像帧搜索满足要求的子网络模型作为图像处理模型;其中,该搜索过程可以包含以下两种方式。
方式一:在不改变超网络中预先设定的网络模块的结构的前提下,在超网络中为当前图像帧搜索出满足要求网络模块,进而根据搜索到的网络模块在超网络中的连接关系确定一个子网络模型作为图像处理模型。
方式二:通过对超网络中预先设定的网络模块的结构进行修剪(或者剪枝处理),从而实现在超网络中搜索出满足要求的网络模型。其中,对网络模块的结构进行修剪依据为上述多个搜索维度的搜索范围,进而根据搜索到的网络模块在超网络中的连接关系确定一个子网络模型作为图像处理模型。
除此之外,还可以结合上述所描述的方式和方式二搜索满足要求的网络模块。
通过上述两种方式为当前图像帧搜索满足要求的图像处理模型,可以在已有超网络的网络结构的基础上,进一步扩大网络模块的搜索范围,从而在扩大之后的搜索范围中搜索精度更优的子网络模型作为图像处理模型。
在一个可选的实施方式中,步骤基于超网络确定用于对所述当前图像帧进行处理的图像处理模型,包括如下过程:
S11,在所述当前图像帧所属的视频片段中确定包含该当前图像帧的多个连续非关键帧;
S12,在预先训练的第一超网络中搜索满足第一计算资源约束条件的至少一个子网络模型组,其中,每个所述子网络模型组中包含为每个非关键帧搜索的第一子网络模型;
S13,基于所述至少一个子网络模型组确定用于对所述当前图像帧进行处理的图像处理模型。
举例来说,视频片段中包含以下图像帧:关键帧A1、非关键帧B1、非关键帧B2、关键帧A2、非关键帧B3、非关键帧B4、非关键帧B5,关键帧A3,…。
若当前图像帧为非关键帧B4,那么包含该当前图像帧的多个连续非关键帧为:非关键帧B3、非关键帧B4、非关键帧B5。同样地,若当前图像帧为非关键帧B1,那么包含该当前图像帧的多个连续非关键帧为非关键帧B1和非关键帧B2。
在确定出上述多个连续非关键帧之后,就可以在预先训练的第一超网络中为每个非关键帧搜索第一子网络模型。
需要说明的是,通过上述所描述的方式一和/或方式二所描述的搜索方式为每个非关键帧搜索第一子网络模型,此处不再一一赘述。
这里需要说明的是,为每个非关键帧搜索到的第一子网络模型的模型结构可以相同,还可以不相同,本公开对此不作具体限定。
通过为每个非关键帧搜索到不相同的第一子网络模型,可以实现在多个连续非关键帧之间合理分配计算资源,从而实现图像处理方法的全局最优,以提高图像处理方法的处理准确度。
针对多个连续非关键帧来说,要求为多个连续非关键帧搜索到的多个第一子网络模型满足第一计算资源约束条件。此时,满足第一计算资源约束条件的多个第一子网络模型构成一个子网络模型组。
这里,可以通过以下方式理解:多个第一子网络模型满足第一计算资源约束条件:
每个第一子网络模型满足第一计算资源约束条件;和/或,多个第一子网络模型整体满足第一计算资源约束条件;和/或,构成每个第一子网络模型的每个网络模块满足第一计算资源约束条件。
这里,可以设置任意的第一计算资源约束条件,例如,在第一计算资源约束条件中可以包含以下参数:图像处理模型中的浮点运算数(FLOPs),图像处理模型的运算时间(FPS),图像处理模型的参数量(Parameters)等。其中,浮点运算数(FLOPs)用于衡量图像处理模型的计算复杂度。
在确定出满足第一计算资源约束条件的至少一个子网络模型组之后,就可以基于至少一个子网络模型组确定用于对当前图像帧进行处理的图像处理模型。
上述实施方式中,通过在第一超网络中搜索满足第一计算资源约束条件的至少一个子网络模型组,进而根据该至少一个子网络模型组确定每个非关键帧所对应的图像处理模型的方式,可以实现在多个连续非关键帧所对应的图像处理模型满足整体计算资源约束(即,第一计算资源约束条件)的情况下,实现自动在多个连续非关键帧之间分配计算资源,从而实现图像处理方法的全局最优,以提高图像处理方法的处理准确度。
在一个可选的实施方式中,步骤S13:基于所述至少一个子网络模型组确定用于对所述当前图像帧进行处理的图像处理模型,包括如下过程:
步骤S131:获取目标测试样本;
步骤S132:通过所述目标测试样本对每个所述子网络模型组进行测试,得到至少一个测试结果;
步骤S133:在所述至少一个测试结果中选择目标测试结果所对应的目标子网络模型组,并根据所述目标子网络模型组确定所述图像处理模型,其中,所述目标测试结果为所述至少一个测试结果中满足第一测试条件的测试结果。
具体地,在确定出至少一个子网络模型组之后,需要在满足第一计算资源约束条件的全部子网络模型组中选取一组整体特征传播效果较好的子网络模型。
此时,可以通过每个子网络模型组对目标测试样本进行处理,得到至少一个测试结果,其中,该测试结果用于表征每个子网络模型组中各个子网络模型的处理精度。
这里,每个目标测试样本中可以包含多个图像帧,且每个子网络模型组中的一个子网络模型用于对一个图像帧进行处理。
在得到至少一个测试结果之后,可以在至少一个测试结果中选择满足第一测试条件的目标测试结果所对应的子网络模型组作为目标子网络模型组,具体包括以下几种方式:
方式一:
在得到至少一个测试结果之后,可以在至少一个测试结果中选择最优测试结果所对应的子网络模型组作为目标子网络模型组。
方式二:
在得到至少一个测试结果之后,还可以在至少一个测试结果中选择大于或者等于预设测试阈值的测试结果,并将选择出的测试结果所对应的子网络模型组作为目标子网络模型组。
针对每个子网络模型组的测试结果,在该测试结果中可以包含多个子测试结果,其中,每个子测试结果用于表征该子网络模型组中每个第一子网络模型的测试结果。
这里,每个测试结果大于或者等于预设测试阈值可以理解为:各个子测试结果均大于或者等于预设测试阈值,和/或,各个子测试结果的均值大于或者等于预设测试阈值。
在确定出目标子网络模型组之后,就可以将该目标子网络模型组中的子网络模型分别作为多个连续关键帧所对应的图像处理模型,从而实现确定当前图像帧所对应的图像处理模型。
上述实施方式中,通过目标测试样本在至少一个子网络模型组中为多个连续非关键帧选择处理精度最优的子网络模型,可以提高图像处理的精度,从而得到准确度更高的图像处理结果,例如,姿态估计结果。
在一个可选的实施方式中,步骤S12:在预先训练的第一超网络中搜索满足第一计算资源约束条件的至少一个子网络模型组,包括如下过程:
步骤S121:确定每个非关键帧的目标搜索范围;其中,每个所述目标搜索范围中包含预设搜索维度中多个第一搜索维度的一个搜索范围;所述第一搜索维度包含:用于指示图像处理模型结构的空间搜索维度,以及用于指示所述融合位置和融合方式的时间搜索维度;
步骤S122:基于各个非关键帧的目标搜索范围,在预先训练的第一超网络中搜索满足所述第一计算资源约束条件的子网络模型,并根据搜索到的子网络模型确定所述子网络模型组。
举例来说,视频片段中包含以下图像帧:关键帧A1、非关键帧B1、非关键帧B2、关键帧A2、非关键帧B3、非关键帧B4、非关键帧B5,关键帧A3,…。下面以非关键帧B1和非关键帧B2为例来进行说明。
在空间搜索维度和时间搜索维度中为非关键帧B1确定相应的目标搜索范围,并基于该目标搜索范围在第一超网络中搜索子网络模型C1。在空间搜索维度和时间搜索维度中为非关键帧B2确定相应的目标搜索范围,并基于该目标搜索范围在第一超网络中搜索子网络模型C2。接下来,判断子网络模型C1和子网络模型C2的计算复杂度总和是否满足第一计算资源约束条件。
在判断出满足的情况下,将子网络模型C1和子网络模型C2作为一个子网络模型组。在判断出不满足的情况下,则继续基于各个非关键帧的目标搜索范围搜索满足第一计算资源约束条件的子网络模型。
上述实施方式中,对于不同非关键帧可以使用同一超网络进行搜索,搜索得到一组空间结构,以及融合位置和融合方式各不相同的子网络模型。通过该处理方式,可以实现在多个连续的非关键帧之间合理的进行计算资源的分配,从而提高图像处理的精度,得到准确度更高的图像处理结果。
在本公开实施例中,预设搜索维度包括:空间搜索维度和时间搜索维度,所述空间搜索维度包括以下至少一种参数:模型结构参数、卷积层参数、注意力模块参数;所述时间搜索维度包括:融合参数。
模型结构参数用于表征待搜索的图像处理模型在超网络中所需网络模块的数量。若待搜索的图像处理模型为上述当前图像帧的图像处理模型,则该超网络为上述第一超网络。
这里,模型结构参数可以包含:模型深度参数,其中,模型深度参数用于表征待搜索的图像处理模型在超网络的每个网络模块中所需网络模块的数量。
如图2所示的任意一个网络中基于模型深度参数进行模型搜索的展示示意图。从图2中可以看出,在该网络中包含网络模块1(block1)、网络模块2(block2)、网络模块3(block3)和网络模块4(block4),以及输出层。
当模型深度参数=2时,表示通过网络模块1(block1)和网络模块2(block2)对输入数据进行数据,并跳过网络模块3(block3)和网络模块4(block4),直接将网络模块2处理之后的数据输入至输出层。
通过上述描述可知,本公开所提供的技术方案可以根据模型深度参数在每个网络模块中搜索指定数量的网络模块进行处理。比如,搜索前N个网络模块对输入数据进行处理,对于该网络模块中的其他网络模块,则不对该输入数据进行任何的数据处理,也即,直接跳过该其他网络模块。
针对上述所描述卷积层参数,卷积层参数可以包含以下至少之一:卷积层通道数、卷积核大小参数、卷积层分组数量参数。
一、卷积层通道数用于表待搜索的图像处理模型在超网络中所需网络模块输出的特征通道数量。
如图3所示的任意一个网络中基于模型宽度参数进行模型搜索的展示示意图。从图3中可以看出,在未设置模型宽度参数的情况下,3通道的输入数据经过大小为I*O*K*K的卷积核进行计算之后,可以得到4通道的输出数据,其中,I=3,O=4,K=3。
从图3中可以看出,在设置了模型宽度参数之后,就可以在网络模块所输出数据的全部特征通道中选择指定数量的特征通道,从而减少输出数据的宽度,以实现减少神经网络模型的计算量,比如,选择输出数据中的前N个特征通道的数据作为该网络模型的输出数据。
例如,模型宽度参数=2,此时,如图3所示,可以在4特征通道的特征数据中选择前2个特征通道的数据作为该网络模块的输出数据。
二、卷积核大小参数用于表征待搜索的图像处理模型在超网络中所需卷积层的卷积核大小。
如图4所示的一种可选的基于卷积核大小参数进行模型搜索的展示示意图。在网络模块的卷积层中,初始卷积核的大小可以为4*4,在设定该卷积核大小参数之后,可以按照卷积核大小参数在该初始卷积核中选择2*2大小的卷积核作为该卷积层的卷积核。
在本公开实施例中,如图4所示,可以在初始卷积核的中间位置选择2*2大小的卷积核。
三、卷积层分组数量参数用于表征待搜索的图像处理模型在超网络中所需卷积层的分组数量。
这里,卷积层分组是指将输入数据拆分为多组子数据,进而,对每组子数据分别进行卷积计算。
如图5中“分组前”所示的卷积计算可知,输入数据为4通道的特征数据,输出数据为2通道的特征数据,此时,要求卷积核的数量为2个,且每个卷积核的大小为4*K*K。
也就是说,假设,输入数据的通道数量为Cin,输出数据的通道数量为Cout,此时,卷积核的数量为Cout个,且每个卷积核大小为Cin*K*K,此时卷积层中卷积核的大小为:Cout*Cin*K*K。
基于此,假设,如图5中“分组后”所示,卷积层分组数量参数=2,表示将输入数据拆分成2组子数据,每组子数据为2通道的特征数据,相应的每组子数据所对应的输出数据为1通道的特征数据。针对2通道的子数据,所对应的卷积核的大小为1*2*K*K(或者,(Cout/2)*(Cin/2) *K*K)。
上述实施方式中,通过对卷积层进行分组,可以减少卷积计算所需的参数量,从而简化图像处理模型的计算流程,加快图像处理模型的计算效率。
注意力模块参数用于指示是否使用每个网络模块中预先设置的注意力模块。
这里,注意力模块参数用于指示是否使用每个网络模块中预先设置的注意力模块。
在本公开实施例中,可以通过注意力模块参数确定是否使用每个网络模块是否需要设置注意力模块。如图6所示,当需要使用注意力模块时,每个网络模块的输出数据经过相应的注意力模块之后,输入至下一个网络模块进行处理;当不需要使用注意力模块,直接跳过该注意力模块。
融合参数用于指示所述上一图像帧的图像处理结果融合至所述图像处理模型中的融合位置和融合方式。
这里,融合位置可以选择为图像处理模型深度方向的任一网络模块作为与上一图像帧帧的图像处理结果进行融合的位置。该融合方式包括以下任一种:相加操作Add、相乘操作Mul、级联操作Cat。
上述实施例中,通过设置模型结构参数、卷积层参数、注意力模块参数和融合参数,可以在模型搜索空间中扩大神经网络模型的搜索空间,从而搜索出处理精度满足要求的轻量级神经网络模型,从而得到最优的图像处理结果。
在本公开实施例中,在按照上述所描述的方式确定出图像处理模型,以及融合位置和融合方式之后,就可以在图像处理模型提取所述当前图像帧的图像特征的过程中,按照融合方式将所述图像处理模型中位于所述融合位置之前的网络模块输出的图像特征和所述上一图像帧的图像处理结果进行融合,得到融合结果。并在得到所述融合结果之后,对所述融合结果进行卷积计算;将卷积计算之后的融合结果输入至所述图像处理模型中位于所述融合位置之后的网络模块进行图像处理,得到当前图像帧的图像处理结果。
这里需要说明的是,在将图像特征和上一图像帧的图像处理结果进行融合之前,还可以通过另外一个卷积层对该图像处理结果进行卷积计算,从而将卷积计算之后的图像处理结果和图像特征进行融合,得到融合结果。
在一个可选的实施方式中,可以通过以下步骤训练待训练的第一超网络,具体包括:
(1)、获取第一训练样本集,其中,所述第一训练样本集中包含多个第一训练样本,每个第一训练样本包含多个非关键帧;
(2)、在待训练的第一超网络中提取多组待训练子网络;每组待训练子网络中子网络的数量与每个第一训练样本中非关键帧的数量相同,且一个待训练子网络对应处理该训练样本中的一个非关键帧;
(3)、通过所述第一训练样本集对每组待训练子网络进行训练,训练之后得到所述第一超网络。
在对待训练的第一超网络进行训练时,可以获取第一训练样本集,在该第一训练样本集中包含多个第一训练样本,每个第一训练样本中包含多个非关键帧。这里,第一训练样本集的每个第一训练样本中所包含非关键帧的数量可以根据实际需要来进行设定。
可以理解的是,在本公开实施例中,可以构建多个第一训练样本集,不同第一训练样本集的第一训练样本中所包含非关键帧的数量不同。通过该设置方式,可以满足多个连续非关键帧的不同数量要求;同时还可以提高第一超网络中各个情况下的子网络模型的处理精度。
在本公开实施例中,针对每个第一训练样本,可以在待训练的第一超网络中提取N组待训练子网络,分别为:为该第一训练样本中的每个非关键帧提取的待训练的第一超网络中结构最大的子网络模型,为该第一训练样本中每个非关键帧提取的待训练的第一超网络中结构最小的子网络模型,以及为该第一训练样本中的每个非关键帧随机提取的N-2个子网络模型。其中,随机抽取的N-2个子网络模型为每个非关键帧分别随机抽取,在随机抽取N-2个子网络模型时,空间搜索维度参数和时间搜索维度参数均可各不相同。之后,基于提取到的N个待训练子网络进行训练,每组待训练子网络中的每个待训练子网络用于处理一个非关键帧。
这里,在通过每个第一训练样本对抽取到的子网络模型进行训练时,可以使用结构最大的子网络模型对该第一训练样本的预测结果作为该组待训练子网络中其他待训练子网络的训练标签,以对其他待训练子网络进行监督训练。
这里,在随机提取多组待训练子网络时,可以按照上述所描述的多个第一搜索维度在待训练的第一超网络中随机提取多组待训练子网络。
具体地,可以根据模型结构参数、卷积层参数、注意力模块参数和融合参数在待训练的第一超网络中随机提取多组待训练子网络。
在获取到第一训练样本集之后,就可以通过第一训练样本集对每组待训练子网络进行训练,训练之后得到所述第一超网络。
上述实施例中,通过上述训练方法对待训练的第一超网络进行训练,可以训练得到结构不相同,且长度可变的子网络模型;从而能够满足不同的约束条件,以满足不同的应用场景。
在一个可选的实施方式中,在上一图像帧为关键帧的情况下,可以通过以下步骤确定所述上一图像帧所对应图像处理模型,具体包括:
(1)、在预设搜索维度中确定与所述上一图像帧相匹配的多个第二搜索维度的搜索范围;所述多个第二搜索维度包含用于指示所述上一图像帧所对应的图像处理模型的结构的空间搜索维度;
(2)、基于各个第二搜索维度的搜索范围对预先训练的第二超网络进行搜索,得到满足第二计算资源约束条件的至少一个第二子网络模型;其中,所述第二计算资源约束条件用于表征对关键帧进行处理的复杂度;
(3)、基于所述至少一个第二子网络模型确定所述上一图像帧所对应图像处理模型。
在本公开实施例中,预设搜索维度包括:空间搜索维度和时间搜索维度,所述空间搜索维度包括以下至少一种参数:模型结构参数、卷积层参数、注意力模块参数。
这里,多个第二搜索维度包括以下至少一种参数:模型结构参数、卷积层参数、注意力模块参数。针对模型结构参数、卷积层参数和注意力模块参数的介绍如上述内容所述,此处不再详细描述。
在本公开实施例中,在确定出多个第二搜索维度之后,可以针对每个第二搜索维度确定一个搜索范围,此时,多个第二搜索维度对应多个搜索范围。
例如,可以针对模型结构参数、卷积层参数、注意力模块参数中的每个维度的参数,确定一个搜索范围(也即,参数范围)。
在确定出每个第二搜索维度的搜索范围之后,就可以基于确定出的多个搜索范围在第二超网络中进行搜索,得到满足第二计算资源约束条件的至少一个第二子网络模型。之后,基于满足第二计算资源约束条件的至少一个第二子网络模型确定上一图像帧所对应图像处理模型。
上述实施方式中,通过设置第二搜索维度,并而根据第二搜索维度在第二超网络中为关键帧搜索相应的子网络模型作为图像处理模型的方式,可以自动的在第二超网络中确定满足要求的图像处理模型。
由于上一图像帧所对应的图像处理模型为轻量级网络模型,因此,通过上述所描述的方法可以在保证图像处理模型的处理精度的基础上,提高该图像处理模型的处理效率,从而满足实时性要求较高的应用场景。该应用场景可以为与短视频相关的互娱项目,比如,与人体姿态相关的互娱项目。
在一个可选的实施方式中,上述步骤:基于所述至少一个第二子网络模型确定所述上一图像帧所对应图像处理模型,包括如下过程:
首先,通过每个第二子网络模型对预设测试集进行处理,得到多个测试结果;其中,所述测试结果用于表征对应第二子网络模型的预测准确度;
然后,在所述多个测试结果中确定目标测试结果所对应的第二子网络模型为所述上一图像帧所对应图像处理模型,其中,所述目标测试结果为多个测试结果中满足第二测试条件的测试结果。
在本公开实施例中,在搜索出满足第二约束条件的至少一个第二子网络模型之后,可以在至少一个第二子网络模型中确定处理精度满足要求的第二子网络模型作为上一图像帧所对应图像处理模型。
具体地,可以获取预设测试集,然后,模拟本公开实施例中图像处理方法的部署环境,通过每个第二子网络模型对预设测试集中的每个测试样本进行处理,得到相应的测试结果,其中,每个第二子网络模型对应一个测试结果。
这里,满足第二测试条件可以理解为:在多个测试结果中选择最优测试结果所对应的第二子网络模型作为上一图像帧所对应图像处理模型;和/或,在多个测试结果中选择大于或者等于预设测试阈值的目标测试结果所对应的第二子网络模型作为上一图像帧所对应图像处理模型。
上述实施方式中,通过预设测试集对筛选出的满足第二计算资源约束条件的至少一个第二子网络模型进行测试的方式,可以得到处理精度最优的第二子网络模型,从而可以在保证图像处理模型的处理精度的同时,选择出满足实时性要求较高的实际应用的图像处理模型。
在本公开实施例中,在所述至少一个第二子网络模型的测试结果中未确定出所述目标测试结果的情况下,可以更新每个第二搜索维度所对应的搜索范围。之后根据更新之后的搜索范围对第二超网络进行搜索,直至在搜索到满足所述第二计算资源约束条件的至少一个第二子网络模型的测试结果中确定出目标测试结果的情况下,基于该目标测试结果所对应的第二子网络模型确定所述上一图像帧所对应图像处理模型。
在更新搜索范围之后,可以基于更新之后的搜索范围进行搜索得到给定第二计算资源约束条件下的至少一个第二子网络模型。针对搜索到的每个第二子网络模型,可以采用上述所描述的方式对每个第二子网络模型进行测试,得到多个测试结果。在多个测试结果满足预设精度要求的情况下,例如,多个测试结果中包含大于预设测试阈值的目标测试结果,则根据该目标测试结果所对应的第二子网络模型确定上一图像帧所对应图像处理模型。
在一种可选的实施方式中,通过以下步骤训练待训练的第二超网络,具体包括如下过程:
(1)、获取第二训练样本集;所述第二训练样本集中包含多个第二训练样本;
(2)、在所述待训练的第二超网络中为每个第二训练样本抽取多个子网络模型;
(3)、基于所述第二训练样本集中的多个第二训练样本对抽取到的所述多个子网络模型进行训练,训练之后得到所述第二超网络。
针对第二训练样本集中的每个第二训练样本,根据上述所描述的多个第二搜索维度,在待训练的第二超网络中抽取了N个子网络模型,分别为:待训练的第二超网络中结构最大的子网络模型,待训练的超网络中结构最小的子网络模型,以及N-2个随机抽取的子网络模型。
接下来,在第二训练样本集中包含M个第二训练样本的情况下,就可以基于第二训练样本集对抽取到的M*N个子网络模型进行训练,得到训练之后的第二超网络。
在本公开实施例中,每个第二训练样本所对应的样本标签为抽取到的至少一个子网络模型中结构最大的子网络模型对该第二训练样本的预测结果。
这里,在通过每个第二训练样本对抽取到的子网络模型进行训练时,可以使用结构最大的子网络模型对该第二训练样本的预测结果作为其他子网络模型的训练标签,以对其他子网络模型进行监督训练。
上述实施方式中,通过随机抽取至少一个子网络模型,并对抽取到的每个子网络模型进行训练的方式,可以实现通过对超网络的一次训练过程得到满足不同第二计算资源约束条件的子网络模型,从而使得该超网络能够适应更为广泛的应用场景,从而减少了网络结构搜索的开销。
进一步地,在上述实施方式中,通过结构最大的子网络模型对该训练样本的预测结果作为其他子网络模型的训练标签,以对其他子网络模型进行监督训练的方式,可以使得抽取到的每个子网络模型都具有较高的预测精度,从而能够实现在保证神经网络模型的预测精度的基础上,选择出能够满足实时性要求的轻量级神经网络模型来对图像进行处理。
假设,本公开所提供的图像处理方法为姿态估计方法。如图7所示,为本公开实施例提供的一种图像处理方法的流程图,该方法包括如下过程:
在如图7所示的流程中包含一个关键帧和两个非关键帧的处理流程。其中,该关键帧记为关键帧t,非关键帧分别记为非关键帧t+1和非关键帧t+2。
针对关键帧t,可以采用上述所描述的方式为关键帧t确定相应的图像处理模型(也即,单帧图像的处理模型);针对非关键帧t+1和非关键帧t+2,可以采用上述所描述的方式为非关键帧t+1和非关键帧t+2确定相应的图像处理模型,具体确定过程如上所述,此处不再详细描述。
在本公开实施例中,首先,通过单帧图像的处理模型对关键帧t进行处理,得到预测热图H t 。预测热图H t 经过卷积层1处理之后,输入至融合模块中。针对非关键帧t+1,通过图像处理模型t+1中的网络模块F1和网络模块F2提取非关键帧t+1的图像特征,得到非关键帧t+1的图像特征F 2;此时,可以将非关键帧t+1的图像特征F 2输入至融合模块1中。融合模块1在获取到预测热图H t 和非关键帧t+1的图像特征F 2之后,按照融合方式(例如,如图7所示的相乘),将预测热图H t 和非关键帧t+1的图像特征F 2进行融合,得到融合结果;之后,融合结果经过卷积层2的处理之后,得到卷积处理结果F 2'。接下来,卷积处理结果F 2'作为网络模块F3的输入,以通过网络模块F3和网络模块F4对卷积处理结果F 2'进行处理,得到预测热图H t+1。
预测热图H t+1经过卷积层3处理之后,输入至融合模块2中。针对非关键帧t+2,通过图像处理模型t+2中的网络模块F1至网络模块F3提取非关键帧t+2的图像特征,得到非关键帧t+1的图像特征F 3;此时,可以将非关键帧t+1的图像特征F 3输入至融合模块2中。融合模块2在获取到预测热图H t+1 和非关键帧t+1的图像特征F 3之后,按照融合方式(例如,如图7所示的相加),将预测热图H t+1和非关键帧t+1的图像特征F 3进行融合,得到融合结果;之后,融合结果经过卷积层4的处理之后,得到卷积处理结果F 3'。接下来,卷积处理结果F 3'作为网络模块F4的输入,以通过网络模块F4对卷积处理结果F 3'进行处理,得到预测热图H t+2。
针对其他非关键帧的处理过程如上所述,此处不再一一赘述。
需要说明的是,上述预测热图可以理解为对应图像帧的姿态估计结果,即图像帧中所包含目标对象的肢体关键点的特征信息。
通过上述描述可知,在本实施例中,通过为当前图像帧的图像处理模型确定融合位置和融合方式,可以实现自动的搜索相连图像帧之间的连接方式,结合空间维度搜索,进行图像帧间计算资源的自动分配,从而得到更为高效的视频人体姿态估计模型,在保持预测精度不下降的情况下,实现计算复杂度的大幅下降和预测速度的大幅提升。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与图像处理方法对应的图像处理装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述图像处理方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图8所示,为本公开实施例提供的一种图像处理装置的示意图,所述装置包括:第一获取单元81、第二获取单元82、确定单元83、融合单元84、图像处理单元85;其中,
第一获取单元81,用于获取当前图像帧,并获取当前图像帧的上一图像帧的图像处理结果;
第二获取单元82,用于获取用于对所述当前图像帧进行处理的图像处理模型;
确定单元83,用于确定所述图像处理模型中的融合位置和融合方式;
融合单元84,用于在所述图像处理模型提取所述当前图像帧的图像特征的过程中,按照所述融合方式将所述图像处理模型中位于所述融合位置之前的网络模块输出的图像特征和所述图像处理结果进行融合,得到融合结果;
图像处理单元85,用于将所述融合结果输入至所述图像处理模型中位于所述融合位置之后的网络模块进行图像处理,得到所述当前图像帧的图像处理结果。
在本实施例中,在对当前图像帧进行处理时,通过结合上一图像帧的图像处理结果,可以实现将上一图像帧中的信息传递至当前图像帧中,从而将上一图像帧的图像处理结果作为当前图像帧的引导信息,通过引导信息对当前图像帧进行图像处理,可以更好地抓住当前图像帧的中的特征信息,从而得到准确的图像处理结果。且在本公开实施例中,针对每个待处理的当前图像帧,通过为其设置对应的图像处理模型,在该图像处理模型中设置上一图像帧的图像处理结果的融合位置和融合方式,可以在图像之间合理分配计算资源,从而使得本公开中的图像处理方法满足实时性要求较高的应用场景。
一种可能的实施方式中,第二获取单元82,用于:基于超网络确定用于对所述当前图像帧进行处理的图像处理模型;所述超网络包括多个具有连接关系的网络模块。
一种可能的实施方式中,第二获取单元82,还用于:在所述当前图像帧所属的视频片段中确定包含所述当前图像帧的多个连续非关键帧;在预先训练的第一超网络中搜索满足第一计算资源约束条件的至少一个子网络模型组,其中,每个所述子网络模型组中包含为每个非关键帧搜索的第一子网络模型;基于所述至少一个子网络模型组确定用于对所述当前图像帧进行处理的图像处理模型。
一种可能的实施方式中,第二获取单元82,还用于:获取目标测试样本;通过所述目标测试样本对每个所述子网络模型组进行测试,得到至少一个测试结果;在所述至少一个测试结果中选择目标测试结果所对应的目标子网络模型组,并根据所述目标子网络模型组确定所述图像处理模型,其中,所述目标测试结果为所述至少一个测试结果中满足第一测试条件的测试结果。
一种可能的实施方式中,第二获取单元82,还用于:确定每个非关键帧的目标搜索范围;其中,每个所述目标搜索范围中包含预设搜索维度中多个第一搜索维度的一个搜索范围;所述第一搜索维度包含:用于指示图像处理模型结构的空间搜索维度,以及用于指示所述融合位置和融合方式的时间搜索维度;基于各个非关键帧的目标搜索范围,在预先训练的第一超网络中搜索满足所述第一计算资源约束条件的子网络模型,并根据搜索到的子网络模型确定所述子网络模型组。
一种可能的实施方式中,该装置,还用于:通过以下步骤训练待训练的第一超网络:获取第一训练样本集,其中,所述第一训练样本集中包含多个第一训练样本,每个第一训练样本包含多个非关键帧;在待训练的第一超网络中提取多组待训练子网络;每组待训练子网络中子网络的数量与每个第一训练样本中非关键帧的数量相同,且一个待训练子网络对应处理该训练样本中的一个非关键帧;通过所述第一训练样本集对每组待训练子网络进行训练,训练之后得到所述第一超网络。
一种可能的实施方式中,该装置,还用于:在所述上一图像帧为关键帧的情况下,通过以下步骤确定所述上一图像帧所对应图像处理模型:在预设搜索维度中确定与所述上一图像帧相匹配的多个第二搜索维度的搜索范围;所述多个第二搜索维度包含用于指示所述上一图像帧所对应的图像处理模型结构的空间搜索维度;基于各个第二搜索维度的搜索范围对预先训练的第二超网络进行搜索,得到满足第二计算资源约束条件的至少一个第二子网络模型;其中,所述第二计算资源约束条件用于表征对关键帧进行处理的复杂度;基于所述至少一个第二子网络模型确定所述上一图像帧所对应图像处理模型。
一种可能的实施方式中,该装置,还用于:通过每个第二子网络模型对预设测试集进行处理,得到多个测试结果;其中,所述测试结果用于表征对应第二子网络模型的预测准确度;在所述多个测试结果中确定目标测试结果所对应的第二子网络模型为所述上一图像帧所对应图像处理模型,其中,所述目标测试结果为多个测试结果中满足第二测试条件的测试结果。
一种可能的实施方式中,该装置,还用于:在所述至少一个第二子网络模型的测试结果中未确定出所述目标测试结果的情况下,更新每个第二搜索维度所对应的搜索范围;根据更新之后的搜索范围对第二超网络进行搜索,直至在搜索到满足所述第二计算资源约束条件的至少一个第二子网络模型的测试结果中确定出目标测试结果的情况下,基于该目标测试结果所对应的第二子网络模型确定所述上一图像帧所对应图像处理模型。
一种可能的实施方式中,该装置,还用于:通过以下步骤训练待训练的第二超网络:获取第二训练样本集;所述第二训练样本集中包含多个第二训练样本;在所述待训练的第二超网络中为每个第二训练样本抽取多个子网络模型;基于所述第二训练样本集中的多个第二训练样本对抽取到的所述多个子网络模型进行训练,训练之后得到所述第二超网络。
一种可能的实施方式中,所述预设搜索维度包括:空间搜索维度和时间搜索维度,所述空间搜索维度包括以下至少一种参数:模型结构参数、卷积层参数、注意力模块参数;所述时间搜索维度包括:融合参数;所述模型结构参数用于表征待搜索的图像处理模型在超网络中所需网络模块的数量;所述卷积层参数用于表征以下至少之一:待搜索的图像处理模型在超网络中所需网络模块输出的特征通道数量、待搜索的图像处理模型在超网络中所需卷积层的卷积核大小,和/或,用于表征待搜索的图像处理模型在超网络中所需卷积层的分组数量;所述注意力模块参数用于指示是否使用每个网络模块中预先设置的注意力模块;所述融合参数用于指示所述上一图像帧的图像处理结果融合至所述图像处理模型中的融合位置和融合方式。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
对应于图1中的图像处理方法,本公开实施例还提供了一种计算机设备900,如图9所示,为本公开实施例提供的计算机设备900结构示意图,包括:
处理器91、存储器92、和总线93;存储器92用于存储执行指令,包括内存921和外部存储器922;这里的内存921也称内存储器,用于暂时存放处理器91中的运算数据,以及与硬盘等外部存储器922交换的数据,处理器91通过内存921与外部存储器922进行数据交换,当所述计算机设备900运行时,所述处理器91与所述存储器92之间通过总线93通信,使得所述处理器91执行以下指令:
获取当前图像帧,并获取当前图像帧的上一图像帧的图像处理结果;
获取用于对所述当前图像帧进行处理的图像处理模型,并确定所述图像处理模型中的融合位置和融合方式;
在所述图像处理模型提取所述当前图像帧的图像特征的过程中,按照所述融合方式将所述图像处理模型中位于所述融合位置之前的网络模块输出的图像特征和所述图像处理结果进行融合,得到融合结果;
将所述融合结果输入至所述图像处理模型中位于所述融合位置之后的网络模块进行图像处理,得到所述当前图像帧的图像处理结果。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的图像处理方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例还提供一种计算机程序产品,该计算机程序产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的图像处理方法的步骤,具体可参见上述方法实施例,在此不再赘述。
其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。
Claims (14)
1.一种图像处理方法,其特征在于,包括:
获取当前图像帧,并获取当前图像帧的上一图像帧的图像处理结果;
获取用于对当前图像帧进行处理的图像处理模型,并确定所述图像处理模型中的融合位置和融合方式;
在所述图像处理模型提取所述当前图像帧的图像特征的过程中,按照所述融合方式将所述图像处理模型中位于所述融合位置之前的网络模块输出的图像特征和所述上一图像帧的图像处理结果进行融合,得到融合结果;
将所述融合结果输入至所述图像处理模型中位于所述融合位置之后的网络模块进行图像处理,得到所述当前图像帧的图像处理结果。
2.根据权利要求1所述的方法,其特征在于,所述获取用于对当前图像帧进行处理的图像处理模型,包括:
基于超网络确定用于对所述当前图像帧进行处理的图像处理模型;所述超网络包括多个具有连接关系的网络模块。
3.根据权利要求2所述的方法,其特征在于,所述基于超网络确定用于对所述当前图像帧进行处理的图像处理模型,包括:
在所述当前图像帧所属的视频片段中确定包含所述当前图像帧的多个连续非关键帧;
在预先训练的第一超网络中搜索满足第一计算资源约束条件的至少一个子网络模型组,其中,每个所述子网络模型组中包含为每个非关键帧搜索的第一子网络模型;
基于所述至少一个子网络模型组确定用于对所述当前图像帧进行处理的图像处理模型。
4.根据权利要求3所述的方法,其特征在于,所述基于所述至少一个子网络模型组确定用于对所述当前图像帧进行处理的图像处理模型,包括:
获取目标测试样本;
通过所述目标测试样本对每个所述子网络模型组进行测试,得到至少一个测试结果;
在所述至少一个测试结果中选择目标测试结果所对应的目标子网络模型组,并根据所述目标子网络模型组确定所述图像处理模型,其中,所述目标测试结果为所述至少一个测试结果中满足第一测试条件的测试结果。
5.根据权利要求3或4所述的方法,其特征在于,所述在预先训练的第一超网络中搜索满足第一计算资源约束条件的至少一个子网络模型组,包括:
确定每个非关键帧的目标搜索范围;其中,每个所述目标搜索范围中包含预设搜索维度中多个第一搜索维度的一个搜索范围;所述第一搜索维度包含:用于指示图像处理模型结构的空间搜索维度,以及用于指示所述融合位置和融合方式的时间搜索维度;
基于各个非关键帧的目标搜索范围,在预先训练的第一超网络中搜索满足所述第一计算资源约束条件的子网络模型,并根据搜索到的子网络模型确定所述子网络模型组。
6.根据权利要求3所述的方法,其特征在于,通过以下步骤训练待训练的第一超网络:
获取第一训练样本集,其中,所述第一训练样本集中包含多个第一训练样本,每个第一训练样本包含多个非关键帧;
在待训练的第一超网络中提取多组待训练子网络;每组待训练子网络中子网络的数量与每个第一训练样本中非关键帧的数量相同,且一个待训练子网络对应处理该训练样本中的一个非关键帧;
通过所述第一训练样本集对每组待训练子网络进行训练,训练之后得到所述第一超网络。
7.根据权利要求1所述的方法,其特征在于,在所述上一图像帧为关键帧的情况下,通过以下步骤确定所述上一图像帧所对应图像处理模型:
在预设搜索维度中确定与所述上一图像帧相匹配的多个第二搜索维度的搜索范围;所述多个第二搜索维度包含用于指示所述上一图像帧所对应的图像处理模型结构的空间搜索维度;
基于各个第二搜索维度的搜索范围对预先训练的第二超网络进行搜索,得到满足第二计算资源约束条件的至少一个第二子网络模型;其中,所述第二计算资源约束条件用于表征对关键帧进行处理的复杂度;
基于所述至少一个第二子网络模型确定所述上一图像帧所对应图像处理模型。
8.根据权利要求7所述的方法,其特征在于,所述基于所述至少一个第二子网络模型确定所述上一图像帧所对应图像处理模型,包括:
通过每个第二子网络模型对预设测试集进行处理,得到多个测试结果;其中,所述测试结果用于表征对应第二子网络模型的预测准确度;
在所述多个测试结果中确定目标测试结果所对应的第二子网络模型为所述上一图像帧所对应图像处理模型,其中,所述目标测试结果为多个测试结果中满足第二测试条件的测试结果。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
在所述至少一个第二子网络模型的测试结果中未确定出所述目标测试结果的情况下,更新每个第二搜索维度所对应的搜索范围;
根据更新之后的搜索范围对第二超网络进行搜索,直至在搜索到满足所述第二计算资源约束条件的至少一个第二子网络模型的测试结果中确定出目标测试结果的情况下,基于该目标测试结果所对应的第二子网络模型确定所述上一图像帧所对应图像处理模型。
10.根据权利要求7所述的方法,其特征在于,通过以下步骤训练待训练的第二超网络:
获取第二训练样本集;所述第二训练样本集中包含多个第二训练样本;
在所述待训练的第二超网络中为每个第二训练样本抽取多个子网络模型;
基于所述第二训练样本集中的多个第二训练样本对抽取到的所述多个子网络模型进行训练,训练之后得到所述第二超网络。
11.根据权利要求5所述的方法,其特征在于,所述预设搜索维度包括:空间搜索维度和时间搜索维度,所述空间搜索维度包括以下至少一种参数:模型结构参数、卷积层参数、注意力模块参数;所述时间搜索维度包括:融合参数;
所述模型结构参数用于表征待搜索的图像处理模型在超网络中所需网络模块的数量;
所述卷积层参数用于表征以下至少之一:待搜索的图像处理模型在超网络中所需网络模块输出的特征通道数量、待搜索的图像处理模型在超网络中所需卷积层的卷积核大小、用于表征待搜索的图像处理模型在超网络中所需卷积层的分组数量;
所述注意力模块参数用于指示是否使用每个网络模块中预先设置的注意力模块;
所述融合参数用于指示所述上一图像帧的图像处理结果融合至所述图像处理模型中的融合位置和融合方式。
12.一种图像处理装置,其特征在于,包括:
第一获取单元,用于获取当前图像帧,并获取当前图像帧的上一图像帧的图像处理结果;
第二获取单元,用于获取用于对当前图像帧进行处理的图像处理模型;
确定单元,用于确定所述图像处理模型中的融合位置和融合方式;
融合单元,用于在所述图像处理模型提取所述当前图像帧的图像特征的过程中,按照所述融合方式将所述图像处理模型中位于所述融合位置之前的网络模块输出的图像特征和所述上一图像帧的图像处理结果进行融合,得到融合结果;
图像处理单元,用于将所述融合结果输入至所述图像处理模型中位于所述融合位置之后的网络模块进行图像处理,得到所述当前图像帧的图像处理结果。
13.一种计算机设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至11中任一所述的图像处理方法的步骤。
14.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至11中任一所述的图像处理方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110524188.XA CN112949662B (zh) | 2021-05-13 | 2021-05-13 | 一种图像处理方法、装置、计算机设备以及存储介质 |
CN202111265558.9A CN113963175A (zh) | 2021-05-13 | 2021-05-13 | 一种图像处理方法、装置、计算机设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110524188.XA CN112949662B (zh) | 2021-05-13 | 2021-05-13 | 一种图像处理方法、装置、计算机设备以及存储介质 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111265558.9A Division CN113963175A (zh) | 2021-05-13 | 2021-05-13 | 一种图像处理方法、装置、计算机设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112949662A true CN112949662A (zh) | 2021-06-11 |
CN112949662B CN112949662B (zh) | 2021-11-16 |
Family
ID=76233852
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110524188.XA Active CN112949662B (zh) | 2021-05-13 | 2021-05-13 | 一种图像处理方法、装置、计算机设备以及存储介质 |
CN202111265558.9A Withdrawn CN113963175A (zh) | 2021-05-13 | 2021-05-13 | 一种图像处理方法、装置、计算机设备以及存储介质 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111265558.9A Withdrawn CN113963175A (zh) | 2021-05-13 | 2021-05-13 | 一种图像处理方法、装置、计算机设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN112949662B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113689362A (zh) * | 2021-10-27 | 2021-11-23 | 深圳市慧鲤科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN114419738A (zh) * | 2022-03-29 | 2022-04-29 | 北京市商汤科技开发有限公司 | 一种姿态检测方法、装置、电子设备以及存储介质 |
Citations (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030179294A1 (en) * | 2002-03-22 | 2003-09-25 | Martins Fernando C.M. | Method for simultaneous visual tracking of multiple bodies in a closed structured environment |
CN108320274A (zh) * | 2018-01-26 | 2018-07-24 | 东华大学 | 一种基于双通道循环生成对抗网络的红外视频彩色化方法 |
CN108416423A (zh) * | 2017-02-10 | 2018-08-17 | 三星电子株式会社 | 用于神经网络修剪和再训练的自动阈值 |
CN108989804A (zh) * | 2018-08-23 | 2018-12-11 | 杭州雄迈集成电路技术有限公司 | 图像的编码方法及装置 |
CN108985386A (zh) * | 2018-08-07 | 2018-12-11 | 北京旷视科技有限公司 | 获得图像处理模型的方法、图像处理方法及对应装置 |
CN109167924A (zh) * | 2018-10-24 | 2019-01-08 | 清华-伯克利深圳学院筹备办公室 | 基于混合相机的视频成像方法、系统、设备及存储介质 |
CN109271990A (zh) * | 2018-09-03 | 2019-01-25 | 北京邮电大学 | 一种针对rgb-d图像的语义分割方法及装置 |
CN109410247A (zh) * | 2018-10-16 | 2019-03-01 | 中国石油大学(华东) | 一种多模板和自适应特征选择的视频跟踪算法 |
CN109934846A (zh) * | 2019-03-18 | 2019-06-25 | 南京信息工程大学 | 基于时间和空间网络的深度集成目标跟踪方法 |
CN110175597A (zh) * | 2019-06-04 | 2019-08-27 | 北方工业大学 | 一种融合特征传播与聚合的视频目标检测方法 |
CN110427839A (zh) * | 2018-12-26 | 2019-11-08 | 西安电子科技大学 | 基于多层特征融合的视频目标检测方法 |
CN110555405A (zh) * | 2019-08-30 | 2019-12-10 | 北京迈格威科技有限公司 | 目标跟踪方法及装置、存储介质和电子设备 |
CN111062382A (zh) * | 2019-10-30 | 2020-04-24 | 北京交通大学 | 用于目标检测网络的通道剪枝方法 |
CN111340220A (zh) * | 2020-02-25 | 2020-06-26 | 北京百度网讯科技有限公司 | 用于训练预测模型的方法和装置 |
CN111406267A (zh) * | 2017-11-30 | 2020-07-10 | 谷歌有限责任公司 | 使用性能预测神经网络的神经架构搜索 |
CN111553362A (zh) * | 2019-04-01 | 2020-08-18 | 上海卫莎网络科技有限公司 | 一种视频处理方法、电子设备和计算机可读存储介质 |
CN111738418A (zh) * | 2020-06-19 | 2020-10-02 | 北京百度网讯科技有限公司 | 超网络的训练方法和装置 |
CN111967382A (zh) * | 2020-08-14 | 2020-11-20 | 北京金山云网络技术有限公司 | 年龄估计方法、年龄估计模型的训练方法及装置 |
CN112149545A (zh) * | 2020-09-16 | 2020-12-29 | 珠海格力电器股份有限公司 | 样本生成方法、装置、电子设备及存储介质 |
CN112445823A (zh) * | 2019-09-04 | 2021-03-05 | 华为技术有限公司 | 神经网络结构的搜索方法、图像处理方法和装置 |
CN112651499A (zh) * | 2020-12-28 | 2021-04-13 | 浙江大学 | 一种基于蚁群优化算法和层间信息的结构化模型剪枝方法 |
CN112686856A (zh) * | 2020-12-29 | 2021-04-20 | 杭州优视泰信息技术有限公司 | 一种基于深度学习的实时肠镜息肉检测装置 |
CN112767534A (zh) * | 2020-12-31 | 2021-05-07 | 北京达佳互联信息技术有限公司 | 视频图像处理方法、装置、电子设备及存储介质 |
-
2021
- 2021-05-13 CN CN202110524188.XA patent/CN112949662B/zh active Active
- 2021-05-13 CN CN202111265558.9A patent/CN113963175A/zh not_active Withdrawn
Patent Citations (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030179294A1 (en) * | 2002-03-22 | 2003-09-25 | Martins Fernando C.M. | Method for simultaneous visual tracking of multiple bodies in a closed structured environment |
CN108416423A (zh) * | 2017-02-10 | 2018-08-17 | 三星电子株式会社 | 用于神经网络修剪和再训练的自动阈值 |
CN111406267A (zh) * | 2017-11-30 | 2020-07-10 | 谷歌有限责任公司 | 使用性能预测神经网络的神经架构搜索 |
CN108320274A (zh) * | 2018-01-26 | 2018-07-24 | 东华大学 | 一种基于双通道循环生成对抗网络的红外视频彩色化方法 |
CN108985386A (zh) * | 2018-08-07 | 2018-12-11 | 北京旷视科技有限公司 | 获得图像处理模型的方法、图像处理方法及对应装置 |
CN108989804A (zh) * | 2018-08-23 | 2018-12-11 | 杭州雄迈集成电路技术有限公司 | 图像的编码方法及装置 |
CN109271990A (zh) * | 2018-09-03 | 2019-01-25 | 北京邮电大学 | 一种针对rgb-d图像的语义分割方法及装置 |
CN109410247A (zh) * | 2018-10-16 | 2019-03-01 | 中国石油大学(华东) | 一种多模板和自适应特征选择的视频跟踪算法 |
CN109167924A (zh) * | 2018-10-24 | 2019-01-08 | 清华-伯克利深圳学院筹备办公室 | 基于混合相机的视频成像方法、系统、设备及存储介质 |
CN110427839A (zh) * | 2018-12-26 | 2019-11-08 | 西安电子科技大学 | 基于多层特征融合的视频目标检测方法 |
CN109934846A (zh) * | 2019-03-18 | 2019-06-25 | 南京信息工程大学 | 基于时间和空间网络的深度集成目标跟踪方法 |
CN111553362A (zh) * | 2019-04-01 | 2020-08-18 | 上海卫莎网络科技有限公司 | 一种视频处理方法、电子设备和计算机可读存储介质 |
CN110175597A (zh) * | 2019-06-04 | 2019-08-27 | 北方工业大学 | 一种融合特征传播与聚合的视频目标检测方法 |
CN110555405A (zh) * | 2019-08-30 | 2019-12-10 | 北京迈格威科技有限公司 | 目标跟踪方法及装置、存储介质和电子设备 |
CN112445823A (zh) * | 2019-09-04 | 2021-03-05 | 华为技术有限公司 | 神经网络结构的搜索方法、图像处理方法和装置 |
CN111062382A (zh) * | 2019-10-30 | 2020-04-24 | 北京交通大学 | 用于目标检测网络的通道剪枝方法 |
CN111340220A (zh) * | 2020-02-25 | 2020-06-26 | 北京百度网讯科技有限公司 | 用于训练预测模型的方法和装置 |
CN111738418A (zh) * | 2020-06-19 | 2020-10-02 | 北京百度网讯科技有限公司 | 超网络的训练方法和装置 |
CN111967382A (zh) * | 2020-08-14 | 2020-11-20 | 北京金山云网络技术有限公司 | 年龄估计方法、年龄估计模型的训练方法及装置 |
CN112149545A (zh) * | 2020-09-16 | 2020-12-29 | 珠海格力电器股份有限公司 | 样本生成方法、装置、电子设备及存储介质 |
CN112651499A (zh) * | 2020-12-28 | 2021-04-13 | 浙江大学 | 一种基于蚁群优化算法和层间信息的结构化模型剪枝方法 |
CN112686856A (zh) * | 2020-12-29 | 2021-04-20 | 杭州优视泰信息技术有限公司 | 一种基于深度学习的实时肠镜息肉检测装置 |
CN112767534A (zh) * | 2020-12-31 | 2021-05-07 | 北京达佳互联信息技术有限公司 | 视频图像处理方法、装置、电子设备及存储介质 |
Non-Patent Citations (7)
Title |
---|
BOWEN WEN ET AL: "se(3)-TrackNet: Data-driven 6D Pose Tracking by Calibrating Image Residuals in Synthetic Domains", 《2020 IEEE/RSJ INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS (IROS)》 * |
JIAHUI YU ET AL: "BigNAS: Scaling Up Neural Architecture Search with Big Single-Stage Models", 《ARXIV:2003.11142V3》 * |
MUJTABA ASAD ET AL: "Multi-frame feature-fusion-based model for violence detection", 《THE VISUAL COMPUTER》 * |
WENTIAN LI: "Temporal Feature Correlation for Human Pose Estimation in Videos", 《2019 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP)》 * |
XUECHENG NIE ET AL: "Dynamic Kernel Distillation for Efficient Pose Estimation in Videos", 《2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 * |
岳欣: "基于多层特征融合的视频目标检测", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
秦悦: "基于时空卷积神经网络的视频人体行为识别", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113689362A (zh) * | 2021-10-27 | 2021-11-23 | 深圳市慧鲤科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN114419738A (zh) * | 2022-03-29 | 2022-04-29 | 北京市商汤科技开发有限公司 | 一种姿态检测方法、装置、电子设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112949662B (zh) | 2021-11-16 |
CN113963175A (zh) | 2022-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109766840B (zh) | 人脸表情识别方法、装置、终端及存储介质 | |
CN112949662B (zh) | 一种图像处理方法、装置、计算机设备以及存储介质 | |
CN112949842B (zh) | 神经网络结构搜索方法、装置、计算机设备以及存储介质 | |
CN110263916B (zh) | 数据处理方法和装置、存储介质及电子装置 | |
CN111599346B (zh) | 一种说话人聚类方法、装置、设备及存储介质 | |
CN110263733B (zh) | 图像处理方法、提名评估方法及相关装置 | |
CN112381227B (zh) | 神经网络生成方法、装置、电子设备及存储介质 | |
CN111898592B (zh) | 一种轨迹数据处理方法、装置以及计算机可读存储介质 | |
CN113469353A (zh) | 神经网络模型的优化方法、数据处理方法及装置 | |
CN111540375A (zh) | 音频分离模型的训练方法、音频信号的分离方法及装置 | |
CN111259256B (zh) | 内容处理方法、装置、计算机可读存储介质和计算机设备 | |
CN111783692A (zh) | 一种动作识别方法、装置及电子设备和存储介质 | |
CN112818995A (zh) | 图像分类方法、装置、电子设备及存储介质 | |
CN107798331B (zh) | 离变焦图像序列特征提取方法和装置 | |
CN116797628A (zh) | 一种多尺度的无人机航拍目标跟踪方法和装置 | |
CN116842447A (zh) | 分类数据的后处理方法、装置、系统和电子装置 | |
CN115984742A (zh) | 视频选帧模型的训练方法、视频处理方法及装置 | |
CN111191065A (zh) | 一种同源图像确定方法及装置 | |
CN114419738B (zh) | 一种姿态检测方法、装置、电子设备以及存储介质 | |
CN111667028A (zh) | 一种可靠负样本确定方法和相关装置 | |
CN113822291A (zh) | 一种图像处理方法、装置、设备及存储介质 | |
CN114897126A (zh) | 时延预测方法及装置、电子设备、存储介质 | |
CN114566160A (zh) | 语音处理方法、装置、计算机设备、存储介质 | |
CN110290534B (zh) | 一种基于XGBoost的认知无线电协作频谱感知方法及系统 | |
CN113326922A (zh) | 神经网络的生成方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |