CN112446379B

CN112446379B - 一种动态大场景自适应智能处理方法

Info

Publication number: CN112446379B
Application number: CN202110134370.4A
Authority: CN
Inventors: 方璐; 王雪扬; 季梦奇; 王生进
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-02-01
Filing date: 2021-02-01
Publication date: 2021-04-20
Anticipated expiration: 2041-02-01
Also published as: CN112446379A

Abstract

本发明实施例公开了一种动态大场景自适应智能处理方法。该方法包括：获取动态大场景下的原始图像，并将原始图像按预设比例缩小，获得待处理图像；将待处理图像输入预设的目标区域寻找网络模型，根据目标区域寻找网络模型的生成结果确定至少一个目标区域；将各目标区域输入目标识别检测器中进行位置检测，确定各目标区域中的目标位置框；按照各目标区域的尺度信息和预设比例，将相应的目标位置框关联至原始图像中。本发明实施例的技术方案，解决了难以对动态大场景下的高分辨率图像进行目标识别，识别速度慢且识别结果不够准确的问题，提升了对高分辨率图像视觉处理的处理效率，并提高了对高分辨率图像视觉处理的准确度。

Description

一种动态大场景自适应智能处理方法

技术领域

本发明实施例涉及图像处理技术领域，尤其涉及一种动态大场景自适应智能处理方法。

背景技术

目标检测、多目标追踪、行人重识别以及行人轨迹预测均为机器视觉领域中的常见视觉任务。近年来，上述视觉任务在人工智能、人脸识别和无人驾驶等领域均得到了广泛的应用。

然而，在执行上述视觉任务的过程中，常会受到如角度、遮挡和光强等因素的影响，使得待识别目标发生畸变，进而提高了视觉任务的完成难度。同时，随着相机相关技术的不断升级和发展，所获取的图像的分辨率也在不断提高，单幅图像中所能包含的信息量以数十倍的速度增长，也较大的提升了视觉任务的完成难度。

现有基于深度学习的多种视觉算法，在对目标进行检测时的检测效果仍处于一个较低的水平，难以广泛应用于实际通用的视觉任务当中。而能够较好执行视觉任务的处理方法，仅能够针对包含信息量较少的、分辨率较低的图像进行处理，难以满足对动态大场景下采集的高分辨率图像的视觉处理需求。

发明内容

本发明提供一种动态大场景自适应智能处理方法，以对动态大场景下获取的高分辨率图像进行视觉处理，提升了视觉处理效率，并提高了图像处理结果的准确性。

第一方面，本发明实施例提供了一种动态大场景自适应智能处理方法，该方法包括：

获取动态大场景下的原始图像，并将原始图像按预设比例缩小，获得待处理图像；

将待处理图像输入预设的目标区域寻找网络模型，根据目标区域寻找网络模型的生成结果确定至少一个目标区域，目标区域寻找网络模型为采用设定训练方法训练的神经网络模型；

将各目标区域输入目标识别检测器中进行位置检测，确定各目标区域中的目标位置框；

按照各目标区域的尺度信息和预设比例，将相应的目标位置框关联至原始图像中。

第二方面，本发明实施例还提供了一种动态大场景自适应智能处理装置，该动态大场景自适应智能处理装置包括：

图像获取模块，用于获取动态大场景下的原始图像，并将原始图像按预设比例缩小，获得待处理图像；

目标区域确定模块，用于将待处理图像输入预设的目标区域寻找网络模型，根据目标区域寻找网络模型的生成结果确定至少一个目标区域，目标区域寻找网络模型为采用设定训练方法训练的神经网络模型；

位置框确定模块，用于将各目标区域输入目标识别检测器中进行位置检测，确定各目标区域中的目标位置框；

位置框关联模块，用于按照各目标区域的尺度信息和预设比例，将相应的目标位置框关联至原始图像中。

第三方面，本发明实施例还提供了一种计算机设备，包括存储装置、处理器及存储在存储装置上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如本发明任意实施例提供的方法。

第四方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，计算机可执行指令在由计算机处理器执行时用于执行如本发明任意实施例提供的方法。

本发明实施例通过获取动态大场景下的原始图像，并将原始图像按预设比例缩小，获得待处理图像；将待处理图像输入预设的目标区域寻找网络模型，根据目标区域寻找网络模型的生成结果确定至少一个目标区域，目标区域寻找网络模型为采用设定训练方法训练的神经网络模型；将各目标区域输入目标识别检测器中进行位置检测，确定各目标区域中的目标位置框；按照各目标区域的尺度信息和预设比例，将相应的目标位置框关联至原始图像中。通过采用上述技术方案，在获取到动态大场景下采集到的高分辨率的原始图像后，将原始图像进行缩小得到的待处理图像输入至预先训练好的目标区域寻找网络模型中，确定出待处理图像在多个尺度上去除无效背景后的目标区域，并通过目标识别检测器对各目标区域进行目标检测，得到各目标区域内包含目标的位置信息和目标的类别信息的目标位置框，进而根据原始图像的缩小比例以及目标位置框所在目标区域的尺度信息将各目标位置框对应关联至原始图像，实现原始图像中的目标识别。解决了难以对动态大场景下的高分辨率图像进行目标识别，识别速度慢且识别结果不够准确的问题，提升了对高分辨率图像视觉处理的处理效率，并提高了对高分辨率图像视觉处理的准确度。

附图说明

图1是本发明实施例一中的一种动态大场景自适应智能处理方法的流程图；

图2是本发明实施例二中的一种动态大场景自适应智能处理方法的流程图；

图3是本发明实施例二中的一种采用设定训练方法训练目标区域寻找网络模型的流程示意图；

图4是本发明实施例二中的一种初始区域寻找网络模型对所输入图像训练样本进行处理的流程示意图；

图5是本发明实施例二中的一种将膨胀中间结果与尺度中间结果输入尺度规范模块后的流程示意图；

图6是本发明实施例二中的一种目标区域寻找网络模型的结构示例图；

图7是本发明实施例三中的一种动态大场景自适应智能处理装置的结构示意图；

图8是本发明实施例四中的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。此外，在不冲突的情况下，本发明中的实施例及实施例中的特征可以互相组合。

另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作（或步骤）描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

图1为本发明实施例一提供的一种动态大场景自适应智能处理方法的流程图，本实施例可适用于对动态大场景下采集的高分辨率图像进行视觉处理的情况，该方法可以由动态大场景自适应智能处理装置来执行，该动态大场景自适应智能处理装置可以由软件和/或硬件来实现，该动态大场景自适应智能处理装置可以配置在计算设备上，具体包括如下步骤：

S101、获取动态大场景下的原始图像，并将原始图像按预设比例缩小，获得待处理图像。

在本实施例中，动态大场景可理解为包含多个动态目标，分辨率较高，包含大量信息的情景；原始图像可理解为针对动态大场景下采集到的十亿像素级视频中的一个视频帧所对应的图像。

具体的，获取动态大场景下采集的十亿像素级视频，并将视频中需要进行处理的视频帧所对应的图像确定为原始图像，该原始图像所对应的大场景可为最大可覆盖数千平方千米的自然场景或同时覆盖数千至上万人的社会场景，该原始图像中可包括不同距离的同类目标可以达到100倍以上的尺度变化的多尺度信息，该原始图像可为接近十亿像素的，可对数百米外人脸进行识别的高分辨率图像，示例性的，该原始图像的尺寸可为26753像素*15052像素。由于对高像素量图像进行处理需要消耗较大的计算资源，对现有计算设备提出较高的要求，故可将原始图像的像素量按比例缩小，在保留原始图像中信息的同时降低所需处理的数据量，故将原始图像以预设比例进行缩小，并将缩小后的原始图像确定为待处理图像。

可选的，预设比例可根据实际需求预先设定，可根据预设的目标区域寻找网络模型所需输入图像大小进行确定，示例性的，若目标区域寻找网络模型所需输入的图像尺寸为1920像素*1080像素，则预设比例可为原始图像尺寸与目标区域寻找网络模型所需输入的图像尺寸的比值，需要知道的是，预设比例的确定可为原始图像尺寸中的图像长与目标区域寻找网络模型所需输入的图像尺寸中的图像长的比值，也可为原始图像尺寸中的图像宽与目标区域寻找网络模型所需输入的图像尺寸中的图像宽的比值，也即为（26753/1920）或（15052/1080）均可。

S102、将待处理图像输入预设的目标区域寻找网络模型，根据目标区域寻找网络模型的生成结果确定至少一个目标区域。

其中，所述目标区域寻找网络模型为采用设定训练方法训练的神经网络模型。

在本实施例中，目标区域寻找网络模型可理解为一种用以对输入图像中包含目标的区域，以及面积巨大的无效背景区域进行划分，并输出标准大小的目标区域图像的神经网络模型。目标区域可理解为包含所需识别目标的，非无效背景的区域，其中，所需识别目标可为人物、动物、植物以及其他预先确定类型的对象。

一般的，神经网络模型（Neural Networks，NN）可理解为一种由大量的、简单的处理单元（也可称为神经元）广泛地互相连接而形成的复杂网络系统，其可反映人脑功能的许多基本特征，是一种高度复杂的非线性动力学习系统，简而言之，神经网络模型可理解为一种以神经元为基础的数学模型。神经网络模型由多个神经网络层构成，不同的神经网络层可对输入其中的数据实现不同的处理，如卷积和归一化等，多个不同的神经网络层以一定预设规则进行组合可形成神经网络模型中作用不同的模块，可选的，本申请中的目标区域寻找网络模型中可包括多个作用不同的模块，各模块对输入的待处理图像进行处理后可形成不同的中间结果，并最终结合多个中间结果得到输出目标区域寻找网络模型的生成结果。

具体的，将按预设比例缩小原始图像后得到的待处理图像输入至已训练好的预设的目标区域寻找网络模型中，其中，目标区域寻找网络模型主要通过对输入的待处理图像中待识别目标所在区域进行选取，并对各待识别目标所在区域的尺度进行确定得到多个中间结果，将各中间结果进行综合处理确定去除无效背景后的目标区域，并将不同尺度下的目标区域处理为标准大小的图像作为目标区域寻找网络模型的生成结果。由于待识别目标在待识别图像中所处位置可能为离散的，且多个待识别目标在待识别图像中的尺度大小不同，因此根据目标区域寻找网络模型的生成结果确定出的目标区域可为一个或多个，且确定出的各目标区域对应图像的大小为一致的。

在本发明实施例中，通过将待处理图像输入预设的目标区域寻找网络模型，根据目标区域寻找网络模型输出的生成结果确定出包含待识别目标的至少一个目标区域，实现了动态大场景下获取图像中无效背景的去除，同时将其中不同尺度大小的目标区域输出为统一大小的图像，便于后续对各目标区域中待识别目标的检测，提高了图像处理的效率，使得对待识别目标的确定更为准确。

S103、将各目标区域输入目标识别检测器中进行位置检测，确定各目标区域中的目标位置框。

在本实施例中，目标识别检测器可理解为根据预先设定的类型及参数对图像中目标位置及对应的目标类别进行确定的数学模型。示例性的，目标识别检测器可为采用YOLO（You Only Look Once）算法训练得到的神经网络模型，进一步地，目标识别检测器的可通过输入目标区域图像，并将目标区域图像中所有目标对应的目标检测框的真实值和类别作为监督信号训练得到，其损失函数中分类损失为多分类交叉熵损失函数，回归损失为smooth L1损失函数。其中，smooth L1损失函数可表示为下述形式：

在本实施例中，目标位置框可理解为用以将目标区域中识别出的目标包括在内的最小矩形框，其中可包括识别出的目标的位置信息和类型信息。

具体的，将由目标区域寻找网络模型的生成结果中确定出的至少一个目标区域依次输入目标识别检测器中，分别对每一个目标区域内的目标位置与类别进行识别，通过目标位置框将目标区域中识别出的目标框选出来，并将目标位置信息和目标类型信息携带在目标位置框中。

S104、按照各目标区域的尺度信息和预设比例，将相应的目标位置框关联至原始图像中。

在本实施例中，目标区域的尺度信息可理解为由待识别图像中目标区域的大小到目标区域寻找网络模型输出的目标区域的大小所需缩放的比例信息。

具体的，由于目标位置框为根据目标区域中识别出的目标确定的，也即目标位置框与目标区域存在对应关系，其缩放比例与对应的目标区域是相同的，因此可用目标区域的尺度信息表征该目标区域中确定出的目标位置框的尺度信息。进一步地，由于目标位置框为经过缩放后的待处理图像中识别得到，故可根据与其对应的目标区域的尺度信息和预设比例确定出其与原始图像间的对应关系，进而将目标位置框对应关联至原始图像中，实现对动态大场景下采集的原始图像中的目标识别。

本实施例的技术方案，通过获取动态大场景下的原始图像，并将原始图像按预设比例缩小，获得待处理图像；将待处理图像输入预设的目标区域寻找网络模型，根据目标区域寻找网络模型的生成结果确定至少一个目标区域，目标区域寻找网络模型为采用设定训练方法训练的神经网络模型；将各目标区域输入目标识别检测器中进行位置检测，确定各目标区域中的目标位置框；按照各目标区域的尺度信息和预设比例，将相应的目标位置框关联至原始图像中。通过采用上述技术方案，在获取到动态大场景下采集到的高分辨率的原始图像后，将原始图像进行缩小得到的待处理图像输入至预先训练好的目标区域寻找网络模型中，确定出待处理图像在多个尺度上去除无效背景后的目标区域，并通过目标识别检测器对各目标区域进行目标检测，得到各目标区域内包含目标的位置信息和目标的类别信息的目标位置框，进而根据原始图像的缩小比例以及目标位置框所在目标区域的尺度信息将各目标位置框对应关联至原始图像，实现原始图像中的目标识别。解决了难以对动态大场景下的高分辨率图像进行目标识别，识别速度慢且识别结果不够准确的问题，提升了对高分辨率图像视觉处理的处理效率，并提高了对高分辨率图像视觉处理的准确度。

实施例二

图2为本发明实施例二提供的一种动态大场景自适应智能处理方法的流程图，本发明实施例的技术方案在上述各可选技术方案的基础上进一步优化，在将相应的目标位置框关联至原始图像中之后，通过非极大值抑制算法消除关联目标位置框的原始图像中重复的目标位置框，避免了同一目标的重复识别。同时给出了训练目标区域寻找网络模型的步骤，通过对训练过程中的膨胀中间结果以及尺度中间结果进行提取，确定用于训练目标区域寻找网络模型的损失函数，进而根据确定出的损失函数对目标区域寻找网络模型中的对应模块进行权重参数调整，使得参数调整更为细腻准确，使得训练得到的目标区域寻找网络模型对输入的待处理图像进行处理时可得到准确度更高的生成结果。

进一步地，目标区域寻找网络模型中至少包括骨干网络、目标区域推断模块、图像膨胀模块、尺度估计模块、尺度规范模块和目标区域输出模块。上述动态大场景自适应智能处理方法具体包括如下步骤：

S201、获取动态大场景下的原始图像，并将原始图像按预设比例缩小，获得待处理图像。

S202、将待处理图像输入预设的目标区域寻找网络模型，根据目标区域寻找网络模型的生成结果确定至少一个目标区域。

进一步地，图3为本发明实施例提供的一种采用设定训练方法训练目标区域寻找网络模型的流程示意图，具体包括如下步骤：

S2021、将图像训练样本输入至初始区域寻找网络模型，提取膨胀中间结果及尺度中间结果。

其中，图像训练样本包括真实图像以及与真实图像对应的标定图像，标定图像中包括真实图像中目标区域的真实坐标、目标区域膨胀后的膨胀坐标以及目标区域的缩放比例信息。

在本实施例中，图像训练样本可理解为输入初始区域寻找网络模型中用以对其进行训练的，根据真实图像确定的训练对象的集合，进一步地，由于本申请中所需训练的为初始区域寻找网络模型对输入图像中目标区域划分的能力，而输入图像中的目标区域可被确定为不同的尺度的规则图像，故此时输入的图像训练样本中应包括需要进行目标区域确定的真实图像，以及与真实图像对应的已完成目标区域确定并对各目标区域进行标定后的标定图像，标定图像中需包括真实图像中目标区域的真实坐标、目标区域膨胀后的膨胀坐标以及目标区域的缩放比例信息。

在本实施例中，初始区域寻找网络模型可理解为未训练时的目标区域寻找网络模型，其中所包括的模块与目标区域寻找网络模型中完全一致，均为骨干网络、目标区域推断模块、图像膨胀模块、尺度估计模块、尺度规范模块和目标区域输出模块，但尚未对上述模块中的权重参数进行调整，初始区域寻找网络模型在经训练后，也即对上述模块中的权重参数进行调整后即可得到用于对输入图像进行目标区域划分的目标区域寻找网络模型。

在本实施例中，膨胀中间结果可理解为将图像训练样本输入初始区域寻找网络模型中进行初步目标区域划分后，将初步划分的目标区域进行平滑后所得到的中间结果；尺度中间结果可理解为将图像训练样本输入初始区域寻找网络模型中后对其中各像素尺度信息进行确定后得到的中间结果，也即膨胀中间结果为图像膨胀模块的输出结果，尺度中间结果为尺度估计模块的输出结果。

具体的，将图像训练样本输入至初始区域寻找网络模型中进行训练，在训练过程中初始区域寻找网络模型中的不同模块可输出不同的中间结果，进而可提取多个不同中间结果中的膨胀中间结果及尺度中间结果，结合膨胀中间结果、尺度中间结果及图像训练样本中的标定图像确定用以对初始区域寻找网络模型进行训练的损失函数，进而完成初始区域寻找网络模型的训练，得到目标区域寻找网络模型。

进一步地，图4为本发明实施例提供的一种初始区域寻找网络模型对所输入图像训练样本进行处理的流程示意图，具体包括如下步骤：

S301、将图像训练样本中的真实图像输入骨干网络，确定真实图像对应的骨干特征。

在本实施例中，骨干网络可理解为一种用于提取图像特征的神经网络，可选的，骨干网络可为残差网络ResNet、轻量级深层神经网络MobileNet或其他用于特征提取的神经网络，本发明实施例对此不进行限制。骨干特征可理解为通过骨干网络提取出的真实图像中的至少一个特征。

具体的，可将符合初始区域寻找网络模型输入形式的图像训练样本中的真实图像输入至初始区域寻找网络模型中的骨干网络中，通过骨干网络初步提取其中的各项特征，并将上述特征确定为骨干网络提取出的与真实图像对应的骨干特征。

S302、将骨干特征分别输入目标区域推断模块和尺度估计模块，将目标区域推断模块的输出确定为区域推断结果，将尺度估计模块的输出确定为尺度中间结果。

在本实施例中，目标区域推断模块可理解为对输入的骨干特征中属于目标对象的目标区域进行推断标识的，初始区域寻找网络模型中多个神经网络层的组合。可选的，目标区域推断模块可采用3个3*3的卷积核，每个卷积层后采用线性整流函数（RectifiedLinear Unit，ReLU）作为激活函数，并在其后采用组归一化（Group Batch Normalization）进行规范化，得到与输入的骨干特征分辨率相同的区域推断结果。也即区域推断结果可理解为将目标区域与背景区域分别标识的特征图像。

在本实施例中，尺度估计模块可理解为对输入的骨干特征中各像素点尺度信息进行确定的，初始区域寻找网络模型中多个神经网络层的组合。可选的，尺度估计模块可采用3个5*5的空洞卷积核，每个卷积层后面采用SIGMOD函数作为激活函数，得到与输入的骨干特征分辨率相同的尺度中间结果，且尺度中间结果中各相邻像素点间的尺度信息差别不会过大。

进一步地，将骨干特征输入目标区域推断模块，将目标区域推断模块的输出确定为区域推断结果，具体包括如下步骤：

a、确定骨干特征中各像素点是否位于目标对象的区域内。

具体的，根据预先设定的目标类型或其他目标判断方法，确定经骨干网络提取后得到的骨干特征图像中，各像素点中所包含信息中是否含有目标对象的信息，若是，则可确定该像素点位于目标对象的区域内，若否，则可认为该像素点未位于目标对象的区域内。

b、将位于目标对象的区域内的像素点赋以第一像素值，并将其他像素点赋以第二像素值。

可选的，可将输入目标区域推断模块中的骨干特征图像中各像素点值p设为空值，并在经过判断后将位于目标对象的区域内的像素点的值p取值第一像素值，该第一像素值可设置为1，将其他像素点的值p取值为第二像素值，该第二像素值可设置为0，用以表征该像素点为无效背景中的像素点。第一像素值与第二像素值可为任意预先设定且不相同的值，本发明实施例对此不进行限制。

c、将像素值为第一像素值的相邻像素点所组成的区域确定为推断目标区域，并将推断目标区域确定为区域推断结果，区域推断结果中包括至少一个推断目标区域。

具体的，由于一个待识别图像中可存在多个可被识别的目标，也即可确定出多个目标区域，因此需要对多个目标区域进行划分，故可将像素值为第一像素值的相邻像素点所组成的区域确定为推断目标区域，也即将相互间存在相连关系的像素点所组成的区域确定为推断目标区域，认为上述像素点所组成的区域为一个完整目标所在的区域，进而可将上述确定出的一个或多个推断目标区域确定为目标区域推断模块输出的区域推断结果。

S303、将区域推断结果输入图像膨胀模块，以将区域推断结果对应的他的目标区域进行平滑，将图像膨胀模块的输出确定为膨胀中间结果。

在本实施例中，图像膨胀模块可理解为用以对初步确定出目标区域的区域推断结果进行边界平滑的，初始区域寻找网络模型中多个神经网络层的组合。

示例性的，假设由目标区域推断模块输出的区域推断结果可表示为Mask，图像膨胀卷积核模板表示为C，通过图像膨胀卷积核模板对区域推断结果进行卷积计算以对该区域推断结果的边界进行平滑，得到的平滑后的结果可表示为Mask’，则该转换过程可表示为：

Mask’=Mask⊕C

其中，所述图像膨胀可理解为将区域推断结果的位置进行修正。

S304、将膨胀中间结果与尺度中间结果输入尺度规范模块，以根据尺度中间结果确定膨胀中间结果对应的区域尺度信息，根据区域尺度信息以及预设尺度阈值对膨胀中间结果进行缩放，将尺度规范模块的输出确定为规范中间结果。

在本实施例中，尺度规范化模块可理解为用以对平滑后得到的膨胀中间结果进行尺度确定，并将其规范化至预设标准图像大小的，初始区域寻找网络模型中多个神经网络层的组合。

具体的，由于不同膨胀中间结果对应着不同的区域推断结果，也即对应着不同的目标区域，而不同目标区域在原始图像中的尺度是不一样的，因此在将膨胀中间结果与尺度中间结果输入尺度规范模块后，可通过尺度中间结果确定与膨胀中间结果对应的区域尺度信息，进而通过该区域尺度信息对膨胀中间结果进行缩放，使得缩放后的膨胀中间结果大小为预设的标准图像大小，进而便于输出至目标识别检测器中进行目标位置检测。并且由于膨胀中间结果为平滑后的区域推断结果，而尺度中间结果所对应的像素点信息针对的是未进行平滑的区域推断结果，故在进行区域尺度信息确定时需先对膨胀中间结果对应的区域推断结果进行确定，并将区域推断结果所对应的尺度信息确定为膨胀中间结果的区域尺度信息。

进一步地，图5为本发明实施例提供的一种将膨胀中间结果与尺度中间结果输入尺度规范模块后的流程示意图，具体包括如下步骤：

S3041、确定膨胀中间结果对应的推断目标区域。

具体的，由于膨胀中间结果为平滑后的区域推断结果，而尺度中间结果所对应的像素点信息针对的是未进行平滑的区域推断结果，故在进行区域尺度信息确定时需先对膨胀中间结果对应的区域推断结果进行确定，也即对区域推断结果中对应的推断目标区域进行确定，进而根据推断目标区域对膨胀中间结果的区域尺度信息进行确定。

S3042、根据尺度中间结果确定推断目标区域中各像素点对应的尺度值。

具体的，可将根据尺度中间结果确定的推断目标区域中各像素点对应的尺度值确定为膨胀中间结果所对应区域的尺度值。

S3043、将推断目标区域中的最高频尺度值确定为膨胀中间结果对应的区域尺度信息。

在本实施例中，最高频尺度值可理解为推断目标区域所对应各像素点的尺度值中出现次数最多的尺度值。

具体的，由于最高频尺度值为推断目标区域内出现次数最多的尺度值，也可认为该尺度值可最大程度体现推断目标区域在进行处理时所需的尺度变化情况，因此可将推断目标区域中的最高频尺度值确定为与之相对的膨胀中间结果对应的区域尺度信息。

S3044、判断区域尺度信息是否位于预设尺度阈值范围内，若是，则执行步骤S3045，若否，则执行步骤S3046。

在本实施例中，预设尺度阈值范围可理解为预先确定的用以确定膨胀中间结果与所需输出的标准图像间大小关系的比例范围，也即为标准图像的大小与膨胀中间结果的大小的比值。

具体的，位于该预设尺度阈值范围内的膨胀中间结果，可认为其与标准图像的大小较为接近，无需对其进行规范化，进而执行步骤S3045；而超出该预设尺度阈值范围的膨胀中间结果，可认为其与标准图像的大小相差较大，需要对其进行规范化，进而执行步骤S3046。

S3045、将膨胀中间结果确定为尺度规范模块的输出。

S3046、将膨胀中间结果与区域尺度信息的乘积确定为尺度规范模块的输出。

S305、将规范中间结果输入目标区域输出模块，判断规范中间结果是否满足预设尺度阈值，若是，则执行步骤S306；若否，则执行步骤S307。

在本实施例中，目标区域输出模块可理解为用以对输入的规范中间结果进行判断，确定其应直接输出还是返回输入骨干网络再次进行迭代的，初始区域寻找网络模型中多个神经网络层的组合。规范中间结果可理解为由尺度规范模块输出的，大小与标准图像大小近似的，包含目标区域的图像。

具体的，在将规范中间结果输入至目标区域输出模块后，目标区域输出模块对规范中间结果中的区域尺度信息是否在预设尺度阈值内进行确定，若是，则可认为本次输入的待识别图像中确定出的目标区域未经缩放即可满足输出要求，此时执行步骤S306；若否，则可认为本次输入的待识别图像确定出的目标区域需要进行较大的缩放修正才满足输出要求，其中可能包括未识别出的目标区域，故此时需要对本次确定出的规范中间结果再次进行目标区域寻找，此时执行步骤S307。

S306、将满足预设尺度阈值的规范中间结果确定为目标区域输出模块的输出，并将目标区域输出模块的输出确定为目标区域寻找网络模型的生成结果。

S307、将不满足预设尺度阈值的规范中间结果输入骨干网络，以对规范中间结果进行目标区域寻找。

示例性的，图6为本发明实施例提供的一种目标区域寻找网络模型的结构示例图，其中包括骨干网络、目标区域推断模块、图像膨胀模块、尺度估计模块、尺度规范模块和目标区域输出模块，在一次输入图像训练样本进行处理的过程中，具体数据流向如图6所示。

S2022、根据膨胀中间结果与标定图像中对应的膨胀坐标，确定对应的第一损失函数。

在本实施例中，损失函数（Loss Function）可理解为用以测量深度学习过程中训练的模型与理想模型之间距离的函数，损失函数可被用于模型的参数估计（ParametericEstimation）使训练的模型达到收敛状态，进而减小训练后模型预测值与真实值之间的误差。标定图像中对应的膨胀坐标可理解为标定图像中的目标区域在进行卷积计算对边界进行平滑后的坐标。

具体的，将图像训练样本输入初始区域寻找网络模型中后提取得到的膨胀中间结果提取出来，确定膨胀中间结果中所对应的中间结果坐标，并确定上述中间结果坐标与目标区域的真实坐标间的第一差值信息，进而根据第一差值信息，以及膨胀坐标与目标区域的真实坐标间的第二差值信息确定对应的第一损失函数。

进一步地，根据膨胀中间结果与标定图像中对应的膨胀坐标，确定对应的第一损失函数，具体包括如下步骤：

a、将膨胀中间结果的坐标与标定图像中对应的膨胀坐标进行比对。

b、根据比对结果确定图像膨胀模块对应的第一损失函数。

在本发明实施例中，确定出的第一损失函数可以用于在训练中对初始区域寻找网络模型中的图像膨胀模块或其他相关模块的权重参数进行调整，而非利用统一的损失函数对初始区域寻找网络模型中各模块的权重参数进行调整，使得训练后的权重参数调整更为准确，对不同目标区域的划分更加清晰。

S2023、根据尺度中间结果与标定图像中对应的缩放比例信息，确定对应的第二损失函数。

在本实施例中，标定图像中对应的缩放比例信息可理解为标定图像中目标区域缩放至预设的标准图像大小所需要缩放的比例，其与目标区域的尺度信息类似。

具体的，将图像训练样本输入初始区域寻找网络模型中后提取得到的尺度中间结果提取出来，确定尺度中间结果中各像素所对应的尺度值，并根据标定图像中对应的缩放比例信息确定标定图像中各像素所对应的缩放比例值，进而确定同一像素所对应的尺度值与缩放比例值间的第三差值信息，并根据第三差值信息确定对应的第二损失函数。

进一步地，根据尺度中间结果与标定图像中对应的缩放比例信息，确定对应的第二损失函数，具体包括如下步骤：

a、根据标定图像中对应的缩放比例信息，确定标定图像中各像素点的尺度值。

b、将尺度中间结果中各像素点的尺度值，与标定图像中各像素点的尺度值进行比对。

c、根据比对结果确定尺度估计模块对应的第二损失函数。

在本发明实施例中，确定出的第二损失函数可以用于在训练中对初始区域寻找网络模型中的尺度估计模块或其他相关模块的权重参数进行调整，而非利用统一的损失函数对初始区域寻找网络模型中各模块的权重参数进行调整，使得训练后的权重参数调整更为准确，使得输入图像中不同尺度的目标区域可被清晰提取识别。

S2024、基于第一损失函数和第二损失函数对初始区域寻找网络模型进行训练，直到满足预设收敛条件获得目标区域寻找网络模型。

在本实施例中，预设收敛条件可理解为用以判断训练的初始区域寻找网络模型是否进入收敛状态的条件。可选的，预设收敛条件可包括计算得到的第一差值信息与第二差值信息间的差异小于预设阈值、第三差值信息小于预设尺度值、模型训练两次迭代之间的权重参数变化小于预设参数变化阈值和迭代超过设定的最大迭代次数以及训练样本全部训练完毕等，本发明实施例对此不进行限定。

具体的，利用得到的第一损失函数与第二损失函数对初始区域寻找网络模型进行反向传播，可以使得初始区域寻找网络模型中组成图像膨胀模块的神经网络层中的权重参数可根据第一损失函数进行调整，并使得初始区域寻找网络模型中组成尺度估计模块的神经网络层中的权重参数可根据第二损失函数进行调整，直到满足预设收敛条件时将训练完毕的初始区域寻找网络模型确定为目标区域寻找网络模型。

进一步地，基于第一损失函数和第二损失函数对初始区域寻找网络模型进行训练，具体包括如下步骤：

基于第一损失函数和第二损失函数对初始区域寻找网络模型进行训练，以根据第一损失函数对图像膨胀模块中的权重参数进行调整，并根据第二损失函数对尺度估计模块中的权重参数进行调整。

S203、将各目标区域输入目标识别检测器中进行位置检测，确定各目标区域中的目标位置框。

S204、按照各目标区域的尺度信息和预设比例，将相应的目标位置框关联至原始图像中。

进一步地，确定出的目标区域的尺度信息为在目标区域寻找网络模型汇总多次进行缩放后的累计尺度信息，也即在进行目标区域确定，并得到可输出的预设标准图像大小的目标区域时，对于待处理图像中的部分目标区域，需要对其进行多次缩放处理，则在目标区域输出模块对满足输出条件的目标区域进行输出时，需携带该目标区域在整个识别过程中的累计缩放尺度值，并将其作为目标区域的尺度信息。

S205、通过非极大值抑制算法对关联目标位置框的原始图像进行处理，以消除关联目标位置框的原始图像中重复的目标位置框。

在本实施例中，非极大值抑制算法（Non-Maximum Suppression，NMS）可理解为一种搜索局部最大值，抑制非极大值的算法，常应用于计算机视觉任务中的边缘检测及目标检测中。示例性的，在目标检测的过程中在同一目标的位置上会产生大量的候选目标位置框，各候选目标位置框互相之间可能会有重叠，可通过非极大值抑制算法确定各候选目标位置框中置信度得分（Confidence Score）最高的候选目标位置框作为该目标的目标位置框，进而实现冗余目标位置框的去除。

具体的，由于将目标位置框关联至原始图像中后，原始图像中的同一目标可能关联的多个目标位置框，则可利用非极大值抑制算法对关联目标位置框的原始图像中的各目标位置框进行处理，使得针对同一目标仅保留各目标位置框中置信度得分最高的目标位置框，以实现关联目标位置框的原始图像中重复的目标位置框的消除。

本实施例的技术方案，通过将初始区域寻找网络模型中各神经网络层划分为不同的模块，根据不同模块处理得到的不同中间结果确定出输入图像中多个不同尺度的目标区域，并根据确定出的目标区域所具有的特征信息以及输入初始区域寻找网络模型中的图像训练样本中的监督信号确定用以对模型进行训练的两个损失函数，根据两个损失函数分别对初始区域寻找网络模型中不同模块中的权重参数进行调整，使得训练后得到的目标区域寻找网络模型对输入图像中目标区域的确定效果更好，同时将目标区域输入目标识别检测器中确定出对应于各目标区域中的目标位置框，并将各目标位置框根据目标区域的尺度信息和预设比例关联至原始图像中后，通过非极大值抑制算法消除其中重复的目标位置框，提高了对输入目标区域寻找网络模型中待处理图像中目标区域及目标位置确定的清晰度和准确度。

实施例三

图7为本发明实施例三提供的一种动态大场景自适应智能处理装置的结构示意图，该动态大场景自适应智能处理装置包括：图像获取模块41，目标区域确定模块42，位置框确定模块43和位置框关联模块44。

其中，图像获取模块41，用于获取动态大场景下的原始图像，并将原始图像按预设比例缩小，获得待处理图像；目标区域确定模块42，用于将所述待处理图像输入预设的目标区域寻找网络模型，根据所述目标区域寻找网络模型的生成结果确定至少一个目标区域，所述目标区域寻找网络模型为采用设定训练方法训练的神经网络模型；位置框确定模块43，用于将各所述目标区域输入目标识别检测器中进行位置检测，确定各所述目标区域中的目标位置框；位置框关联模块44，用于按照各所述目标区域的尺度信息和所述预设比例，将相应的目标位置框关联至所述原始图像中。

本实施例的技术方案，解决了难以对动态大场景下的高分辨率图像进行目标识别，识别速度慢且识别结果不够准确的问题，提升了对高分辨率图像视觉处理的处理效率，并提高了对高分辨率图像视觉处理的准确度。

可选的，动态大场景自适应智能处理装置，还包括：

模型训练模块，用于采用设定训练方法训练目标区域寻找网络模型。

重复框消除模块，用于通过非极大值抑制算法对关联目标位置框的原始图像进行处理，以消除关联目标位置框的原始图像中重复的目标位置框。

可选的，模型训练模块，包括：

中间结果提取单元，用于将图像训练样本输入至初始区域寻找网络模型，提取膨胀中间结果及尺度中间结果，其中，所述图像训练样本包括真实图像以及与真实图像对应的标定图像，所述标定图像中包括所述真实图像中目标区域的真实坐标、所述目标区域膨胀后的膨胀坐标以及所述目标区域的缩放比例信息；

第一函数确定单元，用于根据所述膨胀中间结果与所述标定图像中对应的膨胀坐标，确定对应的第一损失函数；

第二函数确定单元，用于根据所述尺度中间结果与所述标定图像中对应的缩放比例信息，确定对应的第二损失函数；

模型训练单元，用于基于所述第一损失函数和所述第二损失函数对所述初始区域寻找网络模型进行训练，直到满足预设收敛条件获得目标区域寻找网络模型。

进一步地，目标区域寻找网络模型至少包括：骨干网络、目标区域推断模块、图像膨胀模块、尺度估计模块、尺度规范模块和目标区域输出模块。

可选的，初始区域寻找网络模型对所输入图像训练样本进行一次处理的步骤可包括：

初始区域寻找网络模型对所输入图像训练样本进行处理的步骤，包括：

将所述图像训练样本中的真实图像输入所述骨干网络，确定与所述真实图像对应的骨干特征；

将所述骨干特征分别输入所述目标区域推断模块和所述尺度估计模块，将所述目标区域推断模块的输出确定为区域推断结果，将所述尺度估计模块的输出确定为尺度中间结果；

将所述区域推断结果输入所述图像膨胀模块，以将所述区域推断结果对应的推断目标区域进行平滑，将所述图像膨胀模块的输出确定为膨胀中间结果；

将所述膨胀中间结果与所述尺度中间结果输入所述尺度规范模块，以根据所述尺度中间结果确定所述膨胀中间结果对应的区域尺度信息，根据所述区域尺度信息以及预设尺度阈值对所述膨胀中间结果进行缩放，将所述尺度规范模块的输出确定为规范中间结果；

将所述规范中间结果输入所述目标区域输出模块，以将满足所述预设尺度阈值的规范中间结果确定为所述目标区域输出模块的输出，并将所述目标区域输出模块的输出确定为所述目标区域寻找网络模型的生成结果。

进一步地，将骨干特征输入所述目标区域推断模块，将所述目标区域推断模块的输出确定为区域推断结果，包括：

确定所述骨干特征中各像素点是否位于目标对象的区域内；

将位于目标对象的区域内的像素点赋以第一像素值，并将其他像素点赋以第二像素值；

将像素值为所述第一像素值的相邻像素点所组成的区域确定为推断目标区域，并将所述推断目标区域确定为区域推断结果，所述区域推断结果中包括至少一个推断目标区域。

进一步地，将所述膨胀中间结果与所述尺度中间结果输入所述尺度规范模块，包括：

确定所述膨胀中间结果对应的推断目标区域；

根据所述尺度中间结果确定所述推断目标区域中各像素点对应的尺度值；

将所述推断目标区域中的最高频尺度值确定为所述膨胀中间结果对应的区域尺度信息；

判断所述区域尺度信息是否位于预设尺度阈值内；

若是，则将所述膨胀中间结果与所述区域尺度信息的乘积确定为所述尺度规范模块的输出；否则，将所述膨胀中间结果确定为所述尺度规范模块的输出。

进一步地，将所述规范中间结果输入所述目标区域输出模块之后，还包括：

将不满足所述预设尺度阈值的规范中间结果输入所述骨干网络，以对所述规范中间结果进行目标区域寻找。

进一步地，第一函数确定单元，具体用于：

将所述膨胀中间结果的坐标与所述标定图像中对应的膨胀坐标进行比对；

根据比对结果确定所述图像膨胀模块对应的第一损失函数

进一步地，第二函数确定单元，具体用于：

根据所述标定图像中对应的缩放比例信息，确定所述标定图像中各像素点的尺度值；

将所述尺度中间结果中各像素点的尺度值，与所述标定图像中各像素点的尺度值进行比对；

根据比对结果确定所述尺度估计模块对应的第二损失函数。

进一步地，模型训练单元，具体用于：

基于所述第一损失函数和所述第二损失函数对所述初始区域寻找网络模型进行训练，以根据所述第一损失函数对所述图像膨胀模块中的权重参数进行调整，并根据所述第二损失函数对所述尺度估计模块中的权重参数进行调整。

本发明实施例提供的动态大场景自适应智能处理装置可执行本发明任意实施例所提供的动态大场景自适应智能处理方法，具备执行方法相应的功能模块和有益效果。

实施例四

图8为本发明实施例四提供的一种计算机设备的结构示意图，该计算机设备中可集成本发明实施例提供的动态大场景自适应智能处理装置。如图8所示，计算机设备500包括存储装置501、处理器502及存储在存储装置501上并可在处理器502上运行的计算机程序，所述处理器502执行所述计算机程序时实现本发明实施例提供的动态大场景自适应智能处理方法。

存储装置501作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的动态大场景自适应智能处理方法对应的程序指令/模块（例如，图像获取模块41，目标区域确定模块42，位置框确定模块43和位置框关联模块44）。处理器502通过运行存储在存储装置501中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的动态大场景自适应智能处理方法。

存储装置501可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储装置501可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储装置501可进一步包括相对于处理器502远程设置的存储器，这些远程存储器可以通过网络连接至识别。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实施例五

本发明实施例五还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种动态大场景自适应智能处理方法，该方法包括：

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的动态大场景自适应智能处理方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器（Read-Only Memory, ROM）、随机存取存储器（RandomAccess Memory, RAM）、闪存（FLASH）、硬盘或光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

值得注意的是，上述搜索装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种动态大场景自适应智能处理方法，其特征在于，包括：

获取动态大场景下的原始图像，并将所述原始图像按预设比例缩小，获得待处理图像；

将所述待处理图像输入预设的目标区域寻找网络模型，根据所述目标区域寻找网络模型的生成结果确定至少一个目标区域，所述目标区域寻找网络模型为采用设定训练方法训练的神经网络模型；

将各所述目标区域输入目标识别检测器中进行位置检测，确定各所述目标区域中的目标位置框；

按照各所述目标区域的尺度信息和所述预设比例，将相应的目标位置框关联至所述原始图像中；

采用设定训练方法训练目标区域寻找网络模型的步骤包括：

将图像训练样本输入至初始区域寻找网络模型，提取膨胀中间结果及尺度中间结果，其中，所述图像训练样本包括真实图像以及与真实图像对应的标定图像，所述标定图像中包括所述真实图像中目标区域的真实坐标、所述目标区域膨胀后的膨胀坐标以及所述目标区域的缩放比例信息；

根据所述膨胀中间结果与所述标定图像中对应的膨胀坐标，确定对应的第一损失函数；

根据所述尺度中间结果与所述标定图像中对应的缩放比例信息，确定对应的第二损失函数；

基于所述第一损失函数和所述第二损失函数对所述初始区域寻找网络模型进行训练，直到满足预设收敛条件获得目标区域寻找网络模型；

所述初始区域寻找网络模型至少包括骨干网络、目标区域推断模块、图像膨胀模块、尺度估计模块、尺度规范模块和目标区域输出模块；

所述初始区域寻找网络模型为未训练时的目标区域寻找网络模型，其中所包括的模块与所述目标区域寻找网络模型中完全一致；

所述初始区域寻找网络模型对所输入图像训练样本进行处理的步骤，包括：

将所述规范中间结果输入所述目标区域输出模块，以将满足所述预设尺度阈值的规范中间结果确定为所述目标区域输出模块的输出，并将所述目标区域输出模块的输出确定为所述初始区域寻找网络模型的生成结果。

2.根据权利要求1所述的方法，其特征在于，将骨干特征输入所述目标区域推断模块，将所述目标区域推断模块的输出确定为区域推断结果，包括：

确定所述骨干特征中各像素点是否位于目标对象的区域内；

3.根据权利要求1所述的方法，其特征在于，所述将所述膨胀中间结果与所述尺度中间结果输入所述尺度规范模块，包括：

确定所述膨胀中间结果对应的推断目标区域；

判断所述区域尺度信息是否位于预设尺度阈值内；

4.根据权利要求1所述的方法，其特征在于，所述将所述规范中间结果输入所述目标区域输出模块之后，还包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述膨胀中间结果与所述标定图像中对应的膨胀坐标，确定对应的第一损失函数，包括：

根据比对结果确定所述图像膨胀模块对应的第一损失函数。

6.根据权利要求1所述的方法，其特征在于，所述根据所述尺度中间结果与所述标定图像中对应的缩放比例信息，确定对应的第二损失函数，包括：

根据比对结果确定所述尺度估计模块对应的第二损失函数。

7.根据权利要求1所述的方法，其特征在于，所述基于所述第一损失函数和所述第二损失函数对所述初始区域寻找网络模型进行训练，包括：

8.根据权利要求1所述的方法，其特征在于，所述将相应的目标位置框关联至所述原始图像中之后，还包括：

通过非极大值抑制算法对关联目标位置框的原始图像进行处理，以消除所述关联目标位置框的原始图像中重复的目标位置框。

9.一种动态大场景自适应智能处理装置，其特征在于，包括：

图像获取模块，用于获取动态大场景下的原始图像，并将所述原始图像按预设比例缩小，获得待处理图像；

目标区域确定模块，用于将所述待处理图像输入预设的目标区域寻找网络模型，根据所述目标区域寻找网络模型的生成结果确定至少一个目标区域，所述目标区域寻找网络模型为采用设定训练方法训练的神经网络模型；

位置框确定模块，用于将各所述目标区域输入目标识别检测器中进行位置检测，确定各所述目标区域中的目标位置框；

位置框关联模块，用于按照各所述目标区域的尺度信息和所述预设比例，将相应的目标位置框关联至所述原始图像中；

模型训练模块，用于采用设定训练方法训练目标区域寻找网络模型；

所述模型训练模块，包括：

模型训练单元，用于基于所述第一损失函数和所述第二损失函数对所述初始区域寻找网络模型进行训练，直到满足预设收敛条件获得目标区域寻找网络模型；

10.一种计算机设备，包括存储装置、处理器及存储在存储装置上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-8任一项所述的方法。

11.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-8任一项所述的方法。