CN114723718A

CN114723718A - 一种大场景图像的区域提取方法及装置

Info

Publication number: CN114723718A
Application number: CN202210395710.3A
Authority: CN
Inventors: 许景焘; 李亚利; 王生进
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-04-14
Filing date: 2022-04-14
Publication date: 2022-07-08

Abstract

本发明提供一种大场景图像的区域提取方法及装置，其中的区域提取方法包括：S1，获取目标图像；S2，将目标图像输入至骨干特征网络，得到目标图像的骨干特征图；S3，获取目标图像的区域记录特征图；S4，根据骨干特征图和区域记录特征图，得到目标图像的目标状态；S5，将目标状态输入至策略生成网络，获取目标图像的区域提取策略；S6，根据区域提取策略，确定待提取的目标区域，并从目标图像中提取目标区域，目标区域由一个或多个子目标区域构成。该方法解决了现有技术中大场景图像处理效率低且缺乏灵活性的缺陷，有效提高了大场景图像处理效率，并增加了对大场景图像区域提取的灵活性。

Description

一种大场景图像的区域提取方法及装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种大场景图像的区域提取方法及装置。

背景技术

随着成像技术的飞速发展，传感器可采集具有极宽视场的大场景图像，在遥感探测、无人机侦查以及视频安防等领域亟需对大场景图像进行准确高效的处理和分析。

传统的图像分析方法主要聚焦于日常相机拍摄的自然场景，图像尺寸有限，覆盖范围小。然而，对于大场景图像而言，图像通常由高分辨率设备采集，具有高视角、宽视场，单张图像可覆盖广阔的地理范围。

但由于设备算力的限制，传统的图像分析方法难以直接处理高分辨率的大场景图像，而是需要采用将图像均匀划分为若干图像块的方式，通过复用针对小视场图像的分析技术对各个图像块进行独立分析。这种方式效率低，且缺乏灵活性。

因此，如何解决现有技术中大场景图像处理效率低且缺乏灵活性的技术问题，是图像处理技术领域亟待解决的重要课题。

发明内容

本发明提供一种大场景图像的区域提取方法，用以解决现有技术中大场景图像处理效率低且缺乏灵活性的缺陷，提高了大场景图像处理效率，增加了对大场景图像区域提取的灵活性。

一方面，本发明提供一种大场景图像的区域提取方法，包括：S1，获取目标图像；S2，将所述目标图像输入至骨干特征网络，得到所述目标图像的骨干特征图；S3，获取所述目标图像的区域记录特征图；S4，根据所述骨干特征图和所述区域记录特征图，得到所述目标图像的目标状态；S5，将所述目标状态输入至策略生成网络，获取所述目标图像的区域提取策略；S6，根据所述区域提取策略，确定待提取的目标区域，并从所述目标图像中提取所述目标区域，所述目标区域由一个或多个子目标区域构成。

进一步地，所述获取所述目标图像的区域提取策略，包括：获取所述目标图像的区域提取策略概率分布，所述区域提取策略概率分布包括区域位置概率分布、区域尺寸概率分布以及区域形状概率分布；根据所述区域位置概率分布、区域尺寸概率分布以及区域形状概率分布，确定区域提取策略。

进一步地，步骤S3-S6包括：通过强化学习序列化建模的方式实现所述目标区域中每一个子目标区域的提取，所述强化学习序列化建模包括执行序列化建模操作；每执行一次所述序列化建模操作，提取一个所述子目标区域；当所述子目标区域的数量达到预设阈值时，停止执行所述序列化建模操作，并根据多个所述子目标区域，提取所述目标区域。

进一步地，所述每执行一次所述序列化建模操作，提取一个所述子目标区域，包括：获取上一次提取的历史区域，将所述历史区域在所述区域记录特征图中进行记录，得到更新的区域记录特征图；根据所述骨干特征图与更新的区域记录特征图，得到所述目标图像的当前状态；将所述当前状态输入至所述策略生成网络，获取子区域提取策略；所述子区域提取策略包含于所述区域提取策略；根据所述子区域提取策略，提取所述子目标区域。

进一步地，所述确定待提取的目标区域，并从所述目标图像中提取所述目标区域，之后包括：对所述目标区域进行自适应动态聚焦处理，得到预处理图像；将所述预处理图像输入至感知融合网络，获取感知融合结果。

进一步地，所述大场景图像的区域提取方法还包括：对所述骨干特征网络、所述策略生成网络以及所述感知融合网络进行训练，训练过程中采用梯度下降算法进行网络优化。

第二方面，本发明还提供一种大场景图像的区域提取装置，包括：目标图像获取模块，用于获取目标图像；骨干特征获取模块，用于将所述目标图像输入至骨干特征网络，得到所述目标图像的骨干特征图；区域记录获取模块，用于获取所述目标图像的区域记录特征图；目标状态获取模块，用于根据所述骨干特征图和所述区域记录特征图，得到所述目标图像的目标状态；提取策略获取模块，用于将所述目标状态输入至策略生成网络，获取所述目标图像的区域提取策略；目标区域提取模块，用于根据所述区域提取策略，确定待提取的目标区域，并从所述目标图像中提取所述目标区域，所述目标区域由一个或多个子目标区域构成。

第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述大场景图像的区域提取方法的步骤。

第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述大场景图像的区域提取方法的步骤。

第五方面，本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述大场景图像的区域提取方法的步骤。

本发明提供的大场景图像的区域提取方法，通过将获取的目标图像输入至骨干特征网络中，得到目标图像的骨干特征图，根据骨干特征图和获取的区域记录特征图，得到目标图像的目标状态，并将该目标状态输入至策略生成网络中，得到目标图像的区域提取策略，根据区域提取策略，确定并提取目标图像中待提取的目标区域。该方法解决了现有技术中大场景图像处理效率低且缺乏灵活性的缺陷，有效提高了大场景图像处理效率，并增加了对大场景图像区域提取的灵活性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的大场景图像的区域提取方法的流程示意图；

图2为本发明提供的基于强化学习序列化建模的子目标区域提取的示意图；

图3为本发明提供的大场景图像的区域提取和自适应动态聚焦的流程示意图；

图4为本发明提供的目标区域提取阶段的训练示意图；

图5为本发明提供的感知融合阶段的训练示意图；

图6为本发明提供的大场景图像的区域提取装置的结构示意图；

图7为本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了本发明提供的大场景图像的区域提取方法的流程示意图。如图1所示，该区域提取方法包括：

S1，获取目标图像。

可以理解的是，在本步骤中，利用大场景图像采集设备拍摄大场景视频，将大场景视频持久化存储，并将其转换为相应的图像帧，即大场景图像。与此同时，可以根据大场景图像的获取时间，将获取的大场景图像按照时间顺序建立索引，从而形成图像库。当需要获取目标图像时，直接从图像库中提取即可。具体地，可以根据建立的索引，按照大场景图像的获取时间对相应的大场景图像进行查询获取。

其中，目标图像为需要进行区域提取的大场景图像，大场景图像具有视场宽、覆盖面积大以及分辨率高的特点。在一个具体的实施例中，大场景图像采集设备为无人机载摄像头。

需要说明的是，由于大场景图像视频流各相邻帧之间存在大量冗余，例如，相邻帧所对应的大场景图像相似度很高，在此情况下，由于设备算力的限制，可以对转换得到的所有大场景图像中的一部分进行区域提取，将区域提取的结果迁移至其他相邻帧对应的大场景图像上，从而可以大幅度提高大场景图像处理效率。

对于获取目标图像的选取方式，可以根据实际需求确定。例如，可以采取均匀跳帧的方式，也可以采取关键帧选取的方式。均匀跳帧是指每间隔相同帧数获取一张目标图像；关键帧选取是指从所有帧中选取可以概括大场景视频场景事件的帧图像作为目标图像。

S2，将目标图像输入至骨干特征网络，得到目标图像的骨干特征图。

可以理解的是，在上一步骤获取目标图像的基础上，将目标图像输入至骨干特征网络中，由骨干特征网络输出目标图像的骨干特征图。骨干特征图作为对目标图像全局信息的特征表达，能够有效提取目标图像中每一个位置相应感受视野内图像的语义特征。

在一个具体的实施例中，骨干特征网络为深度卷积神经网络，深度卷积神经网络对输入的目标图像进行计算，在全图范围进行多层卷积计算得到多通道三维特征图，即骨干特征图。

S3，获取目标图像的区域记录特征图。

可以理解的是，获取目标图像的区域记录特征图，具体地，将每次从目标图像中提取的区域记录在区域记录特征图中，即区域记录特征图用于记录从目标图像中提取的每一个区域，也就是说，区域记录特征图是不断更新变化的。通过区域记录特征图记录历史提取的目标图像区域，为后续目标图像的区域提取提供历史信息。

S4，根据骨干特征图和区域记录特征图，得到目标图像的目标状态。

可以理解的是，在前述步骤获取目标图像的骨干特征图和区域记录特征图的基础上，将骨干特征图和区域记录特征图融合，得到完整的目标图像的状态特征表达，即目标图像的目标状态。

具体地，骨干特征图与区域记录特征图的融合，是指将骨干特征图和区域记录特征图在通道维度上进行合并。例如，骨干特征图的维度为h×w×a，区域记录特征图的维度为h×w×b，则骨干特征图和区域记录特征图融合后得到的目标状态的维度表示为h×w×(a+b)。其中，h为骨干特征图和区域记录特征图的高度，w为骨干特征图和区域记录特征图的宽度，a和b分别为骨干特征图和区域记录特征图的通道维度。

S5，将目标状态输入至策略生成网络，获取目标图像的区域提取策略；

S6，根据区域提取策略，确定待提取的目标区域，并从目标图像中提取目标区域，目标区域由一个或多个子目标区域构成。

可以理解的，在步骤S4获取目标图像的目标状态的基础上，将目标状态输入至策略生成网络中，由策略生成网络输出目标图像的区域提取策略。根据区域提取策略，可以确定目标图像中待提取的目标区域，确定了目标区域之后，将目标区域从目标图像中提取出来。其中，目标图像可以由一个子目标区域构成，也可以为多个子目标区域构成。

在本实施例中，通过将获取的目标图像输入至骨干特征网络中，得到目标图像的骨干特征图，根据骨干特征图和获取的区域记录特征图，得到目标图像的目标状态，并将该目标状态输入至策略生成网络中，得到目标图像的区域提取策略，根据区域提取策略，确定并提取目标图像中待提取的目标区域。该方法解决了现有技术中大场景图像处理效率低且缺乏灵活性的缺陷，有效提高了大场景图像处理效率，并增加了对大场景图像区域提取的灵活性。

在上述实施例的基础上，进一步地，获取目标图像的区域提取策略，包括：获取目标图像的区域提取策略概率分布，区域提取策略概率分布包括区域位置概率分布、区域尺寸概率分布以及区域形状概率分布；根据区域位置概率分布、区域尺寸概率分布以及区域形状概率分布，确定区域提取策略。

可以理解的是，骨干特征图提供了目标图像的全局特征，区域记录特征图提供了目标图像中区域提取的历史信息，可以有效避免从目标图像中提取重复的提取。根据骨干特征图和区域记录特征图得到目标图像的目标状态，策略生成网络以目标图像的目标状态作为输入，输出目标图像的区域提取策略。

获取目标图像的区域提取策略，具体地，包括获取目标图像的区域提取策略概率分布，其中，区域提取策略概率分布包括区域位置概率分布、区域尺寸概率分布以及区域形状概率分布。根据区域位置概率分布、区域尺寸概率分布以及区域形状概率分布，便可以确定区域提取策略。

换言之，目标图像中一个区域的提取解耦为三个方面，即区域的位置、区域的尺寸以及区域的形状。结合这三方面的因素可以唯一确定一个区域。具体通过生成目标图像的区域位置概率分布、区域尺寸概率分布以及区域形状概率分布，利用argmax激活函数分别对这三项概率分布进行处理，即可生成相应的目标区域的区域位置、区域尺寸和区域形状，从而得到具体的区域提取策略，具体公式如下：

其中，a_f为目标区域的区域位置，a_s为目标区域的区域尺寸，a_r为目标区域的区域形状，p_f为目标区域的区域位置概率分布，p_s为目标区域的区域尺寸概率分布，p_r为目标区域的区域形状概率分布。

进一步地，p_f为区域位置概率分布图，其维度为w×h，区域位置概率分布图上每一个位置的值代表该区域位置的概率。p_s为区域尺寸概率分布图，其维度为w×h×n_s，n_s为离散的候选尺寸数量。p_r为区域形状概率分布图，其维度为w×h×n_s×n_r，n_r为离散的候选形状数量。

通过上述公式可以看出，在得到目标区域的区域位置概率分布、区域尺寸概率分布以及区域形状概率分布后，获取目标区域的区域位置、区域尺寸以及区域形状是依次递进的。

具体地，在得到目标图像的区域位置概率分布的基础上，通过argmax激活函数对区域位置概率分布进行处理，选取其中区域位置概率最大的区域位置；在选定区域位置的基础上，通过argmax激活函数对尺寸概率分布进行处理，选取其中区域尺寸概率最大的区域尺寸；在选定区域位置和区域尺寸的基础上，通过argmax激活函数对形状概率分布进行处理，选取其中区域形状概率最大的区域形状。

根据确定的区域位置、区域尺寸和区域形状，能够在目标图像中确定唯一的目标区域。

在一个具体的实施例中，首先，根据区域位置概率分布p_f采样目标区域的区域位置，即w×h维的特征图上的一个位置；其次，在区域尺寸概率分布图对应的位置上对区域尺寸进行采样，即1×1×n_s维的候选尺寸中进行采样，对应了条件概率分布p_s(a_s丨a_f)；最后，在区域形状概率分布图上对区域形状进行采样，即1×1×1×n_r维的候选形状中进行采样，对应了条件概率分布p_r(a_r丨a_f,a_s)，最终通过分层采样得到整个提取区域的完整描述。

在本实施例中，通过获取目标图像的区域位置概率分布、区域尺寸概率分布以及区域形状概率分布，并根据区域位置概率分布、区域尺寸概率分布以及区域形状概率分布，获取区域提取策略，从而根据区域提取策略，确定并提取目标图像中待提取的目标区域，解决了现有技术中大场景图像处理效率低且缺乏灵活性的缺陷，有效提高了大场景图像处理效率，并增加了对大场景图像区域提取的灵活性。

在上述实施例的基础上，进一步地，多次执行前述步骤S3-S6，具体地，通过强化学习序列化建模的方式实现目标区域中每一个子目标区域的提取，其中，强化学习序列化建模包括执行序列化建模操作。每执行一次序列化建模操作，就会提取一个子目标区域，当且仅当子目标区域的数量达到预设阈值时，便可以停止执行序列化建模操作。通过执行序列化建模操作而提取的多个子目标区域，构成目标区域，从而实现目标图像中目标区域的提取。其中，预设阈值可以根据实际情况进行设置。

每执行一次序列化建模操作，提取一个子目标区域，包括：获取上一次提取的历史区域，将历史区域在区域记录特征图中进行记录，得到更新的区域记录特征图；根据骨干特征图与更新的区域记录特征图，得到目标图像的当前状态；将当前状态输入至策略生成网络，获取子区域提取策略；子区域提取策略包含于区域提取策略；根据子区域提取策略，提取子目标区域。

可以理解的是，在上一次从目标图像中获取一个子目标区域之后，将这个子目标区域记为历史区域，并在区域记录特征图中记录这个历史区域，以表明该历史区域已被提取过，避免后续重复提取同一区域。通过在区域记录特征图中记录历史区域，得到更新的区域记录特征图。将目标图像的骨干特征图与更新的区域记录特征图相融合，得到目标图像新的状态特征，即目标图像的当前状态。将当前状态输入至策略生成网络中，可获取子区域提取策略。根据子区域提取策略，可以得到子目标区域，并对其进行提取。

需要说明的是，子区域提取策略包含于区域提取策略中。类似地，获取子区域提取策略，包括获取目标图像的子区域提取策略概率分布，其中，子区域提取策略概率分布包括子区域位置概率分布、子区域尺寸概率分布以及子区域形状概率分布。根据子区域位置概率分布、子区域尺寸概率分布以及子区域形状概率分布，便可以确定子区域提取策略。

一个子目标区域的提取解耦为三个方面，即子区域的位置、子区域的尺寸以及子区域的形状。结合这三方面的因素可以唯一确定一个子目标区域。具体通过生成目标图像的子区域位置概率分布、子区域尺寸概率分布以及子区域形状概率分布，利用argmax激活函数分别对这三项概率分布进行处理，即可生成相应的子目标区域的子区域位置、子区域尺寸和子区域形状，从而得到具体的子区域提取策略。

还需要说明的是，通过强化学习将一个序列化过程建模为一个马尔科夫决策过程，主要包括状态、策略、行为以及奖励，状态描述了当前的决策环境信息，为策略提供输入，状态具有马尔可夫性，即当前状态与过去状态是条件独立的。策略根据当前状态指导行为的选取，产生一个特定的行为，做出行为后，得到与该行为对应的奖励，同时，当前状态根据采取的行为，转换到下一个状态。

图2示出了本发明所提供的基于强化学习序列化建模的子目标区域提取的示意图，进一步阐述了图1中目标区域包括的子目标区域的具体提取过程。如图2所示，基于区域记录特征图和骨干特征图，得到目标图像的当前状态。将当前状态输入至策略生成网络中，即可获取子区域提取策略，该子区域提取策略包括子区域位置、子区域尺寸以及子区域形状。基于子区域提取策略，从目标图像中提取出子目标区域。

策略生成网络基于输入的当前状态，输出子区域提取策略，根据子区域提取策略对子目标区域进行提取的这一行为，使得策略生成网络从决策环境处获得相应的奖励。在提取子目标区域的基础上，将这一子目标区域更新至区域记录特征图中，以根据骨干特征图和更新的区域记录特征图再一次进行下一子目标区域的提取。不断更新区域记录特征图，得到新的状态，获取新的子区域提取策略，提取新的子目标区域，循环往复，直至子目标区域的提取数量达到预设阈值，停止更新。

在本实施例中，通过强化学习序列化建模的方式实现目标区域中每一个子目标区域的提取，具体地，通过不断更新区域记录特征图，根据更新的区域记录特征图和骨干特征图，得到目标图像的当前状态，策略生成网络以当前状态作为输入，输出对子目标区域进行提取的子区域提取策略，完成目标区域所包括的多个子目标区域的提取，从而实现目标图像的目标区域的提取，解决了现有技术中大场景图像处理效率低且缺乏灵活性的缺陷，有效提高了大场景图像处理效率，并增加了对大场景图像区域提取的灵活性。

在上述实施例的基础上，进一步地，确定待提取的目标区域，并从目标图像中提取目标区域，之后包括：对目标区域进行自适应动态聚焦处理，得到预处理图像；将预处理图像输入至感知融合网络，获取感知融合结果。

需要说明的是，现有图像处理技术无法适应大场景图像目标分布差异的问题，具体地，在采集大场景视频的过程中，由于视角的动态变化，图像中目标对象的尺寸和位置的分布差异较大，目前基于深度学习的图像处理方法难以适应目标对象尺寸和位置分布差异变化大的问题，对于极端尺寸的目标对象的处理感知能力有限，缺乏自适应动态聚焦的机制。其中，目标对象为目标图像中需要重点关注的对象。

考虑及此，本实施例借鉴视觉认知规律，针对不同区域的尺寸和位置分布的特点，进行自适应动态聚焦，动态调整尺寸。具体地，在获取目标区域的基础上，对目标区域进行自适应动态聚焦处理，得到预处理图像；将预处理图像输入到感知融合网络中，即可得到感知融合结果。

其中，自适应动态聚焦处理是指根据提取的目标区域的不同特点，对目标区域进行自动应放大或缩小的操作。

例如，若目标区域中包含任务关注的目标对象，且目标对象尺寸较小，则将小目标对象密集的区域进行自适应放大，即模拟人类聚焦的过程。若目标区域中包含任务关注的目标对象，且目标对象尺寸较大，则将大目标对象主导的区域进行动态缩小，即模拟人类由近及远观察整体的过程。

感知融合网络包括感知处理和融合处理两个部分，其中，感知处理部分是对进行自适应动态聚焦处理后得到的预处理图像进行感知处理，得到感知结果，具体的感知方法可根据实际情况确定。例如，在一个具体的实施例中，感知处理为目标检测或实例分割。目标检测是指在目标区域中检测到目标对象，并在目标区域中采用矩形框将目标对象框出。实例分割则是将目标对象的像素从目标区域中分割出来。

需要说明的是，目标区域包含多个子目标区域，感知处理是针对目标区域中每个子目标区域进行的。

融合处理部分用于将感知处理得到的感知结果进行融合处理，一方面，因为每个子目标区域之间可能存在重叠部分，这就需要对重复的感知结果进行融合处理。另一方面，目标区域在经过自适应动态聚焦处理后，需要进行还原，以对应原始的目标图像中相应的位置，即将目标区域中各子目标区域的感知结果整合至原始的目标图像中，得到完整得到感知融合结果。

图3示出了本发明所提供的大场景图像的区域提取、自适应动态聚焦以及感知融合处理的流程示意图，在图1提取目标区域的基础上，进一步描述了对提取的目标区域进行自适应动态聚焦处理和感知融合处理的过程。如图3所示，将获取的目标图像输入到骨干特征网络中，得到目标对象的骨干特征图，通过不断更新的区域记录特征图与骨干特征图的融合，得到更新的目标图像的当前状态，将当前状态输入至策略生成网络中，便可得到区域提取策略，从而根据区域提取策略，对目标区域进行提取。提取目标区域之后，对目标区域进行自适应动态聚焦处理，得到预处理图像，最后，将预处理图像输入到感知融合网络中，得到感知融合结果。

在本实施例中，通过对提取的目标区域进行自适应动态聚焦处理，得到预处理图像，并将预处理图像输入至感知融合网络中，以获得感知融合结果，通过针对性地处理分析目标区域，有效提高了大场景图像分析的准确率。

在上述实施例的基础上，进一步地，该大场景的区域提取方法还包括：对骨干特征网络、策略生成网络以及感知融合网络进行训练，训练过程中采用梯度下降算法进行网络优化。

可以理解的是，将目标图像输入至骨干特征网络中，得到目标图像的骨干特征图；将目标状态输入至策略生成网络中，可获取目标图像的区域提取策略；将经过自适应动态聚焦处理得到的预处理图像输入至感知融合网络，可获取感知融合结果。

为了使得通过骨干特征网络、策略生成网络以及感知融合网络得到的骨干特征图、区域提取策略以及感知融合结果更为准确，需要对骨干特征网络、策略生成网络以及感知融合网络进行训练，其中，在训练过程中采用梯度下降算法对网络进行优化。

在本实施例中，训练分为两个阶段：目标区域提取阶段和感知融合阶段。在目标区域提取阶段，根据设定的奖励值计算方式独立地进行网络优化。当目标区域提取阶段的训练达到预定目标时，则进入感知融合阶段的训练。在感知融合阶段的训练中，目标区域提取阶段和感知融合阶段的训练同时进行，即目标区域阶段和感知融合阶段联合训练。

具体地，图4示出了本发明所提供的目标区域提取阶段的训练示意图，进一步描述了对图1中的骨干特征网络和策略生成网络进行训练的过程。如图4所示，基于骨干特征网络获取目标图像的骨干特征图，基于骨干特征图和更新的区域记录特征图获取目标图像的目标状态，基于目标状态获取目标图像的区域提取策略，基于区域提取策略，生成目标图像中待提取的目标区域，从目标图像中提取目标区域，并基于提取的目标区域，计算目标区域对应的奖励值，基于该奖励值进行反向梯度反向回传，更新骨干特征网络和策略生成网络的参数。

可以理解的是，提取的目标区域中各子目标区域具有不同的质量，需要奖励值对该区域的质量进行评估，进而反馈骨干特征网络和策略生成网络进行网络优化。优化的目标是序列生成的目标区域获得的奖励值最大化。奖励值的设计直接影响相应网络学习的方向，可根据实际情况进行确定。

在一个具体的实施例中，将目标区域中所涵盖的目标对象的召回率作为奖励值，以引导策略生成网络生成高召回率的目标区域。召回率是指提取的各子目标区域中包括目标对象的概率。

策略梯度算法是强化学习的一种优化方法，其优化目标是最大化序列的奖励值期望，即

其中，Θ为模块参数，T为子目标区域的提取总个数，r_t为第t个提取的子目标区域所获得的奖励值。根据数学推导，可得到梯度优化公式如下：

其中，Θ_k为第k次迭代骨干特征网络或策略生成网络的参数更新值，Θ_k+1为第k+1次迭代骨干特征网络或策略生成网络的参数更新值。λ为骨干特征网络或策略生成网络的学习率，p_Θ(a_t|s_t)为在第t次生成过程中，状态s_t下采取行为a_t的概率，具体地，p_Θ(a_t|s_t)的计算公式如下：

p_Θ(a_t|s_t)＝p_f(a_f)×p_s(a_s|a_f)×p_r(a_r|a_f,a_s)。

图5示出了本发明所提供的感知融合阶段的训练示意图，进一步描述了对图1中的感知融合网络进行训练的过程。如图5所示，对提取的目标区域进行自适应动态聚焦处理，并将自适应动态聚焦处理得到的预处理图像输入至感知融合网络，获取感知融合结果，计算感知结果的损失，通过梯度下降的方式对感知模块进行梯度回传，优化感知融合网络的参数。

感知融合网络的损失可根据感知任务进行设计。例如，常见的目标检测任务，其感知损失分为两部分，一部分为分类损失，通常采用交叉熵损失函数进行计算；另一部分为定位损失，通常采用L1范数作为定位的回归损失函数。利用感知融合结果的损失直接优化感知融合网络的参数。

具体地，将感知结果加入奖励值的计算，得到感知融合阶段的综合奖励值。利用感知融合结果可以进一步优化目标区域提取阶段的相应网络的性能。通过联合训练，增进目标区域提取和自适应动态聚焦感知之间的协作。计算奖励值时，考虑当前区域提取策略产生的结果对最终感知融合的影响，将感知融合结果作为奖励值的一部分，可以优化目标区域提取阶段适应感知融合阶段的特点，进一步提高动态聚焦的自适应性。

感知融合结果的方式可以根据工程需要灵活确定。例如，将感知融合结果的预测置信度作为目标区域质量的衡量。其中预测置信度低的目标区域，代表感知融合难度大的区域，需要进一步提取这些区域计算感知损失的方式训练感知融合网络，提高感知融合效果。

在本实施例中，通过对骨干特征网络、策略生成网络以及感知融合网络进行训练，并在训练过程中采用梯度下降算法进行网络优化，有效提升了骨干特征网络、策略生成网络以及感知融合网络的表达效果，有效提高了大场景图像处理效率，并提高了大场景图像分析的准确率。

图6示出了本发明所提供的大场景图像的区域提取装置的结构示意图。如图6所示，该区域提取装置包括：目标图像获取模块601，用于获取目标图像；骨干特征获取模块602，用于将目标图像输入至骨干特征网络，得到目标图像的骨干特征图；区域记录获取模块603，用于获取目标图像的区域记录特征图；目标状态获取模块604，用于根据骨干特征图和区域记录特征图，得到目标图像的目标状态；提取策略获取模块605，用于将目标状态输入至策略生成网络，获取目标图像的区域提取策略；目标区域提取模块606，用于根据区域提取策略，确定待提取的目标区域，并从目标图像中提取目标区域，目标区域由一个或多个子目标区域构成。

本发明所提供的大场景图像的区域提取装置，与上文描述的大场景图像的区域提取方法可相互对应参照，在此不再赘述。

在本实施例中，通过骨干特征获取模块602将目标图像获取模块601获取的目标图像输入至骨干特征网络中，得到目标图像的骨干特征图，目标状态获取模块604根据骨干特征图和区域记录获取模块603获取的区域记录特征图，得到目标图像的目标状态，并通过提取策略获取模块605将该目标状态输入至策略生成网络中，得到目标图像的区域提取策略，目标区域提取模块606根据区域提取策略，确定并提取目标图像中待提取的目标区域。该装置解决了现有技术中大场景图像处理效率低且缺乏灵活性的缺陷，有效提高了大场景图像处理效率，并增加了对大场景图像区域提取的灵活性。

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行大场景图像的区域提取方法，该方法包括：S1，获取目标图像；S2，将所述目标图像输入至骨干特征网络，得到所述目标图像的骨干特征图；S3，获取所述目标图像的区域记录特征图；S4，根据所述骨干特征图和所述区域记录特征图，得到所述目标图像的目标状态；S5，将所述目标状态输入至策略生成网络，获取所述目标图像的区域提取策略；S6，根据所述区域提取策略，确定待提取的目标区域，并从所述目标图像中提取所述目标区域，所述目标区域由一个或多个子目标区域构成。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的大场景图像的区域提取方法，该方法包括：S1，获取目标图像；S2，将所述目标图像输入至骨干特征网络，得到所述目标图像的骨干特征图；S3，获取所述目标图像的区域记录特征图；S4，根据所述骨干特征图和所述区域记录特征图，得到所述目标图像的目标状态；S5，将所述目标状态输入至策略生成网络，获取所述目标图像的区域提取策略；S6，根据所述区域提取策略，确定待提取的目标区域，并从所述目标图像中提取所述目标区域，所述目标区域由一个或多个子目标区域构成。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的大场景图像的区域提取方法，该方法包括：S1，获取目标图像；S2，将所述目标图像输入至骨干特征网络，得到所述目标图像的骨干特征图；S3，获取所述目标图像的区域记录特征图；S4，根据所述骨干特征图和所述区域记录特征图，得到所述目标图像的目标状态；S5，将所述目标状态输入至策略生成网络，获取所述目标图像的区域提取策略；S6，根据所述区域提取策略，确定待提取的目标区域，并从所述目标图像中提取所述目标区域，所述目标区域由一个或多个子目标区域构成。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种大场景图像的区域提取方法，其特征在于，包括：

S1，获取目标图像；

S2，将所述目标图像输入至骨干特征网络，得到所述目标图像的骨干特征图；

S3，获取所述目标图像的区域记录特征图；

S4，根据所述骨干特征图和所述区域记录特征图，得到所述目标图像的目标状态；

S5，将所述目标状态输入至策略生成网络，获取所述目标图像的区域提取策略；

S6，根据所述区域提取策略，确定待提取的目标区域，并从所述目标图像中提取所述目标区域，所述目标区域由一个或多个子目标区域构成。

2.根据权利要求1所述的大场景图像的区域提取方法，其特征在于，所述获取所述目标图像的区域提取策略，包括：

获取所述目标图像的区域提取策略概率分布，所述区域提取策略概率分布包括区域位置概率分布、区域尺寸概率分布以及区域形状概率分布；

根据所述区域位置概率分布、区域尺寸概率分布以及区域形状概率分布，确定区域提取策略。

3.根据权利要求1所述的大场景图像的区域提取方法，其特征在于，步骤S3-S6包括：

通过强化学习序列化建模的方式实现所述目标区域中每一个子目标区域的提取，所述强化学习序列化建模包括执行序列化建模操作；

每执行一次所述序列化建模操作，提取一个所述子目标区域；

当所述子目标区域的数量达到预设阈值时，停止执行所述序列化建模操作，并根据多个所述子目标区域，提取所述目标区域。

4.根据权利要求3所述的大场景图像的区域提取方法，其特征在于，所述每执行一次所述序列化建模操作，提取一个所述子目标区域，包括：

获取上一次提取的历史区域，将所述历史区域在所述区域记录特征图中进行记录，得到更新的区域记录特征图；

根据所述骨干特征图与更新的区域记录特征图，得到所述目标图像的当前状态；

将所述当前状态输入至所述策略生成网络，获取子区域提取策略；所述子区域提取策略包含于所述区域提取策略；

根据所述子区域提取策略，提取所述子目标区域。

5.根据权利要求1所述的大场景图像的区域提取方法，其特征在于，所述确定待提取的目标区域，并从所述目标图像中提取所述目标区域，之后包括：

对所述目标区域进行自适应动态聚焦处理，得到预处理图像；

将所述预处理图像输入至感知融合网络，获取感知融合结果。

6.根据权利要求5任一项所述的大场景图像的区域提取方法，其特征在于，还包括：对所述骨干特征网络、所述策略生成网络以及所述感知融合网络进行训练，训练过程中采用梯度下降算法进行网络优化。

7.一种大场景图像的区域提取装置，其特征在于，包括：

目标图像获取模块，用于获取目标图像；

骨干特征获取模块，用于将所述目标图像输入至骨干特征网络，得到所述目标图像的骨干特征图；

区域记录获取模块，用于获取所述目标图像的区域记录特征图；

目标状态获取模块，用于根据所述骨干特征图和所述区域记录特征图，得到所述目标图像的目标状态；

提取策略获取模块，用于将所述目标状态输入至策略生成网络，获取所述目标图像的区域提取策略；

目标区域提取模块，用于根据所述区域提取策略，确定待提取的目标区域，并从所述目标图像中提取所述目标区域，所述目标区域由一个或多个子目标区域构成。

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述大场景图像的区域提取方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述大场景图像的区域提取方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述大场景图像的区域提取方法的步骤。