CN111723769A

CN111723769A - 用于处理图像的方法、装置、设备以及存储介质

Info

Publication number: CN111723769A
Application number: CN202010613379.9A
Authority: CN
Inventors: 章成全; 何斌
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-09-29
Anticipated expiration: 2040-06-30
Also published as: KR20220002063A; JP2022013648A; CN111723769B; EP3933674A1; JP7393374B2; US20210406548A1

Abstract

本申请公开了一种用于处理图像的方法、装置、设备以及存储介质，涉及人工智能深度学习、计算机视觉、大数据领域。具体实现方案为：获取目标视频，目标视频包括目标图像帧以及已标注目标对象的至少一个图像帧；根据至少一个图像帧中已标注目标对象，确定目标图像帧中针对目标对象的搜索区域；根据搜索区域，确定目标对象的中心位置信息；根据至少一个图像帧的标注区域以及中心位置信息，确定目标对象区域；根据目标对象区域，分割目标图像帧。本实现方式可以鲁棒地定位目标对象并提供精细的目标分割结果。

Description

用于处理图像的方法、装置、设备以及存储介质

技术领域

本申请涉及图像处理领域，具体涉及人工智能、深度学习、计算机视觉领域，尤其涉及用于处理图像的方法、装置、设备以及存储介质。

背景技术

随着智能手机和移动互联网的普及与发展，视频制作与传输的成本不断降低，视频以其丰富的表现能力在内容生成领域受到越来越多用户的青睐，简单易用的自动化视频编辑技术需求越来越大。近年来，与目标跟踪联系紧密的视频目标分割引起了越来越多的关注。但现有的目标跟踪方法往往无法提供精细的目标分割结果。

发明内容

本公开提供了一种用于处理图像的方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种用于处理图像的方法，包括：获取目标视频，目标视频包括目标图像帧以及已标注目标对象的至少一个图像帧；根据至少一个图像帧中已标注目标对象，确定目标图像帧中针对目标对象的搜索区域；根据搜索区域，确定目标对象的中心位置信息；根据至少一个图像帧的标注区域以及中心位置信息，确定目标对象区域；根据目标对象区域，分割目标图像帧。

根据本公开的另一方面，提供了一种用于处理图像的装置，包括：视频获取单元，被配置成获取目标视频，目标视频包括目标图像帧以及已标注目标对象的至少一个图像帧；搜索区域确定单元，被配置成根据至少一个图像帧中已标注目标对象，确定目标图像帧中针对目标对象的搜索区域；中心位置信息确定单元，被配置成根据搜索区域，确定目标对象的中心位置信息；目标对象区域确定单元，被配置成根据至少一个图像帧的标注区域以及中心位置信息，确定目标对象区域；分割单元，被配置成根据目标对象区域，分割目标图像帧。

根据本公开的再一方面，提供了一种用于处理图像的电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上述用于处理图像的方法。

根据本公开的又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，上述计算机指令用于使计算机执行如上述用于处理图像的方法。

根据本申请的技术解决了现有的目标跟踪方法往往无法提供精细的目标分割结果的问题，可以鲁棒地定位目标对象并提供精细的目标分割结果。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请的一个实施例可以应用于其中的示例性系统架构图；

图2是根据本申请的用于处理图像的方法的一个实施例的流程图；

图3是根据本申请的用于处理图像的方法的一个应用场景的示意图；

图4是根据本申请的用于处理图像的方法的另一个实施例的流程图；

图5是根据本申请的用于处理图像的装置的一个实施例的结构示意图；

图6是用来实现本申请实施例的用于处理图像的方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的用于处理图像的方法或用于处理图像的装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括相机101、102，网络103、服务器104和终端设备105。网络103用以在相机101、102和服务器104、终端设备105之间提供通信链路的介质。网络103可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

相机101、102可以通过网络103与服务器104、终端设备105交互，以接收或发送消息。相机101、102可以采集视频，并将采集的视频发送给服务器104或终端设备105，或者存储于本地。相机101、102可以固定在路灯杆、交通灯杆、电影拍摄支撑杆或者运动场中设置的拍摄支撑杆上，以拍摄视频或图像。

服务器104或终端设备105可以从相机101、102处获取采集的视频或图像，并对视频或图像进行处理，以跟踪并分割视频或图像中的目标对象。服务器104或终端设备105上可以安装有各种通讯客户端应用，例如图像处理类应用等。

终端设备105可以是硬件，也可以是软件。当终端设备105为硬件时，可以是各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、车载电脑、膝上型便携计算机和台式计算机等等。当终端设备105为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本申请实施例所提供的用于处理图像的方法可以由服务器104或终端设备105执行。相应地，用于处理图像的装置可以设置于服务器104或终端设备105中。

应该理解，图1中的相机、网络和、服务器和终端设备的数目仅仅是示意性的。根据实现需要，可以具有任意数目的相机、网络、服务器和终端设备。

继续参考图2，示出了根据本申请的用于处理图像的方法的一个实施例的流程200。本实施例的用于处理图像的方法，包括以下步骤：

步骤201，获取目标视频。

本实施例中，用于处理图像的执行主体(例如图1所示的终端设备104)可以通过有线连接或无线连接方式获取目标视频。目标视频可以由相机实时拍摄，也可以从其它电子设备出获取。目标视频可以包括目标图像帧以及已标注目标对象的至少一个图像帧。上述图像帧中包括了目标对象的轮廓、形态等信息。对目标对象的标注可以是对目标对象的轮廓进行标注。已标注的目标对象可以是人、车辆等等。

步骤202，根据至少一个图像帧中的已标注目标对象，确定目标图像帧中针对目标对象的搜索区域。

执行主体在得到目标视频中的目标图像帧以及已标注目标对象的至少一个图像帧后，可以根据至少一个图像帧中已标注目标对象，确定目标图像帧中针对目标对象的搜索区域。具体地，执行主体可以根据目标图像帧的前一帧中的目标对象的位置为圆心，以及目标图像帧的前两帧中目标对象的移动距离为半径得到的圆形区域可以作为目标图像帧中针对目标对象的搜索区域。例如，要确定第n个图像帧中针对目标对象的搜索区域，则根据目标对象在从第n-2个图像帧到第n-1个图像帧的移动距离L作为半径，以目标对象在第n-1个图像帧中的位置作为圆心得到的圆形区域作为目标图像帧中针对目标对象的搜索区域。

步骤203，根据搜索区域，确定目标对象的中心位置信息。

执行主体在得到目标图像帧中针对目标对象的搜索区域后，可以根据搜索区域，确定目标对象的中心位置信息。具体的，执行主体可以根据目标对象在前一帧中的中心位置信息，并根据目标对象在前两帧中的运动轨迹所反映的运动方向，预测目标对象从前一帧到目标图像帧的运动方向。具体地，例如，在该确定出的运动方向上，根据目标对象从第n-2个图像帧到第n-1个图像帧的移动距离L以及目标对象在前一帧(也就是在第n-1个图像帧)的中心位置，得到目标对象在搜索区域中的中心位置信息为在确定出的运动方向上，以目标对象在第n-1个图像帧中的中心位置为起点，移动L距离后的位置为终点，则该终点即为目标对象在搜索区域中的中心位置。

步骤204，根据目标对象所在的标注区域以及中心位置信息，确定目标对象区域。

执行主体在得到目标对象的中心位置信息后，可以根据目标对象所在的标注区域以及中心位置信息，确定目标对象区域。在该搜索区域内以上一帧的目标对象的外形轮廓尺寸为标准，在目标图像帧中以目标对象的中心位置为中心，创建与上一帧的目标对象的外形轮廓尺寸相同的目标对象外形轮廓，并将其确定为待分割的目标对象区域。

步骤205，根据目标对象区域，分割目标图像帧。

执行主体在得到目标对象区域后，可以根据目标对象区域，分割目标图像帧。具体地，执行主体可以通过目标识别或语义分割方法提取目标图像帧中的目标对象区域所指示的目标对象，从而实现对目标图像帧的分割。分割，指的是将目标对象的外形轮廓从目标图像帧中分离出来。

继续参考图3，其示出了根据本申请的用于输出信息的方法的一个应用场景的示意图。在图3的应用场景中，相机301固定在拍摄杆上，用于采集视频302。相机301所采集的视频302中包括目标图像帧即305第n帧以及已标注目标对象A的至少一个图像帧303第n-2帧、304第n-1帧。膝上型便携计算机(图中未示出)从相机301获取目标视频302后，根据303第n-2帧或304第n-1帧已标注的目标对象A，确定305第n帧中针对目标对象A的虚线围成的搜索区域D。膝上型便携计算机(图中未示出)根据搜索区域D，确定目标对象A的中心位置B的信息，并根据303第n-2帧或304第n-1帧的标注区域以及中心位置B确定目标对象区域C，根据目标对象区域C，分割305第n帧中与目标对象区域C重合的目标对象。

本实施例可以鲁棒地定位目标并提供精细的目标分割结果。

继续参考图4，其示出了根据本申请的用于处理图像的方法的另一个实施例的流程400。如图4所示，本实施例的用于处理图像的方法，可以包括以下步骤：

步骤401，获取目标视频。

步骤401的原理与步骤201的原理类似，此处不再赘述。

步骤402，根据标注区域，确定搜索区域。

本实施例中，执行主体在获取目标视频后，可以根据标注区域，确定搜索区域。具体地，执行主体可以以目标图像帧的前三帧的目标对象的移动距离之和的平均值作为搜索半径，以前一帧的目标对象的中心位置为起点，连接该起点和搜索半径，在行进方向上组成的扇形搜索区域作为在目标图像帧中的搜索区域，可以实现精准确定搜索区域，从而更精确地实现对目标对象的分割。其中，上述行进方向可以是根据前几图像帧确定的目标对象的运动方向及该运动方向之间的夹角组成的方向。

具体地，步骤402可以通过以下步骤4021～4022来确定：

步骤4021，确定目标对象的平均移动速度。

执行主体在获取目标视频中的目标图像帧以及已标注目标对象的至少一个图像帧后，可以确定目标对象的平均移动速度。示例的，执行主体将第n个图像帧作为目标图像帧，执行主体可以根据前m帧图像中，每相邻两帧的目标对象位置变化距离以及每帧的预设时间，计算得到每相邻两帧的目标移动速度，将所得到的前m帧图像中每相邻两帧的目标移动速度相加并取平均值得到前m帧图像中的目标对象的移动速度，作为第n帧图像(也就是目标图像帧)中目标对象的平均移动速度。

步骤4022，根据标注区域的位置信息以及平均移动速度，确定搜索区域。

执行主体在得到目标对象的平均移动速度后，可以根据至少一个图像帧中目标对象的位置信息以及平均移动速度，确定搜索区域。示例的，执行主体将第n个图像帧确定为目标图像帧。根据第n-1个图像帧中的目标对象的中心位置确定搜索中心，根据前n-1个图像帧中目标对象的平均移动速度确定搜索半径，将由此组成的区域确定为第n个图像帧的搜索区域。可以理解的是，第n-1个图像帧的目标对象的中心区域可以通过第1个图像帧中的已标注的目标对象确定。例如，第3个图像帧中的目标对象的中心区域可以通过第2个图像帧中的目标对象的中心区域确定，而第2个图像帧中的目标对象的中心区域可以通过第1个图像帧中的已确定的目标对象的中心区域确定，第1个图像帧中的目标对象的特征、位置和轮廓可以通过人工标注。其中，目标对象的特征可以是低层特征，例如可以是颜色、边缘等特征，也可以是高层特征，例如，可以是纹理、比较有区别性的特征(例如牛头、狗头等)、具有辨别性的关键特征(例如人、动物等)。

本实施例中通过根据至少一个图像帧中目标对象的位置信息以及平均移动速度确定搜索区域，可以使得对搜索区域的确定更准确，提高对目标对象跟踪的准确性。

步骤403，根据搜索区域，确定目标对象的中心位置信息。

步骤403与步骤203的原理类似，此处不再赘述。

具体地，步骤403可以通过以下步骤4031～4033来确定：

步骤4031，提取所述搜索区域的高层特征。

执行主体在得到搜索区域后，可以提取搜索区域的高层特征。具体地，高层特征例如可以是纹理特征，比如一些网格纹理；可以是比较有区别性的特征，例如可以是狗头、人头、牛头等；可以是具有辨别性的关键特征，例如可以是人、动物等。

步骤4032，对所提取的高层特征进行滤波。

执行主体在提取搜索区域的高层特征后，可以对所提取的高层特征进行滤波。具体地，对所提取的高层特征进行滤波可以更改或增强所提取的特征，通过滤波可以提取一些特别重要的特征，例如高层特征的纹理、类型等，或者去掉不重要的特征，例如浅层特征中的颜色、轮廓等特征。本实施例中的滤波，可以是根据至少一个图像帧的标注区域中的中心位置的高层特征提取目标图像帧的搜索区域中与该高层特征相同或特别相近的高层特征。

步骤4033，根据滤波后的特征，确定目标对象的中心位置信息。

执行主体在对所提取的高层特征进行滤波后，可以根据滤波后的特征，确定目标对象的中心位置信息。具体地，执行主体可以将通过滤波得到的与至少一个图像帧的标注区域中的中心位置的高层特征相同或特别相近的高层特征在搜索区域中所处的位置确定为目标对象的中心位置。

本实施例通过对提取的高层特征进行滤波可以增强所提取的高层特征，从而提高利用高层特征确定目标对象的中心位置信息的准确性。

步骤404，根据至少一个图像帧的标注区域以及中心位置信息，确定目标对象区域。

步骤404的原理与步骤204的原理类似，此处不再赘述。

具体地，步骤404可以通过以下步骤4041～4043来确定：

步骤4041，根据中心位置信息以及标注区域，确定初始区域。

执行主体在得到目标对象的中心位置信息后，可以根据中心位置信息以及标注区域，确定初始区域。具体地，执行主体可以将目标对象的中心位置与至少一个图像帧中对目标对象标注的轮廓特征组成初始区域。当然，执行主体也可以将任意形状大小的包围目标对象的中心位置的区域确定为初始区域，本申请对初始区域的形状以及大小不做具体限定。

步骤4042，确定初始区域的第一特征以及至少一个图像帧的标注区域的第二特征。

执行主体在得到初始区域后，可以确定初始区域的第一特征以及至少一个图像帧的标注区域的第二特征。具体地，执行主体在得到初始区域后，可以提取初始区域中的高层特征作为初始区域的第一特征，提取至少一个图像帧的标注区域的高层特征作为至少一个图像帧的标注区域的第二特征。当然，执行主体在得到初始区域后，还可以提取初始区域中的浅层特征作为初始区域的第一特征，提取至少一个图像帧的标注区域的浅层特征作为至少一个图像帧的标注区域的第二特征。具体地，高层特征是比较有区别性和比较有辨别性的特征，例如，可以是纹理特征，比如一些网格纹理、猫头、狗头、人、动物等特征。低层特征，例如可以是颜色、轮廓等特征。

具体地，步骤4042还可以通过以下步骤40421～40423来确定：

步骤40421，分别提取初始区域和至少一个图像帧的标注区域的低层特征和高层特征。

执行主体可以通过预训练的残差神经网络ResNet50提取初始区域和至少一个图像帧的标注区域的低层特征和高层特征。预训练的残差神经网络ResNet50可以提取更深层次的特征，从而使得对于目标对象的中心位置的确定更准确。具体地，低层特征语义信息比较少，但是底层特征对应的目标的位置准确；高层特征语义信息比较丰富，但是高层特征对应的目标的位置比较粗略。高层特征，表征的是细节，例如，可以是纹理特征，比如一些网格纹理、猫头、狗头、人、动物等特征。低层特征，表征的是语义特征，例如可以是颜色、轮廓等特征。

步骤40422，融合初始区域的低层特征和高层特征，得到第一特征。

执行主体可以通过FPN(feature pyramid networks)来融合初始区域的低层特征和高层特征，得到第一特征。FPN(feature pyramid networks)是一种利用常规CNN模型来高效提取图片中各维度特征的方法。FPN(Feature Pyramid Network)算法同时利用低层特征高分辨率和高层特征的高语义信息，通过融合这些不同层的特征达到分割的效果。并且分割是在每个融合后的特征层上单独进行的。具体地：记输入的初始区域中的高层特征为x₁,维度大小为h₁×w₁×c₁。输入的初始区域中的低层特征为x₂,维度大小为h₂×w₂×c₂，其中h₁≤h₂，w₁≤w₂。首先通过向量卷积运算Conv1将高层特征映射到共同空间,然后通过双线性插值将高层特征的空间维度插值到与低层特征相同，再通过向量卷积运算Conv2将低层特征映射到共同空间，最后两个特征相加，得到第一特征。即第一特征x＝BilinearUpsample(Conv1(x₁))+Conv2(x₂)。

步骤40423，融合至少一个图像帧的标注区域的低层特征和高层特征，得到第二特征。

执行主体可以通过FPN(feature pyramid networks)来融合至少一个图像帧的标注区域的低层特征和高层特征，得到第二特征。FPN(featurepyramid networks)是一种利用常规CNN模型来高效提取图片中各维度特征的方法。FPN(Feature Pyramid Network)算法同时利用低层特征高分辨率和高层特征的高语义信息，通过融合这些不同层的特征达到分割的效果。并且分割是在每个融合后的特征层上单独进行的。具体地：记输入的至少一个图像帧的标注区域中的高层特征为x₃,维度大小为h₃×w₃×c₃。输入的至少一个图像帧的标注区域中的低层特征为x₄,维度大小为h₄×w₄×c₄，其中h₃≤h₄，w₃≤w₄。首先通过向量卷积运算Conv1将高层特征映射到共同空间,然后通过双线性插值将高层特征的空间维度插值到与低层特征相同，再通过向量卷积运算Conv2将低层特征映射到共同空间，最后两个特征相加，得到第二特征。即第二特征x＝BilinearUpsample(Conv1(x₃))+Conv2(x₄)。

本实施例中通过融合低层特征和高层特征可以增强执行主体预测目标对象位置及轮廓的回归能力。并且执行主体的对目标对象位置及轮廓的预测可以是在每个融合后的高层特征和底层特征的特征层上单独进行的，互不干扰，提高执行主体预测的准确性。

步骤4043，根据第一特征以及第二特征，确定目标对象区域。

执行主体在得到第一特征和第二特征后，可以根据第一特征以及第二特征，确定目标对象区域。具体地，执行主体根据第一特征和第二特征重叠的情况，确定移动梯度的方向，从而确定初始区域的移动方向和移动步长，直至融合得到的第一特征和第二特征完全一致，将此时的初始区域确定为目标对象区域。梯度的方向，指的是使得第一特征和第二特征重合的程度更大的方向。

本实施例通过将初始区域的第一特征以及至少一个图像帧的标注区域的第二特征进行对比，可以提高对确定目标对象所在区域的准确性。

具体地，步骤4043可以通过以下步骤40431～40432来确定：

步骤40431，确定第一特征以及第二特征的差异。

第二特征中包含目标对象所有的特征。执行主体在得到融合后的第一特征和第二特征后，对初始区域的第一特征和至少一个图像帧的标注区域第二特征进行比较，得到第二特征中存在而第一特征中不存在的特征。例如，在第二特征中存在颜色、轮廓、纹理，而在第一特征中只有轮廓和颜色，而没有纹理，则纹理即为第一特征和第二特征的差异。

步骤40432，根据差异以及预设条件，更新初始区域，将更新后的初始区域作为目标对象区域。

执行主体在得到第一特征和第二特征的差异后，可以通过交叠比预测网络预测初始区域与至少一个图像帧的标注区域的交叠比，该交叠比反映了第一特征和第二特征之间的差异，执行主体根据差异以及预设条件，更新初始区域，将更新后的初始区域作为目标对象区域。第一特征和第二特征的差异之处可以反映初始区域与至少一个图像帧的标注区域的交叠比的大小，差异越大，交叠比越小，差异越小交叠比越大。具体地，交叠比预测网络根据第一特征和第二特征的差异所处的位置，例如纹理所处的位置得到初始区域与至少一个图像帧的标注区域的梯度，该梯度的方向为使交叠比增大的方向。执行主体使初始区域沿着梯度所指示的方向移动，并实时获取初始区域与至少一个图像帧的标注区域的第一特征与第二特征之间的交叠比，在交叠比不符合预设条件时(预设条件可以为交叠比达到98％或99％，本申请对预设条件不做具体限定)，由交叠比预测网络实时计算该获取的交叠比的梯度，执行主体根据该梯度再使初始区域沿着该梯度的方向移动，并实时更新初始区域的位置和轮廓等信息，直到执行主体获取到的交叠比最大化，将此时更新后的初始区域作为目标对象区域。

本实施例通过比较初始区域的特征和至少一个图像帧的标注区域的特征，从而对初始区域进行位置和轮廓的调节，使得初始区域中的特征与至少一个图像帧的标注区域的特征的交叠最大，从而可以准确地确定出目标对象区域。

步骤405，根据目标对象区域，分割目标图像帧。

执行主体在得到目标对象区域后，可以根据目标对象区域，分割目标图像帧。具体地，目标对象区域为矩形区域，在得到该矩形区域之后，根据矩形区域的长和宽确定包围该矩形区域的正方形图像区域。示例的，记矩形区域的长和宽分别为x,y。则正方形的边长为

其中α为预设的搜索范围参数，本申请对此不做具体限定。

在得到包围该矩形区域的正方形图像区域后，对该正方形图像区域中的目标对象的轮廓进行分割，从而实现对目标图像帧的分割。

步骤405的原理与步骤205的原理类似，此处不再赘述。

具体地，步骤405可以通过以下步骤4051～4054来确定：

步骤4051，提取至少一个图像帧中目标对象的第三特征。

执行主体通过残差神经网络ResNet50提取目标图像帧之前的至少一个图像帧中的目标对象的高层特征、底层特征和/或高层和底层融合后的特征作为第三特征。第三特征，例如可以是轮廓特征、颜色特征、纹理特征、长度特征、类别特征。

步骤4052，提取目标对象区域中目标对象的第四特征。

在得到步骤405中的正方形图像区域后，执行主体通过残差神经网络ResNet50提取包围目标对象区域的正方形图像区域中的高层特征、底层特征和/或高层和底层融合后的特征作为第四特征。第四特征，例如可以是轮廓特征、颜色特征、纹理特征、长度特征、面积特征、体积特征、类别特征。

步骤4053，确定第四特征中与第三特征匹配的第五特征。

执行主体将得到的第四特征与第三特征进行对比，确定第四特征中与第四特征匹配的第五特征。根据步骤4052和步骤4053所列举的第三特征和第四特征，可以确定第五特征为轮廓特征、颜色特征、纹理特征、长度特征、类别特征。

步骤4054，根据第五特征，分割目标图像帧。

第五特征可以用于表征目标对象的轮廓、颜色、纹理、长度、类别，执行主体根据所指示的轮廓、颜色、纹理、长度、类别，可以精确分割目标图像帧中的目标对象。

具体地，在该实施例中，执行主体可以利用孪生网络结构的分割网络在包围目标对象区域的正方形图像区域中根据与第四特征对应的第五特征确定目标对象的轮廓、颜色、纹理、长度、类别，从而可以实现准确对目标对象进行分割。具体地，孪生网络是有两个分支的网络，第一个分支提取至少一个图像帧中目标对象的第三特征，并根据第三特征得到该孪生网络对应的模型参数，第二个分支提取目标对象区域中目标对象的第四特征，并根据第三特征和对应的模型参数提取第四特征中与第三特征匹配的第五特征，并根据第五特征对目标图像帧中的目标对象进行精准的分割，提高了对目标对象进行分割的准确性。

进一步参考图5，作为对上述各图所示方法的实现，本申请提供了一种用于处理图像的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例的用于处理图像的装置500包括：视频获取单元501、搜索区域确定单元502、中心位置信息确定单元503、目标对象区域确定单元504和分割单元505。

视频获取单元501，被配置成获取目标视频，目标视频包括目标图像帧以及已标注目标对象的至少一个图像帧。

搜索区域确定单元502，被配置成根据至少一个图像帧中的已标注目标对象，确定目标图像帧中针对目标对象的搜索区域。

中心位置信息确定单元503，被配置成根据搜索区域，确定目标对象的中心位置信息。

目标对象区域确定单元504，被配置成根据目标对象所在的标注区域以及中心位置信息，确定目标对象区域。

分割单元505，被配置成根据目标对象区域，分割目标图像帧。

在本实施例的一些可选的实现方式中，搜索区域确定单元502进一步被配置成：根据标注区域，确定搜索区域。

在本实施例的一些可选的实现方式中，搜索区域确定单元502进一步被配置成：确定目标对象的平均移动速度；根据标注区域的位置信息以及平均移动速度，确定搜索区域。

在本实施例的一些可选的实现方式中，中心位置信息确定单元503进一步被配置成：提取搜索区域的高层特征；对所提取的高层特征进行滤波；根据滤波后的特征，确定目标对象的中心位置信息。

在本实施例的一些可选的实现方式中，目标对象区域确定单元504进一步被配置成：根据中心位置信息以及标注区域，确定初始区域；确定初始区域的第一特征以及至少一个图像帧的标注区域的第二特征；根据第一特征以及第二特征，确定目标对象区域。

在本实施例的一些可选的实现方式中，目标对象区域确定单元504进一步被配置成：分别提取初始区域和至少一个图像帧的标注区域的低层特征和高层特征；融合初始区域的低层特征和高层特征，得到第一特征；融合至少一个图像帧的标注区域的低层特征和高层特征，得到第二特征。

在本实施例的一些可选的实现方式中，目标对象区域确定单元504进一步被配置成：确定第一特征以及第二特征的差异；根据差异以及预设条件，更新初始区域，将更新后的初始区域作为目标对象区域。

在本实施例的一些可选的实现方式中，分割单元505进一步被配置成：提取至少一个图像帧中目标对象的第三特征；提取目标对象区域中目标对象的第四特征；确定第四特征中与第三特征匹配的第五特征；根据第五特征，分割目标图像帧。

应当理解，用于处理图像的装置500中记载的单元501至单元505分别与参考图2中描述的方法中的各个步骤相对应。由此，上文针对用于处理图像的方法描述的操作和特征同样适用于装置500及其中包含的单元，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图6所示，是根据本申请实施例的用于处理图像的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线605互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线605与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的用于处理图像的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的用于处理图像的方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及单元，如本申请实施例中的用于处理图像的方法对应的程序指令/单元(例如，附图5所示的视频获取单元501、搜索区域确定单元502、中心位置信息确定单元503、目标对象区域确定单元504和分割单元505)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的用于处理图像的方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据用于处理图像的方法的电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至用于处理图像的方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

用于处理图像的方法的电子设备还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线605或者其他方式连接，图6中以通过总线605连接为例。

输入装置603可接收输入的数字或字符信息，以及产生与用于处理图像的方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，可以鲁棒地定位目标对象并提供精细的目标分割结果。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种用于处理图像的方法，包括：

获取目标视频，所述目标视频包括目标图像帧以及已标注目标对象的至少一个图像帧；

根据所述至少一个图像帧中的已标注目标对象，确定所述目标图像帧中针对所述目标对象的搜索区域；

根据所述搜索区域，确定所述目标对象的中心位置信息；

根据所述目标对象所在的标注区域以及所述中心位置信息，确定目标对象区域；

根据所述目标对象区域，分割所述目标图像帧。

2.根据权利要求1所述的方法，其中，所述根据所述至少一个图像帧中已标注目标对象，确定所述目标图像帧中针对所述目标对象的搜索区域，包括：

根据所述标注区域，确定所述搜索区域。

3.根据权利要求2所述的方法，其中，所述根据所述至少一个图像帧中所述目标对象的标注区域，确定所述搜索区域，包括：

确定目标对象的平均移动速度；

根据所述标注区域的位置信息以及所述平均移动速度，确定所述搜索区域。

4.根据权利要求1所述的方法，其中，所述根据所述搜索区域，确定所述目标对象的中心位置信息，包括：

提取所述搜索区域的高层特征；

对所提取的高层特征进行滤波；

根据滤波后的特征，确定所述目标对象的中心位置信息。

5.根据权利要求1所述的方法，其中，所述根据所述至少一个图像帧的标注区域以及所述中心位置信息，确定目标对象区域，包括：

根据所述中心位置信息以及所述标注区域，确定初始区域；

确定所述初始区域的第一特征以及所述至少一个图像帧的标注区域的第二特征；

根据所述第一特征以及所述第二特征，确定目标对象区域。

6.根据权利要求5所述的方法，其中，所述确定所述初始区域的第一特征以及所述至少一个图像帧的标注区域的第二特征，包括：

分别提取所述初始区域和所述至少一个图像帧的标注区域的低层特征和高层特征；

融合所述初始区域的低层特征和高层特征，得到所述第一特征；

融合所述至少一个图像帧的标注区域的低层特征和高层特征，得到所述第二特征。

7.根据权利要求5所述的方法，其中，所述根据所述第一特征以及所述第二特征，确定目标对象区域，包括：

确定所述第一特征以及所述第二特征的差异；

根据所述差异以及预设条件，更新所述初始区域，将更新后的初始区域作为所述目标对象区域。

8.根据权利要求1所述的方法，其中，所述根据所述目标对象区域，分割所述目标图像帧，包括：

提取所述至少一个图像帧中所述目标对象的第三特征；

提取所述目标对象区域中所述目标对象的第四特征；

确定所述第四特征中与所述第三特征匹配的第五特征；

根据所述第五特征，分割所述目标图像帧。

9.一种用于处理图像的装置，包括：

视频获取单元，被配置成获取目标视频，所述目标视频包括目标图像帧以及已标注目标对象的至少一个图像帧；

搜索区域确定单元，被配置成根据所述至少一个图像帧中的已标注目标对象，确定所述目标图像帧中针对所述目标对象的搜索区域；

中心位置信息确定单元，被配置成根据所述搜索区域，确定所述目标对象的中心位置信息；

目标对象区域确定单元，被配置成根据所述目标对象所在的标注区域以及所述中心位置信息，确定目标对象区域；

分割单元，被配置成根据所述目标对象区域，分割所述目标图像帧。

10.根据权利要求9所述的装置，其中，所述搜索区域确定单元进一步被配置成：

根据所述标注区域，确定所述搜索区域。

11.根据权利要求10所述的装置，其中，所述搜索区域确定单元进一步被配置成：

确定目标对象的平均移动速度；

12.根据权利要求9所述的装置，其中，所述中心位置信息确定单元进一步被配置成：

提取所述搜索区域的高层特征；

对所提取的高层特征进行滤波；

根据滤波后的特征，确定所述目标对象的中心位置信息。

13.根据权利要求9所述的装置，其中，所述目标对象区域确定单元进一步被配置成：

根据所述中心位置信息以及所述标注区域，确定初始区域；

根据所述第一特征以及所述第二特征，确定目标对象区域。

14.根据权利要求13所述的装置，其中，所述目标对象区域确定单元进一步被配置成：

15.根据权利要求13所述的装置，其中，所述目标对象区域确定单元进一步被配置成：

确定所述第一特征以及所述第二特征的差异；

16.根据权利要求9所述的装置，其中，所述分割单元进一步被配置成：

提取所述至少一个图像帧中所述目标对象的第三特征；

提取所述目标对象区域中所述目标对象的第四特征；

确定所述第四特征中与所述第三特征匹配的第五特征；

根据所述第五特征，分割所述目标图像帧。

17.一种用于处理图像的电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。