CN108460768B

CN108460768B - 层次化时域切分的视频关注对象分割方法和装置

Info

Publication number: CN108460768B
Application number: CN201810083061.7A
Authority: CN
Inventors: 李甲; 苑鹏程; 谷大鑫; 赵沁平
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2018-01-29
Filing date: 2018-01-29
Publication date: 2020-11-10
Anticipated expiration: 2038-01-29
Also published as: CN108460768A

Abstract

本发明提供一种层次化时域切分的视频关注对象分割方法和装置，通过根据待处理的视频，得到帧图片序列；对帧图片序列迭代N次奇偶切分处理，获得2^N个子帧序列，其中，奇偶切分处理为在每个待切分的父序列中将奇数次序的帧图片确定为奇数帧序列，将偶数次序的帧图片确定为偶数帧序列，2^N个子帧序列为迭代第N次奇偶切分处理中得到的奇数帧序列和偶数帧序列，N为大于或等于1的整数；根据2^N个子帧序列，获得2^N‑1个共分割序列对，每个共分割序列对包含2个子帧序列；根据预设的共分割模型和共分割序列对，得到每个帧图片中针对关注对象的分割图，实现自动对视频的层次化切分处理，以及对关注对象快速分割。

Description

层次化时域切分的视频关注对象分割方法和装置

技术领域

本发明涉及图像处理技术，尤其涉及一种层次化时域切分的视频关注对象分割方法和装置。

背景技术

在视频内容理解相关的技术中，为了模拟人的视觉关注特点，实现机器对视频中的关注对象进行对象追踪，场景重建和视频检索等操作，需要对视频中的关注对象进行自动检测和分割。

由于视频和图像在一定程度上是相似的，因此现有技术中对视频内容的解析通常是转化成单帧图像内容的理解再加上帧间时空连续性的约束。现有的关注对象分割方法，通常是把待处理图像分割成不同级别的超像素块或者图像块，利用已经训练好的模型对这些超像素块或者图像块提取卷积神经网络特征，之后利用得到的目标特征获得待处理图像的分割图。

然而，现有的关注对象分割方法中需要人工参与，根据每次研究目标和得到的目标特征设计分割参数，以把待处理图像分割成不同级别的超像素块或者图像块，现有的关注对象分割方法还无法实现完全自动化的分割处理。

发明内容

本发明提供一种层次化时域切分的视频关注对象分割方法和装置，通过对视频分解出的帧图片序列迭代奇偶切分处理，对切分得到时域不连续的子帧序列进行共分割，得到每个帧图片中针对所述关注对象的分割图，移除了人工参与分割的过程，提高了分割图的获取效率和自动化程度。

根据本发明的第一方面，提供一种层次化时域切分的视频关注对象分割方法，包括：

根据待处理的视频，得到帧图片序列，所述帧图片序列为由所述视频分解得到的时域连续的帧图片；

对所述帧图片序列迭代N次奇偶切分处理，获得2^N个子帧序列，其中，所述奇偶切分处理为在每个待切分的父序列中将奇数次序的帧图片确定为奇数帧序列，将偶数次序的帧图片确定为偶数帧序列，所述2^N个子帧序列为迭代第N次奇偶切分处理中得到的奇数帧序列和偶数帧序列，N为大于或等于 1的整数；

根据所述2^N个子帧序列，获得2^N-1个共分割序列对，每个所述共分割序列对包含2个所述子帧序列；

根据预设的共分割模型和所述共分割序列对，得到每个帧图片中针对所述关注对象的分割图。

可选地，所述根据预设的共分割模型和所述共分割序列对，得到每个帧图片中针对所述关注对象的分割图，包括：

将每个所述共分割序列对中一个子帧序列的每个帧图片，与另一个子帧序列的每个帧图片分别配对，得到M1*M2个不同的帧图片对，其中，所述 M1为所述一个子帧序列中帧图片的数量，所述M2为所述另一个子帧序列中帧图片的数量；

以预设的共分割模型对每个所述帧图片对中的2个帧图片进行共分割，得到每个帧图片对中每个帧图片针对所述关注对象的共分割图，其中所述共分割图中仅剩余所述关注对象的图像；

根据每个帧图片的所有所述共分割图，得到每个帧图片中针对所述关注对象的分割图，其中，所述分割图的任一个像素点位置的值，为所述帧图片的所有共分割图在所述任一个像素点位置的平均值。

可选地，在所述以预设的共分割模型对每个所述帧图片对中的2个帧图片进行共分割之前，还包括：

将每个帧图片的尺寸都缩放至预设图片尺寸；

将每个帧图片中所有像素点位置的值都减去预设图像均值。

可选地，所述以预设的共分割模型对每个所述帧图片对中的2个帧图片进行共分割，得到每个帧图片对中每个帧图片针对所述关注对象的共分割图，包括：

将每个帧图片对中的2个帧图片分别确定为第一输入帧图片和第二输入帧图片；

对所述第一输入帧图片和第二输入帧图片分别依次进行第一卷积处理、第二卷积处理、第一池化处理、第三卷积处理、第四卷积处理、第二池化处理，第五卷积处理、第六卷积处理、第七卷积处理、第三池化处理、第八卷积处理、第九卷积处理、第十卷积处理，得到与第一输入帧图片对应的第一中间处理结果和与第二输入帧图片对应的第二中间处理结果；

将所述第一中间处理结果和所述第二中间处理结果进行通道拼接，得到拼接结果；

对所述拼接结果进行降维卷积处理、第一融合卷积处理、第二融合卷积处理、第三融合卷积处理，得到共享处理结果；

将所述第一中间处理结果与所述共享处理结果进行通道拼接，得到第三中间处理结果，并将所述第二中间处理结果与所述共享处理结果进行通道拼接，得到第四中间处理结果；

对所述第三中间处理结果和所述第四中间处理结果分别依次进行第十一卷积处理、第十二卷积处理、第十三卷积处理、第十四卷积处理、反卷积处理，得到尺寸与所述第一输入帧图一致的第一反卷积结果，以及尺寸与所述第二输入帧图一致的第二反卷积结果；

根据所述第一反卷积结果得到与所述第一输入帧图对应的第一输出帧图片，并根据所述第二反卷积结果得到与所述第二输入帧图片对应的第二输出帧图片，其中，所述第一输出帧图片和第二输出帧图片分别为所述每个帧图片对中的2个帧图片针对所述关注对象的共分割图。

可选地，所述根据所述第一反卷积结果得到与所述第一输入帧图对应的第一输出帧图片，并根据所述第二反卷积结果得到与所述第二输入帧图片对应的第二输出帧图片，包括：

对所述第一反卷积结果中所有像素点位置的值进行归一化处理，获得与所述第一输入帧图对应的第一输出帧图片，所述第一输出帧图片中所有像素点位置的值都在预设像素范围内；

对所述第二反卷积结果中所有像素点位置的值进行所述归一化处理，获得与所述第二输入帧图对应的第二输出帧图片，所述第二输出帧图片中所有像素点位置的值都在预设像素范围内。

可选地，所述对所述拼接结果进行降维卷积处理、第一融合卷积处理、第二融合卷积处理、第三融合卷积处理，得到共享处理结果，包括：

对所述拼接结果进行降维卷积处理、扩张属性为2的第一融合卷积处理、扩张属性为2的第二融合卷积处理、扩张属性为2的第三融合卷积处理，得到共享处理结果。

可选地，所述根据所述2^N个子帧序列，获得2^N-1个共分割序列对，包括：

在所述2^N个子帧序列中，获得2^N-1个共分割序列对，其中，每个所述共分割序列对包含2个子帧序列，且所述2个子帧序列是在迭代第N次奇偶切分处理中对应同一父序列的奇数帧序列和偶数帧序列。

根据本发明的第二方面，提供一种层次化时域切分的视频关注对象分割装置，包括：

帧图片分解模块，用于根据待处理的视频，得到帧图片序列，所述帧图片序列为由所述视频分解得到的时域连续的帧图片；

迭代处理模块，用于对所述帧图片序列迭代N次奇偶切分处理，获得2^N个子帧序列，其中，所述奇偶切分处理为在每个待切分的父序列中将奇数次序的帧图片确定为奇数帧序列，将偶数次序的帧图片确定为偶数帧序列，所述2^N个子帧序列为迭代第N次奇偶切分处理中得到的奇数帧序列和偶数帧序列，N为大于或等于1的整数；

共分割序列对获得模块，用于根据所述2^N个子帧序列，获得2^N-1个共分割序列对，每个所述共分割序列对包含2个所述子帧序列；

分割图获得模块，用于根据预设的共分割模型和所述共分割序列对，得到每个帧图片中针对所述关注对象的分割图。

可选地，所述分割图获得模块，具体包括：

帧图片对获得模块，用于将每个所述共分割序列对中一个子帧序列的每个帧图片，与另一个子帧序列的每个帧图片分别配对，得到M1*M2个不同的帧图片对，其中，所述M1为所述一个子帧序列中帧图片的数量，所述M2 为所述另一个子帧序列中帧图片的数量；

共分割模块，用于以预设的共分割模型对每个所述帧图片对中的2个帧图片进行共分割，得到每个帧图片对中每个帧图片针对所述关注对象的共分割图，其中所述共分割图中仅剩余所述关注对象的图像；

平均处理模块，用于根据每个帧图片的所有所述共分割图，得到每个帧图片中针对所述关注对象的分割图，其中，所述分割图的任一个像素点位置的值，为所述帧图片的所有共分割图在所述任一个像素点位置的平均值。

可选地，所述共分割模块还用于：

在所述以预设的共分割模型对每个所述帧图片对中的2个帧图片进行共分割之前，将每个帧图片的尺寸都缩放至预设图片尺寸；将每个帧图片中所有像素点位置的值都减去预设图像均值。

根据本发明的第三方面，提供一种层次化时域切分的视频关注对象分割装置，包括：存储器、处理器以及计算机程序，所述计算机程序存储在所述存储器中，所述处理器运行所述计算机程序执行第一方面及第一方面各种可能的设计的所述的方法。

根据本发明的第四方面，提供一种可读存储介质，可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现第一方面及第一方面各种可能的设计所述的方法。

本发明提供一种层次化时域切分的视频关注对象分割方法和装置，通过根据待处理的视频，得到帧图片序列；对帧图片序列迭代N次奇偶切分处理，获得2^N个子帧序列，其中，奇偶切分处理为在每个待切分的父序列中将奇数次序的帧图片确定为奇数帧序列，将偶数次序的帧图片确定为偶数帧序列， 2^N个子帧序列为迭代第N次奇偶切分处理中得到的奇数帧序列和偶数帧序列， N为大于或等于1的整数；根据2^N个子帧序列，获得2^N-1个共分割序列对，每个共分割序列对包含2个子帧序列；根据预设的共分割模型和共分割序列对，得到每个帧图片中针对关注对象的分割图，实现自动对视频的层次化切分处理，以及对关注对象快速分割。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种层次化时域切分的视频关注对象分割方法流程示意图；

图2为本发明实施例提供的另一种层次化时域切分的视频关注对象分割方法流程示意图；

图3为本发明实施例提供的一种层次化时域切分的视频关注对象分割示例；

图4为本发明实施例提供的一种共分割模型示意图；

图5为本发明实施例提供的再一种层次化时域切分的视频关注对象分割方法流程示意图；

图6为本发明实施例提供的一种层次化时域切分的视频关注对象分割装置的结构示意图；

图7为本发明实施例提供的另一种层次化时域切分的视频关注对象分割装置的结构示意图；

图8为本发明提供的一种层次化时域切分的视频关注对象分割装置的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

应当理解，在本申请的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

应当理解，在本申请中，“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“多个”是指两个或两个以上。

应当理解，在本申请中，“与A对应的B”表示B与A相关联，根据A 可以确定B。根据A确定B并不意味着仅仅根据A确定B，还可以根据A和 /或其他信息确定B。A与B的匹配，是A与B的相似度大于或等于预设的阈值。

取决于语境，如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

本发明可以是应用在机器视觉的技术实现过程中，为了模拟人的视觉关注特征，实现对视频对象追踪、场景重建和视频检索等目的，需要对视频关注对象进行分割。视频可以是实时检测到的视频，也可以是预先录制的视频。视频可以是背景固定不变的视频，例如对固定场景中的目标检测时需要获取的监控视频，也可以是不仅前景点发生变化，背景也会发生显著变化的空基视频，例如飞行器移动中对目标对象拍摄的监控画面。在本发明的一种应用场景具体可以是飞行器环绕某个房屋进行画面拍摄，在拍摄的监控视频中以该房屋作为关注对象。分割装置将视频分解得到包含有房屋图像的帧图片序列，然后对帧图片序列进行层次化时序切分处理，将切分得到的多个短的子帧序列按帧图片进行两两组合配对，得到共分割序列对按对输入预先训练好的共分割模型中，根据共分割模型的输出结果得到监控视频的每个帧图片的分割图，完成对视频关注对象的分割。

图1为本发明实施例提供的一种层次化时域切分的视频关注对象分割方法流程示意图。图1所示方法的执行主体是层次化时域切分的视频关注对象分割装置，具体可以理解为视频监控系统、机器视觉系统，也可以理解为视频监控系统或机器视觉系统的图像处理模块或视频处理器等。图1所示的方法包括：

S101，根据待处理的视频，得到帧图片序列。

具体地，帧图片序列为由视频分解得到的时域连续的帧图片。待处理的视频可以是上述应用中的监控视频，也可以是任何情况下拍摄到的视频。每个视频都可以分解成时域连续的帧图片，这些帧图片按照时序排列构成帧图片序列。

S102，对帧图片序列迭代N次奇偶切分处理，获得2^N个子帧序列。

其中，奇偶切分处理为在每个待切分的父序列中将奇数次序的帧图片确定为奇数帧序列，将偶数次序的帧图片确定为偶数帧序列，2^N个子帧序列为迭代第N次奇偶切分处理中得到的奇数帧序列和偶数帧序列，N为大于或等于1的整数。以帧图片序列包含12帧进行示例说明，按照时序以数字命名为：帧1、帧2、帧3、帧4、帧5、帧6、帧7、帧8、帧9、帧10、帧11、帧12。对这12帧的帧图片序列迭代2次奇偶切分处理。迭代是指将每次处理得到的输出再作为下一次处理的输入。

具体地，在迭代第1次奇偶切分处理后，得到2个子帧序列，分别为：帧1、帧3、帧5、帧7、帧9、帧11，以及帧2、帧4、帧6、帧8、帧10、帧12。

在迭代第2次奇偶切分处理后，得到2²个子帧序列，分别为：帧1、帧5、帧9；帧3、帧7、帧11；帧2、帧6、帧10；帧4、帧8、帧12。

S103，根据2^N个子帧序列，获得2^N-1个共分割序列对。

其中，每个共分割序列对包含2个子帧序列。具体可以是在2^N个子帧序列中进行两两组合，得到2^N-1个共分割序列对。为了简化计算、降低计算难度，可以是在2^N个子帧序列中，获得2^N-1个共分割序列对，其中，每个共分割序列对包含2个子帧序列，且2个子帧序列是在迭代第N次奇偶切分处理中对应同一父序列的奇数帧序列和偶数帧序列。

继续参考上述12帧的帧图片序列示例，根据4个子帧序列，获得2个共分割序列对。一种可选的实现方式，可以是按照具有同一父序列的子帧序列进行组合配对的规律，选取“帧1、帧5、帧9”与“帧3、帧7、帧11”组成共分割序列对Q1；选取“帧2、帧6、帧10”和“帧4、帧8、帧12”组成共分割序列对Q2。其中，共分割序列对Q1中的两个子帧序列都是由同一个父节点“帧1、帧3、帧5、帧7、帧9、帧11”得到的；共分割序列对Q2 中的两个子帧序列都是由同一个父节点“帧2、帧4、帧6、帧8、帧10、帧 12”得到的。

S104，根据预设的共分割模型和共分割序列对，得到每个帧图片中针对关注对象的分割图。

具体地，可以是预先学习训练好一个共分割模型，也可以是预先设置好各项参数的共分割模型，然后以该共分割模型对得到的共分割序列对中的帧图片进行共分割处理，得到每个帧图片中针对关注对象的分割图。

本发明提供的层次化时域切分的视频关注对象分割方法，通过根据待处理的视频，得到帧图片序列，帧图片序列为由视频分解得到的时域连续的帧图片；对帧图片序列迭代N次奇偶切分处理，获得2^N个子帧序列，其中，奇偶切分处理为在每个待切分的父序列中将奇数次序的帧图片确定为奇数帧序列，将偶数次序的帧图片确定为偶数帧序列，2^N个子帧序列为迭代第N次奇偶切分处理中得到的奇数帧序列和偶数帧序列，N为大于或等于1的整数；根据2^N个子帧序列，获得2^N-1个共分割序列对，每个共分割序列对包含2个子帧序列；根据预设的共分割模型和共分割序列对，得到每个帧图片中针对关注对象的分割图，实现自动对视频的层次化切分处理，以及对关注对象快速分割。

图2为本发明实施例提供的另一种层次化时域切分的视频关注对象分割方法流程示意图。为了更加清楚地描述图1所示的方法，下面结合图2和具体实施例对图1中所示的过程进行详细说明，包括：

S201，根据待处理的视频，得到帧图片序列。

S202，对帧图片序列迭代N次奇偶切分处理，获得2^N个子帧序列。

S203，根据2^N个子帧序列，获得2^N-1个共分割序列对。

上述S201至S203的过程，具体可以参见图1所示实施例中S101至S103 的过程，此处不再赘述。

S204，将每个共分割序列对中一个子帧序列的每个帧图片，与另一个子帧序列的每个帧图片分别配对，得到M1*M2个不同的帧图片对。

其中，M1为一个子帧序列中帧图片的数量，M2为另一个子帧序列中帧图片的数量。例如，共分割序列对Q1是“帧1、帧5、帧9”与“帧3、帧7、帧11”，M1为3，M2为3，则对应可以得到如下的9个帧图片对：

{帧1，帧3}、{帧1，帧7}、{帧1，帧11}、{帧5，帧7}、{帧5，帧 11}、{帧9，帧7}、{帧9，帧11}。

每个帧图片对包含有2个帧图片，且这2个帧图片分别属于构成共分割序列对的两个子帧序列。

可选地，在得到帧图片对之后，且在共分割之前，还可以进行尺寸调整和像素值调整的过程。具体地，尺寸调整的过程可以是：将每个帧图片的尺寸都缩放至预设图片尺寸。预设图片尺寸应由显卡的显存来觉得，在使用的显卡显存大小是8GB时，将所有帧图片的尺寸都缩放至320×320，提高了显示能力。像素值调整的过程可以是：将每个帧图片中所有像素点位置的值都减去预设图像均值。图像均值可以是从共分割模型的训练集中得到的像素值的均值。本实施例中尺寸调整的过程与像素值调整的过程，并不受所描述的动作顺序的限制，可以采用其他顺序或者同时进行。

S205，以预设的共分割模型对每个帧图片对中的2个帧图片进行共分割，得到每个帧图片对中每个帧图片针对关注对象的共分割图。

其中，共分割图中仅剩余关注对象的图像。具体地，可以是以共分割模型φ对每个帧图片对中的2个帧图片A_i和B_j进行共分割，i和j分别为A_i和B_j各自在子帧序列中的序号，由公式一可以得到A_i的共分割图

和B_j的共分割图

在上述9个帧图片对的示例中，包含帧1的帧图片对为{帧1，帧3}、{帧 1，帧7}、{帧1，帧11}，可知，帧1对应得到3个共分割图：M_1|3、M_1|7、 M_1|11。共分割图可以是如图3所示由像素值为0或1构成的黑白图。

S206，根据每个帧图片的所有共分割图，得到每个帧图片中针对关注对象的分割图。

其中，分割图的任一个像素点位置的值，为帧图片的所有共分割图在任一个像素点位置的平均值。具体地，每一个帧图片都有多个共分割图，通过公式二对多个共分割图求解平均结果，可以得到每个帧图片中针对关注对象的分割图

例如，一个共分割序列对的两个子帧序列为A＝{A_i,i＝1,…,|A|}， B＝{B_i,i＝1,…,|B|}，则子帧序列A中每个帧图片A_i的所有共分割图为

且i＝1，…，|B|。公式二中

表示在每个像素点对所有共分割图为

的像素值相加。例如帧1在像素点(x，y)，三个共分割图的像素值分别为1、 1、1，则帧1的分割图在像素点(x，y)处的像素值为(1+1+1)/3＝1。

图3为本发明实施例提供的一种层次化时域切分的视频关注对象分割示例。在上述实施例的基础上，图3结合具体实施例进行示例说明。在图3所示的示例中，待处理视频为环绕房屋拍摄的视频，先将视频分解为帧图片序列，再进行奇数帧和偶数帧的切分，将迭代切分第N次后得到的子帧序列组合配对，将成对的帧作为共分割模型的输入，进行共分割和融合。共分割模型包括两个输入：输入流1和输入流2，共同连接到共享躯干进行融合处理，然后将融合结果与两个输入流的处理结果分别进行拼接后进入各自的输出分支进行处理，输出分支1输出的是与输入流1对应的共分割图，输出分支2 输出的是与输入流2对应的共分割图。将每个帧图片的多个共分割图进行平均处理后得到与每个帧图片一一对应的分割图。

图4为本发明实施例提供的一种共分割模型示意图。表一为图4所示共分割模型中每层的功能和结构示例。参见表以和图4可知，一种可选的共分割模型可以由两路输入流、共享躯干和两路输出分支组成。一路输入流的结构依次为：输入层、卷积层_A1、卷积层_A2、池化层_A1、卷积层_A3、卷积层_A4、池化层_A2、卷积层_A5、卷积层_A6、卷积层_A7、池化层_A3、卷积层_A8、卷积层_A9、卷积层_A10。

另一路输入流的结构依次为：输入层、卷积层_B1、卷积层_B2、池化层 _B1、卷积层_B3、卷积层_B4、池化层_B2、卷积层_B5、卷积层_B6、卷积层_B7、池化层_B3、卷积层_B8、卷积层_B9、卷积层_B10。

各卷积层的卷积运算可以是如下公式三中的卷积公式。

(F*k)(p)＝∑_s+t＝pF(s)k(t) 公式三

其中，图像矩阵

离散函数，对于定义域Ω_r:[-r,r]²∩Z²，r 为任意实数，Z是二维图像矩阵的尺寸，k(t)是定义在

上的尺寸大小为(2r+1)²离散滤波函数，公式三中符号*定义为离散卷积运算符。P为卷积后图像像素点个数。

图4所示的共享躯干部分，首先将双路输入流通过拼接层(Concatenation Layer)拼接在一起，由此对双路输入流的结果进行通道拼接。共享躯干具体包括：通道拼接层_C1、卷积层_C1、卷积层_C2、卷积层_C3、卷积层_C4。然后在共享躯干的最后3层卷积层(卷积层_C2、卷积层_C3、卷积层_C4)中引入了扩张卷积运算。扩张离散卷积运算公式四所示：

(F*_lk)(p)＝∑_s+lt＝pF(s)k(t) 公式四

公式四中符号*l为离散扩张卷积运算符号，l为扩张属性。

表一

图4所示的双路输出分支中，一路输出分支为：通道拼接层_A1、卷积层_A11、卷积层_A12、卷积层_A13、卷积层_A14、反卷积层_A1、输出层_A1。另一路输出分支为：通道拼接层_B1、卷积层_B11、卷积层_B12、卷积层_B13、卷积层_B14、反卷积层_B1、输出层_B1。其中，通道拼接层_A1的输入端与卷积层_C4和卷积层_A10连接，通道拼接层_A1用于对卷积层_C4和卷积层 _A10的处理结果进行通道拼接。通道拼接层_B1的输入端与卷积层_C4和卷积层_B10连接，通道拼接层_B1用于对卷积层_C4和卷积层_B10的处理结果进行通道拼接。图4所述共分割模型中各层的相关参数可参见表一。

图5为本发明实施例提供的再一种层次化时域切分的视频关注对象分割方法流程示意图。下面以图3和表一所示的共分割模型为例，结合图5和具体实施例对图2所示实施例中以预设的共分割模型对每个帧图片对中的2个帧图片进行共分割，得到每个帧图片对中每个帧图片针对关注对象的共分割图的过程进行说明。如图5所示的方法具体可以是：

S301，将每个帧图片对中的2个帧图片分别确定为第一输入帧图片和第二输入帧图片。

S302，对第一输入帧图片和第二输入帧图片分别依次进行第一卷积处理、第二卷积处理、第一池化处理、第三卷积处理、第四卷积处理、第二池化处理，第五卷积处理、第六卷积处理、第七卷积处理、第三池化处理、第八卷积处理、第九卷积处理、第十卷积处理，得到与第一输入帧图片对应的第一中间处理结果和与第二输入帧图片对应的第二中间处理结果。

S303，将第一中间处理结果和第二中间处理结果进行通道拼接，得到拼接结果。

S304，对拼接结果进行降维卷积处理、第一融合卷积处理、第二融合卷积处理、第三融合卷积处理，得到共享处理结果。

作为一种可选的实现方式，可以是对拼接结果进行降维卷积处理、扩张属性为2的第一融合卷积处理、扩张属性为2的第二融合卷积处理、扩张属性为2的第三融合卷积处理，得到共享处理结果。

S305，将第一中间处理结果与共享处理结果进行通道拼接，得到第三中间处理结果，并将第二中间处理结果与共享处理结果进行通道拼接，得到第四中间处理结果。

S306，对第三中间处理结果和第四中间处理结果分别依次进行第十一卷积处理、第十二卷积处理、第十三卷积处理、第十四卷积处理、反卷积处理，得到尺寸与第一输入帧图一致的第一反卷积结果，以及尺寸与第二输入帧图一致的第二反卷积结果。

S307，根据第一反卷积结果得到与第一输入帧图对应的第一输出帧图片，并根据第二反卷积结果得到与第二输入帧图片对应的第二输出帧图片。

其中，第一输出帧图片和第二输出帧图片分别为每个帧图片对中的2个帧图片针对关注对象的共分割图。具体地，可以是对第一反卷积结果中所有像素点位置的值进行归一化处理，获得与第一输入帧图对应的第一输出帧图片，第一输出帧图片中所有像素点位置的值都在预设像素范围内。对第二反卷积结果中所有像素点位置的值进行归一化处理，获得与第二输入帧图对应的第二输出帧图片，第二输出帧图片中所有像素点位置的值都在预设像素范围内。

在上述实施例中，共分割模型可以是预先训练和优化好的共分割模型。一种共分割模型的训练和优化方法可以是：

选取包含500段空基视频作为数据集，总计76,221帧，其中的5,021张帧对应设置有预先标注关注对象的标准帧。标准帧中可以是以像素值1标注关注对象的像素点，以像素值0标注非关注对象的像素点。对于数据集中的图像及其标注结果，我们采用十分交叉方式(训练集:校验集:测试集＝8:1:1)来训练模型，从而避免偶然误差及过拟合。由于本方法采用的共分割模型为双路级联神经网络，因此可以通过对双路反复输入来增加训练数据。最终，每份训练样本有约40,000对RGB训练图像对，之后再把这些RGB图像对的尺寸缩放到320x320，同时将标准帧的尺寸都缩放到320x320。

在权值初始化的过程中，为了加快共分割模型的训练过程，可以使用现有的网络模型VGG-16对共分割模型的权值进行初始化。具体地，双路输入流的参数都使用公开的网络模型VGGNet-16进行初始化。离散卷积运算的定义如公式三所示，扩张离散卷积运算如公式四所示。共分割模型的双路输出分支通过拼接层将双路输入流和共享躯干部分拼接在一起，并且将VGG-16 的全连接层转化为卷积层，由此在可以减少了模型训练过程中的计算量的同时，还能使用VGGNet-16模型的全连接层权值对共分割模型进行初始化。共分割模型最后的反卷积层能够得到和输入视频帧有相同尺寸的反卷积结果图。对于与网络模型VGG-16不同的其他新添加的网络层，可以使用Xavier方法来初始化其中的权值。

在权值初始化之后，通过选取的用于训练的训练集数据，可以是使用随机梯度下降的方法训练如图4所示的共分割模型，同时使用如公式五所示的交叉熵损失函数作为共分割模型优化的损失函数。

其中，I是输入到共分割模型中的帧图片。GT是人工标注的标准帧。M和 i分别表示分割图和分割图中每个像素点的位置索引；|M|表示分割图中像素点的数量。GT_i表示人工标注的标准帧索引i处的像素点是否属于主要物体对象： GT_i＝1表示人工标注的标准帧中索引i处的像素点是属于主要物体的，GT_i＝0 则表示不属于。W表示卷积神经网络中的权值。P(M_i|I,W)表示网络生成的显著图中索引位置i处的像素点是否属于主要物体的概率：M_i＝1表示索引位置i 处的像素点是属于主要物体的，M_i＝0则表示该位置的像素点不属于。共分割模型通过前向传播得到共分割模型相对于训练样本的损失函数，之后通过反向传播的偏导函数更新每一层的权值，通过多次重复前向传播和反向传播的过程，我们可以得到最终能够对视频中关注物体进行准确分割的共分割模型。

图6为本发明实施例提供的一种层次化时域切分的视频关注对象分割装置的结构示意图。如图6所示的装置具体可以包括：

帧图片分解模块11，用于根据待处理的视频，得到帧图片序列，所述帧图片序列为由所述视频分解得到的时域连续的帧图片。

迭代处理模块12，用于对所述帧图片序列迭代N次奇偶切分处理，获得 2^N个子帧序列，其中，所述奇偶切分处理为在每个待切分的父序列中将奇数次序的帧图片确定为奇数帧序列，将偶数次序的帧图片确定为偶数帧序列，所述2^N个子帧序列为迭代第N次奇偶切分处理中得到的奇数帧序列和偶数帧序列，N为大于或等于1的整数。

共分割序列对获得模块13，用于根据所述2^N个子帧序列，获得2^N-1个共分割序列对，每个所述共分割序列对包含2个所述子帧序列。

分割图获得模块14，用于根据预设的共分割模型和所述共分割序列对，得到每个帧图片中针对所述关注对象的分割图。

图6所示实施例的层次化时域切分的视频关注对象分割装置对应地可用于执行图1所示方法实施例中的步骤，其实现原理和技术效果类似，此处不再赘述。

图7为本发明实施例提供的另一种层次化时域切分的视频关注对象分割装置的结构示意图。图7所示的装置为在图6所示装置的基础上分割图获得模块14的一种具体实施例。如图7所示，分割图获得模块14，具体可以包括：

帧图片对获得模块141，用于将每个所述共分割序列对中一个子帧序列的每个帧图片，与另一个子帧序列的每个帧图片分别配对，得到M1*M2个不同的帧图片对，其中，所述M1为所述一个子帧序列中帧图片的数量，所述M2为所述另一个子帧序列中帧图片的数量；

共分割模块142，用于以预设的共分割模型对每个所述帧图片对中的2 个帧图片进行共分割，得到每个帧图片对中每个帧图片针对所述关注对象的共分割图，其中所述共分割图中仅剩余所述关注对象的图像；

平均处理模块143，用于根据每个帧图片的所有所述共分割图，得到每个帧图片中针对所述关注对象的分割图，其中，所述分割图的任一个像素点位置的值，为所述帧图片的所有共分割图在所述任一个像素点位置的平均值。

在上述实施例的基础上，所述共分割模块142还用于：在以预设的共分割模型对每个所述帧图片对中的2个帧图片进行共分割之前，将每个帧图片的尺寸都缩放至预设图片尺寸；将每个帧图片中所有像素点位置的值都减去预设图像均值。

在上述实施例的基础上，共分割模块142，具体用于：将每个帧图片对中的2个帧图片分别确定为第一输入帧图片和第二输入帧图片；对所述第一输入帧图片和第二输入帧图片分别依次进行第一卷积处理、第二卷积处理、第一池化处理、第三卷积处理、第四卷积处理、第二池化处理，第五卷积处理、第六卷积处理、第七卷积处理、第三池化处理、第八卷积处理、第九卷积处理、第十卷积处理，得到与第一输入帧图片对应的第一中间处理结果和与第二输入帧图片对应的第二中间处理结果；将所述第一中间处理结果和所述第二中间处理结果进行通道拼接，得到拼接结果；对所述拼接结果进行降维卷积处理、第一融合卷积处理、第二融合卷积处理、第三融合卷积处理，得到共享处理结果；将所述第一中间处理结果与所述共享处理结果进行通道拼接，得到第三中间处理结果，并将所述第二中间处理结果与所述共享处理结果进行通道拼接，得到第四中间处理结果；对所述第三中间处理结果和所述第四中间处理结果分别依次进行第十一卷积处理、第十二卷积处理、第十三卷积处理、第十四卷积处理、反卷积处理，得到尺寸与所述第一输入帧图一致的第一反卷积结果，以及尺寸与所述第二输入帧图一致的第二反卷积结果；根据所述第一反卷积结果得到与所述第一输入帧图对应的第一输出帧图片，并根据所述第二反卷积结果得到与所述第二输入帧图片对应的第二输出帧图片，其中，所述第一输出帧图片和第二输出帧图片分别为所述每个帧图片对中的2个帧图片针对所述关注对象的共分割图。

在上述实施例的基础上，共分割模块142，具体用于：对所述第一反卷积结果中所有像素点位置的值进行归一化处理，获得与所述第一输入帧图对应的第一输出帧图片，所述第一输出帧图片中所有像素点位置的值都在预设像素范围内；对所述第二反卷积结果中所有像素点位置的值进行所述归一化处理，获得与所述第二输入帧图对应的第二输出帧图片，所述第二输出帧图片中所有像素点位置的值都在预设像素范围内。

在上述实施例的基础上，共分割模块142，具体用于：对所述拼接结果进行降维卷积处理、扩张属性为2的第一融合卷积处理、扩张属性为2的第二融合卷积处理、扩张属性为2的第三融合卷积处理，得到共享处理结果。

在上述实施例的基础上，共分割序列对获得模块13具体用于：在所述 2^N个子帧序列中，获得2^N-1个共分割序列对，其中，每个所述共分割序列对包含2个子帧序列，且所述2个子帧序列是在迭代第N次奇偶切分处理中对应同一父序列的奇数帧序列和偶数帧序列。

图8为本发明提供的一种层次化时域切分的视频关注对象分割装置的硬件结构示意图。如图8所示，该层次化时域切分的视频关注对象分割装置包括：处理器811以及存储器812；其中

存储器812，用于存储计算机程序，该存储器还可以是闪存(flash)。

处理器811，用于执行存储器存储的执行指令，以实现上述方法中层次化时域切分的视频关注对象分割装置执行的各个步骤。具体可以参见前面方法实施例中的相关描述。

可选地，存储器812既可以是独立的，也可以跟处理器811集成在一起。

当所述存储器812是独立于处理器811之外的器件时，所述层次化时域切分的视频关注对象分割装置还可以包括：

总线813，用于连接所述存储器812和处理器811。

本发明还提供一种可读存储介质，可读存储介质中存储有执行指令，当层次化时域切分的视频关注对象分割装置的至少一个处理器执行该执行指令时，层次化时域切分的视频关注对象分割装置执行上述的各种实施方式提供的方法。其中，可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称：ASIC)中。另外，该ASIC可以位于用户设备中。当然，处理器和存储介质也可以作为分立组件存在于通信设备中。

本发明还提供一种程序产品，该程序产品包括执行指令，该执行指令存储在可读存储介质中。层次化时域切分的视频关注对象分割装置的至少一个处理器可以从可读存储介质读取该执行指令，至少一个处理器执行该执行指令使得层次化时域切分的视频关注对象分割装置实施上述的各种实施方式提供的方法。

在上述层次化时域切分的视频关注对象分割装置的实施例中，应理解，处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种层次化时域切分的视频关注对象分割方法，其特征在于，包括：

对所述帧图片序列迭代N次奇偶切分处理，获得2^N个子帧序列，其中，所述奇偶切分处理为在每个待切分的父序列中将奇数次序的帧图片确定为奇数帧序列，将偶数次序的帧图片确定为偶数帧序列，所述2^N个子帧序列为迭代第N次奇偶切分处理中得到的奇数帧序列和偶数帧序列，N为大于或等于1的整数；

用预设的共分割模型对所述共分割序列对中的帧图片进行共分割处理，得到每个所述帧图片中针对所述关注对象的分割图；所述预设的共分割模型为预先训练好的共分割模型；

所述用预设的共分割模型对所述共分割序列对中的帧图片进行共分割处理，得到每个所述帧图片中针对所述关注对象的分割图，包括：

将每个所述共分割序列对中一个子帧序列的每个帧图片，与另一个子帧序列的每个帧图片分别配对，得到M1*M2个不同的帧图片对，其中，所述M1为所述一个子帧序列中帧图片的数量，所述M2为所述另一个子帧序列中帧图片的数量；

2.根据权利要求1所述的方法，其特征在于，在所述以预设的共分割模型对每个所述帧图片对中的2个帧图片进行共分割之前，还包括：

将每个帧图片的尺寸都缩放至预设图片尺寸；

将每个帧图片中所有像素点位置的值都减去预设图像均值。

3.根据权利要求1所述的方法，其特征在于，所述以预设的共分割模型对每个所述帧图片对中的2个帧图片进行共分割，得到每个帧图片对中每个帧图片针对所述关注对象的共分割图，包括：

对所述第三中间处理结果和所述第四中间处理结果分别依次进行第十一卷积处理、第十二卷积处理、第十三卷积处理、第十四卷积处理、反卷积处理，得到尺寸与所述第一输入帧图片一致的第一反卷积结果，以及尺寸与所述第二输入帧图片一致的第二反卷积结果；

根据所述第一反卷积结果得到与所述第一输入帧图片对应的第一输出帧图片，并根据所述第二反卷积结果得到与所述第二输入帧图片对应的第二输出帧图片，其中，所述第一输出帧图片和第二输出帧图片分别为所述每个帧图片对中的2个帧图片针对所述关注对象的共分割图。

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一反卷积结果得到与所述第一输入帧图片对应的第一输出帧图片，并根据所述第二反卷积结果得到与所述第二输入帧图片对应的第二输出帧图片，包括：

对所述第一反卷积结果中所有像素点位置的值进行归一化处理，获得与所述第一输入帧图片对应的第一输出帧图片，所述第一输出帧图片中所有像素点位置的值都在预设像素范围内；

对所述第二反卷积结果中所有像素点位置的值进行所述归一化处理，获得与所述第二输入帧图片对应的第二输出帧图片，所述第二输出帧图片中所有像素点位置的值都在预设像素范围内。

5.根据权利要求3所述的方法，其特征在于，所述对所述拼接结果进行降维卷积处理、第一融合卷积处理、第二融合卷积处理、第三融合卷积处理，得到共享处理结果，包括：

6.根据权利要求1至5任一所述的方法，其特征在于，所述根据所述2^N个子帧序列，获得2^N-1个共分割序列对，包括：

7.一种层次化时域切分的视频关注对象分割装置，其特征在于，包括：

分割图获得模块，用于用预设的共分割模型对所述共分割序列对中的帧图片进行分割处理，得到每个所述帧图片中针对所述关注对象的分割图；所述预设的共分割模型为预先训练好的共分割模型；

所述分割图获得模块，具体包括：

帧图片对获得模块，用于将每个所述共分割序列对中一个子帧序列的每个帧图片，与另一个子帧序列的每个帧图片分别配对，得到M1*M2个不同的帧图片对，其中，所述M1为所述一个子帧序列中帧图片的数量，所述M2为所述另一个子帧序列中帧图片的数量；

8.根据权利要求7所述的装置，其特征在于，所述共分割模块还用于：