CN112883776B

CN112883776B - 基于全局到局部的感受野搜索的动作分割模型获取方法

Info

Publication number: CN112883776B
Application number: CN202110004845.8A
Authority: CN
Inventors: 程明明; 高尚华; 韩琦
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2021-01-04
Filing date: 2021-01-04
Publication date: 2022-09-16
Anticipated expiration: 2041-01-04
Also published as: CN112883776A

Abstract

本公开提出了基于全局到局部的感受野搜索的动作分割模型获取方法，包括：获取分割视频数据集，针对分割视频数据集，基于分割网络拓扑结构及随机初始化感受野膨胀率进行全局搜索，获得粗略的网络感受野组合；利用粗略的网络感受野组合从新初始化分割网络拓扑结构；基于分割视频数据集与重新初始化的分割网络拓扑结构，进行局部搜索，得到性能更优的感受野组合；利用局部搜索得到的感受野组合重新初始化分割网络拓扑结构，利用分割视频数据集进行完整的分割网络训练，获得训练后的分割网络模型。通过迭代搜索过程，局部搜索逐渐找到了更有效的低成本细粒度感受野组合。

Description

基于全局到局部的感受野搜索的动作分割模型获取方法

技术领域

本公开属于图像处理技术领域，尤其涉及基于全局到局部的感受野搜索的动作分割模型获取方法。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

动作分割将每个视频帧的动作进行细分，在诸如片段标记，视频监视和异常检测等计算机视觉应用中发挥重要作用。虽然各种方法不断刷新包含单个活动的短视频的识别性能，但是在未修剪的长视频中密集地分割每个帧仍然具有挑战性，因为这些视频包含许多具有不同时间长度的活动。时间卷积网络(TCN)具有捕获长期和短期信息的能力，因此广泛用于行动细分任务。时间卷积网络中每层的感受野对于TCN至关重要，因为大的感受野有助于长期依赖性，而小的感受野则有利于局部细节。最新技术依赖于人类设计的感受野组合，每一层中的采用不同的感受野大小，以在捕获长期和短期依赖关系之间进行权衡。

早期的动作识别方法大多使用滑动窗口来模拟外观和动作的变化状态。因此，他们主要关注短期依赖。捕获短期和长期依存关系然后逐渐成为动作细分的重点。顺序模型以迭代形式捕获长期短期依赖性。贝叶斯网络被应用来分割用随机上下文无关文法表示的动作。隐马尔可夫模型对状态和持续时间之间的转换进行建模。后来，隐马尔可夫模型与上下文无关文法，高斯混合模型和递归网络相结合以建模长期动作依存关系。序列记忆器被应用来捕获从视频中学到的视觉单词中的长期依赖关系。但是，这些顺序模型在并行建模的长期依赖性方面不灵活，通常会遭受信息遗忘的困扰。一些研究人员利用多流模型来对长期和短期的依赖关系进行建模。动态编程被用来推断由长度模型，语言模型和动作分类器组成的模型。Tricornet模型利用混合的时间卷积和递归网络来捕获局部运动并记住长期动作依赖性。CoupledGAN模型使用生成对抗网络模型来利用多模式数据来更好地模拟人类行为的演变。用多个流捕获长期-短期信息会增加计算冗余。最近，引入了时间卷积网络(TCN)以通过调整感受野来在统一结构内对不同范围的距离进行建模，并且可以并行处理长视频。用于动作分割的编码器-解码器样式被提出，以捕获远程时间模式，并应用膨胀卷积来扩大感受野。TDRN模型还引入了可变形卷积来处理全分辨率残差流和低分辨率合并流。MS-TCN模型利用带有手动设计的感受野组合的多阶段膨胀卷积来捕获来自各种时间感受野的信息。但是，感受野的调整仍然取决于人为设计，这可能不合适。有效的感受野组合搜索方案可以自动发现更有效的结构，从而改进了这些基于TCN的方法。

有很多搜索算法应用于网络结构的搜索，但将网络架构搜索算法直接应用于如此巨大的感受野搜索空间是不切实际的。例如，常规的基于奖励的搜索方法不适用于具有巨大搜索空间的基于CNN的模型。每个可能组合的模型训练和性能评估成本太高。基于可微分的结构搜索方法(DARTS)依靠共享的大型网络来节省训练时间，因此由于模型大小的限制，仅在一个层内支持几个操作。而且，他们严重依赖于初始组合值，而找不到与初始组合有巨大差异的新组合。尽管目标是在巨大的搜索空间中探索除人为设计模式以外的有效感受野组合，但这些算法要么成本太高，要么无法支持较大的搜索空间。

发明内容

为克服上述现有技术的不足，本公开提供了基于全局到局部的感受野搜索的动作分割模型获取方法，利用基于遗传算法的全局搜索来找到粗糙的感受野组合，并利用期望指导迭代(EGI)的局部搜索来获得精炼的感受野组合。

为实现上述目的，本公开的一个或多个实施例提供了如下技术方案：

第一方面，公开了基于全局到局部的感受野搜索的动作分割模型获取方法，包括：

获取分割视频数据集，针对分割视频数据集，基于分割网络拓扑结构及随机初始化感受野膨胀率进行全局搜索，获得粗略的网络感受野组合；

利用粗略的网络感受野组合从新初始化分割网络拓扑结构；

基于分割视频数据集与重新初始化的分割网络拓扑结构，进行局部搜索，得到性能更优的感受野组合；

利用局部搜索得到的感受野组合重新初始化分割网络拓扑结构，利用分割视频数据集进行完整的分割网络训练，获得训练后的分割网络模型。

进一步的技术方案，将待分割视频输入至训练后的分割网络模型进行视频动作分割。

进一步的技术方案，分割网络拓扑结构具有L个卷积层，并且D是每一层中可能的膨胀率集合，每一层共L个感受野的组合表示为集合C，全局搜索的感受野搜索空间设置为D_g＝{d_i＝kⁱ,i∈[0,1,…T]}，其中k是所述搜索空间稀疏的控制器，T决定了最大可用感受野。

进一步的技术方案，进行全局搜索时利用遗传算法的方法来寻找粗略感受野组合。

进一步的技术方案，基于遗传的全局搜索包括选择，交叉，突变过程，其中，选择操作：感受野组合的总体描述为一组候选结构P＝{C_i,i∈[1,M]}，其中C_i是全局搜索空间中的候选结构，M是种群个体数；

选择操作选择P中每个个体基于每个个体结构的估计性能：E(C_i)＝f(V|C_i,θ_n；

其中f用来评价指标，V是交叉验证集，模型训练n轮的参数为θ_n，每个C_i将被选择用于交叉操作，其被选择概率为：

进一步的技术方案，交叉操作：此操作将生成新的感受野组合样本，种群P中的每两个组合都交换组合为新的模式，同时保持局部结构，代替随机交换单个点，选择交换感受野组合的随机部分片段，具体来说，随机选择两个锚点并在锚点内交换片段组合以生成新样本。

进一步的技术方案，变异操作：变异操作通过概率选择每个个体，以避免陷入局部最优结果，在所选个体的感受野组合中随机更改值来实现。

进一步的技术方案，进行局部搜索时以预期指导的迭代局部搜索，以确定在全局搜索结构之上的更精细的膨胀率；

假设第l层的感受野是D_l，利用卷积权重共享方案来强制学习感受野的重要权重，以近似于概率质量函数；

获得的近似概率质量函数时，首先在初始膨胀率附近均匀采样S个卷积膨胀率，得到T_l＝{d_i|i∈[1,S]}，其中d_i＝D_l-ΔD_l+(i-1)·2ΔD_l/(S-1)，ΔD_l用来控制精细程度；

接着，基于由共享卷积权重和多个具有不同感受野膨胀率的分支组成的多层网络，每个分支都有唯一的权重来确定重要性，在搜索过程中，权重会使用梯度反向传播进行更新；

更新之后，将多层卷积层中的膨胀率设置为T_l，则标准化的近似概率密度函数PMF表示为：

则确定搜索到的期望感受野为

第二方面，公开了基于全局到局部的感受野搜索的视频动作分割方法，包括：

基于上述基于全局到局部的感受野搜索的动作分割模型获取方法获取动作分割模型；

将待分割视频输入至训练后的分割网络模型进行视频动作分割。

第三方面，公开了基于全局到局部的感受野搜索的动作分割模型获取方法，包括：

利用粗略的网络感受野组合从新初始化分割网络拓扑结构；

以上一个或多个技术方案存在以下有益效果：

给定待分割视频为了探索低成本的搜索空间，本公开技术方案利用基于遗传算法的全局搜索来找到粗糙的感受野组合，并利用期望指导迭代(EGI)的局部搜索来获得精炼的感受野组合。

本公开技术方案遵循多尺度TCN(MS-TCN)来使用膨胀率来确定层的接收场，提出了一种基于遗传的全局搜索方案，以可承受的成本在稀疏采样的搜索空间内找到粗糙的组合，全局搜索发现了各种组合，这些组合的性能较好，但模式却完全不同。

本公开技术方案基于全局搜索的粗略组合，进行局部搜索以确定细粒度的膨胀率。提出的卷积权重共享方案将学习的分支权重强制为近似概率质量分布，以计算膨胀率的期望值。期望引导搜索将离散的权重值转换为连续分布，从而可以进行细粒度的搜索，通过迭代搜索过程，局部搜索逐渐找到了更有效的低成本细粒度感受野组合。

本公开技术方案提出的这种全局到局部搜索方案，由待分割视频数据驱动，可以嵌入现有模型中，从而超越人工设计的结构，从而获得可观的性能提升。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例全局搜索的一次迭代示意图；

图2为本公开实施例全局搜索流程图；

图3为本公开实施例局部搜索多分支网络结构示意图；

图4为本公开实施例局部搜索流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

时间卷积网络中每层的感受野对于时间卷积网络至关重要，因为大的感受野有助于长期依赖性，而小的感受野则有利于局部细节。最新技术依赖于人类设计的感受野组合，每一层中的采用不同的人为设定的感受野大小，以在捕获长期和短期依赖关系之间进行权衡。但人为设计的这种感受野组合方式，不一定能够达到最优的解决方案，通过探索更有效的感受野组合方式，来提升时间卷积网络的性能。现有一些算法针对于网络结构的搜索，常规的基于奖励的搜索方法不适用于具有巨大搜索空间的基于CNN的模型。每个可能组合的模型训练和性能评估成本太高。基于可微分的结构搜索方法(DARTS)依靠共享的大型网络来节省训练时间，因此由于模型大小的限制，仅在一个层内支持几个操作。而且，他们严重依赖于初始组合值，而找不到与初始组合有巨大差异的新组合。尽管目标是在巨大的搜索空间中探索除人为设计模式以外的有效感受野组合，但这些算法要么成本太高，要么无法支持较大的搜索空间。

实施例一

本实施例公开了基于全局到局部的感受野搜索的动作分割模型获取方法，包括：

利用粗略的网络感受野组合从新初始化分割网络拓扑结构；

在该实施例中，基于遗传算法的全局搜索方法，具体通过以下方式实现：

首先假设TCN具有L个卷积层，并且D是每一层中可能的膨胀率集合。每一层共L个感受野的组合表示为集合C。全局搜索的感受野搜索空间设置为D_g＝{d_i＝kⁱ,i∈[0,1,…T]}，其中k是所述搜索空间稀疏的控制器，T决定了最大可用感受野，搜索空间大大减少。即，当设置k＝2时，如MS-TCN中那样将最大感受野设置为1024，搜索空间从1024⁴⁰减少到11⁴⁰。

本公开技术方案提出基于遗传算法的方法来寻找具有竞争力甚至优于人工设计的粗略组合。在图1中说明了提出的基于遗传的全局搜索的一次迭代。现在详细介绍选择，交叉，突变过程。

<1>选择操作：感受野组合的总体可以描述为一组候选结构P＝{C_i,i∈[1,M]}，其中C_i是全局搜索空间中的候选结构，M是种群个体数。选择操作选择P中每个个体基于每个个体结构的估计性能：E(C_i)＝f(V|C_i,θ_n)

其中f用来评价指标，V是交叉验证集，模型训练n轮的参数为θ_n。每个C_i将被选择用于交叉操作，其被选择概率为：

<2>交叉操作：此操作将生成新的感受野组合样本。种群P中的每两个组合都交换组合为新的模式，同时保持局部结构。代替随机交换单个点，我们选择交换感受野组合的随机部分片段。具体来说，随机选择两个锚点并在锚点内交换片段组合以生成新样本。

<3>变异操作:变异操作通过概率P_m选择每个个体，以避免陷入局部最优结果。在所选个体的感受野组合中随机更改值来实现。

该基于遗传算法的全局搜索方法总结为图2所示流程图。

局部搜索旨在以较低的成本在细粒度的级别中找到更有效的感受野组合。最简单的方法是在由全局搜索搜索到的感受野的情况下，对更细粒度的扩张率进行采样，并应用现有的DARTS算法来选择合适的扩张率。但是，即使通过全局搜索提供了良好的初始结构，细粒度感受野的可用范围仍然很大，因此现有算法无法处理具有数百个选择的感受野膨胀率候选。同样，DARTS方法搜索具有不同功能的运算符，而对感受野的搜索仅包含一个功能维度。数据集中的不同子集有时会适应不同的感受野。因此，本公开实施例中提出一种预期指导的迭代(EGI)局部搜索方案，以确定在全局搜索结构之上的更精细的膨胀率。

在具体实施例中中，关于基于期望指导的局部搜索细化方法通过以下方案实现：

假设第l层的感受野是D_l。利用卷积权重共享方案来强制学习感受野的重要权重w_i，以近似于概率质量函数。为了获得的近似概率质量函数，首先在初始膨胀率附近均匀采样S个卷积膨胀率，得到T_l＝{d_i|i∈[1,S]}，其中d_i＝D_l-ΔD_l+(i-1)·2ΔD_l/(S-1)，ΔD_l用来控制精细程度。

紧接着，提出了一个由共享卷积权重和多个具有不同感受野膨胀率的分支组成的多层网络，每个分支都有唯一的权重来确定重要性，在搜索过程中，权重会使用梯度反向传播进行更新，将多层卷积层中的膨胀率设置为T_l，则标准化的近似概率密度函数PMF表示为：

则我们确定搜索到的期望感受野为

这种局部搜索模式模型图总结为图3，图4给出基于期望指导的局部搜索细化方法流程图。

具体的，在另一实施例子中，以上搜索算法在视频分割中应用的整体流程：

给定输入待视频数据集X，确定分割网络拓扑结构并随机初始化感受野膨胀率；

从输入的待分割视频数据集X，进行基于遗传算法的全局搜索，找到粗略的性能更好的网络感受野组合；

利用全局搜索找到的粗略感受野重新初始化分割网络；

从输入的待分割视频数据集X与重新初始化的分割网络，进行基于期望指导的局部搜索，进行感受野膨胀率的细化，得到性能更优的感受野组合；

利用局部搜索进一步得到的感受野组合重新初始化分割网络，利用数据集X进行完整的网络训练；

该拥有搜索方法得到感受野组合的训练好的分割网络，相比非搜索方法感受野方法的分割网络，具有更好的表现性能。

在三个公开数据集上Breakfast，50Salads，GTEA上测试实验结果，并

使用逐帧准确率Acc，在阈值0.1、0.25、0.5上测试F值，和分段编辑得分Edit。

测试结果如下：

与其他方法对比，利用本公开技术方案的方法搜索得到的有效结构，也取得了显著的性能提升：

实施例二

本实施例的目的是提供一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述实施例子方法的步骤。

实施例三

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行上述实施例子方法的步骤。

实施例四

本实施例的目的是提供基于全局到局部的感受野搜索的动作分割模型获取系统，其特征是，包括：

全局搜索模块，获取分割视频数据集，针对分割视频数据集，基于分割网络拓扑结构及随机初始化感受野膨胀率进行全局搜索，获得粗略的网络感受野组合；

利用粗略的网络感受野组合从新初始化分割网络拓扑结构；

局部搜索模块，基于分割视频数据集与重新初始化的分割网络拓扑结构，进行局部搜索，得到性能更优的感受野组合；

分割网络模型训练模块，利用局部搜索得到的感受野组合重新初始化分割网络拓扑结构，利用分割视频数据集进行完整的分割网络训练，获得训练后的分割网络模型。

以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本公开中的任一方法。

本领域技术人员应该明白，上述本公开的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本公开不限制于任何特定的硬件和软件的结合。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.基于全局到局部的感受野搜索的动作分割模型获取方法，其特征是，包括：

获取分割视频数据集，针对分割视频数据集，基于分割网络拓扑结构及随机初始化感受野膨胀率进行全局搜索，利用遗传算法的方法来寻找粗略感受野组合，基于遗传的全局搜索包括选择，交叉，突变过程；

利用粗略的网络感受野组合重新初始化分割网络拓扑结构；

基于分割视频数据集与重新初始化的分割网络拓扑结构，进行局部搜索，进行局部搜索时以预期指导的迭代局部搜索，以确定在全局搜索结构之上的更精细的膨胀率，得到性能更优的感受野组合；

2.如权利要求1所述的基于全局到局部的感受野搜索的动作分割模型获取方法，其特征是，将待分割视频输入至训练后的分割网络模型进行视频动作分割。

3.如权利要求1所述的基于全局到局部的感受野搜索的动作分割模型获取方法，其特征是，分割网络拓扑结构具有L个卷积层，并且D是每一层中可能的膨胀率集合，每一层共L个感受野的组合表示为集合C，全局搜索的感受野搜索空间设置为D_g＝{d_i＝kⁱ,i∈[0,1,…T]}，其中k是所述搜索空间稀疏的控制器，T决定了最大可用感受野。

4.如权利要求1所述的基于全局到局部的感受野搜索的动作分割模型获取方法，其特征是，基于遗传的全局搜索包括选择，交叉，突变过程；其中，选择操作：感受野组合的总体描述为一组候选结构P＝{C_i,i∈[1,M]}，其中C_i是全局搜索空间中的候选结构，M是种群个体数；

选择操作选择P中每个个体基于每个个体结构的估计性能：E(C_i)＝f(V|C_i,θ_n)；

进一步的，交叉操作：此操作将生成新的感受野组合样本，种群P中的每两个组合都交换组合为新的模式，同时保持局部结构，代替随机交换单个点，选择交换感受野组合的随机部分片段，具体来说，随机选择两个锚点并在锚点内交换片段组合以生成新样本；

进一步的，变异操作：变异操作通过概率选择每个个体，以避免陷入局部最优结果，在所选个体的感受野组合中随机更改值来实现。

5.如权利要求1所述的基于全局到局部的感受野搜索的动作分割模型获取方法，其特征是，进行局部搜索时以预期指导的迭代局部搜索，以确定在全局搜索结构之上的更精细的膨胀率；

假设第1层的感受野是D_l，利用卷积权重共享方案来强制学习感受野的重要权重w_i，以近似于概率质量函数；

接着，基于由共享卷积权重和多个具有不同感受野膨胀率的分支组成的多层网络，每个分支都有唯一的权重来确定重要性，在搜索过程中，权重会使用梯度反向传播进行更新。

6.如权利要求5所述的基于全局到局部的感受野搜索的动作分割模型获取方法，其特征是，更新之后，将多层卷积层中的膨胀率设置为T_l，则标准化的近似概率密度函数PMF表示为：

则确定搜索到的期望感受野为

7.基于全局到局部的感受野搜索的视频动作分割方法，其特征是，包括：

基于上述权利要求1-6任一所述的基于全局到局部的感受野搜索的动作分割模型获取方法获取动作分割模型；

8.基于全局到局部的感受野搜索的动作分割模型获取系统，其特征是，包括：

全局搜索模块，获取分割视频数据集，针对分割视频数据集，基于分割网络拓扑结构及随机初始化感受野膨胀率进行全局搜索，利用遗传算法的方法来寻找粗略感受野组合，基于遗传的全局搜索包括选择，交叉，突变过程；

利用粗略的网络感受野组合重新初始化分割网络拓扑结构；

局部搜索模块，基于分割视频数据集与重新初始化的分割网络拓扑结构，进行局部搜索，进行局部搜索时以预期指导的迭代局部搜索，以确定在全局搜索结构之上的更精细的膨胀率，得到性能更优的感受野组合；

9.一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征是，所述处理器执行所述程序时实现上述权利要求1-6任一所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征是，该程序被处理器执行时执行上述权利要求1-6任一所述方法的步骤。