CN112926492B

CN112926492B - 一种基于单帧监督的时序行为检测方法及系统

Info

Publication number: CN112926492B
Application number: CN202110291231.2A
Authority: CN
Inventors: 宋砚; 王彬; 舒祥波
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2021-03-18
Filing date: 2021-03-18
Publication date: 2022-08-12
Anticipated expiration: 2041-03-18
Also published as: CN112926492A

Abstract

本发明涉及一种基于单帧监督的时序行为检测方法及系统，本发明构建了初始时序行为检测模型，该模型包括视频处理模块、分类融合模块和动作背景挖掘模块。该模型为一个循环‑依赖系统，其中动作背景挖掘模块首先根据分类融合模块的输出和标注帧挖掘动作和背景；然后挖掘到的动作和背景又作为监督信息反过来训练时序行为检测模型，使得时序行为检测模型的训练精度进一步提高，进而提高时序行为检测的精确度。

Description

一种基于单帧监督的时序行为检测方法及系统

技术领域

本发明涉及计算机视觉技术领域，特别是涉及一种基于单帧监督的时序行为检测方法及系统。

背景技术

时序行为检测是计算机视觉领域中的热点和难点，有着广阔的应用前景，比如视频监控、医疗保健系统、娱乐环境等。视频监控技术是动作识别最为突出、应用最为广泛的应用成果。在监控系统中人体动作识别的应用主要是自动跟踪和识别，比如，自动识别跟踪可疑对象，从而实现犯罪识别和可疑活动检测的功能。其次，动作识别在医疗保健系统的应用主要是日常生活活动的监控。在研究动作识别的过程中，人们开始注意起了时序行为检测。时序行为检测不仅要识别出动作的种类，还要定位动作在视频中出现的时间位置(开始位置和结束位置)。在现实应用中，真实视频数据往往是未剪辑过的包含多个动作或没有动作的长视频，典型的就是监控视频。所以，动作检测对以上各个领域中的实际应用来说，具有更重要的研究意义。

由于全监督方法在标注上不仅费时，而且存在很大的主观性，所以目前被广泛研究是弱监督时序动作检测。比起全监督方法需要同时标注视频中发生的动作实例的开始时间、结束时间和动作类别，弱监督方法只需要标注视频中存在的动作类别。当前的弱监督方法基本都是基于卷积神经网络对视频进行特征提取，然后利用多实例学习或者注意力机制得到类激活序列进行定位操作。但是，这种方法依赖于类激活序列，即认为分数高的片段更有可能是动作，从而导致假阳性的产生，定位精度随之下降。

发明内容

本发明的目的是提供一种基于单帧监督的时序行为检测方法及系统，能够提高时序行为检测的精确度。

为实现上述目的，本发明提供了如下方案：

一种基于单帧监督的时序行为检测方法，包括：

构建初始时序行为检测模型；所述时序行为检测模型包括：视频处理模块、分类融合模块和动作背景挖掘模块；

将训练视频输入所述视频处理模块中，提取所述训练视频中图像帧和光流帧的时空特征，得到时空特征集；并对所述训练视频进行单帧标注，得到标注帧；所述时空特征集包括图像时空特征和光流时空特征；所述标注帧包括实际的动作发生的一个时间戳和动作类别；

将所述时空特征集输入所述分类融合模块中进行snippet分类，并将分类结果进行融合，得到嵌入特征集、动作分数集、类激活序列集和注意力分数集；

将所述动作分数集、所述类激活序列集和所述标注帧输入所述动作背景挖掘模块中，得到所述输入视频中的动作区域和背景区域；

将所述标注帧作为监督信息，根据所述动作分数集、所述类激活序列集、所述注意力分数集和所述动作区域和所述背景区域对所述初始时序行为检测模型进行训练，得到第一时序动作检测模型；

将所述动作区域和所述背景区域作为监督信息，根据所述嵌入特征集、所述动作分数集、所述类激活序列集和所述注意力分数集对所述第一时序动作检测模型进行训练，得到第二时序动作检测模型；

将测试视频输入所述第二时序动作检测模型进行预测，得到预测的动作发生时间和动作类别。

优选地，所述视频处理模块的确定方法为：

获取Kinetics数据集和初始I3D模型；

根据所述Kinetics数据集对所述初始I3D模型进行训练，得到所述视频处理模块。

优选地，将所述时空特征集输入所述分类融合模块中进行snippet分类，并将分类结果进行融合，得到嵌入特征集、动作分数集、类激活序列集、注意力分数集，包括：

将所述图像时空特征和所述光流时空特征分别输入到所述分类融合模块中的特征嵌入子模块中进行提取，得到图像嵌入特征和光流嵌入特征；

将所述图像时空特征和所述光流时空特征分别输入到所述分类融合模块中的类无关分类子模块中进行提取，得到图像动作分数和光流动作分数；

将所述图像时空特征和所述光流时空特征分别输入到所述分类融合模块中的类相关分类子模块中进行提取，得到图像类激活序列和光流类激活序列；

将所述图像时空特征和所述光流时空特征分别输入到所述分类融合模块中的注意力子模块中进行提取，得到图像注意力分数和光流注意力分数；

将所述图像嵌入特征和所述光流嵌入特征输入到所述分类融合模块中的双流融合子模块中进行融合，得到融合嵌入特征；

将所述图像动作分数和所述光流动作分数输入到所述双流融合子模块中进行融合，得到融合动作分数；

将所述图像类激活序列和所述光流类激活序列输入到所述双流融合子模块中进行融合，得到融合类激活序列；

将所述图像注意力分数和所述光流注意力分数输入到所述双流融合子模块中进行融合，得到融合注意力分数；

所述嵌入特征集包括所述图像嵌入特征、所述光流嵌入特征和所述融合嵌入特征；所述动作分数集包括所述图像动作分数、所述光流动作分数和所述融合动作分数；所述类激活序列集包括所述图像类激活序列、所述光流类激活序列和所述融合类激活序列；所述注意力分数集包括所述图像注意力分数、所述光流注意力分数和所述融合注意力分数。

优选地，将所述动作分数集、所述类激活序列集和所述标注帧输入所述动作背景挖掘模块中，得到所述输入视频中的动作区域和背景区域，包括：

将所述图像类激活序列输入到所述动作背景挖掘模块中的动作挖掘子模块中，根据第一阈值对所述图像类激活序列进行划分，得到第一划分集；

将所述光流类激活序列输入到所述动作挖掘子模块中，根据第二阈值对所述光流类激活序列进行划分，得到第二划分集；

将所述融合类激活序列输入到所述动作挖掘子模块中，根据第三阈值对所述融合类激活序列进行划分，得到第三划分集；

将所述图像动作分数输入到所述动作挖掘子模块中，根据第四阈值对所述图像动作分数进行划分，得到第四划分集；

将所述光流动作分数输入到所述动作挖掘子模块中，根据第五阈值对所述图像动作分数进行划分，得到第五划分集；

将所述融合动作分数输入到所述动作挖掘子模块中，根据第六阈值对所述融合动作分数进行划分，得到第六划分集；

将所述第一划分集和所述第四划分集中含有相同所述标注帧的序列输入到所述动作挖掘子模块进行合并，得到第一扩充集；将所述第二划分集和所述第五划分集中含有相同所述标注帧的序列输入到所述动作挖掘子模块进行合并，得到第二扩充集；将所述第三划分集和所述第六划分集中含有相同所述标注帧的序列输入到所述动作挖掘子模块进行合并，得到第三扩充集；

将所述第一扩充集、所述第二扩充集和所述第三扩充集进行合并，得到所述动作区域；

将所述图像类激活序列和所述图像动作分数输入到所述动作背景挖掘模块中的背景挖掘子模块中进行融合，得到第一修正预测值；将所述光流类激活序列和所述光流动作分数输入到所述背景挖掘子模块进行融合，得到第二修正预测值；将所述融合类激活序列和所述融合动作分数输入到所述背景挖掘子模块进行融合，得到第三修正预测值；

分别根据所述第一修正预测值、第二修正预测值和第三修正预测值对对应的所述第一划分集、所述第二划分集和所述第三划分集进行筛选，对应得到含有标注帧的集合的第一高置信度集、第二高置信度集和第三高置信度集；

分别计算所述第一高置信度集、所述第二高置信度集和所述第三高置信度集中每个所述标注帧的序列的置信度分数，对应得到第一置信度分数、第二置信度分数和第三置信度分数；根据所述第一置信度分数、所述第二置信度分数和所述第三置信度分数分别对所述第一扩充集、所述第二扩充集和所述第三扩充集进行划分，得到第一修正集、第二修正集和第三修正集；移除所述第一划分集、所述第二划分集和所述第三划分集中分别与所述第一修正集、所述第二修正集和所述第三修正集有重叠的集合，得到第一背景、第二背景和第三背景；

根据所述图像动作分数和所述图像类激活序列中的背景预测序列计算第一背景预测值；

根据所述光流动作分数和所述光流类激活序列中的背景预测序列计算第二背景预测值；

根据所述融合动作分数和所述融合类激活序列的背景预测序列计算第三背景预测值；

分别对所述第一背景预测值、所述第二背景预测值和所述第三背景预测值进行筛选，得到第四背景、第五背景和第六背景；

将所述第一背景、所述第二背景、所述第三背景、所述第四背景、所述第五背景和所述第六背景进行合并，得到所述背景区域。

优选地，将所述标注帧作为监督信息，根据所述动作分数集、所述类激活序列集、所述注意力分数集和所述动作区域和所述背景区域对所述初始时序行为检测模型进行训练，包括：

计算所述训练视频在所述标注帧中所有类别对应的分类分数；

根据所述所有类别对应的分类分数和真实的动作类别计算第一损失函数值；

根据所述图像类激活序列、所述动作区域和所述背景区域计算第二损失函数值；

根据所述图像动作分数、所述动作区域和所述背景区域计算第三损失函数值；

根据所述第一损失函数值、所述第二损失函数值和所述第三损失函数值训练所述初始时序行为检测模型。

优选地，将所述动作区域和所述背景区域作为监督信息，根据所述嵌入特征集、所述动作分数集、所述类激活序列集和所述注意力分数集对所述第一时序动作检测模型进行训练，包括：

根据所述图像嵌入特征、所述所述动作区域和所述背景区域计算第四损失函数；

根据所述第一损失函数值、所述第二损失函数值、所述第三损失函数值和所述第四损失函数值对所述第一时序动作检测模型进行训练。

一种基于单帧监督的时序行为检测系统，包括：

构建单元，用于构建初始时序行为检测模型；所述时序行为检测模型包括：视频处理模块、分类融合模块和动作背景挖掘模块；

提取标注单元，用于将训练视频输入所述视频处理模块中，提取所述训练视频中图像帧和光流帧的时空特征，得到时空特征集；并对所述训练视频进行单帧标注，得到标注帧；所述时空特征集包括图像时空特征和光流时空特征；所述标注帧包括实际的动作发生的一个时间戳和动作类别；

分类融合单元，用于将所述时空特征集输入所述分类融合模块中进行snippet分类，并将分类结果进行融合，得到嵌入特征集、动作分数集、类激活序列集和注意力分数集；

挖掘单元，用于将所述动作分数集、所述类激活序列集和所述标注帧输入所述动作背景挖掘模块中，得到所述输入视频中的动作区域和背景区域；

第一训练单元，用于将所述标注帧作为监督信息，根据所述动作分数集、所述类激活序列集、所述注意力分数集和所述动作区域和所述背景区域对所述初始时序行为检测模型进行训练，得到第一时序动作检测模型；

第二训练单元，用于将所述动作区域和所述背景区域作为监督信息，根据所述嵌入特征集、所述动作分数集、所述类激活序列集和所述注意力分数集对所述第一时序动作检测模型进行训练，得到第二时序动作检测模型；

测试单元，用于将测试视频输入所述第二时序动作检测模型进行预测，得到预测的动作发生时间和动作类别

优选地，所述提取标注单元包括：

提取子单元，用于将训练视频输入所述视频处理模块中，提取所述训练视频中图像帧和光流帧的时空特征，得到时空特征集；

标注子单元，用于将训练视频输入所述视频处理模块中，对所述训练视频进行单帧标注，得到标注帧；所述标注帧包括动作发生的时间和动作类别。

优选地，所述第一训练单元包括：

分类分数确定子单元，用于计算所述训练视频在所述标注帧中所有类别对应的分类分数；

第一损失函数值确定子单元，用于根据所述所有类别对应的分类分数和真实的动作类别计算第一损失函数值；

第二损失函数值确定子单元，用于根据所述图像类激活序列、所述动作区域和所述背景区域计算第二损失函数值；

第三损失函数值确定子单元，用于根据所述图像动作分数、所述动作区域和所述背景区域计算第三损失函数值；

第一训练子单元，用于根据所述第一损失函数值、所述第二损失函数值和所述第三损失函数值训练所述初始时序行为检测模型。

优选地，所述第二训练单元包括：

第四损失函数值确定子单元，用于根据所述图像嵌入特征、所述所述动作区域和所述背景区域计算第四损失函数；

第二训练子单元，用于根据所述第一损失函数值、所述第二损失函数值、所述第三损失函数值和所述第四损失函数值对所述第一时序动作检测模型进行训练。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明一种基于单帧监督的时序行为检测方法及系统提供了一个时序行为检测模型，该模型为一个循环-依赖系统，主要包含两个模块：分类融合模块和动作背景挖掘模块。本发明动作背景挖掘模块首先根据分类融合模块的输出和标注帧挖掘动作和背景作为标注数据；然后标注数据又作为监督信息反过来训练时序行为检测模型，使得时序行为检测模型的训练精度进一步提高，进而提高时序行为检测的精确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于单帧监督的时序行为检测方法的流程图；

图2为本发明提供的实施例中分类融合模块中Snippet分类模块的结构示意图；

图3为本发明提供的实施例中挖掘动作的流程示意图；

图4为本发明提供的实施例中整体方案流程图；

图5为本发明基于单帧监督的时序行为检测系统的模块连接图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明基于单帧监督的时序行为检测方法的流程图，如图1所示，本发明一种基于单帧监督的时序行为检测方法，包括：

步骤100：构建初始时序行为检测模型；所述初始时序行为检测模型包括：视频处理模块、分类融合模块和动作背景挖掘模块。

步骤200：将训练视频输入所述视频处理模块中，提取所述训练视频中图像帧和光流帧的时空特征，得到时空特征集；并对所述训练视频进行单帧标注，得到标注帧；所述时空特征集包括图像时空特征和光流时空特征；所述标注帧包括实际的动作发生的一个时间戳和动作类别。

步骤300：将所述时空特征集输入所述分类融合模块中进行snippet分类，并将分类结果进行融合，得到嵌入特征集、动作分数集、类激活序列集和注意力分数集。

步骤400：将所述动作分数集、所述类激活序列集和所述标注帧输入所述动作背景挖掘模块中，得到所述输入视频中的动作区域和背景区域。

步骤500：将所述标注帧作为监督信息，根据所述动作分数集、所述类激活序列集、所述注意力分数集和所述动作区域和所述背景区域对所述初始时序行为检测模型进行训练，得到第一时序动作检测模型。

步骤600：将所述动作区域和所述背景区域作为监督信息，根据所述嵌入特征集、所述动作分数集、所述类激活序列集和所述注意力分数集对所述第一时序动作检测模型进行训练，得到第二时序动作检测模型。

步骤700：将测试视频输入所述第二时序动作检测模型进行预测，得到预测的动作发生时间和动作类别。

优选地，所述视频处理模块的确定方法为：

获取Kinetics数据集和初始I3D模型。

作为一种可选的实施方式，本发明首先抽取视频的图像帧和光流帧，使用Kinetics数据集预训练好的I3D模型对图像帧和光流提取出视频时空特征

和

其中X^a为图像时空特征，X^f为光流时空特征，T是视频帧切分成的片段数，N＝1024是每个片段的特征维度。对视频进行单帧标注得到对应的标注信息

其中，t_l和c_l分别别是第l个标注帧对应的时间戳和动作类别，M是标注帧的数目。

将所述图像时空特征和所述光流时空特征分别输入到所述分类融合模块中的特征嵌入子模块中进行提取，得到图像嵌入特征和光流嵌入特征。

将所述图像时空特征和所述光流时空特征分别输入到所述分类融合模块中的类无关分类子模块中进行提取，得到图像动作分数和光流动作分数。

将所述图像时空特征和所述光流时空特征分别输入到所述分类融合模块中的类相关分类子模块中进行提取，得到图像类激活序列和光流类激活序列。

将所述图像时空特征和所述光流时空特征分别输入到所述分类融合模块中的注意力子模块中进行提取，得到图像注意力分数和光流注意力分数。

将所述图像嵌入特征和所述光流嵌入特征输入到所述分类融合模块中的双流融合子模块中进行融合，得到融合嵌入特征。

将所述图像动作分数和所述光流动作分数输入到所述双流融合子模块中进行融合，得到融合动作分数。

将所述图像类激活序列和所述光流类激活序列输入到所述双流融合子模块中进行融合，得到融合类激活序列。

将所述图像注意力分数和所述光流注意力分数输入到所述双流融合子模块中进行融合，得到融合注意力分数。

图2为本发明提供的实施例中分类融合模块中Snippet分类模块的结构示意图，如图2所示，本发明分类融合模块包括一个Snippet分类模块，Snippet分类模块包括特征嵌入子模块、类无关分类子模块、类相关分类子模块、和类无关注意力子模块(注意力子模块)。其中，将时空特征集输入到由一个1D时间卷积层(卷积核为3)、一个线性整流激活层和一个随机失活层构成的嵌入模块，得到图像嵌入特征

和光流嵌入特征

随后，将图像嵌入特征和光流嵌入特征分别输入到类无关分类模块(由两个1D时间卷积层、一个线性整流激活层和一个含有512个节点的全连接层构成)、类相关分类模块(由三个含有512个节点的全连接层和两个线性整流激活层构成)和注意力模块(由两个1D时间卷积层和一个线性整流激活层构成)，得到图像动作分数和

光流动作分数

图像类激活序列

光流类激活序列

图像注意力分数

和光流注意力分数

其中，N_c表示动作类别总数。比如，THUMOS数据集中有20个动作类别，那么N_c就为20。

最终将图像嵌入特征、光流嵌入特征、图像动作分数、光流动作分数、图像类激活序列、光流类激活序列、图像注意力分数和光流注意力分数输入双流融合子模块中，得到融合嵌入特征

融合动作分数

融合类激活序列

和融合注意力分数

将所述图像类激活序列输入到所述动作背景挖掘模块中的动作挖掘子模块中，根据第一阈值对所述图像类激活序列进行划分，得到第一划分集。

将所述光流类激活序列输入到所述动作挖掘子模块中，根据第二阈值对所述光流类激活序列进行划分，得到第二划分集。

将所述融合类激活序列输入到所述动作挖掘子模块中，根据第三阈值对所述融合类激活序列进行划分，得到第三划分集。

将所述图像动作分数输入到所述动作挖掘子模块中，根据第四阈值对所述图像动作分数进行划分，得到第四划分集。

将所述光流动作分数输入到所述动作挖掘子模块中，根据第五阈值对所述图像动作分数进行划分，得到第五划分集。

将所述融合动作分数输入到所述动作挖掘子模块中，根据第六阈值对所述融合动作分数进行划分，得到第六划分集。

将所述第一划分集和所述第四划分集中含有相同所述标注帧的序列输入到所述动作挖掘子模块进行合并，得到第一扩充集；将所述第二划分集和所述第五划分集中含有相同所述标注帧的序列输入到所述动作挖掘子模块进行合并，得到第二扩充集；将所述第三划分集和所述第六划分集中含有相同所述标注帧的序列输入到所述动作挖掘子模块进行合并，得到第三扩充集。

将所述第一扩充集、所述第二扩充集和所述第三扩充集进行合并，得到所述动作区域。

将所述图像类激活序列和所述图像动作分数输入到所述动作背景挖掘模块中的背景挖掘子模块中进行融合，得到第一修正预测值；将所述光流类激活序列和所述光流动作分数输入到所述背景挖掘子模块进行融合，得到第二修正预测值；将所述融合类激活序列和所述融合动作分数输入到所述背景挖掘子模块进行融合，得到第三修正预测值。

分别根据所述第一修正预测值、第二修正预测值和第三修正预测值对对应的所述第一划分集、所述第二划分集和所述第三划分集进行筛选，对应得到含有标注帧的集合的第一高置信度集、第二高置信度集和第三高置信度集。

分别计算所述第一高置信度集、所述第二高置信度集和所述第三高置信度集中每个所述标注帧的序列的置信度分数，对应得到第一置信度分数、第二置信度分数和第三置信度分数；根据所述第一置信度分数、所述第二置信度分数和所述第三置信度分数分别对所述第一扩充集、所述第二扩充集和所述第三扩充集进行划分，得到第一修正集、第二修正集和第三修正集；移除所述第一划分集、所述第二划分集和所述第三划分集中分别与所述第一修正集、所述第二修正集和所述第三修正集有重叠的集合，得到第一背景、第二背景和第三背景。

根据所述图像动作分数和所述图像类激活序列中的背景预测序列计算第一背景预测值。

根据所述光流动作分数和所述光流类激活序列中的背景预测序列计算第二背景预测值。

根据所述融合动作分数和所述融合类激活序列的背景预测序列计算第三背景预测值。

分别对所述第一背景预测值、所述第二背景预测值和所述第三背景预测值进行筛选，得到第四背景、第五背景和第六背景。

作为一种可选的实施方式，本发明提出一种新的动作背景挖掘算法获取视频中的动作区域和背景区域。图3为本发明提供的实施例中挖掘动作的流程示意图，如图3所示：

步骤S1：将类激活序列和动作分数借助阈值τ^co和阈值τ^au进行划分，得到两个集合：粗略动作片段集合(第一划分集、第二划分集和第三划分集)和辅助动作片段集合(第四划分集、第五划分集和第六划分集)。

τ^au＝min(A^a)+(max(A^a)-min(A^a))×0.5；

上述两个公式为阈值τ^co和阈值τ^ou的计算，以ψ^a和A^a为例，其中，

是从

中抽取的动作类别对应的预测序列。

步骤S2：将所述的粗略动作片段集合和辅助动作片段集合中含有相同标注帧的动作片段进行合并，得到扩充动作片段，作为潜在动作区域。

步骤S3：将粗略动作片段集合、类激活序列和动作分数，首先将类激活序列和动作分数进行融合得到修正的预测分数(第一修正预测值、第二修正预测值和第三修正预测值)

然后利用

的中值作为阈值划分

其中

是粗略动作片段的修正预测分数，筛选含有标注帧的片段，作为高置信度片段。

步骤S4：首先利用置信度公式F(t)计算扩充动作片段和高置信度片段中每个snippet的置信度分数，得到F^I和F^H。然后，把高置信片段对应F^H的中值作为阈值τ，在扩充动作片段中，从标注帧向前/后进行生长，如果F^I[i]≥τ，则更新当前时刻t为动作边界。重复步骤，直至对整个扩充动作片段完成判断，从而得到精细动作片段(第一修正集、第二修正集和第三修正集)，作为当前标注帧对应的动作区间。置信度分数计算公式：

其中，d是余弦相似度函数。为了避免粗略动作片段集合被重复计算，我们移除粗略动作片段集合中与精细动作片段有交集的动作片段，移除条件如下：

IOU(p_i,p_f)＞0；

其中，p_i是当前粗略动作片段集合中第i个动作片段，p_f是当前的精细动作片段。重复此步骤，可以得到每个标注帧对应的精细动作片段。

步骤S5：将所述粗略动作片段集合中剩余的动作片段集合作为hard-背景(第一背景、第二背景和第三背景)。

步骤S6：将所述类激活序列(ψ^a、ψ^f和ψ^F)和动作分数(A^a、A^f和A^F)，首先进行融合得到修正的背景预测分数：

以ψ^a和A^a为例，其中b是关于背景类的预测序列。然后筛选关于

的Top-k(k＝[T/8])个snippets作为evident-背景(第四背景、第五背景和第六背景)。

步骤S8：所述hard-背景与所述的evident-背景共同组成视频中的背景区域。

计算所述训练视频在所述标注帧中所有类别对应的分类分数。

根据所述所有类别对应的分类分数和真实的动作类别计算第一损失函数值。

根据所述图像类激活序列、所述动作区域和所述背景区域计算第二损失函数值。

根据所述图像动作分数、所述动作区域和所述背景区域计算第三损失函数值。

根据所述图像嵌入特征、所述所述动作区域和所述背景区域计算第四损失函数。

可选地，本发明在训练模型时，第一阶段把标注帧作为监督信息，第二阶段把将步骤4所述的动作和背景作为监督信息。模型由四个损失函数联合训练：

步骤S1：计算视频级别分类损失：首先计算视频在所有类别上的分类分数：

其中，p^a为所述分类分数，softmax()为逻辑回归函数，T为总时间，

为第t时刻的图像注意力分数，

为第t时刻的图像类激活序列。

则将预测标签p^a与真实标签y做Cross Entropy损失，具体公式如下：

其中，

为所述第一损失函数值，N_c为类别总数，y_c为第c个类别的取值，

为第c个类别的分类分数。

步骤S2：计算Snippet级别分类损失函数：根据类激活序列ψ^a和视频中的动作和背景，得到类激活序列和视频中的动作和背景，则Snippet级别分类损失函数：

其中，N表示动作的snippet数目，N_b表示背景的snippet数目，

为所述第二损失函数值，N_i表示第i个动作snippet，c_i表示第i动作snippet的动作类别，

表示第i动作snippet的对应动作类别c_i的类别激活序列，

表示第i个背景snippet对应背景类别的类激活序列，c_b表示背景类别。

步骤S3：计算动作损失函数：根据得到的动作分数A^a和视频中的动作和背景，则动作损失函数：

其中，σ表示sigmoid函数，

为所述第三损失函数值，

表示第i个动作snippet对应的动作分数，

表示第i个背景snippet对应的动作分数。

步骤S5：计算嵌入损失：得到嵌入特征E^a和视频中的动作和背景，其中我们取明显背景与动作进行随机组合，得到动作-背景对；随机组合相同类别的动作，得到动作-动作对，动作-背景对和动作-动作对共同组成集合P，则嵌入损失：

其中，Π表示指示函数，N_p表示动作-动作对和动作-背景对的数目，d表示余弦相似度函数，

为所述第四损失函数，ci表示第i个snippet的类别，cj表示第j个snippet的类别，E_i第i个动作snippet的嵌入特征，E_j表示第j个动作snippet的嵌入特征。

在本实施例中，根据所述的类激活序列

取分数大于0的所有类别作为该视频包含的动作类别，并在这些类别对应的激活序列上，选择分数大于阈值threshold的片段为动作片段，并把连续两个片段以上组成的候选动作片段为预测出的候选动作片段。其中阈值

为预测类别对应的类激活序列。

图4为本发明提供的实施例中整体方案流程图，如图4所示，图中使用预训练好的网络模型I3D对输入的视频提取时空特征后，作为训练集和测试集；将所述视频的时空特征送入Snippet分类模块中，分别得到嵌入特征、类无关注意力分数、二分类动作分数和类激活序列，并根据类无关注意力分数和类激活序列得到视频在所有类别上的分类分数；将所述二分类动作分数、类激活序列和标注帧输入到动作/背景挖掘模块，得到视频中的动作和背景；将所述RGB和光流对应的嵌入特征、类无关注意力分数、二分类动作分数和类激活序列输入到双流融合模块，得到融合后的嵌入特征、类无关注意力分数、二分类动作分数和类激活序列，并根据类无关注意力分数和类激活序列得到视频在所有类别上的分类分数，根据二分类动作分数、类激活序列和标注帧得到动作和背景。

图5为本发明基于单帧监督的时序行为检测系统的模块连接图，如图5所示，本发明一种基于单帧监督的时序行为检测系统，包括：

构建单元，用于构建初始时序行为检测模型；所述时序行为检测模型包括：视频处理模块、分类融合模块和动作背景挖掘模块。

提取标注单元，用于将训练视频输入所述视频处理模块中，提取所述训练视频中图像帧和光流帧的时空特征，得到时空特征集；并对所述训练视频进行单帧标注，得到标注帧；所述时空特征集包括图像时空特征和光流时空特征；所述标注帧包括实际的动作发生的一个时间戳和动作类别。

分类融合单元，用于将所述时空特征集输入所述分类融合模块中进行snippet分类，并将分类结果进行融合，得到嵌入特征集、动作分数集、类激活序列集和注意力分数集。

挖掘单元，用于将所述动作分数集、所述类激活序列集和所述标注帧输入所述动作背景挖掘模块中，得到所述输入视频中的动作区域和背景区域。

第一训练单元，用于将所述标注帧作为监督信息，根据所述动作分数集、所述类激活序列集、所述注意力分数集和所述动作区域和所述背景区域对所述初始时序行为检测模型进行训练，得到第一时序动作检测模型。

第二训练单元，用于将所述动作区域和所述背景区域作为监督信息，根据所述嵌入特征集、所述动作分数集、所述类激活序列集和所述注意力分数集对所述第一时序动作检测模型进行训练，得到第二时序动作检测模型。

测试单元，用于将测试视频输入所述第二时序动作检测模型进行预测，得到预测的动作发生时间和动作类别。

优选地，所述提取标注单元包括：

提取子单元，用于将训练视频输入所述视频处理模块中，提取所述训练视频中图像帧和光流帧的时空特征，得到时空特征集。

优选地，所述第一训练单元包括：

分类分数确定子单元，用于计算所述训练视频在所述标注帧中所有类别对应的分类分数。

第一损失函数值确定子单元，用于根据所述所有类别对应的分类分数和真实的动作类别计算第一损失函数值。

第二损失函数值确定子单元，用于根据所述图像类激活序列、所述动作区域和所述背景区域计算第二损失函数值。

第三损失函数值确定子单元，用于根据所述图像动作分数、所述动作区域和所述背景区域计算第三损失函数值。

优选地，所述第二训练单元包括：

第四损失函数值确定子单元，用于根据所述图像嵌入特征、所述所述动作区域和所述背景区域计算第四损失函数。

本发明的有益效果如下：

1)本发明构建了一个循环-依赖系统，包含两个模块：Snippet分类模块和动作/背景挖掘模块。具体地，动作背景挖掘模块首先根据Snippet分类模块的输出和标注帧挖掘动作和背景；然后挖掘到的动作和背景又作为监督信息反过来训练Snippet分类模块。

2)本发明根据类无关预测、类相关预测和标注帧在时间和语义上的关系，提出了一种新颖的动作背景挖掘算法，显式地挖掘视频中的动作和背景。随着模型的迭代训练，模型的定位精度会逐渐提高。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于单帧监督的时序行为检测方法，其特征在于，包括：

将所述动作分数集、所述类激活序列集和所述标注帧输入所述动作背景挖掘模块中，得到输入视频中的动作区域和背景区域；

将测试视频输入所述第二时序动作检测模型进行预测，得到预测的动作发生时间和动作类别；

将所述时空特征集输入所述分类融合模块中进行snippet分类，并将分类结果进行融合，得到嵌入特征集、动作分数集、类激活序列集、注意力分数集，包括：

2.根据权利要求1所述的基于单帧监督的时序行为检测方法，其特征在于，所述视频处理模块的确定方法为：

获取Kinetics数据集和初始I3D模型；

3.根据权利要求1所述的基于单帧监督的时序行为检测方法，其特征在于，将所述动作分数集、所述类激活序列集和所述标注帧输入所述动作背景挖掘模块中，得到输入视频中的动作区域和背景区域，包括：

4.根据权利要求1所述的基于单帧监督的时序行为检测方法，其特征在于，将所述标注帧作为监督信息，根据所述动作分数集、所述类激活序列集、所述注意力分数集和所述动作区域和所述背景区域对所述初始时序行为检测模型进行训练，包括：

5.根据权利要求4所述的基于单帧监督的时序行为检测方法，其特征在于，将所述动作区域和所述背景区域作为监督信息，根据所述嵌入特征集、所述动作分数集、所述类激活序列集和所述注意力分数集对所述第一时序动作检测模型进行训练，包括：

根据所述图像嵌入特征、所述动作区域和所述背景区域计算第四损失函数；

根据所述第一损失函数值、所述第二损失函数值、所述第三损失函数值和所述第四损失函数对所述第一时序动作检测模型进行训练。

6.一种基于单帧监督的时序行为检测系统，其特征在于，包括：

挖掘单元，用于将所述动作分数集、所述类激活序列集和所述标注帧输入所述动作背景挖掘模块中，得到输入视频中的动作区域和背景区域；

测试单元，用于将测试视频输入所述第二时序动作检测模型进行预测，得到预测的动作发生时间和动作类别；

7.根据权利要求6所述的基于单帧监督的时序行为检测系统，其特征在于，所述第一训练单元包括：

8.根据权利要求6所述的基于单帧监督的时序行为检测系统，其特征在于，所述第二训练单元包括：

第四损失函数值确定子单元，用于根据所述图像嵌入特征、所述动作区域和所述背景区域计算第四损失函数；

第二训练子单元，用于根据第一损失函数值、第二损失函数值、第三损失函数值和第四损失函数对所述第一时序动作检测模型进行训练。