CN111950393A - 一种基于边界搜索智能体的时序动作片段分割方法 - Google Patents

一种基于边界搜索智能体的时序动作片段分割方法 Download PDF

Info

Publication number
CN111950393A
CN111950393A CN202010722304.4A CN202010722304A CN111950393A CN 111950393 A CN111950393 A CN 111950393A CN 202010722304 A CN202010722304 A CN 202010722304A CN 111950393 A CN111950393 A CN 111950393A
Authority
CN
China
Prior art keywords
action
unit
boundary
sequence
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010722304.4A
Other languages
English (en)
Other versions
CN111950393B (zh
Inventor
李平
曹佳晨
陈乐聪
徐向华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202010722304.4A priority Critical patent/CN111950393B/zh
Publication of CN111950393A publication Critical patent/CN111950393A/zh
Application granted granted Critical
Publication of CN111950393B publication Critical patent/CN111950393B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于边界搜索智能体的时序动作片段分割方法。本发明方法首先对视频采样处理,获得视频帧图像序列,通过特征提取器获得视频帧单元编码序列,然后构建动作发现网络获得动作单元,通过生成的边界搜索智能体得到动作单元所属动作片段的时序边界。本发明利用动作发现——边界搜索两阶段模型对视频帧之间的时序关系进行刻画,使用执行——评判网络结构的边界搜索智能体建立评判模型用于衡量边界搜索策略的优劣,基于强化学习机制设计具有记忆功能的智能体对动作边界进行跳转式搜索,更符合人的记忆机制和搜索习惯,通过双向迭代检测方法定位动作片段的时序边界,大幅提升了时序动作片段分割的平均精度,提高动作片段所属类别的识别率。

Description

一种基于边界搜索智能体的时序动作片段分割方法
技术领域
本发明属于视频理解与分析中的时序动作定位技术领域,涉及一种基于边界搜索智能体的时序动作片段分割方法。
背景技术
在当今的大数据时代,视频凭借其内容直观、表现形式丰富等特点成为体量最大的传播媒介,各类视频网站和短视频平台不间断地产生海量流数据。实际应用场景如自动驾驶,往往需要知晓视频中发生了什么动作什么时候发生的,因此,动作理解已成为计算机视觉领域的热点研究问题,尤其是时序动作片段分割。该任务的目标是根据动作的开始时间与结束时间将原始视频中的目标片段分割出来,即预测目标动作片段的时序边界和类别标记。其中,时序边界包括动作片段的开始帧位置(即开始时间)和结束帧位置(即结束时间),类别标记指动作片段所属的类别。时序动作片段分割的研究能够辅助其他视频理解任务的发展,如为动作识别任务提供剪辑好的视频片段、为视频描述任务提供动作的类别标记以及帮助异常事件捕捉任务提供时序标注信息等。
视频和动作实例的时长不一致、动作实例呈稀疏分布,以及时序边界模糊等困难为时序动作片段分割任务带来巨大挑战。一般来说,该任务可简化为两个模块:动作提议生成和动作提议处理。其中,动作提议生成的目标是粗略生成仅有时序边界而无类别标记的动作片段提议,希望通过尽可能少的提议召回尽可能多的动作实例;动作提议处理的目标是对提议进行类别标记的预测和时序边界的调整,最后经过评估筛选获得动作片段。然而,相关研究通过追踪人搜索视频中动作实例的行为发现,人倾向于快速地搜索与目标动作相关的内容节点,随后再向节点的前后搜索该动作实例的开始时间与结束时间,从而实现时序动作片段分割。受此启发,研究人员提出其前驱任务——动作发现(Action Spotting),目标是找到动作实例的开始时间至结束时间区段内的任意时间点,即定位与目标动作相关的某个内容节点。
通常,人在发现动作的过程中会观察视频并在大脑中生成时间点搜索序列,为了让机器模拟类似过程,研究人员提出基于时间点搜索序列的动作搜索模型,具体使用长短期记忆(LSTM:Long Short-Term Memory)网络将动作发现前驱任务转化为序列预测问题,每一时间步的预测对应搜索序列的时间点。近来,基于强化学习的方法被用于分割时序动作片段,例如:帧快速浏览模型以单帧图像为输入,下一时间步跳转偏置为输出,迭代搜索目标动作片段,端到端地完成任务;自适应提议模型(SAP:Self-Adaptive Proposal)将提议生成作为前驱任务,智能体可通过调整时序窗口的位置或者时序宽度的动作对动作实例进行定位,完成提议生成任务。
上述已有的方法存在以下明显缺点:第一,人类的搜索策略不完全适用计算机,机器需通过强化学习得到更高效、更合适的搜索策略;第二,受限于理论研究和硬件要求,强化学习难以高效准确地同时完成时序动作定位任务和动作发现任务;第三,帧快速浏览模型仅输入单帧图像,信息量不足造成时序边界预测不准确,边界需要结合动作内容及其上下文特征进行搜索。由此,迫切需要设计通过提高时序边界搜索精度从而增强时序动作片段分割性能的方法。
发明内容
本发明的目的就是针对现有技术的不足,提供一种基于边界搜索智能体的时序动作片段分割方法,从人的搜索习惯出发,采用动作发现——边界搜索两阶段模型,通过具有记忆功能的智能体对动作边界进行跳转式搜索,从而高效分割动作实例所在的视频片段。
本发明方法首先获取视频数据集合,然后进行如下操作:
步骤(1).对视频采样处理获得视频帧图像序列,然后通过特征提取器获得视频帧单元编码序列;
步骤(2).构建动作发现网络,输入为视频帧单元编码序列,输出为视频帧单元的类别预测向量序列,据此获得动作单元;
步骤(3).生成边界搜索智能体,输入为动作单元,输出为动作单元所属动作片段的时序边界;
步骤(4).对新视频根据动作发现网络获得动作单元,通过边界搜索智能体获得动作片段的时序边界,然后进行去重处理,完成时序动作片段分割任务。
进一步,步骤(1)具体是:
(1-1).对单个视频V,以每秒25帧的采样率处理为视频帧图像帧序列集合
Figure BDA0002600461310000021
Figure BDA0002600461310000022
fi表示序列中第i幅宽为w高为h的RGB三通道图像,N为视频总帧数;
(1-2).将帧序列集合Vf划分成N/nu个连续不重叠的视频帧单元序列
Figure BDA0002600461310000023
nu为一个单元包含的帧数,
Figure BDA0002600461310000024
为向下取整函数,j为视频帧单元的索引;其中,视频V包含动作实例标记信息,标记信息记为
Figure BDA0002600461310000025
M表示不含背景片段视频动作实例数目,sm表示第m个动作片段动作开始单元索引,em表示第m个动作片段动作结束单元索引,cm表示第m个动作片段动作类别;
(1-3).采用训练好的三维卷积神经网络作为特征提取器φ,视频帧单元序列
Figure BDA0002600461310000031
经过特征提取器φ得到视频帧单元编码序列
Figure BDA0002600461310000032
Figure BDA0002600461310000033
表示第j个帧单元的特征向量。
再进一步,步骤(2)具体是:
(2-1).输入视频帧单元编码序列U,通过多层全连接层构建动作发现网络;
(2-2).根据视频动作实例的标记信息
Figure BDA0002600461310000034
得到视频帧单元编码序列U对应的单元类别标记序列
Figure BDA0002600461310000035
其中cj∈{0,1,2,…,K}表示第j个帧单元对应的动作类别,K为动作类别总数,背景类别记为cj=0;
(2-3).采用Softmax层为输出层且交叉熵为损失函数,输出为视频帧单元的类别预测向量序列
Figure BDA0002600461310000036
其中
Figure BDA0002600461310000037
假定第j个帧单元对应动作类别k的输出概率为
Figure BDA0002600461310000038
Softmax层的计算式为
Figure BDA0002600461310000039
Figure BDA00026004613100000310
表示Softmax层的输入,即未归一化的概率得分,e为自然底数,得到单元对应的类别概率归一化向量
Figure BDA00026004613100000311
利用随机梯度下降算法优化训练网络模型,并通过过反向传播方式更新模型参数;
将第j个帧单元的真实类别标记为cj,则其交叉熵损失函数为
Figure BDA00026004613100000312
Figure BDA00026004613100000313
表示单元对应动作类别k的真实概率,
Figure BDA00026004613100000314
表示单元对应动作类别k的预测概率,由于仅
Figure BDA00026004613100000315
其余类别的真实概率为0,简化为
Figure BDA00026004613100000316
其中
Figure BDA00026004613100000317
为单元标记类别cj对应的预测概率;
根据单元对应的类别概率归一化向量yj,得到单元类别预测序列
Figure BDA00026004613100000318
其中第j个帧单元的预测类别标记
Figure BDA00026004613100000319
Figure BDA00026004613100000320
的帧单元记为动作单元的索引集合
Figure BDA00026004613100000321
其中xq为第q个动作单元索引,Nact为动作单元数量。
更进一步,步骤(3)具体是:
(3-1).根据动作实例标记信息
Figure BDA00026004613100000322
得到动作实例
Figure BDA00026004613100000323
获得
Figure BDA00026004613100000324
其中
Figure BDA00026004613100000325
为实例动作单元索引,
Figure BDA00026004613100000326
为其对应的时序边界索引,
Figure BDA00026004613100000327
为实例动作单元数量;
(3-2).通过多层全连接层生成边界搜索智能体,具体包括记忆模块、执行网络和评判网络;其中,记忆模块用于记录历史行为,执行网络学习输出行为分别寻找动作单元对应的开始边界和结束边界,评判网络估计各行为的后续累积奖赏辅助执行网络;其中,记忆模块包含一个固定大小u+1的记忆及其对应的可学习权重向量
Figure BDA0002600461310000041
在某一时间步t,记录前u个时间步所观察的视频单元特征序列
Figure BDA0002600461310000042
和动作单元x0的特征序列
Figure BDA0002600461310000043
智能体在时间步t能够观察到的状态向量为
Figure BDA0002600461310000044
为记忆模块中
Figure BDA0002600461310000045
的所有视频单元特征的堆叠;
执行网络中所有全连接层的权重参数和偏置参数统一表示为θa,智能体行为空间表示为
Figure BDA0002600461310000046
其中dbg为所有视频中背景持续时间的平均值,a为智能体行为;智能体从动作单元x0出发,在某一时间步t,输入为状态向量Bt,输出当前时间步t的行为at;当at=0时,智能体判定当前观察的视频单元是x0所属动作片段的时序边界,当at≠0时,智能体跳转至其他视频单元索引xt+1=xt+at
评判网络中所有全连接层的权重参数和偏置参数统一表示为θv,在某一时间步t,输入为状态向量Bt,估计当前状态的后续累积奖赏期望值为Ω(Bt;θv)≈E[rt+1+γrt+2+…+γn'-1rt+n'|Bt],其中rt表示时间步t行为的单步奖赏,n'为智能体与环境交互时每个回合的总步数,γ∈[0,1]为奖赏折扣系数,E[·]表示数学期望;
(3-3).在训练中,仅对发现行为进行奖赏,在某一时间步t,其状态向量为Bt,智能体发现边界单元xt,假设初始动作单元索引为
Figure BDA0002600461310000047
和动作实例边界为
Figure BDA0002600461310000048
Figure BDA0002600461310000049
为开始边界单元索引,
Figure BDA00026004613100000410
为结束边界单元索引,则奖赏函数rhit为:
Figure BDA00026004613100000411
其中,σ>0为基线奖赏值,Igt为初始动作单元
Figure BDA00026004613100000412
的动作实例边界邻域的单元索引
Figure BDA00026004613100000413
正整数ε用于限定邻域范围大小,
Figure BDA00026004613100000414
为中心奖赏,常数k>0用于控制rcenter奖赏程度,
Figure BDA0002600461310000051
为边界单元索引,
Figure BDA0002600461310000052
为步数奖赏,n为发现该动作实例耗费的时间步数,nideal为发现一个动作实例耗费的理想步数,η>0为奖赏惩罚值,p<0为没有正确发现动作实例时的惩罚值;当智能体沿动作单元前向搜索开始边界时,
Figure BDA0002600461310000053
当智能体沿动作单元后向搜索结束边界时,
Figure BDA0002600461310000054
Figure BDA0002600461310000055
评判网络的损失函数Lcri=(rt+Ω(Bt;θv)-Ω(Bt+1;θv))2的更新目标是最小化损失函数Lc,使得网络能更准确估计某一状态后续的累积奖赏,并通过随机梯度下降方法更新网络参数θv;执行网络的损失函数为Lact=logπ(at|Bt;θa)A(Bt,at;θav),π(at|Bt;θa)为智能体搜索策略,即智能体根据当前状态向量Bt执行行为at的概率,A(Bt,at;θav)=rt+Ω(Bt;θv)-Ω(Bt+1;θv)为优势函数,其更新目标是在状态Bt能获得最大累计奖赏的行为概率,在保持参数θv不变的同时通过随机梯度上升方法更新网络参数θa
又进一步,步骤(4)具体是:
(4-1).对于新视频利用(1-1)获得视频帧图像序列
Figure BDA0002600461310000056
通过(1-2)和(1-3)获得其帧单元编码序列
Figure BDA0002600461310000057
(4-2).将帧单元编码序列U'输入至步骤(2)构建的动作发现网络中,得到动作单元索引集合
Figure BDA0002600461310000058
将动作单元索引集合X'的动作单元输入步骤(3)的边界搜索智能体中,则智能体输出各动作单元所属动作片段的时序边界
Figure BDA0002600461310000059
s'q和e'q分别表示第q个动作单元的开始时间和结束时间;
(4-3).对于新视频V',得到初步的动作片段分割结果
Figure BDA00026004613100000510
通过(2-3)中视频单元对应的类别概率归一化向量
Figure BDA00026004613100000511
计算各个动作片段在所有动作类别上的得分序列
Figure BDA00026004613100000512
其中pq为第q个动作片段在各类别上的得分向量,分别根据cq=argmax(pq)和Oq=max(pq)得到第q个动作片段对应的类别和得分;
(4-4).使用非极大值抑制算法进行去重处理,即剔除各动作片段之间的时序重叠度大于设定阈值τ的重复动作片段,仅保留动作得分更高的片段,最终从原始视频中分割获得Nfinal个动作片段
Figure BDA0002600461310000061
τ=0.2~0.4,集合元素的三个值分别对应动作的开始时间、结束时间、动作类别。
本发明方法利用边界搜索智能体对视频动作的片段进行分割,与现有方法相比的不同点主要有如下几方面:1)相比传统单一阶段模型,本方法提出一种新的解决方案,即使用动作发现任务与边界搜索任务两阶段完成时序动作片段的分割任务;2)相比动作搜索模型,本方法使用执行——评判网络结构的边界搜索智能体,建立评判模型衡量边界搜索策略的优劣,提升执行网络的性能;3)该方法基于人的动作片段搜索习惯,提出基于强化学习的边界搜索智能体;4)使用记忆模块记录智能体历史行为,结合历史做出当前行为最优决策,能够提高智能体的搜索效率。
本发明方法适用于通过强化学习进行视频动作片段分割的任务,优点在于:1)使用执行-评判结构的网络,通过评判网络评价执行网络策略优劣,指导其往更优策略学习;2)通过深度神经网络完成动作发现任务,在确保整体方法的召回率较高条件下,使用强化学习完成边界搜索任务提高准确率;3)设计记忆模块结合历史行为进行当前智能体行为的决策,使得动作片段分割模型做出更合理的行为。该方法模拟人的搜索方法,一方面,从强化学习的角度设计具有记忆功能的智能体学习更优的搜索策略;另一方面,从边界搜索的角度出发提出双向迭代检测方法定位动作片段的时序边界;可以大幅提升时序动作片段分割任务的性能,可应用于智慧交通、园区安防、异常检测等实际应用场景。
附图说明
图1是本发明方法的流程图。
具体实施方式
以下结合附图对本发明作进一步说明。
一种基于边界搜索智能体的时序动作片段分割方法,首先对视频采样处理,获得视频帧图像序列,通过特征提取器获得视频帧单元编码序列,然后构建动作发现网络模型获得动作单元,再根据生成的边界搜索智能体输出动作单元所属动作片段的时序边界。该方法利用动作发现——边界搜索两阶段模型刻画视频帧的时序动作关系,设计具有记忆功能的智能体对动作边界进行跳转式搜索更符合人的记忆机制和搜索习惯,通过去重处理得到更为精确的动作时序边界。
如图1,该方法首先获取视频数据集合,然后进行以下操作:
步骤(1).对视频采样处理获得视频帧图像序列,然后通过特征提取器获得视频帧单元编码序列;具体是:
(1-1).对单个视频V,以每秒25帧的采样率处理为视频帧图像帧序列集合
Figure BDA0002600461310000071
Figure BDA0002600461310000072
fi表示序列中第i幅宽为w高为h的RGB三通道图像,N表示视频总帧数;
(1-2).将帧序列集合Vf划分成N/nu个连续不重叠的视频帧单元序列
Figure BDA0002600461310000073
nu为一个单元包含的帧数,例如取8帧,
Figure BDA0002600461310000074
为向下取整函数,j为视频帧单元的索引;其中,视频V包含动作实例标记信息,标记信息记为
Figure BDA0002600461310000075
M表示不含背景片段视频动作实例数目,sm表示第m个动作片段动作开始单元索引,em表示第m个动作片段动作结束单元索引,cm表示第m个动作片段动作类别;
(1-3).采用训练好的三维卷积神经网络(C3D)作为特征提取器φ,视频帧单元序列
Figure BDA0002600461310000076
经过特征提取器φ得到视频帧单元编码序列
Figure BDA0002600461310000077
其中
Figure BDA0002600461310000078
表示第j个帧单元的特征向量。
步骤(2).构建动作发现网络,输入为视频帧单元编码序列,输出为视频帧单元的类别预测向量序列,据此获得动作单元;具体是:
(2-1).输入视频帧单元编码序列U,通过多层全连接层构建动作发现网络;
(2-2).根据视频动作实例的标记信息
Figure BDA0002600461310000079
得到视频帧单元编码序列U对应的单元类别标记序列
Figure BDA00026004613100000710
其中cj∈{0,1,2,…,K}表示第j个帧单元对应的动作类别,K为动作类别总数,背景类别记为cj=0;
(2-3).采用Softmax层为输出层且交叉熵为损失函数,输出为视频帧单元的类别预测向量序列
Figure BDA00026004613100000711
其中
Figure BDA00026004613100000712
假定第j个帧单元对应动作类别k的输出概率为
Figure BDA00026004613100000713
Softmax层的计算式为
Figure BDA00026004613100000714
k=0,1,...,K,其中
Figure BDA00026004613100000715
表示Softmax层的输入,即未归一化的概率得分(Logits),e表示自然底数,得到单元对应的类别概率归一化向量
Figure BDA00026004613100000716
利用随机梯度下降算法优化训练网络模型,并通过过反向传播方式更新模型参数;
将第j个帧单元的真实类别标记为cj,则其交叉熵损失函数为
Figure BDA00026004613100000717
其中
Figure BDA00026004613100000718
表示单元对应动作类别k的真实概率,
Figure BDA00026004613100000719
表示单元对应动作类别k的预测概率,由于仅
Figure BDA0002600461310000081
其余类别的真实概率为0,上述计算可简化为
Figure BDA0002600461310000082
其中
Figure BDA0002600461310000083
为单元标记类别cj对应的预测概率;
根据单元对应的类别概率归一化向量yj,得到单元类别预测序列
Figure BDA0002600461310000084
其中第j个帧单元的预测类别标记
Figure BDA0002600461310000085
Figure BDA0002600461310000086
的帧单元记为动作单元的索引集合
Figure BDA0002600461310000087
其中xq为第q个动作单元索引,Nact为动作单元数量。
步骤(3).生成边界搜索智能体,输入为动作单元,输出为动作单元所属动作片段的时序边界;具体是:
(3-1).根据动作实例标记信息
Figure BDA0002600461310000088
得到动作实例
Figure BDA0002600461310000089
获得
Figure BDA00026004613100000810
其中
Figure BDA00026004613100000811
为实例动作单元索引,
Figure BDA00026004613100000812
为其对应的时序边界索引,
Figure BDA00026004613100000813
为实例动作单元数量;
(3-2).通过多层全连接层生成边界搜索智能体,具体包括记忆模块、执行网络和评判网络;其中,记忆模块用于记录历史行为,执行网络学习输出行为分别寻找动作单元对应的开始边界和结束边界,评判网络估计各行为的后续累积奖赏辅助执行网络;其中,记忆模块包含一个固定大小u+1的记忆及其对应的可学习权重向量
Figure BDA00026004613100000814
在某一时间步t,记录前u个时间步所观察的视频单元特征序列
Figure BDA00026004613100000815
和动作单元x0的特征序列
Figure BDA00026004613100000816
智能体在时间步t能够观察到的状态向量为
Figure BDA00026004613100000817
为记忆模块中
Figure BDA00026004613100000818
的所有视频单元特征的堆叠;
执行网络中所有全连接层的权重参数和偏置参数统一表示为θa,智能体行为空间表示为
Figure BDA00026004613100000819
其中dbg为所有视频中背景持续时间的平均值,a为智能体行为(即智能体跳转的偏置);智能体从动作单元x0出发,在某一时间步t,输入为状态向量Bt,输出当前时间步t的行为at;当at=0时,智能体判定当前观察的视频单元是x0所属动作片段的时序边界,当at≠0时,智能体跳转至其他视频单元索引xt+1=xt+at
评判网络中所有全连接层的权重参数和偏置参数统一表示为θv,在某一时间步t,输入为状态向量Bt,估计当前状态的后续累积奖赏期望值为Ω(Bt;θv)≈E[rt+1+γrt+2+…+γn'-1rt+n'|Bt],其中rt表示时间步t行为的单步奖赏,n'为智能体与环境交互时每个回合的总步数,γ∈[0,1]为奖赏折扣系数,E[·]表示数学期望;
(3-3).在训练中,仅对发现行为进行奖赏,在某一时间步t,其状态向量为Bt,智能体发现边界单元xt,假设初始动作单元索引为
Figure BDA0002600461310000091
和动作实例边界为
Figure BDA0002600461310000092
Figure BDA0002600461310000093
为开始边界单元索引,
Figure BDA0002600461310000094
为结束边界单元索引,则奖赏函数rhit为:
Figure BDA0002600461310000095
其中,σ>0为基线奖赏值,Igt为初始动作单元
Figure BDA0002600461310000096
的动作实例边界邻域的单元索引
Figure BDA0002600461310000097
正整数ε用于限定邻域范围大小,
Figure BDA0002600461310000098
为中心奖赏,常数k>0用于控制rcenter奖赏程度,
Figure BDA0002600461310000099
为边界单元索引,
Figure BDA00026004613100000910
为步数奖赏,n为发现该动作实例耗费的时间步数,nideal为发现一个动作实例耗费的理想步数,η>0为奖赏惩罚值,p<0为没有正确发现动作实例时的惩罚值;当智能体沿动作单元前向搜索开始边界时,
Figure BDA00026004613100000911
Figure BDA00026004613100000912
当智能体沿动作单元后向搜索结束边界时,
Figure BDA00026004613100000913
Figure BDA00026004613100000914
评判网络的损失函数Lcri=(rt+Ω(Bt;θv)-Ω(Bt+1;θv))2的更新目标是最小化损失函数Lc,使得网络能更准确估计某一状态后续的累积奖赏,并通过随机梯度下降方法更新网络参数θv;执行网络的损失函数为Lact=logπ(at|Bt;θa)A(Bt,at;θav),π(at|Bt;θa)为智能体搜索策略,即智能体根据当前状态向量Bt执行行为at的概率,A(Bt,at;θav)=rt+Ω(Bt;θv)-Ω(Bt+1;θv)为优势函数(Advantage Function),其更新目标是在状态Bt能获得最大累计奖赏的行为概率,在保持参数θv不变的同时通过随机梯度上升方法更新网络参数θa
步骤(4).对新视频根据动作发现网络获得动作单元,通过边界搜索智能体获得动作片段的时序边界,然后进行去重处理,完成时序动作片段分割任务;具体是:
(4-1).对于新视频利用(1-1)获得视频帧图像序列
Figure BDA00026004613100000915
通过(1-2)和(1-3)获得其帧单元编码序列
Figure BDA00026004613100000916
(4-2).将(4-1)的视频帧单元编码序列U'输入至(2)构建的动作发现网络中,得到动作单元索引集合
Figure BDA0002600461310000101
将动作单元索引集合X'的动作单元输入(3)的边界搜索智能体中,则智能体输出各动作单元所属动作片段的时序边界
Figure BDA0002600461310000102
s'q和e'q分别表示第q个动作单元的开始时间和结束时间;
(4-3).对于新视频V',得到初步的动作片段分割结果
Figure BDA0002600461310000103
通过(2-3)中视频单元对应的类别概率归一化向量
Figure BDA0002600461310000104
计算各个动作片段在所有动作类别上的得分序列
Figure BDA0002600461310000105
其中pq为第q个动作片段在各类别上的得分向量,分别根据cq=argmax(pq)和Oq=max(pq)得到第q个动作片段对应的类别和得分;
(4-4).使用非极大值抑制算法进行去重处理,即剔除各动作片段之间的时序重叠度(tIoU)大于0.3的重复动作片段,仅保留动作得分更高的片段,最终从原始视频中分割获得Nfinal个动作片段
Figure BDA0002600461310000106
集合元素的三个值分别对应动作的开始时间、结束时间、动作类别。
本实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (5)

1.一种基于边界搜索智能体的时序动作片段分割方法,其特征在于,该方法首先获取视频数据集合,然后进行如下操作:
步骤(1).对视频采样处理获得视频帧图像序列,然后通过特征提取器获得视频帧单元编码序列;
步骤(2).构建动作发现网络,输入为视频帧单元编码序列,输出为视频帧单元的类别预测向量序列,据此获得动作单元;
步骤(3).生成边界搜索智能体,输入为动作单元,输出为动作单元所属动作片段的时序边界;
步骤(4).对新视频根据动作发现网络获得动作单元,通过边界搜索智能体获得动作片段的时序边界,然后进行去重处理,完成时序动作片段分割任务。
2.如权利要求1所述的一种基于边界搜索智能体的时序动作片段分割方法,其特征在于,步骤(1)具体是:
(1-1).对单个视频V,以每秒25帧的采样率处理为视频帧图像帧序列集合
Figure FDA0002600461300000011
Figure FDA0002600461300000012
fi表示序列中第i幅宽为w高为h的RGB三通道图像,N为视频总帧数;
(1-2).将帧序列集合Vf划分成N/nu个连续不重叠的视频帧单元序列
Figure FDA0002600461300000013
nu为一个单元包含的帧数,
Figure FDA0002600461300000014
为向下取整函数,j为视频帧单元的索引;其中,视频V包含动作实例标记信息,标记信息记为
Figure FDA0002600461300000015
M表示不含背景片段视频动作实例数目,sm表示第m个动作片段动作开始单元索引,em表示第m个动作片段动作结束单元索引,cm表示第m个动作片段动作类别;
(1-3).采用训练好的三维卷积神经网络作为特征提取器φ,视频帧单元序列
Figure FDA0002600461300000016
经过特征提取器φ得到视频帧单元编码序列
Figure FDA0002600461300000017
Figure FDA0002600461300000018
表示第j个帧单元的特征向量。
3.如权利要求2所述的一种基于边界搜索智能体的时序动作片段分割方法,其特征在于,步骤(2)具体是:
(2-1).输入视频帧单元编码序列U,通过多层全连接层构建动作发现网络;
(2-2).根据视频动作实例的标记信息
Figure FDA0002600461300000021
得到视频帧单元编码序列U对应的单元类别标记序列
Figure FDA0002600461300000022
其中cj∈{0,1,2,…,K}表示第j个帧单元对应的动作类别,K为动作类别总数,背景类别记为cj=0;
(2-3).采用Softmax层为输出层且交叉熵为损失函数,输出为视频帧单元的类别预测向量序列
Figure FDA0002600461300000023
其中
Figure FDA0002600461300000024
假定第j个帧单元对应动作类别k的输出概率为
Figure FDA0002600461300000025
Softmax层的计算式为
Figure FDA0002600461300000026
Figure FDA0002600461300000027
表示Softmax层的输入,即未归一化的概率得分,e为自然底数,得到单元对应的类别概率归一化向量
Figure FDA0002600461300000028
利用随机梯度下降算法优化训练网络模型,并通过过反向传播方式更新模型参数;
将第j个帧单元的真实类别标记为cj,则其交叉熵损失函数为
Figure FDA0002600461300000029
表示单元对应动作类别k的真实概率,
Figure FDA00026004613000000210
表示单元对应动作类别k的预测概率,由于仅
Figure FDA00026004613000000211
其余类别的真实概率为0,简化为
Figure FDA00026004613000000212
其中
Figure FDA00026004613000000213
为单元标记类别cj对应的预测概率;
根据单元对应的类别概率归一化向量yj,得到单元类别预测序列
Figure FDA00026004613000000214
其中第j个帧单元的预测类别标记
Figure FDA00026004613000000215
Figure FDA00026004613000000216
的帧单元记为动作单元的索引集合
Figure FDA00026004613000000217
其中xq为第q个动作单元索引,Nact为动作单元数量。
4.如权利要求3所述的一种基于边界搜索智能体的时序动作片段分割方法,其特征在于,步骤(3)具体是:
(3-1).根据动作实例标记信息
Figure FDA00026004613000000218
得到动作实例
Figure FDA00026004613000000219
获得
Figure FDA00026004613000000220
其中
Figure FDA00026004613000000221
为实例动作单元索引,
Figure FDA00026004613000000222
为其对应的时序边界索引,
Figure FDA00026004613000000223
为实例动作单元数量;
(3-2).通过多层全连接层生成边界搜索智能体,具体包括记忆模块、执行网络和评判网络;其中,记忆模块用于记录历史行为,执行网络学习输出行为分别寻找动作单元对应的开始边界和结束边界,评判网络估计各行为的后续累积奖赏辅助执行网络;其中,记忆模块包含一个固定大小u+1的记忆及其对应的可学习权重向量
Figure FDA0002600461300000031
在某一时间步t,记录前u个时间步所观察的视频单元特征序列
Figure FDA0002600461300000032
和动作单元x0的特征序列
Figure FDA0002600461300000033
智能体在时间步t能够观察到的状态向量为
Figure FDA0002600461300000034
Figure FDA0002600461300000035
为记忆模块中
Figure FDA0002600461300000036
的所有视频单元特征的堆叠;
执行网络中所有全连接层的权重参数和偏置参数统一表示为θa,智能体行为空间表示为
Figure FDA0002600461300000037
其中dbg为所有视频中背景持续时间的平均值,a为智能体行为;智能体从动作单元x0出发,在某一时间步t,输入为状态向量Bt,输出当前时间步t的行为at;当at=0时,智能体判定当前观察的视频单元是x0所属动作片段的时序边界,当at≠0时,智能体跳转至其他视频单元索引xt+1=xt+at
评判网络中所有全连接层的权重参数和偏置参数统一表示为θv,在某一时间步t,输入为状态向量Bt,估计当前状态的后续累积奖赏期望值为Ω(Bt;θv)≈E[rt+1+γrt+2+…+γn'- 1rt+n'|Bt],其中rt表示时间步t行为的单步奖赏,n'为智能体与环境交互时每个回合的总步数,γ∈[0,1]为奖赏折扣系数,E[·]表示数学期望;
(3-3).在训练中,仅对发现行为进行奖赏,在某一时间步t,其状态向量为Bt,智能体发现边界单元xt,假设初始动作单元索引为
Figure FDA0002600461300000038
和动作实例边界为
Figure FDA0002600461300000039
Figure FDA00026004613000000310
为开始边界单元索引,
Figure FDA00026004613000000311
为结束边界单元索引,则奖赏函数rhit为:
Figure FDA00026004613000000312
其中,σ>0为基线奖赏值,Igt为初始动作单元
Figure FDA00026004613000000313
的动作实例边界邻域的单元索引
Figure FDA00026004613000000314
正整数ε用于限定邻域范围大小,
Figure FDA00026004613000000315
为中心奖赏,常数k>0用于控制rcenter奖赏程度,
Figure FDA00026004613000000316
为边界单元索引,
Figure FDA00026004613000000317
为步数奖赏,n为发现该动作实例耗费的时间步数,nideal为发现一个动作实例耗费的理想步数,η>0为奖赏惩罚值,p<0为没有正确发现动作实例时的惩罚值;当智能体沿动作单元前向搜索开始边界时,
Figure FDA0002600461300000041
Figure FDA0002600461300000042
当智能体沿动作单元后向搜索结束边界时,
Figure FDA0002600461300000043
Figure FDA0002600461300000044
评判网络的损失函数Lcri=(rt+Ω(Bt;θv)-Ω(Bt+1;θv))2的更新目标是最小化损失函数Lc,使得网络能更准确估计某一状态后续的累积奖赏,并通过随机梯度下降方法更新网络参数θv;执行网络的损失函数为Lact=logπ(at|Bt;θa)A(Bt,at;θav),π(at|Bt;θa)为智能体搜索策略,即智能体根据当前状态向量Bt执行行为at的概率,A(Bt,at;θav)=rt+Ω(Bt;θv)-Ω(Bt+1;θv)为优势函数,其更新目标是在状态Bt能获得最大累计奖赏的行为概率,在保持参数θv不变的同时通过随机梯度上升方法更新网络参数θa
5.如权利要求4所述的一种基于边界搜索智能体的时序动作片段分割方法,其特征在于,步骤(4)具体是:
(4-1).对于新视频利用(1-1)获得视频帧图像序列
Figure FDA0002600461300000045
通过(1-2)和(1-3)获得其帧单元编码序列
Figure FDA0002600461300000046
(4-2).将帧单元编码序列U'输入至步骤(2)构建的动作发现网络中,得到动作单元索引集合
Figure FDA0002600461300000047
将动作单元索引集合X'的动作单元输入步骤(3)的边界搜索智能体中,则智能体输出各动作单元所属动作片段的时序边界
Figure FDA0002600461300000048
s'q和e'q分别表示第q个动作单元的开始时间和结束时间;
(4-3).对于新视频V',得到初步的动作片段分割结果
Figure FDA0002600461300000049
通过(2-3)中视频单元对应的类别概率归一化向量
Figure FDA00026004613000000410
计算各个动作片段在所有动作类别上的得分序列
Figure FDA00026004613000000411
其中pq为第q个动作片段在各类别上的得分向量,分别根据cq=argmax(pq)和Oq=max(pq)得到第q个动作片段对应的类别和得分;
(4-4).使用非极大值抑制算法进行去重处理,即剔除各动作片段之间的时序重叠度大于设定阈值τ的重复动作片段,仅保留动作得分更高的片段,最终从原始视频中分割获得Nfinal个动作片段
Figure FDA00026004613000000412
τ=0.2~0.4,集合元素的三个值分别对应动作的开始时间、结束时间、动作类别。
CN202010722304.4A 2020-07-24 2020-07-24 一种基于边界搜索智能体的时序动作片段分割方法 Active CN111950393B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010722304.4A CN111950393B (zh) 2020-07-24 2020-07-24 一种基于边界搜索智能体的时序动作片段分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010722304.4A CN111950393B (zh) 2020-07-24 2020-07-24 一种基于边界搜索智能体的时序动作片段分割方法

Publications (2)

Publication Number Publication Date
CN111950393A true CN111950393A (zh) 2020-11-17
CN111950393B CN111950393B (zh) 2021-05-04

Family

ID=73337933

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010722304.4A Active CN111950393B (zh) 2020-07-24 2020-07-24 一种基于边界搜索智能体的时序动作片段分割方法

Country Status (1)

Country Link
CN (1) CN111950393B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112261491A (zh) * 2020-12-22 2021-01-22 北京达佳互联信息技术有限公司 视频时序标注方法、装置、电子设备及存储介质
CN112434615A (zh) * 2020-11-26 2021-03-02 天津大学 一种基于Tensorflow深度学习框架的时序动作检测方法
TWI768588B (zh) * 2020-12-10 2022-06-21 國立臺灣大學 系統異常預測方法
CN115690917A (zh) * 2023-01-04 2023-02-03 南京云创大数据科技股份有限公司 一种基于外观和运动智能关注的行人动作识别方法
CN117201873A (zh) * 2023-11-07 2023-12-08 湖南博远翔电子科技有限公司 一种视频图像智能分析方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120219186A1 (en) * 2011-02-28 2012-08-30 Jinjun Wang Continuous Linear Dynamic Systems
CN109034062A (zh) * 2018-07-26 2018-12-18 南京邮电大学 一种基于时序一致性的弱监督异常行为检测方法
CN109784269A (zh) * 2019-01-11 2019-05-21 中国石油大学(华东) 一种基于时空联合的人体动作检测和定位方法
US10445582B2 (en) * 2016-12-20 2019-10-15 Canon Kabushiki Kaisha Tree structured CRF with unary potential function using action unit features of other segments as context feature
CN110602526A (zh) * 2019-09-11 2019-12-20 腾讯科技(深圳)有限公司 视频处理方法、装置、计算机设备及存储介质
CN110796069A (zh) * 2019-10-28 2020-02-14 广州博衍智能科技有限公司 一种行为检测方法、系统、设备及机器可读介质
CN111027377A (zh) * 2019-10-30 2020-04-17 杭州电子科技大学 一种双流神经网络时序动作定位方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120219186A1 (en) * 2011-02-28 2012-08-30 Jinjun Wang Continuous Linear Dynamic Systems
US10445582B2 (en) * 2016-12-20 2019-10-15 Canon Kabushiki Kaisha Tree structured CRF with unary potential function using action unit features of other segments as context feature
CN109034062A (zh) * 2018-07-26 2018-12-18 南京邮电大学 一种基于时序一致性的弱监督异常行为检测方法
CN109784269A (zh) * 2019-01-11 2019-05-21 中国石油大学(华东) 一种基于时空联合的人体动作检测和定位方法
CN110602526A (zh) * 2019-09-11 2019-12-20 腾讯科技(深圳)有限公司 视频处理方法、装置、计算机设备及存储介质
CN110796069A (zh) * 2019-10-28 2020-02-14 广州博衍智能科技有限公司 一种行为检测方法、系统、设备及机器可读介质
CN111027377A (zh) * 2019-10-30 2020-04-17 杭州电子科技大学 一种双流神经网络时序动作定位方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WEINLAND D等: "A survey of vision-based methods for action representation,segmentation and recognition", 《COMPUTER VISION AND IMAGE UNDERSTANDING》 *
罗会兰等: "基于深度学习的视频中人体动作识别进展综述", 《电子学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434615A (zh) * 2020-11-26 2021-03-02 天津大学 一种基于Tensorflow深度学习框架的时序动作检测方法
TWI768588B (zh) * 2020-12-10 2022-06-21 國立臺灣大學 系統異常預測方法
CN112261491A (zh) * 2020-12-22 2021-01-22 北京达佳互联信息技术有限公司 视频时序标注方法、装置、电子设备及存储介质
CN112261491B (zh) * 2020-12-22 2021-04-16 北京达佳互联信息技术有限公司 视频时序标注方法、装置、电子设备及存储介质
US11651591B2 (en) 2020-12-22 2023-05-16 Beijing Dajia Internet Information Technology Co., Ltd. Video timing labeling method, electronic device and storage medium
CN115690917A (zh) * 2023-01-04 2023-02-03 南京云创大数据科技股份有限公司 一种基于外观和运动智能关注的行人动作识别方法
CN117201873A (zh) * 2023-11-07 2023-12-08 湖南博远翔电子科技有限公司 一种视频图像智能分析方法及装置
CN117201873B (zh) * 2023-11-07 2024-01-02 湖南博远翔电子科技有限公司 一种视频图像智能分析方法及装置

Also Published As

Publication number Publication date
CN111950393B (zh) 2021-05-04

Similar Documents

Publication Publication Date Title
CN111950393B (zh) 一种基于边界搜索智能体的时序动作片段分割方法
Zhong et al. Hierarchical tracking by reinforcement learning-based searching and coarse-to-fine verifying
CN109146921B (zh) 一种基于深度学习的行人目标跟踪方法
CN107679465B (zh) 一种基于生成网络的行人重识别数据生成和扩充方法
CN110874578B (zh) 一种基于强化学习的无人机视角车辆识别追踪方法
US10671895B2 (en) Automated selection of subjectively best image frames from burst captured image sequences
CN111198964B (zh) 图像检索方法及系统
US20210366025A1 (en) Item recommendation method based on user intention in session and system thereof
CN109543615B (zh) 一种基于多级特征的双学习模型目标跟踪方法
CN111581545B (zh) 一种召回文档的排序方法及相关设备
CN110765854A (zh) 一种视频动作识别方法
CN109087337B (zh) 基于分层卷积特征的长时间目标跟踪方法及系统
CN113963304B (zh) 基于时序-空间图的跨模态视频时序动作定位方法及系统
Huang et al. Sap: Self-adaptive proposal model for temporal action detection based on reinforcement learning
CN112116593A (zh) 一种基于基尼指数的领域自适应语义分割方法
CN111008991B (zh) 一种背景感知的相关滤波目标跟踪方法
CN111105442B (zh) 切换式目标跟踪方法
CN112668438A (zh) 红外视频时序行为定位方法、装置、设备及存储介质
CN112015947A (zh) 一种语言描述引导的视频时序定位方法、系统
CN116259108A (zh) 动作质量评估方法和装置、动作质量评估模型训练方法
Zhou et al. SiamET: a Siamese based visual tracking network with enhanced templates
CN110751005B (zh) 融合深度感知特征和核极限学习机的行人检测方法
CN110990678A (zh) 基于增强型循环神经网络的轨迹相似性计算方法
Li et al. Active temporal action detection in untrimmed videos via deep reinforcement learning
CN117576149A (zh) 一种基于注意力机制的单目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant