CN111950393B - 一种基于边界搜索智能体的时序动作片段分割方法 - Google Patents
一种基于边界搜索智能体的时序动作片段分割方法 Download PDFInfo
- Publication number
- CN111950393B CN111950393B CN202010722304.4A CN202010722304A CN111950393B CN 111950393 B CN111950393 B CN 111950393B CN 202010722304 A CN202010722304 A CN 202010722304A CN 111950393 B CN111950393 B CN 111950393B
- Authority
- CN
- China
- Prior art keywords
- action
- unit
- boundary
- video
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于边界搜索智能体的时序动作片段分割方法。本发明方法首先对视频采样处理,获得视频帧图像序列,通过特征提取器获得视频帧单元编码序列,然后构建动作发现网络获得动作单元,通过生成的边界搜索智能体得到动作单元所属动作片段的时序边界。本发明利用动作发现——边界搜索两阶段模型对视频帧之间的时序关系进行刻画,使用执行——评判网络结构的边界搜索智能体建立评判模型用于衡量边界搜索策略的优劣,基于强化学习机制设计具有记忆功能的智能体对动作边界进行跳转式搜索,更符合人的记忆机制和搜索习惯,通过双向迭代检测方法定位动作片段的时序边界,大幅提升了时序动作片段分割的平均精度,提高动作片段所属类别的识别率。
Description
技术领域
本发明属于视频理解与分析中的时序动作定位技术领域,涉及一种基于边界搜索智能体的时序动作片段分割方法。
背景技术
在当今的大数据时代,视频凭借其内容直观、表现形式丰富等特点成为体量最大的传播媒介,各类视频网站和短视频平台不间断地产生海量流数据。实际应用场景如自动驾驶,往往需要知晓视频中发生了什么动作什么时候发生的,因此,动作理解已成为计算机视觉领域的热点研究问题,尤其是时序动作片段分割。该任务的目标是根据动作的开始时间与结束时间将原始视频中的目标片段分割出来,即预测目标动作片段的时序边界和类别标记。其中,时序边界包括动作片段的开始帧位置(即开始时间)和结束帧位置(即结束时间),类别标记指动作片段所属的类别。时序动作片段分割的研究能够辅助其他视频理解任务的发展,如为动作识别任务提供剪辑好的视频片段、为视频描述任务提供动作的类别标记以及帮助异常事件捕捉任务提供时序标注信息等。
视频和动作实例的时长不一致、动作实例呈稀疏分布,以及时序边界模糊等困难为时序动作片段分割任务带来巨大挑战。一般来说,该任务可简化为两个模块:动作提议生成和动作提议处理。其中,动作提议生成的目标是粗略生成仅有时序边界而无类别标记的动作片段提议,希望通过尽可能少的提议召回尽可能多的动作实例;动作提议处理的目标是对提议进行类别标记的预测和时序边界的调整,最后经过评估筛选获得动作片段。然而,相关研究通过追踪人搜索视频中动作实例的行为发现,人倾向于快速地搜索与目标动作相关的内容节点,随后再向节点的前后搜索该动作实例的开始时间与结束时间,从而实现时序动作片段分割。受此启发,研究人员提出其前驱任务——动作发现(Action Spotting),目标是找到动作实例的开始时间至结束时间区段内的任意时间点,即定位与目标动作相关的某个内容节点。
通常,人在发现动作的过程中会观察视频并在大脑中生成时间点搜索序列,为了让机器模拟类似过程,研究人员提出基于时间点搜索序列的动作搜索模型,具体使用长短期记忆(LSTM:Long Short-Term Memory)网络将动作发现前驱任务转化为序列预测问题,每一时间步的预测对应搜索序列的时间点。近来,基于强化学习的方法被用于分割时序动作片段,例如:帧快速浏览模型以单帧图像为输入,下一时间步跳转偏置为输出,迭代搜索目标动作片段,端到端地完成任务;自适应提议模型(SAP:Self-Adaptive Proposal)将提议生成作为前驱任务,智能体可通过调整时序窗口的位置或者时序宽度的动作对动作实例进行定位,完成提议生成任务。
上述已有的方法存在以下明显缺点:第一,人类的搜索策略不完全适用计算机,机器需通过强化学习得到更高效、更合适的搜索策略;第二,受限于理论研究和硬件要求,强化学习难以高效准确地同时完成时序动作定位任务和动作发现任务;第三,帧快速浏览模型仅输入单帧图像,信息量不足造成时序边界预测不准确,边界需要结合动作内容及其上下文特征进行搜索。由此,迫切需要设计通过提高时序边界搜索精度从而增强时序动作片段分割性能的方法。
发明内容
本发明的目的就是针对现有技术的不足,提供一种基于边界搜索智能体的时序动作片段分割方法,从人的搜索习惯出发,采用动作发现——边界搜索两阶段模型,通过具有记忆功能的智能体对动作边界进行跳转式搜索,从而高效分割动作实例所在的视频片段。
本发明方法首先获取视频数据集合,然后进行如下操作:
步骤(1).对视频采样处理获得视频帧图像序列,然后通过特征提取器获得视频帧单元编码序列;
步骤(2).构建动作发现网络,输入为视频帧单元编码序列,输出为视频帧单元的类别预测向量序列,据此获得动作单元;
步骤(3).生成边界搜索智能体,输入为动作单元,输出为动作单元所属动作片段的时序边界;
步骤(4).对新视频根据动作发现网络获得动作单元,通过边界搜索智能体获得动作片段的时序边界,然后进行去重处理,完成时序动作片段分割任务。
进一步,步骤(1)具体是:
(1-2).将帧序列集合Vf划分成N/nu个连续不重叠的视频帧单元序列nu为一个单元包含的帧数,为向下取整函数,j为视频帧单元的索引;其中,视频V包含动作实例标记信息,标记信息记为M表示不含背景片段视频动作实例数目,sm表示第m个动作片段动作开始单元索引,em表示第m个动作片段动作结束单元索引,cm表示第m个动作片段动作类别;
再进一步,步骤(2)具体是:
(2-1).输入视频帧单元编码序列U,通过多层全连接层构建动作发现网络;
(2-3).采用Softmax层为输出层且交叉熵为损失函数,输出为视频帧单元的类别预测向量序列其中假定第j个帧单元对应动作类别k的输出概率为Softmax层的计算式为 表示Softmax层的输入,即未归一化的概率得分,e为自然底数,得到单元对应的类别概率归一化向量利用随机梯度下降算法优化训练网络模型,并通过过反向传播方式更新模型参数;
将第j个帧单元的真实类别标记为cj,则其交叉熵损失函数为 表示单元对应动作类别k的真实概率,表示单元对应动作类别k的预测概率,由于仅其余类别的真实概率为0,简化为其中为单元标记类别cj对应的预测概率;
更进一步,步骤(3)具体是:
(3-2).通过多层全连接层生成边界搜索智能体,具体包括记忆模块、执行网络和评判网络;其中,记忆模块用于记录历史行为,执行网络学习输出行为分别寻找动作单元对应的开始边界和结束边界,评判网络估计各行为的后续累积奖赏辅助执行网络;其中,记忆模块包含一个固定大小u+1的记忆及其对应的可学习权重向量在某一时间步t,记录前u个时间步所观察的视频单元特征序列和动作单元x0的特征序列智能体在时间步t能够观察到的状态向量为为记忆模块中的所有视频单元特征的堆叠;
执行网络中所有全连接层的权重参数和偏置参数统一表示为θa,智能体行为空间表示为其中dbg为所有视频中背景持续时间的平均值,a为智能体行为;智能体从动作单元x0出发,在某一时间步t,输入为状态向量Bt,输出当前时间步t的行为at;当at=0时,智能体判定当前观察的视频单元是x0所属动作片段的时序边界,当at≠0时,智能体跳转至其他视频单元索引xt+1=xt+at;
评判网络中所有全连接层的权重参数和偏置参数统一表示为θv,在某一时间步t,输入为状态向量Bt,估计当前状态的后续累积奖赏期望值为Ω(Bt;θv)≈E[rt+1+γrt+2+…+γn'-1rt+n'|Bt],其中rt表示时间步t行为的单步奖赏,n'为智能体与环境交互时每个回合的总步数,γ∈[0,1]为奖赏折扣系数,E[·]表示数学期望;
(3-3).在训练中,仅对发现行为进行奖赏,在某一时间步t,其状态向量为Bt,智能体发现边界单元xt,假设初始动作单元索引为和动作实例边界为 为开始边界单元索引,为结束边界单元索引,则奖赏函数rhit为:
其中,σ>0为基线奖赏值,Igt为初始动作单元的动作实例边界邻域的单元索引正整数ε用于限定邻域范围大小,为中心奖赏,常数k>0用于控制rcenter奖赏程度,为边界单元索引,为步数奖赏,n为发现该动作实例耗费的时间步数,nideal为发现一个动作实例耗费的理想步数,η>0为奖赏惩罚值,p<0为没有正确发现动作实例时的惩罚值;当智能体沿动作单元前向搜索开始边界时,当智能体沿动作单元后向搜索结束边界时,和评判网络的损失函数Lcri=(rt+Ω(Bt;θv)-Ω(Bt+1;θv))2的更新目标是最小化损失函数Lc,使得网络能更准确估计某一状态后续的累积奖赏,并通过随机梯度下降方法更新网络参数θv;执行网络的损失函数为Lact=logπ(at|Bt;θa)A(Bt,at;θa,θv),π(at|Bt;θa)为智能体搜索策略,即智能体根据当前状态向量Bt执行行为at的概率,A(Bt,at;θa,θv)=rt+Ω(Bt;θv)-Ω(Bt+1;θv)为优势函数,其更新目标是在状态Bt能获得最大累计奖赏的行为概率,在保持参数θv不变的同时通过随机梯度上升方法更新网络参数θa。
又进一步,步骤(4)具体是:
(4-2).将帧单元编码序列U'输入至步骤(2)构建的动作发现网络中,得到动作单元索引集合将动作单元索引集合X'的动作单元输入步骤(3)的边界搜索智能体中,则智能体输出各动作单元所属动作片段的时序边界s'q和e'q分别表示第q个动作单元的开始时间和结束时间;
(4-3).对于新视频V',得到初步的动作片段分割结果通过(2-3)中视频单元对应的类别概率归一化向量计算各个动作片段在所有动作类别上的得分序列其中pq为第q个动作片段在各类别上的得分向量,分别根据cq=argmax(pq)和Oq=max(pq)得到第q个动作片段对应的类别和得分;
(4-4).使用非极大值抑制算法进行去重处理,即剔除各动作片段之间的时序重叠度大于设定阈值τ的重复动作片段,仅保留动作得分更高的片段,最终从原始视频中分割获得Nfinal个动作片段τ=0.2~0.4,集合元素的三个值分别对应动作的开始时间、结束时间、动作类别。
本发明方法利用边界搜索智能体对视频动作的片段进行分割,与现有方法相比的不同点主要有如下几方面:1)相比传统单一阶段模型,本方法提出一种新的解决方案,即使用动作发现任务与边界搜索任务两阶段完成时序动作片段的分割任务;2)相比动作搜索模型,本方法使用执行——评判网络结构的边界搜索智能体,建立评判模型衡量边界搜索策略的优劣,提升执行网络的性能;3)该方法基于人的动作片段搜索习惯,提出基于强化学习的边界搜索智能体;4)使用记忆模块记录智能体历史行为,结合历史做出当前行为最优决策,能够提高智能体的搜索效率。
本发明方法适用于通过强化学习进行视频动作片段分割的任务,优点在于:1)使用执行-评判结构的网络,通过评判网络评价执行网络策略优劣,指导其往更优策略学习;2)通过深度神经网络完成动作发现任务,在确保整体方法的召回率较高条件下,使用强化学习完成边界搜索任务提高准确率;3)设计记忆模块结合历史行为进行当前智能体行为的决策,使得动作片段分割模型做出更合理的行为。该方法模拟人的搜索方法,一方面,从强化学习的角度设计具有记忆功能的智能体学习更优的搜索策略;另一方面,从边界搜索的角度出发提出双向迭代检测方法定位动作片段的时序边界;可以大幅提升时序动作片段分割任务的性能,可应用于智慧交通、园区安防、异常检测等实际应用场景。
附图说明
图1是本发明方法的流程图。
具体实施方式
以下结合附图对本发明作进一步说明。
一种基于边界搜索智能体的时序动作片段分割方法,首先对视频采样处理,获得视频帧图像序列,通过特征提取器获得视频帧单元编码序列,然后构建动作发现网络模型获得动作单元,再根据生成的边界搜索智能体输出动作单元所属动作片段的时序边界。该方法利用动作发现——边界搜索两阶段模型刻画视频帧的时序动作关系,设计具有记忆功能的智能体对动作边界进行跳转式搜索更符合人的记忆机制和搜索习惯,通过去重处理得到更为精确的动作时序边界。
如图1,该方法首先获取视频数据集合,然后进行以下操作:
步骤(1).对视频采样处理获得视频帧图像序列,然后通过特征提取器获得视频帧单元编码序列;具体是:
(1-2).将帧序列集合Vf划分成N/nu个连续不重叠的视频帧单元序列nu为一个单元包含的帧数,例如取8帧,为向下取整函数,j为视频帧单元的索引;其中,视频V包含动作实例标记信息,标记信息记为M表示不含背景片段视频动作实例数目,sm表示第m个动作片段动作开始单元索引,em表示第m个动作片段动作结束单元索引,cm表示第m个动作片段动作类别;
步骤(2).构建动作发现网络,输入为视频帧单元编码序列,输出为视频帧单元的类别预测向量序列,据此获得动作单元;具体是:
(2-1).输入视频帧单元编码序列U,通过多层全连接层构建动作发现网络;
(2-3).采用Softmax层为输出层且交叉熵为损失函数,输出为视频帧单元的类别预测向量序列其中假定第j个帧单元对应动作类别k的输出概率为Softmax层的计算式为k=0,1,...,K,其中表示Softmax层的输入,即未归一化的概率得分(Logits),e表示自然底数,得到单元对应的类别概率归一化向量利用随机梯度下降算法优化训练网络模型,并通过过反向传播方式更新模型参数;
将第j个帧单元的真实类别标记为cj,则其交叉熵损失函数为其中表示单元对应动作类别k的真实概率,表示单元对应动作类别k的预测概率,由于仅其余类别的真实概率为0,上述计算可简化为其中为单元标记类别cj对应的预测概率;
步骤(3).生成边界搜索智能体,输入为动作单元,输出为动作单元所属动作片段的时序边界;具体是:
(3-2).通过多层全连接层生成边界搜索智能体,具体包括记忆模块、执行网络和评判网络;其中,记忆模块用于记录历史行为,执行网络学习输出行为分别寻找动作单元对应的开始边界和结束边界,评判网络估计各行为的后续累积奖赏辅助执行网络;其中,记忆模块包含一个固定大小u+1的记忆及其对应的可学习权重向量在某一时间步t,记录前u个时间步所观察的视频单元特征序列和动作单元x0的特征序列智能体在时间步t能够观察到的状态向量为为记忆模块中的所有视频单元特征的堆叠;
执行网络中所有全连接层的权重参数和偏置参数统一表示为θa,智能体行为空间表示为其中dbg为所有视频中背景持续时间的平均值,a为智能体行为(即智能体跳转的偏置);智能体从动作单元x0出发,在某一时间步t,输入为状态向量Bt,输出当前时间步t的行为at;当at=0时,智能体判定当前观察的视频单元是x0所属动作片段的时序边界,当at≠0时,智能体跳转至其他视频单元索引xt+1=xt+at;
评判网络中所有全连接层的权重参数和偏置参数统一表示为θv,在某一时间步t,输入为状态向量Bt,估计当前状态的后续累积奖赏期望值为Ω(Bt;θv)≈E[rt+1+γrt+2+…+γn'-1rt+n'|Bt],其中rt表示时间步t行为的单步奖赏,n'为智能体与环境交互时每个回合的总步数,γ∈[0,1]为奖赏折扣系数,E[·]表示数学期望;
(3-3).在训练中,仅对发现行为进行奖赏,在某一时间步t,其状态向量为Bt,智能体发现边界单元xt,假设初始动作单元索引为和动作实例边界为 为开始边界单元索引,为结束边界单元索引,则奖赏函数rhit为:
其中,σ>0为基线奖赏值,Igt为初始动作单元的动作实例边界邻域的单元索引正整数ε用于限定邻域范围大小,为中心奖赏,常数k>0用于控制rcenter奖赏程度,为边界单元索引,为步数奖赏,n为发现该动作实例耗费的时间步数,nideal为发现一个动作实例耗费的理想步数,η>0为奖赏惩罚值,p<0为没有正确发现动作实例时的惩罚值;当智能体沿动作单元前向搜索开始边界时,和当智能体沿动作单元后向搜索结束边界时,和评判网络的损失函数Lcri=(rt+Ω(Bt;θv)-Ω(Bt+1;θv))2的更新目标是最小化损失函数Lc,使得网络能更准确估计某一状态后续的累积奖赏,并通过随机梯度下降方法更新网络参数θv;执行网络的损失函数为Lact=logπ(at|Bt;θa)A(Bt,at;θa,θv),π(at|Bt;θa)为智能体搜索策略,即智能体根据当前状态向量Bt执行行为at的概率,A(Bt,at;θa,θv)=rt+Ω(Bt;θv)-Ω(Bt+1;θv)为优势函数(Advantage Function),其更新目标是在状态Bt能获得最大累计奖赏的行为概率,在保持参数θv不变的同时通过随机梯度上升方法更新网络参数θa。
步骤(4).对新视频根据动作发现网络获得动作单元,通过边界搜索智能体获得动作片段的时序边界,然后进行去重处理,完成时序动作片段分割任务;具体是:
(4-2).将(4-1)的视频帧单元编码序列U'输入至(2)构建的动作发现网络中,得到动作单元索引集合将动作单元索引集合X'的动作单元输入(3)的边界搜索智能体中,则智能体输出各动作单元所属动作片段的时序边界s'q和e'q分别表示第q个动作单元的开始时间和结束时间;
(4-3).对于新视频V',得到初步的动作片段分割结果通过(2-3)中视频单元对应的类别概率归一化向量计算各个动作片段在所有动作类别上的得分序列其中pq为第q个动作片段在各类别上的得分向量,分别根据cq=argmax(pq)和Oq=max(pq)得到第q个动作片段对应的类别和得分;
(4-4).使用非极大值抑制算法进行去重处理,即剔除各动作片段之间的时序重叠度(tIoU)大于0.3的重复动作片段,仅保留动作得分更高的片段,最终从原始视频中分割获得Nfinal个动作片段集合元素的三个值分别对应动作的开始时间、结束时间、动作类别。
本实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (1)
1.一种基于边界搜索智能体的时序动作片段分割方法,其特征在于,该方法首先获取视频数据集合,然后进行如下操作:
步骤(1).对视频采样处理获得视频帧图像序列,然后通过特征提取器获得视频帧单元编码序列;具体是:
(1-2).将帧序列集合Vf划分成N/nu个连续不重叠的视频帧单元序列nu为一个单元包含的帧数,为向下取整函数,j为视频帧单元的索引;其中,视频V包含动作实例标记信息,标记信息记为M表示不含背景片段视频动作实例数目,sm表示第m个动作片段动作开始单元索引,em表示第m个动作片段动作结束单元索引,cm表示第m个动作片段动作类别;
步骤(2).构建动作发现网络,输入为视频帧单元编码序列,输出为视频帧单元的类别预测向量序列,据此获得动作单元;具体是:
(2-1).输入视频帧单元编码序列U,通过多层全连接层构建动作发现网络;
(2-3).采用Softmax层为输出层且交叉熵为损失函数,输出为视频帧单元的类别预测向量序列其中假定第j个帧单元对应动作类别k的输出概率为Softmax层的计算式为表示Softmax层的输入,即未归一化的概率得分,e为自然底数,得到单元对应的类别概率归一化向量利用随机梯度下降算法优化训练网络模型,并通过过反向传播方式更新模型参数;
步骤(3).生成边界搜索智能体,输入为动作单元,输出为动作单元所属动作片段的时序边界;具体是:
(3-2).通过多层全连接层生成边界搜索智能体,具体包括记忆模块、执行网络和评判网络;其中,记忆模块用于记录历史行为,执行网络学习输出行为分别寻找动作单元对应的开始边界和结束边界,评判网络估计各行为的后续累积奖赏辅助执行网络;其中,记忆模块包含一个固定大小u+1的记忆及其对应的可学习权重向量在某一时间步t,记录前u个时间步所观察的视频单元特征序列和动作单元x0的特征序列智能体在时间步t能够观察到的状态向量为为记忆模块中的所有视频单元特征的堆叠;
执行网络中所有全连接层的权重参数和偏置参数统一表示为θa,智能体行为空间表示为其中dbg为所有视频中背景持续时间的平均值,a为智能体行为;智能体从动作单元x0出发,在某一时间步t,输入为状态向量Bt,输出当前时间步t的行为at;当at=0时,智能体判定当前观察的视频单元是x0所属动作片段的时序边界,当at≠0时,智能体跳转至其他视频单元索引xt+1=xt+at;
评判网络中所有全连接层的权重参数和偏置参数统一表示为θv,在某一时间步t,输入为状态向量Bt,估计当前状态的后续累积奖赏期望值为其中rt表示时间步t行为的单步奖赏,n'为智能体与环境交互时每个回合的总步数,γ∈[0,1]为奖赏折扣系数,E[·]表示数学期望;
(3-3).在训练中,仅对发现行为进行奖赏,在某一时间步t,其状态向量为Bt,智能体发现边界单元xt,假设初始动作单元索引为和动作实例边界为 为开始边界单元索引,为结束边界单元索引,则奖赏函数rhit为:
其中,σ>0为基线奖赏值,Igt为初始动作单元的动作实例边界邻域的单元索引正整数ε用于限定邻域范围大小,为中心奖赏,常数k>0用于控制rcenter奖赏程度,为边界单元索引,为步数奖赏,n为发现该动作实例耗费的时间步数,nideal为发现一个动作实例耗费的理想步数,η>0为奖赏惩罚值,p<0为没有正确发现动作实例时的惩罚值;当智能体沿动作单元前向搜索开始边界时,和当智能体沿动作单元后向搜索结束边界时,和评判网络的损失函数Lcri=(rt+Ω(Bt;θv)-Ω(Bt+1;θv))2的更新目标是最小化损失函数Lc,使得网络能更准确估计某一状态后续的累积奖赏,并通过随机梯度下降方法更新网络参数θv;执行网络的损失函数为Lact=logπ(at|Bt;θa)A(Bt,at;θa,θv),π(at|Bt;θa)为智能体搜索策略,即智能体根据当前状态向量Bt执行行为at的概率,A(Bt,at;θa,θv)=rt+Ω(Bt;θv)-Ω(Bt+1;θv)为优势函数,其更新目标是在状态Bt能获得最大累计奖赏的行为概率,在保持参数θv不变的同时通过随机梯度上升方法更新网络参数θa;
步骤(4).对新视频根据动作发现网络获得动作单元,通过边界搜索智能体获得动作片段的时序边界,然后进行去重处理,完成时序动作片段分割任务;具体是:
(4-2).将帧单元编码序列U'输入至步骤(2)构建的动作发现网络中,得到动作单元索引集合将动作单元索引集合X'的动作单元输入步骤(3)的边界搜索智能体中,则智能体输出各动作单元所属动作片段的时序边界s'q和e'q分别表示第q个动作单元的开始时间和结束时间;
(4-3).对于新视频V',得到初步的动作片段分割结果通过(2-3)中视频单元对应的类别概率归一化向量计算各个动作片段在所有动作类别上的得分序列其中pq为第q个动作片段在各类别上的得分向量,分别根据cq=argmax(pq)和Oq=max(pq)得到第q个动作片段对应的类别和得分;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010722304.4A CN111950393B (zh) | 2020-07-24 | 2020-07-24 | 一种基于边界搜索智能体的时序动作片段分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010722304.4A CN111950393B (zh) | 2020-07-24 | 2020-07-24 | 一种基于边界搜索智能体的时序动作片段分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111950393A CN111950393A (zh) | 2020-11-17 |
CN111950393B true CN111950393B (zh) | 2021-05-04 |
Family
ID=73337933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010722304.4A Active CN111950393B (zh) | 2020-07-24 | 2020-07-24 | 一种基于边界搜索智能体的时序动作片段分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111950393B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112434615A (zh) * | 2020-11-26 | 2021-03-02 | 天津大学 | 一种基于Tensorflow深度学习框架的时序动作检测方法 |
TWI768588B (zh) * | 2020-12-10 | 2022-06-21 | 國立臺灣大學 | 系統異常預測方法 |
CN112261491B (zh) * | 2020-12-22 | 2021-04-16 | 北京达佳互联信息技术有限公司 | 视频时序标注方法、装置、电子设备及存储介质 |
CN115690917B (zh) * | 2023-01-04 | 2023-04-18 | 南京云创大数据科技股份有限公司 | 一种基于外观和运动智能关注的行人动作识别方法 |
CN117201873B (zh) * | 2023-11-07 | 2024-01-02 | 湖南博远翔电子科技有限公司 | 一种视频图像智能分析方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10445582B2 (en) * | 2016-12-20 | 2019-10-15 | Canon Kabushiki Kaisha | Tree structured CRF with unary potential function using action unit features of other segments as context feature |
CN110796069A (zh) * | 2019-10-28 | 2020-02-14 | 广州博衍智能科技有限公司 | 一种行为检测方法、系统、设备及机器可读介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8774499B2 (en) * | 2011-02-28 | 2014-07-08 | Seiko Epson Corporation | Embedded optical flow features |
CN109034062B (zh) * | 2018-07-26 | 2023-05-16 | 南京邮电大学 | 一种基于时序一致性的弱监督异常行为检测方法 |
CN109784269A (zh) * | 2019-01-11 | 2019-05-21 | 中国石油大学(华东) | 一种基于时空联合的人体动作检测和定位方法 |
CN110602526B (zh) * | 2019-09-11 | 2021-09-21 | 腾讯科技(深圳)有限公司 | 视频处理方法、装置、计算机设备及存储介质 |
CN111027377B (zh) * | 2019-10-30 | 2021-06-04 | 杭州电子科技大学 | 一种双流神经网络时序动作定位方法 |
-
2020
- 2020-07-24 CN CN202010722304.4A patent/CN111950393B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10445582B2 (en) * | 2016-12-20 | 2019-10-15 | Canon Kabushiki Kaisha | Tree structured CRF with unary potential function using action unit features of other segments as context feature |
CN110796069A (zh) * | 2019-10-28 | 2020-02-14 | 广州博衍智能科技有限公司 | 一种行为检测方法、系统、设备及机器可读介质 |
Non-Patent Citations (2)
Title |
---|
A survey of vision-based methods for action representation,segmentation and recognition;WEINLAND D等;《Computer Vision and Image Understanding》;20110228;第115卷(第2期);第224-241页 * |
基于深度学习的视频中人体动作识别进展综述;罗会兰等;《电子学报》;20190515;第47卷(第5期);第1162-1173页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111950393A (zh) | 2020-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111950393B (zh) | 一种基于边界搜索智能体的时序动作片段分割方法 | |
Zhong et al. | Hierarchical tracking by reinforcement learning-based searching and coarse-to-fine verifying | |
CN110874578B (zh) | 一种基于强化学习的无人机视角车辆识别追踪方法 | |
Huang et al. | Robust visual tracking via constrained multi-kernel correlation filters | |
CN107679465A (zh) | 一种基于生成网络的行人重识别数据生成和扩充方法 | |
CN111581545B (zh) | 一种召回文档的排序方法及相关设备 | |
CN113326731A (zh) | 一种基于动量网络指导的跨域行人重识别算法 | |
CN111008991B (zh) | 一种背景感知的相关滤波目标跟踪方法 | |
CN109543615B (zh) | 一种基于多级特征的双学习模型目标跟踪方法 | |
CN112116593A (zh) | 一种基于基尼指数的领域自适应语义分割方法 | |
Huang et al. | Sap: Self-adaptive proposal model for temporal action detection based on reinforcement learning | |
EP4287144A1 (en) | Video behavior recognition method and apparatus, and computer device and storage medium | |
CN113963304B (zh) | 基于时序-空间图的跨模态视频时序动作定位方法及系统 | |
CN113435430B (zh) | 基于自适应时空纠缠的视频行为识别方法、系统、设备 | |
CN112668438A (zh) | 红外视频时序行为定位方法、装置、设备及存储介质 | |
CN112015947A (zh) | 一种语言描述引导的视频时序定位方法、系统 | |
CN110751005B (zh) | 融合深度感知特征和核极限学习机的行人检测方法 | |
CN113313250B (zh) | 采用混合精度量化与知识蒸馏的神经网络训练方法及系统 | |
CN111105442A (zh) | 切换式目标跟踪方法 | |
Zhou et al. | SiamET: a Siamese based visual tracking network with enhanced templates | |
CN108257148B (zh) | 特定对象的目标建议窗口生成方法及其在目标跟踪的应用 | |
US20240037918A1 (en) | Multi-view fine-grained identification method, apparatus, electronic device and medium | |
Li et al. | Active temporal action detection in untrimmed videos via deep reinforcement learning | |
CN117576149A (zh) | 一种基于注意力机制的单目标跟踪方法 | |
CN110070120B (zh) | 基于判别采样策略的深度度量学习方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |