CN113128256A - 视频采样方法及装置 - Google Patents

视频采样方法及装置 Download PDF

Info

Publication number
CN113128256A
CN113128256A CN201911392891.9A CN201911392891A CN113128256A CN 113128256 A CN113128256 A CN 113128256A CN 201911392891 A CN201911392891 A CN 201911392891A CN 113128256 A CN113128256 A CN 113128256A
Authority
CN
China
Prior art keywords
sampling
window
image sequence
current
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911392891.9A
Other languages
English (en)
Inventor
苑嘉辉
文伟
范建华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Samsung Telecom R&D Center
Beijing Samsung Telecommunications Technology Research Co Ltd
Samsung Electronics Co Ltd
Original Assignee
Beijing Samsung Telecommunications Technology Research Co Ltd
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Samsung Telecommunications Technology Research Co Ltd, Samsung Electronics Co Ltd filed Critical Beijing Samsung Telecommunications Technology Research Co Ltd
Priority to CN201911392891.9A priority Critical patent/CN113128256A/zh
Priority to PCT/KR2020/019106 priority patent/WO2021137533A1/en
Priority to US17/136,368 priority patent/US11790655B2/en
Publication of CN113128256A publication Critical patent/CN113128256A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

提供一种视频采样方法及装置。该视频采样方法包括:基于采样窗口对视频进行采样,得到当前采样图像序列;获取当前采样图像序列对应的动作参数;根据当前采样图像序列对应的动作参数,对所述采样窗口进行调整;基于调整后的采样窗口对视频进行采样。

Description

视频采样方法及装置
技术领域
本公开涉及视频处理技术领域。更具体地,本公开涉及一种视频采样方法及装置。
背景技术
视频中的行为动作识别具有丰富的应用场景,主要应用场景有人机智能交互、视频智能剪辑和编辑等。
在智能机器人的主动感知应用场景中,现有机器人只能被动的通过语音与人类产生交互,赋予机器人认知人类动作的能力,对于机器人感知、模仿进而推理人类行为是关键的技术,将是未来智能化机器人发展的重要基础。在自动驾驶车内驾乘人员监测功能的应用场景中,车内驾驶员与乘客的行为分析是自动驾驶中重要的组成部分,可实现对驾驶员异常行为监测,驾驶员与乘客行为特征分析,进而实现智能化、个性化的车内感知交互系统。
随着移动网络的发展,视频逐渐成为新的信息分享、传播媒介,对视频中人的行为和动作进行识别和定位,可以实现对视频自动进行精彩动作剪辑、慢动作回放、动作特效编辑等功能。
发明内容
本公开的示例性实施例在于提供一种视频采样方法及装置,以对现有的视频采样方法进行优化。
根据本公开的示例性实施例,提供一种视频采样方法,包括:基于采样窗口对视频进行采样,得到当前采样图像序列;获取当前采样图像序列对应的动作参数;根据当前采样图像序列对应的动作参数,对所述采样窗口进行调整;基于调整后的采样窗口对视频进行采样。
可选地,所述动作参数可包括:包含各种动作的概率和/或包含的动作的完成度。
可选地,获取当前采样图像序列对应的动作参数的步骤可包括:对当前采样图像序列进行特征提取,得到当前采样图像序列的特征;对当前采样图像序列的特征进行特征识别,得到当前采样图像序列中的动作参数。
可选地,所述动作参数可包括:包含各种动作的概率和包含的动作的完成度,对当前采样图像序列的特征进行特征识别的步骤可包括:对当前采样图像序列的特征进行动作识别,得到当前采样图像序列中包含各种动作的概率;对当前采样图像序列的特征进行动作完成程度的识别,得到当前采样图像序列中包含的动作的完成度。
可选地,对所述采样窗口进行调整的步骤可包括:根据当前采样图像序列中的动作参数,计算采样窗口的大小变化值和/或采样窗口移动的位置;基于所述采样窗口的大小变化值和/或采样窗口移动的位置对所述采样窗口进行调整。
可选地,计算采样窗口的大小变化值和/或采样窗口移动的位置的步骤可包括:当根据动作参数确定当前采样图像序列中包含的动作未完成时,根据所述动作参数计算采样窗口的增量值;根据采样窗口的增量值,确定采样窗口移动的位置。
可选地,所述视频采样方法还可包括:根据采样窗口历史调整信息,对所述采样窗口的增量值进行平滑处理。
可选地,确定采样窗口移动的位置的步骤可包括:根据采样窗口的增量值确定在与采样窗口的增量值对应的扩增窗口中采样扩增图像的帧数量;根据确定的帧数量确定采样窗口移动的位置。
可选地,基于调整后的采样窗口对视频进行采样的步骤可包括:根据确定的帧数量在扩增窗口中对视频进行采样得到扩增图像序列;获取当前采样图像序列中,调整后的采样窗口对应的采样图像序列;将所述调整后的采样窗口对应的采样图像序列和所述扩增图像序列,作为基于调整后的采样窗口采样得到的采样图像序列。
可选地,所述视频采样方法还可包括:当当前采样图像序列中包含各种动作的概率大于第一阈值,且当前采样图像序列中包含的动作的完成度大于第二阈值时,确定当前采样图像序列中包含的动作已完成;和/或,当当前采样图像序列中包含各种动作的概率小于第三阈值,且当前采样图像序列中包含的动作的完成度小于第四阈值时,确定当前采样图像序列中不包含有动作;和/或,当当前采样图像序列中包含各种动作的概率在第一阈值和第三阈值之间,且当前采样图像序列中包含的动作的完成度在第二阈值和第四阈值之间时,确定当前采样图像序列中包含的动作未完成。
可选地,计算采样窗口的大小变化值和/或采样窗口移动的位置的步骤可包括:当根据动作参数不能确定当前采样图像序列中动作是否完成时,根据所述动作参数计算采样窗口的减量值;根据采样窗口的减量值,确定采样窗口移动的位置。
可选地,根据采样窗口的减量值,确定采样窗口移动的位置的步骤可包括:在采样窗口的两端分别减去长度为所述采样窗口的减量值的窗口,得到第一采样窗口和第二采样窗口;将第一采样窗口和第二采样窗口中的一个作为更新的采样窗口;根据更新的采样窗口确定当前采样窗口移动的位置。
可选地,将第一采样窗口和第二采样窗口中的一个作为更新的采样窗口的步骤可包括:从第一采样窗口和第二采样窗口中分别采样预设数量帧的采样图像序列;分别对从第一采样窗口采样的采样图像序列和从第二采样窗口采样的采样图像序列进行特征提取并进行特征识别;根据识别结果选择第一采样窗口和第二采样窗口中的一个作为更新的采样窗口。
可选地,所述采样窗口移动的位置为采样窗口的起始点移动的位置。
可选地,对当前采样图像序列的特征进行动作识别的步骤可包括:对当前采样图像序列的特征进行三维线性门控处理,得到动作识别特征;基于得到的动作识别特征,获取当前采样图像序列中包含各种动作的概率。
可选地,对当前采样图像序列的特征进行动作完成程度的识别的步骤可包括:对当前采样图像序列的特征进行三维线性门控处理,得到动作完成度识别特征;基于得到的动作完成度识别特征,获取当前采样图像序列中包含的动作的完成度。
可选地,对当前采样图像序列的特征进行三维线性门控处理的步骤可包括:对当前采样图像序列的特征在时间维度生成时间关注度权重;在空间上对当前采样图像序列的特征进行空间卷积;将时间关注度权重与空间卷积后的特征进行点乘,得到三维线性门控处理后的特征。
可选地,基于采样窗口对视频进行采样得到预设数量帧图像。根据本公开的示例性实施例,提供一种视频采样装置,包括:第一采样单元,被配置为基于采样窗口对视频进行采样,得到当前采样图像序列;参数获取单元,被配置为获取当前采样图像序列对应的动作参数;窗口调整单元,被配置为根据当前采样图像序列对应的动作参数,对所述采样窗口进行调整,以基于调整后的采样窗口对视频进行采样;和第二采样单元,被配置为基于调整后的采样窗口对视频进行采样。
可选地,所述动作参数可包括:包含各种动作的概率和/或包含的动作的完成度。
可选地,参数获取单元可包括:特征提取单元,被配置为对当前采样图像序列进行特征提取,得到当前采样图像序列的特征;特征识别单元,被配置为对当前采样图像序列的特征进行特征识别,得到当前采样图像序列中的动作参数。
可选地,动作参数可包括:包含各种动作的概率和包含的动作的完成度,特征识别单元被配置为:对当前采样图像序列的特征进行动作识别,得到当前采样图像序列中包含各种动作的概率;对当前采样图像序列的特征进行动作完成程度的识别,得到当前采样图像序列中包含的动作的完成度。
可选地,窗口调整单元可被配置为:根据当前采样图像序列中的动作参数,计算采样窗口的大小变化值和/或采样窗口移动的位置;基于所述采样窗口的大小变化值和/或采样窗口移动的位置对所述采样窗口进行调整。
可选地,窗口调整单元还可被配置为:当根据动作参数确定当前采样图像序列中包含的动作未完成时,根据所述动作参数计算采样窗口的增量值;根据采样窗口的增量值,确定采样窗口移动的位置。
可选地,所述视频采样装置还可包括:平滑和调整单元,被配置为根据采样窗口历史调整信息,对所述采样窗口的增量值进行平滑处理。
可选地,窗口调整单元还可被配置为:根据采样窗口的增量值确定在与采样窗口的增量值对应的扩增窗口中采样扩增图像的帧数量;根据确定的帧数量确定采样窗口移动的位置。
可选地,第二采样单元可被配置为:根据确定的帧数量在扩增窗口中对视频进行采样得到扩增图像序列;获取当前采样图像序列中,调整后的采样窗口对应的采样图像序列;将所述调整后的采样窗口对应的采样图像序列和所述扩增图像序列,作为基于调整后的采样窗口采样得到的采样图像序列。
可选地,所述视频采样装置还可包括确定单元,被配置为:当当前采样图像序列中包含各种动作的概率大于第一阈值,且当前采样图像序列中包含的动作的完成度大于第二阈值时,确定当前采样图像序列中包含的动作已完成;和/或,当当前采样图像序列中包含各种动作的概率小于第三阈值,且当前采样图像序列中包含的动作的完成度小于第四阈值时,确定当前采样图像序列中不包含有动作;和/或,当当前采样图像序列中包含各种动作的概率在第一阈值和第三阈值之间,且当前采样图像序列中包含的动作的完成度在第二阈值和第四阈值之间时,确定当前采样图像序列中包含的动作未完成。
可选地,窗口调整单元还可被配置为:当根据动作参数不能确定当前采样图像序列中动作是否完成时,根据所述动作参数计算采样窗口的减量值;根据采样窗口的减量值,确定采样窗口移动的位置。
可选地,窗口调整单元还可被配置为:在采样窗口的两端分别减去长度为所述采样窗口的减量值的窗口,得到第一采样窗口和第二采样窗口;将第一采样窗口和第二采样窗口中的一个作为更新的采样窗口;根据更新的采样窗口确定当前采样窗口移动的位置。
可选地,窗口调整单元还可被配置为:从第一采样窗口和第二采样窗口中分别采样预设数量帧的采样图像序列;分别对从第一采样窗口采样的采样图像序列和从第二采样窗口采样的采样图像序列进行特征提取并进行特征识别;根据识别结果选择第一采样窗口和第二采样窗口中的一个作为更新的采样窗口。
可选地,所述采样窗口移动的位置为采样窗口的起始点移动的位置。
可选地,特征识别单元还可被配置为:对当前采样图像序列的特征进行三维线性门控处理,得到动作识别特征;基于得到的动作识别特征,获取当前采样图像序列中包含各种动作的概率。
可选地,特征识别单元还可被配置为:对当前采样图像序列的特征进行三维线性门控处理,得到动作完成度识别特征;基于得到的动作完成度识别特征,获取当前采样图像序列中包含的动作的完成度。
可选地,特征识别单元还可被配置为:对当前采样图像序列的特征在时间维度生成时间关注度权重;在空间上对当前采样图像序列的特征进行空间卷积;将时间关注度权重与空间卷积后的特征进行点乘,得到三维线性门控处理后的特征。
可选地,第一采样单元和第二采样单元分别采样得到预设数量帧图像。根据本公开的示例性实施例,提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序被处理器执行时,实现根据本公开的示例性实施例的视频采样方法。
根据本公开的示例性实施例,提供一种电子设备,包括:处理器;存储器,存储有计算机程序,当所述计算机程序被处理器执行时,实现根据本公开的示例性实施例的视频采样方法。
根据本公开的示例性实施例的视频采样方法及装置,通过基于采样窗口对视频进行采样,得到当前采样图像序列;获取当前采样图像序列对应的动作参数;根据当前采样图像序列对应的动作参数,对所述采样窗口进行调整;基于调整后的采样窗口对视频进行采样,从而了对动作的高精度识别和定位,进而实现了视频采样的准确性。
将在接下来的描述中部分阐述本公开总体构思另外的方面和/或优点,还有一部分通过描述将是清楚的,或者可以经过本公开总体构思的实施而得知。
附图说明
通过下面结合示例性地示出实施例的附图进行的描述,本公开示例性实施例的上述和其他目的和特点将会变得更加清楚,其中:
图1a示出根据现有技术的对视频中动作进行识别的示意图;
图1b示出根据现有技术的以小步长移动窗口的示意图;
图1c示出根据现有技术的综合多个窗口的结果得到最终识别结果的示意图;
图1d示出根据现有技术的滑动窗口对视频中动作进行识别的示意图;
图1e示出根据现有技术的以一段包含四个动作的视频作为实验的结果;
图1f示出根据本公开示例性实施例的对视频中动作进行识别的示意图;
图2示出根据本公开示例性实施例的视频采样方法的流程图;
图3示出根据本公开示例性实施例的视频采样的过程的示意图;
图4示出根据本公开示例性实施例的M2和M3的内部结构的示意图;
图5示出根据本公开示例性实施例的3D GLU的内部结构的示意图;
图6示出根据本公开示例性实施例的M4的用于增量窗口调整的部分的内部结构的示意图;
图7示出根据本公开示例性实施例的M5的内部结构的示意图;
图8示出根据本公开示例性实施例的增量窗口平滑的示意图;
图9示出根据本公开示例性实施例的窗口自适应的示意图;
图10示出根据本公开示例性实施例的M4的用于减量窗口调整的部分的内部结构的示意图;
图11示出根据本公开示例性实施例的M4的内部结构的示意图;
图12示出根据本公开示例性实施例的计算的减量窗口的过程的示意图;
图13示出根据本公开示例性实施例的对于被截断的长动作来调整窗口的示意图;
图14示出根据本公开示例性实施例的对于短动作来调整窗口的示意图;
图15示出根据本公开示例性实施例的视频采样装置的框图;和
图16示出根据本公开示例性实施例的电子设备的示意图。
具体实施方式
现将详细参照本公开的示例性实施例,所述实施例的示例在附图中示出,其中,相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例,以便解释本公开。
如图1a所示,对视频中动作进行识别,首先需对视频进行采样,在视频(对应图中的视频序列)中采样某些帧图像作为动作识别算法的输入信息。现有技术是以固定时间长度的窗口(滑动窗口)进行采样,在固定的窗口中采样固定数目(如N帧)的图像用以行为动作的识别。再以固定的时间步长向前移动窗口,在新窗口区域对应的视频片段中,采样固定数目的图像进行新一轮的动作识别。在图1a中,可以采用深度神经网络进行动作识别,如针对每次采样得到的N帧图像,分别作为输入图像输入到深度神经网络中,得到动作分类结果,根据每次采样得到的N帧图像分别对应的动作分类结果,可以得到图中所示的动作识别结果,每次采样得到的N帧图像能够得到识别出的最大概率的动作,例如图1a中,基于滑动窗口第一次采样得到的N帧图像得到的动作识别结果为“无动作”,第二次采样得到的N帧图像得到的动作识别结果为“动作1”,第三次采样得到的N帧图像得到的动作识别结果为“动作2”,第四次采样得到的N帧图像得到的动作识别结果为“动作1”。
固定采样窗口大小和步长无法满足不同长度动作高精度识别的需求,往往会造成对于短动作采样窗口中包含有大量噪声,和长动作被截断到多个窗口中,导致动作识别精度低。例如图1a中,基于滑动窗口第一次采样得到的N帧图像对应的实际动作为“动作1”,第二次采样得到的N帧图像对应的实际动作为“动作2”第三次采样得到的N帧图像对应的实际动作为“动作2”第四次采样得到的N帧图像对应的实际动作为“动作2”。
用很小的步长移动采样窗口,可以一定程度改善窗口中包含较多其他动作或者没有动作的视频片段,这种视频片段对于需要进行识别的目标动作而言,我们称为背景噪声。如图1b所示,通过以小步长移动窗口,则窗口3相较窗口0即包含更少的背景噪声,其动作识别效果则更好。
但是这样会带来大量的冗余计算,因相邻采样窗口之间会有大量的重叠,这样会导致同样的信息需要多次运算才能得到准确的识别结果,造成大量的计算量的冗余,无法满足快速识别行为动作的需求。
针对长动作被截断的问题,现有技术可综合多个窗口的结果进行判断,如图1c所示。但这种方法的问题在于,单个窗口只能接收到片段的信息,其结果的精度就很低,对于一个长动作而言,其片段的动作很可能被识别成别的动作,这样综合多个错误的结果,其结果的精度也很差。而且,不同动作其持续时间不一样,具体综合多少个窗口的结果也不容易确定。
现有方案的问题主要有两点:
(1)窗口大小固定,导致行为动作识别不准确
现实世界中,人不同的行为动作持续的时间也变化很大,以固定的窗口大小去采样,很难选选取窗口的大小。
窗口过小,持续时间长的动作被截断到几个窗口中,如图1d中的动作2,对于每一个窗口而言,都不能完整的包含动作的前后变化过程,因此会造成识别精度较低。如对于持续时间较长的走路动作,分割到短窗口内很难与其他静止的站立动作区分开。
窗口过大,持续时间短的动作会混杂较多的背景和其他动作在一个窗口中,例如,图1d中的动作1的两个采样窗口都包含大量的背景,也会造成识别精度低。如对于体育比赛中关键的投篮过程,持续时间很短,分截到不同的窗口中会被识别成跑,跳等背景动作干扰,很难精确的识别投篮动作。
(2)窗口移动步长固定,导致行为动作识别不准确。
以固定的步长移动窗口,很难保证窗口的起点与动作的起点相同,因此会包含较多的噪声在采样数据中,且现实世界中,动作的发生频率无法估计,步长的大小也很难设定。若步长较大,则窗口中会包含较多的背景噪声,从而给行为动作识别精度造成影响。若步长较小,则前后采样的窗口会有较大的重合,从而造成多次采样之间数据的重复,对后续行为动作识别造成冗余运算,不能快速有效的进行识别。
对于行为动作识别而言,采样窗口正确覆盖动作全部过程具有重要意义。若将采样窗口调整到覆盖动作的全过程,则动作识别和分类的正确率高;若将采样窗口调整到未覆盖动作的全过程,则动作识别和分类的正确率低。如图1e所示,以一段包含四个动作的视频作为实验,以1s长度的采样窗口进行动作分类,图中以星号表示的点为识别正确的窗口,以实心圆表示的点为识别错误的窗口,统计下来正确率仅为28.57%。而若将采样窗口调整到覆盖动作的全过程,其正确率为100%。由此可见,对于行为动作识别而言,采样窗口正确覆盖动作全部过程的重要性。
在本公开示例性实施例中,如图1f所示,可使用例如AI模型获取正在进行的动作的完整性程度,并且根据完整性程度调整样采样窗口的大小和位置。例如,针对动作1或者动作2,根据采样窗口中的动作1或者动作2的完整性程度动态添加不同大小的附加窗口(对应图中的扩增1,扩增2),根据采样窗口的大小自动删除前一个窗口,使得调整后的采样窗口中包括完整的动作1或者动作2,从而实现最终窗口内包含有完整的动作过程,实现高精度的行为动作识别和定位。
图2示出根据本公开示例性实施例的视频采样方法的流程图。参照图2,在步骤S201,基于采样窗口对视频进行采样,得到当前采样图像序列。这里,采样窗口的大小是可以根据动作的长短进行调节的。
在步骤S202,获取当前采样图像序列对应的动作参数。这里,动作参数可包括:包含各种动作的概率和/或包含的动作的完成度。
在本公开示例性实施例中,在获取当前采样图像序列对应的动作参数时,可以首先对当前采样图像序列进行特征提取,得到当前采样图像序列的特征,然后对当前采样图像序列的特征进行特征识别,得到当前采样图像序列中的动作参数。
例如,可通过诸如方向梯度直方图(histogram of Oriented Gradient,简称HOG)、尺度不变特征变换(Scale-invariant features transform,简称SIFT)、加速稳健特征(Speeded Up Robust Features,简称SURF)、高斯函数差分(Difference of Gaussian,简称DOG)、局部二值模式(Local Binary Pattern,简称LBP)、haar类特征(haar-like,简称HAAR)的特征、深度神经网络提取的特征,如二维深度神经网络提取的多帧图像特征的组合或者三维神经网络直接提取的图像序列的特征提取算法来从当前采样图像序列进行特征提取。
在本公开示例性实施例中,对当前采样图像序列的特征进行特征识别,得到当前采样图像序列中的动作参数。这里,动作参数指的是从图像特征中识别出的与动作相关的特征参数,例如可包括动作概率和动作完成度。动作概率是指当前采样图像序列中包含各种动作的概率,动作完成度是指当前采样图像序列中包含的动作的完成度。
在本公开示例性实施例中,动作参数可以包括:包含各种动作的概率和包含的动作的完成度。在对当前采样图像序列的特征进行特征识别时,可以首先对当前采样图像序列的特征进行动作识别,得到当前采样图像序列中包含各种动作的概率,然后对当前采样图像序列的特征进行动作完成程度的识别,得到当前采样图像序列中包含的动作的完成度。
在本公开示例性实施例中,当当前采样图像序列中包含各种动作的概率大于第一阈值,且当前采样图像序列中包含的动作的完成度大于第二阈值时,确定当前采样图像序列中包含的动作已完成;和/或,当当前采样图像序列中包含各种动作的概率小于第三阈值,且当前采样图像序列中包含的动作的完成度小于第四阈值时,确定当前采样图像序列中不包含有动作;和/或,当当前采样图像序列中包含各种动作的概率在第一阈值和第三阈值之间,且当前采样图像序列中包含的动作的完成度在第二阈值和第四阈值之间时,确定当前采样图像序列中包含的动作未完成。
在本公开示例性实施例中,在对当前采样图像序列的特征进行动作识别时,可以首先对当前采样图像序列的特征进行三维线性门控处理,得到动作识别特征,然后基于得到的动作识别特征,获取当前采样图像序列中包含各种动作的概率。
在本公开示例性实施例中,在对当前采样图像序列的特征进行动作完成程度的识别时,可以首先对当前采样图像序列的特征进行三维线性门控处理,得到动作完成度识别特征,然后基于得到的动作完成度识别特征,获取当前采样图像序列中包含的动作的完成度。
在本公开示例性实施例中,在对当前采样图像序列的特征进行三维线性门控处理时,可以首先对当前采样图像序列的特征在时间维度生成时间关注度权重,在空间上对当前采样图像序列的特征进行空间卷积,然后将时间关注度权重与空间卷积后的特征进行点乘,得到三维线性门控处理后的特征。
在步骤S203,根据当前采样图像序列对应的动作参数,对所述采样窗口进行调整。
在本公开示例性实施例中,在对所述采样窗口进行调整时,可以首先根据当前采样图像序列中的动作参数,计算采样窗口的大小变化值和/或采样窗口移动的位置,然后基于所述采样窗口的大小变化值和/或采样窗口移动的位置对所述采样窗口进行调整。这里,采样窗口的大小变化值是指下一次采样的窗口大小相对于当前的采样窗口大小的变化值。在本公开示例性实施例中,采样窗口移动的位置可以为采样窗口的起始点移动的位置。
在本公开示例性实施例中,在计算采样窗口的大小变化值和/或采样窗口移动的位置时,可以首先当根据动作参数确定当前采样图像序列中包含的动作未完成时,根据所述动作参数计算采样窗口的增量值,然后根据采样窗口的增量值,确定采样窗口移动的位置。在本公开示例性实施例中,可以根据采样窗口历史调整信息,对所述采样窗口的增量值进行平滑处理。
在本公开示例性实施例中,在确定采样窗口移动的位置时,可以根据采样窗口的增量值确定在与采样窗口的增量值对应的扩增窗口中采样扩增图像的帧数量,根据确定的帧数量确定采样窗口移动的位置。
在本公开示例性实施例中,在计算采样窗口的大小变化值和/或采样窗口移动的位置时,可以当根据动作参数不能确定当前采样图像序列中动作是否完成时,根据所述动作参数计算采样窗口的减量值,根据采样窗口的减量值,确定采样窗口移动的位置。
在本公开示例性实施例中,在根据采样窗口的减量值确定采样窗口移动的位置时,可以首先在采样窗口的两端分别减去长度为所述采样窗口的减量值的窗口,得到第一采样窗口和第二采样窗口,然后将第一采样窗口和第二采样窗口中的一个作为更新的采样窗口,并且根据更新的采样窗口确定当前采样窗口移动的位置。
在本公开示例性实施例中,在将第一采样窗口和第二采样窗口中的一个作为更新的采样窗口时,可以首先从第一采样窗口和第二采样窗口中分别采样预设数量帧的采样图像序列,并且分别对从第一采样窗口采样的采样图像序列和从第二采样窗口采样的采样图像序列进行特征提取并进行特征识别,然后根据识别结果选择第一采样窗口和第二采样窗口中的一个作为更新的采样窗口。在步骤S204,基于调整后的采样窗口对视频进行采样。
在本公开示例性实施例中,在基于调整后的采样窗口对视频进行采样时,可以首先根据确定的帧数量在扩增窗口中对视频进行采样得到扩增图像序列,获取当前采样图像序列中,调整后的采样窗口对应的采样图像序列,然后将所述调整后的采样窗口对应的采样图像序列和所述扩增图像序列,作为基于调整后的采样窗口采样得到的采样图像序列。
在本公开示例性实施例中,基于采样窗口对视频进行采样得到预设数量帧图像,基于调整后的采样窗口对视频进行采样也得到预设数量帧图像。
图3示出根据本公开示例性实施例的视频采样的过程的示意图。
参照图3,视频采样的过程可以为:
1)以大小为W的窗口进行初始采样,在初始窗口中均匀采样N帧图像,送入深度学习特征提取网络M1中得到代表当前窗口中信息的特征。
2)将该特征送入M2进行动作识别以得到其中包含各种动作的类别及其概率,同时送入M3进行动作完成度的识别,得到当前动作的完成度,例如,可以用百分比来表示特定动作的完成程度。
3)根据动作识别的结果和当前动作的完成度,M4可计算下一次采样需增加的窗口大小,如当前动作已完成或当前窗口中不含有关注的动作时,则无需扩增当前窗口,直接输出当前动作识别的结果,重新开始步骤1即可。如当前窗口中动作未完成,则计算出需要扩增窗口的大小。
4)为保证鲁棒性和稳定性,本发明中对估测的扩增窗口值在M5中进行进一步平滑和调整,以保证窗口大小稳定的增长。根据调整后扩增窗口的大小,计算出窗口起始点移动的位置。
5)根据调整好的窗口的起始点,在新的窗口中进行均匀采样,执行步骤1),进一步迭代进行动作识别和动作完成度的估计。
在本公开的示例性实施例中,M1、M2、M3、M4和M5可以是由软件和/或硬件实现的单元或者模块。
M1为特征提取网络,其输入为多帧图像,输出为代表输入信息的特征。可通过深度神经网络来实现该特征提取网络。
M2用于行为动作识别,其输入为特征,输出窗口内包含各类动作的概率。
M3用于动作完成度识别,其输入为特征,输出为窗口内动作的进展程度。
M4用于窗口增长决策,其输入为动作识别结果和动作完成度识别结果,输出为下一步是否直接输出结果,以及当前动作未完成的话,下一步是否扩增窗口的长度。
M5用于采样窗口调整,其输入为M4决策的扩增窗口的长度,输出为进一步调整后窗口内采样的下一轮输入图像序列。
图4示出根据本公开示例性实施例的M2和M3的内部结构的示意图。
在本公开的示例性实施例中,动作识别和动作完成度识别可由不同的独立的算法网络分别完成,也可以采用多任务网络的结构设计。若使用多任务结构网络结构,参照图4,M2和M3使用公共的基础网络M1来提取特征,这样设计的好处是可以大大降低网络中的计算量,并且,由于同一种类的动作其发展过程往往相似,两支共用底层特征提取网络提取一致的特征既可以代表其类别,也可以代表当前动作的完成程度,两者共用底层的网络结构和参数是具有实际现实意义的。
具体来说,输入特征的大小可以是C×T×H×W。这里,C为特征通道数,T为特征时间轴长度,H为特征空间上高度,W为特征空间上的宽度。
在本公开的示例性实施例中,在M2中,输入特征首先经过三维线性门控单元(3Dgated linear unit,简称3D GLU)成为对行为识别有鉴别性的特征,后经过池化层、全连接层和softmax输出其在所有动作类别上的概率。在M3中,输入特征经过3D GLU成为对动作完成度识别有鉴别性的特征,后经过池化层、全连接层和softmax层,输出动作的完成程度值。
在M2和M3中,3D GLU的输入是相同的底层网络的输入特征,输出为区别性的面向不同任务的特征。3D GLU所实现的作用是面向任务,生成具有区分性的输出特征。特征的区分性体现在以下两个方面:
i.对于动作识别和动作完成度识别,给予不同的时间上关注程度,从而使两支上的输出特征具有区分度。对于动作识别而言,不同完成程度的同一个动作其识别结果应当相同,因此动作识别这一支的3D GLU会更加关注动作起始位置。对动作完成度识别而言,同样起点不同终点的同以动作其识别结果不同,这一支的3D GLU会更加关注到动作结束的位置。
ii.在特征上使用不同的卷积核参数进行卷积,从而增加任务相关的参数,使得特征本身具有区分性。在3D GLU中其内部的卷积核在训练过程中因任务不同,两支的卷积核参数自然不同,因此同样的特征经过卷积后,其输出特征即不相同。这相当于在两支中,各自加深了网络的深度,赋予了特征区别性的表达能力。
图5示出根据本公开示例性实施例的3D GLU的内部结构的示意图。
参照图5,3D GLU内部分为两支:时域门控支和特征卷积支。
i.时域门控支
在时间维度生成对不同时间的关注度权重。
时域门控支由两层组成,一层时间维度的卷积层WG,其卷积核的形状为[Kt,1,1],这里,Kt为时间轴上卷积核的大小参数。时间维度的卷积核在时间轴T上做卷积。
后面一层是Sigmoid非线性层,经过门控的非线性层,生成时间轴上的关注度权重。
ii.特征卷积支
该支是直接在空间上对输入特征进行卷积,卷积核的维度是[1,Ks,Ks],这里,Ks为空间上卷积核的大小。从而增加网络的运算深度,赋予特征更加丰富的表达性。
两支的输出都是同样维度的特征,最终使用点乘的操作,将两支的输出结合起来,从而实现在时间维度上对特征用不同的权重进行关注。
图6示出根据本公开示例性实施例的M4的用于增量窗口调整的部分的内部结构的示意图。
在本公开的示例性实施例中,M4基于当前行为动作识别的结果和行为动作完成度的结果来决策下一步采样策略。其输出有两种方式:如果当前窗口中没有动作或者动作已经结束,则开始新一轮以初始窗口的大小进行采样;如果当前窗口中动作没有结束,则在现在窗口的基础上确定需要增加窗口的大小。当动作完成度比较高时,增加一个较大的窗口。当动作完成度比较低时,增加一个较小的窗口。
具体地,参照图6,M4中的具体计算流程如下:
对动作识别在不同动作类别上的结果取最大值,得到其预测的行为动作类别及其概率,结合动作完成度的结果,分为三种情况:
若行为动作识别概率pclass及动作完成度pfinished均大于阈值Thres1,则表示当前窗口内动作被很好的识别出来且动作已经基本完成,则开始新一轮初始化固定窗口大小采样。
若行为动作识别概率pclass及动作完成度pfinished均小于阈值Thres2,则表示当前窗口中包含有所有动作类别的概率都很低,且动作完成度也较低,则表示当前窗口中可能不包含有动作,则开始新一轮初始化固定窗口大小采样。
若行为动作识别概率pclass及动作完成度pfinished在阈值Thres2和Thres1之间,则认定当前窗口中包含有正在进行的动作,通过下面公式计算参数α:
Figure BDA0002345484890000151
增量窗口的大小为:IW=α*W,这里,W为这次采样对应窗口的大小。
图7示出根据本公开示例性实施例的M5的内部结构的示意图。
在本公开的示例性实施例中,M5的作用在于进一步调整增量窗口的大小及确定新一轮采样窗口的起始位置。在图7中,M5分为两个子部分:增量窗口平滑部分和窗口自适应部分。下面将参照图8和图9分别进行说明。
图8示出根据本公开示例性实施例的增量窗口平滑的示意图。
增量窗口平滑的作用是基于前几次调节增量窗口的记录,平滑当前计算得到的增量窗口的大小,以保证增量窗口的增长与动作完成度的变化是稳健和稳定的。增量窗口平滑的输入是M4得到的增量窗口大小IW和当前窗口中动作完成度pfinished,输出是经过平滑后的最终增量窗口大小IWnew.
增量窗口平滑的具体计算流程如下:
i.系统中保存前两次采样窗口的大小(w1,w2)和对应的完成度(f1,f2);
ii.线性拟合窗口大小与完成度的关系,根据当前窗口的动作完成度pfinished,推理得到当前动作完成度对应的窗口的大小wpredict
iii.M4得到的窗口大小为wcaculate=w2+IW,最终调整后窗口的大小为wfinal=0.5*(wpredict+wcaculate),对应增量窗口的大小为IWnew=wfinal-w2
图9示出根据本公开示例性实施例的窗口自适应的示意图。
对于行为动作识别的网络,其输入的数据大小是固定的,因此对于不同大小的窗口,其采样后的图像帧数是固定的数目N,此数目可根据不同系统和不同目标动作进行调整。
窗口自适应的作用是根据增量窗口的大小,在新增的窗口中采样Nadd帧的新的图像,并在上一次采样的N帧图像中,从头部删除Nadd帧的图像,进而合并成新一轮的N帧采样图像序列。Nadd的计算公式为:Nadd=P*IW/((w2+IW)/N)。这里,P为经验性系数且P>1,从而保证在新增窗口中增加相对较多的信息,IW为增量窗口的大小,w2为上一次采样窗口的大小,N为采样的帧数。增加这些帧图像,同时在上一次的采样帧中删除这些帧的图像,保证最终新一轮的输入数据同样为N帧。
对应增量窗口的方案,其主要面向的是长动作被截断的情况,因为在实际应用中,初始窗口的大小往往较小,因此通过增加窗口的长度来改善长动作被截断导致识别精度不高的情况。对于特别短的动作,其长度有可能小于初始的窗口长度,本发明中设计可减量窗口调整方案以应对短动作的识别问题,从而避免一味减小初始窗口的大小来应对短动作。这样的设计更加高效。
图10示出根据本公开示例性实施例的M4的用于减量窗口调整的部分的内部结构的示意图。
在增量窗口调整的基础上增加判别的一支,当参数α介于(a,b)之间时,代表算法难以识别窗口内动作类别及窗口内动作是否完成,这种情况往往是由于窗口内混合有背景噪声所引起的,因此在这种情况下,计算需要减去的窗口大小SW。SW的计算公式为:SW=α*W/N。这里,W为当前采样窗口的长度,N为在当前窗口中采样的图像帧数。
图11示出根据本公开示例性实施例的用于增量窗口调整和减量窗口调整的M4的内部结构的示意图。图12示出根据本公开示例性实施例的计算的减量窗口的过程的示意图。
参照图11和图12,根据M4计算的减量窗口的大小,在原采样窗口头部和尾部两个方向分别减去长短为SW的窗口,得到SSW1和SSW2,并在新得到的两个窗口内分别采样N帧图像进行行为动作识别和行为动作完成度识别,最终取SSW1和SSW2中具有较高的动作识别概率的窗口。这样的设计可以应对短动作位于窗口内任何位置的情况,若动作更加靠近窗口起始点,则SSW1中包含有更多的动作信息,其识别结果更加准确;若动作更加靠近初始窗口的结束点,则SSW2中将包含更多的动作信息,其识别结果会更加准确。可见,对于短动作而言,无需特别调小初始窗口的大小,可有效的减去窗口中的噪声,并定位到位于窗口中任意位置的短动作,实现对短动作的高精度识别和定位。在图12中,动作相对于窗口大小来说是短动作,因此减去窗口中的噪声部分,使得调整后的窗口包括整个动作,并且包括的噪声尽量少。
图13示出根据本公开示例性实施例的对于被截断的长动作来调整窗口的示意图。
参照图13,对于被截断的长动作,可通过如上所述的扩增窗口的方法来迭代调整窗口的起始位置,实现最终窗口内包含有完整的动作过程,实现高精度的行为动作识别和定位。在图13中,动作2相对于窗口大小来说是长动作,因此扩增采样窗口,使得扩增后的采样窗口包括整个动作2。
图14示出根据本公开示例性实施例的对于短动作来调整窗口的示意图。
参照图14,对于短于初始窗口的短动作而言,无需特别调小初始窗口的大小,可有效的减去窗口中的噪声,并定位到位于窗口中任意位置的短动作,从而使得调整后的窗口包含有动作发生的全部过程,进而实现对短动作的高精度识别和定位。在图14中,动作1相对于窗口大小来说是短动作,因此减去窗口中的噪声部分,使得调整后的窗口包括整个动作1,并且包括的噪声尽量少。
以上已经结合图1至图14对根据本公开示例性实施例的视频采样方法进行了描述。在下文中,将参照图15对根据本公开示例性实施例的视频采样装置及其单元进行描述。
图15示出根据本公开示例性实施例的视频采样装置的框图。
参照图15,视频采样装置包括第一采样单元151、参数获取单元152、窗口调整单元153和第二采样单元154。
第一采样单元151被配置为基于采样窗口对视频进行采样,得到当前采样图像序列。
参数获取单元152被配置为获取当前采样图像序列对应的动作参数。
在本公开示例性实施例中,动作参数可包括:包含各种动作的概率和/或包含的动作的完成度。
在本公开示例性实施例中,参数获取单元152可包括:特征提取单元,被配置为对当前采样图像序列进行特征提取,得到当前采样图像序列的特征;特征识别单元,被配置为对当前采样图像序列的特征进行特征识别,得到当前采样图像序列中的动作参数。
在本公开示例性实施例中,动作参数可包括:包含各种动作的概率和包含的动作的完成度,特征识别单元可被配置为:对当前采样图像序列的特征进行动作识别,得到当前采样图像序列中包含各种动作的概率;对当前采样图像序列的特征进行动作完成程度的识别,得到当前采样图像序列中包含的动作的完成度。
在本公开示例性实施例中,所述视频采样装置还可包括确定单元(未示出),被配置为:当当前采样图像序列中包含各种动作的概率大于第一阈值,且当前采样图像序列中包含的动作的完成度大于第二阈值时,确定当前采样图像序列中包含的动作已完成;和/或,当当前采样图像序列中包含各种动作的概率小于第三阈值,且当前采样图像序列中包含的动作的完成度小于第四阈值时,确定当前采样图像序列中不包含有动作;和/或,当当前采样图像序列中包含各种动作的概率在第一阈值和第三阈值之间,且当前采样图像序列中包含的动作的完成度在第二阈值和第四阈值之间时,确定当前采样图像序列中包含的动作未完成。
窗口调整单元153被配置为根据当前采样图像序列对应的动作参数,对所述采样窗口进行调整,以基于调整后的采样窗口对视频进行采样。
在本公开示例性实施例中,窗口调整单元153可被配置为:根据当前采样图像序列中的动作参数,计算采样窗口的大小变化值和/或采样窗口移动的位置;基于所述采样窗口的大小变化值和/或采样窗口移动的位置对所述采样窗口进行调整。
在本公开示例性实施例中,窗口调整单元153还可被配置为:当根据动作参数确定当前采样图像序列中包含的动作未完成时,根据所述动作参数计算采样窗口的增量值;根据采样窗口的增量值,确定采样窗口移动的位置。
在本公开示例性实施例中,所述视频采样装置还可包括:平滑和调整单元(未示出),被配置为根据采样窗口历史调整信息,对所述采样窗口的增量值进行平滑处理。
在本公开示例性实施例中,窗口调整单元153还可被配置为:根据采样窗口的增量值确定在与采样窗口的增量值对应的扩增窗口中采样扩增图像的帧数量;根据确定的帧数量确定采样窗口移动的位置。
在本公开示例性实施例中,窗口调整单元153还可被配置为:当根据动作参数不能确定当前采样图像序列中动作是否完成时,根据所述动作参数计算采样窗口的减量值;根据采样窗口的减量值,确定采样窗口移动的位置。
在本公开示例性实施例中,窗口调整单元153还可被配置为:在采样窗口的两端分别减去长度为所述采样窗口的减量值的窗口,得到第一采样窗口和第二采样窗口;将第一采样窗口和第二采样窗口中的一个作为更新的采样窗口;根据更新的采样窗口确定当前采样窗口移动的位置。
在本公开示例性实施例中,窗口调整单元153还可被配置为:从第一采样窗口和第二采样窗口中分别采样预设数量帧的采样图像序列;分别对从第一采样窗口采样的采样图像序列和从第二采样窗口采样的采样图像序列进行特征提取并进行特征识别;根据识别结果选择第一采样窗口和第二采样窗口中的一个作为更新的采样窗口。
在本公开示例性实施例中,采样窗口移动的位置为采样窗口的起始点移动的位置。
在本公开示例性实施例中,特征识别单元还可被配置为:对当前采样图像序列的特征进行三维线性门控处理,得到动作识别特征;基于得到的动作识别特征,获取当前采样图像序列中包含各种动作的概率。
在本公开示例性实施例中,特征识别单元还可被配置为:对当前采样图像序列的特征进行三维线性门控处理,得到动作完成度识别特征;基于得到的动作完成度识别特征,获取当前采样图像序列中包含的动作的完成度。
在本公开示例性实施例中,特征识别单元还可被配置为:对当前采样图像序列的特征在时间维度生成时间关注度权重;在空间上对当前采样图像序列的特征进行空间卷积;将时间关注度权重与空间卷积后的特征进行点乘,得到三维线性门控处理后的特征。
第二采样单元154被配置为基于调整后的采样窗口对视频进行采样。
在本公开示例性实施例中,第二采样单元154可被配置为:根据确定的帧数量在扩增窗口中对视频进行采样得到扩增图像序列;获取当前采样图像序列中,调整后的采样窗口对应的采样图像序列;将所述调整后的采样窗口对应的采样图像序列和所述扩增图像序列,作为基于调整后的采样窗口采样得到的采样图像序列。
在本公开示例性实施例中,第一采样单元和第二采样单元分别采样得到预设数量帧图像。
此外,根据本公开的示例性实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序被执行时,实现根据本公开的示例性实施例的视频采样方法。
在本公开的示例性实施例中,所述计算机可读存储介质可承载有一个或者多个程序,当所述计算机程序被执行时可实现以下步骤:以当前采样窗口对视频进行采样,得到预设数量帧的当前采样图像序列;对当前采样图像序列进行特征提取,得到当前采样图像序列的特征;对当前采样图像序列的特征进行特征识别,得到当前采样图像序列中的动作参数;根据当前采样图像序列中的动作参数,计算用于下一次采样的窗口大小变化值和窗口起始点移动的位置;使用基于所述窗口大小变化值和窗口起始点移动的位置调整得到的下一次采样窗口对视频进行下一次采样。
计算机可读存储介质例如可以是,但不限于,电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中,计算机可读存储介质可以是任何包含或存储计算机程序的有形介质,该计算机程序可以被指令执行系统、装置或者器件使用或者与其结合使用。计算机可读存储介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。计算机可读存储介质可以包含在任意装置中;也可以单独存在,而未装配入该装置中。
以上已经结合图15对根据本公开示例性实施例的视频采样装置进行了描述。接下来,结合图16对根据本公开的示例性实施例的电子设备进行描述。
图16示出根据本公开示例性实施例的电子设备的示意图。
参照图16,根据本公开示例性实施例的电子设备16,包括存储器161和处理器162,所述存储器161上存储有计算机程序,当所述计算机程序被处理器162执行时,实现根据本公开的示例性实施例的视频采样方法。
在本公开的示例性实施例中,当所述计算机程序被处理器162执行时,可实现以下步骤:以当前采样窗口对视频进行采样,得到预设数量帧的当前采样图像序列;对当前采样图像序列进行特征提取,得到当前采样图像序列的特征;对当前采样图像序列的特征进行特征识别,得到当前采样图像序列中的动作参数;根据当前采样图像序列中的动作参数,计算用于下一次采样的窗口大小变化值和窗口起始点移动的位置;使用基于所述窗口大小变化值和窗口起始点移动的位置调整得到的下一次采样窗口对视频进行下一次采样。
本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、PDA(个人数字助理)、PAD(平板电脑)、台式计算机等的装置。图15示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
以上已参照图1至图16描述了根据本公开示例性实施例的视频采样方法及装置。然而,应该理解的是:图15中所示的视频采样装置及其单元可分别被配置为执行特定功能的软件、硬件、固件或上述项的任意组合,图16中所示的电子设备并不限于包括以上示出的组件,而是可根据需要增加或删除一些组件,并且以上组件也可被组合。
根据本公开的示例性实施例的视频采样方法及装置,通过基于采样窗口对视频进行采样,得到当前采样图像序列;获取当前采样图像序列对应的动作参数;根据当前采样图像序列对应的动作参数,对所述采样窗口进行调整;基于调整后的采样窗口对视频进行采样,从而了对动作的高精度识别和定位,进而实现了视频采样的准确性。
尽管已经参照其示例性实施例具体显示和描述了本公开,但是本领域的技术人员应该理解,在不脱离权利要求所限定的本公开的精神和范围的情况下,可以对其进行形式和细节上的各种改变。

Claims (21)

1.一种视频采样方法,包括:
基于采样窗口对视频进行采样,得到当前采样图像序列;
获取当前采样图像序列对应的动作参数;
根据当前采样图像序列对应的动作参数,对所述采样窗口进行调整;
基于调整后的采样窗口对视频进行采样。
2.根据权利要求1所述的视频采样方法,其中,所述动作参数包括:包含各种动作的概率和/或包含的动作的完成度。
3.根据权利要求1或2所述的视频采样方法,其中,获取当前采样图像序列对应的动作参数的步骤包括:
对当前采样图像序列进行特征提取,得到当前采样图像序列的特征;
对当前采样图像序列的特征进行特征识别,得到当前采样图像序列中的动作参数。
4.根据权利要求3所述的视频采样方法,其中,所述动作参数包括:包含各种动作的概率和包含的动作的完成度,
对当前采样图像序列的特征进行特征识别的步骤包括:
对当前采样图像序列的特征进行动作识别,得到当前采样图像序列中包含各种动作的概率;
对当前采样图像序列的特征进行动作完成程度的识别,得到当前采样图像序列中包含的动作的完成度。
5.根据权利要求1至4中任一项所述的视频采样方法,其中,对所述采样窗口进行调整的步骤包括:
根据当前采样图像序列中的动作参数,计算采样窗口的大小变化值和/或采样窗口移动的位置;
基于所述采样窗口的大小变化值和/或采样窗口移动的位置对所述采样窗口进行调整。
6.根据权利要求5所述的视频采样方法,其中,计算采样窗口的大小变化值和/或采样窗口移动的位置的步骤包括:
当根据动作参数确定当前采样图像序列中包含的动作未完成时,根据所述动作参数计算采样窗口的增量值;
根据采样窗口的增量值,确定采样窗口移动的位置。
7.根据权利要求6所述的视频采样方法,还包括:
根据采样窗口历史调整信息,对所述采样窗口的增量值进行平滑处理。
8.根据权利要求6或7所述的视频采样方法,其中,确定采样窗口移动的位置的步骤包括:
根据采样窗口的增量值确定在与采样窗口的增量值对应的扩增窗口中采样扩增图像的帧数量;
根据确定的帧数量确定采样窗口移动的位置。
9.根据权利要求8所述的视频采样方法,其中,基于调整后的采样窗口对视频进行采样的步骤包括:
根据确定的帧数量在扩增窗口中对视频进行采样得到扩增图像序列;
获取当前采样图像序列中,调整后的采样窗口对应的采样图像序列;
将所述调整后的采样窗口对应的采样图像序列和所述扩增图像序列,作为基于调整后的采样窗口采样得到的采样图像序列。
10.根据权利要求6至9中任一项所述的视频采样方法,还包括:
当当前采样图像序列中包含各种动作的概率大于第一阈值,且当前采样图像序列中包含的动作的完成度大于第二阈值时,确定当前采样图像序列中包含的动作已完成;和/或
当当前采样图像序列中包含各种动作的概率小于第三阈值,且当前采样图像序列中包含的动作的完成度小于第四阈值时,确定当前采样图像序列中不包含有动作;和/或
当当前采样图像序列中包含各种动作的概率在第一阈值和第三阈值之间,且当前采样图像序列中包含的动作的完成度在第二阈值和第四阈值之间时,确定当前采样图像序列中包含的动作未完成。
11.根据权利要求5所述的视频采样方法,其中,计算采样窗口的大小变化值和/或采样窗口移动的位置的步骤包括:
当根据动作参数不能确定当前采样图像序列中动作是否完成时,根据所述动作参数计算采样窗口的减量值;
根据采样窗口的减量值确定采样窗口移动的位置。
12.根据权利要求11所述的视频采样方法,其中,根据采样窗口的减量值确定采样窗口移动的位置的步骤包括:
在采样窗口的两端分别减去长度为所述采样窗口的减量值的窗口,得到第一采样窗口和第二采样窗口;
将第一采样窗口和第二采样窗口中的一个作为更新的采样窗口;
根据更新的采样窗口确定当前采样窗口移动的位置。
13.根据权利要求12所述的视频采样方法,其中,将第一采样窗口和第二采样窗口中的一个作为更新的采样窗口的步骤包括:
从第一采样窗口和第二采样窗口中分别采样预设数量帧的采样图像序列;
分别对从第一采样窗口采样的采样图像序列和从第二采样窗口采样的采样图像序列进行特征提取并进行特征识别;
根据识别结果选择第一采样窗口和第二采样窗口中的一个作为更新的采样窗口。
14.根据权利要求5至13中任一项所述的视频采样方法,其中,所述采样窗口移动的位置为采样窗口的起始点移动的位置。
15.根据权利要求4所述的视频采样方法,其中,对当前采样图像序列的特征进行动作识别的步骤包括:
对当前采样图像序列的特征进行三维线性门控处理,得到动作识别特征;
基于得到的动作识别特征,获取当前采样图像序列中包含各种动作的概率。
16.根据权利要求4所述的视频采样方法,其中,对当前采样图像序列的特征进行动作完成程度的识别的步骤包括:
对当前采样图像序列的特征进行三维线性门控处理,得到动作完成度识别特征;
基于得到的动作完成度识别特征,获取当前采样图像序列中包含的动作的完成度。
17.根据权利要求15或16所述的视频采样方法,其中,对当前采样图像序列的特征进行三维线性门控处理的步骤包括:
对当前采样图像序列的特征在时间维度生成时间关注度权重;
在空间上对当前采样图像序列的特征进行空间卷积;
将时间关注度权重与空间卷积后的特征进行点乘,得到三维线性门控处理后的特征。
18.根据权利要求1-17中任一项所述的视频采样方法,其中,基于采样窗口对视频进行采样得到预设数量帧图像。
19.一种视频采样装置,包括:
第一采样单元,被配置为基于采样窗口对视频进行采样,得到当前采样图像序列;
参数获取单元,被配置为获取当前采样图像序列对应的动作参数;
窗口调整单元,被配置为根据当前采样图像序列对应的动作参数,对所述采样窗口进行调整,以基于调整后的采样窗口对视频进行采样;和
第二采样单元,被配置为基于调整后的采样窗口对视频进行采样。
20.一种存储有计算机程序的计算机可读存储介质,其中,当所述计算机程序被处理器执行时,实现权利要求1至18中任一项所述的视频采样方法。
21.一种电子设备,包括:
处理器;
存储器,存储有计算机程序,当所述计算机程序被处理器执行时,实现权利要求1至18中任一项所述的视频采样方法。
CN201911392891.9A 2019-12-30 2019-12-30 视频采样方法及装置 Pending CN113128256A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201911392891.9A CN113128256A (zh) 2019-12-30 2019-12-30 视频采样方法及装置
PCT/KR2020/019106 WO2021137533A1 (en) 2019-12-30 2020-12-24 Video sampling method and apparatus using the same
US17/136,368 US11790655B2 (en) 2019-12-30 2020-12-29 Video sampling method and apparatus using the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911392891.9A CN113128256A (zh) 2019-12-30 2019-12-30 视频采样方法及装置

Publications (1)

Publication Number Publication Date
CN113128256A true CN113128256A (zh) 2021-07-16

Family

ID=76547385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911392891.9A Pending CN113128256A (zh) 2019-12-30 2019-12-30 视频采样方法及装置

Country Status (3)

Country Link
US (1) US11790655B2 (zh)
CN (1) CN113128256A (zh)
WO (1) WO2021137533A1 (zh)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI254581B (en) * 2004-12-27 2006-05-01 Sunplus Technology Co Ltd Method and device for detecting image movements
CN102118549B (zh) * 2009-12-31 2013-02-27 敦南科技股份有限公司 影像感测装置检测闪频光的方法及其影像感测装置
KR101477649B1 (ko) * 2013-10-08 2014-12-30 재단법인대구경북과학기술원 샘플링과 사후 확률을 이용한 객체 검출 장치 및 그 방법
CN105225248B (zh) * 2014-06-27 2018-02-02 株式会社理光 识别物体的运动方向的方法和设备
WO2016054779A1 (en) 2014-10-09 2016-04-14 Microsoft Technology Licensing, Llc Spatial pyramid pooling networks for image processing
KR101676176B1 (ko) * 2015-06-18 2016-11-14 한양대학교 에리카산학협력단 사용자 행위를 인식하기 위한 센싱 방법 및 장치
US11017556B2 (en) * 2017-10-04 2021-05-25 Nvidia Corporation Iterative spatio-temporal action detection in video
US11179064B2 (en) * 2018-12-30 2021-11-23 Altum View Systems Inc. Method and system for privacy-preserving fall detection
KR102021441B1 (ko) 2019-05-17 2019-11-04 정태웅 인공지능을 이용한 영상 기반의 실시간 침입 감지 방법 및 감시카메라

Also Published As

Publication number Publication date
WO2021137533A1 (en) 2021-07-08
US20210201043A1 (en) 2021-07-01
US11790655B2 (en) 2023-10-17

Similar Documents

Publication Publication Date Title
WO2020228446A1 (zh) 模型训练方法、装置、终端及存储介质
CN111179419B (zh) 三维关键点预测及深度学习模型训练方法、装置及设备
CN111160375A (zh) 三维关键点预测及深度学习模型训练方法、装置及设备
CN109598234B (zh) 关键点检测方法和装置
CN111476302A (zh) 基于深度强化学习的Faster-RCNN目标物体检测方法
CN112489081B (zh) 一种视觉目标跟踪方法及装置
CN109325440B (zh) 人体动作识别方法及系统
WO2007047461A9 (en) Bi-directional tracking using trajectory segment analysis
CN111914878B (zh) 特征点跟踪训练及跟踪方法、装置、电子设备及存储介质
CN110555526B (zh) 神经网络模型训练方法、图像识别方法和装置
CN111914782A (zh) 人脸及其特征点的检测方法、装置、电子设备和存储介质
CN111814744A (zh) 一种人脸检测方法、装置、电子设备和计算机存储介质
CN112749726B (zh) 目标检测模型的训练方法、装置、计算机设备和存储介质
CN110705600A (zh) 一种基于互相关熵的多深度学习模型融合方法、终端设备及可读存储介质
CN109858454B (zh) 一种基于双模型自适应核相关滤波追踪方法
CN117115595B (zh) 姿态估计模型的训练方法、装置、电子设备及存储介质
CN113344016A (zh) 深度迁移学习方法、装置、电子设备及存储介质
CN109978058B (zh) 确定图像分类的方法、装置、终端及存储介质
KR101903684B1 (ko) 이미지 특징 예측 방법 및 장치
CN111008992B (zh) 目标跟踪方法、装置和系统及存储介质
CN111814813B (zh) 神经网络训练和图像分类方法与装置
CN117058235A (zh) 跨多种室内场景的视觉定位方法
CN111931841A (zh) 基于深度学习的树状处理方法、终端、芯片及存储介质
US11790655B2 (en) Video sampling method and apparatus using the same
CN114140848B (zh) 基于knn和dsn的微表情识别方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination