CN110418163A - 视频帧采样方法、装置、电子设备及存储介质 - Google Patents

视频帧采样方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN110418163A
CN110418163A CN201910799609.2A CN201910799609A CN110418163A CN 110418163 A CN110418163 A CN 110418163A CN 201910799609 A CN201910799609 A CN 201910799609A CN 110418163 A CN110418163 A CN 110418163A
Authority
CN
China
Prior art keywords
video frame
feature
network
sampling location
adjustment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910799609.2A
Other languages
English (en)
Other versions
CN110418163B (zh
Inventor
何栋梁
谭啸
文石磊
孙昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910799609.2A priority Critical patent/CN110418163B/zh
Publication of CN110418163A publication Critical patent/CN110418163A/zh
Application granted granted Critical
Publication of CN110418163B publication Critical patent/CN110418163B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234381Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the temporal resolution, e.g. decreasing the frame rate by frame skipping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440281Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the temporal resolution, e.g. by frame skipping

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了视频帧采样方法、装置、电子设备及存储介质,涉及视频理解技术领域。具体实现方案为:确定视频帧序列中的初始采样位置;通过卷积神经网络对初始采样位置对应的视频帧进行特征提取,得到视频帧特征,将视频帧特征输入到门控循环单元网络;门控循环单元网络根据视频帧特征生成隐含层状态,将隐含层状态输入到策略网络;策略网络根据隐含层状态输出动作空间的概率分布,动作空间中包括调整采样位置的动作集合;根据动作空间的概率分布从动作集合中选择调整采样位置的动作。本申请实施例基于卷积神经网络、门控循环单元网络、策略网络和动作空间实现对视频中的图片帧进行采样,通过自适应地对视频内容进行抽帧从而提高视频识别的性能。

Description

视频帧采样方法、装置、电子设备及存储介质
技术领域
本申请涉及一种计算机技术领域,尤其涉及一种视频理解技术领域。
背景技术
视频理解的一个重要环节是对视频内容进行识别,即将视频分类成影视,娱乐,运动等类别。目前多数视频识别方法是从视频序列中选取视频帧,基于选取的视频帧的图像的特征进行分类。这类方法中,视频中的选取方式基本都是手工设计的抽帧策略,例如随机采样、均匀采样或者间隔采样等抽帧策略。对于一段视频序列而言,视频中的图片帧往往不是每一帧都适合用来提取特征进行识别,尤其是较长的视频,视频中与视频类别无关的图片帧将对视频的识别带来负面的影响。目前的随机采样、均匀采样或者间隔采样等手动设计的抽帧策略,均无可避免地会采样到视频中的无关内容,从而影响整体的分类性能。
发明内容
本申请实施例提出一种视频帧采样方法、装置、电子设备及存储介质,以至少解决现有技术中的以上技术问题。
第一方面,本申请实施例提供了一种视频帧采样方法,包括:
确定视频帧序列中的初始采样位置;
通过卷积神经网络对初始采样位置对应的视频帧进行特征提取,得到视频帧特征,将视频帧特征输入到门控循环单元网络;
门控循环单元网络根据视频帧特征生成隐含层状态,将隐含层状态输入到策略网络;
策略网络根据隐含层状态输出动作空间的概率分布,动作空间中包括调整采样位置的动作集合;
根据动作空间的概率分布从动作集合中选择调整采样位置的动作。
本申请实施例中,基于卷积神经网络、门控循环单元网络、策略网络和动作空间实现对视频中的图片帧进行采样,通过自适应地对视频内容进行抽帧从而提高视频识别的性能。
在一种实施方式中,通过卷积神经网络对初始采样位置对应的视频帧进行特征提取,得到视频帧特征,将视频帧特征输入到门控循环单元网络,还包括:
通过卷积神经网络对初始采样位置对应的视频帧进行特征提取,将提取的特征输入到级联操作网络;
级联操作网络将卷积神经网络提取的特征与上下文特征进行融合,构成融合特征,上下文特征是初始采样位置对应的视频帧的上下文所在视频帧的特征;
将融合特征作为视频帧特征输入到门控循环单元网络。
本申请实施例中,通过连接上下文特征,使输入到门控循环单元网络的视频帧特征具有上下文敏感的特点,从而获取更全面的信息,能够使得采样得到的视频帧与视频内容的相关度更大,从而进一步提高视频识别的性能。
在一种实施方式中,上述方法还包括:
多个智能体利用卷积神经网络、门控循环单元和策略网络,在视频帧序列中调整采样位置;
其中,多个智能体在卷积神经网络中共享网络参数,多个智能体在门控循环单元中共享网络参数,以及多个智能体在策略网络中共享网络参数。
本申请实施例中,每个智能体的卷积神经网络、门控循环单元以及策略网络是参数共享的,这种设计能够增加模型的灵活性。由于每个智能体从视频帧序列中采样出一帧图像用于最终的视频识别任务。因此多个智能体共享网络参数能够使训练好的模型可以自适应地用于不同数目的目标帧数的场景,而无须重新训练网络。
在一种实施方式中,根据动作空间的概率分布从动作集合中选择调整采样位置的动作之后,还包括:
执行选择的调整采样位置的动作;
将调整后的采样位置作为初始采样位置,重复执行通过卷积神经网络对初始采样位置对应的视频帧进行特征提取、根据视频帧特征生成隐含层状态、根据隐含层状态输出动作空间的概率分布、根据动作空间的概率分布从动作集合中选择调整采样位置的动作的步骤;
在调整步数达到预设次数或者选择的调整采样位置的动作为保持不动的情况下,确定完成调整采样位置的过程,将调整完成的采样位置作为采样结果。
本申请实施例中,通过多次迭代完成调整采样位置的过程,最终确定调整完成的采样位置,可以保证采样抽取出的视频帧与视频内容的相关度更大,从而进一步提高视频识别的准确度。
在一种实施方式中,所述方法还包括:
利用激励函数调整卷积神经网络、门控循环单元和策略网络的参数,激励函数为:
其中,Tstop表示最后的调整步数;t表示当前的调整步数;γk表示预定的打折系数;表示每个调整步数的临时激励值;表示累积后的激励值。
本申请实施例中,利用激励函数使得智能体在每步决策的结果都将影响后面的决策,把后续步骤的激励反馈到前序步骤,从而达到更好的模型训练效果。
在一种实施方式中,在确定完成调整采样位置的过程之后,还包括:
将采样结果对应的视频帧特征输入到分类网络;
分类网络根据采样结果对应的视频帧特征得到对应的视频类别。
本申请实施例中,利用采样结果对应的视频帧对视频进行准确地分类,有助于提升后续的视频理解准确率。
在一种实施方式中,分类网络中,采用梯度下降法得到最小化的损失函数和模型参数值,采用交叉熵作为损失函数。
本申请实施例中,采用交叉熵可准确度量概率分布间的差异性信息,且有助于更好地控制模型收敛速度。
第二方面,本申请实施例提供了一种视频帧采样装置,包括:
确定单元,用于确定视频帧序列中的初始采样位置;
提取单元,用于:通过卷积神经网络对初始采样位置对应的视频帧进行特征提取,得到视频帧特征,将视频帧特征输入到门控循环单元网络;
生成单元,用于:利用门控循环单元网络根据视频帧特征生成隐含层状态,将隐含层状态输入到策略网络;
输出单元,用于:利用策略网络根据隐含层状态输出动作空间的概率分布,动作空间中包括调整采样位置的动作集合;
调整单元,用于根据动作空间的概率分布从动作集合中选择调整采样位置的动作。
在一种实施方式中,提取单元还用于:
通过卷积神经网络对初始采样位置对应的视频帧进行特征提取,将提取的特征输入到级联操作网络;
级联操作网络将卷积神经网络提取的特征与上下文特征进行融合,构成融合特征,上下文特征是初始采样位置对应的视频帧的上下文所在视频帧的特征;
将融合特征作为视频帧特征输入到门控循环单元网络。
在一种实施方式中,调整单元还用于:
通过多个智能体利用卷积神经网络、门控循环单元和策略网络,在视频帧序列中调整采样位置;
其中,多个智能体在卷积神经网络中共享网络参数,多个智能体在门控循环单元中共享网络参数,以及多个智能体在策略网络中共享网络参数。
在一种实施方式中,调整单元还用于:
执行选择的调整采样位置的动作;
将调整后的采样位置作为初始采样位置,重复执行通过卷积神经网络对初始采样位置对应的视频帧进行特征提取、根据视频帧特征生成隐含层状态、根据隐含层状态输出动作空间的概率分布、根据动作空间的概率分布从动作集合中选择调整采样位置的动作的步骤;
在调整步数达到预设次数或者选择的调整采样位置的动作为保持不动的情况下,确定完成调整采样位置的过程,将调整完成的采样位置作为采样结果。
在一种实施方式中,调整单元还用于:
利用激励函数调整卷积神经网络、门控循环单元和策略网络的参数,激励函数为:
其中,Tstop表示最后的调整步数;t表示当前的调整步数;γk表示预定的打折系数;表示每个调整步数的临时激励值;表示累积后的激励值。
在一种实施方式中,上述装置还包括分类单元,分类单元用于:
将采样结果对应的视频帧特征输入到分类网络;
分类网络根据采样结果对应的视频帧特征得到对应的视频类别。
在一种实施方式中,分类网络中,采用梯度下降法得到最小化的损失函数和模型参数值,采用交叉熵作为损失函数。
第三方面,本申请实施例提供了一种电子设备,包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本申请任意一项实施例所提供的方法。
第四方面,本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使该计算机执行本申请任意一项实施例所提供的方法。
上述申请中的一个实施例具有如下优点或有益效果:基于卷积神经网络、门控循环单元网络、策略网络和动作空间实现对视频中的图片帧进行采样,通过自适应地对视频内容进行抽帧从而提高视频识别的性能。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请实施例的视频帧采样方法的流程图;
图2是本申请一种示例的基于强化学习的视频帧采样方法的系统流程图;
图3是根据本申请实施例的视频帧采样方法的流程图;
图4是根据本申请实施例的视频帧采样装置结构示意图;
图5是根据本申请实施例的视频帧采样装置结构示意图;
图6是用来实现本申请实施例的视频帧采样方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本申请1实施例的视频帧采样方法的示意图。该视频帧采样方法包括:
步骤S110,确定视频帧序列中的初始采样位置;
步骤S120,通过卷积神经网络对初始采样位置对应的视频帧进行特征提取,得到视频帧特征,将视频帧特征输入到门控循环单元网络;
步骤S130,门控循环单元网络根据视频帧特征生成隐含层状态,将隐含层状态输入到策略网络;
步骤S140,策略网络根据隐含层状态输出动作空间的概率分布,动作空间中包括调整采样位置的动作集合;
步骤S150,根据动作空间的概率分布从动作集合中选择调整采样位置的动作。
本申请实施例提出一种基于强化学习的方法对视频帧序列中的图片帧来进行采样的技术。强化学习用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习的目标是从环境状态到行为的映射,使得智能体选择的行为能够获得最佳的效果,使得整个系统的运行性能为最佳。基于强化学习的系统一般包含环境、观察网络、策略网络、动作空间、激励函数等要素。
图2是本申请一种示例的基于强化学习的视频帧采样方法的系统流程图。如图2所示,本申请实施例用于视频帧采样的强化学习系统包括:环境、上下文敏感的观察网络、策略网络、动作空间。其中,强化学习的环境即为视频序列中候选的图片帧集合。观察网络被设计为一个上下文信息敏感的CNN(Convolutional Neural Networks,卷积神经网络)网络结构。
本发明实施例中,强化学习系统可包含N个agent,每个agent通过策略网络来模拟一个马尔科夫决策过程一步步调整在视频帧序列中采样的位置。从完整的视频帧序列里面利用N个agents采样出来N帧用于识别。在图2所示的示例中,每个智能体利用卷积神经网络CNN、门控循环单元GRU(Gated Recurrent Unit)和策略网络,在视频帧序列中调整采样位置。最终经过预先设定的Tstop步数的调整之后,每个agent从视频帧序列中采样出来一帧图像用于最终视频识别任务。
在步骤S110中,可采用随机采样、均匀采样或者间隔采样等策略确定视频帧序列中的初始采样位置。以N=3的均匀采样方式为例,初始的3个采样位置均匀分布在视频帧序列中。在步骤S120中,每个agent在每一步的动作决策过程中,观察网络通过CNN提取特征。在步骤S130中,GRU网络的隐含层状态作为当前的状态变量,输入策略网络。在步骤S140中,策略网络则输出一个动作空间的概率分布。在步骤S150中,agent根据该概率分布,采样一个动作并执行该动作调整采样位置。其中,动作空间中的动作集合可包括{保持采样位置不变,往前调整采样位置,往后调整采样位置}。
本申请实施例中,基于卷积神经网络、门控循环单元网络、策略网络和动作空间实现对视频中的图片帧进行采样,通过自适应地对视频内容进行抽帧从而提高视频识别的性能。
在一种实施方式中,如图1所示,将通过卷积神经网络对视频帧进行特征提取而得到视频帧特征输入到门控循环单元网络。在另一种实施方式中,如图2所示,通过卷积神经网络对初始采样位置对应的视频帧进行特征提取,将提取的特征输入到级联操作网络;再将经过级联操作网络处理后的视频帧特征输入到门控循环单元网络。
图3是根据本申请实施例的视频帧采样方法的流程图。参见图1至图3,图1中的步骤S120,通过卷积神经网络对初始采样位置对应的视频帧进行特征提取,得到视频帧特征,将视频帧特征输入到门控循环单元网络,还包括:
步骤S210,通过卷积神经网络对初始采样位置对应的视频帧进行特征提取,将提取的特征输入到级联操作网络;
步骤S220,级联操作网络将卷积神经网络提取的特征与上下文特征进行融合,构成融合特征,上下文特征是初始采样位置对应的视频帧的上下文所在视频帧的特征;
步骤S230,将融合特征作为视频帧特征输入到门控循环单元网络。
结合图3及图2所示的示例,上下文敏感的观察网络可包括:卷积神经网络CNN、级联操作网络、门控循环单元GRU。在一个示例中,上下文敏感的观察网络的输入为视频帧序列中均匀稠密采样出来的F个视频帧,这F个视频帧为强化学习系统的环境。观察网络旨在对环境进行观察,将环境状态作为输入交由策略网络决策。参见图1和图2,图2所示的流程图是一个循环结构,图1的步骤S110至步骤S150的执行过程是图2中的一个循环体。每执行一次循环体,可称为经历了一个步数t。本申请实施中,在第t个步数时选择的N个视频帧通过CNN网络进行特征提取,得到提取的特征,这N个特征用表示。例如,可通过CNN提取视频帧的语义特征。其中,f表示提取的特征,f的下标t表示步数,f的上标N表示采样出的视频帧的个数。如果每个agent从视频帧序列中采样出一帧图像用于最终的视频识别任务,视频帧的个数N也就是agent的个数。
观察网络具有上下文敏感的特点,参见图2和图3,在一个示例中,每个agent对环境状态的观察融合了其前后各M个agent的采样帧的特征。在步骤S210中,通过CNN对初始采样位置对应的视频帧进行特征提取,将提取的特征输入到级联操作网络。级联操作网络位于CNN和GRU之间,用于连接上下文的特征。以N=3为例,初始的3个采样位置均匀分布在视频中。在步骤S220中,利用级联操作网络连接上下文的特征,也就是将初始的采样帧的特征与上下文所在帧的特征融合在一起,构成融合特征。在步骤S230中,将融合特征发送给GRU。融合特征也就是观察网络得到的环境状态。对于第a个agent,观察网络得到的环境状态表示为将上述环境状态输入给GRU。其中,表示第a个agent在第t个步数时的观察网络得到的环境状态,ft a-M表示第a个agent的在当前采样位置的前面的第M个agent的采样帧的特征,ft a+M表示第a个agent的在当前采样位置的后面的第M个agent的采样帧的特征。
此外,考虑到选帧的过程是一个序列化多步决策的过程,历史的环境信息也需要考虑进去。参见图1和图2,在图1的步骤S130中,GRU网络用来对序列状态信息建模,根据视频帧特征生成隐含层状态,将隐含层状态输入到策略网络。最终第a个agent观察网络的输出为其中,隐含层状态表示上下文的状态特征。表示第a个agent在第t个步数时的隐含层状态,表示第a个agent在第t-1个步数时的隐含层状态,表示第a个agent在第t个步数时的观察网络得到的环境状态。
本申请实施例中,通过连接上下文特征,使输入到门控循环单元网络的视频帧特征具有上下文敏感的特点,从而获取更全面的信息,能够使得采样得到的视频帧与视频内容的相关度更大,从而进一步提高视频识别的性能。
参见图1和图2,在图1的步骤S140中,策略网络根据隐含层状态输出动作空间的概率分布。策略网络的主要作用是在输入后,策略网络生成一个动作空间U上的概率分布其中,U表示动作空间中包括调整采样位置的动作集合,u表示动作集合中的每一个动作。在一个示例中,动作空间可包含三个动作,即U={保持原采样位置,采样位置往前移动,采样位置往后移动}。表示第a个agent在第t个步数时的调整采样位置的动作,表示第a个agent在第t个步数时的隐含层状态,表示与对应的概率分布。
仍以动作空间包含三个动作为例,策略网络可由一个三个输出的全连接层和一个softmax层组成。其中三个输出的全连接层对应于三个动作。softmax层的作用是做归一化处理,使三个动作对应的概率之和为1。策略网络的输出即为每个动作被采用到的概率分布:
其中,表示第a个agent在第t个步数时的隐含层状态,FC表示全连接层,其作用是将输入的隐含层状态的多维特征映射为与三个动作对应的三维向量。表示与U和对应的概率分布。
在一种实施方式中,上述方法还包括:
多个智能体利用卷积神经网络、门控循环单元和策略网络,在视频帧序列中调整采样位置;
其中,多个智能体在卷积神经网络中共享网络参数,多个智能体在门控循环单元中共享网络参数,以及多个智能体在策略网络中共享网络参数。
参见图2,本申请实施例中,每个智能体(agent)的卷积神经网络、门控循环单元以及策略网络是参数共享的,这种设计能够增加模型的灵活性。由于每个智能体从视频帧序列中采样出一帧图像用于最终的视频识别任务。因此多个智能体共享网络参数能够使训练好的模型可以自适应地用于不同数目的目标帧数的场景,而无须重新训练网络。
在一种实施方式中,根据动作空间的概率分布从动作集合中选择调整采样位置的动作之后,还包括:
执行选择的调整采样位置的动作;
将调整后的采样位置作为初始采样位置,重复执行通过卷积神经网络对初始采样位置对应的视频帧进行特征提取、根据视频帧特征生成隐含层状态、根据隐含层状态输出动作空间的概率分布、根据动作空间的概率分布从动作集合中选择调整采样位置的动作的步骤;
在调整步数达到预设次数或者选择的调整采样位置的动作为保持不动的情况下,确定完成调整采样位置的过程,将调整完成的采样位置作为采样结果。
参见图2所示,在动作空间输出之后,每个智能体(agent)根据策略执行调整采样位置的动作,然后将调整后的采样位置作为新的初始采样位置,将新的初始采样位置对应的视频帧输入到CNN,观察网络通过CNN提取特征,重复执行图1中的步骤S120、步骤S130、步骤S140、步骤S150,再次调整采样位置的动作。直到调整步数达到预设次数Tstop步数,确定完成调整采样位置的过程。或者,每个agent选择的调整采样位置的动作均为保持不动,即均为“保持原采样位置”,则确定完成调整采样位置的过程。
本申请实施例中,通过多次迭代完成调整采样位置的过程,最终确定调整完成的采样位置,可以保证采样抽取出的视频帧与视频内容的相关度更大,从而进一步提高视频识别的准确度。
在一种实施方式中,所述方法还包括:
利用激励函数调整卷积神经网络、门控循环单元和策略网络的参数。激励函数为以下公式一:
其中,Tstop表示最后的调整步数;t表示当前的调整步数;γk表示预定的打折系数,取值范围为大于等于0且小于等于1,距离离最后的调整步数的距离越远,其取值越小;表示每个调整步数的临时激励值;表示累积后的激励值。
强化学习的目标是最大化激励函数。本申请实施例中,对于第a个agent,其第t步决策的激励函数设置为公式二:其中gt为该训练样本的真实类别标签。公式二所表示的激励函数即为第t步调整后第a个agent选取的帧得到的真实标签概率得分的增加量。其中,表示第a个agent的第t步决策的激励值,表示第t步调整后第a个agent选取的帧得到的真实标签概率的得分,表示第t-1步调整后第a个agent选取的帧得到的真实标签概率的得分。考虑到序列化决策,第a个agent在每步决策的结果将影响后面的决策,通过以上公式一可将后续步骤的激励反馈到前序步骤。其中,公式一中的可使用公式二计算得到。
本申请实施例中,利用激励函数使得智能体在每步决策的结果都将影响后面的决策,把后续步骤的激励反馈到前序步骤,从而达到更好的模型训练效果。
在一种实施方式中,在确定完成调整采样位置的过程之后,还包括:
将采样结果对应的视频帧特征输入到分类网络;
分类网络根据采样结果对应的视频帧特征得到对应的视频类别。
分类网络的目的是利用采样出来的视频帧的特征对视频的类别进行识别。在第t步的循环迭代结束以后,确定完成调整采样位置的过程,得到采样出来的视频帧。经过t步的调整之后每个agent从视频的图像序列里面采样出来一帧图像用于最终视频识别任务。将每个agent采样出来的一帧图像对应的N个特征输入给分类网络。分类网络输出N个C维向量。本申请实施例中,分类网络可以由FC(全连接层)和Softmax层组成。分类网络把N个特征映射到视频类别的N个C维向量的概率分布其中C为视频类别个数,例如将视频分类成影视,娱乐,运动3个类别;表示第t步的循环迭代结束以后第a个agent选取的帧对应的类别概率。最终视频的分类概率分布则为这N个概率分布的平均,使用以下公式三计算:
则视频的分类类别使用以下公式四计算:
argmax(Pt)=argmaxc([pt,1,...pt,c,...,pt,C])
其中,函数argmax(f(x))是使得f(x)取得最大值所对应的变量点x(或x的集合)。arg即argument(自变量);Pt是一个C维向量;Pt=[pt,1,...pt,c,...,pt,C],其中大写字母C表示类别个数,小写字母c表示上述C维向量中的第c个分量;pt,c表示第t步的循环迭代结束以后得到的将视频分类为第c个类别的概率。其中,公式四中的pt,C可使用公式三计算得到。以上公式四的计算结果是视频的分类类别为概率取最大值的类别。
本申请实施例中,利用采样结果对应的视频帧对视频进行准确地分类,有助于提升后续的视频理解准确率。
在一种实施方式中,分类网络中,采用梯度下降法得到最小化的损失函数和模型参数值,采用交叉熵作为损失函数。
交叉熵是分类问题常用的损失函数。交叉熵描述了两个概率分布之间的距离,交叉熵越小说明两者之间越接近。本申请实施例中,采用交叉熵可准确度量概率分布间的差异性信息,且有助于更好地控制模型收敛速度。
在图2所示的示例中,模型训练过程的目标有两个,一个是最大化总体激励函数,另一个是最小化分类网络的损失函数。强化学习最大化激励可采用最常用的策略梯度来优化。分类网络的损失最小化可采用梯度下降最小化交叉熵损失。其中,策略梯度方法的目标是找到一组最优的神经网络参数,通过改变参数来转变策略分布以获得一个更高的得分。强化学习的目标是为智能体找到一个最优的行为策略从而获取最大的激励。
参见图2,模型测试过程是每个agent每一步通过网络得到动作空间的概率分布,采用概率最大的动作执行采样位置的调整。迭代直至达到步数上限,也就是达到预设次数Tstop步数,或者迭代直至所有agent在某一步数都选择保持“原采样位置”这一动作,也就是没有向前和向后的移动,则完成调整采样位置的过程。
图4是根据本申请实施例的视频帧采样装置结构示意图。如图4所示,本申请实施例的视频帧采样装置包括:
确定单元100,用于确定视频帧序列中的初始采样位置;
提取单元200,用于:通过卷积神经网络对初始采样位置对应的视频帧进行特征提取,得到视频帧特征,将视频帧特征输入到门控循环单元网络;
生成单元300,用于:利用门控循环单元网络根据视频帧特征生成隐含层状态,将隐含层状态输入到策略网络;
输出单元400,用于:利用策略网络根据隐含层状态输出动作空间的概率分布,动作空间中包括调整采样位置的动作集合;
调整单元500,用于根据动作空间的概率分布从动作集合中选择调整采样位置的动作。
在一种实施方式中,提取单元200还用于:
通过卷积神经网络对初始采样位置对应的视频帧进行特征提取,将提取的特征输入到级联操作网络;
级联操作网络将卷积神经网络提取的特征与上下文特征进行融合,构成融合特征,上下文特征是初始采样位置对应的视频帧的上下文所在视频帧的特征;
将融合特征作为视频帧特征输入到门控循环单元网络。
在一种实施方式中,调整单元500还用于:
通过多个智能体利用卷积神经网络、门控循环单元和策略网络,在视频帧序列中调整采样位置;
其中,多个智能体在卷积神经网络中共享网络参数,多个智能体在门控循环单元中共享网络参数,以及多个智能体在策略网络中共享网络参数。
在一种实施方式中,调整单元500还用于:
执行选择的调整采样位置的动作;
将调整后的采样位置作为初始采样位置,重复执行通过卷积神经网络对初始采样位置对应的视频帧进行特征提取、根据视频帧特征生成隐含层状态、根据隐含层状态输出动作空间的概率分布、根据动作空间的概率分布从动作集合中选择调整采样位置的动作的步骤;
在调整步数达到预设次数或者选择的调整采样位置的动作为保持不动的情况下,确定完成调整采样位置的过程,将调整完成的采样位置作为采样结果。
在一种实施方式中,调整单元500还用于:
利用激励函数调整卷积神经网络、门控循环单元和策略网络的参数,激励函数为:
其中,Tstop表示最后的调整步数;t表示当前的调整步数;γk表示预定的打折系数;表示每个调整步数的临时激励值;表示累积后的激励值。
图5是根据本申请实施例的视频帧采样装置结构示意图。如图5所示,在一种实施方式中,上述装置还包括分类单元600,分类单元600用于:
将采样结果对应的视频帧特征输入到分类网络;
分类网络根据采样结果对应的视频帧特征得到对应的视频类别。
在一种实施方式中,分类网络中,采用梯度下降法得到最小化的损失函数和模型参数值,采用交叉熵作为损失函数。
本申请实施例的视频帧采样装置中的各单元的功能可以参见上述方法中的对应描述,在此不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图6所示,是根据本申请实施例的视频帧采样的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示图形用户界面(Graphical User Interface,GUI)的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。
存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本申请所提供的视频帧采样的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的视频帧采样的方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的视频帧采样的方法对应的程序指令/模块/单元(例如,附图4所示的确定单元100、提取单元200、生成单元300、输出单元400、调整单元500,以及附图5所示的分类单元600)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的视频帧采样的方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据视频帧采样方法的电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至视频帧采样方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
视频帧采样方法的电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与视频帧采样方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(Liquid Crystal Display,LCD)、发光二极管(Light EmittingDiode,LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用集成电路(Application Specific Integrated Circuits,ASIC)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(programmable logic device,PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(Cathode Ray Tube,阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(Local Area Network,LAN)、广域网(Wide Area Network,WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,直接从用户信息行为的相关内容中识别出兴趣点,从而保证了为用户推送的兴趣点能够与用户意图相吻合,用户体验良好。因为直接从用户信息行为的相关内容中识别出兴趣点,所以避免了推送的兴趣点不满足用户的需要的问题,进而提升了用户体验。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (16)

1.一种视频帧采样方法,其特征在于,包括:
确定视频帧序列中的初始采样位置;
通过卷积神经网络对所述初始采样位置对应的视频帧进行特征提取,得到视频帧特征,将所述视频帧特征输入到门控循环单元网络;
所述门控循环单元网络根据所述视频帧特征生成隐含层状态,将所述隐含层状态输入到策略网络;
所述策略网络根据所述隐含层状态输出动作空间的概率分布,所述动作空间中包括调整采样位置的动作集合;
根据所述动作空间的概率分布从所述动作集合中选择调整采样位置的动作。
2.根据权利要求1所述的方法,其特征在于,通过卷积神经网络对所述初始采样位置对应的视频帧进行特征提取,得到视频帧特征,将所述视频帧特征输入到门控循环单元网络,还包括:
通过卷积神经网络对所述初始采样位置对应的视频帧进行特征提取,将提取的特征输入到级联操作网络;
所述级联操作网络将所述卷积神经网络所述提取的特征与上下文特征进行融合,构成融合特征,所述上下文特征是所述初始采样位置对应的视频帧的上下文所在视频帧的特征;
将所述融合特征作为所述视频帧特征输入到门控循环单元网络。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
多个智能体利用所述卷积神经网络、所述门控循环单元和所述策略网络,在所述视频帧序列中调整采样位置;
其中,所述多个智能体在所述卷积神经网络中共享网络参数,所述多个智能体在所述门控循环单元中共享网络参数,以及所述多个智能体在所述策略网络中共享网络参数。
4.根据权利要求1或2所述的方法,其特征在于,根据所述动作空间的概率分布从所述动作集合中选择调整采样位置的动作之后,还包括:
执行选择的所述调整采样位置的动作;
将调整后的采样位置作为所述初始采样位置,重复执行通过卷积神经网络对所述初始采样位置对应的视频帧进行特征提取、根据所述视频帧特征生成隐含层状态、根据所述隐含层状态输出动作空间的概率分布、根据所述动作空间的概率分布从所述动作集合中选择调整采样位置的动作的步骤;
在调整步数达到预设次数或者选择的所述调整采样位置的动作为保持不动的情况下,确定完成调整采样位置的过程,将调整完成的采样位置作为采样结果。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
利用激励函数调整所述卷积神经网络、所述门控循环单元和所述策略网络的参数,所述激励函数为:
其中,Tstop表示最后的调整步数;t表示当前的调整步数;γk表示预定的打折系数;表示每个调整步数的临时激励值;表示累积后的激励值。
6.根据权利要求4所述的方法,其特征在于,在确定完成调整采样位置的过程之后,还包括:
将所述采样结果对应的视频帧特征输入到分类网络;
所述分类网络根据所述采样结果对应的视频帧特征得到对应的视频类别。
7.根据权利要求6所述的方法,其特征在于,所述分类网络中,采用梯度下降法得到最小化的损失函数和模型参数值,采用交叉熵作为损失函数。
8.一种视频帧采样装置,其特征在于,包括:
确定单元,用于确定视频帧序列中的初始采样位置;
提取单元,用于:通过卷积神经网络对所述初始采样位置对应的视频帧进行特征提取,得到视频帧特征,将所述视频帧特征输入到门控循环单元网络;
生成单元,用于:利用所述门控循环单元网络根据所述视频帧特征生成隐含层状态,将所述隐含层状态输入到策略网络;
输出单元,用于:利用所述策略网络根据所述隐含层状态输出动作空间的概率分布,所述动作空间中包括调整采样位置的动作集合;
调整单元,用于根据所述动作空间的概率分布从所述动作集合中选择调整采样位置的动作。
9.根据权利要求8所述的装置,其特征在于,所述提取单元还用于:
通过卷积神经网络对所述初始采样位置对应的视频帧进行特征提取,将提取的特征输入到级联操作网络;
所述级联操作网络将所述卷积神经网络所述提取的特征与上下文特征进行融合,构成融合特征,所述上下文特征是所述初始采样位置对应的视频帧的上下文所在视频帧的特征;
将所述融合特征作为所述视频帧特征输入到门控循环单元网络。
10.根据权利要求8或9所述的装置,其特征在于,所述调整单元还用于:
通过多个智能体利用所述卷积神经网络、所述门控循环单元和所述策略网络,在所述视频帧序列中调整采样位置;
其中,所述多个智能体在所述卷积神经网络中共享网络参数,所述多个智能体在所述门控循环单元中共享网络参数,以及所述多个智能体在所述策略网络中共享网络参数。
11.根据权利要求8或9所述的装置,其特征在于,所述调整单元还用于:
执行选择的所述调整采样位置的动作;
将调整后的采样位置作为所述初始采样位置,重复执行通过卷积神经网络对所述初始采样位置对应的视频帧进行特征提取、根据所述视频帧特征生成隐含层状态、根据所述隐含层状态输出动作空间的概率分布、根据所述动作空间的概率分布从所述动作集合中选择调整采样位置的动作的步骤;
在调整步数达到预设次数或者选择的所述调整采样位置的动作为保持不动的情况下,确定完成调整采样位置的过程,将调整完成的采样位置作为采样结果。
12.根据权利要求11所述的装置,其特征在于,所述调整单元还用于:
利用激励函数调整所述卷积神经网络、所述门控循环单元和所述策略网络的参数,所述激励函数为:
其中,Tstop表示最后的调整步数;t表示当前的调整步数;γk表示预定的打折系数;表示每个调整步数的临时激励值;表示累积后的激励值。
13.根据权利要求11所述的装置,其特征在于,所述装置还包括分类单元,所述分类单元用于:
将所述采样结果对应的视频帧特征输入到分类网络;
所述分类网络根据所述采样结果对应的视频帧特征得到对应的视频类别。
14.根据权利要求13所述的装置,其特征在于,所述分类网络中,采用梯度下降法得到最小化的损失函数和模型参数值,采用交叉熵作为损失函数。
15.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。
CN201910799609.2A 2019-08-27 2019-08-27 视频帧采样方法、装置、电子设备及存储介质 Active CN110418163B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910799609.2A CN110418163B (zh) 2019-08-27 2019-08-27 视频帧采样方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910799609.2A CN110418163B (zh) 2019-08-27 2019-08-27 视频帧采样方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN110418163A true CN110418163A (zh) 2019-11-05
CN110418163B CN110418163B (zh) 2021-10-08

Family

ID=68369426

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910799609.2A Active CN110418163B (zh) 2019-08-27 2019-08-27 视频帧采样方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110418163B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528883A (zh) * 2020-12-15 2021-03-19 杭州义顺科技有限公司 一种基于反思网络的教学场景视频描述生成方法
CN112906435A (zh) * 2019-12-03 2021-06-04 杭州海康威视数字技术股份有限公司 视频帧优选方法及装置
CN114663798A (zh) * 2022-01-12 2022-06-24 上海人工智能创新中心 一种基于强化学习的单步视频内容识别方法
WO2023279961A1 (zh) * 2021-07-09 2023-01-12 华为技术有限公司 视频图像的编解码方法及装置
CN114663798B (zh) * 2022-01-12 2024-06-28 上海人工智能创新中心 一种基于强化学习的单步视频内容识别方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8842883B2 (en) * 2011-11-21 2014-09-23 Seiko Epson Corporation Global classifier with local adaption for objection detection
CN104182735A (zh) * 2014-08-18 2014-12-03 厦门美图之家科技有限公司 训练优化的基于卷积神经网络的色情图像或视频检测方法
CN104639951A (zh) * 2013-11-06 2015-05-20 杭州海康威视数字技术股份有限公司 视频码流的抽帧处理方法及装置
US9659238B2 (en) * 2008-08-28 2017-05-23 International Business Machines Corporation Video object classification
WO2018084948A1 (en) * 2016-11-07 2018-05-11 Qualcomm Incorporated Enhanced siamese trackers
CN108810622A (zh) * 2018-07-09 2018-11-13 腾讯科技(深圳)有限公司 视频帧的提取方法、装置、计算机可读介质及电子设备
CN109389055A (zh) * 2018-09-21 2019-02-26 西安电子科技大学 基于混合卷积和注意力机制的视频分类方法
CN109522818A (zh) * 2018-10-29 2019-03-26 中国科学院深圳先进技术研究院 一种表情识别的方法、装置、终端设备及存储介质
CN109800717A (zh) * 2019-01-22 2019-05-24 中国科学院自动化研究所 基于强化学习的行为识别视频帧采样方法及系统
CN110070067A (zh) * 2019-04-29 2019-07-30 北京金山云网络技术有限公司 视频分类方法及其模型的训练方法、装置和电子设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9659238B2 (en) * 2008-08-28 2017-05-23 International Business Machines Corporation Video object classification
US8842883B2 (en) * 2011-11-21 2014-09-23 Seiko Epson Corporation Global classifier with local adaption for objection detection
CN104639951A (zh) * 2013-11-06 2015-05-20 杭州海康威视数字技术股份有限公司 视频码流的抽帧处理方法及装置
CN104182735A (zh) * 2014-08-18 2014-12-03 厦门美图之家科技有限公司 训练优化的基于卷积神经网络的色情图像或视频检测方法
WO2018084948A1 (en) * 2016-11-07 2018-05-11 Qualcomm Incorporated Enhanced siamese trackers
CN108810622A (zh) * 2018-07-09 2018-11-13 腾讯科技(深圳)有限公司 视频帧的提取方法、装置、计算机可读介质及电子设备
CN109389055A (zh) * 2018-09-21 2019-02-26 西安电子科技大学 基于混合卷积和注意力机制的视频分类方法
CN109522818A (zh) * 2018-10-29 2019-03-26 中国科学院深圳先进技术研究院 一种表情识别的方法、装置、终端设备及存储介质
CN109800717A (zh) * 2019-01-22 2019-05-24 中国科学院自动化研究所 基于强化学习的行为识别视频帧采样方法及系统
CN110070067A (zh) * 2019-04-29 2019-07-30 北京金山云网络技术有限公司 视频分类方法及其模型的训练方法、装置和电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
智洪欣: "基于深度学习的视频分类技术研究", 《基于深度学习的视频分类技术研究 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906435A (zh) * 2019-12-03 2021-06-04 杭州海康威视数字技术股份有限公司 视频帧优选方法及装置
CN112906435B (zh) * 2019-12-03 2024-03-01 杭州海康威视数字技术股份有限公司 视频帧优选方法及装置
CN112528883A (zh) * 2020-12-15 2021-03-19 杭州义顺科技有限公司 一种基于反思网络的教学场景视频描述生成方法
WO2023279961A1 (zh) * 2021-07-09 2023-01-12 华为技术有限公司 视频图像的编解码方法及装置
CN114663798A (zh) * 2022-01-12 2022-06-24 上海人工智能创新中心 一种基于强化学习的单步视频内容识别方法
CN114663798B (zh) * 2022-01-12 2024-06-28 上海人工智能创新中心 一种基于强化学习的单步视频内容识别方法

Also Published As

Publication number Publication date
CN110418163B (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
KR102484617B1 (ko) 이종 그래프 노드를 표현하는 모델 생성 방법, 장치, 전자 기기, 저장 매체 및 프로그램
CN111639710B (zh) 图像识别模型训练方法、装置、设备以及存储介质
WO2021238722A1 (zh) 资源推送方法、装置、设备及存储介质
CN111783870B (zh) 人体属性的识别方法、装置、设备及存储介质
JP7135143B2 (ja) キーポイント学習モデルを構築するための方法、装置、電子デバイス及びコンピュータ可読記憶媒体
CN110418163A (zh) 视频帧采样方法、装置、电子设备及存储介质
US20220343689A1 (en) Detection of hand gestures using gesture language discrete values
CN111143686B (zh) 资源推荐方法及装置
CN111539514A (zh) 用于生成神经网络的结构的方法和装置
CN111709470B (zh) 图像生成方法、装置、设备及介质
CN112149741B (zh) 图像识别模型的训练方法、装置、电子设备及存储介质
US20210312208A1 (en) Method and apparatus for generating target re-recognition model and re-recognizing target
CN108235116A (zh) 特征传播方法和装置、电子设备、程序和介质
JP7177878B2 (ja) 画像処理方法、画像処理装置、電子機器及び記憶媒体
CN111680600B (zh) 人脸识别模型处理方法、装置、设备和存储介质
CN110135497A (zh) 模型训练的方法、面部动作单元强度估计的方法及装置
CN113050860B (zh) 一种控件识别方法和相关装置
CN112417156B (zh) 多任务学习方法、装置、设备以及存储介质
Caramiaux et al. Beyond recognition: using gesture variation for continuous interaction
CN110517339A (zh) 一种基于人工智能的动画形象驱动方法和装置
KR20210103423A (ko) 입 모양 특징을 예측하는 방법, 장치, 전자 기기, 저장 매체 및 프로그램
CN114386503A (zh) 用于训练模型的方法和装置
CN112288483A (zh) 用于训练模型的方法和装置、用于生成信息的方法和装置
CN111680597A (zh) 人脸识别模型处理方法、装置、设备和存储介质
US11615140B2 (en) Method and apparatus for detecting temporal action of video, electronic device and storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant