CN110309784A - 动作识别处理方法、装置、设备和存储介质 - Google Patents

动作识别处理方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN110309784A
CN110309784A CN201910591158.3A CN201910591158A CN110309784A CN 110309784 A CN110309784 A CN 110309784A CN 201910591158 A CN201910591158 A CN 201910591158A CN 110309784 A CN110309784 A CN 110309784A
Authority
CN
China
Prior art keywords
video
video frame
action
frame
characteristic information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910591158.3A
Other languages
English (en)
Inventor
迟至真
李甫
何栋梁
龙翔
周志超
赵翔
孙昊
文石磊
丁二锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910591158.3A priority Critical patent/CN110309784A/zh
Publication of CN110309784A publication Critical patent/CN110309784A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种动作识别处理方法、装置、设备和存储介质,其中,方法包括:对待处理的视频进行抽帧处理,得到N个视频帧,其中,N为大于等于2的正整数;对所述N个视频帧中的每一个视频帧进行特征提取处理,得到每一个所述视频帧的特征信息;根据各所述视频帧的特征信息,确定所述待处理的视频中的人物的动作类型。利用抽取出的多个视频帧,进行视频中人物动作的识别与分析处理,通过结合前后视频帧的时序性特征,可以有效提高人物动作识别的准确度,有效减小动作识别结果的误差性。

Description

动作识别处理方法、装置、设备和存储介质
技术领域
本申请实施例涉及安全技术领域,尤其涉及一种动作识别处理方法、装置、设备和存储介质。
背景技术
随着用户对人身安全的重视度的提升,摄像头等拍摄装置越来越常见地安装于各种空间内。通过摄像头采集监控视频,然后对视频中的人物的行为进行识别和分析,以确定视频中的人物是否存在违禁动作。例如,家长可以对孩子所在的教室进行安全监控,通过采集教室内的监控视频,对视频中的人物的动作进行识别和分析,以确定视频中的人物是否有不安全的违禁动作,在确定视频中的人物的动作是违禁动作时,发出警告。
现有技术中,对于获取到的视频,对视频中的每一帧视频帧进行识别和分析。具体的,获取某一帧视频帧,然后采用人体姿态估计算法,提取视频帧中的骨骼点;根据骨骼点的坐标,进行视频中的人物动作识别。
然而现有技术中,基于一帧视频帧,对视频中的人物的行为进行识别和分析,由于相同动作在不同场景下可能会有不同的含义。基于一帧视频帧对人物动作进行分析的方法,没有考虑到人物的当前动作在整体环境下的含义,存在动作识别准确度低,动作识别结果误差大的缺陷。
发明内容
本申请实施例提供一种动作识别处理方法、装置、设备和存储介质,用于解决现有技术中动作识别准确度低,识别结果误差大的问题。
本申请第一方面提供一种动作识别处理方法,所述方法,包括:
对待处理的视频进行抽帧处理,得到N个视频帧,其中,N为大于等于2的正整数;
对所述N个视频帧中的每一个视频帧进行特征提取处理,得到每一个所述视频帧的特征信息;
根据各所述视频帧的特征信息,确定所述待处理的视频中的人物的动作类型。
进一步地,所述对待处理的视频进行抽帧处理,包括:
将所述待处理的视频分割为N个视频片段,其中,每一个所述视频片段中的视频帧的个数相同或不同;
从每一个所述视频片段中,随机抽取一个视频帧,以得到所述N个视频帧。
进一步地,所述特征信息,包括以下任意一种或多种:语音信息、光流信息、RGB信息。
进一步地,根据每一个所述视频帧的特征信息,确定所述待处理的视频中的目标个体的动作类型,包括:
采用预设的时序分段网络模型,根据每一个所述视频帧的特征信息,得到所述待处理的视频的视频特征;
采用预设的预测函数对所述视频特征进行识别处理,得到所述动作类型。
进一步地,所述时序分段网络模型中所采用的损失函数为:
其中,C是动作类型的数量,i∈[1,C],i为正整数,yi是关于第i种动作类型的预设参数,Gj是第j种特征信息的特征值,j∈[1,L],j、L为正整数。
进一步地,根据每一个所述视频帧的特征信息,确定所述待处理的视频中的目标个体的动作类型,还包括:
将每n个所述视频帧组成一个视频片段,得到N/n个所述视频片段,其中,n为不大于N的正整数;
根据每一个所述视频片段的视频片段特征,确定所述动作类型,其中,所述视频片段特征为构成所述视频片段的所述视频帧的所述特征信息的融合特征。
进一步地,对所述N个视频帧中的每一个视频帧进行特征提取处理,得到每一个所述视频帧的特征信息,还包括:
对所述各视频帧进行时序调整,得到时序调整后的各视频帧;
根据各视频帧的特征信息,确定所述待处理的视频的动作类型,包括:
根据所述时序调整后的各视频帧的特征信息,确定所述待处理的视频的动作类型。
进一步地,对所述N个视频帧中的每一个视频帧进行特征提取,得到每一个视频帧的特征信息,包括:
对M个视频片段中的每一个视频片段,进行视频帧的时序调整,得到调整后的M个视频片段,其中,M个视频片段为所述N个视频片段中的视频片段,其中,M为大于等于1、小于N的正整数;
对调整后的M个视频片段和所述视频片段中的N-M个未被调整的视频片段分别对应的每一个视频帧,进行特征提取,得到每一个视频帧的特征信息。
进一步地,所述方法还包括:在所述动作类型为预设的违禁动作类型时,发出警告信息,所述警告信息为以下的任意一种或多种:震动提示信息、语音提示信息、灯光提示信息、来电提示信息。
第二方面,本申请提供一种动作识别处理装置,所述装置,包括:
第一处理单元,用于对待处理的视频进行抽帧处理,得到N个视频帧,其中,N为大于等于2的正整数;
第二处理单元,用于对所述N个视频帧中的每一个视频帧进行特征提取处理,得到每一个所述视频帧的特征信息;
第三处理单元,用于根据各所述视频帧的特征信息,确定所述待处理的视频中的人物的动作类型。
进一步地,所述第一处理单元,包括:
第一处理子单元,用于将所述待处理的视频分割为N个视频片段,其中,每一个所述视频片段中的视频帧的个数相同或不同;
第二处理子单元,用于从每一个所述视频片段中,随机抽取一个视频帧,以得到所述N个视频帧。
进一步地,所述特征信息,包括以下任意一种或多种:语音信息、光流信息、色彩RGB信息。
进一步地,所述第三处理单元,包括:
第三处理子单元,用于采用预设的时序分段网络模型,根据每一个所述视频帧的特征信息,得到所述待处理的视频的视频特征;
第四处理子单元,用于采用预设的预测函数对所述视频特征进行识别处理,得到所述动作类型。
进一步地,所述时序分段网络模型中所采用的损失函数为:
其中,C是动作类型的数量,i∈[1,C],i为正整数,yi是关于第i种动作类型的预设参数,Gj是第j种特征信息的特征值,j∈[1,L],j、L为正整数。
进一步地,所述第三处理单元,还包括:
第五处理子单元,用于将每n个所述视频帧组成一个视频片段,得到N/n个所述视频片段,其中,n为不大于N的正整数;
第六处理子单元,用于根据每一个所述视频片段的视频片段特征,确定所述动作类型,其中,所述视频片段特征为构成所述视频片段的所述视频帧的所述特征信息的融合特征。进一步地,所述第二处理单元,还用于:
对所述各视频帧进行时序调整,得到时序调整后的各视频帧;
所述第三处理单元,还用于:
根据所述时序调整后的各视频帧的特征信息,确定所述待处理的视频的动作类型。
进一步地,所述第二处理单元,包括:
第七处理子单元,用于对M个视频片段中的每一个视频片段,进行视频帧的时序调整,得到调整后的M个视频片段,其中,M个视频片段为所述N个视频片段中的视频片段,其中,M为大于等于1、小于N的正整数;
第八处理子单元,用于对调整后的M个视频片段和所述视频片段中的N-M个未被调整的视频片段分别对应的每一个视频帧,进行特征提取,得到每一个视频帧的特征信息。
进一步地,所述装置还包括第四处理单元,用于在所述动作类型为预设的违禁动作类型时,发出警告信息,所述警告信息为以下的任意一种或多种:震动提示信息、语音提示信息、灯光提示信息、来电提示信息。
本申请第三方面提供一种电子设备,包括:发送器、接收器、存储器和处理器;
所述存储器用于存储计算机指令;所述处理器用于运行所述存储器存储的所述计算机指令实现第一方面任一实现方式提供的动作识别处理方法。
本申请第四方面提供一种存储介质,包括:可读存储介质和计算机指令,所述计算机指令存储在所述可读存储介质中;所述计算机指令用于实现第一方面任一实现方式提供的动作识别处理方法。
本申请提供一种动作识别处理方法、装置、设备和存储介质,其中,方法包括:对待处理的视频进行抽帧处理,得到N个视频帧,其中,N为大于等于2的正整数;对所述N个视频帧中的每一个视频帧进行特征提取处理,得到每一个所述视频帧的特征信息;根据各所述视频帧的特征信息,确定所述待处理的视频中的人物的动作类型。利用抽取出的多个视频帧,进行视频中人物动作的识别与分析处理,通过结合前后视频帧的时序性特征,可以有效提高人物动作识别的准确度,有效减小动作识别结果的误差性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种动作识别处理方法的流程示意图;
图2为本申请实施例提供的另一种动作识别处理方法的流程示意图;
图3为本申请实施例提供的又一种动作识别处理方法的流程示意图;
图4为本申请实施例提供的一种动作识别处理装置的结构示意图;
图5为本申请实施例提供的另一种动作识别处理装置的结构示意图;
图6为本申请实施例提供的一种动作识别处理设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
本申请具体的应用场景为:随着用户对人身安全的重视度的提升,摄像头等拍摄装置越来越常见地安装于各种空间内。通过摄像头采集监控视频,然后对视频中的人物的行为进行识别和分析,以确定视频中的人物是否存在违禁动作。例如,家长可以对孩子所在的教室进行安全监控,通过采集教室内的监控视频,对视频中的人物的动作进行识别和分析,以确定视频中的人物是否有不安全的违禁动作,在确定视频中的人物的动作是违禁动作时,发出警告。现有技术中,对于获取到的视频,对视频中的每一帧视频帧进行识别和分析。具体的,获取某一帧视频帧,然后采用人体姿态估计算法,提取视频帧中的骨骼点;根据骨骼点的坐标,进行视频中的人物动作识别。
然而现有技术中,基于一帧视频帧,对视频中的人物的行为进行识别和分析,由于相同动作在不同场景下可能会有不同的含义。基于一帧视频帧对人物动作进行分析的方法,没有考虑到人物的当前动作在整体环境下的含义,存在动作识别准确度低,动作识别结果误差大的缺陷。
本申请提供一种动作识别处理方法、装置、设备和存储介质,旨在解决现有技术中的如上技术问题。
图1为本申请实施例提供的一种动作识别处理方法的流程图,如图1所示,该动作识别处理方法,包括:
S101、对待处理的视频进行抽帧处理,得到N个视频帧,其中,N为大于等于2的正整数。
在本实施例中,具体的,本实施例的执行主体为终端、或者控制器、或者其他可以执行动作识别处理的装置或设备。本实施例以执行主体为终端进行说明,可以在终端中设置应用软件,然后,终端控制应用软件执行本实施例提供的方法。
待处理的视频可以是摄像头、摄影机等具有摄像功能的设备采集到的视频。对待处理的视频进行抽帧处理,包括:将待处理的视频均匀分割为M个视频片段,每一个视频片段包含的视频帧个数相同,在每一个视频片段中随机抽取视频帧,得到N个视频帧,其中,M<N,M为大于等于1的正整数,N为大于等于2的正整数;或者,将处理的视频分割为N个视频片段,其中,每一个视频片段中的视频帧的个数相同或不同,从每一个视频片段中随机抽取一个视频帧,以得到N个视频帧,其中,N为大于等于2的正整数。对待处理的视频进行分段处理,然后对得到的视频片段进行随时抽帧处理,可以保证抽取到的视频帧的时间维度覆盖到整个视频。利用抽取出的视频帧,进行视频中人物动作的识别与分析处理,实现了结合前后视频帧的时序特征,在完整的视频场景中来分析人物动作,有利于提高视频特征提取的准确度。
S102、对N个视频帧中的每一个视频帧进行特征提取处理,得到每一个视频帧的特征信息。
在本实施例中,具体的,对得到的N个视频帧中的每一个视频帧,进行特征提取处理,得到每一个视频帧的特征信息。提取的每一个视频帧的特征信息包括RGB信息、光流信息和语音信息。其中,RGB信息为视频帧的颜色特征,颜色特征是一种图像的全局特征,描述了图像或图像区域中的物体、场景的表面性质,由于颜色特征对图像或图像区域的方向、尺寸、视角的依赖性较小,因而具有较高的鲁棒性。光流信息用于描述图像亮度模式的表观运动,是用于确定目标运动情况的重要特征。语音信息用于描述图像中的声音信息。RGB信息提供了某一个视频帧的图像的静态信息,缺乏前后时刻的场景信息;光流信息提供了前后视频帧的时序信息,将RGB信息与光流信息结合起来对待处理的视频进行分析处理,可以有效提高视频特征提取的准确性。
S103、根据各视频帧的特征信息,确定待处理的视频中的人物的动作类型。
在本实施例中,具体的,确定出的各视频帧的特征信息,包含每一个视频帧的静态的RGB信息,还包括提供了前后视频帧的时序信息的光流信息,和每一个视频帧的语音信息。对各视频帧的特征信息进行融合处理,得到待处理的视频的视频特征,其中,对各视频帧的特征信息进行融合的方法可采用基于贝叶斯决策理论的算法、基于稀疏表示理论的算法、基于深度学习理论等算法实现。然后根据确定出的待处理的视频的视频特征,确定视频中的人物的动作类型。
本实施例通过对待处理的视频进行抽帧处理,得到N个视频帧,其中,N为大于等于2的正整数;对N个视频帧中的每一个视频帧进行特征提取处理,得到每一个视频帧的特征信息;根据各视频帧的特征信息,确定待处理的视频中的人物的动作类型。利用抽取出的多个视频帧,进行视频中人物动作的识别与分析处理,实现了结合前后视频帧的时序特征,在完整的视频场景中来分析人物动作,有利于提高视频特征提取的准确度;根据确定出的每一个视频帧的特征信息,来确定待处理的视频中的人物的动作类型,通过结合前后视频帧的时序信息,可以有效提高人物动作识别的准确度,有效减小动作识别结果的误差性。
图2为本申请实施例提供的另一种动作识别处理方法的流程示意图,如图2所示,该方法,包括:
S201、对待处理的视频进行抽帧处理,得到N个视频帧,其中,N为大于等于2的正整数。
在本实施例中,具体的,本步骤可以参见图1的步骤101,不再赘述。
S202、对N个视频帧中的每一个视频帧进行特征提取处理,得到每一个视频帧的特征信息。
可选的,执行步骤202之前,对各视频帧进行时序调整,得到时序调整后的各视频帧。每一个视频帧具有视频采集时钟下的时序信息,对各视频帧进行时序调整的方法包括:对部分视频帧的时序信息进行调整处理,时序信息调整后的视频帧和时序信息未被调整的视频帧构成时序调整后的各视频帧。示例性地,对于得到的10个视频帧,调整第1、2个视频帧的时序信息,不对第3-8个视频帧的时序信息做处理,第1、2个视频帧调整后的时序信息位于第3-8个视频帧的时序信息之后,于是,得到的时序调整后的视频帧序列为第3、4、5、6、7、8、1、2号视频帧。
对各视频帧进行时序调整的方法还包括:对M个视频片段中的每一个视频片段,进行视频帧的时序调整,得到调整后的M个视频片段,其中,M个视频片段为N个视频片段中的视频片段,其中,M为大于等于1、小于N的正整数;对调整后的M个视频片段和视频片段中的N-M个未被调整的视频片段分别对应的每一个视频帧,进行特征提取,得到每一个视频帧的特征信息。对M个视频片段进行视频帧的时序调整,对剩余的N-M个视频片段不做处理,其中,对M个视频片段进行视频帧的时序调整,具体为对M个视频片段的视频帧的时序信息进行调整。在调整后的M个视频片段,和未做处理的N-M个视频片段中,各随机抽取一个视频帧,得到N个视频帧,对N个视频帧的每一个视频帧进行特征提取,得到每一个视频帧的特征信息。示例性地,将待处理的视频分割为10个视频片段,对第1、2个视频片段进行视频帧的时序调整,对第3-8个视频片段的视频帧不做处理,在调整后的第1、2个视频片段,和未做处理的第3-8个视频片段中,各随机抽取一个视频帧,得到8个视频帧,按照时序信息由前到后排序,8个视频帧的顺序为第3、4、5、6、7、8、1、2号视频帧,对8个视频帧进行特征提取,得到每一个视频帧的特征信息。
对视频帧的时序信息进行偏移处理,可以有效提高视频帧的时序信息的多样性,在利用视频帧的特征信息,学习得到待处理的视频中的人物的动作类型时,通过提高学习模型的输入内容的多样性,有效提升了学习模型的复杂度,可以有效提高动作识别的准确度。
S203、采用预设的时序分段网络模型,根据每一个视频帧的特征信息,得到待处理的视频的视频特征。
在本实施例中,具体的,利用F(T_1;W)、F(T_2;W)、…、F(T_N;W),得到每一个视频帧的特征信息属于预设的动作类别的得分,其中,特征信息包括语音信息、光流信息和RGB信息,T_1、T_2、…、T_N分别表示N个视频帧,W为预设参数,F(T_N;W)表示具有参数W的卷积神经网络函数,函数输出的是第T_N个视频帧的特征信息属于预设的动作类别的得分。利用g(F(T_1;W)、F(T_2;W)、…、F(T_N;W)),得到所有视频帧的特征信息属于预设的动作类别的得分,分段共识函数g通过组合N个视频帧的特征信息,以达到N个视频帧的特征信息的类别假设的共识结果。N个视频帧的特征信息属于预设动作类别的总的得分,构成待处理的视频的视频特征,示例性地,分段共识函数g可选用均值函数,对每一个视频帧的特征信息属于预设动作类别的得分做均值处理,得到所有视频帧,即N个视频帧的特征信息属于预设动作类别的总的得分,构成待处理的视频的视频特征。
时序分段网络模型中所采用的损失函数为: 其中,C是动作类型的数量,i∈[1,C],i为正整数,yi是关于第i种动作类型的预设参数,Gj是第j种特征信息的特征值,j∈[1,L],j、L为正整数。
S204、采用预设的预测函数对视频特征进行识别处理,得到动作类型。
在本实施例中,具体的,采用预设的预测函数H(g(F(T_1;W)、F(T_2;W)、…、F(T_N;W))),对视频特征进行识别处理,具体的,利用预测函数H对待处理的视频的视频特征进行识别处理,得到待处理的视频中的人物动作属于各个预设动作类别的概率,将概率值最大的预设动作类别,确定为待处理的视频中人物的动作类型。
S205、在动作类型为预设的违禁动作类型时,发出警告信息。
在本步骤中,具体的,基于监控场景下的视频识别任务中,预设有违禁动作类别体系,违禁动作为监控场景下的禁止动作,或者需要发出警告处理的动作,示例性地,基于幼儿园的监控场景下,预设的违禁动作类型包括推搡、殴打、超过设定时长的罚站等,基于篮球比赛的监控场景下,预设的违禁动作类型包括带球走步、脚踢球、推搡、殴打等。在确定待处理的视频中的人物动作类型为预设的违禁动作类型时,发出警告信息。警告信息可以是以下的任意一种或多种:震动提示信息、语音提示信息、灯光提示信息、来电提示信息。
本实施例通过对待处理的视频进行抽帧处理,得到N个视频帧,其中,N为大于等于2的正整数;对N个视频帧中的每一个视频帧进行特征提取处理,得到每一个视频帧的特征信息;采用预设的时序分段网络模型,根据每一个视频帧的特征信息,得到待处理的视频的视频特征;采用预设的预测函数对视频特征进行识别处理,得到动作类型;在动作类型为违禁动作时,发出警告信息。利用抽取出的多个视频帧,进行视频中人物动作的识别与分析处理,实现了结合前后视频帧的时序特征,在完整的视频场景中来分析人物动作,有利于提高视频特征提取的准确度;对视频帧的时序信息进行偏移处理,可以有效提高视频帧的时序信息的多样性,在利用视频帧的特征信息,学习得到待处理的视频中的人物的动作类型时,通过提高学习模型的输入内容的多样性,有效提升了学习模型的复杂度,可以有效提高动作识别的准确度;根据确定出的每一个视频帧的特征信息,来确定待处理的视频中的人物的动作类型,并在动作类型为违禁动作时,发出警告信息,通过结合前后视频帧的时序信息,可以有效提高人物动作识别的准确性,进而可以有效提高动作预警的准确性。
图3为本申请实施例提供的又一种动作识别处理方法的流程示意图,如图3所示,该方法,包括:
S301、对待处理的视频进行抽帧处理,得到N个视频帧,其中,N为大于等于2的正整数。
在本实施例中,具体的,本步骤可以参见图2的步骤201,不再赘述。
S302、对N个视频帧中的每一个视频帧进行特征提取处理,得到每一个视频帧的特征信息。
在本实施例中,具体的,本步骤可以参见图2的步骤202,不再赘述。
S303、将每n个视频帧组成一个视频片段,得到N/n个视频片段,其中,n为不大于N的正整数;根据每一个视频片段的视频片段特征,确定动作类型,其中,视频片段特征为构成视频片段的视频帧的特征信息的融合特征。
在本实施例中,具体的,将每n个视频帧组成一个视频片段,待处理的视频被划分为N/n个视频片段,n为不大于N的正整数,当N/n不是整数时,待处理的视频被划分为QUOTIENT(N/n)+1个视频片段,QUOTIENT函数为两数相除返回商的整数部分的函数。每一个视频片段具有对应的视频片段特征,视频片段特征为构成该视频片段的视频帧的特征信息的融合特征。对n个视频帧的特征信息进行融合的方法,可采用基于贝叶斯决策理论的算法、基于稀疏表示理论的算法、基于深度学习理论等算法实现。然后,根据每一个视频片段的视频片段特征,确定每一个视频片段对应的动作类型,在确定出的所有动作类型中,确定得分最高或概率最大的动作类型为待处理的视频中的人物的动作类型,根据每一个视频片段的视频片段特征,确定每一个视频片段对应的动作类型的方法可采用现有技术实现,在此不做赘述。
S304、在动作类型为预设的违禁动作类型时,发出警告信息。
在本实施例中,具体的,本步骤可以参见图2的步骤205,不再赘述。
本实施例提供的动作识别处理方法,同于实现前述任一实施例提供的动作识别处理方法中的技术方案,其实现原理和技术效果类似,不再赘述。
图4为本申请实施例提供的一种动作识别处理装置的结构示意图,如图4所示,该动作识别处理装置,包括:
第一处理单元1,用于对待处理的视频进行抽帧处理,得到N个视频帧,其中,N为大于等于2的正整数;
第二处理单元2,用于对N个视频帧中的每一个视频帧进行特征提取处理,得到每一个视频帧的特征信息;
第三处理单元3,用于根据各视频帧的特征信息,确定待处理的视频中的人物的动作类型。
本实施例提供的动作识别处理装置,同于实现图1所示的实施例提供的动作识别处理方法中的技术方案,其实现原理和技术效果类似,不再赘述。
本实施例通过对待处理的视频进行抽帧处理,得到N个视频帧,其中,N为大于等于2的正整数;对N个视频帧中的每一个视频帧进行特征提取处理,得到每一个视频帧的特征信息;根据各视频帧的特征信息,确定待处理的视频中的人物的动作类型。利用抽取出的多个视频帧,进行视频中人物动作的识别与分析处理,实现了结合前后视频帧的时序特征,在完整的视频场景中来分析人物动作,有利于提高视频特征提取的准确度;根据确定出的每一个视频帧的特征信息,来确定待处理的视频中的人物的动作类型,并在动作类型为违禁动作时,发出警告信息,通过结合前后视频帧的时序信息,可以有效提高人物动作识别的准确度,有效降低动作识别结果的误差性。
图5为本申请实施例提供的另一种动作识别处理装置的结构示意图,在图4的基础上,如图5所示,本实施例提供的动作识别处理装置中,第一处理单元1,包括:
第一处理子单元11,用于将待处理的视频分割为N个视频片段,其中,每一个视频片段中的视频帧的个数相同或不同;
第二处理子单元12,用于从每一个视频片段中,随机抽取一个视频帧,以得到N个视频帧。
特征信息包括以下任意一种或多种:语音信息、光流信息、色彩RGB信息。
第三处理单元3,包括:
第三处理子单元31,用于采用预设的时序分段网络模型,根据每一个视频帧的特征信息,得到待处理的视频的视频特征;
第四处理子单元32,用于采用预设的预测函数对视频特征进行识别处理,得到动作类型。
时序分段网络模型中所采用的损失函数为:
其中,C是动作类型的数量,i∈[1,C],i为正整数,yi是关于第i种动作类型的预设参数,Gj是第j种特征信息的特征值,j∈[1,L],j、L为正整数。
第三处理单元3,还包括:
第五处理子单元33,用于将每n个视频帧组成一个视频片段,得到N/n个视频片段,其中,n为不大于N的正整数;
第六处理子单元34,用于根据每一个视频片段的视频片段特征,确定动作类型,其中,视频片段特征为构成视频片段的视频帧的特征信息的融合特征。
第二处理单元2,还用于:
对各视频帧进行时序调整,得到时序调整后的各视频帧;
第三处理单元3,还用于:
根据时序调整后的各视频帧的特征信息,确定待处理的视频的动作类型。
第二处理单元2,包括:
第七处理子单元21,用于对M个视频片段中的每一个视频片段,进行视频帧的时序调整,得到调整后的M个视频片段,其中,M个视频片段为N个视频片段中的视频片段,其中,M为大于等于1、小于N的正整数;
第八处理子单元22,用于对调整后的M个视频片段和视频片段中的N-M个未被调整的视频片段中的每一个视频帧,进行特征提取,得到每一个视频帧的特征信息。
警告信息为以下的任意一种或多种:震动提示信息、语音提示信息、灯光提示信息、来电提示信息。
本实施例提供的动作识别处理装置,同于实现前述图2或图3实施例提供的动作识别处理方法中的技术方案,其实现原理和技术效果类似,不再赘述。
本实施例通过对待处理的视频进行抽帧处理,得到N个视频帧,其中,N为大于等于2的正整数;对N个视频帧中的每一个视频帧进行特征提取处理,得到每一个视频帧的特征信息;采用预设的时序分段网络模型,根据每一个视频帧的特征信息,得到待处理的视频的视频特征;采用预设的预测函数对视频特征进行识别处理,得到动作类型;在动作类型为违禁动作时,发出警告信息。利用抽取出的多个视频帧,进行视频中人物动作的识别与分析处理,实现了结合前后视频帧的时序特征,在完整的视频场景中来分析人物动作,有利于提高视频特征提取的准确度;对视频帧的时序信息进行偏移处理,可以有效提高视频帧的时序信息的多样性,在利用视频帧的特征信息,学习得到待处理的视频中的人物的动作类型时,通过提高学习模型的输入内容的多样性,有效提升了学习模型的复杂度,可以有效提高动作识别的准确度;根据确定出的每一个视频帧的特征信息,来确定待处理的视频中的人物的动作类型,并在动作类型为违禁动作时,发出警告信息,通过结合前后视频帧的时序信息,可以有效提高人物动作识别的准确性,进而可以有效提高动作预警的准确性。
图6为本申请实施例提供的一种电子设备的结构示意图,如图6所示,该电子设备,包括:发送器61、接收器62、存储器63和处理器64;
存储器63用于存储计算机指令;处理器64用于运行存储器63存储的计算机指令实现前述实施例提供任一实现方式的动作识别处理方法的技术方案。
本申请还提供一种存储介质,包括:可读存储介质和计算机指令,计算机指令存储在可读存储介质中;计算机指令用于实现前述例提供的任一实现方式的动作识别处理方法的技术方案。
在上述电子设备的具体实现中,应理解,处理器64可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application SpecificIntegrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:只读存储器(英文:read-only memory,缩写:ROM)、RAM、快闪存储器、硬盘、固态硬盘、磁带(英文:magnetictape)、软盘(英文:floppy disk)、光盘(英文:optical disc)及其任意组合。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (20)

1.一种动作识别处理方法,其特征在于,所述方法,包括:
对待处理的视频进行抽帧处理,得到N个视频帧,其中,N为大于等于2的正整数;
对所述N个视频帧中的每一个视频帧进行特征提取处理,得到每一个所述视频帧的特征信息;
根据各所述视频帧的特征信息,确定所述待处理的视频中的人物的动作类型。
2.根据权利要求1所述的方法,其特征在于,所述对待处理的视频进行抽帧处理,包括:
将所述待处理的视频分割为N个视频片段,其中,每一个所述视频片段中的视频帧的个数相同或不同;
从每一个所述视频片段中,随机抽取一个视频帧,以得到所述N个视频帧。
3.根据权利要求1所述的方法,其特征在于,所述特征信息,包括以下任意一种或多种:语音信息、光流信息、色彩RGB信息。
4.根据权利要求1所述的方法,其特征在于,根据每一个所述视频帧的特征信息,确定所述待处理的视频中的目标个体的动作类型,包括:
采用预设的时序分段网络模型,根据每一个所述视频帧的特征信息,得到所述待处理的视频的视频特征;
采用预设的预测函数对所述视频特征进行识别处理,得到所述动作类型。
5.根据权利要求4所述的方法,其特征在于,所述时序分段网络模型中所采用的损失函数为:
其中,C是动作类型的数量,i∈[1,C],i为正整数,yi是关于第i种动作类型的预设参数,Gj是第j种特征信息的特征值,j∈[1,L],j、L为正整数。
6.根据权利要求1所述的方法,其特征在于,根据每一个所述视频帧的特征信息,确定所述待处理的视频中的目标个体的动作类型,包括:
将每n个所述视频帧组成一个视频片段,得到N/n个所述视频片段,其中,n为不大于N的正整数;
根据每一个所述视频片段的视频片段特征,确定所述动作类型,其中,所述视频片段特征为构成所述视频片段的所述视频帧的所述特征信息的融合特征。
7.根据权利要求1-6任一项所述的方法,其特征在于,对所述N个视频帧中的每一个视频帧进行特征提取处理,得到每一个所述视频帧的特征信息,还包括:
对所述各视频帧进行时序调整,得到时序调整后的各视频帧;
根据各视频帧的特征信息,确定所述待处理的视频的动作类型,包括:
根据所述时序调整后的各视频帧的特征信息,确定所述待处理的视频的动作类型。
8.根据权利要求1-6任一项所述的方法,其特征在于,对所述N个视频帧中的每一个视频帧进行特征提取,得到每一个视频帧的特征信息,包括:
对M个视频片段中的每一个视频片段,进行视频帧的时序调整,得到调整后的M个视频片段,其中,M个视频片段为所述N个视频片段中的视频片段,其中,M为大于等于1、小于N的正整数;
对调整后的M个视频片段和所述视频片段中的N-M个未被调整的视频片段分别对应的每一个视频帧,进行特征提取,得到每一个视频帧的特征信息。
9.根据权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:在所述动作类型为预设的违禁动作类型时,发出警告信息,所述警告信息为以下的任意一种或多种:震动提示信息、语音提示信息、灯光提示信息、来电提示信息。
10.一种动作识别处理装置,其特征在于,所述装置,包括:
第一处理单元,用于对待处理的视频进行抽帧处理,得到N个视频帧,其中,N为大于等于2的正整数;
第二处理单元,用于对所述N个视频帧中的每一个视频帧进行特征提取处理,得到每一个所述视频帧的特征信息;
第三处理单元,用于根据各所述视频帧的特征信息,确定所述待处理的视频中的人物的动作类型。
11.根据权利要求10所述的装置,其特征在于,所述第一处理单元,包括:
第一处理子单元,用于将所述待处理的视频分割为N个视频片段,其中,每一个所述视频片段中的视频帧的个数相同或不同;
第二处理子单元,用于从每一个所述视频片段中,随机抽取一个视频帧,以得到所述N个视频帧。
12.根据权利要求10所述的装置,其特征在于,所述特征信息,包括以下任意一种或多种:语音信息、光流信息、RGB信息。
13.根据权利要求10所述的装置,其特征在于,所述第三处理单元,包括:
第三处理子单元,用于采用预设的时序分段网络模型,根据每一个所述视频帧的特征信息,得到所述待处理的视频的视频特征;
第四处理子单元,用于采用预设的预测函数对所述视频特征进行识别处理,得到所述动作类型。
14.根据权利要求13所述的装置,其特征在于,所述时序分段网络模型中所采用的损失函数为:
其中,C是动作类型的数量,i∈[1,C],i为正整数,yi是关于第i种动作类型的预设参数,Gj是第j种特征信息的特征值,j∈[1,L],j、L为正整数。
15.根据权利要求10所述的装置,其特征在于,所述第三处理单元,包括:
第五处理子单元,用于将每n个所述视频帧构成一个视频片段,得到N/n个所述视频片段,其中,n为不大于N的正整数;
第六处理子单元,用于根据每一个所述视频片段的视频片段特征,确定所述动作类型,其中,所述视频片段特征为构成所述视频片段的所述视频帧的所述特征信息的融合特征。
16.根据权利要求10-15任一项所述的装置,其特征在于,所述第二处理单元,还用于:
对所述各视频帧进行时序调整,得到时序调整后的各视频帧;
所述第三处理单元,还用于:
根据所述时序调整后的各视频帧的特征信息,确定所述待处理的视频的动作类型。
17.根据权利要求10-15任一项所述的装置,其特征在于,所述第二处理单元,包括:
第七处理子单元,用于对M个视频片段中的每一个视频片段,进行视频帧的时序调整,得到调整后的M个视频片段,其中,M个视频片段为所述N个视频片段中的视频片段,其中,M为大于等于1、小于N的正整数;
第八处理子单元,用于对调整后的M个视频片段和所述视频片段中的N-M个未被调整的视频片段分别对应的每一个视频帧,进行特征提取,得到每一个视频帧的特征信息。
18.根据权利要求10-15任一项所述的装置,其特征在于,所述装置还包括第四处理单元,用于在所述动作类型为预设的违禁动作类型时,发出警告信息,所述警告信息为以下的任意一种或多种:震动提示信息、语音提示信息、灯光提示信息、来电提示信息。
19.一种动作识别处理设备,其特征在于,包括:发送器、接收器、存储器和处理器;
所述存储器用于存储计算机指令;所述处理器用于运行所述存储器存储的所述计算机指令实现权利要求1-9任一项所述的动作识别处理方法。
20.一种存储介质,其特征在于,包括:可读存储介质和计算机指令,所述计算机指令存储在所述可读存储介质中;所述计算机指令用于实现权利要求1-9任一项所述的动作识别处理方法。
CN201910591158.3A 2019-07-02 2019-07-02 动作识别处理方法、装置、设备和存储介质 Pending CN110309784A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910591158.3A CN110309784A (zh) 2019-07-02 2019-07-02 动作识别处理方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910591158.3A CN110309784A (zh) 2019-07-02 2019-07-02 动作识别处理方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN110309784A true CN110309784A (zh) 2019-10-08

Family

ID=68078296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910591158.3A Pending CN110309784A (zh) 2019-07-02 2019-07-02 动作识别处理方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN110309784A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111090776A (zh) * 2019-12-20 2020-05-01 广州市百果园信息技术有限公司 一种视频审核的方法、装置、审核服务器和存储介质
CN111241340A (zh) * 2020-01-17 2020-06-05 Oppo广东移动通信有限公司 视频标签确定方法、装置、终端及存储介质
CN111401205A (zh) * 2020-03-11 2020-07-10 深圳市商汤科技有限公司 动作识别方法及装置、电子设备、计算机可读存储介质
CN111770310A (zh) * 2020-07-02 2020-10-13 广州博冠智能科技有限公司 一种走失儿童识别定位的方法及装置
CN111931725A (zh) * 2020-09-23 2020-11-13 北京无垠创新科技有限责任公司 人体动作识别方法、设备及存储介质
CN112115841A (zh) * 2020-09-11 2020-12-22 中国石油集团西南管道有限公司 管道工程建设的施工机具核准系统及方法
CN112820071A (zh) * 2021-02-25 2021-05-18 泰康保险集团股份有限公司 一种行为识别方法和装置
CN113515998A (zh) * 2020-12-28 2021-10-19 腾讯科技(深圳)有限公司 一种视频数据处理方法、设备以及可读存储介质
CN113705284A (zh) * 2020-05-22 2021-11-26 杭州萤石软件有限公司 攀爬识别方法、装置及摄像机
WO2022012239A1 (en) * 2020-07-16 2022-01-20 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Action recognition method and related device, storage medium
CN114582028A (zh) * 2022-05-05 2022-06-03 风云张家口信息技术系统有限公司 滑雪场管理方法及系统
WO2022134983A1 (zh) * 2020-12-25 2022-06-30 深圳市优必选科技股份有限公司 行为识别方法、装置、终端设备和可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543513A (zh) * 2018-10-11 2019-03-29 平安科技(深圳)有限公司 智能监控实时处理的方法、装置、设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543513A (zh) * 2018-10-11 2019-03-29 平安科技(深圳)有限公司 智能监控实时处理的方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BOLEI ZHOU ET AL.: ""Temp oral Relational Reasoning in Videos"", 《ARXIV》 *
LIMIN WANG ET AL.: ""Temporal Segment Networ ks for Action Recognition in Videos"", 《ARXIV》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111090776A (zh) * 2019-12-20 2020-05-01 广州市百果园信息技术有限公司 一种视频审核的方法、装置、审核服务器和存储介质
CN111241340A (zh) * 2020-01-17 2020-06-05 Oppo广东移动通信有限公司 视频标签确定方法、装置、终端及存储介质
CN111241340B (zh) * 2020-01-17 2023-09-08 Oppo广东移动通信有限公司 视频标签确定方法、装置、终端及存储介质
WO2021143624A1 (zh) * 2020-01-17 2021-07-22 Oppo广东移动通信有限公司 视频标签确定方法、装置、终端及存储介质
CN111401205A (zh) * 2020-03-11 2020-07-10 深圳市商汤科技有限公司 动作识别方法及装置、电子设备、计算机可读存储介质
WO2021179898A1 (zh) * 2020-03-11 2021-09-16 深圳市商汤科技有限公司 动作识别方法及装置、电子设备、计算机可读存储介质
CN113705284A (zh) * 2020-05-22 2021-11-26 杭州萤石软件有限公司 攀爬识别方法、装置及摄像机
CN111770310A (zh) * 2020-07-02 2020-10-13 广州博冠智能科技有限公司 一种走失儿童识别定位的方法及装置
WO2022012239A1 (en) * 2020-07-16 2022-01-20 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Action recognition method and related device, storage medium
CN112115841A (zh) * 2020-09-11 2020-12-22 中国石油集团西南管道有限公司 管道工程建设的施工机具核准系统及方法
CN111931725A (zh) * 2020-09-23 2020-11-13 北京无垠创新科技有限责任公司 人体动作识别方法、设备及存储介质
CN111931725B (zh) * 2020-09-23 2023-10-13 北京无垠创新科技有限责任公司 人体动作识别方法、设备及存储介质
WO2022134983A1 (zh) * 2020-12-25 2022-06-30 深圳市优必选科技股份有限公司 行为识别方法、装置、终端设备和可读存储介质
CN113515998A (zh) * 2020-12-28 2021-10-19 腾讯科技(深圳)有限公司 一种视频数据处理方法、设备以及可读存储介质
CN112820071A (zh) * 2021-02-25 2021-05-18 泰康保险集团股份有限公司 一种行为识别方法和装置
CN114582028A (zh) * 2022-05-05 2022-06-03 风云张家口信息技术系统有限公司 滑雪场管理方法及系统

Similar Documents

Publication Publication Date Title
CN110309784A (zh) 动作识别处理方法、装置、设备和存储介质
CN108960278A (zh) 使用生成式对抗网络的鉴别器的新奇检测
CN107295362B (zh) 基于图像的直播内容筛选方法、装置、设备及存储介质
CN108230291B (zh) 物体识别系统训练方法、物体识别方法、装置和电子设备
Mocanu et al. Deep-see face: A mobile face recognition system dedicated to visually impaired people
JP2006350645A (ja) 対象物検出装置及びその学習装置
KR101330636B1 (ko) 얼굴시점 결정장치 및 방법과 이를 채용하는 얼굴검출장치및 방법
CN113378770B (zh) 手势识别方法、装置、设备、存储介质
CN110738160A (zh) 一种结合人脸检测的人脸质量评估方法
WO2020029874A1 (zh) 对象跟踪方法及装置、电子设备及存储介质
CN112381104A (zh) 一种图像识别方法、装置、计算机设备及存储介质
Morimitsu et al. Exploring structure for long-term tracking of multiple objects in sports videos
CN110652726B (zh) 一种基于图像识别和音频识别的游戏辅助系统
CN110807410A (zh) 关键点定位方法、装置、电子设备和存储介质
CN113988179A (zh) 基于改进注意力和损失函数的目标分割方法、系统及设备
CN112527113A (zh) 手势识别及手势识别网络的训练方法和装置、介质和设备
CN111291668A (zh) 活体检测方法、装置、电子设备及可读存储介质
CN109063776A (zh) 图像再识别网络训练方法、装置和图像再识别方法及装置
CN110033424A (zh) 图像处理的方法、装置、电子设备及计算机可读存储介质
Zhou et al. Now you shake me: Towards automatic 4D cinema
CN112651459A (zh) 深度学习图像对抗样本防御方法、装置、设备及存储介质
CN110516572B (zh) 一种识别体育赛事视频片段的方法、电子设备及存储介质
CN104112131A (zh) 一种用于人脸检测的训练样本的生成方法及装置
CN109191485A (zh) 一种基于多层超图模型的多视频目标协同分割方法
CN111950507B (zh) 数据处理和模型训练方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination