CN108280406A - 一种基于分段双流模型的行为识别方法、系统及装置 - Google Patents
一种基于分段双流模型的行为识别方法、系统及装置 Download PDFInfo
- Publication number
- CN108280406A CN108280406A CN201711488438.9A CN201711488438A CN108280406A CN 108280406 A CN108280406 A CN 108280406A CN 201711488438 A CN201711488438 A CN 201711488438A CN 108280406 A CN108280406 A CN 108280406A
- Authority
- CN
- China
- Prior art keywords
- video
- dilatation
- sample data
- sample
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
Abstract
本发明公开了一种基于分段双流模型的行为识别方法、系统及装置,方法包括:采用H.265/HEVC的视频压缩标准录制监控视频;对样本数据集进行样本扩容,得到扩容样本数据集;创建组合卷积神经网络模型,进而通过扩容样本数据集对组合卷积神经网络模型进行训练,得到训练后的组合卷积神经网络模型;将实际监控视频进行处理后输入至训练后的组合卷积神经网络模型中,得到实际监控视频中的人体行为的识别结果。本发明通过利用分段双流CNNs和LSTMs组合的组合卷积神经网络模型识别人体行为类别,通过充分提取视频数据中有效特征,能有效实时分析视频中学生行为,且能大大提高识别准确率。本发明可广泛应用于行为识别领域中。
Description
技术领域
本发明涉及行为识别技术领域,尤其涉及一种基于分段双流模型的行为识别方法、系统及装置。
背景技术
由国际电联和国际标准化组织联合制定的下一代视频压缩标准H.265/HEVC正在被越来越多的平台与应用所采纳,其中一个重要的应用场景就是基于移动网络的实时视频。HEVC/H.265视频编码是继H.264之后ITU-T VCEG所制定的新一代视频编码标准。相对于现有标准,H.265/HEVC在视觉感知质量相当的情况下,比特率要大致减少50%。此外,H.265/HEVC还特别关注两个关键问题:视频分辨率和并行处理的实现,H.265/HEVC标准在支持原有视频分辨率级别的基础上,增加了4K(4096×2160)和8K(8192×4320)超高清视频分辨率,采用新的编码结构,以适应并行化处理的要求。
传统的方法是采用H.264经典视频压缩标准,且神经网络模型实现方式采用的是其他方式,目前还没有相关研究是关于HEVC/H.265视频应用于教室监控场景学生行为实时识别的,并且对于视频数据不能充分有效提取特征,从而导致识别率较低。
发明内容
为了解决上述技术问题,本发明的目的提供一种识别准确率较高,基于分段双流模型的行为识别方法、系统及装置。
本发明所采取的技术方案是:
一种基于分段双流模型的行为识别方法,包括以下步骤:
采用H.265/HEVC的视频压缩标准录制监控视频,根据得到的监控视频组建得到样本数据集;
从样本数据集中的监控视频获取RGB图像数据和光流图像数据;
对样本数据集进行样本扩容,得到扩容样本数据集;
基于扩容样本数据集,创建组合卷积神经网络模型,并对扩容样本数据集中监控视频的人体行为进行分类,进而通过扩容样本数据集对组合卷积神经网络模型进行训练,得到训练后的组合卷积神经网络模型;
将实际监控视频进行处理后输入至训练后的组合卷积神经网络模型中,得到实际监控视频中的人体行为的识别结果。
作为所述的一种基于分段双流模型的行为识别方法的进一步,所述的对样本数据集进行样本扩容,得到扩容样本数据集,这一步骤具体包括:
对样本数据集中的监控视频通过角剪裁的方式进行样本扩容,得到角剪裁扩容视频;
对样本数据集中的监控视频通过尺度抖动的方式进行样本扩容,得到尺度抖动扩容视频;
根据监控视频和得到的角剪裁扩容视频和尺度抖动扩容视频,组合得到扩容样本数据集。
作为所述的一种基于分段双流模型的行为识别方法的进一步,所述的组合卷积神经网络模型包括卷积神经网络模型和长短期记忆神经网络模型。
作为所述的一种基于分段双流模型的行为识别方法的进一步,所述的基于扩容样本数据集,创建组合卷积神经网络模型,并对扩容样本数据集中监控视频的人体行为进行分类,进而通过扩容样本数据集对组合卷积神经网络模型进行训练,得到训练后的组合卷积神经网络模型,这一步骤具体包括:
基于扩容样本数据集,创建组合卷积神经网络模型,并对扩容样本数据集中监控视频的人体行为进行分类并标注,得到行为类别;
通过卷积神经网络模型对RGB图像数据和光流图像数据进行特征提取,得到特征序列,并融合扩容样本数据集中的有效粗细粒度信息;
将扩容样本数据集的监控视频进行分段,得到分段视频,并根据行为类别,将分段视频输入至卷积神经网络模型进行训练;
通过长短期记忆神经网络对提取后的特征序列进行处理;
通过Softmax层进行分类。
作为所述的一种基于分段双流模型的行为识别方法的进一步,所述的将扩容样本数据集的监控视频进行分段,得到分段视频,并根据行为类别,将分段视频输入至卷积神经网络模型进行训练,这一步骤具体包括:
将帧数为NF的规范化视频以预设的步长LStride进行分段,每段包括预设的帧数LSeg,则分段数为Nseg=1+(NF-LSeg)/LStride,并根据预设的采样率进行采样,形成得到第一视频段矩阵;
以初步视频中每一帧的左手关节为中心,根据预设的帧大小截取并组成新视频,对新视频采取上进行分段处理,得到第二视频段矩阵;
将第一视频段矩阵和第二视频段矩阵进行融合得到第三视频段矩阵,同时根据行为类别,将第三视频段矩阵中的分段视频输入到卷积神经网络模型中进行训练。
本发明所采用的另一技术方案是:
一种基于分段双流模型的行为识别系统,包括以下步骤:
样本采集单元,用于采用H.265/HEVC的视频压缩标准录制监控视频,根据得到的监控视频组建得到样本数据集;
数据获取单元,用于从样本数据集中的监控视频获取RGB图像数据和光流图像数据;
样本扩容单元,用于对样本数据集进行样本扩容,得到扩容样本数据集;
训练单元,用于基于扩容样本数据集,创建组合卷积神经网络模型,并对扩容样本数据集中监控视频的人体行为进行分类,进而通过扩容样本数据集对组合卷积神经网络模型进行训练,得到训练后的组合卷积神经网络模型;
识别单元,用于将实际监控视频进行处理后输入至训练后的组合卷积神经网络模型中,得到实际监控视频中的人体行为的识别结果。
作为所述的一种基于分段双流模型的行为识别系统的进一步,所述样本扩容单元具体包括:
角剪裁扩容单元,用于对样本数据集中的监控视频通过角剪裁的方式进行样本扩容,得到角剪裁扩容视频;
尺度抖动扩容单元,用于对样本数据集中的监控视频通过尺度抖动的方式进行样本扩容,得到尺度抖动扩容视频;
样本组合单元,用于根据监控视频和得到的角剪裁扩容视频和尺度抖动扩容视频,组合得到扩容样本数据集。
作为所述的一种基于分段双流模型的行为识别系统的进一步,所述的组合卷积神经网络模型包括卷积神经网络模型和长短期记忆神经网络模型;
所述训练单元具体包括:
创建单元,用于基于扩容样本数据集,创建组合卷积神经网络模型,并对扩容样本数据集中监控视频的人体行为进行分类并标注,得到行为类别;
特征提取单元,用于通过卷积神经网络模型对RGB图像数据和光流图像数据进行特征提取,得到特征序列,并融合扩容样本数据集中的有效粗细粒度信息;
CNNS训练单元,用于将扩容样本数据集的监控视频进行分段,得到分段视频,并根据行为类别,将分段视频输入至卷积神经网络模型进行训练;
LSTM处理单元,用于通过长短期记忆神经网络对提取后的特征序列进行处理;
分类层处理单元,用于通过Softmax层进行分类。
作为所述的一种基于分段双流模型的行为识别系统的进一步,所述CNNS训练单元具体包括:
第一视频段矩阵生成单元,用于将帧数为NF的规范化视频以预设的步长LStride进行分段,每段包括预设的帧数LSeg,则分段数为Nseg=1+(NF-LSeg)/LStride,并根据预设的采样率进行采样,形成得到第一视频段矩阵;
第二视频段矩阵生成单元,用于以初步视频中每一帧的左手关节为中心,根据预设的帧大小截取并组成新视频,对新视频采取上进行分段处理,得到第二视频段矩阵;
模型训练单元,用于将第一视频段矩阵和第二视频段矩阵进行融合得到第三视频段矩阵,同时根据行为类别,将第三视频段矩阵中的分段视频输入到卷积神经网络模型中进行训练。
本发明所采用的再一个技术方案是:
一种基于分段双流模型的行为识别装置,包括:
存储器,用于存放程序;
处理器,用于执行所述程序,所述程序使得所述处理器执行所述的基于分段双流模型的行为识别方法。
本发明的有益效果是:
本发明一种基于分段双流模型的行为识别方法、系统及装置通过采用基于H.265/HEVC新一代的视频压缩标准,并利用分段双流CNNs和LSTMs组合的组合卷积神经网络模型识别人体行为类别,通过充分提取视频数据中有效特征,能有效实时分析视频中学生行为,且能大大提高识别准确率。
附图说明
图1是一种基于分段双流模型的行为识别方法的步骤流程图;
图2是一种基于分段双流模型的行为识别系统的模块方框图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明:
参考图1,本发明一种基于分段双流模型的行为识别方法,包括以下步骤:
采用H.265/HEVC的视频压缩标准录制监控视频,根据得到的监控视频组建得到样本数据集;
从样本数据集中的监控视频获取RGB图像数据和光流图像数据;
对样本数据集进行样本扩容,得到扩容样本数据集;
基于扩容样本数据集,创建组合卷积神经网络模型,并对扩容样本数据集中监控视频的人体行为进行分类,进而通过扩容样本数据集对组合卷积神经网络模型进行训练,得到训练后的组合卷积神经网络模型;
将实际监控视频进行处理后输入至训练后的组合卷积神经网络模型中,得到实际监控视频中的人体行为的识别结果。
本发明实施例中,所述样本数据集中监控摄像压缩标准采用的是H.265/HEVC新标准,通过在教室内4种场景下的25个人分别做出6种动作:看书、打闹、说话、站起来、坐下、睡觉,共录制了2391个短视频组成样本数据集。
其中,所述卷积神经网络模型中的空间流模型的学习将基于RGB图像数据,所述卷积神经网络模型中的时间流模型的学习将基于光流图像数据,时间流上的运动信息通过光流位移来准确表示,可将光流视为一系列由两个连续帧t和t+1决定的位移矢量场dt。其中:dt(u,v)代表帧t上像素(u,v)与邻帧t+1相对应位置的位移矢量。而dt x和dt y作为光流场dt的水平分量和垂直分量,可以视为两个通道的图像。
为了以帧序列来表示运动,将L个连续帧的光流通道dt x,y堆叠到一起形成一个由2L个输入通道组成的光流数据(含L个连续帧的光流场水平分量,以及L个连续帧的光流场垂直分量)。
假设视频帧的宽和高分别为w和h,则可按照如下方式构造卷积神经网络在任意时刻T处的时间流输入块IT∈Rw×h×2L:
其中,对于任意像素(u,v),2L个通道数据IT(u,v,c),c=[1;2L]代表了该位置在L个连续帧的运动。
进一步作为优选的实施方式,所述的对样本数据集进行样本扩容,得到扩容样本数据集,这一步骤具体包括:
对样本数据集中的监控视频通过角剪裁的方式进行样本扩容,得到角剪裁扩容视频;
对样本数据集中的监控视频通过尺度抖动的方式进行样本扩容,得到尺度抖动扩容视频;
根据监控视频和得到的角剪裁扩容视频和尺度抖动扩容视频,组合得到扩容样本数据集。
本发明实施例中,所述角剪裁具体为:首先固定图像的一个大小为256x256的中心位置,然后在该子区域内随机剪裁到一个大小为224x224的子图像,从图像的中心与四个对角等五个位置区域来剪裁224x224的子图像。3.12将图像进行水平翻转,得到水平翻转后的5幅图像。通过角剪裁及水平翻转,将1个视频行为样本扩容为10个视频行为样本,即角剪裁扩容视频。
所述尺度抖动具体为:将原始图像调整为统一大小,如340x256;然后基于角剪裁方式指定的五个位置,从{256,224,192,168}中随机选取裁剪区域的长、宽,进行图像区域的裁剪;将裁剪后的图像子块进行尺度放缩,以重新调整为224x224的大小,作为扩容后的一幅新的输入图像;最后进行水平镜像操作,得到尺度抖动扩容视频。
进一步作为优选的实施方式,所述的组合卷积神经网络模型包括卷积神经网络模型和长短期记忆神经网络模型。
进一步作为优选的实施方式,所述的基于扩容样本数据集,创建组合卷积神经网络模型,并对扩容样本数据集中监控视频的人体行为进行分类,进而通过扩容样本数据集对组合卷积神经网络模型进行训练,得到训练后的组合卷积神经网络模型,这一步骤具体包括:
基于扩容样本数据集,创建组合卷积神经网络模型,并对扩容样本数据集中监控视频的人体行为进行分类并标注,得到行为类别;
通过卷积神经网络模型对RGB图像数据和光流图像数据进行特征提取,得到特征序列,并融合扩容样本数据集中的有效粗细粒度信息;
将扩容样本数据集的监控视频进行分段,得到分段视频,并根据行为类别,将分段视频输入至卷积神经网络模型进行训练;
通过长短期记忆神经网络对提取后的特征序列进行处理;其中,数据被调整规模以进入长短期记忆神经网络中,特征序列种各帧的特征向量填充时间序列,长短期记忆神经网络按时序做递归运算,每次递归运算的结果是前面所有特征和当前特征的融合,获取帧与帧之间的时间信息;
通过Softmax层进行分类。
进一步作为优选的实施方式,所述的将扩容样本数据集的监控视频进行分段,得到分段视频,并根据行为类别,将分段视频输入至卷积神经网络模型进行训练,这一步骤具体包括:
将帧数为NF的规范化视频以预设的步长LStride进行分段,每段包括预设的帧数LSeg,则分段数为Nseg=1+(NF-LSeg)/LStride,并根据预设的采样率进行采样,形成得到NsegxLsegxW/4xH/4的第一视频段矩阵;
以初步视频中每一帧的左手关节为中心,根据预设的帧大小截取并组成NFxW/4xH/4的新视频,对新视频采取上进行分段处理,得到NsegxLsegxW/4xH/4的第二视频段矩阵;
将第一视频段矩阵和第二视频段矩阵进行融合得到2NsegxLsegxW/4xH/4的第三视频段矩阵,同时根据行为类别,将第三视频段矩阵中的分段视频输入到2Nseg个卷积神经网络模型中进行训练。
本实施例中,预设的采样率为1/4,所述预设的帧大小为W/4xH/4,
参考图2,本发明一种基于分段双流模型的行为识别系统,包括以下步骤:
样本采集单元,用于采用H.265/HEVC的视频压缩标准录制监控视频,根据得到的监控视频组建得到样本数据集;
数据获取单元,用于从样本数据集中的监控视频获取RGB图像数据和光流图像数据;
样本扩容单元,用于对样本数据集进行样本扩容,得到扩容样本数据集;
训练单元,用于基于扩容样本数据集,创建组合卷积神经网络模型,并对扩容样本数据集中监控视频的人体行为进行分类,进而通过扩容样本数据集对组合卷积神经网络模型进行训练,得到训练后的组合卷积神经网络模型;
识别单元,用于将实际监控视频进行处理后输入至训练后的组合卷积神经网络模型中,得到实际监控视频中的人体行为的识别结果。
进一步作为优选的实施方式,所述样本扩容单元具体包括:
角剪裁扩容单元,用于对样本数据集中的监控视频通过角剪裁的方式进行样本扩容,得到角剪裁扩容视频;
尺度抖动扩容单元,用于对样本数据集中的监控视频通过尺度抖动的方式进行样本扩容,得到尺度抖动扩容视频;
样本组合单元,用于根据监控视频和得到的角剪裁扩容视频和尺度抖动扩容视频,组合得到扩容样本数据集。
进一步作为优选的实施方式,所述的组合卷积神经网络模型包括卷积神经网络模型和长短期记忆神经网络模型;
所述训练单元具体包括:
创建单元,用于基于扩容样本数据集,创建组合卷积神经网络模型,并对扩容样本数据集中监控视频的人体行为进行分类并标注,得到行为类别;
特征提取单元,用于通过卷积神经网络模型对RGB图像数据和光流图像数据进行特征提取,得到特征序列,并融合扩容样本数据集中的有效粗细粒度信息;
CNNS训练单元,用于将扩容样本数据集的监控视频进行分段,得到分段视频,并根据行为类别,将分段视频输入至卷积神经网络模型进行训练;
LSTM处理单元,用于通过长短期记忆神经网络对提取后的特征序列进行处理;
分类层处理单元,用于通过Softmax层进行分类。
进一步作为优选的实施方式,所述CNNS训练单元具体包括:
第一视频段矩阵生成单元,用于将帧数为NF的规范化视频以预设的步长LStride进行分段,每段包括预设的帧数LSeg,则分段数为Nseg=1+(NF-LSeg)/LStride,并根据预设的采样率进行采样,形成得到第一视频段矩阵;
第二视频段矩阵生成单元,用于以初步视频中每一帧的左手关节为中心,根据预设的帧大小截取并组成新视频,对新视频采取上进行分段处理,得到第二视频段矩阵;
模型训练单元,用于将第一视频段矩阵和第二视频段矩阵进行融合得到第三视频段矩阵,同时根据行为类别,将第三视频段矩阵中的分段视频输入到卷积神经网络模型中进行训练。
本发明一种基于分段双流模型的行为识别装置,包括:
存储器,用于存放程序;
处理器,用于执行所述程序,所述程序使得所述处理器执行所述的基于分段双流模型的行为识别方法。
从上述内容可知,本发明一种基于分段双流模型的行为识别方法、系统及装置通过采用基于H.265/HEVC新一代的视频压缩标准,并利用分段双流CNNs和LSTMs组合的组合卷积神经网络模型识别人体行为类别,通过充分提取视频数据中有效特征,能有效实时分析视频中学生行为,且能大大提高识别准确率。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (10)
1.一种基于分段双流模型的行为识别方法,其特征在于,包括以下步骤:
采用H.265/HEVC的视频压缩标准录制监控视频,根据得到的监控视频组建得到样本数据集;
从样本数据集中的监控视频获取RGB图像数据和光流图像数据;
对样本数据集进行样本扩容,得到扩容样本数据集;
基于扩容样本数据集,创建组合卷积神经网络模型,并对扩容样本数据集中监控视频的人体行为进行分类,进而通过扩容样本数据集对组合卷积神经网络模型进行训练,得到训练后的组合卷积神经网络模型;
将实际监控视频进行处理后输入至训练后的组合卷积神经网络模型中,得到实际监控视频中的人体行为的识别结果。
2.根据权利要求1所述的一种基于分段双流模型的行为识别方法,其特征在于:
所述的对样本数据集进行样本扩容,得到扩容样本数据集,这一步骤具体包括:
对样本数据集中的监控视频通过角剪裁的方式进行样本扩容,得到角剪裁扩容视频;
对样本数据集中的监控视频通过尺度抖动的方式进行样本扩容,得到尺度抖动扩容视频;
根据监控视频和得到的角剪裁扩容视频和尺度抖动扩容视频,组合得到扩容样本数据集。
3.根据权利要求1所述的一种基于分段双流模型的行为识别方法,其特征在于:
所述的组合卷积神经网络模型包括卷积神经网络模型和长短期记忆神经网络模型。
4.根据权利要求3所述的一种基于分段双流模型的行为识别方法,其特征在于:
所述的基于扩容样本数据集,创建组合卷积神经网络模型,并对扩容样本数据集中监控视频的人体行为进行分类,进而通过扩容样本数据集对组合卷积神经网络模型进行训练,得到训练后的组合卷积神经网络模型,这一步骤具体包括:
基于扩容样本数据集,创建组合卷积神经网络模型,并对扩容样本数据集中监控视频的人体行为进行分类并标注,得到行为类别;
通过卷积神经网络模型对RGB图像数据和光流图像数据进行特征提取,得到特征序列,并融合扩容样本数据集中的有效粗细粒度信息;
将扩容样本数据集的监控视频进行分段,得到分段视频,并根据行为类别,将分段视频输入至卷积神经网络模型进行训练;
通过长短期记忆神经网络对提取后的特征序列进行处理;
通过Softmax层进行分类。
5.根据权利要求4所述的一种基于分段双流模型的行为识别方法,其特征在于:
所述的将扩容样本数据集的监控视频进行分段,得到分段视频,并根据行为类别,将分段视频输入至卷积神经网络模型进行训练,这一步骤具体包括:将帧数为NF的规范化视频以预设的步长LStride进行分段,每段包括预设的帧数LSeg,则分段数为Nseg=1+(NF-LSeg)/LStride,并根据预设的采样率进行采样,形成得到第一视频段矩阵;
以初步视频中每一帧的左手关节为中心,根据预设的帧大小截取并组成新视频,对新视频采取上进行分段处理,得到第二视频段矩阵;
将第一视频段矩阵和第二视频段矩阵进行融合得到第三视频段矩阵,同时根据行为类别,将第三视频段矩阵中的分段视频输入到卷积神经网络模型中进行训练。
6.一种基于分段双流模型的行为识别系统,其特征在于,包括以下步骤:
样本采集单元,用于采用H.265/HEVC的视频压缩标准录制监控视频,根据得到的监控视频组建得到样本数据集;
数据获取单元,用于从样本数据集中的监控视频获取RGB图像数据和光流图像数据;
样本扩容单元,用于对样本数据集进行样本扩容,得到扩容样本数据集;
训练单元,用于基于扩容样本数据集,创建组合卷积神经网络模型,并对扩容样本数据集中监控视频的人体行为进行分类,进而通过扩容样本数据集对组合卷积神经网络模型进行训练,得到训练后的组合卷积神经网络模型;
识别单元,用于将实际监控视频进行处理后输入至训练后的组合卷积神经网络模型中,得到实际监控视频中的人体行为的识别结果。
7.根据权利要求6所述的一种基于分段双流模型的行为识别系统,其特征在于:
所述样本扩容单元具体包括:
角剪裁扩容单元,用于对样本数据集中的监控视频通过角剪裁的方式进行样本扩容,得到角剪裁扩容视频;
尺度抖动扩容单元,用于对样本数据集中的监控视频通过尺度抖动的方式进行样本扩容,得到尺度抖动扩容视频;
样本组合单元,用于根据监控视频和得到的角剪裁扩容视频和尺度抖动扩容视频,组合得到扩容样本数据集。
8.根据权利要求6所述的一种基于分段双流模型的行为识别系统,其特征在于:
所述的组合卷积神经网络模型包括卷积神经网络模型和长短期记忆神经网络模型;
所述训练单元具体包括:
创建单元,用于基于扩容样本数据集,创建组合卷积神经网络模型,并对扩容样本数据集中监控视频的人体行为进行分类并标注,得到行为类别;
特征提取单元,用于通过卷积神经网络模型对RGB图像数据和光流图像数据进行特征提取,得到特征序列,并融合扩容样本数据集中的有效粗细粒度信息;
CNNS训练单元,用于将扩容样本数据集的监控视频进行分段,得到分段视频,并根据行为类别,将分段视频输入至卷积神经网络模型进行训练;
LSTM处理单元,用于通过长短期记忆神经网络对提取后的特征序列进行处理;
分类层处理单元,用于通过Softmax层进行分类。
9.根据权利要求8所述的一种基于分段双流模型的行为识别方法,其特征在于:
所述CNNS训练单元具体包括:
第一视频段矩阵生成单元,用于将帧数为NF的规范化视频以预设的步长LStride进行分段,每段包括预设的帧数LSeg,则分段数为Nseg=1+(NF-LSeg)/LStride,并根据预设的采样率进行采样,形成得到第一视频段矩阵;
第二视频段矩阵生成单元,用于以初步视频中每一帧的左手关节为中心,根据预设的帧大小截取并组成新视频,对新视频采取上进行分段处理,得到第二视频段矩阵;
模型训练单元,用于将第一视频段矩阵和第二视频段矩阵进行融合得到第三视频段矩阵,同时根据行为类别,将第三视频段矩阵中的分段视频输入到卷积神经网络模型中进行训练。
10.一种基于分段双流模型的行为识别装置,其特征在于,包括:
存储器,用于存放程序;
处理器,用于执行所述程序,所述程序使得所述处理器执行如权利要求1~5任一项所述的基于分段双流模型的行为识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711488438.9A CN108280406A (zh) | 2017-12-30 | 2017-12-30 | 一种基于分段双流模型的行为识别方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711488438.9A CN108280406A (zh) | 2017-12-30 | 2017-12-30 | 一种基于分段双流模型的行为识别方法、系统及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108280406A true CN108280406A (zh) | 2018-07-13 |
Family
ID=62802844
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711488438.9A Pending CN108280406A (zh) | 2017-12-30 | 2017-12-30 | 一种基于分段双流模型的行为识别方法、系统及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108280406A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108985244A (zh) * | 2018-07-24 | 2018-12-11 | 海信集团有限公司 | 一种电视节目类型识别方法及装置 |
CN109657546A (zh) * | 2018-11-12 | 2019-04-19 | 平安科技(深圳)有限公司 | 基于神经网络的视频行为识别方法及终端设备 |
CN109740419A (zh) * | 2018-11-22 | 2019-05-10 | 东南大学 | 一种基于Attention-LSTM网络的视频行为识别方法 |
CN109919031A (zh) * | 2019-01-31 | 2019-06-21 | 厦门大学 | 一种基于深度神经网络的人体行为识别方法 |
CN110032942A (zh) * | 2019-03-15 | 2019-07-19 | 中山大学 | 基于时域分段及特征差分的动作识别方法 |
CN110321833A (zh) * | 2019-06-28 | 2019-10-11 | 南京邮电大学 | 基于卷积神经网络和循环神经网络的人体行为识别方法 |
CN110399789A (zh) * | 2019-06-14 | 2019-11-01 | 佳都新太科技股份有限公司 | 行人重识别方法、模型构建方法、装置、设备和存储介质 |
CN110458038A (zh) * | 2019-07-19 | 2019-11-15 | 天津理工大学 | 基于双链深度双流网络的小数据跨域动作识别方法 |
CN110516540A (zh) * | 2019-07-17 | 2019-11-29 | 青岛科技大学 | 基于多流架构与长短时记忆网络的组群行为识别方法 |
WO2020063835A1 (zh) * | 2018-09-29 | 2020-04-02 | 北京三快在线科技有限公司 | 模型生成 |
CN111291840A (zh) * | 2020-05-12 | 2020-06-16 | 成都派沃智通科技有限公司 | 一种学生课堂行为识别系统、方法、介质及终端设备 |
CN112686193A (zh) * | 2021-01-06 | 2021-04-20 | 东北大学 | 基于压缩视频的动作识别方法、装置及计算机设备 |
CN112990013A (zh) * | 2021-03-15 | 2021-06-18 | 西安邮电大学 | 一种基于稠密边界时空网络的时序行为检测方法 |
WO2023147778A1 (zh) * | 2022-02-07 | 2023-08-10 | 北京字跳网络技术有限公司 | 动作识别方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2345978A1 (en) * | 2010-01-14 | 2011-07-20 | Deutsche Telekom AG | Detection of flash illuminated scenes in video clips and related ranking of video clips |
CN103873889A (zh) * | 2012-12-17 | 2014-06-18 | 财团法人工业技术研究院 | 影音流传输方法、影音装置以及影音提供装置 |
CN105740773A (zh) * | 2016-01-25 | 2016-07-06 | 重庆理工大学 | 基于深度学习和多尺度信息的行为识别方法 |
CN106096568A (zh) * | 2016-06-21 | 2016-11-09 | 同济大学 | 一种基于cnn和卷积lstm网络的行人再识别方法 |
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
CN107341462A (zh) * | 2017-06-28 | 2017-11-10 | 电子科技大学 | 一种基于注意力机制的视频分类方法 |
-
2017
- 2017-12-30 CN CN201711488438.9A patent/CN108280406A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2345978A1 (en) * | 2010-01-14 | 2011-07-20 | Deutsche Telekom AG | Detection of flash illuminated scenes in video clips and related ranking of video clips |
CN103873889A (zh) * | 2012-12-17 | 2014-06-18 | 财团法人工业技术研究院 | 影音流传输方法、影音装置以及影音提供装置 |
CN105740773A (zh) * | 2016-01-25 | 2016-07-06 | 重庆理工大学 | 基于深度学习和多尺度信息的行为识别方法 |
CN106096568A (zh) * | 2016-06-21 | 2016-11-09 | 同济大学 | 一种基于cnn和卷积lstm网络的行人再识别方法 |
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
CN107341462A (zh) * | 2017-06-28 | 2017-11-10 | 电子科技大学 | 一种基于注意力机制的视频分类方法 |
Non-Patent Citations (3)
Title |
---|
JOE YUE-HEI NG 等: "Beyond Short Snippets: Deep Networks for Video Classification", 《2015 IEEE CVPR》 * |
刘双叶: "基于视频的行为识别", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
赵爽: "基于H.265的高清网络视频处理技术的研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108985244A (zh) * | 2018-07-24 | 2018-12-11 | 海信集团有限公司 | 一种电视节目类型识别方法及装置 |
WO2020063835A1 (zh) * | 2018-09-29 | 2020-04-02 | 北京三快在线科技有限公司 | 模型生成 |
CN109657546A (zh) * | 2018-11-12 | 2019-04-19 | 平安科技(深圳)有限公司 | 基于神经网络的视频行为识别方法及终端设备 |
CN109740419A (zh) * | 2018-11-22 | 2019-05-10 | 东南大学 | 一种基于Attention-LSTM网络的视频行为识别方法 |
CN109919031B (zh) * | 2019-01-31 | 2021-04-09 | 厦门大学 | 一种基于深度神经网络的人体行为识别方法 |
CN109919031A (zh) * | 2019-01-31 | 2019-06-21 | 厦门大学 | 一种基于深度神经网络的人体行为识别方法 |
CN110032942A (zh) * | 2019-03-15 | 2019-07-19 | 中山大学 | 基于时域分段及特征差分的动作识别方法 |
CN110032942B (zh) * | 2019-03-15 | 2021-10-08 | 中山大学 | 基于时域分段及特征差分的动作识别方法 |
CN110399789A (zh) * | 2019-06-14 | 2019-11-01 | 佳都新太科技股份有限公司 | 行人重识别方法、模型构建方法、装置、设备和存储介质 |
CN110321833A (zh) * | 2019-06-28 | 2019-10-11 | 南京邮电大学 | 基于卷积神经网络和循环神经网络的人体行为识别方法 |
CN110321833B (zh) * | 2019-06-28 | 2022-05-20 | 南京邮电大学 | 基于卷积神经网络和循环神经网络的人体行为识别方法 |
CN110516540B (zh) * | 2019-07-17 | 2022-04-29 | 青岛科技大学 | 基于多流架构与长短时记忆网络的组群行为识别方法 |
CN110516540A (zh) * | 2019-07-17 | 2019-11-29 | 青岛科技大学 | 基于多流架构与长短时记忆网络的组群行为识别方法 |
CN110458038A (zh) * | 2019-07-19 | 2019-11-15 | 天津理工大学 | 基于双链深度双流网络的小数据跨域动作识别方法 |
CN111291840A (zh) * | 2020-05-12 | 2020-06-16 | 成都派沃智通科技有限公司 | 一种学生课堂行为识别系统、方法、介质及终端设备 |
CN112686193A (zh) * | 2021-01-06 | 2021-04-20 | 东北大学 | 基于压缩视频的动作识别方法、装置及计算机设备 |
CN112686193B (zh) * | 2021-01-06 | 2024-02-06 | 东北大学 | 基于压缩视频的动作识别方法、装置及计算机设备 |
CN112990013A (zh) * | 2021-03-15 | 2021-06-18 | 西安邮电大学 | 一种基于稠密边界时空网络的时序行为检测方法 |
CN112990013B (zh) * | 2021-03-15 | 2024-01-12 | 西安邮电大学 | 一种基于稠密边界时空网络的时序行为检测方法 |
WO2023147778A1 (zh) * | 2022-02-07 | 2023-08-10 | 北京字跳网络技术有限公司 | 动作识别方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108280406A (zh) | 一种基于分段双流模型的行为识别方法、系统及装置 | |
Ying et al. | Patch-vq:'patching up'the video quality problem | |
CN103003844B (zh) | 监视系统及监视方法 | |
CN108510061B (zh) | 基于条件生成对抗网络的多监控视频人脸合成正脸的方法 | |
CN111954053B (zh) | 获取蒙版帧数据的方法、计算机设备及可读存储介质 | |
CN108182670A (zh) | 一种事件图像的分辨率增强方法及系统 | |
CN111954052B (zh) | 显示弹幕信息的方法、计算机设备及可读存储介质 | |
CN110032942A (zh) | 基于时域分段及特征差分的动作识别方法 | |
CN110363716A (zh) | 一种基于条件生成对抗网络复合降质图像高质量重建方法 | |
CN108573222A (zh) | 基于循环对抗生成网络的行人图像遮挡检测方法 | |
CN113538480A (zh) | 图像分割处理方法、装置、计算机设备和存储介质 | |
CN111507997B (zh) | 图像分割方法、装置、设备及计算机存储介质 | |
CN101535941A (zh) | 自适应视频呈现的方法和装置 | |
CN112183313A (zh) | 一种基于SlowFast的电力作业现场动作识别方法 | |
CN105374051B (zh) | 智能移动终端防镜头抖动视频运动目标检测方法 | |
CN111079864A (zh) | 一种基于优化视频关键帧提取的短视频分类方法及系统 | |
CN107646112A (zh) | 使用机器学习对眼睛图像进行校正的方法以及机器学习的方法 | |
CN114463218A (zh) | 一种基于事件数据驱动的视频去模糊方法 | |
CN109583334A (zh) | 一种基于时空关联神经网络的动作识别方法及其系统 | |
CN108629301A (zh) | 一种基于运动边界稠密采样和运动梯度直方图的人体动作识别方法 | |
CN110689498A (zh) | 一种基于对非关注点部分分级模糊的高清视频优化方法 | |
KR102177494B1 (ko) | 모션벡터의 궤적 및 패턴을 이용한 압축영상의 이상모션 객체 식별 방법 | |
CN106056042B (zh) | 产生视频数据变换表示以及分析视频数据的方法和系统 | |
CN115228081A (zh) | 虚拟场景切换方法及装置 | |
Calagari et al. | Data driven 2-D-to-3-D video conversion for soccer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180713 |
|
RJ01 | Rejection of invention patent application after publication |