CN116563881A - 行人动作连续检测识别方法、装置、存储介质及设备 - Google Patents
行人动作连续检测识别方法、装置、存储介质及设备 Download PDFInfo
- Publication number
- CN116563881A CN116563881A CN202210075002.1A CN202210075002A CN116563881A CN 116563881 A CN116563881 A CN 116563881A CN 202210075002 A CN202210075002 A CN 202210075002A CN 116563881 A CN116563881 A CN 116563881A
- Authority
- CN
- China
- Prior art keywords
- detection
- frame
- frames
- key
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种行人动作连续检测识别方法、装置、存储介质及设备,属于动作检测识别领域。其包括:将待检测视频分割成多个视频片段并选取关键帧;对每一个视频片段,将其所有帧图像输入行人检测模型,在每张帧图像上得到一定数量的检测框;将视频片段的所有帧图像及其检测框输入动作识别模型,得到关键帧的每个检测框的动作类别;将每个非关键帧的所有检测框与关键帧的所有检测框进行匹配,则将非关键帧的检测框的动作类别设置为与之匹配的关键帧的检测框的动作类别。本发明实现了视频中人体动作的逐帧连续检测识别,解决了仅依赖关键帧检测对视频整体检测评估带来偏差的问题,提升了视频动作检测识别呈现的视觉体验感。
Description
技术领域
本发明涉及动作检测识别领域,特别是指一种行人动作连续检测识别方法、装置、存储介质及设备。
背景技术
视频序列中的人体行为动作分析逐渐成为计算机视觉领域研究的热点,在视频监控、人机智能交互、虚拟现实以及医疗看护等领域,都提出了对人体动作检测识别的强烈需求。
现有技术的行人动作检测识别方法通常只是对视频片段中的关键帧进行检测和识别,而对整个视频的检测则完全依赖于关键帧的检测效果。如果仅依赖关键帧检测,容易对视频整体检测效果的评估带来偏差。此外,仅对关键帧进行检测,检测框与识别结果以间断的方式呈现,视觉体验感差。
发明内容
为解决现有技术的缺陷,本发明提供一种行人动作连续检测识别方法、装置、存储介质及设备,实现了视频中人体动作的逐帧连续检测识别。
本发明提供技术方案如下:
第一方面,本发明提供一种行人动作连续检测识别方法,所述方法包括:
将待检测视频分割成多个视频片段,每个视频片段均包括多帧图像;
在每个视频片段选中选取一帧图像作为关键帧,其余帧图像作为非关键帧;
对每一个视频片段,将所述视频片段的所有帧图像输入行人检测模型,在所述视频片段的每张帧图像上得到一定数量的检测框;
对每一个视频片段,将所述视频片段的所有帧图像及其检测框输入动作识别模型,得到所述关键帧的每个检测框的动作类别;
对每一个视频片段,将所述视频片段的每个非关键帧的所有检测框与关键帧的所有检测框进行匹配,若匹配通过,则将非关键帧的检测框的动作类别设置为与之匹配的关键帧的检测框的动作类别。
进一步的,所述动作识别模型包括平行执行的慢速通道和快速通道,所述慢速通道和快速通道均为卷积神经网络,所述快速通道的卷积神经网络的通道数少于慢速通道的卷积神经网络的通道数;
所述对每一个视频片段,将所述视频片段的所有帧图像及其检测框输入动作识别模型,得到所述关键帧的每个检测框的动作类别,包括:
按照不同的帧采样率对所述视频片段进行采样,得到包含较少帧图像的第一帧序列和包含较多帧图像的第二帧序列;
将所述第一帧序列和第二帧序列分别输入所述慢速通道和快速通道提取特征,分别得到第一特征图矩阵和第二特征图矩阵;
分别对所述第一特征图矩阵和第二特征图矩阵进行时序池化操作,在得到的两个时序池化结果上分别基于所述关键帧的检测框提取感兴趣区域的特征,并分别进行空间池化操作,得到所述慢速通道的特征和所述快速通道的特征,所述慢速通道的特征表征所述视频片段的静态信息,所述快速通道的特征表征所述视频片段的动态信息;
将所述慢速通道的特征和所述快速通道的特征进行融合,对融合结果依次进行全连接操作和softmax操作,得到各个动作类别的概率;
将概率最大值对应的动作类别作为关键帧的检测框的动作类别。
进一步的,所述动作识别模型还包括从所述快速通道到慢速通道的侧向连接,所述侧向连接将所述快速通道的数据送入所述慢速通道。
进一步的,所述对每一个视频片段,将所述视频片段的每个非关键帧的所有检测框与关键帧的所有检测框进行匹配,包括:
对每个非关键帧,计算其所有检测框与关键帧的所有检测框的IOU距离,得到IOU代价矩阵;
基于所述IOU代价矩阵,利用匈牙利算法对所述非关键帧的所有检测框与关键帧的所有检测框进行匹配;
其中,对所述非关键帧的一个检测框,若存在一个关键帧的检测框与其匹配,且两者的IOU距离小于设定的阈值,则匹配通过,否则未匹配通过。
进一步的,所述对每一个视频片段,将所述视频片段的所有帧图像输入行人检测模型,在所述视频片段的每张帧图像上得到一定数量的检测框,包括:
将所述视频片段的所有帧图像输入YOLOX检测模型,在所述视频片段的每张帧图像上得到若干候选检测框以及所述候选检测框识别为人的置信度分数;
根据设定的NMS阈值对所述候选检测框进行非极大值抑制操作;
从非极大值抑制操作的结果中过滤掉置信度分数低于设定的置信度阈值的候选检测框,得到所述一定数量的检测框及其置信度分数。
进一步的,在每个视频片段选中选取中间帧图像作为关键帧,其余帧图像作为非关键帧。
进一步的,所述方法还包括:
将所述关键帧的所有检测框及其动作类别以及匹配通过的非关键帧的检测框及其动作类别显示呈现,将未匹配通过的非关键帧的检测框显示呈现。
第二方面,本发明提供一种行人动作连续检测识别装置,所述装置包括:
视频分割模块,用于将待检测视频分割成多个视频片段,每个视频片段均包括多帧图像;
关键帧选取模块,用于在每个视频片段选中选取一帧图像作为关键帧,其余帧图像作为非关键帧;
行人检测模块,对每一个视频片段,将所述视频片段的所有帧图像输入行人检测模型,在所述视频片段的每张帧图像上得到一定数量的检测框;
动作识别模块,对每一个视频片段,将所述视频片段的所有帧图像及其检测框输入动作识别模型,得到所述关键帧的每个检测框的动作类别;
连续识别模块,对每一个视频片段,将所述视频片段的每个非关键帧的所有检测框与关键帧的所有检测框进行匹配,若匹配通过,则将非关键帧的检测框的动作类别设置为与之匹配的关键帧的检测框的动作类别。
进一步的,所述动作识别模型包括平行执行的慢速通道和快速通道,所述慢速通道和快速通道均为卷积神经网络,所述快速通道的卷积神经网络的通道数少于慢速通道的卷积神经网络的通道数;
所述动作识别模块包括:
采样单元,用于按照不同的帧采样率对所述视频片段进行采样,得到包含较少帧图像的第一帧序列和包含较多帧图像的第二帧序列;
特征图矩阵提取单元,用于将所述第一帧序列和第二帧序列分别输入所述慢速通道和快速通道提取特征,分别得到第一特征图矩阵和第二特征图矩阵;
特征计算单元,用于分别对所述第一特征图矩阵和第二特征图矩阵进行时序池化操作,在得到的两个时序池化结果上分别基于所述关键帧的检测框提取感兴趣区域的特征,并分别进行空间池化操作,得到所述慢速通道的特征和所述快速通道的特征,所述慢速通道的特征表征所述视频片段的静态信息,所述快速通道的特征表征所述视频片段的动态信息;
概率计算单元,用于将所述慢速通道的特征和所述快速通道的特征进行融合,对融合结果依次进行全连接操作和softmax操作,得到各个动作类别的概率;
类别确定单元,用于将概率最大值对应的动作类别作为关键帧的检测框的动作类别。
进一步的,所述动作识别模型还包括从所述快速通道到慢速通道的侧向连接,所述侧向连接将所述快速通道的数据送入所述慢速通道。
进一步的,所述连续识别模块包括:
IOU代价矩阵计算单元,用于对每个非关键帧,计算其所有检测框与关键帧的所有检测框的IOU距离,得到IOU代价矩阵;
匹配单元,用于基于所述IOU代价矩阵,利用匈牙利算法对所述非关键帧的所有检测框与关键帧的所有检测框进行匹配;
其中,对所述非关键帧的一个检测框,若存在一个关键帧的检测框与其匹配,且两者的IOU距离小于设定的阈值,则匹配通过,否则未匹配通过。
进一步的,所述行人检测模块包括:
候选检测框获取单元,用于将所述视频片段的所有帧图像输入YOLOX检测模型,在所述视频片段的每张帧图像上得到若干候选检测框以及所述候选检测框识别为人的置信度分数;
NMS单元,用于根据设定的NMS阈值对所述候选检测框进行非极大值抑制操作;
过滤单元,用于从非极大值抑制操作的结果中过滤掉置信度分数低于设定的置信度阈值的候选检测框,得到所述一定数量的检测框及其置信度分数。
进一步的,所述关键帧选取模块中,在每个视频片段选中选取中间帧图像作为关键帧,其余帧图像作为非关键帧。
进一步的,所述装置还包括:
呈现模块,用于将所述关键帧的所有检测框及其动作类别以及匹配通过的非关键帧的检测框及其动作类别显示呈现,将未匹配通过的非关键帧的检测框显示呈现。
第三方面,本发明提供一种用于行人动作连续检测识别的计算机可读存储介质,包括用于存储处理器可执行指令的存储器,所述指令被所述处理器执行时实现包括第一方面所述的行人动作连续检测识别方法的步骤。
第四方面,本发明提供一种用于行人动作连续检测识别的设备,包括至少一个处理器以及存储计算机可执行指令的存储器,所述处理器执行所述指令时实现第一方面所述的行人动作连续检测识别方法的步骤。
本发明具有以下有益效果:
本发明通过检测框匹配,实现了关键帧识别结果对非关键帧的共享,从而实现了视频中人体动作的逐帧连续检测识别,解决了仅依赖关键帧检测对视频整体检测评估带来偏差的问题;并且,每帧图像的检测框与识别结果以连续的方式呈现,提升了呈现的视觉体验感。
附图说明
图1为本发明的行人动作连续检测识别方法的流程图;
图2为本发明的动作识别模型一个示例的示意图;
图3为非关键帧的检测框与关键帧的检测框进行的匹配过程示意图;
图4为本发明的行人动作连续检测识别装置的示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
本发明实施例提供一种行人动作连续检测识别方法,如图1所示,该方法包括:
S100:将待检测视频分割成多个视频片段,每个视频片段均包括多帧图像。
本步骤中,对于给定的一段包含指定动作的待检测视频V,首先将其分帧,并进行分割,分割成多个视频片段(clip),每个视频片段包括多帧图像。分割时可以按照一定的长度s进行,例如s取16时,分割后的视频片段包括16帧图像。并且为避免信息的丢失,还可以使得相邻两个clip间重叠若干帧,如5帧。
S200:在每个视频片段选中选取一帧图像作为关键帧,其余帧图像作为非关键帧。
例如,选取中间帧图像作为关键帧(key_frame),其余帧图像作为非关键帧(norm_frame)。
S300:对每一个视频片段,将视频片段的所有帧图像输入行人检测模型,在视频片段的每张帧图像上得到一定数量的检测框。
行人检测模型用于在每张帧图像上检测出一定数量的代表人的检测框,本发明不限制行人检测模型的具体实现方式。
例如,每张帧图像经过行人检测模型得到一个维度为Nx5的矩阵,其中N为检测框的个数,5个维度分别对应检测框的左上角坐标(x1,y1),右下角坐标(x2,y2)以及检测框识别为人的置信度分数score,该视频片段所有非关键帧的检测框列表用Bn表示,中间帧的检测框列表用B表示。
S400:对每一个视频片段,将视频片段的所有帧图像及其检测框输入动作识别模型,得到关键帧的每个检测框的动作类别。
动作识别模型的作用是根据视频片段的所有帧图像的信息判断出其关键帧的检测框的动作类别pred,本发明不限制动作识别模型的具体实现方式。
S500:对每一个视频片段,将视频片段的每个非关键帧的所有检测框与关键帧的所有检测框进行匹配,若匹配通过,则将非关键帧的检测框的动作类别设置为与之匹配的关键帧的检测框的动作类别。
现有技术只能对视频片段中的关键帧进行检测和识别,以关键帧的识别结果代表整个视频片段,并通过所有视频片段的关键帧的识别结果对整个待检测视频的检测情况进行评估。这种方法对整个视频的检测情况完全依赖于关键帧的检测效果,容易对视频整体检测效果的评估带来偏差。此外,仅对关键帧进行检测,检测框与识别结果以间断的方式呈现,视觉体验感差。
本发明得到关键帧的检测识别结果(关键帧的每个检测框及其动作类别)后,将每个非关键帧的所有检测框与关键帧的所有检测框进行匹配,对于匹配上的非关键帧的检测框,将与其匹配的关键帧的检测框的识别结果pred共享给它,实现对每一帧图像的动作检测识别。
并且,本发明还可以对检测框进行输出显示,对于关键帧,将关键帧的所有检测框及其动作类别显示呈现;对于非关键帧,将匹配通过的非关键帧的检测框及其动作类别显示呈现,未匹配通过的非关键帧只将其检测框显示呈现。
本发明通过检测框匹配,实现了关键帧识别结果对非关键帧的共享,从而实现了视频中人体动作的逐帧连续检测识别,解决了仅依赖关键帧检测对视频整体检测评估带来偏差的问题;并且,每帧图像的检测框与识别结果以连续的方式呈现,提升了呈现的视觉体验感。
作为本发明实施例的一种改进,如图2所示,本发明的动作识别模型包括平行执行的慢速通道和快速通道,慢速通道和快速通道均为卷积神经网络,并且快速通道的卷积神经网络的通道数少于慢速通道的卷积神经网络的通道数。
发明人经研究发现:视频场景中的一系列帧图像通常包含两个不同的部分:不怎么变化或者缓慢变化的静态部分和正在发生变化的动态部分。例如,飞机起飞的视频会包含相对静态的机场和一个在静态机场场景中快速移动的动态的飞机。又例如,在日常生活中,当两个人见面时,握手通常会比较快而场景中的其他部分则相对静态。
根据这一发现,本发明将动作识别模型设计为包括平行执行的慢速通道和快速通道。慢速通道是一个慢速高分辨率的卷积神经网络,其具有较少的输入帧序列和较多的通道(channel)数,用来分析视频中的空间静态内容。快速通道是一个快速低分辨率的卷积神经网络,其具有较多的输入帧序列和较少的通道数,用来分析视频中的时序动态内容。快速通道使用较少的通道数(即使用较少的滤波器数量)来保持网络的轻量化,其表示静态空间语义的能力较弱。
这与灵长类动物的视网膜神经节的原理类似,在视网膜神经节中,大约80%的细胞(P-cells)以低频运作,可以识别静态细节,而大约20%的细胞(M-cells)则以高频运作,负责响应快速变化。
基于此动作识别模型,前述的S400包括:
S410:按照不同的帧采样率对所述视频片段进行采样,得到包含较少帧图像的第一帧序列和包含较多帧图像的第二帧序列。
例如,帧采样率设置为2和1,即每两帧或每一帧对16帧的视频片段进行采样,得到8帧的第一帧序列和16帧的第二帧序列。
S420:将所述第一帧序列和第二帧序列分别输入所述慢速通道和快速通道提取特征,分别得到第一特征图矩阵和第二特征图矩阵。
例如,将8帧的第一帧序列输入慢速通道,对每帧图像提取特征表征视频片段静态信息的特征图,第一帧序列的所有图像的特征图组成第一特征图矩阵。
同时将16帧的第二帧序列输入快速通道,对每帧图像提取特征表征视频片段动态信息的特征图,第二帧序列的所有图像的特征图组成第二特征图矩阵。
S430:分别对第一特征图矩阵和第二特征图矩阵进行时序池化(pool)操作,在得到的两个时序池化结果上分别基于关键帧的检测框提取感兴趣区域(region ofinterest,ROI)的特征,并分别进行空间池化(pool)操作,得到慢速通道的特征和快速通道的特征,慢速通道的特征表征视频片段的静态信息,快速通道的特征表征视频片段的动态信息。
池化是将一个或多个由前趋的卷积层创建的矩阵压缩为较小的矩阵的过程,在深度学习中,池化一般指空间池化,池化在时间序列上的应用称为时序池化。
以16帧的视频片段的视频片段为例,每帧图像经过卷积神经网络之后,得到16个帧的特征图。由于动作类别识别通常是基于视频级别的而不是基于帧级别的,因此,需要通过一种时序汇合方法(即时序池化)将各帧特征转换为视频级别特征。
时序池化后,针对两个时序池化结果,分别进行ROI Align操作,完成区域特征聚集,再经过空间池化,得到快速通道和慢速通道的特征。
S440:将慢速通道的特征和快速通道的特征进行融合,对融合结果依次进行全连接操作和softmax操作,得到关键帧每个检测框的各个动作类别的概率。
融合时,在通道维度上通过concat操作进行融合,再经过全连接层得到num_classes维的特征,num_classes为动作类别的个数,然后经过softmax激活得到识别为各个动作类别的概率。
S450:将概率最大值对应的动作类别作为关键帧的检测框的动作类别。
本步骤中,可以通过设定的分数阈值筛选掉低于分数阈值的概率,再从剩余的概率中选择最大值,其对应的动作类别即为关键帧的检测框的动作类别(pred)。
动作识别模型还包括从快速通道到慢速通道的侧向连接,侧向连接将快速通道的数据送入慢速通道。
因为快速通道和慢速通道的信息是融合的,因此一条路径需要知道另一条路径所学习的表示,通过侧向连接将快速通道的数据送入慢速通道。示例性的,侧向连接的连接方式可以使用卷积核为5×12的3D convolution(卷积)实现。
作为本发明实施例的另一种改进,如图3所示,前述的S500包括:
S510:对每个非关键帧,计算其所有检测框与关键帧的所有检测框的IOU距离,得到IOU代价矩阵。
IOU(Intersection-over-Union)表示两个检测框的交叠率,即两个检测框的交集与两个检测框的并集的比值。
S520:基于IOU代价矩阵,利用匈牙利算法对非关键帧的所有检测框与关键帧的所有检测框进行匹配。
其中,对非关键帧的一个检测框,若存在一个关键帧的检测框与其匹配,且两者的IOU距离小于设定的阈值,则匹配通过,否则未匹配通过。
例如,记非关键帧的检测框列表为Bn,关键帧的检测框列表为B;Bn中包括的每个检测框记为bbox_i,B中包括的每个检测框记为Bbox_i。将Bn中的每个检测框记为bbox_i与B中的每个检测框Bbox_i匹配,得到的输出为:
A.完成匹配的非关键帧的检测框与关键帧的检测框列表M,每个元素为(index_i,index_j),其中index_i为非关键帧的检测框索引,index_j为关键帧的检测框索引。
B.未匹配上的非关键帧的检测框列表F,每个元素为index_i,表示非关键帧的检测框索引。
匹配的具体步骤为:
1)初始化:令M←Φ,F←Φ。
2)计算Bn中的各个检测框(数量为N个)与B中的各个检测框(数量为M个)的IOU距离,得到NxM维的IOU代价矩阵C。
3)IOU基于代价矩阵C,利用匈牙利算法完成非关键帧的检测框与关键帧的检测框的匹配。
4)设定阈值max_distance,逐个索引Bn中的检测框bbox_i:若有B中检测框Bbox_j与bbox_i匹配,且bbox_i与Bbox_j的IOU距离小于max_distance,则将pred_j共享给bbox_i,将(bbox_i,Bbox_j)添加到列表M,同时将“None”添加到列表F。
若有B中检测框Bbox_j与bbox_i匹配,但bbox_i与Bbox_j的IOU距离大于max_distance,或者B中没有检测框与bbox_i配,则将bbox_i添加进列表F,同时将(None,None)添加进列表M。
本发明基于IOU代价矩阵和匈牙利算法对非关键的帧检测框与关键帧检的测框进行匹配,提升了匹配效果。
现有技术的行人动作检测识别方法通过Faster RCNN进行行人检测,在行人密集,遮挡严重的场景,存在较严重的漏检情况。
为提升行人检测模型在行人密集、遮挡严重的场景中的检测效果,本发明采用如下方法进行行人检测:
S310:将视频片段的所有帧图像输入YOLOX检测模型,在视频片段的每张帧图像上得到若干候选检测框以及候选检测框识别为人的置信度分数。
本发明使用YOLOX检测模型实现行人检测,为提升模型在复杂拥挤场景的行人检测效果,YOLOX检测模型经行人数据再训练取得。在检测过程,将视频片段输入YOLOX检测模型,完成对所有帧图像中行人的检测,输出行人的检测框以及识别为“人”的置信度分数score。
S320:根据设定的NMS阈值对候选检测框进行非极大值抑制操作。
非极大值抑制(Non-Maximum Suppression,NMS),是应用在物体检测的后处理方法,能够去除冗余的检测框。
S330:从非极大值抑制操作的结果中过滤掉置信度分数低于设定的置信度阈值的候选检测框,得到一定数量的检测框及其置信度分数。
本步骤经过置信度阈值过滤掉置信度分数低于阈值的候选检测框,最终输出图像中保留的检测框以及其置信度分数。
实施例2:
本发明实施例提供一种行人动作连续检测识别装置,如图4所示,该装置包括:
视频分割模块1,用于将待检测视频分割成多个视频片段,每个视频片段均包括多帧图像。
关键帧选取模块2,用于在每个视频片段选中选取一帧图像作为关键帧,其余帧图像作为非关键帧。
例如,在每个视频片段选中选取中间帧图像作为关键帧,其余帧图像作为非关键帧。
行人检测模块3,对每一个视频片段,将视频片段的所有帧图像输入行人检测模型,在视频片段的每张帧图像上得到一定数量的检测框。
动作识别模块4,对每一个视频片段,将视频片段的所有帧图像及其检测框输入动作识别模型,得到关键帧的每个检测框的动作类别。
连续识别模块5,对每一个视频片段,将视频片段的每个非关键帧的所有检测框与关键帧的所有检测框进行匹配,若匹配通过,则将非关键帧的检测框的动作类别设置为与之匹配的关键帧的检测框的动作类别。
本发明的装置还可以包括:
呈现模块,用于将关键帧的所有检测框及其动作类别以及匹配通过的非关键帧的检测框及其动作类别显示呈现,将未匹配通过的非关键帧的检测框显示呈现。
本发明通过检测框匹配,实现了关键帧识别结果对非关键帧的共享,从而实现了视频中人体动作的逐帧连续检测识别,解决了仅依赖关键帧检测对视频整体检测评估带来偏差的问题;并且,每帧图像的检测框与识别结果以连续的方式呈现,提升了呈现的视觉体验感。
作为本发明实施例的一种改进,动作识别模型包括平行执行的慢速通道和快速通道,慢速通道和快速通道均为卷积神经网络,快速通道的卷积神经网络的通道数少于慢速通道的卷积神经网络的通道数。
基于上述动作识别模型,本发明的动作识别模块包括:
采样单元,用于按照不同的帧采样率对所述视频片段进行采样,得到包含较少帧图像的第一帧序列和包含较多帧图像的第二帧序列。
特征图矩阵提取单元,用于将将所述第一帧序列和第二帧序列分别输入所述慢速通道和快速通道提取特征,分别得到第一特征图矩阵和第二特征图矩阵。
特征计算单元,用于分别对第一特征图矩阵和第二特征图矩阵进行时序池化操作,在得到的两个时序池化结果上分别基于关键帧的检测框提取感兴趣区域的特征,并分别进行空间池化操作,得到慢速通道的特征和快速通道的特征,慢速通道的特征表征视频片段的静态信息,快速通道的特征表征视频片段的动态信息。
概率计算单元,用于将慢速通道的特征和快速通道的特征进行融合,对融合结果依次进行全连接操作和softmax操作,得到各个动作类别的概率。
类别确定单元,用于将概率最大值对应的动作类别作为关键帧的检测框的动作类别。
其中,动作识别模型还包括从快速通道到慢速通道的侧向连接,侧向连接将快速通道的数据送入慢速通道。
作为本发明实施例的另一种改进,连续识别模块包括:
IOU代价矩阵计算单元,用于对每个非关键帧,计算其所有检测框与关键帧的所有检测框的IOU距离,得到IOU代价矩阵。
匹配单元,用于基于IOU代价矩阵,利用匈牙利算法对非关键帧的所有检测框与关键帧的所有检测框进行匹配。
其中,对非关键帧的一个检测框,若存在一个关键帧的检测框与其匹配,且两者的IOU距离小于设定的阈值,则匹配通过,否则未匹配通过。
为提升行人检测模型在行人密集、遮挡严重的场景中的检测效果,本发明的行人检测模块包括:
候选检测框获取单元,用于将视频片段的所有帧图像输入YOLOX检测模型,在视频片段的每张帧图像上得到若干候选检测框以及候选检测框识别为人的置信度分数。
NMS单元,用于根据设定的NMS阈值对候选检测框进行非极大值抑制操作。
过滤单元,用于从非极大值抑制操作的结果中过滤掉置信度分数低于设定的置信度阈值的候选检测框,得到一定数量的检测框及其置信度分数。
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例1相同,为简要描述,该装置实施例部分未提及之处,可参考前述方法实施例1中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的装置和单元的具体工作过程,均可以参考上述方法实施例1中的对应过程,在此不再赘述。
实施例3:
本发明提供的上述实施例1所述的方法可以通过计算机程序实现业务逻辑并记录在存储介质上,所述的存储介质可以计算机读取并执行,实现本说明书实施例1所描述方案的效果。因此,本发明还提供用于行人动作连续检测识别的计算机可读存储介质,包括用于存储处理器可执行指令的存储器,指令被处理器执行时实现包括实施例1的行人动作连续检测识别方法的步骤。
本发明通过检测框匹配,实现了关键帧识别结果对非关键帧的共享,从而实现了视频中人体动作的逐帧连续检测识别,解决了仅依赖关键帧检测对视频整体检测评估带来偏差的问题;并且,每帧图像的检测框与识别结果以连续的方式呈现,提升了呈现的视觉体验感。
所述存储介质可以包括用于存储信息的物理装置,通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。所述存储介质有可以包括:利用电能方式存储信息的装置如,各式存储器,如RAM、ROM等;利用磁能方式存储信息的装置如,硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘;利用光学方式存储信息的装置如,CD或DVD。当然,还有其他方式的可读存储介质,例如量子存储器、石墨烯存储器等等。
上述所述的存储介质根据方法实施例1的描述还可以包括其他的实施方式,本实施例的实现原理及产生的技术效果和前述方法实施例1相同,具体可以参照相关方法实施例1的描述,在此不作一一赘述。
实施例4:
本发明还提供一种用于行人动作连续检测识别的设备,所述的设备可以为单独的计算机,也可以包括使用了本说明书的一个或多个所述方法或一个或多个实施例装置的实际操作装置等。所述行人动作连续检测识别的设备可以包括至少一个处理器以及存储计算机可执行指令的存储器,处理器执行所述指令时实现上述任意一个或者多个实施例1中所述行人动作连续检测识别方法的步骤。
本发明通过检测框匹配,实现了关键帧识别结果对非关键帧的共享,从而实现了视频中人体动作的逐帧连续检测识别,解决了仅依赖关键帧检测对视频整体检测评估带来偏差的问题;并且,每帧图像的检测框与识别结果以连续的方式呈现,提升了呈现的视觉体验感。
上述所述的设备根据方法实施例1的描述还可以包括其他的实施方式,本实施例的实现原理及产生的技术效果和前述方法实施例1相同,具体可以参照相关方法实施例1的描述,在此不作一一赘述。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种行人动作连续检测识别方法,其特征在于,所述方法包括:
将待检测视频分割成多个视频片段,每个视频片段均包括多帧图像;
在每个视频片段选中选取一帧图像作为关键帧,其余帧图像作为非关键帧;
对每一个视频片段,将所述视频片段的所有帧图像输入行人检测模型,在所述视频片段的每张帧图像上得到一定数量的检测框;
对每一个视频片段,将所述视频片段的所有帧图像及其检测框输入动作识别模型,得到所述关键帧的每个检测框的动作类别;
对每一个视频片段,将所述视频片段的每个非关键帧的所有检测框与关键帧的所有检测框进行匹配,若匹配通过,则将非关键帧的检测框的动作类别设置为与之匹配的关键帧的检测框的动作类别。
2.根据权利要求1所述的行人动作连续检测识别方法,其特征在于,所述动作识别模型包括平行执行的慢速通道和快速通道,所述慢速通道和快速通道均为卷积神经网络,所述快速通道的卷积神经网络的通道数少于慢速通道的卷积神经网络的通道数;
所述对每一个视频片段,将所述视频片段的所有帧图像及其检测框输入动作识别模型,得到所述关键帧的每个检测框的动作类别,包括:
按照不同的帧采样率对所述视频片段进行采样,得到包含较少帧图像的第一帧序列和包含较多帧图像的第二帧序列;
将所述第一帧序列和第二帧序列分别输入所述慢速通道和快速通道提取特征,分别得到第一特征图矩阵和第二特征图矩阵;
分别对所述第一特征图矩阵和第二特征图矩阵进行时序池化操作,在得到的两个时序池化结果上分别基于所述关键帧的检测框提取感兴趣区域的特征,并分别进行空间池化操作,得到所述慢速通道的特征和所述快速通道的特征,所述慢速通道的特征表征所述视频片段的静态信息,所述快速通道的特征表征所述视频片段的动态信息;
将所述慢速通道的特征和所述快速通道的特征进行融合,对融合结果依次进行全连接操作和softmax操作,得到各个动作类别的概率;
将概率最大值对应的动作类别作为关键帧的检测框的动作类别。
3.根据权利要求2所述的行人动作连续检测识别方法,其特征在于,所述动作识别模型还包括从所述快速通道到慢速通道的侧向连接,所述侧向连接将所述快速通道的数据送入所述慢速通道。
4.根据权利要求1所述的行人动作连续检测识别方法,其特征在于,所述对每一个视频片段,将所述视频片段的每个非关键帧的所有检测框与关键帧的所有检测框进行匹配,包括:
对每个非关键帧,计算其所有检测框与关键帧的所有检测框的IOU距离,得到IOU代价矩阵;
基于所述IOU代价矩阵,利用匈牙利算法对所述非关键帧的所有检测框与关键帧的所有检测框进行匹配;
其中,对所述非关键帧的一个检测框,若存在一个关键帧的检测框与其匹配,且两者的IOU距离小于设定的阈值,则匹配通过,否则未匹配通过。
5.根据权利要求1所述的行人动作连续检测识别方法,其特征在于,所述对每一个视频片段,将所述视频片段的所有帧图像输入行人检测模型,在所述视频片段的每张帧图像上得到一定数量的检测框,包括:
将所述视频片段的所有帧图像输入YOLOX检测模型,在所述视频片段的每张帧图像上得到若干候选检测框以及所述候选检测框识别为人的置信度分数;
根据设定的NMS阈值对所述候选检测框进行非极大值抑制操作;
从非极大值抑制操作的结果中过滤掉置信度分数低于设定的置信度阈值的候选检测框,得到所述一定数量的检测框及其置信度分数。
6.根据权利要求1所述的行人动作连续检测识别方法,其特征在于,在每个视频片段选中选取中间帧图像作为关键帧,其余帧图像作为非关键帧。
7.根据权利要求1-6任一所述的行人动作连续检测识别方法,其特征在于,所述方法还包括:
将所述关键帧的所有检测框及其动作类别以及匹配通过的非关键帧的检测框及其动作类别显示呈现,将未匹配通过的非关键帧的检测框显示呈现。
8.一种行人动作连续检测识别装置,其特征在于,所述装置包括:
视频分割模块,用于将待检测视频分割成多个视频片段,每个视频片段均包括多帧图像;
关键帧选取模块,用于在每个视频片段选中选取一帧图像作为关键帧,其余帧图像作为非关键帧;
行人检测模块,对每一个视频片段,将所述视频片段的所有帧图像输入行人检测模型,在所述视频片段的每张帧图像上得到一定数量的检测框;
动作识别模块,对每一个视频片段,将所述视频片段的所有帧图像及其检测框输入动作识别模型,得到所述关键帧的每个检测框的动作类别;
连续识别模块,对每一个视频片段,将所述视频片段的每个非关键帧的所有检测框与关键帧的所有检测框进行匹配,若匹配通过,则将非关键帧的检测框的动作类别设置为与之匹配的关键帧的检测框的动作类别。
9.一种用于行人动作连续检测识别的计算机可读存储介质,其特征在于,包括用于存储处理器可执行指令的存储器,所述指令被所述处理器执行时实现包括权利要求1-7任一所述行人动作连续检测识别方法的步骤。
10.一种用于行人动作连续检测识别的设备,其特征在于,包括至少一个处理器以及存储计算机可执行指令的存储器,所述处理器执行所述指令时实现权利要求1-7中任意一项所述行人动作连续检测识别方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210075002.1A CN116563881A (zh) | 2022-01-22 | 2022-01-22 | 行人动作连续检测识别方法、装置、存储介质及设备 |
PCT/CN2023/071627 WO2023138444A1 (zh) | 2022-01-22 | 2023-01-10 | 行人动作连续检测识别方法、装置、存储介质及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210075002.1A CN116563881A (zh) | 2022-01-22 | 2022-01-22 | 行人动作连续检测识别方法、装置、存储介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116563881A true CN116563881A (zh) | 2023-08-08 |
Family
ID=87347801
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210075002.1A Pending CN116563881A (zh) | 2022-01-22 | 2022-01-22 | 行人动作连续检测识别方法、装置、存储介质及设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN116563881A (zh) |
WO (1) | WO2023138444A1 (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609497B (zh) * | 2017-08-31 | 2019-12-31 | 武汉世纪金桥安全技术有限公司 | 基于视觉跟踪技术的实时视频人脸识别方法及系统 |
US11017556B2 (en) * | 2017-10-04 | 2021-05-25 | Nvidia Corporation | Iterative spatio-temporal action detection in video |
CN108256506B (zh) * | 2018-02-14 | 2020-11-24 | 北京市商汤科技开发有限公司 | 一种视频中物体检测方法及装置、计算机存储介质 |
CN110427800B (zh) * | 2019-06-17 | 2024-09-10 | 平安科技(深圳)有限公司 | 视频物体加速检测方法、装置、服务器及存储介质 |
CN111461010B (zh) * | 2020-04-01 | 2022-08-12 | 贵州电网有限责任公司 | 一种基于模板跟踪的电力设备识别效率优化方法 |
SG10202009757XA (en) * | 2020-10-01 | 2021-04-29 | Yitu Pte Ltd | Video-based human action recognition method and apparatus, a medium and an electronic device |
-
2022
- 2022-01-22 CN CN202210075002.1A patent/CN116563881A/zh active Pending
-
2023
- 2023-01-10 WO PCT/CN2023/071627 patent/WO2023138444A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023138444A1 (zh) | 2023-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sabir et al. | Recurrent convolutional strategies for face manipulation detection in videos | |
Zhang et al. | Progressive attention guided recurrent network for salient object detection | |
CN109697434B (zh) | 一种行为识别方法、装置和存储介质 | |
US10275653B2 (en) | Primary video objects with neighborhood reversibility | |
JP7026826B2 (ja) | 画像処理方法、電子機器および記憶媒体 | |
CN111260666B (zh) | 图像处理方法及装置、电子设备、计算机可读存储介质 | |
Singh et al. | Muhavi: A multicamera human action video dataset for the evaluation of action recognition methods | |
CN110929593B (zh) | 一种基于细节辨别区别的实时显著性行人检测方法 | |
KR102374776B1 (ko) | Cctv의 위치 정보 및 객체의 움직임 정보에 기초한 타겟 객체 재식별 시스템 및 방법 | |
Zhou et al. | Cascaded interactional targeting network for egocentric video analysis | |
CN111209897B (zh) | 视频处理的方法、装置和存储介质 | |
CN105139004A (zh) | 基于视频序列的人脸表情识别方法 | |
CN111353385B (zh) | 一种基于掩膜对齐与注意力机制的行人再识别方法和装置 | |
CN112257665A (zh) | 图像内容的识别方法、图像识别模型的训练方法及介质 | |
CN110619284B (zh) | 一种视频场景划分方法、装置、设备及介质 | |
CN109215047B (zh) | 基于深海视频的运动目标检测方法和装置 | |
Zhang et al. | Detecting and removing visual distractors for video aesthetic enhancement | |
JP2022082493A (ja) | ノイズチャネルに基づくランダム遮蔽回復の歩行者再識別方法 | |
CN113297956B (zh) | 一种基于视觉的手势识别方法及系统 | |
WO2023040146A1 (zh) | 基于图像融合的行为识别方法、装置、电子设备及介质 | |
CN113221770A (zh) | 基于多特征混合学习的跨域行人重识别方法及系统 | |
Zhang et al. | Discriminative feature learning for video semantic segmentation | |
Gündüz et al. | Turkish sign language recognition based on multistream data fusion | |
CN109002808B (zh) | 一种人体行为识别方法及系统 | |
Xiao et al. | Self-explanatory deep salient object detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |