CN113158723B - 一种端到端的视频动作检测定位系统 - Google Patents

一种端到端的视频动作检测定位系统 Download PDF

Info

Publication number
CN113158723B
CN113158723B CN202011560837.3A CN202011560837A CN113158723B CN 113158723 B CN113158723 B CN 113158723B CN 202011560837 A CN202011560837 A CN 202011560837A CN 113158723 B CN113158723 B CN 113158723B
Authority
CN
China
Prior art keywords
data
information
module
video
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011560837.3A
Other languages
English (en)
Other versions
CN113158723A (zh
Inventor
席道亮
许野平
刘辰飞
陈英鹏
张朝瑞
高朋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Synthesis Electronic Technology Co Ltd
Original Assignee
Synthesis Electronic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Synthesis Electronic Technology Co Ltd filed Critical Synthesis Electronic Technology Co Ltd
Priority to CN202011560837.3A priority Critical patent/CN113158723B/zh
Publication of CN113158723A publication Critical patent/CN113158723A/zh
Priority to PCT/CN2021/116771 priority patent/WO2022134655A1/zh
Application granted granted Critical
Publication of CN113158723B publication Critical patent/CN113158723B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/40Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种端到端的视频动作检测定位系统,涉及人体动作识别领域。端到端的视频动作检测定位系统的定位过程:视频解码;数据重组;设定数据采样频率,读取固定长度的视频片段,将数据重新组合为可输入数据模式输入到下一模块;对输入数据进行计算操作;空间关键信息提取;将时空信息解析单元模块提取的特征信息进行处理,使网络提取的特征更能关注图像中更加有用空间信息,滤除背景信息,对图像中动作发生的位置特征进行增强;通道信息整合挖掘;将时空信息解析单元模块得到的数据特征进行通道级别的信息整合,挖掘运动信息,关注帧之间运动信息挖掘,关注行为动作发生的类型;预测结果输出;采用1x1卷积输出对应的通道数量的特征图。

Description

一种端到端的视频动作检测定位系统
技术领域
本发明涉及人体动作识别领域,具体涉及一种端到端的视频动作检测定位系统。
背景技术
行为识别将给定得一段视频片段进行连续得多帧分析,能够实现识别视频中得内容,通常为识别人的动作,如打架、倒地等等,在实际应用场景中能够识别出场景内发生得危险行为,应用场景广泛,是计算机视觉一直研究的热点问题,目前基于深度学习的行为识别算法不仅能够识别动作发生的类型,还能定位动作发生的空间位置,在多目标,复杂场景下取得了较高的准确度。
Du Tran等人在论文《Learning Spatiotemporal Features with 3DConvolutional Networks》中提出了一个简单有效的方法,在大规模有监督视频数据集上使用深度3维卷积网络(3D ConvNets),该方法相比于2D ConvNets更适用于时空特征的学习,更能表达帧与帧之间的连续信息,在UCF101数据集上用更少的维度与当时最好的方法精度相当,采用简单的 3D卷积架构,计算效率高,前向传播速度快,更易于训练和使用,该方法的不足之处在于识别目标为单人简单场景,在复杂场景下应用识别精度低误报率高,基本无泛化能力,无法在实际复杂环境下推广应用,而且无法对画面中动作发生的位置进行定位。
论文《Two-Stream Convolutional Networks for Action Recognition inVideos》针对动作分类提出了一种双流网络检测方法,该方法采用并行网络spatialstream ConvNet和 temporal stream ConvNet,前者是一个分类网络,输入的是静态图像,得到图像信息,后者输入的连续多帧的稠密光流,得到运动信息,两个网络最后经过softmax做分类分数的融合,通过该方法计算准确度高,能够应用于复杂多人场景,但是该方法的不足之处在于需要预先得到待检测视频片段的光流信息,无法达到实时检测,同样无法定位动作发生的位置。
专利号为201810292563的中国专利,公开了专利一种视频动作分类模型训练方法、装置及视频动作分类方法,优点在于可以获取多个带有标签的训练视频中的训练图像帧,能够在学习到训练难度较小的训练视频帧特征的基础上,学习训练难度较大的训练图像帧与其他训练难度较小的训练图像帧之间的差异性特征,能够为训练视频进行更准确的分类,但是该方法仍然存在无法定位画面中动作发生得空间位置和起始时间。
专利号为201810707711的中国专利专利,公开了一种基于视频的行为识别方法、行为识别装置及终端设备,创新点在于利用卷积神经网络和长短记忆网络LSTM进行时序建模,增加帧与帧之间的时序信息,有效解决现有行为识别方法存在背景信息复杂、对时序建模能力不够强等问题,但是该方法不能实现端到端的训练,对单张RGB图像帧单独检测,在背景复杂场景下识别精度较低。
专利号为201210345589.X的中国专利,公开了一种基于动作子空间与权重化行为识别模型的行为识别方法优势在于输入为待检测得视频序列,提取了动作的时间信息,利用减背景的方法去除背景噪声对于前景的影响,不仅能够准确地识别随时间、区域内外人员变化的人类行为,而且对噪声和其它影响因素鲁棒性强,但是该方法对同一场景下多种存在多种行为时无法准确的做出判断。
发明内容
本发明的目的是针对上述不足,提出了一种当输入待检测视频序列后能够定位动作发生的空间位置的端到端的视频动作检测定位系统。
本发明具体采用如下技术方案:
一种端到端的视频动作检测定位系统,包括视频解码模块和数据重组模块,定位过程包括以下步骤:
(1)视频解码;视频解码模块将网络视频流通过网络线路输入到视频解码单元,通过 SOC片上系统将视频流解码为一帧帧的RGB图像,然后输入到数据重组模块,进行数据的预处理操作;
(2)数据重组;设定数据采样频率,读取固定长度的视频片段,将数据重新组合为可输入数据模式输入到下一模块;
(3)对输入数据进行计算操作;
(4)空间关键信息提取;将时空信息解析单元模块提取的特征信息进行处理,使网络提取的特征更能关注图像中更加有用空间信息,滤除背景信息,对图像中动作发生的位置特征进行增强;
(5)通道信息整合挖掘;将时空信息解析单元模块得到的数据特征进行通道级别的信息整合,挖掘运动信息,关注帧之间运动信息挖掘,关注行为动作发生的类型;
(6)预测结果输出;采用1x1卷积输出对应的通道数量的特征图。
优选地,数据重组具体的过程为:
预测开始取固定长度n的视频片段处理后组成单元数据Ydst输入到时空信息解析单元模块,n等于8或者16,输入到时空信息解析单元模块之前需要将单元数据Ydst每张RGB图像的尺寸调整成固定尺寸大小;
假定源视频片段单张图片用Xsrc表示,输入到时空信息解析单元模块的固定尺寸的图片用Xdst表示,尺寸缩放后对于Xdst中的每个像素的计算方法如下:
(1)对于Xdst中的每个像素,设置坐标通过反向变换得到的浮点坐标为(i+u,j+v),其中i、j均为浮点坐标的整数部分,u、v为浮点坐标的小数部分,是取值[0,1)区间的浮点数;
(2)这个像素值f(i+u,j+v)可由原来图像中坐标为(i,j)、(i+1,j)、(i,j+1)、(i+1,j+1) 所对应的周围四个像素值决定,即
f(i+u,j+v)=(1-u)(1-v)f(i,j)+(1-u)vf(i,j+1)+u(1-v)f(i+1,j)+uvf(i+1,j+1)
其中f(i,j)表示源图像(i,j)处的像素值。
优选地,对输入数据进行计算操作包括以下过程:
(1)将视频单元数据Ydst输入到时空信息解析单元模块中,将一系列的RGB图像帧RCxDxHxW输入到该模块,C=3代表每一张RGB图像帧的通道数,D表示每组单元数据Ydst的图片的数量,最大为16,H和W代表该组单元数据Ydst的每张图片的宽和高;时空信息解析单元模块输出特征图
Figure BDA0002860389170000031
C1、H1、W1分别表示输出特征图的通道数、宽和高,为了适应空间关键信息提取模块的输出维度,强制D′=1,然后通过维度变换将时空信息解析单元模块输出的四维数据变换为三维数据,输出的特征图表示为
Figure BDA0002860389170000032
(2)采用增加空间关键信息提取模块,使网络更加关注行为发生的对象的特征,该模块的输入为
Figure BDA0002860389170000033
输出特征图为
Figure BDA0002860389170000034
优选地,空间关键信息提取包括以下过程:
(1)设定时空信息解析单元模块输出特征图尺寸为
Figure BDA0002860389170000035
将特征图输入到空间关键信息提取模块获取Rf1,Rf2
Figure BDA0002860389170000036
Figure BDA0002860389170000037
其中f1()表示对特征矩阵均值化操作,f2()表示对矩阵的特征抽取操作;
(2)将Rf1和Rf2按照第一个维度进行相加的处理,获取合并后的空间特征信息
Rf=Rf1+Rf2
(3)将Rf进行空间特征融合,将Rf输入到融合特征归一化单元,该单元可以将空间特征增强化,对增强化后的特征进行归一化处理后计算效率更加高效:
x=ffuse(Rf)
Xout=fnormalize(X)
X表示融合后的特征图,融合函数ffuse()将特征Rf的信息整合,通过归一化函数fnormalize()将增强后的特征归一化到0~1之间。
优选地,通道信息整合挖掘包括以下步骤:
(1)空间关键信息提取模块得到的数据特征表示为
Figure BDA0002860389170000041
时空信息解析单元模块特征表示为
Figure BDA0002860389170000042
为了减少通道信息整合挖掘模块的信息损失将Xout
Figure BDA0002860389170000043
输入后按通道合并特征信息,输出特征图Y;
(2)用通道压缩单元将特征图Y向量化为Z,函数fvector()表示向量化函数,特征图Z表示对特征图的向量化符号表示,其中C3表示通道标量的相加和,其数值C3=C1+C2,N表示对每张特征图向量化的数值表示,其数值为N=H1*W1
Figure BDA0002860389170000044
通过将特征向量Z与Z的转置特征矩阵ZT,T表示矩阵的转置,生成特征矩阵,该矩阵中的每个元素均为Z与ZT的内积的值,其中矩阵I的生成维度为C3*C3,矩阵I生成计算的公式为:
Figure BDA0002860389170000045
其中参数i,j是对矩阵Z行列的索引表示,n从零开始计算最大值为N,对该矩阵进行如下运算操作,生成特征图
Figure BDA0002860389170000046
矩阵E的计算公式的公式为:
Figure BDA0002860389170000047
特征图
Figure BDA0002860389170000048
中的每个值均为0到1,其意义表示第j个通道对第i个通道影响的程度;
(3)为了进一步说明特征图E对原始特征图Z的影响,需要计算出Z′,首先讲矩阵E进行矩阵的转置操作,其计算公式为:
Z’=ET*Z
将Z’进行维度变换还原为3维的输出:
Figure BDA0002860389170000051
其中函数freshape()主要对维度进行了展开的操作,最后特征图的输出为
Figure BDA0002860389170000052
计算公为O=Z”+xout
优选地,预测结果输出包括以下步骤:
对于图片中的每个特征点生成3个预测框,设计整个网络模为是四层输出,因此在网络训练之前需要对数据集利用聚类算法对所有的bbox进行聚类生成12个预置框,坐标的回归主要根据预测种类的数量生成了模型的每一层最后的输出尺寸大小[(3×(NumClass+5))×H ×W],其中NumClass是预测的种类个数,训练中为了适应当前数据集中的类别,对于类别预测我们采用了如下损失函数,其损失值losscoord计算公式为:
lossc=-∑a′*lna
其中y表示标签中的真实值,a表示模型预测的类别输出值,坐标损失函数损失值losscoord计算公式:
losscoord=y′*log(y)-(1-y′)*log(1-y)
其中y′表示标签中真实的坐标值,y表示模型预测坐标的输出值。
本发明具有如下有益效果:
采用了空间关键信息提取模块和通道信息整合挖掘模块提高了对行为识别的准确率,适应在复杂场景下的可以同时识别多种行为。
将目标检测网络中的边框回归的思想与视频分类相结合增加了模型的泛化能力,提高了对不同场景下识别的鲁棒性。
附图说明
图1端到端的视频动作检测定位系统的结构图。
具体实施方式
下面结合附图和具体实施例对本发明的具体实施方式做进一步说明:
结合图1,一种端到端的视频动作检测定位系统,包括视频解码模块和数据重组模块,定位过程包括以下步骤:
(1)视频解码;视频解码模块将网络视频流通过网络线路输入到视频解码单元,通过 SOC片上系统将视频流解码为一帧帧的RGB图像,然后输入到数据重组模块,进行数据的预处理操作。
(2)数据重组;设定数据采样频率,读取固定长度的视频片段,将数据重新组合为可输入数据模式输入到下一模块。
(3)对输入数据进行计算操作。
(4)空间关键信息提取;将时空信息解析单元模块提取的特征信息进行处理,使网络提取的特征更能关注图像中更加有用空间信息,滤除背景信息,对图像中动作发生的位置特征进行增强。
(5)通道信息整合挖掘;将时空信息解析单元模块得到的数据特征进行通道级别的信息整合,挖掘运动信息,关注帧之间运动信息挖掘,关注行为动作发生的类型。
(6)预测结果输出;采用1x1卷积输出对应的通道数量的特征图。
数据重组具体的过程为:
预测开始取固定长度n的视频片段处理后组成单元数据Ydst输入到时空信息解析单元模块,n等于8或者16,输入到时空信息解析单元模块之前需要将单元数据Ydst每张RGB图像的尺寸调整成固定尺寸大小;
假定源视频片段单张图片用Xsrc表示,输入到时空信息解析单元模块的固定尺寸的图片用Xdst表示,尺寸缩放后对于Xdst中的每个像素的计算方法如下:
(1)对于Xdst中的每个像素,设置坐标通过反向变换得到的浮点坐标为(i+u,j+v),其中i、j均为浮点坐标的整数部分,u、v为浮点坐标的小数部分,是取值[0,1)区间的浮点数;
(2)这个像素值f(i+u,j+v)可由原来图像中坐标为(i,j)、(i+1,j)、(i,j+1)、(i+1,j+1) 所对应的周围四个像素值决定,即
f(i+u,,j+v)=(1-u)(1-v)f(i,j)+(1-u)vf(i,j+1)+u(1-v)f(i+1,j)+uvf(i+1,j+1)
其中f(i,j)表示源图像(i,j)处的像素值。
优选地,对输入数据进行计算操作包括以下过程:
(1)将视频单元数据Ydst输入到时空信息解析单元模块中,将一系列的RGB图像帧RCxDxHxW输入到该模块,C=3代表每一张RGB图像帧的通道数,D表示每组单元数据Ydst的图片的数量,最大为16,H和W代表该组单元数据Ydst的每张图片的宽和高;时空信息解析单元模块输出特征图
Figure BDA0002860389170000071
C1、H1、W1分别表示输出特征图的通道数、宽和高,为了适应空间关键信息提取模块的输出维度,强制D′=1,然后通过维度变换将时空信息解析单元模块输出的四维数据变换为三维数据,输出的特征图表示为
Figure BDA0002860389170000072
(2)采用增加空间关键信息提取模块,使网络更加关注行为发生的对象的特征,该模块的输入为
Figure BDA0002860389170000073
输出特征图为
Figure BDA0002860389170000074
空间关键信息提取包括以下过程:
(1)设定时空信息解析单元模块输出特征图尺寸为
Figure BDA0002860389170000075
将特征图输入到空间关键信息提取模块获取Rf1,Rf2
Figure BDA0002860389170000076
Figure BDA0002860389170000077
其中f1()表示对特征矩阵均值化操作,f2()表示对矩阵的特征抽取操作;
(2)将Rf1和Rf2按照第一个维度进行相加的处理,获取合并后的空间特征信息
Rf=Rf1+Rf2
(3)将Rf进行空间特征融合,将Rf输入到融合特征归一化单元,该单元可以将空间特征增强化,对增强化后的特征进行归一化处理后计算效率更加高效:
x=ffuse(Rf)
Xout=fnormalize(X)
X表示融合后的特征图,融合函数ffuse()将特征Rf的信息整合,通过归一化函数fnormalize()将增强后的特征归一化到0~1之间。
通道信息整合挖掘包括以下步骤:
(1)空间关键信息提取模块得到的数据特征表示为
Figure BDA0002860389170000079
时空信息解析单元模块特征表示为
Figure BDA0002860389170000081
为了减少通道信息整合挖掘模块的信息损失将Xout
Figure BDA0002860389170000082
输入后按通道合并特征信息,输出特征图Y;
(2)用通道压缩单元将特征图Y向量化为Z,函数fvector()表示向量化函数,特征图Z表示对特征图的向量化符号表示,其中C3表示通道标量的相加和,其数值C3=C1+C2,N表示对每张特征图向量化的数值表示,其数值为N=H1*W1
Figure BDA0002860389170000083
通过将特征向量Z与Z的转置特征矩阵ZT,T表示矩阵的转置,生成特征矩阵,该矩阵中的每个元素均为Z与ZT的内积的值,其中矩阵I的生成维度为C3*C3,矩阵I生成计算的公式为:
Figure BDA0002860389170000084
其中参数i,j是对矩阵Z行列的索引表示,n从零开始计算最大值为N,对该矩阵进行如下运算操作,生成特征图
Figure BDA0002860389170000085
矩阵E的计算公式的公式为:
Figure BDA0002860389170000086
特征图
Figure BDA0002860389170000087
中的每个值均为0到1,其意义表示第j个通道对第i个通道影响的程度;
(3)为了进一步说明特征图E对原始特征图Z的影响,需要计算出Z′,首先讲矩阵E进行矩阵的转置操作,其计算公式为:
Z’=ET*Z
将Z’进行维度变换还原为3维的输出:
Figure BDA0002860389170000088
其中函数freshape()主要对维度进行了展开的操作,最后特征图的输出为
Figure BDA0002860389170000089
计算公为O=Z”+xout
预测结果输出包括以下步骤:
对于图片中的每个特征点生成3个预测框,设计整个网络模为是四层输出,因此在网络训练之前需要对数据集利用聚类算法对所有的bbox进行聚类生成12个预置框,坐标的回归主要根据预测种类的数量生成了模型的每一层最后的输出尺寸大小[(3×(NumClass+5))×H ×W],其中NumClass是预测的种类个数,训练中为了适应当前数据集中的类别,对于类别预测我们采用了如下损失函数,其损失值losscoord计算公式为:
lossc=-∑a′*lna
其中y表示标签中的真实值,a表示模型预测的类别输出值,坐标损失函数损失值losscoord计算公式:
losscoord=-y′*log(y)-(1-y′)*log(1-y)
其中y′表示标签中真实的坐标值,y表示模型预测坐标的输出值。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。

Claims (6)

1.一种端到端的视频动作检测定位系统,包括视频解码模块和数据重组模块,其特征在于,定位过程包括以下步骤:
(1)视频解码;视频解码模块将网络视频流通过网络线路输入到视频解码单元,通过SOC片上系统将视频流解码为一帧帧的RGB图像,然后输入到数据重组模块,进行数据的预处理操作;
(2)数据重组;设定数据采样频率,读取固定长度的步骤(1)中视频解码得到的视频帧数据片段,将数据重新组合为可输入数据模式输入到步骤(3)的模块;
(3)对步骤(2)中重新组合后的数据进行计算操作;
(4)空间关键信息提取;将时空信息解析单元模块提取的步骤(3)中的数据进行处理,使网络提取的特征更能关注图像中更加有用空间信息,滤除背景信息,对图像中动作发生的位置特征进行增强;
(5)通道信息整合挖掘;将时空信息解析单元模块得到的步骤(4)的数据特征进行通道级别的信息整合,挖掘运动信息,关注帧之间运动信息挖掘,关注行为动作发生的类型;
(6)预测结果输出;采用1x1卷积输出步骤(5)处理后的数据的通道数量的特征图。
2.如权利要求1所述的一种端到端的视频动作检测定位系统,其特征在于,数据重组具体的过程为:
预测开始取固定长度n的视频片段处理后组成单元数据Ydst输入到时空信息解析单元模块,n等于8或者16,输入到时空信息解析单元模块之前需要将单元数据Ydst每张RGB图像的尺寸调整成固定尺寸大小;
假定源视频片段单张图片用Xsrc表示,输入到时空信息解析单元模块的固定尺寸的图片用Xdst表示,尺寸缩放后对于Xdst中的每个像素的计算方法如下:
(1)对于Xdst中的每个像素,设置坐标通过反向变换得到的浮点坐标为(i+u,j+v),其中i、j均为浮点坐标的整数部分,u、v为浮点坐标的小数部分,是取值[0,1)区间的浮点数;
(2)这个像素值f(i+u,j+v)可由原来图像中坐标为(i,j)、(i+1,j)、(i,j+1)、(i+1,j+1)所对应的周围四个像素值决定,即
f(i+u,j+v)=(1-u)(1-v)f(i,j)+(1-u)vf(i,j+1)+u(1-v)f(i+1,j)+uvf(i+1,j+1)
其中f(i,j)表示源图像(i,j)处的像素值。
3.如权利要求1所述的一种端到端的视频动作检测定位系统,其特征在于,对输入数据进行计算操作包括以下过程:
(1)将视频单元数据Ydst输入到时空信息解析单元模块中,将一系列的RGB图像帧RC ×D×H×W输入到该模块,C=3代表每一张RGB图像帧的通道数,D表示每组单元数据Ydst的图片的数量,最大为16,H和W代表该组单元数据Ydst的每张图片的宽和高;时空信息解析单元模块输出特征图
Figure FDA0003623028910000021
C1、H1、W1分别表示输出特征图的通道数、宽和高,为了适应空间关键信息提取模块的输出维度,强制D′=1,然后通过维度变换将时空信息解析单元模块输出的四维数据变换为三维数据,输出的特征图表示为
Figure FDA0003623028910000022
(2)采用增加空间关键信息提取模块,使网络更加关注行为发生的对象的特征,该模块的输入为
Figure FDA0003623028910000023
输出特征图为
Figure FDA0003623028910000024
4.如权利要求1所述的一种端到端的视频动作检测定位系统,其特征在于,空间关键信息提取包括以下过程:
(1)设定时空信息解析单元模块输出特征图尺寸为
Figure FDA0003623028910000025
将特征图输入到空间关键信息提取模块获取Rf1,Rf2
Figure FDA0003623028910000026
Figure FDA0003623028910000027
其中f1()表示对特征矩阵均值化操作,f2()表示对矩阵的特征抽取操作;
(2)将Rf1和Rf2按照第一个维度进行相加的处理,获取合并后的空间特征信息
Rf=Rf1+Rf2
(3)将Rf进行空间特征融合,将Rf输入到融合特征归一化单元,该单元可以将空间特征增强化,对增强化后的特征进行归一化处理后计算效率更加高效:
x=ffuse(Rf)
Xout=fnormalize (X)
X表示融合后的特征图,融合函数ffuse()将特征Rf的信息整合,通过归一化函数fnormalize()将增强后的特征归一化到0~1之间。
5.如权利要求1所述的一种端到端的视频动作检测定位系统,其特征在于,通道信息整合挖掘包括以下步骤:
(1)空间关键信息提取模块得到的数据特征表示为
Figure FDA0003623028910000031
时空信息解析单元模块特征表示为
Figure FDA0003623028910000032
为了减少通道信息整合挖掘模块的信息损失将Xout
Figure FDA0003623028910000033
输入后按通道合并特征信息,输出特征图Y;
(2)用通道压缩单元将特征图Y向量化为Z,函数fvector()表示向量化函数,特征图Z表示对特征图的向量化符号表示,其中C3表示通道标量的相加和,其数值C3=C1+C2,N表示对每张特征图向量化的数值表示,其数值为N=H1*W1
Figure FDA0003623028910000034
通过将特征向量Z与Z的转置特征矩阵ZT,T表示矩阵的转置,生成特征矩阵,该矩阵中的每个元素均为Z与ZT的内积的值,其中矩阵I的生成维度为C3*C3,矩阵I生成计算的公式为:
Figure FDA0003623028910000035
其中参数i,j是对矩阵Z行列的索引表示,n从零开始计算最大值为N,对该矩阵进行如下运算操作,生成特征图
Figure FDA0003623028910000036
矩阵E的计算公式的公式为:
Figure FDA0003623028910000037
特征图
Figure FDA0003623028910000038
中的每个值均为0到1,其意义表示第j个通道对第i个通道影响的程度;
(3)为了进一步说明特征图E对原始特征图Z的影响,需要计算出Z′,首先讲矩阵E进行矩阵的转置操作,其计算公式为:
Z′=ET*Z
将Z′进行维度变换还原为3维的输出:
Figure FDA0003623028910000041
其中函数freshape()主要对维度进行了展开的操作,最后特征图的输出为
Figure FDA0003623028910000042
计算公为O=Z*+xout
6.如权利要求1所述的一种端到端的视频动作检测定位系统,其特征在于,预测结果输出包括以下步骤:
对于图片中的每个特征点生成3个预测框,设计整个网络模为是四层输出,因此在网络训练之前需要对数据集利用聚类算法对所有的bbox进行聚类生成12个预置框,坐标的回归主要根据预测种类的数量生成了模型的每一层最后的输出尺寸大小[(3×(NumClass+5))×H×W],其中NumClass是预测的种类个数,训练中为了适应当前数据集中的类别,对于类别预测我们采用了如下损失函数,其损失值lossc计算公式为:
lossc=-∑a′*lna
其中y表示标签中的真实值,a表示模型预测的类别输出值,坐标损失函数损失值losscoord计算公式:
losscoord=-y′*log(y)-(1-y′)*log(1-y)
其中y′表示标签中真实的坐标值,y表示模型预测坐标的输出值。
CN202011560837.3A 2020-12-25 2020-12-25 一种端到端的视频动作检测定位系统 Active CN113158723B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011560837.3A CN113158723B (zh) 2020-12-25 2020-12-25 一种端到端的视频动作检测定位系统
PCT/CN2021/116771 WO2022134655A1 (zh) 2020-12-25 2021-09-06 一种端到端的视频动作检测定位系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011560837.3A CN113158723B (zh) 2020-12-25 2020-12-25 一种端到端的视频动作检测定位系统

Publications (2)

Publication Number Publication Date
CN113158723A CN113158723A (zh) 2021-07-23
CN113158723B true CN113158723B (zh) 2022-06-07

Family

ID=76878004

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011560837.3A Active CN113158723B (zh) 2020-12-25 2020-12-25 一种端到端的视频动作检测定位系统

Country Status (2)

Country Link
CN (1) CN113158723B (zh)
WO (1) WO2022134655A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113158723B (zh) * 2020-12-25 2022-06-07 神思电子技术股份有限公司 一种端到端的视频动作检测定位系统
CN115719508A (zh) * 2021-08-23 2023-02-28 香港大学 基于端到端框架的视频动作检测方法及电子设备
CN115019239A (zh) * 2022-07-04 2022-09-06 福州大学 一种基于时空交叉注意力的实时动作定位方法
CN115131710A (zh) * 2022-07-05 2022-09-30 福州大学 基于多尺度特征融合注意力的实时动作检测方法
CN115580564B (zh) * 2022-11-09 2023-04-18 深圳桥通物联科技有限公司 一种物联网通信网关动态调用装置
CN116189281B (zh) * 2022-12-13 2024-04-02 北京交通大学 基于时空自适应融合的端到端人体行为分类方法及系统
CN116030189B (zh) * 2022-12-20 2023-07-04 中国科学院空天信息创新研究院 一种基于单视角遥感图像的目标三维重建方法
CN116503406B (zh) * 2023-06-28 2023-09-19 中铁水利信息科技有限公司 基于大数据的水利工程信息管理系统
CN117788302B (zh) * 2024-02-26 2024-05-14 山东全维地信科技有限公司 一种测绘图形处理系统
CN117876939B (zh) * 2024-03-11 2024-05-24 南京信息工程大学 一种基于时空特征增强的实时时空行为检测方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3065107A1 (en) * 2015-03-04 2016-09-07 Dolby Laboratories Licensing Corporation Coherent motion estimation for stereoscopic video
CN111079646A (zh) * 2019-12-16 2020-04-28 中山大学 基于深度学习的弱监督视频时序动作定位的方法及系统
CN111259779A (zh) * 2020-01-13 2020-06-09 南京大学 一种基于中心点轨迹预测的视频动作检测方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664844A (zh) * 2017-03-28 2018-10-16 爱唯秀股份有限公司 卷积深度神经网络的图像目标语义识别及追踪
CN108830252B (zh) * 2018-06-26 2021-09-10 哈尔滨工业大学 一种融合全局时空特征的卷积神经网络人体动作识别方法
CN109447014A (zh) * 2018-11-07 2019-03-08 东南大学-无锡集成电路技术研究所 一种基于双通道卷积神经网络的视频在线行为检测方法
CN110032942B (zh) * 2019-03-15 2021-10-08 中山大学 基于时域分段及特征差分的动作识别方法
CN110059598B (zh) * 2019-04-08 2021-07-09 南京邮电大学 基于姿态关节点的长时程快慢网络融合的行为识别方法
CN113158723B (zh) * 2020-12-25 2022-06-07 神思电子技术股份有限公司 一种端到端的视频动作检测定位系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3065107A1 (en) * 2015-03-04 2016-09-07 Dolby Laboratories Licensing Corporation Coherent motion estimation for stereoscopic video
CN111079646A (zh) * 2019-12-16 2020-04-28 中山大学 基于深度学习的弱监督视频时序动作定位的方法及系统
CN111259779A (zh) * 2020-01-13 2020-06-09 南京大学 一种基于中心点轨迹预测的视频动作检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Spatio-Temporal Channel Correlation Networks for Action Classification》;Ali Diba et al;;《SpringerLink》;20181231;第1-16页; *
《基于时空信息融合的时序动作定位》;王倩 等;;《智能计算机与应用》;20200630;第10卷(第6期);第31-36页; *

Also Published As

Publication number Publication date
CN113158723A (zh) 2021-07-23
WO2022134655A1 (zh) 2022-06-30

Similar Documents

Publication Publication Date Title
CN113158723B (zh) 一种端到端的视频动作检测定位系统
Sabir et al. Recurrent convolutional strategies for face manipulation detection in videos
CN110097568B (zh) 一种基于时空双分支网络的视频对象检测与分割方法
Giraldo et al. Graph moving object segmentation
Ramaswamy What makes the sound?: A dual-modality interacting network for audio-visual event localization
CN111814719A (zh) 一种基于3d时空图卷积的骨架行为识别方法
Chenarlogh et al. A multi-view human action recognition system in limited data case using multi-stream CNN
CN112434608B (zh) 一种基于双流结合网络的人体行为识别方法及系统
CN112990122B (zh) 一种基于视频基础单元分析的复杂行为识别方法
CN111488805A (zh) 一种基于显著性特征提取的视频行为识别方法
CN116311525A (zh) 一种基于跨模态融合的视频行为识别方法
Liu et al. Bi-directional modality fusion network for audio-visual event localization
Zhou Video expression recognition method based on spatiotemporal recurrent neural network and feature fusion
Pavlov et al. Application for video analysis based on machine learning and computer vision algorithms
Lal et al. Face recognition using deep learning xception cnn method
Kikuchi et al. Watch, listen once, and sync: Audio-visual synchronization with multi-modal regression CNN
Hong et al. Characterizing subtle facial movements via Riemannian manifold
CN116958786A (zh) 一种基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法
CN113033283A (zh) 一种改进的视频分类系统
Khryashchev et al. Audience analysis system on the basis of face detection, tracking and classification techniques
Jin et al. A region generation based model for occluded face detection
Sha et al. An improved two-stream CNN method for abnormal behavior detection
CN114782995A (zh) 一种基于自注意力机制的人交互行为检测方法
CN113723204A (zh) 一种基于双向时间卷积网络的视频序列人脸表情识别算法
Verma et al. Intensifying security with smart video surveillance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant