CN106096568B - 一种基于cnn和卷积lstm网络的行人再识别方法 - Google Patents
一种基于cnn和卷积lstm网络的行人再识别方法 Download PDFInfo
- Publication number
- CN106096568B CN106096568B CN201610450898.1A CN201610450898A CN106096568B CN 106096568 B CN106096568 B CN 106096568B CN 201610450898 A CN201610450898 A CN 201610450898A CN 106096568 B CN106096568 B CN 106096568B
- Authority
- CN
- China
- Prior art keywords
- lstm
- cnn
- network
- feature
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Abstract
本发明提出了一种基于CNN和卷积LSTM网络的行人再识别方法,属于图像处理技术领域。首先用一组CNN提取编码在帧中的空间信息,再利用卷积LSTM构成的编码‑解码框架,得到帧级别的深度时空外观描述器,最后使用Fisher向量编码,使描述器可以描述视频级别的特征。通过这种方式可以提取一种特征表示,这一特征表示能将视频当作排列好的序列,同时保持其空间信息,建立精确的模型。
Description
技术领域
本发明涉及视频图像处理领域,特别涉及一种基于CNN和卷积LSTM网络的行人再识别方法。
背景技术
行人再识别是指,从无重叠的摄像机视图中识别单个行人,即确认不同位置的摄像机在不同时间捕捉到的是否为同一个行人。这一问题在视频监控领域有重要的现实价值。
通常通过匹配空间外观特征的方式进行行人再识别。匹配的方法包括:基于一对单帧的行人图像,匹配它们的颜色和强度梯度直方图。但是,单帧的外观特征本质上很容易改变,因为光照,位置,姿势和视角不同都会导致人体外观的巨大变化。此外,匹配从不同人体部位提取出的空间外观特征本质上是空间校正的一种形式,而在一个动作的不同阶段,人体部位也会呈现不同的外观。基于多帧行人图像的算法虽然提高了匹配的稳定性,但依然只是运用了一部分视频中的信息,它们的效果取决于识别对应帧的机制是否表现良好,即是否能识别不同时间,地点和视角的视频的对应帧。
基于视频的行人再识别提供了一种更加自然的在监控系统下识别行人的方法。监控系统中很容易捕捉行人的视频,与视频中的一部分图像相比,完整的视频蕴含了更丰富的信息。在以往的研究中,时空信息并没有很好地运用于行人再识别。传统的基于视频解决行人再识别问题的方式为:选取最能表示特征的帧或是手动调整时间序列,而后进行低等级的特征提取,这种方法的最大缺点在于,它不能精确地从视频序列中学习特征。此外,该方法在提取低水平特征中表现出色,但是这些特征与行人外观的关系并不紧密,尤其难于区分不同人的外观特征。
发明内容
本发明针对现有技术存在的不足,提出一种基于CNN和卷积LSTM网络的行人再识别方法,既能提升行人再识别的准确度,又能应用于多种复杂的场景中。
本发明通过以下技术方案实现:
一种基于CNN和卷积LSTM网络的行人再识别方法,其特征在于:所述网络使用CNN提取空间信息,用卷积LSTM网络构成的编码-解码网络,提取帧级别的深度时空外观描述器,使用Fisher向量编码,使描述器可以描述视频级别的特征;具体包括如下步骤:
步骤A:采集视频图像。
步骤B:视频图像预处理,提取步行周期。
步骤C:训练CNN。
步骤D:训练卷积LSTM网络。
步骤E:提取CNN特征:
CNN结构包含5个卷积层和2个全连接层。卷积层用conv表示,全连接层用fc表示,下标为该层在整个网络中的位置。。卷积层的卷积核分别设置为:96(11×11),256(5×5),384(3×3),384(3×3)和256(3×3)。将提取的步行周期送入完成训练的CNN,从conv5输出CNN特征。
步骤F:编码和解码:
LSTM编码-解码框架包含一个编码网络和一个解码网络,每个网络各有两个的卷积LSTM层。在conv5的最后,每个输入序列都能用帧级别的256个特征映射表示。将CNN特征送入编码网络,编码LSTM用隐藏状态张量进行编码,将输入序列压缩为固定长度的表示。复制编码网络的最后状态和细胞输出,作为解码网络的初始状态,进行解码,解码LSTM将编码网络得到的表示展开。
步骤G:视频级别特征提取:
将LSTM解码后的特征图展开为向量,使用Fisher向量编码,用Θ={(μk,σk,πk),k=1,2,…,C}表示具有C个组成部分的高斯混合模型(GMM),μk,σk和πk分别为帧级别下第c个组成部分的均值、方差和先验参数,上述组成部分从步骤F中LSTM重新构建的帧级别的描述符X=[x1,…,xt]中得到。利用LSTM网络从视频中提取的深度描述符,计算从第c个组成部分中获取的均值和方差的偏移向量uk和vk。Fisher向量由所有C个组成部分的uk和vk相连接而构成,可以描述视频级别的特征,为后续各类处理提供条件。
步骤H:特征比对:
将两个相机的视频提取的特征进行比对,判断视频中是否同一行人。
本发明采用的技术方案与现有的技术相比,有如下技术效果:
1)提出用于行人再识别的深度时空视频表示,提取视频中更丰富的信息。
2)使用一种用于解决基于视频的行人再识别问题的卷积LSTM网络,可以表示复杂的外观和动作变化。
3)提取的特征与行人外观的关系紧密,有助于区分不同人的外观特征。
4)本发明创新性地设计“CNN+卷积LSTM”结构,将步骤E和步骤F配合起来,从而达到提取行人视频中空间和时间特征的目的。
附图说明
图1是一种基于CNN和卷积LSTM网络的行人再识别方法的整体流程图
图2是一种基于CNN和卷积LSTM网络的行人再识别方法的网络结构图
图3是iLIDS-VID中不同相机视图下相同行人的对比图
图4是来自iLIDS-VID的输入序列(上图)与一种基于CNN和卷积LSTM网络的行人再识别方法的重构序列(下图)的对比图
具体实施方式
本发明方法方案:给出一系列视频中连续的行人图像,首先利用CNN中帧级别的卷积层提取其CNN特征,以此捕捉外观中复杂的变化,再将提取出的特征送到卷积LSTM编码-解码框架中,其中编码框架利用局部自适应核捕捉一个序列中行人的动作,从而将输入序列编码为隐藏表示,而后,利用解码器将编码框架输出的隐藏表示解码为一个序列。经过LSTM的编码和解码,得到帧级别的深度时空外观描述器。最后使用Fisher向量编码,使描述器可以描述视频级别的特征。
为使本发明中提出的基于CNN和卷积LSTM网络的行人再识别方法更加清楚,下面以本发明在iLID-VID数据集上的使用为例,结合附图和具体实施方式对本发明进行进一步的说明。
图1为本发明的整体流程图,包括视频采集、预处理、训练CNN、训练LSTM网络、提取CNN特征、编码解码、视频级别特征和特征比对提取八个部分。
步骤A.视频采集:从iLID-VID数据集中采集视频。该数据集包含从300个随机采样的行人中提取的600个视频序列,这些视频序列建立在两个无重叠的相机视图的基础上,利用i-LIDS多镜头摄像机追踪场景进行拍摄。
步骤B.预处理:使用流能剖面(FEP)信号识别一个步行周期。通过检测视频序列的FEP的局部极小值或极大值,并在极大值或极小值附近提取有序的数帧,得到一个完整的步行周期。
步骤C.训练CNN:分为预训练和调整两阶段。
预训练阶段:使用ImageNet数据集预训练CNN。CNN结构包含5个卷积层和2个全连接层。卷积层用conv表示,全连接层用fc表示,下标为该层在整个网络中的位置。每一层利用整流线性单元(ReLU)作为非线性激活函数。移除两个全连接层,在conv5和fc6之间引进一个差值层。预训练时采用随机梯度下降法(该技术已属于现有技术)。
调整阶段:完成预训练后,用行人再识别数据集中的视频训练数据对参数进行调整。用一对来自无重叠相机视图的视频序列Q和作为输入,Q和拍摄的画面来自不同的相机,Q和是否为同一个人的视频序列是已知的。卷积层实施协同卷积,在两个视图间共享权值。输入序列经过conv5后,成为帧级别的特征映射。用差值层计算特征差异,特征差异经过全连接层fc6和fc7以及用于分类的softmax层(softmax层是现有技术),得到判断视频序列是否描述同一个人的二值向量,与真值比较,调整网络参数。
步骤D.训练卷积LSTM网络:将每个视频序列分段,穿过LSTM编码-解码框架,重新构建特征(编码LSTM),随后构造与输入序列相同数目的序列(解码LSTM),利用交叉熵损失计算预测帧和真实帧的差异,使用反向传播法和RMSProp训练,令交叉熵损失最小。
步骤E.提取CNN特征:将步骤B中提取的步行周期送入完成步骤C训练的CNN,从conv5输出CNN特征,得到帧级别的特征映射。
步骤F.编码和解码:将步骤E中提取的CNN特征送入完成步骤D训练的两层卷积LSTM编码网络,复制编码网络的最后状态和细胞输出,作为步骤D训练的两层卷积LSTM解码网络的初始状态,进行解码,解码LSTM将编码网络得到的表示重新展开为特征图。
步骤G.视频级别特征提取:将步骤F解码得到的特征图展开成向量,再用Fisher向量编码,进行视频级别的特征提取。
步骤H.特征比对:用计算余弦相似度的方式,比较两段视频经过上述步骤得到的一组特征向量。当特征向量的余弦相似度大于阈值时,认为不是同一个人,当余弦相似度小于或等于阈值时,认为是同一个人。
所述步骤D中,卷积LSTM的隐藏状态用以下等式计算:
it=σ(Wxi*Xt+Whi*Ht-1+Wci℃t-1+bi)
ft=σ(Wxf*Xt+Whf*Ht-1+Wcf℃t-1+bf)
Ct=ft℃t-1+it°tanh(Wxc*Xt+Whc*Ht-1+bc)
ot=σ(Wxo*Xt+Who*Ht-1+Wco℃t-1+bo)
Ht=ot°tanh(Ct)
上述公式中符号的含义如下:
X1,X2,…,Xt为卷积LSTM的输入,C1,…,Ct为细胞输出,H1,…,Ht为隐藏状态,it,ft,ot分别为输入门,遗忘门,输出门,它们的下标表示时间,即位于第几帧。Wxi,Whi,Wci,Wxf,Whf,Wcf,Wxc,Whc,Wxo,Who,Wco为步骤D训练得到的权值,bi,bf,bc,bo为步骤D训练得到的偏置。
它们都是三维张量。*表示卷积滤波,°表示Hadamard内积,σ表示sigmoid函数(sigmoid函数也是现有技术)。
所述步骤G中,从第c个组成部分中获取的均值和方差偏移向量的计算方法为:
上述公式中符号的含义如下:
Θ={(μk,σk,πk),k=1,2,…,C}表示具有C个组成部分的高斯混合模型(GMM),μk,σk和πk分别为帧级别下第c个组成部分的均值、方差和先验参数,xi为步骤F中LSTM重新构建的帧级别的描述符,N为帧数。uk和vk为第c个组成部分中获取的均值和方差的偏移向量。qki是后验概率。
Claims (4)
1.一种基于CNN和卷积LSTM网络的行人再识别方法,其特征在于:获得一系列视频中连续的行人图像,首先利用CNN中帧级别的卷积层提取其CNN特征,以此捕捉外观中复杂的变化,再将提取出的特征送到卷积LSTM编码-解码框架中,其中编码框架利用局部自适应核捕捉一个序列中行人的动作,从而将输入序列编码为隐藏表示,而后,利用解码器将编码框架输出的隐藏表示解码为一个序列;经过LSTM的编码和解码,得到帧级别的深度时空外观描述器;最后使用Fisher向量编码,使描述器描述视频级别的特征;
所述网络使用CNN提取空间信息,用卷积LSTM网络构成的编码-解码网络,提取帧级别的深度时空外观描述器,使用Fisher向量编码,使描述器描述视频级别的特征;
具体包括如下步骤:
步骤A:采集视频图像;
步骤B:视频图像预处理,提取步行周期;
步骤C:训练CNN;分为预训练和调整两阶段,
预训练阶段:使用ImageNet数据集预训练CNN;CNN结构包含5个卷积层和2个全连接层;卷积层用conv表示,全连接层用fc表示,下标为该层在整个网络中的位置;每一层利用整流线性单元作为非线性激活函数;移除两个全连接层,在conv5和fc6之间引进一个差值层;预训练时采用随机梯度下降法;
调整阶段:完成预训练后,用行人再识别数据集中的视频训练数据对参数进行调整;用一对来自无重叠相机视图的视频序列Q和作为输入,Q和拍摄的画面来自不同的相机,Q和是否为同一个人的视频序列是已知的;卷积层实施协同卷积,在两个视图间共享权值;输入序列经过conv5后,成为帧级别的特征映射;用差值层计算特征差异,特征差异经过全连接层fc6和fc7以及用于分类的softmax层,得到判断视频序列Q、作是否描述同一个人的二值向量,与真值比较,调整网络参数;
步骤D:训练卷积LSTM网络;
将每个视频序列分段,穿过LSTM编码-解码框架,重新构建特征即编码LSTM,随后构造与输入序列相同数目的序列即解码LSTM,利用交叉熵损失计算预测帧和真实帧的差异,使用反向传播法和RMSProp训练,令交叉熵损失最小;
所述步骤D中,卷积LSTM的隐藏状态用以下等式计算:
上述公式中符号的含义如下:
X1,X2,…,Xt为卷积LSTM的输入,C1,…,Ct为细胞输出,H1,…,Ht为隐藏状态,it,ft,ot分别为输入门,遗忘门,输出门,它们的下标表示时间,即位于第几帧;Wxi,Whi,Wci,Wxf,Whf,Wcf,Wxc,Whc,Wxo,Who,Wco为步骤D训练得到的权值,bi,bf,bc,bo为步骤D训练得到的偏置;
它们都是三维张量;*表示卷积滤波,表示Hadamard内积,σ表示sigmoid函数;
步骤E:提取CNN特征:
将提取的步行周期送入完成训练的CNN,从conv5输出CNN特征,每个输入序列都能用帧级别的256个特征映射表示;
步骤F:编码和解码:
将CNN特征送入编码网络,编码LSTM用隐藏状态张量进行编码,将输入序列压缩为固定长度的表示;复制编码网络的最后状态和细胞输出,作为解码网络的初始状态,进行解码,解码LSTM将编码网络得到的表示展开;
步骤G:视频级别特征提取:
将LSTM解码后的特征图展开为向量,使用Fisher向量编码,用Θ={(μk,σk,πk),k=1,2,…,C}表示具有C个组成部分的高斯混合模型(GMM),μk,σk和πk分别为帧级别下第c个组成部分的均值、方差和先验参数,上述组成部分从LSTM重新构建的帧级别的描述符中得到;利用LSTM网络从视频中提取的深度描述符,计算从第c个组成部分中获取的均值和方差的偏移向量uk和vk;Fisher向量由所有C个组成部分的uk和vk相连接而构成,可以描述视频级别的特征;
所述步骤G中,从第c个组成部分中获取的均值和方差偏移向量的计算方法为:
上述公式中符号的含义如下:
Θ={(μk,σk,πk),k=1,2,…,C}表示具有C个组成部分的高斯混合模型(GMM),μk,σk和πk分别为帧级别下第c个组成部分的均值、方差和先验参数,xi为步骤F中LSTM重新构建的帧级别的描述符,N为帧数;uk和vk为第c个组成部分中获取的均值和方差的偏移向量;qki是后验概率;步骤H:特征比对:
将两个相机的视频提取的步骤G获得的特征进行比对,判断视频中是否同一行人。
2.根据权利要求1所述的一种基于CNN和卷积LSTM网络的行人再识别方法,其特征在于:所述步骤C和E中,CNN结构包含5个卷积层和2个全连接层;卷积层的卷积核分别设置为:96(11×11),256(5×5),384(3×3),384(3×3)和256(3×3)。
3.根据权利要求1所述的一种基于CNN和卷积LSTM网络的行人再识别方法,其特征在于:所述步骤D和F中,LSTM编码-解码框架包含一个编码网络和一个解码网络,每个网络各有两个的卷积LSTM层。
4.根据权利要求1所述的一种基于CNN和卷积LSTM网络的行人再识别方法,其特征在于:步骤G中,使用Fisher向量编码,描述视频级别的特征,为后续各类处理提供条件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610450898.1A CN106096568B (zh) | 2016-06-21 | 2016-06-21 | 一种基于cnn和卷积lstm网络的行人再识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610450898.1A CN106096568B (zh) | 2016-06-21 | 2016-06-21 | 一种基于cnn和卷积lstm网络的行人再识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106096568A CN106096568A (zh) | 2016-11-09 |
CN106096568B true CN106096568B (zh) | 2019-06-11 |
Family
ID=57238437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610450898.1A Active CN106096568B (zh) | 2016-06-21 | 2016-06-21 | 一种基于cnn和卷积lstm网络的行人再识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106096568B (zh) |
Families Citing this family (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108073941A (zh) * | 2016-11-17 | 2018-05-25 | 江南大学 | 一种基于深度学习的图像语义生成方法 |
CN106782602B (zh) * | 2016-12-01 | 2020-03-17 | 南京邮电大学 | 基于深度神经网络的语音情感识别方法 |
CN106778571B (zh) * | 2016-12-05 | 2020-03-27 | 天津大学 | 一种基于深度神经网络的数字视频特征提取方法 |
FR3059804B1 (fr) * | 2016-12-07 | 2019-08-02 | Idemia Identity And Security | Systeme de traitement d'images |
CN106709461B (zh) * | 2016-12-28 | 2019-09-17 | 中国科学院深圳先进技术研究院 | 基于视频的行为识别方法及装置 |
CN106682697B (zh) * | 2016-12-29 | 2020-04-14 | 华中科技大学 | 一种基于卷积神经网络的端到端物体检测方法 |
CN106875007A (zh) * | 2017-01-25 | 2017-06-20 | 上海交通大学 | 用于语音欺骗检测的基于卷积长短期记忆端对端深度神经网络 |
CN108229521B (zh) * | 2017-02-23 | 2020-09-15 | 北京市商汤科技开发有限公司 | 对象识别网络的训练方法、装置、系统及其应用 |
CN106886516A (zh) * | 2017-02-27 | 2017-06-23 | 竹间智能科技(上海)有限公司 | 自动识别语句关系和实体的方法及装置 |
CN106971154A (zh) * | 2017-03-16 | 2017-07-21 | 天津大学 | 基于长短记忆型递归神经网络的行人属性预测方法 |
CN108664849A (zh) * | 2017-03-30 | 2018-10-16 | 富士通株式会社 | 视频中事件的检测装置、方法以及图像处理设备 |
US10096125B1 (en) * | 2017-04-07 | 2018-10-09 | Adobe Systems Incorporated | Forecasting multiple poses based on a graphical image |
CN107145900B (zh) * | 2017-04-24 | 2019-07-26 | 清华大学 | 基于一致性约束特征学习的行人再识别方法 |
CN108875756B (zh) * | 2017-05-08 | 2021-01-05 | 深圳荆虹科技有限公司 | 一种视频的行为类别获取方法及装置 |
US10445871B2 (en) | 2017-05-22 | 2019-10-15 | General Electric Company | Image analysis neural network systems |
CN107220611B (zh) * | 2017-05-23 | 2020-02-11 | 上海交通大学 | 一种基于深度神经网络的空时特征提取方法 |
CN107229707B (zh) * | 2017-05-26 | 2021-12-28 | 北京小米移动软件有限公司 | 搜索图像的方法及装置 |
CN107239445A (zh) * | 2017-05-27 | 2017-10-10 | 中国矿业大学 | 一种基于神经网络的新闻事件抽取的方法及系统 |
US10706547B2 (en) * | 2017-06-02 | 2020-07-07 | Htc Corporation | Image segmentation method and apparatus |
CN107133974B (zh) * | 2017-06-02 | 2019-08-27 | 南京大学 | 高斯背景建模与循环神经网络相结合的车型分类方法 |
US10762635B2 (en) | 2017-06-14 | 2020-09-01 | Tusimple, Inc. | System and method for actively selecting and labeling images for semantic segmentation |
CN107341462A (zh) * | 2017-06-28 | 2017-11-10 | 电子科技大学 | 一种基于注意力机制的视频分类方法 |
CN107480178B (zh) * | 2017-07-01 | 2020-07-07 | 暗物智能科技(广州)有限公司 | 一种基于图像与视频跨模态比对的行人重识别方法 |
WO2019006591A1 (zh) * | 2017-07-03 | 2019-01-10 | 广州新节奏智能科技股份有限公司 | 一种单目深度视频的二维人体骨骼点定位方法 |
KR20190007816A (ko) | 2017-07-13 | 2019-01-23 | 삼성전자주식회사 | 동영상 분류를 위한 전자 장치 및 그의 동작 방법 |
CN107562784A (zh) * | 2017-07-25 | 2018-01-09 | 同济大学 | 基于ResLCNN模型的短文本分类方法 |
CN107562792B (zh) * | 2017-07-31 | 2020-01-31 | 同济大学 | 一种基于深度学习的问答匹配方法 |
CN107529651B (zh) * | 2017-08-18 | 2020-10-16 | 北京航空航天大学 | 一种基于深度学习的城市交通客流预测方法和设备 |
US10671083B2 (en) | 2017-09-13 | 2020-06-02 | Tusimple, Inc. | Neural network architecture system for deep odometry assisted by static scene optical flow |
US10552979B2 (en) | 2017-09-13 | 2020-02-04 | TuSimple | Output of a neural network method for deep odometry assisted by static scene optical flow |
CN107818084B (zh) * | 2017-10-11 | 2021-03-09 | 北京众荟信息技术股份有限公司 | 一种融合点评配图的情感分析方法 |
CN109697391A (zh) * | 2017-10-23 | 2019-04-30 | 北京京东尚科信息技术有限公司 | 封闭场所内人物再识别的方法、系统及终端设备 |
CN107885853A (zh) * | 2017-11-14 | 2018-04-06 | 同济大学 | 一种基于深度学习的组合式文本分类方法 |
CN107918764A (zh) * | 2017-11-16 | 2018-04-17 | 百度在线网络技术(北京)有限公司 | 信息输出方法和装置 |
CN108009674A (zh) * | 2017-11-27 | 2018-05-08 | 上海师范大学 | 基于cnn和lstm融合神经网络的空气pm2.5浓度预测方法 |
CN108108674A (zh) * | 2017-12-08 | 2018-06-01 | 浙江捷尚视觉科技股份有限公司 | 一种基于关节点分析的行人再识别方法 |
CN108062562B (zh) * | 2017-12-12 | 2020-03-10 | 北京图森未来科技有限公司 | 一种物体重识别方法及装置 |
CN108009512A (zh) * | 2017-12-14 | 2018-05-08 | 西北工业大学 | 一种基于卷积神经网络特征学习的人物再识别方法 |
CN108062538A (zh) * | 2017-12-29 | 2018-05-22 | 成都智宝大数据科技有限公司 | 人脸识别方法及装置 |
CN108280406A (zh) * | 2017-12-30 | 2018-07-13 | 广州海昇计算机科技有限公司 | 一种基于分段双流模型的行为识别方法、系统及装置 |
CN108182260B (zh) * | 2018-01-03 | 2021-06-08 | 华南理工大学 | 一种基于语义选择的多变量时间序列分类方法 |
CN110096940A (zh) * | 2018-01-29 | 2019-08-06 | 西安科技大学 | 一种基于lstm网络的步态识别系统及方法 |
CN108446649A (zh) * | 2018-03-27 | 2018-08-24 | 百度在线网络技术(北京)有限公司 | 用于告警的方法及装置 |
CN108681712B (zh) * | 2018-05-17 | 2022-01-28 | 北京工业大学 | 一种融合领域知识和多阶深度特征的篮球比赛语义事件识别方法 |
CN109034376B (zh) * | 2018-07-18 | 2020-07-28 | 东北大学 | 一种基于lstm的无人机飞行状态预测方法及系统 |
CN109814523B (zh) * | 2018-12-04 | 2020-08-28 | 合肥工业大学 | 基于cnn-lstm深度学习方法及多属性时序数据的故障诊断方法 |
CN109635769B (zh) * | 2018-12-20 | 2023-06-23 | 天津天地伟业信息系统集成有限公司 | 一种用于球型摄像机的行为识别统计方法 |
CN110334743B (zh) * | 2019-06-10 | 2021-05-04 | 浙江大学 | 一种基于卷积长短时记忆网络的渐进迁移学习方法 |
CN110335344A (zh) * | 2019-06-20 | 2019-10-15 | 中国科学院自动化研究所 | 基于2d-3d注意机制神经网络模型的三维重建方法 |
CN110830435A (zh) * | 2019-08-27 | 2020-02-21 | 国家电网有限公司信息通信分公司 | 一种网络流量时空特征提取和异常检测的方法及装置 |
CN110909605B (zh) * | 2019-10-24 | 2022-04-26 | 西北工业大学 | 基于对比相关的跨模态行人重识别方法 |
CN110991515B (zh) * | 2019-11-28 | 2022-04-22 | 广西师范大学 | 一种融合视觉上下文的图像描述方法 |
CN115280377A (zh) * | 2020-03-26 | 2022-11-01 | Oppo广东移动通信有限公司 | 视频识别方法和相关产品 |
CN111967508A (zh) * | 2020-07-31 | 2020-11-20 | 复旦大学 | 基于显著图的时间序列异常点检测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104217214A (zh) * | 2014-08-21 | 2014-12-17 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于可配置卷积神经网络的rgb-d人物行为识别方法 |
CN105631415A (zh) * | 2015-12-25 | 2016-06-01 | 中通服公众信息产业股份有限公司 | 一种基于卷积神经网络的视频行人识别方法 |
-
2016
- 2016-06-21 CN CN201610450898.1A patent/CN106096568B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104217214A (zh) * | 2014-08-21 | 2014-12-17 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于可配置卷积神经网络的rgb-d人物行为识别方法 |
CN105631415A (zh) * | 2015-12-25 | 2016-06-01 | 中通服公众信息产业股份有限公司 | 一种基于卷积神经网络的视频行人识别方法 |
Non-Patent Citations (2)
Title |
---|
"Deep Recurrent Convolutional Networks for Video-based Person Re-identification:An End-to-End Approach";Lin Wu etc.;《arXiv:1606.01609v2cs.CV》;20160612;论文第1.1,3,4.1-4.2节,图1-2 |
"Modeling Spatial-Temporal Clues in a Hybird Deep Learning Framework for Video Classification";Zuxuan Wu etc.;《Proceedings of the 23rd ACM international conference on Multimed》;20151030;论文第2,3.2节,图3 |
Also Published As
Publication number | Publication date |
---|---|
CN106096568A (zh) | 2016-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106096568B (zh) | 一种基于cnn和卷积lstm网络的行人再识别方法 | |
Güera et al. | Deepfake video detection using recurrent neural networks | |
CN108830252B (zh) | 一种融合全局时空特征的卷积神经网络人体动作识别方法 | |
Liu et al. | Video-based person re-identification with accumulative motion context | |
Liu et al. | A spatio-temporal appearance representation for viceo-based pedestrian re-identification | |
CN107480178B (zh) | 一种基于图像与视频跨模态比对的行人重识别方法 | |
CN109190479A (zh) | 一种基于混合深度学习的视频序列表情识别方法 | |
Sokolova et al. | Gait recognition based on convolutional neural networks | |
CN108509880A (zh) | 一种视频人物行为语义识别方法 | |
Sheng et al. | Siamese denoising autoencoders for joints trajectories reconstruction and robust gait recognition | |
CN109858406A (zh) | 一种基于关节点信息的关键帧提取方法 | |
CN105095870A (zh) | 基于迁移学习的行人重识别方法 | |
Barnich et al. | Frontal-view gait recognition by intra-and inter-frame rectangle size distribution | |
CN108960078A (zh) | 一种基于单目视觉、从动作识别身份的方法 | |
CN109344688A (zh) | 一种基于卷积神经网络的监控视频中人的自动识别方法 | |
CN108921032B (zh) | 一种新的基于深度学习模型的视频语义提取方法 | |
CN109948721A (zh) | 一种基于视频描述的视频场景分类方法 | |
Reddy et al. | Ocularnet: deep patch-based ocular biometric recognition | |
CN109583334B (zh) | 一种基于时空关联神经网络的动作识别方法及其系统 | |
CN110765839A (zh) | 可见光面部图像的多路信息融合及人工智能情绪监测方法 | |
Yang et al. | Selective spatio-temporal aggregation based pose refinement system: Towards understanding human activities in real-world videos | |
Xiao et al. | Overview: Video recognition from handcrafted method to deep learning method | |
Song et al. | Extended global–local representation learning for video person re-identification | |
Jawed et al. | Human gait recognition system | |
CN113705384A (zh) | 一种考虑局部时空特性和全局时序线索的面部表情识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |