CN110738129A - 一种基于r-c3d网络的端到端视频时序行为检测方法 - Google Patents
一种基于r-c3d网络的端到端视频时序行为检测方法 Download PDFInfo
- Publication number
- CN110738129A CN110738129A CN201910892237.8A CN201910892237A CN110738129A CN 110738129 A CN110738129 A CN 110738129A CN 201910892237 A CN201910892237 A CN 201910892237A CN 110738129 A CN110738129 A CN 110738129A
- Authority
- CN
- China
- Prior art keywords
- layer
- network
- long
- feature
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 31
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000012360 testing method Methods 0.000 claims abstract description 8
- 230000006399 behavior Effects 0.000 claims description 47
- 238000000034 method Methods 0.000 claims description 23
- 230000007774 longterm Effects 0.000 claims description 19
- 230000004913 activation Effects 0.000 claims description 12
- 230000009471 action Effects 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 6
- 230000002123 temporal effect Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 4
- 238000013139 quantization Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 230000002776 aggregation Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000005314 correlation function Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- OFMQLVRLOGHAJI-FGHAYEPSSA-N (4r,7s,10s,13r,16s,19r)-n-[(2s,3r)-1-amino-3-hydroxy-1-oxobutan-2-yl]-19-[[(2r)-2-amino-3-phenylpropanoyl]amino]-10-[3-(diaminomethylideneamino)propyl]-7-[(1r)-1-hydroxyethyl]-16-[(4-hydroxyphenyl)methyl]-13-(1h-indol-3-ylmethyl)-3,3-dimethyl-6,9,12,15,18 Chemical compound C([C@H]1C(=O)N[C@H](CC=2C3=CC=CC=C3NC=2)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@H](C(=O)N[C@@H](C(SSC[C@@H](C(=O)N1)NC(=O)[C@H](N)CC=1C=CC=CC=1)(C)C)C(=O)N[C@@H]([C@H](O)C)C(N)=O)[C@@H](C)O)C1=CC=C(O)C=C1 OFMQLVRLOGHAJI-FGHAYEPSSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Image Analysis (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种基于R‑C3D网络的端到端视频时序行为检测方法,属于计算机视觉领域,该方法包括:对输入视频进行帧率调整和帧提取,将提取到的帧进行归一化和数据增强后,作为训练集和测试集;构建时序行为检测模型;该时序行为检测模型包括特征提取模块、长时信息编码模块和行为识别模块;其中长时信息编码模块,对提取的特征图进行编码,得到包含长时间信息的特征;将训练集和测试集输入时序行为检测模型中进行训练;将待检测视频输入训练好的时序行为检测模型进行检测,得到视频中存在的行为类别和定位信息。本发明通过设计长时信息编码网络,对提取的特征进行编码,使得网络能够获得时序动作的全局时间信息,提高了动作定位和分类的准确度。
Description
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种基于R-C3D网络的端到端视频时序行为检测方法。
背景技术
随着视频,手机,网络的普及,越来越多的视频被产生。为了能够定向的搜索视频,以及从视频中找到特定的行为,比如偷盗,打架等危险行为,以便于保证财产和人身安全。长未修剪视频中的时间动作检测越来越受到关注。该任务的目的是暂时定位感兴趣的动作发生间隔,并在长的未修剪的视频中预测动作类别。由于行动的时间持续时间变化很大,从几秒钟到几秒钟之间的分数,以及目标行为在非相关活动的背景下,行动检测任务面临诸多挑战。
目前,大多数现有方法将时间动作检测分成多个阶段,即预先计算特征,生成提议,对提议进行分类以及排名。比如PSDF方法,该方法基于iDT特征对视频提取了一种分数分布金字塔,之后再利用LSTM网络对PSDF特征序列进行处理,并根据输出的帧级的行为类别置信度分数处理得到行为片段的预测,但是由于iDT特征的提取耗费大量的时间和资源,严重限制了网络的运行速度;BSN方法则是利用CNN网络对视频提取特征,一定程度上减少了特征提取的时间,但是该方法并不是端到端的,而是利用TEM定位动作的开始点和结束点然后生成动作的提议,随后对提议进行打分,由于不是端到端,使得该方法在应用上存在一定的限制。CTAP方法则是对视频中的每一帧进行分类,随后利用得分进行聚合,然后再利用滑窗的方法对聚合得到的提议进行调整,该方法也是多阶段的方法,导致在应用上存在问题。上述方法均采用局部特征进行行为检测,不能获取全局信息,因此检测精度较低。
总体而言,现有时序行为检测方法不能同时兼顾特征提取时间与实现端到端检测,也不能获取全局信息,因此存在检测准确度低、运行速度慢的问题。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于R-C3D网络的端到端视频时序行为检测方法,其目的在于解决现有时序行为检测方法存在检测准确度低、运行速度慢的技术问题。
为实现上述目的,本发明提供了一种基于R-C3D网络的端到端视频时序行为检测方法,包括:
(1)对输入视频进行帧率调整和帧提取,将提取到的帧进行归一化和数据增强后,作为训练集和测试集;
(2)构建时序行为检测模型;
所述时序行为检测模型包括特征提取模块、长时信息编码模块和行为识别模块;
所述特征提取模块,用于对输入图片进行提取特征,得到特征图;所述长时信息编码模块,用于对所述特征图进行编码,得到包含长时间信息的特征;所述行为识别模块,用于根据所述长时间信息的特征进行动作识别和定位;
(3)将所述训练集和测试集输入所述时序行为检测模型中进行训练;
(4)将待检测视频输入训练好的时序行为检测模型进行检测,得到视频中存在的行为类别,以及与行为对应的起始位置和结束位置。
其中,Vi代表编码的第i个特征,wij是可学习的权重,Lt是编码长度,fi表示输入的第i个特征。
进一步地,所述长时信息编码模块包括依次连接的卷积层、批正则化层和非线性激活层。
进一步地,所述卷积层的卷积核大小为Le×1×1;
其中,Le=2*Lf-1,Lf表示时序长度。
进一步地,经过所述长时信息编码模块编码的特征表示为:
Vij=wijCos(fi,fj)
进一步地,所述长时信息编码模块包括依次连接的第一卷积层、第一特征变形层、相关性获取层、第二特征变形层、第二卷积层、批正则化层和非线性激活层;
所述第一特征变形层用于将经过卷积的三维特征变为一维特征;
所述相关性获取层用于获得一维特征之间的相关性;
所述第二特征变形层用于将具有相关性的特征变为二维特征。
进一步地,所述第一卷积层和第二卷积层卷积核大小均为Le×1×1,其中Le=2*Lf-1;Lf表示时序长度。
进一步地,经过所述长时信息编码模块编码的特征表示为:
其中,Vir代表编码的第ir个特征,r是降采样率,rm是降采样率的最大值,wj是可学习的参数。
进一步地,所述长时信息编码模块包括多个并列的空洞卷积单元,以及依次连接的卷积层、批正则化层和非线性激活层;其中,每个空洞卷积单元包括依次连接的空洞卷积层、批正则化层、非线性激活层和特征变形层。
进一步地,所述特征提取模块为3D Resnet网络。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得以下有益效果:
(1)本发明通过设计长时信息编码网络,增加神经元感受野,对提取的特征进行编码,使得网络能够获得时序动作的全局时间信息,由于增加的计算量很少,因此,本发明能够在较快的运行速度下,实现动作定位和分类的准确检测。
(2)本发明采用RGB图片作为输入,可以节省大量的数据处理时间,并且是端到端的进行预测,进一步提高了网络的运行速度。
附图说明
图1是本发明实例提供的一种基于R-C3D网络的端到端视频时序行为检测方法的流程图;
图2(a)-图2(c)分别是本发明实例中长时信息编码模块三种不同的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
参考图1,本发明提供了一种基于R-C3D网络的端到端视频时序行为检测方法,包括:
(1)对输入视频进行帧率调整和帧提取,将提取到的帧进行归一化和数据增强后,作为训练集和测试集;
具体地,本发明实施例首先利用ffmpeg将视频的帧率变成25fps,但本发明不限于此,具体应用中帧率根据视频中持续时间最长的动作时间决定,目的是使最长的动作可以完整的输入网络中;随后将视频变成连续的图片,并且分辨率归一化到171x128,具体实施中也可选择其他尺寸;最后对归一化的图片进行随机翻转,以进行数据增强。
(2)构建时序行为检测模型;
具体地,本发明构建的时序行为检测模型包括特征提取模块、长时信息编码模块和行为识别模块;特征提取模块,用于对输入图片进行提取特征,得到特征图;本发明采用3D Resnet网络进行特征提取;长时信息编码模块,用于对特征图进行编码,得到包含长时间信息的特征;行为识别模块,用于根据长时间信息的特征进行动作识别和定位;
本发明针对长时信息编码模块编码的特征,设计了三种时间编码函数:第一种,线性函数,即线性地对时间特征进行加权,经过长时信息编码模块编码的特征表示为:
其中,Vi代表编码的第i个特征,wij是可学习的权重,Lt是编码长度,fi表示输入的第i个特征。
对应该线性函数的长时信息编码模块结构如图2(a)所示,包括依次连接的卷积层、批正则化层和非线性激活层;其中,卷积层的卷积核大小为Le×1×1用于接收长期时间信息;Le=2*Lf-1,Lf表示时序长度。本发明实施例为191×1×1。
第二种,相关函数,受各种应用中成对相关性的启发,本发明采用标准相关函数,即余弦相似性捕获每对特征之间的相似性,经过长时信息编码模块编码的特征表示为:
Vij=wijCos(fi,fj)
对应该相关函数的长时信息编码模块结构如图2(b)所示,包括依次连接的第一卷积层、第一特征变形层、相关性获取层、第二特征变形层、第二卷积层、批正则化层和非线性激活层;其中,第一特征变形层用于将经过卷积的三维特征变为一维特征;相关性获取层用于获得一维特征之间的相关性;第二特征变形层用于将具有相关性的特征变为二维特征;第一卷积层和第二卷积层卷积核大小均为Le×1×1,其中Le=2*Lf-1;Lf表示时序长度,本发明实施例为191×1×1。
第三种,多尺度时间聚合函数,考虑具有相同类别的动作实例通常具有不同的持续时间,我们还考虑以多尺度方式执行如下的长期时间聚合,此时经过所述长时信息编码模块编码的特征表示为:
其中,Vir代表编码的第ir个特征,r是降采样率,rm是降采样率的最大值,wj是可学习的参数。
对应该多尺度时间聚合函数的长时信息编码模块结构如图2(c)所示,包括多个并列的空洞卷积单元,以及依次连接的卷积层、批正则化层和非线性激活层;其中,每个空洞卷积单元包括依次连接的空洞卷积层、批正则化层、非线性激活层和特征变形层。每个空洞卷积层的卷积核大小为Le×1×1,本发明实施例为191×1×1。
(3)将训练集和测试集输入时序行为检测模型中进行训练;
(4)将待检测视频输入训练好的时序行为检测模型进行检测,得到视频中存在的行为类别,以及与行为对应的起始位置和结束位置。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于R-C3D网络的端到端视频时序行为检测方法,其特征在于,包括:
(1)对输入视频进行帧率调整和帧提取,将提取到的帧进行归一化和数据增强后,作为训练集和测试集;
(2)构建时序行为检测模型;
所述时序行为检测模型包括特征提取模块、长时信息编码模块和行为识别模块;
所述特征提取模块,用于对输入图片进行提取特征,得到特征图;所述长时信息编码模块,用于对所述特征图进行编码,得到包含长时间信息的特征;所述行为识别模块,用于根据所述长时间信息的特征进行动作识别和定位;
(3)将所述训练集和测试集输入所述时序行为检测模型中进行训练;
(4)将待检测视频输入训练好的时序行为检测模型进行检测,得到视频中存在的行为类别,以及与行为对应的起始位置和结束位置。
3.根据权利要求2所述的一种基于R-C3D网络的端到端视频时序行为检测方法,其特征在于,所述长时信息编码模块包括依次连接的卷积层、批正则化层和非线性激活层。
4.根据权利要求3所述的一种基于R-C3D网络的端到端视频时序行为检测方法,其特征在于,所述卷积层的卷积核大小为Le×1×1;
其中,Le=2*Lf-1,Lf表示时序长度。
6.根据权利要求5所述的一种基于R-C3D网络的端到端视频时序行为检测方法,其特征在于,所述长时信息编码模块包括依次连接的第一卷积层、第一特征变形层、相关性获取层、第二特征变形层、第二卷积层、批正则化层和非线性激活层;
所述第一特征变形层用于将经过卷积的三维特征变为一维特征;
所述相关性获取层用于获得一维特征之间的相关性;
所述第二特征变形层用于将具有相关性的特征变为二维特征。
7.根据权利要求6所述的一种基于R-C3D网络的端到端视频时序行为检测方法,其特征在于,所述第一卷积层和第二卷积层卷积核大小均为Le×1×1,其中Le=2*Lf-1;Lf表示时序长度。
9.根据权利要求8所述的一种基于R-C3D网络的端到端视频时序行为检测方法,其特征在于,所述长时信息编码模块包括多个并列的空洞卷积单元,以及依次连接的卷积层、批正则化层和非线性激活层;其中,每个空洞卷积单元包括依次连接的空洞卷积层、批正则化层、非线性激活层和特征变形层。
10.根据权利要求1-9任一项所述的一种基于R-C3D网络的端到端视频时序行为检测方法,其特征在于,所述特征提取模块为3D Resnet网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910892237.8A CN110738129B (zh) | 2019-09-20 | 2019-09-20 | 一种基于r-c3d网络的端到端视频时序行为检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910892237.8A CN110738129B (zh) | 2019-09-20 | 2019-09-20 | 一种基于r-c3d网络的端到端视频时序行为检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110738129A true CN110738129A (zh) | 2020-01-31 |
CN110738129B CN110738129B (zh) | 2022-08-05 |
Family
ID=69269347
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910892237.8A Expired - Fee Related CN110738129B (zh) | 2019-09-20 | 2019-09-20 | 一种基于r-c3d网络的端到端视频时序行为检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110738129B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111611847A (zh) * | 2020-04-01 | 2020-09-01 | 杭州电子科技大学 | 基于尺度注意力空洞卷积网络的视频动作检测方法 |
CN113537164A (zh) * | 2021-09-15 | 2021-10-22 | 江西科技学院 | 一种实时的动作时序定位方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9836853B1 (en) * | 2016-09-06 | 2017-12-05 | Gopro, Inc. | Three-dimensional convolutional neural networks for video highlight detection |
CN107451552A (zh) * | 2017-07-25 | 2017-12-08 | 北京联合大学 | 一种基于3d‑cnn和卷积lstm的手势识别方法 |
US20180053057A1 (en) * | 2016-08-18 | 2018-02-22 | Xerox Corporation | System and method for video classification using a hybrid unsupervised and supervised multi-layer architecture |
CN108629326A (zh) * | 2018-05-14 | 2018-10-09 | 中国科学院自动化研究所 | 目标体的动作行为识别方法及装置 |
CN109101881A (zh) * | 2018-07-06 | 2018-12-28 | 华中科技大学 | 一种基于多尺度时序图像的实时眨眼检测方法 |
CN110032926A (zh) * | 2019-02-22 | 2019-07-19 | 哈尔滨工业大学(深圳) | 一种基于深度学习的视频分类方法以及设备 |
-
2019
- 2019-09-20 CN CN201910892237.8A patent/CN110738129B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180053057A1 (en) * | 2016-08-18 | 2018-02-22 | Xerox Corporation | System and method for video classification using a hybrid unsupervised and supervised multi-layer architecture |
US9836853B1 (en) * | 2016-09-06 | 2017-12-05 | Gopro, Inc. | Three-dimensional convolutional neural networks for video highlight detection |
CN107451552A (zh) * | 2017-07-25 | 2017-12-08 | 北京联合大学 | 一种基于3d‑cnn和卷积lstm的手势识别方法 |
CN108629326A (zh) * | 2018-05-14 | 2018-10-09 | 中国科学院自动化研究所 | 目标体的动作行为识别方法及装置 |
CN109101881A (zh) * | 2018-07-06 | 2018-12-28 | 华中科技大学 | 一种基于多尺度时序图像的实时眨眼检测方法 |
CN110032926A (zh) * | 2019-02-22 | 2019-07-19 | 哈尔滨工业大学(深圳) | 一种基于深度学习的视频分类方法以及设备 |
Non-Patent Citations (3)
Title |
---|
HUIJUAN XU 等: ""R-C3D: Region Convolutional 3D Network for Temporal Activity Detection"", 《ARXIV》 * |
HUIJUAN XU 等: ""Two-Stream Region Convolutional 3D Network for Temporal Activity Detection"", 《JOURNAL OF LATEX CLASS FILES》 * |
周道洋: ""基于卷积神经网络的人体行为检测研究"", 《中国优秀硕士学位论文全文数据库-信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111611847A (zh) * | 2020-04-01 | 2020-09-01 | 杭州电子科技大学 | 基于尺度注意力空洞卷积网络的视频动作检测方法 |
CN111611847B (zh) * | 2020-04-01 | 2021-04-30 | 杭州电子科技大学 | 基于尺度注意力空洞卷积网络的视频动作检测方法 |
CN113537164A (zh) * | 2021-09-15 | 2021-10-22 | 江西科技学院 | 一种实时的动作时序定位方法 |
CN113537164B (zh) * | 2021-09-15 | 2021-12-07 | 江西科技学院 | 一种实时的动作时序定位方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110738129B (zh) | 2022-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113936339B (zh) | 基于双通道交叉注意力机制的打架识别方法和装置 | |
CN111126258B (zh) | 图像识别方法及相关装置 | |
CN111738244B (zh) | 图像检测方法、装置、计算机设备和存储介质 | |
CN107784293B (zh) | 一种基于全局特征和稀疏表示分类的人体行为识别方法 | |
CN107153817B (zh) | 行人重识别数据标注方法和装置 | |
CN110598558B (zh) | 人群密度估计方法、装置、电子设备及介质 | |
Shi et al. | Convolutional LSTM network: A machine learning approach for precipitation nowcasting | |
CN110532884B (zh) | 行人重识别方法、装置及计算机可读存储介质 | |
CN110120064B (zh) | 一种基于互强化与多注意机制学习的深度相关目标跟踪算法 | |
CN111126379A (zh) | 一种目标检测方法与装置 | |
CN112580523A (zh) | 行为识别方法、装置、设备及存储介质 | |
CN107862300A (zh) | 一种基于卷积神经网络的监控场景下行人属性识别方法 | |
CN112464807A (zh) | 视频动作识别方法、装置、电子设备和存储介质 | |
CN110826056B (zh) | 一种基于注意力卷积自编码器的推荐系统攻击检测方法 | |
CN110166826B (zh) | 视频的场景识别方法、装置、存储介质及计算机设备 | |
CN116453067B (zh) | 基于动态视觉识别的短跑计时方法 | |
US20230154139A1 (en) | Systems and methods for contrastive pretraining with video tracking supervision | |
CN112232140A (zh) | 人群计数方法、装置、电子设备及计算机存储介质 | |
CN110738129B (zh) | 一种基于r-c3d网络的端到端视频时序行为检测方法 | |
CN117058595A (zh) | 视频语义特征和可扩展粒度感知时序动作检测方法及装置 | |
CN116363535A (zh) | 基于卷积神经网络的无人机航拍影像中的船舶检测方法 | |
CN110659641B (zh) | 一种文字识别的方法、装置及电子设备 | |
CN114677611B (zh) | 数据识别方法、存储介质及设备 | |
US20220086401A1 (en) | System and method for language-guided video analytics at the edge | |
Wang | Recognition and Analysis of Behavior Features of School-Age Children Based on Video Image Processing. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220805 |