CN114998799A - 基于全局知识挖掘和前景注意力的交互视频动作检测方法 - Google Patents
基于全局知识挖掘和前景注意力的交互视频动作检测方法 Download PDFInfo
- Publication number
- CN114998799A CN114998799A CN202210636564.9A CN202210636564A CN114998799A CN 114998799 A CN114998799 A CN 114998799A CN 202210636564 A CN202210636564 A CN 202210636564A CN 114998799 A CN114998799 A CN 114998799A
- Authority
- CN
- China
- Prior art keywords
- time
- video
- coarse
- boundary
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
Abstract
Description
技术领域
本发明属于计算机视觉和模式识别技术领域,涉及一种基于全局知识挖掘和前景注意力的交互视频动作检测方法,可以用少量的提案对视频中的动作实例进行定位和分类,在在两个常用的时序动作检测数据集上,验证了该模型的有效性;
背景技术
近几年来,随着互联网视频的大量涌现,对视频内容的理解与分析变得越来越重要。时序动作检测作为视频理解的一个重要的分支,已经引起了学术界和工业界的广泛关注。时序动作检测的任务是对一个未修建的视频中的人的动作的时间片段进行定位,并预测人的动作类别。时序动作检测与动作检测相比,在对视频中的每个动作实例分类的基础上,还要对该动作实例的开始和结束进行定位。有些方法是采用滑动窗口的方法生成不同时间尺度的视频片段,然后对这些视频片段进行分类和定位,以表示整个视频的分类和定位结果。但是这些方法想要得到更好的效果,就必须将窗口之间的重叠度变高,这样就会产生巨大的计算量,影响模型的计算的速度,并且滑动窗口的方法预测边界不够灵活。基于Anchor的方法会生成大量的候选提案,造成较多的冗余,浪费计算资源。并且,这些方法对于边界的预测不够灵活,动作实例的时间跨度相差很大,其中大部分较短,还有一部分很长,这样预定义的Anchor并不能够预测所有的动作实例。
然而,时序动作检测采用Anchor-free的方法开始涌现,它不像基于Anchor方法一样预先定义不同时间尺度的Anchor并且动作实例的长短对于动作的定位影响较小,只需要在每个时间位置生成一个提案,表示当前位置到开始位置和结束位置的距离的总和。由于这种方法不会有大量的提案,降低了计算量。
现有技术还存在以下弊端:一是无法有效地解决视频中的时间信息,二是在处理视频特征的过程中很少考虑前景信息,所以当前急需一种高效的基于全局信息挖掘和前景注意的时序动作检测方法。
发明内容
本发明提供了一种基于全局知识挖掘和前景注意力的交互视频动作检测方法,本发明弥补上下文信息捕获模型因为下采样丢失的时序信息,同时增强每个视频帧的前景特征,可用于精细化动作实例的分类和边界。
该方法具体包含以下步骤:
2)通过I3D网络将生成的视频帧获得时空特征序列,将获得的时空特征经过3D卷积变成1D特征序列F′,使特征包含整个视频的时间和空间信息,把特征序列F′作为整个视频的特征表示;
3)将特征序列F′输入到上下文信息提取模块提取不同层次的特征,采用线性插值将高层特征的信息递归加到低层特征中,获得具有充足的语义信息和局部细节的特征Tn∈{2,4,8,…,64}代表不同的时间尺度,C代表的是特征的通道,同时该模块还会产生用于边界池化的帧级特征;
4)通过时间信息提取模块将视频帧作为输入,利用编码层从整个视频中获取时间信息,用于补偿不同层次的特征在下采样过程中丢失的时间信息;
7)获取第i个位置开始时间和结束时间:
8)根据不同层次的特征结合损失函数利用前景信息增强模块得到精细化特征,利用精细化特征,得到精细化边界偏移和精细化分类,并将边界偏移加到粗边界上得到精细化边界,所述损失函数具体如下:
优选的,所述通过时间信息提取模块获取时间信息的具体步骤如下:
利用空间编码器对同一时间索引中提取的块之间建立关系,然后将所有的空间编码器输出的特征输入到对不同时间索引的帧建立联系的时间编码器中捕获全局信息,获取具有时间信息的多个时间尺度的特征式中Tn代表不同的时间尺度,C为特征的通道,具体公式如下:
式中SpatialT代表的是空间编码器,TemporalT代表的是时间编码器,Linear代表的是全连接层,embeding是将时间加入空间特征并进行嵌入;
优选的,所述利用前景信息增强模块得到精细化特征,具体过程如下:
1)将粗边界和粗分类的结果输入到边界池化层,
2)将整个视频帧输入到前景信息增强模块,该模块将每个视频帧xi∈RH×W×C进行图像分块处理,将H×W×C的图片用P×P大小的块将每一个视频帧分成D=HW/P2个块;
将D个块向量拼接得到一个二维特征矩阵并对特征序列进行位置嵌入得到帧级特征,实现过程为:
Fframe=Linear(FSA(xi)) i=1,…,T, (5)
式中FSA是前景信息注意编码器,在自注意力的基础上增加了下采样操作,采用1D线性插值实现下采样;
3)将Fframe与上下文信息提取模块输出的帧级特征进行融合,得到特征F′frame作为边界池化的另一个输入,用于精细预测;
5)和分别经过两个不同的1D卷积进行精细化预测,其中一个卷积被用来预测边界回归的偏移量 和分别表示开始时间和结束时间的偏移,另一个卷积用来预测精细化的分类cR,最后将得到的偏移量加到粗边界获得精细化边界 和分别表示精细化的开始和结束的时间;
优选的,所述粗分类中使用focal损失函数作为约束,调整正负样本的权重和控制困难和容易分类的样本,由于正负样本本身比例不均匀,并且负样本易分,因此我们引入一个参数γ,平衡比列并且调节为0.75,防止过拟合,具体公式如下:
所述精细化分类中使用focal损失函数作为约束条件,具体公式如下:
优选的,所述二元交叉熵的损失函数定义如下:
本发明的优点和有益效果:
1)通过对时间信息的挖掘和前景信息的注意,对特征增加了时间信息,并且增强了前景信息,对视频中动作实例的定位与分类起到了良好的作用,并且提升了效率;
2)样本经过模型训练,可以得到拟合效果良好的权重;并且这些权重作用于模型后,对视频中动作实例的定位和分类获得了较为显著的效果。
附图说明
图1为本发明的结构示意图;
图2为本发明的流程结构示意图;
图3为本发明与原始二分类交叉熵损失函数的收敛速度的比较示意图;
图4位本发明效果对比示意图。
具体实施方式
下面结合附图对本发明作进一步的描述;
实施例1:
如图1所示,为本发明的一种基于全局知识挖掘和前景注意力的交互视频动作检测方法的操作流程图,该方法的操作步骤包括:
2)通过I3D网络将生成的视频帧获得时空特征序列,对于一个视频V∈RC×T×H×W,C,T,H和W分别代表通道,时间,高度和宽度。本发明通过I3D网络获得时空特征。然后,获得的时空特征经过3D卷积变成1D特征序列F′.这样的特征包含整个视频的时间和空间信息,把这样的一维特征序列作为整个视频的特征表示。
3)利用上下文信息提取模块提取不同层次的特征,具体的,将特征序列F′输入到上下文信息提取模块提取不同层次的特征,采用线性插值将高层特征的信息递归加到低层特征中,获得具有充足的语义信息和局部细节的特征Tn∈{2,4,8,…,64}代表不同的时间尺度,同时该模块还会产生用于边界池化的帧级特征。
4)通过时间信息提取模块挖掘视频的全局信息,将视频帧作为输入,利用编码层从整个视频中获取时间信息,用于补偿不同层次的特征在下采样过程中丢失的时间信息;所述通过时间信息提取模块获取时间信息的具体步骤如下:
利用空间编码器对同一时间索引中提取的块之间建立关系,然后将所有的空间编码器输出的特征输入到对不同时间索引的帧建立联系的时间编码器中捕获全局信息,获取具有时间信息的多个时间尺度的特征式中Tn代表不同的时间尺度,C代表的是通道,具体公式如下:
式中SpatialT代表的是空间编码器,TemporalT代表的是时间编码器,Linear代表的是全连接层,embeding是将时间加入空间特征并进行嵌入;
7)获取第i个位置开始时间和结束时间:
8)根据不同层次的特征结合损失函数利用前景信息增强模块得到精细化特征,利用精细化特征,得到精细化边界偏移和精细化分类,并将边界偏移加到粗边界上得到精细化边界,所述利用前景信息增强模块得到精细化特征,具体过程如下:
8-1)将粗边界和粗分类的结果输入到边界池化层,
8-2)将整个视频帧输入到前景信息增强模块,该模块将每个视频帧xi∈RH×W×C进行图像分块处理,将H×W×C的图片用P×P大小的块将每一个视频帧分成D=HW/P2个块;
将D个块向量拼接得到一个二维特征矩阵并对特征序列进行位置嵌入得到帧级特征,实现过程为:
Fframe=Linear(FSA(xi)) i=1,…,T, (4)
式中FSA是前景信息注意编码器,在自注意力的基础上增加了下采样操作,采用1D线性插值实现下采样;
8-3)将Fframe与上下文信息提取模块输出的帧级特征进行融合,得到特征F′frame作为边界池化的另一个输入,用于精细预测;
8-5)和分别经过两个不同的1D卷积进行精细化预测,其中一个卷积被用来预测边界回归的偏移量 和分别表示开始时间和结束时间的偏移,另一个卷积用来预测精细化的分类cR,最后将得到的偏移量加到粗边界获得精细化边界 和分别表示精细化的开始和结束的时间;
以上粗略预测和精细预测预测在其生成过程中都需要损失函数来进行约束,防止预测过拟合。本发明在粗略过程中对动作实例的粗略边界回归和分类使用不同的损失函数。并且在细化过程中,对动作实例的精细边界的回归和分类使用了不同的损失函数,同时对预测的概率也使用了二元交叉熵损失。总损失函数的计算可以定义为:
所述粗分类中使用focal损失函数作为约束,调整正负样本的权重和控制困难和容易分类的样本,由于正负样本本身比例不均匀,并且负样本易分,因此我们引入一个参数γ,平衡比列并且调节为0.75,防止过拟合,具体公式如下:
所述精细化分类中使用focal损失函数作为约束条件,具体公式如下:
所述二元交叉熵的损失函数定义如下:
其中是一个带有超参数的二元交叉熵损失。有了超参数的辅助,使得模型的收敛速度更快。其在正样本(上)和负样本(下)数据收敛情况如图3所示。和ψi分别是细化的边界和相应的真实样例。εi是从精细化过程生成的位置标签。在推理中,使用粗边界粗分类结果cC和来自细化过程的偏移细化分类结果cR和置信度得分ε。最后,采用Soft-NMS来处理所有预测以抑制冗余提议;最后就实现了对视频中动作的检测;
为了验证本发明的有效性,在时序动作检测数据集THUMOS14和ActivityNet1.3上进行了评测。
THUMOS14数据集:包含101个视频类别,由四个部分组成:训练、验证、测试和背景集。每各部分包括13320,1010,1574和2500段未剪辑的视频。其中验证集中的200个视频用于训练,测试集中的213个视频用于测试;
ActivityNet1.3数据集:是一个大规模的动作数据集,包含200个活动类和大约20000个超过600小时的视频。数据集被分为三个子集:10024个用于训练的视频,4926个用于验证,5044个用于测试;
具体实验设置为:在数据集THUMOS14中,验证集中的200个视频用于训练,测试集中的213个视频用于测试;在数据集ActivityNet1.3中,以2:1:1的比例将数据集分为训练、测试和验证。本发明提出的基于全局知识挖掘和前景注意力的交互视频动作检测方法具有较好的检测性能。下表为经典动作识别算法与本发明在THUMOS14和ActivityNet1.3数据集上性能的比较;
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制;尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (5)
1.一种基于全局知识挖掘和前景注意力的交互视频动作检测方法,其特征在于,该方法具体包含以下步骤:
2)通过I3D网络将生成的视频帧获得时空特征序列,将获得的时空特征经过3D卷积变成1D特征序列F′,使特征包含整个视频的时间和空间信息,把特征序列F′作为整个视频的特征表示;
3)将特征序列F′输入到上下文信息提取模块提取不同层次的特征,采用线性插值将高层特征的信息递归加到低层特征中,获得具有充足的语义信息和局部细节的特征Tn∈{2,4,8,…,64}代表不同的时间尺度,C代表的是特征的通道,同时该模块还会产生用于边界池化的帧级特征;
4)通过时间信息提取模块将视频帧作为输入,利用编码层从整个视频中获取时间信息,用于补偿不同层次的特征在下采样过程中丢失的时间信息;
7)获取第i个位置开始时间和结束时间:
8)根据不同层次的特征结合损失函数利用前景信息增强模块得到精细化特征,利用精细化特征,得到精细化边界偏移和精细化分类,并将边界偏移加到粗边界上得到精细化边界,所述损失函数具体如下:
3.根据权利要求1所述的基于全局知识挖掘和前景注意力的交互视频动作检测方法,其特征在于,所述利用前景信息增强模块得到精细化特征,具体过程如下:
1)将粗边界和粗分类的结果输入到边界池化层,
2)将整个视频帧输入到前景信息增强模块,该模块将每个视频帧xi∈RH×W×C进行图像分块处理,将H×W×C的图片用P×P大小的块将每一个视频帧分成D=HW/P2个块;
将D个块向量拼接得到一个二维特征矩阵并对特征序列进行位置嵌入得到帧级特征,实现过程为:
Fframe=Linear(FSA(xi))i=1,…,T, (5)
式中FSA是前景信息注意编码器,在自注意力的基础上增加了下采样操作,采用1D线性插值实现下采样;
3)将Fframe与上下文信息提取模块输出的帧级特征进行融合,得到特征F′frame作为边界池化的另一个输入,用于精细预测;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210636564.9A CN114998799B (zh) | 2022-06-07 | 2022-06-07 | 基于全局知识挖掘和前景注意力的交互视频动作检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210636564.9A CN114998799B (zh) | 2022-06-07 | 2022-06-07 | 基于全局知识挖掘和前景注意力的交互视频动作检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114998799A true CN114998799A (zh) | 2022-09-02 |
CN114998799B CN114998799B (zh) | 2023-01-13 |
Family
ID=83033737
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210636564.9A Active CN114998799B (zh) | 2022-06-07 | 2022-06-07 | 基于全局知识挖掘和前景注意力的交互视频动作检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114998799B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115410138A (zh) * | 2022-11-02 | 2022-11-29 | 山东省人工智能研究院 | 基于特征编码器分类和定位串行的视频动作检测方法 |
CN116307218A (zh) * | 2023-03-27 | 2023-06-23 | 松原市邹佳网络科技有限公司 | 基于人工智能的元宇宙体验用户行为预测方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097568A (zh) * | 2019-05-13 | 2019-08-06 | 中国石油大学(华东) | 一种基于时空双分支网络的视频对象检测与分割方法 |
CN110287819A (zh) * | 2019-06-05 | 2019-09-27 | 大连大学 | 动态背景下基于低秩及稀疏分解的动目标检测方法 |
CN111310676A (zh) * | 2020-02-21 | 2020-06-19 | 重庆邮电大学 | 基于CNN-LSTM和attention的视频动作识别方法 |
CN112926396A (zh) * | 2021-01-28 | 2021-06-08 | 杭州电子科技大学 | 一种基于双流卷积注意力的动作识别方法 |
CN113657260A (zh) * | 2021-08-16 | 2021-11-16 | 淮北师范大学 | 一种弱监督时序行为定位方法 |
-
2022
- 2022-06-07 CN CN202210636564.9A patent/CN114998799B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097568A (zh) * | 2019-05-13 | 2019-08-06 | 中国石油大学(华东) | 一种基于时空双分支网络的视频对象检测与分割方法 |
CN110287819A (zh) * | 2019-06-05 | 2019-09-27 | 大连大学 | 动态背景下基于低秩及稀疏分解的动目标检测方法 |
CN111310676A (zh) * | 2020-02-21 | 2020-06-19 | 重庆邮电大学 | 基于CNN-LSTM和attention的视频动作识别方法 |
CN112926396A (zh) * | 2021-01-28 | 2021-06-08 | 杭州电子科技大学 | 一种基于双流卷积注意力的动作识别方法 |
CN113657260A (zh) * | 2021-08-16 | 2021-11-16 | 淮北师范大学 | 一种弱监督时序行为定位方法 |
Non-Patent Citations (2)
Title |
---|
TONG WANG等: "Unsupervised Deep Cross-modal Hashing with Virtual Label Regression", 《NEUROCOMPUTING》 * |
陈琳等: "基于双重属性信息的跨模态行人重识别算法", 《北京航空航天大学学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115410138A (zh) * | 2022-11-02 | 2022-11-29 | 山东省人工智能研究院 | 基于特征编码器分类和定位串行的视频动作检测方法 |
CN116307218A (zh) * | 2023-03-27 | 2023-06-23 | 松原市邹佳网络科技有限公司 | 基于人工智能的元宇宙体验用户行为预测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114998799B (zh) | 2023-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Himeur et al. | Video surveillance using deep transfer learning and deep domain adaptation: Towards better generalization | |
CN114998799B (zh) | 基于全局知识挖掘和前景注意力的交互视频动作检测方法 | |
Huang et al. | A visual–textual fused approach to automated tagging of flood-related tweets during a flood event | |
CN110598620B (zh) | 基于深度神经网络模型的推荐方法和装置 | |
CN113344206A (zh) | 融合通道与关系特征学习的知识蒸馏方法、装置及设备 | |
Passalis et al. | Efficient adaptive inference for deep convolutional neural networks using hierarchical early exits | |
CN113239869B (zh) | 基于关键帧序列和行为信息的两阶段行为识别方法及系统 | |
Cho et al. | Tackling background distraction in video object segmentation | |
Medel | Anomaly detection using predictive convolutional long short-term memory units | |
CN116018621A (zh) | 利用部分标记的训练数据训练多类别对象分类模型的系统和方法 | |
CN113255625A (zh) | 一种视频检测方法、装置、电子设备和存储介质 | |
CN116863384A (zh) | 一种基于CNN-Transfomer的自监督视频分割方法和系统 | |
Zhu et al. | Srdd: a lightweight end-to-end object detection with transformer | |
Almahadin et al. | Enhancing video anomaly detection using spatio-temporal autoencoders and convolutional lstm networks | |
Nguyen et al. | Video action recognition collaborative learning with dynamics via PSO-ConvNet Transformer | |
CN114998360A (zh) | 一种基于SUnet算法的脂肪细胞祖细胞分割方法 | |
CN113850012A (zh) | 数据处理模型生成方法、装置、介质及电子设备 | |
Liu et al. | Research on vehicle detection based on improved YOLOX_S | |
CN115292439A (zh) | 一种数据处理方法及相关设备 | |
CN112131429A (zh) | 一种基于深度预测编码网络的视频分类方法及系统 | |
CN116994264A (zh) | 一种文本识别方法、芯片及终端 | |
Ganesh et al. | A New Ontology Convolutional Neural Network for Extorting Essential Elements in Video Mining | |
CN116246147A (zh) | 基于跨层特征融合和线性注意力优化的跨物种目标检测方法 | |
Deng et al. | Differentiable Resolution Compression and Alignment for Efficient Video Classification and Retrieval | |
CN115774817A (zh) | 信息处理模型的训练方法、信息处理方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |