CN112613442A - 基于主角检测和光流转换的视频序列情感识别方法 - Google Patents
基于主角检测和光流转换的视频序列情感识别方法 Download PDFInfo
- Publication number
- CN112613442A CN112613442A CN202011591272.5A CN202011591272A CN112613442A CN 112613442 A CN112613442 A CN 112613442A CN 202011591272 A CN202011591272 A CN 202011591272A CN 112613442 A CN112613442 A CN 112613442A
- Authority
- CN
- China
- Prior art keywords
- optical flow
- features
- frame
- network
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003287 optical effect Effects 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 19
- 238000001514 detection method Methods 0.000 title claims abstract description 18
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 18
- 239000011159 matrix material Substances 0.000 claims abstract description 16
- 238000013135 deep learning Methods 0.000 claims abstract description 8
- 230000004927 fusion Effects 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims abstract description 7
- 238000012706 support-vector machine Methods 0.000 claims abstract description 4
- 230000000007 visual effect Effects 0.000 claims abstract description 4
- 230000008451 emotion Effects 0.000 claims description 16
- 238000013527 convolutional neural network Methods 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 2
- 239000000284 extract Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于主角检测和光流转换的视频序列情感识别方法,包括:定义主角关键帧选取方法;定义补丁特征提取转换特征矩阵的方法以及构建深度学习网络;构建光流信息转换模块以及深度学习网络;构建用于融合补丁特征、光流特征以及人工给与的视觉的音频特征的特征融合模块;将经过预处理的视频数据流以较小的批尺寸送入整体网络进行训练,利用定义好的支持向量机进行答案预测,使用均方差检验网络性能,最终使网络收敛至最佳状态,并保存训练好的模型用于直接使用。本发明方法适应性广,鲁棒性强,可用于多种情绪识别任务。通过将该方法在数据集上的进行实验,实验结果表明该方法具有较高的准确率,证明了其有效性。
Description
技术领域
本发明涉及深度学习中的视频序列领域,特别涉及一种基于主角检测和光流转换的视频序列情感识别方法。
背景技术
情感识别一直是计算机视觉领域的研究热点,它可以应用在许多领域中。随着多模态深度学习领域的不断发展,对情感识别的要求也越来越高。传统的情感识别方法使用单一的卷积神经网络模型进行特征提取,对视频进行抽帧继而对帧进行图片特征提取,是为了得到图片中的信息特征,再根据音频分词等特征,最终将特征简单融合并通过分类器输出该高维特征的分类类别。因此情感识别本质上是通过多种模态之间的特征,共同决定了预测的视频的情感走向。除此之外,不同模态的特征对视频走向的影响权重也不一样。经过多模态深度学习领域的长期发展,产生了大量的多模态情感识别方法。
在传统方法中,视频帧提取方法通常存在一个统一的问题,即视频帧中只有主角能决定视频的情感走向,提取视频帧的所有特征会对资源进行浪费。这种情况下,使用单一的卷积神经网络往往会得到许多无用的特征。一些深度较大的神经网络虽然可以更好的提取细粒度特征,但是网络深度的增加也会导致参数增多,大量的卷积过程还造成特征信息的丢失以及梯度消失现象,从而影响模型性能。此外,视频是一种时间上连续的数据,时间因素也是视频中不可忽视的因素,这些因素都会影响后续的模型识别效果。
对于上述的这些问题,学者们研究出了一系列方法解决。尺度不变特征转换用来侦测与描述影像中的局部性特征,它在空间尺度中寻找极值点,并提取出其位置、尺度、旋转不变数。光流信息通过在时域中检测图像序列中像素强度的变化来计算相邻帧之间物体的运动速率和方向。在情感识别领域,很少有方法能够兼顾时间信息、尺度不变特征转换这些方面。
发明内容
本发明目的是:为了解决上述问题,本发明提供一种基于主角检测和光流转换的视频序列情感识别方法,可以从视频中筛选出主角关键帧,并使用尺度不变特征转换构建矩阵,且通过引入代表时间信息的光流信息转换,使得模型能注意到连续的情感,增强识别准确率。
本发明的技术方案是:
本发明的优点是:
1、本发明的基于主角检测和光流转换的视频序列情感识别方法,通过主角关键帧筛选方法,较好的解决了由于寻常帧抽取方法造成的关键帧中没有主角出现的问题;
2、本发明通过补丁特征提取和尺度不变特征转换构建矩阵的方法,解决了寻常视频帧特征提取方法提取冗余信息的问题,节约了计算资源;
3、本发明通过将视频帧中的光流信息转化为数字矩阵,以引入时间信息加强模型对连续情感的捕捉能力,提高其准确率;
4、本发明提出的基于主角检测和光流转换的视频序列情感识别方法,具有兼顾时间信息、尺度不变特征转换这些优点。
附图说明
下面结合附图及实施例对本发明作进一步描述:
图1为本发明的基于主角检测和光流转换的视频序列情感识别方法的流程图;
图2为本发明的基于主角检测和光流转换的视频序列情感识别方法中的主角关键帧筛选方法流程图。
具体实施方式
下面结合附图及具体实施方式对本发明作进一步地详细描述。但不应将此解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本方面的范围。
本发明提供的基于主角检测和光流转换的视频序列情感识别方法,方法的整体实施流程如图1所示,具体说明如下:
选择LIRIS-ACCEDE中的训练集作为训练数据。本发明去除了一些数据集中时间过长或过短的视频,并筛出用于情感识别的标签数据。并选取了不同背景、不同场景类别的训练视频共6000个,验证视频1000个,测试视频1000个。
实施过程中使用的设备显示卡是英伟达Tesla P100,故将批尺寸设置为16,以批次为单位接收视频,在进行均值归一化后将视频帧尺寸重建至10万个像素。
构建各个方法模块与网络模块,整体结构图如图1所示。具体说明如下:
定义主角关键帧选取策略:该策略如图2所示,第一步,如果视频剪辑V包含n帧,则V={F1,F2,F3,...,Fn},其中Fn是视频剪辑V的第n帧。第一帧的RGB直方图定义为H(Fi),其中i=1...n,整个剪辑的平均RGB直方图如下:
第i帧和第i+1帧之间的曼哈顿距离D可以表示如下:
D(Fi,Fj)=H(Fi)-H(Fj)
使用上述公式计算每个帧与整个剪辑的平均RGB直方图之间的距离。根据距离将这些帧从最小到最大排序。因此可获得一个距离列表D,它被注释为D={D1,D2,...,Dn}。帧D1是距离整个剪辑的平均RGB直方图最小的帧。第二步,基于距离进行聚类。假设最终提取k个关键帧,则从距离列表D中选择k个距离值作为初始聚类中心,通过迭代搜索找到最优聚类结果,再根据距离将每个簇中的所有帧从最小到最大排序。因此可以获得k个候选关键帧列表,并且每个列表都可以被注释为其中i表示第i个聚类中心,KFi 1代表距离最小的帧,mi代表候选帧列表的数量。因此,一个n帧视频剪辑可以表示为:
我们根据每个聚类中心的主角信息选择一个主角关键帧。对于候选关键帧列表中的每个帧,根据主角定义,我们检测主角并选择第一个包含主角的帧作为主角关键帧。特别是,如果候选关键帧列表中的帧没有包含主角,我们将候选关键帧列表中的第一个帧视为主角关键帧。再根据出现频率最高的一张脸作为主角。主角关键帧的定义为argmaxcount(fi),其中fi代表关键帧列表中出现的第i种面孔,出现频率最高的面孔定义为主角。
尺度不变特征矩阵转换模块:为了从主角关键帧中提取主角特征信息,我们提出了一种构造尺度不变特征矩阵的方法。对于每个主角关键帧,我们将帧大小调整为10万像素,同时调节纵横比,并在五个尺度上每四个像素提取一个24×24大小的补丁。通过该操作可以获得每帧约1万个补丁。对于每个补丁提取一个128维的特征向量,然后将这些特征向量组合在一起形成特征矩阵。
光流信息转换模块:视频包含大量相邻帧之间的时间信息,所以需要从时域的角度提取情感特征信息。光流信息通过检测图像序列中像素在时域中的强度的变化,确定相邻帧之间物体的运动速率和方向。考虑到视频帧帧数、相邻帧之间的弱光流关系和所需的大量计算,我们选择从主角关键帧而不是所有的帧中提取光流信息。本发明采用了一种高精度密集光流计算方法,以i为中心提取光流,为了更容易地处理和可视化光学流场,进行了将光流信息转换到三通道图像文件中。假设第Fi和第Fi+1帧之间的光学流场如下:
其中OFx/y是水平和垂直方向的光学流场,h和w分别表示视频帧的高度和宽度,第三通道光流计算如下:
之后将OFx、OFy和OFz重新标度为[0,255]的常见图像范围,如下:
特征提取网络模块:由于标记数据量有限,首先使用现有的卷积神经网络模型,在大规模图像任务上进行了预先训练,以初始化网络模型。然后,对积神经网络模型进行了修正标记的情感数据。为此,我们采用AlexNet模型进行积神经网络初始化。AlexNet有五个卷积层,三个最大值池化层和三个全连接层。前两个全连接层由4096个单元组成,最后一个全连接层具有对应的1000个维度映射1000个情感类别。将补丁特征矩阵和光流图像矩阵输入到卷积神经网络模型中,学习更有代表性的高阶特征。设Rsf(sfi)表示卷积神经网络模型中第六个全连接层的4096维输出,sfi是输入的补丁特征矩阵,Rof(OFi)表示卷积神经网络模型中第六个全连接层的4096维输出,OFi是输入的光流图像特征。
特征融合模块与答案分类模块:在使用卷积神经网络模型学习特征并提取手工特征后,使用标准分数对所有特征进行归一化。然后使用特征级融合来合并高阶特征,包括高级主角特征信息Rsf(sfi)、高级时间特征信息Rof(OFi)和手工制作的视听特征Xi,被串联成单个高维特征向量进行情感分析。构建用于融合补丁特征、光流特征以及人工给与的视觉的音频特征的特征融合模块,特征融合模块后的一个主角关键帧数如下所示:
f(PKF)=[Rsf(sfi),Rof(OFi),Xi]
融合特征后,利用支持向量机对输入混合特征进行分类。我们应用支持向量回归进行回归情感层面。
训练过程中,网络共迭代了200轮,每轮迭代了50000步,训练了38个小时完成收敛。
预测阶段包括以下7个步骤:
Step1:对输入视频帧进行均值归一化、调整尺寸等预处理操作。
Step2:加载预训练过的AlexNet模型和训练完成的总体的情感检测模型。
Step3:通过AlexNet网络和基于主角检测和光流转换网络提取特征。
Step4:在提取到的特征图上使用支持向量机和支持向量回归进行情感分类。
本发明的基于主角检测和光流转换的视频序列情感识别方法较好的在测试样本中分类出了情感,证明了该方法的有效性。
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明主要技术方案的精神实质所做的修饰,都应涵盖在本发明的保护范围之内。
Claims (5)
1.基于主角检测和光流转换的视频序列情感识别方法,其特征在于,包括以下步骤:
步骤1:定义主角关键帧选取方法,用于提取视频中有主角出现的关键帧;
步骤2:定义补丁特征提取转换特征矩阵的方法以及构建深度学习网络,该方法和网络分别包括从主角关键帧提取补丁特征并转换成特征矩阵的方法和用于提取深层次主角特征的卷积神经网络:
步骤3:构建光流信息转换模块以及深度学习网络,用于将视频帧中的时间信息转化为光流信息并构成矩阵的光流信息转换模块和用于提取光流信息特征的卷积神经网络;
步骤4:构建用于融合补丁特征、光流特征以及人工给与的视觉的音频特征的特征融合模块,
步骤5:将经过预处理的视频数据流以较小的批尺寸送入整体网络进行训练,利用定义好的支持向量机进行答案预测,使用均方差检验网络性能,最终使网络收敛至最佳状态,并保存训练好的模型用于直接使用。
2.根据权利要求1所述的基于主角检测和光流转换的视频序列情感识别方法,其特征在于,步骤1中定义的主角关键帧选取方法的步骤如下:
步骤1.1:使用基于RGB直方图方法计算距离,整个剪辑V的平均RGB直方图表达式如下:
其中,Fn是视频V的第n帧,H(Fi)表示第i帧的RGB直方图,所以第i帧和第i+1帧之间的曼哈顿距离D表示如下:
D(Fi,Fj)=|H(Fi)-H(Fj)|
计算每个帧与整个剪辑的平均RGB直方图之间的距离,然后根据距离将这些帧从最小到最大排序,可获得一个距离列表D,则D={D1,D2,...,Dn};
步骤1.2:提取基于聚类的候选关键帧,获得k个候选关键帧列表,一个n帧的视频片段表示为如下:
其中,KFi代表第k个候选关键帧列表,i表示第i个聚类中心,KFi 1是距离最小的帧,mi是列表中的帧数;
步骤1.3:根据每个聚类中心的主角信息选择一个主角关键信息帧,主角关键帧的定义如下:
argmaxcount(fi)
fi代表关键帧列表中出现的第i种面孔,出现频率最高的面孔定义为主角。
3.根据权利要求2所述的基于主角检测和光流转换的视频序列情感识别方法,其特征在于,步骤2中,定义补丁特征提取转换特征矩阵的方法以及构建深度学习网络的步骤如下:
步骤2.1:从主角关键帧提取补丁特征并转换成特征矩阵的方法,对于每个主角关键信息帧,调整帧大小为10万个像素的,并在五个尺度上每四个像素提取一个24×24大小的补丁,对于每个补丁,提取一个128维的尺度不变特征变换向量,最后将这些向量拼接在一起成为特征矩阵;
步骤2.2:构建用于提取深层次主角特征的卷积神经网络,卷积神经网络由五个卷积核大小为3×3的卷积层和两个全连接层构成,其中第一个和第二个卷积层、第二个和第三个卷积层、第五个卷积层和第一个全连接层之间都包含一个池化层,最后全连接层的输出大小为4096维度的特征向量。
4.根据权利要求3所述的基于主角检测和光流转换的视频序列情感识别方法,其特征在于,步骤3中,构建光流信息转换模块以及深度学习网络的步骤如下:
步骤3.1:用于将视频帧中的时间信息转化为光流信息并构成矩阵的光流信息转换模块,假设第Fi和第Fi+1帧之间的光学流场如下:
其中OFx/y是水平和垂直方向的光学流场,h和w分别表示视频帧的高度和宽度,第三通道光流计算如下:
之后将OFx、OFy和OFz重新标度为[0,255]的常见图像范围,如下:
步骤3.2:构建用于提取深层次主角特征的卷积神经网络,该网络由五个卷积核大小为3×3的卷积层和两个全连接层构成,其中第一个和第二个卷积层、第二个和第三个卷积层、第五个卷积层和第一个全连接层之间都包含一个池化层,最后全连接层的输出大小为4096维度的特征向量。
5.根据权利要求4所述的基于主角检测和光流转换的视频序列情感识别方法,其特征在于,步骤4中,构建特征融合模块f(PKF)的表达式如下:
f(PKF)=[Rsf(sfi),Rof(OFi),Xi]
其中f(PKF)代表补丁特征、光流特征以及人工给与的视觉的音频特征融合之后的高维特征,Rsf(sfi)代表经过卷积神经网络提取后的高阶补丁特征,Rof(OFi)代表经过卷积神经网络提取后的高阶光流特征,Xi代表人工给与的视觉的音频特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011591272.5A CN112613442A (zh) | 2020-12-29 | 2020-12-29 | 基于主角检测和光流转换的视频序列情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011591272.5A CN112613442A (zh) | 2020-12-29 | 2020-12-29 | 基于主角检测和光流转换的视频序列情感识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112613442A true CN112613442A (zh) | 2021-04-06 |
Family
ID=75248709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011591272.5A Pending CN112613442A (zh) | 2020-12-29 | 2020-12-29 | 基于主角检测和光流转换的视频序列情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112613442A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743267A (zh) * | 2021-08-25 | 2021-12-03 | 中国科学院软件研究所 | 一种基于螺旋和文本的多模态视频情感可视化方法及装置 |
WO2023036159A1 (en) * | 2021-09-07 | 2023-03-16 | Huawei Technologies Co., Ltd. | Methods and devices for audio visual event localization based on dual perspective networks |
-
2020
- 2020-12-29 CN CN202011591272.5A patent/CN112613442A/zh active Pending
Non-Patent Citations (1)
Title |
---|
YINGYING ZHU等: "Hybrid feature-based analysis of video’s affective content using protagonist detection", 《EXPERT SYSTEMS WITH APPLICATIONS》, vol. 128, 15 August 2019 (2019-08-15), pages 316 - 326, XP085687532, DOI: 10.1016/j.eswa.2019.03.017 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743267A (zh) * | 2021-08-25 | 2021-12-03 | 中国科学院软件研究所 | 一种基于螺旋和文本的多模态视频情感可视化方法及装置 |
CN113743267B (zh) * | 2021-08-25 | 2023-06-16 | 中国科学院软件研究所 | 一种基于螺旋和文本的多模态视频情感可视化方法及装置 |
WO2023036159A1 (en) * | 2021-09-07 | 2023-03-16 | Huawei Technologies Co., Ltd. | Methods and devices for audio visual event localization based on dual perspective networks |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111210443B (zh) | 基于嵌入平衡的可变形卷积混合任务级联语义分割方法 | |
US11315345B2 (en) | Method for dim and small object detection based on discriminant feature of video satellite data | |
Liu et al. | Nonparametric scene parsing: Label transfer via dense scene alignment | |
US20180114071A1 (en) | Method for analysing media content | |
Zhang et al. | Deep hierarchical guidance and regularization learning for end-to-end depth estimation | |
CN110569814B (zh) | 视频类别识别方法、装置、计算机设备及计算机存储介质 | |
CN110674741A (zh) | 一种基于双通道特征融合的机器视觉中手势识别方法 | |
CN105574545B (zh) | 街道环境图像多视角语义切割方法及装置 | |
CN110517270B (zh) | 一种基于超像素深度网络的室内场景语义分割方法 | |
CN112070174A (zh) | 一种基于深度学习的自然场景下文本检测方法 | |
CN112613442A (zh) | 基于主角检测和光流转换的视频序列情感识别方法 | |
CN110751195A (zh) | 一种基于改进YOLOv3的细粒度图像分类方法 | |
CN115131613A (zh) | 一种基于多向知识迁移的小样本图像分类方法 | |
CN113052017A (zh) | 一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法 | |
CN116091946A (zh) | 一种基于YOLOv5的无人机航拍图像目标检测方法 | |
Liao et al. | Action recognition with multiple relative descriptors of trajectories | |
Chiu et al. | See the difference: Direct pre-image reconstruction and pose estimation by differentiating hog | |
CN114170526A (zh) | 基于轻量化网络的遥感影像多尺度目标检测识别方法 | |
Li | A deep learning-based text detection and recognition approach for natural scenes | |
Zheng et al. | ELKPPNet: An edge-aware neural network with large kernel pyramid pooling for learning discriminative features in semantic segmentation | |
He et al. | Haze removal using aggregated resolution convolution network | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
Raihan et al. | CNN modeling for recognizing local fish | |
CN114332754A (zh) | 基于多度量检测器的Cascade R-CNN行人检测方法 | |
Shen et al. | StepNet: Spatial-temporal part-aware network for sign language recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |