CN114241360A - 一种基于自适应推理的视频识别方法和装置 - Google Patents

一种基于自适应推理的视频识别方法和装置 Download PDF

Info

Publication number
CN114241360A
CN114241360A CN202111402759.9A CN202111402759A CN114241360A CN 114241360 A CN114241360 A CN 114241360A CN 202111402759 A CN202111402759 A CN 202111402759A CN 114241360 A CN114241360 A CN 114241360A
Authority
CN
China
Prior art keywords
initial
network
local area
area image
feature extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111402759.9A
Other languages
English (en)
Inventor
黄高
王语霖
陈昭熹
蒋昊峻
宋士吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202111402759.9A priority Critical patent/CN114241360A/zh
Publication of CN114241360A publication Critical patent/CN114241360A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了一种基于自适应推理的视频识别方法和装置,属于视频分析技术领域。本申请实施例使用全局特征提取网络提取视频流中的每帧图像的粗粒度全局特征图后,使用策略网络将包含目标物体的初始局部区域图像裁剪出来,再通过局部特征提取网络提取细粒度局部特征图,并对粗粒度全局特征图和细粒度局部特征图进行平均池化和级联操作,得到融合特征向量,最后利用分类器根据融合特征向量,确定当前帧图像的目标局部图像以及目标局部图像对应的预测标签。本申请实施例能够有效识别出每帧图像中信息量最丰富的目标局部图像,并输出对应的预测标签,实现对每帧图像的自适应在线推理,并通过压缩每帧图像的空间冗余信息,有效降低推理时延和计算量。

Description

一种基于自适应推理的视频识别方法和装置
技术领域
本申请涉及视频分析技术领域,特别是涉及一种基于自适应推理的视频识别方法和装置。
背景技术
目前,得益于深度神经网络技术的飞速发展,精确的视频识别算法被广泛应用于生产生活的各个领域。然而,这类算法专注于使用更大更深更复杂的网络来提升视频识别算法的精度,而忽略了实际应用中计算资源的瓶颈。在视频识别广泛的应用场景中,如安防、动态捕捉等,基于大型视频识别神经网络的算法往往需要部署在计算资源有限的边缘设备上。而这些边缘设备在运行大型神经网络的算法时,往往存在虽然精度高,但是计算资源消耗大、模型推理速度慢的问题。
发明内容
本申请提供一种基于自适应推理的视频识别方法和装置,以解决视频识别任务中计算资源消耗大、模型推理速度慢的问题。
为了解决上述问题,本申请采用了以下的技术方案:
第一方面,本申请实施例提供了一种基于自适应推理的视频识别方法,应用于神经网络,所述神经网络包括全局特征提取网络、策略网络、局部特征提取网络以及分类器,所述方法包括:
以视频流中的每一帧图像为当前帧图像;通过所述全局特征提取网络对所述当前帧图像进行特征提取,得到粗粒度全局特征图,并将所述粗粒度全局特征图输入到所述策略网络;
所述策略网络对所述粗粒度全局特征图进行裁剪,得到包含目标物体的初始局部区域图像,并将所述初始局部区域图像输入到所述局部特征提取网络;
所述局部特征提取网络对所述初始局部区域图像进行特征提取,得到细粒度局部特征图,对所述粗粒度全局特征图和所述细粒度局部特征图进行平均池化操作,分别得到全局特征向量和局部特征向量,并将所述全局特征向量和所述局部特征向量输入到级联网络;
所述级联网络对所述全局特征向量和所述局部特征向量进行级联操作,得到融合特征向量,并将所述融合特征向量输入到所述分类器;
所述分类器根据所述融合特征向量,确定所述当前帧图像的目标局部图像以及所述目标局部图像对应的预测标签。
在本申请一实施例中,所述策略网络对所述粗粒度全局特征图进行裁剪,得到包含目标物体的初始局部区域图像的步骤,包括:
所述策略网络利用预先存储的所述当前帧图像的前一帧图像的隐藏层状态向量,确定所述当前帧图像的初始局部区域图像的坐标信息,其中,所述隐藏层状态向量用于表征所述前一帧图像中的包含目标物体的初始局部区域图像所在的坐标信息;
根据所述当前帧图像的初始局部区域图像的坐标信息,对所述粗粒度全局特征图进行裁剪,得到包含目标物体的初始局部区域图像。
在本申请一实施例中,所述全局特征提取网络、所述局部特征提取网络和所述分类器的训练过程包括:
获得第一视频训练数据集,并将所述第一视频训练数据集输入到第一初始特征提取网络进行特征提取,得到第一初始全局特征图,并通过最小化交叉熵误差,以实现对所述第一初始特征提取网络的模型参数的迭代更新,最终得到所述全局特征提取网络;
通过二维均匀分布对所述第一初始全局特征图进行随机采样,以得到第一初始局部区域图像,并将所述第一初始局部区域图像输入到第二初始特征提取网络进行预训练,得到初始局部特征图,并通过最小化交叉熵误差,以实现对所述第二初始特征提取网络的模型参数的迭代更新,最终得到所述局部特征提取网络;
将所述初始局部特征图输入到初始分类器进行预训练,并通过最小化交叉熵误差,以实现对所述初始分类器的模型参数的迭代更新,最终得到所述分类器。
在本申请一实施例中,所述策略网络的训练过程包括:
获得第二视频训练数据集,并将所述第二视频训练数据集输入到所述全局特征提取网络进行特征提取,得到第二初始全局特征图,并将所述第二初始全局特征图输入到初始策略网络;
所述初始策略网络对所述第二初始全局特征图进行随机裁剪,得到第二初始局部区域图像,并将所述第二初始局部区域图像输入到所述分类器,以得到分类结果;
所述初始策略网络获得奖励函数针对所述分类结果得到的折扣奖励,并通过最大化折扣奖励的和,以实现对所述初始策略网络的模型参数的迭代更新,最终得到所述策略网络。
在本申请一实施例中,所述初始策略网络利用奖励函数获得所述分类结果对应的折扣奖励,并通过最大化折扣奖励的和,以实现对所述初始策略网络的模型参数的迭代更新,最终得到所述策略网络的步骤包括:
通过以下奖励函数,获得所述分类结果对应的折扣奖励:
Figure BDA0003370485240000031
式中:
Figure BDA0003370485240000032
表示第二视频训练数据集中的t时刻对应的第二初始局部区域图像;rt表示t时刻对应的第二初始局部区域图像的奖励值;pty表示t时刻对应的第二初始局部区域图像的分类器置信度;
Figure BDA0003370485240000033
表示t时刻对应的第二初始局部区域图像对应的误差期望;
通过以下激励函数,最大化折扣奖励的和实现对所述初始策略网络的模型参数的迭代更新,最终得到所述策略网络:
Figure BDA0003370485240000034
式中:rt表示t时刻对应的第二初始局部区域图像的奖励值;γ表示预设的奖励折扣因子;
Figure BDA0003370485240000041
表示累积的折扣奖励的和;π表示策略网络。
第二方面,基于相同发明构思,本申请实施例提供了一种基于自适应推理的视频识别装置,所述装置包括:
第一特征提取模块,用于以视频流中的每一帧图像为当前帧图像;通过全局特征提取网络对所述当前帧图像进行特征提取,得到粗粒度全局特征图,并将所述粗粒度全局特征图输入到策略网络;
第一裁剪模块,用于通过所述策略网络对所述粗粒度全局特征图进行裁剪,得到包含目标物体的初始局部区域图像,并将所述初始局部区域图像输入到局部特征提取网络;
第二特征提取模块,用于通过所述局部特征提取网络对所述初始局部区域图像进行特征提取,得到细粒度局部特征图,对所述粗粒度全局特征图和所述细粒度局部特征图进行平均池化操作,分别得到全局特征向量和局部特征向量,并将所述全局特征向量和所述局部特征向量输入到级联网络;
特征融合模块,用于通过所述级联网络对所述全局特征向量和所述局部特征向量进行级联操作,得到融合特征向量,并将所述融合特征向量输入到分类器;
结果输出模块,用于通过所述分类器根据所述融合特征向量,确定所述当前帧图像的目标局部图像以及所述目标局部图像对应的预测标签。
在本申请一实施例中,所述第一裁剪模块包括:
确定子模块,用于通过所述策略网络利用预先存储的所述当前帧图像的前一帧图像的隐藏层状态向量,确定所述当前帧图像的初始局部区域图像的坐标信息,其中,所述隐藏层状态向量用于表征所述前一帧图像中的包含目标物体的初始局部区域图像所在的坐标信息;
裁剪子模块,用于根据所述当前帧图像的初始局部区域图像的坐标信息,对所述粗粒度全局特征图进行裁剪,得到包含目标物体的初始局部区域图像。
在本申请一实施例中,所述装置还包括:
第一训练模块,用于获得第一视频训练数据集,并将所述第一视频训练数据集输入到第一初始特征提取网络进行特征提取,得到第一初始全局特征图,并通过最小化交叉熵误差,以实现对所述第一初始特征提取网络的模型参数的迭代更新,最终得到所述全局特征提取网络;
第二训练模块,用于通过二维均匀分布对所述第一初始全局特征图进行随机采样,以得到第一初始局部区域图像,并将所述第一初始局部区域图像输入到第二初始特征提取网络进行预训练,得到初始局部特征图,并通过最小化交叉熵误差,以实现对所述第二初始特征提取网络的模型参数的迭代更新,最终得到所述局部特征提取网络;
第三训练模块,用于将所述初始局部特征图输入到初始分类器进行预训练,并通过最小化交叉熵误差,以实现对所述初始分类器的模型参数的迭代更新,最终得到所述分类器。
在本申请一实施例中,所述装置还包括:
第三特征提取模块,用于获得第二视频训练数据集,并将所述第二视频训练数据集输入到所述全局特征提取网络进行特征提取,得到第二初始全局特征图,并将所述第二初始全局特征图输入到初始策略网络;
第二裁剪模块,用于通过所述初始策略网络对所述第二初始全局特征图进行随机裁剪,得到第二初始局部区域图像,并将所述第二初始局部区域图像输入到所述分类器,以得到分类结果;
第四训练模块,用于通过所述初始策略网络获得奖励函数针对所述分类结果得到的折扣奖励,并通过最大化折扣奖励的和,以实现对所述初始策略网络的模型参数的迭代更新,最终得到所述策略网络。
在本申请一实施例中,所述第四训练模块还用于:
通过以下奖励函数,获得所述分类结果对应的折扣奖励:
Figure BDA0003370485240000051
式中:
Figure BDA0003370485240000052
表示第二视频训练数据集中的t时刻对应的第二初始局部区域图像;rt表示t时刻对应的第二初始局部区域图像的奖励值;pty表示t时刻对应的第二初始局部区域图像的分类器置信度;
Figure BDA0003370485240000053
表示t时刻对应的第二初始局部区域图像对应的误差期望;
通过以下激励函数,最大化折扣奖励的和实现对所述初始策略网络的模型参数的迭代更新,最终得到所述策略网络:
Figure BDA0003370485240000061
式中:rt表示t时刻对应的第二初始局部区域图像的奖励值;γ表示预设的奖励折扣因子;
Figure BDA0003370485240000062
表示累积的折扣奖励的和;π表示策略网络。
与现有技术相比,本申请包括以下优点:
本申请实施例提供的一种基于自适应推理的视频识别方法,在使用轻量化的全局特征提取网络提取整个视频流中的每帧图像的粗粒度全局特征图后,使用策略网络将粗粒度全局特征图中包含目标物体的初始局部区域图像裁剪出来,实现对每帧图像的空间冗余性的压缩,再通过局部特征提取网络提取初始局部区域图像的细粒度局部特征图,并对粗粒度全局特征图和细粒度局部特征图进行平均池化和级联操作,得到精度更高的融合特征向量,最后利用分类器根据融合特征向量,确定当前帧图像的目标局部图像以及目标局部图像对应的预测标签。本申请实施例通过全局特征提取网络、策略网络、局部特征提取网络以及分类器的配合使用,能够有效识别出每帧图像中信息量最丰富的目标局部图像,并能够针对每个目标局部图像输出对应的预测标签,实现对每帧图像的自适应推理,在保证识别精度的同时,通过有效压缩视频流中的每帧图像中固有的空间冗余性,尽可能降低了大型神经网络的推理时延和计算量,具有更低的部署成本,更高的推理速度,以及更广的使用场景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例中一种基于自适应推理的视频识别方法的步骤流程图;
图2是本申请实施例中一种基于自适应推理的视频识别装置的功能模块示意图。
附图标记:200-基于自适应推理的视频识别装置;201-第一特征提取模块;202-第一裁剪模块;203-第二特征提取模块;204-特征融合模块;205-结果输出模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施方式需要说明的是,在视频识别的实际应用场景中,计算量往往与视频识别系统的能源消耗、碳排放量及推理延迟直接相关。因此,对于一个实际系统,从经济和安全角度考量,资源消耗代价往往是一个不可忽略的重要因素;同时对于计算资源有效的边缘设备而言,制约算法部署的瓶颈将不再是准确率,而是算法的计算效率。
在目前视频识别领域中,得益于大型神经网络的算法精度高的优势,往往是直接将原始视频流送入大型神经网络中进行识别,便能够输出高精度识别结果。然而,对于视频流中的图像而言,往往存在大量的空间冗余,正是由于这部分空间冗余的存在,增加了模型的计算量和资源消耗量,并降低了模型的推理速度。
需要说明的是,在视频分析领域,可以将视频识别任务建模为序列决策过程,即将视频流转换为长度为T的视频帧序列V={v1,2,…,vT},并输出该视频对应的类别标签pt,其中若t∈{T},则模型只需在整个视频帧序列结尾输出一个预测标签,该方式称为离线推理;若t∈{1,2,…,},则此时模型需要随时输出该视频的预测标签,且每次预测结果均基于当前帧图像以及当前帧图像的前一帧图像观测而来,该方式被称为在线推理。
针对现有技术存在计算资源消耗大、模型推理速度慢的问题,本申请实施例旨在提供一种视频识别算法,旨在通过压缩视频流的每帧图像中固有的空间冗余性,仅保留图像中信息量最丰富的目标局部图像,并输出每个目标局部图像对应的预测标签,进而实现对每帧图像的自适应在线推理,在保证识别精度的同时,尽可能降低了大型神经网络的推理时延和计算量。
参照图1,示出了本申请一种基于自适应推理的视频识别方法,应用于神经网络,所述神经网络包括全局特征提取网络、策略网络、局部特征提取网络以及分类器,所述方法可以包括以下步骤:
步骤S101:以视频流中的每一帧图像为当前帧图像;通过全局特征提取网络对所述当前帧图像进行特征提取,得到粗粒度全局特征图,并将所述粗粒度全局特征图输入到策略网络。
在本实施方式中,将视频识别任务建模为序列决策过程,即将视频流转换为长度为T的视频帧序列V={v1,v2,…,vT};将视频帧序列V输入到经过预训练的全局特征提取网络fG中进行特征提取,其中,在t时刻,全局特征提取网络以vt作为输入,获得粗粒度全局特征图
Figure BDA0003370485240000081
Figure BDA0003370485240000082
其中,T表示视频帧序列的长度,vt表示t时刻的视频帧图像;
Figure BDA0003370485240000083
表示t时刻的粗粒度全局特征图;fG表示全局特征提取网络。
步骤S102:所述策略网络对所述粗粒度全局特征图进行裁剪,得到包含目标物体的初始局部区域图像,并将所述初始局部区域图像输入到局部特征提取网络。
本实施方式需要说明的是,包含目标物体的初始局部区域图像指整个当前帧中信息量最丰富的区域,其中目标物体可以包括图像中需要聚焦的人、动物或者各种物体,本实施方式不对目标物体做出具体限制。
在本实施方式中,由于全局特征提取网络fG是针对整个图像进行的特征提取,因而得到的粗粒度全局特征图
Figure BDA0003370485240000084
虽然在一定程度上减少了冗余信息,但是并不能准确定位到信息量最丰富的区域,即包含目标物体的初始局部区域图像。
在本实施方式中,可基于强化学习算法构建策略网络π,以提高策略网络π的裁剪精度。需要说明的是,强化学习用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习的目标是从环境状态到行为的映射,使得智能体选择的行为能够获得最佳的效果,使得整个系统的运行性能为最佳。基于强化学习的系统一般包含环境、观察网络、策略网络、动作空间、激励函数等要素。
在本实施方式中,为进一步实现策略网络π对每一帧图像的自适应高效推理,提高裁剪初始局部区域图像时的效率和准确率,其中,所述策略网络π对所述粗粒度全局特征图进行裁剪,得到包含目标物体的初始局部区域图像的步骤,可以包括以下具体子步骤:
子步骤S102-1:所述策略网络π利用预先存储的所述当前帧图像的前一帧图像的隐藏层状态向量,确定所述当前帧图像的初始局部区域图像的坐标信息,其中,所述隐藏层状态向量用于表征所述前一帧图像中的包含目标物体的初始局部区域图像所在的坐标信息。
在本实施方式中,策略网络π决定了视频流中的每一帧图像在模型中应当聚焦的空间位置,通过策略网络π对粗粒度全局特征图
Figure BDA0003370485240000091
进行空间特征建模,进而确定当前帧图像中应该聚焦的空间位置,该空间位置即对应当前帧图像的初始局部区域图像的坐标信息。具体地,可以通过马尔可夫过程建模该决策过程,初始局部区域图像的位置在以下分布上采样:
Figure BDA0003370485240000092
其中,
Figure BDA0003370485240000093
代表策略网络预先存储的所述当前帧图像的前一帧图像的隐藏层状态向量;
Figure BDA0003370485240000094
为当前帧图像的粗粒度全局特征图;
Figure BDA0003370485240000095
表示初始局部区域图像;π表示策略网络。
本实施方式需要说明的是,由于不同视频帧之间具有时间连续性,前一帧图像域与当前帧图像高度相关、内容相似,所以可以通过前一帧图像中的隐藏层状态向量推理得到当前帧图像的初始局部区域图像。
优选地,可以基于循环卷积神经网络搭建策略网络π,以满足视频数据的时间特征建模,策略网络π的头部则采用1×1的卷积核,作为降采样手段以降低计算复杂度,同时使用离散化的二维空间位置作为策略网络π的动作空间,即在二维像素平面上均匀分割出若干正方形侯选位置,供策略网络π进行选择,以降低强化学习训练阶段的收敛难度。
子步骤S102-2:根据所述当前帧图像的初始局部区域图像的坐标信息,对所述粗粒度全局特征图进行裁剪,得到包含目标物体的初始局部区域图像。
在本实施方式中,通过预设的矩形框对粗粒度全局特征图
Figure BDA0003370485240000101
进行裁剪,并固定矩形框的大小,使得在进行裁剪时,只需要获取一个坐标信息(如矩形框的左上角坐标)即可获得包含目标物体的初始局部区域图像。
在本实施方式中,每一帧图像的裁剪位置均是基于上一帧图像的隐藏层状态向量得到,能够在保证识别精度的同时有效提高策略网络π的推理速度,实现高效推理。
步骤S103:所述局部特征提取网络对所述初始局部区域图像进行特征提取,得到细粒度局部特征图,对所述粗粒度全局特征图和所述细粒度局部特征图进行平均池化操作,分别得到全局特征向量和局部特征向量,并将所述全局特征向量和所述局部特征向量输入到级联网络。
在本实施方式中,针对策略网络π得到的初始局部区域图像,通过局部特征提取网络fL实现局部细粒度特征提取,并以初始局部区域图像的图片序列
Figure BDA0003370485240000102
作为输入,得到细粒度局部特征图
Figure BDA0003370485240000103
Figure BDA0003370485240000104
其中,
Figure BDA0003370485240000105
表示t时刻的初始局部区域图像,
Figure BDA0003370485240000106
表示t时刻的细粒度局部特征图。
在本实施方式中,在得到细粒度局部特征图
Figure BDA0003370485240000107
之后,对粗粒度全局特征图
Figure BDA0003370485240000108
和细粒度局部特征图
Figure BDA0003370485240000109
进行平均池化操作,分别得到全局特征向量
Figure BDA00033704852400001010
和局部特征向量
Figure BDA00033704852400001011
通过平均池化操作能够有效减少神经网络中特征的数据量,进而减少计算量和所需显存,同时保留图像的背景信息。
步骤S104:所述级联网络对所述全局特征向量和所述局部特征向量进行级联操作,得到融合特征向量,并将所述融合特征向量输入到分类器。
在本实施方式中,级联网络用于连接全局特征向量
Figure BDA0003370485240000111
和局部特征向量
Figure BDA0003370485240000112
也就是说将初始的当前帧图像和裁剪后得到的局部图像的特征进行融合,得到融合特征向量
Figure BDA0003370485240000113
通过重用全局特征提取网络fG输出的粗粒度全局特征图
Figure BDA0003370485240000114
能够进一步提升精度并提高计算效率。
步骤S105:所述分类器根据所述融合特征向量,确定所述当前帧图像的目标局部图像以及所述目标局部图像对应的预测标签。
在本实施方式中,分类器fC为经过预训练的神经网络,分类器fC可以将融合特征向量
Figure BDA0003370485240000115
映射到给定类别中的某一对应类别,得到所述目标局部图像对应的预测标签pt
Figure BDA0003370485240000116
其中,Pt表示t时刻对应的分类器fC的Softmax预测结果。在本实施方式中,基于融合特征向量
Figure BDA0003370485240000117
可实现对当前帧图像的类别的精确快速识别,并输出对应的预测标签Pt
在本实施方式中,分类器fC还可以根据融合特征向量
Figure BDA0003370485240000118
获取对应的目标局部图像的坐标信息。根据该坐标信息,可以将最终所需的信息量最丰富的目标局部图像从初始图像中(即对应的当前帧图像)裁剪出来,减少空间冗余信息,使得目标局部图像在神经网络中,尤其是大容量神经网络中能够快速准确的识别出来,尽可能降低了模型的推理时延和计算量,使得基于大型神经网络的视频识别算法能够在计算资源有限的边缘设备上实时运行,因而本实施方式具有更为广阔的应用场景。
在一个可行的实施方式中,所述全局特征提取网络fG、所述局部特征提取网络fL和所述分类器fC的训练过程可以包括以下步骤:
步骤S201:获得第一视频训练数据集,并将所述第一视频训练数据集输入到第一初始特征提取网络进行特征提取,得到第一初始全局特征图,并通过最小化交叉熵误差,以实现对所述第一初始特征提取网络的模型参数的迭代更新,最终得到所述全局特征提取网络。
步骤S202:通过二维均匀分布对所述第一初始全局特征图进行随机采样,以得到第一初始局部区域图像,并将所述第一初始局部区域图像输入到第二初始特征提取网络进行预训练,得到初始局部特征图,并通过最小化交叉熵误差,以实现对所述第二初始特征提取网络的模型参数的迭代更新,最终得到所述局部特征提取网络。
步骤S203:将所述初始局部特征图输入到初始分类器进行预训练,并通过最小化交叉熵误差,以实现对所述初始分类器的模型参数的迭代更新,最终得到所述分类器。
本实施方式需要说明的是,第一视频训练数据集Dtrain和步骤S101-步骤S205中的视频流的流程相似,即依次经过第一初始特征提取网络、第二初始特征提取网络和初始分类器进行训练,不同之处在于,使用二维均匀分布代替空间策略网络π以随机采样初始局部特征图的空间位置,进而得到初始局部特征图,作为其中的一个优选方案,在对第一初始特征提取网络、第二初始特征提取网络和初始分类器进行预设时间的训练的过程中,可以采用梯度下降法最小化交叉熵误差LCE(·):
Figure BDA0003370485240000121
其中,T表示第一视频训练数据集Dtrain的视频长度;y表示第一视频训练数据集Dtrain的真实类别标签,pt表示t时刻的第一初始特征提取网络、第二初始特征提取网络或初始分类器的Softmax预测结果,LCE(pt,y)表示第一初始特征提取网络、第二初始特征提取网络或初始分类器在t时刻对应的交叉熵误差。
在一个可行的实施方式中,在得到最终所需的所述全局特征提取网络fG、所述局部特征提取网络fL和所述分类器fC之后,再对策略网络π进行训练,具体地,策略网络π的训练过程可以包括以下步骤:
步骤S301:获得第二视频训练数据集,并将所述第二视频训练数据集输入到所述全局特征提取网络进行特征提取,得到第二初始全局特征图,并将所述第二初始全局特征图输入到初始策略网络。
步骤S302:所述初始策略网络对所述第二初始全局特征图进行随机裁剪,得到第二初始局部区域图像,并将所述第二初始局部区域图像输入到所述分类器,以得到分类结果。
步骤S303:所述初始策略网络获得奖励函数针对所述分类结果得到的折扣奖励,并通过最大化折扣奖励的和,以实现对所述初始策略网络的模型参数的迭代更新,最终得到所述策略网络。
在本实施方式中,固定经过步骤S201-步骤S203得到的全局特征提取网络fG、所述局部特征提取网络fL和所述分类器fC的网络参数,通过强化学习算法对初始策略网络进行训练。具体地,在t时刻,对于经过裁剪得到的第二初始局部区域图像,初始策略网络将接收到一个奖励来指示该裁剪位置是否有益于分类,并通过最大化折扣奖励的和来实现对所述初始策略网络的模型参数的迭代更新。其中,通过以下奖励函数,获得所述分类结果对应的折扣奖励:
Figure BDA0003370485240000131
式中:
Figure BDA0003370485240000132
表示第二视频训练数据集中的t时刻对应的第二初始局部区域图像;rt表示t时刻对应的第二初始局部区域图像的奖励值;pty表示t时刻对应的第二初始局部区域图像的分类器置信度;
Figure BDA0003370485240000133
表示t时刻对应的第二初始局部区域图像对应的误差期望。
在本实施方式中,在t时刻的奖励值rt能够度量对应的第二初始局部区域图像
Figure BDA0003370485240000134
的价值,即对于最终分类器正确判别的贡献大小;同时可以使用单次蒙特卡洛采样估计奖励函数中的
Figure BDA0003370485240000135
在奖励函数的基础上,再通过以下激励函数,最大化折扣奖励的和实现对所述初始策略网络的模型参数的迭代更新,最终得到所述策略网络π:
Figure BDA0003370485240000136
式中:rt表示t时刻对应的第二初始局部区域图像的奖励值;γ表示预设的奖励折扣因子;
Figure BDA0003370485240000137
表示累积的折扣奖励的和;π表示策略网络。
在本实施方式中,强化学习的目标是最大化激励函数,也就是最大化折扣奖励的和。在训练初始策略网络的过程中,利用激励函数使得初始策略网络针对第二初始局部区域图像的裁剪位置可以得到不断优化,使得最终的得到的策略网络π能够准确定位到图像中信息量最为丰富的局部区域,提高裁剪的准确性。
基于同一发明构思,参照图2,本申请一实施例提供了一种基于自适应推理的视频识别装置200,所述装置包括:
第一特征提取模块201,用于以视频流中的每一帧图像为当前帧图像;通过全局特征提取网络对所述当前帧图像进行特征提取,得到粗粒度全局特征图,并将所述粗粒度全局特征图输入到策略网络;
第一裁剪模块202,用于通过所述策略网络对所述粗粒度全局特征图进行裁剪,得到包含目标物体的初始局部区域图像,并将所述初始局部区域图像输入到局部特征提取网络;
第二特征提取模块203,用于通过所述局部特征提取网络对所述初始局部区域图像进行特征提取,得到细粒度局部特征图,对所述粗粒度全局特征图和所述细粒度局部特征图进行平均池化操作,分别得到全局特征向量和局部特征向量,并将所述全局特征向量和所述局部特征向量输入到级联网络;
特征融合模块204,用于通过所述级联网络对所述全局特征向量和所述局部特征向量进行级联操作,得到融合特征向量,并将所述融合特征向量输入到分类器;
结果输出模块205,用于通过所述分类器根据所述融合特征向量,确定所述当前帧图像的目标局部图像以及所述目标局部图像对应的预测标签。
在一个可行的实施方式中,所述第一裁剪模块202包括:
确定子模块,用于通过所述策略网络利用预先存储的所述当前帧图像的前一帧图像的隐藏层状态向量,确定所述当前帧图像的初始局部区域图像的坐标信息,其中,所述隐藏层状态向量用于表征所述前一帧图像中的包含目标物体的初始局部区域图像所在的坐标信息;
裁剪子模块,用于根据所述当前帧图像的初始局部区域图像的坐标信息,对所述粗粒度全局特征图进行裁剪,得到包含目标物体的初始局部区域图像。
在一个可行的实施方式中,所述装置还包括:
第一训练模块,用于获得第一视频训练数据集,并将所述第一视频训练数据集输入到第一初始特征提取网络进行特征提取,得到第一初始全局特征图,并通过最小化交叉熵误差,以实现对所述第一初始特征提取网络的模型参数的迭代更新,最终得到所述全局特征提取网络;
第二训练模块,用于通过二维均匀分布对所述第一初始全局特征图进行随机采样,以得到第一初始局部区域图像,并将所述第一初始局部区域图像输入到第二初始特征提取网络进行预训练,得到初始局部特征图,并通过最小化交叉熵误差,以实现对所述第二初始特征提取网络的模型参数的迭代更新,最终得到所述局部特征提取网络;
第三训练模块,用于将所述初始局部特征图输入到初始分类器进行预训练,并通过最小化交叉熵误差,以实现对所述初始分类器的模型参数的迭代更新,最终得到所述分类器。
在一个可行的实施方式中,所述装置还包括:
第三特征提取模块,用于获得第二视频训练数据集,并将所述第二视频训练数据集输入到所述全局特征提取网络进行特征提取,得到第二初始全局特征图,并将所述第二初始全局特征图输入到初始策略网络;
第二裁剪模块,用于通过所述初始策略网络对所述第二初始全局特征图进行随机裁剪,得到第二初始局部区域图像,并将所述第二初始局部区域图像输入到所述分类器,以得到分类结果;
第四训练模块,用于通过所述初始策略网络获得奖励函数针对所述分类结果得到的折扣奖励,并通过最大化折扣奖励的和,以实现对所述初始策略网络的模型参数的迭代更新,最终得到所述策略网络。
在一个可行的实施方式中,所述第四训练模块还用于:
通过以下奖励函数,获得所述分类结果对应的折扣奖励:
Figure BDA0003370485240000151
式中:
Figure BDA0003370485240000152
表示第二视频训练数据集中的t时刻对应的第二初始局部区域图像;rt表示t时刻对应的第二初始局部区域图像的奖励值;pty表示t时刻对应的第二初始局部区域图像的分类器置信度;
Figure BDA0003370485240000153
表示t时刻对应的第二初始局部区域图像对应的误差期望;
通过以下激励函数,最大化折扣奖励的和实现对所述初始策略网络的模型参数的迭代更新,最终得到所述策略网络:
Figure BDA0003370485240000161
式中:rt表示t时刻对应的第二初始局部区域图像的奖励值;γ表示预设的奖励折扣因子;
Figure BDA0003370485240000162
表示累积的折扣奖励的和;π表示策略网络。
需要说明的是,在本实施方式中,视频识别的具体实施方式可参见前述本申请实施例的基于自适应推理的视频识别方法的具体实施方式,在此不再赘述。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种基于自适应推理的视频识别方法和装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于自适应推理的视频识别方法,其特征在于,应用于神经网络,所述神经网络包括全局特征提取网络、策略网络、局部特征提取网络以及分类器,所述方法包括:
以视频流中的每一帧图像为当前帧图像;通过所述全局特征提取网络对所述当前帧图像进行特征提取,得到粗粒度全局特征图,并将所述粗粒度全局特征图输入到所述策略网络;
所述策略网络对所述粗粒度全局特征图进行裁剪,得到包含目标物体的初始局部区域图像,并将所述初始局部区域图像输入到所述局部特征提取网络;
所述局部特征提取网络对所述初始局部区域图像进行特征提取,得到细粒度局部特征图,对所述粗粒度全局特征图和所述细粒度局部特征图进行平均池化操作,分别得到全局特征向量和局部特征向量,并将所述全局特征向量和所述局部特征向量输入到级联网络;
所述级联网络对所述全局特征向量和所述局部特征向量进行级联操作,得到融合特征向量,并将所述融合特征向量输入到所述分类器;
所述分类器根据所述融合特征向量,确定所述当前帧图像的目标局部图像以及所述目标局部图像对应的预测标签。
2.根据权利要求1所述的方法,其特征在于,所述策略网络对所述粗粒度全局特征图进行裁剪,得到包含目标物体的初始局部区域图像的步骤,包括:
所述策略网络利用预先存储的所述当前帧图像的前一帧图像的隐藏层状态向量,确定所述当前帧图像的初始局部区域图像的坐标信息,其中,所述隐藏层状态向量用于表征所述前一帧图像中的包含目标物体的初始局部区域图像所在的坐标信息;
根据所述当前帧图像的初始局部区域图像的坐标信息,对所述粗粒度全局特征图进行裁剪,得到包含目标物体的初始局部区域图像。
3.根据权利要求1所述的方法,其特征在于,所述全局特征提取网络、所述局部特征提取网络和所述分类器的训练过程包括:
获得第一视频训练数据集,并将所述第一视频训练数据集输入到第一初始特征提取网络进行特征提取,得到第一初始全局特征图,并通过最小化交叉熵误差,以实现对所述第一初始特征提取网络的模型参数的迭代更新,最终得到所述全局特征提取网络;
通过二维均匀分布对所述第一初始全局特征图进行随机采样,以得到第一初始局部区域图像,并将所述第一初始局部区域图像输入到第二初始特征提取网络进行预训练,得到初始局部特征图,并通过最小化交叉熵误差,以实现对所述第二初始特征提取网络的模型参数的迭代更新,最终得到所述局部特征提取网络;
将所述初始局部特征图输入到初始分类器进行预训练,并通过最小化交叉熵误差,以实现对所述初始分类器的模型参数的迭代更新,最终得到所述分类器。
4.根据权利要求3所述的方法,其特征在于,所述策略网络的训练过程包括:
获得第二视频训练数据集,并将所述第二视频训练数据集输入到所述全局特征提取网络进行特征提取,得到第二初始全局特征图,并将所述第二初始全局特征图输入到初始策略网络;
所述初始策略网络对所述第二初始全局特征图进行随机裁剪,得到第二初始局部区域图像,并将所述第二初始局部区域图像输入到所述分类器,以得到分类结果;
所述初始策略网络获得奖励函数针对所述分类结果得到的折扣奖励,并通过最大化折扣奖励的和,以实现对所述初始策略网络的模型参数的迭代更新,最终得到所述策略网络。
5.根据权利要求4所述的方法,其特征在于,所述初始策略网络利用奖励函数获得所述分类结果对应的折扣奖励,并通过最大化折扣奖励的和,以实现对所述初始策略网络的模型参数的迭代更新,最终得到所述策略网络的步骤包括:
通过以下奖励函数,获得所述分类结果对应的折扣奖励:
Figure FDA0003370485230000031
式中:
Figure FDA0003370485230000032
表示第二视频训练数据集中的t时刻对应的第二初始局部区域图像;rt表示t时刻对应的第二初始局部区域图像的奖励值;pty表示t时刻对应的第二初始局部区域图像的分类器置信度;
Figure FDA0003370485230000033
表示t时刻对应的第二初始局部区域图像对应的误差期望;
通过以下激励函数,最大化折扣奖励的和实现对所述初始策略网络的模型参数的迭代更新,最终得到所述策略网络:
Figure FDA0003370485230000034
式中:rt表示t时刻对应的第二初始局部区域图像的奖励值;γ表示预设的奖励折扣因子;
Figure FDA0003370485230000035
表示累积的折扣奖励的和;π表示策略网络。
6.一种基于自适应推理的视频识别装置,其特征在于,所述装置包括:
第一特征提取模块,用于以视频流中的每一帧图像为当前帧图像;通过全局特征提取网络对所述当前帧图像进行特征提取,得到粗粒度全局特征图,并将所述粗粒度全局特征图输入到策略网络;
第一裁剪模块,用于通过所述策略网络对所述粗粒度全局特征图进行裁剪,得到包含目标物体的初始局部区域图像,并将所述初始局部区域图像输入到局部特征提取网络;
第二特征提取模块,用于通过所述局部特征提取网络对所述初始局部区域图像进行特征提取,得到细粒度局部特征图,对所述粗粒度全局特征图和所述细粒度局部特征图进行平均池化操作,分别得到全局特征向量和局部特征向量,并将所述全局特征向量和所述局部特征向量输入到级联网络;
特征融合模块,用于通过所述级联网络对所述全局特征向量和所述局部特征向量进行级联操作,得到融合特征向量,并将所述融合特征向量输入到分类器;
结果输出模块,用于通过所述分类器根据所述融合特征向量,确定所述当前帧图像的目标局部图像以及所述目标局部图像对应的预测标签。
7.根据权利要求6所述的装置,其特征在于,所述第一裁剪模块包括:
确定子模块,用于通过所述策略网络利用预先存储的所述当前帧图像的前一帧图像的隐藏层状态向量,确定所述当前帧图像的初始局部区域图像的坐标信息,其中,所述隐藏层状态向量用于表征所述前一帧图像中的包含目标物体的初始局部区域图像所在的坐标信息;
裁剪子模块,用于根据所述当前帧图像的初始局部区域图像的坐标信息,对所述粗粒度全局特征图进行裁剪,得到包含目标物体的初始局部区域图像。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第一训练模块,用于获得第一视频训练数据集,并将所述第一视频训练数据集输入到第一初始特征提取网络进行特征提取,得到第一初始全局特征图,并通过最小化交叉熵误差,以实现对所述第一初始特征提取网络的模型参数的迭代更新,最终得到所述全局特征提取网络;
第二训练模块,用于通过二维均匀分布对所述第一初始全局特征图进行随机采样,以得到第一初始局部区域图像,并将所述第一初始局部区域图像输入到第二初始特征提取网络进行预训练,得到初始局部特征图,并通过最小化交叉熵误差,以实现对所述第二初始特征提取网络的模型参数的迭代更新,最终得到所述局部特征提取网络;
第三训练模块,用于将所述初始局部特征图输入到初始分类器进行预训练,并通过最小化交叉熵误差,以实现对所述初始分类器的模型参数的迭代更新,最终得到所述分类器。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第三特征提取模块,用于获得第二视频训练数据集,并将所述第二视频训练数据集输入到所述全局特征提取网络进行特征提取,得到第二初始全局特征图,并将所述第二初始全局特征图输入到初始策略网络;
第二裁剪模块,用于通过所述初始策略网络对所述第二初始全局特征图进行随机裁剪,得到第二初始局部区域图像,并将所述第二初始局部区域图像输入到所述分类器,以得到分类结果;
第四训练模块,用于通过所述初始策略网络获得奖励函数针对所述分类结果得到的折扣奖励,并通过最大化折扣奖励的和,以实现对所述初始策略网络的模型参数的迭代更新,最终得到所述策略网络。
10.根据权利要求9所述的装置,其特征在于,所述第四训练模块还用于:
通过以下奖励函数,获得所述分类结果对应的折扣奖励:
Figure FDA0003370485230000051
式中:
Figure FDA0003370485230000052
表示第二视频训练数据集中的t时刻对应的第二初始局部区域图像;rt表示t时刻对应的第二初始局部区域图像的奖励值;pty表示t时刻对应的第二初始局部区域图像的分类器置信度;
Figure FDA0003370485230000053
表示t时刻对应的第二初始局部区域图像对应的误差期望;
通过以下激励函数,最大化折扣奖励的和实现对所述初始策略网络的模型参数的迭代更新,最终得到所述策略网络:
Figure FDA0003370485230000054
式中:rt表示t时刻对应的第二初始局部区域图像的奖励值;γ表示预设的奖励折扣因子;
Figure FDA0003370485230000055
表示累积的折扣奖励的和;π表示策略网络。
CN202111402759.9A 2021-11-23 2021-11-23 一种基于自适应推理的视频识别方法和装置 Pending CN114241360A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111402759.9A CN114241360A (zh) 2021-11-23 2021-11-23 一种基于自适应推理的视频识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111402759.9A CN114241360A (zh) 2021-11-23 2021-11-23 一种基于自适应推理的视频识别方法和装置

Publications (1)

Publication Number Publication Date
CN114241360A true CN114241360A (zh) 2022-03-25

Family

ID=80750907

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111402759.9A Pending CN114241360A (zh) 2021-11-23 2021-11-23 一种基于自适应推理的视频识别方法和装置

Country Status (1)

Country Link
CN (1) CN114241360A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452972A (zh) * 2023-03-17 2023-07-18 兰州交通大学 一种基于Transformer端到端的遥感图像车辆目标检测方法
CN117495853A (zh) * 2023-12-28 2024-02-02 淘宝(中国)软件有限公司 视频数据处理方法、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113673307A (zh) * 2021-07-05 2021-11-19 浙江工业大学 一种轻量型的视频动作识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113673307A (zh) * 2021-07-05 2021-11-19 浙江工业大学 一种轻量型的视频动作识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YULIN WANG等: "Adaptive Focus for Efficient Video Recognition", 《2021 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION》, 17 October 2021 (2021-10-17), pages 16229 - 16238, XP034092601, DOI: 10.1109/ICCV48922.2021.01594 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452972A (zh) * 2023-03-17 2023-07-18 兰州交通大学 一种基于Transformer端到端的遥感图像车辆目标检测方法
CN117495853A (zh) * 2023-12-28 2024-02-02 淘宝(中国)软件有限公司 视频数据处理方法、设备及存储介质
CN117495853B (zh) * 2023-12-28 2024-05-03 淘宝(中国)软件有限公司 视频数据处理方法、设备及存储介质

Similar Documents

Publication Publication Date Title
Liu et al. Looking fast and slow: Memory-guided mobile video object detection
US11836931B2 (en) Target detection method, apparatus and device for continuous images, and storage medium
EP3757905A1 (en) Deep neural network training method and apparatus
CN111461212B (zh) 一种用于点云目标检测模型的压缩方法
JP7425147B2 (ja) 画像処理方法、テキスト認識方法及び装置
Fang et al. Survey on the application of deep reinforcement learning in image processing
CN111027493A (zh) 一种基于深度学习多网络软融合的行人检测方法
CN110378278B (zh) 神经网络的训练方法、对象搜索方法、装置以及电子设备
CN111696110B (zh) 场景分割方法及系统
CN114241360A (zh) 一种基于自适应推理的视频识别方法和装置
JP2022554068A (ja) ビデオコンテンツ認識方法、装置、プログラム及びコンピュータデバイス
CN111783997B (zh) 一种数据处理方法、装置及设备
CN111783996B (zh) 一种数据处理方法、装置及设备
CN111368634B (zh) 基于神经网络的人头检测方法、系统及存储介质
CN114419570A (zh) 一种点云数据识别方法、装置、电子设备及存储介质
CN111652181B (zh) 目标跟踪方法、装置及电子设备
CN113011568A (zh) 一种模型的训练方法、数据处理方法及设备
CN115018039A (zh) 一种神经网络蒸馏方法、目标检测方法以及装置
CN113297959A (zh) 一种基于角点注意力孪生网络的目标跟踪方法及系统
CN111950419A (zh) 图像信息预测方法、装置、计算机设备和存储介质
CN115578416A (zh) 一种无人机目标跟踪方法、系统、介质及电子设备
CN116994021A (zh) 图像检测方法、装置、计算机可读介质及电子设备
CN114333062A (zh) 基于异构双网络和特征一致性的行人重识别模型训练方法
CN114170558A (zh) 用于视频处理的方法、系统、设备、介质和产品
CN111557010A (zh) 学习装置和方法以及程序

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220325