CN113591838B - 目标检测方法、装置、电子设备和存储介质 - Google Patents

目标检测方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113591838B
CN113591838B CN202110721797.4A CN202110721797A CN113591838B CN 113591838 B CN113591838 B CN 113591838B CN 202110721797 A CN202110721797 A CN 202110721797A CN 113591838 B CN113591838 B CN 113591838B
Authority
CN
China
Prior art keywords
image
target
component
channel
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110721797.4A
Other languages
English (en)
Other versions
CN113591838A (zh
Inventor
郝瑞韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kuangshi Technology Co Ltd
Beijing Megvii Technology Co Ltd
Original Assignee
Beijing Kuangshi Technology Co Ltd
Beijing Megvii Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kuangshi Technology Co Ltd, Beijing Megvii Technology Co Ltd filed Critical Beijing Kuangshi Technology Co Ltd
Priority to CN202110721797.4A priority Critical patent/CN113591838B/zh
Publication of CN113591838A publication Critical patent/CN113591838A/zh
Priority to PCT/CN2022/086919 priority patent/WO2023273515A1/zh
Application granted granted Critical
Publication of CN113591838B publication Critical patent/CN113591838B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请实施例提供一种目标检测方法、装置、电子设备和存储介质,涉及图像处理技术领域,能够无需通过编码解码的方式即可对图像进行缩小,且不影响缩小后的图像中对于目标物的检测性能。目标检测方法,包括:对输入的原始彩色图像进行颜色编码,得到YUV色彩空间的多个图像;对多个图像中的目标图像进行像素区域的划分,得到目标图像对应的多个像素区域;对每个像素区域进行离散余弦变换,得到目标图像的变换特征;从变换特征中选择低频区域的目标通道;根据目标图像中目标通道的频域特征信息,进行物体检测。

Description

目标检测方法、装置、电子设备和存储介质
技术领域
本申请涉及图像处理技术领域,具体涉及一种目标检测方法、装置、电子设备和存储介质。
背景技术
目标检测任务作为计算机视觉领域的一个重要的任务,其工作目的是通过计算机的图像处理,由图像中准确定位到特定的目标物。要通过计算机实现这一工作目的,一方面,需要能够确定目标物,例如,需要获得目标物的轮廓曲线,或者获得目标物的形状尺寸等参数;另一方面,还需要定位到目标物在图像中的具体位置。目标检测任务作为后续分割、跟踪、识别等任务的基础任务,也是反映计算机视觉领域内图像处理的重要环节,只有做到准确高速的目标检测,才能够为图像处理中后续的分割、跟踪、识别等环节提供较佳的数据基础。
在实际应用中,通常是通过摄像机输入视频流,由于视频流呈现出的画面变化是由多帧数字图像的依次变换实现的,而对于每一帧的数字图像来说,都包含成矩阵排列的多个像素,由多个像素在相互垂直的两个方向上的设置数量来体现图像的分辨率,图像分辨率越高,图像携带的信息数据就越大,通常原始的视频流的数据量都较大,不利于处理、传输和存储,对视频流的编码解码很大程度限制了算法的发挥,为了平衡算力有限的问题,一般需要对大分辨率图像缩小处理,但是直接缩小图像的分辨率,一方面会消耗数据计算处理的时间,另一方面,直接对图像进行缩小处理,也很容易会损失掉图像中的小物体信息,从而导致在缩小后的图像中对于尺寸较小的目标物的检测性能较差。
发明内容
本申请实施例的目的在于提供一种目标检测方法、装置、电子设备和存储介质,能够无需通过编码解码的方式即可对图像进行缩小,且不影响缩小后的图像中对于目标物的检测性能。
本申请实施例的一方面,提供一种目标检测方法,包括:对输入的原始彩色图像进行颜色编码,得到YUV色彩空间的多个图像;对多个图像中的目标图像进行像素区域的划分,得到目标图像对应的多个像素区域;对每个像素区域进行离散余弦变换,得到目标图像的变换特征;从变换特征中选择目标区域的目标通道;根据目标图像中目标通道的频域特征信息,进行物体检测。
可选地,从变换特征中选择目标区域的目标通道包括:根据变换特征,采用通道选择网络进行检测,得到目标通道,通道选择网络为预先根据样本图像的变换特征进行训练得到的网络模型,样本图像和目标图像为相同编码格式的图像。
可选地,通道选择网络包括:池化层、卷积处理层、激活函数层及采样层;根据变换特征,采用预先训练的目标图像对应的通道选择网络进行检测,得到目标通道,包括:采用池化层,对变换特征中的各通道的特征值进行全局平均池化,得到池化特征;采用卷积处理层,对池化特征进行卷积处理,得到卷积特征;采用激活函数层,对卷积特征进行处理,得到概率特征;采用采样层,根据概率特征对与目标图像对应的通道进行采样处理,得到目标通道。
可选地,对多个图像中的目标图像进行像素区域的划分包括:划分得到的每个像素区域包括N*N个像素单元,其中,N为大于0的正整数。
可选地,每个像素区域包括8*8个像素单元。
可选地,对输入的原始彩色图像进行颜色编码,得到YUV色彩空间的多个图像还包括:对YUV色彩空间的多个图像像素的像素值分别减去预定值。
可选地,根据目标图像中目标通道的频域特征信息,进行物体检测,包括:将目标通道的频域特征信息,输入至预先训练的频域检测网络中的预设下采样层进行处理,得到目标物体的信息。
可选地,多个图像包括:Y分量图像、U分量图像、V分量图像;目标图像包括:Y分量图像。
可选地,目标图像还包括:U分量图像、V分量图像;从变换特征中选择目标区域的目标通道包括:从Y分量图像的变换特征中选择第一预设数量的低频通道作为Y分量低频通道;从U分量图像的变换特征中选择第二预设数量的低频通道作为U分量低频通道;从V分量图像的变换特征中选择第三预设数量的低频通道作为V分量低频通道;其中,第一预设数量大于第二预设数量,且大于第三预设数量。
本申请实施例的又一方面,提供了一种目标检测装置,包括:编码模块,用于对输入的原始彩色图像进行颜色编码,得到YUV色彩空间的多个图像;区域划分模块,用于对多个图像中的目标图像进行像素区域的划分,得到目标图像对应的多个像素区域;变换模块,用于对每个像素区域进行离散余弦变换,得到目标图像的变换特征;特征选择模块,用于从变换特征中选择目标区域的目标通道;检测模块,用于根据目标图像中目标通道的频域特征信息,进行物体检测。
本申请实施例的另一方面,提供了一种电子设备,包括:存储器和处理器,存储器存储有处理器可执行的计算机程序,处理器执行计算机程序时实现上述任一项的目标检测方法。
本申请实施例的再一方面,提供了一种计算机可读存储介质,存储介质上存储有计算机程序,计算机程序被读取并执行时,实现上述任一项的目标检测方法。
本申请实施例提供的一种目标检测方法、装置、电子设备和存储介质,目标检测方法包括对输入的原始彩色图像进行颜色编码,得到YUV色彩空间的多个图像;对多个图像中的目标图像进行像素区域的划分,得到目标图像对应的多个像素区域;对每个像素区域进行离散余弦变换,得到目标图像的变换特征;从变换特征中选择目标区域的目标通道;根据目标图像中目标通道的频域特征信息,进行物体检测。通过获取目标图像的变换特征,并对变换特征的选择保留,能够将目标图像中更有价值和信息量更丰富的特征进行保留,从而在不增加运算时间和程序占用的基础上,有效的提高对于图像中物体检测的准确性,无需对图像进行缩小处理而损失图像中的小物体信息,也无需进行编码解码导致运算量巨大。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本申请一些实施例提供的一种目标检测方法的流程图;
图2是本申请一些实施例的目标检测方法中对于目标图像的一个像素区域内目标通道选择路径的示意图;
图3是本申请一些实施例提供的一种目标检测方法中步骤S104的一种实施方式的流程图;
图4是本申请一些实施例提供的一种目标检测方法中步骤S1041的一种实施方式的流程图;
图5是本申请另一些实施例提供的一种目标检测方法的流程图;
图6是本申请一些实施例提供的一种目标检测方法中,步骤S104的另一种实施方式的流程图;
图7是本申请一些实施例提供的一种目标检测方法中步骤S105的一种实施方式的流程图;
图8是本申请一些实施例提供的一种目标检测装置100的示意图;
图9是本申请一些实施例提供的一种电子设备200的示意图。
图标:100-目标检测装置;110-编码模块;120-区域划分模块;130-变换模块;140-特征选择模块;150-检测模块;200-电子设备;201-存储器;202-处理器。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
在本申请的描述中,需要说明的是,术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该申请产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
近年来,基于人工智能的计算机视觉、深度学习、机器学习、图像处理、图像识别等技术研究取得了重要进展。人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸人的智能的理论、方法、技术及应用系统的新兴科学技术。人工智能学科是一门综合性学科,涉及芯片、大数据、云计算、物联网、分布式存储、深度学习、机器学习、神经网络等诸多技术种类。计算机视觉作为人工智能的一个重要分支,具体是让机器识别世界,计算机视觉技术通常包括人脸识别、活体检测、指纹识别与防伪验证、生物特征识别、人脸检测、行人检测、目标检测、行人识别、图像处理、图像识别、图像语义理解、图像检索、文字识别、视频处理、视频内容识别、行为识别、三维重建、虚拟现实、增强现实、同步定位与地图构建(SLAM)、计算摄影、机器人导航与定位等技术。随着人工智能技术的研究和进步,该项技术在众多领域展开了应用,例如安防、城市管理、交通管理、楼宇管理、园区管理、人脸通行、人脸考勤、物流管理、仓储管理、机器人、智能营销、计算摄影、手机影像、云服务、智能家居、穿戴设备、无人驾驶、自动驾驶、智能医疗、人脸支付、人脸解锁、指纹解锁、人证核验、智慧屏、智能电视、摄像机、移动互联网、网络直播、美颜、美妆、医疗美容、智能测温等领域。
目标检测任务作为计算机视觉领域的一个重要任务,目标是从一张图像中定位到物体的图像,要实现这一任务,需要两方面的工作,一方面需要确认待定位的物体,另一方面,还要定位到其在图像中的准确位置。目标检测任务作为下游分割、跟踪、识别等任务的基础部分,已经成为计算机视觉领域内的一项基本任务和挑战。
在目标检测的实际应用中,通常图像的输入是来自于摄像机,因此,输入的通常是一视频流,视频流的图像数据量较大,对于视频流的解码会消耗大量的时间和系统的运算能力,考虑到运算能力的限制,往往需要对大分辨率的图像进行缩小处理,但是直接对图像进行缩小处理,一方面同样浪费处理时间,另一方面,直接缩小的图像也会造成图像数据的损失,从而导致图像中小物体信息损失难以识别,进而导致对于图像中小物体的检测识别性能变差。
基于此,本申请实施例提供了一种目标检测方法,图1是本申请实施例提供的一种目标检测方法的流程图,如图1所示,包括:
S101、对输入的原始彩色图像进行颜色编码,得到YUV色彩空间的多个图像。
首先,对输入的原始彩色图像进行颜色编码,输入RGB原始图像(例如,一幅1080*1920*3的RGB原始图像)进行域空间转换,将RGB图像转化为色彩空间的多个分量的图像,示例地,分解为YUV色彩空间的三幅(Y,Cr,Cb)图像。YUV色彩空间中,“Y”表示明亮度(Luminance或Luma),也就是灰阶值,“U”和“V”表示的则是色度(Chrominance或Chroma),作用是描述图像色彩及饱和度,用于指定像素的颜色。
S102、对多个图像中的目标图像进行像素区域的划分,得到目标图像对应的多个像素区域。
对多个图像中的目标图像进行像素区域的划分,以得到目标图像对应的多个像素区域。其中,需要说明的是,对于多个图像的像素区域划分,可以为对多个图像中有预设选择的目标图像,直接对图像中的目标图像划分为多个像素区域,也可以为对多个图像整体都划分为多个像素区域,也就是说,可以理解为,目标图像即为整个图像。
通常情况下,目标图像对应的多个像素区域的大小应当是相同的,即,若像素区域设置为8*8的分块,则每一个像素区域均为8*8分块。
S103、对每个像素区域进行离散余弦变换,得到目标图像的变换特征。
对每个像素区域进行离散余弦变换,以得到目标图像的变换特征,像素区域进行离散余弦变换后得到目标图像对应于每个像素区域的变换特征。
在像素区域的变换特征中,通常越靠近左上角位置的系数幅度大、频率低,越靠近右下角位置的系数幅度小、频率高,所以,在这个频率系数矩阵中,左上侧为低频区域,右下侧为高频区域,而图像中的特征信息大量集中在低频区域中,也就是频率系数矩阵的左上侧。
S104、从变换特征中选择目标区域的目标通道。
因此,对变换特征做重构操作,从变换特征中选择目标区域的目标通道;其中,图2是本申请一些实施例的目标检测方法中对于目标图像的一个像素区域内目标通道选择路径的示意图,目标区域例如可以为低频区域,低频区域的目标通道选择,可以为如图2中箭头所示的顺序进行预定数量的目标通道选择,也可以是根据人为的先验信息对于通道进行挑选,而且,仍旧以分解为YUV色彩空间的三幅(Y,Cr,Cb)图像为例,对于三幅图像中的目标通道分配也需要进行选择,例如,三幅(Y,Cr,Cb)图像中,由于人眼对于亮度(Y)的识别要远比对于色度(Cr,Cb)的识别敏感,因此,基于三个分量对图像特征信息的贡献,Y的重要程度高于Cr和Cb,在三幅图像像素区域中进行目标通道选择时,对于Y中选择较多数量的目标通道,对于Cr和Cb选择较少数量的目标通道。挑选的目标通道则对应目标通道中的频域特征信息保留。
S105、根据目标图像中目标通道的频域特征信息,进行物体检测。
然后,根据挑选的目标图像中目标通道的频域特征信息,进行物体检测,由于目标图像中的目标通道经过优化选择,目标图像中能够反映目标特征的信息得到了有选择的保留,因此对目标图像进行物体检测时,能够提升图像中小尺寸物体的检测性能,而且,由于目标图像得到了有效的缩小,降低了图像处理的计算量,也就能够缩短对于图像中目标物检测时消耗的时间和降低计算资源的占用。
本申请实施例提供的一种目标检测方法,包括对输入的原始彩色图像进行颜色编码,得到YUV色彩空间的多个图像;对多个图像中的目标图像进行像素区域的划分,得到目标图像对应的多个像素区域;对每个像素区域进行离散余弦变换,得到目标图像的变换特征;从变换特征中选择目标区域例如低频区域的目标通道;根据目标图像中目标通道的频域特征信息,进行物体检测。通过获取目标图像的变换特征,并对变换特征的选择保留,能够将目标图像中更有价值和信息量更丰富的特征进行保留,从而在不增加运算时间和程序占用的基础上,有效的提高对于图像中物体检测的准确性,无需对图像进行缩小处理而损失图像中的小物体信息,也无需进行编码解码而导致运算量巨大。
在本申请的一些可选的实施例中,对多个图像中的目标图像进行像素区域的划分包括:划分得到的每个像素区域包括N*N个像素单元,其中,N为大于0的正整数。
在本申请的一些可选的实施例中,每个像素区域包括8*8个像素单元。
采用这种区域划分方式,划分得到的像素区域的横向和纵向的像素单元数量相同,以此为基本单位,便于后续步骤中的计算处理,采用每个像素区域包括8*8个像素单元作为基本单元,更有利于降低计算的复杂性。
需要说明的是,以下的说明中,均以每个像素区域为8*8个像素单元的划分方式进行举例和说明。
图3是本申请实施例提供的一种目标检测方法中,步骤S104的一种实施方式的流程图,如图3所示,S104、从变换特征中选择目标区域的目标通道包括:
S1041、根据变换特征,采用通道选择网络进行检测,得到目标通道,通道选择网络为预先根据样本图像的变换特征进行训练得到的网络模型,样本图像和目标图像为相同编码格式的图像。
在本申请的一些可选的实施例中,在执行步骤S104时,从变换特征中选择目标区域的目标通道,可以预先进行自适应训练以便实时修正,具体的,预先选取与目标图像采用相同格式的预设图像作为样本图像,根据该样本图像的变换特征进行训练以得到网络模型,在对目标图像的变换特征中选择目标区域的目标通道时,根据变换特征,采用预先训练的通道选择网络与目标图像对应进行检测,这样得到的目标通道,能够保留更有价值、有信息量的特征信息。
在本申请的一些可选的实施例中,通道选择网络可以包括:池化层、卷积处理层、激活函数层及采样层。
图4是本申请实施例提供的一种目标检测方法中,步骤S1041的一种实施方式的流程图,如图4所示,S1041、根据变换特征,采用通道选择网络进行检测,得到目标通道,通道选择网络为预先根据样本图像的变换特征进行训练得到的网络模型,样本图像和目标图像为相同编码格式的图像,包括:
S10411、采用池化层,对变换特征中的各通道的特征值进行全局平均池化,得到池化特征。
采用池化层对变换特征进行全局平均池化处理,包括对变换特征中的各个通道的特征值进行全局平均池化,以得到池化后的特征,如1*1*64的特征。
S10412、采用卷积处理层,对池化特征进行卷积处理,得到卷积特征。
采用卷积处理层,对池化后的特征再进行卷积处理,从而得到卷积特征。
S10413、采用激活函数层,对卷积特征进行处理,得到概率特征。
采用激活函数层对卷积特征进行处理,得到该池化后的特征的概率向量,作为概率特征。该激活函数层可以为sigmoid函数层。
S10414、采用采样层,根据概率特征对与目标图像对应的通道进行采样处理,得到目标通道。
继而采用采样层将概率特征中的部分通道的概率值置1,以表示通道被保留,将另一部分通道的概率值置0,以表示通道被丢弃,确定概率特征中置1的通道为目标通道。概率特征中的每个数为0~1中的概率值,概率值用于表示特征所在的通道被保留的概率。采样层可以为gumbel softmax采样层。
由于该采样后的概率特征中目标通道的概率值为1,而其它通道的概率值为0,可通过对采样后的概率特征和变换特征进行相乘,得到该目标通道的频域特征信息。
注意力机制(Attention Mechanism)源于对人类视觉的研究。在认知科学中,由于信息处理的瓶颈,人类会选择性地关注所有信息的一部分,同时忽略其他可见的信息,这一机制通常被称为注意力机制。人类视网膜不同的部位具有不同程度的信息处理能力,即敏锐度(Acuity),只有视网膜中央凹部位具有最强的敏锐度。为了合理利用有限的视觉信息处理资源,人类需要选择视觉区域中的特定部分,然后集中关注它。注意力机制主要有两个方面:决定需要关注输入的哪部分;分配有限的信息处理资源给重要的部分。
基于此,资源集中于关注点处,能够更有效率的集中利用资源,因此,能够对目标通道进行有目标有选择的保留,进而提高目标图像的缩小处理后进行目标图像中物体检测的准确性。
图5是本申请另一些实施例提供的一种目标检测方法的流程图,如图5所示,步骤S101、对输入的原始彩色图像进行颜色编码,得到YUV色彩空间的多个图像还包括:
S1011、对YUV色彩空间的多个图像像素的像素值分别减去预设值。
在本申请的一些可选的实施例中,步骤S101、对输入的原始彩色图像进行颜色编码,得到YUV色彩空间的多个图像还包括:
S1011、对YUV色彩空间的多个图像像素的像素值分别减去预设值。
在对输入的原始彩色图像进行颜色编码,将输入的RGB原始图像分解为YUV色彩空间的三幅(Y,Cr,Cb)图像之后,还包括对YUV色彩空间的多个图像像素的像素值分别减去127。对每一个图像像素的像素值均进行减127(在此示例中,127即为预设值)的左移操作,保证每个8*8分块的对称。
在本申请的一些可选的实施例中,多个图像包括:Y分量图像、U分量图像、V分量图像;目标图像包括:Y分量图像。
在对输入的原始彩色图像进行颜色编码,将输入的RGB原始图像分解为YUV色彩空间的三幅(Y,Cr,Cb)图像之后,Y分量图像用于表示色彩空间图像的灰阶,U分量图像和V分量图像表达的是色彩空间图像的色彩和饱和度,由于各分量图像中,用于表示灰阶的Y分量图像相对于U分量图像和V分量图像来说,对于色彩空间图像视觉质量的贡献更高,因此,目标图像包括Y分量图像,即可满足对于目标图像的缩小处理后进行目标图像中物体检测所需的准确性。
在本申请的一些可选的实施例中,目标图像还包括:U分量图像、V分量图像。即,目标图像包括Y分量图像、U分量图像和V分量图像,目标图像包含了整个色彩空间图像中三个分量的图像,从而,在对目标图像进行缩小处理后,即使对于在图像视觉质量上贡献相对不高的U分量图像和V分量图像也能够进行处理和有选择的保留,进而提高目标图像的缩小处理后进行目标图像中物体检测的准确性。
在目标图像包括Y分量图像、U分量图像和V分量图像的前提下,与之相配合的,在本申请的一些可选的实施例中,图6是本申请实施例提供的一种目标检测方法中,步骤S104的另一种实施方式的流程图,如图6所示,S104、从变换特征中选择目标区域的目标通道包括:
S1042、从Y分量图像的变换特征中选择第一预设数量的低频通道作为Y分量低频通道。
S1043、从U分量图像的变换特征中选择第二预设数量的低频通道作为U分量低频通道。
S1044、从V分量图像的变换特征中选择第三预设数量的低频通道作为V分量低频通道;其中,第一预设数量大于第二预设数量,且大于第三预设数量。
在目标图像包括Y分量图像、U分量图像和V分量图像时,执行步骤S104、从变换特征中选择目标区域的目标通道时,可以包括分别对从Y分量图像的变换特征、从U分量图像的变换特征以及从V分量图像的变换特征中选择低频通道,以分别作为Y分量低频通道、U分量低频通道和V分量低频通道。而且,在执行步骤S1042、从Y分量图像的变换特征中选择第一预设数量的低频通道作为Y分量低频通道中,选择的低频通道数量为第一预设数量,在执行步骤S1043、从U分量图像的变换特征中选择第二预设数量的低频通道作为U分量低频通道中,选择的低频通道数量为第二预设数量,在执行步骤S1044、从V分量图像的变换特征中选择第三预设数量的低频通道作为V分量低频通道中,选择的低频通道数量为第三预设数量,而且,第一预设数量大于第二预设数量且大于第三预设数量,即,在执行对于Y分量图像、U分量图像和V分量图像的变换特征中选择低频通道时,仍然遵循前述的Y分量图像对于色彩空间图像视觉质量的贡献更高的原则,在执行步骤S1042时,对于从Y分量图像的变换特征中选择低频通道作为Y分量低频通道的第一预设数量大于对于U分量图像和V分量图像的变换特征的低频通道的选择数量。
图7是本申请一些实施例提供的一种目标检测方法中步骤S105的一种实施方式的流程图,如图7所示,S105、根据目标图像中目标通道的频域特征信息,进行物体检测,包括:
S1051、将目标通道的频域特征信息,输入至预先训练的频域检测网络中的预设下采样层进行处理,得到目标物体的信息。
在本申请的一些可选的实施例中,在根据目标图像中目标通道的频域特征信息进行物体检测的具体方式可以为,在预先训练的频域检测网络中的预设下采样层输入目标通道的频域特征信息并进行处理,以得到目标物体的信息。
在本申请的一些可选的实施例中,可以使用现有的主流检测网络,如FasterRCNN、Retinanet等来实现在频域特征上进行检测,具体的做法即是根据得到的频域特征信息拼接到原频域检测网络中四倍下采样处作为输入。频域特征检测可以直接使用四倍大小的原始图像作为输入,从而可以保留图像中更多的小物体信息,所以对于小物体的检测性能更好,同时可以直接使用如4K摄像机这种高数据信息量的图像作为输入,而不必预先对图像进行缩小处理。
图8是本申请实施例提供的一种目标检测装置的示意图,如图8所示,本申请实施例的又一方面,提供了一种目标检测装置100,目标检测装置100可包括:
编码模块110,用于对输入的原始彩色图像进行颜色编码,得到YUV色彩空间的多个图像。
区域划分模块120,用于对多个图像中的目标图像进行像素区域的划分,得到目标图像对应的多个像素区域。
变换模块130,用于对每个像素区域进行离散余弦变换,得到目标图像的变换特征。
特征选择模块140,用于从变换特征中选择目标区域的目标通道。
检测模块150,用于根据目标图像中目标通道的频域特征信息,进行物体检测。
在本申请的一些可选的实施方式中,目标检测装置通过获取目标图像的变换特征,并对变换特征的选择保留,能够将目标图像中更有价值和信息量更丰富的特征进行保留,从而在不增加运算时间和程序占用的基础上,有效的提高对于图像中物体检测的准确性,无需对图像进行缩小处理而损失图像中的小物体信息,也无需进行编码解码导致运算量巨大。
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital singnal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
在本申请的一些可选的实施方式中,特征选择模块140,具体用于根据变换特征,采用预先训练的目标图像对应的通道选择网络进行检测,得到目标通道,通道选择网络为预先根据样本图像的变换特征进行训练得到的网络模型,样本图像和目标图像为相同编码格式的图像。
在本申请的一些可选的实施方式中,通道选择网络包括:池化层、卷积处理层、激活函数层及采样层。特征选择模块140具体用于采用池化层,对变换特征中的各通道的特征值进行全局平均池化,得到池化特征;采用卷积处理层,对池化特征进行卷积处理,得到卷积特征;采用激活函数层,对卷积特征进行处理,得到概率特征;采用采样层,根据概率特征对与目标图像对应的通道进行采样处理,得到目标通道。
在本申请的一些可选的实施方式中,区域划分模块120具体用于对多个图像中的目标图像进行像素区域划分,划分得到的每个像素区域包括N*N个像素单元,其中,N为大于0的正整数。
在本申请的一些可选的实施方式中,划分得到的每个像素区域包括8*8个像素单元。
在本申请的一些可选的实施方式中,编码模块110,具体用于对输入的原始彩色图像进行颜色编码,得到YUV色彩空间的多个图像,还用于对YUV色彩空间的多个图像像素的像素值分别减去127。
在本申请的一些可选的实施方式中,检测模块150,具体用于将目标通道的频域特征信息,输入至预先训练的频域检测网络中的预设下采样层进行处理,得到目标物体的信息。
在本申请的一些可选的实施方式中,多个图像包括Y分量图像、U分量图像和V分量图像。目标图像包括Y分量图像,在一些可选地实施方式中,目标图像还包括U分量图像、V分量图像。
在目标图像包括Y分量图像、U分量图像和V分量图像的情况下,特征选择模块140,具体用于从Y分量图像的变换特征中选择第一预设数量的低频通道作为Y分量低频通道;从U分量图像的变换特征中选择第二预设数量的低频通道作为U分量低频通道;从V分量图像的变换特征中选择第三预设数量的低频通道作为V分量低频通道;其中,第一预设数量大于第二预设数量,且大于第三预设数量。
上述装置用于执行前述实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。
图9是本申请实施例提供的一种电子设备200的示意图,如图9所示,本申请实施例的另一方面,提供了一种电子设备200,包括:存储器201和处理器202,存储器201存储有处理器202可执行的计算机程序,处理器202调用存储器201存储的程序,执行上述任一项的目标检测方法的实施例。具体实现方式和技术效果类似,这里不再赘述。
本申请实施例的再一方面,提供了一种计算机可读存储介质,存储介质上存储有计算机程序,计算机程序被读取并执行时,实现上述任一项的目标检测方法。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (9)

1.一种目标检测方法,其特征在于,包括:
对输入的原始彩色图像进行颜色编码,得到YUV色彩空间的多个图像;
对所述多个图像中的目标图像进行像素区域的划分,得到所述目标图像对应的多个像素区域;
对每个所述像素区域进行离散余弦换,得到所述目标图像的变换特征;
从所述变换特征中选择目标区域的目标通道;
根据所述目标图像中所述目标通道的频域特征信息,进行物体检测;
所述从所述变换特征中选择目标区域的目标通道包括:
根据所述变换特征,采用通道选择网络进行检测,得到所述目标通道,所述通道选择网络为预先根据样本图像的变换特征进行训练得到的网络模型,所述样本图像和所述目标图像为相同编码格式的图像;
所述多个图像包括:Y分量图像、U分量图像、V分量图像;
所述目标图像包括:Y分量图像;
所述目标图像还包括:U分量图像、V分量图像;
所述从所述变换特征中选择目标区域的目标通道包括:
从所述Y分量图像的变换特征中选择第一预设数量的低频通道作为Y分量低频通道;
从所述U分量图像的变换特征中选择第二预设数量的低频通道作为U分量低频通道;
从所述V分量图像的变换特征中选择第三预设数量的低频通道作为V分量低频通道;其中,所述第一预设数量大于所述第二预设数量,且大于所述第三预设数量。
2.根据权利要求1所述的方法,其特征在于,所述通道选择网络包括:池化层、卷积处理层、激活函数层及采样层;
所述根据所述变换特征,采用预先训练的所述目标图像对应的通道选择网络进行检测,得到所述目标通道,包括:
采用所述池化层,对所述变换特征中的各通道的特征值进行全局平均池化,得到池化特征;
采用所述卷积处理层,对所述池化特征进行卷积处理,得到卷积特征;
采用所述激活函数层,对所述卷积特征进行处理,得到概率特征;
采用所述采样层,根据所述概率特征对与所述目标图像对应的通道进行采样处理,得到所述目标通道。
3.根据权利要求1所述的方法,其特征在于,所述对所述多个图像中的目标图像进行像素区域的划分包括:
划分得到的每个所述像素区域包括N*N个像素单元,其中,N为大于0的正整数。
4.根据权利要求3所述的方法,其特征在于,每个所述像素区域包括8*8个像素单元。
5.根据权利要求1-4任意一项所述的方法,其特征在于,所述对输入的原始彩色图像进行颜色编码,得到YUV色彩空间的多个图像还包括:
对所述YUV色彩空间的多个图像像素的像素值分别减去预定值。
6.根据权利要求1-4任意一项所述的方法,其特征在于,所述根据所述目标图像中所述目标通道的频域特征信息,进行物体检测,包括:
将所述目标通道的频域特征信息,输入至预先训练的频域检测网络中的预设下采样层进行处理,得到目标物体的信息。
7.一种目标检测装置,其特征在于,包括:
编码模块,用于对输入的原始彩色图像进行颜色编码,得到YUV色彩空间的多个图像;
区域划分模块,用于对所述多个图像中的目标图像进行像素区域的划分,得到所述目标图像对应的多个像素区域;
变换模块,用于对每个所述像素区域进行离散余弦变换,得到所述目标图像的变换特征;
特征选择模块,用于从所述变换特征中选择目标区域的目标通道;
检测模块,用于根据所述目标图像中所述目标通道的频域特征信息,进行物体检测;
特征选择模块,具体用于根据变换特征,采用预先训练的目标图像对应的通道选择网络进行检测,得到目标通道,通道选择网络为预先根据样本图像的变换特征进行训练得到的网络模型,样本图像和目标图像为相同编码格式的图像;
所述多个图像包括:Y分量图像、U分量图像、V分量图像;
所述目标图像包括:Y分量图像;
所述目标图像还包括:U分量图像、V分量图像;
所述特征选择模块,具体用于从所述Y分量图像的变换特征中选择第一预设数量的低频通道作为Y分量低频通道;从所述U分量图像的变换特征中选择第二预设数量的低频通道作为U分量低频通道;从所述V分量图像的变换特征中选择第三预设数量的低频通道作为V分量低频通道;其中,所述第一预设数量大于所述第二预设数量,且大于所述第三预设数量。
8.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器存储有所述处理器可执行的计算机程序,所述处理器执行所述计算机程序时实现上述权利要求1-6任一项所述的目标检测方法。
9.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被读取并执行时,实现上述权利要求1-6中任一所述的目标检测方法。
CN202110721797.4A 2021-06-28 2021-06-28 目标检测方法、装置、电子设备和存储介质 Active CN113591838B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110721797.4A CN113591838B (zh) 2021-06-28 2021-06-28 目标检测方法、装置、电子设备和存储介质
PCT/CN2022/086919 WO2023273515A1 (zh) 2021-06-28 2022-04-14 目标检测方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110721797.4A CN113591838B (zh) 2021-06-28 2021-06-28 目标检测方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN113591838A CN113591838A (zh) 2021-11-02
CN113591838B true CN113591838B (zh) 2023-08-29

Family

ID=78245021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110721797.4A Active CN113591838B (zh) 2021-06-28 2021-06-28 目标检测方法、装置、电子设备和存储介质

Country Status (2)

Country Link
CN (1) CN113591838B (zh)
WO (1) WO2023273515A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591838B (zh) * 2021-06-28 2023-08-29 北京旷视科技有限公司 目标检测方法、装置、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020164270A1 (zh) * 2019-02-15 2020-08-20 平安科技(深圳)有限公司 基于深度学习的行人检测方法、系统、装置及存储介质
CN112347887A (zh) * 2020-10-28 2021-02-09 深圳市优必选科技股份有限公司 一种物体检测方法、物体检测装置及电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102710938A (zh) * 2012-05-08 2012-10-03 东莞中山大学研究院 一种基于非均匀dct的视频处理方法及其装置
CN113591838B (zh) * 2021-06-28 2023-08-29 北京旷视科技有限公司 目标检测方法、装置、电子设备和存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020164270A1 (zh) * 2019-02-15 2020-08-20 平安科技(深圳)有限公司 基于深度学习的行人检测方法、系统、装置及存储介质
CN112347887A (zh) * 2020-10-28 2021-02-09 深圳市优必选科技股份有限公司 一种物体检测方法、物体检测装置及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《基于DCT变换的多通道特征的行人检测》;刘春阳 等;《计算机科学》;20171130;第44卷(第11A期);第221-224、256页 *

Also Published As

Publication number Publication date
WO2023273515A1 (zh) 2023-01-05
CN113591838A (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
CN108122234B (zh) 卷积神经网络训练及视频处理方法、装置和电子设备
CN111402130B (zh) 数据处理方法和数据处理装置
CN111681177B (zh) 视频处理方法及装置、计算机可读存储介质、电子设备
EP4137991A1 (en) Pedestrian re-identification method and device
CN113592726A (zh) 高动态范围成像方法、装置、电子设备和存储介质
CN114627034A (zh) 一种图像增强方法、图像增强模型的训练方法及相关设备
CN113284055A (zh) 一种图像处理的方法以及装置
CN114519667A (zh) 一种图像超分辨率重建方法及系统
CN115577768A (zh) 半监督模型训练方法和装置
CN113066018A (zh) 一种图像增强方法及相关装置
CN116797504A (zh) 图像融合方法、电子设备及存储介质
JP2023131117A (ja) 結合感知モデルのトレーニング、結合感知方法、装置、機器および媒体
CN111784658A (zh) 一种用于人脸图像的质量分析方法和系统
CN116205962A (zh) 基于完整上下文信息的单目深度估计方法及系统
CN113591838B (zh) 目标检测方法、装置、电子设备和存储介质
CN115131229A (zh) 图像降噪、滤波数据处理方法、装置和计算机设备
CN112668675B (zh) 一种图像处理方法、装置、计算机设备及存储介质
CN114049491A (zh) 指纹分割模型训练、指纹分割方法、装置、设备及介质
Zheng et al. Overwater image dehazing via cycle-consistent generative adversarial network
CN110288691B (zh) 渲染图像的方法、装置、电子设备和计算机可读存储介质
CN113569855A (zh) 一种舌象分割方法、设备及存储介质
CN116797505A (zh) 图像融合方法、电子设备及存储介质
CN113808157B (zh) 图像处理方法、装置、及计算机设备
KR20140138046A (ko) 픽처를 처리하기 위한 방법 및 디바이스
CN116263942A (zh) 一种调整图像对比度的方法、存储介质及计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant