CN113705553A - 视觉任务执行方法、装置、电子设备、存储介质及系统 - Google Patents

视觉任务执行方法、装置、电子设备、存储介质及系统 Download PDF

Info

Publication number
CN113705553A
CN113705553A CN202110507639.9A CN202110507639A CN113705553A CN 113705553 A CN113705553 A CN 113705553A CN 202110507639 A CN202110507639 A CN 202110507639A CN 113705553 A CN113705553 A CN 113705553A
Authority
CN
China
Prior art keywords
image data
original image
visual task
neural network
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110507639.9A
Other languages
English (en)
Other versions
CN113705553B (zh
Inventor
韩宇星
温江涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Research Institute Tsinghua University
Original Assignee
Shenzhen Research Institute Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Research Institute Tsinghua University filed Critical Shenzhen Research Institute Tsinghua University
Publication of CN113705553A publication Critical patent/CN113705553A/zh
Application granted granted Critical
Publication of CN113705553B publication Critical patent/CN113705553B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/617Upgrading or updating of programs or applications for camera control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/64Computer-aided capture of images, e.g. transfer from script file into camera, check of taken image quality, advice or proposal for image composition or decision on when to take image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本公开涉及一种视觉任务执行方法、装置、存储介质、电子设备及系统,属于信息技术领域,所述方法包括:获取图像传感器采集的未经图像处理器ISP处理的原始图像数据;将所述原始图像数据输入训练完成的用于执行目标视觉任务的第一原始图像神经网络,得到所述第一原始图像神经网络输出的视觉任务处理结果;其中,所述第一原始图像神经网络是基于原始图像训练集训练得到的。采用原始图像数据执行相应的视觉任务,以解决相关技术中经过ISP处理后的图像数据量较大,且会丢失相关信息的问题。

Description

视觉任务执行方法、装置、电子设备、存储介质及系统
技术领域
本公开涉及信息技术领域,具体地,涉及一种视觉任务执行方法、装置、电子设备、存储介质及系统。
背景技术
当前的成像系统中,图像传感器采集的图像数据会由图像信号处理器(ISP,ImageSignal Processor)进行去栅格化、去噪、白平衡等处理,ISP处理后的数据一般被重构成高时空分辨率的图像序列,以满足人类观众对更好看的图像的需求,而信息论表明信息不可能从信号处理中获得,而只能从信号处理中丢失。并且,由于成像设备的分辨率和精度的迅速提高,重构成高时空分辨率的图像序列数据量极大,也给进行可视化数据挖掘、训练用于计算机视觉的人工神经网络以及基于神经网络的推理带来了困难。
发明内容
为了解决相关技术中存在的问题,本公开提供一种视觉任务执行方法、装置、电子设备、存储介质及系统。
为了实现上述目的,本公开第一方面提供一种视觉任务执行方法,所述方法包括:
获取图像传感器采集的未经图像处理器ISP处理的原始图像数据;
将所述原始图像数据输入训练完成的用于执行目标视觉任务的第一原始图像神经网络,得到所述第一原始图像神经网络输出的视觉任务处理结果;
其中,所述第一原始图像神经网络是基于原始图像训练集训练得到的。
可选地,所述第一原始图像神经网络的训练包括:
将带有标签的传统训练图像输入预先训练的ISP逆映射模型,得到原始图像训练样本,所述原始图像训练集包括所述原始图像训练样本;
根据所述原始图像训练集对所述第一原始图像神经网络进行训练。
可选地,所述第一原始图像神经网络的训练还包括:
将带有标签的传统训练图像输入预先训练的混叠模型,得到亚奈奎斯特图像数据,所述原始图像训练集还包括所述亚奈奎斯特图像数据。
可选地,所述方法还包括:
确定对应所述目标视觉任务的最大允许量化水平;并,
确定对应所述目标视觉任务的最低时空采样频率;
将所述最大允许量化水平以及所述最低时空采样频率反向传播至所述图像传感器,以使得所述图像传感器根据所述最大允许量化水平以及所述最低时空采样频率调整量化水平以及时空采样频率;
所述获取图像传感器采集的原始图像数据包括:
获取调整量化水平以及时空采样频率后的图像传感器采集的原始图像数据。
可选地,所述确定对应所述目标视觉任务的最大允许量化水平包括:
获取多组压缩图像数据,任意一组压缩图像数据中的图像数据的量化水平相同且低于所述原始图像训练集的平均量化水平,任意一组压缩图像数据与另一组压缩图像数据中的图像数据的量化水平不同;
分别将所述多组压缩图像数据中的图像数据分为训练集以及测试集,并根据每一组所述压缩图像数据的训练集和测试集,分别训练并测试一用于执行所述目标视觉任务的第二原始图像神经网络,得到对多个训练后的第二原始图像神经网络进行测试的测试结果;
根据所述测试结果,确定所述多个训练后的第二原始图像神经网络中,对所述目标视觉任务的执行结果满足第一预设条件的目标原始图像神经网络,并将用于训练所述目标原始图像神经网络的压缩图像数据的最大量化水平作为所述目标视觉任务的最大允许量化水平。
可选地,所述确定对应所述目标视觉任务的最低时空采样频率包括:
获取多组亚奈奎斯特图像数据,任意一组亚奈奎斯特图像数据中的图像数据的时空采样频率相同,任意一组亚奈奎斯特频率图像数据与另一组亚奈奎斯特图像数据中的图像数据的时空采样频率不同;
分别将所述多组亚奈奎斯特图像数据中的图像数据分为训练集以及测试集,并根据每一组所述亚奈奎斯特图像数据的训练集和测试集,分别训练并测试一用于执行所述目标视觉任务的第三原始图像神经网络,得到对多个训练后的第三原始图像神经网络进行测试的测试结果;
根据所述测试结果,确定所述多个训练后的第三原始图像神经网络中,对所述目标视觉任务的执行结果满足第二预设条件的目标原始图像神经网络,并将用于训练所述满足第二预设条件的目标原始图像神经网络的亚奈奎斯特图像数据的最小时空采样频率作为所述目标视觉任务的最小时空采样频率。
本公开第二方面提供一种视觉任务执行装置,所述装置包括:
获取模块,用于获取图像传感器采集的原始图像数据;
处理模块,用于将所述原始图像数据输入训练后的原始图像神经网络以执行目标视觉任务,得到所述原始图像神经网络输出的视觉任务处理结果;
其中,所述原始图像神经网络是基于原始图像训练集训练得到的。
可选地,所述装置包括:
第一确定模块,用于确定对应所述目标视觉任务的最大允许量化水平;
第二确定模块,用于确定对应所述目标视觉任务的最低时空采样频率;
反向传播模块,用于将所述最大允许量化水平以及所述最低时空采样频率反向传播至所述图像传感器,以使得所述图像传感器根据所述最大允许量化水平以及所述最低时空采样频率调整量化水平以及时空采样频率;
所述获取模块还用于:
获取调整量化水平以及时空采样频率后的图像传感器采集的原始图像数据。
本公开第三方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开第一方面中任意一项所述方法的步骤。
本公开第四方面提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第一方面中任意一项所述方法的步骤。
本公开第四方面提供一种视觉任务系统,所述视觉任务系统包括图像传感器和本公开第二方面所述的电子设备。
通过上述技术方案,通过使用原始图像对神经网络进行训练,得到能够直接基于原始图像执行视觉任务的模型。由于无需对来自传感器的原始图像数据进行ISP处理,不仅能够避免图像信息的丢失,还能够减少图像数据处理的时间,提高响应速度。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据一示例性实施例示出的一种视觉任务执行方法的流程图。
图2是根据一示例性实施例示出的一种原始图像神经网络的训练的流程图。
图3是根据一示例性实施例示出的一种视觉任务执行装置的框图。
图4是根据一示例性实施例示出的一种视觉任务执行装置的另一框图。
图5是根据一示例性实施例示出的一种电子设备的框图。
图6是根据一示例性实施例示出的一种视觉任务执行系统的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
图1是根据一示例性实施例示出的一种视觉任务执行方法的流程图,所述方法的执行主体可以是具有信息处理能力的电子设备,例如手机、计算机、微型计算机等,所述方法包括步骤:
S101、获取图像传感器采集的未经图像处理器ISP处理的原始图像数据。
其中,原始图像数据可以是图片,也可以是视频。
S102、将所述原始图像数据输入训练完成的用于执行目标视觉任务的第一原始图像神经网络,得到所述第一原始图像神经网络输出的视觉任务处理结果。
其中,所述第一原始图像神经网络是基于原始图像训练集训练得到的。并且,该目标视觉任务可以是检测、识别、追踪等任务,本公开对该目标视觉任务具体的任务目标不做限定。
本领域技术人员应理解,许多旨在使图像和视频更符合人眼的ISP相关操作对于计算机视觉和视觉数据挖掘而言是非必要的。事实上,信息论表明信息不可能从信号处理中获得,而只能从信号处理中丢失。
在本公开实施例中,通过使用原始图像对神经网络进行训练,得到能够直接基于原始图像执行视觉任务的模型。由于无需对来自传感器的原始图像数据进行ISP处理,不仅能够避免图像信息的丢失,还能够减少图像数据处理的时间,提高响应速度。
在一些可选的实施例中,所述第一原始图像神经网络的训练包括如图2所示的方法的步骤,图2是根据一示例性实施例示出的一种原始图像神经网络的训练的流程图:
S201、将带有标签的传统训练图像输入预先训练的ISP逆映射模型,得到原始图像训练样本,所述原始图像训练集包括所述原始图像训练样本。
S203、根据所述原始图像训练集对所述第一原始图像神经网络进行训练。
其中,ISP逆映射模型用于将传统的经过ISP处理后的图像转换为未经ISP处理的原始图像数据。
本领域技术人员还应理解,相对于能够在网络上找到的无限数量的带有标签注释的传统训练图像(即经过ISP处理后的图像),可以用于训练的高质量原始图像数据是很少的。
因此,采用本方案,能够将容易找到的传统训练图像通过ISP逆映射模型,转换为能够用于训练的原始图像训练样本,并基于该原始图像训练样本对第一神经网络进行训练,解决了相关技术中原始图像训练样本不足的问题。
在另一些实施例中,所述第一原始图像神经网络的训练还包括如图2所示的步骤:
S202、将带有标签的传统训练图像输入预先训练的混叠模型,得到亚奈奎斯特图像数据,所述原始图像训练集还包括所述亚奈奎斯特图像数据。
其中,该混叠模型用于在传统的训练图像和视频数据中加入混叠图像,引入亚奈奎斯特噪声。
本领域技术人员还应理解,在传统的香农-奈奎斯特采样理论下,常常采用较高的时空采样频率,以避免混叠,然而对机器视觉性能而言,图像信息中有亚奈奎斯特频率采样引入的噪声的影响是有限的。
然而,现有的图像传感器一般都是以采样频率高于奈奎斯特频率为目标设计的,没有非传统的亚奈奎斯特图像传感器的话,亚奈奎斯特图像是难以获取的。
因此,采用本方案,通过将容易找到的传统训练图像通过混叠模型,转换为能够用于训练的亚奈奎斯特训练样本对原始图像神经网络进行训练,以使得该原始图像神经网络不仅能够对原始图像数据执行目标视觉任务,还能够对采样频率低于奈奎斯特频率的图像执行相应的视觉任务。
在一些可选的实施例中,所述方法还包括:
确定对应所述目标视觉任务的最大允许量化水平;并,
确定对应所述目标视觉任务的最低时空采样频率;
将所述最大允许量化水平以及所述最低时空采样频率反向传播至所述图像传感器,以使得所述图像传感器根据所述最大允许量化水平以及所述最低时空采样频率调整量化水平以及时空采样频率;
所述获取图像传感器采集的原始图像数据包括:
获取调整量化水平以及时空采样频率后的图像传感器采集的原始图像数据。
本领域技术人员应知悉,与计算机视觉相关的视觉信息稀疏且任务特定,例如目标探测任务所需的图像质量将与目标识别任务所需的图像质量明显不同。而现有的成像设备的分辨率和精度的都是相当高的,获取的数据量极大,对于一些视觉任务而言,这么高的分辨率以及精度是不必要的。
采用本方案,采用能够调节量化水平以及时空采样频率的图像传感器,并能够使得该图像传感器能够根据不同的视觉任务调整其量化水平以及时空采样频率,使得采集的原始图像数据的数据量最小化,提高了通过通信信道传输、以及在各种存储介质上存储图像和视频信息的速率。
在一些可选的实施例中,所述确定对应所述目标视觉任务的最大允许量化水平包括:
获取多组压缩图像数据,任意一组压缩图像数据中的图像数据的量化水平相同且低于所述原始图像训练集的平均量化水平,任意一组压缩图像数据与另一组压缩图像数据中的图像数据的量化水平不同;
分别将所述多组压缩图像数据中的图像数据分为训练集以及测试集,并根据每一组所述压缩图像数据的训练集和测试集,分别训练并测试一用于执行所述目标视觉任务的第二原始图像神经网络,得到对多个训练后的第二原始图像神经网络进行测试的测试结果;
根据所述测试结果,确定所述多个训练后的第二原始图像神经网络中,对所述目标视觉任务的执行结果满足第一预设条件的目标原始图像神经网络,并将用于训练所述目标原始图像神经网络的压缩图像数据的最大量化水平作为所述目标视觉任务的最大允许量化水平。
其中,压缩图片或视频会使得图片或视频的量化水平明显提高,采用本方案,通过将压缩图像数据按照量化水平进行分组,对原始图像神经网络进行训练,并通过测试集对训练后的原始图像神经网络进行测试,以确定测试结果表明能够较好的完成目标视觉任务的输入图像数据的最大允许量化水平,并将该最大量化水平反向传播至图像传感器,以确定成像信息采集所需的最低质量,降低采集的原始图像数据的数据量,提高通过通信信道传输、以及在各种存储介质上存储图像和视频信息的速率。
在又一些可选的实施例中,所述确定对应所述目标视觉任务的最低时空采样频率包括:
获取多组亚奈奎斯特图像数据,任意一组亚奈奎斯特图像数据中的图像数据的时空采样频率相同,任意一组亚奈奎斯特频率图像数据与另一组亚奈奎斯特图像数据中的图像数据的时空采样频率不同;
分别将所述多组亚奈奎斯特图像数据中的图像数据分为训练集以及测试集,并根据每一组所述亚奈奎斯特图像数据的训练集和测试集,分别训练并测试一用于执行所述目标视觉任务的第三原始图像神经网络,得到对多个训练后的第三原始图像神经网络进行测试的测试结果;
根据所述测试结果,确定所述多个训练后的第三原始图像神经网络中,对所述目标视觉任务的执行结果满足第二预设条件的目标原始图像神经网络,并将用于训练所述满足第二预设条件的目标原始图像神经网络的亚奈奎斯特图像数据的最小时空采样频率作为所述目标视觉任务的最小时空采样频率。
采用本方案,通过将时空采样频率低于奈奎斯特频率的图像数据分组,对原始图像神经网络进行训练,并通过测试集对训练后的原始图像神经网络进行测试,以确定测试结果表明能够较好的完成目标视觉任务的输入图像数据的最小时空采样频率,并将该最小时空采样频率反向传播至图像传感器,使得图像传感器在采集原始图像数据的时候以该最小时空采样频率处理图像数据,降低原始图像数据的数据量,提高图像数据传输的传输效率以及数据存储效率。
其中,进一步地,该亚奈奎斯特图像数据也可以是通过如图2中步骤S202的方法获取的,此时,可以通过调节上述混叠模型的相关参数,以获得时空采样频率不同的亚奈奎斯特图像数据。
图3是根据一示例性实施例示出的一种视觉任务执行装置30,所述装置30包括:
获取模块31,用于获取图像传感器采集的原始图像数据。
处理模块32,用于将所述原始图像数据输入训练后的原始图像神经网络以执行目标视觉任务,得到所述原始图像神经网络输出的视觉任务处理结果;
其中,所述原始图像神经网络是基于原始图像训练集训练得到的。
可选地,所述装置30还包括如图4所示的:
第一确定模块41,用于确定对应所述目标视觉任务的最大允许量化水平;
第二确定模块42,用于确定对应所述目标视觉任务的最低时空采样频率;
反向传播模块43,用于将所述最大允许量化水平以及所述最低时空采样频率反向传播至所述图像传感器,以使得所述图像传感器根据所述最大允许量化水平以及所述最低时空采样频率调整量化水平以及时空采样频率;
所述获取模块31还具体用于:
获取调整量化水平以及时空采样频率后的图像传感器采集的原始图像数据。
可选地,所述第一确定模块41包括:
第一获取子模块,用于获取多组压缩图像数据,任意一组压缩图像数据中的图像数据的量化水平相同且低于所述原始图像训练集的平均量化水平,任意一组压缩图像数据与另一组压缩图像数据中的图像数据的量化水平不同;
第一训练子模块,用于分别将所述多组压缩图像数据中的图像数据分为训练集以及测试集,并根据每一组所述压缩图像数据的训练集和测试集,分别训练并测试一用于执行所述目标视觉任务的第二原始图像神经网络,得到对多个训练后的第二原始图像神经网络进行测试的测试结果;
第二确定子模块,用于根据所述测试结果,确定所述多个训练后的第二原始图像神经网络中,对所述目标视觉任务的执行结果满足第一预设条件的目标原始图像神经网络,并将用于训练所述目标原始图像神经网络的压缩图像数据的最大量化水平作为所述目标视觉任务的最大允许量化水平。
可选地,所述第二确定模块42包括:
第二获取子模块,用于获取多组亚奈奎斯特图像数据,任意一组亚奈奎斯特图像数据中的图像数据的时空采样频率相同,任意一组亚奈奎斯特频率图像数据与另一组亚奈奎斯特图像数据中的图像数据的时空采样频率不同;
第二训练子模块,用于分别将所述多组亚奈奎斯特图像数据中的图像数据分为训练集以及测试集,并根据每一组所述亚奈奎斯特图像数据的训练集和测试集,分别训练并测试一用于执行所述目标视觉任务的第三原始图像神经网络,得到对多个训练后的第三原始图像神经网络进行测试的测试结果;
第二确定子模块,用于根据所述测试结果,确定所述多个训练后的第三原始图像神经网络中,对所述目标视觉任务的执行结果满足第二预设条件的目标原始图像神经网络,并将用于训练所述满足第二预设条件的目标原始图像神经网络的亚奈奎斯特图像数据的最小时空采样频率作为所述目标视觉任务的最小时空采样频率。
在本公开实施例中,通过使用原始图像对神经网络进行训练,得到能够直接基于原始图像执行视觉任务的模型。由于无需对来自传感器的原始图像数据进行ISP处理,不仅能够避免图像信息的丢失,还能够减少图像数据处理的时间,提高响应速度。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图5是根据一示例性实施例示出的一种电子设备500的框图。如图5所示,该电子设备500可以包括:处理器501,存储器502。该电子设备500还可以包括多媒体组件503,输入/输出(I/O)接口504,以及通信组件505中的一者或多者。
其中,处理器501用于控制该电子设备500的整体操作,以完成上述的视觉任务执行方法中的全部或部分步骤。存储器502用于存储各种类型的数据以支持在该电子设备500的操作,这些数据例如可以包括用于在该电子设备500上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如原始图像图片数据、原始图像视频数据、传统训练数据、亚奈奎斯特图像数据等等。该存储器502可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-OnlyMemory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件503可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器502或通过通信组件505发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口504为处理器501和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件505用于该电子设备500与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near Field Communication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件505可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在一示例性实施例中,电子设备500可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的视觉任务执行方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的视觉任务执行方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器502,上述程序指令可由电子设备500的处理器501执行以完成上述的视觉任务执行方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的视觉任务执行方法的代码部分。
图6是根据一示例性实施例示出的一种视觉任务执行系统60的框图,如图6所示,所述视觉任务执行系统60包括图像传感器61和电子设备500。图像传感器61用于获取原始图像数据,并发送给该电子设备500,电子设备500用于执行上述视觉任务执行方法。
其中,在一种实施例中,该图像传感器61能够根据电子设备500发送的最大允许量化水平以及最低时空采样频率调节该图像传感器61的量化水平以及时空采样频率。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (11)

1.一种视觉任务执行方法,其特征在于,所述方法包括:
获取图像传感器采集的未经图像处理器ISP处理的原始图像数据;
将所述原始图像数据输入训练完成的用于执行目标视觉任务的第一原始图像神经网络,得到所述第一原始图像神经网络输出的视觉任务处理结果;
其中,所述第一原始图像神经网络是基于原始图像训练集训练得到的。
2.根据权利要求1所述的方法,其特征在于,所述第一原始图像神经网络的训练包括:
将带有标签的传统训练图像输入预先训练的ISP逆映射模型,得到原始图像训练样本,所述原始图像训练集包括所述原始图像训练样本;
根据所述原始图像训练集对所述第一原始图像神经网络进行训练。
3.根据权利要求2所述的方法,其特征在于,所述第一原始图像神经网络的训练还包括:
将带有标签的传统训练图像输入预先训练的混叠模型,得到亚奈奎斯特图像数据,所述原始图像训练集还包括所述亚奈奎斯特图像数据。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定对应所述目标视觉任务的最大允许量化水平;并,
确定对应所述目标视觉任务的最低时空采样频率;
将所述最大允许量化水平以及所述最低时空采样频率反向传播至所述图像传感器,以使得所述图像传感器根据所述最大允许量化水平以及所述最低时空采样频率调整量化水平以及时空采样频率;
所述获取图像传感器采集的原始图像数据包括:
获取调整量化水平以及时空采样频率后的图像传感器采集的原始图像数据。
5.根据权利要求4所述的方法,其特征在于,所述确定对应所述目标视觉任务的最大允许量化水平包括:
获取多组压缩图像数据,任意一组压缩图像数据中的图像数据的量化水平相同且低于所述原始图像训练集的平均量化水平,任意一组压缩图像数据与另一组压缩图像数据中的图像数据的量化水平不同;
分别将所述多组压缩图像数据中的图像数据分为训练集以及测试集,并根据每一组所述压缩图像数据的训练集和测试集,分别训练并测试一用于执行所述目标视觉任务的第二原始图像神经网络,得到对多个训练后的第二原始图像神经网络进行测试的测试结果;
根据所述测试结果,确定所述多个训练后的第二原始图像神经网络中,对所述目标视觉任务的执行结果满足第一预设条件的目标原始图像神经网络,并将用于训练所述目标原始图像神经网络的压缩图像数据的最大量化水平作为所述目标视觉任务的最大允许量化水平。
6.根据权利要求4所述的方法,其特征在于,所述确定对应所述目标视觉任务的最低时空采样频率包括:
获取多组亚奈奎斯特图像数据,任意一组亚奈奎斯特图像数据中的图像数据的时空采样频率相同,任意一组亚奈奎斯特频率图像数据与另一组亚奈奎斯特图像数据中的图像数据的时空采样频率不同;
分别将所述多组亚奈奎斯特图像数据中的图像数据分为训练集以及测试集,并根据每一组所述亚奈奎斯特图像数据的训练集和测试集,分别训练并测试一用于执行所述目标视觉任务的第三原始图像神经网络,得到对多个训练后的第三原始图像神经网络进行测试的测试结果;
根据所述测试结果,确定所述多个训练后的第三原始图像神经网络中,对所述目标视觉任务的执行结果满足第二预设条件的目标原始图像神经网络,并将用于训练所述满足第二预设条件的目标原始图像神经网络的亚奈奎斯特图像数据的最小时空采样频率作为所述目标视觉任务的最小时空采样频率。
7.一种视觉任务执行装置,其特征在于,所述装置包括:
获取模块,用于获取图像传感器采集的原始图像数据;
处理模块,用于将所述原始图像数据输入训练后的原始图像神经网络以执行目标视觉任务,得到所述原始图像神经网络输出的视觉任务处理结果;
其中,所述原始图像神经网络是基于原始图像训练集训练得到的。
8.根据权利要求7所述的装置,其特征在于,所述装置包括:
第一确定模块,用于确定对应所述目标视觉任务的最大允许量化水平;
第二确定模块,用于确定对应所述目标视觉任务的最低时空采样频率;
反向传播模块,用于将所述最大允许量化水平以及所述最低时空采样频率反向传播至所述图像传感器,以使得所述图像传感器根据所述最大允许量化水平以及所述最低时空采样频率调整量化水平以及时空采样频率;
所述获取模块还用于:
获取调整量化水平以及时空采样频率后的图像传感器采集的原始图像数据。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-6中任意一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-6中任意一项所述方法的步骤。
11.一种视觉任务系统,其特征在于,所述视觉任务系统包括图像传感器和权利要求10所述的电子设备。
CN202110507639.9A 2020-05-20 2021-05-10 视觉任务执行方法、装置、电子设备、存储介质及系统 Active CN113705553B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US202063027405P 2020-05-20 2020-05-20
US63/027,405 2020-05-20

Publications (2)

Publication Number Publication Date
CN113705553A true CN113705553A (zh) 2021-11-26
CN113705553B CN113705553B (zh) 2024-01-26

Family

ID=78608002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110507639.9A Active CN113705553B (zh) 2020-05-20 2021-05-10 视觉任务执行方法、装置、电子设备、存储介质及系统

Country Status (2)

Country Link
US (1) US11637953B2 (zh)
CN (1) CN113705553B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11875478B2 (en) * 2020-08-28 2024-01-16 Nvidia Corporation Dynamic image smoothing based on network conditions
CN116048763A (zh) * 2023-02-02 2023-05-02 安徽蔚来智驾科技有限公司 一种基于bev多任务模型框架的任务处理方法、装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN86101876A (zh) * 1985-03-25 1986-09-24 美国无线电公司 处理降低分辨率视频图像的滤波系统
CN1671184A (zh) * 2004-03-16 2005-09-21 奥林巴斯株式会社 摄像装置、图像处理装置、系统及图像处理方法
EP1837826A1 (en) * 2006-03-20 2007-09-26 Matsushita Electric Industrial Co., Ltd. Image acquisition considering super-resolution post-interpolation
WO2011010431A1 (ja) * 2009-07-23 2011-01-27 パナソニック株式会社 画像処理装置、画像処理方法および撮像装置
CN106934426A (zh) * 2015-12-29 2017-07-07 三星电子株式会社 基于图像信号处理的神经网络的方法和设备
CN109863512A (zh) * 2016-09-01 2019-06-07 通用医疗公司 用于通过流形近似进行自动变换的系统和方法
CN110191291A (zh) * 2019-06-13 2019-08-30 Oppo广东移动通信有限公司 基于多帧图像的图像处理方法和装置
CN110636216A (zh) * 2019-08-28 2019-12-31 Oppo广东移动通信有限公司 图像处理方法和装置、电子设备、计算机可读存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11071501B2 (en) * 2015-08-14 2021-07-27 Elucid Bioiwaging Inc. Quantitative imaging for determining time to adverse event (TTE)
US11042586B2 (en) * 2016-12-29 2021-06-22 Shutterstock, Inc. Clustering search results based on image composition
US10482619B2 (en) * 2017-07-27 2019-11-19 AI Incorporated Method and apparatus for combining data to construct a floor plan
US11468542B2 (en) * 2019-01-18 2022-10-11 Arizona Board Of Regents On Behalf Of Arizona State University LAPRAN: a scalable Laplacian pyramid reconstructive adversarial network for flexible compressive sensing reconstruction
US11277544B2 (en) * 2019-08-07 2022-03-15 Microsoft Technology Licensing, Llc Camera-specific distortion correction
US11237111B2 (en) * 2020-01-30 2022-02-01 Trustees Of Boston University High-speed delay scanning and deep learning techniques for spectroscopic SRS imaging
US11451703B2 (en) * 2020-03-23 2022-09-20 Samsung Electronics Co.. Ltd. Method and system for customizing camera parameters

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN86101876A (zh) * 1985-03-25 1986-09-24 美国无线电公司 处理降低分辨率视频图像的滤波系统
CN1671184A (zh) * 2004-03-16 2005-09-21 奥林巴斯株式会社 摄像装置、图像处理装置、系统及图像处理方法
EP1837826A1 (en) * 2006-03-20 2007-09-26 Matsushita Electric Industrial Co., Ltd. Image acquisition considering super-resolution post-interpolation
WO2011010431A1 (ja) * 2009-07-23 2011-01-27 パナソニック株式会社 画像処理装置、画像処理方法および撮像装置
CN106934426A (zh) * 2015-12-29 2017-07-07 三星电子株式会社 基于图像信号处理的神经网络的方法和设备
CN109863512A (zh) * 2016-09-01 2019-06-07 通用医疗公司 用于通过流形近似进行自动变换的系统和方法
CN110191291A (zh) * 2019-06-13 2019-08-30 Oppo广东移动通信有限公司 基于多帧图像的图像处理方法和装置
CN110636216A (zh) * 2019-08-28 2019-12-31 Oppo广东移动通信有限公司 图像处理方法和装置、电子设备、计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BROOKS T等: "Unprocessing images for learned raw denoising", 《PROCEEDINGS OF THE IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》, pages 4 *
YU S等: "Deep de-aliasing for fast compressive sensing MRI", 《 ARXIV:1705.07137V1 [CS.CV]》, pages 1 - 16 *

Also Published As

Publication number Publication date
US11637953B2 (en) 2023-04-25
CN113705553B (zh) 2024-01-26
US20210368095A1 (en) 2021-11-25

Similar Documents

Publication Publication Date Title
CN108900776B (zh) 用于确定响应时间的方法和装置
US20210326587A1 (en) Human face and hand association detecting method and a device, and storage medium
CN111782968B (zh) 内容推荐方法、装置、可读介质及电子设备
CN112905839A (zh) 模型训练方法、模型使用方法、装置、存储介质及设备
CN113705553A (zh) 视觉任务执行方法、装置、电子设备、存储介质及系统
US20210064919A1 (en) Method and apparatus for processing image
CN110347875B (zh) 一种视频场景分类方法、装置、移动终端及存储介质
US20220383637A1 (en) Live streaming sampling method and apparatus, and electronic device
CN110968375B (zh) 界面控制方法、装置、智能终端及计算机可读存储介质
CN113395538B (zh) 音效渲染方法、装置、计算机可读介质和电子设备
CN114389975A (zh) 网络带宽预估方法、装置、系统、电子设备及存储介质
CN116072108A (zh) 模型生成方法、语音识别方法、装置、介质及设备
CN113033680B (zh) 视频分类方法、装置、可读介质及电子设备
CN113038176B (zh) 视频抽帧方法、装置和电子设备
CN113033552B (zh) 文本识别方法、装置和电子设备
CN113011569A (zh) 离线量化参数加注方法、装置、电子设备和存储介质
CN112561779B (zh) 图像风格化处理方法、装置、设备及存储介质
US11468269B2 (en) Arithmetic device, arithmetic method, and discrimination system
CN109600571B (zh) 多媒体资源传输测试系统和多媒体资源传输测试方法
CN116306981A (zh) 策略确定方法、装置、介质及电子设备
CN109698933B (zh) 数据传输方法及摄像机、电子设备、计算机可读存储介质
CN112418233B (zh) 图像处理方法、装置、可读介质及电子设备
CN111737575B (zh) 内容分发方法、装置、可读介质及电子设备
CN113222050A (zh) 图像分类方法、装置、可读介质及电子设备
CN111294512A (zh) 图像处理方法、装置、存储介质及摄像装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant