CN113330450A - 用于识别图像中的对象的方法 - Google Patents

用于识别图像中的对象的方法 Download PDF

Info

Publication number
CN113330450A
CN113330450A CN202080007580.0A CN202080007580A CN113330450A CN 113330450 A CN113330450 A CN 113330450A CN 202080007580 A CN202080007580 A CN 202080007580A CN 113330450 A CN113330450 A CN 113330450A
Authority
CN
China
Prior art keywords
image
neural network
processing
artificial neural
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080007580.0A
Other languages
English (en)
Inventor
金錄元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tipu Aikesi Co ltd
DeepX Co Ltd
Original Assignee
Tipu Aikesi Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tipu Aikesi Co ltd filed Critical Tipu Aikesi Co ltd
Publication of CN113330450A publication Critical patent/CN113330450A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/95Hardware or software architectures specially adapted for image or video understanding structured as a network, e.g. client-server architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4015Demosaicing, e.g. colour filter array [CFA], Bayer pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60
    • G06T5/70
    • G06T5/73
    • G06T5/90
    • G06T5/92
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7784Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
    • G06V10/7792Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors the supervisor being an automated module, e.g. "intelligent oracle"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20172Image enhancement details
    • G06T2207/20208High dynamic range [HDR] image processing

Abstract

根据本公开的一实施方案的一种用于识别图像中的对象的装置可以包括:预处理模块,其被配置为接收包括对象的图像,并通过对所接收到的图像进行图像增强处理来输出预处理图像,以提高对所接收到的图像中包括的所述对象的识别率;和对象识别模块,其被配置为通过将所述预处理图像输入到用于对象识别的人工神经网络的输入层来识别所述图像中包括的所述对象。

Description

用于识别图像中的对象的方法
技术领域
本公开内容涉及一种用于识别图像中的对象的装置和方法,并且更具体地讲涉及一种通过以下方式来识别图像中的对象的装置和方法:经由对图像进行图像增强处理而输出预处理图像,并将预处理图像输入到用于对象识别的人工神经网络。
背景技术
近来,正在进行通过使用人工智能和大数据将技术移植到配备有照相机的装置上来检测或识别从照相机捕获的图像中的对象这样的研究。例如,基于人工智能的对象识别器可以被应用于诸如自动驾驶车辆、监视摄像机、无人机等配备有照相机的装置。当这样的基于人工智能的对象识别器以高于或等于预定水平的识别率来识别由照相机捕获的图像中的对象时,配备有这样的摄像机和对象识别器的装置可以基于所识别的对象来提供诸如自动驾驶之类的服务。
在自动驾驶中,只有在任何条件下都能够高水平地理解和识别周围的驾驶环境时,才能保证驾驶的安全性。因此,为了实现与智能驾驶和自动驾驶相关联的所有功能,例如正面碰撞避免等,需要识别驾驶环境。对于用于自动驾驶的对象识别技术,不仅需要通过利用安装在车辆或无人机中的诸如照相机或雷达之类的传感器来了解周围环境以获取信息,而且还必须高精度地实时识别存在于各种快速变化的驾驶环境中的各种对象。
近年来,已经开发了通过机器学习使用深度学习处理器的对象识别技术。高性能的通用深度学习处理器由于通过热量产生导致的稳定性降低而难以应用于常规的自动驾驶汽车,以及由于高功耗而难以应用于监视摄像机和无人机。因此,需要一种能够使功耗和发热最小化同时满足使用人工智能进行自动驾驶所需的性能的技术。
发明内容
技术问题
根据本公开的实施方案的用于识别图像中的对象的装置和方法提供了一种用于通过以下方式以更高的精度来识别对象的装置和方法:接收图像,对所接收到的图像执行图像增强处理以提高对所接收到的图像中包括的对象的识别率,并通过用于对象识别的人工神经网络识别图像(该图像已经进行了图像增强处理)中包括的对象。
解决问题的手段
根据本公开内容的实施方案的一种用于识别图像中的对象的装置包括:预处理模块,其被配置为接收包括所述对象的图像,并通过对所接收到的图像进行图像增强处理来输出预处理图像,以提高对所接收到的图像中包括的所述对象的识别率;和对象识别模块,其被配置为通过将所述预处理图像输入到用于对象识别的人工神经网络的输入层来识别所述图像中包括的所述对象,其中,所述预处理模块还被配置为通过将包括所述对象的所接收到的图像输入到用于预处理的人工神经网络中以输出所述预处理图像,以便在所述用于对象识别的人工神经网络中提高对所接收到的图像中包括的所述对象的识别率,其中,所述预处理模块包括训练模块,所述训练模块通过将多个参考图像输入到所述用于预处理的人工神经网络的输入层来训练所述用于预处理的人工神经网络,以通过所述用于对象识别的人工神经网络推断为了提高对象识别率而优化的多个预处理参考图像,其中,所述多个参考图像中的每一个均包括对象。
根据一实施方案,所述对象识别模块还被配置为:通过将所述多个预处理参考图像输入到所述用于对象识别的人工神经网络的输入层来生成与在所述多个预处理参考图像中的每一个中包括的所述对象的识别结果相关联的反馈结果,并且,所述预处理模块还被配置为使用所述反馈结果训练所述用于预处理的人工神经网络。
根据一实施方案,所述对象识别模块还被配置为生成与所述预处理图像中包括的所述对象的识别结果相关联的反馈结果,并且,所述预处理模块还被配置为使用与所述预处理图像中包括的所述对象的识别结果相关联的所述反馈结果来训练所述用于预处理的人工神经网络。
根据一实施方案,所述用于对象识别的人工神经网络包括深度神经网络,所述深度神经网络包括多个层,并且,所述对象识别模块还被配置为通过所述用于对象识别的人工神经网络推断输入的所述预处理图像中包括的所述对象的类型和位置。
根据本公开内容的一实施方案的一种用于识别图像中的对象的装置包括:预处理模块,其被配置为接收包括所述对象的图像,并通过对所接收到的图像执行降噪运算处理、去模糊运算处理、高动态范围运算处理、色调映射运算处理、除雾运算处理、亮度运算处理、对比度运算处理、自动白平衡运算处理、背光补偿运算处理或解压缩运算处理中的至少一种图像增强处理来输出预处理图像,以提高对所接收到的图像中包括的所述对象的识别率,和对象识别模块,其被配置为通过将所述预处理图像输入到用于对象识别的人工神经网络的输入层来识别所述图像中包括的所述对象。
根据一实施方案,所述预处理模块还被配置为通过调整表示所接收到的图像的图像参数来对所接收到的图像执行图像增强处理。
根据一实施方案,所述图像参数包括表示所接收到的图像的多个图像子参数,并且,预处理模块被配置为对所述多个图像子参数中的每一个依次执行图像增强处理。
根据本公开内容的一实施方案的一种用于识别图像中的对象的方法包括:接收包括所述对象的图像;通过由预处理模块对所接收到的图像执行图像增强处理而输出预处理图像,以提高对所接收到的图像中包括的所述对象的识别率;以及通过将所述预处理图像输入到用于对象识别的人工神经网络的输入层来由对象识别模块识别所述图像中包括的所述对象,其中,通过所述预处理模块输出所述预处理图像包括:通过将包括所述对象的所接收到的图像输入到用于预处理的人工神经网络的输入层中来输出所述预处理图像,以便提高对所接收到的图像中包括的所述对象的识别率,其中,通过所述预处理模块输出所述预处理图像包括:通过将多个参考图像输入到所述用于预处理的人工神经网络的所述输入层来训练所述用于预处理的人工神经网络,以通过所述用于对象识别的人工神经网络推断为了提高对象识别率而优化的多个预处理参考图像,其中,所述多个参考图像中的每一个均包括对象。
根据本公开内容的一实施方案的一种用于识别图像中的对象的方法,该方法包括:接收包括所述对象的图像;通过预处理模块,经由对所接收到的图像执行降噪运算处理、去模糊运算处理、高动态范围运算处理、色调映射运算处理、除雾运算处理、亮度运算处理、对比度运算处理、自动白平衡运算处理、背光补偿运算处理或解压缩运算处理中的至少一种图像增强处理来输出预处理图像,以提高对所接收到的图像中包括的所述对象的识别率;以及通过将所述预处理图像输入到用于对象识别的人工神经网络的输入层,由对象识别模块来识别所述图像中包括的所述对象。
本公开的效果
根据本公开的各种实施方案,可以通过以下方式以高精度识别对象:对从外部设备接收的图像执行图像增强处理以提高对对象的识别率,这是由人工神经网络执行的,并且识别已通过用于对象识别的人工神经网络进行了图像增强处理的图像中包括的对象。
本公开的效果不限于上述效果,并且本领域技术人员将根据权利要求的描述清楚地理解未提及的其他效果。
附图说明
将参考以下描述的附图描述本公开的实施方案,其中相似的附图标记指代相似的元件,但不限于此。
图1是示出对应于光量的变化的识别率和后续图像结果的示例的图。
图2是示出对应于清晰度的变化的识别率和后续图像结果的示例的图。
图3是根据本公开的一实施方案示意性示出用于识别图像中的对象的装置的内部配置的框图。
图4是根据本公开的另一实施方案示意性示出用于识别图像中的对象的装置的内部配置的框图。
图5是根据一实施方案示出识别图像中包括的对象并提供反馈数据的过程的框图。
图6是根据一实施方案示出对由预处理模块接收的图像执行图像增强处理的过程的框图。
图7是根据本公开的一实施方案示出由对象识别模块识别图像中包括的对象的过程的示例性示图。
图8是示出识别图像中包括的对象的结果的示例图。
图9是根据本公开的一实施方案示出识别图像中的对象的方法的流程图。
具体实施方式
此后,将参考附图详细描述本公开的实施方案。然而,在以下描述中,将不详细描述公知的功能或构造,以免使本公开内容的主题不清楚。
在附图中,相同或相应的部件涉及相同的附图标记。另外,在以下实施方案的描述中,可以省略相同或相应部件的重复描述。然而,即使省略了部件的描述,也不意味着该部件不包括在任何实施方案中。
通过参考下文结合附图描述的实施方案,所公开的实施方案的优点和特征以及实现所述优点和特征的方法将变得显而易见。然而,本公开内容不受这些实施方案的限制,而是可以以许多不同的形式来实现,并且提供本发明的实施方案以完成本公开内容并且使得本领域普通技术人员能理解本公开内容的范围。
将简要描述在本说明书中使用的术语,并且将详细描述所公开的实施方案。
尽管在考虑本公开内容的功能的同时,选择了在本说明书中广泛使用的通用术语作为本公开内容中使用的术语,但是它们可以根据本领域普通技术人员的意图、司法先例、新技术的出现等等而变化。由本公开内容的申请人任意选择的术语也可以在特定情况下使用。在这种情况下,将在本公开内容的详细描述中详细描述其含义。因此,必须基于术语的含义和整个说明书的内容来定义术语,而不是基于术语的名称来简单地解释术语。
在本说明书中,单数表达也意图包括复数表达,除非上下文清楚地指出它们是单数。另外,除非在上下文中将复数表达明确指定为复数,否则复数表达包括单数表达。
在整个说明书中,当要件“包括或包含”一部件时,除非相反地指出,否则该要件可以表示该要件不排除另一部件,而是可以进一步包括另一部件。
如本文所用,术语“部分”、“单元”或“模块”是指执行预定功能的软件或硬件部件。但是,术语“部分”、“模块”或“单元”不限于软件或硬件。“部分”、“单元”或“模块”可以被配置在可寻址存储介质中,或者可以被配置为在至少一个处理器上运行。因此,作为示例,“部分”、“单元”或“模块”包括诸如软件部件、面向对象的软件部件,类部件和任务部件之类的部件;处理器、函数、属性、过程、子例程、程序代码段、驱动程序、固件、微代码、电路、数据、数据库、数据结构、表、数组和变量。在部件和“部分”、“模块”或“单元”中提供的功能可以组合为较少数量的部件和“部分”、“模块”和“单元”,或细分为附加的部件和“部分”、“模块”或“单元”。
在本公开的实施方案中,“部分”、“单元”或“模块”可以被实现为处理器和存储器。术语“处理器”应在广义上解释为包括通用处理器、中央处理器(CPU)、微处理器、数字信号处理器(DSP)、控制器、微控制器、状态机等等。在一些实施方案中,“处理器”可以表示专用集成电路(ASIC)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)等。术语“处理器”可以表示处理设备的组合,诸如,例如,DSP和微处理器的组合、多个微处理器的组合、耦合到DSP内核的一个或多个微处理器的组合、或任意其他类似部件的组合。
此外,在本说明书中,术语“服务器”或“客户端”可以分别包括“服务器设备”或“客户端设备”。
此外,术语“存储器”应在广义上解释为包括能够存储电子信息的任意电子部件。术语“存储器”可以表示各种类型的处理器可读介质,例如随机存取存储器(RAM)、只读存储器(ROM)、非易失性RAM(NVRAM)、可编程ROM(PROM)、可擦除可编程ROM(EPROM)、电可擦除PROM(EEPROM)、闪存、磁或光数据存储设备、寄存器等。当处理器可以从存储器读取信息和/或将信息记录在存储器中时,可以认为该存储器与处理器进行电子通信。集成到过程中的存储器与处理器进行电子通信。
此外,术语“实时”是指电子开关系统或公共控制系统必须不间断处理连续输入的信息而不中断,并且即使无法处置输入处理也不能等待或延迟输入。另外,“实时”可以包括在由计算机以信息处理方案生成数据时立即执行必要的计算处理并将其结果返回到生成数据的位置或需要数据的位置的方法。另外,“实时”是指进行物理处理的实际时间,以及意指在生成数据的同时处理数据并获得必要结果所需的时间。术语“实时”可以包括使用计算机以表格形式处理用户请求的数据并立即通知其结果的方法,并且可以包括一旦数据输入就对其进行处理的计算机操作处理方法。
此外,术语“图像”不仅可以包括由图像传感器捕获的单个图像,而且可以包括由单个图像传感器捕获的多个图像或视频。此外,术语“图像”可以包括由多个图像传感器捕获的多个图像或视频。
根据本公开的多种实施方案,用于识别对象的装置可以被配置为接收包括对象的图像,并使用用于对象识别的人工神经网络来识别所接收的图像的对象。在用于识别对象的装置中,识别包括在包括相同对象并且具有不同图像参数的多个图像中的对象的精度(即对象识别率)可能不同。在此,图像参数可以指代表示图像的特征或其组合的任意参数。替代地,图像参数可以包括表示图像的每个详细特征的任意子参数。例如,图像参数可包括与去马赛克、宽动态范围(WDR)或高动态范围(HDR)、去模糊、降噪、色调映射、白平衡和图像解压缩中的至少一者相关的子参数,但不限于此。图像参数可以包括可以代表图像的特征的任意参数或子参数。
图1是示出对应于光量变化的识别率和后续图像结果110的示例的图。图1所示的曲线图120是表示对应于光量变化的识别率的曲线图,并且是通过使用称为GoogleNet的深度学习识别模型测量识别率,同时调整来自50,000个称为ImageNet的图像数据中的每个图像的光量来获得的实验结果。
根据一个实施方案,所接收到的图像的对象识别率可以根据表示图像的特征(即作为图像参数或子参数中的一者的光量)而变化。参考对应于光量变化的图像结果110,可以通过改变Δμ的值来改变图像的光量,Δμ是所接收到的图像的光量的平均值,并且应理解,Δμ的值越大,光量越大。多个图像(其中通过捕获相同对象而获得的图像的光量是变化的)中的优选图像会因人而异。换句话说,由于个体在视网膜中具有不同的眼细胞(例如视锥细胞),所以看到这种图像的各个人可能偏好不同的图像。
另一方面,在具有用于识别对象的装置的计算装置的情况下,由于使用用于对象识别的人工神经网络来识别对象,因此在选择图像时这种偏好根本没有贡献。例如,根据偏好,人可以选择Δμ值为50的图像作为最适合对象识别的图像,但是如图1所示,当Δμ值为0时,用于识别对象的装置中的对象识别模块的对象识别率最高。也就是说,这意味着当光量具有适当的值时,深度学习识别模型的识别率是最高的。在实施方案中,GoogleNet模型被用作对象识别模块,但是本公开内容不限于此,并且可以使用使用人工神经网络的各种对象识别模块。
图2是示出对应于清晰度变化的识别率以及后续图像结果210的示例的图。如图1所示,对象识别率可以根据作为图像参数或子参数中的一者的清晰度以及光量而变化。可以通过改变与所接收到的图像的清晰度相关的σ的值来改变图像的清晰度。参考根据对应于清晰度变化的图像结果210,当σ的值为0时(即,当它是原始图像时),该示例是最清晰的,并且可以看出随着σ的值增大,图像逐渐模糊。
图2中所示的曲线图220是表示对应于清晰度变化的识别率的曲线图,并且是通过使用称为GoogleNet的深度学习识别模型测量识别率,同时调整来自50,000个称为ImageNet的图像数据中的每个图像的清晰度而获得的实验结果。参照图2所示的曲线图220,当σ的值为0时(即,当其为原始值时),用于识别对象的装置中的对象识别模块的对象识别率最高。即,意味着与清晰度相关的σ的值最小时,深度学习识别模型的识别率最高。如上所述,GoogleNet模型被用作对象识别模块,但是本公开不限于此,并且可以使用使用人工神经网络的各种对象识别模块。
参照图1和图2,在使用计算装置的对象识别技术中,可以理解,当图像中的光量具有适当的值并且其清晰度高时,深度学习识别模型的识别率高。
如上所述,在人类偏好的高清图像和能够最大化基于人工神经网络的对象识别装置的识别率的图像之间可能存在差异。例如,计算装置可能比人类具有更高的按品种对狗进行分类的可能性。即,在将输入图像输入到用于对象识别的人工神经网络的输入层之前,可以对所接收到的图像执行图像增强处理,以通过用于对象识别的人工神经网络使对象识别率最大化。将参考图3至图8详细描述该图像增强处理。
尽管实现了现有的图像预处理技术以输出人类偏好的高清图像,但是本公开内容中针对的图像处理技术旨在提高用于基于人工神经网络识别对象的装置的识别率。
图3是根据本公开的一实施方案示意性示出用于识别图像中的对象的装置300的内部配置的框图。如图3所示,用于识别图像中的对象的装置300可以包括通信模块310、存储单元320和处理器330。这里,处理器330可以被配置为包括预处理模块332和对象识别模块334。
如图所示,用于识别图像中的对象的装置300的通信模块310可以通过通信网络350与诸如机动车辆370、无人机360等外部设备进行通信。例如,这样的外部设备可以提供图像传感器,该图像传感器被配置为捕获或生成包括对象的图像以及基于图像中识别出的对象的任意服务(例如,自动驾驶)。通信网络350可以被不同地选择和配置为无线网络,例如WLAN(无线LAN)、蓝牙和ZigBee,和/或有线网络,例如以太网、有线家庭网络、电力线通信网络、电话线通信网络以及RS串行通信,具体取决于安装环境。
通信模块310可以被配置为经由通信网络350从外部设备360和370中的至少一个接收包括对象的图像。这里,图像可以是通过设置在外部设备360和370中的捕获单元捕获的图像和/或存储在外部设备中的图像,但不限于此。通信模块310可以将从外部设备360和370接收到的图像提供给处理器330。此外,通信模块310被配置为发送与由处理器330识别或检测到的在图像中的对象有关的信息或者通过通信网络350经由分析或处理这样的信息而获得的信息。
处理器330可以对通过通信模块310接收的图像执行图像增强处理,并使用用于对象识别的人工神经网络来识别图像中包括的对象。在一实施方案中,处理器330可以通过包括中央处理单元(CPU)、图形处理单元(GPU)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)以及专用集成电路(ASIC)中的至少一者来执行任意操作,并且将所接收到的图像存储在存储单元320中。此外,处理器330可以将关于从接收到的图像识别出的对象的信息或通过对识别出的对象进行处理而获得的信息存储在存储单元320中,或者将其提供给已经通过通信模块310发送了图像的外部设备。
处理器330的预处理模块332可以被配置为通过对接收到的图像执行图像增强处理来输出预处理图像,从而提高对所接收到的图像中包括的对象的识别率。例如,对所接收到的图像的图像增强处理可以包括降噪运算处理、去模糊运算处理、高动态范围运算处理、色调映射运算处理、除雾运算处理、亮度运算处理、对比度运算处理、自动白平衡运算处理、背光补偿运算处理或解压缩运算处理中的至少一种运算处理。
在一个实施方案中,预处理模块332可以被配置为通过调整表示所接收到的图像的图像参数来对所接收到的图像执行图像增强处理。这里,图像参数可以包括图像子参数,其代表以下各项中的至少一项:对所接收到的图像的去模糊、降噪、宽动态范围(WDR)或高动态范围(HDR)、色调映射和去马赛克,但不限于此,并且,图像参数可以包括与如上所述的图像增强处理相关联的子参数。
图像增强处理可以包括用于在将所接收到的图像输入到用于对象识别的人工神经网络之前对图像进行预处理的操作处理。图像预处理技术可以包括图像信号处理技术、使用机器学习方法对图像进行预处理的技术、以及使用深度学习方法对图像进行预处理的技术中的至少一种。
根据一个实施方案,预处理模块332可以对表示所接收到的图像的特征的一个或多个图像参数执行图像信号处理。例如,可以顺序地执行针对多个图像参数中的每一个的图像信号处理。即,在对多个图像参数中的一个进行预处理之后,可以对具有处理后的参数的图像执行另一图像参数的预处理。
根据另一实施方案,预处理模块332可以被配置为使用图像预处理模型来对表示所接收到的图像的特征的一个或多个图像参数进行预处理。这里,可以使用各种参考图像或视频来训练图像预处理模型,并且当输入包括对象的图像时,图像预处理模型可以被配置为输出这样的图像的预处理图像,以便最大化在用于对象识别的人工神经网络中对输入图像的对象识别率。举例而言,图像预处理模型包括图像预处理概率模型,并且可以通过输入学习数据(例如,将各种参考图像或视频输入到用于预处理的人工神经网络)经由机器学习算法进行训练,以推断能够最大化对象识别率的预处理图像。举另一示例而言,图像预处理模型包括经训练的人工神经网络(例如,深度神经网络等),并且可以通过AI学习来训练。
尽管已经描述了预处理模块332通过调节表示所接收到的图像的特征的图像参数来执行对所接收到的图像的图像增强处理,但是本公开内容不限于此。为了提高对图像的对象识别率,可以根据需要对所接收到的图像进行任意的增强处理。在一实施方案中,当所接收到的图像是压缩图像时,预处理模块332可以将由于压缩而丢失的部分校正为接近原始图像。
处理器330的对象识别模块334可以被配置为通过将预处理图像输入到用于对象识别的人工神经网络的输入层来识别图像中包括的对象。例如,对象识别模块334可以推断预处理图像中包括的一个或多个对象的类型和位置。这里,用于对象识别的人工神经网络可以包括任意的人工神经网络,其被训练以通过接收参考图像输入来识别参考图像中的对象,并且当图像被输入到其中时推断图像中的对象。
根据一实施方案,用于对象识别的人工神经网络可以包括深度神经网络(DNN),所述深度神经网络包括多个层。例如,用于对象识别的人工神经网络可以是预训练的卷积神经网络(CNN),并且可以使用预训练的卷积神经网络来推断在所接收到的图像中包括的一个或多个对象的类型和位置。在这里,预训练的卷积神经网络可能包含一层或多层,这些层对输入值执行卷积运算,并通过从输入值通过执行卷积运算来推断输出值。关于识别出的对象的信息可以由处理器330处理,并且关于识别出的对象的信息或者通过对其进行处理而获得的信息可以通过通信模块310被发送到已经发送了图像的外部设备。
根据一实施方案,对象识别模块334还可以被配置为生成与预处理图像中包括的对象的识别结果(例如,识别率)相关联的反馈数据,该对象被用于对象识别的人工神经网络识别。预处理模块332可以进一步被配置为基于所生成的反馈数据来调整用于对所接收到的图像进行的图像增强处理的变量。将参照图5详细描述对象识别模块334生成反馈数据并基于所生成的反馈数据执行图像的图像增强处理的过程。
图4是根据本公开的另一实施方案示意性示出用于识别图像中的对象的装置400的内部配置的框图。图4中的用于识别图像中的对象的装置400可以具有与图3中的用于识别图像中的对象的装置300相同或相似的配置。用于识别图像中的对象的装置400可以包括图像传感器410、存储单元420和处理器430。这里,处理器430可以包括预处理模块432和对象识别模块434。在图4中的用于识别图像中的对象的装置400的存储单元420可以具有与图3中的用于识别图像中的对象的装置300的存储单元320相同或相似的配置。图4中的处理器430的预处理模块432可以具有与图3中的处理器330的预处理模块332相同或相似的配置。图4中的处理器430的对象识别模块434可包括与图3中的处理器330的对象识别模块334相同或相似的配置。在图4中的用于识别图像对象的装置400的描述中,省略了与图3中的用于识别图像对象的装置300的描述的内容重复的内容。
用于识别图像中的对象的装置400可以包括图像传感器410,该图像传感器410被配置为捕获或生成包括对象的图像。即,与图3中的用于识别图像对象的装置300不同,用于识别图像中的对象的装置400包括图像传感器410,从而将从图像传感器410捕获的图像发送到处理器430,并使用处理器430的预处理模块432和对象识别模块434来识别图像中的对象。在图4中,图像传感器410被配置为包括在用于识别图像中的对象的装置400中,但是不限于此。即使图像传感器410不包括在用于识别图像中的对象的装置400中,图像传感器410和用于识别图像对象的装置400也可以被配置为包括在一个装置中。
图5是根据一实施方案示出识别图像中包括的对象并提供反馈数据的过程的框图。图5的预处理模块532可以对应于图3的预处理模块332和图4的预处理模块432。图5的对象识别模块534可以对应于图3的对象识别模块334和图4的对象识别模块434。在图5中,对于与在图3或图4中描述的那些相同或相似的部件,可以省略其详细描述以避免重复,并且可以仅描述改变或附加部分。
如上所述,用于识别图像中的对象的装置300的通信模块310可以使用通信网络350从外部设备接收包括对象的图像,并将所接收到的图像提供给预处理模块532。与此不同,可以将图像传感器410安装在与用于识别图像中的对象的装置400相同的装置中,从而可以将由图像传感器410捕获的图像发送到处理器的预处理模块532。
预处理模块532可以对输入到其中的图像执行图像增强处理。在一实施方案中,预处理模块532可以使用用于图像的信号处理的任意函数和变量。
在另一实施方案中,预处理模块532可以被配置为通过经由图像预处理模型对输入的图像进行预处理来输出预处理图像。在此,图像预处理模型可以是用于在用于对象识别的人工神经网络中最大化图像中的对象的识别率的任意概率模型。举另一示例而言,图像预处理模型可以包括图像预处理网络,诸如卷积神经网络(CNN)、去模糊网络、降噪网络等。
在另一实施方案中,预处理模块532可以由用于预处理的人工神经网络来实现,该人工神经网络已经被训练以将针对对象识别而优化的预处理图像输出作为输出值。经训练的用于预处理的人工神经网络可以是以以下方式通过迭代训练而被预训练的人工神经网络:其接收多个参考图像和与多个参考图像中的每一个相关联的对象识别结果作为输入值,并且输出为识别每个参考图像中包括的对象而被优化的预处理图像作为输出值。这里,参考图像可以是由退化图像和原始图像组成的成对的学习数据块。
根据一实施方案,预处理模块532可以被配置为进一步包括训练模块(未示出)。用于识别对象的装置的训练模块可以生成用于预处理的人工神经网络,其基于多个参考图像和与多个参考图像中的每一个相关联的对象识别结果来推断针对对象识别而优化的预处理图像。可以通过机器学习算法来训练生成的用于预处理的人工神经网络,以推断针对对象识别而优化的预处理图像。例如,训练模块可以训练人工神经网络,使得人工神经网络推断针对对象识别而优化的预处理图像模式,并基于该预处理图像模式输出预处理图像。因此,预处理模块可以使用用于预处理的人工神经网络提取预处理图像,该人工神经网络由训练模块生成和训练。
预处理模块532可以通过使用训练后的人工神经网络接收从外部设备接收的图像或从图像传感器捕获的图像作为输入值来推断针对对象识别优化的预处理图像,并且将推断的预处理图像提供到对象识别模块534。
对象识别模块534可以通过将预处理图像输入到用于对象识别的人工神经网络的输入层来识别图像中包括的对象,并生成与预处理图像中包括的对象的识别结果相关联的反馈数据,该对象由用于对象识别的人工神经网络识别。根据一实施方案,用于对象识别的人工神经网络可以是预训练的深度神经网络(DNN),但不限于此。根据另一实施方案,对象识别模块534可以被配置为使用检测器网络(例如,VGG、ResNet、YOLO、SSD等)来检测或识别输入图像中的对象。
根据一实施方案,与对象的识别结果相关联的反馈数据可以包括是否识别出图像中包括的对象。例如,可以基于对象识别率是否超过预定阈值识别率或更大来确定是否识别出对象。举另一示例而言,可以通过计算置信度以及对象识别的概率来确定图像中的对象是否被识别出。与对象的识别结果相关联的反馈数据可以包括关于对象的识别结果以及对象是否被识别出的任意处理信息。所生成的反馈数据可以被提供给预处理模块532。
与对象的识别结果相关联的反馈数据不限于是否识别出对象,并且可以包括在对象识别期间发生的各种参数,例如基于对于对象识别的响应时间的对象识别速度、对象识别的准确性(或对象识别率)、以及识别出对象的图像的参数或对象识别中涉及的各种要素。
预处理模块532可基于所生成的反馈数据来调整用于对所接收到的图像的图像增强处理的变量。这里,变量可以是当对所接收到的图像执行图像增强处理技术(例如,信号处理操作)时变化的值。例如,该变量可以包括确定图像参数的因素。
在一实施方案中,预处理模块532可以通过调整图像参数来执行对所接收到的图像的图像增强处理。例如,预处理模块532可以通过使用下面的等式(其是高斯滤波器)来调节所接收到的图像的模糊参数或子参数来执行图像增强处理。
Figure BDA0003137682580000151
在此,σ表示确定模糊程度的变量,并且变量σ的值越大,图像可能越模糊。例如,预处理模块532可以基于由对象识别模块534生成的反馈数据来调整变量σ的值,并对通过调整后的变量接收的图像执行图像增强处理,从而输出针对对象识别优化的预处理图像。
根据另一实施方案,当预处理模块532生成图像预处理模型并对输入图像执行图像增强处理时,可以使用由对象识别模块534生成的反馈数据来训练图像预处理模型,从而图像预处理模型可以重建或更新。例如,当图像预处理模型由人工神经网络形成时,预处理模块532可以分析反馈数据并且基于分析结果来校正人工神经网络中包含的权重值。
具体地,预处理模块532可以基于预处理图像中包括的对象的识别结果(其是通过预训练的用于对象识别的人工神经网络而输出的输出值)以及与识别结果相关的反馈数据来执行用于预处理的人工神经网络的参数(例如权重)的训练,以输出能够最大化用于对象识别的人工神经网络的对象识别率的预处理图像。对象识别模块可以通过输入针对对象识别而优化的预处理图像来识别对象,该预处理图像是用于预处理的人工神经网络的输出值,其作为用于对象识别的人工神经网络的输入值。可以使用通过用于对象识别的人工神经网络得到的对象识别结果以及与识别结果相关联的反馈数据来训练用于预处理的人工神经网络的权重,并且利用经训练的用于预处理的人工神经网络将针对对象识别而优化的预处理图像提供给用于对象识别的人工神经网络,从而可以提高用于对象识别的人工神经网络的识别率。
用于预处理的人工神经网络和用于对象识别的人工神经网络可以是诸如深度学习模型之类的预训练网络,但不限于此。如上所述,其被配置为进一步包括训练模块,以产生和训练用于预处理的人工神经网络和用于对象识别的人工神经网络中的至少一者。可以使用各种机器学习算法(例如深度学习算法)来训练人工神经网络。
图6是根据一实施方案示出对由预处理模块632接收的图像执行图像增强处理的过程的框图。图6的预处理模块632可以对应于图3的预处理模块332和图4的预处理模块432。如上文所述,预处理模块632可以接收从外部设备接收的图像或从图像传感器捕获的图像,并且通过调整表示所接收到的图像的图像参数来对所接收到的图像执行图像增强处理。在此,图像参数可以包括图像子参数,该图像子参数表示以下各项中的至少一项:对所接收到的图像的去模糊、降噪、宽动态范围(WDR)或高动态范围(HDR)、色调映射和去马赛克。
根据一实施方案,预处理模块632可以被配置为对多个图像子参数中的每一个依次执行图像增强处理。例如,当对多个图像子参数中的每一个进行信号处理时,首先执行信号处理的子参数的信号处理结果可以反映在接下来将执行的另一个子参数的信号处理中。如图所示,预处理模块632可以被配置为对去模糊执行图像信号处理,对图像(该图像已经完成对去模糊的信号处理)的降噪执行图像信号处理,对图像(该图像已完成对降噪的信号处理)的HDR或WDR执行图像信号处理,对图像(该图像已完成对HDR或WDR的信号处理)的色调映射执行图像信号处理,以及对图像(该图像已完成对色调映射的信号处理)的去马赛克进行图像信号处理。
根据一实施方案,预处理模块632可以使用预训练的人工神经网络对输入图像执行预处理操作,以推断针对图像中包括的对象识别而优化的预处理图像。参照图6,预训练的人工神经网络可以将从外部设备接收到的图像输入到输入层。人工神经网络可以依次调整表示输入图像的图像子参数(例如,去模糊、降噪、WDR(宽动态范围)或HDR(高动态范围)、色调映射和去马赛克),按照如图6所示的去模糊、降噪、WDR(宽动态范围)或HDR(高动态范围)、色调映射和去马赛克的顺序进行),并且可以将针对对象识别优化的预处理图像输出到输出层
在另一实施方案中,预处理模块332可以通过使用训练后的多个人工神经网络(例如,用于去模糊调整的人工神经网络,其通过调整去模糊参数进行训练以输出针对对象识别而优化的预处理图像;用于WDR或HDR调整的人工神经网络,其通过调整WDR或HDR参数等进行训练以输出针对对象识别而优化的预处理图像)针对接收到的图像顺序地调整子参数来输出预处理图像,而不是使用训练后的单一人工神经网络依次调整各个子参数来输出预处理图像。
在图6中,代表去模糊、降噪、WDR或HDR、色调映射和去马赛克的子参数被示例性地示出为图像的子参数,但是本公开内容不限于此,并且图像子参数可以包括代表图像的任意子参数。另外,调整子参数的顺序不限于图6所示的顺序,并且可以改变该调整顺序,从而输出经过优化以提高用于对象识别的人工神经网络中的图像对象识别率的预处理图像。
图7是根据本公开的一实施方案示出由对象识别模块识别图像中包括的对象的过程的示例性示图。在一实施方案中,对象识别模块可以使用区域卷积神经网络(R-CNN)来识别所接收到的图像中包括的对象。如图7所示,R-CNN可以使用选择性搜索算法从输入图像生成候选区域。所生成的候选区域中的每一个可以被转换为具有相同的大小,并且可以通过CNN提取图像中包括的对象的特征。可以使用支持向量机,使用提取的特征对候选区域中的对象进行分类。如图7所示,图像中包括的对象可以被分类为各种类别,诸如人、树、车辆等。对象识别模块可以基于分类的对象来检测或识别图像中的对象。
图7示例性地公开了对象识别模块使用R-CNN,但是本公开内容不限于此,并且对象识别模块可以使用能够识别图像中的对象的任何人工神经网络。另外,用于对象识别的人工神经网络,例如区域卷积神经网络(R-CNN),可以使用诸如AlexNet或GoogleNet之类的预训练网络来识别新图像数据中包含的对象。替代地,用于识别图像中的对象的装置可以被配置为进一步包括训练模块,以通过训练模块来训练用于对象识别的人工神经网络。用于对象识别的人工神经网络可以通过分析成千上万的学习数据(学习图像)块来学习用于对各个对象进行分类的特征,并且学习如何识别各个对象之间的差异。
图8是示出识别图像中包括的对象的结果的示例图。参照图8,可以理解,当通过深度神经网络识别出在捕获时抖动的图像810中的对象时,对象识别率为61%,而通过深度神经网络识别出正常捕获的图像820中的对象(地面实况)时,对象识别率为74%。
在一实施方案中,本公开内容中的用于识别图像对象的装置的预处理模块可以通过对所接收到的图像进行去模糊处理来执行图像增强处理,所述对象识别模块可以使用深度神经网络识别出通过对抖动图像810的去模糊处理获得的图像中包括的对象。作为识别已经通过预处理模块执行了图像增强处理的图像中的对象的结果,可以理解的是,抖动图像810被恢复成如图8所示的恢复图像830,并且对象识别率是82%,高于在抖动状态下捕获的图像的对象识别率。换句话说,在通过用于识别对象的人工神经网络识别图像中的对象时,预处理模块在将图像输入到用于识别对象的人工神经网络之前对输入图像进行预处理,从而提高了通过用于对象识别的人工神经网络识别在图像中的对象的概率。
图9是根据本公开的一实施方案示出识别在图像中的对象的方法的流程图。首先,用于识别图像中的对象的方法900可以包括:通过通信模块接收包括对象的图像的步骤910。这样的图像可以包括通过用于识别图像对象的装置中的通信模块从外部设备接收的图像和通过用于识别图像对象的装置中的图像传感器捕获的图像中的至少一者。
在步骤920中,预处理模块可以在识别出对象之前对所接收到的图像来执行图像增强处理,以提高所接收到的图像中包括的对象的识别率,并输出预处理图像。预处理模块可以通过调整图像参数对所接收到的图像执行图像增强处理。预处理图像可以被提供给对象识别模块。
在步骤S930中,对象识别模块可以通过将预处理图像输入到用于对象识别的人工神经网络的输入层来识别图像中包括的对象。在一实施方案中,用于对象识别的人工神经网络可以是预训练的卷积神经网络(CNN),但不限于此。例如,对象识别模块可以使用预训练的卷积神经网络来推断在所接收到的图像中包括的一个或多个对象的类型和位置。
如上所述的用于识别图像中的对象的装置可以被实现为计算机可读记录介质中的计算机可读代码。该计算机可读记录介质包括存储能够被计算机系统读取的数据的所有类型的记录设备。计算机可读记录介质的示例包括ROM、RAM、CD-ROM、磁带、软盘和光学数据存储设备。另外,计算机可读记录介质分布在通过网络连接的计算机系统上,从而可以以分布式方式存储和执行计算机可读代码。另外,本公开所属技术领域的程序员可以容易地推断出用于实现上述实施方案的功能程序、代码和代码段。
本文描述的技术可以通过各种方式来实现。例如,这些技术可以以硬件、固件、软件或其组合来实现。本领域技术人员将进一步认识到,结合本文的公开内容描述的各种说明性的逻辑块、模块、电路和算法步骤可以以电子硬件、计算机软件或两者的组合来实现。为了清楚地说明硬件和软件的这种可互换性,上文已经大体上根据其功能描述了各种说明性的部件、块、模块、电路和步骤。将这种功能性实现为硬件还是软件取决于施加在整个系统上的特定的应用程序和设计约束。技术人员可以针对每个特定应用以变化的方式来实现所描述的功能,但是这种实现决定不应被解释为导致脱离本公开内容的范围。
对于硬件实现方式,用于执行技术的处理单元可以在一个或多个ASIC、DSP、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、电子设备、设计成执行本文所述功能的其他电子单元、计算机或其组合内实现。
因此,结合本文的公开内容描述的各种说明性的逻辑块、模块和电路可以用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑部件、离散门或晶体管逻辑、离散硬件部件或设计成执行本文所述的功能的其任何组合来实现或执行。通用处理器可以是微处理器,但在替代的方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合,例如,DSP和微处理器的组合,多个微处理器,与DSP内核结合的一个或多个微处理器,或任何其他这样的配置。
对于固件和/或软件实现方式,技术可以体现为存储在计算机可读介质上的指令,该计算机可读介质例如是随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机-访问存储器(NVRAM)、可编程只读存储器(PROM)、电可擦除PROM(EEPROM)、闪存、光盘(CD)、磁或光数据存储设备等。指令可以是能由一个或多个处理器执行的,并且可以使处理器执行本文描述的功能的某些方面。
如果以软件实现,则函数可以作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质传输。计算机可读介质包括计算机存储介质和通信介质两者,其包括有助于将计算机程序从一个地方传送到另一地方的任何媒介。存储介质可以是能由通用或专用计算机访问的任何可用介质。例如但不限于,这样的计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储装置、磁盘存储装置或其他磁性存储设备、或可用于以指令或数据结构形式承载或存储所需的程序代码表示以及可以由通用或专用计算机或者通用或专用处理器进行访问的任何其他介质。同样,任何连接都可以适当地称为计算机可读介质。
例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或无线技术(例如红外线、无线电和微波)从网址发送,则所述同轴电缆、光纤电缆、双绞线、DSL或无线技术(例如红外线、无线电和微波)包括在计算机可读介质的定义中。本文所使用的磁盘和光盘包括CD、激光影碟、光学光盘、数字多功能光盘(DVD)、软盘和蓝光光盘,其中磁盘通常以磁性方式复制数据,而光盘则用激光通过光学方式复制数据。上述的组合也应包括在计算机可读介质的范围内。
软件模块可以驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域已知的任何其他形式的存储介质中。示例性存储介质耦合到处理器,使得处理器可以从该存储介质读取信息,并且可以向该存储介质写入信息。在替代方案中,存储介质可以与处理器集成在一起。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。在替代方案中,处理器和存储介质可以作为分立部件驻留在用户终端中。
提供本公开内容的先前描述以使本领域技术人员能够制作或使用本公开内容。对本公开内容的各种修改对于本领域技术人员将是显而易见的,并且在不脱离本公开内容的范围的情况下,本文中定义的一般原理可以应用于其他变型。因此,本公开内容不旨在限于本文描述的示例,而是符合与本文公开内容的原理和新颖性特征相一致的最广泛范围。
尽管示例性实现方式可以指的是在一个或多个独立计算机系统的背景中利用当前公开的主题的方面,但是本主题不限于此,而是可以结合任何计算环境来实现,例如网络或分布式计算环境。更进一步,可以在多个处理芯片或设备中或跨多个处理芯片或设备实现本公开主题的方面,并且可以跨多个设备类似地实现存储。例如,此类设备可能包括个人计算机、网络服务器和手持设备。
尽管已经用特定于结构特征和/或方法动作的语言描述了主题,但是应该理解,所附权利要求书中定义的主题不必限于上述特定特征或动作。而是,以上描述的特定特征和动作被公开为实现权利要求的示例形式。
尽管已经通过特定实施方案描述了本说明书中提到的方法,但是可以将其实现为计算机可读记录介质上的计算机可读代码。该计算机可读记录介质包括存储能够被计算机系统读取的数据的所有类型的记录设备。计算机可读记录介质的示例包括ROM、RAM、CD-ROM、磁带、软盘和光学数据存储设备。另外,计算机可读记录介质分布在通过网络连接的计算机系统上,从而可以以分布式方式存储和执行计算机可读代码。另外,本公开所属技术领域的程序员可以容易地推断出用于实现上述实施方案的功能程序、代码和代码段。
在本说明书中,已经参考一些实施方案描述了本公开内容,但是在不脱离本公开内容所属技术领域的普通技术人员所理解的本公开的范围的情况下,可以进行各种修改和变化。另外,这种修改和变型应被认为落入本说明书所附权利要求的范围内。

Claims (9)

1.一种用于识别图像中的对象的装置,该装置包括:
预处理模块,其被配置为接收包括所述对象的图像,并通过对所接收到的图像进行图像增强处理来输出预处理图像,以提高对所接收到的图像中包括的所述对象的识别率;和
对象识别模块,其被配置为通过将所述预处理图像输入到用于对象识别的人工神经网络的输入层来识别所述图像中包括的所述对象,
其中,所述预处理模块还被配置为通过将包括所述对象的所接收到的图像输入到用于预处理的人工神经网络中以输出所述预处理图像,以便在所述用于对象识别的人工神经网络中提高对所接收到的图像中包括的所述对象的识别率,
其中,所述预处理模块包括训练模块,所述训练模块通过将多个参考图像输入到所述用于预处理的人工神经网络的输入层来训练所述用于预处理的人工神经网络,以通过所述用于对象识别的人工神经网络推断为了提高对象识别率而优化的多个预处理参考图像,
其中,所述多个参考图像中的每一个均包括对象。
2.根据权利要求1所述的装置,其中,所述对象识别模块还被配置为:通过将所述多个预处理参考图像输入到所述用于对象识别的人工神经网络的输入层来生成与在所述多个预处理参考图像中的每一个中包括的所述对象的识别结果相关联的反馈结果,
其中,所述预处理模块还被配置为使用所述反馈结果训练所述用于预处理的人工神经网络。
3.根据权利要求1所述的装置,其中,所述对象识别模块还被配置为生成与所述预处理图像中包括的所述对象的识别结果相关联的反馈结果,
其中,所述预处理模块还被配置为使用与所述预处理图像中包括的所述对象的识别结果相关联的所述反馈结果来训练所述用于预处理的人工神经网络。
4.根据权利要求1所述的装置,其中,所述用于对象识别的人工神经网络包括深度神经网络,所述深度神经网络包括多个层,
其中,所述对象识别模块还被配置为通过所述用于对象识别的人工神经网络推断输入的所述预处理图像中包括的所述对象的类型和位置。
5.一种用于识别图像中的对象的装置,该装置包括:
预处理模块,其被配置为接收包括所述对象的图像,并通过对所接收到的图像执行降噪运算处理、去模糊运算处理、高动态范围运算处理、色调映射运算处理、除雾运算处理、亮度运算处理、对比度运算处理、自动白平衡运算处理、背光补偿运算处理或解压缩运算处理中的至少一种图像增强处理来输出预处理图像,以提高对所接收到的图像中包括的所述对象的识别率,和
对象识别模块,其被配置为通过将所述预处理图像输入到用于对象识别的人工神经网络的输入层来识别所述图像中包括的所述对象。
6.根据权利要求5所述的装置,其中,所述预处理模块还被配置为通过调整表示所接收到的图像的图像参数来对所接收到的图像执行图像增强处理。
7.根据权利要求6所述的装置,其中,所述图像参数包括表示所接收到的图像的多个图像子参数,
其中,预处理模块被配置为对所述多个图像子参数中的每一个依次执行图像增强处理。
8.一种用于识别图像中的对象的方法,该方法包括:
接收包括所述对象的图像;
通过由预处理模块对所接收到的图像执行图像增强处理而输出预处理图像,以提高对所接收到的图像中包括的所述对象的识别率;以及
通过将所述预处理图像输入到用于对象识别的人工神经网络的输入层来由对象识别模块识别所述图像中包括的所述对象,
其中,通过所述预处理模块输出所述预处理图像包括:通过将包括所述对象的所接收到的图像输入到用于预处理的人工神经网络的输入层中以输出所述预处理图像,以便提高对所接收到的图像中包括的所述对象的识别率,
其中,通过所述预处理模块输出所述预处理图像包括:通过将多个参考图像输入到所述用于预处理的人工神经网络的所述输入层来训练所述用于预处理的人工神经网络,以通过所述用于对象识别的人工神经网络推断为了提高对象识别率而优化的多个预处理参考图像,
其中,所述多个参考图像中的每一个均包括对象。
9.一种用于识别图像中的对象的方法,该方法包括:
接收包括所述对象的图像;
通过预处理模块,经由对所接收到的图像执行降噪运算处理、去模糊运算处理、高动态范围运算处理、色调映射运算处理、除雾运算处理、亮度运算处理、对比度运算处理、自动白平衡运算处理、背光补偿运算处理或解压缩运算处理中的至少一种图像增强处理来输出预处理图像,以提高对所接收到的图像中包括的所述对象的识别率;以及
通过将所述预处理图像输入到用于对象识别的人工神经网络的输入层,由对象识别模块来识别所述图像中包括的所述对象。
CN202080007580.0A 2019-06-04 2020-06-04 用于识别图像中的对象的方法 Pending CN113330450A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020190066240A KR102097905B1 (ko) 2019-06-04 2019-06-04 이미지 객체 인식 장치 및 방법
KR10-2019-0066240 2019-06-04
PCT/KR2020/007303 WO2020246834A1 (ko) 2019-06-04 2020-06-04 이미지 객체 인식 장치 및 방법

Publications (1)

Publication Number Publication Date
CN113330450A true CN113330450A (zh) 2021-08-31

Family

ID=70282223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080007580.0A Pending CN113330450A (zh) 2019-06-04 2020-06-04 用于识别图像中的对象的方法

Country Status (4)

Country Link
US (2) US11636670B2 (zh)
KR (1) KR102097905B1 (zh)
CN (1) CN113330450A (zh)
WO (1) WO2020246834A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102097905B1 (ko) 2019-06-04 2020-04-06 주식회사 딥엑스 이미지 객체 인식 장치 및 방법
KR102370886B1 (ko) 2019-11-06 2022-03-07 한국과학기술연구원 전처리 모듈을 포함하는 머신 러닝 기반의 인공지능을 이용하는 영상 분석 장치
KR20220078283A (ko) * 2020-12-03 2022-06-10 삼성전자주식회사 뉴럴 네트워크 프로세서를 구비하는 이미지 처리 장치 및 이의 동작 방법
KR102550869B1 (ko) 2021-01-27 2023-07-05 인하대학교 산학협력단 유전 알고리즘 및 cnn을 이용한 물체 분류 및 집계 방법
CN116964617A (zh) * 2021-03-10 2023-10-27 美国莱迪思半导体公司 用于可编程逻辑器件的图像标记引擎系统和方法
CN113763261B (zh) * 2021-06-29 2023-12-26 中国科学院沈阳自动化研究所 一种海雾气象条件下的远小目标实时检测方法
CN115885310A (zh) 2021-07-30 2023-03-31 蒂普爱可斯有限公司 图像信号处理器的控制方法以及执行该方法的控制设备
KR102390891B1 (ko) 2021-12-21 2022-04-26 주식회사 그레온 오토 라벨링을 통한 학습데이터 가공 서비스 제공 장치, 방법 및 프로그램
KR102428326B1 (ko) 2021-12-21 2022-08-02 서울시립대학교 산학협력단 인공지능 기반의 결함 탐지 방법 및 시스템
KR102436494B1 (ko) * 2022-06-02 2022-08-26 (주) 인터마인즈 상품인식 알고리즘을 통한 상품 판매개수 산출방법 및 산출장치
US11907841B1 (en) 2023-05-01 2024-02-20 Ian Truitner Machine learning based consumer product identification system and method therefor

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866868A (zh) * 2015-05-22 2015-08-26 杭州朗和科技有限公司 基于深度神经网络的金属币识别方法和装置
US20170039456A1 (en) * 2015-08-07 2017-02-09 Yahoo! Inc. BOOSTED DEEP CONVOLUTIONAL NEURAL NETWORKS (CNNs)
WO2017206066A1 (en) * 2016-05-31 2017-12-07 Nokia Technologies Oy Method and apparatus for detecting small objects with an enhanced deep neural network
CN108446667A (zh) * 2018-04-04 2018-08-24 北京航空航天大学 基于生成对抗网络数据增强的人脸表情识别方法和装置
CN108875486A (zh) * 2017-09-28 2018-11-23 北京旷视科技有限公司 目标对象识别方法、装置、系统和计算机可读介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101084298B1 (ko) * 2009-11-18 2011-11-16 원광대학교산학협력단 조명변화에 견고한 얼굴 표정 인식방법
KR101902500B1 (ko) * 2012-04-16 2018-10-01 삼성디스플레이 주식회사 유기 발광 표시 장치 및 그 테스트 방법
KR101802500B1 (ko) * 2016-10-20 2017-11-28 재단법인대구경북과학기술원 영상 인식을 위한 학습 장치 및 그 학습 방법
KR102425578B1 (ko) * 2017-08-08 2022-07-26 삼성전자주식회사 객체를 인식하는 방법 및 장치
KR101982231B1 (ko) * 2017-08-31 2019-05-24 경북대학교 산학협력단 객체 인식 장치 및 그 제어 방법
KR102491546B1 (ko) * 2017-09-22 2023-01-26 삼성전자주식회사 객체를 인식하는 방법 및 장치
KR102097905B1 (ko) 2019-06-04 2020-04-06 주식회사 딥엑스 이미지 객체 인식 장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866868A (zh) * 2015-05-22 2015-08-26 杭州朗和科技有限公司 基于深度神经网络的金属币识别方法和装置
US20170039456A1 (en) * 2015-08-07 2017-02-09 Yahoo! Inc. BOOSTED DEEP CONVOLUTIONAL NEURAL NETWORKS (CNNs)
WO2017206066A1 (en) * 2016-05-31 2017-12-07 Nokia Technologies Oy Method and apparatus for detecting small objects with an enhanced deep neural network
CN108875486A (zh) * 2017-09-28 2018-11-23 北京旷视科技有限公司 目标对象识别方法、装置、系统和计算机可读介质
CN108446667A (zh) * 2018-04-04 2018-08-24 北京航空航天大学 基于生成对抗网络数据增强的人脸表情识别方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LECHENG ZHOU 等: "Deep Neural Network Based Salient Object Detection with Image Enhancement", 《NEURAL INFORMATION PROCESSING:25TH INTERNATIONAL CONFERENCE》, 17 November 2018 (2018-11-17), pages 444 - 453, XP047496474, DOI: 10.1007/978-3-030-04212-7_39 *
VIVEK SHARMA 等: "Classification Driven Dynamic Image Enhancement", 《ARXIV》, 28 March 2018 (2018-03-28), pages 1 - 9 *
陈文兵;管正雄;陈允杰;: "基于条件生成式对抗网络的数据增强方法", 《计算机应用》, vol. 38, no. 11, 10 November 2018 (2018-11-10), pages 3305 - 3311 *

Also Published As

Publication number Publication date
WO2020246834A1 (ko) 2020-12-10
US20220083797A1 (en) 2022-03-17
US11636670B2 (en) 2023-04-25
US20230237792A1 (en) 2023-07-27
KR102097905B1 (ko) 2020-04-06

Similar Documents

Publication Publication Date Title
CN113330450A (zh) 用于识别图像中的对象的方法
KR102641116B1 (ko) 데이터 증강에 기초한 인식 모델 트레이닝 방법 및 장치, 이미지 인식 방법 및 장치
CN107533754B (zh) 在深度卷积网络中降低图像分辨率
JP2018531543A6 (ja) ワイヤレスネットワークにおけるクラウドソースの写真撮影の管理
JP2018531543A (ja) ワイヤレスネットワークにおけるクラウドソースの写真撮影の管理
US11461992B2 (en) Region of interest selection for object detection
CN113065645B (zh) 孪生注意力网络、图像处理方法和装置
KR102476022B1 (ko) 얼굴검출 방법 및 그 장치
CN112529146B (zh) 神经网络模型训练的方法和装置
US20200175338A1 (en) Processing input data in a convolutional neural network
CN110188627B (zh) 一种人脸图像过滤方法及装置
WO2021238586A1 (zh) 一种训练方法、装置、设备以及计算机可读存储介质
KR102262671B1 (ko) 비디오 영상에 보케 효과를 적용하는 방법 및 기록매체
CN112464930A (zh) 目标检测网络构建方法、目标检测方法、装置和存储介质
JP2023546582A (ja) 個人化ニューラルネットワークプルーニング
CN111435457B (zh) 对传感器获取的采集进行分类的方法
CN115280373A (zh) 使用结构化丢弃来管理孪生网络跟踪中的遮挡
US11816181B2 (en) Blur classification and blur map estimation
WO2022076802A1 (en) Distortion-based filtering for image classification
CN110889316A (zh) 一种目标对象识别方法、装置及存储介质
WO2021189321A1 (zh) 一种图像处理方法和装置
CN112087556A (zh) 一种暗光成像方法、装置、可读存储介质及终端设备
CN114926348B (zh) 一种去除低照度视频噪声的装置和方法
US20240095883A1 (en) Image processing device, electronic device having the same, and operating method thereof
CN111178418B (zh) 图像分类方法和装置、存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination