CN110738225B - 图像识别方法及装置 - Google Patents
图像识别方法及装置 Download PDFInfo
- Publication number
- CN110738225B CN110738225B CN201810798920.0A CN201810798920A CN110738225B CN 110738225 B CN110738225 B CN 110738225B CN 201810798920 A CN201810798920 A CN 201810798920A CN 110738225 B CN110738225 B CN 110738225B
- Authority
- CN
- China
- Prior art keywords
- image
- network
- target
- training
- correction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本申请提供一种图像识别方法及装置,方法包括:将待识别图像输入到已训练的目标识别模型,以由本目标识别模型通过目标检测网络检测待识别图像中目标对象在待识别图像中的位置,输出到本目标识别模型中的校正网络,以由校正网络从待识别图像中抠出所述位置对应的图像,对抠出的图像进行校正,并输出校正后的图像给本目标识别模型中的目标识别网络识别校正后的图像的内容;获取目标识别网络输出的图像识别结果。由于输入一张图像到目标识别模型,模型直接输出图像识别结果,因此本申请可以真正实现端到端目标识别,由于整个识别过程全部在模型内部实现,不存在与外部平台的数据交互,从而可节省识别耗时,同时也提高了识别的平台普适性和可移植性。
Description
技术领域
本申请涉及图像识别技术领域,尤其涉及一种图像识别方法及装置。
背景技术
目前图像识别中的目标识别任务,通常是通过目标检测算法和目标识别算法与外部平台的交互实现,其中,目标检测算法用于检测图像中目标对象的位置,并通过外部平台对检测到的位置对应的子图像进行处理,目标识别算法用于识别经过处理后的子图像的内容。然而,由于目前的目标识别任务的算法比较复杂,因此算法运行比较耗时,维护比较费力。
发明内容
有鉴于此,本申请提供一种图像识别方法及装置,以解决相关技术中目标识别任务的算法运行比较耗时,维护比较费力的问题。
根据本申请实施例的第一方面,提供一种图像识别方法,所述方法包括:
将待识别图像输入到已训练的目标识别模型,以由本目标识别模型通过目标检测网络检测所述待识别图像中目标对象在所述待识别图像中的位置,并输出到本目标识别模型中的校正网络,以由所述校正网络从所述待识别图像中抠出所述位置对应的图像,并对抠出的图像进行校正,并输出校正后的图像给本目标识别模型中的目标识别网络识别所述校正后的图像的内容;
获取所述目标识别网络输出的图像识别结果。
根据本申请实施例的第二方面,提供一种图像识别装置,所述装置包括:
模型识别模块,用于将待识别图像输入到已训练的目标识别模型,以由本目标识别模型通过目标检测网络检测所述待识别图像中目标对象在所述待识别图像中的位置,并输出到本目标识别模型中的校正网络,以由所述校正网络从所述待识别图像中抠出所述位置对应的图像,并对抠出的图像进行校正,并输出校正后的图像给本目标识别模型中的目标识别网络识别所述校正后的图像的内容;
获取模块,用于获取所述目标识别网络输出的图像识别结果。
根据本申请实施例的第三方面,提供一种电子设备,包括可读存储介质和处理器;
其中,所述可读存储介质,用于存储机器可执行指令;
所述处理器,用于读取所述可读存储介质上的所述机器可执行指令,并执行所述指令以实现上述所述的图像识别方法的步骤。
根据本申请实施例的第四方面,提供一种芯片,包括可读存储介质和处理器;
其中,所述可读存储介质,用于存储机器可执行指令;
所述处理器,用于读取所述可读存储介质上的所述机器可执行指令,并执行所述指令以实现上述所述的图像识别方法的步骤。
应用本申请实施例,在将待识别图像输入到目标识别模型之后,先由目标识别模型通过目标检测网络检测待识别图像中目标对象在图像中的位置,并输出到目标识别模型中的校正网络,以由校正网络从待识别图像中抠出所述位置对应的图像,并对抠出的图像进行校正,并输出校正后的图像给目标识别模型中的目标识别网络识别校正后的图像的内容,从而可以获取到目标识别网络输出的图像识别结果。基于上述描述可知,由于输入一张图像到目标识别模型后,模型直接输出图像识别结果,因此可以真正实现端到端目标识别,由于整个识别过程全部在模型内部实现,不存在与外部平台的数据交互,从而可以节省目标识别任务的耗时,同时也降低了维护难度,进而可以提高目标识别任务的平台普适性和可移植性。另外,整个目标识别任务都是在一个基于深度学习的网络模型中实现,因此输出的目标识别结果相对传统的目标识别结果更加精确。
附图说明
图1为本申请根据一示例性实施例示出的一种相关技术中目标识别任务的结构图;
图2-1为本申请根据一示例性实施例示出的一种目标识别任务模型的结构图;
图2-2为本申请根据图2-1所示实施例示出的另一种目标识别任务模型的结构图;
图3为本申请根据一示例性实施例示出的一种图像识别方法的实施例流程图;
图4为本申请根据一示例性实施例示出的另一种图像识别方法的实施例流程图;
图5为本申请根据一示例性实施例示出的又一种图像识别方法的实施例流程图;
图6为本申请根据一示例性实施例示出的再一种图像识别方法的实施例流程图;
图7为本申请根据一示例性实施例示出的一种电子设备的硬件结构图;
图8为本申请根据一示例性实施例示出的一种图像识别装置的实施例结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
人类通过对图像中不同颜色模块的感知,很容易检出并分类出图像中的目标物体。但对于计算机来说,图像只是一个具有RGB通道且取值范围在0~255之间的像素矩阵,很难直接检出人、猫、狗等抽象语义概念,既不知目标的位置也无法识别目标内容。随着深度学习技术的发展,基于深度学习的目标检测模型(例如人脸检测、行人检测、车辆检测、车牌检测等)和目标识别模型(例如车牌号识别、文字识别等)日趋成熟,由于其相对传统目标检测算法和目标识别算法的性能好、鲁棒性高、维护成本低且可移值性也高,因此得到广泛应用。其中,基于深度学习的目标检测模型用于检测图像中目标对象的位置,基于深度学习的目标识别模型用于识别目标对象的内容。
图1为本申请根据一示例性实施例示出的一种相关技术中目标识别任务的结构图,如图1所示,将原始的图像输入到目标检测模型,由目标检测模型对输入的图像中的目标对象进行检测,并将目标对象在图像中的位置输出给外部平台,由外部平台分配一定的内存和带宽,利用接收到的位置从图像中抠出目标对象对应的目标块,并对抠出的目标块进行尺度归一化处理,再将经过处理的目标块输入目标识别模型,由目标识别模型识别目标块的内容,并将识别结果输出给外部平台。
然而,由于两个模型之间的衔接仍然会存在与外部平台的数据交互,因此目标识别任务仍然存在较大的耗时,而且一旦模型与外部平台存在数据交互,就会提升目标识别任务的维护难度,降低其平台普适性和可移植性。另外,由于目标检测与目标识别仍然存在模型与外部平台的数据交互,因此上述图1所示的目标识别任务并不算真正的端到端目标识别方法。
基于此,图2-1为本申请根据一示例性实施例示出的一种目标识别任务模型的结构图,如图2-1所示,将待识别图像输入到目标识别模型,先由目标识别模型通过目标检测网络检测待识别图像中目标对象在图像中的位置,并输出到目标识别模型中的校正网络,以由校正网络从待识别图像中抠出位置对应的图像,并对抠出的图像进行校正,并输出校正后的图像给目标识别模型中的目标识别网络进行目标识别,并输出图像识别结果。
基于上述描述可知,由于在目标识别模型中增加了一个用于对图像校正的校正网络,以作为目标检测网络和目标识别网络的衔接网络,因此才可以将目标检测网络与目标识别网络归一到一个整体的模型中,达到整个识别过程全部在模型内部完成,不存在与外部平台的数据交互的效果,从而节省了目标识别任务的耗时,同时也降低了维护难度,进而可以提高目标识别任务的平台普适性和可移植性。又由于输入一张图像到目标识别模型后,模型直接输出目标识别结果,因此能够真正实现端到端的目标识别。另外,整个目标识别任务都是在一个基于深度学习的网络模型中实现,因此输出的目标识别结果相对传统的目标识别结果更加精确。
下面以具体实施例对本申请的技术方案进行详细阐述。
图3为本申请根据一示例性实施例示出的一种图像识别方法的实施例流程图,结合上述图2-1所示的目标识别模型结构,本目标识别模型是预先训练得到的,可以包括目标检测网络、校正网络、目标识别网络。如图3所示,该图像识别方法包括如下步骤:
步骤301:将待识别图像输入到已训练的目标识别模型,以由本目标识别模型通过目标检测网络检测待识别图像中目标对象在待识别图像中的位置,并输出到本目标识别模型中的校正网络,以由校正网络从待识别图像中抠出位置对应的图像,并对抠出的图像进行校正,并输出校正后的图像给本目标识别模型中的目标识别网络识别校正后的图像的内容。
在一实施例中,如图2-2所示,目标识别模型包括级联的目标检测网络、校正网络和目标识别网络,目标检测网络、校正网络和目标识别网络分别包括各自的分支网络和各个图像处理功能层。
在一实施例中,如图2-2所示,目标检测网络包括预处理层和第一级联卷积神经网络,针对目标检测网络检测待识别图像中目标对象在待识别图像中的位置的过程,可以先通过本目标检测网络中的预处理层对待识别图像进行图像预处理,并输出给本目标检测网络中的第一级联卷积神经网络,由第一级联卷积神经网络对预处理后的待识别图像进行位置检测,以得到目标对象在待识别图像中的位置。
其中,由于图像的格式有很多种,而基于深度学习的目标检测网络通常是对RGB图像进行目标检测,因此在进行目标检测之前需要对图像的格式进行转化处理,又由于目标检测注重的是全局,因此在进行目标检测之前可以在一定程度上降低图像的特征维度。基于此,预处理层对图像的预处理至少包括格式转化处理和降采样处理,降采样处理可以采用双线性插值或最近邻插值实现。第一级联卷积神经网络可以包括用于检测目标对象粗略位置的级联卷积神经网络A和用于检测目标对象精细位置的级联卷积神经网络B。此外,目标检测网络的结构并不限于图2-2所示的结构,第一级联卷积神经网络也可以包括串联或并联的多个卷积神经网络。
需要说明的是,第一级联卷积神经网络中通常包含卷积层、池化层、激活层以及全连接层等计算层,其中,池化层用于降低图像的特征维度,但每次在池化之前需至少卷积一次。由于在第一级联卷积神经网络之前的预处理层已经在一定程度上进行了降采样处理,因此在第一级联卷积神经网络中可以适当减少池化次数,而预处理层中的降采样处理是不需要先进行卷积处理,因此先通过预处理层进行一定程度的降采样处理可以降低目标检测网络的耗时。
在一实施例中,如图2-2所示,校正网络包括抠图层、第二级联卷积神经网络和校正层,针对校正网络从待识别图像中抠出位置对应的图像,并对抠出的图像进行校正的过程,可以通过本校正网络中的抠图层从预处理后的待识别图像中抠出所述位置对应的图像,并输出给本校正网络中的第二级联卷积神经网络,由第二级联卷积神经网络计算抠出的图像的校正值,并输出给本校正网络中的校正层,由校正层利用校正值对抠出的图像进行校正,以得到校正后的图像。
其中,在实际应用中,在待识别图像中目标对象通常呈现各种尺度、角度、亮度等,如果直接将目标对象的图像输入目标识别网络,会增加干扰,所以需要预先对目标对象的图像进行校正,以降低对目标识别网络的干扰,提高整体目标识别率。抠出的图像的校正值至少可以包括尺度校正值、角度校正值以及亮度校正值。第二级联卷积神经网络可以包括用于对图像进行校正的串联或并联的多个卷积神经网络,例如,如图2-2所示,第二级联卷积神经网络可以包括用于计算尺度、角度的级联卷积神经网络C和用于计算亮度的级联卷积神经网络D。
在一实施例中,如图2-2所示,目标识别网络包括上采样层和第三级联卷积神经网络,针对目标识别网络识别校正后的图像的内容的过程,可以通过本目标识别网络中的上采样层对校正后的图像进行上采样处理,并输出给本目标识别网络中的第三级联卷积神经网络,由第三级联卷积神经网络识别上采样处理后的图像的内容,以得到图像识别结果。
其中,目标识别注重的是细节,因此在进行目标识别之前可以通过上采样层进行上采样处理,以提升图像的特征维度,恢复目标对象的一些细节,进而提高整体目标识别率。第三级联卷积神经网络可以包括用于对图像进行识别的串联或并联的多个卷积神经网络,例如,如图2-2所示,第三级联卷积神经网络可以包括串联的级联卷积神经网络E和级联卷积神经网络F。
步骤302:获取目标识别网络输出的图像识别结果。
在一示例性场景中,假设以识别道路监控图像中行驶车辆的车牌号为例,将获取到的一帧道路监控图像输入目标识别模型中,先通过目标识别模型中的目标检测网络检测道路监控图像中行驶车辆的车牌在图像中的位置,并输出到目标识别模型中的校正网络,以由校正网络从道路监控图像中抠出所述位置对应的车牌图像,并对抠出的车牌图像进行校正,并输出校正后的车牌图像给目标识别模型中的目标识别网络识别校正后的车牌图像的车牌号,从而可以获取到目标识别网络输出的车牌号。
本申请实施例中,在将待识别图像输入到目标识别模型之后,先由目标识别模型通过目标检测网络检测待识别图像中目标对象在图像中的位置,并输出到目标识别模型中的校正网络,以由校正网络从待识别图像中抠出所述位置对应的图像,并对抠出的图像进行校正,并输出校正后的图像给目标识别模型中的目标识别网络识别校正后的图像的内容,从而可以获取到目标识别网络输出的图像识别结果。基于上述描述可知,由于输入一张图像到目标识别模型后,模型直接输出图像识别结果,因此可以真正实现端到端目标识别,由于整个识别过程全部在模型内部实现,不存在与外部平台的数据交互,从而可以节省目标识别任务的耗时,同时也降低了维护难度,进而可以提高目标识别任务的平台普适性和可移植性。另外,整个目标识别任务都是在一个基于深度学习的网络模型中实现,因此输出的目标识别结果相对传统的目标识别结果更加精确。本申请实施例提供的图像识别方法及装置可以适用于任何场景的基于图像的目标识别。
图4为本申请根据一示例性实施例示出的另一种图像识别方法的实施例流程图,基于上述图3所示实施例的基础上,本实施例以如何训练目标检测网络为例进行示例性说明,如图4所示,训练目标检测网络的流程可以包括:
步骤401:获取第一类训练样本和第二类训练样本,第一类训练样本是包含有各种类型目标且对各种类型目标进行了位置标注的样本,第二类训练样本是包含有指定类型目标且对指定类型目标进行了位置标注的样本。
步骤402:利用第一类训练样本对目标检测网络的训练模型进行粗略训练,直至训练次数达到预设次数停止训练。
在一实施例中,在粗略训练过程中,可以调整本目标检测网络中预处理层的降采样倍数k和第一级联卷积神经网络的降采样倍数n,k与n之积等于预设降采样倍数。
其中,预设降采样倍数指的是传统目标检测网络需要的降采样倍数,可以根据实践经验进行设置,由于k值越大,目标检测网络的耗时越低,因此在调整k和n过程中,保证目标检测网络的检出性能不变的情况下,取最大的k值即可。
步骤403:利用第二类训练样本对目标检测网络进行优化训练,直至目标检测网络的损失值低于预设阈值停止训练。
针对上述步骤401至步骤403的过程,可以先在大数据集中选取包含各种类型目标的第一类训练样本,以用于对目标检测网络的训练模型进行粗略训练,然后再选取包含指定类型目标的第二类训练样本,以用于对目标检测网络的训练模型进行优化训练。
至此,完成图4所示流程,通过图4所示流程,最终实现目标检测网络的训练。
图5为本申请根据一示例性实施例示出的又一种图像识别方法的实施例流程图,基于上述图3所示实施例的基础上,本实施例以如何训练目标识别网络为例进行示例性说明,如图5所示,训练目标识别网络的流程可以包括:
步骤501:获取第三类图像,在第三类图像中截取各种类型目标对应的图像,并将截取的图像作为第三类训练样本。
步骤502:获取第四类图像,并在第四类图像中截取指定类型目标对应的图像,并将截取的图像作为第四类训练样本。
步骤503:利用第三类训练样本对目标识别网络的训练模型进行粗略训练,直至训练次数达到预设次数停止训练。
步骤504:利用第四类训练样本对目标识别网络进行优化训练,直至目标识别网络的损失值低于预设阈值停止训练。
针对上述步骤501至步骤504的过程,与上述图4所示的目标检测网络的训练过程类似。只是对于目标识别网络的训练样本需要是只有目标的图像,不需要有背景。
至此,完成图5所示流程,通过图5所示流程,最终实现目标识别网络的训练。
图6为本申请根据一示例性实施例示出的再一种图像识别方法的实施例流程图,基于上述图3所示实施例的基础上,本实施例以如何训练校正网络为例进行示例性说明,如图6所示,训练校正网络的流程可以包括:
步骤601:获取第五类训练样本,提取第五类训练样本中目标对象的位置,并在第五类训练样本中标注提取的位置对应的图像的内容。
步骤602:将第五类训练样本和提取的位置输入校正网络的训练模型,并将校正网络输出的校正后的图像输出给目标识别网络。
步骤603:通过目标识别网络识别校正后的图像中的内容,并输出图像识别结果。
步骤604:若输出的图像识别结果与标注的内容的匹配度低于预设匹配度,对校正网络的训练模型的参数进行调整,并返回执行步骤602,直至目标识别网络输出的图像识别结果与标注的目标内容的匹配度达到预设匹配度,停止训练。
其中,校正网络的训练模型的参数可以包括角度矩阵系数、尺度矩阵系数以及亮度矩阵系数,这些矩阵系数均位于第二级联卷积神经网络中。
至此,完成图6所示流程,通过图6所示流程,最终实现校正网络的训练。
图7为本申请根据一示例性实施例示出的一种电子设备的硬件结构图,该电子设备包括:通信接口701、处理器702、机器可读存储介质703和总线704;其中,通信接口701、处理器702和机器可读存储介质703通过总线704完成相互间的通信。处理器702通过读取并执行机器可读存储介质702中与图像识别方法的控制逻辑对应的机器可执行指令,可执行上文描述的图像识别方法,该方法的具体内容参见上述实施例,此处不再累述。
本申请中提到的机器可读存储介质703可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:RAM(Radom Access Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
此外,电子设备可以为各种终端设备或者后端设备,例如摄像机、服务器、移动电话等。
图8为本申请根据一示例性实施例示出的一种图像识别装置的实施例结构图,如图8所示,该图像识别装置包括:
模型识别模块810,用于将待识别图像输入到已训练的目标识别模型,以由本目标识别模型通过目标检测网络检测所述待识别图像中目标对象在所述待识别图像中的位置,并输出到本目标识别模型中的校正网络,以由所述校正网络从所述待识别图像中抠出所述位置对应的图像,并对抠出的图像进行校正,并输出校正后的图像给本目标识别模型中的目标识别网络识别所述校正后的图像的内容;
获取模块820,用于获取所述目标识别网络输出的图像识别结果。
在一可选实现方式中,所述模型识别模块810,具体用于在所述目标检测网络检测所述待识别图像中目标对象在所述待识别图像中的位置过程中,通过本目标检测网络中的预处理层对所述待识别图像进行图像预处理,并输出给本目标检测网络中的第一级联卷积神经网络;所述第一级联卷积神经网络对预处理后的待识别图像进行位置检测,以得到所述目标对象在所述待识别图像中的位置。
在一可选实现方式中,所述图像预处理至少包括以下处理:格式转化处理和降采样处理。
在一可选实现方式中,所述模型识别模块810,具体用于在所述校正网络从所述待识别图像中抠出所述位置对应的图像,并对抠出的图像进行校正过程中,通过本校正网络中的抠图层从所述预处理后的待识别图像中抠出所述位置对应的图像,并输出给本校正网络中的第二级联卷积神经网络;所述第二级联卷积神经网络计算抠出的图像的校正值,并输出给本校正网络中的校正层;所述校正层利用所述校正值对所述抠出的图像进行校正,以得到校正后的图像。
在一可选实现方式中,所述抠出的图像的校正值至少包括:尺度校正值、角度校正值以及亮度校正值。
在一可选实现方式中,所述模型识别模块810,具体用于在所述目标识别网络识别所述校正后的图像的内容过程中,通过本目标识别网络中的上采样层对所述校正后的图像进行上采样处理,并输出给本目标识别网络中的第三级联卷积神经网络;所述第三级联卷积神经网络识别上采样处理后的图像的内容,以得到图像识别结果。
在一可选实现方式中,所述装置还包括(图8中未示出):
目标检测网络训练模块,用于获取第一类训练样本和第二类训练样本,所述第一类训练样本是包含有各种类型目标且对各种类型目标进行了位置标注的样本,所述第二类训练样本是包含有指定类型目标且对指定类型目标进行了位置标注的样本;利用所述第一类训练样本对所述目标检测网络的训练模型进行粗略训练,直至训练次数达到预设次数停止训练;利用所述第二类训练样本对所述目标检测网络进行优化训练,直至所述目标检测网络的损失值低于预设阈值停止训练;其中,在所述粗略训练过程中,调整本目标检测网络中预处理层的降采样倍数k和第一级联卷积神经网络的降采样倍数n,所述k与所述n之积等于预设降采样倍数。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本申请还提供一种芯片,所述芯片包括可读存储介质和处理器,所述可读存储介质用于存储机器可执行指令,所述处理器用于读取所述机器可执行指令,并执行所述指令以实现上述所述实施例中的图像识别方法的步骤。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
Claims (14)
1.一种图像识别方法,其特征在于,所述方法包括:
将待识别图像输入到已训练的目标识别模型,以由本目标识别模型通过目标检测网络检测所述待识别图像中目标对象在所述待识别图像中的位置,并输出到本目标识别模型中的校正网络,以由所述校正网络从所述待识别图像中抠出所述位置对应的图像,并对抠出的图像进行校正,并输出校正后的图像给本目标识别模型中的目标识别网络识别所述校正后的图像的内容;
获取所述目标识别网络输出的图像识别结果;
其中,所述校正网络的训练方法包括:提取训练样本中目标对象的位置,并在所述训练样本中标注提取的位置对应的图像内容;循环执行以下步骤:
将所述训练样本和提取的位置输入所述校正网络的训练模型,并将所述校正网络输出的校正后的图像输出给所述目标识别网络;通过目标识别网络识别校正后的图像内容,并输出图像识别结果;若输出的图像识别结果与标注的图像内容的匹配度低于预设匹配度,对校正网络的训练模型的参数进行调整;若输出的图像识别结果与标注的图像内容的匹配度达到预设匹配度,停止循环。
2.根据权利要求1所述的方法,其特征在于,所述目标检测网络检测所述待识别图像中目标对象在所述待识别图像中的位置,包括:
通过本目标检测网络中的预处理层对所述待识别图像进行图像预处理,并输出给本目标检测网络中的第一级联卷积神经网络;
所述第一级联卷积神经网络对预处理后的待识别图像进行位置检测,以得到所述目标对象在所述待识别图像中的位置。
3.根据权利要求2所述的方法,其特征在于,所述图像预处理至少包括以下处理:格式转化处理和降采样处理。
4.根据权利要求2所述的方法,其特征在于,所述校正网络从所述待识别图像中抠出所述位置对应的图像,并对抠出的图像进行校正,包括:
通过本校正网络中的抠图层从所述预处理后的待识别图像中抠出所述位置对应的图像,并输出给本校正网络中的第二级联卷积神经网络;
所述第二级联卷积神经网络计算抠出的图像的校正值,并输出给本校正网络中的校正层;
所述校正层利用所述校正值对所述抠出的图像进行校正,以得到校正后的图像。
5.根据权利要求4所述的方法,其特征在于,所述抠出的图像的校正值至少包括:尺度校正值、角度校正值以及亮度校正值。
6.根据权利要求1所述的方法,其特征在于,所述目标识别网络识别所述校正后的图像的内容,包括:
通过本目标识别网络中的上采样层对所述校正后的图像进行上采样处理,并输出给本目标识别网络中的第三级联卷积神经网络;
所述第三级联卷积神经网络识别上采样处理后的图像的内容,以得到图像识别结果。
7.根据权利要求1所述的方法,其特征在于,目标检测网络通过如下方式训练:
获取第一类训练样本和第二类训练样本,所述第一类训练样本是包含有各种类型目标且对各种类型目标进行了位置标注的样本,所述第二类训练样本是包含有指定类型目标且对指定类型目标进行了位置标注的样本;
利用所述第一类训练样本对所述目标检测网络的训练模型进行粗略训练,直至训练次数达到预设次数停止训练;
利用所述第二类训练样本对所述目标检测网络进行优化训练,直至所述目标检测网络的损失值低于预设阈值停止训练;
其中,在所述粗略训练过程中,调整本目标检测网络中预处理层的降采样倍数k和第一级联卷积神经网络的降采样倍数n,所述k与所述n之积等于预设降采样倍数。
8.一种图像识别装置,其特征在于,所述装置包括:
模型识别模块,用于将待识别图像输入到已训练的目标识别模型,以由本目标识别模型通过目标检测网络检测所述待识别图像中目标对象在所述待识别图像中的位置,并输出到本目标识别模型中的校正网络,以由所述校正网络从所述待识别图像中抠出所述位置对应的图像,并对抠出的图像进行校正,并输出校正后的图像给本目标识别模型中的目标识别网络识别所述校正后的图像的内容;
获取模块,用于获取所述目标识别网络输出的图像识别结果;
其中,所述校正网络的训练方法包括:提取训练样本中目标对象的位置,并在所述训练样本中标注提取的位置对应的图像内容;循环执行以下步骤:
将所述训练样本和提取的位置输入所述校正网络的训练模型,并将所述校正网络输出的校正后的图像输出给所述目标识别网络;通过目标识别网络识别校正后的图像内容,并输出图像识别结果;若输出的图像识别结果与标注的图像内容的匹配度低于预设匹配度,对校正网络的训练模型的参数进行调整;若输出的图像识别结果与标注的图像内容的匹配度达到预设匹配度,停止循环。
9.根据权利要求8所述的装置,其特征在于,所述模型识别模块,具体用于在所述目标检测网络检测所述待识别图像中目标对象在所述待识别图像中的位置过程中,通过本目标检测网络中的预处理层对所述待识别图像进行图像预处理,并输出给本目标检测网络中的第一级联卷积神经网络;所述第一级联卷积神经网络对预处理后的待识别图像进行位置检测,以得到所述目标对象在所述待识别图像中的位置。
10.根据权利要求8所述的装置,其特征在于,所述模型识别模块,具体用于在所述校正网络从所述待识别图像中抠出所述位置对应的图像,并对抠出的图像进行校正过程中,通过本校正网络中的抠图层从所述预处理后的待识别图像中抠出所述位置对应的图像,并输出给本校正网络中的第二级联卷积神经网络;所述第二级联卷积神经网络计算抠出的图像的校正值,并输出给本校正网络中的校正层;所述校正层利用所述校正值对所述抠出的图像进行校正,以得到校正后的图像。
11.根据权利要求8所述的装置,其特征在于,所述模型识别模块,具体用于在所述目标识别网络识别所述校正后的图像的内容过程中,通过本目标识别网络中的上采样层对所述校正后的图像进行上采样处理,并输出给本目标识别网络中的第三级联卷积神经网络;所述第三级联卷积神经网络识别上采样处理后的图像的内容,以得到图像识别结果。
12.根据权利要求8所述的装置,其特征在于,所述装置还包括:
目标检测网络训练模块,用于获取第一类训练样本和第二类训练样本,所述第一类训练样本是包含有各种类型目标且对各种类型目标进行了位置标注的样本,所述第二类训练样本是包含有指定类型目标且对指定类型目标进行了位置标注的样本;利用所述第一类训练样本对所述目标检测网络的训练模型进行粗略训练,直至训练次数达到预设次数停止训练;利用所述第二类训练样本对所述目标检测网络进行优化训练,直至所述目标检测网络的损失值低于预设阈值停止训练;其中,在所述粗略训练过程中,调整本目标检测网络中预处理层的降采样倍数k和第一级联卷积神经网络的降采样倍数n,所述k与所述n之积等于预设降采样倍数。
13.一种电子设备,其特征在于,包括可读存储介质和处理器;
其中,所述可读存储介质,用于存储机器可执行指令;
所述处理器,用于读取所述可读存储介质上的所述机器可执行指令,并执行所述指令以实现权利要求1-7任一所述方法的步骤。
14.一种芯片,其特征在于,包括可读存储介质和处理器;
其中,所述可读存储介质,用于存储机器可执行指令;
所述处理器,用于读取所述可读存储介质上的所述机器可执行指令,并执行所述指令以实现权利要求1-7任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810798920.0A CN110738225B (zh) | 2018-07-19 | 2018-07-19 | 图像识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810798920.0A CN110738225B (zh) | 2018-07-19 | 2018-07-19 | 图像识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110738225A CN110738225A (zh) | 2020-01-31 |
CN110738225B true CN110738225B (zh) | 2023-01-24 |
Family
ID=69235306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810798920.0A Active CN110738225B (zh) | 2018-07-19 | 2018-07-19 | 图像识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110738225B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111882004B (zh) * | 2020-09-28 | 2021-01-05 | 北京易真学思教育科技有限公司 | 模型训练方法、判题方法及装置、设备、存储介质 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103870803A (zh) * | 2013-10-21 | 2014-06-18 | 北京邮电大学 | 一种基于粗定位与精定位融合的车牌识别方法和系统 |
CN105760835B (zh) * | 2016-02-17 | 2018-03-06 | 银河水滴科技(北京)有限公司 | 一种基于深度学习的步态分割与步态识别一体化方法 |
CN105740855A (zh) * | 2016-03-24 | 2016-07-06 | 博康智能信息技术有限公司 | 一种基于深度学习的前后车牌检测识别方法 |
CN106226050B (zh) * | 2016-07-15 | 2019-02-01 | 北京航空航天大学 | 一种基于卷积神经网络的tfds故障图像自动识别方法 |
CN106326858A (zh) * | 2016-08-23 | 2017-01-11 | 北京航空航天大学 | 一种基于深度学习的公路交通标志自动识别与管理系统 |
US11379958B2 (en) * | 2016-09-02 | 2022-07-05 | Casio Computer Co., Ltd. | Diagnosis assisting device, and image processing method in diagnosis assisting device |
CN106599773B (zh) * | 2016-10-31 | 2019-12-24 | 清华大学 | 用于智能驾驶的深度学习图像识别方法、系统及终端设备 |
CN106407981B (zh) * | 2016-11-24 | 2019-04-23 | 北京文安智能技术股份有限公司 | 一种车牌识别方法、装置及系统 |
CN106778659B (zh) * | 2016-12-28 | 2020-10-27 | 深圳市捷顺科技实业股份有限公司 | 一种车牌识别方法及装置 |
CN106845549B (zh) * | 2017-01-22 | 2020-08-21 | 珠海习悦信息技术有限公司 | 一种基于多任务学习的场景与目标识别的方法及装置 |
CN106951899A (zh) * | 2017-02-24 | 2017-07-14 | 李刚毅 | 基于图像识别的异常检测方法 |
CN107123107A (zh) * | 2017-03-24 | 2017-09-01 | 广东工业大学 | 基于神经网络深度学习的布匹缺陷检测方法 |
CN106980854A (zh) * | 2017-03-29 | 2017-07-25 | 珠海习悦信息技术有限公司 | 车牌号码识别方法、装置、存储介质及处理器 |
CN107341488B (zh) * | 2017-06-16 | 2020-02-18 | 电子科技大学 | 一种sar图像目标检测识别一体化方法 |
CN107679531A (zh) * | 2017-06-23 | 2018-02-09 | 平安科技(深圳)有限公司 | 基于深度学习的车牌识别方法、装置、设备及存储介质 |
CN107729801B (zh) * | 2017-07-11 | 2020-12-18 | 银江股份有限公司 | 一种基于多任务深度卷积神经网络的车辆颜色识别系统 |
CN107403183A (zh) * | 2017-07-21 | 2017-11-28 | 桂林电子科技大学 | 整合目标检测和图像分割为一体的智能分割方法 |
CN108009543B (zh) * | 2017-11-29 | 2020-05-26 | 深圳市华尊科技股份有限公司 | 一种车牌识别方法及装置 |
CN108154134B (zh) * | 2018-01-11 | 2019-07-23 | 天格科技(杭州)有限公司 | 基于深度卷积神经网络的互联网直播色情图像检测方法 |
-
2018
- 2018-07-19 CN CN201810798920.0A patent/CN110738225B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110738225A (zh) | 2020-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN105938559B (zh) | 使用卷积神经网络的数字图像处理 | |
CN108960211B (zh) | 一种多目标人体姿态检测方法以及系统 | |
CN109583483B (zh) | 一种基于卷积神经网络的目标检测方法和系统 | |
US20180293552A1 (en) | Image-based vehicle maintenance plan | |
CN111222513B (zh) | 车牌号码识别方法、装置、电子设备及存储介质 | |
CN111160249A (zh) | 基于跨尺度特征融合的光学遥感图像多类目标检测方法 | |
CN108154149B (zh) | 基于深度学习网络共享的车牌识别方法 | |
CN111461170A (zh) | 车辆图像检测方法、装置、计算机设备及存储介质 | |
CN111639629B (zh) | 一种基于图像处理的猪只体重测量方法、装置及存储介质 | |
CN107766864B (zh) | 提取特征的方法和装置、物体识别的方法和装置 | |
CN112200056B (zh) | 人脸活体检测方法、装置、电子设备及存储介质 | |
CN112784712B (zh) | 一种基于实时监控的失踪儿童预警实现方法、装置 | |
CN111062347B (zh) | 一种自动驾驶中交通要素分割方法、电子设备及存储介质 | |
CN112541394A (zh) | 黑眼圈及鼻炎识别方法、系统及计算机介质 | |
CN112052702A (zh) | 一种识别二维码的方法和装置 | |
WO2019228450A1 (zh) | 一种图像处理方法、装置及设备、可读介质 | |
CN107170004B (zh) | 一种无人车单目视觉定位中对匹配矩阵的图像匹配方法 | |
CN110738225B (zh) | 图像识别方法及装置 | |
CN111709377B (zh) | 特征提取方法、目标重识别方法、装置及电子设备 | |
CN113486715A (zh) | 图像翻拍识别方法、智能终端以及计算机存储介质 | |
CN111179212B (zh) | 集成蒸馏策略和反卷积的微小目标检测片上实现方法 | |
CN110210314B (zh) | 人脸检测方法、装置、计算机设备及存储介质 | |
CN117409244A (zh) | 一种SCKConv多尺度特征融合增强的低照度小目标检测方法 | |
CN112287905A (zh) | 车辆损伤识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |