CN111598117A - 图像识别方法及装置 - Google Patents
图像识别方法及装置 Download PDFInfo
- Publication number
- CN111598117A CN111598117A CN201910130438.4A CN201910130438A CN111598117A CN 111598117 A CN111598117 A CN 111598117A CN 201910130438 A CN201910130438 A CN 201910130438A CN 111598117 A CN111598117 A CN 111598117A
- Authority
- CN
- China
- Prior art keywords
- image
- feature
- layer
- channel
- attention mechanism
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/251—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/757—Matching configurations of points or features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种图像识别方法及装置,应用于图像处理设备,属于图像识别检索领域,所述图像处理设备预设有神经网络模型,该神经网络模型包括通道域注意力机制层和空间域注意力机制层。通过从通道域和空间域增加待识别目标关键区域的权重,使得在跟踪待识别目标的过程中,避免待识别目标尺寸变化或者待识别目标被遮挡等因素导致待识别目标被跟丢的情况。如此,使得在识别待识别目标的过程中,关注待识别目标的关键区域,获得更具鉴别性的特征,提高了神经网络模型识别和跟踪的准确率以及稳定性。
Description
技术领域
本申请涉及图像识别检索领域,具体而言,涉及一种图像识别方法及装置。
背景技术
图像识别,是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。传统的图像识别技术的步骤包括图像获取、图像预处理、特征提取和特征识别。然而,传统的图像识别技术在目标识别,目标跟踪的过程中,由于跟踪目标的尺寸发生变化或者跟踪目标被遮挡等因素,容易导致该跟踪目标被跟丢的情况发生。
发明内容
为了克服现有技术中的上述不足,本申请的目的在于提供一种图像识别方法,应用于图像处理设备,所述图像处理设备预设有神经网络模型,所述神经网络模型包括至少一个特征提取层和全连接层,所述特征提取层包括第一卷积层和注意力机制层,所述注意力机制层包括空间域注意力机制层和通道域注意力机制层,所述第一卷积层的输出为所述注意力机制层的输入,所述方法的步骤包括:
获取待识别图像,并将所述待识别图像输入所述至少一个特征提取层;
针对每个所述特征提取层,通过所述第一卷积层获得多个通道的第一特征图像;
通过所述空间域注意力机制层增加所述第一特征图像中待识别目标的关键区域的权重,获得空间域特征图像,所述关键区域为可以表示该待识别目标的种类的区域;
通过所述通道域注意力机制层增加多个通道中的关键通道的权重,获得通道域特征图像,所述关键通道对应的第一特征图像中包含所述待识别目标的关键区域对应的特征;
将所述空间域特征图像和所述通道域特征图像融合获得融合特征图像,将所述融合特征图像和所述第一特征图像融合获得第一待识别特征图像;
通过所述全连接层学习所述第一待识别特征图像获得第二待识别特征图像;
将所述第二待识别特征图像同预设特征库中的特征做相似度计算,获得计算结果,根据所述计算结果判断所述待识别目标的目标种类,并将所述目标种类对应的图像和所述待识别图像进行匹配,其中,所述预设特征库中的特征通过训练好的所述神经网络模型学习已知目标种类的图像获得。
可选地,所述注意力机制层还包括维度调整层,将所述融合特征和所述第一特征图像融合获得第一待识别特征之前还包括步骤:
通过所述维度调整层调整所述融合特征的维度,使得调整后的融合特征与所述第一特征图像具有相同维度,其中,所述维度表示特征特征图像的尺寸和通道。
可选地,所述空间域注意力机制层包括至少一个第二卷积层,所述通过所述空间域注意力机制层增加所述第一特征图像中待识别目标的关键区域的权重,获得空间域特征图像的步骤包括:
将所述多个通道的第一特征图像融合成单个通道的空间域待处理图像;
通过所述至少一个第二卷积层对所述空间域待处理图像进行处理获得所述空间域特征图像。
可选地,所述通道域注意力机制层包括至少一个第三卷积层,所述通过所述通道域注意力机制层增加多个通道中的关键通道的权重,获得通道域特征图像的步骤包括:
计算每一个通道的第一特征图像的像素平均值,进而获得通道域待处理图像;
通过所述至少一个第三卷积层对所述通道域待处理图像进行处理获得所述通道域特征图像。
可选地,所述方法的步骤还包括对所述神经网络模型的训练:
通过预设参数对神经网络进行初始化;
获取训练样本集,所述训练样本集包括多个正负样本对,所述正负样本对包括预设数量的目标图像和预设数量的非目标图像;
将所述训练样本集送入神经网络模型,通过预设损失函数根据反向传播算法多次调整所述神经网络模型的权值,直到所述预设损失函数的误差低于预设阈值。
可选地,所述预设损失函数为Softmax损失函数和Triplet损失函数。
本申请的另一目的在于提供一种图像识别装置,应用于图像处理设备,所述图像处理设备预设有神经网络模型,所述神经网络模型包括至少一个特征提取层和全连接层,所述特征提取层包括第一卷积层和注意力机制层,所述注意力机制层包括空间域注意力机制层和通道域注意力机制层,所述第一卷积层的输出为所述注意力机制层的输入,所述图像识别装置包括图像获取模块、特征提取模块、空间域模块、通道域模块、融合模块、全连接模块和匹配模块;
所述图像获取模块用于获取待识别图像,并将所述待识别图像输入所述至少一个特征提取层;
所述特征提取模块用于针对每个所述特征提取层,通过所述第一卷积层获得多个通道的第一特征图像;
所述空间域模块用于通过所述空间域注意力机制层增加所述第一特征图像中待识别目标的关键区域的权重,获得空间域特征图像,所述关键区域为可以表示该待识别目标的种类的区域;
所述通道域模块用于通过所述通道域注意力机制层增加多个通道中的关键通道的权重,获得通道域特征图像,所述关键通道对应的第一特征图像中包含所述待识别目标的关键区域对应的特征;
所述融合模块用于将所述空间域特征图像和所述通道域特征图像融合获得融合特征图像,将所述融合特征图像和所述第一特征图像融合获得第一待识别特征图像;
所述全连接模块用于通过所述全连接层学习所述第一待识别特征图像获得第二待识别特征图像;
所述匹配模块用于将所述第二待识别特征图像同预设特征库中的特征做相似度计算,获得计算结果,根据所述计算结果判断所述待识别目标的目标种类,并将所述目标种类对应的图像和所述待识别图像进行匹配,其中,所述预设特征库中的特征通过训练好的所述神经网络模型学习已知目标种类的图像获得。
可选地,所述注意力机制层还包括维度调整层,所述图像是被装安置还包括维度调整模块,所述维度调整模块通过以下方式进行维度调整:
通过所述维度调整层调整所述融合特征的维度,使得调整后的融合特征与所述第一特征图像具有相同维度,其中,所述维度表示特征特征图像的尺寸和通道。
可选地,所述空间域注意力机制层包括至少一个第二卷积层,所述空间域模块通过以下方式获得空间域特征图像:
将所述多个通道的第一特征图像融合成单个通道的空间域待处理图像;
通过所述至少一个第二卷积层对所述空间域待处理图像进行处理获得所述空间域特征图像。
可选地,所述通道域注意力机制层包括至少一个第三卷积层,所述通道域模块通过以下方式获得通道域特征图像:
计算每一个通道的第一特征图像的像素平均值,进而获得通道域待处理图像;
通过所述至少一个第三卷积层对所述通道域待处理图像进行处理获得所述通道域特征图像。
相对于现有技术而言,本申请具有以下有益效果:
本申请实施例提供一种图像识别方法及装置,应用于图像处理设备,属于图像识别检索领域,所述图像处理设预设有神经网络模型,该神经网络模型包括通道域注意力机制层和空间域注意力机制层。通过从通道域和空间域增加待识别目标关键区域的权重,使得在跟踪待识别目标的过程中,避免待识别目标尺寸变化或者待识别目标被遮挡等因素导致该待识别目标被跟丢的情况。如此,使得在识别待识别目标的过程中,关注待识别目标的关键区域,获得更具鉴别性的特征,提高了神经网络模型识别和跟踪的准确率以及稳定性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的图像处理设备的硬件结构图;
图2为本申请实施例提供的图像识别方法的步骤流程图;
图3为本申请实施例提供的注意力机制层的结构图;
图4为本申请实施例提供的图像识别装置的功能模块示意图之一;
图5位本申请实施例提供的图像识别装置的功能模块示意图之二。
图标:100-图像处理设备;130-处理器;120-存储器;110-图像识别装置;501-通道域注意力机制层;502-空间域注意力机制层;503-维度调整层;504-激活函数层;1101-图像获取模块;1102-特征提取模块;1103-空间域模块;1104-通道域模块;1105-融合模块;1106-全连接模块;1107-匹配模块;1108-维度调整模块。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本申请的描述中,需要说明的是,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
在调整图像采集装置视角的时候,会导致所述图像采集所采集图像的背景发送发生变化,或者遮挡物存在导致部分特征的缺失,进而干扰图像识别的效果。为了提高不同视角下图像识别的准确率,本实施例提供一种图像处理设备100,请参照图1,所示的图像处理设备100的硬件结构图,所述图像处理设备100包括图像识别装置110、存储器120和处理器130。所述存储器120、处理器130以及各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
所述图像处理设备100可以是,但不限于,智能手机、个人电脑(personalcomputer,PC)、平板电脑、个人数字助理(personal digital assistant,PDA)、移动上网设备(mobile Internet device,MID)等。
所述图像处理设备100的操作系统可以是,但不限于,安卓(Android)系统、IOS(iPhone operating system)系统、Windows phone系统、Windows系统等。
所述存储器120可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器120用于存储程序,处理器130在接收到执行指令后,执行所述程序。所述处理器130以及其他可能的组件对存储器120的访问可在所述存储控制器的控制下进行。
所述处理器130可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
请参照图2,图2为本为本实施例提供的应用于图1所示图像处理设备100的图像识别方法的步骤流程图,以下将对所述方法包括各个步骤进行详细阐述。所述图像处理设备100预设有神经网络模型,所述神经网络模型包括至少一个特征提取层和全连接层,所述特征提取层包括第一卷积层和注意力机制层,所述注意力机制层包括空间域注意力机制层502和通道域注意力机制层501,所述第一卷积层的输出为所述注意力机制层的输入。
步骤S100,获取待识别图像,并将所述待识别图像输入所述至少一个特征提取层。
可选地,所述图像处理设备100通过网络或者本地存储介质获取待识别图像,将获取到的所述待识别图像输入所述特征提取层。例如,在一种可能的示例中,所述预设神经网络模型包括3个特征提取层。
步骤S200,针对每个所述特征提取层,通过所述第一卷积层获得多个通道的第一特征图像。
可选地,所述特征提取层包括第一卷积层和注意力机制层,所述注意力机制层包括空间域注意力机制层502和通道域注意力机制层501。所述图像处理设备100通过所述第一卷积层获得多个通道的第一特征图像。
例如,在一种可能的示例中,所述图像处理设备100获取预设大小的待识别图像。所述神经网络模型包括3个特征提取层,所述图像处理设备100依次通过所述3个特征提取层提取所述待识别图像的相应特征获得所述第一待识别特征图像。其中,每一个特征提取层包括一第一卷积层,所述第一卷积层可以是Inception卷积神经网络或者Resnet残差卷积神经网络。所述图像处理设备100通过所述第一卷积层的多个卷积核进行下采样处理,获得多个通道的第一特征图像。
步骤S300,通过所述空间域注意力机制层502增加所述第一特征图像中待识别目标的关键区域的权重,获得空间域特征图像,所述关键区域为可以表示该待识别目标的种类的区域。
步骤S400,通过所述通道域注意力机制层501增加多个通道中的关键通道的权重,获得通道域特征图像,所述关键通道对应的第一特征图像中包含所述待识别目标的关键区域对应的特征。
可选地,请参照图3,所示的注意力机制层的结构图,在一种可能的示例中,所述注意力机制层包括通道域注意力机制层501、空间域注意力机制层502、维度调整层503和激活函数层504。所述图像处理设备100通过所述空间域注意力机制层502学习所述第一特征图像中像素之间的重要性,增加所述第一特征图像中待识别目标的关键区域的权重,获得空间域特征图像,其中,关键区域为可以表示该待识别目标的种类的区域。所述图像处理设备100通过所述通道域注意力机制层501学习多个通道之间的重要性,增加多个通道中的关键通道的权重,获得通道域特征图像,所述关键通道对应的第一特征图像中包含所述待识别目标的关键区域对应的特征。例如,在一种可能的示例中,若所述待识别目标为一辆奔驰品牌的车辆,则该奔驰品牌的车辆的关键区域包括车标区域、车头区域区域或者其他能体现这是一辆奔驰品牌的车辆的区域。
可选地,所述空间域注意力机制层502包括至少一个第二卷积层,在所述空间域注意力机制层502中,所述图像处理设备100将所述多个通道的第一特征图像融合成单个通道的空间域待处理图像;进一步地,通过所述至少一个第二卷积层对所述空间域待处理图像进行处理获得所述空间域特征图像。
可选地,所述通道域注意力机制层501包括至少一个第三卷积层,在所述通道域注意力机制层501中,所述图像处理设备100计算每一个通道的第一特征图像的像素平均值,将每一个通道的像素平均值作为通道域待处理图像;进一步地;通过所述至少一个第三卷积层对所述通道域待处理图像进行处理获得所述通道域特征图像。
步骤S500,将所述空间域特征图像和所述通道域特征图像融合获得融合特征图像,将所述融合特征图像和所述第一特征图像融合获得第一待识别特征图像。
可选地,所述图像处理设备100将所述空间域特征图像和所述通道域特征图像进行融合获得第一融合特征,进一步地,所述图像处理设备100通过一个维度调整层503调整所述第一融合特征的维度获得第二融合特征,并将所述第二融合特征通过激活函数层504做进一步处理获得所述融合特征图像;其中,所述融合特征图像和所述第一特征图像具有相同的维度,所述维度表示特征图像的尺寸和通道数,所述通道数表示特征图像的数量。
所述图像处理设备100将所述融合特征图像和所述第一特征图像融合获得所述第一待识别特征图像。
例如,在一种可能的示例中,所述图像处理设备100通过所述第一卷积层获得第一特征图像Rh×w×c,其中h、w和c对应所述第一特征图像的高、宽和通道数量,将所述多个通道的第一特征图像分别送入通道域注意力机制层501和空间域注意力机制层502。
在所述空间域注意力机制层502中,所述图像处理设备100先将c个通道的第一特征图像进行平均处理,使得c个通道的第一特征图像融合为一个通道到的空间域待处理图像。所述图像处理设备100将所述空间域域待处理图像通过一个卷积核大小为3×3,步长为2的卷积层进行卷积处理获得处理后的空间域待处理图像,再依次通过一个上采样层和一个1×1的卷积层调整所述处理后的空间域待处理图像的维度获得所述空间域特征图像。
在所述通道域注意力机制层501中,所述图像处理设备100将每一个通道的第一特征图像的像素值求和,并取其平均值,获得1×c的通道域待处理图像。进一步地,所述图像处理设备100依次通过卷积核数量为c/r,大小为1×1,步长为1的卷积层对所述通道域待处理图像做卷积处理获得处理后的通道域待处理图像。进一步地,所述图像处理设备100通过卷积核数量为c,大小为1×1,步长为1的卷积层调整所述处理后的通道域待处理图像的维度获得所述通道域特征图像。由于,在通道域的注意力机制层中的卷积参数量共计2c2/r,若r为16,则相比于使用一个卷积层需要c2的计算量,极大的减少了计算量。
所述图像处理设备100将所述空间域特征图像和通道域特征图像融合获得所述融合特征图像,其中所述空间域特征图像和所述通道域特征图像具有相同的维度。进一步地,所述图像处理设备100通过c个1×1大小的卷积核,步长为1的卷积层调整所述融合特征图像的维度,再通过激活函数对所述调整调整维度后的融合特征图像进行处理获得激活函数处理后的融合特征图像,其中,所述激活函数处理后的融合特征图像和所述第一特征图像具有相同的维度。所述图像处理设备100进一步的将所述激活函数处理后的融合特征图像和所述第一特征图像融合,获得所述第一待识别特征图像。
步骤S600,通过所述全连接层学习所述第一待识别特征图像获得第二待识别特征图像。
步骤S700,将所述第二待识别特征图像同预设特征库中的特征做相似度计算,获得计算结果,根据所述计算结果判断所述待识别目标的目标种类,并将所述目标种类对应的图像和所述待识别图像进行匹配,其中,所述预设特征库中的特征通过训练好的所述神经网络模型学习已知目标种类的图像获得。
所述图像处理设备100将所述第二待识别特征同所述预设特征库中各个已知目标种类的特征做cosine相似度计算,获得相应的计算结果。所述图像处理设备100将所述计算结果中的最大值作为目标计算结果,若所述目标计算结果大于0.5,则输出所述目标计算结果对应的目标种类;反之,输出匹配失败。
通过从通道域和空间域增加待识别目标关键区域的权重,使得在跟踪待识别目标的过程中,避免待识别目标尺寸变化或者待识别目标被遮挡等因素导致该待识别目标被跟丢的情况。如此,使得在识别待识别目标的过程中,关注待识别目标的关键区域,获得更具鉴别性的特征,提高了神经网络模型识别和跟踪的准确率以及稳定性。
本实施例还提供所述神经网络模型的训练步骤,所述获取同一个目标对象多个视角下的图片作为原始样本,选取预设数量的原始样本作为正样本,选取预设数量负样本,所述负样本中不包括所述目标对象。将所述正样本和所述负样本一起组成训练样本。
所述图像处理设备100通过预设参数对所述神经网络模型进行初始化,获得所述训练样本,将所述训练样本集送入神经网络模型,通过预设损失函数根据反向传播算法多次调整所述神经网络模型的权值,直到所述预设损失函数的误差低于预设阈值。其中,所述损失函数包括Softmax损失函数和Triplet损失函数。
在训练的过程中,使用的warmup学习率策略,即开始设定一个很小的预设学习率,然后慢慢增大到一个较大的预设学习率,接着训练一段时间又慢慢减小到一个很小的预设学习率。
请参照图4,本实施例还提供一种图像识别装置110的结构图,所述图像识别装置110包括至少一个可以软件或固件(firmware)的形式存储于所述存储器120中或固化在所述图像处理设备100的操作系统(operating system,OS)中的软件功能模块。所述处理器130用于执行所述存储器120中存储的可执行模块,例如所述图像识别装置110所包括的软件功能模块及计算机程序等。
所述图像识别装置110应用于所述图像处理设备100,所述图像处理设备100预设有神经网络模型,所述神经网络模型包括至少一个特征提取层和全连接层,所述特征提取层包括第一卷积层和注意力机制层,所述注意力机制层包括空间域注意力机制层502和通道域注意力机制层501,所述第一卷积层的输出为所述注意力机制层的输入,所述图像处理装置100包括图像获取模块1101、特征提取模块1102、空间域模块1103、通道域模块1104、融合模块1105、全连接模块1106和匹配模块1107。
所述图像获取模块1101用于获取待识别图像,并将所述待识别图像输入所述至少一个特征提取层。
在本实施例中,所述图像获取模块1101用于执行图2中的步骤S100,关于所述图像获取模块1101的详细描述可以参考步骤S100的详细描述。
所述特征提取模块1102用于针对每个所述特征提取层,通过所述第一卷积层获得多个通道的第一特征图像。
在本实施例中,所述特征提取模块1102用于执行图2中的步骤S200,关于所述特征提取模块1102的详细描述可以参考步骤S200的详细描述。
所述空间域模块1103用于通过所述空间域注意力机制层502增加所述第一特征图像中待识别目标的关键区域的权重,获得空间域特征图像,所述关键区域为可以表示该待识别目标的种类的区域。
在本实施例中,所述空间域模块1103用于执行图2中的步骤S300,关于所述空间域模块1103的详细描述可以参考步骤S300的详细描述。
所述通道域模块1104用于通过所述通道域注意力机制层501增加多个通道中的关键通道的权重,获得通道域特征图像,所述关键通道对应的第一特征图像中包含所述待识别目标的关键区域对应的特征。
在本实施例中,所述通道域模块1104用于执行图2中的步骤S400,关于所述通道域模块1104的详细描述可以参考步骤S400的详细描述。
所述融合模块1105用于将所述空间域特征图像和所述通道域特征图像融合获得融合特征图像,将所述融合特征图像和所述第一特征图像融合获得第一待识别特征图像。
在本实施例中,所述融合模块1105用于执行图2中的步骤S500,关于所述融合模块1105的详细描述恶意参考步骤S500的详细描述。
所述全连接模块1106用于通过所述全连接层学习所述第一待识别特征图像获得第二待识别特征图像。
在本实施例中,所述全连接模块1106用于执行图2中的步骤S600,关于所述全连接模块1106的详细描述可以参考步骤S600的详细描述。
所述匹配模块1107用于将所述第二待识别特征图像同预设特征库中的特征做相似度计算,获得计算结果,根据所述计算结果判断所述待识别目标的目标种类,并将所述目标种类对应的图像和所述待识别图像进行匹配,其中,所述预设特征库中的特征通过训练好的所述神经网络模型学习已知目标种类的图像获得。
在本实施例中,所述匹配模块1107用于执行图2中的步骤S700,关于所述匹配模块1107的详细描述可以参考步骤S700的详细描述。
请参照图5,所述图像处理装置还包括维度调整模块1108,所述维度调整模块1108通过以下方式进行维度调整:
通过所述维度调整模块1108调整所述融合特征的维度,使得调整后的融合特征与所述第一特征图像具有相同维度,其中,所述维度表示特征特征图像的尺寸和通道。
可选地,所述空间域注意力机制层502包括至少一个第二卷积层,所述空间域模块1103通过以下方式获得空间域特征图像:
将所述多个通道的第一特征图像融合成单个通道的空间域待处理图像;
通过所述至少一个第二卷积层对所述空间域待处理图像进行处理获得所述空间域特征图像。
可选地,所述通道域注意力机制层501包括至少一个第三卷积层,所述通道域模块1104通过以下方式获得通道域特征图像:
计算每一个通道的第一特征图像的像素平均值,进而获得通道域待处理图像;
通过所述至少一个第三卷积层对所述通道域待处理图像进行处理获得所述通道域特征图像。
综上所述,本申请实施例提供一种图像识别方法及装置,应用于图像处理设备100,属于图像识别检索领域,所述图像处理设预设有神经网络模型,该神经网络模型包括通道域注意力机制层501和空间域注意力机制层502。通过从通道域和空间域增加待识别目标关键区域的权重,使得在跟踪待识别目标的过程中,避免待识别目标尺寸变化或者待识别目标被遮挡等因素导致该待识别目标被跟丢的情况。如此,使得在识别待识别目标的过程中,关注待识别目标的关键区域,获得更具鉴别性的特征,提高了神经网络模型识别和跟踪的准确率以及稳定性。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种图像识别方法,其特征在于,应用于图像处理设备,所述图像处理设备预设有神经网络模型,所述神经网络模型包括至少一个特征提取层和全连接层,所述特征提取层包括第一卷积层和注意力机制层,所述注意力机制层包括空间域注意力机制层和通道域注意力机制层,所述第一卷积层的输出为所述注意力机制层的输入,所述方法包括:
获取待识别图像,并将所述待识别图像输入所述至少一个特征提取层;
针对每个所述特征提取层,通过所述第一卷积层获得多个通道的第一特征图像;
通过所述空间域注意力机制层增加所述第一特征图像中待识别目标的关键区域的权重,获得空间域特征图像,所述关键区域为可以表示该待识别目标的种类的区域;
通过所述通道域注意力机制层增加多个通道中的关键通道的权重,获得通道域特征图像,所述关键通道对应的第一特征图像中包含所述待识别目标的关键区域对应的特征;
将所述空间域特征图像和所述通道域特征图像融合获得融合特征图像,将所述融合特征图像和所述第一特征图像融合获得第一待识别特征图像;
通过所述全连接层学习所述第一待识别特征图像获得第二待识别特征图像;
将所述第二待识别特征图像同预设特征库中的特征做相似度计算,获得计算结果,根据所述计算结果判断所述待识别目标的目标种类,并将所述目标种类对应的图像和所述待识别图像进行匹配,其中,所述预设特征库中的特征通过训练好的所述神经网络模型学习已知目标种类的图像获得。
2.根据权利要求1所述的图像识别方法,其特征在于,所述注意力机制层还包括维度调整层,将所述融合特征和所述第一特征图像融合获得第一待识别特征之前还包括步骤:
通过所述维度调整层调整所述融合特征的维度,使得调整后的融合特征与所述第一特征图像具有相同维度,其中,所述维度表示特征特征图像的尺寸和通道。
3.根据权利要求2所述的图像识别方法,其特征在于,所述空间域注意力机制层包括至少一个第二卷积层,所述通过所述空间域注意力机制层增加所述第一特征图像中待识别目标的关键区域的权重,获得空间域特征图像的步骤包括:
将所述多个通道的第一特征图像融合成单个通道的空间域待处理图像;
通过所述至少一个第二卷积层对所述空间域待处理图像进行处理获得所述空间域特征图像。
4.根据权利要求2所述的图像识别方法,其特征在于,所述通道域注意力机制层包括至少一个第三卷积层,所述通过所述通道域注意力机制层增加多个通道中的关键通道的权重,获得通道域特征图像的步骤包括:
计算每一个通道的第一特征图像的像素平均值,进而获得通道域待处理图像;
通过所述至少一个第三卷积层对所述通道域待处理图像进行处理获得所述通道域特征图像。
5.根据权利要求1所述的图像识别方法,其特征在于,所述方法的步骤还包括对所述神经网络模型的训练:
通过预设参数对神经网络进行初始化;
获取训练样本集,所述训练样本集包括多个正负样本对,所述正负样本对包括预设数量的目标图像和预设数量的非目标图像;
将所述训练样本集送入神经网络模型,通过预设损失函数根据反向传播算法多次调整所述神经网络模型的权值,直到所述预设损失函数的误差低于预设阈值。
6.根据权利要求5所述的图像识别方法,其特征在于,所述预设损失函数为Softmax损失函数和Triplet损失函数。
7.一种图像识别装置,其特征在于,应用于图像处理设备,所述图像处理设备预设有神经网络模型,所述神经网络模型包括至少一个特征提取层和全连接层,所述特征提取层包括第一卷积层和注意力机制层,所述注意力机制层包括空间域注意力机制层和通道域注意力机制层,所述第一卷积层的输出为所述注意力机制层的输入,所述图像识别装置包括图像获取模块、特征提取模块、空间域模块、通道域模块、融合模块、全连接模块和匹配模块;
所述图像获取模块用于获取待识别图像,并将所述待识别图像输入所述至少一个特征提取层;
所述特征提取模块用于针对每个所述特征提取层,通过所述第一卷积层获得多个通道的第一特征图像;
所述空间域模块用于通过所述空间域注意力机制层增加所述第一特征图像中待识别目标的关键区域的权重,获得空间域特征图像,所述关键区域为可以表示该待识别目标的种类的区域;
所述通道域模块用于通过所述通道域注意力机制层增加多个通道中的关键通道的权重,获得通道域特征图像,所述关键通道对应的第一特征图像中包含所述待识别目标的关键区域对应的特征;
所述融合模块用于将所述空间域特征图像和所述通道域特征图像融合获得融合特征图像,将所述融合特征图像和所述第一特征图像融合获得第一待识别特征图像;
所述全连接模块用于通过所述全连接层学习所述第一待识别特征图像获得第二待识别特征图像;
所述匹配模块用于将所述第二待识别特征图像同预设特征库中的特征做相似度计算,获得计算结果,根据所述计算结果判断所述待识别目标的目标种类,并将所述目标种类对应的图像和所述待识别图像进行匹配,其中,所述预设特征库中的特征通过训练好的所述神经网络模型学习已知目标种类的图像获得。
8.根据权利要求7所述的图像识别装置,其特征在于,所述注意力机制层还包括维度调整层,所述图像处理装置还包括维度调整模块,所述维度调整模块通过以下方式进行维度调整:
通过所述维度调整层调整所述融合特征的维度,使得调整后的融合特征与所述第一特征图像具有相同维度,其中,所述维度表示特征特征图像的尺寸和通道。
9.根据权利要求8所述的图像识别装置,其特征在于,所述空间域注意力机制层包括至少一个第二卷积层,所述空间域模块通过以下方式获得空间域特征图像:
将所述多个通道的第一特征图像融合成单个通道的空间域待处理图像;
通过所述至少一个第二卷积层对所述空间域待处理图像进行处理获得所述空间域特征图像。
10.根据权利要求8所述的图像识别装置,其特征在于,所述通道域注意力机制层包括至少一个第三卷积层,所述通道域模块通过以下方式获得通道域特征图像:
计算每一个通道的第一特征图像的像素平均值,进而获得通道域待处理图像;
通过所述至少一个第三卷积层对所述通道域待处理图像进行处理获得所述通道域特征图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910130438.4A CN111598117B (zh) | 2019-02-21 | 2019-02-21 | 图像识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910130438.4A CN111598117B (zh) | 2019-02-21 | 2019-02-21 | 图像识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111598117A true CN111598117A (zh) | 2020-08-28 |
CN111598117B CN111598117B (zh) | 2023-06-30 |
Family
ID=72185266
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910130438.4A Active CN111598117B (zh) | 2019-02-21 | 2019-02-21 | 图像识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111598117B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112905883A (zh) * | 2021-02-09 | 2021-06-04 | 联想(北京)有限公司 | 一种应用于推荐系统的信息处理方法及装置 |
CN113393496A (zh) * | 2021-07-05 | 2021-09-14 | 中国电子科技集团公司第二十八研究所 | 一种基于时空注意力机制的目标跟踪方法 |
CN116630639A (zh) * | 2023-07-20 | 2023-08-22 | 深圳须弥云图空间科技有限公司 | 对象图像的识别方法及装置 |
CN117095176A (zh) * | 2023-08-09 | 2023-11-21 | 中移互联网有限公司 | 图像处理方法、装置、电子设备和存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9186793B1 (en) * | 2012-08-31 | 2015-11-17 | Brain Corporation | Apparatus and methods for controlling attention of a robot |
US20170124432A1 (en) * | 2015-11-03 | 2017-05-04 | Baidu Usa Llc | Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering |
CN108090472A (zh) * | 2018-01-12 | 2018-05-29 | 浙江大学 | 基于多通道一致性特征的行人重识别方法及其系统 |
CN108364023A (zh) * | 2018-02-11 | 2018-08-03 | 北京达佳互联信息技术有限公司 | 基于注意力模型的图像识别方法和系统 |
CN108764303A (zh) * | 2018-05-10 | 2018-11-06 | 电子科技大学 | 一种基于注意力机制的遥感图像自然语言生成方法 |
CN109101948A (zh) * | 2018-08-28 | 2018-12-28 | 电子科技大学 | 一种基于时空及通道的多注意力机制视频描述方法 |
CN109145940A (zh) * | 2018-07-02 | 2019-01-04 | 北京陌上花科技有限公司 | 图像识别方法和装置 |
US10176405B1 (en) * | 2018-06-18 | 2019-01-08 | Inception Institute Of Artificial Intelligence | Vehicle re-identification techniques using neural networks for image analysis, viewpoint-aware pattern recognition, and generation of multi- view vehicle representations |
CN109255369A (zh) * | 2018-08-09 | 2019-01-22 | 网易(杭州)网络有限公司 | 利用神经网络识别图片的方法及装置、介质和计算设备 |
CN109359592A (zh) * | 2018-10-16 | 2019-02-19 | 北京达佳互联信息技术有限公司 | 视频帧的处理方法、装置、电子设备及存储介质 |
-
2019
- 2019-02-21 CN CN201910130438.4A patent/CN111598117B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9186793B1 (en) * | 2012-08-31 | 2015-11-17 | Brain Corporation | Apparatus and methods for controlling attention of a robot |
US20170124432A1 (en) * | 2015-11-03 | 2017-05-04 | Baidu Usa Llc | Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering |
CN106649542A (zh) * | 2015-11-03 | 2017-05-10 | 百度(美国)有限责任公司 | 用于视觉问答的系统和方法 |
CN108090472A (zh) * | 2018-01-12 | 2018-05-29 | 浙江大学 | 基于多通道一致性特征的行人重识别方法及其系统 |
CN108364023A (zh) * | 2018-02-11 | 2018-08-03 | 北京达佳互联信息技术有限公司 | 基于注意力模型的图像识别方法和系统 |
CN108764303A (zh) * | 2018-05-10 | 2018-11-06 | 电子科技大学 | 一种基于注意力机制的遥感图像自然语言生成方法 |
US10176405B1 (en) * | 2018-06-18 | 2019-01-08 | Inception Institute Of Artificial Intelligence | Vehicle re-identification techniques using neural networks for image analysis, viewpoint-aware pattern recognition, and generation of multi- view vehicle representations |
CN109145940A (zh) * | 2018-07-02 | 2019-01-04 | 北京陌上花科技有限公司 | 图像识别方法和装置 |
CN109255369A (zh) * | 2018-08-09 | 2019-01-22 | 网易(杭州)网络有限公司 | 利用神经网络识别图片的方法及装置、介质和计算设备 |
CN109101948A (zh) * | 2018-08-28 | 2018-12-28 | 电子科技大学 | 一种基于时空及通道的多注意力机制视频描述方法 |
CN109359592A (zh) * | 2018-10-16 | 2019-02-19 | 北京达佳互联信息技术有限公司 | 视频帧的处理方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
YONG LI: "Occlusion aware facial expression recognition using CNN with attention mechanism", pages 2439 - 2450 * |
王培森: "基于注意力机制的图像分类深度学习方法研究", pages 138 - 2489 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112905883A (zh) * | 2021-02-09 | 2021-06-04 | 联想(北京)有限公司 | 一种应用于推荐系统的信息处理方法及装置 |
CN113393496A (zh) * | 2021-07-05 | 2021-09-14 | 中国电子科技集团公司第二十八研究所 | 一种基于时空注意力机制的目标跟踪方法 |
CN116630639A (zh) * | 2023-07-20 | 2023-08-22 | 深圳须弥云图空间科技有限公司 | 对象图像的识别方法及装置 |
CN116630639B (zh) * | 2023-07-20 | 2023-12-12 | 深圳须弥云图空间科技有限公司 | 对象图像的识别方法及装置 |
CN117095176A (zh) * | 2023-08-09 | 2023-11-21 | 中移互联网有限公司 | 图像处理方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111598117B (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110245659B (zh) | 基于前背景相互关系的图像显著对象分割方法及装置 | |
CN111178245B (zh) | 车道线检测方法、装置、计算机设备和存储介质 | |
EP2064652B1 (en) | Method of image processing | |
CN110598600A (zh) | 一种基于unet神经网络的遥感图像云检测方法 | |
CN112348828B (zh) | 基于神经网络的实例分割方法和装置以及存储介质 | |
CN110263920B (zh) | 卷积神经网络模型及其训练方法和装置、巡检方法和装置 | |
CN113052873B (zh) | 一种在线自监督学习场景适应的单目标跟踪方法 | |
CN111598117A (zh) | 图像识别方法及装置 | |
JP7327077B2 (ja) | 路上障害物検知装置、路上障害物検知方法、及び路上障害物検知プログラム | |
CN111652181B (zh) | 目标跟踪方法、装置及电子设备 | |
CN113469099B (zh) | 目标检测模型的训练方法、检测方法、装置、设备及介质 | |
CN109376736A (zh) | 一种基于深度卷积神经网络的视频小目标检测方法 | |
CN113095333A (zh) | 无监督特征点检测方法及装置 | |
CN111611968B (zh) | 一种遥感图像的处理方法以及遥感图像处理模型 | |
CN111753775A (zh) | 鱼的生长评估方法、装置、设备及存储介质 | |
CN111353429A (zh) | 基于眼球转向的感兴趣度方法与系统 | |
CN115311550A (zh) | 遥感影像语义变化检测方法、装置、电子设备及存储介质 | |
CN107633527B (zh) | 基于全卷积神经网络的目标追踪方法及装置 | |
CN111178200A (zh) | 一种仪表盘指示灯的识别方法及计算设备 | |
CN113392845A (zh) | 一种基于u-net的深度学习遥感图像语义分割方法及系统 | |
CN117636267A (zh) | 车辆目标跟踪方法、系统、装置及存储介质 | |
CN112990009A (zh) | 基于端到端的车道线检测方法、装置、设备及存储介质 | |
CN116258873A (zh) | 一种位置信息确定方法、对象识别模型的训练方法及装置 | |
CN110689481A (zh) | 车辆种类识别方法及装置 | |
CN114818785A (zh) | 基于多模型融合的信号调制方式识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |