CN116486236A - 一种图像识别方法、装置和电子设备 - Google Patents
一种图像识别方法、装置和电子设备 Download PDFInfo
- Publication number
- CN116486236A CN116486236A CN202310571313.1A CN202310571313A CN116486236A CN 116486236 A CN116486236 A CN 116486236A CN 202310571313 A CN202310571313 A CN 202310571313A CN 116486236 A CN116486236 A CN 116486236A
- Authority
- CN
- China
- Prior art keywords
- image
- network
- mask
- features
- image recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000001514 detection method Methods 0.000 claims abstract description 51
- 230000004927 fusion Effects 0.000 claims abstract description 33
- 238000000605 extraction Methods 0.000 claims abstract description 29
- 238000012805 post-processing Methods 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims description 53
- 230000006870 function Effects 0.000 claims description 43
- 238000012795 verification Methods 0.000 claims description 17
- 230000015654 memory Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 8
- 238000010200 validation analysis Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种图像识别方法、装置和电子设备。该方法包括:获取待识别图像;通过图像识别模型的像素级特征提取主干网络,提取待识别图像多个不同层次的像素级特征;利用图像识别模型的特征金字塔网络,将多个不同层次的特征在不同尺度下进行融合,以得到多个不同尺度下的融合特征;利用检测头的卷积核分支网络,对多个不同尺度下的融合特征进行处理,以获取卷积核和分类结果;以及,利用检测头的掩膜分支网络,对多个不同尺度下的融合特征进行处理,以获取掩膜特征;通过图像识别模型的后处理网络,对掩膜特征、卷积核和分类结果进行后处理,以获取识别结果,因此通过该方法能够对图像进行识别。
Description
技术领域
本申请涉及互联网技术领域,具体而言,涉及一种图像识别方法、装置和电子设备。
背景技术
在一些场景中,往往需要对图像进行识别,从而从图像中识别出文字、图案等图像内容,比如,在司法领域,需要从司法卷宗的图像中识别出诸如起诉意见书、鉴定报告等文字,在智能理赔领域,需要从各类票据的图像中检测出诸如姓名、金额等文字,在智能交通领域,需要从交通路口的车辆交通图像中识别出车辆等图案。因此,需要提供针对图像进行识别的解决方案。
发明内容
本申请实施例的目的在于提供一种图像识别方法、装置和电子设备,用以对图像进行识别。
本申请实施例第一方面提供了一种图像识别方法,图像识别模型包括像素级特征提取主干网络、特征金字塔网络、检测头和后处理网络,其中,所述检测头包括卷积核分支网络和掩膜分支网络,包括:
获取待识别图像;
通过所述图像识别模型的像素级特征提取主干网络,提取所述待识别图像多个不同层次的像素级特征;
利用所述图像识别模型的特征金字塔网络,将所述多个不同层次的特征在不同尺度下进行融合,以得到多个不同尺度下的融合特征;
利用所述检测头的卷积核分支网络,对所述多个不同尺度下的融合特征进行处理,以获取卷积核和分类结果;以及,利用所述检测头的掩膜分支网络,对所述多个不同尺度下的融合特征进行处理,以获取掩膜特征;
通过所述图像识别模型的后处理网络,对所述掩膜特征、卷积核和分类结果进行后处理,以获取识别结果。
于一实施例中,所述方法还包括:对所述识别结果进行可视化展示。
于一实施例中,所述方法应用于用户端的电子设备;以及,获取待识别图像,具体包括:通过所述用户端的电子设备中的图像采集设备采集图像,作为所述待识别图像。
于一实施例中,所述图像识别模型通过如下方法预先训练得到:
针对被训练模型的检测头的卷积核分支网络和掩膜分支网络,分别设置分类损失函数和掩膜损失函数;
利用所述分类损失函数和所述掩膜损失函数,计算所述检测头对训练样本的负反馈;
根据所述负反馈对所述被训练模型的模型参数进行调整,以训练得到所述图像识别模型。
于一实施例中,利用所述分类损失函数和所述掩膜损失函数,计算所述检测头对训练样本的负反馈,具体包括:
确定所述分类损失函数和所述掩膜损失函数,分别对所述训练样本的负反馈;
计算所述分类损失函数和所述掩膜损失函数,分别对所述训练样本的负反馈的加权平均值,作为所述检测头对训练样本的负反馈。
于一实施例中,所述方法还包括:利用验证集中的验证样本,对所述图像识别模型进行验证。
于一实施例中,所述方法还包括:
将样本随机划分为两组,其中第一组的样本作为训练样本,第二组的样本作为验证样本;以及,所述训练样本的数量与所述验证样本的数量比为8.5:1~9.5:1。
于一实施例中,获取待识别图像,具体包括:获取通过用户端的图像采集设备所采集的待识别图像。
本申请实施例第三方面提供了一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行上述第一方面任一项所述的方法。
本申请实施例第四方面提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成上述第一方面任一项所述的方法。
采用本申请实施例所提供的图像识别方法,包括获取待识别图像,然后通过图像识别模型的像素级特征提取主干网络,提取该待识别图像多个不同层次的像素级特征,然后利用图像识别模型的特征金字塔网络,将该多个不同层次的特征在不同尺度下进行融合,以得到多个不同尺度下的融合特征,然后利用检测头的卷积核分支网络,对多个不同尺度下的融合特征进行处理,以获取卷积核和分类结果,以及利用检测头的掩膜分支网络,对多个不同尺度下的融合特征进行处理,以获取掩膜特征,然后通过图像识别模型的后处理网络,对该掩膜特征、卷积核和分类结果进行后处理,以获取识别结果,因此通过该方法,能够对待识别图像进行识别。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请一实施例所提供的,电子设备的具体结构示意图;
图2为本申请一实施例所提供的,服务器与用户端交互的示意图;
图3为本申请一实施例所提供的,图像识别模型的具体结构示意图;
图4为本申请一实施例所提供的,图像识别方法的具体流程示意图;
图5为本申请一实施例所提供的,图像识别模型的像素级特征提取主干网络的具体结构示意图;
图6为本申请一实施例所提供的,模型训练方法的具体流程示意图;
图7为本申请一实施例所提供的,图像识别装置的具体结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
如前所述,在一些场景中,往往需要对图像进行识别,从而从图像中识别出文字、图案等图像内容,比如,在智能理赔领域,需要从各类发票的图像中检测出诸如姓名、金额等文字等。因此,需要提供针对图像进行识别的解决方案。
有鉴于此,本申请实施例提供了一种图像识别方法、装置、电子设备和存储介质,能够对图像进行识别。如图1所示为本实施例所提供的一种电子设备1,该电子设备1包括:至少一个处理器11和存储器12,图1中以一个处理器为例。其中,处理器11和存储器12可以通过总线10连接,存储器12存储有可被处理器11执行的指令,指令被处理器11执行,以使电子设备1可执行下述的实施例中方法的全部或部分流程。在实际应用中,该电子设备1可以是笔记本电脑、台式电脑、其组成的服务器或服务器集群等。
于一实施例中,该电子设别1可作为用户端的电子设备,比如作为用户的手机、电脑等,从而便于用户通过该电子设别1对图像进行识别。比如,在该电子设备1具体为用户的手机的情况下,能够通过该用户的手机来对图像进行识别。
于一实施例中,该电子设备还可以作为服务端的电子设备,比如作为服务器,这样用户能够向该服务器提交图像,进而通过服务器对该图像进行识别,并向用户反馈识别结果。
比如,如图2所示,该电子设备1作为服务器,从而对接一个或多个用户端2,该用户端2可以为用户端的手机、电脑等,这样用户能够通过该用户端2向作为服务器的电子设备1提交图像,进而通过作为服务器的该电子设备1对图像进行识别,并向用户反馈识别结果。
在本申请实施例中,可以利用图像识别模型来对图像进行识别,这里可以先对该图像识别模型的结构进行说明,如图3所示为该图像识别模型30的具体结构示意图,该图像识别模型30包括像素级特征提取主干网络31、特征金字塔网络32、检测头33和后处理网络34,其中,该检测头33包括卷积核分支网络331和掩膜分支网络332。结合图3所示,该像素级特征提取主干网络31连接特征金字塔网络32,该特征金字塔网络32分别连接检测头33的卷积核分支网络331和掩膜分支网络332,并且该检测头33的卷积核分支网络331和掩膜分支网络332分别连接后处理网络34。
对于该像素级特征提取主干网络31,可以用于提取待识别图像多个不同层次的像素级特征,其中,该像素级特征用于从像素级表征图像的特征,该像素级特征相对于图像的帧级特征,更能够反映图像微观层面的细节。该像素级特征提取主干网络31能够提取待识别图像多个不同层次的像素级特征,该多个可以是2个、3个、5个或其他数量,对于具体的提取方式将在后续进行详细说明。
在实际应用中,该特征金字塔网络32可以为FPN(Feature Pyramid Networks),从而能够用于将多个不同层次的像素级特征在不同尺度下进行融合,以得到多个不同尺度下的融合特征。在该FPN中,通常可以设置多个融合层,各个融合层分别在自身预设融合尺度下,对对应层次的像素级特征进行融合,从而得到对应的融合特征,这样通过这些融合层,能够使FPN将多个不同层次的像素级特征在不同尺度下进行融合,并输出这些融合特征。
检测头33的卷积核分支网络331,能够用于对多个不同尺度下的融合特征进行处理,从而获取卷积核和分类结果;检测头33的掩膜分支网络332,能够用于对多个不同尺度下的融合特征进行处理,从而获取掩膜特征。
后处理网络34能够用于对掩膜特征、卷积核和分类结果进行后处理,从而获取识别结果,并输出该识别结果。
因此,该图像识别模型30能够对该待识别图像进行像素级的实例分割,从而将待识别图像根据图像内容的类别进行像素级分割,同类像素根据图像内容的个体不同划分为对应的多个实例。首先,进行像素级特征提取,提取待识别图像的各层次特征。然后,将多个不同层次的特征在不同尺度下进行融合。进一步,根据尺度设置划分网格,将该待识别图像分割为S*S个网格(S为大于或等于2的正整数),确定待识别图像中图像实例中心位置所属的网格,其中,每个网格最多匹配一个实例,比如某个网格可以匹配一个或零个实例。然后通过检测头的两个分支获取掩膜特征、卷积核和分类结果,最后对掩膜特征、卷积核和分类结果进行后处理,从而得到识别结果,包括实例的掩膜、类别、置信度。
如图4所示为本申请实施例所提供的图像识别方法的具体流程示意图,其中,该方法可由图1所示的电子设备1作为服务器,或作为用户端的电子设备来执行,比如在作为服务器的该电子设备上部署上述的图像识别模型30,从而通过该图像识别模型30来实现该方法,这里可以以此为例,对该方法进行具体说明,该方法包括如下步骤:
步骤S41:获取待识别图像。
比如,需要对某张图像进行识别时,可以将该图像作为待识别图像。在实际应用中,根据应用场景的不同,该待识别图像可以为票据图像、司法卷宗图像、车辆交通图像等。并且对于获取该待识别图像的具体方式,比如可以是直接通过图像采集设备采集图像,并将所采集的图像作为该待识别图像,也可以是从图像库中获取图像,并将从图像库中所获取的图像作为该待识别图像,也可以是用户通过用户端提交图像,这样服务器能够接收到该图像,并将所接收到的该图像作为待识别图像,当然也可以是通过其他方式来获取该待识别图像。
当然,若通过用户端的电子设备来执行该方法的情况下,对于步骤S41的具体实现方式,可以是通过用户端的电子设备中的图像采集设备,采集图像,并将所采集的图像作为该待识别图像。比如,该用户端的电子设备可以为手机,可以通过手机摄像头(即图像采集设备)采集图像,作为该待识别图像。
步骤S42:通过图像识别模型的像素级特征提取主干网络,提取该待识别图像多个不同层次的像素级特征。
上述提到该像素级特征提取主干网络,能够用于提取待识别图像多个不同层次的像素级特征。因此在通过上述的步骤S41获取到待识别图像之后,可以将该待识别图像输入至该图像识别模型,从而使该图像识别模型的像素级特征提取主干网络,提取该待识别图像多个不同层次的像素级特征。
需要进一步说明的是,该像素级特征提取主干网络通常可以为MobileNetV2网络,该MobileNetV2网络为轻量级的网络,因此能够简化模型结构,压缩模型大小,降低模型的时间复杂度和空间复杂度。
另外,本申请实施例中对于像素级特征提取主干网络进行了模型优化,比如,可以通过精简网络层数、各层的通道数,来压缩提取的特征维度,进而进一步降低模型的时间复杂度和空间复杂度,从而使该图像识别模型更加适用于用户端的电子设备。
结合图3和如图5所示,图像识别模型的像素级特征提取主干网络31,还可以包括依次串联的多个像素级特征提取子网络311,各个像素级特征提取子网络311,分别能够用于提取待识别图像对应层次的像素级特征。比如,第一个像素级特征提取子网络311提取出待识别图像对应层次的像素级特征之后,将该像素级特征输入至所串联的下一个像素级特征提取子网络311,进而利用下一个像素级特征提取子网络311,来提取出待识别图像相应层次的像素级特征,并将所提取出的像素级特征进一步输入至所串联的下一个像素级特征提取子网络311。
另外,每个像素级特征提取子网络311,还可以将各自所提取出的对应层次的像素级特征,分别输入至图像识别模型的特征金字塔网络32,从而使特征金字塔网络32能够将这些不同层次的像素级特征,在不同尺度下进行融合。
步骤S43:利用图像识别模型的特征金字塔网络,将多个不同层次的特征在不同尺度下进行融合,以得到多个不同尺度下的融合特征。
在通过上述的步骤S42,提取出待识别图像多个不同层次的像素级特征之后,在该步骤S43中,进一步利用图像识别模型的特征金字塔网络,将该多个不同层次的特征在不同尺度下进行融合,从而得到多个不同尺度下的融合特征。比如,如前所述,该特征金字塔网络可以为FPN,这样在该FPN中的多个融合层中,各个融合层分别在自身预设融合尺度下,对对应层次的像素级特征进行融合,从而得到对应的融合特征,并输出这些融合特征。
步骤S44:利用检测头的卷积核分支网络,对多个不同尺度下的融合特征进行处理,以获取卷积核和分类结果。
步骤S45:利用检测头的掩膜分支网络,对多个不同尺度下的融合特征进行处理,以获取掩膜特征。
这里可以对该步骤S44和步骤S45进行统一说明,在该步骤S44和步骤S45中,分别利用检测头的卷积核分支网络和掩膜分支网络,分别对多个不同尺度下的融合特征进行处理,以获取到卷积核和分类结果、以及取掩膜特征。其中,对于该步骤S44和步骤S45的执行顺序,这里对此不做限定,比如可以先执行步骤S44,然后再执行步骤S45,也可以先执行步骤S45,在执行步骤S44,也可以同时执行步骤S44和S45,也可以为其他的执行顺序。
其中,对于该卷积核分支网络(ins_branch),可以将特征金字塔网络各个融合层分别所输出的融合特征分开,在该卷积核分支网络中包括多层网络,第一层网络可以为下采样2倍,最后一层网络也可以为上采样2倍,并且在该卷积核分支网络的每层还可以增加坐标通道,从而确定位置信息,比如该位置信息可以为横坐标x和纵坐标y;这样针对所划分出的S*S网格,对各个融合层分别所输出的融合特征,通过重复的conv3*3+GN+ReLU模块进行掩膜卷积核预测,从而得到卷积核;进一步删除位置信息后,经过重复的conv3*3+GN+ReLU模块进行分类预测,从而得到分类结果,这样该卷积核分支网络对多个不同尺度下的融合特征进行处理,能够获取卷积核和分类结果。
对于检测头的掩膜分支网络(mask_branch)也可以包括多层网络,其中的第一层网络经过conv3*3+GN+ReLU,第二层到第四层网络经过conv3*3+GN+ReLU+unsample,然后通过上采样使其能和第一层网络的结果相加,其中,还可以在第四层网络额外加入位置信息,比如该位置信息可以为横坐标x和纵坐标y,这样在与第一层网络的结果相加之后,进一步通过一个conv1*1完成掩膜特征预测,从而得到掩膜特征。
步骤S46:通过该图像识别模型的后处理网络,对掩膜特征、卷积核和分类结果进行后处理,以获取识别结果。
其中,该后处理网络可以对掩膜特征和卷积核进行卷积处理,从而得到实例掩膜,该实例掩膜的大小可以通过特征金字塔网络中的各个融合层区分,大特征图对应小样本,分类结果由掩膜中心所在网格处理,再通过该后处理网络的后处理,从而得到最终的实例分割结果。
另外,在该后处理网络中,可以先根据实际需要确定置信度阈值,比如在对准确性要求越高的场景中,该置信度阈值可以设置相对越大;这样通过设置该置信度阈值,能够通过该后处理网络过滤掉低置信度实例(该低置信度实例的置信度小于该置信度阈值),进而仅保留置信度大于或等于该置信度阈值的实例,然后根据这些实例的类别标签,进一步筛选出指定类别标签的实例,其中,该类别标签用于表征对应图像类容所属的类别,包括文档类、图片类等。
采用本申请实施例所提供的图像识别方法,包括获取待识别图像,然后通过图像识别模型的像素级特征提取主干网络,提取该待识别图像多个不同层次的像素级特征,然后利用图像识别模型的特征金字塔网络,将该多个不同层次的特征在不同尺度下进行融合,以得到多个不同尺度下的融合特征,然后利用检测头的卷积核分支网络,对多个不同尺度下的融合特征进行处理,以获取卷积核和分类结果,以及利用检测头的掩膜分支网络,对多个不同尺度下的融合特征进行处理,以获取掩膜特征,然后通过图像识别模型的后处理网络,对该掩膜特征、卷积核和分类结果进行后处理,以获取识别结果,因此通过该方法,能够对待识别图像进行识别。
需要说明的是,在实际应用中,通常还可以通过用户端设置相应的APP,从而通过该APP调用用户端(比如用户的手机、电脑等)的摄像头等图像采集设备进行图像采集,比如,用户需要对票据进行识别时,可以通过该APP调用用户端的摄像头,从而采集该票据的票据图像,进而将该票据图图像进行识别,并获像上传至服务器,该服务器能够通过本申请实施例所提供的方法对该票据取到识别结果。
当然,在获取到该识别结果之后,该方法还可以进一步包括将该识别结果反馈至用户端,也可以直接对识别结果进行可视化展示。另外,用户端获取到服务器所反馈的识别结果之后,也可以对该识别结果进行可视化展示。
该方法的在另一种实现方式中,也即,通过用户端的电子设备来实现该方法的情况下,此时可以在用户端的电子设备上部署上述的图像识别模型30,从而通过该图像识别模型30来实现该方法。比如,该用户端的电子设备先通过自身的图像采集设备采集得到待识别图像,然后利用该图像识别模型30来实现该方法。
其中,服务器或用户端对该识别结果进行可视化展示的方式可以是,在待识别图像中,针对所识别的图像内容进行标记,比如在图像内容所在的区域设置蒙版,也可以通过提取直线、解算区域轮廓等算法进一步得到更精确的图像内容的边界,并在图像内容的边界添加边界框。
需要进一步说明的是,上述主要以在服务器部署图像识别模型,从而以服务器实现本申请实施例所提供的该方法为例,进行的说明。这里还可以进一步对用户端的电子设备实现该方法进行说明,此时可以将该图像识别模型部署于用户端的电子设备,比如,部署于用户的手机,这样可以通过手机的摄像头采集(比如实时采集)图像,作为待识别图像,然后分别通过执行上述步骤的S41~S45来实现对图像的识别。
上述是对本申请实施例所提供的图像识别方法的具体说明,在该图像识别方法中,利用图像识别模型对待识别图像进行识别,其中,对于该待识别图像可以将被训练模型,通过如下所示的模型训练方法,预先训练得到。如图6所示为该模型训练方法的具体流程示意图,该模型训练方法包括如下步骤:
步骤S51:针对被训练模型的检测头的卷积核分支网络和掩膜分支网络,分别设置分类损失函数和掩膜损失函数。
在该模型训练方法中,被训练模型的结构也可以与上述图像识别模型的结构相同,也包括像素级特征提取主干网络、特征金字塔网络、检测头和后处理网络,并且该检测头也包括卷积核分支网络和掩膜分支网络,从而在对该被训练模型进行训练之后,能够得到该图像识别模型。
在该步骤S51中,可以针对被训练模型的检测头的卷积核分支网络和掩膜分支网络,分别设置分类损失函数和掩膜损失函数。
其中,该分类损失函数称之为Lcate,如下的公式一所示,该Lcate可以使用Focalloss,p->tr来描述分类准确程度,其数值的大小可以用于表示分类结果距离真值的距离,在该公式一中,β、γ为可调节参数。
Lcate=LFocal=-β(1-p->tr)γlog(p->tr) 公式一
掩膜损失函数称之为Lmask,该Lmask函数值的大小由掩膜分支网络预测的特征结合卷积核预测结果共同得到的实例掩膜计算,如下的公式二所示,该Lmask可以使用Diceloss,其中,NPositive表示正样本数,cate*表示分类真值,cate*>0表示遍历实例网格时仅当网格中分类存在时才计算Loss;以mask,mask*分别表示预测结果掩膜和真值掩膜;对于该Diceloss可以如下的公式三所示。
步骤S52:利用分类损失函数和掩膜损失函数,计算检测头对训练样本的负反馈。
在该步骤S52中,比如将训练样本输入至被训练模型之后,分别经过该被训练模型的像素级特征提取主干网络、特征金字塔网络的处理,在该检测头能够利用分类损失函数和掩膜损失函数,计算该检测头对训练样本的负反馈得到对训练样本的负反馈,具体来说,可以先确定该分类损失函数和该掩膜损失函数,分别对该训练样本的负反馈,然后计算分类损失函数和掩膜损失函数,分别对训练样本的负反馈的加权平均值,并将该加权平均值作为该检测头对训练样本的负反馈。
比如,可以利用如下的公式四来计算出该加权平均值,进而将该加权平均值作为该检测头对训练样本的负反馈。
L=Lcate+αLmask公式四
在该公式四中,Lcate为分类损失函数对训练样本的负反馈;Lmask为掩膜损失函数对训练样本的负反馈;α为可调节参数;L为所计算得到的加权平均值。
步骤S53:根据检测头对训练样本的负反馈,对被训练模型的模型参数进行调整,以训练得到该图像识别模型。
在通过上述的步骤S52得到检测头对训练样本的负反馈之后,进一步根据该负反馈对被训练模型的模型参数进行调整,这样能够循环向被训练模型中输入训练样本,并得到负反馈后再对被训练模型的模型参数进行调整,当模型收敛后可以停止训练,并训练得到该图像识别模型。
显然通过该模型训练方法训练得到该图像识别模型之后,能够利用该图像识别模型来实现本申请实施例所提供的图像识别方法,因此为本申请实施例所提供的图像识别方法提供了基础。
当然,在训练得到该图像识别模型之后,该方法还可以进一步包括利用验证集中的验证样本,对该图像识别模型进行验证,比如验证该图像识别模型识别结果的准确性、该图像识别模型的鲁棒性、该图像识别模型的时间复杂度、空间复杂度等。
需要进一步说明的是,在上述而对模型训练和验证过程中,分别需要训练样本和验证样本,对于这些样本可以通过如下方式获取,比如,可以先获取原始数据,该原始数据可以为真实拍摄的图像、视频和通过背景、前景替换生成的合成图像;然后,通过对原始数据进行标注从而得到包含样本的数据集。其中,为了便于模型训练并且提高模型的鲁棒性,该数据集中的样本可以全部为包含文档的图像,这些图像中的文档数量可以不同(比如,可以存在多文档的图像、单一文档的图像等),另外图像中的文档种类可以有多种,比如可以包括表格、图文、纯文本等。
对于数据集中的样本,为了便于后续的模型训练和验证,可以进一步将这些样本随机划分为两组,其中第一组的样本作为训练样本(即,该第一组作为训练集),第二组的样本作为验证样本(即,该第二组作为验证集),并且,训练样本的数量与验证样本的数量比为8.5:1~9.5:1,比如可以为9:1。
基于与本申请实施例所提供的图像识别方法相同的发明构思,本申请实施例还提供了一种图像识别装置,对于该装置实施例中的具体内容,如有不清楚之处,可以参考上述方法实施例的对应内容。如图7所示为该装置60的具体结构示意图,该装置60包括获取单元601、像素级特征提取单元602、特征融合单元603、检测头单元604和后处理单元605,其中:该像素级特征提取单元602中包括图像识别模型的像素级特征提取主干网络,特征融合单元603中包括图像识别模型的特征金字塔网络,检测头单元604中包括图像识别模型的检测头,后处理单元605中包括图像识别模型的后处理网络,其中:
获取单元601,用于获取待识别图像;
像素级特征提取单元602,用于通过所述图像识别模型的像素级特征提取主干网络,提取所述待识别图像多个不同层次的像素级特征;
特征融合单元603,用于利用所述图像识别模型的特征金字塔网络,将所述多个不同层次的特征在不同尺度下进行融合,以得到多个不同尺度下的融合特征;
检测头单元604,用于利用所述检测头的卷积核分支网络,对所述多个不同尺度下的融合特征进行处理,以获取卷积核和分类结果;以及,利用所述检测头的掩膜分支网络,对所述多个不同尺度下的融合特征进行处理,以获取掩膜特征;
后处理单元605,用于通过所述图像识别模型的后处理网络,对所述掩膜特征、卷积核和分类结果进行后处理,以获取识别结果。
采用本申请实施例所提供的图像识别装置60,由于该装置60采用与本申请实施例所提供的图像识别方法相同的发明构思,在该方法能够解决技术问题的前提下,该装置60也能够解决技术问题,这里对此不再赘述。
另外,在实际应用中,通过将该装置60与具体硬件设备相结合所取得的技术效果,也在本申请的保护范围之内,比如采用分布式集群的方式将该训练装置中的不同单元布设于分布式集群中的不同服务器中,从而提高模型训练效率等。
该装置60还可以包括展示单元,用于对所述识别结果进行可视化展示。
该装置可应用于用户端的电子设备,此时获取单元601可以包括获取子单元601,用于通过所述用户端的电子设备中的图像采集设备采集图像,作为所述待识别图像。
该装置60还可以包括模型训练单元,用于通过如下方法预先训练得到图像识别模型:针对被训练模型的检测头的卷积核分支网络和掩膜分支网络,分别设置分类损失函数和掩膜损失函数;利用所述分类损失函数和所述掩膜损失函数,计算所述检测头对训练样本的负反馈;根据所述负反馈对所述被训练模型的模型参数进行调整,以训练得到所述图像识别模型。
其中,利用所述分类损失函数和所述掩膜损失函数,计算所述检测头对训练样本的负反馈,可以具体包括:确定所述分类损失函数和所述掩膜损失函数,分别对所述训练样本的负反馈;计算所述分类损失函数和所述掩膜损失函数,分别对所述训练样本的负反馈的加权平均值,作为所述检测头对训练样本的负反馈。
该装置60还可以验证单元,用于利用验证集中的验证样本,对所述图像识别模型进行验证。
该装置60还可以分组单元,用于将样本随机划分为两组,其中第一组的样本作为训练样本,第二组的样本作为验证样本;以及,所述训练样本的数量与所述验证样本的数量比为8.5:1~9.5:1。
获取单元601可以具体包括获取子单元,用于获取通过用户端的图像采集设备所采集的待识别图像。
本申请实施例还提供了一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现本申请实施例所提供的训练方法的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供了一种非暂态电子设备可读存储介质,包括:程序,当其在电子设备上运行时,使得电子设备可执行上述实施例中方法的全部或部分流程。其中,存储介质可为磁盘、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(RandomAccess Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等。存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (10)
1.一种图像识别方法,其特征在于,图像识别模型包括像素级特征提取主干网络、特征金字塔网络、检测头和后处理网络,其中,所述检测头包括卷积核分支网络和掩膜分支网络,所述方法包括:
获取待识别图像;
通过所述图像识别模型的像素级特征提取主干网络,提取所述待识别图像多个不同层次的像素级特征;
利用所述图像识别模型的特征金字塔网络,将所述多个不同层次的特征在不同尺度下进行融合,以得到多个不同尺度下的融合特征;
利用所述检测头的卷积核分支网络,对所述多个不同尺度下的融合特征进行处理,以获取卷积核和分类结果;以及,利用所述检测头的掩膜分支网络,对所述多个不同尺度下的融合特征进行处理,以获取掩膜特征;
通过所述图像识别模型的后处理网络,对所述掩膜特征、卷积核和分类结果进行后处理,以获取识别结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:对所述识别结果进行可视化展示。
3.根据权利要求1所述的方法,其特征在于,所述方法应用于用户端的电子设备;以及,获取待识别图像,具体包括:
通过所述用户端的电子设备中的图像采集设备采集图像,作为所述待识别图像。
4.根据权利要求1所述的方法,其特征在于,所述图像识别模型通过如下方法预先训练得到:
针对被训练模型的检测头的卷积核分支网络和掩膜分支网络,分别设置分类损失函数和掩膜损失函数;
利用所述分类损失函数和所述掩膜损失函数,计算所述检测头对训练样本的负反馈;
根据所述负反馈对所述被训练模型的模型参数进行调整,以训练得到所述图像识别模型。
5.根据权利要求4所述的方法,其特征在于,利用所述分类损失函数和所述掩膜损失函数,计算所述检测头对训练样本的负反馈,具体包括:
确定所述分类损失函数和所述掩膜损失函数,分别对所述训练样本的负反馈;
计算所述分类损失函数和所述掩膜损失函数,分别对所述训练样本的负反馈的加权平均值,作为所述检测头对训练样本的负反馈。
6.根据权利要求4所述的方法,其特征在于,所述方法还包括:利用验证集中的验证样本,对所述图像识别模型进行验证。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
将样本随机划分为两组,其中第一组的样本作为训练样本,第二组的样本作为验证样本;以及,所述训练样本的数量与所述验证样本的数量比为8.5:1~9.5:1。
8.根据权利要求1所述的方法,其特征在于,获取待识别图像,具体包括:获取通过用户端的图像采集设备所采集的待识别图像。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行如权利要求1-7任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成权利要求1-7任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310571313.1A CN116486236A (zh) | 2023-05-18 | 2023-05-18 | 一种图像识别方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310571313.1A CN116486236A (zh) | 2023-05-18 | 2023-05-18 | 一种图像识别方法、装置和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116486236A true CN116486236A (zh) | 2023-07-25 |
Family
ID=87219617
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310571313.1A Pending CN116486236A (zh) | 2023-05-18 | 2023-05-18 | 一种图像识别方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116486236A (zh) |
-
2023
- 2023-05-18 CN CN202310571313.1A patent/CN116486236A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110569721B (zh) | 识别模型训练方法、图像识别方法、装置、设备及介质 | |
CN108710847B (zh) | 场景识别方法、装置及电子设备 | |
CN110348294B (zh) | Pdf文档中图表的定位方法、装置及计算机设备 | |
CN111681273B (zh) | 图像分割方法、装置、电子设备及可读存储介质 | |
CN107944450B (zh) | 一种车牌识别方法及装置 | |
CN111126514A (zh) | 图像多标签分类方法、装置、设备及介质 | |
CN109635805B (zh) | 图像文本定位方法及装置、图像文本识别方法及装置 | |
CN112487848B (zh) | 文字识别方法和终端设备 | |
CN111353491B (zh) | 一种文字方向确定方法、装置、设备及存储介质 | |
CN113963147B (zh) | 一种基于语义分割的关键信息提取方法及系统 | |
CN113837151B (zh) | 表格图像处理方法、装置、计算机设备及可读存储介质 | |
CN113255501B (zh) | 生成表格识别模型的方法、设备、介质及程序产品 | |
CN110942456B (zh) | 篡改图像检测方法、装置、设备及存储介质 | |
CN113496208B (zh) | 视频的场景分类方法及装置、存储介质、终端 | |
CN113239807B (zh) | 训练票据识别模型和票据识别的方法和装置 | |
CN109977875A (zh) | 基于深度学习的手势识别方法及设备 | |
CN115731422A (zh) | 多标签分类模型的训练方法、分类方法及装置 | |
CN112288701A (zh) | 一种智慧交通图像检测方法 | |
CN115953744A (zh) | 一种基于深度学习的车辆识别追踪方法 | |
CN112052702A (zh) | 一种识别二维码的方法和装置 | |
WO2024174726A1 (zh) | 基于深度学习的手写及打印文本检测方法和装置 | |
CN106611148B (zh) | 基于图像的离线公式识别方法和装置 | |
CN112396060B (zh) | 基于身份证分割模型的身份证识别方法及其相关设备 | |
CN113628181A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN111414889A (zh) | 基于文字识别的财务报表识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |