CN113780315A - 图像识别方法、装置、网络设备及计算机可读存储介质 - Google Patents

图像识别方法、装置、网络设备及计算机可读存储介质 Download PDF

Info

Publication number
CN113780315A
CN113780315A CN202010517842.XA CN202010517842A CN113780315A CN 113780315 A CN113780315 A CN 113780315A CN 202010517842 A CN202010517842 A CN 202010517842A CN 113780315 A CN113780315 A CN 113780315A
Authority
CN
China
Prior art keywords
image
confidence
determining
network model
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010517842.XA
Other languages
English (en)
Inventor
刘文龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SF Technology Co Ltd
SF Tech Co Ltd
Original Assignee
SF Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SF Technology Co Ltd filed Critical SF Technology Co Ltd
Priority to CN202010517842.XA priority Critical patent/CN113780315A/zh
Publication of CN113780315A publication Critical patent/CN113780315A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种图像识别方法、装置、网络设备及计算机可读存储介质,本申请实施例可以提高物品的识别率。本申请实施例中,图像识别装置首先获取待识别图像;然后通过训练后的图像识别网络模型确定所述待识别图像的最大置信度以及所述最大置信度所对应的图像类别;再确定所述最大置信度的值是否大于所述图像类别所对应的置信度阈值;若大于,则将所述图像类别确定为所述待识别图像的目标图像类别。本实施例中,图像识别装置可以通过图像识别网络模型识别待识别图像中物品的类别,无需通过物品的唯一码对物品的类别进行识别,故不会因为扫描不到唯一码而无法对物品进行识别,可以提高物品的识别率。

Description

图像识别方法、装置、网络设备及计算机可读存储介质
技术领域
本申请涉及人工智能技术领域,具体涉及一种图像识别方法、装置、网络设备及计算机可读存储介质。
背景技术
据了解,现有对物品的识别方法有在物品上贴上或喷涂上唯一码,通过唯一码进行物品的识别。例如,为了了解包装材料的消耗情况,一些快递公司会在纸箱或塑胶袋上喷涂唯一码,通过获取纸箱或塑胶袋上唯一码的图像,进而识别唯一码,匹配到与之对应包装材料,从而掌握包装材料消耗情况。
但是,由于快递分拣线生产环境复杂和包裹形状各异,通常会由于获取不到唯一码的图像,导致扫描不到唯一码,无法识别到包裹的包装材料,识别率低。
发明内容
本申请实施例提供一种图像识别方法、装置、网络设备及计算机可读存储介质,可以提高识别率。
第一方面,本申请实施例提供了一种图像识别方法,包括:
获取待识别图像;
通过训练后的图像识别网络模型确定所述待识别图像的最大置信度以及所述最大置信度所对应的图像类别;
确定所述最大置信度的值是否大于所述图像类别所对应的置信度阈值;
若大于,则将所述图像类别确定为所述待识别图像的目标图像类别。
在一些实施方式中,所述确定所述最大置信度的值是否大于所述图像类别所对应的置信度阈值之后,所述方法还包括:
若不大于,则将所述待识别图像保存至辅助分类数据库。
在一些实施方式中,所述通过训练后的图像识别网络模型确定所述待识别图像的最大置信度以及所述最大置信度所对应的图像类别之前,所述方法还包括:
获取训练样本集;
根据所述训练样本集对预设图像识别网络模型进行训练,得到所述训练后的图像识别网络模型,其中,
所述预设图像识别网络模型的特征提取网络由多个特征提取子网络组成,所述特征提取子网络由一个可分离卷积层、一个卷积层、两个批归一化层以及两个Mish激活函数层组成。
在一些实施方式中,所述根据所述训练样本集对预设图像识别网络模型进行训练,得到所述训练后的图像识别网络模型之后,所述方法还包括:
使用TensorRT库对所述训练后的图像识别网络模型进行参数优化,得到优化后的图像识别网络模型;
所述通过训练后的图像识别网络模型确定所述待识别图像的最大置信度以及所述最大置信度所对应的图像类别,包括:
通过所述优化后的图像识别网络模型确定所述待识别图像的最大置信度以及所述最大置信度所对应的图像类别。
在一些实施方式中,所述获取待识别图像之后,所述方法还包括:
将所述待识别图像的最长边缩放至预置长度,得到缩放后图像;
根据所述预置长度以及预置形状对所述缩放后图像进行填充处理,得到填充后图像;
对所述填充后图像进行图像归一化处理,得到处理后图像;
所述通过训练后的图像识别网络模型确定所述待识别图像的最大置信度以及所述最大置信度所对应的图像类别,包括:
通过所述训练后的图像识别网络模型确定所述处理后图像的最大置信度以及所述最大置信度所对应的图像类别。
在一些实施方式中,所述确定所述最大置信度的值是否大于所述图像类别所对应的置信度阈值之前,所述方法还包括:
获取验证样本集;
通过所述训练后的图像识别网络模型确定所述验证样本集中样本的分类结果,所述分类结果包括预测的样本图像类别以及预测的样本置信度;
根据所述预测的样本图像类别以及所述验证样本集中样本的真实类别,在所述验证样本集中确定每种所述样本图像类别的正样本集以及负样本集;
根据所述正样本集和所述负样本集,分别确定每种所述样本图像类别的置信度阈值。
在一些实施方式中,所述根据所述正样本集和所述负样本集,分别确定每种所述样本图像类别的置信度阈值,包括:
分别确定每种所述样本图像类别中所述正样本集中的正样本个数以及所述负样本集中的负样本个数;
根据所述样本置信度,分别确定每种所述样本图像类别中样本的最小置信度;
根据所述正样本个数、所述负样本个数以及所述最小置信度分别确定每种所述样本图像类别的置信度阈值。
第二方面,本申请实施例还提供了一种图像识别装置,包括:
第一获取单元,用于获取待识别图像;
第一确定单元,用于通过训练后的图像识别网络模型确定所述待识别图像的最大置信度以及所述最大置信度所对应的图像类别;
第二确定单元,用于确定所述最大置信度的值是否大于所述图像类别所对应的置信度阈值;
第三确定单元,用于当所述最大置信度的值大于所述图像类别所对应的置信度阈值时,将所述图像类别确定为所述待识别图像的目标图像类别。
在一些实施方式中,所述装置还包括:
保存单元,用于当所述最大置信度的值不大于所述图像类别所对应的置信度阈值时,将所述待识别图像保存至辅助分类数据库。
在一些实施方式中,所述装置还包括:
第二获取单元,用于获取训练样本集;
训练单元,用于根据所述训练样本集对预设图像识别网络模型进行训练,得到所述训练后的图像识别网络模型,其中,
所述预设图像识别网络模型的特征提取网络由多个特征提取子网络组成,所述特征提取子网络由一个可分离卷积层、一个卷积层、两个批归一化层以及两个Mish激活函数层组成。
在一些实施方式中,所述装置还包括:
优化单元,用于使用TensorRT库对所述训练后的图像识别网络模型进行参数优化,得到优化后的图像识别网络模型;
所述第一确定单元具体用于:
通过所述优化后的图像识别网络模型确定所述待识别图像的最大置信度以及所述最大置信度所对应的图像类别。
在一些实施方式中,所述装置还包括:
缩放单元,用于将所述待识别图像的最长边缩放至预置长度,得到缩放后图像;
填充单元,用于根据所述预置长度以及预置形状对所述缩放后图像进行填充处理,得到填充后图像;
归一化单元,用于对所述填充后图像进行图像归一化处理,得到处理后图像;
所述第一确定单元还具体用于:
通过所述训练后的图像识别网络模型确定所述处理后图像的最大置信度以及所述最大置信度所对应的图像类别。
在一些实施方式中,所述装置还包括:
第三获取单元,用于获取验证样本集;
第四确定单元,用于通过所述训练后的图像识别网络模型确定所述验证样本集中样本的分类结果,所述分类结果包括预测的样本图像类别以及预测的样本置信度;
第五确定单元,用于根据所述预测的样本图像类别以及所述验证样本集中样本的真实类别,在所述验证样本集中确定每种所述样本图像类别的正样本集以及负样本集;
第六确定单元,用于根据所述正样本集和所述负样本集,分别确定每种所述样本图像类别的置信度阈值。
在一些实施方式中,所述第六确定单元具体用于:
分别确定每种所述样本图像类别中所述正样本集中的正样本个数以及所述负样本集中的负样本个数;
根据所述样本置信度,分别确定每种所述样本图像类别中样本的最小置信度;
根据所述正样本个数、所述负样本个数以及所述最小置信度分别确定每种所述样本图像类别的置信度阈值。
第三方面,本申请实施例还提供了一种网络设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时执行本申请实施例提供的任一种图像识别方法中的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本申请实施例提供的任一种图像识别方法中的步骤。
本申请实施例中,图像识别装置首先获取待识别图像;然后通过训练后的图像识别网络模型确定所述待识别图像的最大置信度以及所述最大置信度所对应的图像类别;再确定所述最大置信度的值是否大于所述图像类别所对应的置信度阈值;若大于,则将所述图像类别确定为所述待识别图像的目标图像类别。本实施例中,图像识别装置可以通过图像识别网络模型识别待识别图像中物品的类别,无需通过物品的唯一码对物品的类别进行识别,故不会因为扫描不到唯一码而无法对物品进行识别,可以提高物品的识别率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的图像识别方法的流程示意图;
图2是本申请实施例提供的图像识别方法一整体流程示意图;
图3是本申请实施例提供的图像识别网络模型的一结构示意图;
图4是本申请实施例提供的图像识别网络模型中特征提取子网络的一结构示意图;
图5是本申请实施例提供的图像识别网络模型的模型优化示意图;
图6是本申请实施例提供的图像识别方法的另一流程示意图;
图7是本申请实施例提供的图像识别装置的一结构示意图;
图8是本申请实施例提供的图像识别装置的另一结构示意图;
图9是本申请实施例提供的服务器的一结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在以下的说明中,本发明的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本发明原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
本发明的原理使用许多其它泛用性或特定目的运算、通信环境或组态来进行操作。所熟知的适合用于本发明的运算系统、环境与组态的范例可包括(但不限于)手持电话、个人计算机、服务器、多处理器系统、微电脑为主的系统、主架构型计算机、及分布式运算环境,其中包括了任何的上述系统或装置。
本发明中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。
请参阅图1,图1是本申请一实施例提供的图像识别方法的流程示意图。该图像识别方法的执行主体可以是本申请实施例提供的图像识别装置,或者集成了该图像识别装置的网络设备,其中,该图像识别装置可以采用硬件或者软件的方式实现,该网络设备可以是能手机、平板电脑、掌上电脑、或者笔记本电脑等。该图像识别方法可以包括:
101、获取待识别图像。
本实施例中,待识别图像可以为图像获取设备获取到的图像,其中,该图像采集设备可以为工业相机,该待识别图像可以为工业相机从快递分拣线等地方获取到的包含待识别物品的图像,其中该待识别物品可以为包裹,具体可以为包裹的包装材料。
其中,在一些实施例中,待识别图像中包含待识别对象,在另一些实施例中,获取待识别图像之后,还需要检测待识别图像中是否包含有待识别对象,若包含,则继续执行102,若不包含,则继续获取其他待识别图像。
102、通过训练后的图像识别网络模型确定待识别图像的最大置信度以及最大置信度所对应的图像类别。
具体地,将该待识别图像输入训练后的图像识别网络模型中,通过该训练后的图像识别网络模型确定待识别图像的最大置信度,以及该最大置信度所对应的图像类别。
其中,在通过训练后的图像识别网络模型确定待识别图像的最大置信度以及最大置信度所对应的图像类别之前,本实施例中还需要对预设图像识别网络模型进行训练,具体为:获取训练样本集,其中,该训练样本集包括多个已知图像类别的图像样本;然后根据训练样本集对预设图像识别网络模型进行训练,得到训练后的图像识别网络模型。
本实施例中,预设图像识别网络模型的特征提取网络由多个特征提取子网络组成,其中,特征提取子网络由一个可分离卷积层(Dconv)、一个卷积层(Conv)、两个批归一化层(BN)以及两个Mish激活函数层组成,其中,本实施例采用Mish激活函数代替传统的ReLU激活函数,可以使得网络训练更加平滑稳定,模型的性能提升,此外,采用Mish版本深度可分离卷积代替传统卷积,压缩模型参数量,提高模型运行速度,工程应用更灵活。
在一些实施例中,根据训练样本集对预设图像识别网络模型进行训练,得到训练后的图像识别网络模型之后,方法还包括:使用TensorRT库对训练后的图像识别网络模型进行参数优化,得到优化后的图像识别网络模型;
此时,通过训练后的图像识别网络模型确定待识别图像的最大置信度以及最大置信度所对应的图像类别,包括:通过优化后的图像识别网络模型确定待识别图像的最大置信度以及最大置信度所对应的图像类别。
在一些实施例中,获取待识别图像之后,方法还包括:将待识别图像的最长边缩放至预置长度,得到缩放后图像;然后根据预置长度以及预置形状对缩放后图像进行填充处理,得到填充后图像;再对填充后图像进行图像归一化处理,得到处理后图像;
此时,通过训练后的图像识别网络模型确定待识别图像的最大置信度以及最大置信度所对应的图像类别,包括:通过训练后的图像识别网络模型确定处理后图像的最大置信度以及最大置信度所对应的图像类别。
103、确定最大置信度的值是否大于该图像类别所对应的置信度阈值,若大于,则执行步骤104,若不大于,则执行步骤105。
本实施例中,预置的每种图像类别还分别设置有对应的置信度阈值,置信度阈值为对应图像类别的最低置信度。
其中,确定最大置信度的值是否大于图像类别所对应的置信度阈值之前,方法还包括:获取验证样本集,该验证样本集包括多个已知图像类别的图像样本,通过训练后的图像识别网络模型确定验证样本集中样本的分类结果,分类结果包括预测的样本图像类别以及预测的样本置信度;根据预测的样本图像类别以及验证样本集中样本的真实类别,在验证样本集中确定每种样本图像类别的正样本集以及负样本集;根据正样本集和负样本集,分别确定每种样本图像类别的置信度阈值。
其中,正样本集中的样本为,预测的样本图像类别与验证样本集中样本的真实类别相同的样本;负样本集中的样本为,预测的样本图像类别与验证样本集中样本的真实类别不同的样本。
104、将图像类别确定为待识别图像的目标图像类别。
若图像识别网络模型确定待识别图像最大置信度的值,大于对应图像类别的置信度阈值,则说明图像识别网络模型确定出来的图像类别可信度较高,此时,可以将最大置信度对应的图像类别确定为该待识别图像的目标图像类别。
105、将该待识别图像保存至辅助分类数据库,通过人工辅助确定目标图像类型。
若图像识别网络模型确定待识别图像最大置信度的值,不大于对应图像类别的置信度阈值,则说明此时图像识别网络模型确定出来的图像类别可能不准确,此时,为了保证识别结果的准确性,将该待识别图像保存至辅助分类数据库,此时,可以介入其他识别手段辅助识别,例如,人工辅助识别辅助分类数据库中的待识别图像。
在一些实施例中,当图像识别网络模型确定待识别图像最大置信度的值,不大于对应图像类别的置信度阈值时,图像识别网络除了将该待识别图像保存至辅助分类数据库之外,此时还需要输出识别结果,此时的识别结果包括最大置信度对应的图像类别以及警报标识,例如,将该图像类别的字样标红,当接收到人工辅助识别确定的分类结果之后,将人工辅助识别出来的分类结果替换该识别结果,即此时,将人工辅助识别确定的分类结果确定为目标图像类别。
其中,在一些实施例中,本申请实施例中提及的待识别图像的置信度可以为待识别图像的概率。
本申请实施例中,图像识别装置首先获取待识别图像;然后通过训练后的图像识别网络模型确定待识别图像的最大置信度以及最大置信度所对应的图像类别;再确定最大置信度的值是否大于图像类别所对应的置信度阈值;若大于,则将图像类别确定为待识别图像的目标图像类别。本实施例中,图像识别装置可以通过图像识别网络模型识别待识别图像中物品的类别,无需通过物品的唯一码对物品的类别进行识别,故不会因为扫描不到唯一码而无法对物品进行识别,可以提高物品的识别率。
根据上述实施例所描述的图像识别方法,以下将作进一步详细说明。
请参阅图2,下面将从阶段一、阶段二以及阶段三,三个阶段对本申请进行说明,本实施例以识别待识别图像为包裹图像,图像类别为包裹的包装材料为例进行详细说明。
阶段一:模型训练
训练样本集的制作:具体地,在一些实施例中,利用图像采集设备(如工业相机)采集中转场分拣线上的包裹图像,通过工控机传输到远程数据存储设备。而后,人工将远程数据存储设备中图像的包裹部分从大图像中裁剪出来,并根据包裹包装材料的类别对图像进行标签标注,从而形成训练样本集。
本实施例设置了6种包装材料类别,分别为:纸箱、塑胶袋、文件封、泡沫箱、循环箱和其他。最后将所有标注好的样本分成训练集和验证集,其中训练集用于网络训练,而验证集用于网络性能验证以及模型优化等。
网络结构构建:本申请中的图像识别网络模型可以基于VGGNet系列,ResNet系列、EfficientNet等物体分类算法构建。其中,如图3所示,本申请中的图像识别网络模型可以由特征提取网络(Backbone)和特征预测网络(Head)两部分构成,其中Backbone一般是由若干卷积层、批归一化层和激活函数层等构成,用于图像特征提取,将图像表达成高维特征,而Head一般是由全局池化层和全连接层所构成,是将高特征提炼到一特征向量,最后通过SoftMax函数归一化后,特征向量的每一个元素可以表示为物体对应类别的概率,物体的分类结果就为概率最大的类别。如图4所示,本申请实施例中图像识别网络模型的特征提取网络由多个特征提取子网络组成,特征提取子网络由一个Dconv、一个Conv、两个BN以及两个Mish组成,其中,本申请中的Dconv可以为3*3Dconv,Conv可以为1*1Conv,其中,本实施例中的特征提取网络采用Mish激活函数代替传统的ReLU激活函数,可以使得网络训练更加平滑稳定,模型的性能提升,此外,采用Mish版本深度Dconv代替传Conv,可以压缩模型参数量,提高模型运行速度,工程应用更灵活。
网络训练:网络训练是将包裹图像通过适当的预处理之后输入到预设的图像识别网络模型中,而后图像计算单元计算出网络模型输出的损失值与人工标记的损失值的差异(loss)。通过优化器的反向梯度传递使网络向loss下降的方向更新参数,直到模型收敛,完成图像识别网络模型的训练。
阶段二:模型优化
训练完的模型占用内存比较大,为了将模型部署在终端设备或者服务器,一般需要先对模型进行优化。对图像识别网络模型优化的主要内容有:1、模型参数的量化:将训练模型参数由FP32精度量化到FP16或者INT8;2、卷积层、可分离卷积层、批归一化层和激活函数层的整合,以减少模型参数量,提高运行速度。
具体地,本发明使用TensorRT(一个高性能的深度学习推理优化器)对训练后的图像识别网络模型进行优化。利用TensorRT库将图像识别网络模型的参数模型分别转换到TensorRT所能支持的模型格式,其中,如图5所示,当图像识别网络模型的参数模型为TensorFlow参数模型时,需要转换成.pb模型格式,当图像识别网络模型的参数模型为pytorch参数模型时,需要转换成.trt模型格式。
需要说明的是,当对模型进行优化完之后,还需要确定每种图像类别(材料类别)对应的置信度阈值,具体地,置信度阈值的确定方法如下:
1、将验证样本集中的样本分别通过图像识别网络模型,得到每个样本的分类结果(样本的分类类别+样本置信度),并将相同预测类别的样本归为一类;
2、每个类别中根据样本分类结果正确与否将该类别中的样本划分为正组和负组两组,计算正组中的样本数量Mt,负组中的样本数量Mf
3、正组和负组中的样本分别根据置信度高低进行排序;
4、从最小置信度开始逐级加0.01,计算出正组样本中大于当前置信度conf的数量Nt和负组样本中大于当前置信度conf的数量Nf,再分别计算当前置信度下的准确率Pconf和召回率Rconf
准确率
Figure BDA0002530838530000111
召回率
Figure BDA0002530838530000112
5、为了调和准确率和召回率,计算一个调和分数值Fconf
Figure BDA0002530838530000113
6、找到Fconf最大时的conf即为该类的置信度阈值。
本申请需要为每个类别都设置一个置信度阈值,纸箱、塑胶袋、文件封、泡沫箱、循环箱和其他这六个类别对应的一组置信度阈值为[p0,p1,p2,p3,p4,p5]。
阶段三:模型推理
计算三为本申请实施例中提及的图像识别方法的核心,该图像识别方法可以应用于服务器等网络设备,该方法中使用的模型为上述优化后的图像识别网络模型,如图6所示,该图像识别方法的流程可以如下,其中,本实施例以图像类别为包裹的包装材料,图像识别装置为服务器为例进行详细说明:
601、服务器通过图像采集设备获取待识别图像。
在一些实施例中,服务器可以通过图像采集设备(例如工业相机)从快递分拣线上获取待识别图像。
602、服务器检测待识别图像中是否包含包裹图像,若包含,则执行步骤603,若不包含,则返回执行步骤601。
在一些实施例中,服务器通过包裹检测网络模型检测图像中是否包含有包裹图像,如果包含,则可以继续执行后续步骤,检测包裹的包装材料,若不包含,则需要重新获取待识别图像,知道检测到获取到的图像中包含有包裹。
603、服务器对待识别图像进行预处理,得到处理后图像。
一般的分类网络在推理阶段的预处理是截取图像中心部分的方形区域,但是由于包裹大小形状不一,而其中大部分包裹都是细长形状,只截取中心部分区域会丢失大量的重要信息,导致分类准确率偏低。为此,本申请图像按照等比例缩放原则将最长边缩放到固定大小L,而后在图像最短边两侧填充像素(127.5,127.5,127.5),使其最短边长度填充到长度L,得到填充后图像;
得到填充后处理之后,再对填充后图像进行图像归一化处理,具体地,将图像RGB通道先归一化到0~1,然后减去均值,最后除以方差,归一化公式可以表示为:yi=(xi/255.0-meani)/stdi。其中i表示RGB三个通道,meani表示i通道图像均值,stdi表示i通道图像方差,mean和std由训练集样本图像计算得出。
在一些实施例中,为了提高检测的速度以及准确性,在获取到包含包裹的待识别图像之后,还需要对待识别图像进行裁剪处理,把图像中包含包裹的部分裁剪出来,在进行后续处理。
604、服务器通过训练后的图像识别网络模型确定处理后图像的最大置信度以及最大置信度所对应的图像类别。
对待识别图像进行完预处理之后,将处理后图像输入训练并优化后的图像识别网络模型中,具体地,当图像识别网络模型为TensorRT网络模型时,通过加载优化后的TensorRT网络模型创建TensorRT推理引擎,推理引擎利用图形处理器(GraphicsProcessing Unit,GPU)计算出包裹的最大置信度及该最大置信度对应的包装材料类别。
例如,图像识别网络模型对待识别图像进行分类后得到纸箱、塑胶袋、文件封、泡沫箱、循环箱和其他的置信度(或概率)分别为0.001、0.04、0.12、0.72、0.08和0.039,则此时,最大置信度以及最大置信度所对应的图像类别分别为0.72和泡沫箱。
605、服务器确定最大置信度的值是否大于图像类别所对应的置信度阈值,若大于,则执行步606,若不大于,则执行步骤607。
部分图像经过模型推理出来的最大置信度可能偏低,这说明通过该模型推理出来的类别的可信度偏低,反之,则说明推理出来的类别可信,准确度较高。为此,本申请预先为每个类别设置一组置信度阈值[p0,p1,p2,p3,p4,p5]。如果分类的最大置信度低于其设定的置信度阈值,则该图像被保存转由人工再进行判断。
606、服务器将图像类别确定为待识别图像的目标图像类别。
若图像识别网络模型确定待识别图像最大置信度的值,大于对应图像类别的置信度阈值,则说明图像识别网络模型确定出来的图像类别可信度较高,此时,可以将最大置信度对应的图像类别确定为该待识别图像的目标图像类别。
例如,当确定出来的最大置信度以及最大置信度所对应的图像类别分别为0.72和泡沫箱时,若此时泡沫箱对应的置信度阈值为0.70,由于0.72大于0.70,则此时说明待识别图像对应的最大置信度的值大于置信度阈值,此时可以将最大置信度对应的类别确定为待识别图像的目标图像类别,即此时,将泡沫箱确定为待识别图像中包裹的包装材料。
607、将该待识别图像保存至辅助分类数据库,通过人工校验待识别图像确定待识别图像的目标图像类别。
若图像识别网络模型确定待识别图像最大置信度的值,不大于对应图像类别的置信度阈值,则说明此时图像识别网络模型确定出来的图像类别准确度较低,此时,为了保证识别结果的准确性,将该待识别图像保存至辅助分类数据库,此时,可以介入其他识别手段辅助识别,例如,人工辅助识别辅助分类数据库中的待识别图像。
在一些实施例中,当图像识别网络模型确定待识别图像最大置信度的值,不大于对应图像类别的置信度阈值时,图像识别网络除了将该待识别图像保存至辅助分类数据库之外,此时还需要输出识别结果,此时的识别结果包括最大置信度对应的图像类别以及警报标识,例如,将该图像类别的字样标红,当接收到人工辅助识别确定的分类结果之后,将人工辅助识别出来的分类结果替换该识别结果,即此时,将人工辅助识别确定的分类结果确定为目标图像类别,并去除警报标识。
例如,当图像识别网络模型确定出来的最大置信度对应的类别为纸箱,但该最大置信度低于纸箱对应的置信度阈值,则此时输出纸箱这个类别,但纸箱字样标红,或者旁边加上警示符号,用于警示该类别的判断存在风险。
本申请实施例中,图像识别装置首先获取待识别图像;然后通过训练后的图像识别网络模型确定待识别图像的最大置信度以及最大置信度所对应的图像类别;再确定最大置信度的值是否大于图像类别所对应的置信度阈值;若大于,则将图像类别确定为待识别图像的目标图像类别。本实施例中,图像识别装置可以通过图像识别网络模型识别待识别图像中物品的类别,无需通过物品的唯一码对物品的类别进行识别,故不会因为扫描不到唯一码而无法对物品进行识别,可以提高物品的识别率。
为便于更好的实施本申请实施例提供的图像识别方法,本申请实施例还提供一种基于上述图像识别方法的装置。其中名词的含义与上述图像识别方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图7,图7为本申请实施例提供的图像识别装置的结构示意图,其中该图像识别装置700可以包括第一获取单元701、第一确定单元702、第二确定单元703及第三确定单元704等。其中,
第一获取单元701,用于获取待识别图像;
第一确定单元702,用于通过训练后的图像识别网络模型确定所述待识别图像的最大置信度以及所述最大置信度所对应的图像类别;
第二确定单元703,用于确定所述最大置信度的值是否大于所述图像类别所对应的置信度阈值;
第三确定单元704,用于当所述最大置信度的值大于所述图像类别所对应的置信度阈值时,将所述图像类别确定为所述待识别图像的目标图像类别。
请参阅图8,在一些实施方式中,所述装置700还包括:
保存单元705,用于当所述最大置信度的值不大于所述图像类别所对应的置信度阈值时,将所述待识别图像保存至辅助分类数据库。
在一些实施方式中,所述装置700还包括:
第二获取单元706,用于获取训练样本集;
训练单元707,用于根据所述训练样本集对预设图像识别网络模型进行训练,得到所述训练后的图像识别网络模型,其中,
所述预设图像识别网络模型的特征提取网络由多个特征提取子网络组成,所述特征提取子网络由一个可分离卷积层、一个卷积层、两个批归一化层以及两个Mish激活函数层组成。
在一些实施方式中,所述装置700还包括:
优化单元708,用于使用TensorRT库对所述训练后的图像识别网络模型进行参数优化,得到优化后的图像识别网络模型;
所述第一确定单元702具体用于:
通过所述优化后的图像识别网络模型确定所述待识别图像的最大置信度以及所述最大置信度所对应的图像类别。
在一些实施方式中,所述装置700还包括:
缩放单元709,用于将所述待识别图像的最长边缩放至预置长度,得到缩放后图像;
填充单元710,用于根据所述预置长度以及预置形状对所述缩放后图像进行填充处理,得到填充后图像;
归一化单元711,用于对所述填充后图像进行图像归一化处理,得到处理后图像;
所述第一确定单元702还具体用于:
通过所述训练后的图像识别网络模型确定所述处理后图像的最大置信度以及所述最大置信度所对应的图像类别。
在一些实施方式中,所述装置700还包括:
第三获取单元712,用于获取验证样本集;
第四确定单元713,用于通过所述训练后的图像识别网络模型确定所述验证样本集中样本的分类结果,所述分类结果包括预测的样本图像类别以及预测的样本置信度;
第五确定单元714,用于根据所述预测的样本图像类别以及所述验证样本集中样本的真实类别,在所述验证样本集中确定每种所述样本图像类别的正样本集以及负样本集;
第六确定单元715,用于根据所述正样本集和所述负样本集,分别确定每种所述样本图像类别的置信度阈值。
在一些实施方式中,所述第六确定单元715具体用于:
分别确定每种所述样本图像类别中所述正样本集中的正样本个数以及所述负样本集中的负样本个数;
根据所述样本置信度,分别确定每种所述样本图像类别中样本的最小置信度;
根据所述正样本个数、所述负样本个数以及所述最小置信度分别确定每种所述样本图像类别的置信度阈值。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
本申请实施例中,第一获取单元701首先获取待识别图像;然后第一确定单元702通过训练后的图像识别网络模型确定所述待识别图像的最大置信度以及所述最大置信度所对应的图像类别;第二确定单元703再确定所述最大置信度的值是否大于所述图像类别所对应的置信度阈值;若大于,则第三确定单元704将所述图像类别确定为所述待识别图像的目标图像类别。本实施例中,图像识别装置可以通过图像识别网络模型识别待识别图像中物品的类别,无需通过物品的唯一码对物品的类别进行识别,故不会因为扫描不到唯一码而无法对物品进行识别,可以提高物品的识别率。
参考图9,本申请实施例提供了一种服务器900,可以包括一个或者一个以上处理核心的处理器901、一个或一个以上计算机可读存储介质的存储器902、射频(RadioFrequen cy,RF)电路903、电源904、输入单元905、以及显示单元906等部件。本领域技术人员可以理解,图9中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器901是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器902内的软件程序和/或模块,以及调用存储在存储器902内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。可选的,处理器901可包括一个或多个处理核心;优选的,处理器901可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器901中。
存储器902可用于存储软件程序以及模块,处理器901通过运行存储在存储器902的软件程序以及模块,从而执行各种功能应用以及数据处理。
RF电路903可用于收发信息过程中,信号的接收和发送。
服务器还包括给各个部件供电的电源904(比如电池),优选的,电源可以通过电源管理系统与处理器901逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
该服务器还可包括输入单元905,该输入单元905可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
该服务器还可包括显示单元906,该显示单元906可用于显示由用户输入的信息或提供给用户的信息以及服务器的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。具体在本实施例中,服务器中的处理器901会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器902中,并由处理器901来运行存储在存储器902中的应用程序,从而实现各种功能,如下:
获取待识别图像;
通过训练后的图像识别网络模型确定所述待识别图像的最大置信度以及所述最大置信度所对应的图像类别;
确定所述最大置信度的值是否大于所述图像类别所对应的置信度阈值;
若大于,则将所述图像类别确定为所述待识别图像的目标图像类别。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对图像识别方法的详细描述,此处不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种图像识别方法中的步骤。例如,该指令可以执行如下步骤:
获取待识别图像;
通过训练后的图像识别网络模型确定所述待识别图像的最大置信度以及所述最大置信度所对应的图像类别;
确定所述最大置信度的值是否大于所述图像类别所对应的置信度阈值;
若大于,则将所述图像类别确定为所述待识别图像的目标图像类别。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种图像识别方法中的步骤,因此,可以实现本申请实施例所提供的任一种图像识别方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种图像识别方法、装置、网络设备及计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种图像识别方法,其特征在于,包括:
获取待识别图像;
通过训练后的图像识别网络模型确定所述待识别图像的最大置信度以及所述最大置信度所对应的图像类别;
确定所述最大置信度的值是否大于所述图像类别所对应的置信度阈值;
若大于,则将所述图像类别确定为所述待识别图像的目标图像类别。
2.根据权利要求1所述的方法,其特征在于,所述确定所述最大置信度的值是否大于所述图像类别所对应的置信度阈值之后,所述方法还包括:
若不大于,则将所述待识别图像保存至辅助分类数据库。
3.根据权利要求1所述的方法,其特征在于,所述通过训练后的图像识别网络模型确定所述待识别图像的最大置信度以及所述最大置信度所对应的图像类别之前,所述方法还包括:
获取训练样本集;
根据所述训练样本集对预设图像识别网络模型进行训练,得到所述训练后的图像识别网络模型,其中,
所述预设图像识别网络模型的特征提取网络由多个特征提取子网络组成,所述特征提取子网络由一个可分离卷积层、一个卷积层、两个批归一化层以及两个Mish激活函数层组成。
4.根据权利要求3所述的方法,其特征在于,所述根据所述训练样本集对预设图像识别网络模型进行训练,得到所述训练后的图像识别网络模型之后,所述方法还包括:
使用TensorRT库对所述训练后的图像识别网络模型进行参数优化,得到优化后的图像识别网络模型;
所述通过训练后的图像识别网络模型确定所述待识别图像的最大置信度以及所述最大置信度所对应的图像类别,包括:
通过所述优化后的图像识别网络模型确定所述待识别图像的最大置信度以及所述最大置信度所对应的图像类别。
5.根据权利要求1所述的方法,其特征在于,所述获取待识别图像之后,所述方法还包括:
将所述待识别图像的最长边缩放至预置长度,得到缩放后图像;
根据所述预置长度以及预置形状对所述缩放后图像进行填充处理,得到填充后图像;
对所述填充后图像进行图像归一化处理,得到处理后图像;
所述通过训练后的图像识别网络模型确定所述待识别图像的最大置信度以及所述最大置信度所对应的图像类别,包括:
通过所述训练后的图像识别网络模型确定所述处理后图像的最大置信度以及所述最大置信度所对应的图像类别。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述确定所述最大置信度的值是否大于所述图像类别所对应的置信度阈值之前,所述方法还包括:
获取验证样本集;
通过所述训练后的图像识别网络模型确定所述验证样本集中样本的分类结果,所述分类结果包括预测的样本图像类别以及预测的样本置信度;
根据所述预测的样本图像类别以及所述验证样本集中样本的真实类别,在所述验证样本集中确定每种所述样本图像类别的正样本集以及负样本集;
根据所述正样本集和所述负样本集,分别确定每种所述样本图像类别的置信度阈值。
7.根据权利要求6所述的方法,其特征在于,所述根据所述正样本集和所述负样本集,分别确定每种所述样本图像类别的置信度阈值,包括:
分别确定每种所述样本图像类别中所述正样本集中的正样本个数以及所述负样本集中的负样本个数;
根据所述样本置信度,分别确定每种所述样本图像类别中样本的最小置信度;
根据所述正样本个数、所述负样本个数以及所述最小置信度分别确定每种所述样本图像类别的置信度阈值。
8.一种图像识别装置,其特征在于,包括:
第一获取单元,用于获取待识别图像;
第一确定单元,用于通过训练后的图像识别网络模型确定所述待识别图像的最大置信度以及所述最大置信度所对应的图像类别;
第二确定单元,用于确定所述最大置信度的值是否大于所述图像类别所对应的置信度阈值;
第三确定单元,用于当所述最大置信度的值大于所述图像类别所对应的置信度阈值时,将所述图像类别确定为所述待识别图像的目标图像类别。
9.一种网络设备,其特征在于,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时执行如权利要求1至7任一项所述的图像识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至7任一项所述的图像识别方法。
CN202010517842.XA 2020-06-09 2020-06-09 图像识别方法、装置、网络设备及计算机可读存储介质 Pending CN113780315A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010517842.XA CN113780315A (zh) 2020-06-09 2020-06-09 图像识别方法、装置、网络设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010517842.XA CN113780315A (zh) 2020-06-09 2020-06-09 图像识别方法、装置、网络设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN113780315A true CN113780315A (zh) 2021-12-10

Family

ID=78834307

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010517842.XA Pending CN113780315A (zh) 2020-06-09 2020-06-09 图像识别方法、装置、网络设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113780315A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115171048A (zh) * 2022-07-21 2022-10-11 北京天防安全科技有限公司 基于图像识别的资产分类方法、系统、终端及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105844283A (zh) * 2015-01-16 2016-08-10 阿里巴巴集团控股有限公司 用于识别图像类目归属的方法、图像搜索方法及装置
WO2017055412A1 (en) * 2015-09-30 2017-04-06 Siemens Healthcare Gmbh Method and system for classification of endoscopic images using deep decision networks
CN108921206A (zh) * 2018-06-15 2018-11-30 北京金山云网络技术有限公司 一种图像分类方法、装置、电子设备及存储介质
CN110472529A (zh) * 2019-07-29 2019-11-19 深圳大学 目标识别导航方法及系统
AU2020100052A4 (en) * 2020-01-10 2020-02-13 Gao, Yiang Mr Unattended video classifying system based on transfer learning
CN110956104A (zh) * 2019-11-20 2020-04-03 河南华衍智能科技有限公司 一种检测垃圾桶溢出的方法、装置及系统
CN111191531A (zh) * 2019-12-17 2020-05-22 中南大学 一种快速行人检测方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105844283A (zh) * 2015-01-16 2016-08-10 阿里巴巴集团控股有限公司 用于识别图像类目归属的方法、图像搜索方法及装置
WO2017055412A1 (en) * 2015-09-30 2017-04-06 Siemens Healthcare Gmbh Method and system for classification of endoscopic images using deep decision networks
CN108921206A (zh) * 2018-06-15 2018-11-30 北京金山云网络技术有限公司 一种图像分类方法、装置、电子设备及存储介质
CN110472529A (zh) * 2019-07-29 2019-11-19 深圳大学 目标识别导航方法及系统
CN110956104A (zh) * 2019-11-20 2020-04-03 河南华衍智能科技有限公司 一种检测垃圾桶溢出的方法、装置及系统
CN111191531A (zh) * 2019-12-17 2020-05-22 中南大学 一种快速行人检测方法及系统
AU2020100052A4 (en) * 2020-01-10 2020-02-13 Gao, Yiang Mr Unattended video classifying system based on transfer learning

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵欣洋;蔡超鹏;王思;刘志远;: "基于深度学习的不规则特征识别检测技术", 轻工机械, no. 03, 13 June 2019 (2019-06-13), pages 60 - 65 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115171048A (zh) * 2022-07-21 2022-10-11 北京天防安全科技有限公司 基于图像识别的资产分类方法、系统、终端及存储介质
CN115171048B (zh) * 2022-07-21 2023-03-17 北京天防安全科技有限公司 基于图像识别的资产分类方法、系统、终端及存储介质

Similar Documents

Publication Publication Date Title
CN109784424B (zh) 一种图像分类模型训练的方法、图像处理的方法及装置
CN108846826B (zh) 物体检测方法、装置、图像处理设备及存储介质
Sun et al. Fast object detection based on binary deep convolution neural networks
CN111813532B (zh) 一种基于多任务机器学习模型的图像管理方法及装置
CN105354307A (zh) 一种图像内容识别方法及装置
CN111488985A (zh) 深度神经网络模型压缩训练方法、装置、设备、介质
CN111428645B (zh) 人体关键点的检测方法、装置、电子设备及存储介质
CN115658955B (zh) 跨媒体检索及模型训练方法、装置、设备、菜谱检索系统
CN111461105A (zh) 一种文本识别方法和装置
US20230289567A1 (en) Data Processing Method, System and Device, and Readable Storage Medium
US20220051103A1 (en) System and method for compressing convolutional neural networks
CN111339248A (zh) 数据属性填充方法、装置、设备及计算机可读存储介质
CN112257851A (zh) 一种模型对抗训练方法、介质及终端
CN114818708A (zh) 关键信息抽取方法、模型训练方法、相关装置及电子设备
CN113704184A (zh) 一种文件分类方法、装置、介质及设备
CN113780315A (zh) 图像识别方法、装置、网络设备及计算机可读存储介质
CN112860907B (zh) 一种情感分类方法及设备
CN110264478A (zh) 一种线稿图像上色的方法及装置
CN111382839B (zh) 剪枝神经网络的方法和装置
CN107562714B (zh) 一种语句相似度计算方法及装置
CN111582382A (zh) 状态识别方法、装置以及电子设备
CN116630888A (zh) 无人机监测方法、无人机监测装置、电子设备及存储介质
CN110490084B (zh) 目标物体的检测方法、装置、网络设备及存储介质
EP3961515A2 (en) Method for learning model
CN114969360A (zh) 文本信息处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination