CN113743443B - 一种图像证据分类和识别方法及装置 - Google Patents
一种图像证据分类和识别方法及装置 Download PDFInfo
- Publication number
- CN113743443B CN113743443B CN202110603741.9A CN202110603741A CN113743443B CN 113743443 B CN113743443 B CN 113743443B CN 202110603741 A CN202110603741 A CN 202110603741A CN 113743443 B CN113743443 B CN 113743443B
- Authority
- CN
- China
- Prior art keywords
- category
- network model
- prediction result
- target
- target image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 52
- 238000012937 correction Methods 0.000 claims description 9
- 238000012952 Resampling Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 16
- 238000013145 classification model Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000003321 amplification Effects 0.000 description 2
- 230000003669 anti-smudge Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请揭示了一种图像证据分类和识别方法及装置,该方法包括将待分类识别的目标图像输入至分类网络模型中,分类网络模型的标签编码选用改进后的长度为2n的one‑hot编码,每个标签编码中后n个编码为前n个编码的反码,标签编码对应的已知类别至少包括证件类别、聊天截图类别以及表单类别,n为已知类别数;获取分类网络模型输出的预测结果;根据预测结果判定目标图像所属的类别;在目标图像所属的类别为未知类别时,对目标图像中的物品进行识别。本申请将图像进行大类划分,将物品类别划分到未知类别中,满足海关图像证据分类的要求;还对未知类别的物品进行识别,同时对后续的特征提取和以图搜物进行了设计,满足了从大数据库搜索同类物品的需求。
Description
技术领域
本发明属于图像分类识别技术领域,涉及一种图像证据分类和识别方法及装置。
背景技术
图像分类是机器视觉领域的主要研究问题之一,近年来,随着深度学习理论技术的不断发展,图像分类研究也取得了巨大的成果。尤其是针对一些公共数据集的图像分类研究,从最基础的 MNIST手写数字分类、CIFAR10/CIFAR100图像分类、Kaggle猫狗分类到目前各论文中应用最为普遍的针对ImageNet数据集的分类,再到更细粒度的CUB-200-2011鸟类图像分类、斯坦福大学建立的狗类、汽车类和花朵类数据集的图像分类等。这些图像分类任务大多是基于深度神经网络建立分类模型,包括但不限于ResNet、GoogleNet、DenseNet等网络,根据数据集的规模大小和任务复杂度的不同对模型进行不同程度的结构优化,再辅以超参和训练策略的优化,在较高的算力支持下,分类准确率不断攀升。
随着深度学习技术的持续工业化应用,很多研究学者开始提出一些轻量化的图像分类模型,包括但不限于MobileNet、SqueezeNet、ShuffleNet、TinyDSOD等,可以在一定程度上满足工程实际要求。这些网络模型从卷积计算的基础着手,从压缩通道数、增大感受野、减少计算量、增强特征向后传递等多个维度对模型进行轻量化设计,在保证分类精度的同时,降低耗时,提高整体性能。
但现有的图像分类研究很难直接在海关缉私图像证据分类中应用,原因主要包括以下两个方面:
1、现有的图像分类研究为了刷新准确率,往往会增加模型的复杂度,以增加计算耗时来换取准确率的提高,即便是轻量化的模型,也难以直接应用到具体的业务场景;
2、现有的公共数据集和海关缉私图像证据库的实际差别非常大,公共数据集都是已知类别的分类,而海关缉私图像证据库中存在大量的无关图像数据,如何从海量证据库中筛选出有用的图像,同时排除无关图像,对图像证据分类至关重要。
此外,实际的图像分类任务中往往存在业务逻辑限制,不是一个深度神经网络模型就可以解决的问题,需要从系统的层面进行方案设计,因此,现有的基于深度学习的图像分类技术难以被直接应用在工程领域。
发明内容
为了解决相关技术中的图像分类复杂度高,难以直接应用到海关缉私图像证据分类中的业务场景中,本申请提供了一种可以应用到海关缉私业务场景中的图像证据分类和识别方法及装置。具体技术方案如下:
第一方面,本申请提供了一种图像证据分类和识别方法,所述方法包括:
将待分类识别的目标图像输入至预先建立并训练好的分类网络模型中,所述分类网络模型的标签编码选用改进后的one-hot 编码,所述改进后的one-hot编码的长度为2n,每个类别的标签编码中的后n个编码分别为前n个编码的反码,所述标签编码对应的已知类别至少包括证件类别、聊天截图类别以及表单类别,所述n为已知类别数;
获取所述分类网络模型输出的预测结果,所述预测结果中每个置信度取值为0或1;
根据所述预测结果判定所述目标图像所属的类别;
在所述目标图像所属的类别为未知类别时,对所述目标图像中的物品进行识别。
可选地,在所述将待分类识别的目标图像输入至预先建立并训练好的分类网络模型中之前,所述方法还包括:
构建训练集和测试集,所述训练集中包括预定个已知类别和未知类别,各个已知类别和未知类别的样本数量均相同,所述未知类别的样本至少包括枪支数据、手表数据、象牙数据以及从公共数据集中抽取的其他各物品数据;
利用所述训练集对建立的分类网络模型进行训练,利用所述分类网络模型的最后一个卷积层输出预测均值和方差向量,所述均值表示所述分类网络模型预测结果的概率,所述方差表示所述预测结果的可信程度;
对所述方差向量进行重采样,利用重采样后的方差向量得到对结果预测的概率分布;
若损失函数的输出值收敛,则判定所述分类网络模型训练完成;
若损失函数的输出值尚未收敛,则调整所述分类网络模型中的参数,继续对所述分类网络模型进行训练。
可选地,所述对所述目标图像中的物品进行识别,包括:
确定所述目标图像中是否存在待检测目标;
若所述目标图像中存在待检测目标,则获取所述待检测目标在所述目标图像中的坐标位置,并根据所述坐标位置对所述待检测目标进行物品识别。
可选地,在所述获取所述待检测目标在所述目标图像中的坐标位置之后,所述方法还包括:
利用所述坐标位置截取所述待检测目标所在的目标区域;
对截取到的目标区域进行关键点矫正;
从关键点校正后的目标区域提取物品特征;
从大数据证据库中搜索具备所述物品特征的图像。
可选地,所述预测结果包括与所述已知类别对应的2n个置信度,所述根据所述预测结果判定所述目标图像所属的类别,包括:
当所述预测结果中的前n个置信度均为0时,判定所述目标图像所属的类别为未知类别;
当所述预测结果中的前n个置信度中包含一个非 0置信度时, 判定所述目标图像所属的类别为所述非0置信度对应的已知类别;
当所述预测结果中的前n个置信度中包含至少两个非0置信度时,判定所述目标图像所属的类别为最大置信度对应的己知类别。
第二方面,本申请还提供了一种图像证据分类和识别装置,所述装置包括:
输入模块,被配置为将待分类识别的目标图像输入至预先建立并训练好的分类网络模型中,所述分类网络模型的标签编码选用改进后的one-hot 编码,所述改进后的one-hot编码的长度为2n,每个类别的标签编码中的后n个编码分别为前n个编码的反码,所述标签编码对应的已知类别至少包括证件类别、聊天截图类别以及表单类别,所述n为已知类别数;
预测结果获取模块,被配置为获取所述分类网络模型输出的预测结果,所述预测结果中每个置信度取值为0或1;
判定模块,被配置为根据所述预测结果获取模块获取的预测结果判定所述目标图像所属的类别;
识别模块,被配置为在所述判定模块判定所述目标图像所属的类别为未知类别时,对所述目标图像中的物品进行识别。
可选的,所述装置还包括训练模块,所述训练模块被配置为执行如下操作:
构建训练集和测试集,所述训练集中包括预定个已知类别和未知类别,各个已知类别和未知类别的样本数量均相同,所述未知类别的样本至少包括枪支数据、手表数据、象牙数据以及从公共数据集中抽取的其他各物品数据;
利用所述训练集对建立的分类网络模型进行训练,利用所述分类网络模型的最后一个卷积层输出预测均值和方差向量,所述均值表示所述分类网络模型预测结果的概率,所述方差表示所述预测结果的可信程度;
对所述方差向量进行重采样,利用重采样后的方差向量得到对结果预测的概率分布;
若损失函数的输出值收敛,判定所述分类网络模型训练完成;
若损失函数的输出值尚未收敛,调整所述分类网络模型中的参数,继续对所述分类网络模型进行训练。
可选的,所述识别模块,包括:
确定单元,被配置为确定所述目标图像中是否存在待检测目标;
获取单元,被配置为在所述确定单元确定所述目标图像中存在待检测目标时,获取所述待检测目标在所述目标图像中的坐标位置;
识别单元,被配置为根据所述获取单元获取到的坐标位置对所述待检测目标进行物品识别。
可选的,所述装置还包括:
截取模块,被配置为利用所述坐标位置截取所述待检测目标所在的目标区域;
校正模块,被配置为对截取到的目标区域进行关键点校正;
提取模块,被配置为从关键点校正后的目标区域提取物品特征;
搜索模块,被配置为从大数据证据库中搜索具备所述物品特征的图像。
可选的,所述预测结果包括与所述已知类别对应的2n个置信度,所述判定模块,包括:
第一判定单元,被配置为当所述预测结果中的前n个置信度均为0时,判定所述目标图像所属的类别为未知类别;
第二判定单元,被配置为当所述预测结果中的前n个置信度中包含一个非 0置信度时, 判定所述目标图像 所属的类别为所述非0置信度对应的已知类别;
第三判定单元,被配置为当所述预测结果中的前n个置信度中包含至少两个非0置信度时,判定所述目标图像所属的类别为最大置信度对应的己知类别。
本申请至少可以实现如下有益效果:
根据海关图像证据分类的业务需求,将图像进行了证件类、聊天截图类、表单类等大类划分,并将各种物品类别划分到未知类别中,从而满足海关图像证据分类的要求,实现对图像的分类,也可以保证对物品类的识别,避免了不确定的物品类别的分类干扰;在图像经网络分类模型判定为未知类别时,从该图像中识别物体类别,同时对后续的特征提取和以图搜物进行了设计,满足了从大数据库搜索同类物品的需求。相比于普通的图像分类任务,本申请提供的方案更紧密地结合了业务场景,对工程实现上的难点问题进行了优化设计,通过各个模块的相互配合和优化,最终提升整个图像证据分类系统的精度和性能。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是本申请一个实施例中提供的海关应用场景中图像证据类别的示意图;
图2是本申请一个实施例中提供的图像证据分类识别的整体方案示意图;
图3A是本申请一个实施例中提供的图像证据分类和识别方法的方法流程图;
图3B是本申请一个实施例中提供的对分类网络模型进行训练时的流程图;
图3C是本申请一个实施例中提供的基于不确定性学习的分类网络模型的示意图;
图3D是本申请一个实施例中提供的对目标图像进行物品识别时的流程图;
图4A是本申请一个实施例中提供的图像证据分类和识别装置的结构示意图;
图4B是本申请一个实施例中提供的图像证据分类和识别装置的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
海关缉私案件中经常涉及的重要的图像证据包括聊天相关图片、证件类图片、表单类图片和物品类图片,如图1所示。其中聊天相关图片可以反映嫌疑人之间的一些沟通往来;证件类图片可以证明嫌疑人的一些身份信息;表单类图片可以证明嫌疑人的物品或资金流向;物品类图片可以作为嫌疑人的直接作案证明。
本申请设置图像类别的方式中对聊天相关图片、证件类、表单类的细分,可支持后续对这些图像中场景文字的识别。对上述四类图像证据的准确分类可以有效辅助办案人员快速搜集相关证据,更进一步,有利于后续证据识别工作的开展,同时,在该分类任务中,快速排除未知类别的图像是提高证据分类效率的关键。
上述图像证据类别有三个主要特点:其一是未知类别,因为图像证据库来源于嫌疑人的手机、电脑等设备,其中可能存储了大量无关的图像数据,必须排除这些无关图像带来的干扰;其二是物品类的细分类别数是不确定的,会随着其他因素影响而出现变动,例如国家保护野生动物类别的扩增会导致该类别的扩增;其三是物品类图片往往具有密集排列等特点,属于一图多物的情况,单一的分类模型难以对其进行直接的类型识别。
针对上述三个特点,本申请的图像证据分类和识别整体方案如图2所示,主要分为两个流程,第一个流程进行已确定类别和未知类别的分类,由于物品类图片的细类别未确定,因此直接将其划归为未知类别,而已确定类别不会变动,因此图像分类模型一经确定就轻易不会改变;第二个流程进行对图像中物品的识别,主要功能是从图像分类模型输出的未知类别图片中检测出相关的物品类别并给出坐标位置,提取该区域的特征,再进行特征比对,从而在证据库中给出相似度排序。由于物品类别会出现变动,因此物品检测模型会随之改变,主要体现为检测类别的增加。
下面结合图2以及图3A、图3B、图3C对本申请提供的图像证据分类方法进行举例说明。
图3A是本申请一个实施例中提供的图像证据分类和识别方法的方法流程图,本申请提供的图像证据分类和识别方法可以应用于进行图像识别的设备中,比如常见的服务器、计算机或移动终端,该图像证据分类和识别方法可以包括如下步骤:
步骤301,将待分类识别的目标图像输入至预先建立并训练好的分类网络模型中,分类网络模型的标签编码选用改进后的one-hot 编码,改进后的one-hot编码的长度为2n,每个类别的标签编码中的后n个编码分别为前n个编码的反码,标签编码对应的已知类别至少包括证件类别、聊天截图类别以及表单类别,n为已知类别数。
分类网络模型的全连接层往往后接激活函数(比如softmax)来对预测值进行压缩到[0,1]。由于softmax的机制,其值与每个类别都有关系,全部值加起来之和等于1,当类别确定时,softmax激活函数可以让一个激活值远远大于其余激活值,从而确定待分析图像的类别,而这种模式不利于对未知类别的预测。
本申请中对分类网络模型所使用的one-hot编码方式进行了改进。请参见表1所示,假设已知类别有A/B/C三类,D为未知类别,对于A类别的样本,原有的one-hot编码方式是(1,0,0);改进后的编码主要分为两个部分,第一部分是one-hot编码,表明属于哪个类别,第二部分是onehot编码的反码,表明不属于哪些类别。因此,A类别的标签编码为(1,0,0,0,1,1)。如果将一个未知类别样本加入训练,其编码方式即为(0,0,0,1,1,1),这样既不会引入新的类别,也能使未知类别得到训练,每个类别之间都是一个单独的二分类器,不受其他类别的影响。编码长度是类别数的两倍,例如图像证据类别数为10时,标签编码就是一个1×20的向量。
表1 编码方式
A | B | C | A | B | C | |
one-hot编码 | 1 | 0 | 0 | / | / | / |
改进的one-hot编码 | 1 | 0 | 0 | 0 | 1 | 1 |
一般在执行步骤301之前,需要对分类网络模型进行训练,请参见图3B所示,训练过程如下:
步骤S1、构建训练集和测试集,训练集中包括预定个已知类别和未知类别,各个已知类别和未知类别的样本数量均相同,当然,数量也可存在略微差别,大致相同的数量也在本专利技术方案涵盖的范围之内,未知类别的样本至少包括枪支数据、手表数据、象牙数据以及从公共数据集中抽取的其他各物品数据;
本申请中可以以图像证据的10个类别(包括未知类别)构建训练集,其中未知类别的数据来源包括待识别的枪支、手表、象牙数据以及从公共数据集中抽取的其他各类别数据。训练集构建过程中须保证每个类别样本均衡。
步骤S2、利用训练集对建立的分类网络模型进行训练,利用分类网络模型的最后一个卷积层输出预测均值和方差向量;
均值表示分类网络模型预测结果的概率,方差表示预测结果的可信程度。
步骤S3、对所述方差向量进行重采样,利用重采样后的方差向量得到对结果预测的概率分布;
本申请提出基于不确定性学习的分类网络模型,该分类网络模型的输出不是对结果的直接预测,而是预测结果的概率分布,通过均值向量和方差向量对该分布进行定义。此时,方差向量即表示模型对数据的不确定度,当分类网络模型遇到与训练数据分布不一致的样本时,方差向量会变大,而与训练数据分布一致时,方差向量较小。
在一种可能的实现方式中,分类网络模型的网络结构如图3C所示,主干网络选择ResNet18(也可以根据任务难度选择其他网络),在最后一个卷积层后引出两条分支,分别用于预测均值向量和方差向量。训练时,在方差向量上,加入重采样技巧,即对每个样本引入一个随机采样参数,使得嵌入特征服从高斯分布,从而实现对结果概率分布的预测。实际预测时,只使用均值向量进行预测。
本网络模型使用的损失函数为BCEWithLogitsLoss(sigmoid和二值交叉熵结合的损失函数)和KL散度,为权重参数:
步骤S4、若损失函数的输出值收敛,判定分类网络模型训练完成;
步骤S5、若损失函数的输出值尚未收敛,调整分类网络模型中的参数,继续对分类网络模型进行训练。
若损失函数的输出值大于预定阈值,表明分类网络模型尚存在训练空间,此时则可以按照预定方式调整分类网络模型中的参数,继续对分类网络模型进行训练,直至损失函数的输出值小于预定阈值,停止分类网络模型的训练。
步骤302,获取分类网络模型输出的预测结果;
步骤303,根据预测结果判定目标图像所属的类别;
预测结果可以包括与已知类别对应的2n个置信度,对应的,步骤303可以包括几种情况:
第一种情况,当预测结果中的前n个置信度均为0时,判定目标图像所属的类别为未知类别。
分类网络模型的全连接层输入到激活函数(比如常见的sigmoid),输出预测结果,通过预测结果中的置信度判定目标图像所属的类别。由于编码的前后是互斥的,所以可以通过预测结果中的第一部分(前n个置信度)进行类别判定。
仍旧以上述的已知类别有A/B/C三类,D为未知类别为例,当预测结果为(0, 0,0),则认为是未知类别。
第二种情况,当预测结果中的前n个置信度中包含一个非 0置信度时, 判定目标图像 所属的类别为所述非0置信度对应的已知类别。
仍旧以上述的已知类别有A/B/C三类,D为未知类别为例,预测结果为(X, 0, 0),X>0,则判断为A类别。
第三种情况,当预测结果中的前n个置信度中包含至少两个非0置信度时,判定目标图像所属的类别为最大置信度对应的己知类别。
仍旧以上述的已知类别有A/B/C三类,D为未知类别为例,预测结果为(0.8, 0.9,0),则根据多个类别的置信度排序,选择置信度大的那个作为输出结果。
步骤304,在目标图像所属的类别为未知类别时,对目标图像中的物品进行识别。
通过分类网络模型输出的预测结果判定目标图像所属的类别为未知类别时,通常表明该目标图像所属的类别为物品类别,此时,则需要对目标图像中的物品进一步识别,并根据识别出的物品进行以物搜图,识别的流程请参见图3D所示,步骤304在对目标图像进行物品识别时可以包括如下步骤:
步骤3041,确定目标图像中是否存在待检测目标;
步骤3042,若目标图像中存在待检测目标,则获取待检测目标在目标图像中的坐标位置;
步骤3043,根据坐标位置对待检测目标进行物品识别;
这里的位置信息可以包括待检测目标在目标图像中的横坐标、纵坐标、高度和宽度,比如,待检测目标象牙的坐标位置可以表示为(x1,y1,width1,height1,象牙),显然如果有多个待检测目标时,则获取各个待检测目标各自的坐标位置。
步骤3044,利用坐标位置截取待检测目标所在的目标区域;
步骤3045,对截取到的目标区域进行关键点矫正;
步骤3046,从关键点矫正后的目标区域提取物品特征;
步骤3047,从大数据证据库中搜索具备该物品特征的图像。
本申请中的物体识别方案主要基于目标检测模块、关键点回归模块和特征提取模块实现。将图像分类中未知类别的图像输入目标检测模块,如果某个图像中包含待检目标,则会输出该目标的类别及坐标位置。利用该坐标还可以实现对识别目标区域的截取,进行关键点矫正后,再提取物品特征,用于大数据证据库中的以图搜物。
本申请物体识别方案中各模块均基于深度学习网络模型进行构建,其中目标检测模块采用TinyDSOD网络模型,关键点回归采用mobileNet-v2网络模型,特征提取采用ResNet34网络模型,各模块的网络选型不限于上述给出的参考范围,可根据实际任务进行调整和适当裁剪。
综上所述,本申请提供的图像证据分类和识别方法,根据海关图像证据分类的业务需求,将图像进行了证件类、聊天截图类、表单类等大类划分,并将各种物品类别划分到未知类别中,从而满足海关图像证据分类的要求,实现对图像的分类,也可以保证对物品类的识别,避免了不确定的物品类别的分类干扰;在图像经网络分类模型判定为未知类别时,从该图像中识别物体类别,同时对后续的特征提取和以图搜物进行了设计,满足了从大数据库搜索同类物品的需求。
相比于普通的图像分类任务,本申请提供的方案更紧密地结合了业务场景,对工程实现上的难点问题进行了优化设计,通过各个模块的相互配合和优化,最终提升整个图像证据分类系统的精度和性能。
下述为本申请提供的图像证据分类和识别方法所对应的装置实施例,装置实施例所涉及到的技术特征均与图像证据分类和识别方法相同或相对应,为了避免重复,装置实施例中就不进行过多的重复阐述,具体可以参见图像证据分类和识别方法中对技术特征的解释。
图4A是本申请一个实施例中提供的图像证据分类和识别装置的结构示意图,本申请提供的图像证据分类和识别装置可以通过软件、硬件或软硬件结合的方式实现,该图像证据分类和识别装置可以包括:输入模块410、预测结果获取模块420、判定模块430和识别模块440。
输入模块410,被配置为将待分类识别的目标图像输入至预先建立并训练好的分类网络模型中,所述分类网络模型的标签编码选用改进后的one-hot 编码,所述改进后的one-hot编码的长度为2n,每个类别的标签编码中的后n个编码分别为前n个编码的反码,所述标签编码对应的已知类别至少包括证件类别、聊天截图类别以及表单类别,所述n为已知类别数;
预测结果获取模块420,被配置为获取所述分类网络模型输出的预测结果,所述预测结果中每个置信度取值为0或1;
判定模块430,被配置为根据所述预测结果获取模块420获取的预测结果判定所述目标图像所属的类别;
识别模块440,被配置为在所述判定模块430判定所述目标图像所属的类别为未知类别时,对所述目标图像中的物品进行识别。
在一种可能的实现方式中,请参见图4B所示,其是本申请另一个实施例中提供的图像证据分类和识别装置的结构示意图,该图像证据分类和识别装置还可以包括训练模块450,所述训练模块450被配置为执行如下操作:
构建训练集和测试集,所述训练集中包括预定个已知类别和未知类别,各个已知类别和未知类别的样本数量均相同,当然,数量也可存在略微差别,大致相同的数量也在本专利技术方案涵盖的范围之内,所述未知类别的样本至少包括枪支数据、手表数据、象牙数据以及从公共数据集中抽取的其他各物品数据;
利用所述训练集对建立的分类网络模型进行训练,利用所述分类网络模型的最后一个卷积层输出预测均值和方差向量,所述均值表示所述分类网络模型预测结果的概率,所述方差表示所述预测结果的可信程度;
对所述方差向量进行重采样,利用重采样后的方差向量得到对结果预测的概率分布;
若损失函数的输出值收敛,判定所述分类网络模型训练完成;
若损失函数的输出值尚未收敛,调整所述分类网络模型中的参数,继续对所述分类网络模型进行训练。
在另一种可能的实现方式中,所述识别模块440可以包括:确定单元441和获取单元442。
确定单元441,被配置为确定所述目标图像中是否存在待检测目标;
获取单元442,被配置为在所述确定单元确定所述目标图像中存在待检测目标时,获取所述待检测目标在所述目标图像中的坐标位置;
识别单元443,被配置为根据获取单元442获取到的坐标位置对所述待检测目标进行物品识别。
可选的,所述识别模块440还可以包括:截取单元444、校正单元445、提取单元446和搜索单元447。
截取单元444,被配置为利用所述获取单元442获取的坐标位置截取所述待检测目标所在的目标区域;
校正单元445,被配置为对所述截取单元444截取到的目标区域进行关键点矫正;
提取单元446,被配置为从关键点矫正后的目标区域提取物品特征;
搜索单元447,被配置为从大数据证据库中搜索具备所述提取单元446提取的物品特征的图像。
在一种可能的实现方式中,所述预测结果包括与所述已知类别对应的2n个置信度,所述判定模块430可以包括:第一判定单元431、第二判定单元432和第三判定单元433。
第一判定单元431,被配置为当所述预测结果中的前n个置信度均为0时,判定所述目标图像所属的类别为未知类别;
第二判定单元432,被配置为当所述预测结果中的前n个置信度中包含一个非 0置信度时, 判定所述目标图像 所属的类别为所述非0置信度对应的已知类别;
第三判定单元433,被配置为当所述预测结果中的前n个置信度中包含至少两个非0置信度时,判定所述目标图像所属的类别为最大置信度对应的己知类别。
综上所述,本申请提供的图像证据分类和识别装置,根据海关图像证据分类的业务需求,将图像进行了证据类、聊天截图类、表单类等大类划分,并将各种物品类别划分到未知类别中,从而满足海关图像证据分类的要求,实现对图像的分类,也可以保证对物品类的识别,避免了不确定的物品类别的分类干扰;在图像经网络分类模型判定为未知类别时,从该图像中识别物体类别,同时对后续的特征提取和以图搜物进行了设计,满足了从大数据库搜索同类物品的需求。
相比于普通的图像分类任务,本申请提供的方案更紧密地结合了业务场景,对工程实现上的难点问题进行了优化设计,通过各个模块的相互配合和优化,最终提升整个图像证据分类系统的精度和性能。
本领域技术人员在考虑说明书及实践这里发明的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (8)
1.一种图像证据分类和识别方法,其特征在于,所述方法包括:
将待分类识别的目标图像输入至预先建立并训练好的分类网络模型中,所述分类网络模型的标签编码选用改进后的one-hot 编码,所述改进后的one-hot编码的长度为2n,每个类别的标签编码中的后n个编码分别为前n个编码的反码,所述标签编码对应的已知类别至少包括证件类别、聊天截图类别以及表单类别,所述n为已知类别数;
获取所述分类网络模型输出的预测结果,所述预测结果中每个置信度取值为0或1;
根据所述预测结果判定所述目标图像所属的类别;
在所述目标图像所属的类别为未知类别时,对所述目标图像中的物品进行识别;
在所述将待分类识别的目标图像输入至预先建立并训练好的分类网络模型中之前,所述方法还包括:
构建训练集和测试集,所述训练集中包括预定个已知类别和未知类别,各个已知类别和未知类别的样本数量相同,所述未知类别的样本至少包括枪支数据、手表数据、象牙数据以及从公共数据集中抽取的其他各物品数据;
利用所述训练集对建立的分类网络模型进行训练,利用所述分类网络模型的最后一个卷积层输出预测均值和方差向量,所述均值表示所述分类网络模型预测结果的概率,所述方差表示所述预测结果的可信程度;
对所述方差向量进行重采样,利用重采样后的方差向量得到对结果预测的概率分布;
若损失函数的输出值收敛,则判定所述分类网络模型训练完成;
若损失函数的输出值尚未收敛,则调整所述分类网络模型中的参数,继续对所述分类网络模型进行训练。
2.根据权利要求1所述的方法,其特征在于对所述目标图像中的物品进行识别,包括:
确定所述目标图像中是否存在待检测目标;
若所述目标图像中存在待检测目标,则获取所述待检测目标在所述目标图像中的坐标位置,并根据所述坐标位置对所述待检测目标进行物品识别。
3.根据权利要求2所述的方法,其特征在于,在所述获取所述待检测目标在所述目标图像中的坐标位置之后,所述方法还包括:
利用所述坐标位置截取所述待检测目标所在的目标区域;
对截取到的目标区域进行关键点矫正;
从关键点矫正后的目标区域提取物品特征;
从大数据证据库中搜索具备所述物品特征的图像。
4.根据权利要求1-3中任一所述的方法,其特征在于,所述预测结果包括与所述已知类别对应的2n个置信度,所述根据所述预测结果判定所述目标图像所属的类别,包括:
当所述预测结果中的前n个置信度均为0时,判定所述目标图像所属的类别为未知类别;
当所述预测结果中的前n个置信度中包含一个非 0置信度时, 判定所述目标图像所属的类别为所述非0置信度对应的已知类别;
当所述预测结果中的前n个置信度中包含至少两个非0置信度时,判定所述目标图像所属的类别为最大置信度对应的己知类别。
5.一种图像证据分类和识别装置,其特征在于,所述装置包括:
输入模块,被配置为将待分类识别的目标图像输入至预先建立并训练好的分类网络模型中,所述分类网络模型的标签编码选用改进后的one-hot 编码,所述改进后的one-hot编码的长度为2n,每个类别的标签编码中的后n个编码分别为前n个编码的反码,所述标签编码对应的已知类别至少包括证件类别、聊天截图类别以及表单类别,所述n为已知类别数;
预测结果获取模块,被配置为获取所述分类网络模型输出的预测结果,所述预测结果中每个置信度取值为0或1;
判定模块,被配置为根据所述预测结果获取模块获取的预测结果判定所述目标图像所属的类别;
识别模块,被配置为在所述判定模块判定所述目标图像所属的类别为未知类别时,对所述目标图像中的物品进行识别;
训练模块被配置为执行如下操作:
构建训练集和测试集,所述训练集中包括预定个已知类别和未知类别,各个已知类别和未知类别的样本数量相同,所述未知类别的样本至少包括枪支数据、手表数据、象牙数据以及从公共数据集中抽取的其他各物品数据;
利用所述训练集对建立的分类网络模型进行训练,利用所述分类网络模型的最后一个卷积层输出预测均值和方差向量,所述均值表示所述分类网络模型预测结果的概率,所述方差表示所述预测结果的可信程度;
对所述方差向量进行重采样,利用重采样后的方差向量得到对结果预测的概率分布;
若损失函数的输出值收敛,判定所述分类网络模型训练完成;
若损失函数的输出值尚未收敛,调整所述分类网络模型中的参数,继续对所述分类网络模型进行训练。
6.根据权利要求5所述的装置,其特征在于,所述识别模块包括:
确定单元,被配置为确定所述目标图像中是否存在待检测目标;
获取单元,被配置为在所述确定单元确定所述目标图像中存在待检测目标时,获取所述待检测目标在所述目标图像中的坐标位置;
识别单元,被配置为根据所述获取单元获取的坐标位置对所述待检测目标进行物品识别。
7.根据权利要求6所述的装置,其特征在于,所述识别模块还包括:
截取单元,被配置为利用所述坐标位置截取所述待检测目标所在的目标区域;
校正单元,被配置为对所述截取单元截取到的目标区域进行关键点校正;
提取单元,被配置为从关键点校正后的目标区域提取物品特征;
搜索单元,被配置为从大数据证据库中搜索具备所述提取单元提取到的物品特征的图像。
8.根据权利要求5-7中任一所述的装置,其特征在于,所述预测结果包括与所述已知类别对应的2n个置信度,所述判定模块,包括:
第一判定单元,被配置为当所述预测结果中的前n个置信度均为0时,判定所述目标图像所属的类别为未知类别;
第二判定单元,被配置为当所述预测结果中的前n个置信度中包含一个非 0置信度时,判定所述目标图像 所属的类别为所述非0置信度对应的已知类别;
第三判定单元,被配置为当所述预测结果中的前n个置信度中包含至少两个非0置信度时,判定所述目标图像所属的类别为最大置信度对应的己知类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110603741.9A CN113743443B (zh) | 2021-05-31 | 2021-05-31 | 一种图像证据分类和识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110603741.9A CN113743443B (zh) | 2021-05-31 | 2021-05-31 | 一种图像证据分类和识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113743443A CN113743443A (zh) | 2021-12-03 |
CN113743443B true CN113743443B (zh) | 2024-05-17 |
Family
ID=78728459
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110603741.9A Active CN113743443B (zh) | 2021-05-31 | 2021-05-31 | 一种图像证据分类和识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113743443B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114637845B (zh) * | 2022-03-11 | 2023-04-14 | 上海弘玑信息技术有限公司 | 模型测试方法、装置、设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104751198A (zh) * | 2013-12-27 | 2015-07-01 | 华为技术有限公司 | 图像中的目标物的识别方法及装置 |
JP2016099716A (ja) * | 2014-11-19 | 2016-05-30 | キヤノン株式会社 | システム、識別装置、識別モデル生成装置、情報処理方法及びプログラム |
CN109376786A (zh) * | 2018-10-31 | 2019-02-22 | 中国科学院深圳先进技术研究院 | 一种图像分类方法、装置、终端设备及可读存储介质 |
CN110826614A (zh) * | 2019-10-31 | 2020-02-21 | 合肥黎曼信息科技有限公司 | 一种构造逆标签及其损失函数的方法 |
CN111860606A (zh) * | 2020-06-24 | 2020-10-30 | 上海小零网络科技有限公司 | 图像分类的方法、装置以及存储介质 |
-
2021
- 2021-05-31 CN CN202110603741.9A patent/CN113743443B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104751198A (zh) * | 2013-12-27 | 2015-07-01 | 华为技术有限公司 | 图像中的目标物的识别方法及装置 |
JP2016099716A (ja) * | 2014-11-19 | 2016-05-30 | キヤノン株式会社 | システム、識別装置、識別モデル生成装置、情報処理方法及びプログラム |
CN109376786A (zh) * | 2018-10-31 | 2019-02-22 | 中国科学院深圳先进技术研究院 | 一种图像分类方法、装置、终端设备及可读存储介质 |
CN110826614A (zh) * | 2019-10-31 | 2020-02-21 | 合肥黎曼信息科技有限公司 | 一种构造逆标签及其损失函数的方法 |
CN111860606A (zh) * | 2020-06-24 | 2020-10-30 | 上海小零网络科技有限公司 | 图像分类的方法、装置以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113743443A (zh) | 2021-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304882B (zh) | 一种图像分类方法、装置及服务器、用户终端、存储介质 | |
US11657602B2 (en) | Font identification from imagery | |
Assegie et al. | Handwritten digits recognition with decision tree classification: a machine learning approach | |
CN108564129B (zh) | 一种基于生成对抗网络的轨迹数据分类方法 | |
US20180204062A1 (en) | Systems and methods for image processing | |
CN109993102B (zh) | 相似人脸检索方法、装置及存储介质 | |
CN111523621A (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN109871821B (zh) | 自适应网络的行人重识别方法、装置、设备及存储介质 | |
CN109582813B (zh) | 一种文物展品的检索方法、装置、设备和存储介质 | |
CN106372624B (zh) | 人脸识别方法及系统 | |
CN113434716B (zh) | 一种跨模态信息检索方法和装置 | |
CN113761259A (zh) | 一种图像处理方法、装置以及计算机设备 | |
CN111368636A (zh) | 目标分类方法、装置、计算机设备和存储介质 | |
CN110751027B (zh) | 一种基于深度多示例学习的行人重识别方法 | |
CN112527972A (zh) | 基于深度学习的智能客服聊天机器人实现方法和系统 | |
CN111079847A (zh) | 一种基于深度学习的遥感影像自动标注方法 | |
CN110163206B (zh) | 车牌识别方法、系统、存储介质和装置 | |
CN113743443B (zh) | 一种图像证据分类和识别方法及装置 | |
WO2022063076A1 (zh) | 对抗样本的识别方法及装置 | |
CN111126420A (zh) | 一种建立识别模型的方法及装置 | |
CN112487927B (zh) | 一种基于物体关联注意力的室内场景识别实现方法及系统 | |
CN112749702B (zh) | 一种图像识别方法、装置、终端及存储介质 | |
Chen et al. | Design and Implementation of Second-generation ID Card Number Identification Model based on TensorFlow | |
CN112085040A (zh) | 对象标签确定方法、装置和计算机设备 | |
CN113554145A (zh) | 确定神经网络的输出的方法、电子设备和计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |