CN114972303A - 图像获取方法、装置、电子设备及存储介质 - Google Patents
图像获取方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114972303A CN114972303A CN202210689241.6A CN202210689241A CN114972303A CN 114972303 A CN114972303 A CN 114972303A CN 202210689241 A CN202210689241 A CN 202210689241A CN 114972303 A CN114972303 A CN 114972303A
- Authority
- CN
- China
- Prior art keywords
- image
- frame
- detection model
- target
- coordinate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000001514 detection method Methods 0.000 claims abstract description 173
- 230000006870 function Effects 0.000 claims description 49
- 238000012360 testing method Methods 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 11
- 230000033001 locomotion Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 238000003384 imaging method Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 13
- 238000002372 labelling Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
- G06T2207/10008—Still image; Photographic image from scanner, fax or copier
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及图像检测技术领域,提供一种图像获取方法、装置、电子设备及存储介质,利用自定义取景框获得待检测物品的扫描图像,利用MobileNetV3‑SSD目标检测模型判断扫描图像中的待检测物品是否为目标物品,之后获取并限制摄像装置的移动范围,对目标物品进行连续抓拍,对获得的多张图像进行清晰度检测,将清晰度最高的图像作为目标物品的清晰图像,从而提高摄像装置对焦的准确性以及模糊判断的精准度。
Description
技术领域
本发明涉及图像检测技术领域,具体涉及一种图像获取方法、装置、电子设备及存储介质。
背景技术
目前人们使用手机支付之前都需要上传身份证和银行卡之类的证件图像,上传的卡证的图像一般都是通过相机自动扫描方式获得,这种方式获得的图像很可能会产生模糊。若把模糊的图像上传会影响后续的识别与验证,极大影响了用户的体验。
发明内容
鉴于以上内容,有必要提出一种图像获取方法、装置、电子设备及存储介质,能够辅助在前端过滤掉模糊的图像获得清晰图像,提高模糊判断的精准度与用户的体验。
本发明的第一方面提供一种图像获取方法,所述方法包括:获取摄像装置对待检测物品进行扫描时的扫描图像;将所述扫描图像输入预先训练的目标检测模型,利用所述目标检测模型输出置信度,所述置信度用于判断所述扫描图像中的待检测物品是否为目标物品;当所述置信度大于预设的置信度阈值时,确定所述待检测物品是所述目标物品,基于所述目标检测模型确定所述目标物品在所述摄像装置的镜头中的移动范围;当确定所述移动范围小于预设的误差时,选择所述摄像装置对所述目标物品进行连续抓拍后的多帧抓拍的图像;对所述选择的每帧图像进行清晰度计算,将所述清晰度的值最大的图像作为所述目标物品的清晰图像。
根据本发明的一个可选的实施方式,所述方法还包括:为所述摄像装置设置尺寸比例与所述目标物品的尺寸比例相同的自定义取景框,包括:将所述自定义取景框的内部区域设置为透明取景区域,将所述自定义取景框的外部区域设置为蒙版区域;所述获取摄像装置对待检测物品进行扫描时的扫描图像包括:利用所述自定义取景框将所述待检测物品框选在内时,获取所述扫描图像。
根据本发明的一个可选的实施方式,所述预先训练的目标检测模型包括MobileNetV3-SSD目标检测模型;对所述目标检测模型的训练过程包括:获取数据集,所述数据集包括预设数量的所述目标物品的图像;获取对所述数据集中的每张图像进行标注后的数据集,并将所述标注后的数据集按照预设的比例划分为训练集和测试集;基于底层框架PaddleDetection以及主干网络MobileNetV3,利用所述训练集训练检测模型,其中,所述底层框架PaddleDetection包括SSD卷积神经网络;基于所述测试集对所述检测模型进行测试,并根据所述测试的结果对所述检测模型的模型参数进行调整,直至所述检测模型的损失函数收敛至预设值,将所述损失函数收敛至预设值的检测模型作为所述目标检测模型。
根据本发明的一个可选的实施方式,所述模型参数包括:所述检测模型的每个卷积层的特征预测框的尺寸与所述目标物品在所述扫描图像中的图像的尺寸的比例Sk,其中,每个特征预测框的长宽比与所述目标物品的长宽比相同;所述损失函数包括:类别损失的交叉熵损失函数与定位损失的Smoth-L1损失函数的加权之和。
根据本发明的一个可选的实施方式,所述目标检测模型的第k个卷积层对应的所述比例Sk为:Sk=Smin+(Smax-Smin)×(K-1)/5,其中,K取值为1时对应第4个卷积层,K取值为2时对应第7个卷积层,K取值为3时对应第8个卷积层,K取值为4时对应第9个卷积层,K取值为5时对应第10个卷积层,K取值为6时对应第11个卷积层,Smin=0.2,Smax=0.9。
根据本发明的一个可选的实施方式,所述目标物品在所述摄像装置的镜头中的移动范围包括:所述目标物品的第一预设特征点在所述扫描图像中的第一坐标与所述自定义取景框的第二预设特征点的第二坐标的距离,其中,所述目标物品在所述扫描图像中的图像包括矩形图像,所述第一预设特征点包括所述矩形图像的四个顶点,所述自定义取景框包括矩形框,所述第二预设特征点包括所述矩形框的四个顶点;所述基于所述目标检测模型确定所述目标物品在所述摄像装置的镜头中的移动范围包括:利用所述目标检测模型确定所述第一坐标,所述第一坐标包括:所述矩形图像的左上角的坐标p1、所述矩形图像的右上角的坐标p2、所述矩形图像的左下角的坐标p3、所述矩形图像的右下角的坐标p4;获取所述第二坐标,所述第二坐标包括:所述矩形框的左上角的坐标q1、所述矩形框的右上角的坐标q2、所述矩形框的左下角的坐标q3、所述矩形框的右下角的坐标q4;计算所述第一坐标与所述第二坐标的距离mi,将所述距离mi作为所述移动范围,其中mi=|pi-qi|,i=1,2,3,4。
根据本发明的一个可选的实施方式,所述对所选择的每帧图像进行清晰度计算包括:基于Laplacian算子,用3×3的卷积核对所选择的每帧图像进行卷积,将获得的方差作为所述清晰度,其中,所述Laplacian算子为:{0,1,0,1,-4,1,0,1,0}。
本发明的第二方面提供一种图像获取装置,所述装置包括:获取模块,用于获取摄像装置对待检测物品进行扫描时的扫描图像;检测模块,用于将所述扫描图像输入预先训练的目标检测模型,利用所述目标检测模型输出所述扫描图像中的待检测物品是目标物品的置信度;计算模块,用于当所述置信度大于预设的置信度阈值时,确定所述待检测物品是所述目标物品,基于所述目标检测模型确定所述目标物品在所述摄像装置的镜头中的移动范围;选择模块,用于当确定所述移动范围小于预设的误差时,选择所述摄像装置对所述目标物品进行连续抓拍后的多帧抓拍的图像;判断模块,用于对所选择的每帧图像进行清晰度计算,将所述清晰度的值最大的图像作为所述目标物品的清晰图像。
本发明的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述图像获取方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述图像获取方法。
综上所述,本发明所述的图像获取方法、装置、电子设备及存储介质,基于目标检测与多帧判断的模糊判断优化,可以用于在例如手机等前端的对卡证清晰图像的获取。首先利用自定义取景框获得待检测物品的扫描图像,利用MobileNetV3-SSD目标检测模型判断所述扫描图像中的待检测物品是否为目标物品,之后获取并限制摄像装置的移动范围,在较小的移动范围内对目标物品进行连续抓拍,对获得的多张图像进行清晰度检测,将清晰度最高的图像作为目标物品的清晰图像。可以提高目标物品检测的准确度和效率,有效减少由于摄像装置晃动产生的图像模糊的概率,通过多帧图像的方案提高摄像装置对焦的准确性,还可以提高模糊判断的精准度与用户的体验度和拍摄效率。
附图说明
图1是本发明实施例一提供的图像获取方法的流程图。
图2是为本申请实施例提供的自定义取景框的示例图。
图3是本申请实施例提供的移动范围的第一示例图。
图4是本申请实施例提供的移动范围的第二示例图。
图5是本发明实施例二提供的图像获取装置的结构图。
图6是本发明实施例三提供的电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述在一个可选的实施方式中实施例的目的,不是旨在于限制本发明。
本发明实施例提供的图像获取方法由电子设备执行,相应地,图像获取装置运行于电子设备中。
实施例一
图1是本发明实施例一提供的图像获取方法的流程图。所述图像获取方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
S11,获取摄像装置对待检测物品进行扫描时的扫描图像。
在一个可选的实施方式中,本申请实施例提供的方案可以应用于获取多种类型的卡证的清晰图像。所述待检测物品可以包括多种类型的卡证,例如,身份证、名片、银行卡等。
在一个可选的实施方式中,本申请实施例提供的方案可以应用于如图6所示的电子设备,所述电子设备与所述摄像装置通信连接(例如,蓝牙连接或Wi-Fi连接),实时获取摄像装置对待检测物品进行扫描时的扫描图像。此外,所述电子设备还可以包括多种移动终端(例如,手机),所述摄像装置可以是所述移动终端的摄像装置(例如,手机的摄像头)。
在一个可选的实施方式中,所述方法还包括:为所述摄像装置设置尺寸比例与目标物品(例如,身份证、名片、银行卡)的尺寸比例相同的自定义取景框,包括:将所述自定义取景框的内部区域设置为透明取景区域,将所述自定义取景框的外部区域设置为蒙版区域。
具体地,获取所述目标物品的长度、宽度,以及目标物品的长度的宽度比例作为尺寸比例(例如,身份证的尺寸比例1.58:1);按照所述尺寸比例设定自定义取景框的长度与宽度,使得所述自定义取景框能够被所述摄像装置的显示屏幕(例如,手机的显示屏)包含在内;将所述自定义取景框的内部区域设置为透明取景区域;将所述自定义取景框的外部区域设置为蒙版区域,所述蒙版区域表示预设颜色值(例如,十六进制的颜色值FFFFFF)与预设透明度(例如,十六进制的透明度7f)的不透明区域。
例如图2所示,为本申请实施例提供的自定义取景框的示例图。其中,实线框表示所述摄像装置的显示屏幕边框,虚线框表示所述自定义取景框,阴影部分表示所述蒙版区域。
在一个可选的实施方式中,所述自定义取景框用于调整拍摄所述待检测物品时的摄像装置的拍摄角度和拍摄位置。所述自定义取景框包括矩形框,所述自定义取景框的尺寸比例与分辨率对应相关,例如,尺寸比例为1.58:1,可以将分辨率设置为1580×1000等。
当拍摄例如身份证的目标物品时,通过对比所述自定义取景框的内部边框与所述目标物品在所述扫描图像中的位置差异(详见之后所述的移动范围),对所述摄像装置的拍摄角度和拍摄位置进行调整,可以使得所述透明取景区域对所述目标物品进行最优取景拍摄,获得最贴近现实的目标物品的图像或照片。此外,例如图2所示,还可以在所述蒙版区域的预设位置设置文字区域,用以提醒所述位置差异等。
所述获取摄像装置对待检测物品进行扫描时的扫描图像包括:利用所述自定义取景框将所述待检测物品框选在内时,获取所述扫描图像。具体的,将待检测物品的全部区域置于所述摄像装置的拍摄范围之内,并且使得所述摄像装置的显示屏幕中所述自定义取景框将所述待检测物品框选在内,此时所述摄像装置的显示屏幕的图像即为所述扫描图像。为便于理解,举例而言,在所述电子设备中设置了帧缓冲区(Frame Buffer),将摄像装置的自定义取景框拍摄身份证时的显示屏幕画面作为图像帧保存至帧缓冲区,得到所述扫描图像。
在一个可选的实施方式中,可以将本申请实施例提供的方案部署至移动终端,在利用移动终端对待检测物品进行拍摄时,实时检测待检测物品是否为目标物品(例如身份证),并对获得的目标物品的图像的清晰度进行计算,从而剔除目标物品的模糊图像获得清晰图像,提高摄像装置的拍摄精度以及获得的目标物品图像的清晰度。
S12,将所述扫描图像输入预先训练的目标检测模型,利用所述目标检测模型输出置信度,所述置信度用于判断所述扫描图像中的待检测物品是否为目标物品。
在一个可选的实施方式中,所述预先训练的目标检测模型包括MobileNetV3-SSD目标检测模型;对所述目标检测模型的训练过程包括如下(1)-(4)。
(1)获取数据集,所述数据集包括预设数量的所述目标物品的图像。
在一个可选的实施方式中,电子设备可以响应用户输入获取所述数据集,还可以预先存储所述数据集在电子设备的存储器中,或者预先存储数据集在与电子设备通讯连接的其他设备中。此外,电子设备还可以通过网络搜索下载所述数据集,例如,1万张身份证的图像等。
(2)获取对所述数据集中的每张图像进行标注后的数据集,并将所述标注后的数据集按照预设的比例划分为训练集和测试集。
在一个可选的实施方式中,电子设备可以响应用户输入获取所述标注后的数据集,例如,用户使用labelimg作为标注工具,使用矩形标注框将所述数据集中的每张图像中的一个或多个特征区域(例如,身份证图像中的人像区域)进行标注,并为每个标注框设定特征标签,将标签文件输入所述电子设备,其中标签文件包括:图像的名字(例如,身份证图像1)、标签的类别或名字(例如,人像1)、标签对应的标注框在图像中的位置等。
在一个可选的实施方式中,可以按照8:2的比例将所述标注后的数据集划分为训练集和测试集。还可以将所述标注后的数据集中的一部分图像作为验证集。
(3)基于底层框架PaddleDetection以及主干网络MobileNetV3,利用所述训练集训练检测模型,其中,所述底层框架PaddleDetection包括SSD卷积神经网络。
在一个可选的实施方式中,PaddleDetection是百度飞桨推出的物体检测统一框架,支持现有的SSD(Single Shot MultiBox Detector)等系列模型,支持MobileNet等主干网络。
本实施例使用的主干网络MobileNetV3使用了轻量级神经网络MnasNet相同类型的构造块,采用了16个滤波器的3×3卷积层,将hard swish(h-swish)=x×ReLU6(x+3)/6作为激活层,使用了NetAdapt算法获得的最佳数量的扩展层的滤波器与瓶颈层的通道数量,并使用Squeeze-and-excitation(SE)模块对通道数进行缩减,在乘法层中对于SE模块采用ReLU6(x+3)/6作为近似。
此外,MobileNetV3还在MobileNetV2的基础上做了改进,将MobileNetV2中在全局平均池化层之前的1×1卷积置于全局平均池化层的后面,因此它可用于更小的特征图,还可以删除之前的瓶颈层和深度卷积层,在保留高维特征的前提下降低计算延时,提高了模型对特征检测的精度与速度。
(4)基于所述测试集对所述检测模型进行测试,并根据所述测试的结果对所述检测模型的模型参数进行调整,直至所述检测模型的损失函数收敛至预设值,将所述损失函数收敛至预设值的检测模型作为所述目标检测模型。
在一个可选的实施方式中,将所述测试集中的测试图像输入至所述检测模型,利用所述检测模型输出所述测试图像是所述目标物品的图像的置信度,计算1与所述置信度的差值,将所述差值作为所述测试的结果;当所述测试的结果大于预设的差值阈值(例如,0.5)时,对所述检测模型的模型参数进行调整。具体的,通过利用检测模型的卷积层对测试图像中每个特征的特征检测,实现对测试图像的整体的目标检测。
所述模型参数包括:所述检测模型的每个卷积层的特征预测框的尺寸与所述目标物品在所述扫描图像中的图像的尺寸的比例Sk,其中,每个特征预测框的长宽比与所述目标物品的长宽比相同。所述特征预测框表示每个卷积层基于滑动窗口技术进行特征检测时的候选框。
在一个可选的实施方式中,所述目标检测模型的第k个卷积层对应的所述比例Sk为:Sk=Smin+(Smax-Smin)×(K-1)/5,其中,K取值为1时对应第4个卷积层,K取值为2时对应第7个卷积层,K取值为3时对应第8个卷积层,K取值为4时对应第9个卷积层,K取值为5时对应第10个卷积层,K取值为6时对应第11个卷积层,Smin=0.2,Smax=0.9。将每个卷积层的比例设置为大小不一,可以在对所述扫描图像进行特征检测时均衡对检测的范围和检测的精准度的考量,从而在实现对所述扫描图像的全局特征检测的同时,提高对每个特征进行特征检测的精准度。
在一个可选的实施方式中,所述损失函数包括:类别损失的交叉熵损失函数与定位损失的Smoth-L1损失函数的加权之和。例如,将交叉熵损失函数与Smoth-L1损失函数的权重比设置为1比1。所述检测模型的损失函数需要收敛至的所述预设值可以为0.2。
其中,所述类别损失表示所述检测模型检测得到的特征类别与实际标注的标签的类别的差值,所述定位损失表示所述检测模型的特征预测框的位置与实际的标注框的位置之间的差值。
所述交叉熵损失函数能够使得所述检测模型的权重的梯度不再跟激活层的激活函数的导数相关,只跟所述检测模型的输出值和实际值的差值成正比,从而提高了损失函数的收敛速度和检测模型的权重矩阵的更新速度。所述Smoth-L1损失函数能从两个方面限制检测模型的权重的梯度,从而提高损失函数的收敛速度,所述两个方面包括:当所述检测模型的特征预测框与标注框的位置差别过大时,限制梯度值不至于过大;当所述检测模型的特征预测框与标注框的位置差别很小时,限制梯度值足够小。
所述损失函数表示所述目标检测模型的检测准确度与实际准确度(数值为1)之间的差值;所述损失函数收敛至的预设值越小,所述目标检测模型的检测精准度越高。
在一个可选的实施方式中,所述置信度表示所述目标检测模型获得的所述扫描图像中的待检测物品是目标物品的可能性;所述置信度的值小于等于1,所述置信度的值越大,所述待检测物品时所述目标物品的可能性越大。
在一个可选的实施方式中,对待检测物品进行目标检测也可以对目标物品的模糊图像进行剔除。具体地,当待检测物品是目标物品但是扫描图像中的图像特别模糊时,目标检测模型获得的置信度一定会是较低的,从而可以将模糊图像进行剔除。换而言之,目标检测模型的目标检测即为一次模糊检测。
S13,当所述置信度大于预设的置信度阈值时,确定所述待检测物品是所述目标物品,基于所述目标检测模型确定所述目标物品在所述摄像装置的镜头中的移动范围。
在一个可选的实施方式中,所述置信度阈值可以设置为0.85。当确定所述待检测物品是所述目标物品,可以对所述目标物品在所述摄像装置的镜头中的移动范围进行判断,从而调整所述摄像装置的拍摄范围和角度,获得所述目标物品的尽可能贴合实物的图像。
在一个可选的实施方式中,所述目标物品在所述摄像装置的镜头中的移动范围包括:所述目标物品的第一预设特征点在所述扫描图像中的第一坐标与所述自定义取景框的第二预设特征点的第二坐标的距离,其中,所述目标物品在所述扫描图像中的图像包括矩形图像,所述第一预设特征点包括所述矩形图像的四个顶点,所述自定义取景框包括矩形框,所述第二预设特征点包括所述矩形框的四个顶点。
在一个可选的实施方式中,所述基于所述目标检测模型确定所述目标物品在所述摄像装置的镜头中的移动范围包括:利用所述目标检测模型确定所述第一坐标,所述第一坐标包括:所述矩形图像的左上角的坐标p1、所述矩形图像的右上角的坐标p2、所述矩形图像的右下角的坐标p3、所述矩形图像的左下角的坐标p4;获取所述第二坐标,所述第二坐标包括:所述矩形框的左上角的坐标q1、所述矩形框的右上角的坐标q2、所述矩形框的右下角的坐标q3、所述矩形框的左下角的坐标q4;计算所述第一坐标与所述第二坐标的距离mi,将所述距离mi作为所述移动范围,其中mi=|pi-qi|,i=1,2,3,4。
具体地,例如图3所示,为本申请实施例提供的移动范围的第一示例图。可以首先将虚线框表示的所述自定义取景框的左下角设置为坐标原点建立坐标系,即将q4设置为(0,0),之后根据所述自定义取景框的分辨率设置q1和q3,例如,所述自定义取景框的分辨率为1580×1000,那么q1为(0,1000),q3为(1580,0),从而可以得到q2为(1580,1000)。同样的,可以基于如图3所示的坐标系得到实线框表示的目标物品的所述第一坐标。举例而言,p4为(30,40),那么长度单位为px(像素)。
需要说明的是,所述目标检测模型对所述扫描图像进行目标检测时,是对所述扫描图像的自定义取景框内的图像进行目标检测,由于所述自定义取景框内的范围大于所述目标物品的图像的范围,所以可以直接由所述目标检测模型检测得到所述目标物品的第一预设特征点,从而得到所述第一坐标。此外,所述目标检测模型还可以检测得到所述目标物品的边,并使用预设的颜色框(例如,黄色框)将所述目标物品的边标注并展示在所述显示屏幕中。
在一个可选的实施例中,当摄像装置的拍摄位置差异使得目标物品在扫描图像中产生畸变时,所述目标物品在所述扫描图像中的图像还包括不规则的四边形图像,所述第一预设特征点包括所述四边形图像的四个顶点,所述第一坐标包括顺时针的所述四边形图像的四个顶点的坐标。例如图4所示,为本申请实施例提供的移动范围的第二示例图,其中实线四边形表示所述目标物品的四边形图像。
S14,当确定所述移动范围小于预设的误差时,选择所述摄像装置对所述目标物品进行连续抓拍后的多帧抓拍的图像。
在一个可选的实施例中,所述预设的误差可以为30px(像素)。当所述移动范围小于预设的误差时,可以将此位置进行拍摄的图像作为取景最佳图像,进行连续抓拍,从而在较小的抖动范围内获得多张较佳图像。举例而言,可以在确定所述移动范围小于预设的误差后的第2秒开始抓拍,每隔两张选一张图像,共选择3张图像。
S15,对所述选择的每帧图像进行清晰度计算,将所述清晰度的值最大的图像作为所述目标物品的清晰图像。
在一个可选的实施方式中,所述对所选择的每帧图像进行清晰度计算包括:基于Laplacian算子,用3×3的卷积核对所选择的每帧图像进行卷积,将获得的方差作为所述清晰度,其中,所述Laplacian算子为:{0,1,0,1,-4,1,0,1,0}。具体地,可以使用OPENCV程序中的cv2.Laplacian(image,cv2.CV_64F).var()函数得到所述每帧图像(image)的清晰度。
在一个可选的实施方式中,Laplacian算子是用来衡量图像清晰度的二阶导,能够强调图像中密度快速变化的区域,Laplacian算子对越清晰的图像进行模糊检测得到的方差越大。
在一个可选的实施方式中,本申请实施例提供的基于目标检测与多帧判断的模糊判断优化方案,可以用于在例如手机等前端的对卡证清晰图像的获取。首先利用自定义取景框获得待检测物品的扫描图像,利用MobileNetV3-SSD目标检测模型判断所述扫描图像中的待检测物品是否为目标物品,之后获取并限制摄像装置的移动范围,在较小的移动范围内对目标物品进行连续抓拍,对获得的多张图像进行清晰度检测,将清晰度最高的图像作为目标物品的清晰图像。可以提高目标物品检测的准确度和效率,有效减少由于摄像装置晃动产生的图像模糊的概率,通过多帧图像的方案提高摄像装置对焦的准确性,还可以提高模糊判断的精准度与用户的体验度和拍摄效率。
实施例二
图5是本发明实施例二提供的图像获取装置的结构图。
在一些实施例中,所述图像获取装置20可以包括多个由计算机程序段所组成的功能模块。所述图像获取装置20中的各个程序段的计算机程序可以存储于电子设备的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)图像获取的功能。
本实施例中,所述图像获取装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:获取模块201、检测模块202、计算模块203、选择模块204、判断模块205。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
所述获取模块201,用于获取摄像装置对待检测物品进行扫描时的扫描图像。
在一个可选的实施方式中,本申请实施例提供的方案可以应用于获取多种类型的卡证的清晰图像。所述待检测物品可以包括多种类型的卡证,例如,身份证、名片、银行卡等。
在一个可选的实施方式中,本申请实施例提供的方案可以应用于如图6所示的电子设备,所述电子设备与所述摄像装置通信连接(例如,蓝牙连接或Wi-Fi连接),实时获取摄像装置对待检测物品进行扫描时的扫描图像。此外,所述电子设备还可以包括多种移动终端(例如,手机),所述摄像装置可以是所述移动终端的摄像装置(例如,手机的摄像头)。
在一个可选的实施方式中,所述方法还包括:为所述摄像装置设置尺寸比例与目标物品(例如,身份证、名片、银行卡)的尺寸比例相同的自定义取景框,包括:将所述自定义取景框的内部区域设置为透明取景区域,将所述自定义取景框的外部区域设置为蒙版区域。
具体地,获取所述目标物品的长度、宽度,以及目标物品的长度的宽度比例作为尺寸比例(例如,身份证的尺寸比例1.58:1);按照所述尺寸比例设定自定义取景框的长度与宽度,使得所述自定义取景框能够被所述摄像装置的显示屏幕(例如,手机的显示屏)包含在内;将所述自定义取景框的内部区域设置为透明取景区域;将所述自定义取景框的外部区域设置为蒙版区域,所述蒙版区域表示预设颜色值(例如,十六进制的颜色值FFFFFF)与预设透明度(例如,十六进制的透明度7f)的不透明区域。
例如图2所示,为本申请实施例提供的自定义取景框的示例图。其中,实线框表示所述摄像装置的显示屏幕边框,虚线框表示所述自定义取景框,阴影部分表示所述蒙版区域。
在一个可选的实施方式中,所述自定义取景框用于调整拍摄所述待检测物品时的摄像装置的拍摄角度和拍摄位置。所述自定义取景框包括矩形框,所述自定义取景框的尺寸比例与分辨率对应相关,例如,尺寸比例为1.58:1,可以将分辨率设置为1580×1000等。
当拍摄例如身份证的目标物品时,通过对比所述自定义取景框的内部边框与所述目标物品在所述扫描图像中的位置差异(详见之后所述的移动范围),对所述摄像装置的拍摄角度和拍摄位置进行调整,可以使得所述透明取景区域对所述目标物品进行最优取景拍摄,获得最贴近现实的目标物品的图像或照片。此外,例如图2所示,还可以在所述蒙版区域的预设位置设置文字区域,用以提醒所述位置差异等。
所述获取摄像装置对待检测物品进行扫描时的扫描图像包括:利用所述自定义取景框将所述待检测物品框选在内时,获取所述扫描图像。具体的,将待检测物品的全部区域置于所述摄像装置的拍摄范围之内,并且使得所述摄像装置的显示屏幕中所述自定义取景框将所述待检测物品框选在内,此时所述摄像装置的显示屏幕的图像即为所述扫描图像。为便于理解,举例而言,在所述电子设备中设置了帧缓冲区(Frame Buffer),将摄像装置的自定义取景框拍摄身份证时的显示屏幕画面作为图像帧保存至帧缓冲区,得到所述扫描图像。
在一个可选的实施方式中,可以将本申请实施例提供的方案部署至移动终端,在利用移动终端对待检测物品进行拍摄时,实时检测待检测物品是否为目标物品(例如身份证),并对获得的目标物品的图像的清晰度进行计算,从而剔除目标物品的模糊图像获得清晰图像,提高摄像装置的拍摄精度以及获得的目标物品图像的清晰度。
所述检测模块202,用于将所述扫描图像输入预先训练的目标检测模型,利用所述目标检测模型输出置信度,所述置信度用于判断所述扫描图像中的待检测物品是否为目标物品。
在一个可选的实施方式中,所述预先训练的目标检测模型包括MobileNetV3-SSD目标检测模型;对所述目标检测模型的训练过程包括如下(1)-(4)。
(1)获取数据集,所述数据集包括预设数量的所述目标物品的图像。
在一个可选的实施方式中,电子设备可以响应用户输入获取所述数据集,还可以预先存储所述数据集在电子设备的存储器中,或者预先存储数据集在与电子设备通讯连接的其他设备中。此外,电子设备还可以通过网络搜索下载所述数据集,例如,1万张身份证的图像等。
(2)获取对所述数据集中的每张图像进行标注后的数据集,并将所述标注后的数据集按照预设的比例划分为训练集和测试集。
在一个可选的实施方式中,电子设备可以响应用户输入获取所述标注后的数据集,例如,用户使用labelimg作为标注工具,使用矩形标注框将所述数据集中的每张图像中的一个或多个特征区域(例如,身份证图像中的人像区域)进行标注,并为每个标注框设定特征标签,将标签文件输入所述电子设备,其中标签文件包括:图像的名字(例如,身份证图像1)、标签的类别或名字(例如,人像1)、标签对应的标注框在图像中的位置等。
在一个可选的实施方式中,可以按照8:2的比例将所述标注后的数据集划分为训练集和测试集。还可以将所述标注后的数据集中的一部分图像作为验证集。
(3)基于底层框架PaddleDetection以及主干网络MobileNetV3,利用所述训练集训练检测模型,其中,所述底层框架PaddleDetection包括SSD卷积神经网络。
在一个可选的实施方式中,PaddleDetection是百度飞桨推出的物体检测统一框架,支持现有的SSD(Single Shot MultiBox Detector)等系列模型,支持MobileNet等主干网络。
本实施例使用的主干网络MobileNetV3使用了轻量级神经网络MnasNet相同类型的构造块,采用了16个滤波器的3×3卷积层,将hard swish(h-swish)=x×ReLU6(x+3)/6作为激活层,使用了NetAdapt算法获得的最佳数量的扩展层的滤波器与瓶颈层的通道数量,并使用Squeeze-and-excitation(SE)模块对通道数进行缩减,在乘法层中对于SE模块采用ReLU6(x+3)/6作为近似。
此外,MobileNetV3还在MobileNetV2的基础上做了改进,将MobileNetV2中在全局平均池化层之前的1×1卷积置于全局平均池化层的后面,因此它可用于更小的特征图,还可以删除之前的瓶颈层和深度卷积层,在保留高维特征的前提下降低计算延时,提高了模型对特征检测的精度与速度。
(4)基于所述测试集对所述检测模型进行测试,并根据所述测试的结果对所述检测模型的模型参数进行调整,直至所述检测模型的损失函数收敛至预设值,将所述损失函数收敛至预设值的检测模型作为所述目标检测模型。
在一个可选的实施方式中,将所述测试集中的测试图像输入至所述检测模型,利用所述检测模型输出所述测试图像是所述目标物品的图像的置信度,计算1与所述置信度的差值,将所述差值作为所述测试的结果;当所述测试的结果大于预设的差值阈值(例如,0.5)时,对所述检测模型的模型参数进行调整。具体的,通过利用检测模型的卷积层对测试图像中每个特征的特征检测,实现对测试图像的整体的目标检测。
所述模型参数包括:所述检测模型的每个卷积层的特征预测框的尺寸与所述目标物品在所述扫描图像中的图像的尺寸的比例Sk,其中,每个特征预测框的长宽比与所述目标物品的长宽比相同。所述特征预测框表示每个卷积层基于滑动窗口技术进行特征检测时的候选框。
在一个可选的实施方式中,所述目标检测模型的第k个卷积层对应的所述比例Sk为:Sk=Smin+(Smax-Smin)×(K-1)/5,其中,K取值为1时对应第4个卷积层,K取值为2时对应第7个卷积层,K取值为3时对应第8个卷积层,K取值为4时对应第9个卷积层,K取值为5时对应第10个卷积层,K取值为6时对应第11个卷积层,Smin=0.2,Smax=0.9。将每个卷积层的比例设置为大小不一,可以在对所述扫描图像进行特征检测时均衡对检测的范围和检测的精准度的考量,从而在实现对所述扫描图像的全局特征检测的同时,提高对每个特征进行特征检测的精准度。
在一个可选的实施方式中,所述损失函数包括:类别损失的交叉熵损失函数与定位损失的Smoth-L1损失函数的加权之和。例如,将交叉熵损失函数与Smoth-L1损失函数的权重比设置为1比1。所述检测模型的损失函数需要收敛至的所述预设值可以为0.2。
其中,所述类别损失表示所述检测模型检测得到的特征类别与实际标注的标签的类别的差值,所述定位损失表示所述检测模型的特征预测框的位置与实际的标注框的位置之间的差值。
所述交叉熵损失函数能够使得所述检测模型的权重的梯度不再跟激活层的激活函数的导数相关,只跟所述检测模型的输出值和实际值的差值成正比,从而提高了损失函数的收敛速度和检测模型的权重矩阵的更新速度。所述Smoth-L1损失函数能从两个方面限制检测模型的权重的梯度,从而提高损失函数的收敛速度,所述两个方面包括:当所述检测模型的特征预测框与标注框的位置差别过大时,限制梯度值不至于过大;当所述检测模型的特征预测框与标注框的位置差别很小时,限制梯度值足够小。
所述损失函数表示所述目标检测模型的检测准确度与实际准确度(数值为1)之间的差值;所述损失函数收敛至的预设值越小,所述目标检测模型的检测精准度越高。
在一个可选的实施方式中,所述置信度表示所述目标检测模型获得的所述扫描图像中的待检测物品是目标物品的可能性;所述置信度的值小于等于1,所述置信度的值越大,所述待检测物品时所述目标物品的可能性越大。
在一个可选的实施方式中,对待检测物品进行目标检测也可以对目标物品的模糊图像进行剔除。具体地,当待检测物品是目标物品但是扫描图像中的图像特别模糊时,目标检测模型获得的置信度一定会是较低的,从而可以将模糊图像进行剔除。换而言之,目标检测模型的目标检测即为一次模糊检测。
所述计算模块203,用于当所述置信度大于预设的置信度阈值时,确定所述待检测物品是所述目标物品,基于所述目标检测模型确定所述目标物品在所述摄像装置的镜头中的移动范围。
在一个可选的实施方式中,所述置信度阈值可以设置为0.85。当确定所述待检测物品是所述目标物品,可以对所述目标物品在所述摄像装置的镜头中的移动范围进行判断,从而调整所述摄像装置的拍摄范围和角度,获得所述目标物品的尽可能贴合实物的图像。
在一个可选的实施方式中,所述目标物品在所述摄像装置的镜头中的移动范围包括:所述目标物品的第一预设特征点在所述扫描图像中的第一坐标与所述自定义取景框的第二预设特征点的第二坐标的距离,其中,所述目标物品在所述扫描图像中的图像包括矩形图像,所述第一预设特征点包括所述矩形图像的四个顶点,所述自定义取景框包括矩形框,所述第二预设特征点包括所述矩形框的四个顶点。
在一个可选的实施方式中,所述基于所述目标检测模型确定所述目标物品在所述摄像装置的镜头中的移动范围包括:利用所述目标检测模型确定所述第一坐标,所述第一坐标包括:所述矩形图像的左上角的坐标p1、所述矩形图像的右上角的坐标p2、所述矩形图像的右下角的坐标p3、所述矩形图像的左下角的坐标p4;获取所述第二坐标,所述第二坐标包括:所述矩形框的左上角的坐标q1、所述矩形框的右上角的坐标q2、所述矩形框的右下角的坐标q3、所述矩形框的左下角的坐标q4;计算所述第一坐标与所述第二坐标的距离mi,将所述距离mi作为所述移动范围,其中mi=|pi-qi|,i=1,2,3,4。
具体地,例如图3所示,为本申请实施例提供的移动范围的第一示例图。可以首先将虚线框表示的所述自定义取景框的左下角设置为坐标原点建立坐标系,即将q4设置为(0,0),之后根据所述自定义取景框的分辨率设置q1和q3,例如,所述自定义取景框的分辨率为1580×1000,那么q1为(0,1000),q3为(1580,0),从而可以得到q2为(1580,1000)。同样的,可以基于如图3所示的坐标系得到实线框表示的目标物品的所述第一坐标。举例而言,p4为(30,40),那么长度单位为px(像素)。
需要说明的是,所述目标检测模型对所述扫描图像进行目标检测时,是对所述扫描图像的自定义取景框内的图像进行目标检测,由于所述自定义取景框内的范围大于所述目标物品的图像的范围,所以可以直接由所述目标检测模型检测得到所述目标物品的第一预设特征点,从而得到所述第一坐标。此外,所述目标检测模型还可以检测得到所述目标物品的边,并使用预设的颜色框(例如,黄色框)将所述目标物品的边标注并展示在所述显示屏幕中。
在一个可选的实施例中,当摄像装置的拍摄位置差异使得目标物品在扫描图像中产生畸变时,所述目标物品在所述扫描图像中的图像还包括不规则的四边形图像,所述第一预设特征点包括所述四边形图像的四个顶点,所述第一坐标包括顺时针的所述四边形图像的四个顶点的坐标。例如图4所示,为本申请实施例提供的移动范围的第二示例图,其中实线四边形表示所述目标物品的四边形图像。
所述选择模块204,用于当确定所述移动范围小于预设的误差时,选择所述摄像装置对所述目标物品进行连续抓拍后的多帧抓拍的图像。
在一个可选的实施例中,所述预设的误差可以为30px(像素)。当所述移动范围小于预设的误差时,可以将此位置进行拍摄的图像作为取景最佳图像,进行连续抓拍,从而在较小的抖动范围内获得多张较佳图像。
举例而言,可以在确定所述移动范围小于预设的误差后的第2秒开始抓拍,每隔两张选一张图像,共选择3张图像。
所述判断模块205,用于对所述选择的每帧图像进行清晰度计算,将所述清晰度的值最大的图像作为所述目标物品的清晰图像。
在一个可选的实施方式中,所述对所选择的每帧图像进行清晰度计算包括:基于Laplacian算子,用3×3的卷积核对所选择的每帧图像进行卷积,将获得的方差作为所述清晰度,其中,所述Laplacian算子为:{0,1,0,1,-4,1,0,1,0}。具体地,可以使用OPENCV程序中的cv2.Laplacian(image,cv2.CV_64F).var()函数得到所述每帧图像(image)的清晰度。
在一个可选的实施方式中,Laplacian算子是用来衡量图像清晰度的二阶导,能够强调图像中密度快速变化的区域,Laplacian算子对越清晰的图像进行模糊检测得到的方差越大。
在一个可选的实施方式中,本申请实施例提供的基于目标检测与多帧判断的模糊判断优化方案,可以用于在例如手机等前端的对卡证清晰图像的获取。首先利用自定义取景框获得待检测物品的扫描图像,利用MobileNetV3-SSD目标检测模型判断所述扫描图像中的待检测物品是否为目标物品,之后获取并限制摄像装置的移动范围,在较小的移动范围内对目标物品进行连续抓拍,对获得的多张图像进行清晰度检测,将清晰度最高的图像作为目标物品的清晰图像。可以提高目标物品检测的准确度和效率,有效减少由于摄像装置晃动产生的图像模糊的概率,通过多帧图像的方案提高摄像装置对焦的准确性,还可以提高模糊判断的精准度与用户的体验度和拍摄效率。
实施例三
本实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述图像获取方法实施例中的步骤,例如图1所示的S11-S15:
S11,获取摄像装置对待检测物品进行扫描时的扫描图像。
S12,将所述扫描图像输入预先训练的目标检测模型,利用所述目标检测模型输出置信度,所述置信度用于判断所述扫描图像中的待检测物品是否为目标物品。
S13,当所述置信度大于预设的置信度阈值时,确定所述待检测物品是所述目标物品,基于所述目标检测模型确定所述目标物品在所述摄像装置的镜头中的移动范围。
S14,当确定所述移动范围小于预设的误差时,选择所述摄像装置对所述目标物品进行连续抓拍后的多帧抓拍的图像。
S15,对所述选择的每帧图像进行清晰度计算,将所述清晰度的值最大的图像作为所述目标物品的清晰图像。
或者,该计算机程序被处理器执行时实现上述装置实施例中各模块/单元的功能,例如图5中的模块201-205:
所述获取模块201,用于获取摄像装置对待检测物品进行扫描时的扫描图像;所述检测模块202,用于将所述扫描图像输入预先训练的目标检测模型,利用所述目标检测模型输出所述扫描图像中的待检测物品是目标物品的置信度;所述计算模块203,用于当所述置信度大于预设的置信度阈值时,确定所述待检测物品是所述目标物品,基于所述目标检测模型确定所述目标物品在所述摄像装置的镜头中的移动范围;所述选择模块204,用于当确定所述移动范围小于预设的误差时,选择所述摄像装置对所述目标物品进行连续抓拍后的多帧抓拍的图像;所述判断模块205,用于对所选择的每帧图像进行清晰度计算,将所述清晰度的值最大的图像作为所述目标物品的清晰图像。
实施例四
参阅图6所示,为本发明实施例三提供的电子设备的结构示意图。在本发明较佳实施例中,所述电子设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
本领域技术人员应该了解,图6示出的电子设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述电子设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述电子设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述电子设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31中存储有计算机程序,所述计算机程序被所述至少一个处理器32执行时实现如所述的图像获取方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-OnlyMemory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一些实施例中,所述至少一个处理器32是所述电子设备3的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行电子设备3的各种功能和处理数据。例如,所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本发明实施例中所述的图像获取方法的全部或者部分步骤;或者实现图像获取装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述电子设备3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块、摄像装置等,在此不再赘述。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。说明书中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种图像获取方法,其特征在于,所述方法包括:
获取摄像装置对待检测物品进行扫描时的扫描图像;
将所述扫描图像输入预先训练的目标检测模型,利用所述目标检测模型输出置信度,所述置信度用于判断所述扫描图像中的待检测物品是否为目标物品;
当所述置信度大于预设的置信度阈值时,确定所述待检测物品是所述目标物品,基于所述目标检测模型确定所述目标物品在所述摄像装置的镜头中的移动范围;
当确定所述移动范围小于预设的误差时,选择所述摄像装置对所述目标物品进行连续抓拍后的多帧抓拍的图像;
对所述选择的每帧图像进行清晰度计算,将所述清晰度值最大的图像作为所述目标物品的清晰图像。
2.如权利要求1所述的图像获取方法,其特征在于,所述方法还包括:为所述摄像装置设置尺寸比例与所述目标物品的尺寸比例相同的自定义取景框,包括:将所述自定义取景框的内部区域设置为透明取景区域,将所述自定义取景框的外部区域设置为蒙版区域;
所述获取摄像装置对待检测物品进行扫描时的扫描图像包括:利用所述自定义取景框将所述待检测物品框选在内时,获取所述扫描图像。
3.如权利要求1所述的图像获取方法,其特征在于,所述预先训练的目标检测模型包括MobileNetV3-SSD目标检测模型;
对所述目标检测模型的训练过程包括:
获取数据集,所述数据集包括预设数量的所述目标物品的图像;
获取对所述数据集中的每张图像进行标注后的数据集,并将所述标注后的数据集按照预设的比例划分为训练集和测试集;
基于底层框架PaddleDetection以及主干网络MobileNetV3,利用所述训练集训练检测模型,其中,所述底层框架PaddleDetection包括SSD卷积神经网络;
基于所述测试集对所述检测模型进行测试,并根据所述测试的结果对所述检测模型的模型参数进行调整,直至所述检测模型的损失函数收敛至预设值,将所述损失函数收敛至预设值的检测模型作为所述目标检测模型。
4.如权利要求3所述的图像获取方法,其特征在于,所述模型参数包括:所述检测模型的每个卷积层的特征预测框的尺寸与所述目标物品在所述扫描图像中的图像的尺寸的比例Sk,其中,每个特征预测框的长宽比与所述目标物品的长宽比相同;
所述损失函数包括:类别损失的交叉熵损失函数与定位损失的Smoth-L1损失函数的加权之和。
5.如权利要求4所述的图像获取方法,其特征在于,所述目标检测模型的第k个卷积层对应的所述比例Sk为:Sk=Smin+(Smax-Smin)×(K-1)/5,其中,K取值为1时对应第4个卷积层,K取值为2时对应第7个卷积层,K取值为3时对应第8个卷积层,K取值为4时对应第9个卷积层,K取值为5时对应第10个卷积层,K取值为6时对应第11个卷积层,Smin=0.2,Smax=0.9。
6.如权利要求2所述的图像获取方法,其特征在于,所述目标物品在所述摄像装置的镜头中的移动范围包括:所述目标物品的第一预设特征点在所述扫描图像中的第一坐标与所述自定义取景框的第二预设特征点的第二坐标的距离,其中,所述目标物品在所述扫描图像中的图像包括矩形图像,所述第一预设特征点包括所述矩形图像的四个顶点,所述自定义取景框包括矩形框,所述第二预设特征点包括所述矩形框的四个顶点;
所述基于所述目标检测模型确定所述目标物品在所述摄像装置的镜头中的移动范围包括:
利用所述目标检测模型确定所述第一坐标,所述第一坐标包括:所述矩形图像的左上角的坐标p1、所述矩形图像的右上角的坐标p2、所述矩形图像的左下角的坐标p3、所述矩形图像的右下角的坐标p4;
获取所述第二坐标,所述第二坐标包括:所述矩形框的左上角的坐标q1、所述矩形框的右上角的坐标q2、所述矩形框的左下角的坐标q3、所述矩形框的右下角的坐标q4;
计算所述第一坐标与所述第二坐标的距离mi,将所述距离mi作为所述移动范围,其中mi=|pi-qi|,i=1,2,3,4。
7.如权利要求1所述的图像获取方法,其特征在于,所述对所述选择的每帧图像进行清晰度计算包括:
基于Laplacian算子,用3×3的卷积核对所选择的每帧图像进行卷积,将获得的方差作为所述清晰度,其中,所述Laplacian算子为:{0,1,0,1,-4,1,0,1,0}。
8.一种图像获取装置,其特征在于,所述装置包括获取模块、检测模块、计算模块、选择模块、判断模块:
所述获取模块,用于获取摄像装置对待检测物品进行扫描时的扫描图像;
所述检测模块,用于将所述扫描图像输入预先训练的目标检测模型,利用所述目标检测模型输出所述扫描图像中的待检测物品是目标物品的置信度;
所述计算模块,用于当所述置信度大于预设的置信度阈值时,确定所述待检测物品是所述目标物品,基于所述目标检测模型确定所述目标物品在所述摄像装置的镜头中的移动范围;
所述选择模块,用于当确定所述移动范围小于预设的误差时,选择所述摄像装置对所述目标物品进行连续抓拍后的多帧抓拍的图像;
所述判断模块,用于对所选择的每帧图像进行清晰度计算,将所述清晰度值最大的图像作为所述目标物品的清晰图像。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述的图像获取方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的图像获取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210689241.6A CN114972303B (zh) | 2022-06-16 | 2022-06-16 | 图像获取方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210689241.6A CN114972303B (zh) | 2022-06-16 | 2022-06-16 | 图像获取方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114972303A true CN114972303A (zh) | 2022-08-30 |
CN114972303B CN114972303B (zh) | 2024-07-23 |
Family
ID=82964182
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210689241.6A Active CN114972303B (zh) | 2022-06-16 | 2022-06-16 | 图像获取方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114972303B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103139480A (zh) * | 2013-02-28 | 2013-06-05 | 华为终端有限公司 | 一种图像采集方法及装置 |
CN108710885A (zh) * | 2018-03-29 | 2018-10-26 | 百度在线网络技术(北京)有限公司 | 目标对象的检测方法和装置 |
CN109409164A (zh) * | 2018-11-20 | 2019-03-01 | 普联技术有限公司 | 扫描图像显示调整方法、装置及电子设备 |
CN110059746A (zh) * | 2019-04-18 | 2019-07-26 | 达闼科技(北京)有限公司 | 一种创建目标检测模型的方法、电子设备及存储介质 |
CN110516739A (zh) * | 2019-08-27 | 2019-11-29 | 阿里巴巴集团控股有限公司 | 一种证件识别方法、装置及设备 |
CN110874577A (zh) * | 2019-11-15 | 2020-03-10 | 杭州东信北邮信息技术有限公司 | 一种基于深度学习的证件照的自动审核方法 |
CN111163261A (zh) * | 2019-12-25 | 2020-05-15 | 上海肇观电子科技有限公司 | 目标检测方法、电路、视障辅助设备、电子设备和介质 |
CN112333356A (zh) * | 2020-10-09 | 2021-02-05 | 支付宝实验室(新加坡)有限公司 | 一种证件图像采集方法、装置和设备 |
CN112418009A (zh) * | 2020-11-06 | 2021-02-26 | 中保车服科技服务股份有限公司 | 一种图像质量检测方法、终端设备及存储介质 |
WO2021189912A1 (zh) * | 2020-09-25 | 2021-09-30 | 平安科技(深圳)有限公司 | 图像中目标物的检测方法、装置、电子设备及存储介质 |
CN113869433A (zh) * | 2021-09-30 | 2021-12-31 | 广州大学 | 一种对混凝土损伤进行快速检测和分类的深度学习方法 |
-
2022
- 2022-06-16 CN CN202210689241.6A patent/CN114972303B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103139480A (zh) * | 2013-02-28 | 2013-06-05 | 华为终端有限公司 | 一种图像采集方法及装置 |
CN108710885A (zh) * | 2018-03-29 | 2018-10-26 | 百度在线网络技术(北京)有限公司 | 目标对象的检测方法和装置 |
CN109409164A (zh) * | 2018-11-20 | 2019-03-01 | 普联技术有限公司 | 扫描图像显示调整方法、装置及电子设备 |
CN110059746A (zh) * | 2019-04-18 | 2019-07-26 | 达闼科技(北京)有限公司 | 一种创建目标检测模型的方法、电子设备及存储介质 |
CN110516739A (zh) * | 2019-08-27 | 2019-11-29 | 阿里巴巴集团控股有限公司 | 一种证件识别方法、装置及设备 |
CN110874577A (zh) * | 2019-11-15 | 2020-03-10 | 杭州东信北邮信息技术有限公司 | 一种基于深度学习的证件照的自动审核方法 |
CN111163261A (zh) * | 2019-12-25 | 2020-05-15 | 上海肇观电子科技有限公司 | 目标检测方法、电路、视障辅助设备、电子设备和介质 |
WO2021189912A1 (zh) * | 2020-09-25 | 2021-09-30 | 平安科技(深圳)有限公司 | 图像中目标物的检测方法、装置、电子设备及存储介质 |
CN112333356A (zh) * | 2020-10-09 | 2021-02-05 | 支付宝实验室(新加坡)有限公司 | 一种证件图像采集方法、装置和设备 |
CN112418009A (zh) * | 2020-11-06 | 2021-02-26 | 中保车服科技服务股份有限公司 | 一种图像质量检测方法、终端设备及存储介质 |
CN113869433A (zh) * | 2021-09-30 | 2021-12-31 | 广州大学 | 一种对混凝土损伤进行快速检测和分类的深度学习方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114972303B (zh) | 2024-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111667520B (zh) | 红外图像和可见光图像的配准方法、装置及可读存储介质 | |
EP3499414A1 (en) | Lightweight 3d vision camera with intelligent segmentation engine for machine vision and auto identification | |
CN113362441B (zh) | 三维重建方法、装置、计算机设备和存储介质 | |
CN111695609A (zh) | 目标物损伤程度判定方法、装置、电子设备及存储介质 | |
CN111526342B (zh) | 图像处理方法、装置、摄像头、终端和存储介质 | |
CN113436338A (zh) | 火灾现场的三维重建方法、装置、服务器及可读存储介质 | |
CN114241338A (zh) | 基于影像识别的建筑物测量方法、装置、设备及存储介质 | |
CN114298902A (zh) | 一种图像对齐方法、装置、电子设备和存储介质 | |
WO2023284358A1 (zh) | 相机标定方法、装置、电子设备及存储介质 | |
CN115115552A (zh) | 图像矫正模型训练及图像矫正方法、装置和计算机设备 | |
CN109785439B (zh) | 人脸素描图像生成方法及相关产品 | |
CN115063473A (zh) | 物体高度的检测方法、装置、计算机设备、存储介质 | |
CN108769521B (zh) | 一种拍照方法、移动终端及计算机可读存储介质 | |
CN117253022A (zh) | 一种对象识别方法、装置及查验设备 | |
CN112862703A (zh) | 基于移动拍照的图像校正方法、装置、电子设备及介质 | |
CN115619783B (zh) | 产品加工缺陷的检测方法及装置、存储介质、终端 | |
CN114463685B (zh) | 行为识别方法、装置、电子设备及存储介质 | |
CN114972303A (zh) | 图像获取方法、装置、电子设备及存储介质 | |
CN113887384B (zh) | 基于多轨迹融合的行人轨迹分析方法、装置、设备及介质 | |
CN115564828A (zh) | 基于模糊度算法的机器视觉定位方法及系统 | |
CN115514887A (zh) | 视频采集的控制方法、装置、计算机设备和存储介质 | |
CN113792671A (zh) | 人脸合成图像的检测方法、装置、电子设备及介质 | |
CN115862089B (zh) | 基于人脸识别的安防监控方法、装置、设备及介质 | |
CN116433769B (zh) | 空间校准方法、装置、电子设备和存储介质 | |
CN115509351B (zh) | 一种感官联动情景式数码相框交互方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |