CN111753783B - 手指遮挡图像检测方法、装置及介质 - Google Patents
手指遮挡图像检测方法、装置及介质 Download PDFInfo
- Publication number
- CN111753783B CN111753783B CN202010614796.5A CN202010614796A CN111753783B CN 111753783 B CN111753783 B CN 111753783B CN 202010614796 A CN202010614796 A CN 202010614796A CN 111753783 B CN111753783 B CN 111753783B
- Authority
- CN
- China
- Prior art keywords
- image
- occlusion
- training
- shielding
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 116
- 238000012549 training Methods 0.000 claims abstract description 283
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000003062 neural network model Methods 0.000 claims abstract description 30
- 208000006440 Open Bite Diseases 0.000 claims description 129
- 230000006870 function Effects 0.000 claims description 50
- 239000002131 composite material Substances 0.000 claims description 26
- 238000012545 processing Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/174—Segmentation; Edge detection involving the use of two or more images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/74—Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
- G06V40/11—Hand-related biometrics; Hand pose recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/64—Computer-aided capture of images, e.g. transfer from script file into camera, check of taken image quality, advice or proposal for image composition or decision on when to take image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
本公开是关于一种手指遮挡图像检测方法、装置及介质。包括:获取N张第一原始遮挡图像和M张第一无遮挡图像,基于第一原始遮挡图像和第一无遮挡图像,生成第一训练数据集;基于第一训练数据集对用于手指遮挡图像检测的神经网络模型进行第一训练;获取L张第二原始遮挡图像和K张第二无遮挡图像,基于第二原始遮挡图像和第二无遮挡图像,生成第二训练数据集;将完成所述第一训练的神经网络模型中的线性分类器替换为迭代训练模块,构成手指遮挡图像检测模型;基于第二训练数据集对手指遮挡图像检测模型进行第二训练;将待检测图像输入训练好的手指遮挡图像检测模型,以确定待检测图像是否为手指遮挡图像。该方法能够极大地减少误报风险。
Description
技术领域
本公开涉及相机控制领域,尤其涉及一种手指遮挡图像检测方法、装置及介质。
背景技术
在用户手持手机横向拍照时,由于拍摄习惯等原因,镜头边缘容易被手指遮挡,使得照片边缘有较小的遮挡区域。由于该类遮挡不易被即时察觉,用户通常不会重新拍摄,从而无法获得完美照片而留有遗憾。手指遮挡检测的任务是在拍照后即时判断该图像是否有被遮挡,并在检测到被遮挡图像后实时提示用户重新拍摄。
目前,手指遮挡检测可以采用下述方法进行:
(1)基于深度信息进行镜头遮挡判断。该方法有以下特性:需要预先知道背景区域的深度信息;具有深度传感器定时采集前景信息;采用传统特征,如直方图特征、差分特征等进行判断。因此,该方法会首先使用深度传感器提取深度信息,建立前景/背景深度特征,再通过建立前景背景差异模型判断有无遮挡情况。该方法存在下述缺点:低端的深度传感器会带来很大的深度数据噪声,引入很多不确定性;高端的深度传感器会导致成本增加;另外,由于效果存在一些局限,传统特征已经逐步处于偏辅助的地位。
(2)利用亮度摄像头信息进行镜头遮挡判断。该方法利用亮度传感器的信息,从镜头成像亮度的维度来判断是否存在镜头遮挡。该方法存在下述缺点:召回率很低,在遮挡范围很大时才会报警(遮挡面积约占照片面积1/5以上才会报警);在边界补光不足的时候会发生误报,例如在特定明暗区别明显的场景中,会频繁报警。
发明内容
为克服相关技术中存在的问题,本公开提供一种手指遮挡图像检测方法、装置及介质系统。
根据本公开实施例的第一方面,提供一种手指遮挡图像检测方法,所述方法包括:
获取N张第一原始遮挡图像和M张第一无遮挡图像,其中,N和M为正整数,且N<M,基于所述第一原始遮挡图像和所述第一无遮挡图像,生成第一训练数据集;
基于所述第一训练数据集对用于手指遮挡图像检测的神经网络模型进行第一训练;
获取L张第二原始遮挡图像和K张第二无遮挡图像,其中L和K为正整数,且L<K,基于所述第二原始遮挡图像和所述第二无遮挡图像,生成第二训练数据集,其中所述K张第二无遮挡图像包括的场景类型少于所述M张第一无遮挡图像包括的场景类型,且所述K张第二无遮挡图像包括易错场景类型;
将完成所述第一训练的所述神经网络模型中的线性分类器替换为迭代训练模块,构成手指遮挡图像检测模型,所述迭代训练模块用于基于所述第二训练数据集包括的图像场景特征和图像遮挡特征进行模型训练;
基于所述第二训练数据集对所述手指遮挡图像检测模型进行第二训练;
将待检测图像输入训练好的手指遮挡图像检测模型,以确定所述待检测图像是否为手指遮挡图像。
其中,所述基于所述第一原始遮挡图像和所述第一无遮挡图像生成第一训练数据集,包括:
基于所述第一原始遮挡图像和所述第一无遮挡图像,生成对每一张第一无遮挡图像进行遮挡后的合成遮挡图像,获取M张合成遮挡图像;
基于所述M张第一无遮挡图像和所述M张合成遮挡图像,生成第一训练数据集。
其中,所述基于所述第一原始遮挡图像和所述第一无遮挡图像,生成对每一张第一无遮挡图像进行遮挡后的合成遮挡图像,包括:
针对所述每一张第一无遮挡图像,从所述N张第一原始遮挡图像中选取一张第一原始遮挡图像;
基于选取的第一原始手指遮挡图像,获取所述选取的第一原始遮挡图像的遮挡位置局部图像;
基于所述第一无遮挡图像和所述遮挡位置局部图像,生成所述合成遮挡图像;
其中,所述基于选取的第一原始手指遮挡图像,获取所述选取的第一原始遮挡图像的遮挡位置局部图像,包括:
基于所述选取的第一原始手指遮挡图像,获取掩膜数据,所述掩膜数据指示手指在所述选取的第一原始手指遮挡图像中的位置;
基于所述选取的第一原始手指遮挡图像和所述掩膜数据,通过积分图算法,获取所述遮挡位置局部图像。
其中,所述基于所述第一无遮挡图像和所述遮挡位置局部图像,生成所述合成遮挡图像,包括:
将所述第一无遮挡图像和所述遮挡位置局部图像进行泊松编辑,生成所述合成遮挡图像。
其中,所述基于所述第二训练数据集对所述手指遮挡图像检测模型进行第二训练,包括:
基于所述第二训练数据集,获取图像场景特征数据和图像遮挡特征数据;
交替地基于所述图像场景特征数据和所述图像遮挡特征数据进行模型训练;
获取基于所述图像场景特征数据进行模型训练的第一损失函数和基于所述图像遮挡特征数据进行模型训练的第二损失函数;
当所述第一损失函数和所述第二损失函数收敛时,确定所述手指遮挡图像检测模型的训练完成。
其中,所述第一损失函数是基于所述图像场景特征数据获取的,所述第二损失函数是基于所述图像场景特征数据和所述图像遮挡特征数据获取的。
其中,所述交替地基于所述图像场景特征数据和所述图像遮挡特征数据进行模型训练,包括:
基于所述图像场景特征数据进行模型训练时,使所述手指遮挡图像检测模型的参数中基于所述图像遮挡特征数据的统计参数不变。
其中,所述M张第一无遮挡图像包括的图像场景类型大于所述K张第二无遮挡图像包括的图像场景类型。
根据本公开实施例的第二方面,提供一种手指遮挡图像检测装置,所述装置包括:
第一数据生成模块,被设置为获取N张第一原始遮挡图像和M张第一无遮挡图像,其中,N和M为正整数,且N<M,基于所述第一原始遮挡图像和所述第一无遮挡图像,生成第一训练数据集;
第一训练模块,被设置为基于所述第一训练数据集对用于手指遮挡图像检测的神经网络模型进行第一训练;
第二数据生成模块,被设置为获取L张第二原始遮挡图像和K张第二无遮挡图像,其中L和K为正整数,且L<K,基于所述第二原始遮挡图像和所述第二无遮挡图像,生成第二训练数据集,其中所述K张第二无遮挡图像包括的场景类型少于所述M张第一无遮挡图像包括的场景类型,且所述K张第二无遮挡图像包括易错场景类型;
迭代训练模块,被设置为替换完成所述第一训练的所述神经网络模型中的线性分类器,以构成手指遮挡图像检测模型,所述迭代训练模块用于基于所述第二训练数据集包括的图像场景特征和图像遮挡特征进行模型训练;
第二训练模块,被设置为基于所述第二训练数据集对所述手指遮挡图像检测模型进行第二训练;
检测模块,被设置为使用训练好的手指遮挡图像检测模型,以确定所述待检测图像是否为手指遮挡图像。
其中,所述第一数据生成模块还被设置为:
基于所述第一原始遮挡图像和所述第一无遮挡图像,生成对每一张第一无遮挡图像进行遮挡后的合成遮挡图像,获取M张合成遮挡图像;
基于所述M张第一无遮挡图像和所述M张合成遮挡图像,生成第一训练数据集。
其中,所述第一数据生成模块还被设置为:
针对所述每一张第一无遮挡图像,从所述N张第一原始遮挡图像中选取一张第一原始遮挡图像;
基于选取的第一原始手指遮挡图像,获取所述选取的第一原始遮挡图像的遮挡位置局部图像;
基于所述第一无遮挡图像和所述遮挡位置局部图像,生成所述合成遮挡图像;
其中,所述第一数据生成模块还被设置为:
基于所述选取的第一原始手指遮挡图像,获取掩膜数据,所述掩膜数据指示手指在所述选取的第一原始手指遮挡图像中的位置;
基于所述选取的第一原始手指遮挡图像和所述掩膜数据,通过积分图算法,获取所述遮挡位置局部图像。
其中,所述第一数据生成模块还被设置为:
将所述第一无遮挡图像和所述遮挡位置局部图像进行泊松编辑,生成所述合成遮挡图像。
其中,所述第二训练模块还被设置为:
基于所述第二训练数据集,获取图像场景特征数据和图像遮挡特征数据;
交替地基于所述图像场景特征数据和所述图像遮挡特征数据进行模型训练;
获取基于所述图像场景特征数据进行模型训练的第一损失函数和基于所述图像遮挡特征数据进行模型训练的第二损失函数;
当所述第一损失函数和所述第二损失函数收敛时,确定所述手指遮挡图像检测模型的训练完成。
其中,所述第一损失函数是基于所述图像场景特征数据获取的,所述第二损失函数是基于所述图像场景特征数据和所述图像遮挡特征数据获取的。
其中,所述第二训练模块还被设置为:
基于所述图像场景特征数据进行模型训练时,使所述手指遮挡图像检测模型的参数中基于所述图像遮挡特征数据的统计参数不变。
其中,所述M张第一无遮挡图像包括的图像场景类型大于所述K张第二无遮挡图像包括的图像场景类型。
根据本公开实施例的第三方面,提供一种手指遮挡图像检测装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取N张第一原始遮挡图像和M张第一无遮挡图像,其中,N和M为正整数,且N<M,基于所述第一原始遮挡图像和所述第一无遮挡图像,生成第一训练数据集;
基于所述第一训练数据集对用于手指遮挡图像检测的神经网络模型进行第一训练;
获取L张第二原始遮挡图像和K张第二无遮挡图像,其中L和K为正整数,且L<K,基于所述第二原始遮挡图像和所述第二无遮挡图像,生成第二训练数据集,其中所述K张第二无遮挡图像包括的场景类型少于所述M张第一无遮挡图像包括的场景类型,且所述K张第二无遮挡图像包括易错场景类型;
将完成所述第一训练的所述神经网络模型中的线性分类器替换为迭代训练模块,构成手指遮挡图像检测模型,所述迭代训练模块用于基于所述第二训练数据集包括的图像场景特征和图像遮挡特征进行模型训练;
基于所述第二训练数据集对所述手指遮挡图像检测模型进行第二训练;
将待检测图像输入训练好的手指遮挡图像检测模型,以确定所述待检测图像是否为手指遮挡图像。
根据本公开实施例的第四方面,提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由路由器的处理器执行时,能够执行一种手指遮挡图像检测方法,所述方法包括:
获取N张第一原始遮挡图像和M张第一无遮挡图像,其中,N和M为正整数,且N<M,基于所述第一原始遮挡图像和所述第一无遮挡图像,生成第一训练数据集;
基于所述第一训练数据集对用于手指遮挡图像检测的神经网络模型进行第一训练;
获取L张第二原始遮挡图像和K张第二无遮挡图像,其中L和K为正整数,且L<K,基于所述第二原始遮挡图像和所述第二无遮挡图像,生成第二训练数据集,其中所述K张第二无遮挡图像包括的场景类型少于所述M张第一无遮挡图像包括的场景类型,且所述K张第二无遮挡图像包括易错场景类型;
将完成所述第一训练的所述神经网络模型中的线性分类器替换为迭代训练模块,构成手指遮挡图像检测模型,所述迭代训练模块用于基于所述第二训练数据集包括的图像场景特征和图像遮挡特征进行模型训练;
基于所述第二训练数据集对所述手指遮挡图像检测模型进行第二训练;
将待检测图像输入训练好的手指遮挡图像检测模型,以确定所述待检测图像是否为手指遮挡图像。
在该方法中,对手指遮挡图像检测模型的训练包括两个阶段。第一个阶段的训练中,通过数据融合的方法,利用第一无遮挡图像和所述遮挡位置局部图像进行泊松编辑,合成出各场景不同遮挡情况的图像,利用合成的遮挡图像和原始无遮挡图像对手指遮挡图像检测模型进行训练。但是因为生成的遮挡图片没有考虑场景中的光照影响,导致合成的遮挡图片与真实情况并不完全相同,因此这一步是完成全场景分类边界的粗犷训练,保证模型对全场景的初步兼容性。第二个阶段的训练中,对用于手指遮挡图像检测模型的原始神经网络模型中的线性分类器进行替换,替换为迭代训练模块,由从多场景无遮挡图像和真实采集的有限场景的遮挡图像中提取出的图像场景特征和图像遮挡特征对迭代训练模块进行交替训练。该第二个阶段的训练是为了解决场景歧义、缺失代理的模型误报不可控的问题。这是因为,在检测手指遮挡时,生成数据与真实情况的差异会导致模型在某些易错场景中不稳定,分数值波动比较大;另外,采集的真实手指遮挡数据,考虑到成本问题,不会覆盖到所有易错场景(如海滩、火烧云天空等)。
采用本公开的上述两个阶段对手指遮挡图像检测模型进行训练,能够极大地减少误报风险,将误报率减少至0.4%%。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种手指遮挡图像检测方法的流程图。
图2是根据一示例性实施例示出的迭代训练模块的示意图。
图3是根据一示例性实施例示出的一种手指遮挡图像检测方法的流程图。
图4是根据一示例性实施例示出的一种手指遮挡图像检测装置的框图。
图5是根据一示例性实施例示出的一种装置的框图。
图6是根据一示例性实施例示出的一种装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在用户手持手机横向拍照时,镜头边缘容易被手指遮挡,使得照片边缘有较小的遮挡区域。由于该类遮挡不易被即时察觉,用户通常不会重新拍摄,从而无法获得完美照片而留有遗憾。手指遮挡检测的任务是在拍照后即时判断该图像是否有被遮挡,并在检测到被遮挡图像后实时提示用户重新拍摄。
目前的解决方法都存在一些缺点,例如,低端的深度传感器会带来很大的深度数据噪声,高端的深度传感器会导致成本增加;传统特征已经逐步处于偏辅助的地位;召回率很低,在遮挡范围很大时才会报警;在边界补光不足的时候会发生误报。
本公开提出了手指遮挡图像检测方法。在该方法中,对手指遮挡图像检测模型进行两步训练,先基于第一训练数据集对用于手指遮挡图像检测的神经网络模型进行第一阶段训练,在第一阶段训练完成后,将训练好的神经网络模型中的线性分类器替换为迭代训练模块,构成手指遮挡图像检测模型,然后基于第二训练数据集对手指遮挡图像检测模型进行第二阶段训练。在第二阶段训练完成后,即可利用该手指遮挡图像检测模型确定待检测图像是否为手指遮挡图像。
本公开的方法适用配置有相机的电子产品,例如手机、PAD、穿戴式设备等。
本公开提供了一种手指遮挡图像检测方法。图1是根据一示例性实施例示出的一种手指遮挡图像检测的流程图,包括以下步骤:
步骤101,获取N张第一原始遮挡图像和M张第一无遮挡图像,其中,N和M为正整数,且N<M,基于所述第一原始遮挡图像和所述第一无遮挡图像,生成第一训练数据集;
步骤102,基于所述第一训练数据集对用于手指遮挡图像检测的神经网络模型进行第一训练;
步骤103,获取L张第二原始遮挡图像和K张第二无遮挡图像,其中L和K为正整数,且L<K,基于所述第二原始遮挡图像和所述第二无遮挡图像,生成第二训练数据集,其中所述K张第二无遮挡图像包括的场景类型少于所述M张第一无遮挡图像包括的场景类型,且所述K张第二无遮挡图像包括易错场景类型;
步骤104,将完成所述第一训练的所述神经网络模型中的线性分类器替换为迭代训练模块,构成手指遮挡图像检测模型,所述迭代训练模块用于基于所述第二训练数据集包括的图像场景特征和图像遮挡特征进行模型训练;
步骤105,基于所述第二训练数据集对所述手指遮挡图像检测模型进行第二训练;
步骤106,将待检测图像输入训练好的手指遮挡图像检测模型,以确定所述待检测图像是否为手指遮挡图像。
在该方法中,对手指遮挡图像检测模型的训练包括两个阶段。第一个阶段的训练中,通过数据融合的方法,利用第一无遮挡图像和所述遮挡位置局部图像进行泊松编辑,合成出各场景不同遮挡情况的图像,利用合成的遮挡图像和原始无遮挡图像对手指遮挡图像检测模型进行训练。但是因为生成的遮挡图片没有考虑场景中的光照影响,导致合成的遮挡图片与真实情况并不完全相同,因此这一步是完成全场景分类边界的粗犷训练,保证模型对全场景的初步兼容性。第二个阶段的训练中,对用于手指遮挡图像检测模型的原始神经网络模型中的线性分类器进行替换,替换为迭代训练模块,由从多场景无遮挡图像和真实采集的有限场景的遮挡图像中提取出的图像场景特征和图像遮挡特征对迭代训练模块进行交替训练。该第二个阶段的训练是为了解决场景有歧义、场景缺失带来的模型误报不可控的问题。这是因为,在检测手指遮挡时,生成数据与真实情况的差异会导致模型在某些易错场景中不稳定,分数值波动比较大;另外,采集的真实手指遮挡数据,考虑到成本问题,不会覆盖到所有易错场景(如海滩、火烧云天空等)。
采用本公开的上述两个阶段对手指遮挡图像检测模型进行训练,能够极大地减少误报风险,将误报率减少至0.4%%。
在该方法中,进行第一个阶段训练和第二个阶段训练所采用的原始图像数据不同。这是因为,通过大量的实验发现,在第一个阶段训练中所用的全场景无遮挡图像需达千万张的数量,这些图像几乎包括所用的场景类型;而在第二个阶段训练中所用的多场景无遮挡图像为几十万张,且只需要包括一些场景类型即可,并且当包括的场景类型过多时,检测效果并不好。因此,为了保证第二个阶段训练中使用的多场景无遮挡图像的场景类型少于第一个阶段训练中使用的全场景无遮挡图像的场景类型,对于第一个阶段训练和第二个阶段训练采用不同的图像集。且第二个阶段训练中使用的无遮挡图像包括如上所述的易错场景类型,即如海滩、火烧云天空等这类在手指遮挡检测中特别容易判断出错的场景类型。
另外,在第一个阶段训练和第二个阶段训练中使用的遮挡图像数量都远小于无遮挡图像数量。例如,在第一个阶段训练中使用的真实遮挡图像数量约为一万多张,在第二个阶段训练中使用的真实遮挡图像数量约为几万张。因为真实遮挡图像的获取成本较大,这就大大降低了对模型进行训练的成本。另外,也大大降低了第一个阶段训练中人工标注遮挡位置所需的人工成本。
需要说明的是,在第一个阶段的训练中,是对用于进行手指遮挡图像检测的神经网络进行训练;在第二个阶段的训练中,对上述神经网络进行了结构上的调整,即将作为神经网络中最后一层的线性分类器替换为迭代训练模块后,再对其进行训练。迭代训练模块用于基于第二训练数据集包括的图像场景特征和图像遮挡特征进行模型训练。迭代训练模块的示意图如图2所示。
第一阶段训练中采用的损失函数综合考虑分类任务、特征度量任务、分割任务,其损失函数可以由本领域技术人员根据现有设计来实现,在此不再赘述。
由图2可以看出,该迭代训练模块包括:特征图提取子模块,用于从第二训练数据集中提取图像的特征图;特征分离子模块,用于将特征图中的图像场景特征和图像遮挡特征进行分离;第一池化子模块,用于针对图像场景特征求多个像素特征的平均值;第二池化子模块,用于针对图像遮挡特征求多个像素特征的平均值;合成子模块,用于将池化后的图像场景特征和图像遮挡特征进行合成;第一损失函数子模块,用于获取基于图像场景特征的损失函数;第二损失函数子模块,用于获取基于上述合成特征的损失函数。
对加入了上述迭代训练模块的手指遮挡图像检测模型进行训练时,分别使用图像场景特征和图像遮挡特征进行交替训练,当第一损失函数子模块和第二损失函数子模块得到的两个损失函数都收敛时,训练完成。
在可选实施方式中,所述基于所述第一原始遮挡图像和所述第一无遮挡图像生成第一训练数据集,包括:
基于所述第一原始遮挡图像和所述第一无遮挡图像,生成对每一张第一无遮挡图像进行遮挡后的合成遮挡图像,获取M张合成遮挡图像;
基于所述M张第一无遮挡图像和所述M张合成遮挡图像,生成第一训练数据集,生成第一训练数据集。
这里通过上述图像合成的方式,通过M张第一无遮挡图像生成M张合成遮挡图像,例如,仅通过一万多张的原始遮挡图像,就获取了几千万张的合成遮挡图像,极大的增加了可以用于训练的遮挡图像数量,降低了获取原始遮挡图像的成本。
在可选实施方式中,所述基于所述第一原始遮挡图像和所述第一无遮挡图像,生成对每一张第一无遮挡图像进行遮挡后的合成遮挡图像,包括:
针对所述每一张第一无遮挡图像,从所述N张第一原始遮挡图像中选取一张第一原始遮挡图像;
基于选取的第一原始手指遮挡图像,获取所述选取的第一原始遮挡图像的遮挡位置局部图像;
基于所述第一无遮挡图像和所述遮挡位置局部图像,生成所述合成遮挡图像;
利用每张无遮挡图像合成遮挡图像时,随机选取一张原始遮挡图像,并获取该选取的原始遮挡图像的遮挡位置局部图像。下面详细描述遮挡位置局部图像的获取方法。
在可选实施方式中,所述基于选取的第一原始手指遮挡图像,获取所述选取的第一原始遮挡图像的遮挡位置局部图像,包括:
基于所述选取的第一原始手指遮挡图像,获取掩膜数据,所述掩膜数据指示手指在所述选取的第一原始手指遮挡图像中的位置;
基于所述选取的第一原始手指遮挡图像和所述掩膜数据,通过积分图算法,获取所述遮挡位置局部图像。
对于每张原始手指遮挡图像,都由人工标注出其掩膜数据。掩膜数据包括:完全遮挡区域数据、半遮挡区域数据、无遮挡区域数据。其中完全遮挡区域的RGB数据设置为例如(0,0,0),无遮挡区域数据的RGB数据设置为例如(255,255,255),半遮挡区域的RGB数据设置为例如(255,0,0)(即体现为红色)。
将第一原始手指遮挡图像和遮挡位置局部图像通过积分图算法,获取遮挡位置局部图像。具体地,将掩膜图像(根据掩膜数据得到)沿X轴和Y轴方向的积分值图像,判断截取遮挡面积的大小,进而裁切对应遮挡位置。
在可选实施方式中,所述基于所述第一无遮挡图像和所述遮挡位置局部图像,生成所述合成遮挡图像,包括:
将所述第一无遮挡图像和所述遮挡位置局部图像进行泊松编辑,生成所述合成遮挡图像。
这里将第一无遮挡图像和遮挡位置局部图像合成为该第一无遮挡图像场景下的遮挡图像。为了使合成后的图像更自然,无明显的合成边界,通过泊松编辑的方法对上述两张图像进行合成,使两张图像的边界处实现无缝融合。即,使得合成遮挡图像更接近于真实拍摄的遮挡图像。
在可选实施方式中,所述基于所述第二训练数据集对所述手指遮挡图像检测模型进行第二训练,包括:
基于所述第二训练数据集,获取图像场景特征数据和图像遮挡特征数据;
交替地基于所述图像场景特征数据和所述图像遮挡特征数据进行模型训练;
获取基于所述图像场景特征数据进行模型训练的第一损失函数和基于所述图像遮挡特征数据进行模型训练的第二损失函数;
当所述第一损失函数和所述第二损失函数收敛时,确定所述手指遮挡图像检测模型的训练完成。
在该实施方式中,通过迭代训练模块实现场景特征融合的效果。通过模型训练的实验发现,有些场景即使加入训练,也不会改善该类型样本的精度,须加入增量特征来帮助这类样本分到正确的类别。因此,这里将提取的特征图包含的特征分成两部分:图像场景特征和图像遮挡特征,提取特征图中80%的特征数据作为图像场景特征数据,提取特征图中20%的特征数据作为图像遮挡特征数据。
结合图2所示的迭代训练模块,在对模型进行训练时,基于图像场景特征数据的训练和基于图像遮挡特征数据的训练是分别进行,并且交替进行的。当基于图像场景特征数据进行训练的第一损失函数和基于图像遮挡图中数据进行训练的第二损失函数收敛时,确定手指遮挡图像检测模型的训练完成。
在可选实施方式中,所述第一损失函数是基于所述图像场景特征数据获取的,所述第二损失函数是基于所述图像场景特征数据和所述图像遮挡特征数据获取的。
如图2所示,第一损失函数通过池化后的图像场景特征数据获得,第二损失函数通过池化后的图像场景特征数据和图像遮挡特征数据获得。
在可选实施方式中,所述交替地基于所述图像场景特征数据和所述图像遮挡特征数据进行模型训练,包括:
基于所述图像场景特征数据进行模型训练时,使所述手指遮挡图像检测模型的参数中基于所述图像遮挡特征数据的统计参数不变。
在该实施方式中,使基于所述图像遮挡特征数据的统计参数不变,是为了让特征具有显式的场景表达。即,使用保持图像遮挡特征数据的统计参数不变,用图像场景特征数据来训练模型的其他参数。
在可选实施方式中,所述M张第一无遮挡图像包括的图像场景类型大于所述K张第二无遮挡图像包括的图像场景类型。
通过大量实验发现,第二个阶段训练中所用的多场景无遮挡图像包括的场景类型过多时,检测效果并不好。因此,第二个阶段训练中无遮挡图像包括的场景类型少于第一个阶段训练中无遮挡图像包括的场景类型。
下面详细描述根据本公开的手指遮挡图像检测的具体实施例。其中,第一个阶段训练时采用的模型为卷积神经网络模型,第二个阶段训练时,对卷积神经网络模型中的线性分类器进行替换。如图3所示,该实施例包括下述步骤:
步骤301,获取五千万张全场景无遮挡图像,可以通过公用数据集获取,获取一万张原始遮挡图像,并获取针对这些原始遮挡图像的掩膜数据。
步骤302,针对每张无遮挡图像,随机选择一张原始遮挡图像,基于该原始遮挡图像和其掩膜数据,通过积分图算法,获取该原始遮挡图像的遮挡位置局部图像。
步骤303,将上述无遮挡图像和遮挡位置局部图像,通过泊松编辑,生成合成遮挡图像。
步骤304,基于五千万张无遮挡图像和五千万张合成遮挡图像,生成第一训练数据集,生成第一训练数据集,使用第一训练数据集对卷积神经网络模型进行训练。
步骤305,将上述训练完成后的卷积神经网络模型的最后一层线性分离器替换为如图2所示的迭代训练模块,构成最终的手指遮挡图像检测模型。
步骤306,获取五十万张多场景无遮挡图像和5万张真实采集的遮挡图像,生成第二训练数据集。
步骤307,基于上述无遮挡图像和遮挡图像,提取特征图,并针对特征图分离出图像场景特征和图像遮挡特征。
步骤308,交替地基于图像场景特征数据和图像遮挡特征数据进行模型训练。
步骤309,当第一损失函数和第二损失函数收敛时,确定手指遮挡图像检测模型的训练完成。
本公开还提供了一种手指遮挡图像检测装置,如图4所示,所述装置包括:
第一数据生成模块401,被设置为获取N张第一原始遮挡图像和M张第一无遮挡图像,其中,N和M为正整数,且N<M,基于所述第一原始遮挡图像和所述第一无遮挡图像,生成第一训练数据集;
第一训练模块402,被设置为基于所述第一训练数据集对用于手指遮挡图像检测的神经网络模型进行第一训练;
第二数据生成模块403,被设置为获取L张第二原始遮挡图像和K张第二无遮挡图像,其中L和K为正整数,且L<K,基于所述第二原始遮挡图像和所述第二无遮挡图像,生成第二训练数据集,其中所述K张第二无遮挡图像包括的场景类型少于所述M张第一无遮挡图像包括的场景类型,且所述K张第二无遮挡图像包括易错场景类型;
迭代训练模块404,被设置为替换完成所述第一训练的所述神经网络模型中的线性分类器,以构成手指遮挡图像检测模型,所述迭代训练模块用于基于所述第二训练数据集包括的图像场景特征和图像遮挡特征进行模型训练;
第二训练模块405,被设置为基于所述第二训练数据集对所述手指遮挡图像检测模型进行第二训练;
检测模块406,被设置为使用训练好的手指遮挡图像检测模型,以确定所述待检测图像是否为手指遮挡图像。
在可选实施方式中,所述第一数据生成模块401还被设置为:
基于所述第一原始遮挡图像和所述第一无遮挡图像,生成对每一张第一无遮挡图像进行遮挡后的合成遮挡图像,获取M张合成遮挡图像;
基于所述M张第一无遮挡图像和所述M张合成遮挡图像,生成第一训练数据集。
在可选实施方式中,所述第一数据生成模块401还被设置为:
针对所述每一张第一无遮挡图像,从所述N张第一原始遮挡图像中选取一张第一原始遮挡图像;
基于选取的第一原始手指遮挡图像,获取所述选取的第一原始遮挡图像的遮挡位置局部图像;
基于所述第一无遮挡图像和所述遮挡位置局部图像,生成所述合成遮挡图像;
在可选实施方式中,所述第一数据生成模块401还被设置为:
基于所述选取的第一原始手指遮挡图像,获取掩膜数据,所述掩膜数据指示手指在所述选取的第一原始手指遮挡图像中的位置;
基于所述选取的第一原始手指遮挡图像和所述掩膜数据,通过积分图算法,获取所述遮挡位置局部图像。
在可选实施方式中,所述第一数据生成模块401还被设置为:
将所述第一无遮挡图像和所述遮挡位置局部图像进行泊松编辑,生成所述合成遮挡图像。
在可选实施方式中,所述第二训练模块405还被设置为:
基于所述第二训练数据集,获取图像场景特征数据和图像遮挡特征数据;
交替地基于所述图像场景特征数据和所述图像遮挡特征数据进行模型训练;
获取基于所述图像场景特征数据进行模型训练的第一损失函数和基于所述图像遮挡特征数据进行模型训练的第二损失函数;
当所述第一损失函数和所述第二损失函数收敛时,确定所述手指遮挡图像检测模型的训练完成。
在可选实施方式中,所述第一损失函数是基于所述图像场景特征数据获取的,所述第二损失函数是基于所述图像场景特征数据和所述图像遮挡特征数据获取的。
在可选实施方式中,所述第二训练模块405还被设置为:
基于所述图像场景特征数据进行模型训练时,使所述手指遮挡图像检测模型的参数中基于所述图像遮挡特征数据的统计参数不变。
在可选实施方式中,所述M张第一无遮挡图像包括的图像场景类型大于所述K张第二无遮挡图像包括的图像场景类型。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
采用本公开的上述两个阶段对手指遮挡图像检测模型进行训练,能够极大地减少误报风险,将误报率减少至0.4%%。
图5是根据一示例性实施例示出的一种手指遮挡图像检测装置500的框图。
参照图5,装置500可以包括以下一个或多个组件:处理组件502,存储器504,电力组件506,多媒体组件508,音频组件510,输入/输出(I/O)的接口512,传感器组件514,以及通信组件516。
处理组件502通常控制装置500的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件502可以包括一个或多个模块,便于处理组件502和其他组件之间的交互。例如,处理组件502可以包括多媒体模块,以方便多媒体组件508和处理组件502之间的交互。
存储器504被配置为存储各种类型的数据以支持在设备500的操作。这些数据的示例包括用于在装置500上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件506为装置500的各种组件提供电力。电力组件506可以包括电源管理系统,一个或多个电源,及其他与为装置500生成、管理和分配电力相关联的组件。
多媒体组件508包括在所述装置500和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件508包括一个前置摄像头和/或后置摄像头。当设备500处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件510被配置为输出和/或输入音频信号。例如,音频组件510包括一个麦克风(MIC),当装置500处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中,音频组件510还包括一个扬声器,用于输出音频信号。
I/O接口512为处理组件502和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件514包括一个或多个传感器,用于为装置500提供各个方面的状态评估。例如,传感器组件514可以检测到设备500的打开/关闭状态,组件的相对定位,例如所述组件为装置500的显示器和小键盘,传感器组件514还可以检测装置500或装置500一个组件的位置改变,用户与装置500接触的存在或不存在,装置500方位或加速/减速和装置500的温度变化。传感器组件514可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件514还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件516被配置为便于装置500和其他设备之间有线或无线方式的通信。装置500可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件516还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器504,上述指令可由装置500的处理器520执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种手指遮挡图像检测方法,所述方法包括:获取N张第一原始遮挡图像和M张第一无遮挡图像,其中,N和M为正整数,且N<M,基于所述第一原始遮挡图像和所述第一无遮挡图像,生成第一训练数据集;基于所述第一训练数据集对用于手指遮挡图像检测的神经网络模型进行第一训练;获取L张第二原始遮挡图像和K张第二无遮挡图像,其中L和K为正整数,且L<K,基于所述第二原始遮挡图像和所述第二无遮挡图像,生成第二训练数据集,其中所述K张第二无遮挡图像包括的场景类型少于所述M张第一无遮挡图像包括的场景类型,且所述K张第二无遮挡图像包括易错场景类型;将完成所述第一训练的所述神经网络模型中的线性分类器替换为迭代训练模块,构成手指遮挡图像检测模型,所述迭代训练模块用于基于所述第二训练数据集包括的图像场景特征和图像遮挡特征进行模型训练;基于所述第二训练数据集对所述手指遮挡图像检测模型进行第二训练;将待检测图像输入训练好的手指遮挡图像检测模型,以确定所述待检测图像是否为手指遮挡图像。
图6是根据一示例性实施例示出的一种用于手指遮挡图像检测装置600的框图。例如,装置600可以被提供为一服务器。参照图6,装置600包括处理组件622,其进一步包括一个或多个处理器,以及由存储器632所代表的存储器资源,用于存储可由处理组件622的执行的指令,例如应用程序。存储器632中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件622被配置为执行指令,以执行上述方法:获取N张第一原始遮挡图像和M张第一无遮挡图像,其中,N和M为正整数,且N<M,基于所述第一原始遮挡图像和所述第一无遮挡图像,生成第一训练数据集;基于所述第一训练数据集对用于手指遮挡图像检测的神经网络模型进行第一训练;获取L张第二原始遮挡图像和K张第二无遮挡图像,其中L和K为正整数,且L<K,基于所述第二原始遮挡图像和所述第二无遮挡图像,生成第二训练数据集,其中所述K张第二无遮挡图像包括的场景类型少于所述M张第一无遮挡图像包括的场景类型,且所述K张第二无遮挡图像包括易错场景类型;将完成所述第一训练的所述神经网络模型中的线性分类器替换为迭代训练模块,构成手指遮挡图像检测模型,所述迭代训练模块用于基于所述第二训练数据集包括的图像场景特征和图像遮挡特征进行模型训练;基于所述第二训练数据集对所述手指遮挡图像检测模型进行第二训练;将待检测图像输入训练好的手指遮挡图像检测模型,以确定所述待检测图像是否为手指遮挡图像。
装置600还可以包括一个电源组件626被配置为执行装置600的电源管理,一个有线或无线网络接口650被配置为将装置600连接到网络,和一个输入输出(I/O)接口658。装置600可以操作基于存储在存储器632的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (20)
1.一种手指遮挡图像检测方法,其特征在于,所述方法包括:
获取N张第一原始遮挡图像和M张第一无遮挡图像,其中,N和M为正整数,且N<M,基于所述第一原始遮挡图像和所述第一无遮挡图像生成第一训练数据集;
基于所述第一训练数据集,对用于手指遮挡图像检测的神经网络模型进行第一训练;
获取L张第二原始遮挡图像和K张第二无遮挡图像,其中L和K为正整数,且L<K,基于所述第二原始遮挡图像和所述第二无遮挡图像生成第二训练数据集,其中所述K张第二无遮挡图像包括的场景类型少于所述M张第一无遮挡图像包括的场景类型,且所述K张第二无遮挡图像包括易错场景类型;
将完成所述第一训练的所述神经网络模型中的线性分类器替换为迭代训练模块,构成手指遮挡图像检测模型,所述迭代训练模块用于基于所述第二训练数据集包括的图像场景特征和图像遮挡特征进行模型训练;
基于所述第二训练数据集对所述手指遮挡图像检测模型进行第二训练;
将待检测图像输入训练好的手指遮挡图像检测模型,以确定所述待检测图像是否为手指遮挡图像。
2.如权利要求1所述的方法,其特征在于,所述基于所述第一原始遮挡图像和所述第一无遮挡图像生成第一训练数据集,包括:
基于所述第一原始遮挡图像和所述第一无遮挡图像,生成对每一张第一无遮挡图像进行遮挡后的合成遮挡图像,获取M张合成遮挡图像;
基于所述M张第一无遮挡图像和所述M张合成遮挡图像,生成第一训练数据集。
3.如权利要求2所述的方法,其特征在于,所述基于所述第一原始遮挡图像和所述第一无遮挡图像,生成对每一张第一无遮挡图像进行遮挡后的合成遮挡图像,包括:
针对所述每一张第一无遮挡图像,从所述N张第一原始遮挡图像中选取一张第一原始遮挡图像;
基于选取的第一原始手指遮挡图像,获取所述选取的第一原始遮挡图像的遮挡位置局部图像;
基于所述第一无遮挡图像和所述遮挡位置局部图像,生成所述合成遮挡图像。
4.如权利要求3所述的方法,其特征在于,所述基于选取的第一原始手指遮挡图像,获取所述选取的第一原始遮挡图像的遮挡位置局部图像,包括:
基于所述选取的第一原始手指遮挡图像,获取掩膜数据,所述掩膜数据指示手指在所述选取的第一原始手指遮挡图像中的位置;
基于所述选取的第一原始手指遮挡图像和所述掩膜数据,通过积分图算法,获取所述遮挡位置局部图像。
5.如权利要求3所述的方法,其特征在于,所述基于所述第一无遮挡图像和所述遮挡位置局部图像,生成所述合成遮挡图像,包括:
将所述第一无遮挡图像和所述遮挡位置局部图像进行泊松编辑,生成所述合成遮挡图像。
6.如权利要求1所述的方法,其特征在于,所述基于所述第二训练数据集对所述手指遮挡图像检测模型进行第二训练,包括:
基于所述第二训练数据集,获取图像场景特征数据和图像遮挡特征数据;
交替地基于所述图像场景特征数据和所述图像遮挡特征数据进行模型训练;
获取基于所述图像场景特征数据进行模型训练的第一损失函数和基于所述图像遮挡特征数据进行模型训练的第二损失函数;
当所述第一损失函数和所述第二损失函数收敛时,确定所述手指遮挡图像检测模型的训练完成。
7.如权利要求6所述的方法,其特征在于,所述第一损失函数是基于所述图像场景特征数据获取的,所述第二损失函数是基于所述图像场景特征数据和所述图像遮挡特征数据获取的。
8.如权利要求6所述的方法,其特征在于,所述交替地基于所述图像场景特征数据和所述图像遮挡特征数据进行模型训练,包括:
基于所述图像场景特征数据进行模型训练时,使所述手指遮挡图像检测模型的参数中基于所述图像遮挡特征数据的统计参数不变。
9.如权利要求1所述的方法,其特征在于,所述M张第一无遮挡图像包括的图像场景类型大于所述K张第二无遮挡图像包括的图像场景类型。
10.一种手指遮挡图像检测装置,其特征在于,所述装置包括:
第一数据生成模块,被设置为获取N张第一原始遮挡图像和M张第一无遮挡图像,其中,N和M为正整数,且N<M,基于所述第一原始遮挡图像和所述第一无遮挡图像,生成第一训练数据集;
第一训练模块,被设置为基于所述第一训练数据集对用于手指遮挡图像检测的神经网络模型进行第一训练;
第二数据生成模块,被设置为获取L张第二原始遮挡图像和K张第二无遮挡图像,其中L和K为正整数,且L<K,基于所述第二原始遮挡图像和所述第二无遮挡图像,生成第二训练数据集,其中所述K张第二无遮挡图像包括的场景类型少于所述M张第一无遮挡图像包括的场景类型,且所述K张第二无遮挡图像包括易错场景类型;
迭代训练模块,被设置为替换完成所述第一训练的所述神经网络模型中的线性分类器,以构成手指遮挡图像检测模型,所述迭代训练模块用于基于所述第二训练数据集包括的图像场景特征和图像遮挡特征进行模型训练;
第二训练模块,被设置为基于所述第二训练数据集对所述手指遮挡图像检测模型进行第二训练;
检测模块,被设置为使用训练好的手指遮挡图像检测模型,以确定待检测图像是否为手指遮挡图像。
11.如权利要求10所述的装置,其特征在于,所述第一数据生成模块还被设置为:
基于所述第一原始遮挡图像和所述第一无遮挡图像,生成对每一张第一无遮挡图像进行遮挡后的合成遮挡图像,获取M张合成遮挡图像;
基于所述M张第一无遮挡图像和所述M张合成遮挡图像,生成第一训练数据集。
12.如权利要求11所述的装置,其特征在于,所述第一数据生成模块还被设置为:
针对所述每一张第一无遮挡图像,从所述N张第一原始遮挡图像中选取一张第一原始遮挡图像;
基于选取的第一原始手指遮挡图像,获取所述选取的第一原始遮挡图像的遮挡位置局部图像;
基于所述第一无遮挡图像和所述遮挡位置局部图像,生成所述合成遮挡图像。
13.如权利要求12所述的装置,其特征在于,所述第一数据生成模块还被设置为:
基于所述选取的第一原始手指遮挡图像,获取掩膜数据,所述掩膜数据指示手指在所述选取的第一原始手指遮挡图像中的位置;
基于所述选取的第一原始手指遮挡图像和所述掩膜数据,通过积分图算法,获取所述遮挡位置局部图像。
14.如权利要求12所述的装置,其特征在于,所述第一数据生成模块还被设置为:
将所述第一无遮挡图像和所述遮挡位置局部图像进行泊松编辑,生成所述合成遮挡图像。
15.如权利要求10所述的装置,其特征在于,所述第二训练模块还被设置为:
基于所述第二训练数据集,获取图像场景特征数据和图像遮挡特征数据;
交替地基于所述图像场景特征数据和所述图像遮挡特征数据进行模型训练;
获取基于所述图像场景特征数据进行模型训练的第一损失函数和基于所述图像遮挡特征数据进行模型训练的第二损失函数;
当所述第一损失函数和所述第二损失函数收敛时,确定所述手指遮挡图像检测模型的训练完成。
16.如权利要求15所述的装置,其特征在于,所述第一损失函数是基于所述图像场景特征数据获取的,所述第二损失函数是基于所述图像场景特征数据和所述图像遮挡特征数据获取的。
17.如权利要求15所述的装置,其特征在于,所述第二训练模块还被设置为:
基于所述图像场景特征数据进行模型训练时,使所述手指遮挡图像检测模型的参数中基于所述图像遮挡特征数据的统计参数不变。
18.如权利要求10所述的装置,其特征在于,所述M张第一无遮挡图像包括的图像场景类型大于所述K张第二无遮挡图像包括的图像场景类型。
19.一种手指遮挡图像检测装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取N张第一原始遮挡图像和M张第一无遮挡图像,其中,N和M为正整数,且N<M,基于所述第一原始遮挡图像和所述第一无遮挡图像,生成第一训练数据集;
基于所述第一训练数据集对用于手指遮挡图像检测的神经网络模型进行第一训练;
获取L张第二原始遮挡图像和K张第二无遮挡图像,其中L和K为正整数,且L<K,基于所述第二原始遮挡图像和所述第二无遮挡图像,生成第二训练数据集,其中所述K张第二无遮挡图像包括的场景类型少于所述M张第一无遮挡图像包括的场景类型,且所述K张第二无遮挡图像包括易错场景类型;
将完成所述第一训练的所述神经网络模型中的线性分类器替换为迭代训练模块,构成手指遮挡图像检测模型,所述迭代训练模块用于基于所述第二训练数据集包括的图像场景特征和图像遮挡特征进行模型训练;
基于所述第二训练数据集对所述手指遮挡图像检测模型进行第二训练;
将待检测图像输入训练好的手指遮挡图像检测模型,以确定所述待检测图像是否为手指遮挡图像。
20.一种非临时性计算机可读存储介质,当所述存储介质中的指令由路由器的处理器执行时,能够执行一种手指遮挡图像检测方法,所述方法包括:
获取N张第一原始遮挡图像和M张第一无遮挡图像,其中,N和M为正整数,且N<M,基于所述第一原始遮挡图像和所述第一无遮挡图像,生成第一训练数据集;
基于所述第一训练数据集对用于手指遮挡图像检测的神经网络模型进行第一训练;
获取L张第二原始遮挡图像和K张第二无遮挡图像,其中L和K为正整数,且L<K,基于所述第二原始遮挡图像和所述第二无遮挡图像,生成第二训练数据集,其中所述K张第二无遮挡图像包括的场景类型少于所述M张第一无遮挡图像包括的场景类型,且所述K张第二无遮挡图像包括易错场景类型;
将完成所述第一训练的所述神经网络模型中的线性分类器替换为迭代训练模块,构成手指遮挡图像检测模型,所述迭代训练模块用于基于所述第二训练数据集包括的图像场景特征和图像遮挡特征进行模型训练;
基于所述第二训练数据集对所述手指遮挡图像检测模型进行第二训练;
将待检测图像输入训练好的手指遮挡图像检测模型,以确定所述待检测图像是否为手指遮挡图像。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010614796.5A CN111753783B (zh) | 2020-06-30 | 2020-06-30 | 手指遮挡图像检测方法、装置及介质 |
EP21165488.4A EP3933675B1 (en) | 2020-06-30 | 2021-03-29 | Method and apparatus for detecting finger occlusion image, and storage medium |
US17/217,825 US11551465B2 (en) | 2020-06-30 | 2021-03-30 | Method and apparatus for detecting finger occlusion image, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010614796.5A CN111753783B (zh) | 2020-06-30 | 2020-06-30 | 手指遮挡图像检测方法、装置及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111753783A CN111753783A (zh) | 2020-10-09 |
CN111753783B true CN111753783B (zh) | 2024-05-28 |
Family
ID=72676746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010614796.5A Active CN111753783B (zh) | 2020-06-30 | 2020-06-30 | 手指遮挡图像检测方法、装置及介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11551465B2 (zh) |
EP (1) | EP3933675B1 (zh) |
CN (1) | CN111753783B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11556848B2 (en) * | 2019-10-21 | 2023-01-17 | International Business Machines Corporation | Resolving conflicts between experts' intuition and data-driven artificial intelligence models |
CN112101312A (zh) * | 2020-11-16 | 2020-12-18 | 深圳市优必选科技股份有限公司 | 手部关键点的识别方法、装置、机器人和存储介质 |
US11683598B1 (en) * | 2022-02-24 | 2023-06-20 | Omnivision Technologies, Inc. | Image sensor with on-chip occlusion detection and methods thereof |
CN115909468B (zh) * | 2023-01-09 | 2023-06-06 | 广州佰锐网络科技有限公司 | 人脸五官遮挡检测方法、存储介质及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2816797A1 (en) * | 2013-06-19 | 2014-12-24 | BlackBerry Limited | Device for detecting a camera obstruction |
US10067509B1 (en) * | 2017-03-10 | 2018-09-04 | TuSimple | System and method for occluding contour detection |
CN109784349A (zh) * | 2018-12-25 | 2019-05-21 | 东软集团股份有限公司 | 图像目标检测模型建立方法、装置、存储介质及程序产品 |
CN109948525A (zh) * | 2019-03-18 | 2019-06-28 | Oppo广东移动通信有限公司 | 拍照处理方法、装置、移动终端以及存储介质 |
CN109951635A (zh) * | 2019-03-18 | 2019-06-28 | Oppo广东移动通信有限公司 | 拍照处理方法、装置、移动终端以及存储介质 |
CN111046956A (zh) * | 2019-12-13 | 2020-04-21 | 苏州科达科技股份有限公司 | 遮挡图像检测方法、装置、电子设备及存储介质 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004040712A (ja) * | 2002-07-08 | 2004-02-05 | Minolta Co Ltd | 撮像装置 |
JP4462305B2 (ja) * | 2007-08-17 | 2010-05-12 | ソニー株式会社 | 撮像装置、方法、およびプログラム |
JP5423287B2 (ja) * | 2009-09-29 | 2014-02-19 | リコーイメージング株式会社 | 撮像装置 |
KR101613529B1 (ko) * | 2009-10-07 | 2016-04-19 | 엘지이노텍 주식회사 | 카메라 모듈 |
JP4957850B2 (ja) * | 2010-02-04 | 2012-06-20 | カシオ計算機株式会社 | 撮像装置、警告方法、および、プログラム |
US8811663B2 (en) * | 2011-01-05 | 2014-08-19 | International Business Machines Corporation | Object detection in crowded scenes |
EP2912602A4 (en) * | 2012-10-23 | 2016-03-16 | Ishay Sivan | REAL-TIME IMAGE QUALITY EVALUATION |
US9373183B2 (en) * | 2012-11-15 | 2016-06-21 | Honeywell International Inc. | Removing an occlusion from an image |
US9055210B2 (en) * | 2013-06-19 | 2015-06-09 | Blackberry Limited | Device for detecting a camera obstruction |
CN105491289B (zh) * | 2015-12-08 | 2019-10-01 | 小米科技有限责任公司 | 防止拍照遮挡的方法及装置 |
US10366497B2 (en) * | 2016-06-10 | 2019-07-30 | Apple Inc. | Image/video editor with automatic occlusion detection and cropping |
CN107509059A (zh) | 2017-09-21 | 2017-12-22 | 江苏跃鑫科技有限公司 | 摄像机镜头遮挡检测方法 |
US10547801B2 (en) * | 2017-10-26 | 2020-01-28 | International Business Machines Corporation | Detecting an image obstruction |
US10303866B1 (en) * | 2018-06-03 | 2019-05-28 | Apple Inc. | Automatic retries for facial recognition |
CN109241977A (zh) | 2018-08-02 | 2019-01-18 | 江苏云光智慧信息科技有限公司 | 一种摄像机镜头遮挡检测方法 |
US11367305B2 (en) * | 2018-09-28 | 2022-06-21 | Apple Inc. | Obstruction detection during facial recognition processes |
US10818028B2 (en) * | 2018-12-17 | 2020-10-27 | Microsoft Technology Licensing, Llc | Detecting objects in crowds using geometric context |
US11410278B2 (en) * | 2020-06-24 | 2022-08-09 | Adobe Inc. | Automatic artifact removal in a digital image |
-
2020
- 2020-06-30 CN CN202010614796.5A patent/CN111753783B/zh active Active
-
2021
- 2021-03-29 EP EP21165488.4A patent/EP3933675B1/en active Active
- 2021-03-30 US US17/217,825 patent/US11551465B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2816797A1 (en) * | 2013-06-19 | 2014-12-24 | BlackBerry Limited | Device for detecting a camera obstruction |
US10067509B1 (en) * | 2017-03-10 | 2018-09-04 | TuSimple | System and method for occluding contour detection |
CN109784349A (zh) * | 2018-12-25 | 2019-05-21 | 东软集团股份有限公司 | 图像目标检测模型建立方法、装置、存储介质及程序产品 |
CN109948525A (zh) * | 2019-03-18 | 2019-06-28 | Oppo广东移动通信有限公司 | 拍照处理方法、装置、移动终端以及存储介质 |
CN109951635A (zh) * | 2019-03-18 | 2019-06-28 | Oppo广东移动通信有限公司 | 拍照处理方法、装置、移动终端以及存储介质 |
CN111046956A (zh) * | 2019-12-13 | 2020-04-21 | 苏州科达科技股份有限公司 | 遮挡图像检测方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
基于卷积神经网络的带遮蔽人脸识别;徐迅;陶俊;吴瑰;;江汉大学学报(自然科学版)(03);全文 * |
基于多层PCA特征融合的人脸遮挡检测;刘浩博;石跃祥;;湖南城市学院学报(自然科学版)(01);全文 * |
Also Published As
Publication number | Publication date |
---|---|
EP3933675A1 (en) | 2022-01-05 |
US20210406532A1 (en) | 2021-12-30 |
EP3933675B1 (en) | 2023-11-22 |
US11551465B2 (en) | 2023-01-10 |
CN111753783A (zh) | 2020-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753783B (zh) | 手指遮挡图像检测方法、装置及介质 | |
CN109753920B (zh) | 一种行人识别方法及装置 | |
EP3125135A1 (en) | Picture processing method and device | |
CN109948494B (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN107944447B (zh) | 图像分类方法及装置 | |
CN111553864B (zh) | 图像修复方法及装置、电子设备和存储介质 | |
CN109934275B (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN110569835B (zh) | 一种图像识别方法、装置和电子设备 | |
CN111523346B (zh) | 图像识别方法及装置、电子设备和存储介质 | |
CN110532956B (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN109784164B (zh) | 前景识别方法、装置、电子设备及存储介质 | |
JP7167244B2 (ja) | 遮蔽された画像の検出方法、装置、及び媒体 | |
US20220222831A1 (en) | Method for processing images and electronic device therefor | |
CN112927122A (zh) | 水印去除方法、装置及存储介质 | |
CN113032627A (zh) | 视频分类方法、装置、存储介质及终端设备 | |
CN110781842A (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN110929545A (zh) | 人脸图像的整理方法及装置 | |
CN111797746B (zh) | 人脸识别方法、装置及计算机可读存储介质 | |
CN111062407B (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN106469446B (zh) | 深度图像的分割方法和分割装置 | |
CN109271863B (zh) | 人脸活体检测方法及装置 | |
CN111507131B (zh) | 活体检测方法及装置、电子设备和存储介质 | |
CN113506324B (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN112989934B (zh) | 视频分析方法、装置及系统 | |
CN110874829B (zh) | 图像处理方法及装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |