CN112686812B - 银行卡倾斜矫正检测方法、装置、可读存储介质和终端 - Google Patents

银行卡倾斜矫正检测方法、装置、可读存储介质和终端 Download PDF

Info

Publication number
CN112686812B
CN112686812B CN202011458177.8A CN202011458177A CN112686812B CN 112686812 B CN112686812 B CN 112686812B CN 202011458177 A CN202011458177 A CN 202011458177A CN 112686812 B CN112686812 B CN 112686812B
Authority
CN
China
Prior art keywords
certificate
area
vertexes
mask
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011458177.8A
Other languages
English (en)
Other versions
CN112686812A (zh
Inventor
王晓亮
陈建良
田丰
王丹丹
吴昌宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GRG Banking Equipment Co Ltd
Original Assignee
GRG Banking Equipment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GRG Banking Equipment Co Ltd filed Critical GRG Banking Equipment Co Ltd
Priority to CN202011458177.8A priority Critical patent/CN112686812B/zh
Priority to PCT/CN2020/141443 priority patent/WO2022121039A1/zh
Publication of CN112686812A publication Critical patent/CN112686812A/zh
Application granted granted Critical
Publication of CN112686812B publication Critical patent/CN112686812B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/243Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/162Quantising the image signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18067Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by mapping characteristic values of the pattern into a parameter space, e.g. Hough transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提供了一种银行卡倾斜矫正检测方法、装置、可读存储介质和终端,通过银行卡倾斜矫正技术(Bankcard Tilt Correction,BTC)结合深度学习技术和传统的图像处理方法,将二者的优点充分融合,针对种类繁多、场景复杂的用户输入图像,可以得到高准确率、高鲁棒性的证件分割和矫正结果,为后续证件检测、分类和信息提取提供了基础,并提高了证件识别的应用范围,在安保、金融等领域可得到广泛应用。

Description

银行卡倾斜矫正检测方法、装置、可读存储介质和终端
技术领域
本发明涉及信息检测或智能视觉技术领域,具体涉及一种银行卡倾斜矫正检测方法、装置、可读存储介质和终端。
背景技术
对于证件图像识别,在安防、金融、企事业信息管理领域需要快速高效识别身份信息。早期的份证的信息大多需要人工录入,效率十分低下,而且长时间的识别过程也会使人眼疲劳,所以人工录入已经不适应于当今计算机等领域飞速发展的现状。
随着人工智能的兴起,图像识别技术逐步应用于安全、军事、医疗、智能交通等领域,人脸识别和指纹识别等技术越来越多的使用到公共安全、金融和航空航天等安全领域。在军事领域,图像识别主要应用于目标的侦查和识别,通过自动化的图像识别技术来进行敌方目标的识别并进行打击;在医疗领域,通过图像识别技术可以进行各类医学图像分析和诊断,一方面可以大大降低医疗的成本,另一方面也有助于提高医疗质量和效率;在交通领域不仅可以进行车牌识别,同时也可以应用到前沿的自动驾驶领域,实现对道路、车辆和行人的清晰识别,提高生活的便利并且降低人们出行成本。虽然已出现了自动识别或自动提取证件信息的技术,然而对于复杂场景,如证件在视觉内未对准、光照不均、外光场干扰、杂物覆盖等,导致证件轮廓与图像背景边界模糊,不利于证件边界的精确提取,从而导致证件号码检测效率降低或失败。为此也出现了一些解决方案如下。
传统方法:采用边缘检测算法,应用边缘检测算子定位证件边缘,应用边缘点直线拟合确定证件边缘直线与边缘直线交点信息从而确定证件偏转角度,对证件进行旋转,再应用图像处理方法检测证件号码位置,准确检测证件边缘点是该方法的核心步骤,而边缘检测算子对图像背景复杂程度要求较高,若图像背景前景区域梯度变化小,或背景区域存在大量边缘信息情况下,将导致证件边缘点检测失败,从而无法实现证件号码的检测。
深度学习方法:该方法在模型训练阶段应用大量标注数据对深度网络进行训练,拟合网络参数,实现OCR(Optical Character Recognition,光学字符识别)检测算法的建模,在模型预测阶段,将整张图像作为网络的输入,通过网络前向推理实现字符区域的检测。该方法为目前较为流行的字符检测方法,而对于证件号码检测任务,该方法存在如下缺陷(1)非证件区域图像也参加了网络推理过程,一方面浪费了计算资源,另一方面对于非证件区域存在做的字符存在误检测需要额外增加处理逻辑进行剔除;(2)该方案计算资源消耗较大,相比本提案训练和推理时间长;(3)因神经网络的不可解释行,该方法定位的字符区域边框存无法精确定位字符最小外接矩形框,甚至会切掉部分字符区域,即传统的证件图像光学识别(OCR)技术主要面向高清扫描的图像,该方法要求识别的图像拥有干净的背景、使用规范的印刷体并具有较高的分辨率。但是,自然场景中存在文本背景噪声大、文本分布不规范和自然光源影响等问题,OCR技术在实际自然场景中检测率并不理想,针对证件等证件识别给后面步骤的字符识别带来压力。
此外,虽然AI技术已经应用于各行各业,利用智能终端设备辅助银行卡等证件拍摄技术已经非常成熟和普及,能够满足部分结合实际应用场景的需求,然而,以金融领域的银行卡检测识别场景,在拍照过程中存在着大量操作不当导致银行卡发生形变,致使识别精度下降且效率降低的情况。
基于以上情况,银行卡(再如身份证、工作证等)的智能检测中,不能根据实际应用场景的变化和复杂程度做出快速准确高效的响应,即实际应用场景的多样化和复杂化给现代证件、如银行卡的检测识别提出了更高的要求。
发明内容
为了克服现有技术的不足,本发明的目的在于提供一种银行卡倾斜矫正检测方法、装置、可读存储介质和终端,其能解决上述问题。
设计原理:提出银行卡倾斜矫正技术(Bankcard Tilt Correction,BTC),BTC结合深度学习技术和传统的图像处理方法,将二者的优点充分融合,针对种类繁多、场景复杂的用户输入图像,可以得到高准确率、高鲁棒性的证件分割和矫正结果。
一种复杂背景下银行卡倾斜矫正检测方法,方法包括以下步骤:
第一步,模型训练:对原始数据进行标注数据并生成标签,根据生成的标注文件统计证件大小,利用原始数据和标注文件对分割模型进行训练;
第二步,证件初检,对于通过图像采集单元输入的图片利用深度学习模型寻找相应的潜在证件区域,得到一个初步且粗糙的证件区域掩膜;
第三步,标准化,对第一步获得的粗糙掩膜进行精细化修正,得到高质量的证件区域掩膜,利用该掩膜在原图中提取证件区域,对于得到的证件照进行仿射矫正变换,将其变换为预设定的证件照尺寸,输出矫正证件图片。
进一步的,第一步的模型训练包括以下步骤:
S11确定证件区域,通过人工标注寻找原始数据的图片中证件区域;
S12顶点标注生成标签,对证件区域内的证件四个顶点进行标注,并将顶点的坐标位置以json文件的方式进行保存生成标签;
S13统计证件大小,根据生成的标注文件,统计每个证件区域的面积大小s,以为后续测试阶段服务;
S14训练分割模型,利用原始数据和生成的标注文件对分割模型进行训练。
进一步的,在步骤S14中,输入图片和相应的标注文件具有相同的尺寸;且在训练前将json文件转换为对应的0-1二值掩膜图,其中像素为1的区域代表证件区域,像素为0的区域代表背景区域。
进一步的,第二步的证件初检包括以下步骤:
S21提取特征,输入图片后,将图片缩放为适合分割网络的输入图片大小,再用Unet网络模型对于输入数据提取深度特征,得到特征图;
S22计算概率,对于特征图中的每个位置的特征进行二分类判断,求得每个位置的特征属于证件区域的概率值,得到属于证件区域的概率分布图;
S23阈值截断,根据预先设定的阈值将概率分布图进行二值化,将大于阈值的概率设置为1,小于阈值的概率设置为0,获得0-1掩膜图;
S24粗分割掩膜,将0-1掩膜图上采样至与原始输入图片同样大小的尺寸,得到一张初步的证件粗分割掩膜图;
S25合法区域筛选,统计粗分割掩膜图中每个孤立的证件区域面积a,如果a≤μ-3σ,则认为该区域a为非法区域,从粗分割掩膜中剔除,以此通过合法区域筛选将部分错误区域进行过滤。
进一步的,在第三步标准化中,对第一步经筛选后的掩膜图中的合法区域进行精细化掩膜修正,包括以下步骤:
S31提取区域轮廓特征,轮廓特征是一张二值掩膜图,整体是一条闭合的不规则曲线,二值掩膜图不改变证件照矩形凸集的性质;
S32求取轮廓凸包,在原始轮廓的基础上求取该轮廓的最小凸包,将部分分割缺失的区域进行填补,同时使轮廓边缘平滑;
S33直线拟合,使用霍夫变换对凸包的多个线段组成的不规则凸多边形进行直线拟合,以对凸包进行描述;
S34求取顶点,对直线拟合中的所有合法直线读取两两求取交点,以此寻找证件照四个顶点的分布范围,并且在求取顶点的过程中,对于两条直线平行的情况不做考虑;
S35顶点合法筛选,设置筛选条件对于顶点进行合法性检查,筛选条件中设置了容忍值tol,横坐标[0-tol,width+tol]及纵坐标[0-tol,height+tol]定义为合法顶点坐标,其中width,height代表原始图像的宽度和高度,若某顶点的坐标超出了原始图像尺寸而没有超过tol,则将该顶点坐标(xcrosspoint,ycrosspoint)纠正到原始图像边缘处,即:
S36顶点聚类,对比标准银行卡存在四个顶点,根据已求得的所有合法顶点,通过无监督聚类算法K-means将所有顶点聚为四类,其中每一类的质心即为某一个顶点的坐标,共得到四个顶点坐标;
S37顶点排序,为方便后续操作,通过以下步骤确定四个顶点的排序:1)根据四个顶点坐标求取中心点坐标;2)以中心点建立极坐标系,并构造从中心点指向各顶点的向量,依次求出各向量与极轴的夹角;3)按照夹角的大小由大到小的顺序对四个顶点进行排序;4)寻找证件区域的左上角点,以最小坐标值之和的顶点为左上顶点,并以左上顶点为起点重新排列坐标顺序,按照“左上-右上-右下-左下”的顺序进行排列;
S38区域填充,在找到并按顺序排列顶点坐标之后,将四个顶点构成的四边形区域进行二值填充,形成一个二进制掩膜;
S39仿射变换输出矫正图片,对重新确定四个顶点的证件区域,根据预先设定的目标证件照大小对证件区域进行仿射变换,Ioutput=WIinput,其中,W为证件区域与目标证件大小之间的仿射变换矩阵;以此,对每一个证件区域都进行相应的修正操作,并将修正后得到的证件图片作为矫正图片输出并保存到指定的文件路径处。
进一步的,在步骤S33中,通过霍夫变换对凸包进行直线拟合的最小检测直线长度设置为100,直线之间最大间隔设置为20。
进一步的,在步骤S36中,K-means的具体算法为:
1)随机选取4个聚类质心点μ0、μ1、μ2、μ3
2)对于每一个顶点坐标(xi,yi),通过计算与每个聚类质心的欧氏距离,找到最小距离的质心点作为其对应的质心点并标注为对应类别j:
其中,||(xi,yi)-μj||2,j=0,1,2,3为计算质心点j与类别j所有顶点之间欧几里得范数;为调整质心点,使得四个质心点的欧几里得范数和最小;
3)重新计算4个质心的坐标;
4)重复2)和3)过程直到收敛。
本发明还提供了一种证件检测装置,装置包括电讯连接的获取输入单元、图像处理单元、信息提取单元、和信息输出单元;其中,获取输入单元,通过摄像组件获取待检测证件的检测图片及标准的注册图片;图像处理单元,通过处理器中的深度学习算法和图像处理算法对输入图片进行处理,依次获得初步的粗糙的证件区域掩膜、证件区域精修的掩膜、扣取的原图区域和仿射变换矫正后的矫正图像;信息提取单元,通过处理器中的信息提取算法将矫正图像的类别和信息;信息输出单元,处理器将输入图片提取的类别和信息结果在显示器上显示并存储至存储器。
本发明还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行前述方法的步骤。
本发明还提供了一种终端,包括存储器和处理器,所述存储器上储存有注册图片和能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行前述方法的步骤。
相比现有技术,本发明的有益效果在于:通过本申请的银行卡倾斜矫正技术(Bankcard Tilt Correction,BTC)结合深度学习技术和传统的图像处理方法,将二者的优点充分融合,针对种类繁多、场景复杂的用户输入图像,可以得到高准确率、高鲁棒性的证件分割和矫正结果,为后续证件检测、分类和信息提取提供了基础,并提高了证件识别的应用范围,在安保、金融等领域可得到广泛应用。
附图说明
图1为本发明复杂背景下银行卡倾斜矫正检测方法的流程图;
图2为模型训练简图;
图3为BTC测试阶段流程简图;
图4为证件初检的方法流程图;
图5为证件图像标准化的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
第一实施例
一种复杂背景下银行卡倾斜矫正检测方法,参见图1-图5,方法包括以下步骤。
第一步,模型训练:对原始数据进行标注数据并生成标签,根据生成的标注文件统计证件大小,利用原始数据和标注文件对分割模型进行训练。
第二步,证件初检,对于通过图像采集单元输入的图片利用深度学习模型寻找相应的潜在证件区域,得到一个初步且粗糙的证件区域掩膜。
第三步,标准化,对第一步获得的粗糙掩膜进行精细化修正,得到高质量的证件区域掩膜,利用该掩膜在原图中提取证件区域,对于得到的证件照进行仿射矫正变换,将其变换为预设定的证件照尺寸,输出矫正证件图片。
模型训练
BTC借助于深度学习的强大特征抽取能力,因此在正式使用前需要进行相关模型的训练操作。参见图2,对于一批待训练的原始数据,首先通过人工标注的方法找到图片中银行卡等证件的区域。具体来说,对于图片中的每一张证件,都将该证件的四个顶点进行标注,并将顶点的坐标位置以json文件的方式进行保存。接下来,根据生成的标注文件,统计每个证件区域的面积大小s,这旨在为后续测试阶段服务。经实例验证,原始数据中的证件照面积大小符合高斯分布,即:s~N(μ,σ2)。
通过统计每个证件区域的面积,计算得到高斯分布的均值μ和标准差σ。
最后,利用原始数据和生成的标注文件对分割模型进行训练。值得注意的是,在具体的训练中,需要保持输入的图片和相应的标注文件具有相同的尺寸。因此,还需要将标注得到的json文件转换为对应的0-1二值掩膜图,其中像素为1的区域代表证件区域,像素为0的区域代表背景区域。
具体的,第一步的模型训练步骤如下。
S11确定证件区域,通过人工标注寻找原始数据的图片中证件区域。
S12顶点标注生成标签,对证件区域内的证件四个顶点进行标注,并将顶点的坐标位置以json文件的方式进行保存生成标签。
JSON(JavaScript Object Notation)是一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成。它基于JavaScript Programming Language,Standard ECMA-262 3rd Edition-December 1999的一个子集。JSON是一个标记符的序列,包含六个构造字符、字符串、数字和三个字面名。正因此,可以很好地匹配应用到本方案的坐标标注。
S13统计证件大小,根据生成的标注文件,统计每个证件区域的面积大小s,以为后续测试阶段服务。
S14训练分割模型,利用原始数据和生成的标注文件对分割模型进行训练。
至此,BTC的训练流程实施完毕。
检测阶段
检测阶段分为证件初检和标准化。BTC是一个两阶段的、由粗到细的分割优化模型(two-stage and coarse-to-fine refinement segmentation)。如图3所示,在第一阶段,对于输入图片利用深度学习模型寻找相应的潜在证件区域,得到一个初步的、较为粗糙的证件区域掩膜;在第二阶段,利用传统的图像处理技术,对第一阶段的粗糙掩膜进行精细化修正,得到高质量的证件区域掩膜,利用该掩膜在原图中提取证件照,最后对于得到的证件照进行仿射矫正变换,将其变换为预设定的证件照尺寸。
第一阶段,证件初检。在第一阶段中,寻找证件区域这一目标主要由提取特征、计算概率、阈值截断这几个子操作完成,最终得到一个初步的粗分割掩膜。如图4所示,在用户输入图片后,将其缩放为适合分割网络的输入图片大小,之后采用经典的Unet网络模型对于输入数据提取深度特征;接着对于特征图中的每个位置的特征进行二分类判断,求得每个位置的特征属于证件区域的概率值,至此,得到了一张属于证件区域的概率分布图;接下来根据预先设定的阈值将这张概率分布图进行二值化操作,将大于阈值的概率设置为1,小于阈值的概率设置为0,然后将这张0-1掩膜图上采样至与原始输入同样大小的尺寸。至此第一阶段操作完毕,得到一张初步的证件分割掩膜图。证件初检具体步骤如下。
S21提取特征,输入图片后,将图片缩放为适合分割网络的输入图片大小,再用Unet网络模型对于输入数据提取深度特征,得到特征图。
S22计算概率,对于特征图中的每个位置的特征进行二分类判断,求得每个位置的特征属于证件区域的概率值,得到属于证件区域的概率分布图。
S23阈值截断,根据预先设定的阈值将概率分布图进行二值化,将大于阈值的概率设置为1,小于阈值的概率设置为0,获得0-1掩膜图。
S24粗分割掩膜,将0-1掩膜图上采样至与原始输入图片同样大小的尺寸,得到一张初步的证件粗分割掩膜图。
S25合法区域筛选,统计粗分割掩膜图中每个孤立的证件区域面积a,如果a≤μ-3σ,则认为该区域a为非法区域,从粗分割掩膜中剔除,以此通过合法区域筛选将部分错误区域进行过滤。
其中,Unet网络模型,属于分割网络,Unet借鉴了FCN网络,其网络结构包括两个对称部分:前面一部分网络与普通卷积网络相同,使用了3x3的卷积和池化下采样,能够抓住图像中的上下文信息(也即像素间的关系);后面部分网络则是与前面基本对称,使用的是3x3卷积和上采样,以达到输出图像分割的目的。此外,网络中还用到了特征融合,将前面部分下采样网络的特征与后面上采样部分的特征进行了融合以获得更准确的上下文信息,达到更好的分割效果。且,Unet使用了加权的softmax损失函数,对于每一个像素点都有自己的权重,这使得网络更加重视边缘像素的学习。采用这种模型更适应于证件边缘非直线的微小凹凸变化。
第二阶段,标准化。在第一阶段的基础上,进行第二阶段的精细化掩膜修正(refinement)。如图5所示,对于第一阶段得到的掩膜图中的所有合法区域,都要逐一进行修正处理。在第二步标准化中,对于每一个合法证件区域,即对第一步经筛选后的掩膜图中的合法区域进行精细化掩膜修正,参见图5,包括以下步骤。
S31提取区域轮廓特征,轮廓特征是一张二值掩膜图,整体是一条闭合的不规则曲线,二值掩膜图不改变证件照矩形凸集的性质。
在进行接下来的操作时,首先引入一条性质以保证以下操作的合法性。
性质定义:凸集经过仿射变换作用后仍为凸集。证件照的良好性质之一在于其为规则矩形形状,是一种标准的凸集集合,无论该凸集在采集阶段经过怎样的仿射变换,均不能改变其凸集的性质。
S32求取轮廓凸包,在原始轮廓的基础上求取该轮廓的最小凸包,将部分分割缺失的区域进行填补,同时使轮廓边缘平滑。
由于上一步的轮廓提取完全依赖于分割模型的结果,在某些不平滑的边缘处凹凸不平,这与证件照的性质不吻合。故在原始轮廓的基础上求取该轮廓的最小凸包,将部分分割缺失的区域进行填补,同时使轮廓边缘更加平滑。
S33直线拟合,使用霍夫变换对凸包的多个线段组成的不规则凸多边形进行直线拟合,以对凸包进行描述。具体实施例中,在步骤S33中,通过霍夫变换对凸包进行直线拟合的最小检测直线长度设置为100,直线之间最大间隔设置为20。
其中,霍夫变换是一种特征检测(feature extraction),被广泛应用在图像分析(image analysis)、计算机视觉(computer vision)以及数位影像处理(digital imageprocessing),霍夫变换是用来辨别找出物件中的特征,例如:线条。本方案即用其来精确地解析定义的证件边缘直线。
S34求取顶点,对直线拟合中的所有合法直线读取两两求取交点,以此寻找证件照四个顶点的分布范围,具体的,S33中所有检测得到的合法直线,均可以得到直线的解析式表达。针对所有的合法直线,读其两两求取交点,这一步操作旨在于寻找证件照四个顶点的分布范围。并且在求取顶点的过程中,对于两条直线平行的情况不做考虑。
S35顶点合法筛选,在所有得到的顶点中,并非所有顶点都是合法的,因此,设置了筛选条件对于顶点进行合法性检查,为后续步骤提高了准确率和处理速度。具体的,设置筛选条件对于顶点进行合法性检查,筛选条件中设置了容忍值tol,横坐标[0-tol,width+tol],纵坐标[0-tol,height+tol]定义为合法顶点坐标,其中width、height代表原始图像的宽度和高度,具体实施例中,容忍值tol设为50。且,若某顶点的坐标超出了原始图像尺寸而没有超过tol,则将该顶点坐标(xcrosspoint,ycrosspoint)纠正到原始图像边缘处,即:
其中,min(xcrosspoint,width)将xcrosspoint最大值不能超过原始图片width,max(min(xcrosspoint,width),0)最小值不能小于0;
同理,min(ycrosspoint,height)将ycrosspoint最大值不能超过原始图片height,max(min(ycorsspoint,height),0)最小值不能小于0。
S36顶点聚类,对比标准银行卡存在四个顶点,根据已求得的所有合法顶点,通过无监督聚类算法K-means将所有顶点聚为四类,其中每一类的质心即为某一个顶点的坐标,共得到四个顶点坐标。
其中,K-means的具体算法为:
1)随机选取4个聚类质心点μ0,μ1,μ2,μ3
2)对于每一个顶点坐标(xi,yi),通过计算与每个聚类质心的欧氏距离,找到最小距离的质心点作为其对应的质心点并标注为对应类别j:
其中,||(xi,yi)-μj||2,j=0,1,2,3为计算质心点j与类别j所有顶点之间欧几里得范数;为调整质心点,使得四个质心点的欧几里得范数和最小。
3)重新计算4个质心的坐标;
4)重复2)和3)过程直到收敛。
其中,K-means是最常用的基于欧式距离的聚类算法,它是数值的、非监督的、非确定的、迭代的,该算法旨在最小化一个目标函数——误差平方函数(所有的观测点与其中心点的距离之和),其认为两个目标的距离越近,相似度越大,由于具有出色的速度和良好的可扩展性,Kmeans聚类算法算得上是最著名的聚类方法。
S37顶点排序,为方便后续操作,通过以下步骤确定四个顶点的排序:
1)根据四个顶点坐标求取中心点坐标;
2)以中心点建立极坐标系,并构造从中心点指向各顶点的向量,依次求出各向量与极轴的夹角;
3)按照夹角的大小由大到小的顺序对四个顶点进行排序;
4)寻找证件区域的左上角点,并从左上角点开始,按照“左上-右上-右下-左下”的顺序进行排列。
其中,在步骤S37的步骤4)中,左上的坐标点坐标值之和最小,并以最小坐标值之和的顶点为左上顶点,并以此为起点重新排列坐标顺序,以确定四个顶点的顺序。
S38区域填充,在找到并按顺序排列顶点坐标之后,将四个顶点构成的四边形区域进行二值填充,形成一个二进制掩膜。
S39仿射变换输出矫正图片,对重新确定四个顶点的证件区域,根据预先设定的目标证件照大小对证件区域进行仿射变换,Ioutput=WIinput,其中,W为证件区域与目标证件大小之间的仿射变换矩阵;以此,对每一个证件区域都进行相应的修正操作,并将修正后得到的证件图片作为矫正图片输出并保存到指定的文件路径处。
至此,对于每一个证件区域都可以进行相应的修正操作,并将修正后得到的证件图片保存到指定的文件路径处,至此,银行卡倾斜矫正的全部流程处理完毕。
第二实施例
本发明还提供了一种证件检测装置,所述装置包括电讯连接的获取输入单元、图像处理单元、信息提取单元、和信息输出单元。
获取输入单元,通过摄像组件获取待检测证件的检测图片及标准的注册图片;获取单元利用硬件设备,包括但不限于手机,IPAD,普通摄像头,CCD工业相机、扫描仪等,对证件正面进行图像信息采集,注意采集到的图像应完全的包含证件的四条边界,并且倾斜不超过正负20°,且人眼能分辨证件号码和边缘直线。
图像处理单元,通过处理器中的深度学习算法和图像处理算法对输入图片进行处理,依次获得初步的粗糙的证件区域掩膜、证件区域精修的掩膜、扣取的原图区域和仿射变换矫正后的矫正图像。
其中的采集的图像,是通过摄像头采集的图像,可以是一张静态图像(即:单独采集的图像),也可以是一张视频中图像(即从采集的视频中按照预设标准或随机选取的一张图像),均可用于本发明证件的图像源,本发明实施例对于图像的来源、性质、大小等等所有属性均无限制。
信息提取单元,通过处理器中的信息提取算法将矫正图像的类别和信息。
信息输出单元,处理器将输入图片提取的类别和信息结果在显示器上显示并存储至存储器。其中,显示器包括但不限于平板电脑、计算机、手机等的显示屏,将处理器提取的证件对比分类显示。
本领域技术人员基于本公开实施例的记载可以知悉,除了神经网络外,在本公开实施例还可以利用例如但不限于:基于图像处理的字符检测算法(例如,基于直方图粗分割和奇异值特征的字符/号码检测算法,基于二进小波变换的字符/号码检测算法,等等),对采集图像进行字符检测。另外,除了神经网络外,在本公开实施例也可以利用例如但不限于:基于图像处理的证件检测算法(例如,边缘检测法,数学形态学法,基于纹理分析的定位方法,行检测和边缘统计法,遗传算法,霍夫(Hough)变换和轮廓线法,基于小波变换的方法,等等),对采集图像进行证件检测。
本公开实施例中,通过神经网络对采集图像进行边缘检测时,可以预先利用样本图像对神经网络进行训练,使得训练好的神经网络能够实现对图像中边缘直线的有效检测。
第三实施例
本发明还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行前述方法的步骤。其中,所述方法请参见前述部分的详细介绍,此处不再赘述。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于计算机可读存储介质中,计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
第四实施例
本发明还提供了一种终端,包括存储器和处理器,所述存储器上储存有注册图片和能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行前述方法的步骤。其中,所述方法请参见前述部分的详细介绍,此处不再赘述。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、装置、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.复杂背景下银行卡倾斜矫正检测方法,其特征在于,方法包括以下步骤:
第一步,模型训练:对原始数据进行标注数据并生成标签,根据生成的标注文件统计证件大小,利用原始数据和标注文件对分割模型进行训练;
第二步,证件初检,对于通过图像采集单元输入的图片利用深度学习模型寻找相应的潜在证件区域,得到一个初步且粗糙的证件区域掩膜;第二步的证件初检包括以下步骤:
S21提取特征,输入图片后,将图片缩放为适合分割网络的输入图片大小,再用Unet网络模型对于输入数据提取深度特征,得到特征图;
S22计算概率,对于特征图中的每个位置的特征进行二分类判断,求得每个位置的特征属于证件区域的概率值,得到属于证件区域的概率分布图;
S23阈值截断,根据预先设定的阈值将概率分布图进行二值化,将大于阈值的概率设置为1,小于阈值的概率设置为0,获得0-1掩膜图;
S24粗分割掩膜,将0-1掩膜图上采样至与原始输入图片同样大小的尺寸,得到一张初步的证件粗分割掩膜图;
S25合法区域筛选,在训练阶段对银行卡的面积进行统计,计算训练集中的分布函数,得到平均值μ和标准差σ,统计粗分割掩膜图中每个孤立的证件区域面积a,如果a≤μ-3σ,则认为面积a所在的证件区域为非法区域,从粗分割掩膜中剔除,以此通过合法区域筛选将部分错误区域进行过滤;
第三步,标准化,对第一步获得的粗糙掩膜进行精细化修正,得到高质量的证件区域掩膜,利用该掩膜在原图中提取证件区域,对于得到的证件照进行仿射矫正变换,将其变换为预设定的证件照尺寸,输出矫正证件图片。
2.根据权利要求1所述的方法,其特征在于,第一步的模型训练包括以下步骤:
S11确定证件区域,通过人工标注寻找原始数据的图片中证件区域;
S12顶点标注生成标签,对证件区域内的证件四个顶点进行标注,并将顶点的坐标位置以json文件的方式进行保存生成标签;
S13统计证件大小,根据生成的标注文件,统计每个证件区域的面积大小s,以为后续测试阶段服务;
S14训练分割模型,利用原始数据和生成的标注文件对分割模型进行训练。
3.根据权利要求2所述的方法,其特征在于:在步骤S14中,输入图片和相应的标注文件具有相同的尺寸;且在训练前将json文件转换为对应的0-1二值掩膜图,其中像素为1的区域代表证件区域,像素为0的区域代表背景区域。
4.根据权利要求1所述的方法,其特征在于,在第三步标准化中,对第一步经筛选后的掩膜图中的合法区域进行精细化掩膜修正,包括以下步骤:
S31提取区域轮廓特征,轮廓特征是一张二值掩膜图,整体是一条闭合的不规则曲线,二值掩膜图不改变证件照矩形凸集的性质;
S32求取轮廓凸包,在原始轮廓的基础上求取该轮廓的最小凸包,将部分分割缺失的区域进行填补,同时使轮廓边缘平滑;
S33直线拟合,使用霍夫变换对凸包的多个线段组成的不规则凸多边形进行直线拟合,以对凸包进行描述;
S34求取顶点,对直线拟合中的所有合法直线读取两两求取交点,以此寻找证件照四个顶点的分布范围,并且在求取顶点的过程中,对于两条直线平行的情况不做考虑;
S35顶点合法筛选,设置筛选条件对于顶点进行合法性检查,筛选条件中设置了容忍值tol,横坐标[0-tol,width+tol]及纵坐标[0-tol,height+tol]定义为合法顶点坐标,其中width,height代表原始图像的宽度和高度,若某顶点的坐标(xcrosspoint,ycrosspoint)超出了原始图像尺寸而没有超过tol,则将该顶点坐标纠正到原始图像边缘处,即:
其中,
min(xcrosspoint,width)将xcrosspoint最大值不能超过原始图片width,max(min(xcrosspoint,width),0)最小值不能小于0;
同理,min(ycrosspoint,height)将ycrosspoint最大值不能超过原始图片height,max(min(ycorsspoint,height),0)最小值不能小于0;
S36顶点聚类,对比标准银行卡存在四个顶点,根据已求得的所有合法顶点,通过无监督聚类算法K-means将所有顶点聚为四类,其中每一类的质心即为某一个顶点的坐标,共得到四个顶点坐标;
S37顶点排序,为方便后续操作,通过以下步骤确定四个顶点的排序:1)根据四个顶点坐标求取中心点坐标;2)以中心点建立极坐标系,并构造从中心点指向各顶点的向量,依次求出各向量与极轴的夹角;3)按照夹角的大小由大到小的顺序对四个顶点进行排序;4)寻找证件区域的左上角点,以最小坐标值之和的顶点为左上顶点,并以左上顶点为起点重新排列坐标顺序,按照“左上-右上-右下-左下”的顺序进行排列;
S38区域填充,在找到并按顺序排列顶点坐标之后,将四个顶点构成的四边形区域进行二值填充,形成一个二进制掩膜;
S39仿射变换输出矫正图片,对重新确定四个顶点的证件区域,根据预先设定的目标证件照大小对证件区域进行仿射变换,Ioutput=WIinput,其中,W为证件区域与目标证件大小之间的仿射变换矩阵;以此,对每一个证件区域都进行相应的修正操作,并将修正后得到的证件图片作为矫正图片输出并保存到指定的文件路径处。
5.根据权利要求4所述的方法,其特征在于:在步骤S33中,通过霍夫变换对凸包进行直线拟合的最小检测直线长度设置为100,直线之间最大间隔设置为20。
6.根据权利要求4所述的方法,其特征在于:在步骤S36中,K-means的具体算法为:
1)随机选取4个聚类质心点μ0123
2)对于每一个顶点坐标(xi,yi),通过计算与每个聚类质心的欧氏距离,找到最小距离的质心点作为其对应的质心点并标注为对应类别j:
argminj||(xi,yi)-μj||2,j=0,1,2,3;
其中,||(xi,yi)-μj||2,j=0,1,2,3为计算质心点j与类别j所有顶点之间欧几里得范数;argminj||(xi,yi)-μj||2,j=0,1,2,3为调整质心点,使得四个质心点的欧几里得范数和最小;
3)重新计算4个质心的坐标;
4)重复2)和3)过程直到收敛。
7.一种采用权利要求1-6任一项所述方法的证件检测装置,其特征在于:所述装置包括电讯连接的获取输入单元、图像处理单元、信息提取单元、和信息输出单元;其中,
获取输入单元,通过摄像组件获取待检测证件的检测图片及标准的注册图片;
图像处理单元,通过处理器中的深度学习算法和图像处理算法对输入图片进行处理,依次获得初步的粗糙的证件区域掩膜、证件区域精修的掩膜、扣取的原图区域和仿射变换矫正后的矫正图像;
信息提取单元,通过处理器中的信息提取算法将矫正图像的类别和信息;
信息输出单元,处理器将输入图片提取的类别和信息结果在显示器上显示并存储至存储器。
8.一种计算机可读存储介质,其上存储有计算机指令,其特征在于:所述计算机指令运行时执行权利要求1-6任一项所述方法的步骤。
9.一种终端,包括存储器和处理器,其特征在于:所述存储器上储存有注册图片和能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行权利要求1-6任一项所述方法的步骤。
CN202011458177.8A 2020-12-10 2020-12-10 银行卡倾斜矫正检测方法、装置、可读存储介质和终端 Active CN112686812B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011458177.8A CN112686812B (zh) 2020-12-10 2020-12-10 银行卡倾斜矫正检测方法、装置、可读存储介质和终端
PCT/CN2020/141443 WO2022121039A1 (zh) 2020-12-10 2020-12-30 银行卡倾斜矫正检测方法、装置、可读存储介质和终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011458177.8A CN112686812B (zh) 2020-12-10 2020-12-10 银行卡倾斜矫正检测方法、装置、可读存储介质和终端

Publications (2)

Publication Number Publication Date
CN112686812A CN112686812A (zh) 2021-04-20
CN112686812B true CN112686812B (zh) 2023-08-29

Family

ID=75449185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011458177.8A Active CN112686812B (zh) 2020-12-10 2020-12-10 银行卡倾斜矫正检测方法、装置、可读存储介质和终端

Country Status (2)

Country Link
CN (1) CN112686812B (zh)
WO (1) WO2022121039A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033543B (zh) * 2021-04-27 2024-04-05 中国平安人寿保险股份有限公司 曲形文本识别方法、装置、设备及介质
CN113344000A (zh) * 2021-06-29 2021-09-03 南京星云数字技术有限公司 证件翻拍识别方法、装置、计算机设备和存储介质
CN113870262B (zh) * 2021-12-02 2022-04-19 武汉飞恩微电子有限公司 基于图像处理的印刷电路板分类方法、装置及储存介质
CN114882489B (zh) * 2022-07-07 2022-12-16 浙江智慧视频安防创新中心有限公司 一种对旋转车牌进行水平校正方法、装置、设备及介质
CN115272206B (zh) * 2022-07-18 2023-07-04 深圳市医未医疗科技有限公司 医学图像处理方法、装置、计算机设备及存储介质
CN115457559B (zh) * 2022-08-19 2024-01-16 上海通办信息服务有限公司 一种将文本及证照类图片智能摆正的方法、装置和设备
CN117315664B (zh) * 2023-09-18 2024-04-02 山东博昂信息科技有限公司 一种基于图像序列的废钢斗号码识别方法
CN117095423B (zh) * 2023-10-20 2024-01-05 上海银行股份有限公司 一种银行单据字符的识别方法及装置
CN117409261B (zh) * 2023-12-14 2024-02-20 成都数之联科技股份有限公司 一种基于分类模型的元件角度分类方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108682015A (zh) * 2018-05-28 2018-10-19 科大讯飞股份有限公司 一种生物图像中的病灶分割方法、装置、设备及存储介质
CN110458161A (zh) * 2019-07-15 2019-11-15 天津大学 一种结合深度学习的移动机器人门牌定位方法
CN110866871A (zh) * 2019-11-15 2020-03-06 深圳市华云中盛科技股份有限公司 文本图像矫正方法、装置、计算机设备及存储介质
WO2020221298A1 (zh) * 2019-04-30 2020-11-05 北京金山云网络技术有限公司 文本检测模型训练方法、文本区域、内容确定方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6923362B2 (ja) * 2017-05-30 2021-08-18 株式会社Soken 操舵角決定装置、自動運転車
CN108537219A (zh) * 2018-03-20 2018-09-14 上海眼控科技股份有限公司 一种用于财务报表外框的智能检测方法及装置
CN111027564A (zh) * 2019-12-20 2020-04-17 长沙千视通智能科技有限公司 基于深度学习一体化的低照度成像车牌识别方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108682015A (zh) * 2018-05-28 2018-10-19 科大讯飞股份有限公司 一种生物图像中的病灶分割方法、装置、设备及存储介质
WO2020221298A1 (zh) * 2019-04-30 2020-11-05 北京金山云网络技术有限公司 文本检测模型训练方法、文本区域、内容确定方法和装置
CN110458161A (zh) * 2019-07-15 2019-11-15 天津大学 一种结合深度学习的移动机器人门牌定位方法
CN110866871A (zh) * 2019-11-15 2020-03-06 深圳市华云中盛科技股份有限公司 文本图像矫正方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
WO2022121039A1 (zh) 2022-06-16
CN112686812A (zh) 2021-04-20

Similar Documents

Publication Publication Date Title
CN112686812B (zh) 银行卡倾斜矫正检测方法、装置、可读存储介质和终端
CN110414507B (zh) 车牌识别方法、装置、计算机设备和存储介质
CN108334848B (zh) 一种基于生成对抗网络的微小人脸识别方法
Silva et al. A flexible approach for automatic license plate recognition in unconstrained scenarios
Zang et al. Vehicle license plate recognition using visual attention model and deep learning
CN101142584B (zh) 面部特征检测的方法
CN110298376B (zh) 一种基于改进b-cnn的银行票据图像分类方法
Nandi et al. Traffic sign detection based on color segmentation of obscure image candidates: a comprehensive study
Gill et al. A review paper on digital image forgery detection techniques
CN109948566B (zh) 一种基于权重融合与特征选择的双流人脸反欺诈检测方法
Türkyılmaz et al. License plate recognition system using artificial neural networks
CN108197644A (zh) 一种图像识别方法和装置
Xue et al. Arbitrarily-oriented text detection in low light natural scene images
Gawande et al. SIRA: Scale illumination rotation affine invariant mask R-CNN for pedestrian detection
CN110969164A (zh) 基于深度学习端对端的低照度成像车牌识别方法及装置
CN112686248B (zh) 证件增减类别检测方法、装置、可读存储介质和终端
WO2022121021A1 (zh) 一种身份证号码检测方法、装置、可读存储介质和终端
CN110910497B (zh) 实现增强现实地图的方法和系统
CN112348026A (zh) 一种基于机器视觉的磁性硬盘序列码识别方法
CN116503622A (zh) 基于计算机视觉图像的数据采集读取方法
Agarwal et al. The advent of deep learning-based image forgery detection techniques
Jain et al. Number plate detection using drone surveillance
CN113128500A (zh) 一种基于Mask-RCNN的非机动车车牌识别方法及系统
Abraham Digital image forgery detection approaches: A review and analysis
CN111626286A (zh) 一种快递面任意角度摆正快速识别的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant