CN112115748A - 证件图像识别方法、装置、终端及存储介质 - Google Patents

证件图像识别方法、装置、终端及存储介质 Download PDF

Info

Publication number
CN112115748A
CN112115748A CN201910543830.1A CN201910543830A CN112115748A CN 112115748 A CN112115748 A CN 112115748A CN 201910543830 A CN201910543830 A CN 201910543830A CN 112115748 A CN112115748 A CN 112115748A
Authority
CN
China
Prior art keywords
area
image
training sample
portrait
certificate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910543830.1A
Other languages
English (en)
Other versions
CN112115748B (zh
Inventor
唐嘉龙
彭梅英
鲁四喜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910543830.1A priority Critical patent/CN112115748B/zh
Publication of CN112115748A publication Critical patent/CN112115748A/zh
Application granted granted Critical
Publication of CN112115748B publication Critical patent/CN112115748B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种证件图像识别方法、装置、终端及存储介质,属于图像处理技术领域。方法包括:将OCR证件图像输入到第一图像识别模型中,输出目标人像区域,第一图像识别模型根据面积重合度训练得到;将OCR证件图像输入到第二图像识别模型中,输出目标证件号区域和目标有效期区域,第二图像识别模型根据长宽比及文本信息之间的相似度训练得到。本发明获取OCR证件图像,将该图像输入到第一图像识别模型和第二图像识别模型中,输出目标人像区域、目标证件号区域及目标有效期区域。由于模型并不是采用人工评测方式确定的,而是基于面积重合度、长宽比及文本信息确定的,因而所确定的模型更准确,基于该模型进行图像识别时,识别结果更准确。

Description

证件图像识别方法、装置、终端及存储介质
技术领域
本发明涉及图像处理领域,特别涉及一种证件图像识别方法、装置、终端及存储介质。
背景技术
在金融领域,当用户在虚拟银行开户时,虚拟银行系统需要对用户的身份进行验证,同时用户也需要对虚拟银行所开设账号的输入信息进行验证。在进行验证时,会对用户所用的证件(包括大陆身份证、香港身份证、港澳通行证等)进行OCR(Optical CharacterRecognition,光学字符识别)文字识别,得到OCR证件图像,并从OCR证件图像中识别出人像区域、证件号区域、有效期区域,进而基于所识别出的人像区域,与采集到的用户人像区域进行比对,实现对用户的身份的验证,并通过将所识别出的证件号区域和有效期区域展示给用户,实现对账户的输入信息的验证。上述验证过程中,证件图像识别的准确性,直接影响到用户的账户安全及用户体验效果,因此,如何对OCR证件图像进行识别,成为本领域人员较为关注的问题。
目前,相关技术在对OCR证件图像进行识别之前,采用人工方式对初始图像识别模型的识别结果进行评测,基于评测结果,对初始图像识别模型的模型参数进行优化,得到图像识别模型,进而基于所确定的图像识别模型,对OCR证件图像进行识别,得到人像区域、证件号区域和有效期区域。
然而,由于人工评测时用户的主观性较强,将影响到图像识别模型的评测结果及模型参数的优化过程,进一步影响所确定的图像识别模型的准确性,因此,基于该图像识别模型进行证件图像识别时,识别结果准确较差。
发明内容
为了解决相关技术的问题,本发明实施例提供了一种证件图像识别方法、装置、终端及存储介质。所述技术方案如下:
一方面,提供了一种证件图像识别方法,所述方法包括:
获取待识别的光学字符识别OCR证件图像,所述待识别的OCR证件图像通过对证件进行拍摄及OCR文字识别得到;
将所述待识别的OCR证件图像输入到第一图像识别模型中,输出目标人像区域,所述第一图像识别模型根据标注结果与输出结果之间的面积重合度训练得到,所述第一图像识别模型用于基于OCR证件图像,识别出人像区域,所述目标人像区域用于与采集到的用户人像区域进行比对,以实现身份的验证;
将所述待识别的OCR证件图像输入到第二图像识别模型中,输出目标证件号区域和目标有效期区域,所述第二图像识别模型根据输出结果的长宽比及标注结果与输出结果的文本信息之间的相似度训练得到,所述第二图像识别模型用于基于OCR证件图像,识别出证件号区域和有效期区域,所述目标证件号区域和所述目标有效期区域用于对输入信息进行验证。
另一方面,提供了一种证件图像识别装置,所述装置包括:
获取模块,用于获取待识别的光学字符识别OCR证件图像,所述待识别的OCR证件图像通过对证件进行拍摄及OCR文字识别得到;
第一输入输出模块,用于将所述待识别的OCR证件图像输入到第一图像识别模型中,输出目标人像区域,所述第一图像识别模型根据标注结果与输出结果之间的面积重合度训练得到,所述第一图像识别模型用于基于OCR证件图像,识别出人像区域,所述目标人像区域用于与采集到的用户人像区域进行比对,以实现身份的验证;
第二输入输出模块,用于将所述待识别的OCR证件图像输入到第二图像识别模型中,输出目标证件号区域和目标有效期区域,所述第二图像识别模型根据输出结果的长宽比及标注结果与输出结果的文本信息之间的相似度训练得到,所述第二图像识别模型用于基于OCR证件图像,识别出证件号区域和有效期区域,所述目标证件号区域和所述目标有效期区域用于对输入信息进行验证。
另一方面,提供了一种终端,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现证件图像识别方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现证件图像识别方法。
本发明实施例提供的技术方案带来的有益效果是:
获取OCR证件图像时,将该图像输入到第一图像识别模型和第二图像识别模型中,输出目标人像区域、目标证件号区域及目标有效期区域。由于模型并不是采用人工评测方式确定的,而是基于面积重合度、长宽比及文本信息确定的,因而所确定的模型更准确,基于该模型进行图像识别时,识别结果更准确。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种证件图像识别方法所涉及的实施环境;
图2是本发明实施例提供的一种确定第一图像识别模型的流程图;
图3是本发明实施例提供的一种身份证的示意图;
图4是本发明实施例提供的一种人像匹配过程的示意图;
图5是本发明实施例提供的一种确定第二图像识别模型的流程图;
图6是本发明实施例提供的一种证件号及有效期匹配过程的示意图;
图7是本发明实施例提供的一种证件图像识别方法流程图;
图8是本发明实施例提供的一种证件图像识别过程的示意图;
图9是本发明实施例提供的一种证件图像识别装置结构示意图;
图10示出了本发明一个示例性实施例提供的终端的结构框图;
图11是根据一示例性实施例示出的一种用于确定第一图像识别模型及第二图像识别模型的服务器。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
在执行本发明实施例之前,首先对本发明实施例涉及的名词进行解释。
OCR是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。
Vbank指虚拟银行(Virtual Bank)旨在为用户提供随时随地的移动银行服务,将立足于香港,服务大湾区,后期将辐射东南亚地区,为用户提供存、贷、汇等基础银行业务和基金、数字黄金等增值业务。
ground truth指的是机械学习的有监督学习中,数据是有标注的,以(x,t)的形式出现,其中x是输入数据,t是标注。正确的t标注是ground truth,错误的标记则不是。
请参考图1,其示出了本发明实施例提供的证件图像识别方法所涉及的实施环境,参见图1,该实施环境包括:终端101和服务器102。
其中,终端101可以为智能手机、平板电脑、笔记本电脑等,本发明实施例不对终端101的产品类型进行限定。该终端101中安装有第一图像识别模型和第二图像识别模型,该第一图像识别模型用于基于OCR证件图像,识别出人像区域;该第二图像识别模型用于基于OCR证件图像,识别出证件号区域和有效期区域。终端101配置有显示器及摄像头,该显示器用于显示从OCR证件图像中所识别出的证件号区域和有效期区域,并由用户对所显示的证件号和有效期进行验证;该摄像头用于拍摄用户的人脸图像,并将所拍摄的人脸图像发送至后台,由后台对拍摄的人脸图像与从OCR证件图像中所识别出人像区域中的人像进行比对。
服务器102具有较强的计算能力,用于对初始第一图像识别模型和初始第二图像识别模型进行训练,得到第一图像识别模型和第二图像识别模型。
目前,在对图像进行识别之前,需要对初始图像识别模型所识别的图像区域的准确率进行评测,进而基于评测结果,对初始图像识别模型的模型参数进行优化,从而基于优化后的图像识别模型,对证件图像进行识别。在对初始图像识别模型进行评测时,主要依靠人工方式。该种方式具有效率低、耗时长,主观误差大、评测结果不够准确等缺陷。为了解决该问题,本发明实施例通过对OCR证件图像进行二次OCR识别、所识别出的证件号区域及有效期区域的长宽比例进行判断、所识别出的人像区域与人工标注的人像区域之间的面积重合度,快速准确地对第一初始图像识别模型及第二初始图像识别模型的准确性进行自动化评测验证,极大地提高了验证效率,大大缩短验证时间,且评测结果更客观和准确。
对于第一图像识别模型和第二图像识别模型的确定过程,下面将以图2和图5所示的实施例为例进行详细说明。
本发明实施例提供了一种确定第一图像识别模型,参见图2,本发明实施例提供的方法流程包括:
201、服务器获取多个训练样本图像。
其中,多个训练样本图像可由不同类型的终端对处于不同拍摄环境及不同拍摄背景的多种类型的证件拍摄及OCR文字识别得到,每个训练样本图像具有人像标注区域。不同类型的终端包括IOS终端、Android终端等。不同拍摄背景包括正常光、强光、弱光等。不同的拍摄背景包括黑色、白色、黄色、复杂的手持背景等。不同类型的证件包括香港身份证、大陆身份证、港澳通行证等。
例如,参见表1,当采用4款iOS终端、6款Android终端在正常光、强光、弱光等不同拍摄环境下及黑色、白色、黄色、手持背景等不同拍摄背景下,对香港身份证、大陆身份证、港澳通行证等证件进行拍摄,并进行OCR文字识别,可得到多张OCR图像。为了便于对不同证件类型所拍摄的OCR图像所组成的测试集进行区分,还将为由不同证件类型对应的OCR图像组成的测试集设置不同的测试集标识,例如,可为香港身份证对应的OCR图像组成的测试集设置测试集标识为1,为大陆身份证正面对应的OCR图像组成的测试集设置测试集标识为2,为大陆身份证反面对应的OCR图像组成的测试集设置测试集标识为3,为港澳通行证对应的OCR图像组成的测试集设置测试集标识为4。
表1
Figure BDA0002103383770000051
Figure BDA0002103383770000061
服务器在获取多个训练样本图像时,可从互联网上获取由不同类型的终端对处于不同拍摄环境及不同拍摄背景的多种类型的证件拍摄及OCR文字识别得到的OCR证件图像,并为每张OCR图像标注人像标注区域,进而将具有人像标注区域的OCR证件图像作为训练样本图像。图3为标注有人像标注区域的大陆身份证,该大陆身份证可以作为一张训练样本图像。
考虑到对第一初始图像识别模型的识别结果进行测评时,需要给出准确的识别结论,因而在为每个OCR证件图像标注人像标注区域时,可采用人工方式进行标注,该人像标注区域为标准值,可标注为groundtruth。为了便于后续应用,还将存储每个OCR证件图像对应的人像标注区域。当对第一初始图像识别模型的识别结果进行测评时,如果第一初始图像识别模型对训练样本图像的识别结果与人像标注图像相匹配,则识别结果正确,反之,识别结果错误。
采用人工方式为每个OCR证件图像标注人像标注区域时,可在每个OCR证件图像上标注人像标注区域的顶点坐标,并记录人像标注区域的顶点坐标。通常人像标注区域为矩形,因而一般所记录的人像标注区域的四个顶点坐标。例如,表2所示的表格,其示出了每张OCR证件图像及对应的四个顶点坐标。
表2
Figure BDA0002103383770000062
202、服务器获取初始第一图像识别模型。
其中,初始第一图像识别模型可以为深度学习模型等,本发明实施例不对初始第一图像识别模型进行具体的限定。该初始第一图像识别模型能够基于OCR图像,识别出人像比对区域,该人像比对区域为初始第一图像识别模型的识别结果,其准确性需要根据人像标注区域进行评测。
203、服务器将多个训练样本图像输入到第一初始图像识别模型中,输出每个训练样本图像对应的人像比对区域。
由于第一初始图像识别模型能够基于OCR图像识别出人像比对区域,因此,当服务器将多个训练样本图像输入到第一初始图像识别模型中,可输出每个训练样本图像对应的人像比对区域。
204、基于每个训练样本图像对应的人像标注区域和人像比对区域,服务器对第一初始图像识别模型进行评测。
基于每个训练样本图像对应的人像标注区域和人像比对区域,服务器对第一初始图像识别模型进行评测时,可采用如下步骤:
2041、服务器获取每个训练样本图像对应的人像标注区域的顶点坐标。
由于采用人工方式进行标注时已经存储了每个训练样本图像对应的人像标注区域的顶点坐标,因而服务器可直接获取到每个训练样本图像对应的人像标注区域的顶点坐标。
2042、服务器获取每个训练样本图像对应的人像比对区域的顶点坐标。
基于第一初始图像识别模型所输出的每个训练样本图像对应的人像比对区域,服务器通过建立与人工方式进行标注时相同的坐标系,可获取到每个训练样本图像对应的人像比对区域的顶点坐标。
2043、基于每个训练样本图像对应的人像标注区域和人像比对区域的顶点坐标,服务器确定每个训练样本图像对应的人像标注区域和人像比对区域是否匹配。
基于每个训练样本图像对应的人像标注区域和人像比对区域的顶点坐标,服务器在确定每个训练样本图像对应的人像标注区域和人像比对区域是否匹配时,可采用如下步骤:
20431、对于任一训练样本图像,服务器根据训练样本图像对应的人像标注区域和人像比对区域的顶点坐标,获取训练样本图像对应的人像标注区域和人像比对区域之间的面积重合度。
服务器根据训练样本图像对应的人像标注区域和人像比对区域的顶点坐标,在同一坐标系内标注出该训练样本图像对应的人像标注区域和人像比对区域,进而采用面积计算公式,计算出该训练样本图像对应的人像标注区域和人像比对区域之间的重合面积,并基于重合面积计算该训练样本图像对应的人像标注区域和人像比对区域之间的面积重合度。
20432、当训练样本图像对应的人像标注区域和人像比对区域之间的面积重合度超过指定阈值,服务器确定训练样本图像对应的人像标注区域和人像比对区域匹配。
其中,指定阈值可根据对初始第一图像识别模型的优化精度进行确定,该指定阈值可以为85%、90%等等。
该步骤的判断条件为:
条件1:threshold<人像比对区域与人像标注区域之间的重合面积/人像比对区域的面积<=100%
条件2:threshold<人像比对区域与人像标注区域之间的重合面积/人像标注区域面积<=100%
If条件1and条件2is true;
Reture正确的评测结果(即人像标注区域和人像比对区域匹配)
Else:
Return错误的评测结果(人像标注区域和人像比对区域不匹配)。
2044、当匹配的训练样本图像数量小于第一预设数量,服务器确定对第一初始图像识别模型的评测结果为未通过。
其中,第一预设数量可根据对初始第一图像识别模型的优化精度进行确定。当将多个训练样本图像输入到第一初始图像识别模型中,输出每个训练样本图像对应的人像比对区域后,服务器基于每个训练样本图像对应的人像标注区域对人像比对区域进行评测时,如果匹配的训练样本图像数量小于第一预设数量,说明初始第一图像识别模型的识别精度未符合要求,此时可确定对第一初始图像识别模型的评测结果为未通过。
图4为对第一初始图像识别模型的评测过程,具体流程如下:
1、采用AI算法对OCR证件图像进行人像抠图(即采用初始第一图像识别模型进行图像识别);
2、获取OCR证件图像的人像标注区域,并计算AI算法抠图的人像比对区域和人像标注区域之间的面积重合度;
3、当面积重合度大于指定阈值,则确定匹配通过,否则,不匹配。
205、基于评测结果,服务器对第一初始图像识别模型的模型参数进行优化,得到第一图像识别模型。
当对初始第一图像识别模型的评测结果为未通过时,服务器将对第一初始图像识别模型的模型参数进行优化,进而基于优化后的第一图像识别模型继续对多个训练样本图像进行识别,并基于识别结果和标注结果,对优化后的第一图像识别模型进行测评,直至识别精度符合要求、评测结果为通过为止。将识别精度符合要求、测评结果为通过的模型,作为所确定的第一图像识别模型,进而基于该第一图像识别模型识别出人像区域。
本发明实施例提供了一种确定第二图像识别模型,参见图5,本发明实施例提供的方法流程包括:
501、服务器获取多个训练样本图像。
其中,多个训练样本图像由不同类型的终端对处于不同拍摄环境及不同拍摄背景的多种类型的证件拍摄及OCR文字识别得到,每个训练样本图像具有证件号标注区域和有效期标注区域。每个训练样本图像对应的证件号标注区域和有效期标注区域可采用人工方式进行标注。
采用人工方式为每个OCR证件图像标注证件号标注区域和有效期标注区域时,可在每个OCR证件图像上标注证件号标注区域和有效期标注区域的顶点坐标,并分别记录证件号标注区域和有效期标注区域的顶点坐标。另外,为了便于区分证件号标注区域和有效期标注区域,还将记录证件号标注区域和有效期标注区域对应的字段内容。例如,表3中所示的证件号信息标注。
表3
Figure BDA0002103383770000091
Figure BDA0002103383770000101
502、服务器获取初始第二图像识别模型。
其中,初始第二图像识别模型可以为深度学习模型等,本发明实施例不对初始第二图像识别模型进行具体的限定。该初始第二图像识别模型能够基于OCR图像,识别出证件号比对区域和有效期比对区域,该证件号比对区域和有效期比对区域为初始第一图像识别模型的识别结果,其准确性需要根据证件号标注区域和有效期标注区域进行评测。
503、服务器将多个训练样本图像输入到第二初始图像识别模型中,输出每个训练样本图像对应的证件号比对区域和有效期比对区域。
由于第二初始图像识别模型能够基于OCR图像识别出证件号比对区域和有效期比对区域,因此,当服务器将多个训练样本图像输入到第二初始图像识别模型中,可输出每个训练样本图像对应的证件号比对区域和有效期比对区域。
504、基于每个训练样本图像对应的证件号标注区域、有效期标注区域、证件号比对区域及有效期比对区域,服务器对第二初始图像识别模型进行评测。
基于每个训练样本图像对应的证件号标注区域、有效期标注区域、证件号比对区域及有效期比对区域,服务器对第二初始图像识别模型进行评测时,可采用如下步骤:
5041、服务器获取每个训练样本图像对应的证件号比对区域及有效期比对区域的顶点坐标。
基于第二初始图像识别模型所输出的每个训练样本图像对应的证件号比对区域及有效期比对区域,服务器通过建立与人工方式进行标注时相同的坐标系,可获取到每个训练样本图像对应的证件号比对区域及有效期比对区域的顶点坐标。
5042、服务器获取每个训练样本图像对应的证件号标注区域和证件号比对区域内的文本信息,并获取每个训练样本图像对应的有效期标注区域和有效期比对区域内的文本信息。
服务器通过对每个训练样本图像对应的证件号标注区域和证件号比对区域进行二次OCR识别,可获取每个训练样本图像对应的证件号标注区域和证件号比对区域内的文本信息。
服务器通过对每个训练样本图像对应的有效期标注区域和有效期比对区域进行二次OCR识别,可获取每个训练样本图像对应的有效期标注区域和有效期比对区域内的文本信息。
5043、服务器根据每个训练样本图像对应的证件号比对区域和有效期比对区域的顶点坐标、证件号标注区域和证件号比对区域内的文本信息、有效期标注区域和有效期比对区域内的文本信息,确定每个训练样本图像对应的证件号标注区域与证件号比对区域及有效期标注区域与有效期比对区域是否匹配。
服务器根据每个训练样本图像对应的证件号比对区域和有效期比对区域的顶点坐标、证件号标注区域和证件号比对区域内的文本信息、有效期标注区域和有效期比对区域内的文本信息,确定每个训练样本图像对应的证件号标注区域与证件号比对区域及有效期标注区域与有效期比对区域是否匹配时,可采用如下步骤:
50431、服务器根据每个训练样本图像对应的证件号比对区域的顶点坐标,确定每个训练样本图像对应的证件号比对区域的长宽比。
服务器根据每个训练样本图像对应的证件号对比区域的顶点坐标,确定出每个训练样本图像对应的证件号比区域的长度和宽度,并根据每个训练样本图像对应的证件号比区域的长度和宽度,确定出每个训练样本图像对应的证件号比对区域的长宽比。
50432、服务器根据每个训练样本图像对应的有效期比对区域的顶点坐标,确定每个训练样本图像对应的有效期比对区域的长宽比。
服务器根据每个训练样本图像对应的有效期比对区域的顶点坐标,确定出每个训练样本图像对应的有效期比对区域的长度和宽度,并根据每个训练样本图像对应的有效期比对区域的长度和宽度,确定出每个训练样本图像对应的有效期比对区域的长宽比。
50433、对于任一训练样本图像,当训练样本图像对应的证件号比对区域及有效期比对区域的长宽比均在指定阈值范围内,将训练样本图像对应的证件号标注区域内的文本信息与证件号比对区域内的文本信息进行比对,并将训练样本图像对应的有效期比对区域内的文本信息与有效期标注区域内的文本信息进行比对。
其中,指定阈值范围可根据对初始第二图像识别模型的优化精度进行确定。当训练样本图像对应的证件号比对区域及有效期比对区域的长宽比中至少一项不在指定阈值范围内,则确定训练样本图像对应的证件号标注区域与证件号比对区域或有效期标注区域与有效期比对区域不匹配;当训练样本图像对应的证件号比对区域及有效期比对区域的长宽比均在指定阈值范围内,将训练样本图像对应的证件号标注区域内的文本信息与证件号比对区域内的文本信息进行比对,并将训练样本图像对应的有效期比对区域内的文本信息与有效期标注区域内的文本信息进行比对。通过对文本信息的内容进行比对,进一步确定训练样本图像对应的证件号标注区域与证件号比对区域及有效期标注区域与有效期比对区域是否匹配。
50434、当训练样本图像对应的证件号标注区域内的文本信息与证件号比对区域内的文本信息相同,且训练样本图像对应的有效期比对区域内的文本信息与有效期标注区域内的文本信息相同,确定训练样本图像对应的证件号标注区域与证件号比对区域及有效期标注区域与有效期比对区域匹配。
通过对证件号比对区域和有效期比对区域进行长宽比检查以及进行二次OCR识别,当长宽比符合预期且OCR识别结果和标注信息相符,可以确定初始第二图像识别模型所识别出的证件号比对区域和有效期比对区域正确。
本发明实施例通过对长宽比进行检测,可以排除图像识别过程中出现一些多余的空白部分,或者OCR无法识别的图片内容保留在识别出的图像中。同时对所识别出的图像进行OCR识别,可以保证识别出的图像的内容为预期识别出的图像。当上述两个条件同时满足时,可对证件号及有效期的识别准确。
该步骤的判断条件为:
条件1:threshold1<抠图长/抠图宽>=threshold2
条件2:抠图进行OCR识别结果与标注的OCR信息相同;
其中,抠图包括证件号比对区域和有效期比对区域。
该步骤可采用如下代码实现:
#抠图长宽比
file=open(deductPath,‘r’)
image=image.open(deductPath)
imgeSize=image.size#图片的长和宽
imgeScale=imgSize[0]/imgSize[1]
file.close()
#抠图OCR
str1=pytesseract.img_to_string(imge,lang=‘eng’,config=‘digits’)
str3=str1.replace(‘’,‘’).encode(‘utf-8’)
5044、当匹配的训练样本图像数量小于第二预设数量,确定对第二初始图像识别模型的评测结果为未通过。
其中,第二预设数量可根据对初始第二图像识别模型的优化精度进行确定。当将多个训练样本图像输入到第二初始图像识别模型中,输出每个训练样本图像对应的证件号比对区域和有效期比对区域后,服务器基于每个训练样本图像对应的证件号标注区域对证件号比对区域进行评测及基于每个训练样本图像对应的有效期标注区域对有效期比对区域进行评测时,如果匹配的训练样本图像数量小于第二预设数量,说明初始第二图像识别模型的识别精度未符合要求,此时可确定对第二初始图像识别模型的评测结果为未通过。
图6为对第一初始图像识别模型的评测过程,具体流程如下:
1、采用AI算法对OCR证件图像进行证件号及有效期抠图(即采用初始第二图像识别模型进行图像识别);
2、计算AI抠图的证件号区域的长宽比及有效期区域的长宽比;
3、当AI抠图的证件号区域的长宽比及有效期区域的长宽比中至少一项未在指定阈值范围内,则确定不匹配;当AI抠图的证件号区域的长宽比及有效期区域的长宽比均在指定阈值范围内,则对AI抠图的证件号区域及有效期区域进行OCR识别,并将其分别与标注的OCR信息进行比对。
4、当AI抠图结果与标注结果的OCR信息相同,则确定匹配通过,否则,确定匹配不通过。
505、基于评测结果,服务器对第二初始图像识别模型的模型参数进行优化,得到第二图像识别模型。
当对初始第二图像识别模型的评测结果为未通过时,服务器将对第二初始图像识别模型的模型参数进行优化,进而基于优化后的第二图像识别模型继续对多个训练样本图像进行识别,并基于识别结果和标注结果,对优化后的第二图像识别模型进行测评,直至识别精度符合要求、评测结果为通过为止。将识别精度符合要求、测评结果为通过的模型,作为所确定的第二图像识别模型,进而基于该第二图像识别模型识别出证件号区域及有效期区域。
综合图2及图5所示的实施例,本发明提供了一种快速精准客观的评测证件抠图算法的测试方案,通过对人像抠图和证件号抠图的不同评测方法的结合使用,可以构建出一套完整的证件抠图评测体系,能够高效地对证件抠图算法进行全面客户的评测,解决了人工评测模式的效率低,耗时长,主观误差大等缺陷。例如,对于3000张带有groundtruth的测试样本集,采用本发明实施例提供的自动化测试方案进行评测,耗时相对于人工评测模式,由48小时左右减少到1小时左右,本发明实施例为算法的调优和回归提供了更方便快捷和客观的测试解决方案。
本发明实施例提供了一种证件图像识别方法,参见图7,本发明实施例提供的方法流程包括:
701、终端获取待识别的OCR证件图像。
其中,待识别的OCR证件图像可通过对证件进行拍摄及OCR文字识别得到。
702、终端将待识别的OCR证件图像输入到第一图像识别模型中,输出目标人像区域。
其中,第一图像识别模型用于基于OCR证件图像,识别出人像区域。当获取到待识别的OCR证件图像后,终端通过将该待识别的OCR证件图像输入到第一图像识别模型中,可以输出目标人像区域。对于得到的目标人像区域,可用于与采集到的用户人像区域进行比对,从而实现对用户身份的验证。
703、终端将待识别的OCR证件图像输入到第二图像识别模型中,输出目标证件号区域和目标有效期区域。
其中,第二图像识别模型用于基于OCR证件图像,识别出证件号区域和有效期区域。当获取到待识别的OCR证件图像后,终端将待识别的OCR证件图像输入到第二图像识别模型中,可以输出目标证件号区域和目标有效期区域。对于得到的目标证件号区域和目标有效期区域,可展示给用户,以对输入信息进行验证。
对于本发明实施例提供的证件图像识别方法,下面以应用于vbank虚拟银行的项目为例进行说明。
参见图8,在vbank虚拟银行的项目中,终端对用户的证件照进行关键字段OCR识别,得到OCR图像,并分别将证件中的人像、证件号、背面有效期等信息进行抠图。人像抠图保留在终端的后台,用于与拍摄的用户的人脸图像进行人证比对,以保证开户用户和证件照中的用户为同一用户。证件号和有效期将直接在前端展示给用户,用于客户对其进行验证。
本发明实施例提供的方法,获取OCR证件图像,将该图像输入到第一图像识别模型和第二图像识别模型中,输出目标人像区域、目标证件号区域及目标有效期区域。由于模型并不是采用人工评测方式训练得到的,而是基于面积重合度、长宽比及文本信息确定的,因而所确定的模型更准确,基于该模型进行图像识别时,识别结果更准确。
参见图9,本发明实施例提供了一种证件图像识别装置,该装置包括:
获取模块901,用于获取待识别的光学字符识别OCR证件图像,待识别的OCR证件图像通过对证件进行拍摄及OCR文字识别得到;
第一输入输出模块902,用于将待识别的OCR证件图像输入到第一图像识别模型中,输出目标人像区域,第一图像识别模型根据标注结果与输出结果之间的面积重合度训练得到,第一图像识别模型用于基于OCR证件图像,识别出人像区域,目标人像区域用于与采集到的用户人像区域进行比对,以实现身份的验证;
第二输入输出模块903,用于将待识别的OCR证件图像输入到第二图像识别模型中,输出目标证件号区域和目标有效期区域,第二图像识别模型根据输出结果的长宽比及标注结果与输出结果的文本信息之间的相似度训练得到,第二图像识别模型用于基于OCR证件图像,识别出证件号区域和有效期区域,目标证件号区域和目标有效期区域用于对输入信息进行验证。
在本发明的另一个实施例中,该装置还包括:
获取模块901,用于获取多个训练样本图像,多个训练样本图像由不同类型的终端对处于不同拍摄环境及不同拍摄背景的多种类型的证件拍摄及OCR文字识别得到,每个训练样本图像具有人像标注区域;
获取模块901,用于获取初始第一图像识别模型;
第一输入输出模块902,用于将多个训练样本图像输入到第一初始图像识别模型中,输出每个训练样本图像对应的人像比对区域;
测评模块,用于基于每个训练样本图像对应的人像标注区域和人像比对区域,对第一初始图像识别模型进行评测;
调整模块,用于基于评测结果,对第一初始图像识别模型的模型参数进行优化,得到第一图像识别模型。
在本发明的另一个实施例中,测评模块,用于获取每个训练样本图像对应的人像标注区域的顶点坐标;获取每个训练样本图像对应的人像比对区域的顶点坐标;基于每个训练样本图像对应的人像标注区域和人像比对区域的顶点坐标,确定每个训练样本图像对应的人像标注区域和人像比对区域是否匹配;当匹配的训练样本图像数量小于第一预设数量,确定对第一初始图像识别模型的评测结果为未通过。
在本发明的另一个实施例中,测评模块,用于对于任一训练样本图像,根据训练样本图像对应的人像标注区域和人像比对区域的顶点坐标,获取训练样本图像对应的人像标注区域和人像比对区域之间的面积重合度;当训练样本图像对应的人像标注区域和人像比对区域之间的面积重合度超过指定阈值,确定训练样本图像对应的人像标注区域和人像比对区域匹配。
在本发明的另一个实施例中,该装置还包括:
获取模块901,用于获取多个训练样本图像,多个训练样本图像由不同类型的终端对处于不同拍摄环境及不同拍摄背景的多种类型的证件拍摄及OCR文字识别得到,每个训练样本图像具有证件号标注区域和有效期标注区域;
获取模块901,用于获取初始第二图像识别模型;
第二输入输出模块902,用于将多个训练样本图像输入到第二初始图像识别模型中,输出每个训练样本图像对应的证件号比对区域和有效期比对区域;
测评模块,用于基于每个训练样本图像对应的证件号标注区域、有效期标注区域、证件号比对区域及有效期比对区域,对第二初始图像识别模型进行评测;
调整模块,用于基于评测结果,对第二初始图像识别模型的模型参数进行优化,得到第二图像识别模型。
测评模块,用于获取每个训练样本图像对应的证件号比对区域及有效期比对区域的顶点坐标;获取每个训练样本图像对应的证件号标注区域和证件号比对区域内的文本信息,并获取每个训练样本图像对应的有效期标注区域和有效期比对区域内的文本信息;根据每个训练样本图像对应的证件号比对区域和有效期比对区域的顶点坐标、证件号标注区域和证件号比对区域内的文本信息、有效期标注区域和有效期比对区域内的文本信息,确定每个训练样本图像对应的证件号标注区域与证件号比对区域及有效期标注区域与有效期比对区域是否匹配;当匹配的训练样本图像数量小于第二预设数量,确定对第二初始图像识别模型的评测结果为未通过。
在本发明的另一个实施例中,测评模块,用于根据每个训练样本图像对应的证件号比对区域的顶点坐标,确定每个训练样本图像对应的证件号比对区域的长宽比;根据每个训练样本图像对应的有效期比对区域的顶点坐标,确定每个训练样本图像对应的有效期比对区域的长宽比;对于任一训练样本图像,当训练样本图像对应的证件号比对区域及有效期比对区域的长宽比均在指定阈值范围内,将训练样本图像对应的证件号标注区域内的文本信息与证件号比对区域内的文本信息进行比对,并将训练样本图像对应的有效期比对区域内的文本信息与有效期标注区域内的文本信息进行比对;当训练样本图像对应的证件号标注区域内的文本信息与证件号比对区域内的文本信息相同,且训练样本图像对应的有效期比对区域内的文本信息与有效期标注区域内的文本信息相同,确定训练样本图像对应的证件号标注区域与证件号比对区域及有效期标注区域与有效期比对区域匹配。
综上所述,本发明实施例提供的装置,获取OCR证件图像,将该图像输入到第一图像识别模型和第二图像识别模型中,输出目标人像区域、目标证件号区域及目标有效期区域。由于模型并不是采用人工评测方式训练得到的,而是基于面积重合度、长宽比及文本信息确定的,因而所确定的模型更准确,基于该模型进行图像识别时,识别结果更准确。
图10示出了本发明一个示例性实施例提供的终端1000的结构框图。该终端1000可以是:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio LayerIII,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group AudioLayer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1000还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端1000包括有:处理器1001和存储器1002。
处理器1001可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1001可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1001可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1001还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1002可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1002还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1002中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1001所执行以实现本申请中方法实施例提供的图像识别方法。
在一些实施例中,终端1000还可选包括有:外围设备接口1003和至少一个外围设备。处理器1001、存储器1002和外围设备接口1003之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1003相连。具体地,外围设备包括:射频电路1004、触摸显示屏1005、摄像头1006、音频电路1007、定位组件1008和电源1009中的至少一种。
外围设备接口1003可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1001和存储器1002。在一些实施例中,处理器1001、存储器1002和外围设备接口1003被集成在同一芯片或电路板上;在一些其他实施例中,处理器1001、存储器1002和外围设备接口1003中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1004用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1004通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1004将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1004包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1004可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1004还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏1005用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1005是触摸显示屏时,显示屏1005还具有采集在显示屏1005的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1001进行处理。此时,显示屏1005还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1005可以为一个,设置终端1000的前面板;在另一些实施例中,显示屏1005可以为至少两个,分别设置在终端1000的不同表面或呈折叠设计;在再一些实施例中,显示屏1005可以是柔性显示屏,设置在终端1000的弯曲表面上或折叠面上。甚至,显示屏1005还可以设置成非矩形的不规则图形,也即异形屏。显示屏1005可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件1006用于采集图像或视频。可选地,摄像头组件1006包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1006还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1007可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1001进行处理,或者输入至射频电路1004以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端1000的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1001或射频电路1004的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1007还可以包括耳机插孔。
定位组件1008用于定位终端1000的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件1008可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源1009用于为终端1000中的各个组件进行供电。电源1009可以是交流电、直流电、一次性电池或可充电电池。当电源1009包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端1000还包括有一个或多个传感器1010。该一个或多个传感器1010包括但不限于:加速度传感器1011、陀螺仪传感器1012、压力传感器1013、指纹传感器1014、光学传感器1015以及接近传感器1016。
加速度传感器1011可以检测以终端1000建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1011可以用于检测重力加速度在三个坐标轴上的分量。处理器1001可以根据加速度传感器1011采集的重力加速度信号,控制触摸显示屏1005以横向视图或纵向视图进行用户界面的显示。加速度传感器1011还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1012可以检测终端1000的机体方向及转动角度,陀螺仪传感器1012可以与加速度传感器1011协同采集用户对终端1000的3D动作。处理器1001根据陀螺仪传感器1012采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1013可以设置在终端1000的侧边框和/或触摸显示屏1005的下层。当压力传感器1013设置在终端1000的侧边框时,可以检测用户对终端1000的握持信号,由处理器1001根据压力传感器1013采集的握持信号进行左右手识别或快捷操作。当压力传感器1013设置在触摸显示屏1005的下层时,由处理器1001根据用户对触摸显示屏1005的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器1014用于采集用户的指纹,由处理器1001根据指纹传感器1014采集到的指纹识别用户的身份,或者,由指纹传感器1014根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1001授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1014可以被设置终端1000的正面、背面或侧面。当终端1000上设置有物理按键或厂商Logo时,指纹传感器1014可以与物理按键或厂商Logo集成在一起。
光学传感器1015用于采集环境光强度。在一个实施例中,处理器1001可以根据光学传感器1015采集的环境光强度,控制触摸显示屏1005的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏1005的显示亮度;当环境光强度较低时,调低触摸显示屏1005的显示亮度。在另一个实施例中,处理器1001还可以根据光学传感器1015采集的环境光强度,动态调整摄像头组件1006的拍摄参数。
接近传感器1016,也称距离传感器,通常设置在终端1000的前面板。接近传感器1016用于采集用户与终端1000的正面之间的距离。在一个实施例中,当接近传感器1016检测到用户与终端1000的正面之间的距离逐渐变小时,由处理器1001控制触摸显示屏1005从亮屏状态切换为息屏状态;当接近传感器1016检测到用户与终端1000的正面之间的距离逐渐变大时,由处理器1001控制触摸显示屏1005从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图10中示出的结构并不构成对终端1000的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
本发明实施例提供的终端,获取OCR证件图像,将该图像输入到第一图像识别模型和第二图像识别模型中,输出目标人像区域、目标证件号区域及目标有效期区域。由于模型并不是采用人工评测方式训练得到的,而是基于面积重合度、长宽比及文本信息确定的,因而所确定的模型更准确,基于该模型进行图像识别时,识别结果更准确。
本发明实施例提供的计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现图7所示的图像识别方法。
本发明实施例提供的计算机可读存储介质,获取OCR证件图像,将该图像输入到第一图像识别模型和第二图像识别模型中,输出目标人像区域、目标证件号区域及目标有效期区域。由于模型并不是采用人工评测方式训练得到的,而是基于面积重合度、长宽比及文本信息确定的,因而所确定的模型更准确,基于该模型进行图像识别时,识别结果更准确。
图11是根据一示例性实施例示出的一种用于确定第一图像识别模型及第二图像识别模型的服务器。参照图11,服务器1100包括处理组件1122,其进一步包括一个或多个处理器,以及由存储器1132所代表的存储器资源,用于存储可由处理组件1122的执行的指令,例如应用程序。存储器1132中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1122被配置为执行指令,以执行上述图2及图4中服务器所执行的功能,该方法包括:
服务器1100还可以包括一个电源组件1126被配置为执行服务器1100的电源管理,一个有线或无线网络接口1150被配置为将服务器1100连接到网络,和一个输入输出(I/O)接口1158。服务器1100可以操作基于存储在存储器1132的操作系统,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
需要说明的是:上述实施例提供的证件图像识别装置在识别证件图像时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将证件图像识别装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的证件图像识别装置与证件图像识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种证件图像识别方法,其特征在于,所述方法包括:
获取待识别的光学字符识别OCR证件图像,所述待识别的OCR证件图像通过对证件进行拍摄及OCR文字识别得到;
将所述待识别的OCR证件图像输入到第一图像识别模型中,输出目标人像区域,所述第一图像识别模型根据标注结果与输出结果之间的面积重合度训练得到,所述第一图像识别模型用于基于OCR证件图像,识别出人像区域,所述目标人像区域用于与采集到的用户人像区域进行比对,以实现身份的验证;
将所述待识别的OCR证件图像输入到第二图像识别模型中,输出目标证件号区域和目标有效期区域,所述第二图像识别模型根据输出结果的长宽比及标注结果与输出结果的文本信息之间的相似度训练得到,所述第二图像识别模型用于基于OCR证件图像,识别出证件号区域和有效期区域,所述目标证件号区域和所述目标有效期区域用于对输入信息进行验证。
2.根据权利要求1所述的方法,其特征在于,所述将所述待识别的OCR图像输入到第一图像识别模型中,输出目标人像区域之前,还包括:
获取多个训练样本图像,所述多个训练样本图像由不同类型的终端对处于不同拍摄环境及不同拍摄背景的多种类型的证件拍摄及OCR文字识别得到,每个训练样本图像具有人像标注区域;
获取初始第一图像识别模型;
将所述多个训练样本图像输入到所述第一初始图像识别模型中,输出每个训练样本图像对应的人像比对区域;
基于每个训练样本图像对应的人像标注区域和人像比对区域,对所述第一初始图像识别模型进行评测;
基于评测结果,对所述第一初始图像识别模型的模型参数进行优化,得到所述第一图像识别模型。
3.根据权利要求2所述的方法,其特征在于,所述基于每个训练样本图像对应的人像标注区域和人像比对区域,对所述第一初始图像识别模型进行评测,包括:
获取每个训练样本图像对应的人像标注区域的顶点坐标;
获取每个训练样本图像对应的人像比对区域的顶点坐标;
基于每个训练样本图像对应的人像标注区域和人像比对区域的顶点坐标,确定每个训练样本图像对应的人像标注区域和人像比对区域是否匹配;
当匹配的训练样本图像数量小于第一预设数量,确定对所述第一初始图像识别模型的评测结果为未通过。
4.根据权利要求3所述的方法,其特征在于,所述基于每个训练样本图像对应的人像标注区域和人像比对区域的顶点坐标,确定每个训练样本图像对应的人像标注区域和人像比对区域是否匹配,包括:
对于任一训练样本图像,根据所述训练样本图像对应的人像标注区域和人像比对区域的顶点坐标,获取所述训练样本图像对应的人像标注区域和人像比对区域之间的面积重合度;
当所述训练样本图像对应的人像标注区域和人像比对区域之间的面积重合度超过指定阈值,确定所述训练样本图像对应的人像标注区域和人像比对区域匹配。
5.根据权利要求1所述的方法,其特征在于,所述将所述待识别的OCR证件图像输入到第二图像识别模型中,输出目标证件号区域和目标有效期区域之前,还包括:
获取多个训练样本图像,所述多个训练样本图像由不同类型的终端对处于不同拍摄环境及不同拍摄背景的多种类型的证件拍摄及OCR文字识别得到,每个训练样本图像具有证件号标注区域和有效期标注区域;
获取初始第二图像识别模型;
将所述多个训练样本图像输入到所述第二初始图像识别模型中,输出每个训练样本图像对应的证件号比对区域和有效期比对区域;
基于每个训练样本图像对应的证件号标注区域、有效期标注区域、证件号比对区域及有效期比对区域,对所述第二初始图像识别模型进行评测;
基于评测结果,对所述第二初始图像识别模型的模型参数进行优化,得到所述第二图像识别模型。
6.根据权利要求5所述的方法,其特征在于,所述基于每个训练样本图像对应的证件号标注区域、有效期标注区域、证件号比对区域及有效期比对区域,对所述第二初始图像识别模型进行评测,包括:
获取每个训练样本图像对应的证件号比对区域及有效期比对区域的顶点坐标;
获取每个训练样本图像对应的证件号标注区域和证件号比对区域内的文本信息,并获取每个训练样本图像对应的有效期标注区域和有效期比对区域内的文本信息;
根据每个训练样本图像对应的证件号比对区域和有效期比对区域的顶点坐标、证件号标注区域和证件号比对区域内的文本信息、有效期标注区域和有效期比对区域内的文本信息,确定每个训练样本图像对应的证件号标注区域与证件号比对区域及有效期标注区域与有效期比对区域是否匹配;
当匹配的训练样本图像数量小于第二预设数量,确定对所述第二初始图像识别模型的评测结果为未通过。
7.根据权利要求6所述的方法,其特征在于,所述根据每个训练样本图像对应的证件号比对区域和有效期比对区域的顶点坐标、证件号标注区域和证件号比对区域内的文本信息、有效期标注区域和有效期比对区域内的文本信息,确定每个训练样本图像对应的证件号标注区域与证件号比对区域及有效期标注区域与有效期比对区域是否匹配,包括:
根据每个训练样本图像对应的证件号比对区域的顶点坐标,确定每个训练样本图像对应的证件号比对区域的长宽比;
根据每个训练样本图像对应的有效期比对区域的顶点坐标,确定每个训练样本图像对应的有效期比对区域的长宽比;
对于任一训练样本图像,当所述训练样本图像对应的证件号比对区域及有效期比对区域的长宽比均在指定阈值范围内,将所述训练样本图像对应的证件号标注区域内的文本信息与证件号比对区域内的文本信息进行比对,并将所述训练样本图像对应的有效期比对区域内的文本信息与有效期标注区域内的文本信息进行比对;
当所述训练样本图像对应的证件号标注区域内的文本信息与证件号比对区域内的文本信息相同,且所述训练样本图像对应的有效期比对区域内的文本信息与有效期标注区域内的文本信息相同,确定所述训练样本图像对应的证件号标注区域与证件号比对区域及有效期标注区域与有效期比对区域匹配。
8.一种证件图像识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别的光学字符识别OCR证件图像,所述待识别的OCR证件图像通过对证件进行拍摄及OCR文字识别得到;
第一输入输出模块,用于将所述待识别的OCR证件图像输入到第一图像识别模型中,输出目标人像区域,所述第一图像识别模型根据标注结果与输出结果之间的面积重合度训练得到,所述第一图像识别模型用于基于OCR证件图像,识别出人像区域,所述目标人像区域用于与采集到的用户人像区域进行比对,以实现身份的验证;
第二输入输出模块,用于将所述待识别的OCR证件图像输入到第二图像识别模型中,输出目标证件号区域和目标有效期区域,所述第二图像识别模型根据输出结果的长宽比及标注结果与输出结果的文本信息之间的相似度训练得到,所述第二图像识别模型用于基于OCR证件图像,识别出证件号区域和有效期区域,所述目标证件号区域和所述目标有效期区域用于对输入信息进行验证。
9.一种终端,其特征在于,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至7中任一项所述的证件图像识别方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求1至7中任一项所述的证件图像识别方法。
CN201910543830.1A 2019-06-21 2019-06-21 证件图像识别方法、装置、终端及存储介质 Active CN112115748B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910543830.1A CN112115748B (zh) 2019-06-21 2019-06-21 证件图像识别方法、装置、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910543830.1A CN112115748B (zh) 2019-06-21 2019-06-21 证件图像识别方法、装置、终端及存储介质

Publications (2)

Publication Number Publication Date
CN112115748A true CN112115748A (zh) 2020-12-22
CN112115748B CN112115748B (zh) 2023-08-25

Family

ID=73796513

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910543830.1A Active CN112115748B (zh) 2019-06-21 2019-06-21 证件图像识别方法、装置、终端及存储介质

Country Status (1)

Country Link
CN (1) CN112115748B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627413A (zh) * 2021-08-12 2021-11-09 杭州海康威视数字技术股份有限公司 数据标注方法、图像比对方法及装置
CN116959064A (zh) * 2023-06-25 2023-10-27 上海腾桥信息技术有限公司 一种证件验证方法、装置、计算机设备和存储介质
CN117421254A (zh) * 2023-12-19 2024-01-19 杭银消费金融股份有限公司 一种用于对账业务的自动化测试方法与系统

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4811408A (en) * 1987-11-13 1989-03-07 Light Signatures, Inc. Image dissecting document verification system
CN1329323A (zh) * 2001-07-31 2002-01-02 郭根龙 证件自动扫描识别与管理方法及其系统
KR20090093241A (ko) * 2008-02-29 2009-09-02 주식회사 신한은행 학생증 보안 출력 방법 및 이를 위한 기록매체
CN104504321A (zh) * 2015-01-05 2015-04-08 湖北微模式科技发展有限公司 一种基于摄像头实现远程用户身份验证的方法与系统
US20160162729A1 (en) * 2013-09-18 2016-06-09 IDChecker, Inc. Identity verification using biometric data
CN107403173A (zh) * 2017-08-21 2017-11-28 合肥麟图信息科技有限公司 一种人脸识别系统及方法
CN107688811A (zh) * 2017-09-12 2018-02-13 北京文安智能技术股份有限公司 车牌识别方法及装置
CN108268867A (zh) * 2016-12-30 2018-07-10 杭州海康威视数字技术股份有限公司 一种车牌定位方法及装置
CN108932774A (zh) * 2018-06-21 2018-12-04 北京京东金融科技控股有限公司 信息检测方法和装置
CN109034159A (zh) * 2018-05-28 2018-12-18 北京捷通华声科技股份有限公司 图像信息提取方法和装置
CN109472208A (zh) * 2018-10-12 2019-03-15 平安科技(深圳)有限公司 基于人脸识别的办证方法、装置、计算机设备及存储介质
CN109492643A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 基于ocr的证件识别方法、装置、计算机设备及存储介质
CN109657627A (zh) * 2018-12-20 2019-04-19 北京旷视科技有限公司 身份验证方法、装置及电子设备
WO2019096008A1 (zh) * 2017-11-20 2019-05-23 腾讯科技(深圳)有限公司 身份识别方法、计算机设备及存储介质
CN109829456A (zh) * 2017-11-23 2019-05-31 腾讯科技(深圳)有限公司 图像识别方法、装置及终端

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4811408A (en) * 1987-11-13 1989-03-07 Light Signatures, Inc. Image dissecting document verification system
CN1329323A (zh) * 2001-07-31 2002-01-02 郭根龙 证件自动扫描识别与管理方法及其系统
KR20090093241A (ko) * 2008-02-29 2009-09-02 주식회사 신한은행 학생증 보안 출력 방법 및 이를 위한 기록매체
US20160162729A1 (en) * 2013-09-18 2016-06-09 IDChecker, Inc. Identity verification using biometric data
CN104504321A (zh) * 2015-01-05 2015-04-08 湖北微模式科技发展有限公司 一种基于摄像头实现远程用户身份验证的方法与系统
CN108268867A (zh) * 2016-12-30 2018-07-10 杭州海康威视数字技术股份有限公司 一种车牌定位方法及装置
CN107403173A (zh) * 2017-08-21 2017-11-28 合肥麟图信息科技有限公司 一种人脸识别系统及方法
CN107688811A (zh) * 2017-09-12 2018-02-13 北京文安智能技术股份有限公司 车牌识别方法及装置
WO2019096008A1 (zh) * 2017-11-20 2019-05-23 腾讯科技(深圳)有限公司 身份识别方法、计算机设备及存储介质
CN109829456A (zh) * 2017-11-23 2019-05-31 腾讯科技(深圳)有限公司 图像识别方法、装置及终端
CN109034159A (zh) * 2018-05-28 2018-12-18 北京捷通华声科技股份有限公司 图像信息提取方法和装置
CN108932774A (zh) * 2018-06-21 2018-12-04 北京京东金融科技控股有限公司 信息检测方法和装置
CN109492643A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 基于ocr的证件识别方法、装置、计算机设备及存储介质
CN109472208A (zh) * 2018-10-12 2019-03-15 平安科技(深圳)有限公司 基于人脸识别的办证方法、装置、计算机设备及存储介质
CN109657627A (zh) * 2018-12-20 2019-04-19 北京旷视科技有限公司 身份验证方法、装置及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JOSÉ C. GUTIÉRREZ: "Mechanism for Structuring the Data from a Generic Identity Document Image using Semantic Analysis", WEBMEDIA \'17: PROCEEDINGS OF THE 23RD BRAZILLIAN SYMPOSIUM ON MULTIMEDIA AND THE WEB *
王建国;王江涛;杨静宇;: "基于新颜色空间YCgCr的人脸检测与定位", 计算机科学, no. 09 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627413A (zh) * 2021-08-12 2021-11-09 杭州海康威视数字技术股份有限公司 数据标注方法、图像比对方法及装置
CN116959064A (zh) * 2023-06-25 2023-10-27 上海腾桥信息技术有限公司 一种证件验证方法、装置、计算机设备和存储介质
CN116959064B (zh) * 2023-06-25 2024-04-26 上海腾桥信息技术有限公司 一种证件验证方法、装置、计算机设备和存储介质
CN117421254A (zh) * 2023-12-19 2024-01-19 杭银消费金融股份有限公司 一种用于对账业务的自动化测试方法与系统
CN117421254B (zh) * 2023-12-19 2024-03-22 杭银消费金融股份有限公司 一种用于对账业务的自动化测试方法与系统

Also Published As

Publication number Publication date
CN112115748B (zh) 2023-08-25

Similar Documents

Publication Publication Date Title
CN109829456B (zh) 图像识别方法、装置及终端
CN109815150B (zh) 应用测试方法、装置、电子设备及存储介质
CN111079576A (zh) 活体检测方法、装置、设备及存储介质
CN110490179B (zh) 车牌识别方法、装置及存储介质
CN111127509B (zh) 目标跟踪方法、装置和计算机可读存储介质
CN111104980B (zh) 确定分类结果的方法、装置、设备及存储介质
CN112115748B (zh) 证件图像识别方法、装置、终端及存储介质
CN111353458A (zh) 文本框标注方法、装置和存储介质
CN110490186B (zh) 车牌识别方法、装置及存储介质
CN111027490A (zh) 人脸属性识别方法及装置、存储介质
CN111370025A (zh) 音频识别方法、装置及计算机存储介质
CN110647881A (zh) 确定图像对应的卡片类型的方法、装置、设备及存储介质
CN113627413A (zh) 数据标注方法、图像比对方法及装置
CN111586279B (zh) 确定拍摄状态的方法、装置、设备及存储介质
CN111753606A (zh) 一种智能模型的升级方法及装置
CN112396076A (zh) 车牌图像生成方法、装置及计算机存储介质
CN111915305A (zh) 支付方法、装置、设备以及存储介质
CN111354378B (zh) 语音端点检测方法、装置、设备及计算机存储介质
CN110163192B (zh) 字符识别方法、装置及可读介质
CN113591514B (zh) 指纹活体检测方法、设备及存储介质
CN110263695B (zh) 人脸部位的位置获取方法、装置、电子设备及存储介质
CN111723615B (zh) 对检测物图像进行检测物匹配判定的方法和装置
CN112214115A (zh) 输入方式的识别方法、装置、电子设备及存储介质
CN111047328A (zh) 移动支付方法、装置、系统及存储介质
CN112132472A (zh) 资源管理方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant