CN111046879B - 证件图像分类方法、装置、计算机设备及可读存储介质 - Google Patents
证件图像分类方法、装置、计算机设备及可读存储介质 Download PDFInfo
- Publication number
- CN111046879B CN111046879B CN201910979547.3A CN201910979547A CN111046879B CN 111046879 B CN111046879 B CN 111046879B CN 201910979547 A CN201910979547 A CN 201910979547A CN 111046879 B CN111046879 B CN 111046879B
- Authority
- CN
- China
- Prior art keywords
- certificate
- vector
- image
- field
- fields
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 239000013598 vector Substances 0.000 claims abstract description 478
- 238000000605 extraction Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000012015 optical character recognition Methods 0.000 description 65
- 238000012545 processing Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 17
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 14
- 238000001514 detection method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000012937 correction Methods 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 102100032202 Cornulin Human genes 0.000 description 1
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Character Input (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种证件图像分类方法、装置、计算机设备及可读存储介质。本申请实施例属于证件图像分类技术领域,通过获取待分类的证件图像,基于OCR模型提取证件图像中包含的所有字段,根据字段,通过第一预设方式生成证件图像的向量,判断预设的向量集中是否存在与证件图像的向量相匹配的向量,其中,向量集包括多个通过第一预设方式所生成的、对应于不同证件类型的证件图像的向量;若向量集中存在与证件图像的向量相匹配的向量,将与证件图像的向量相匹配的向量作为目标向量,并根据目标向量对应的证件类型确定证件图像的证件类型,能够提高证件图像分类的准确性。
Description
技术领域
本申请涉及证件图像分类技术领域,尤其涉及一种证件图像分类方法、装置、计算机设备及计算机可读存储介质。
背景技术
随着人工智能技术的不断发展,各种深度学习模型的应用已经渗透到我们生活的方方面面。应用于不同目的的各种深度学习模型开始伴随着不同的服务应用到我们的生活中,如物体识别、文本检测及语音识别等各种类型的深度学习模型。其中基于深度学习的文本识别模型在帮助人们采集现实中各个文本包含的文本信息方面发挥着巨大的作用,比如对车牌等标识文字的识别、对打印内容或者手写内容的提取,或者对证件信息的收集等各个应用场景发挥着越来越大的作用。
其中,基于OCR文字识别的文本识别对信息的提取已经应用的相当广泛,通过OCR文字识别对文本进行检测和识别的精度及准确度在多年的发展中一直在不断提高,其中,OCR,英文为Optical Character Recognition,光学字符识别。通常来说,通用的OCR识别模型是对输入文本图像直接进行无差别的全文识别。但是随着更加广泛的应用和更加精细化的需求,很多情况下,人们所需要的并不是一个证件的全部内容,而是对于不同证件会有不同的定制化需求,需要从证件对应的目标文件中定向提取预设的部分信息,这时如果仅仅依靠通用OCR模型的识别很难满足定向提取的需求,所以一般的OCR识别有时难以满足人们的一些定制化的需要。因此,面对一些定制化需求的时候,就需要针对不同类型的证件定制提取对应文字内容的逻辑,也即针对不同类型的证件进行对应内容提取等处理算法的逻辑,然后对不同类型的证件选择性地调用不同的逻辑进行信息提取,所以一般在通用OCR识别之后,需要依靠一些后续逻辑以实现对证件的预定内容进行提取。
对不同类型证件选择性地调用对应的处理逻辑,涉及到对证件的分类,也即根据证件的类型调用该证件类型对应的处理逻辑处理该证件。如果没有预先定义输入图像属于什么类型证件,那么该如何去自动化的对证件进行分类以让服务知道应该选择哪个模型来对文件内容进行自动化提取呢?比如需要在一个服务中适应不同的证件类型,需要在进行后续逻辑之前,对证件进行分类处理,然后依据分类结果决定调用哪种逻辑来适应当前类型证件的定制化提取需求。尤其对于一些特征不明显、单从外形上难以区分的证件类型,例如A4纸打印的表格类证件等,有很多不同的证件都会具有相似的外观特点,用一般的物体识别模型来完成区分证件类型的任务会比较困难,也很难通过训练一般的物体识别模型从而对待分类的证件加以区分,这时仅通过一般的物体识别模型很难实现对证件进行准确分类。
发明内容
本申请实施例提供了一种证件图像分类方法、装置、计算机设备及计算机可读存储介质,能够解决传统技术中通过通用物体识别模型对证件图像进行分类时存在的分类准确性较低的问题。
第一方面,本申请实施例提供了一种证件图像分类方法,所述方法包括:获取待分类的证件图像;基于OCR模型提取所述证件图像中包含的所有字段;根据所述字段,通过第一预设方式生成所述证件图像的向量;判断预设的向量集中是否存在与所述证件图像的向量相匹配的向量,其中,所述向量集包括多个通过所述第一预设方式所生成的、对应于不同证件类型的证件图像的向量;若所述向量集中存在与所述证件图像的向量相匹配的向量,将与所述证件图像的向量相匹配的向量作为目标向量,并根据所述目标向量对应的证件类型确定所述证件图像的证件类型。
第二方面,本申请实施例还提供了一种证件图像分类装置,包括:获取单元,用于获取待分类的证件图像;提取单元,用于基于OCR模型提取所述证件图像中包含的所有字段;第一生成单元,用于根据所述字段,通过第一预设方式生成所述证件图像的向量;第一判断单元,用于判断预设的向量集中是否存在与所述证件图像的向量相匹配的向量,其中,所述向量集包括多个通过所述第一预设方式所生成的、对应于不同证件类型的证件图像的向量;第一分类单元,用于若所述向量集中存在与所述证件图像的向量相匹配的向量,将与所述证件图像的向量相匹配的向量作为目标向量,并根据所述目标向量对应的证件类型确定所述证件图像的证件类型。
第三方面,本申请实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现所述证件图像分类方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器执行所述证件图像分类方法。
本申请实施例提供了一种证件图像分类方法、装置、计算机设备及计算机可读存储介质。本申请实施例实现证件图像分类时,通过获取待分类的证件图像,基于OCR模型提取所述证件图像中包含的所有字段,根据所述字段,通过第一预设方式生成所述证件图像的向量,判断预设的向量集中是否存在与所述证件图像的向量相匹配的向量,其中,所述向量集包括多个通过所述第一预设方式所生成的、对应于不同证件类型的证件图像的向量,从而将对证件图像的分类转换为对向量之间接近程度的判断,由于图像中的文字内容比整图本身更具有代表性,将证件图像之间相似度的比对转换为向量之间相似度的判断,以对证件所属证件类型进行判断,相比直接通过证件图像对证件类型进行判断,能够提高对证件类型判断的准确性,若所述向量集中存在与所述证件图像的向量相匹配的向量,将与所述证件图像的向量相匹配的向量作为目标向量,并根据所述目标向量对应的证件类型确定所述证件图像的证件类型,从而根据向量之间的接近程度判断图像之间的相似度,再根据图像之间的相似度对证件图像进行分类,可以实现对证件分类的过程更加自动化,从而提高对证件图像的分类准确度和效率,尤其在对大批量未分类的文本文件进行处理时,可以快速得到对证件类型的精准分类结果,能够提高证件图像分类的简便性、高效性和准确性,可以相当程度的减少人工分类所带来的人力成本和时间成本,从而可以更加快速地根据分类结果为不同文件配置与其分类相对应的定制化服务,从整体上提高对证件的处理效率。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的证件图像分类方法的应用场景示意图;
图2为本申请实施例提供的证件图像分类方法的流程示意图;
图3为本申请实施例提供的证件图像分类方法中OCR模型进行文字提取的流程示意图;
图4为本申请实施例提供的证件图像分类方法的一个子流程示意图;
图5为本申请实施例提供的证件图像分类方法中通过OCR模型的识别结果生成特征字段集作为第二字段集的流程示意图;
图6为本申请实施例提供的证件图像分类方法的另一个流程示意图;
图7为本申请实施例提供的证件图像分类装置的一个示意性框图;以及
图8为本申请实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
请参阅图1,图1为本申请实施例提供的证件图像分类方法的应用场景示意图。所述应用场景包括:
(1)终端。终端用于拍摄证件的电子版图像以获得证件图像,例如通过智能手机的摄像头拍摄身份证或者驾驶证等证件以获得身份证或者驾驶证等证件的证件图像。所述终端可以为智能手机、智能手表、笔记本电脑、平板电脑或者台式电脑等内部具有摄像头组件或者通过接口连接有摄像头的计算机设备,图1中的终端与服务器连接。
(2)服务器。服务器接收终端发送的证件图像,并执行证件图像分类方法的步骤。服务器可以为单台服务器或者分布式的服务器集群,也可以为云服务器,通过有线网络或者无线网络与终端连接。
图1中的各个主体工作过程如下:终端拍摄证件的图像以获得证件图像,并将证件图像发送至服务器;服务器获取证件图像,基于OCR模型提取所述证件图像中包含的所有字段,根据所述字段,通过第一预设方式生成所述证件图像的向量,判断预设的向量集中是否存在与所述证件图像的向量相匹配的向量,其中,所述向量集包括多个通过所述第一预设方式所生成的、对应于不同证件类型的证件图像的向量,若所述向量集中存在与所述证件图像的向量相匹配的向量,将与所述证件图像的向量相匹配的向量作为目标向量,并根据所述目标向量对应的证件类型确定所述证件图像的证件类型。
需要说明的是,图1中仅仅示意出手机作为终端,在实际操作过程中,终端的类型不限于图1中所示,所述终端还可以为智能手表、笔记本电脑或者平板电脑等计算机设备,上述证件图像分类方法的应用场景仅仅用于说明本申请技术方案,并不用于限定本申请技术方案,上述连接关系还可以有其他形式。
图2为本申请实施例提供的证件图像分类方法的示意性流程图。该证件图像分类方法应用于图1中的服务器中,以完成证件图像分类方法的全部或者部分功能。
请参阅图2,图2是本申请实施例提供的证件图像分类方法的流程示意图。如图2所示,该方法包括以下步骤S201-S206:
S201、获取待分类的证件图像。
具体地,要在一个服务中适应不同的证件类型时,需要在进行后续逻辑之前,对证件所属证件类型进行分类处理,以根据证件的证件类型调取处理该证件类型的处理逻辑,例如在一个服务中,可以对身份证、驾驶证和简历等证件进行处理,获取证件的证件图像后,首先需要判断该证件图像是身份证、驾驶证还是简历,以对应调取身份证处理逻辑、驾驶证处理逻辑或者简历的处理逻辑对证件图像进行处理。
可以首先通过终端的摄像头拍摄证件的电子版图像以获得证件图像,例如智能手机通过智能手机的摄像头拍摄身份证或者驾驶证等证件以获得身份证或者驾驶证等证件的证件图像,所述终端可以为智能手机、智能手表、笔记本电脑、平板电脑或者台式电脑等内部具有摄像头组件的计算机设备或者通过接口连接有摄像头的计算机设备,终端拍摄证件的证件图像后,将所述证件图像发送至服务器,服务器获取待分类的证件图像,进一步对所述证件图像进行分类。
S202、基于OCR模型提取所述证件图像中包含的所有字段。
其中,OCR,英文为Optical Character Recognition,光学字符识别,是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。亦即将图像中的文字进行识别,并以文本的形式返回。
具体地,服务器基于OCR模型提取所述证件图像中包含的所有字段,也即服务器基于OCR模型对所述证件图像中包含的所有文字进行检测及识别以提取所述证件图像中包含的所有字段。
进一步地,请参阅图3,图3为本申请实施例提供的证件图像分类方法中OCR模型进行文字提取的流程示意图,OCR模型进行文字提取包括以下步骤S301-S305:
S301、OCR模型接收所述证件图像。
具体地,将所述证件图像输入所述OCR模型,其中,对于不同的图像格式,所述证件图像采用不同的存储格式和不同的压缩方式,只要OCR模型支持证件图像的存储格式即可,若OCR模型不支持证件图像的存储格式,需将所述证件图像的存储格式转换为OCR模型支持的存储格式,以进一步对所述证件图像进行处理。
S302、OCR模型对所述证件图像进行预处理。
具体地,图像预处理通常是针对图像的成像问题进行修正。常见的预处理过程主要包括二值化、噪声去除及倾斜较正等,比如进行几何变换(包括透视、扭曲、旋转等方式)、畸变校正、去除模糊、图像增强和光线校正等。
S303、OCR模型对所述证件图像进行文字检测。
具体地,文字检测即检测文本的所在位置和范围及其布局。通常也包括版面分析和文字行检测等。文字检测主要解决的问题是哪里有文字,文字的范围有多大。常用的检测方法包括Faster R-CNN及FCN RRPN(Rotation Region ProposalNetworks)等文本检测模型。
S304、OCR模型对所述证件图像进行文字识别。
具体地,文本识别是在文本检测的基础上,对文本内容进行识别,将图像中包含的图像形式的文本信息转化为可编辑的文字形式的文本信息。文字识别主要解决的问题是每个文字是什么。识别出的文本通常需要再次核对以保证其正确性。文本校正也被认为属于这一环节。而其中当识别的内容是由词库中的词汇组成时,我们称作有词典识别(Lexicon-based),反之称作无词典识别(Lexicon-free)。可以采用RNN和LSTM等依赖于时序关系的神经网络。文本识别网络结构包括CRNN模型及引入注意力机制等。
进一步地,与检测-识别的多阶段OCR不同,深度学习使端到端的OCR成为可能,将文本的检测和识别统一到同一个工作流中。目前比较受到瞩目的一种端到端框架叫做FOTS(Fast OrientedText Spotting)。FOTS的检测任务和识别任务共享卷积特征图。
S305、OCR模型将识别出来的文本输出。
具体地,将识别出来的文本输出。
S203、根据所述字段,通过第一预设方式生成所述证件图像的向量。
具体地,根据所述字段,通过第一预设方式生成所述证件图像的向量,经过以下过程:
1)首先,生成所有证件类型的所有固定字段组成的包含无重复字段的字段总集,也即将提取出的识别每个证件类型所需的固定字段进行组合,得到所有证件类型的所有固定字段组成的一个无重复字段的字段总集。
具体地,基于OCR模型对每种证件类型的多张证件图像进行提取,以识别出每种证件类型的多张证件图像中的共有的固定字段,将这些固定字段作为识别每种证件类型所需的固定字段,将所有证件类型的所有固定字段组成包含无重复字段的字段总集,也即字段的并集。
2)其次,根据所述证件图像中包含的所有字段,计算所述字段总集中包含的各个字段在所述证件图像中出现的次数,所述字段总集中包含的各个字段在所述证件图像中未出现的字段的次数记为0,从而得到与所述字段总集中的字段顺序相同的一个关于所述证件图像的数字序列,并且所述数字序列的顺序需要与生成各个证件类型的向量中描述的各个字段的顺序相同,也即生成的所述证件图像的向量中描述的各个字段的顺序与生成的各个证件类型的向量中的字段顺序相同,后续向量之间才有可比性,从而生成所述证件图像的向量。
可知,根据所述字段,通过第一预设方式生成所述证件图像的向量,是基于OCR模型提取所述证件图像中包含的所有字段后,由于预先已经将识别每个证件类型所需的字段进行组合,从而得到了多个证件类型的所有字段组成的一个无重复字段的字段总集,根据所述证件图像中包含的所有字段,计算所述字段总集中包含的各个字段在所述证件图像中出现的次数,所述字段总集中包含的各个字段在所述证件图像中未出现的字段的次数记为0,从而得到一个所述证件图像的数字序列,将所述数字序列按照与生成各个证件类型的向量中相同的字段顺序进行排序,从而生成所述证件图像的向量,也即所述证件图像的向量的生成方式与已生成的每个证件类型的向量的生成方式相同,并且所述每个证件类型的向量包含于由所有证件类型的向量组成的集合对应的向量集中。例如,基于OCR模型提取所述证件图像中包含的所有字段包括ACFG,其中,A出现了2次,C出现了5次,F出现了1次,G出现了6次,假设预先生成的字段总集包含的字段及其顺序为:ABCDEFGH,根据上述生成向量的生成方式,生成的所述证件图像的向量为{2,0,5,0,0,1,6,0}。
S204、判断预设的向量集中是否存在与所述证件图像的向量相匹配的向量,其中,所述向量集包括多个通过所述第一预设方式所生成的、对应于不同证件类型的证件图像的向量。
具体地,判断预设的向量集中是否存在与所述证件图像的向量相匹配的向量,是通过判断所述向量集中包含的向量与所述证件图像的向量是否满足预设条件。通过预设向量集,所述向量集包括多个通过所述第一预设方式所生成的、对应于不同证件类型的证件图像的向量,也即通过第一预设方式生成所述证件图像的向量,所述第一预设方式与已生成的每个证件类型的向量的生成方式相同,且所述每个证件类型的向量包含于由所有证件类型的向量组成的集合对应的向量集中,本申请实施例再根据两个图像之间的相似度将图像进行分类,通过将两个图像之间相似度的判断转换为两个图像对应的两个向量接近程度的判断,可以通过计算两个向量之间的余弦相似度,余弦相似度越大,表明两个向量越接近,两个图像越相似,或者计算两个向量对应的两点之间的距离,距离越短,两个向量越接近,两个图像越相似,也即可以通过计算所述向量集中包含的向量与所述证件图像的向量之间的余弦相似度或者两个向量之间的距离,根据所述证件图像的向量与所述向量集中的向量之间的关系是否满足预设条件以判断是否可以将所述证件图像进行归类。
进一步地,针对两个向量余弦相似度设置预设余弦相似度阈值,或者针对两个向量之间的距离设置预设距离阈值,若两个向量之间的余弦相似度不小于预设余弦相似度阈值,或者若两个向量之间的距离不大于预设距离阈值,判断两个向量接近程度满足要求,判断所述向量集中包含的向量与所述证件图像的向量满足预设条件,若两个向量之间的余弦相似度小于预设余弦相似度阈值,或者若两个向量之间的距离大于预设距离阈值,判断两个向量接近程度不满足要求,判断所述向量集中包含的向量与所述证件图像的向量不满足预设条件。
S205、若所述向量集中存在与所述证件图像的向量相匹配的向量,将与所述证件图像的向量相匹配的向量作为目标向量,并根据所述目标向量对应的证件类型确定所述证件图像的证件类型;
S206、若所述向量集中不存在与所述证件图像的向量相匹配的向量,对所述证件图像分类失败。
具体地,由于判断预设的向量集中是否存在与所述证件图像的向量相匹配的向量,是通过判断所述向量集包含的向量中是否存在与所述证件图像的向量满足预设条件的向量。若判断两个向量接近程度满足要求,判断所述向量集包含的向量中存在与所述证件图像的向量满足所述预设条件的向量,判断所述向量集中存在与所述证件图像的向量相匹配的向量,将与所述证件图像的向量相匹配的向量作为目标向量,并根据所述目标向量对应的证件类型确定所述证件图像的证件类型,也即可以通过将所述证件图像按照预设分类方式分类至所述向量集中与所述证件图像的向量满足所述预设条件的一个向量对应的证件类型,从而实现对证件图像进行分类。若判断所述向量集包含的向量中不存在与所述证件图像的向量满足所述预设条件的向量,判断所述向量集中不存在与所述证件图像的向量相匹配的向量,不可以将所述证件图像归类至所述向量集中的任何一个证件类型,对所述证件图像分类失败,如果对所述证件图像分类失败,可以进行分类失败的提示以交给用户进行人工处理。本申请实施例提供的证件图像的分类方法,通过将图像的归类转换为基于文字内容的条件的判断,由于对于文本类型的文件来说,文字内容比整图本身更具有代表性,只要采取合理的逻辑,根据文本内容进行分类比直接用普通的物体识别模型进行分类会有更好的效果,特别是对于图像特征不明显,容易和其他文件类型混淆的文本图像类型来说,只要其有一个固定的格式,存在有代表性的字段组合,那么通过OCR的字段识别结果来对证件图像进行分类将能够提高对证件图像分类的准确性。
本申请实施例实现证件图像分类时,通过获取待分类的证件图像,基于OCR模型提取所述证件图像中包含的所有字段,根据所述字段,通过第一预设方式生成所述证件图像的向量,所述第一预设方式与已生成的每个证件类型的向量的生成方式相同,并预先将所述每个证件类型的向量包含于由所有证件类型的向量组成的集合对应的向量集中,再判断预设的向量集中是否存在与所述证件图像的向量相匹配的向量,从而将对证件图像的分类转换为对向量之间接近程度的判断,由于图像中的文字内容比整图本身更具有代表性,将证件图像之间相似度的比对转换为向量之间相似度的判断,以对证件所属证件类型进行判断,相比直接通过证件图像对证件类型进行判断,能够提高对证件类型判断的准确性,若所述向量集中存在与所述证件图像的向量相匹配的向量,将与所述证件图像的向量相匹配的向量作为目标向量,并根据所述目标向量对应的证件类型确定所述证件图像的证件类型,也即若所述向量集包含的向量中存在与所述证件图像的向量满足所述预设条件的向量,将所述证件图像按照预设分类方式分类至与所述证件图像的向量满足所述预设条件的一个向量对应的证件类型,从而根据向量之间的接近程度判断图像之间的相似度,再根据图像之间的相似度对证件图像进行分类,可以实现对证件分类的过程更加自动化,从而提高对证件图像的分类准确度和效率,尤其在对大批量未分类的文本文件进行处理时,可以快速的得到对证件类型的精准分类结果,能够提高证件图像分类的简便性、高效性和准确性,可以相当程度的减少人工分类所带来的人力成本和时间成本,从而可以更加快速地根据分类结果为不同文件配置与其分类相对应的定制化服务,从整体上提高对证件的处理效率。
在一个实施例中,所述判断预设的向量集中是否存在与所述证件图像的向量相匹配的向量的步骤之前,还包括:
生成所述向量集。
具体地,通过所述第一预设方式生成对应于不同证件类型的每种证件的向量,由所有证件各自的向量组成向量集。由于本申请实施例根据同一证件类型的多张证件图像中包含的共有字段作为判断证件类型的依据实现对证件图像的分类,多张证件中包含的共有字段也即证件中包含的固定字段,需要通过OCR模型提取证件图像中包含的字段。为了借助OCR的识别结果对证件类型的文件进行分类,需要在对证件图像进行分类之前,建立一个类别库,也即向量集,用来告知服务符合怎样条件的OCR识别结果将被识别为属于哪一类别的证件类型中。通过所述第一预设方式生成对应于每种证件类型的证件图像的向量,是指通过识别每种证件类型的多张证件图像中的共有的固定字段及所述固定字段出现的次数,将所有证件类型的所有固定字段组成包含无重复字段的字段总集,也即字段的并集,将该并集中的多个字段按照预设顺序进行排序,将每种证件类型的各个固定字段出现的次数按照所述并集中对应字段的位置生成数字序列,并且该并集中的字段在每种证件类型的固定字段中未出现的记为0,即可将证件图像转换为对应的向量描述,生成对应于每种证件类型的证件图像的向量,也即用该证件图像对应的向量来描述该证件图像,后续通过向量之间接近程度的判断,来判断图像之间的相似程度,从而实现根据向量之间的关系实现对证件图像的分类。例如,若一个证件类型H中出现的固定字段为A、B、C及D共四个字段,A出现了5次、B出现了1次、C出现了3次及D出现了2次,由A、B、C及D出现的次数组成的对应向量为{5,1,3,2},若另一图像中也出现了A、B、C及D四个字段,可以根据另一图像中A、B、C及D出现的次数判断所述另一图像是否为上述证件类型H,也即可以通过所述另一图像中A、B、C及D出现的次数生成的向量与向量{5,1,3,2}来判断所述另一图像是否属于上述证件类型H。因此,在对证件图像进行分类之前,要预先生成由所有证件类型的向量组成的集合对应的向量集,后续将所述证件图像的向量和向量集中的向量进行对比,以判断所述证件图像是否属于向量集中的一个向量对应的证件类型。
进一步地,请参阅图4,图4为本申请实施例提供的证件图像分类方法的一个子流程示意图。如图4所示,其中,S401至S407为通过所述第一预设方式生成对应于不同证件类型的每种证件图像的向量,再由所有证件各自的向量组成向量集以生成所述向量集,也即所述生成所述向量集的步骤包括以下步骤S401-S408:
S401、获取属于同一个证件类型的多张证件图像。
具体地,在获取同一个证件类型中包含的共有的固定字段作为识别该证件类型的依据时,需要通过对同一个证件类型的多张证件图像各自包含的所有字段进行对比分析,以筛选出多张证件图像中共有的固定字段。比如,针对证件类型为身份证的多张证件图像ABCDE五张证件图像进行对比分析,可以获知五张身份证的证件图像中均包含字段“姓名”、“性别”、“民族”、“住址”、“公民身份号码”、“签发机关”及“有效期限”等字段,而这些字段需要通过对多张身份证的证件图像中各自包含的所有字段进行筛选获得的,一般情况下,同一个证件类型的多张证件图像作为筛选该证件类型的共有的固定字段的样本,样本数量越大,对共有的固定字段的筛选越准确。
S402、针对每一张所述证件图像,基于所述OCR模型提取所述证件图像中包含的所有字段,并统计每个所述字段出现的次数以生成每张所述证件图像对应的第一字段集。
具体地,针对每一张所述证件图像,通过OCR模型获取文本识别结果,以提取每张所述证件图像中包含的所有字段,并统计每个所述字段出现的次数以生成每张所述证件图像对应的第一字段集。例如,若一张所述证件图像中包含ABCDE共5个字段,其中,A出现了2次,B出现了4次,C出现了6次,D出现了1次,E出现了2次,可以组成第一字段集{(A,2),(B,4),(C,6),(D,1),(E,2)}。
针对获取的多张所述证件图像中的每张证件图像,均各自重复上述针对每一张所述证件图像生成所述证件图像对应的所述第一字段集的过程,可以得到多张所述证件图像各自的所述第一字段集。
S403、对比每个所述第一字段集中包含的字段,筛选出所有所述第一字段集中共有的字段。
具体地,由于多张证件图像属于同一个证件类型,多张证件图像具有共同的格式或者模板,因此多张证件图像具有共同的字段,并且所述共同的字段具有共同的出现次数等共同属性,例如身份证,进而对比多个所述第一字段集中的每个所述第一字段集中包含的字段,筛选出各个所述第一字段集中共有的字段。例如获得同属身份证的八张证件图像,可以得到八个第一字段集,对比这八个第一字段集,由于身份证的固定格式会存在其中共有的固定字段,并且共同字段具有共同属性,筛选出这八个第一字段集中的共有的字段,假设这八个第一字段集中的共有字段包括ABCD共四个字段,其中A出现了2次,B出现了4次,C出现了6次,D出现了1次,可以组成一个集合{(A,2),(B,4),(C,6),(D,1)}。
S404、从所述共有的字段中按照第二预设方式提取预设数量的共有字段组成第二字段集,所述第二字段集用于作为识别所述证件类型的依据。
其中,第二预设方式包括按照各个字段出现的频率提取预设数量的共有字段,可以按照各个字段出现的频率由高到低提取预设数量的共有字段,也可以按照字段出现的频率由低到高提取预设数量的共有字段,其中预设数量的依据是以能以该数量的共有字段识别该证件类型为准,不能存在不同的证件类型提取相同数量的相同字段且相同字段各自出现的次数相同作为第二字段集。进一步地,可以通过判断每两个证件类型提取的预设数量的共有字段及各个字段出现的次数是否相同,若两个证件类型提取的预设数量的共有字段及各个字段出现的次数相同,需要至少重新提取其中一个证件类型的共有字段组成新的第二字段集,以使所有证件类型中的每两个证件类型提取的预设数量的共有字段及各个字段出现的次数均不相同。
具体地,可以从所述共有的字段中按照第二预设方式提取预设数量的部分共有字段组成第二字段集,也可以将所有的共有字段作为第二字段集,即对比各个样本提取到的文本信息,提取各样本中共有的字段组成第二字段集,并将第二字段集及对应的证件类型存入分类类别库中以供后续用于对证件图像进行分类使用。
以将所有的共有字段作为第二字段集为例,请参阅图5,图5为本申请实施例提供的证件图像分类方法中通过OCR模型的识别结果生成特征字段集作为第二字段集的流程示意图,通过上传多张同类样本图像至OCR模型,通过OCR模型提取所述样本图像中包含的文字内容以得到识别出字段结果,对比识别到的字段结果,提取字段结果中共有的字段及共有的字段各自的出现次数组成特征字段集合,将特征字段集合与特征字段集合对应的证件类型的种类存入分类用的字段集形成的分类库中。由于一个样本中包括的文字内容会比较多,比如在一个关于简历的样本中,A样本图片中,包括姓名张三,B样本图片中包括姓名李四,C样本图片中包括姓名王五,由于OCR模型识别时会识别出来A,姓名:张三;B,姓名:李四;C,姓名:王五,对比ABC三个样本提取到的文本信息,提取ABC三个样本中共有的字段“姓名”组成字段集,将“姓名”组成的字段集作为判断样本为简历的依据,若OCR模型识别出来的一图片D中包括“姓名”,判断图片D的分类为简历,调用处理简历的处理逻辑处理图片D,当然,在一个种类的划分中,不仅仅包括一个字段,可以是多个共有字段的并集,比如,关于身份证的样本,包括“姓名、出生日期、身份证号及发证机关”等从身份证上识别出来的共有字符集。其实,也可以理解为从OCR模型识别出来的所有文字中,获取该种类图片的共有字段,忽略对共有字段的具体赋值,比如,关于上述简历种类,获取所有简历样本中识别出来的所有文字中包括的“姓名”字段,忽略对“姓名”字段的具体赋值,也就是获取“姓名”字段作为判断简历种类的依据,而不管该“姓名”具体是张三还是李四还是王五。再比如,对一个种类的所有样本中,识别出来AX1BY1DZ1、AX2B Y2C Z2、AX3B Y3E Z3、AX4B Y4F Z4,取共有字符集AB作为判断该种类的依据。将共有字符集储存起来作为之后对新输入样本的分类依据,若新输入样本图像也包括AB,判断新输入样本图像为AB对应的分类,若新输入样本图像不满足包括AB,判断新输入样本不为AB对应的分类。
进一步地,由于对于一种证件来说,其实是有很多固定字段的,比如姓名、身份证号等等。这些固定字段在同种类的不同样本中,比如在身份证这个种类的样本包括的张三的身份证A、李四的身份证B王五的身份证C中,几乎不会产生变化,比如所有身份证上都有“姓名”,“性别”,“出生”等字段。而对于不同种类的证件,其固定字段则会有不同程度的区别。因此可以将这些固定字段作为证件的一种特征标识,当证件符合某种字段组合时,则可以判断这个证件是输入该种类的证件。在这些证件中,只在该类证件中出现的具备特征标识性的字段称为标识性字段。由于具有标识性的字段是只在该证件类型中出现的字段,只要包含该标识性字段就可对证件类型做出判断,因此,也可以取包含该证件类型中特有的标识性字段的部分共有字段作为第二字段集,例如将所有的共有字段按照出现次数由高到低的顺序进行排序,取排序靠前n位的字段作为第二字段集,或者取排序靠后m位的字段作为第二字段集,其中,m和n分别为自然数。例如,假设身份证图像中包含的字段“公民身份号码”只出现在身份证中,可以作为判断身份证的证件类型的标识性字段,只要出现“公民身份号码”,就可判断所述图像为身份证的图像,就可以选取包含“公民身份号码”的部分共有字段作为身份证的第二字段集,而不需要将身份证中出现的所有共有的固定字段作为第二字段集,由于需要处理的字段比较少,采取包含标识性字段的部分共有字段作为第二字段集,可以提高对证件类型的判断效率。
更进一步地,要将该证件类型的具备特征性的标识性字段提取,可以借助OCR模型的识别结果,对多张同类型样本识别之后,得到的多个识别结果中,可以分析出有些字段在所有样本中是都会出现的,当其出现大于一定阈值时,则认为这是一个特征字段,当同种字段的同种次数出现大于一定阈值时,将该字段的出现次数记为相应次数,比如90%样本中“姓名”出现了三次以上,而四次以上的只有10%,则记录姓名的出现次数为3次,这里主要是用大概率识别该种类的特征字段,小概率的可能是特殊情况,如上述举例,若90%样本中“姓名”出现了三次以上,而四次以上的只有10%,则记录姓名的出现次数为3次作为该种类的特征字段,姓名出现四次以上的只有10%,可能是其他情况导致的。通过这样的方式,可生成关于该种类证件类型的特征标识性字段集。
对不同种类的证件类型重复上述过程生成多个证件类型各自的第二字段集作为类别字段集,进而通过各自的类别字段集作为判断对应证件类型的依据。
S405、将所有所述第二字段集中出现的所有字段组成一个无重复字段的字段总集。
具体地,获取多个证件类型各自的第二字段集后,形成了判断证件类型类别的各个字段集合,再将所有类别中出现的所有字段组成一个无重复字段的总集合,以得到将所有所述第二字段集中出现的所有字段组成一个无重复字段的字段总集。比如,假设有4类证件类型,包括:1类,ABC;2类,ACD;3类,BCDE;4类,CDEFG,将1类、2类、3类及4类中出现的所有字段组成一个无重复字段的总集合为ABCDEFG,取并集关系,形成ABCDEFG七个维度。
S406、针对每个所述第二字段集,根据所述第二字段集中包含的每个所述字段在对应所述证件类型的证件图像中出现的次数,统计所述字段总集中包含的字段在所述第二字段集中出现的次数,从而得到所述第二字段集对应的证件类型所属的数字序列。
具体地,针对每个所述第二字段集,根据所述第二字段集中包含的每个所述字段在对应所述证件类型的证件图像中出现的次数,统计所述字段总集中包含的字段在所述第二字段集中出现的次数,所述字段总集中包含的字段在所述第二字段集中未出现的记为0,从而得到所述第二字段集对应的证件类型所属的数字序列。对每个类别的字段集,计算总集的字段在单独类别字段集中出现的次数,没出现的记为0。例如,针对1类ABC,DEFG分别记为0,针对2类ACD,BEFG分别记为0。同时,每个字段不一定是出现一次的,比如合同中,甲方可能出现4次,乙方可能出现2次。同时,同一个字段在不同的类别中出现的次数可能也不同,比如,A在1类中可能出现3次,A在2类中可能出现五次。计算总集的字段在单独类别字段集中出现的次数,没出现的记为0,比如,总集中的字段ABC在1类中出现的次数为123,总集中的字段ACD在2类中出现的次数为356,没出现的记为0。
S407、将所述数字序列按照字段的预设顺序进行排序,从而得到所述第二字段集对应的所述证件类型的向量。
具体地,对每个类别,将上一步中计算得到的数字序列以总集中字段为依据排列为固定顺序组成针对该类别的一个向量。对总集中的字段没有顺序上的要求,只是要求总集中的字段顺序和单独类别中的字段顺序一致,就可以形成对应的具有可比性的向量,比如,总集中的字段顺序为ACDFE,单独类别中的字段顺序也应ACDFE的字段顺序形成对应的向量,比如,针对步骤S408中的举例,1类形成的向量为1230000,2类形成的向量为3058000。
针对多个证件类型各自的第二字段集,重复上述针对每个所述第二字段集生成所述第二字段集对应的所述证件类型的向量的过程,得到多个所述证件类型各自的向量;
S408、将多个所述证件类型各自的向量组成集合以生成向量集。
具体地,针对多个证件类型各自的第二字段集,重复上述针对每个所述第二字段集生成所述第二字段集对应的所述证件类型的向量的过程,得到多个所述证件类型各自的向量,将多个所述证件类型各自的向量组成集合以生成向量集。
在一个实施例中,所述得到所述第二字段集对应的证件类型所属的数字序列的步骤之后,还包括:
根据所述第二字段集中每个所述字段出现的次数,按照第三预设方式配置权重至所述第二字段集对应的所述数字序列中每个所述字段对应的数字。
具体地,将生成的包含所有类别的特征字段提取出来,用所有字段组成一个不重复的有序的字段总集,对每个类别计算出字段总集中包含的所有字段在该类别中出现的次数,对于未出现的字段次数记作0,同时计算每个字段在不同种类中的出现频数,所占有的种类越少,赋予其更高的权重,将次数与权重相乘,组成该种类中该字段的一个值,按照总集的顺序将这些值组合起来,就可以生成一个向量作为这个种类的特征向量,其中,频数,英文为Frequency,又称“次数”,指变量值中代表某种特征的数(标志值)出现的次数。比如,若“姓名”这个字段在总共10个类别中的8个类中均出现了,“姓名”这个字段作为划分类别的依据的辨识度不高,赋予其较低的权重,若“姓名”这个字段在总共10个类别中的1个类中出现了,“姓名”这个字段作为划分类的依据的辨识度很高,可以作为更强的分类依据,赋予其较高的权重。比如,请参阅表格1,若有表格1中的类别:
表格1
若存在1类、2类及3类证件的三种分类,其中,1类包含特征字段BC,2类包含特征字段AC,3类包含特征字段BCD。目标证件包含的特征字段为ACD,其中各个字段的次数如表格中所示。可以根据ABCD分别在1类2类及3类中出现的频数,计算出ABCD各自的权重,可以以n/m为ABCD权重的计算方式,其中,n为ABCD分别在1类2类及3类中出现的频数,也就是在1类2类及3类中是否出现,m为各个字段在各个类中出现的频数之和,A在1类2类3类中总共出现了1次,B在1类2类3类中总共出现了2次,C在1类2类3类中总共出现了3次,D在1类2类3类中总共出现了1次,上述各次相加m=1+2+3+1=7。比如,上述表格中的实施例,ABCD的权重分别为:
①A在1类2类3类中只在2类中出现了,A的出现频数为1次,A的权重为1/7;
②B在1类和3类中均出现了,出现的频数为2次,B的权重为2/7;
③C在1类2类3类中均出现了,出现了3次,C的权重为3/7;
④D由于只在3类中出现了,D的权重为1/7。
在上述权重的表达方式中,ABCD的权重之和为1。
对各个证件的向量包含的值计算的公式为:字段出现的次数*权重。
比如,对于上述1类的向量组成为ABCD,0BC0,其中,B=2*2/7=4/7,C=1*3/7=3/7,1类的向量为(0,4/7,3/7,4/7);
对于上述2类的向量组成为ABCD,A0C0,其中,A=1*1/7=1/7,C=2*3/7=6/7,2类的向量为(1/7,0,6/7,0);
对于上述3类的向量组成为ABCD,0BCD,其中,B=1*2/7=2/7,C=1*3/7=3/7,D=1*1/7=1/7,3类的向量为(0,2/7,3/7,1/7)。
目标证件的向量为ABCD,A0CD,其中,A=2*1/7=2/7,C=1*3/7=3/7,D=3*1/7=3/7,3类的向量为(2/7,0,3/7,3/7)。
然后通过计算目标证件的向量分别与1类、2类及3类向量的余弦值相似度,若向量余弦值相似度满足预设条件,将目标证件归类到1类、2类或者3类里,否则,归类失败。
在一个实施例中,所述字段对应的数字配置的权重与每个所述字段出现的次数成反比。
具体地,针对证件类型的特征字段集合对应的第二字段集中,为了实现字段所占有的种类越少,即字段在证件类型中出现的频数越少,赋予该字段更高的权重,将该字段出现的次数与权重相乘,组成该种类关于该字段的一个值。由于权重用于描述因素或指标的相对重要程度,倾向于描述因素或者指标的贡献度或重要性,在一种权重表达方式中,ABCD的权重之和为1,在另一种权重表达方式中,ABCD的权重之和也可以不为1,比如,权重也可以为1/m,m为该字段在所有类别中出现的频数之和,具体采取如下分配方式:
①A在1类2类3类中只在2类中出现了,A的出现频数为1次,A的权重为1;
②B在1类和3类中均出现了,出现的频数为2次,B的权重为0.5;
③C在1类2类3类中均出现了,出现了3次,C的权重为0.3;
④D由于只在3类中出现了,D的权重为1。
其中,频数又可以称为次数,是指在相同的条件下,进行了f次试验,在这f次试验中,事件A发生的次数m称为事件A发生的频数。
权重值越大说明该特征项的表示能力越强,反之权重越小表示能力越弱,只要采用同一种标准分配权重即可。
采用上述同样的方式,通过为单独每个证件类型的第二字段集中各个字段配置权重,也可以为输入的每个单独类型的证件样本生成一个关于总集的特征向量,通过为每个证件类型的特征字段配置权重,以体现不同字段在证件类型判断过程中的重要性,可以提高对证件图像的分类准确性和效率。
在一个实施例中,所述判断预设的向量集中是否存在与所述证件图像的向量相匹配的向量的步骤包括:
计算所述证件图像的向量与所述向量集中包含的每个向量的余弦相似度;
判断是否存在余弦相似度不小于预设余弦相似度阈值的向量;
若存在余弦相似度不小于预设余弦相似度阈值的向量,判定所述向量集中存在与所述证件图像的向量相匹配的向量;
若所有所述余弦相似度均小于所述预设余弦相似度阈值,判定所述向量集中不存在与所述证件图像的向量相匹配的向量。
其中,余弦相似度,也可以称为余弦距离,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异大小的度量。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,也称为“余弦相似性”。
具体地,计算输入的证件图像的向量与各类别证件类型的向量的余弦相似度。其中,余弦相似度的计算可以通过如下方式:
两个向量间的余弦值可以通过使用欧几里得点积公式求出:
a·b=||a||||b||cosθ. 公式(1)
给定两个属性向量,A和B,其余弦相似性θ由点积和向量长度给出,如下所示:
其中,Ai,Bi分别代表向量A和B的各分量。给出的相似性范围从-1到1,-1意味着两个向量指向的方向正好截然相反,1表示它们的指向是完全相同的,0通常表示它们之间是独立的,而在这之间的值则表示中间的相似性或相异性。对于文本匹配,属性向量A和B通常是文档中的词频向量。余弦相似性,可以被看作是在比较过程中把文件长度正规化的方法。
通过计算输入的证件图像的向量与向量集中包含的向量之间的余弦相似度来判断输入的证件图像和分类库中各种类别的证件类型之间的相似性,当余弦相似度最大且大于预设余弦相似度阈值时,可以认为该证件图像属于该向量对应的证件类型,也即当余弦相似度大于预设余弦相似度阈值时,取其中余弦相似度最高的证件类型的类别作为分类结果。如果向量集中包含的向量与所述证件图像的向量之间的所有余弦相似度都小于预设余弦相似度阈值,判断没有找到与所述证件图像匹配的证件类型的种类,判断对该证件图像分类失败。如果对该证件图像分类失败,对所述证件图像分类失败进行提示以交给用户进行处理。通过先将所有类别中出现的所有字段组成一个无重复字段的总集和,对每个类别的字段集计算总集的字段在单独类别字段集中出现的次数,没出现的记为0,对每个类别,将统计得到的每个字段出现的次数以总集中字段的顺序为依据排列为固定顺序,组成针对该类别的一个向量,同样的对输入图像提取到的文本信息以相同的规则生成一个关于总集的向量,计算输入图像的向量与各类别向量的余弦相似度,当相似度大于一定阈值时,取其中相似度最高的类别作为分类结果,让分类的过程更加自动化,提高对证件的分类效率。
在一个实施例中,所述若所述向量集中存在与所述证件图像的向量相匹配的向量,将与所述证件图像的向量相匹配的向量作为目标向量,并根据所述目标向量对应的证件类型确定所述证件图像的证件类型的步骤包括:
若所述向量集中存在与所述证件图像的向量相匹配的向量,将与所述证件图像的向量相匹配的向量作为目标向量;
若所述目标向量的数量为一个,将所述目标向量对应的证件类型确定为所述证件图像的证件类型;
若所述目标向量的数量为多个,将多个所述目标向量中与所述证件图像的向量最接近的目标向量对应的证据类型确定为所述证件图像的证件类型。
具体地,若所述向量集中存在与所述证件图像的向量相匹配的向量,将与所述证件图像的向量相匹配的向量作为目标向量,由于一个证件图像只能对应一个证件类型,若所述目标向量的数量为一个,将所述目标向量对应的证件类型确定为所述证件图像的证件类型,若所述目标向量的数量为多个,将多个所述目标向量中与所述证件图像的向量最接近的目标向量对应的证据类型确定为所述证件图像的证件类型,也即若所述向量集包含的向量中存在与所述证件图像的向量满足预设条件的向量为一个,将所述证件图像分类至与所述证件图像的向量满足预设条件的向量对应的证件类型,若所述向量集包含的向量中存在与所述证件图像的向量满足预设条件的向量为一个以上,将所述证件图像分类至与所述证件图像的向量满足预设条件的向量中与所述证件图像的向量最接近的向量对应的证件类型,也即将所述证件图像按照预设分类方式分类至与所述证件图像的向量满足所述预设条件的一个向量对应的证件类型,从而实现对证件图像进行分类。
在一个实施例中,所述基于OCR模型提取所述证件图像中包含的所有字段的步骤之前,还包括:
通过预设证件识别模型对所述证件图像进行识别;
判断通过所述预设证件识别模型是否能够确定所述证件图像所属的证件类型;
若能够确定所述证件图像所属的证件类型,将所述证件图像分类至所述预设证件识别模型所属的证件类型;
若通过所述预设证件识别模型未能确定所述证件图像所属的证件类型,执行所述基于OCR模型提取所述证件图像中包含的所有字段的步骤。
其中,预设证件识别模型是指身份证、结婚证及驾驶证等已有的成熟的识别模型对应的物体识别模型。
具体地,对于证件类型的文件来说,一些特征明显的证件例如身份证、驾驶证等是可以通过训练物体识别模型来进行分类的,并且身份证、结婚证及驾驶证等已有成熟的物体识别模型可以识别这些证件类型对应的证件,采用这些物体识别模型识别各自对应的证件,可以准确的识别出对应的证件图像。但是对于一些特征比较相似的证件,如一些A4纸打印出来的表格类证件等,通过上述的身份证、结婚证或者驾驶证等普通的物体识别模型就比较难以区分。为了提高分类的准确性,本申请实施例中采用多层的结构对证件图像进行分类。首先通过一个针对身份证、结婚证及驾驶证等特征证件进行过训练的物体识别模型,先通过物体识别模型对所述证件图像进行识别,若是能识别出来是身份证、结婚证或者驾驶证等证件,如果该物体识别模型得到分类结果且置信度大于预设阈值,则认为该输入样本为该种类证件,直接用该类证件的后续处理逻辑的模型进行处理,可以提高对证件图像的处理效率,若不是身份证、结婚证或者驾驶证等证件,通过物体识别模型识别不出来具体证件类型,再用本申请实施例上述的证件图像的分类方法的步骤以实现对证件类型的分类,也即通过预设证件识别模型对所述证件图像进行识别,判断通过所述预设证件识别模型是否能够确定所述证件图像所属的证件类型,若能够确定所述证件图像所属的证件类型,将所述证件图像分类至所述预设证件识别模型所属的证件类型,若通过所述预设证件识别模型未能确定所述证件图像所属的证件类型,执行所述基于OCR模型提取所述证件图像中包含的所有字段的步骤,基于OCR模型提取所述证件图像中包含的所有字段,以后续采取本申请实施例中所描述的证件图像分类的方法。其中,所谓置信度,也叫置信水平,是指特定个体对待特定命题真实性相信的程度,也就是概率是对个人信念合理性的量度。概率的置信度解释表明,事件本身并没有什么概率,事件之所以指派有概率只是指派概率的人头脑中所具有的信念证据。置信水平是指总体参数值落在样本统计值某一区内的概率;而置信区间是指在某一置信水平下,样本统计值与总体参数值间误差范围。置信区间越大,置信水平越高。
进一步地,请参阅图6,图6为本申请实施例提供的证件图像分类方法的另一个流程示意图。如图6所示,在该实施例中,对证件分类的过程包括:输入需要进行分类的证件图像,首先通过预设的证件识别模型(即物体识别模型)对证件图像进行分类,若物体识别模型对所述证件图像分类成功,直接获得所述证件图像的分类结果,如果通过物体识别模型无法识别出所述证件图像的具体证件类型,即无法通过物体识别模型具体识别出该证件是身份证、结婚证或者驾驶证等成熟的物体识别模型可以识别的证件种类,对所述证件图像分类失败,进入OCR模型提取所述输入图像中的文字信息,获得文本识别结果,根据文本识别结果得到输入图像的字段集向量,并预先通过类别库中获得字段总集,通过字段总集计算出类别库中各个类别的证件类型的向量组成的各类别向量集,计算输入图像的字段集的向量与向量集中的向量之间的相似度,通过向量之间的相似度对所述证件图像进行分类,若对所述证件图像分类成功,获得所述证件图像的分类结果,若对所述证件图像分类识别,可以判断所述证件图像属于其他类别,可以通过对所述图像分类失败进行提示以进行人工处理。
需要说明的是,上述各个实施例所述的证件图像分类方法,可以根据需要将不同实施例中包含的技术特征重新进行组合,以获取组合后的实施方案,但都在本申请要求的保护范围之内。
请参阅图7,图7为本申请实施例提供的证件图像分类装置的示意性框图。对应于上述证件图像分类方法,本申请实施例还提供一种证件图像分类装置。如图7所示,该证件图像分类装置包括用于执行上述证件图像分类方法的单元,该装置可以被配置于服务器等计算机设备中。具体地,请参阅图7,该证件图像分类装置700包括获取单元701、提取单元702、第一生成单元703、第一判断单元704及第一分类单元705。
其中,获取单元701,用于获取待分类的证件图像;
提取单元702,用于基于OCR模型提取所述证件图像中包含的所有字段;
第一生成单元703,用于根据所述字段,通过第一预设方式生成所述证件图像的向量;
第一判断单元704,用于判断预设的向量集中是否存在与所述证件图像的向量相匹配的向量,其中,所述向量集包括多个通过所述第一预设方式所生成的、对应于不同证件类型的证件图像的向量;
第一分类单元705,用于若所述向量集中存在与所述证件图像的向量相匹配的向量,将与所述证件图像的向量相匹配的向量作为目标向量,并根据所述目标向量对应的证件类型确定所述证件图像的证件类型。
在一个实施例中,所述证件图像分类装置700还包括:
第二生成单元,用于生成所述向量集;
所述第二生成单元包括:
获取子单元,用于获取属于同一个证件类型的多张证件图像;
第一提取子单元,用于针对每一张所述证件图像,基于所述OCR模型提取所述证件图像中包含的所有字段,并统计每个所述字段出现的次数以生成每张所述证件图像对应的第一字段集;
对比子单元,用于对比每个所述第一字段集中包含的字段,筛选出所有所述第一字段集中共有的字段;
第二提取子单元,用于从所述共有的字段中按照第二预设方式提取预设数量的共有字段组成第二字段集,所述第二字段集用于作为识别所述证件类型的依据;
组成子单元,用于将所有所述第二字段集中出现的所有字段组成一个无重复字段的字段总集;
第一得到子单元,用于针对每个所述第二字段集,根据所述第二字段集中包含的每个所述字段在对应所述证件类型的证件图像中出现的次数,统计所述字段总集中包含的字段在所述第二字段集中出现的次数,从而得到所述第二字段集对应的证件类型所属的数字序列;
排序子单元,用于将所述数字序列按照字段的预设顺序进行排序,从而得到所述第二字段集对应的所述证件类型的向量;
生成子单元,用于将多个所述证件类型各自的向量组成集合以生成向量集。
在一个实施例中,所述第二生成单元还包括:
配置子单元,用于根据所述第二字段集中每个所述字段出现的次数,按照第三预设方式配置权重至所述第二字段集对应的所述数字序列中每个所述字段对应的数字。
在一个实施例中,所述字段对应的数字配置的权重与每个所述字段出现的次数成反比。
在一个实施例中,所述第一判断单元704包括:
计算子单元,用于计算所述证件图像的向量与所述向量集中包含的每个向量的余弦相似度;
第一判断子单元,用于判断是否存在余弦相似度不小于预设余弦相似度阈值的向量;
判定子单元,用于若存在余弦相似度不小于预设余弦相似度阈值的向量,判定所述向量集中存在与所述证件图像的向量相匹配的向量。
在一个实施例中,所述第一分类单元705包括:
第二判断子单元,用于若所述向量集中存在与所述证件图像的向量相匹配的向量,将与所述证件图像的向量相匹配的向量作为目标向量;
第一分类子单元,用于若所述目标向量的数量为一个,将所述目标向量对应的证件类型确定为所述证件图像的证件类型;
第二分类子单元,用于若所述目标向量的数量为多个,将多个所述目标向量中与所述证件图像的向量最接近的目标向量对应的证据类型确定为所述证件图像的证件类型。
在一个实施例中,所述证件图像分类装置700还包括:
识别单元,用于通过预设证件识别模型对所述证件图像进行识别;
第二判断单元,用于判断通过所述预设证件识别模型是否能够确定所述证件图像所属的证件类型;
所述提取单元702,用于若通过所述预设证件识别模型未能确定所述证件图像所属的证件类型,执行所述基于OCR模型提取所述证件图像中包含的所有字段的步骤。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述证件图像分类装置和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
同时,上述证件图像分类装置中各个单元的划分和连接方式仅用于举例说明,在其他实施例中,可将证件图像分类装置按照需要划分为不同的单元,也可将证件图像分类装置中各单元采取不同的连接顺序和方式,以完成上述证件图像分类装置的全部或部分功能。
上述证件图像分类装置可以实现为一种计算机程序的形式,该计算机程序可以在如图8所示的计算机设备上运行。
请参阅图8,图8是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备800可以是台式机电脑或者服务器等计算机设备,也可以是其他设备中的组件或者部件。
参阅图8,该计算机设备800包括通过系统总线801连接的处理器802、存储器和网络接口805,其中,存储器可以包括非易失性存储介质803和内存储器804。
该非易失性存储介质803可存储操作系统8031和计算机程序8032。该计算机程序8032被执行时,可使得处理器802执行一种上述证件图像分类方法。
该处理器802用于提供计算和控制能力,以支撑整个计算机设备800的运行。
该内存储器804为非易失性存储介质803中的计算机程序8032的运行提供环境,该计算机程序8032被处理器802执行时,可使得处理器802执行一种上述证件图像分类方法。
该网络接口805用于与其它设备进行网络通信。本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备800的限定,具体的计算机设备800可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图8所示实施例一致,在此不再赘述。
其中,所述处理器802用于运行存储在存储器中的计算机程序8032,以实现如下步骤:获取待分类的证件图像;基于OCR模型提取所述证件图像中包含的所有字段;根据所述字段,通过第一预设方式生成所述证件图像的向量;判断预设的向量集中是否存在与所述证件图像的向量相匹配的向量,其中,所述向量集包括多个通过所述第一预设方式所生成的、对应于不同证件类型的证件图像的向量;若所述向量集中存在与所述证件图像的向量相匹配的向量,将与所述证件图像的向量相匹配的向量作为目标向量,并根据所述目标向量对应的证件类型确定所述证件图像的证件类型。
在一实施例中,所述处理器802在实现所述判断预设的向量集中是否存在与所述证件图像的向量相匹配的向量的步骤之前,还实现以下步骤:
生成所述向量集;
所述处理器802在实现所述生成所述向量集的步骤时,具体实现以下步骤:
获取属于同一个证件类型的多张证件图像;
针对每一张所述证件图像,基于所述OCR模型提取所述证件图像中包含的所有字段,并统计每个所述字段出现的次数以生成每张所述证件图像对应的第一字段集;
对比每个所述第一字段集中包含的字段,筛选出所有所述第一字段集中共有的字段;
从所述共有的字段中按照第二预设方式提取预设数量的共有字段组成第二字段集,所述第二字段集用于作为识别所述证件类型的依据;
将所有所述第二字段集中出现的所有字段组成一个无重复字段的字段总集;
针对每个所述第二字段集,根据所述第二字段集中包含的每个所述字段在对应所述证件类型的证件图像中出现的次数,统计所述字段总集中包含的字段在所述第二字段集中出现的次数,从而得到所述第二字段集对应的证件类型所属的数字序列;
将所述数字序列按照字段的预设顺序进行排序,从而得到所述第二字段集对应的所述证件类型的向量;
将多个所述证件类型各自的向量组成集合以生成向量集。
在一实施例中,所述处理器802在实现所述得到所述第二字段集对应的证件类型所属的数字序列的步骤之后,还实现以下步骤:
根据所述第二字段集中每个所述字段出现的次数,按照第三预设方式配置权重至所述第二字段集对应的所述数字序列中每个所述字段对应的数字。
在一实施例中,所述处理器802在实现所述根据所述第二字段集中每个所述字段出现的次数,按照第三预设方式配置权重至所述第二字段集对应的所述数字序列中每个所述字段对应的数字的步骤时,所述字段对应的数字配置的权重与每个所述字段出现的次数成反比。
在一实施例中,所述处理器802在实现所述判断预设的向量集中是否存在与所述证件图像的向量相匹配的向量的步骤时,具体实现以下步骤:
计算所述证件图像的向量与所述向量集中包含的每个向量的余弦相似度;
判断是否存在余弦相似度不小于预设余弦相似度阈值的向量;
若存在余弦相似度不小于预设余弦相似度阈值的向量,判定所述向量集中存在与所述证件图像的向量相匹配的向量。
在一实施例中,所述处理器802在实现所述若所述向量集中存在与所述证件图像的向量相匹配的向量,将与所述证件图像的向量相匹配的向量作为目标向量,并根据所述目标向量对应的证件类型确定所述证件图像的证件类型的步骤时,具体实现以下步骤:
若所述向量集中存在与所述证件图像的向量相匹配的向量,将与所述证件图像的向量相匹配的向量作为目标向量;
若所述目标向量的数量为一个,将所述目标向量对应的证件类型确定为所述证件图像的证件类型;
若所述目标向量的数量为多个,将多个所述目标向量中与所述证件图像的向量最接近的目标向量对应的证据类型确定为所述证件图像的证件类型。
在一实施例中,所述处理器802在实现所述基于OCR模型提取所述证件图像中包含的所有字段的步骤之前,还实现以下步骤:
通过预设证件识别模型对所述证件图像进行识别;
判断通过所述预设证件识别模型是否能够确定所述证件图像所属的证件类型;
若通过所述预设证件识别模型未能确定所述证件图像所属的证件类型,执行所述基于OCR模型提取所述证件图像中包含的所有字段的步骤。
应当理解,在本申请实施例中,处理器802可以是中央处理单元(CentralProcessingUnit,CPU),该处理器802还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来完成,该计算机程序可存储于一计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行,以实现上述证件图像分类方法的实施例的步骤。
因此,本申请实施例还提供一种计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时使处理器执行以上各实施例中所描述的证件图像分类方法的步骤。
所述计算机可读存储介质可以是前述设备的内部存储单元,例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备,例如所述设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述存储介质为实体的、非瞬时性的存储介质,例如可以是U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、磁碟或者光盘等各种可以存储程序代码的实体存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,终端,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
以上所述,仅为本申请的具体实施方式,但本申请明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (8)
1.一种证件图像分类方法,其特征在于,所述方法包括:
获取待分类的证件图像;
基于OCR模型提取所述证件图像中包含的所有字段;
根据所述字段,通过第一预设方式生成所述证件图像的向量;
判断预设的向量集中是否存在与所述证件图像的向量相匹配的向量,其中,所述向量集包括多个通过所述第一预设方式所生成的、对应于不同证件类型的证件图像的向量;
若所述向量集中存在与所述证件图像的向量相匹配的向量,将与所述证件图像的向量相匹配的向量作为目标向量,并根据所述目标向量对应的证件类型确定所述证件图像的证件类型;
所述判断预设的向量集中是否存在与所述证件图像的向量相匹配的向量的步骤之前,还包括:生成所述向量集;其中,
所述生成所述向量集的步骤包括:
获取属于同一个证件类型的多张证件图像;
针对每一张所述证件图像,基于所述OCR模型提取所述证件图像中包含的所有字段,并统计每个所述字段出现的次数以生成每张所述证件图像对应的第一字段集;
对比每个所述第一字段集中包含的字段,筛选出所有所述第一字段集中共有的字段;
从所述共有的字段中按照第二预设方式提取预设数量的共有字段组成第二字段集,所述第二字段集用于作为识别所述证件类型的依据;
将所有所述第二字段集中出现的所有字段组成一个无重复字段的字段总集;
针对每个所述第二字段集,根据所述第二字段集中包含的每个所述字段在对应所述证件类型的证件图像中出现的次数,统计所述字段总集中包含的字段在所述第二字段集中出现的次数,从而得到所述第二字段集对应的证件类型所属的数字序列;
将所述数字序列按照字段的预设顺序进行排序,从而得到所述第二字段集对应的所述证件类型的向量;
将多个所述证件类型各自的向量组成集合以生成向量集;
所述判断预设的向量集中是否存在与所述证件图像的向量相匹配的向量的步骤包括:
计算所述证件图像的向量与所述向量集中包含的每个向量的余弦相似度;
判断是否存在余弦相似度不小于预设余弦相似度阈值的向量;
若存在余弦相似度不小于预设余弦相似度阈值的向量,判定所述向量集中存在与所述证件图像的向量相匹配的向量。
2.根据权利要求1所述证件图像分类方法,其特征在于,所述得到所述第二字段集对应的证件类型所属的数字序列的步骤之后,还包括:
根据所述第二字段集中每个所述字段出现的次数,按照第三预设方式配置权重至所述第二字段集对应的所述数字序列中每个所述字段对应的数字。
3.根据权利要求2所述证件图像分类方法,其特征在于,所述字段对应的数字配置的权重与每个所述字段出现的次数成反比。
4.根据权利要求1-3任一项所述证件图像分类方法,其特征在于,所述若所述向量集中存在与所述证件图像的向量相匹配的向量,将与所述证件图像的向量相匹配的向量作为目标向量,并根据所述目标向量对应的证件类型确定所述证件图像的证件类型的步骤包括:
若所述向量集中存在与所述证件图像的向量相匹配的向量,将与所述证件图像的向量相匹配的向量作为目标向量;
若所述目标向量的数量为一个,将所述目标向量对应的证件类型确定为所述证件图像的证件类型;
若所述目标向量的数量为多个,将多个所述目标向量中与所述证件图像的向量最接近的目标向量对应的证据类型确定为所述证件图像的证件类型。
5.根据权利要求1所述证件图像分类方法,其特征在于,所述基于OCR模型提取所述证件图像中包含的所有字段的步骤之前,还包括:
通过预设证件识别模型对所述证件图像进行识别;
判断通过所述预设证件识别模型是否能够确定所述证件图像所属的证件类型;
若通过所述预设证件识别模型未能确定所述证件图像所属的证件类型,执行所述基于OCR模型提取所述证件图像中包含的所有字段的步骤。
6.一种证件图像分类装置,其特征在于,包括:
获取单元,用于获取待分类的证件图像;
提取单元,用于基于OCR模型提取所述证件图像中包含的所有字段;
第一生成单元,用于根据所述字段,通过第一预设方式生成所述证件图像的向量;
第一判断单元,用于判断预设的向量集中是否存在与所述证件图像的向量相匹配的向量,其中,所述向量集包括多个通过所述第一预设方式所生成的、对应于不同证件类型的证件图像的向量;
第一分类单元,用于若所述向量集中存在与所述证件图像的向量相匹配的向量,将与所述证件图像的向量相匹配的向量作为目标向量,并根据所述目标向量对应的证件类型确定所述证件图像的证件类型;
所述第一判断单元之前,还包括:
第二生成单元,用于生成所述向量集;
所述第二生成单元包括:
获取子单元,用于获取属于同一个证件类型的多张证件图像;
第一提取子单元,用于针对每一张所述证件图像,基于所述OCR模型提取所述证件图像中包含的所有字段,并统计每个所述字段出现的次数以生成每张所述证件图像对应的第一字段集;
对比子单元,用于对比每个所述第一字段集中包含的字段,筛选出所有所述第一字段集中共有的字段;
第二提取子单元,用于从所述共有的字段中按照第二预设方式提取预设数量的共有字段组成第二字段集,所述第二字段集用于作为识别所述证件类型的依据;
组成子单元,用于将所有所述第二字段集中出现的所有字段组成一个无重复字段的字段总集;
第一得到子单元,用于针对每个所述第二字段集,根据所述第二字段集中包含的每个所述字段在对应所述证件类型的证件图像中出现的次数,统计所述字段总集中包含的字段在所述第二字段集中出现的次数,从而得到所述第二字段集对应的证件类型所属的数字序列;
排序子单元,用于将所述数字序列按照字段的预设顺序进行排序,从而得到所述第二字段集对应的所述证件类型的向量;
生成子单元,用于将多个所述证件类型各自的向量组成集合以生成向量集;
所述第一判断单元包括:
计算子单元,用于计算所述证件图像的向量与所述向量集中包含的每个向量的余弦相似度;
第一判断子单元,用于判断是否存在余弦相似度不小于预设余弦相似度阈值的向量;
判定子单元,用于若存在余弦相似度不小于预设余弦相似度阈值的向量,判定所述向量集中存在与所述证件图像的向量相匹配的向量。
7.一种计算机设备,其特征在于,所述计算机设备包括存储器以及与所述存储器相连的处理器;所述存储器用于存储计算机程序;所述处理器用于运行所述存储器中存储的计算机程序,以执行如权利要求1-5任一项所述证件图像分类方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器执行如权利要求1-5中任一项所述证件图像分类方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910979547.3A CN111046879B (zh) | 2019-10-15 | 2019-10-15 | 证件图像分类方法、装置、计算机设备及可读存储介质 |
PCT/CN2019/118392 WO2021072876A1 (zh) | 2019-10-15 | 2019-11-14 | 证件图像分类方法、装置、计算机设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910979547.3A CN111046879B (zh) | 2019-10-15 | 2019-10-15 | 证件图像分类方法、装置、计算机设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111046879A CN111046879A (zh) | 2020-04-21 |
CN111046879B true CN111046879B (zh) | 2023-09-29 |
Family
ID=70231789
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910979547.3A Active CN111046879B (zh) | 2019-10-15 | 2019-10-15 | 证件图像分类方法、装置、计算机设备及可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111046879B (zh) |
WO (1) | WO2021072876A1 (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110688998A (zh) * | 2019-09-27 | 2020-01-14 | 中国银行股份有限公司 | 票据识别方法及装置 |
CN111563501A (zh) * | 2020-04-26 | 2020-08-21 | 北京立禾物联科技有限公司 | 一种合格证识别装置及合格证识别方法 |
CN111881943A (zh) * | 2020-07-08 | 2020-11-03 | 泰康保险集团股份有限公司 | 图像分类的方法、装置、设备和计算机可读介质 |
CN111860657A (zh) * | 2020-07-23 | 2020-10-30 | 中国建设银行股份有限公司 | 一种图像分类方法、装置、电子设备及存储介质 |
TWI845837B (zh) * | 2021-04-21 | 2024-06-21 | 國立中央大學 | 手寫中文字辨識方法及手寫中文字辨識裝置 |
CN113516597B (zh) * | 2021-05-19 | 2024-05-28 | 中国工商银行股份有限公司 | 图像校正方法、装置和服务器 |
CN113627542A (zh) * | 2021-08-13 | 2021-11-09 | 青岛海信网络科技股份有限公司 | 一种事件信息处理方法、服务器及存储介质 |
CN114005131A (zh) * | 2021-11-02 | 2022-02-01 | 京东科技信息技术有限公司 | 一种证件文字识别方法及装置 |
CN114677701A (zh) * | 2022-03-11 | 2022-06-28 | 联宝(合肥)电子科技有限公司 | 一种数据识别方法、装置、设备及存储介质 |
CN114780172B (zh) * | 2022-04-15 | 2024-02-27 | 深圳优美创新科技有限公司 | 外接摄像头的识别方法、装置、智能显示屏以及存储介质 |
CN115379061B (zh) * | 2022-08-10 | 2024-04-30 | 珠海金山办公软件有限公司 | 拍照扫描方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1996041298A1 (en) * | 1995-06-07 | 1996-12-19 | Stolfo Salvatore J | Method and apparatus for imaging, image processing and data compression and merge/purge techniques for document image databases |
US7421126B2 (en) * | 2000-03-23 | 2008-09-02 | Cardiff Software, Inc. | Method and system for searching form features for form identification |
CN109492643A (zh) * | 2018-10-11 | 2019-03-19 | 平安科技(深圳)有限公司 | 基于ocr的证件识别方法、装置、计算机设备及存储介质 |
CN109919076A (zh) * | 2019-03-04 | 2019-06-21 | 厦门商集网络科技有限责任公司 | 基于深度学习的确认ocr识别结果可靠性的方法及介质 |
CN110287971A (zh) * | 2019-05-22 | 2019-09-27 | 平安银行股份有限公司 | 数据验证方法、装置、计算机设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6370269B1 (en) * | 1997-01-21 | 2002-04-09 | International Business Machines Corporation | Optical character recognition of handwritten or cursive text in multiple languages |
US10685223B2 (en) * | 2008-01-18 | 2020-06-16 | Mitek Systems, Inc. | Systems and methods for mobile image capture and content processing of driver's licenses |
CN102831405B (zh) * | 2012-08-16 | 2014-11-26 | 北京理工大学 | 基于分布式和暴力匹配的室外大规模物体识别方法和系统 |
US8995774B1 (en) * | 2013-09-19 | 2015-03-31 | IDChecker, Inc. | Automated document recognition, identification, and data extraction |
US9984471B2 (en) * | 2016-07-26 | 2018-05-29 | Intuit Inc. | Label and field identification without optical character recognition (OCR) |
CN110991456B (zh) * | 2019-12-05 | 2023-07-07 | 北京百度网讯科技有限公司 | 票据识别方法及装置 |
-
2019
- 2019-10-15 CN CN201910979547.3A patent/CN111046879B/zh active Active
- 2019-11-14 WO PCT/CN2019/118392 patent/WO2021072876A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1996041298A1 (en) * | 1995-06-07 | 1996-12-19 | Stolfo Salvatore J | Method and apparatus for imaging, image processing and data compression and merge/purge techniques for document image databases |
US7421126B2 (en) * | 2000-03-23 | 2008-09-02 | Cardiff Software, Inc. | Method and system for searching form features for form identification |
CN109492643A (zh) * | 2018-10-11 | 2019-03-19 | 平安科技(深圳)有限公司 | 基于ocr的证件识别方法、装置、计算机设备及存储介质 |
CN109919076A (zh) * | 2019-03-04 | 2019-06-21 | 厦门商集网络科技有限责任公司 | 基于深度学习的确认ocr识别结果可靠性的方法及介质 |
CN110287971A (zh) * | 2019-05-22 | 2019-09-27 | 平安银行股份有限公司 | 数据验证方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2021072876A1 (zh) | 2021-04-22 |
CN111046879A (zh) | 2020-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111046879B (zh) | 证件图像分类方法、装置、计算机设备及可读存储介质 | |
CN110135411B (zh) | 名片识别方法和装置 | |
CN109685100B (zh) | 字符识别方法、服务器及计算机可读存储介质 | |
RU2571545C1 (ru) | Классификация изображений документов на основании контента | |
CN109800320B (zh) | 一种图像处理方法、设备及计算机可读存储介质 | |
WO2020238054A1 (zh) | Pdf文档中图表的定位方法、装置及计算机设备 | |
CN104584073B (zh) | 物体识别装置和物体识别方法 | |
WO2021164232A1 (zh) | 用户识别方法、装置、设备及存储介质 | |
CN111178147B (zh) | 屏幕破碎分级方法、装置、设备及计算机可读存储介质 | |
CN109446873A (zh) | 手写字体识别方法、系统以及终端设备 | |
CN105426917A (zh) | 一种元件分类方法及装置 | |
CN112036295B (zh) | 票据图像处理方法、装置、存储介质及电子设备 | |
CN111932363A (zh) | 授权书的识别审核方法、装置、设备及系统 | |
JP2020170495A (ja) | 単一画素攻撃サンプルの生成方法、装置、設備及び記憶媒体 | |
CN112036304A (zh) | 医疗票据版面识别的方法、装置及计算机设备 | |
CN109635796B (zh) | 调查问卷的识别方法、装置和设备 | |
Hung et al. | Automatic vietnamese passport recognition on android phones | |
CN113673528A (zh) | 文本处理方法、装置、电子设备和可读存储介质 | |
CN111985519B (zh) | 文本相似度量化方法、设备及系统 | |
CN115457585A (zh) | 作业批改的处理方法、装置、计算机设备及可读存储介质 | |
CN112508062B (zh) | 一种开集数据的分类方法、装置、设备及存储介质 | |
CN115083024A (zh) | 基于区域划分的签名识别方法、装置、介质及设备 | |
CN114299509A (zh) | 一种获取信息的方法、装置、设备及介质 | |
CN110321884B (zh) | 编号识别的方法及装置 | |
CN115471846B (zh) | 一种图像矫正方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |