CN114494751A

CN114494751A - 证照信息识别方法、装置、设备及介质

Info

Publication number: CN114494751A
Application number: CN202210140058.0A
Authority: CN
Inventors: 施胜杰
Original assignee: Guotai Epoint Software Co Ltd
Current assignee: Guotai Epoint Software Co Ltd
Priority date: 2022-02-16
Filing date: 2022-02-16
Publication date: 2022-05-13

Abstract

本发明公开了一种证照信息识别方法、装置、设备及介质，该方法通过获取待识别的证照图像对应的模板图像，根据模板图像中的锚点字段与证照图像中的文字内容的匹配结果，计算模板图像与证照图像之间的单应性变换矩阵，进而根据单应性变换矩阵在证照图像中确定与模板图像的待识别区域所对应的字段内容，通过该字段内容以及模板图像中的键值对关系，确定证照图像的键值对输出结果，实现了证照图像中的键值对信息的自动提取，进而实现了证照中结构化信息的自动获取，解决了现有技术无法获取证照的结构化信息的技术问题。

Description

证照信息识别方法、装置、设备及介质

技术领域

本发明涉及光学字符识别技术领域，尤其涉及一种证照信息识别方法、装置、设备及介质。

背景技术

光学字符识别技术(Optical Character Recognition，OCR)，是指将图像中的文字进行定位与识别，翻译成计算机文字，以供后续文字处理模块进一步编辑加工。

一般的OCR给出往往是按行识别的结果，但是在许多应用场景中，仅提取出图片中的文字信息是不足以满足业务需求的，尤其实在证照、票据类的识别应用中，用户更需要带有字段定义的结构化表示，即key-value形式的结构化数据。因此，现有技术存在无法获取证照中的结构化信息的技术缺陷。

发明内容

本发明提供了一种证照信息识别方法、装置、设备及介质，以获取证照图像中的键值对信息，解决现有技术无法获取证照图像中的结构化信息的技术问题。

根据本发明的一方面，提供了一种证照信息识别方法，该方法包括：

确定待识别的证照图像，获取所述证照图像对应的模板图像，其中，所述模板图像包括锚点字段、待识别区域以及所述待识别区域对应的键值对关系；

基于所述锚点字段与所述证照图像中的文字内容的匹配结果，计算所述证照图像与所述模板图像之间的单应性变换矩阵；

基于所述单应性变换矩阵，确定在所述证照图像中所述待识别区域对应的字段内容；

基于所述字段内容以及所述键值对关系，确定所述证照图像的键值对输出结果。

可选的，所述方法还包括：

基于预先训练的目标检测模型对所述证照图像进行切割，以使切割后的所述证照图像仅包括证照区域；

基于预先训练的文字提取模型，获取所述证照图像中的文字内容。

可选的，在所述基于预先训练的目标检测模型对所述证照图像进行切割之前，所述方法还包括：

基于所述目标检测模型确定所述证照区域在所述证照图像中的比例；

若所述证照区域在所述证照图像中的比例满足预设阈值，则执行基于所述目标检测模型对所述证照图像进行切割的操作。

可选的，在所述基于预先训练的目标检测模型对所述证照图像进行切割之后，所述方法还包括：

基于预先训练的文字检测模型，确定所述证照图像中的各个文字区域；

基于预先训练的文字角度分类模型，确定各所述文字区域对应的方向，基于各所述文字区域对应的方向确定所述证照图像对应的方向；

若所述证照图像对应的方向不满足预设朝向条件，则对所述证照图像进行旋转处理。

可选的，所述获取所述证照图像对应的模板图像，包括：

基于所述目标检测模型确定所述证照图像对应的证照类型；

获取所述证照类型对应的模板图像，将所述证照类型对应的模板图像作为所述证照图像对应的模板图像。

可选的，所述基于所述锚点字段与所述证照图像中的文字内容的匹配结果，计算所述证照图像与所述模板图像之间的单应性变换矩阵，包括：

确定各锚点字段对应的字段内容；

基于各所述锚点字段对应的字段内容以及所述证照图像中的文字内容，确定所述证照图像中的各锚点匹配区域；

基于各所述锚点字段中的坐标点以及各所述锚点匹配区域中的坐标点，计算所述证照图像与所述模板图像之间的单应性变换矩阵。

可选的，所述基于所述单应性变换矩阵，确定在所述证照图像中所述待识别区域对应的字段内容，包括：

基于所述单应性变换矩阵以及所述模板图像中的各待识别区域，确定所述证照图像中与各所述待识别区域匹配的区域；

基于所述证照图像中与各所述待识别区域匹配的区域的文字内容，确定所述待识别区域对应的字段内容。

根据本发明的另一方面，提供了一种证照信息识别装置，所述装置包括：

模板获取模块，用于确定待识别的证照图像，获取所述证照图像对应的模板图像，其中，所述模板图像包括锚点字段、待识别区域以及所述待识别区域对应的键值对关系；

矩阵计算模块，用于基于所述锚点字段与所述证照图像中的文字内容的匹配结果，计算所述证照图像与所述模板图像之间的单应性变换矩阵；

字段识别模块，用于基于所述单应性变换矩阵，确定在所述证照图像中所述待识别区域对应的字段内容；

键值对输出模块，用于基于所述字段内容以及所述键值对关系，确定所述证照图像的键值对输出结果。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的证照信息识别方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的证照信息识别方法。

本发明实施例的技术方案，通过获取待识别的证照图像对应的模板图像，根据模板图像中的锚点字段与证照图像中的文字内容的匹配结果，计算模板图像与证照图像之间的单应性变换矩阵，进而根据单应性变换矩阵在证照图像中确定与模板图像的待识别区域所对应的字段内容，通过该字段内容以及模板图像中的键值对关系，确定证照图像的键值对输出结果，实现了证照图像中的键值对信息的自动提取，进而实现了证照中结构化信息的自动获取，解决了现有技术无法获取证照的结构化信息的技术问题。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A是本发明实施例一提供的一种证照信息识别方法的流程示意图；

图1B是本发明实施例一提供的一种模板图像的示意图；

图2A是本发明实施例二提供的一种证照信息识别方法的流程示意图；

图2B是本发明实施例二提供的不满足预设朝向条件的证照图像；

图3是本发明实施例三提供的一种证照信息识别方法的流程示意图；

图4是本发明实施例四提供的一种证照信息识别装置的结构示意图；

图5是本发明实施例五提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1A为本发明实施例一提供的一种证照信息识别方法的流程示意图，本实施例可适用于识别证照拍摄图像、证照扫描件或证照复印件中的键值对信息的情况，该方法可以由证照信息识别装置来执行，该证照信息识别装置可以采用硬件和/或软件的形式实现，该证照信息识别装置可配置于诸如手机、电脑、平板等电子设备中。如图1A所示，该方法包括：

S110、确定待识别的证照图像，获取所述证照图像对应的模板图像，其中，所述模板图像包括锚点字段、待识别区域以及所述待识别区域对应的键值对关系。

其中，证照可以是指诸如驾驶证、社保卡、火车票、银行卡、电子发票等证照或票据类信息。在本实施例中，待识别的证照图像可以是针对证照拍摄的图像，或者，证照的扫描件、证照的复印件等。

在本实施例中，针对各种类型的证照图像，均预先设置其对应的模板图像。具体的，本实施例在获取到待识别的证照图像后，从预先设置的各模板图像中选择该证照图像对应的模板图像。其中，模板图像由锚点字段、待识别区域以及待识别区域对应的键值对关系构成。

具体的，锚点字段可以是相同类型的证照图像中位置和内容均固定不变的字段。例如，驾驶证中的“姓名”、“住址”、“准驾车型”等字段。锚点字段可以用于将各个证照图像与模板图像进行匹配。待识别区域可以是需要进行文字识别的区域，待识别区域中可以包含内容变化的字段。例如，不同的驾驶证照片中的姓名不同，则“姓名”字段的右边区域可以为待识别区域。

示例性的，如图1B所示，展示了一种模板图像的示意图。在本实施例中，模板图像可以包括一个或多个锚点字段、一个或多个待识别区域，以及各待识别区域对应的键值对关系。

在本实施例中，针对模板图像中的待识别区域，可以构建对应的键值对关系，用于对待识别的证照图像中的待识别区域中的内容进行结构化识别。其中，键值对关系可以是Key-value对应关系，即字段名称-待识别区域中的字段内容。换言之，键值对关系中的键可以是描述该待识别区域的字段名称，键值对关系中的值可以是待识别区域中的字段内容。

也就是说，通过待识别区域对应的键值对关系，可以获取到描述该待识别区域的字段名称。沿用上例，针对“姓名”字段的右边的待识别区域，该待识别区域对应的键值对关系为：姓名-待识别区域中的字段内容，则可知该待识别区域中的字段内容为姓名。

S120、基于所述锚点字段与所述证照图像中的文字内容的匹配结果，计算所述证照图像与所述模板图像之间的单应性变换矩阵。

具体的，本实施例在获取待识别的证照图像对应的模板图像后，将模板图像中锚点字段与证照图像进行匹配。由于模板图像中的锚点字段为固定不变的字段，因此，证照图像中也存在与锚点字段一致的文字内容，基于模板图像中的锚点字段，可以确定出证照图像中与锚点字段一致的文字内容。

示例性的，可以将模板图像中的锚点字段与证照图像进行空间对准，得到证照图像中与锚点字段匹配的文字内容的位置坐标，将其作为匹配结果。需要说明的是，本实施例可以查找证照图像中与任一一个锚点字段匹配的一段文字内容的位置坐标作为匹配结果，也可以查找证照图像中与多个锚点字段匹配的多段文字内容的位置坐标作为匹配结果。

进一步的，根据证照图像中与锚点字段匹配的文字内容的位置坐标，以及锚点字段在模板图像中的位置坐标，可以计算出证照图像与模板图像之间的单应性变换矩阵。其中，单应性变换矩阵可以是用来描述证照图像中的像素点与模板图像中的像素点之间的位置映射关系的矩阵。通过该单应性变换矩阵，可以查找出在证照图像中，与模板图像的像素点相匹配的像素点的坐标。

S130、基于所述单应性变换矩阵，确定在所述证照图像中所述待识别区域对应的字段内容。

具体的，在得到证照图像与模板图像之间的单应性变换矩阵后，根据单应性变换矩阵，可以确定证照图像中与模板图像的待识别区域相对应的区域，进而确定该区域中的字段内容。

示例性的，可以先确定模板图像中的待识别区域的位置坐标，将该位置坐标与单应性变换矩阵相乘，得到证照图像中与该待识别区域相对应的区域的位置坐标；进一步的，对计算后得到的位置坐标内的文字内容进行识别，将识别出的文字确定为证照图像中待识别区域对应的字段内容。

S140、基于所述字段内容以及所述键值对关系，确定所述证照图像的键值对输出结果。

具体的，在确定出证照图像中待识别区域对应的字段内容后，可以根据预先建立的键值对关系，确定出该字段内容对应的字段名称，将字段名称以及字段内容确定为键值对输出结果。

当然，可以通过上述方式，对证照图像中的各待识别区域对应的字段内容一一进行识别，进一步的，通过已建立的键值对关系，确定出各个字段内容对应的字段名称，得到证照图像所包含的全部键值对输出结果。

本实施例提供的方法可以适用于各种场景下拍摄的证照，提高了证照识别的适用性与精度。

本实施例的技术方案，通过获取待识别的证照图像对应的模板图像，根据模板图像中的锚点字段与证照图像中的文字内容的匹配结果，计算模板图像与证照图像之间的单应性变换矩阵，进而根据单应性变换矩阵在证照图像中确定与模板图像的待识别区域所对应的字段内容，通过该字段内容以及模板图像中的键值对关系，确定证照图像的键值对输出结果，实现了证照图像中的键值对信息的自动提取，进而实现了证照中结构化信息的自动获取，解决了现有技术无法获取证照的结构化信息的技术问题。

实施例二

图2A为本发明实施例二提供的一种证照信息识别方法的流程示意图，本实施例在上述各实施例的基础上，可选的，所述方法还包括：基于预先训练的目标检测模型对所述证照图像进行切割，以使切割后的所述证照图像仅包括证照区域；基于预先训练的文字提取模型，获取所述证照图像中的文字内容。如图2A所示，该方法包括：

S210、确定待识别的证照图像，基于预先训练的目标检测模型对所述证照图像进行切割，以使切割后的所述证照图像仅包括证照区域。

在本实施例中，在将证照图像与模板图像进行匹配之前，可以先对证照图像进行切割，使得切割后的证照图像中仅包括证照区域。具体的，可以通过已训练的目标检测模型，识别并定位证照图像中的证照区域，进一步的，通过目标检测模型，可以将证照图像中除证照区域之外的区域剔除，仅保留证照区域。

其中，目标检测模型可以采用少量标注数据进行训练得到。例如，每一种类型的证照图像均采用100至200张，构成样本集，通过样本集训练目标检测模型。当然，还可以再通过少量数据对训练出的目标检测模型进行微调，以更新目标检测模型中的内部参数。

对证照图像进行切割的目的在于：考虑到证照图像中通常存在冗余区域，通过对证照图像进行切割，可以将证照图像中的多余的检测框剔除，进而避免冗余区域中的文字对后续匹配识别的干扰，进一步的，提高了证照信息识别的准确性以及识别效率。

在一种可选的实施方式中，在所述基于预先训练的目标检测模型对所述证照图像进行切割之前，所述方法还包括：基于所述目标检测模型确定所述证照区域在所述证照图像中的比例；若所述证照区域在所述证照图像中的比例满足预设阈值，则执行基于所述目标检测模型对所述证照图像进行切割的操作。

即，本实施例可以在对证照图像进行切割之前，判断证照图像中证照区域的比例是否满足预设阈值，如果满足，则执行切割操作，如果不满足，则可以丢弃该证照图像，重新获取新的证照图像。示例性的，当证照图像中的证照区域不完整，如仅存在50％，则可以不对证照图像进行切割；或者，当证照图像中的证照区域完整，但证照区域过小，如仅占证照图像的20％，则可以不对证照图像进行切割。

在该可选的实施方式中，通过目标检测模型识别证照区域对应的比例，并在判断出比例满足预设阈值后进行证照图像的切割，实现了证照图像的筛选，避免了对过小的证照区域或不完整的证照区域进行信息识别。

可选的，还可以通过本实施例中的目标检测模型，检测出证照图像的高宽比，进而根据高宽比判断证照图像对应的方向。

S220、基于预先训练的文字提取模型，获取所述证照图像中的文字内容。

其中，文字提取模型可以通过少量标注数据训练得到，并且，还可以通过小样本对训练后的文字提取模型微调，达到预设精度要求。

具体的，可以将证照图像输入至文字提取模型中，文字提取模型可以识别出证照图像中每一个文字区域的位置信息以及每一个文字区域的文字内容。其中，证照图像中文字区域可以是内容连贯的文字组成的区域，如连续的两行文字均为地址，则该连续的两行文字所在区域为一个文字区域。

考虑到存在一些证照图像对应的方向不满足预设朝向条件(如0°)，如图2B所示，展示了不满足预设朝向条件的证照图像，设预设朝向条件为0°，图2B包括偏转角度分别为90°、180°以及270°的证照图像。

因此，本实施例还可以对不满足预设朝向条件的证照图像进行方向校正，以使证照图像满足预设朝向条件，进而提高文字内容的识别效率以及识别精度。

即，可选的，在所述基于预先训练的目标检测模型对所述证照图像进行切割之后，或者，在所述基于预先训练的文字提取模型，获取所述证照图像中的文字内容之前，所述方法还包括：基于预先训练的文字检测模型，确定所述证照图像中的各个文字区域；基于预先训练的文字角度分类模型，确定各所述文字区域对应的方向，基于各所述文字区域对应的方向确定所述证照图像对应的方向；若所述证照图像对应的方向不满足预设朝向条件，则对所述证照图像进行旋转处理。

其中，文字检测模型和文字角度分类模型可以基于大量数据训练得到。在该可选的实施方式中，先通过文字检测模型识别证照图像中的文字区域，在通过文字角度分类模型识别各个文字区域的方向，进而根据各个文字区域的方向确定出整个证照图像的方向。在方向不满足预设朝向条件时，可以根据当前的方向以及预设朝向条件确定证照图像的偏转角度，根据该偏转角度对证照图像进行旋转处理。通过该方式，可以保证证照图像满足预设朝向条件，进而提高了文字内容的识别效率以及识别精度。

S230、获取所述证照图像对应的模板图像，其中，所述模板图像包括锚点字段、待识别区域以及所述待识别区域对应的键值对关系。

在一种可选的实施方式中，所述获取所述证照图像对应的模板图像，包括：基于所述目标检测模型确定所述证照图像对应的证照类型；获取所述证照类型对应的模板图像，将所述证照类型对应的模板图像作为所述证照图像对应的模板图像。

即，可以通过目标检测模型确定证照图像的证照类型，并获取与该证照类型对应的模板图像。

需要说明的是，本实施例对S230的执行顺序不进行限定，S230可以在S210之前执行，也可以与S210同时执行，还可以在S210之后。当然，考虑到在对证照图像进行切割后，再识别证照图像对应的证照类型，可以提高目标检测模型识别证照类型的效率，因此，优选的，可以在S210之后执行S230；S220可以与S230的执行顺序不分先后。

S240、基于所述锚点字段与所述证照图像中的文字内容的匹配结果，计算所述证照图像与所述模板图像之间的单应性变换矩阵。

S250、基于所述单应性变换矩阵，确定在所述证照图像中所述待识别区域对应的字段内容，基于所述字段内容以及所述键值对关系，确定所述证照图像的键值对输出结果。

需要说明的是，现有的证照识别方案均直接采用了单一的文字检测模型，然而为了确保该模型的准确率，需要搜集大量标注数据并通过算法工程师进行一系列的参数调优，开发成本较大，并且，难以适用于多种场景下的证照图像。本方案仅需要少量标注数据即可实现证照图像与证照模板的匹配，提升了开发效率，降低了人工成本，并且，能应用于各种场景下拍摄的证照。

本实施例的技术方案，通过预先训练的目标检测模型对证照图像进行切割，得到仅包含证照区域的证照图像，实现了证照图像中的多余的检测框的自动剔除，进而避免了冗余区域中的文字对后续匹配识别的干扰，提高了证照信息识别的准确性以及识别效率。并且，根据预先训练的文字提取模型提取证照图像中的文字内容，实现了仅通过少量标注数据就可以完成证照文字内容识别，提高了开发效率，降低了人工成本。

实施例三

图3为本发明实施例三提供的一种证照信息识别方法的流程示意图，本实施例在上述各实施例的基础上，可选的，所述基于所述锚点字段与所述证照图像中的文字内容的匹配结果，计算所述证照图像与所述模板图像之间的单应性变换矩阵，包括：确定各锚点字段对应的字段内容；基于各所述锚点字段对应的字段内容以及所述证照图像中的文字内容，确定所述证照图像中的各锚点匹配区域；基于各所述锚点字段中的坐标点以及各所述锚点匹配区域中的坐标点，计算所述证照图像与所述模板图像之间的单应性变换矩阵。如图3所示，该方法包括：

S310、确定待识别的证照图像，基于预先训练的目标检测模型对所述证照图像进行切割，以使切割后的所述证照图像仅包括证照区域。

S320、获取所述证照图像对应的模板图像，其中，所述模板图像包括锚点字段、待识别区域以及所述待识别区域对应的键值对关系。

S330、基于预先训练的文字提取模型，获取所述证照图像中的文字内容。

S340、确定各锚点字段对应的字段内容，基于各所述锚点字段对应的字段内容以及所述证照图像中的文字内容，确定所述证照图像中的各锚点匹配区域。

其中，锚点字段对应的字段内容可以是锚点字段中的文字内容；可以在构建模板图像时确定各锚点字段对应的字段内容，也可以通过文字提取模型确定各锚点字段对应的字段内容。

具体的，可以将锚点字段对应的字段内容与证照图像中的文字内容进行比对，确定证照图像中与锚点字段对应的字段内容一致的文字内容所在区域，将其确定为证照图像中的锚点匹配区域。

S350、基于各所述锚点字段中的坐标点以及各所述锚点匹配区域中的坐标点，计算所述证照图像与所述模板图像之间的单应性变换矩阵。

在本实施例中，每一个锚段字段或锚点匹配区域可以包括4个坐标点，锚点字段中的一个坐标点与锚点匹配区域中对应的坐标点可以构成一组匹配点，每一组匹配点可以提供2组方程。

由于单应性变换矩阵是一个3×3的8自由度的齐次矩阵，因此，通过4组不共线的匹配点即可求解出单应性变换矩阵。即，通过一个锚点字段以及锚点匹配区域即可计算出单应性矩阵。可选的，为了提高计算出的单应性变换矩阵的精度，本实施例还可以确定至少三个锚点匹配区域，即，在证照图像中匹配三组锚点字段，并且，采用最小二乘法得到最优解的单应性变换矩阵。

S360、基于所述单应性变换矩阵，确定在所述证照图像中所述待识别区域对应的字段内容，基于所述字段内容以及所述键值对关系，确定所述证照图像的键值对输出结果。

其中，单应性变换可以是将证照图像内的点映射到模板图像内的点的二维变换。

示例性的，所述基于所述单应性变换矩阵，确定在所述证照图像中所述待识别区域对应的字段内容，包括：基于所述单应性变换矩阵以及所述模板图像中的各待识别区域，确定所述证照图像中与各所述待识别区域匹配的区域；基于所述证照图像中与各所述待识别区域匹配的区域的文字内容，确定所述待识别区域对应的字段内容。

具体的，可以通过单应性变换矩阵计算出证照图像中与各待识别区域匹配的区域。如，

其中，(x_l，y_l)为证照图像中的坐标点，(x_r，y_r)为模板图像中的坐标点，H为单应性变换矩阵，将模板图像中待识别区域的坐标点以及单应性变换矩阵代入上述公式，即可得到证照图像中与待识别区域匹配的区域的坐标点，根据计算出的坐标点即可定位出证照图像中与待识别区域匹配的区域。

在一种可选的实施方式中，在基于单应性变换矩阵确定出证照图像中与各所述待识别区域匹配的区域后，还可以对确定算出的区域与待识别区域进行并交比计算，超过一定阈值则确定该区域与待识别区域匹配。

进一步的，本实施例可以获取证照图像中与待识别区域匹配的区域的文字内容，将其确定为与待识别区域对应的字段内容。可选的，若证照图像中与待识别区域匹配的区域的文字内容的行数大于一行，则可以对该区域中的文字内容进行拼接。

可选的，还可以在获取证照图像中与待识别区域匹配的区域的文字内容后，根据待识别区域对应的预设属性规则，对文字内容进行更新，如，待识别区域对应的预设属性规则为日期、数字等限制规则，则可以根据日期、数字等限制规则，对文字内容进行过滤。

与传统的透视变换方案相比，传统模板匹配过程中在匹配上锚点后采用透视变换进行文字识别区域的判断，对锚点匹配上的数量(至少四个)和质量(需要锚点围成的图形面积尽可能大)要求较高且可能需要多轮变换，此方案耗时较高且精度较低。本实施例采用单应性变换矩阵进行证照图像与模板图像的匹配，提高了匹配的精度与效率，鲁棒性更高。

本实施例的技术方案，通过各锚点字段对应的字段内容与证照图像中的文字内容，实现证照图像与模板图像的匹配，适用于各种场景下的证照图像，如手持相机拍摄，扫描件，复印件等，进而根据匹配到的锚点匹配区域的坐标点与锚点字段的坐标点计算单应性变换矩阵，提高了计算出的单应性变换矩阵的准确度，进而提高了获取到的键值对信息的准确度。

实施例四

图4为本发明实施例四提供的一种证照信息识别装置的结构示意图。如图4所示，该装置包括：模板获取模块410、矩阵计算模块420、字段识别模块430以及键值对输出模块440。

模板获取模块410，用于确定待识别的证照图像，获取所述证照图像对应的模板图像，其中，所述模板图像包括锚点字段、待识别区域以及所述待识别区域对应的键值对关系；

矩阵计算模块420，用于基于所述锚点字段与所述证照图像中的文字内容的匹配结果，计算所述证照图像与所述模板图像之间的单应性变换矩阵；

字段识别模块430，用于基于所述单应性变换矩阵，确定在所述证照图像中所述待识别区域对应的字段内容；

键值对输出模块440，用于基于所述字段内容以及所述键值对关系，确定所述证照图像的键值对输出结果。

在本实施例中，通过模板获取模块，获取待识别的证照图像以及其对应的模板图像，通过矩阵计算模块，根据模板图像中的锚点字段与证照图像中的文字内容的匹配结果，计算模板图像与证照图像之间的单应性变换矩阵，进而通过字段识别模块，根据单应性变换矩阵在证照图像中确定与模板图像的待识别区域所对应的字段内容，通过键值对输出模块，基于该字段内容以及模板图像中的键值对关系，确定证照图像的键值对输出结果，实现了证照图像中的键值对信息的自动提取，进而实现了证照中结构化信息的自动获取，解决了现有技术无法获取证照的结构化信息的技术问题。

可选的，所述装置还包括图像切割模块，所述图像切割模块，用于基于预先训练的目标检测模型对所述证照图像进行切割，以使切割后的所述证照图像仅包括证照区域；基于预先训练的文字提取模型，获取所述证照图像中的文字内容。

可选的，所述图像切割模块，还用于在所述基于预先训练的目标检测模型对所述证照图像进行切割之前，基于所述目标检测模型确定所述证照区域在所述证照图像中的比例；若所述证照区域在所述证照图像中的比例满足预设阈值，则执行基于所述目标检测模型对所述证照图像进行切割的操作。

可选的，所述装置还包括方向校正模块，所述方向校正模块，用于在所述基于预先训练的目标检测模型对所述证照图像进行切割之后，基于预先训练的文字检测模型，确定所述证照图像中的各个文字区域；基于预先训练的文字角度分类模型，确定各所述文字区域对应的方向，基于各所述文字区域对应的方向确定所述证照图像对应的方向；若所述证照图像对应的方向不满足预设朝向条件，则对所述证照图像进行旋转处理。

可选的，所述模板获取模块410包括类型确定单元，所述类型确定单元，用于基于所述目标检测模型确定所述证照图像对应的证照类型；获取所述证照类型对应的模板图像，将所述证照类型对应的模板图像作为所述证照图像对应的模板图像。

可选的，所述矩阵计算模块420，具体用于：

确定各锚点字段对应的字段内容；基于各所述锚点字段对应的字段内容以及所述证照图像中的文字内容，确定所述证照图像中的各锚点匹配区域；基于各所述锚点字段中的坐标点以及各所述锚点匹配区域中的坐标点，计算所述证照图像与所述模板图像之间的单应性变换矩阵。

可选的，所述字段识别模块430，具体用于：

基于所述单应性变换矩阵以及所述模板图像中的各待识别区域，确定所述证照图像中与各所述待识别区域匹配的区域；基于所述证照图像中与各所述待识别区域匹配的区域的文字内容，确定所述待识别区域对应的字段内容。

本发明实施例所提供的证照信息识别装置可执行本发明任意实施例所提供的证照信息识别方法，具备执行方法相应的功能模块和有益效果。

实施例五

图5为本发明实施例五提供的一种电子设备的结构示意图，图5示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图5所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(ROM)12、随机访问存储器(RAM)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如证照信息识别方法。

在一些实施例中，证照信息识别方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时，可以执行上文描述的证照信息识别方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行证照信息识别方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种证照信息识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，在所述基于预先训练的目标检测模型对所述证照图像进行切割之前，所述方法还包括：

4.根据权利要求2所述的方法，其特征在于，在所述基于预先训练的目标检测模型对所述证照图像进行切割之后，所述方法还包括：

5.根据权利要求2所述的方法，其特征在于，所述获取所述证照图像对应的模板图像，包括：

基于所述目标检测模型确定所述证照图像对应的证照类型；

6.根据权利要求2所述的方法，其特征在于，所述基于所述锚点字段与所述证照图像中的文字内容的匹配结果，计算所述证照图像与所述模板图像之间的单应性变换矩阵，包括：

确定各锚点字段对应的字段内容；

7.根据权利要求2所述的方法，其特征在于，所述基于所述单应性变换矩阵，确定在所述证照图像中所述待识别区域对应的字段内容，包括：

8.一种证照信息识别装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的证照信息识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的证照信息识别方法。