CN112580707A

CN112580707A - 图像识别方法、装置、设备及存储介质

Info

Publication number: CN112580707A
Application number: CN202011462513.6A
Authority: CN
Inventors: 王文雷
Original assignee: Beijing Dianfeng Technology Co ltd
Current assignee: Beijing Dianfeng Technology Co ltd
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2021-03-30

Abstract

本申请实施例提供了一种图像识别方法、装置、设备及存储介质，涉及图像处理技术领域。所述方法包括：获取目标对象的待识别图像，其中目标对象包括版面格式不同的第一版面和第二版面；确定待识别图像包括的目标对象的版面信息；若版面信息为第一版面，则基于预先训练的结构化定位模型对待识别图像进行结构化定位处理，对结构化定位处理所得的待识别的第一目标文本进行文本识别处理得到第一识别结果信息；若版面信息为第二版面，则基于预先训练的文本检测模型对待识别图像进行文本检测处理，对文本检测处理所得的待识别的第二目标文本进行文本识别处理得到第二识别结果信息。通过本申请实施例，提升了识别的准确性。

Description

图像识别方法、装置、设备及存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种图像识别方法、装置、设备及存储介质。

背景技术

随着互联网技术的不断发展，图像已成为重要的信息传播媒介之一。例如，用户在办理车辆相关业务时，通过向业务提供方提供机动车登记证等的证件图像，业务提供方即可通过图像识别技术对接收到的证件图像进行识别处理以得到该车辆的相关信息，从而基于该车辆的相关信息进行业务处理，而无需工作人员进行手动录入，从而提升业务处理效率。

在实际应用中，很多证件包括版面格式不同的正面和背面，如机动车登记证、房产证等。然而，当前的图像识别技术中对于该版面格式不同的正面的证件图像和背面的证件图像，通常采用相同的图像识别技术进行识别处理，而不能根据图像的特性进行针对性的识别，因而识别的准确率并不理想，得的识别结果后往往需要进行人工核对，难以真正的满足高效率的业务处理需求。

发明内容

本申请实施例的目的是提供一种图像识别方法、装置、设备及存储介质，以解决当前的图像识别过程中不能根据图像的特性进行针对性的识别处理，识别的准确率不理想等问题。

为解决上述技术问题，本申请一个或多个实施例是这样实现的：

第一方面，本申请实施例提供了一种图像识别方法，包括：

获取目标对象的待识别图像；其中，所述目标对象包括版面格式不同的第一版面和第二版面；

确定所述待识别图像包括的所述目标对象的版面信息；

若所述版面信息为所述第一版面，则基于预先训练的结构化定位模型对所述待识别图像进行结构化定位处理，对所述结构化定位处理所得的待识别的第一目标文本进行文本识别处理得到第一识别结果信息；

若所述版面信息为所述第二版面，则基于预先训练的文本检测模型对所述待识别图像进行文本检测处理，对所述文本检测处理所得的待识别的第二目标文本进行文本识别处理得到第二识别结果信息。

第二方面，本申请实施例提供了一种图像识别装置，包括：

获取模块，用于获取目标对象的待识别图像；其中，所述目标对象包括版面格式不同的第一版面和第二版面；

确定模块，用于确定所述待识别图像包括的所述目标对象的版面信息；

第一识别模块，用于若所述版面信息为所述第一版面，则基于预先训练的结构化定位模型对所述待识别图像进行结构化定位处理，对所述结构化定位处理所得的待识别的第一目标文本进行文本识别处理得到第一识别结果信息；

第二识别模块，用于若所述版面信息为所述第二版面，则基于预先训练的文本检测模型对所述待识别图像进行文本检测处理，对所述文本检测处理所得的待识别的第二目标文本进行文本识别处理得到第二识别结果信息。

第三方面，本申请实施例提供了一种图像识别设备，包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器实现上述第一方面所提供的图像识别方法的步骤。

第四方面，本申请实施例提供了一种存储介质，用于存储计算机可执行指令，所述计算机可执行指令在被执行时实现上述第一方面所提供的图像识别方法的步骤。

本申请实施例提供的图像识别方法、装置、设备及存储介质，在获取到包括不同版面格式的目标对象的待识别图像时，确定待识别图像包括的目标对象的版面信息，并根据确定的版面信息采用相应的预先训练的处理模型进行识别处理。由此，对于具有不同版面格式的目标对象，通过预先训练针对不同版面的图像的处理模型，从而在获取到待识别图像时，能够根据待识别图像包括的目标对象的版面信息，采用不同的处理模型进行针对性的识别处理，而不是对于所有的图像均采用相同的识别方式进行识别处理；因此极大的提升了识别的准确性，特别是对于具有结构化版面的图像，能够准确的识别出其结构化的信息，有利于提升业务的处理效率，能够更好的满足当前高效率的业务处理需求。

附图说明

为了更清楚地说明本申请一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种图像识别方法的第一种流程示意图；

图2为本申请实施例提供的一种图像识别方法的第二种流程示意图；

图3为本申请实施例提供的一种图像识别方法的第三种流程示意图；

图4为本申请实施例提供的一种图像识别方法的第四种流程示意图；

图5为本申请实施例提供的一种图像识别方法的第五种流程示意图；

图6为本申请实施例提供的一种图像识别方法的第六种流程示意图；

图7为本申请实施例提供的一种图像识别装置的模块组成示意图；

图8为本申请实施例提供的一种图像识别设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请的保护范围。

图1为本申请实施例提供的一种图像识别方法的流程示意图，如图1所示，该方法包括以下步骤：

步骤S102，获取目标对象的待识别图像；其中，目标对象包括版面格式不同的第一版面和第二版面；

本申请实施例提供的图像识别方法的执行主体可以是图像识别装置。可选的，用户在办理业务的过程中，通过其终端设备拍摄目标对象的待识别图像，并将该待识别图像发送给图像识别装置；图像识别装置接收终端设备发送的待识别图像。或者，用户在办理业务的过程中，通过其终端设备拍摄目标对象的待识别图像，将该待识别图像发送给业务处理系统，业务处理系统将该待识别图像发送给图像识别装置；图像识别装置接收业务处理系统发送的待识别图像。对于图像识别装置获取目标对象的待识别图像的方式本申请中不做具体限定，其可以在实际应用中根据需要自行设定。

其中，目标对象可以是具有第一版面和第二版面的证件、票据等，如机动车登记证、房产证、学生证、发票、业务凭证等。第一版面是具有固定样式(如表格样式等)、多个固定字段、生成后不可再添加信息的版面，即具有固定结构，本申请中将其称为结构化；并将第一版面中的各固定字段称为结构化字段，在不同的目标对象中，每个结构化字段都具有唯一对应的文本信息，且在识别处理过程中，当定位到某一个文本信息时即可确定对应的结构化字段的字段信息。第二版面是不具有固定样式且可添加信息的版面，如是空白版面，可在任意地方添加信息；或者有固定样式且可添加信息的版面，如具有表格结构，其中的第一行或每一列都没有唯一对应的文本信息，其随着目标对象所对应的实体或目标对象自身所参与的业务或操作的不同而不同。以目标对象为机动车登记证，目标对象对应的实体是车辆1为例进行说明，其第一版面中包括表格样式，该表格样式中包括机动车所有人、登记机关、登记时间、登记编号、登记证书编号、车辆类型、车辆识别码、发动机型号、排量及功率等结构化字段；其中，结构化字段“机动车所有人”唯一对应的文本信息是“用户姓名”，在识别处理过程中，当定位到“张三”这一用户姓名时即可确定其对应的结构化字段的字段信息是车辆所有人，其他结构化字段是同样的道理，这里不再一一说明；机动车登记证的第二版面中包括具有多行的表格，当车辆1所参与过质押业务时，其中的一行中有相应的质押信息；当车辆1所参与过买卖业务时，其中的一行中有相应的买卖信息；当车辆1所参与过任何业务时，每一行都是空白。

步骤S104，确定待识别图像包括的目标对象的版面信息；

具体的，如图2所示，步骤S104可以包括以下步骤S104-2和步骤S104-4：

步骤S104-2，根据预先训练的分类模型对待识别图像进行分类处理，得到待识别图像的分类结果信息；

具体的，将待识别图像输入至预先训练的分类模型进行分类处理，得到待识别图像的分类结果信息。考虑到在实际应用中，由于拍摄角度的不同，使得目标对象在待识别图像中的方位往往不同，为了便于后续的识别处理，本申请一个或多个实施例中，分类结果信息可以包括表征版面信息的字段以及表征目标对象在待识别图像中的方位信息的字段。

步骤S104-4，根据分类结果信息确定待识别图像包括的目标对象的版面信息。

具体的，从分类结果中获取表征版面信息的字段，根据获取的字段确定待识别图像包括的目标对象的版面信息。作为示例，分类结果信息的格式为“版面_角度”，当字段版面为front时，表征是第一版面，当字段版面为back时，表征是第二版面；当角度为0时，表征目标对象在待识别图像中的方位是预设方位，当角度是其他数值时，表征目标对象在待识别图像中相对于预设方位旋转的角度。例如，分类结果信息为front_90，从分类结果信息中获取表征版面信息的字段为front，则确定是第一版面，获取的方位信息为90，则确定目标对象在待识别图像中相对于预设方位顺时针旋转了90度。需要指出的是，分类结果信息不限于上述格式，其可以在实际应用中根据需要自行设定。

进一步的，为了在后续的识别处理过程中能够准确有效的定位文本并进行文本识别，在根据分类结果信息确定目标对象在待识别图像中未处于预设方位时，还可以对待识别图像进行校正处理。具体的，如图3所示，步骤S104-4之后还可以包括以下步骤S104-6和步骤S104-8：

步骤S104-6，根据分类结果信息确定目标对象在待识别图像中的方位信息；

步骤S104-8，若根据方位信息确定目标对象在待识别图像中未处于预设方位，则对待识别图像进行校正处理。

例如，根据方位信息确定目标对象在待识别图像中相对于预设方位顺时针旋转了90度，则将待识别图像按照逆时针旋转90度，以使目标对象在待识别图像中处于预设方位；其中，预设方位可以在实际应用中根据需要自行设定。

与步骤S104-6和步骤S106-8对应的，如图3所示，步骤S106可以包括以下步骤S1062、步骤S108可以包括以下步骤S1082：

步骤S1062，若确定的版面信息为第一版面，则基于预先训练的结构化定位模型对校正处理后的待识别图像进行结构化定位处理，对结构化定位处理所得的待识别的第一目标文本进行文本识别处理得到第一识别结果信息；

步骤S1082，若确定的版面信息为第二版面，则基于预先训练的文本检测模型对校正处理后的待识别图像进行文本检测处理，对文本检测处理所得的待识别的第二目标文本进行文本识别处理得到第二识别结果信息。

进一步的，为了实现版面信息和方位信息的准确确定，本申请一个或多个实施例中，预先进行分类模型的训练处理，具体的，步骤S104之前还可以包括以下步骤A2至步骤A6：

步骤A2，获取多个目标对象样本的第一样本图像；

可选的，从网络中获取多个目标对象样本的第一样本图像；或者，从指定的图像库中获取多个目标对象样本的第一样本图像，其中，图像库可以是权威机构的图像库，也可以是基于用户在业务办理过程中所提供的目标对象的图像所构建的数据库。对于第一样本图像的获取方式可以在实际应用中根据需要自行设定。作为示例，目标对象是机动车登记证，目标对象样本是机动车登记证样本。

需要指出的是，对于同一个目标对象样本，可以获取一个第一样本图像，也可以获取多个含有不同方位或不同版面的目标对象样本的第一样本图像。

步骤A4，对每个第一样本图像进行标注处理，以标注第一样本图像中的目标对象样本的版面信息和方位信息；

考虑到在实际应用中，目标对象在待识别图像中相对于预设方位具有小角度的倾斜对于信息的识别影响不大，且用户在对目标对象拍摄图像时，往往是目标对象相对于预设方位具有90度、180度、270等的旋转。基于此，本申请一个或多个实施例中，预先设定8个类别，分别是第一版面且处于预设方位(可记为title_front_0)、第一版面且相对于预设方位顺时针旋转了90度(可记为title_front_90)、第一版面且相对于预设方位顺时针旋转了180度(可记为title_front_180)、第一版面且相对于预设方位顺时针旋转了270度(可记为title_front_270)、第二版面且处于预设方位(可记为title_back_0)、第二版面且相对于预设方位顺时针旋转了90度(可记为title_back_90)、第二版面且相对于预设方位顺时针旋转了180度(可记为title_back_180)、第二版面且相对于预设方位顺时针旋转了270度(可记为title_back_270)。并根据第一样本图像所属的类别标记相应的版面信息和方位信息。

步骤A6，根据预设的第一训练方式，基于标注处理后的第一样本图像进行训练处理得到分类模型。

具体的，根据预设比例将标注处理后的第一样本图像划分为第一训练集和第一测试集；根据预设的第一训练方式对第一训练集进行训练处理，得到初始分类模型；采用第一测试集对初始分类模型进行测试处理，若测试结果符合预设条件，则将相应的初始分类模型确定为最终的分类模型；若测试结果不符合预设条件，则基于第一训练集重新进行训练处理，直至得到最终的分类模型。其中，第一训练方式可以在实际应用中根据需要自行设定，例如基于VGG16网络，采用随机梯度下降法和交叉熵损失函数进行训练处理等。由于模型的训练过程和测试过程是本领域技术人员熟知的技术手段，故本申请中对于模型的训练过程和测试过程不再进行进一步详述。

由此，通过预先训练分类模型，并在获取到目标对象的待识别图像时，基于该分类模型确定目标对象在待识别图像中的版面信息和方位信息，不仅能够根据版面信息确定相应的识别处理模型，从而进行准确的信息识别处理；而且能够根据方位信息对待识别图像进行校正处理，从而提升后续识别处理的准确性。

步骤S106，若版面信息为第一版面，则基于预先训练的结构化定位模型对待识别图像进行结构化定位处理，对结构化定位处理所得的待识别的第一目标文本进行文本识别处理得到第一识别结果信息；

具体的，如图4所示，步骤S106可以包括以下步骤S106-2至步骤S106-6：

步骤S106-2，若版面信息为第一版面，则将待识别图像输入至预先训练的结构化定位模型进行结构化定位处理，得到待识别的第一目标文本的定位框和第一目标文本所对应的结构化字段的字段信息；

需要指出的是，当步骤S104中对待识别图像进行了校正处理时，将校正处理后的待识别图像输入至预先训练的结构化定位模型进行结构化定位处理，得到待识别的第一目标文本的定位框和第一目标文本所对应的结构化字段的字段信息。其中，第一目标文本可以包括文字、数字、字母等中的任意一个或多个的组合。

由于目标对象的第一版面具有固定的样式和结构；因此，可以理解的是，本申请实施例中的结构化定位模型，能够定位如表格结构中的各结构化字段所对应的待识别的第一目标文本，以及确定第一目标文本所对应的结构化字段的字段信息。例如，目标对象为机动车登记证，其第一版面中包括结构化字段“车辆类型”和对应的文本信息“小型普通客车”，当图像识别装置获取到该机动车登记证的待识别图像时，基于结构化定位模型进行定位处理所得的待识别的第一目标文本包括“小型普通客车”，对其添加定位框，并可确定“小型普通客车”这一目标文本所对应的结构化字段的字段信息为“车辆类型”。

步骤S106-4，根据定位框进行图像提取处理，得到包括第一目标文本的第一子图像。

具体的，对每个定位框所圈定的区域进行图像提取处理，得到相应的包括第一目标文本的第一子图像。

步骤S106-6，将第一子图像和对应的字段信息输入至预先训练的文本识别模型进行文本识别处理，得到第一识别结果信息。

其中，第一识别结果信息包括字段信息和对应的识别所得的文本信息；例如，对上述第一目标文本“小型普通客车”进行识别处理得到的文本信息是小型普通客车，则第一识别结果信息包括“车辆类型：小型普通客车”，由此，业务处理系统可基于图像识别装置得到的第一识别结果信息，在业务处理页面中的车辆类型一栏中自动输入小型普通客车，而无需工作人员手动输入，因此能够极大的提升业务处理效率。需要指出的是，第一识别结果信息的格式不限为上述格式，可以在实际应用中根据需要自行设定。

进一步的，为了避免图像过大或过小而影响识别的准确性，本申请一个或多个实施例中，还可以按照预设的横纵比对第一子图像进行缩放处理得到预设大小的第一子图像后，将该预设大小的第一子图像和对应的字段信息输入至预先训练的文本识别模型进行文本识别处理，得到第一识别结果信息。

考虑到当前很多证件或票据是根据行业规定所制定，因此对于同一类型的不同证件或票据，其具有统一的排版，各结构化字段具有很强的位置性。为了能够准确的识别待识别图像所包括的目标对象的第一版面中的各结构化字段所对应文本信息，本申请一个或多个实施例中，预先训练结构化定位模型。具体的，步骤S106-2之前还可以包括以下步骤B2至步骤B6：

步骤B2，获取多个目标对象样本的第三样本图像；其中，第三样本图像包括目标对象样本的第一版面；

其中，第三样本图像的获取方式可参见前述第一样本图像的获取方式，本申请中对此不做具体限定，其可以在实际应用中根据需要自行设定。

步骤B4，对每个第三样本图像进行标注处理，以标注第一版面中的结构化字段；

以目标对象为机动车登记证为例，可以对每个第三样本图像中的车辆所有人、登记机关、登记时间、登记编号、登记证书编号、车辆类型、车辆识别码、发动机型号、发动机号、车辆品牌、车辆生产厂商、承载人数、排量及功率等第一版面所包括的每个结构化字段进行像素和字段信息的标注。

步骤B6，根据预设的第三训练方式，基于标记处理后的第三样本图像进行训练处理，得到结构化定位模型。

考虑到在实际应用中，不同的待识别图像往往是在不同的环境下拍摄所得，其尺寸、角度、颜色等各不相同。为了使结构化定位模型能够兼顾各式各样的待识别图像，具有更好的鲁棒性，本申请一个或多个实施例中，首先对标注处理后的第三样本图像进行数据增强处理，如随机裁剪、随机缩放、随机翻转、仿射变换、颜色抖动、马赛克增强、自适应的anchor计算等。并将数据增强处理后的第三样本图像按照预设比例划分为第三训练集和第三测试集，根据预设的第三训练方式对第三训练集进行训练处理，得到初始的结构化定位模型；采用第三测试集对该初始的结构化定位模型进行测试处理，当测试结果符合预设条件时，将相应的初始的结构化定位模型确定为最终的结构化定位模型；当测试结果不符合预设条件时，基于第三训练集重新进行训练处理，直至得到最终的结构化定位模型。其中，第三训练方式可以在实际应用中根据需要自行设定，例如基于目标检测框架YOLOv5对第三训练集进行训练处理，基于目标检测框架YOLOv5对训练集进行训练的过程中，可以基于Focus和CSP结构完成特征提取，其中Focus及CSP结构是一种特殊的网络结构，可以起到增加特征组合并防止梯度消失的作用；并利用FPN和PAN组成的Neck结构来增强特征的融合，实现针对不同尺度和大小的目标的检测；以及利用GIOU_Loss和Boundingbox损失函数组成目标函数，利用Adam优化器来优化训练，以确保训练的结构化定位模型的准确性。

进一步的，考虑到证件、票据等虽然包括多个字段，但是各字段通常都是水平方向的文本，为了提升文本识别效率，降低计算开销，本申请一个或多个实施例中，还预先训练文本识别模型，并基于文本识别模型对待识别的目标文本进行识别处理。具体的，步骤S106-6之前还可以包括以下步骤C2和步骤C4：

步骤C2，获取多个目标对象样本的第二样本图像，对每个第二样本图像进行标注处理，以标注待识别的文本信息；

由于识别模型的训练往往需要百万级别的训练数据，单纯的依靠人工标注将需要大量的人力成本和时间成本；因此，可以通过人工标注获得一部分带有标注信息的第二样本图像，从公开的图像库中获取一部分带有标注信息的第二样本图像，以及通过计算机图像处理技术，仿真生成一部分带有标注信息的第二样本图像。

步骤C4，根据预设的第二训练方式，基于标注处理后的第二样本图像进行训练处理，得到文本识别模型。

考虑到第二样本图像往往大小不一，为了提升文本识别模型的准确性，以及避免图像的严重变形，本申请一个或多个实施例中，根据预设的横纵比对每个标注处理后的第二样本图像进行缩放处理，得到预设大小的带有标记信息的第二样本图像。根据预设比例将该预设大小的带有标记信息的样本图像划分为第二训练集和第二测试集；基于预设的第二训练方式对第二训练集进行训练处理，得到初始的文本识别模型；根据第二测试集对该初始的文本识别模型进行测试处理，当测试结果满足预设条件时，将该初始的文本识别模型确定为最终的文本识别模型；当测试结果不满足预设条件时，根据第二训练集重新进行训练处理，直至得到最终的文本识别模型。其中，第二训练方式可以在实际应用中根据需要自行设定，如基于CRNN网络、Adadelta优化器以及损失函数CTC-Loss(ConnectionistTemporal Classification)进行训练等。

通过进行文本识别模型的训练，从而基于文本识别模型进行文本识别处理，而不是传统的基于特定字段建立特定字库识别模型，因此极大的降低了计算开销，提升了识别效率。

步骤S108，若版面信息为第二版面，则基于预先训练的文本检测模型对待识别图像进行文本检测处理，对文本检测处理所得的待识别的第二目标文本进行文本识别处理得到第二识别结果信息。

具体的，如图5所示，步骤S108可以包括以下步骤S108-2至步骤S108-6：

步骤S108-2，若版面信息为第二版面，则将待识别图像输入至预先训练的文本检测模型进行文本检测处理得到文本区域；

步骤S108-4，根据本文区域进行图像提取处理，得到包括待识别的第二目标文本的第二子图像；

步骤S108-6，将第二子图像输入至预先训练的文本识别模型进行文本识别处理，得到第二识别结果信息。

其中，文本识别模型与步骤S106中的文本识别模型相同，相关描述可参见前述描述。

由于目标对象的第一版面与第二版面的格式不同，第二版面不具有统一的结构化的样式，为了实现第二版面中文本的准确检测，从而进行文本识别；本申请一个或多个实施例中，预先训练文本检测模型。具体的，步骤S108之前还包括以下步骤D2至步骤D6：

步骤D2，获取多个目标对象样本的第四样本图像；其中，第四样本图像包括目标对象的第二版面；

其中，第四样本图像的获取方式可参见前述第一样本图像的获取方式，本申请中对此不做具体限定。

步骤D4，对每个第四样本图像进行标注处理，以标注文本区域；

步骤D6，根据预设的第四训练方式，基于标注处理后的第四样本图像进行训练处理，得到文本检测模型。

具体的，按照预设比例将第四样本图像划分为第四训练集和第四测试集，根据预设的第四训练方式对第四训练集进行训练处理，得到初始的文本检测模型；根据第四测试集对该初始的文本检测模型进行测试处理得到测试结果信息，若确定测试结果信息符合预设条件，则将该初始的文本检测模型确定为最终的文本检测模型，若确定检测结果信息不符合预设条件，则根据第四训练集重新进行训练处理，直至得到最终的文本检测模型。其中，第四训练方式可以在实际应用中根据需要自行设定，如基于ResNeSt网络进行训练等。

由此，基于第二版面中本文信息的不确定性，通过预先训练文本检测模型，并基于该文本检测模型对包括第二版面的待识别图像首先进行文本检测处理，然后对检测所得的第二目标文本进行文本识别处理，实现了第二版面的文本信息的有效识别。

当前，OCR(Optical Character Recognition光学字符识别)技术是广泛使用的图像识别技术，考虑到OCR识别过程中，需要对图像进行二值化、光照不均校正、噪声去除、字符切分等多个预处理操作，不仅操作繁琐，而且识别结果易受到图像质量的影响。基于此，本申请中对于包括不同版面的图像预先训练相应的处理模型，并基于模型进行相应处理，仅需简单的图像预处理或无需进行图像预处理即可实现图像识别，不仅提升了识别效率，而且降低了预处理对识别结果的影响。

进一步的，考虑到目标对象的第二版面中通常包括目标对象所对应的实体或该目标对象所参与的业务操作的相关信息；例如，目标对象是机动车登记证，其第二版面通常包括对应的车辆所参与质押、买卖等业务操作的信息。又如，目标对象是学生证，其第二版面通常包括该学生证进行购票操作的信息等。为了便于业务处理系统在业务处理过程中，可以获知目标对象所对应的实体或目标对象所进行指定操作的操作次数，本申请一个或多个实施例中，如图6所示，步骤S108之后还可以包括以下步骤S110：

步骤S110，根据第二识别结果信息，确定目标对象所对应的实体或目标对象进行指定操作的操作次数。

具体的，根据预设方式确定第二识别结果信息中的每个文本信息与指定的标准文本库中的每个标准文本的相似度；若确定相似度大于预设的相似度阈值，则根据相应的标准文本确定文本信息所对应的操作类型信息；根据确定的操作类型信息，确定目标对象所对应的实体或目标对象进行指定操作的操作次数。更加具体的，预先建立每个标准文本与操作类型信息的关联关系，当确定相似度大于预设的相似度阈值时，根据相应的标准文本从该关联关系中获取关联的操作类型信息；统计相同的操作类型信息的数量，并将统计的数量确定为相应操作的操作次数。其中，预设方式如计算余弦距离等。作为示例，目标对象为机动车登记证，第二识别结果信息包括文本信息：2010年9月1日从张某转移至李某、2015年8月6日从李某转移至王某；将每个文本信息与标准文本进行相似度计算后，确定对应的操作类型信息均为转移类型，因此统计可得相应的车辆的转移次数是2次。

由此，对于包括第二版面的待识别图像，在进行文本识别处理后，通过确定目标对象所对应的实体或目标对象所进行的指定操作的操作次数，能够为业务系统提供有效的业务数据，而无需人为进行统计，不仅能够提升业务处理效率，而且避免了人为失误导致的统计错误。

本申请一个或多个实施例中，在获取到具有不同版面格式的目标对象的待识别图像时，确定待识别图像包括的目标对象的版面信息，并根据确定的版面信息采用相应的预先训练的处理模型进行识别处理得到识别结果信息。由此，对于具有不同版面格式的目标对象，通过预先训练针对不同版面的图像的处理模型，从而在获取到待识别图像时，能够根据待识别图像包括的目标对象的版面信息，采用不同的处理模型进行针对性的识别处理，而不是对于所有的图像均采用相同的识别方式进行识别处理；因此极大的提升了识别的准确性，特别是对于结构化版面的图像，能够准确的识别出其结构化的信息，有利于提升业务的处理效率，能够更好的满足当前高效率的业务处理需求。

进一步的，对应上述描述的图像识别方法，基于相同的技术构思，本申请实施例还提供了一种图像识别装置。图7为本申请实施例提供的一种图像识别装置的模块组成示意图，如图7所示，该装置包括：

获取模块201，用于获取目标对象的待识别图像；其中，所述目标对象包括版面格式不同的第一版面和第二版面；

确定模块202，用于确定所述待识别图像包括的所述目标对象的版面信息；

第一识别模块203，用于若所述版面信息为所述第一版面，则基于预先训练的结构化定位模型对所述待识别图像进行结构化定位处理，对所述结构化定位处理所得的待识别的第一目标文本进行文本识别处理得到第一识别结果信息；

第二识别模块204，用于若所述版面信息为所述第二版面，则基于预先训练的文本检测模型对所述待识别图像进行文本检测处理，对所述文本检测处理所得的待识别的第二目标文本进行文本识别处理得到第二识别结果信息。

可选地，所述确定模块202，根据预先训练的分类模型对所述待识别图像进行分类处理，得到所述待识别图像的分类结果信息；

根据所述分类结果信息确定所述待识别图像包括的所述目标对象的版面信息。

可选地，所述装置还包括：校正模块；

所述校正模块，根据所述分类结果信息确定所述目标对象在所述待识别图像中的方位信息；

若根据所述方位信息确定所述目标对象在所述待识别图像中未处于预设方位，则对所述待识别图像进行校正处理。

可选地，所述装置还包括：第一训练模块；

所述第一训练模块，获取多个目标对象样本的第一样本图像；

对每个所述第一样本图像进行标注处理，以标注所述第一样本图像中的所述目标对象样本的版面信息和方位信息；

根据预设的第一训练方式，基于标注处理后的所述第一样本图像进行训练处理得到所述分类模型。

可选地，所述第一识别模块203，将所述待识别图像输入至预先训练的结构化定位模型进行结构化定位处理，得到待识别的所述第一目标文本的定位框和所述第一目标文本所对应的结构化字段的字段信息；

根据所述定位框进行图像提取处理，得到包括所述第一目标文本的第一子图像；

将所述第一子图像和对应的所述字段信息输入至预先训练的文本识别模型进行文本识别处理，得到第一识别结果信息。

可选地，所述第二识别模块204，将所述待识别图像输入至预先训练的文本检测模型进行文本检测处理得到文本区域；

根据所述本文区域进行图像提取处理，得到包括待识别的所述第二目标文本的第二子图像；

所述对所述文本检测处理所得的待识别的第二目标文本进行文本识别处理得到第二识别结果信息，包括：

将所述第二子图像输入至预先训练的文本识别模型进行文本识别处理，得到第二识别结果信息。

可选地，所述装置还包括：统计模块；

所述统计模块，在所述第二识别模块204对所述文本检测处理所得的待识别的第二目标文本进行文本识别处理得到第二识别结果信息之后，根据所述第二识别结果信息，确定所述目标对象所对应的实体或所述目标对象进行指定操作的操作次数。

可选地，所述统计模块，根据预设方式确定所述第二识别结果信息中的每个文本信息与指定的标准文本库中的每个标准文本的相似度；

若确定所述相似度大于预设的相似度阈值，则根据相应的所述标准文本确定所述文本信息所对应的操作类型信息；

根据确定的所述操作类型信息，确定所述目标对象所对应的实体或所述目标对象进行指定操作的操作次数。

可选地，所述装置还包括：第二训练模块；

所述第二训练模块，获取多个目标对象样本的第二样本图像；

对每个所述第二样本图像进行标注处理，以标注待识别的文本信息；

根据预设的第二训练方式，基于标注处理后的所述第二样本图像进行训练处理，得到所述文本识别模型。

可选地，所述装置还包括：第三训练模块；

所述第三训练模块，获取多个目标对象样本的第三样本图像；其中，所述第三样本图像包括所述目标对象样本的第一版面；

对每个所述第三样本图像进行标注处理，以标注所述第一版面中的结构化字段；

根据预设的第三训练方式，基于标注处理后的所述第三样本图像进行训练处理，得到所述结构化定位模型。

可选地，所述装置还包括：第四训练模块；

所述第四训练模块，获取多个目标对象样本的第四样本图像；其中，所述第四样本图像包括所述目标对象的第二版面；

对每个所述第四样本图像进行标注处理，以标注文本区域；

根据预设的第四训练方式，基于标注处理后的所述第四样本图像进行训练处理，得到所述文本检测模型。

本申请一个或多个实施例提供的图像识别装置，在获取到包括不同版面格式的目标对象的待识别图像时，确定待识别图像包括的目标对象的版面信息，并根据确定的版面信息采用相应的预先训练的处理模型进行识别处理。由此，对于具有不同版面格式的目标对象，通过预先训练针对不同版面的图像的处理模型，从而在获取到待识别图像时，能够根据待识别图像包括的目标对象的版面信息，采用不同的处理模型进行针对性的识别处理，而不是对于所有的图像均采用相同的识别方式进行识别处理；因此极大的提升了识别的准确性，特别是对于具有结构化版面的图像，能够准确的识别出其结构化的信息，有利于提升业务的处理效率，能够更好的满足当前高效率的业务处理需求。

需要说明的是，本申请中关于图像识别装置的实施例与本申请中关于图像识别方法的实施例基于同一发明构思，因此该实施例的具体实施可以参见前述对应的图像识别方法的实施，重复之处不再赘述。

进一步的，对应上述图像识别方法，基于相同的技术构思，本申请实施例还提供一种图像识别设备，该设备用于执行上述的图像识别方法，图8为本申请实施例提供的图像识别设备的结构示意图。

如图8所示，图像识别设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上的处理器301和存储器302，存储器302中可以存储有一个或一个以上存储应用程序或数据。其中，存储器302可以是短暂存储或持久存储。存储在存储器302的应用程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括图像识别设备中的一系列计算机可执行指令。更进一步地，处理器301可以设置为与存储器302通信，在图像识别设备上执行存储器302中的一系列计算机可执行指令。图像识别设备还可以包括一个或一个以上电源303，一个或一个以上有线或无线网络接口304，一个或一个以上输入输出接口305，一个或一个以上键盘306等。

在一个具体的实施例中，图像识别设备包括有存储器，以及一个或一个以上的程序，其中一个或者一个以上程序存储于存储器中，且一个或者一个以上程序可以包括一个或一个以上模块，且每个模块可以包括对图像识别设备中的一系列计算机可执行指令，且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令：

确定所述待识别图像包括的所述目标对象的版面信息；

可选地，计算机可执行指令在被执行时，所述确定所述待识别图像包括的所述目标对象的版面信息，包括：

根据预先训练的分类模型对所述待识别图像进行分类处理，得到所述待识别图像的分类结果信息；

可选地，计算机可执行指令在被执行时，所述方法还包括：

根据所述分类结果信息确定所述目标对象在所述待识别图像中的方位信息；

可选地，计算机可执行指令在被执行时，所述方法还包括：

获取多个目标对象样本的第一样本图像；

可选地，计算机可执行指令在被执行时，所述基于预先训练的结构化定位模型对所述待识别图像进行结构化定位处理，包括：

将所述待识别图像输入至预先训练的结构化定位模型进行结构化定位处理，得到待识别的所述第一目标文本的定位框和所述第一目标文本所对应的结构化字段的字段信息；

所述对所述结构化定位处理所得的待识别的第一目标文本进行文本识别处理得到第一识别结果信息，包括：

可选地，计算机可执行指令在被执行时，基于预先训练的文本检测模型对所述待识别图像进行文本检测处理，包括：

将所述待识别图像输入至预先训练的文本检测模型进行文本检测处理得到文本区域；

可选地，计算机可执行指令在被执行时，所述对所述文本检测处理所得的待识别的第二目标文本进行文本识别处理得到第二识别结果信息之后，还包括：

根据所述第二识别结果信息，确定所述目标对象所对应的实体或所述目标对象进行指定操作的操作次数。

可选地，计算机可执行指令在被执行时，根据所述第二识别结果信息，确定所述目标对象所对应的实体或所述目标对象进行指定操作的操作次数，包括：

根据预设方式确定所述第二识别结果信息中的每个文本信息与指定的标准文本库中的每个标准文本的相似度；

可选地，计算机可执行指令在被执行时，所述方法还包括：

获取多个目标对象样本的第二样本图像；

可选地，计算机可执行指令在被执行时，所述方法还包括：

获取多个目标对象样本的第三样本图像；其中，所述第三样本图像包括所述目标对象样本的第一版面；

可选地，计算机可执行指令在被执行时，所述方法还包括：

获取多个目标对象样本的第四样本图像；其中，所述第四样本图像包括所述目标对象的第二版面；

对每个所述第四样本图像进行标注处理，以标注文本区域；

本申请实施例所提供的图像识别设备，在获取到包括不同版面格式的目标对象的待识别图像时，确定待识别图像包括的目标对象的版面信息，并根据确定的版面信息采用相应的预先训练的处理模型进行识别处理。由此，对于具有不同版面格式的目标对象，通过预先训练针对不同版面的图像的处理模型，从而在获取到待识别图像时，能够根据待识别图像包括的目标对象的版面信息，采用不同的处理模型进行针对性的识别处理，而不是对于所有的图像均采用相同的识别方式进行识别处理；因此极大的提升了识别的准确性，特别是对于具有结构化版面的图像，能够准确的识别出其结构化的信息，有利于提升业务的处理效率，能够更好的满足当前高效率的业务处理需求。

需要说明的是，本申请中关于图像识别设备的实施例与本申请中关于图像识别方法的实施例基于同一发明构思，因此该实施例的具体实施可以参见前述对应的图像识别方法的实施，重复之处不再赘述。

进一步的，对应上述的数据处理方法，基于相同的技术构思，本申请一个或多个实施例还提供了一种存储介质，用于存储计算机可执行指令，在一个具体的实施例中，该存储介质可以为U盘、光盘、硬盘等，该存储介质存储的计算机可执行指令在被处理器执行时，能实现以下流程：

确定所述待识别图像包括的所述目标对象的版面信息；

可选地，该存储介质存储的计算机可执行指令在被处理器执行时，所述确定所述待识别图像包括的所述目标对象的版面信息，包括：

可选地，该存储介质存储的计算机可执行指令在被处理器执行时，所述方法还包括：

获取多个目标对象样本的第一样本图像；

可选地，该存储介质存储的计算机可执行指令在被处理器执行时，所述基于预先训练的结构化定位模型对所述待识别图像进行结构化定位处理，包括：

可选地，该存储介质存储的计算机可执行指令在被处理器执行时，基于预先训练的文本检测模型对所述待识别图像进行文本检测处理，包括：

可选地，该存储介质存储的计算机可执行指令在被处理器执行时，所述对所述文本检测处理所得的待识别的第二目标文本进行文本识别处理得到第二识别结果信息之后，还包括：

可选地，该存储介质存储的计算机可执行指令在被处理器执行时，根据所述第二识别结果信息，确定所述目标对象所对应的实体或所述目标对象进行指定操作的操作次数，包括：

获取多个目标对象样本的第二样本图像；

对每个所述第四样本图像进行标注处理，以标注文本区域；

本申请一个或多个实施例提供的存储介质存储的计算机可执行指令在被处理器执行时，在获取到包括不同版面格式的目标对象的待识别图像时，确定待识别图像包括的目标对象的版面信息，并根据确定的版面信息采用相应的预先训练的处理模型进行识别处理。由此，对于具有不同版面格式的目标对象，通过预先训练针对不同版面的图像的处理模型，从而在获取到待识别图像时，能够根据待识别图像包括的目标对象的版面信息，采用不同的处理模型进行针对性的识别处理，而不是对于所有的图像均采用相同的识别方式进行识别处理；因此极大的提升了识别的准确性，特别是对于具有结构化版面的图像，能够准确的识别出其结构化的信息，有利于提升业务的处理效率，能够更好的满足当前高效率的业务处理需求。

需要说明的是，本说明书中关于存储介质的实施例与本说明书中关于图像识别方法的实施例基于同一发明构思，因此该实施例的具体实施可以参见前述对应的图像识别方法的实施，重复之处不再赘述。

本领域内的技术人员应明白，本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书的一个或多个实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本文件的实施例而已，并不用于限制本文件。对于本领域技术人员来说，本文件可以有各种更改和变化。凡在本文件的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本文件的权利要求范围之内。

Claims

1.一种图像识别方法，其特征在于，包括：

确定所述待识别图像包括的所述目标对象的版面信息；

2.根据权利要求1所述的方法，其特征在于，所述确定所述待识别图像包括的所述目标对象的版面信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

获取多个目标对象样本的第一样本图像；

5.根据权利要求1所述的方法，其特征在于，所述基于预先训练的结构化定位模型对所述待识别图像进行结构化定位处理，包括：

6.根据权利要求1所述的方法，其特征在于，基于预先训练的文本检测模型对所述待识别图像进行文本检测处理，包括：

7.根据权利要求1所述的方法，其特征在于，所述对所述文本检测处理所得的待识别的第二目标文本进行文本识别处理得到第二识别结果信息之后，还包括：

8.根据权利要求7所述的方法，其特征在于，根据所述第二识别结果信息，确定所述目标对象所对应的实体或所述目标对象进行指定操作的操作次数，包括：

9.根据权利要求5或6所述的方法，其特征在于，所述方法还包括：

获取多个目标对象样本的第二样本图像；

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

11.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对每个所述第四样本图像进行标注处理，以标注文本区域；

12.一种图像识别装置，其特征在于，包括：

13.根据权利要求12所述的装置，其特征在于，所述确定模块具体用于：

14.根据权利要求13所述的装置，其特征在于，所述装置还包括：校正模块；

所述校正模块，用于根据所述分类结果信息确定所述目标对象在所述待识别图像中的方位信息；

15.一种图像识别设备，其特征在于，包括：处理器，以及被安排成存储计算机可执行指令的存储器；所述计算机可执行指令在被执行时使所述处理器实现上述权利要求1至11中任一项所述的方法的步骤。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1至11中任一项所述的方法的步骤。