CN111914840A

CN111914840A - 一种文本识别方法、模型训练方法、装置及设备

Info

Publication number: CN111914840A
Application number: CN202010760060.9A
Authority: CN
Inventors: 谢小容; 张晓丹; 孙歌睿
Original assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Current assignee: China Construction Bank Corp
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2020-11-10

Abstract

本说明书实施例提供一种文本识别方法、模型训练方法、装置及设备。所述方法包括：接收待处理图像；所述待处理图像中包含有待识别文本；获取所述待处理图像对应的图像模板类别；在所述待处理图像中截取出对应于所述图像模板类别的待处理模板图像；确定对应于所述待处理模板图像的倾斜角度；基于所述倾斜角度对所述待处理模板图像中的待识别文本进行识别。通过上述方法，通过确定对应于一定图像模板类别的待处理模板图像，进而识别出待处理模板图像的倾斜角度，从而能够基于倾斜角度对图像进行矫正并进一步实现图像中的文本的识别，解决了无法准确识别倾斜图像中的文本的问题。

Description

一种文本识别方法、模型训练方法、装置及设备

技术领域

本说明书实施例涉及计算机技术领域，特别涉及一种文本识别方法、模型训练方法、装置及设备。

背景技术

随着科技的进步和社会的发展，在工作和生活中越来越多地利用到对图像中的文字进行识别。对图像中的文字进行识别时，首先获取图像中的字符，并基于所识别的字符构建完整的字段。

但是，在实际应用中，所获取到的图像可能是具有一定倾斜角度的倾斜图像，直接对倾斜图像中的文字进行识别不仅在字符识别上具有一定的难度，也可能无法根据倾斜的文本构建正确的段落，从而无法对图像中的文本进行准确识别。因此，目前亟需一种能够对倾斜图像中的文本进行识别的技术方案。

发明内容

本说明书实施例的目的是提供一种文本识别方法、模型训练方法、装置及设备，以解决如何对倾斜图像中的文本进行识别的问题。

为解决上述技术问题，本申请实施例还提供一种图像识别模型训练方法，包括：

接收第一样本图像；所述第一样本图像对应有图像模板类别；所述样本图像中标注有至少一个第一定位字符；

获取所述第一定位字符在所述第一样本图像中的字符位置；

基于所述字符位置和所述图像模块类别训练预先构建的图像识别模型；所述图像识别模型，用于识别图像所对应的图像模板类别。

本说明书实施例还提出一种图像识别模型训练装置，包括：

第一样本图像接收模块，用于接收第一样本图像；所述第一样本图像对应有图像模板类别；所述样本图像中标注有至少一个第一定位字符；

字符位置获取模块，用于获取所述第一定位字符在所述第一样本图像中的字符位置；

图像识别模型训练模块，用于基于所述字符位置和所述图像模块类别训练预先构建的图像识别模型；所述图像识别模型，用于识别图像所对应的图像模板类别。

本说明书实施例还提出一种图像识别模型训练设备，包括存储器和处理器；所述存储器，存储有计算机程序指令；所述处理器，用于执行所述计算机程序指令以实现以下步骤：接收第一样本图像；所述第一样本图像对应有图像模板类别；所述样本图像中标注有至少一个第一定位字符；获取所述第一定位字符在所述第一样本图像中的字符位置；基于所述字符位置和所述图像模块类别训练预先构建的图像识别模型；所述图像识别模型，用于识别图像所对应的图像模板类别。

为了解决上述技术问题，本说明书实施例还提出一种角度识别模型训练方法，包括：

接收第二样本图像；所述第二样本图像对应有旋转角度；所述第二样本图像对应有图像模板类别；

基于所述图像模板类别和所述旋转角度训练预先构建的角度识别模型；所述角度识别模型，用于识别图像的倾斜角度。

本说明书实施例还提出一种角度识别模型训练装置，包括：

第二样本图像接收模块，用于接收第二样本图像；所述第二样本图像对应有旋转角度；所述第二样本图像对应有图像模板类别；

角度识别模型训练模块，用于基于所述图像模板类别和所述旋转角度训练预先构建的角度识别模型；所述角度识别模型，用于识别图像的倾斜角度。

本说明书实施例还提出一种角度识别模型训练设备，包括存储器和处理器；所述存储器，用于存储计算机程序指令；所述处理器，用于执行所述计算机程序指令以实现以下步骤：接收第二样本图像；所述第二样本图像对应有旋转角度；所述第二样本图像对应有图像模板类别；基于所述图像模板类别和所述旋转角度训练预先构建的角度识别模型；所述角度识别模型，用于识别图像的倾斜角度。

为了解决上述技术问题，本说明书实施例还提出一种文本识别方法，包括：

接收待处理图像；所述待处理图像中包含有待识别文本；

获取所述待处理图像对应的图像模板类别；

在所述待处理图像中截取出对应于所述图像模板类别的待处理模板图像；

确定对应于所述待处理模板图像的倾斜角度；

基于所述倾斜角度对所述待处理模板图像中的待识别文本进行识别。

本说明书实施例还提出一种文本识别装置，包括：

待处理图像接收模块，用于接收待处理图像；所述待处理图像中包含有待识别文本；

图像模板类别获取模块，用于获取所述待处理图像对应的图像模板类别；

待处理模板图像截取模块，用于在所述待处理图像中截取出对应于所述图像模板类别的待处理模板图像；

倾斜角度确定模块，用于确定对应于所述待处理模板图像的倾斜角度；

文本识别模块，用于基于所述倾斜角度对所述待处理模板图像中的待识别文本进行识别。

本说明书实施例还提出一种文本识别设备，包括存储器和处理器；所述存储器，用于存储计算机程序指令；所述处理器，用于执行所述计算机程序指令以实现以下步骤：接收待处理图像；所述待处理图像中包含有待识别文本；获取所述待处理图像对应的图像模板类别；在所述待处理图像中截取出对应于所述图像模板类别的待处理模板图像；确定对应于所述待处理模板图像的倾斜角度；基于所述倾斜角度对所述待处理模板图像中的待识别文本进行识别。

由以上本说明书实施例提供的技术方案可见，本说明书实施例首先根据标注有定位字符的第一样本图像，以及所述第一样本图像所对应的图像模板类别，训练图像识别模型，以使所述图像识别模型在识别图像后，能够根据图像中的字符分布情况确定所述图像所对应的图像模板类别。其次，再根据标记有旋转角度的对应有图像模板类别第二样本图像对角度识别模型进行训练，以使得所述角度识别模型能够确定对应有图像模板类别的图像的倾斜角度。在模型训练完毕后，当接收到待处理图像后，将待处理图像输入图像识别模型后即可识别出待处理图像所对应的图像模板类别，进而根据所述图像模板类别在所述待处理图像中截取出待处理模板图像，并利用角度识别模型对所述待处理模板图像进行识别以确定所述待处理模板图像的倾斜角度，从而能够基于倾斜角度对待识别文本进行倾斜角度调整及文本识别。通过上述方法，实现了对于具有一定倾斜角度的待识别图像的文本识别，确保了对于倾斜图像中的文字的识别准确性，避免了根据倾斜图像识别出无意义的段落的问题。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书实施例一种图像识别模型训练方法的流程图；

图2为本说明书实施例一种角度识别模型训练方法的流程图；

图3为本说明书实施例一种文本识别方法的流程图；

图4为本说明书实施例一种图像识别模型训练装置的模块图；

图5为本说明书实施例一种角度识别模型训练装置的模块图；

图6为本说明书实施例一种文本识别装置的模块图；

图7为本说明书实施例一种图像识别模型训练设备的结构图；

图8为本说明书实施例一种角度识别模型训练设备的结构图；

图9为本说明书实施例一种文本识别设备的结构图。

具体实施方式

下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

以下结合附图1介绍本说明书实施例一种图像识别模型训练方法。所述方法的执行主体为图像识别模型训练设备，所述图像识别模型训练设备包括但不限于服务器、工控机、PC机等。所述图像识别模型训练方法包括以下具体实施步骤。

S110：接收第一样本图像；所述第一样本图像对应有图像模板类别；所述样本图像中标注有至少一个第一定位字符。

第一样本图像是用于对预先构建的图像识别模型进行训练的样本图像。所述第一样本图像可以是任何包含文字的图像。所述第一样本图像可以具有一定的倾斜角度。所述第一样本图像可以是拍摄得到的图像，也可以是截图得到的图像，也可以是由计算机程序所生成的图像，对于所述第一样本图像的获取方式不做限制。

所述第一样本图像对应有一定的图像模板类别。图像模板类别用于表示图像中的字符的固定排布方式。图像模板类别对应有定位字符分布方式。根据所述图像模板类别可以在图像的固定位置获取到相应的定位字符，从而在后续文本识别的过程中确定图像中的定位字符并获取图像的倾斜角度。

由于在实际生活中，需要进行文本识别的图像往往具有固定的类别，例如，证件复印件、标识牌照片、终端设备屏幕截图等。这些需要进行文本识别的图像中的文字往往具有固定的文本排列方式。例如，在身份证件中，证件信息均按照固定的样式进行排布，在识别出身份证件中的字符后，根据字符的排列情况，即可确定当前所识别的图像所对应的图像模板类别为身份证件。具体的，所述图像模板类别还可以是身份证的正面或方面。实际应用中，图像模板类别根据实际情况的需求可以进行拓展，不限于上述示例，在此不再赘述。

由于图像的旋转程度不会影响第一样本图像的图像模板类别，而本说明书实施例所解决的技术问题即包括对于倾斜图像中的文本的识别。因此，所述第一样本图像可以是具有不同倾斜角度的图像。

所述第一样本图像中可以标注有至少一个第一定位字符。所述第一定位字符用于确定所述样本图像所对应的样式。例如，在所述第一样本图像为标识牌时，所述第一定位字符可以是所述标识牌中的各个文字。

所述第一定位字符可以是文字，也可以是图像中固有的符号或标识等。例如，在所述第一样本图像为身份证正面复印件时，可以将所述第一样本图像中的国徽也标注为第一定位字符。后续文本识别过程中若识别出国徽，同样可以基于所识别出的国徽和其他定位字符确定图像所对应的图像模板类别。

实际应用中，所述第一定位字符可以是第一样本图像中的全部字符，也可以是所述第一样本图像中的部分字符。在一些情况中，所述第一样本图像所对应的图像模板类别中的某些字符可能不是固定存在的字符，对该字符进行标注可能会影响训练得到的图像识别模型的精度。因此，实际应用中，可以根据图像模板类别的具体要求在所述第一样本图像中标注相应的第一定位字符。

S120：获取所述第一定位字符在所述第一样本图像中的字符位置。

字符位置是第一定位字符在第一样本图像中所处的位置。根据第一定位字符的分布位置可以确定所述第一样本图像所对应的图像模板类别。例如，当所述第一样本图像为身份证复印件时，所述第一样本图像中的字符具有固定的分布位置。当识别另一身份证复印件时，确定所述身份证复印件中的定位字符符合身份证复印件的字符分布特点时，即可确定当前所识别的图像所对应的图像模板类别为身份证正面或身份证背面。

所述字符位置可以是第一定位字符相较于独立于第一样本图像之外的坐标系的位置，也可以是不同的第一定位字符之间的相对位置。所述字符位置可以基于实际应用的需求进行调整，并不限于上述示例，在此不再赘述。

由于在对图像识别模型进行训练时，所获取到的不同第一样本图像的尺寸可能具有较大差别，使得对应于同一图像模板类别的第一定位字符之间可能具有不同的相对位置。在上述情况中，若不对第一样本图像进行调整，在对图像识别模型进行训练时无法准确确定同一图像模板类别中的定位字符之间的相对位置关系，进而影响训练得到的图像识别模型的准确性。

因此，在一些实施方式中，为了保证同一图像模板类别所对应的定位字符所分布的位置相同，在获取所述第一定位字符的字符位置之前，可以将所述第一样本图像的大小调整为预设标准尺寸。预设标准尺寸可以是预先设定的图像尺寸。在同一图像模板类别的第一样本图像调整为同一尺寸后，使得其中的第一定位字符之间也具有固定的间隔，从而保证了所训练出的图像识别模型的准确性。

由于所述第一样本图像可能为倾斜的图像，若直接将第一样本图像的图像本身的长宽调整为固定尺寸，则可能会使得所述第一样本图像中对应于图像模板类别的图片具有不同的尺寸。因此，在实际应用中，需要根据图像的倾斜情况对所述第一样本图像进行尺寸调整。

在一些实施方式中，获取第一定位字符的字符位置时，可以将所述第一样本图像设置于预设坐标系中，并将第一定位字符在所述预设坐标系中的坐标作为所述第一定位字符所对应的字符位置。通过设置预设坐标系以获取所述第一定位字符所对应的字符位置能够定量且准确地获取第一定位字符的位置。

S130：基于所述字符位置和所述图像模块类别训练预先构建的图像识别模型；所述图像识别模型，用于识别图像所对应的图像模板类别。

在获取到所述字符位置后，可以基于所述字符位置和所述第一样本图像所对应的图像模板类别对图像识别模型进行训练。由于所述第一样本图像中标注有第一定位字符，即所述第一样本图像为有标签数据，因此，可以通过有监督学习的方式对图像识别模型进行训练。

在本说明书实施例中，所述图像识别模型可以为一种数学模型，用于将未分类的图像划分至已知的图像模板类别中。所述图像识别模型可以为贝叶斯分类模型、支持向量机分类模型(Support Vector Machine，SVM)、或卷积神经网络分类模型(ConvolutionalNeural Networks，CNN)等。

在一些实施方式中，所述图像识别模型可以是yolo模型。yolo模型是一种基于卷积神经网络的目标检测模型。Yolo模型中包含有卷积层和全连接层，通过卷积层实现对于图像中的特征的提取，再通过全连接层根据提取的图像特征输出相应的概率，完成对于图像类别的识别。

在具体的应用过程中，yolo模型可以将图像划分为多个单元，并通过判断各个单元中是否存在目标物体实现对于图像类别的划分。应用至本说明书实施例中可以针对第一样本图像划分出相应的单元，并根据字符位置将所述第一样本图像中的对应单元标记为存在相应的定位字符。根据图像中存在第一定位字符的单元分布情况确定对应的第一样本图像的图像模板类别。

上述实施方式只是对图像识别模型的其中一个具体示例的介绍。实际应用中，通过对图像进行识别以确定图像所对应的分类的机器学习模型均可以作为所述图像识别模型进行训练，对此不做赘述。

通过上述图像识别模型训练方法，可以根据标注有定位字符的第一样本图像，以及所述第一样本图像所对应的图像模板类别，训练图像识别模型，以使所述图像识别模型在识别图像后，能够根据图像中的字符分布情况确定所述图像所对应的图像模板类别。因此，上述图像识别模型训练方法能够训练出对图像所对应的图像模板类别进行识别的图像识别模型，有利于后续步骤中利用文本识别方法对图像中的文本进行识别。

以下结合附图2介绍本说明书实施例一种角度识别模型训练方法。所述方法的执行主体为角度识别模型训练设备，所述角度识别模型训练设备包括但不限于服务器、工控机、PC机等。所述角度识别模型训练方法包括以下具体实施步骤。

S210：接收第二样本图像；所述第二样本图像对应有旋转角度；所述第二样本图像对应有图像模板类别；。

第一样本图像是用于对预先构建的角度识别模型进行训练的样本图像。所述第一样本图像可以是任何包含文字的图像。所述第一样本图像可以具有一定的倾斜角度。所述第一样本图像可以是拍摄得到的图像，也可以是截图得到的图像，也可以是由计算机程序所生成的图像，对于所述第一样本图像的获取方式不做限制。

由于所训练得到的角度识别模型需要对图像的倾斜角度进行识别，因此，所述第二样本图像可以是具有一定倾斜角度的图像。相应的，所述第二样本图像标注有对应的旋转角度。所述旋转角度用于表示所述第二样本图像相较于正常放置方式的偏移角度。例如，在所述第二样本图像为倒放的情况下，所述第二样本图像的旋转角度为180度。

在一些实施方式中，为了保证所标注的旋转角度的准确性，所述第二样本图像可以通过对候选样本图像进行调整而得到。所述候选样本图像具有不同的倾斜角度，同时在所述候选样本图像中标注有相应的第二定位字符，所述第二定位字符构建为相应的文本行。基于所述文本行相对于水平轴线的偏转角度，可以对所述第二样本图像的倾斜角度进行校正。调整后的候选样本图像可能为无偏转角度的图像，也可能为旋转180度后的图像，在这种情况下，可以根据用户输入的纠正指令将校正后的候选样本图像调整为标准图像，所述标准图像为为倾斜角度为0度的图像。在将所有候选样本图像均调整为无偏转角度的标准图像后，可以再次给予用户输入的旋转角度将所述标准图像旋转0度-359度之间的角度，并将所旋转的角度作为旋转后的第二样本图像所对应的旋转角度，以保证所标注的旋转角度的正确性。

所述第二定位字符可以是文字，也可以是图像中固有的符号或标识等。通过所述第二定位字符所处的位置以及第二定位字符之间的位置关系，可以确定所述第二样本图像的倾斜角度。

S220：基于所述旋转角度训练预先构建的角度识别模型；所述角度识别模型，用于识别图像的倾斜角度。

在获取到标注有旋转角度的第二样本图像后，可以基于所述旋转角度对角度识别模型进行训练。由于所述第而样本图像中标注有旋转角度，即所述第二样本图像为有标签数据，因此，可以通过有监督学习的方式对所述角度识别模型进行训练。

在本说明书实施例中，所述角度识别模型也可以为一种数学模型，用于根据图像中的定位字符确定图像的倾斜角度。所述图像识别模型可以为贝叶斯分类模型、支持向量机分类模型(Support Vector Machine，SVM)、或卷积神经网络分类模型(ConvolutionalNeural Networks，CNN)等。

在一些实施方式中，所述角度识别模型可以是vgg神经网络模型。所述vgg神经网络模型包含有卷积层、全连接层和softmax层。其中卷积层用于对图像进行卷积以提取图像特征；全连接层用于对所述图像特征进行降维，从而实现对于图像的分类。Softmax层用于将全连接层的输出转为概率进行输出。通过对所述vgg神经网络模型进行训练使得所述vgg神经网络模型能够根据定位字符的分布情况对图像进行分类以确定图像的倾斜角度。

上述实施方式针对角度识别模型的其中一个具体示例的介绍。在实际应用中，通过对图像进行识别以及分类后确定图像所对应的倾斜角度的机器学习模型均可以作为所述角度识别模型进行训练，对此不做赘述。

通过上述角度识别模型训练方法，可以根据标记有旋转角度的对应有图像模板类别第二样本图像对角度识别模型进行训练，以使得所述角度识别模型能够确定对应有图像模板类别的图像的倾斜角度。因此，上述角度识别模型训练方法能够训练出用于识别图像的倾斜角度的角度识别模型，从而有利于后续步骤中针对倾斜图像中的文本的识别。

以下结合附图3介绍本说明书实施例一种文本识别方法。所述方法的执行主体为文本识别设备，所述文本识别设备包括但不限于服务器、工控机、PC机等。所述文本识别方法包括以下具体实施步骤。

S310：接收待处理图像；所述待处理图像中包含有待识别文本。

待处理图像是需要进行文本识别的图像。所述待处理图像可以是具有一定倾斜角度的图像。所述待处理图像也可以是有多个对应于相应的图像模板类别的小图像所组合得到的图像，在针对待处理图像进行文本识别时可以分别对这些小图像中的文本进行识别。

所述待处理图像中包含有待识别文本，所述待识别文本即为需要进行识别的文本，但在所述待处理图像可能具有一定的倾斜角度的情况下，无法准确地对待处理图像中的字符进行识别。即使实现了对待处理图像中的字符的识别，也可能无法根据所识别出的字符构建出准确的文本段落。因此，在对所述待处理图像中的待识别文本进行识别时，需要先针对所述待处理图像的倾斜角度进行矫正处理。

S320：获取所述待处理图像对应的图像模板类别。

由于所述待处理图像可能具有多种不同的倾斜角度，直接识别出待处理图像中的字符并确定字符所对应的文本行以进行校正的方式，可能会由于字符本身的倾斜角度导致对于字符识别出错。即使识别出字符，在所述待处理图像倾斜的情况下，也可能会使得不同行中的字符分布在相同行中，从而造成识别出的文本错乱，无法从图像中获取正确的文本。因此，需要基于待处理图像的倾斜角度对所述待处理图像进行校正。

由于在对图像的倾斜角度进行识别时需要基于图像中相应的定位标识进行确定，而直接对图像进行识别虽然能够获取其中的字符，但无法确定所识别出的字符是否作为定位用的字符，也无法根据确定相应的定位字符之间的相对位置关系。因此，在预先针对图像设置有一些图像模板类别的情况下，可以通过对所述待处理图像进行识别以确定所述待处理图像所对应的图像模板类别。

对于所述图像模板类别的介绍可以参照步骤S110中的介绍，在此不再赘述。

在一些实施方式中，可以将所述待处理图像输入图像识别模型中以获取所述待处理图像所对应的图像模板类别。所述图像识别模型可以用于对图像所对应的图像模板类别进行识别。所述图像识别模型可以是基于图1所对应的图像识别模型训练方法所训练得到的模型。对于所述图像识别模型的介绍可以参照图1所对应的实施例中的叙述，在此不再赘述。

在一个具体的示例中，利用所述图像识别模型对所述待处理图像对应的图像模板类别进行识别的方式可以是先在所述待处理图像中识别出相应的字符。所述字符可以是预先设定的可被识别出的字符，例如汉字、英文字母、特定图案等。识别出这些字符之后，根据这些字符在图像中所处的位置以及字符之间的相对位置关系确定可以确定所述待处理图像所对应的图像类别模板。

在一些实施方式中，所述待处理图像中可以由两个以上的小图像组合而成，而所述小图像可以对应于不同的图像模板类别。在这些实施方式中，利用图像识别模型对所述待处理图像进行识别时可以分别根据所述待处理图像的特征在所述待处理图像中分别截取出相应的小图像，以及确定这些小图像所分别对应的图像模板类别，从而能够在待处理图像由多个图像拼合而成的情况下实现对待处理图像中的各个图像的确定以及相应的文本识别。

在一些实施方式中，所述待处理图像中包含有身份证图像，相应的，在利用图像识别模型对所述待处理图像进行识别时，可以确定所述待处理图像所对应的图像模板类别包括身份证图像正面模板和身份证背面模板。在实际应用中，对于所述待处理图像所包含的内容以及所述待处理图像所属的图像模板类别不限于上述示例，在此不再赘述。

S330：在所述待处理图像中截取出对应于所述图像模板类别的待处理模板图像。

在确定了对应于所述待处理图像的图像模板类别后，可以基于所述图像模板类别在所述待处理图像中截取出待处理模板图像。所述待处理模板图像为对应于图像模板类别的图像。所述待处理模板图像可以小于所述待处理图像，也可以与所述待处理图像的大小相同。所述待处理图像中可以只包含一个待处理模板图像，也可以包含两个或两个以上的待处理模板图像。截取出所述待处理模板图像后，在后续步骤中可以直接将所述待处理模板图像输入至角度识别模型中以获取相应的倾斜角度。

通过截取出待处理模板图像进行文本识别，可以去除待处理图像中多余的部分对于文本识别的干扰，有利于提高文本识别的准确性。

S340：确定对应于所述待处理模板图像的倾斜角度。

在获取到所述定位字符后，可以将所述待处理模板图像输入角度识别模型中，完成对于待处理模板图像的倾斜角度的获取。所述角度识别模型可以获取到对应于一定图像模板类别的图像的倾斜角度。所述角度识别模型可以是基于图2所对应的角度识别模型训练方法所训练得到的模型。对于所述角度识别模型的介绍可以参考图2所对应的实施例中的叙述，在此不再赘述。

在一些实施方式中，利用所述角度识别模型确定所述待处理图像对应的倾斜角度可以是先将所述待处理图像进行卷积得到对应于所述待处理图像的图像特征后，在对所述图像特征进行降维，基于降维后的图像特征计算出对应于所述待处理图像的输出值。再根据预设的对应于输出值的分类标准确定所述输出值对应的倾斜角度，即可确定所述待处理图像对应的倾斜角度。

通过获取所述待处理图像对应的倾斜角度，可以在对所述待处理图像进行角度调整的情况下，实现对于待处理图像中的文本的准确识别。

S350：基于所述倾斜角度对所述待处理模板图像中的待识别文本进行识别。

在获取到对应于所述待处理图像的倾斜角度后，可以基于倾斜角度对所述待处理图像进行校正，再针对校正后的待处理图像进行文本识别。

在一些实施方式中，基于旋转角度对待处理图像进行文本识别可以是基于所述倾斜角度对待处理图像进行旋转，并对旋转后的待处理图像中的待识别文本进行识别。由于旋转后的待处理图像不存在倾斜角度，即其中的相应行列的文字均按照正确的行列进行分布，从而能够直接在所述待处理图像中识别出相应的文本。

针对校正后的待处理图像进行文本识别的方式可以基于实际情况需求进行选取，例如可以通过OCR技术识别矫正后的待处理图像中的文本。上述示例只是对图像文本识别进行了示例性的介绍，实际应用中可以根据需求进行调整，在此不再赘述。

利用上述文本识别方法，将待处理图像输入图像识别模型后即可识别出待处理图像所对应的图像模板类别，进而根据所述图像模板类别在所述待处理图像中截取出待处理模板图像，并利用角度识别模型对所述待处理模板图像进行识别以确定所述待处理模板图像的倾斜角度，从而能够基于倾斜角度对待识别文本进行倾斜角度调整及文本识别。因此，上述文本识别方法实现了对于具有一定倾斜角度的待识别图像的文本识别，确保了对于倾斜图像中的文本的识别准确性，进而避免了根据倾斜图像识别出无意义段落的情况，有利于实际生活中的应用。

基于图1所对应的图像识别模型训练方法，介绍本说明书实施例一种图像识别模型训练装置。所述图像识别模型训练装置设置于所述图像识别模型训练设备。如图4所示，所述图像识别模型训练装置包括以下模块。

第一样本图像接收模块410，用于接收第一样本图像；所述第一样本图像对应有图像模板类别；所述样本图像中标注有至少一个第一定位字符；

字符位置获取模块420，用于获取所述第一定位字符在所述第一样本图像中的字符位置；

图像识别模型训练模块430，用于基于所述字符位置和所述图像模块类别训练预先构建的图像识别模型；所述图像识别模型，用于识别图像所对应的图像模板类别。

基于图2所对应的角度识别模型训练方法，介绍本说明书实施例一种角度识别模型训练装置。所述角度识别模型训练装置设置于所述角度识别模型训练设备。如图5所示，所述角度识别模型训练装置包括以下模块。

第二样本图像接收模块510，用于接收第二样本图像；所述第二样本图像对应有旋转角度；所述第二样本图像对应有图像模板类别；

角度识别模型训练模块520，用于基于所述旋转角度训练预先构建的角度识别模型；所述角度识别模型，用于识别图像的倾斜角度。

基于图3所对应的文本识别方法，介绍本说明书实施例一种文本识别装置。所述文本识别装置设置于所述文本识别设备。如图6所示，所述文本识别装置包括以下模块。

待处理图像接收模块610，用于接收待处理图像；所述待处理图像中包含有待识别文本；

图像模板类别获取模块620，用于获取所述待处理图像对应的图像模板类别；

待处理模板图像截取模块630，用于在所述待处理图像中截取出对应于所述图像模板类别的待处理模板图像；

倾斜角度确定模块640，用于确定对应于所述待处理模板图像的倾斜角度；

文本识别模块650，用于基于所述倾斜角度对所述待处理模板图像中的待识别文本进行识别。

基于图1所对应的图像识别模型训练方法，本说明书实施例提供一种图像识别模型训练设备。如图7所示，所述图像识别模型训练设备可以包括存储器和处理器。

在本实施例中，所述存储器可以按任何适当的方式实现。例如，所述存储器可以为只读存储器、机械硬盘、固态硬盘、或U盘等。所述存储器可以用于存储计算机指令。

在本实施例中，所述处理器可以按任何适当的方式实现。例如，处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述处理器可以执行所述计算机指令实现以下步骤：接收第一样本图像；所述第一样本图像对应有图像模板类别；所述样本图像中标注有至少一个第一定位字符；获取所述第一定位字符在所述第一样本图像中的字符位置；基于所述字符位置和所述图像模块类别训练预先构建的图像识别模型；所述图像识别模型，用于识别图像所对应的图像模板类别。

基于图2所对应的角度识别模型训练方法，本说明书实施例提供一种角度识别模型训练设备。如图8所示，所述角度识别模型训练设备可以包括存储器和处理器。

在本实施例中，所述处理器可以按任何适当的方式实现。例如，处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述处理器可以执行所述计算机指令实现以下步骤：接收第二样本图像；所述第二样本图像对应有旋转角度；所述第二样本图像对应有图像模板类别；基于所述旋转角度训练预先构建的角度识别模型；所述角度识别模型，用于识别图像的倾斜角度。

基于图3所对应的文本识别方法，本说明书实施例提供一种文本识别设备。如图9所示，所述文本识别设备可以包括存储器和处理器。

在本实施例中，所述处理器可以按任何适当的方式实现。例如，处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述处理器可以执行所述计算机指令实现以下步骤：接收待处理图像；所述待处理图像中包含有待识别文本；获取所述待处理图像对应的图像模板类别；在所述待处理图像中截取出对应于所述图像模板类别的待处理模板图像；确定对应于所述待处理模板图像的倾斜角度；基于所述倾斜角度对所述待处理模板图像中的待识别文本进行识别。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片2。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog2。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的第一硬件平台的方式来实现。基于这样的理解，本说明书的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书可用于众多第一或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

虽然通过实施例描绘了本说明书，本领域普通技术人员知道，本说明书有许多变形和变化而不脱离本说明书的精神，希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims

1.一种文本识别方法，其特征在于，包括：

接收待处理图像；所述待处理图像中包含有待识别文本；

获取所述待处理图像对应的图像模板类别；

确定对应于所述待处理模板图像的倾斜角度；

2.如权利要求1所述的方法，其特征在于，所述待处理图像中包含有身份证图像；相应的，所述图像模板类别包括身份证图像正面模板和身份证图像背面模板。

3.如权利要求1所述的方法，其特征在于，所述获取所述待处理图像对应的图像模板类别，包括：

将所述待处理图像输入图像识别模型以获取所述待处理图像对应的图像模板类别；所述图像识别模型用于识别图像所对应的图像模板类别。

4.如权利要求1所述的方法，其特征在于，所述确定对应于所述待处理模板图像的倾斜角度，包括：

将所述待处理模板图像输入角度识别模型以得到所述待处理模板图像对应的倾斜角度；所述角度识别模型，用于识别图像的倾斜角度。

5.如权利要求4所述的方法，其特征在于，所述将所述待处理模板图像输入角度识别模型以得到所述待处理模板图像对应的倾斜角度，包括：

将所述待处理模板图像进行卷积得到对应于所述待处理模板图像的图像特征；

将所述图像特征进行降维；

基于降维后的图像特征计算对应于待处理模板图像的输出值；

利用所述输出值获取所述待处理模板图像对应的倾斜角度。

6.如权利要求1所述的方法，其特征在于，所述基于所述倾斜角度对所述待处理图像中的待识别文本进行识别，包括：

基于所述倾斜角度对所述待处理图像进行旋转；

对旋转后的待处理模板图像中的待识别文本进行识别。

7.一种文本识别装置，其特征在于，包括：

8.一种文本识别设备，包括存储器和处理器；

所述存储器，用于存储计算机程序指令；

所述处理器，用于执行所述计算机程序指令以实现以下步骤：接收待处理图像；所述待处理图像中包含有待识别文本；获取所述待处理图像对应的图像模板类别；在所述待处理图像中截取出对应于所述图像模板类别的待处理模板图像；确定对应于所述待处理模板图像的倾斜角度；基于所述倾斜角度对所述待处理模板图像中的待识别文本进行识别。

9.一种图像识别模型训练方法，其特征在于，包括：

获取所述第一定位字符在所述第一样本图像中的字符位置；

10.如权利要求9所述的方法，其特征在于，所述第一样本图像包括以下至少一种：证件图像、标识牌照片、终端设备屏幕截图。

11.如权利要求9所述的方法，其特征在于，所述获取所述第一定位字符在所述第一样本图像中的字符位置之前，还包括：

将所述第一样本图像的大小调整为预设标准尺寸。

12.如权利要求9所述的方法，其特征在于，所述获取所述第一定位字符在所述第一样本图像中的字符位置，包括：

将所述第一样本图像设置于预设坐标系中；

将所述第一定位字符在所述预设坐标系中的坐标作为所述第一定位字符对应的字符位置。

13.如权利要求9所述的方法，其特征在于，所述图像识别模型包括yolo模型。

14.一种图像识别模型训练装置，其特征在于，包括：

15.一种图像识别模型训练设备，包括存储器和处理器；

所述存储器，存储有计算机程序指令；

所述处理器，用于执行所述计算机程序指令以实现以下步骤：接收第一样本图像；所述第一样本图像对应有图像模板类别；所述样本图像中标注有至少一个第一定位字符；获取所述第一定位字符在所述第一样本图像中的字符位置；基于所述字符位置和所述图像模块类别训练预先构建的图像识别模型；所述图像识别模型，用于识别图像所对应的图像模板类别。

16.一种角度识别模型训练方法，其特征在于，包括：

基于所述旋转角度训练预先构建的角度识别模型；所述角度识别模型，用于识别图像的倾斜角度。

17.如权利要求16所述的方法，其特征在于，所述第二样本图像通过以下方式获得：

获取候选样本图像；所述候选样本图像中标注有第二定位字符；

根据所述第二定位字符对所述候选样本图像的倾斜角度进行校正；

基于用户输入的旋转角度对校正后的候选样本图像进行旋转得到第二样本图像。

18.如权利要求17所述的方法，其特征在于，所述基于用户输入的旋转角度对校正后的候选样本图像进行旋转得到第二样本图像之前，还包括：

根据用户输入的纠正指令将校正后的候选样本图像调整为标准图像；所述标准图像为不具有倾斜角度的图像；

相应的，所述基于用户输入的旋转角度对校正后的候选样本图像进行旋转得到第二样本图像，包括：

基于用户输入的旋转角度对标准进行旋转得到第二样本图像。

19.如权利要求16所述的方法，其特征在于，所述角度识别模型包括vgg神经网络模型。

20.一种角度识别模型训练装置，其特征在于，包括：

角度识别模型训练模块，用于基于所述旋转角度训练预先构建的角度识别模型；所述角度识别模型，用于识别图像的倾斜角度。

21.一种角度识别模型训练设备，包括存储器和处理器；

所述存储器，用于存储计算机程序指令；

所述处理器，用于执行所述计算机程序指令以实现以下步骤：接收第二样本图像；所述第二样本图像对应有旋转角度；所述第二样本图像对应有图像模板类别；基于所述旋转角度训练预先构建的角度识别模型；所述角度识别模型，用于识别图像的倾斜角度。