CN111353491A

CN111353491A - 一种文字方向确定方法、装置、设备及存储介质

Info

Publication number: CN111353491A
Application number: CN202010170722.7A
Authority: CN
Inventors: 熊博颖
Original assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Current assignee: China Construction Bank Corp
Priority date: 2020-03-12
Filing date: 2020-03-12
Publication date: 2020-06-30
Anticipated expiration: 2040-03-12
Also published as: CN111353491B

Abstract

本发明公开了一种文字方向确定方法、装置、设备及存储介质，包括：从待识别文字图像中提取多个单字图像；通过预训练的检测模型对多个单字图像进行方向识别；基于多个单字图像的方向识别结果确定待识别文字图像的正方向。本实施例通过单字图像的方向检测出整个文本图像的正方向，快速确定文字图像的方向，提高检测的准确度。

Description

一种文字方向确定方法、装置、设备及存储介质

技术领域

本发明实施例涉及图像处理技术领域，尤其涉及一种文字方向确定方法、装置、设备及存储介质。

背景技术

随着计算机技术的快速发展，图像识别识别技术也得到了快速发展，文字识别一直是图像识别领域的重要研究课题之一。

文字图像识别一般通过文字检测、文字识别、所需字段提取的方式实现。在日常证照识别开发过程中，会面对各种扫描、拍照等复杂场景，输入文字图像的方向可能出现旋转90、180、270度的情况。

然而，所有的文字图像识别的前提是确定待识别文字图像的正方向。如何快速确定待识别文字图像的方向是图像识别领域的关键问题。

发明内容

本发明提供一种文字方向确定方法、装置、设备及存储介质，以快速确定文字图像的方向。

第一方面，本发明实施例提供了一种文字方向确定方法，包括：

从待识别文字图像中提取多个单字图像；

通过预训练的检测模型对多个所述单字图像进行方向识别；

基于多个单字图像的方向识别结果确定待识别文字图像的正方向。

第二方面，本发明实施例还提供了一种文字方向确定装置，其特征在于，包括：

提取模块，用于从待识别文字图像中提取多个单字图像；

识别模块，用于通过预训练的检测模型对多个所述单字图像进行方向识别；

确定模块，用于基于多个单字图像的方向识别结果确定待识别文字图像的正方向。

第三方面，本发明实施例还提供了一种设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如本发明任一实施例所述的文字方向确定方法。

第四方面，本发明实施例还提供了一种存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令用于执行如本发明任一实施例所述的文字方向确定方法。

本发明实施例提供的文字方向确定方法、装置、设备及存储介质，从待识别文字图像中提取多个单字图像；通过预训练的检测模型对多个单字图像进行方向识别；基于多个单字图像的方向识别结果确定待识别文字图像的正方向。本实施例通过单字图像的方向检测出整个文本图像的正方向，快速确定文字图像的方向，提高检测的准确度。

附图说明

图1是本发明实施例一提供的文字方向确定方法的流程图；

图2是本发明实施例二提供的一种检测模型训练方法的流程图；

图3是本发明实施例二提供的卷积神经网络的结构示意图；

图4是本发明实施例二提供一种文字方向检测方法的流程图；

图5是本发明实施例三提供的文字方向确定装置的结构示意图；

图6是本发明实施例四提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

文字图像识别一般通过文字检测、文字识别、所需字段提取的方式实现。在日常证照识别开发过程中，会面对各种扫描、拍照等复杂场景，输入文字图像的方向可能出现旋转90、180、270度的情况。目前光学字符识别(Optical Character Recognition，OCR)文本图像文字方向判断的技术方案主要有两种。

OCR技术是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其他印刷品的文字转化为图像信息，再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。

第一种，基于图像特征的方法，使用卷积神经网络，通过大量的四种方向的样本图像进行训练，提取图像特征进行分类，直接输出图像文本的方向。

第二种，将图像文本进行旋转，分别对文本图像进行定位识别，并与常用字符集进行对比，由于其他角度的图像文本识别的结果属于常用字符集的概率较低，根据统计结果来确定图片文本正方向的旋转角度。

基于图像特征提取的方案具有预测速度快的优点，经过卷积神经网络提取特征后能够快速的输出分类结果，但是对于背景复杂的场景准确率难以保证，且依赖大量的训练样本图片。

基于多次旋转统计识别结果的方案准确率比较高，但是由于每次旋转后都需要对图像整体做文本定位、文本识别，耗时较长，效率较低。

实施例一

图1是本发明实施例一提供的文字方向确定方法的流程图，本实施例可适用于识别文本图像的情况，该方法可以由文字方向确定装置来执行，该装置可以通过软件和/或硬件的方式来实现。

如图1所示，本发明实施例提供的文字方向确定方法可以包括如下步骤：

S11、从待识别文字图像中提取多个单字图像。

在本实施例中，文字图像可以理解为包含有文字内容的图像。所述文字图像可以是证件照图片、票据图片、网页截取图片等图片的任意一种，本实施例不进行限定。单字图像可以理解为仅包括一个文字的图像。

从待识别文字图像中提取多个单字图像可以理解为获取到识别文字图像后，对待识别文字图像中的文字字符进行定位，根据定位结果对待识别文字图像中的字符进行切割操作，得到待识别文字图像中包含的各个文字的单字图像。

具体的，可以通过滤波方式去除待识别文字图像中的噪声干扰，利用Hough变换去除干扰先等，对于粘连字符，可以利用地说算法进行字符切割。这样可以使得对于含有噪声及笔画断裂的文字也能得到较好的识别效果。

所述多个单字图像可以是待识别文字图像中提取出的所有的单字图像，也可以是提取到的所有单字图像中的一部分。

在多个单字是待识别文本图像中一部分文字的情况下，可以将待识别文字图像中提取所有的单字图像后，从所有单字图像中选择其中一部分单字图像；也可以是从待识别文字图像中选择一部分文字图像进行提取。即可以先提出所有单字图像，再选择部分单字图像，也可以是先选定待提取的单字图像，再进行单字提出。需要说明的是，本实施例中仅对提取多个单字图像的方式进行说明，而非限定。

进一步的，多个单字图像分布在文字图像的不同部分。将待识别文字图像平均划分为第一预设数量的图像区域，可以在每个图像区域内选择第二预设数量的为文字作为单字。需要说明的是，第一预设数量可以根据待识别文字图像的尺寸来确定。第二预设数量可以根据每个图像区域内的文字总数来确定。需要说明的是，本实施例中仅对单字图像的位置和数量的方式进行说明，而非限定。

S12、通过预训练的检测模型对多个所述单字图像进行方向识别。

在本实施例汇总，检测模型可以理解为卷积神经网络。检测模型可以通过大量样本单字图像输入卷积神经网络进行训练得到。

卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。卷积神经网络具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类。

深度学习是机器学习领域中的一个新的研究方向，通过神经网络学习样本数据的内在规律和表示层次，组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布特征表示。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。

预训练的检测模型可以识别出每个单字图像中文本的正方向。

需要说明的是，可以采用现有的任何模型训练方法对神经网络进行训练，本实施例中不对检测模型的训练方法进行限定。

S13、基于多个单字图像的方向识别结果确定待识别文字图像的正方向。

在一个文字图像如中，大篇幅文字的正方向即为整个文字图像的正方向，因此，可以根据多个单字图像的正方向确定待识别文字图像的正方向。

在本实施例中，当多个单字图像中的大部分文字都是正方向的情况下，可以确定当前方向为待识别文字图像的正方向。当多个单字图像中的大部分文字不是正方向的情况下，可以确定当前不是待识别文字图像的正方向，可以将待识别文字图像旋转之后，重新进行识别确定。所述当前方向待识别文字图像对应的方向。

在本实施例中，确定待识别文字图像的正方向之后，将待识别文字图像的正方向进行输出，以供文字识别模型对待识别文字图像的文字信息进行提取和识别。文字识别模型可以从正方向对待识别文字图像进行识别，可以提高文字识别的效率和准确度。

进一步的，所述基于多个单字图像的方向识别结果确定待识别文字图像的正方向，包括：如果正方向的单字图像数量与所有单字图像数量的比例大于或等于预设值，则确定当前方向为待识别文字图像的正方向；如果正方向的单字图像数量与所有单字图像数量的比例小于预设值，则获取旋转后的待识别文字图像，并返回执行从待识别文字图像中提取多个单字图像的操作，直到确定待识别文字图像的正方向。

需要说明的是，由于文字图像的类型不同，在同一张文字图像中可能存在不同方向的文字。例如：增值税发票上的税务信息是沿第一方向进行排列的，而发票印刷者信息是沿着与第一方向垂直的第二方向进行排列。因此，在确定发票正方向时，需要考虑发票印刷者信息和税务信息对确定整个发票正方向的影响。

本实施例中，正方向的单字图像数量与所有单字图像数量的比例大于或等于预设值，则确定当前方向为待识别文字图像的正方向，允许一定其他方向的文字出现，可以提高检测文本图像的速度。

预设值可以根据实际情况进行设置，可以是0.5-1中的任意数值。本实施例中进行预设数值进行说明，而非限定。

进一步的，所述获取旋转后的待识别文字图像之前，还包括：输出待识别文字图像的旋转角度；基于所述旋转角度将待识别文字图像进行旋转。

如果正方向的单字图像数量与所有单字图像数量的比例小于预设值，则确定当前方向不是待识别图像的正方向，需要将待识别图像进行旋转之后，重新进行单字图像提取、识别和确定正方向等一系列的操作。

旋转角度可以是顺时针旋转90度，顺时针旋转270度，逆时针旋转90度，逆时针旋转270度，旋转180度等中的一种，具体的旋转角度可以基于待识别文字图像的当前方向确定。

具体的，如果正方向的单字图像数量与所有单字图像数量的比例小于预设值，则确定当前方向不是待识别图像的正方向，则输出待识别文字图像需要旋转的角度，以提示工作人员将待识别文字图像进行旋转。

本实施例通过从待识别文字图像中提取多个单字图像；通过预训练的检测模型对多个单字图像进行方向识别；基于多个单字图像的方向识别结果确定待识别文字图像的正方向。本实施例通过单字图像的方向检测出整个文本图像的正方向，快速确定文字图像的方向，提高检测的准确度。

实施例二

图2是本发明实施例二提供的一种检测模型训练方法的流程图，本实施例在上述各实施例的基础上，提供一种检测模型的训练方法。

如图2所示，本实施例提供的检测模型训练方法可以包括如下步骤：

S21、获取各个方向的样本单字图像。

在本实施例中，可以通过采集等方式预先获得大量的样本文字图像，从大量的样本文字图像中定位单字图像，提取出各个样本文字图像中的各个单字图像。通过滤波方式可以去除样本文字图像中的噪声干扰。利用Hough变换去除干扰线等，对于粘连字符，可以利用滴水算法进行字符切割。

对于从各个样本文字图像中提取出的每个字符像进行二值化处理和正则化处理，获取各个字符对应的单字图，即可获取待大量的样本单字图。

S24、将所述各个方向的样本单字图像输入卷积神经网络进行训练，得到预训练的检测模型。

在本实施例中，首先初始化卷积神经网络，设定网络结构和初始网络参数。利用各个方向的当本单字图像对卷积神经网络进行训练，调整网络参数。具体的，可以将多个样本单字图像随机分组之后进行训练，调整网络参数。

进一步的，上述卷积神经网络迭代预设次数之后，将使用过的样本单字图像输入卷积神经网络中，测试卷积神经网络的的准确度。

在所述准确度达到预设要求的情况下，停止训练，将训练好的卷积神经网络确定为预训练的检测模型。

在所述准确度未达到预设要求的情况下，则继续利用样本单字图像对卷积神经网络进行训练，直到所述准确度达到预设要求。预设要求可以根据具体的应用场景进行设计，本实施例中不进行限定。

进一步的，将所述各个方向的样本单字图像输入卷积神经网络进行训练之前，还包括如下步骤：

S22、对卷积神经网络进行裁剪。

S23、对卷积神经网络中的yolo层算法和anchor层算法进行优化。

由于单字检测任务目标相对简单，文字大小和特征相对固定，为了进一步加快检测速度，对卷积网络结构进行裁剪。

并针对文字小目标检测的特点，对yolo层算法和anchor层算法进行优化。

具体的，对卷积神经网络中的yolo层算法和anchor层算法进行优化，包括：将经过卷积层处理后的图片进行两次上采样及拼接处理；输出三种不同尺寸的特征图。

需要说明的是，yolo层采用yolov3版本，yolo是一种快速、准确的图像目标检测算法，其针对二阶段目标检测算法普遍存在的运算速度慢的缺点，创造性的提出了单阶段检测方案，将目标分类和目标定位在一个步骤中完成，利用整张图片作为网络输入，直接在输出层回归边界框的位置及所属的类别。yolov3是yolo算法的最新改进版本，进一步优化了算法检测速度，并提高了多尺度目标检测的精度问题。

图3是本发明实施例二提供的卷积神经网络的结构示意图，如图3所示，将待识别文字图像的尺寸设置为416*416*3，将416*416*3的图像输入卷积神经网络后，经过5次下采样，得到第一张尺寸为13*13的特征图。随后，为了实现细粒度特征检测，在第79层特征图处进行上采样，并与来自第61层的特征图进行特征拼接，得到了第二张尺寸为26*26的预测特征图。同样地，在第91层特征图处再次进行上采样，与第36层特征图进行特征拼接，得到了第三张尺寸为52*52的预测特征图。

13*13的特征图由于下采样倍数大，单元网格的感受野比较大，适合检测尺寸比较大的目标物；26*26的特征图中单元网格感受野适中，适合检测尺寸中等的目标物；52*52的特征图中单元网格感受野相对较小，适合检测尺寸较小的目标物。

由于三张预测特征图承担的任务各不相同，相应的anchor box也需要进行调整。v3延续了采用k-means聚类算法确定anchor box尺寸的方法，为每张特征图设定了3种anchor box，总共聚类得到9种尺寸的anchor box。在coco数据集上，这9个anchor box分别是(10x13)，(16x30)，(33x23)，(30x61)，(62x45)，(59x119)，(116x90)，(156x198)，(373x326)。

在上述实施例的基础上，本发明提供一种应用实例，图4是本发明实施例二提供一种文字方向检测方法的流程图，如图4所示，文字图像的方向检测方法主要包括：

将待识别文字图像作为目标图像，用yolo3检测目标图像，识别目标图像中的定位框文字，对提取到的字符济宁对比，如果正确数量大于或等于阈值，则输出方向角度。如果正确数量小于阈值，则将待识别文字图像旋转90度，将旋转后的待识别文字图像作为目标图像，再次检测。

本发明通过使用yolov3快速检测出图片中关键字目标，并通过单字切片识别对比结果差异，以此判断文字方向是否正确，相比对整张图片进行文本定位，并全部识别后进行对比效率上有答复提升。

将yolov3的卷积网络结构进行裁剪后模型参数减少90％左右，网络模型运行效率会大幅提升，针对文字小目标特征对yolo层算法和anchor进行优化，能有效提高检测准确率。

实施例三

图5是本发明实施例三提供的文字方向确定装置的结构示意图，本实施例可适用于识别文本图像的情况，该装置可以通过软件和/或硬件的方式来实现。

如图5所示，本发明实施例三提供的文字方向确定装置可以包括提取模块51、识别模块52和确定模块53。

提取模块51，用于从待识别文字图像中提取多个单字图像；

识别模块52，用于通过预训练的检测模型对多个所述单字图像进行方向识别；

确定模块53，用于基于多个单字图像的方向识别结果确定待识别文字图像的正方向。

进一步的，确定模块53，包括确定单元和获取单元，其中，

确定单元，用于如果正方向的单字图像数量与所有单字图像数量的比例大于或等于预设值，则确定当前方向为待识别文字图像的正方向；

获取单元，用于如果正方向的单字图像数量与所有单字图像数量的比例小于预设值，则获取旋转后的待识别文字图像，并返回执行从待识别文字图像中提取多个单字图像的操作，直到确定待识别文字图像的正方向。

进一步的，确定模块53，还包括输出单元和旋转单元，其中，

输出单元，用于待识别文字图像的旋转角度；

旋转单元，用于基于所述旋转角度将待识别文字图像进行旋转。

进一步的，所述装置还包括：样本获取模块和训练模块，其中，

样本获取模块，用于获取各个方向的样本单字图像；

训练模块，用于将所述各个方向的样本单字图像输入卷积神经网络进行训练，得到预训练的检测模型。

进一步的，所述装置还包括：裁剪模块和优化模块，其中，

所述裁剪模块，用于对卷积神经网络进行裁剪；

所述优化模块，用于对卷积神经网络中的yolo层算法和anchor层算法进行优化。

所述裁剪模块，具体用于删除卷积神经网络中的全连接层FC layer。

所述优化模块，具体用于将经过卷积层处理后的图片进行两次上采样及拼接处理；输出三种不同尺寸的特征图。

本实施例中提供的文字方向确定装置可执行本发明任意实施例所提供的文字方向确定方法，具备执行该方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的文字方向确定方法。

实施例四

本发明实施例还提供一种设备，图6是本发明实施例四提供的一种设备的结构示意图，如图6所示，该设备包括处理器610、存储器620、输入装置630、输出装置640；设备中处理器610的数量可以是一个或多个，图6中以一个处理器610为例；设备中的处理器610、存储器620、输入装置630和输出装置640可以通过总线或其他方式连接，图6中以通过总线连接为例。

存储器620作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的文字方向确定方法对应的程序指令/模块(例如，文字方向确定装置中的提取模块51，识别模块52和确定模块53)。处理器610通过运行存储在存储器620中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现本发明实施例提供的任一文字方向确定方法。

存储器620可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器620可进一步包括相对于处理器610远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置630可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。

实施例五

本发明实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种文字方向确定方法，所述方法包括：

从待识别文字图像中提取多个单字图像；

通过预训练的检测模型对多个所述单字图像进行方向识别；

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的文字方向确定方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述文字方向确定装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种文字方向确定方法，其特征在于，包括：

从待识别文字图像中提取多个单字图像；

通过预训练的检测模型对多个所述单字图像进行方向识别；

2.根据权利要求1所述的方法，其特征在于，所述基于多个单字图像的方向识别结果确定待识别文字图像的正方向，包括：

如果正方向的单字图像数量与所有单字图像数量的比例大于或等于预设值，则确定当前方向为待识别文字图像的正方向；

如果正方向的单字图像数量与所有单字图像数量的比例小于预设值，则获取旋转后的待识别文字图像，并返回执行从待识别文字图像中提取多个单字图像的操作，直到确定待识别文字图像的正方向。

3.根据权利要求2所述的方法，其特征在于，所述获取旋转后的待识别文字图像之前，还包括：

输出待识别文字图像的旋转角度；

基于所述旋转角度将待识别文字图像进行旋转。

4.根据权利要求1所述的方法，其特征在于，所述从待识别文字图像中提取多个单字图像之前，还包括：

获取各个方向的样本单字图像；

将所述各个方向的样本单字图像输入卷积神经网络进行训练，得到预训练的检测模型。

5.根据权利要求4所述的方法，其特征在于，将所述各个方向的样本单字图像输入卷积神经网络进行训练之前，还包括：

对卷积神经网络进行裁剪；

对卷积神经网络中的yolo层算法和anchor层算法进行优化。

6.根据权利要求5所述的方法，其特征在于，对卷积神经网络进行裁剪，包括：

删除卷积神经网络中的全连接层FC layer。

7.根据权利要求5所述的方法，其特征在于，对卷积神经网络中的yolo层算法和anchor层算法进行优化，包括：

将经过卷积层处理后的图片进行两次上采样及拼接处理；

输出三种不同尺寸的特征图。

8.一种文字方向确定装置，其特征在于，包括：

提取模块，用于从待识别文字图像中提取多个单字图像；

9.一种设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7任一权利要求所述的方法。

10.一种存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令用于执行如权利要求1至7任一权利要求所述的方法。