CN111353493A

CN111353493A - 文本图像方向校正方法及装置

Info

Publication number: CN111353493A
Application number: CN202010247233.7A
Authority: CN
Inventors: 杨宇喆; 强锋
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2020-06-30
Anticipated expiration: 2040-03-31
Also published as: CN111353493B

Abstract

本申请提供了文本图像方向校正方法及装置，该方法包括：根据预设的截取规则从目标文本图像中截取目标印刷体单字的像素块，生成该像素块对应的印刷字矩阵；应用预设的主成分分析模型分别获取印刷字矩阵对应的第一降维向量，以及旋转后的印刷字矩阵对应的第二降维向量，所述主成分分析模型为预先训练得到的用于确定印刷字矩阵特征的无监督机器学习模型；从预获取的特征向量库中获得与所述第一降维向量对应的目标行向量，根据所述第一降维向量、第二降维向量和目标行向量得到目标文本图像的倾斜角度和倾斜方向，以对所述目标文本图像的方向进行校正。本申请能够提高识别文本图像倾斜角度的准确性和效率，进而提高文本图像方向校正的准确性和效率。

Description

文本图像方向校正方法及装置

技术领域

本申请涉及数据处理技术领域，尤其涉及一种文本图像方向校正方法及装置。

背景技术

在众多机器视觉场景中，如目标识别和文本检测等，一般的模型能较好的识别文本方向正常的文本图像，即文本方向平行于参考坐标系的水平轴的文本图像，但对于有倾斜角度的文本图像样本，模型识别的错误率会显著的上升，所以在输入到模型前，需要对文本图像的方向进行校正。

文本方向的矫正一般分为传统图像处理和深度学习。传统图像处理较为通用的方法有傅里叶变换方法，先在频率域检查出图像的倾斜角度，再进行纠正处理，这种方法只能检测出文本旋转方向的相对值，并不能识别具体的旋转方向，因此无法识别出旋转90度和270度，或者0度和180度的文本；而深度学习是通过神经网络训练识别出倾斜图片，识别出某一类角度的图片，此方法需要大量的数据进行训练，且统一数据只适用于单一的场景，同时对每个角度进行分类，则所需的类型较多，模型非常复杂，没有实际应用的价值。

发明内容

针对现有技术中的问题，本申请提出了一种文本图像方向校正方法及装置，能够提高识别文本图像倾斜角度的准确性和效率，进而提高文本图像方向校正的准确性和效率。

为了解决上述技术问题，本申请提供以下技术方案：

第一方面，本申请提供一种文本图像方向校正方法，包括：

根据预设的截取规则从目标文本图像中截取目标印刷体单字的像素块，并生成该像素块对应的印刷字矩阵；

应用预设的主成分分析模型分别获取印刷字矩阵对应的第一降维向量，以及旋转后的印刷字矩阵对应的第二降维向量，其中，所述主成分分析模型为预先训练得到的用于确定印刷字矩阵特征的无监督机器学习模型；

从预获取的特征向量库中获得与所述第一降维向量对应的目标行向量，并根据所述第一降维向量、第二降维向量和目标行向量得到目标文本图像的倾斜角度和倾斜方向，以对所述目标文本图像的方向进行校正。

进一步地，所述应用预设的主成分分析模型分别获取印刷字矩阵对应的第一降维向量，以及旋转后的印刷字矩阵对应的第二降维向量，包括：应用所述主成分分析模型获取所述印刷字矩阵的特征向量和特征值，并基于所述印刷字矩阵的特征向量和特征值生成该印刷字矩阵对应的第一降维向量；以及，将所述印刷字矩阵按照预设的旋转角度和旋转方向进行旋转，应用所述主成分分析模型获取旋转后的印刷字矩阵的特征向量和特征值，并基于所述旋转后的印刷字矩阵的特征向量和特征值生成该旋转后的印刷字矩阵对应的第二降维向量。

进一步地，所述基于所述印刷字矩阵的特征向量和特征值生成该印刷字矩阵对应的第一降维向量，包括：根据所述特征向量和特征值获得待降维特征向量组，其中，所述待降维特征向量组中的各个特征向量对应的特征值均大于第一特征值阈值；将所述待降维特征向量组进行降维后得到所述第一降维向量。

进一步地，所述从预获取的特征向量库中获得与所述第一降维向量对应的目标行向量，包括：将所述第一降维向量分别与预获取的特征向量库中的各个行向量进行余弦相似度计算，并将余弦相似度计算结果中的最大值对应的行向量作为所述目标行向量。

进一步地，所述根据所述第一降维向量、第二降维向量和目标行向量得到目标文本图像的倾斜角度和倾斜方向，包括：根据所述第一降维向量与目标行向量之间的余弦相似度值确定所述第一降维向量与目标行向量之间的夹角；对所述第二降维向量与目标行向量进行余弦相似度计算，得到第二余弦相似度值，根据预设的倾斜角度取值范围、所述夹角、旋转角度、旋转方向和第二余弦相似度值确定目标文本图像的倾斜方向和倾斜角度。

进一步地，所述的文本图像方向校正方法还包括：生成预获取的文字图片库中的各个单字图片各自对应的单字向量，并根据该单字向量生成字符矩阵，其中，该字符矩阵每行对应一个单字向量；基于所述字符矩阵和主成分分析模型，生成所述特征向量库。

进一步地，所述基于所述字符矩阵和主成分分析模型，生成所述特征向量库，包括：生成所述字符矩阵中的各个所述单字向量各自对应的协方差矩阵；根据所述协方差矩阵，得到各个单字向量对应的特征向量矩阵和对焦矩阵；应用所述特征向量矩阵和对焦矩阵，获得各个单字向量对应的待降维特征向量矩阵，其中，所述待降维特征向量矩阵中的特征向量对应的特征值均大于第二特征值阈值；将各个所述待降维特征向量矩阵进行降维，获得所述特征向量库。

第二方面，本申请提供一种文本图像方向校正装置包括：

获取印刷字模块，用于根据预设的截取规则从目标文本图像中截取目标印刷体单字的像素块，并生成该像素块对应的印刷字矩阵；

获取降维向量模块，用于应用预设的主成分分析模型分别获取印刷字矩阵对应的第一降维向量，以及旋转后的印刷字矩阵对应的第二降维向量，其中，所述主成分分析模型为预先训练得到的用于确定印刷字矩阵特征的无监督机器学习模型；

校正模块，用于从预获取的特征向量库中获得与所述第一降维向量对应的目标行向量，并根据所述第一降维向量、第二降维向量和目标行向量得到目标文本图像的倾斜角度和倾斜方向，以对所述目标文本图像的方向进行校正。

进一步地，所述获取降维向量模块，包括：获取第一降维向量单元，用于应用所述主成分分析模型获取所述印刷字矩阵的特征向量和特征值，并基于所述印刷字矩阵的特征向量和特征值生成该印刷字矩阵对应的第一降维向量；获取第二降维向量单元，用于将所述印刷字矩阵按照预设的旋转角度和旋转方向进行旋转，应用所述主成分分析模型获取旋转后的印刷字矩阵的特征向量和特征值，并基于所述旋转后的印刷字矩阵的特征向量和特征值生成该旋转后的印刷字矩阵对应的第二降维向量。

进一步地，所述获取第一降维向量单元包括：获取待降维特征向量组子单元，用于根据所述特征向量和特征值获得待降维特征向量组，其中，所述待降维特征向量组中的各个特征向量对应的特征值均大于第一特征值阈值；获取第一降维向量子单元，用于将所述待降维特征向量组进行降维后得到所述第一降维向量。

进一步地，所述校正模块，包括：获取目标行向量单元，用于将所述第一降维向量分别与预获取的特征向量库中的各个行向量进行余弦相似度计算，并将余弦相似度计算结果中的最大值对应的行向量作为所述目标行向量。

进一步地，所述校正模块，包括：获取倾斜角度单元，用于根据所述第一降维向量与目标行向量之间的余弦相似度值确定所述第一降维向量与目标行向量之间的夹角；获取倾斜方向单元，用于对所述第二降维向量与目标行向量进行余弦相似度计算，得到第二余弦相似度值，根据预设的倾斜角度取值范围、所述夹角、旋转角度、旋转方向和第二余弦相似度值确定目标文本图像的倾斜方向和倾斜角度。

进一步地，所述的文本图像方向校正装置还包括：生成字符矩阵模块，用于生成预获取的文字图片库中的各个单字图片各自对应的单字向量，并根据该单字向量生成字符矩阵，其中，该字符矩阵每行对应一个单字向量；生成特征向量库模块，用于基于所述字符矩阵和主成分分析模型，生成所述特征向量库。

进一步地，所述生成特征向量库模块包括：生成协方差矩阵单元，用于生成所述字符矩阵中的各个所述单字向量各自对应的协方差矩阵；获得中间矩阵单元，用于根据所述协方差矩阵，得到各个单字向量对应的特征向量矩阵和对焦矩阵；获得待降维特征向量矩阵单元，用于获取应用所述特征向量矩阵和对焦矩阵，获得各个单字向量对应的待降维特征向量矩阵，其中，所述待降维特征向量矩阵中的特征向量对应的特征值均大于第二特征值阈值；获得特征向量库单元，用于将各个所述待降维特征向量矩阵进行降维，获得所述特征向量库。

第三方面，本申请提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的文本图像方向校正方法。

第四方面，本申请提供一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现所述的文本图像方向校正方法。

由上述技术方案可知，本申请提供一种文本图像方向校正方法及装置。其中，该方法包括：根据预设的截取规则从目标文本图像中截取目标印刷体单字的像素块，并生成该像素块对应的印刷字矩阵；应用预设的主成分分析模型分别获取印刷字矩阵对应的第一降维向量，以及旋转后的印刷字矩阵对应的第二降维向量，其中，所述主成分分析模型为预先训练得到的用于确定印刷字矩阵特征的无监督机器学习模型；从预获取的特征向量库中获得与所述第一降维向量对应的目标行向量，并根据所述第一降维向量、第二降维向量和目标行向量得到目标文本图像的倾斜角度和倾斜方向，以对所述目标文本图像的方向进行校正，能够提高识别文本图像倾斜角度的准确性和效率，进而提高文本图像方向校正的准确性和效率；具体地，能够有效地利用样本特征向量和标准特征向量的特性，在利用余弦相似度和基准坐标进行相互匹配、寻找相同字符的同时，可以计算出旋转的真实值。其中包含传统方法无法识别的90°、180°以及旋转方向等；采用无监督算法，不需要借助大量的数据进行训练，只需要在初期进行标准字库中每个字的特征提取即可，计算量较小；传统的傅里叶变换和深度学习模型计算复杂，对于计算平台的硬件水平要求较高。而PCA的计算复杂度较低且该系统后期只需进行简单的向量运算即可；基于单个文字的特性可以适用于各种文本，而深度学习模型在更换场景时需要更换所有得到数据，因此本申请文本图像方向校正方法及装置的适用性和可移植性高。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例中文本图像方向校正方法的流程示意图；

图2是本申请实施例中文本图像方向校正方法步骤201和202的流程示意图；

图3是本申请实施例中文本图像方向校正方法步骤301至303的流程示意图；

图4是本申请实施例中文本图像方向校正方法步骤001至002的流程示意图；

图5是本申请实施例中文本图像方向校正装置的结构示意图；

图6是本申请实施例中文本图像方向校正装置中获取降维向量模块的结构示意图；

图7是本申请具体应用实例中文本图像方向校正方法的流程示意图；

图8是本申请又一具体应用实例中文本图像方向校正方法的流程示意图；

图9为本申请实施例的电子设备9600的系统构成示意框图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应用深度学习方法对具有倾斜角度的文本图像进行纠偏和矫正时，每一个单一的场景就需要大量的数据支撑和频繁的迭代。基于此，为了降低文本图像方向校正时的复杂程度，快速且准确地实现文本图像方向校正，本申请考虑从改变现有的文本图像方向校正方法入手，基于无监督机器学习技术，提出一种文本图像校正方法及装置，能够精确而快速地识别传统方法不能识别出的角度，在一次准备之后可以快速地设置。

基于此，为了提高识别文本图像倾斜角度的准确性和效率，进而提高文本图像方向校正的准确性和效率，本申请实施例提供一种文本图像方向校正装置，该装置可以是一服务器或客户端设备，所述客户端设备可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备和智能穿戴设备等。其中，所述智能穿戴设备可以包括智能眼镜、智能手表和智能手环等。

在实际应用中，进行文本图像方向校正的部分可以在如上述内容所述的服务器侧执行，也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力，以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成，所述客户端设备还可以包括处理器。

上述的客户端设备可以具有通信模块(即通信单元)，可以与远程的服务器进行通信连接，实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器，其他的实施场景中也可以包括中间平台的服务器，例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备，也可以包括多个服务器组成的服务器集群，或者分布式装置的服务器结构。

所述服务器与所述客户端设备之间可以使用任何合适的网络协议进行通信，包括在本申请提交日尚未开发出的网络协议。所述网络协议例如可以包括TCP/IP协议、UDP/IP协议、HTTP协议、HTTPS协议等。当然，所述网络协议例如还可以包括在上述协议之上使用的RPC协议(Remote Procedure Call Protocol，远程过程调用协议)、REST协议(Representational State Transfer，表述性状态转移协议)等。

具体通过下述各个实施例进行说明。

如图1所示，为了提高识别文本图像倾斜角度的准确性和效率，进而提高文本图像方向校正的准确性和效率，本实施例提供一种执行主体是文本图像方向校正装置的文本图像方向校正方法，具体包含有如下内容：

步骤100：根据预设的截取规则从目标文本图像中截取目标印刷体单字的像素块，并生成该像素块对应的印刷字矩阵。

具体地，所述截取规则可根据实际情况进行设置，例如，从目标文本图像中截取清晰度大于对应的阈值的印刷体单字作为所述目标印刷体单字，或者从目标文本图像中随机截取一个单独的印刷体文字样本作为所述目标印刷体单字。

步骤200：应用预设的主成分分析(PCA)模型分别获取印刷字矩阵对应的第一降维向量，以及旋转后的印刷字矩阵对应的第二降维向量，其中，所述主成分分析模型为预先训练得到的用于确定印刷字矩阵特征的无监督机器学习模型。

步骤300：从预获取的特征向量库中获得与所述第一降维向量对应的目标行向量，并根据所述第一降维向量、第二降维向量和目标行向量得到目标文本图像的倾斜角度和倾斜方向，以对所述目标文本图像的方向进行校正。

具体地，所述特征向量库包含有多个行向量，且各个行向量分别对应一个单字；所述倾斜角度和倾斜方向为相对于特征向量库中的目标行向量所在的坐标系，目标文本图像旋转的角度和方向。在移动阅读应用场景，在所述目标文本图像的方向进行校正之后还包含有：将校正后的目标文本图像输出显示，能够提高文本图像显示的准确性，以及提高用户的阅读体验。在图像文字识别应用场景，为了提高图像文字识别的准确性和效率，在所述目标文本图像的方向进行校正之后还包含有：将校正后的目标文本图像输入预设的图像文字识别模型，该图像文字识别模型可以采用如CTPN模型和CRNN模型组成的图像文字识别模型等。

在本申请一个实施例中，在步骤100之前还包含有：判断目标文本图像中是否存在印刷体文字，若是则执行步骤100，若否则退出。

参见图2，为了进一步提高识别文本图像倾斜角度的准确性和效率，在本申请一个实施例中，步骤200包含有：

步骤201：应用所述主成分分析模型获取所述印刷字矩阵的特征向量和特征值，并基于所述印刷字矩阵的特征向量和特征值生成该印刷字矩阵对应的第一降维向量。

步骤202：以及，将所述印刷字矩阵按照预设的旋转角度和旋转方向进行旋转，应用所述主成分分析模型获取旋转后的印刷字矩阵的特征向量和特征值，并基于所述旋转后的印刷字矩阵的特征向量和特征值生成该旋转后的印刷字矩阵对应的第二降维向量。

具体地，所述旋转角度和旋转方向可根据实际情况进行设置，本申请对此不作限制。

为了进一步降低文本图像方向校正过程中数据的复杂程度，在本申请一个实施例中，步骤201包含有：

步骤211：根据所述特征向量和特征值获得待降维特征向量组，其中，所述待降维特征向量组中的各个特征向量对应的特征值均大于第一特征值阈值。

步骤212：将所述待降维特征向量组进行降维后得到所述第一降维向量。

参见图3，为了进一步提高文本图像方向校正过程适用范围的广泛性，在本申请一个实施例中，步骤300包含有：

步骤301：将所述第一降维向量分别与预获取的特征向量库中的各个行向量进行余弦相似度计算，并将余弦相似度计算结果中的最大值对应的行向量作为所述目标行向量。

为了进一步提高识别文本图像倾斜角度的准确性和效率，进而提高文本图像方向校正的准确性和效率，如图3所示，在本申请一个实施例中，步骤300包含有：

步骤302：根据所述第一降维向量与目标行向量之间的余弦相似度值确定所述第一降维向量与目标行向量之间的夹角。

步骤303：对所述第二降维向量与目标行向量进行余弦相似度计算，得到第二余弦相似度值，根据预设的倾斜角度取值范围、所述夹角、旋转角度、旋转方向和第二余弦相似度值确定目标文本图像的倾斜方向和倾斜角度。

具体地，倾斜角度取值范围为[0,360°)，作为优选，所述旋转角度取值范围为[5°，10°]。举例来说，如测得目标文本向量与标准文本向量正交，则确定第一降维向量与目标行向量之间的夹角为90°，对应的倾斜角度可以为90°或270°，在这两种情况下，目标文本向量分别按相同方向旋转相同角度时，其余弦值有不同的相性，如90°旋转5°得到95°，对应的余弦值为正，270°旋转5°得到275°，对应的余弦值为负，从而确定目标文本向量所在的相位，根据所述相位和夹角确定目标文本图像的倾斜方向和倾斜角度。

由上述描述可知，第一降维向量和目标行向量之间的角度以及第二降维向量和目标行向量之间的角度，在余弦相似度的上具有相位的连贯性和变换的一致性。

参见图4，为了保证文本图像方向校正过程中数据的可靠性，进而提高校正结果的可靠性，在本申请一个实施例中，所述的文本图像方向校正方法还包含有：

步骤001：生成预获取的文字图片库中的各个单字图片各自对应的单字向量，并根据该单字向量生成字符矩阵，其中，该字符矩阵每行对应一个单字向量。

具体地，所述文字图片库可根据实际需要进行设置，各个文字图片中包含有唯一的单字，该单字可以是汉字或英文字母等语言表达形式中的独立字符，本申请对此不作限制。

步骤002：基于所述字符矩阵和主成分分析模型，生成所述特征向量库。

具体地，根据所述字符矩阵中的各个单字向量各自对应的主成分分析模型的输出结果生成所述述特征向量库。

为了进一步提高识别文本图像倾斜角度的准确性和效率，进而提高文本图像方向校正的准确性和效率，在本申请一个实施例中，步骤002包含有：

步骤021：生成所述字符矩阵中的各个所述单字向量各自对应的协方差矩阵。

在一个举例中，在步骤021之前还包含有将所述字符矩阵中的各个所述单字向量分别去中心化。

步骤022：根据所述协方差矩阵，得到各个单字向量对应的特征向量矩阵和对焦矩阵。

步骤023：应用所述特征向量矩阵和对焦矩阵，获得各个单字向量对应的待降维特征向量矩阵，其中，所述待降维特征向量矩阵中的特征向量对应的特征值均大于第二特征值阈值。

步骤024：将各个所述待降维特征向量矩阵进行降维，获得所述特征向量库。

从软件层面来说，为了提高识别文本图像倾斜角度的准确性和效率，进而提高文本图像方向校正的准确性和效率，本申请提供一种用于实现所述文本图像方向校正方法中全部或部分内容的文本图像方向校正装置的实施例，参见图5，所述文本图像方向校正装置具体包含有如下内容：

获取印刷字模块10，用于根据预设的截取规则从目标文本图像中截取目标印刷体单字的像素块，并生成该像素块对应的印刷字矩阵。

获取降维向量模块20，用于应用预设的主成分分析模型分别获取印刷字矩阵对应的第一降维向量，以及旋转后的印刷字矩阵对应的第二降维向量，其中，所述主成分分析模型为预先训练得到的用于确定印刷字矩阵特征的无监督机器学习模型。

校正模块30，用于从预获取的特征向量库中获得与所述第一降维向量对应的目标行向量，并根据所述第一降维向量、第二降维向量和目标行向量得到目标文本图像的倾斜角度和倾斜方向，以对所述目标文本图像的方向进行校正。

参见图6，在本申请一个实施例中，所述获取降维向量模块20包含有：

获取第一降维向量单元21，用于应用所述主成分分析模型获取所述印刷字矩阵的特征向量和特征值，并基于所述印刷字矩阵的特征向量和特征值生成该印刷字矩阵对应的第一降维向量。

获取第二降维向量单元22，用于将所述印刷字矩阵按照预设的旋转角度和旋转方向进行旋转，应用所述主成分分析模型获取旋转后的印刷字矩阵的特征向量和特征值，并基于所述旋转后的印刷字矩阵的特征向量和特征值生成该旋转后的印刷字矩阵对应的第二降维向量。

在本申请一个实施例中，所述获取第一降维向量单元包含有：

获取待降维特征向量组子单元，用于根据所述特征向量和特征值获得待降维特征向量组，其中，所述待降维特征向量组中的各个特征向量对应的特征值均大于第一特征值阈值。

获取第一降维向量子单元，用于将所述待降维特征向量组进行降维后得到所述第一降维向量。

在本申请一个实施例中，所述校正模块，包含有：

获取目标行向量单元，用于将所述第一降维向量分别与预获取的特征向量库中的各个行向量进行余弦相似度计算，并将余弦相似度计算结果中的最大值对应的行向量作为所述目标行向量。

在本申请一个实施例中，所述校正模块，包含有：

获取倾斜角度单元，用于根据所述第一降维向量与目标行向量之间的余弦相似度值确定所述第一降维向量与目标行向量之间的夹角；

获取倾斜方向单元，用于对所述第二降维向量与目标行向量进行余弦相似度计算，得到第二余弦相似度值，根据预设的倾斜角度取值范围、所述夹角、旋转角度、旋转方向和第二余弦相似度值确定目标文本图像的倾斜方向和倾斜角度。

在本申请一个实施例中，所述的文本图像方向校正装置，还包含有：

生成字符矩阵模块，用于生成预获取的文字图片库中的各个单字图片各自对应的单字向量，并根据该单字向量生成字符矩阵，其中，该字符矩阵每行对应一个单字向量。

生成特征向量库模块，用于基于所述字符矩阵和主成分分析模型，生成所述特征向量库。

在本申请一个实施例中，所述生成特征向量库模块，包含有：

生成协方差矩阵单元，用于生成所述字符矩阵中的各个所述单字向量各自对应的协方差矩阵。

获得中间矩阵单元，用于根据所述协方差矩阵，得到各个单字向量对应的特征向量矩阵和对焦矩阵。

获得待降维特征向量矩阵单元，用于获取应用所述特征向量矩阵和对焦矩阵，获得各个单字向量对应的待降维特征向量矩阵，其中，所述待降维特征向量矩阵中的特征向量对应的特征值均大于第二特征值阈值。

获得特征向量库单元，用于将各个所述待降维特征向量矩阵进行降维，获得所述特征向量库。

本说明书提供的文本图像方向校正装置的实施例具体可以用于执行上述文本图像方向校正方法的实施例的处理流程，其功能在此不再赘述，可以参照上述文本图像方向校正方法实施例的详细描述。

为了进一步说明本方案，本申请提供还提供一种文本图像方向校正方法的具体应用实例，参见图7，本具体应用实例中所述的文本图像方向校正方法包含有：获取中文标准印刷字库1，导入PCA算法中计算每个字的特征向量2，生成标准特征向量库3，具体描述如下：

1)获取中文标准印刷字库：

常见的中文标准印刷字库即文字图片库中的字号与像素大小的对应关系如表1所示：

表1

其中常用的字号范围一般是二号到小四之间，为了在保证降维后的特征向量包含的信息量较多的同时，避免原始图片维度过高导致模型运行时间过长，本具体应用实例中采取小二字号为标准字号。应用无监督学习PCA算法提取标准印刷体字库中所有文字的特征向量，并利用降维空间对原矩阵进行降维，最终形成特征向量库。具体描述如下：

(1)将文字图片库中的汉字图片的长宽均resize为24px。

(2)将汉字图片reshape成为1×576的向量m_i(i∈N)，最后生成N×576大小的字符矩阵M(N为字库中字符的总数，该矩阵的每一行为一个字向量)。

(3)循环遍历字符矩阵M的每一行，记为m_i，输入到PCA模型中，输出的特征向量库记为M'，具体包含有：

①将m_i去中心化，并计算协方差矩阵

②利用特征值分解C_i＝QΣQ^-1计算协方差矩阵的特征向量矩阵Q和由特征值组成的对焦矩阵Σ。

③根据特征值大小将特征向量矩阵Q内的特征向量排序，选取前k个特征向量(k的数量作为参数后期可调节)，构成矩阵V^T。

④利用矩阵V^T重建降维后的图片矩阵：

⑤将降维后的图片矩阵m'_24×kreshape为1×(24×k)大小，存储在特征向量库M'中，记为m′_i。

(4)遍历文字图片库，生成特征向量库M'。

2)文本图像方向校正：

从目标文本图像中，分割提取出的一个单独且任意印刷体文字样本。应用该样本，通过无监督学习PCA算法降维处理，提取出特征向量，并进行降维；将样本降维后的特征向量与特征向量库中的标准特征向量进行匹配，构造余弦相似度最大的向量对；通过余弦相似度，并结合标准特征向量所在的坐标系，获得样本文字的真实旋转角度；最后根据旋转角度，对目标文本图像进行方向矫正。具体步骤为：

(1)判断样本中是否存在印刷体文字，若存在，则截取单个印刷字样本像素块并resize为大小24×24的矩阵n。若不存在印刷体文字，则退出。

(2)将n输入PCA模型中，按照之前步骤计算出特征向量和特征值，并按照特征值大小选出前k个特征向量，并利用前k个特征向量组成的低维空间生成n降维后的向量n'。

(3)将n'与M'中的每个行向量进行余弦相似度的计算。最后选取相似度最大的向量对(n',m')，并计算出夹角θ₁。

(4)将n按一定方向旋转一定角度(例如，5度)，重新导入PCA模型中，生成降维后的向量n″，计算向量对(n″,m')的余弦相似度和夹角θ₂，并与向量对(n',m')的余弦相似度进行对比，得出余弦值变化趋势，从而计算出真实旋转角度θ。

(5)根据旋转角度θ，对目标文本图像进行相应的旋转矫正。

为了进一步说明本方案，本申请还提供一种执行主体是所述文本图像方向校正装置的文本图像方向校正方法的具体应用实例，所述文本图像方向校正装置共有两个输入：从文字样本中分割得到的单个字样本和标准向量库。数据预处理部分需要先识别文字样本是否包含文字，若包含，则进行下一步截取文字样本；将文字样本输入到PCA算法中，获得文字样本的特征向量，并遍历标准特征向量库，进行匹配；最后根据匹配结果计算出旋转角度并进行纠偏，此处的旋转角度包含有上述倾斜角度和倾斜方向。参见图8，具体描述如下：

S11：文本印刷体文字检测。

S12：是否存在印刷体。若是，执行步骤S13。

S13：提取单个印刷体文字样本。

S21：输入PCA模型。

S22：提取样本的特征向量，并降维。

S31：标准特征向量库；即生成标准特征向量库。

S32：遍历向量库；即遍历所述标准特征向量库。

S23：计算余弦相似度，构成余弦相似度最大向量对，获得匹配样本。

S41：小角度旋转原文字样本。

S42：输入PCA模型重新降维。

S43：重新计算余弦相似度，获取角度变化信息。

S44：获取真实旋转角度，并对原样本纠偏。

由上述描述可知，本申请提供的文本图像方向校正方法及装置，能够提高识别文本图像倾斜角度的准确性和效率，进而提高文本图像方向校正的准确性和效率；具体地，能够有效地利用样本特征向量和标准特征向量的特性，在利用余弦相似度和基准坐标进行相互匹配、寻找相同字符的同时，可以计算出旋转的真实值。其中包含传统方法无法识别的旋转角度以及旋转方向等；采用无监督算法，不需要借助大量的数据进行训练，只需要在初期进行标准字库中每个字的特征提取即可，计算量较小；传统的傅里叶变换和深度学习模型计算复杂，对于计算平台的硬件水平要求较高。而PCA的计算复杂度较低且该系统后期只需进行简单的向量运算即可；基于单个文字的特性可以适用于各种文本，而深度学习模型在更换场景时需要更换所有得到数据，因此本申请文本图像方向校正方法及装置的适用性和可移植性高。

从硬件层面来说，为了提高识别文本图像倾斜角度的准确性和效率，进而提高文本图像方向校正的准确性和效率，本申请提供一种用于实现所述文本图像方向校正方法中的全部或部分内容的电子设备的实施例所述电子设备具体包含有如下内容：

处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线；其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；所述通信接口用于实现所述文本图像方向校正装置以及用户终端等相关设备之间的信息传输；该电子设备可以是台式计算机、平板电脑及移动终端等，本实施例不限于此。在本实施例中，该电子设备可以参照实施例用于实现所述文本图像方向校正方法的实施例及用于实现所述文本图像方向校正装置的实施例进行实施，其内容被合并于此，重复之处不再赘述。

图9为本申请实施例的电子设备9600的系统构成的示意框图。如图9所示，该电子设备9600可以包括中央处理器9100和存储器9140；存储器9140耦合到中央处理器9100。值得注意的是，该图9是示例性的；还可以使用其他类型的结构，来补充或代替该结构，以实现电信功能或其他功能。

在本申请一个或多个实施例中，文本图像方向校正功能可以被集成到中央处理器9100中。其中，中央处理器9100可以被配置为进行如下控制：

步骤200：应用预设的主成分分析模型分别获取印刷字矩阵对应的第一降维向量，以及旋转后的印刷字矩阵对应的第二降维向量，其中，所述主成分分析模型为预先训练得到的用于确定印刷字矩阵特征的无监督机器学习模型。

从上述描述可知，本申请的实施例提供的电子设备，能够提高识别文本图像倾斜角度的准确性和效率，进而提高文本图像方向校正的准确性和效率。

在另一个实施方式中，文本图像方向校正装置可以与中央处理器9100分开配置，例如可以将文本图像方向校正装置配置为与中央处理器9100连接的芯片，通过中央处理器的控制来实现文本图像方向校正功能。

如图9所示，该电子设备9600还可以包括：通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是，电子设备9600也并不是必须要包括图9中所示的所有部件；此外，电子设备9600还可以包括图9中没有示出的部件，可以参考现有技术。

如图9所示，中央处理器9100有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。

其中，存储器9140，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序，以实现信息存储或处理等。

输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器，但并不限于此。

该存储器9140可以是固态存储器，例如，只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142，该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。

存储器9140还可以包括数据存储部9143，该数据存储部9143用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。

基于不同的通信技术，在同一电子设备中，可以设置有多个通信模块9110，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132，以经由扬声器9131提供音频输出，并接收来自麦克风9132的音频输入，从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器9130还耦合到中央处理器9100，从而使得可以通过麦克风9132能够在本机上录音，且使得可以通过扬声器9131来播放本机上存储的声音。

上述描述可知，本申请的实施例提供的电子设备，能够提高识别文本图像倾斜角度的准确性和效率，进而提高文本图像方向校正的准确性和效率。

本申请的实施例还提供能够实现上述实施例中的文本图像方向校正方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的文本图像方向校正方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

步骤300：从预获取的特征向量库中获得与所述第一降维向量对应的目标行向量，并根据所述第一降维向量、第二降维向量和目标行向量得到目标文本图像的倾斜角度和倾斜方向，以对所述目标文本图像的方向进行校正。步骤100：根据预设的截取规则从目标文本图像中截取目标印刷体单字的像素块，并生成该像素块对应的印刷字矩阵。

从上述描述可知，本申请实施例提供的计算机可读存储介质，能够提高识别文本图像倾斜角度的准确性和效率，进而提高文本图像方向校正的准确性和效率。

本申请中上述方法的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。相关之处参见方法实施例的部分说明即可。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本申请中应用了具体实施例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种文本图像方向校正方法，其特征在于，包括：

2.根据权利要求1所述的文本图像方向校正方法，其特征在于，所述应用预设的主成分分析模型分别获取印刷字矩阵对应的第一降维向量，以及旋转后的印刷字矩阵对应的第二降维向量，包括：

应用所述主成分分析模型获取所述印刷字矩阵的特征向量和特征值，并基于所述印刷字矩阵的特征向量和特征值生成该印刷字矩阵对应的第一降维向量；

以及，将所述印刷字矩阵按照预设的旋转角度和旋转方向进行旋转，应用所述主成分分析模型获取旋转后的印刷字矩阵的特征向量和特征值，并基于所述旋转后的印刷字矩阵的特征向量和特征值生成该旋转后的印刷字矩阵对应的第二降维向量。

3.根据权利要求2所述的文本图像方向校正方法，其特征在于，所述基于所述印刷字矩阵的特征向量和特征值生成该印刷字矩阵对应的第一降维向量，包括：

根据所述特征向量和特征值获得待降维特征向量组，其中，所述待降维特征向量组中的各个特征向量对应的特征值均大于第一特征值阈值；

将所述待降维特征向量组进行降维后得到所述第一降维向量。

4.根据权利要求1所述的文本图像方向校正方法，其特征在于，所述从预获取的特征向量库中获得与所述第一降维向量对应的目标行向量，包括：

将所述第一降维向量分别与预获取的特征向量库中的各个行向量进行余弦相似度计算，并将余弦相似度计算结果中的最大值对应的行向量作为所述目标行向量。

5.根据权利要求2所述的文本图像方向校正方法，其特征在于，所述根据所述第一降维向量、第二降维向量和目标行向量得到目标文本图像的倾斜角度和倾斜方向，包括：

根据所述第一降维向量与目标行向量之间的余弦相似度值确定所述第一降维向量与目标行向量之间的夹角；

对所述第二降维向量与目标行向量进行余弦相似度计算，得到第二余弦相似度值，根据预设的倾斜角度取值范围、所述夹角、旋转角度、旋转方向和第二余弦相似度值确定目标文本图像的倾斜方向和倾斜角度。

6.根据权利要求1所述的文本图像方向校正方法，其特征在于，还包括：

生成预获取的文字图片库中的各个单字图片各自对应的单字向量，并根据该单字向量生成字符矩阵，其中，该字符矩阵每行对应一个单字向量；

基于所述字符矩阵和主成分分析模型，生成所述特征向量库。

7.根据权利要求6所述的文本图像方向校正方法，其特征在于，所述基于所述字符矩阵和主成分分析模型，生成所述特征向量库，包括：

生成所述字符矩阵中的各个所述单字向量各自对应的协方差矩阵；

根据所述协方差矩阵，得到各个单字向量对应的特征向量矩阵和对焦矩阵；

应用所述特征向量矩阵和对焦矩阵，获得各个单字向量对应的待降维特征向量矩阵，其中，所述待降维特征向量矩阵中的特征向量对应的特征值均大于第二特征值阈值；

将各个所述待降维特征向量矩阵进行降维，获得所述特征向量库。

8.一种文本图像方向校正装置，其特征在于，包括：

9.根据权利要求8所述的文本图像方向校正装置，其特征在于，所述获取降维向量模块，包括：

获取第一降维向量单元，用于应用所述主成分分析模型获取所述印刷字矩阵的特征向量和特征值，并基于所述印刷字矩阵的特征向量和特征值生成该印刷字矩阵对应的第一降维向量；

获取第二降维向量单元，用于将所述印刷字矩阵按照预设的旋转角度和旋转方向进行旋转，应用所述主成分分析模型获取旋转后的印刷字矩阵的特征向量和特征值，并基于所述旋转后的印刷字矩阵的特征向量和特征值生成该旋转后的印刷字矩阵对应的第二降维向量。

10.根据权利要求9所述的文本图像方向校正装置，其特征在于，所述获取第一降维向量单元包括：

获取待降维特征向量组子单元，用于根据所述特征向量和特征值获得待降维特征向量组，其中，所述待降维特征向量组中的各个特征向量对应的特征值均大于第一特征值阈值；

11.根据权利要求8所述的文本图像方向校正装置，其特征在于，所述校正模块，包括：

12.根据权利要求9所述的文本图像方向校正装置，其特征在于，所述校正模块，包括：

13.根据权利要求8所述的文本图像方向校正装置，其特征在于，还包括：

生成字符矩阵模块，用于生成预获取的文字图片库中的各个单字图片各自对应的单字向量，并根据该单字向量生成字符矩阵，其中，该字符矩阵每行对应一个单字向量；

14.根据权利要求13所述的文本图像方向校正装置，其特征在于，所述生成特征向量库模块，包括：

生成协方差矩阵单元，用于生成所述字符矩阵中的各个所述单字向量各自对应的协方差矩阵；

获得中间矩阵单元，用于根据所述协方差矩阵，得到各个单字向量对应的特征向量矩阵和对焦矩阵；

获得待降维特征向量矩阵单元，用于获取应用所述特征向量矩阵和对焦矩阵，获得各个单字向量对应的待降维特征向量矩阵，其中，所述待降维特征向量矩阵中的特征向量对应的特征值均大于第二特征值阈值；

15.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7任一项所述的文本图像方向校正方法。

16.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述指令被执行时实现权利要求1至7任一项所述的文本图像方向校正方法。