CN109726719A

CN109726719A - 基于自动编码器的文字识别方法、装置及计算机设备

Info

Publication number: CN109726719A
Application number: CN201711047604.1A
Authority: CN
Inventors: 龙学珠
Original assignee: BYD Co Ltd
Current assignee: BYD Co Ltd
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2019-05-07

Abstract

本发明提出一种基于自动编码器的文字识别方法、装置及计算机设备，其中方法包括：利用预先生成的自动编码器，对待识别的图像进行去噪处理，获取待识别的图像中包括的文字图像；对文字图像进行文字识别，确定待识别的图像中的文字。该方法不仅节省了图像处理时间，还保证了处理后的文字字迹完整，从而使得图像中的文字识别准确度更高，提高了用户使用体验。

Description

基于自动编码器的文字识别方法、装置及计算机设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于自动编码器的文字识别方法、装置及计算机设备。

背景技术

目前，对图像中的文字进行识别时，通常是先对图像进行预处理，以去除图像中文字包含的各种类型噪声，然后再对去除噪声的图像进行文字识别操作。

在实际应用过程中，对图像进行去噪处理时，一般都是通过传统的图像处理技术中的图像滤波算法、图像增强以及缩放操作，去除图像中的噪点，以突出图像中的文字部分。然而发明人发现，通过上述方式对图像进行去噪处理时，不仅需要花费大量时间对图像滤波参数进行调节，甚至还有可能导致处理后的文字字迹出现丢失，从而影响文字识别的正确率，使得文字识别准确度低。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种基于自动编码器的文字识别方法。该方法不仅节省了图像处理时间，还保证了处理后的文字字迹完整，从而使得图像中的文字识别准确度更高，提高了用户使用体验。

本发明的第二个目的在于提出一种基于自动编码器的文字识别装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种计算机可读存储介质。

为达上述目的，本发明第一方面实施例提出了一种基于自动编码器的文字识别方法，包括：

利用预先生成的自动编码器，对待识别的图像进行去噪处理，获取所述待识别的图像中包括的文字图像；

对所述文字图像进行文字识别，确定所述待识别的图像中的文字。

本实施例提供的基于自动编码器的文字识别方法中，通过利用预先生成的自动编码器，对待识别的图像进行去噪处理，以获取待识别图像中包括的文字图像，然后对文字图像进行文字识别，以确定出待识别的图像中的文字。由此，实现了对图像中的文字进行识别时，不仅节省了图像处理时间，还保证了处理后的文字字迹完整，从而使得图像中的文字识别准确度更高，提高了用户使用体验。

另外，本发明上述实施例提出的基于自动编码器的文字识别方法还可以具有如下附加的技术特征：

在本发明的一个实施例中，所述利用预先生成的自动编码器，对待识别的图像进行去噪处理之前，还包括：

获取训练图像集，其中所述训练图像集中包括文字图像子集及原始图像子集，所述原始图像由文字图像及噪声组成；

利用所述文字图像子集及原始图像子集，对预设的卷积神经网络进行训练，生成所述自动编码器。

在本发明的另一个实施例中，所述预设的卷积神经网络包括卷积层、下采样层及上采样层，其中，所述下采样层与所述上采样层对称设置。

在本发明的另一个实施例中，所述对预设的卷积神经网络进行训练，生成所述自动编码器，包括：

对所述预设的卷积神经网络进行训练，确定所述卷积神经网络中各卷积层中卷积核的值。

在本发明的另一个实施例中，所述获取训练图像集，包括：

获取文字图像子集；

将所述文字图像子集分别进行噪声混叠，生成所述原始图像子集。

为达上述目的，本发明第二方面实施例提出了一种基于自动编码器的文字识别装置，包括：

第一获取模块，用于利用预先生成的自动编码器，对待识别的图像进行去噪处理，获取所述待识别的图像中包括的文字图像；

确定模块，用于对所述文字图像进行文字识别，确定所述待识别的图像中的文字。

本实施例提供的基于自动编码器的文字识别装置中，通过利用预先生成的自动编码器，对待识别的图像进行去噪处理，以获取待识别图像中包括的文字图像，然后对文字图像进行文字识别，以确定出待识别的图像中的文字。由此，实现了对图像中的文字进行识别时，不仅节省了图像处理时间，还保证了处理后的文字字迹完整，从而使得图像中的文字识别准确度更高，提高了用户使用体验。

另外，本发明上述实施例提出的基于自动编码器的文字识别装置还可以具有如下附加的技术特征：

在本发明的一个实施例中，还包括：

第二获取模块，用于获取训练图像集，其中所述训练图像集中包括文字图像子集及原始图像子集，所述原始图像由文字图像及噪声组成；

生成模块，用于利用所述文字图像子集及原始图像子集，对预设的卷积神经网络进行训练，生成所述自动编码器。

在本发明的另一个实施例中，所述生成模块具体包括：

为达上述目的，本发明第三方面实施例提出了一种自动编码器，包括：存储器、处理器及通信端口；

所述通信端口，用于输入输出训练数据；

所述存储器，用于存储可执行程序代码；

所述处理器，用于读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现第一方面实施例所述的基于自动编码器的文字识别方法。

本实施例提供的计算机设备中，通过利用预先生成的自动编码器，对待识别的图像进行去噪处理，以获取待识别图像中包括的文字图像，然后对文字图像进行文字识别，以确定出待识别的图像中的文字。由此，实现了对图像中的文字进行识别时，不仅节省了图像处理时间，还保证了处理后的文字字迹完整，从而使得图像中的文字识别准确度更高，提高了用户使用体验。

为达上述目的，本发明第四方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面实施例所述的基于自动编码器的文字识别方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一个实施例的基于自动编码器的文字识别方法的流程图；

图2是本发明一个实施例的自动编码器生成过程的流程图；

图3是本发明一个实施例对预设卷积神经网络进行训练生成自动编码器的训练过程示意图；

图4是本发明一个实施例的基于自动编码器的文字识别装置的结构示意图；

图5是本发明另一个实施例的基于自动编码器的文字识别装置的结构示意图；

图6是本发明一个实施例的计算机设备的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

本发明主要针对现有技术中，通过传统的图像处理技术对图像进行去噪处理时，存在的花费时间长，甚至导致处理后的图像中的文字字迹出现丢失，从而影响文字识别的正确率，使得文字识别准确度低的问题，提出一种基于自动编码器的文字识别方法。

本发明提出的基于自动编码器的文字识别方法，通过利用预先生成的自动编码器，对待识别的图像进行去噪处理，以获取待识别的图像中包括的文字图像，然后对获取的待识别的文字图像进行文字识别操作，以确定待识别图像中的文字。由此，实现了对图像中的文字进行识别时，不仅节省了图像处理时间，还保证了处理后的文字字迹完整，从而使得图像中的文字识别准确度更高，提高了用户使用体验。

下面结合附图对本发明实施例提供的基于自动编码器的文字识别方法进行详细描述。

图1是本发明一个实施例的基于自动编码器的文字识别方法的流程图。

如图1所述，本实施例的基于自动编码器的文字识别方法可以包括以下步骤：

步骤101，利用预先生成的自动编码器，对待识别的图像进行去噪处理，获取待识别的图像中包括的文字图像。

具体的，本实施例提供的基于自动编辑器的文字识别方法，可以由本发明提供的基于自动编辑器的文字识别装置执行，该装置可以被配置在计算机设备中，以对待识别的图像中的文字识别进行控制。

其中，在本实施例中待识别的图像可以是任意需要进行文字识别的图像，本发明对此不作具体限定。

需要说明的是，本实施例中预先生成的自动编码器可以通过神经网络训练生成。

为了清楚的说明本发明实施例，具体在实现步骤101之前，先以自动编码器是采用卷积神经网络进行训练生成的为例，对本发明中的预先生成的自动编辑器进行详细说明。

图2是本发明一个实施例自动编码器生成过程的流程图。

如图2所示，本实施例自动编码器生成过程可以包括以下几个步骤：

步骤201，获取训练图像集，其中训练图像集中包括文字图像子集及原始图像子集，原始图像由文字图像及噪声组成。

其中，文字图像子集是指具有多个文字图像的图像集合，原始图像子集是指具有多个原始图像的图像集合。

需要说明的是，本实施例获取的训练图像集，可以是包含几百张，甚至上千张的训练图像，以使得最终生成的自动编码器的去噪效果更好。

进一步地，为了使得获取到的训练图像集中文字图像子集及原始图像子集中每个文字图像与原始图像之间都存在一一对应关系。本发明可通过先获取文字图像子集，然后对获取的文字图像子集中的每个文字图像进行噪声混杂，以生成与文字图像子集对应的原始图像子集。

步骤202，利用文字图像子集及原始图像子集，对预设的卷积神经网络(Convolution Neural Networks，简称为CNN)进行训练，生成自动编码器。

具体的，在获取到包含有文字图像子集和原始图像子集的训练图像集之后，本发明可利用获取的训练图像集，对预设的卷积神经网络进行训练操作，以生成自动编码器。

其中，预设的卷积神经网络包括巻积层、下采样层及上采样层，并且下采样层与上采样层对称设置。

需要说明的是，在本实施例中，预设的卷积神经网络，是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，并且对于大型图像处理有出色表现。

更具体的，本发明根据训练图像集中的文字图像集和原始图像子集，对预设的卷积神经网络进行训练时，通过确定卷积神经网络中各卷积层中的卷积核的值，生成自动编码器。

举例说明，如图3所示，图中con_i代表第i个卷积层，(x，y，z)为预设的x个y*z大小的卷积核，Train_x为预设的卷积神经网络CNN的输入数据，Train_y为预设的卷积神经网络CNN的输出数据。

具体的，先向预设的卷积神经网络CNN输入包含原始图像子集的训练图像集，以通过预设卷积神经网络CNN对原始图像进行预处理，然后将处理后的原始图像放置在四维数组Train_x(x1,x2,x3,x4)中，以通过预设的卷积神经网络CNN对上述Train_x(x1,x2,x3,3)进行训练，得到对应的文字图像子集。其中，x1为原始图像的个数，x2，x3分别为原始图像的行数和列数，x4为原始图像的RGB三个通道，因此x4等于3。

具体训练过程可包括：预设的卷积神经网络CNN将Train_x与第一个二维巻积层(Convolution2D层)con_1的预设卷积核进行卷积，以使得预设的卷积神经网络CNN学习原始图像的特征得到对应的特征图。然后将特征图输入至第一个二维空域信号施加最大池化层(MaxPooling2D层)，以使用最大池化对特征图进行下采样，将特征图进行分块得到新的图像，以实现对上述特征图的简化处理。之后，再将MaxPooling2D层输出的新的图像进行con_2层的训练，使得预设的卷积神经网络学习到更深的图像特征得到新特征图，然后对新特征图再进行一次池化处理，以使新特征图得到进一步压缩。为了充分学习原始图像子集中的文字特征，可依次对第二次池化处理后的图像进行con_3、con_4、con_5处理，即反复进行卷积运算使得预设的卷积神经网络CNN可以从有噪声的原始图像中学到文字特征，最后对应的没有噪声的文字图像Train_y。

其中，MaxPooling2D和UpSampling2D即为预设卷积神经网络CNN中的下采样层和上采样层，并且分别穿插在各Convolution2D层之间，从而保证输出的图像和输入的图像大小一致。

也就是说，通过对预设的卷积神经网络CNN进行多次重复训练，以使得各巻积层中的卷积核的值收敛至预设范围内，使得最后生成的自动编码器的去噪精度更高，从而对待识别的图像进行去噪处理时能够根据待识别图像的文字特征，自适应的进行去噪处理，从而提高去噪处理效果。

进一步地，在生成自动编码器之后，本发明可利用生成的自动编码器对待识别的图像进行去噪处理，以获取去除噪声的待识别图像的文字图像。

步骤102，对文字图像进行文字识别，确定待识别的图像中的文字。

具体的，可通过以下方式对文字图像进行文字识别，举例说明如下：

第一种实现方式，利用预先训练得到的文字识别分类器，对文字图像进行文字识别操作。

具体的，预先训练得到的文字识别分类器，可以是通过卷积神经网络对多个文字图像中的文字进行标注，并提取文字图像中的文字特征。然后基于提取的文字特征采取深度学习算法进行训练得到的，本发明对此不作具体限定。

第二种实现方式，利用光学字符识别(Optical Character Recognition，简称为OCR)，对文字图像进行文字识别操作，以确定待识别的图像中的文字内容。

其中，OCR是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。

当然除了上述两种实现方式之外，还可以通过其他方式确定待识别的图像中的文字，本发明对此不作过多赘述。

可以理解的是，本发明通过训练一个基于卷积神经网络(CNN)的自动编码器，让自动编码器学习区分图像中的文字和非文字内容，然后利用上述自动编码器对图像进行处理，以将图像中的非文字部分去除，从而有效解决了现有图像处理技术中，对图像进行去噪处理时不断调节滤波算法中参数的困扰，提高了对图像处理的速度，满足了用户需求。

为了实现上述实施例，本发明还提出了一种基于自动编码器的文字识别装置。

图4是本发明一个实施例的基于自动编码器的文字识别装置的结构示意图。

如图4所示，该基于自动编码器的文字识别装置包括：第一获取模块11和确定模块12。

其中，第一获取模块11用于利用预先生成的自动编码器，对待识别的图像进行去噪处理，获取所述待识别的图像中包括的文字图像；

确定模块12用于对所述文字图像进行文字识别，确定所述待识别的图像中的文字。

进一步地，如图5所示，在本发明的另一个实施例中，基于自动编码器的文字识别装置还包括：第二获取模块13和生成模块14。

其中，第二获取模块13用于获取训练图像集，其中所述训练图像集中包括文字图像子集及原始图像子集，所述原始图像由文字图像及噪声组成；

生成模块14用于利用所述文字图像子集及原始图像子集，对预设的卷积神经网络进行训练，生成所述自动编码器。

具体的，在本实施例中，所述生成模块14具体包括：

需要说明的是，前述对基于自动编码器的文字识别方法实施例的解释说明也适用于该实施例的基于自动编码器的位子识别装置，其实现原理类似，此处不再赘述。

为了实现上述实施例，本发明还提出一种计算机设备。

图6是本发明一个实施例的计算机设备的结构示意图。

参见图6，本发明的计算机设备包括存储器21、处理器22及通信端口23；

通信端口23用于输入输出待识别图像的数据；

存储器21用于存储可执行程序代码；

处理器22用于读取存储器21中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于实现第一方面实施例的基于自动编码器的文字识别方法。其中上述基于自动编码器的文字识别方法包括：利用预先生成的自动编码器，对待识别的图像进行去噪处理，获取所述待识别的图像中包括的文字图像；对所述文字图像进行文字识别，确定所述待识别的图像中的文字。

需要说明的是，前述对基于自动编码器的文字识别方法实施例的解释说明也适用于该实施例的计算机设备，其实现原理类似，此处不再赘述。

为了实现上述实施例，本发明还提出了一种计算机可读存储介质。

该计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面实施例的基于自动编码器的文字识别方法。其中上述基于自动编码器的文字识别方法包括：利用预先生成的自动编码器，对待识别的图像进行去噪处理，获取所述待识别的图像中包括的文字图像；对所述文字图像进行文字识别，确定所述待识别的图像中的文字。

在本发明中，除非另有明确的规定和限定，术语“设置”、“连接”等术语应做广义理解，例如，可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于自动编码器的文字识别方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述利用预先生成的自动编码器，对待识别的图像进行去噪处理之前，还包括：

3.如权利要求2所述的方法，其特征在于，所述预设的卷积神经网络包括卷积层、下采样层及上采样层，其中，所述下采样层与所述上采样层对称设置。

4.如权利要求2所述的方法，其特征在于，所述对预设的卷积神经网络进行训练，生成所述自动编码器，包括：

5.如权利要求2-4任一所述的方法，其特征在于，所述获取训练图像集，包括：

获取文字图像子集；

6.一种基于自动编码器的文字识别装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，还包括：

8.如权利要求7所述的装置，其特征在于，所述生成模块具体包括：

9.一种计算机设备，其特征在于，包括：存储器、处理器及通信端口；

所述通信端口，用于输入输出待识别图像的数据；

所述存储器，用于存储可执行程序代码；

所述处理器，用于读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如权利要求1-5任一所述的基于自动编码器的文字识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5任一所述的基于自动编码器的文字识别方法。