CN110705547B

CN110705547B - 图像内文字识别方法、装置及计算机可读存储介质

Info

Publication number: CN110705547B
Application number: CN201910846894.9A
Authority: CN
Inventors: 陈少琼; 卢宁
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2023-08-18
Anticipated expiration: 2039-09-06
Also published as: CN110705547A

Abstract

本发明涉及一种人工智能技术，揭露了一种图像内文字识别方法，包括：获取原始图像数据集及标签集，对所述原始图像数据集进行局部亮化处理得到标准图像数据集，将所述标准图像数据集进行仿射变换生成特征候选区域集，将所述特征候选区域集进行具有初始内部参数的卷积操作、池化操作后通过激活操作后得出文字集，将所述文字集与所述标签集进行相同比对，若所述文字集与所述标签集的相同准确率小于预设阈值时重新预测，若所述文字集与所述标签集的相同准确率大于所述预设阈值时，接收用户输入的图像后识别出用户所述图像中的文字并输出。本发明还提出一种图像内文字识别装置以及一种计算机可读存储介质。本发明可以实现精准的图像内文字识别功能。

Description

图像内文字识别方法、装置及计算机可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种对图像内的文字进行识别的方法、装置及计算机可读存储介质。

背景技术

将图像内的文字进行智能识别，可有效的降低人力投入，也可高效的根据文字进行图像分类等。目前传统方法是基于彩色去噪、灰度化并构建直方图等方式进行文字识别操作，虽然原理简单直观，但对于收集的字符图片库要求很高，且对复杂的文字识别率较低。

发明内容

本发明提供一种图像内文字识别方法、装置及计算机可读存储介质，其主要目的在于对图像中的文字进行识别的方法。

为实现上述目的，本发明提供的一种图像内文字识别方法，包括：

步骤A：获取包含文字的原始图像数据集及标签集，对所述原始图像数据集进行局部亮化处理得到标准图像数据集；

步骤B：将所述标准图像数据集进行仿射变换生成特征候选区域集；

步骤C：基于具有初始内部参数的卷积操作和池化操作从所述特征候选区域集中提取到特征矩阵集，并根据所述特征矩阵集进行激活操作后预测出文字集；

步骤D：将所述文字集与所述标签集进行相同比对，若所述文字集与所述标签集的相同准确率小于预设阈值，则调整所述卷积操作和所述池化操作的内部参数，并返回步骤C重新预测，若所述文字集与所述标签集的相同准确率大于所述预设阈值，则输出所述卷积操作和所述池化操作此时的内部参数作为最佳内部参数；

步骤E：接收用户输入的图像，将用户输入的所述图像执行所述仿射变换，并执行具有所述最佳内部参数的卷积操作和池化操作后，通过所述激活操作识别出所述图像中的文字并输出。

可选地，所述标签集包括标签文字集和标签位置集；

所述标签文字集记录所述原始图像数据集内图像的文字；

所述标签位置集记录所述原始图像数据集内图像的文字在所述图像内的坐标位置。

可选地，所述局部亮化处理包括：

根据所述标签位置集从所述原始图像数据集中找到文字图像区域g(x，y)；

根据所述文字图像区域g(x，y)计算得到亮度线性增强函数e(x，y)；

根据亮度线性增强函数e(x，y)增强所述文字图像区域g(x，y)的亮度，完成所述局部亮化处理。

可选地，所述根据所述亮度线性增强函数e(x，y)增强所述文字图像区域g(x，y)的亮度，包括利用下述公式计算增强后的文字图像区域：

其中，f(x，y)为增强后的文字图像区域，N为所述文字图像区域的亮度平均值，(x₁，y₁)为所述文字图像区域左下方坐标，N₁为所述文字图像区域左下方坐标的亮度值，(x₄，y₄)为所述文字图像区域右上方坐标，N₄为所述文字图像区域右上方坐标的亮度值。

可选地，所述卷积操作和池化操作，包括：

预先构建卷积模板并确定卷积步长；

根据所述卷积步长，将所述卷积模板与所述特征候选区域集进行计算得到卷积操作后的卷积矩阵集，完成所述卷积操作；

选择所述卷积矩阵集中矩阵的最大值或平均值替代所述卷积矩阵集，完成所述池化操作。

此外，为实现上述目的，本发明还提供一种图像内文字识别装置，该装置包括存储器和处理器，所述存储器中存储有可在所述处理器上运行的图像内文字识别程序，所述图像内文字识别程序被所述处理器执行时实现如下步骤：

可选地，所述标签集包括标签文字集和标签位置集；

所述标签文字集记录所述原始图像数据集内图像的文字；

可选地，所述局部亮化处理包括：

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有图像内文字识别程序，所述图像内文字识别程序可被一个或者多个处理器执行，以实现如上所述的图像内文字识别方法的步骤。

本发明对原始图像数据集的文字部分进行局部亮化处理，可提高文字的识别率，进一步地，利用仿射变换提取文字的特征点，可有利于后期的卷积操作与池化操作，由于所述卷积操作与池化操作能最大化利用所述特征点进行学习识别，因此可有效提高文字的识别准确率。因此本发明提出的图像内文字识别方法、装置及计算机可读存储介质，可以实现精准高效的图像文字识别。

附图说明

图1为本发明一实施例提供的图像内文字识别方法的流程示意图；

图2为本发明一实施例提供的图像内文字识别装置的内部结构示意图；

图3为本发明一实施例提供的图像内文字识别装置中图像内文字识别程序的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种图像内文字识别方法。参照图1所示，为本发明一实施例提供的图像内文字识别方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，图像内文字识别方法包括：

S1、获取包含文字的原始图像数据集及标签集，对所述原始图像数据集进行局部亮化处理得到标准图像数据集。

较佳地，所述包含文字的原始图像数据集是由一张张有文字的图像组成，如图像A是公交站牌图片，因此会有各种站牌文字信息、图像B是高考动员大会，因此图像B中会有鼓舞人心的横幅文字、图像C是小吃街的场景图，因此会有各种饭店名称的文字等，由此组成了所述原始图像数据集。

优选地，所述标签集包括两部分，一是记录所述原始图像数据集内图像的文字，即标签文字集，如所述标签集记录了所述图像B内的文字：努力就能成功，坚持确保胜利、记录了所述图像C内的文字：湘菜馆，麻辣烫，四川火锅；二是记录了所述原始图像数据集内图像的文字在所述图像内的坐标位置，即标签位置集，如以图像B最下角为原点，文字在图像B的位置为((x₁，y₁)，(x₂，y₂)，(x₃，y₃)，(x₄，y₄))，其中(x₁，y₁)表示文字区域的左下角，(x₂，y₂)表示文字区域的左上角，(x₃，y₃)表示文字区域的右下角，(x₄，y₄)表示文字区域的右上角，由此确定了文字在图像内的区域。

具体地，所述局部亮化处理包括根据所述标签位置集从所述原始图像数据集中找到文字图像区域g(x，y)，根据亮度线性增强函数e(x，y)增强所述文字图像区域g(x，y)的亮度，完成所述局部亮化处理。所述局部亮化处理是为了增强文字图像区域与其他非文字图像区域的亮度对比度，方便后续进行文字识别。进一步地，所述线性增强函数e(x，y)增强所述文字图像区域g(x，y)的亮度为：

S2、将所述标准图像数据集进行仿射变换生成特征候选区域集。

具体地，所述仿射变换包括：将所述标准图像数据集依次进行卷积提取生成空间变换矩阵集，将所述空间变换矩阵集与所述标准图像数据集进行矩阵运算生成特征候选区域集。

较佳地，所述卷积提取包括：Z(x，y)＝∫F(x，y)*T dm，其中Z(x，y)为所述空间变换矩阵集，F(x，y)为所述标准图像数据集，包括上述f(x，y)增强后的文字图像区域，T为所述卷积提取的标准矩阵，m为预设的所述标准图像数据集与所述标准矩阵的差值。

进一步地，所述矩阵运算如下：

其中，表示所述标准图像数据集内的像素，t表示所述标准图像数据集，所述特征候选区域集的特征值，s表示所述特征候选区域集。

S3、基于具有初始内部参数的卷积操作和池化操作从所述特征候选区域集中提取到特征矩阵集，并根据所述特征矩阵集进行激活操作后预测出文字集。

所述卷积操作和池化操作包括预先构建卷积模板并确定卷积步长，根据所述卷积步长，将卷积模板与特征候选区域集进行计算得到卷积操作后的卷积矩阵集，完成所述卷积操作。选择所述卷积矩阵集中矩阵的最大值或平均值替代所述卷积矩阵集，完成所述池化操作。因此所述初始内部参数即为所述卷积模板、所述卷积步长和所述池化操作。

进一步地，所述预先构建卷积模板可为标准的3*3矩阵，如所述计算得到卷积操作后的矩阵的计算方式是采用从左至右，卷积幅度为1的方式，如所述特征候选区域集中有特征为9*9的特征候选区域矩阵为：/>则所述预先构建卷积模板/>先与/>进行计算，计算方式为：1*0、0*3、1*1等对应维度相乘，最终得到的结果为：/>依次类推，所述所述预先构建卷积模板/>根据卷积幅度为1，向右继续横移一步与矩阵为：所述预先构建卷积模板/>进行上述操作得到所述预先构建卷积模板/>由此可知，当完成所述卷积操作可生成大量的小维度矩阵，如上述/>和/>等，因此，所述池化操作是将所述卷积操作生产的大量的小维度矩阵的维度变小，较佳地可采用最大化原理，如将上述/>和用最大的数值3和7代替，从而完成所述池化操作。

优选地，反复进行上述卷积操作和池化操作，如进行16次所述卷积和池化操作后得到最终的特征矩阵集。

较佳地，所述激活操作是将所述特征矩阵集通过_softmax函数进行概率估计，选择出概率最大的文字预测结果作为最终的预测文字并输出。所述_softm_ax函数为：

其中，p(word)表示文字为word的输出概率，k表示所述特征矩阵集的数据量，e为无限不循环小数，j表示可选择的文字范围数。如当word＝麻辣烫时，计算p(word＝麻辣烫)为0.87，当word＝湘菜馆时，计算p(word＝湘菜馆)为0.24，因此该特征矩阵代表的即为麻辣烫的文字。

S4、将所述文字集与所述标签集进行相同比对，若所述文字集与所述标签集的相同准确率小于预设阈值时，调整所述卷积操作和所述池化操作的内部参数，并返回步骤C重新预测，若所述文字集与所述标签集的相同准确率大于所述预设阈值时，输出所述卷积操作和所述池化操作此时的内部参数作为最佳内部参数。

较佳地，依次将所述文字集与所述标签集进行比对，如所述文字集对图像A的文字预测为“爱我中华”，而所述标签集记录对图像A的文字为“振兴中华”，因此所述文字集与所述标签集对图像A的文字比对是错误的，依次类推最终得到相同准确率，一般相同准确率可设置为90.5％。

所述重新调整即调整所述卷积模板及所述卷积步长，同时调整所述池化操作的步长及池化方式。

S5、接收用户输入的图像，将用户输入的所述图像执行所述仿射变换，并执行具有所述最佳内部参数的卷积操作和池化操作后，通过所述激活操作识别出所述图像中的文字并输出。

如接受用户输入一张参加学术会议的图像，将所述图像按照所述仿射变换、所述卷积操作、所述池化操作及所述激活操作，最终预测出所述图像内的文字为：热烈欢迎黄教授莅临授课。

发明还提供一种图像内文字识别装置。参照图2所示，为本发明一实施例提供的图像内文字识别装置的内部结构示意图。

在本实施例中，所述图像内文字识别装置1可以是PC(Personal Computer，个人电脑)，或者是智能手机、平板电脑、便携计算机等终端设备，也可以是一种服务器等。该图像内文字识别装置1至少包括存储器11、处理器12，通信总线13，以及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是图像内文字识别装置1的内部存储单元，例如该图像内文字识别装置1的硬盘。存储器11在另一些实施例中也可以是图像内文字识别装置1的外部存储设备，例如图像内文字识别装置1上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括图像内文字识别装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于图像内文字识别装置1的应用软件及各类数据，例如图像内文字识别程序01的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行图像内文字识别程序01等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该装置1与其他电子设备之间建立通信连接。

可选地，该装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在图像内文字识别装置1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-14以及图像内文字识别程序01的图像内文字识别装置1，本领域技术人员可以理解的是，图1示出的结构并不构成对图像内文字识别装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的装置1实施例中，存储器11中存储有图像内文字识别程序01；处理器12执行存储器11中存储的图像内文字识别程序01时实现如下步骤：

步骤一、获取包含文字的原始图像数据集及标签集，对所述原始图像数据集进行局部亮化处理得到标准图像数据集。

步骤二、将所述标准图像数据集进行仿射变换生成特征候选区域集。

进一步地，所述矩阵运算如下：

步骤三、基于具有初始内部参数的卷积操作和池化操作从所述特征候选区域集中提取到特征矩阵集，并根据所述特征矩阵集进行激活操作后预测出文字集。

较佳地，所述激活操作是将所述特征矩阵集通过softmax函数进行概率估计，选择出概率最大的文字预测结果作为最终的预测文字并输出。所述softmax函数为：

步骤四、将所述文字集与所述标签集进行相同比对，若所述文字集与所述标签集的相同准确率小于预设阈值时，调整所述卷积操作和所述池化操作的内部参数，并返回步骤C重新预测，若所述文字集与所述标签集的相同准确率大于所述预设阈值时，输出所述卷积操作和所述池化操作此时的内部参数作为最佳内部参数。

步骤五、接收用户输入的图像，将用户输入的所述图像执行所述仿射变换，并执行具有所述最佳内部参数的卷积操作和池化操作后，通过所述激活操作识别出所述图像中的文字并输出。

可选地，在其他实施例中，图像内文字识别程序还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段，用于描述图像内文字识别程序在图像内文字识别装置中的执行过程。

例如，参照图3所示，为本发明图像内文字识别装置一实施例中的图像内文字识别程序的程序模块示意图，该实施例中，所述图像内文字识别程序可以被分割为数据接收及处理模块10、特征提取模块20、模型训练模块30、文字识别输出模块40示例性地：

所述数据接收及处理模块10用于：获取包含文字的原始图像数据集及标签集，对所述原始图像数据集进行局部亮化处理得到标准图像数据集。

所述特征提取模块20用于：将所述标准图像数据集进行仿射变换生成特征候选区域集。

所述模型训练模块30用于：基于具有初始内部参数的卷积操作和池化操作从所述特征候选区域集中提取到特征矩阵集，并根据所述特征矩阵集进行激活操作后预测出文字集，将所述文字集与所述标签集进行相同比对，若所述文字集与所述标签集的相同准确率小于预设阈值时，调整所述卷积操作和所述池化操作的内部参数，并返回步骤C重新预测，若所述文字集与所述标签集的相同准确率大于所述预设阈值时，输出所述卷积操作和所述池化操作此时的内部参数作为最佳内部参数。

所述文字识别输出模块40用于：接收用户输入的图像，将用户输入的所述图像执行所述仿射变换，并执行具有所述最佳内部参数的卷积操作和池化操作后，通过所述激活操作识别出所述图像中的文字并输出。

上述数据接收及处理模块10、特征提取模块20、模型训练模块30、文字识别输出模块40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有图像内文字识别程序，所述图像内文字识别程序可被一个或多个处理器执行，以实现如下操作：

获取包含文字的原始图像数据集及标签集，对所述原始图像数据集进行局部亮化处理得到标准图像数据集。

将所述标准图像数据集进行仿射变换生成特征候选区域集。

基于具有初始内部参数的卷积操作和池化操作从所述特征候选区域集中提取到特征矩阵集，并根据所述特征矩阵集进行激活操作后预测出文字集，将所述文字集与所述标签集进行相同比对，若所述文字集与所述标签集的相同准确率小于预设阈值时，调整所述卷积操作和所述池化操作的内部参数，并返回步骤C重新预测，若所述文字集与所述标签集的相同准确率大于所述预设阈值时，输出所述卷积操作和所述池化操作此时的内部参数作为最佳内部参数。

接收用户输入的图像，将用户输入的所述图像执行所述仿射变换，并执行具有所述最佳内部参数的卷积操作和池化操作后，通过所述激活操作识别出所述图像中的文字并输出。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种图像内文字识别方法，其特征在于，所述方法包括：

步骤E：接收用户输入的图像，将用户输入的所述图像执行所述仿射变换，并执行具有所述最佳内部参数的卷积操作和池化操作后，通过所述激活操作识别出所述图像中的文字并输出；

其中，所述局部亮化处理包括：根据标签位置集从所述原始图像数据集中找到文字图像区域g(x，y)；根据所述文字图像区域g(x，y)计算得到亮度线性增强函数e(x，y)；根据亮度线性增强函数e(x，y)增强所述文字图像区域g(x，y)的亮度，完成所述局部亮化处理；

所述根据亮度线性增强函数e(x，y)增强所述文字图像区域g(x，y)的亮度，包括利用下述公式计算增强后的文字图像区域：

其中，f(x，y)为增强后的文字图像区域，N为所述文字图像区域的亮度平均值，(x₁，y₁)为所述文字图像区域左下方坐标，N₁为所述文字图像区域左下方坐标的亮度值，(x₄，y₄)为所述文字图像区域右上方坐标，N₄为所述文字图像区域右上方坐标的亮度值；

所述仿射变换包括：将所述标准图像数据集依次进行卷积提取生成空间变换矩阵集，将所述空间变换矩阵集与所述标准图像数据集进行矩阵运算生成特征候选区域集。

2.如权利要求1所述的图像内文字识别方法，其特征在于，所述标签集包括标签文字集和标签位置集；

所述标签文字集记录所述原始图像数据集内图像的文字；

3.如权利要求1所述的图像内文字识别方法，其特征在于，所述卷积操作和池化操作，包括：

预先构建卷积模板并确定卷积步长；

4.一种图像内文字识别装置，用于实现如权利要求1至3中任一项所述的图像内文字识别方法，其特征在于，所述装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的图像内文字识别程序，所述图像内文字识别程序被所述处理器执行时实现如下步骤：

5.如权利要求4所述的图像内文字识别装置，其特征在于，所述标签集包括标签文字集和标签位置集；

所述标签文字集记录所述原始图像数据集内图像的文字；

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有图像内文字识别程序，所述图像内文字识别程序可被一个或者多个处理器执行，以实现如权利要求1至3中任一项所述的图像内文字识别方法的步骤。