CN111598087A

CN111598087A - 不规则文字的识别方法、装置、计算机设备及存储介质

Info

Publication number: CN111598087A
Application number: CN202010413346.XA
Authority: CN
Inventors: 熊娇; 刘雨桐; 石强; 王国勋
Original assignee: Runlian Software System Shenzhen Co Ltd
Current assignee: Runlian Software System Shenzhen Co Ltd
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2020-08-28
Anticipated expiration: 2040-05-15
Also published as: CN111598087B

Abstract

本发明公开了一种不规则文字的识别方法、装置、计算机设备及存储介质，其方法包括：对不规则文字的初始文本图像进行分解处理得到多块小图像；对每块小图像执行MORN矫正流程，得到更新文本图像后将其再次执行MORN矫正流程，并判断本次得到的更新文本图像与上一次得到的更新文本图像是否相同，若相同则将本次得到的更新文本图像作为规则文本图像，否则继续执行MORN矫正流程直至得到规则文本图像；将规则文本图像输入RBAN网络并输出两个解码器预测结果；选择log‑softmax得分之和高的解码器预测结果作为最终识别结果。该方法针对不规则文字图像利用MORN方法进行多次矫正得到规则文字图像，再把规则文字图像输入RBAN网络中进行文字识别，提高了对不规则文字识别的识别率。

Description

不规则文字的识别方法、装置、计算机设备及存储介质

技术领域

本发明涉及数字图像处理技术领域，尤其涉及一种不规则文字的识别方法、装置、计算机设备及存储介质。

背景技术

随着智能化的应用，大众和企业对图像或视频中文字识别的需求越来越多，但自然场景文本识别的难度极高，其原因在于文本的布局可能存在弯曲、褶皱、换向等问题，其中的文字也可能存在字体多样、字号字颜色不一的问题。

经典的基于深度学习的文字识别方法采用卷积循环网络(CRNN)模型，其以卷积特征作为输入，通过双向长短期记忆网络(BiLSTM)进行序列处理，可以使得文字识别的效率大幅提升；但是其只在规则和规范的文字上识别准确率较好，在不规则文字上应用十分有限。

现有技术中，为解决对不规则文字的识别，各种基于深度神经网络的文字识别模型也在不断的迭代和发展；其中，多目标矫正注意力网络(MORAN)由矫正子网络MORN(multi-object rectificationnetwork，简称MORN)和识别子网络ASRN(attention-basedsequence network，简称ASRN)组成，MORN中设计了一种新颖的像素级弱监督学习机制用于不规则文本的形状纠正，大大降低了对不规则文本的识别难度。

但是，该多目标矫正注意力网络仅仅对变形角度较小的不规则文字的识别效果较好，当文字变形角度较大时，识别率仍然有待提高。

发明内容

本发明的目的是提供一种不规则文字的识别方法、装置、计算机设备及存储介质，旨在解决现有技术对不规则文字的识别率不高的问题。

第一方面，本发明实施例提供一种不规则文字的识别方法，包括：

通过MORN矫正网络中的卷积对不规则文字的初始文本图像进行分解处理得到多块小图像；

对每块小图像执行MORN矫正流程，得到更新文本图像；

其中，所述MORN矫正流程包括：对每块小图像进行回归偏移量计算，获得偏移量并对所述偏移量进行平滑操作；然后在所述初始文本图像上进行采样，将采样点与所述偏移量进行映射操作，得到更新文本图像；

将所述更新文本图像再次执行MORN矫正流程，并判断本次得到的更新文本图像与上一次执行MORN矫正流程得到的更新文本图像是否相同，若相同则将本次得到的更新文本图像作为规则文本图像，否则继续MORN执行矫正流程直至得到规则文本图像；

将所述规则文本图像输入预设的RBAN网络，并输出两个解码器预测结果；

其中，所述RBAN网络包括一个编码器和一个带注意力机制的双向解码器；

选择log-softmax得分之和高的解码器预测结果，并作为最终识别结果。

第二方面，本发明实施例还提供一种不规则文字的识别装置，其包括：

获取单元，用于通过MORN矫正网络中的卷积对不规则文字的初始文本图像进行分解处理得到多块小图像；

第一矫正单元，用于对每块小图像执行MORN矫正流程，得到更新文本图像；

第二矫正单元，用于将所述更新文本图像再次执行MORN矫正流程，并判断本次得到的更新文本图像与上一次MORN执行矫正流程得到的更新文本图像是否相同，若相同则将本次得到的更新文本图像作为规则文本图像，否则继续执行MORN矫正流程直至得到规则文本图像；

输出单元，用于将所述规则文本图像输入预设的RBAN网络，并输出两个解码器预测结果；

选择单元，用于选择log-softmax得分之和高的解码器预测结果，并作为最终识别结果。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的不规则文字的识别方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的不规则文字的识别方法。

本发明实施例提供一种不规则文字的识别方法、装置、计算机设备及存储介质，其中方法包括：通过MORN矫正网络中的卷积对不规则文字的初始文本图像进行分解处理得到多块小图像；对每块小图像执行MORN矫正流程，得到更新文本图像；其中，所述MORN矫正流程包括：对每块小图像进行回归偏移量计算，获得偏移量并对所述偏移量进行平滑操作；然后在所述初始文本图像上进行采样，将采样点与所述偏移量进行映射操作，得到更新文本图像；将所述更新文本图像再次执行MORN矫正流程，并判断本次得到的更新文本图像与上一次执行MORN矫正流程得到的更新文本图像是否相同，若相同则将本次得到的更新文本图像作为规则文本图像，否则继续执行MORN矫正流程直至得到规则文本图像；将所述规则文本图像输入预设的RBAN网络，并输出两个解码器预测结果；其中，所述RBAN网络包括一个编码器和一个带注意力机制的双向解码器；选择log-softmax得分之和高的解码器预测结果，并作为最终识别结果。该方法针对不规则文字图像利用MORN方法进行多次矫正得到规则文字图像，再把规则文字图像输入RBAN网络中进行文字识别，提高了对不规则文字识别的识别率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的不规则文字的识别方法的流程示意图；

图2为本发明实施例提供的不规则文字的识别方法的子流程示意图；

图3为本发明实施例提供的不规则文字的识别方法的原理框图；

图4为本发明实施例提供的不规则文字的识别方法的又一子流程示意图；

图5为本发明实施例提供的不规则文字的识别方法的又一子流程示意图；

图6为本发明实施例提供的不规则文字的识别装置的示意性框图；

图7为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本发明实施例提供的一种不规则文字的识别方法的流程图；

该方法包括步骤S101～S105：

S101、通过MORN矫正网络中的卷积对不规则文字的初始文本图像进行分解处理得到多块小图像。

本实施例中，MORN矫正网络用于对不规则文字的初始文本图像进行矫正，矫正前需要将初始文本图像切分为多块小图像，这样做可以更准确的对不规则文字进行矫正。

在一实施例中，如图2所示，所述步骤S101包括：

S201、将所述初始文本图像经过一个池化层进行池化，然后经过一个卷积层进行卷积并输出多个小图像；

S202、将每一小图像进行一次池化，然后再依次进行一次卷积和一次池化，再进行三次卷积，然后再进行一次池化，最后利用Tanh函数进行激活；

其中，所述Tanh函数计算公式为：

x为向量。

本实施例中，如图3所示，先将初始文本图像经过一个池化层进行池化，实现对初始文本图像的降维，即初始文本图像的识别问题转化为特征表达向量的识别问题，可以降低计算的复杂程度，减少冗余信息所造成的识别误差，提高识别的精度；然后再经过卷积层进行卷积：提取初始文本图像上各个部分的特征表达向量，对各个部分的特征表达向量经过处理形成多个小图像并输出。

将每一块小图像进行一次池化，然后再依次进行一次卷积和一次池化，再进行三次卷积，然后再进行一次池化，实现了每一小图像的进一步降维和卷积，更便于后续进行矫正，最后通过Tanh函数计算公式进行激活，得到可以进行矫正的小图像。

S102、对每块小图像执行MORN矫正流程，得到更新文本图像；

其中，所述MORN矫正流程包括：对每块小图像进行回归偏移量计算，获得偏移量并对所述偏移量进行平滑操作；然后在所述初始文本图像上进行采样，将采样点与所述偏移量进行映射操作，得到更新文本图像。

本实施例中，通过MORN矫正网络对每一块小图像上不规则的文字进行矫正，然后将矫正后的每一块小图像与其对应在初始文本图像位置上的部分进行坐标计算，得到矫正前后的偏移量，然后在初始文本图像上进行采样并得到采样点，最后根据偏移量，对采样点进行偏移调整，即可得到更新文本图像。

在一实施例中，如图4所示，所述在所述初始文本图像上进行采样，将采样点与所述偏移量进行映射操作，包括步骤S401～S402。

S401、采集初始文本图像上的坐标点像素并作为采样点；

S402、将采样点与偏移量进行映射操作，所述映射关系为：

x2＝x1+ox1，y2＝y1+oy1；其中，(ox1，oy1)为小图像上的偏移坐标，(x1，y1)为采样点的坐标点像素，(x2，y2)为更新文本图像的坐标点像素。

本实施例中，初始文本图像MRON矫正的过程为：根据映射关系，将初始文本图像的采样点加上小图像的偏移坐标，得到更新文本图像的坐标点像素，根据更新文本图像的坐标点像素即可构成更新文本图像。

本发明采用MRON矫正方式，不需要字符位置或像素级分割的监督信息，从而使得网络的训练大大简化，这样的变换也摆脱了几何变换的限制。

S103、将所述更新文本图像再次执行MRON矫正流程，并判断本次得到的更新文本图像与上一次执行MRON矫正流程得到的更新文本图像是否相同，若相同则将本次得到的更新文本图像作为规则文本图像，否则继续执行MRON矫正流程直至得到规则文本图像；

本实施例中，由于一次矫正可能无法将不规则文字完全矫正，故需要再次执行MRON矫正流程，得到本次的更新文本图像，然后将本次得到的更新文本图像与上一次执行MRON矫正流程得到的更新文本图像进行对比，判断这两个更新文本图像是否相同，若相同，则说明本次更新文本图像无变化，即已经完成矫正，故将本次得到的更新文本图像作为规则文本图像，若不同，则将本次得到的更新文本图像再次执行MRON矫正流程，直至得到规则文本图像。

需要说明的是，本实施例在判断矫正前后的两个更新文本图像是否相同的过程中，这里相同的概念可以是指广义的相同，即比较的两个更新文本图像可以不完全一模一样，允许存在在一定范围内的微小差别，但对最终识别结果无影响。

S104、将所述规则文本图像输入预设的RBAN网络，并输出两个解码器预测结果；

其中，所述RBAN网络包括一个编码器和一个带注意力机制的双向解码器。

本实施例中，预先将得到规则文字图像输入RBAN网络中的训练模型进行训练，使RBAN网络具有针对该规则文字图像的识别功能；所述RBAN网络识别规则文字图像的过程为：输入规则文字图像，通过编码器对规则文本图像进行特征提取并分析，然后输出编码器两个方向的信息，再由双向解码器分别对这两个方向的信息进行分析处理并输出两个解码器的预测结果，再根据log-softmax值选择出最终识别结果；本实施例中采用的双向解码器可以考虑到语序之间的词意联系，有助于提高识别率。

在一实施例中，如图5所示，所述步骤S104包括：

S501、将所述规则文本图像输入一个53层的残差神经网络来提取特征，其中，所述残差神经网络中每个残差模块(Block)包含了一个1x1和3x3的卷积(conv)，前两个残差模块步长(stride)为2，其余的残差模块步长变为1；

S502、然后将提取的特征输入至BiLSTM模型，得到左至右和右至左两个方向的输出。

本实施例中，按下述残差神经网络的网络配置表中的模块信息和配置信息执行对规则文本图像的特征提取。

表1残差神经网络的网络配置表

然后将提取的特征输入至BiLSTM(双向长短期记忆网络)模型进行序列处理，最后得到左至右和右至左两个方向的输出。

在一实施例中，所述步骤S104还包括：

通过编码器左至右和右至左两个方向的输出对应输入至双向解码器中的左至右解码器和右至左解码器，分别得到两个解码器预测结果。

本实施例中，通过双向解码器捕捉两个方向的信息可以获得剩余的其他有效信息的提示，针对编码器的输出，由左至右解码器和右至左解码器分别对左至右和右至左两个方向进行分析，得出两个解码器预测结果，两个解码器预测结果包含各自预测值的log-softmax得分之和。

S105、选择log-softmax得分之和高的解码器预测结果，并作为最终识别结果。

本实施例中，log-softmax是指对softmax进行一次log运算得到的结果。softmax则是指接受一个实数向量并返回一个概率分布。所述解码器预测结果的log-softmax得分之和越高，其识别率就越高，将两个预测结果的预测值的log-softmax得分之和进行对比，选择预测值的log-softmax得分之和中高的那一个预测结果，并作为最终识别结果。

在一实施例中，所述MRON矫正流程还包括：

在执行MRON矫正流程的过程中，将每次得到的更新文本图像作为输入图像更新偏移坐标。

本实施例中，在多次执行MRON矫正流程的过程中，每次得到的更新文本图像变换时需要进行双线性插值，这样会导致丢失关键像素信息，因此将每次得到的更新文本图像作为网络输入图像去更新偏移坐标。

在一实施例中，所述不规则文字的识别方法还包括：

按下述公式进行损失函数计算损失值，并根据损失值使用反向传播对RBAN网络中的参数进行更新：

其中y₁,...,y_t,...,y_T表示为初始文本图像I的真实文本序列的每个字，p_ltr,p_rtl为左至右解码器以及右至左解码器的文本预测概率分布。

本实施例中，为了进一步优化RBAN网络的识别率，通过上述公式计算出损失函数的损失值，根据损失值使用反向传播对RBAN网络中的参数进行更新，从而提高RBAN网络的识别率。

如图6所示，本发明实施例还提供一种不规则文字的识别装置600，包括：获取单元601、第一矫正单元602、第二矫正单元603、输出单元604以及选择单元605。

获取单元601，用于通过MORN矫正网络中的卷积对不规则文字的初始文本图像进行分解处理得到多块小图像。

第一矫正单元602，用于对每块小图像执行MRON矫正流程，得到更新文本图像；

其中，所述MRON矫正流程包括：对每块小图像进行回归偏移量计算，获得偏移量并对所述偏移量进行平滑操作；然后在所述初始文本图像上进行采样，将采样点与所述偏移量进行映射操作，得到更新文本图像。

第二矫正单元603，用于将所述更新文本图像再次执行MRON矫正流程，并判断本次得到的更新文本图像与上一次执行MRON矫正流程得到的更新文本图像是否相同，若相同则将本次得到的更新文本图像作为规则文本图像，否则继续执行MRON矫正流程直至得到规则文本图像。

输出单元604，用于将所述规则文本图像输入预设的RBAN网络，并输出两个解码器预测结果。

选择单元605，用于选择log-softmax得分之和高的解码器预测结果，并作为最终识别结果。

该装置利用MORN方法进行多次矫正得到规则文字图像，再把规则文字图像输入RBAN网络中进行文字识别，提高了对不规则文字识别的识别率。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述装置和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

上述不规则文字的识别装置可以实现为计算机程序的形式，该计算机程序可以在如图7所示的计算机设备上运行。

请参阅图7，图7是本发明实施例提供的计算机设备的示意性框图。该计算机设备700是服务器，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图7，该计算机设备700包括通过系统总线701连接的处理器702、存储器和网络接口705，其中，存储器可以包括非易失性存储介质703和内存储器704。

该非易失性存储介质703可存储操作系统7031和计算机程序7032。该计算机程序7032被执行时，可使得处理器702执行不规则文字的识别方法。

该处理器702用于提供计算和控制能力，支撑整个计算机设备700的运行。

该内存储器704为非易失性存储介质703中的计算机程序7032的运行提供环境，该计算机程序7032被处理器702执行时，可使得处理器702执行不规则文字的识别方法。

该网络接口705用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图7中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备700的限定，具体的计算机设备700可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本领域技术人员可以理解，图7中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图7所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器702可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器702还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本发明实施例的不规则文字的识别方法。

所述存储介质为实体的、非瞬时性的存储介质，例如可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的实体存储介质。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种不规则文字的识别方法，其特征在于，包括：

对每块小图像执行MORN矫正流程，得到更新文本图像；

将所述更新文本图像再次执行MORN矫正流程，并判断本次得到的更新文本图像与上一次执行MORN矫正流程得到的更新文本图像是否相同，若相同则将本次得到的更新文本图像作为规则文本图像，否则继续执行MORN矫正流程直至得到规则文本图像；

2.根据权利要求1所述的不规则文字的识别方法，其特征在于，通过MORN矫正网络中的卷积对不规则文字的初始文本图像进行分解处理得到多块小图像，包括：

将所述初始文本图像经过一个池化层进行池化，然后经过一个卷积层进行卷积并输出多个小图像；

将每一小图像进行一次池化，然后再依次进行一次卷积和一次池化，再进行三次卷积，然后再进行一次池化，最后利用Tanh函数进行激活；

其中，所述Tanh函数计算公式为：

x为向量。

3.根据权利要求1所述的不规则文字的识别方法，其特征在于，所述在所述初始文本图像上进行采样，将采样点与所述偏移量进行映射操作，得到更新文本图像，包括：

采集初始文本图像上的坐标点像素并作为采样点；

将采样点与偏移量进行映射操作，所述映射关系为：

4.根据权利要求1所述的不规则文字的识别方法，其特征在于，所述将所述规则文本图像输入预设的RBAN网络，并输出两个解码器预测结果，包括：

将所述规则文本图像输入一个53层的残差神经网络来提取特征，其中，所述残差神经网络中每个残差模块包含了一个1x1和3x3的卷积，前两个残差模块步长为2，其余的残差模块步长变为1；

然后将提取的特征输入至BiLSTM模型，得到左至右和右至左两个方向的输出。

5.根据权利要求4所述的不规则文字的识别方法，其特征在于，所述将所述规则文本图像输入预设的RBAN网络，并输出两个解码器预测结果，还包括：

6.根据权利要求1所述的不规则文字的识别方法，其特征在于，所述MORN矫正流程还包括：

在执行MORN矫正流程的过程中，将每次得到的更新文本图像作为输入图像更新偏移坐标。

7.根据权利要求5所述的不规则文字的识别方法，其特征在于，还包括：

8.一种不规则文字的识别装置，其特征在于，包括：

其中，所述MRON矫正流程包括：对每块小图像进行回归偏移量计算，获得偏移量并对所述偏移量进行平滑操作；然后在所述初始文本图像上进行采样，将采样点与所述偏移量进行映射操作，得到更新文本图像；

第二矫正单元，用于将所述更新文本图像再次执行MORN矫正流程，并判断本次得到的更新文本图像与上一次执行MORN矫正流程得到的更新文本图像是否相同，若相同则将本次得到的更新文本图像作为规则文本图像，否则继续执行MORN矫正流程直至得到规则文本图像；

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的不规则文字的识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的不规则文字的识别方法。