CN110119681A

CN110119681A - 一种文本行提取方法及装置、电子设备

Info

Publication number: CN110119681A
Application number: CN201910270014.8A
Authority: CN
Inventors: 韩茂琨; 回艳菲; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2019-08-13
Anticipated expiration: 2039-04-04
Also published as: CN110119681B

Abstract

本发明涉及场景文本检测技术领域，揭示了一种文本行提取方法及装置、电子设备。该方法包括：获取输入图像；对输入图像进行二值化处理，以获得二值输入图像；将二值输入图像输入混合神经网络模型以进行文本行标注，获得标有文本行特征线的输出图像；其中，该混合神经网络模型包括卷积层、最大池化层以及长短期记忆网络层；对标有文本行特征线的输出图像进行上采样，获得目标输出图像，以根据目标输出图像的文本行特征线，从输入图像中提取出相应的文本行；其中，目标输出图像的尺寸与输入图像的尺寸相匹配。实施本发明实施例，能够提高了文本行提取的鲁棒性。

Description

一种文本行提取方法及装置、电子设备

技术领域

本发明涉及场景文本检测技术领域，特别涉及一种文本行提取方法及装置、电子设备。

背景技术

随着计算机的多媒体处理能力愈加强大，人们常常通过扫描仪等计算机输入设备将文档以图像格式输入计算机，以利用计算机处理和存储文档。为了从存储的文档图像中提取出文字信息，通常需要对文档图像进行版面分析，以识别出文档图像中文本信息所在区域，之后，去除文本信息所在区域的冗余噪声，从而提取出文本行。实践中发现，传统的文本行提取方式通常要求文档图像中的文本行具有一定平行度，并且位于指定的矩形区域内，因此，需要在提取文本行之前对文档图像进行倾斜校正、畸变校正等预处理，使得文本行提取的鲁棒性不高。

发明内容

为了解决相关技术中存在的文本行提取的鲁棒性不高的问题，本发明提供了一种文本行提取方法及装置、电子设备。

本发明实施例第一方面公开了一种文本行提取方法，所述方法包括：

获取输入图像；

对所述输入图像进行二值化处理，以获得二值输入图像；

将所述二值输入图像输入混合神经网络模型以进行文本行标注，获得标有文本行特征线的输出图像；其中，所述混合神经网络模型包括卷积层、最大池化层以及长短期记忆网络层；

对所述标有文本行特征线的输出图像进行上采样，获得目标输出图像，以根据所述目标输出图像的文本行特征线，从所述输入图像中提取出相应的文本行；其中，所述目标输出图像的尺寸与所述输入图像的尺寸相匹配。

作为一种可选的实施方式，在本发明实施例第一方面中，所述对所述输入图像进行二值化处理，以获得二值输入图像，包括：

将所述输入图像从RGB颜色空间转换到灰度颜色空间，以获得灰度输入图像；

对所述灰度输入图像进行二值化处理，以获得初始二值图像；其中，所述初始二值图像的背景色为白色；

对所述初始二值图像进行颜色反转处理，以获得二值输入图像；其中，所述二值输入图像的背景色为黑色。

作为一种可选的实施方式，在本发明实施例第一方面中，在所述获取输入图像之前，所述方法还包括：

对用于训练模型的二值文本图像进行文本行标注，以获得目标二值图像；

将所述二值文本图像和所述目标二值图像输入混合神经网络；

根据所述目标二值图像调整所述混合神经网络的参数，直至利用所述混合神经网络对所述二值文本图像进行文本行标注后输出的图像与所述目标二值图像达到指定的匹配度时，生成混合神经网络模型。

作为一种可选的实施方式，在本发明实施例第一方面中，所述对用于训练模型的二值文本图像进行文本行标注，以获得目标二值图像，包括：

利用包围盒对用于训练模型的二值文本图像进行标注，以获得标有包围盒的二值文本图像；

利用高斯滤波器对所述标有包围盒的二值文本图像中的文本行图像进行处理，以获得标有文本行特征线的二值文本图像；

通过掩模对所述标有文本行特征线的二值文本图像进行冗余内容及噪声消除处理，以获得目标二值图像；其中，所述冗余内容包括插图、表格或者内部文本行；所述噪声包括图像边缘噪声。

作为一种可选的实施方式，在本发明实施例第一方面中，所述混合神经网络模型包括第一网络层、第二网络层、第三网络层、第四网络层和第五网络层；所述第一网络层包括卷积层和最大池化层，所述第二网络层包括卷积层和最大池化层，所述第三网络层包括卷积层和长短期记忆网络层，所述第四网络层包括卷积层和长短期记忆网络层，所述第五网络层包括卷积层；

所述将所述二值输入图像输入混合神经网络模型以进行文本行标注，获得标有文本行特征线的输出图像，包括：

将所述二值输入图像经所述第一网络层进行卷积和过滤处理，获得第一处理图像；其中，所述第一处理图像的图像通道数大于所述二值输入图像的图像通道数，且所述第一处理图像的尺寸为所述二值输入图像的尺寸的二分之一；

将所述第一处理图像经所述第二网络层进行卷积和过滤处理，获得第二处理图像；其中，所述第二处理图像的图像通道数大于所述第一处理图像的图像通道数，且所述第二处理图像的尺寸为所述第一处理图像的尺寸的二分之一；

通过所述第三网络层和所述第四网络层对所述第二处理图像进行高斯特征与结构信息提取处理，以获得第三处理图像；其中，所述第三处理图像的图像通道数小于所述第二处理图像的图像通道数，且所述第三处理图像的尺寸与所述第二处理图像的尺寸一致；

通过所述第五网络层将所述第三处理图像从多通道图像转化为单通道图像，以获得标有文本行特征线的输出图像；其中，所述标有文本行特征线的输出图像的图像通道数为1，且所述标有文本行特征线的输出图像的尺寸与所述第三处理图像的尺寸一致。

作为一种可选的实施方式，在本发明实施例第一方面中，所述将所述二值输入图像经所述第一网络层进行卷积和过滤处理，获得第一处理图像，包括：

将所述二值输入图像经所述第一网络层的卷积层的卷积处理、批量归一化算法的归一化处理、线性整流函数的非线性化处理以及所述第一网络层的最大池化层的过滤处理，获得第一处理图像；

所述将所述第一处理图像经所述第二网络层进行卷积和过滤处理，获得第二处理图像，包括：

将所述第一处理图像经所述第二网络层的卷积层的卷积处理、所述批量归一化算法的归一化处理、所述线性整流函数的非线性化处理以及所述第二网络层的最大池化层的过滤处理，获得第二处理图像。

作为一种可选的实施方式，在本发明实施例第一方面中，所述对所述标有文本行特征线的输出图像进行上采样，获得目标输出图像，包括：

新建待填充图像；其中，所述待填充图像的尺寸与所述输入图像的尺寸一致；

利用坐标映射方程获取所述待填充图像中每一个待填充像素点在所述标有文本行特征线的输出图像中对应的原像素点；

结合所述标有文本行特征线的输出图像中与所述每一个待填充像素点对应的原像素点相邻的四个参考像素点，计算得到所述待填充图像中每一个待填充像素点的像素值；

根据所述每一个待填充像素点的像素值，对所述待填充图像进行插值处理，以实现对所述标有文本行特征线的输出图像进行上采样，获得目标输出图像。

本发明实施例第二方面公开了一种文本行提取装置，所述装置包括：

获取单元，用于获取输入图像；

二值化处理单元，用于对所述输入图像进行二值化处理，以获得二值输入图像；

提取单元，用于将所述二值输入图像输入混合神经网络模型以进行文本行标注，获得标有文本行特征线的输出图像；其中，所述混合神经网络模型包括卷积层、最大池化层以及长短期记忆网络层；

上采样单元，用于对所述标有文本行特征线的输出图像进行上采样，获得目标输出图像，以根据所述目标输出图像的文本行特征线，从所述输入图像中提取出相应的文本行；其中，所述目标输出图像的尺寸与所述输入图像的尺寸相匹配。

本发明实施例第三方面公开了一种电子设备，所述电子设备包括：

处理器；

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现本发明实施例第一方面公开的文本行提取方法。

本发明实施例第四方面公开了一种计算机可读存储介质，其存储计算机程序，所述计算机程序使得计算机执行本发明实施例第一方面公开的文本行提取方法。

本发明的实施例提供的技术方案可以包括以下有益效果：

本发明所提供的文本行提取方法包括如下步骤：获取输入图像；对输入图像进行二值化处理，以获得二值输入图像；将二值输入图像输入混合神经网络模型以进行文本行标注，获得标有文本行特征线的输出图像；其中，混合神经网络模型包括卷积层、最大池化层以及长短期记忆网络层；对标有文本行特征线的输出图像进行上采样，获得目标输出图像，以根据目标输出图像的文本行特征线，从输入图像中提取出相应的文本行；其中，目标输出图像的尺寸与输入图像的尺寸相匹配。

此方法下，通过对输入图像进行二值化处理，获得二值输入图像，并将二值输入图像输入混合神经网络模型，便可以获得标有文本行特征线的输出图像，以在将输出图像的尺寸调整至与输入图像的尺寸一致后，根据文本行特征线的位置从输入图像中提取出文本行，无需提前对输入图像进行水平矫正等预处理，能够适用于复杂图像(通常难以进行水平矫正等预处理)，提高了文本行提取的鲁棒性；此外，通过利用文本行特征线来标注输入图像中文本行的位置，能够消除冗余噪声的影响，适用于在弯曲、变形等图像变化较大的场景将相应的文本行分割出来，从而解决了传统文本框标注中因文本框相交或者重叠导致的文本行分割失败的问题，提高了文本行提取的精度和准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是本发明实施例公开的一种电子设备的结构示意图；

图2是本发明实施例公开的一种文本行提取方法的流程图；

图3是本发明实施例公开的另一种文本行提取方法的流程图；

图4是本发明实施例公开的又一种文本行提取方法的流程图；

图5是本发明实施例公开的一种文本行提取装置的结构示意图；

图6是本发明实施例公开的另一种文本行提取装置的结构示意图；

图7是本发明实施例公开的又一种文本行提取装置的结构示意图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

实施例一

本发明的实施环境可以是电子设备，例如智能手机、平板电脑、台式电脑。

图1是本发明实施例公开的一种装置的结构示意图。装置100可以是上述电子设备。如图1所示，装置100可以包括以下一个或多个组件：处理组件102，存储器104，电源组件106，多媒体组件108，音频组件110，传感器组件114以及通信组件116。

处理组件102通常控制装置100的整体操作，诸如与显示，电话呼叫，数据通信，相机操作以及记录操作相关联的操作等。处理组件102可以包括一个或多个处理器118来执行指令，以完成下述的方法的全部或部分步骤。此外，处理组件102可以包括一个或多个模块，用于便于处理组件102和其他组件之间的交互。例如，处理组件102可以包括多媒体模块，用于以方便多媒体组件108和处理组件102之间的交互。

存储器104被配置为存储各种类型的数据以支持在装置100的操作。这些数据的示例包括用于在装置100上操作的任何应用程序或方法的指令。存储器104可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static RandomAccess Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(ErasableProgrammable Read Only Memory，简称EPROM)，可编程只读存储器(Programmable Red-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。存储器104中还存储有一个或多个模块，用于该一个或多个模块被配置成由该一个或多个处理器118执行，以完成如下所示方法中的全部或者部分步骤。

电源组件106为装置100的各种组件提供电力。电源组件106可以包括电源管理系统，一个或多个电源，及其他与为装置100生成、管理和分配电力相关联的组件。

多媒体组件108包括在装置100和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(Liquid Crystal Display，简称LCD)和触摸面板。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。屏幕还可以包括有机电致发光显示器(Organic Light Emitting Display，简称OLED)。

音频组件110被配置为输出和/或输入音频信号。例如，音频组件110包括一个麦克风(Microphone，简称MIC)，当装置100处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器104或经由通信组件116发送。在一些实施例中，音频组件110还包括一个扬声器，用于输出音频信号。

传感器组件114包括一个或多个传感器，用于为装置100提供各个方面的状态评估。例如，传感器组件114可以检测到装置100的打开/关闭状态，组件的相对定位，传感器组件114还可以检测装置100或装置100一个组件的位置改变以及装置100的温度变化。在一些实施例中，该传感器组件114还可以包括磁传感器，压力传感器或温度传感器。

通信组件116被配置为便于装置100和其他设备之间有线或无线方式的通信。装置100可以接入基于通信标准的无线网络，如WiFi(Wireless-Fidelity，无线保真)。在本发明实施例中，通信组件116经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在本发明实施例中，通信组件116还包括近场通信(Near Field Communication，简称NFC)模块，用于以促进短程通信。例如，在NFC模块可基于射频识别(Radio FrequencyIdentification，简称RFID)技术，红外数据协会(Infrared Data Association，简称IrDA)技术，超宽带(Ultra Wideband，简称UWB)技术，蓝牙技术和其他技术来实现。

在示例性实施例中，装置100可以被一个或多个应用专用集成电路(ApplicationSpecific Integrated Circuit，简称ASIC)、数字信号处理器、数字信号处理设备、可编程逻辑器件、现场可编程门阵列、控制器、微控制器、微处理器或其他电子元件实现，用于执行下述方法。

实施例二

请参阅图2，图2是本发明实施例公开的一种文本行提取方法的流程示意图。如图2所示，该文本行提取方法可以包括以下步骤：

201、获取输入图像。

202、对输入图像进行二值化处理，以获得二值输入图像。

本发明实施例中，输入图像可以是彩色图像、灰度图像或者二值图像，对此不作限定。由于小数据量且特征明显的二值图像更适合图像处理，因此，通过对输入图像进行二值化处理，有利于混合神经网络模型从二值输入图像中提取出文本行。其中，二值输入图像的背景色为黑色，像素灰度值为0；二值输入图像中除去背景之外的文档内容部分为白色，像素灰度值为255。

203、将二值输入图像输入混合神经网络模型以进行文本行标注，获得标有文本行特征线的输出图像。

本发明实施例中，混合神经网络模型是通过结合卷积神经网络和长短期记忆神经网络训练得到的神经网络模型，用以从二值输入图像中提取出文本行。该混合神经网络模型包括卷积层、最大池化层以及长短期记忆网络层，其中，卷积层用于提取二值图像中的深度特征，长短期记忆网络层用于识别文本序列的特征，最大池化层用于在缩小图像尺寸的同时保留图像的显著特征。可以理解，混合神经网络模型根据从图像中识别出的文本行特征所在位置，便可以利用文本行特征线覆盖相应的文本行。可见，本发明实施例公开的混合神经网络模型去除了普通卷积神经网络中用于对图像特征进行组合匹配与分类的全连接层，从而直接利用卷积层输出标有文本行特征线的二值图像，这样能够大大减少神经网络的参数，加快神经网络模型的训练速度。

204、对标有文本行特征线的输出图像进行上采样，获得目标输出图像，以根据目标输出图像的文本行特征线，从输入图像中提取出相应的文本行。

本发明实施例中，目标输出图像的尺寸与输入图像的尺寸相匹配。可以理解，由于混合神经网络模型所包括的最大池化层具有缩小图像尺寸的作用，因此，标有文本行特征线的输出图像的尺寸将小于输入图像的尺寸。为了根据文本行特征线正确地从输入图像中提取出文本行，需要进一步对混合神经网络模型输出的输出图像进行上采样处理，以获得图像尺寸与输入图像的尺寸一致的目标输出图像。上采样处理主要用于放大图像，通过采用内插值方法，在原有图像的像素点之间插入新的元素。可选的，内插值方法可以包括双线性插值、反卷积或者反池化等。

作为一种可选的实施方式，若采用双线性插值方法，步骤204具体可以包括：

新建待填充图像；其中，待填充图像的尺寸与输入图像的尺寸一致；

利用坐标映射方程获取待填充图像中每一个待填充像素点在标有文本行特征线的输出图像中对应的原像素点；

结合标有文本行特征线的输出图像中与每一个待填充像素点对应的原像素点相邻的四个参考像素点，计算得到待填充图像中每一个待填充像素点的像素值；

根据每一个待填充像素点的像素值，对待填充图像进行插值处理，以实现对标有文本行特征线的输出图像进行上采样，获得目标输出图像。

其中，可以根据待填充图像与上述输出图像之间的图像放大倍数来设定坐标映射方程，对此不作具体限定。举例来说，设待填充图像与上述输出图像之间的图像长宽比分别为2:1和1.5:1，若针对待填充图像中任一像素点(x，y)，可以根据坐标映射方程x₀＝x/2和y₀＝y/1.5，求得像素点(x，y)在上述输出图像中对应的像素点(x₀，y₀)。可见，实施可选的实施方式，通过采用双线性差值方法，快速地将标有文本行特征线的输出图像的尺寸调整至与输入图像的尺寸一致，操作简单，能够提高文本行提取的准确性。

可见，实施图2所描述的方法，无需提前对输入图像进行水平矫正等预处理，能够适用于复杂图像(通常难以进行水平矫正等预处理)，提高了文本行提取的鲁棒性；此外，能够消除冗余噪声的影响，适用于在弯曲、变形等图像变化较大的场景将相应的文本行分割出来，从而解决了传统文本框标注中因文本框相交或者重叠导致的文本行分割失败的问题，提高了文本行提取的精度和准确性。

实施例三

请参阅图3，图3是本发明实施例公开的另一种文本行提取方法的流程示意图。如图3所示，该文本行提取方法可以包括以下步骤：

301、对用于训练模型的二值文本图像进行文本行标注，以获得目标二值图像。

作为一种可选的实施方式，步骤301具体可以包括：

利用高斯滤波器对标有包围盒的二值文本图像中的文本行图像进行处理，以获得标有文本行特征线的二值文本图像；

通过掩模对标有文本行特征线的二值文本图像进行冗余内容及噪声消除处理，以获得目标二值图像；其中，冗余内容包括插图、表格或者内部文本行；噪声包括图像边缘噪声。

可见，实施可选的实施方式，由于利用包围盒来标注图像中的文本行通常会导致文本框的相交或者重叠，因此，通过高斯滤波器对包围盒区域的文本行图像进行平滑处理，获得对应于文本行位置的文本行特征线，从而使得文本行检测可以适用于图像弯曲、变形的场景。此外，通过利用掩膜去除图像中的非必要数据，能够排除非必要数据的干扰，实现对图像中符合提取意图的文本行进行标注。

302、将二值文本图像和目标二值图像输入混合神经网络。

303、根据目标二值图像调整混合神经网络的参数，直至利用混合神经网络对二值文本图像进行文本行标注后输出的图像与目标二值图像达到指定的匹配度时，生成混合神经网络模型。

可见，实施上述步骤301～步骤303，通过将二值文本图像及对其标注文本行特征线后生成的目标二值图像作为训练数据，来不断调整混合神经网络的参数，直至输出结果满足匹配度要求，从而生成文本行检测准确性高、且鲁棒性强的混合神经网络模型。

304、获取输入图像。

305、对输入图像进行二值化处理，以获得二值输入图像。

作为一种可选的实施方式，步骤305具体可以包括：

将输入图像从RGB颜色空间转换到灰度颜色空间，以获得灰度输入图像；其中，灰度输入图像为通过将输入图像中每个像素的多级值转换为取值位于0～255之间的灰度值之后所获得的图像；可选的，将输入图像从RGB颜色空间转换到灰度颜色空间的方法可以包括分量法、最大值法或者平均法等；

对灰度输入图像进行二值化处理，以获得初始二值图像；其中，初始二值图像的背景色为白色，且初始二值图像中除去背景外的文档内容部分为黑色；

对初始二值图像进行颜色反转处理，以获得二值输入图像；其中，二值输入图像的背景色为黑色，且二值输入图像中除去背景外的文档内容部分为白色。

可见，实施可选的实施方式，能够将彩色的输入图像转换为二值输入图像，便于后续的图像处理。

306、将二值输入图像输入混合神经网络模型以进行文本行标注，获得标有文本行特征线的输出图像。

307、对标有文本行特征线的输出图像进行上采样，获得目标输出图像，以根据目标输出图像的文本行特征线，从输入图像中提取出相应的文本行。

可见，实施图3所描述的方法，无需提前对输入图像进行水平矫正等预处理，能够适用于复杂图像(通常难以进行水平矫正等预处理)，提高了文本行提取的鲁棒性；此外，能够将彩色的输入图像转换为二值输入图像，便于后续的图像处理；进一步地，通过将二值文本图像及对其标注文本行特征线后生成的目标二值图像作为训练数据，来不断调整混合神经网络的参数，直至输出结果满足匹配度要求，从而生成文本行检测准确性高、且鲁棒性强的混合神经网络模型；其中，针对训练数据，通过高斯滤波器对包围盒区域的文本行图像进行平滑处理，获得对应于文本行位置的文本行特征线，能够在弯曲、变形等图像变化较大的场景将相应的文本行分割出来，从而解决了传统文本框标注中因文本框相交或者重叠导致的文本行分割失败的问题，提高了文本行提取的精度和准确性，并且，通过利用掩膜去除图像中的非必要数据，能够排除非必要数据的干扰，实现对图像中符合提取意图的文本行进行标注。

实施例四

请参阅图4，图4是本发明实施例公开的又一种文本行提取方法的流程示意图。在图4所示的文本行提取方法中，混合神经网络模型包括第一网络层、第二网络层、第三网络层、第四网络层和第五网络层；第一网络层包括卷积层和最大池化层，第二网络层包括卷积层和最大池化层，第三网络层包括卷积层和长短期记忆网络层，第四网络层包括卷积层和长短期记忆网络层，第五网络层包括卷积层。如图4所示，该文本行提取方法可以包括以下步骤：

步骤401～步骤405；其中，针对步骤401～步骤405的描述，请参照实施例三中针对步骤301～步骤305的详细描述，本发明实施例不再赘述。

406、将二值输入图像经第一网络层进行卷积和过滤处理，获得第一处理图像。

本发明实施例中，第一网络层的卷积层的卷积核为3×3，最大池化层的过滤器尺寸为(2，2)，步长为2。第一处理图像的图像通道数大于二值输入图像的图像通道数，且第一处理图像的尺寸为二值输入图像的尺寸的二分之一。举例来说，若二值输入图像的尺寸为2600×3300，图像通道数为1，则经第一网络层之后，第一处理图像的尺寸为1300×1650，图像通道数为16。

407、将第一处理图像经第二网络层进行卷积和过滤处理，获得第二处理图像。

本发明实施例中，第二网络层的卷积层的卷积核为3×3，最大池化层的过滤器尺寸为(2，2)，步长为2。第二处理图像的图像通道数大于第一处理图像的图像通道数，且第二处理图像的尺寸为第一处理图像的尺寸的二分之一。举例来说，若第一处理图像的尺寸为1300×1650，图像通道数为16，则经第二网络层之后，第二处理图像的尺寸为650×825，图像通道数为32。

作为一种可选的实施方式，步骤406具体可以包括：

将二值输入图像经第一网络层的卷积层的卷积处理、批量归一化算法的归一化处理、线性整流函数的非线性化处理以及第一网络层的最大池化层的过滤处理，获得第一处理图像。

步骤407具体可以包括：

将第一处理图像经第二网络层的卷积层的卷积处理、批量归一化算法的归一化处理、线性整流函数的非线性化处理以及第二网络层的最大池化层的过滤处理，获得第二处理图像。

可见，实施可选的实施方式，由于批量归一化算法具有快速训练收敛的特性，且无需采取正则化等用于减小过拟合的方法，能够提高网络泛化能力，因此，通过在第一网络层和第二网络层采用批量归一化算法和线性整流函数，能够减少随机梯度方法中人为选择与调整网络参数的步骤，提高训练混合神经网络模型的效率。

408、通过第三网络层和第四网络层对第二处理图像进行高斯特征与结构信息提取处理，以获得第三处理图像。

本发明实施例中，第三处理图像的图像通道数小于第二处理图像的图像通道数，且第三处理图像的尺寸与第二处理图像的尺寸一致。举例来说，若第二处理图像的尺寸为650×825，图像通道数为32，则经第三网络层和第四网络层后，第三处理图像的尺寸仍为650×825，图像通道数为16。

409、通过第五网络层将第三处理图像从多通道图像转化为单通道图像，以获得标有文本行特征线的输出图像。

本发明实施例中，第五网络层的卷积层的卷积核为3×3，深度为1。标有文本行特征线的输出图像的图像通道数为1，且标有文本行特征线的输出图像的尺寸与第三处理图像的尺寸一致。举例来说，若第三处理图像的尺寸为650×825，图像通道数为16，则经第五网络层之后，标有文本行特征线的输出图像的尺寸仍为650×825，图像通道数为1。

可见，实施上述步骤406～步骤409，基于混合神经网络模型结构简单、参数少的优势，能够大大提高混合神经网络模型的训练和处理速度，进而提高文本行提取效率。

410、对标有文本行特征线的输出图像进行上采样，获得目标输出图像，以根据目标输出图像的文本行特征线，从输入图像中提取出相应的文本行。

作为一种可选的实施方式，在步骤410之后，还可以包括：

将输入图像标记为已标注图像，并将输入图像与目标输出图像进行关联存储；在获取到被标记为已标注图像的输入图像时，直接调用与输入图像关联存储的目标输出图像，以利用已存储的目标输出图像，从输入图像中提取出相应的文本行。可见，实施可选的实施方式，若需要再次从输入图像中提取文本行，通过直接调用与输入图像关联存储的目标输出图像，便可以根据已存储的目标输出图像中的文本行特征线位置，从输入图像中提取出相应的文本内容，无需再将输入图像输入混合神经网络模型进行训练，极大地改善了文本行提取的效率。

可见，实施图4所描述的方法，无需提前对输入图像进行水平矫正等预处理，能够适用于复杂图像(通常难以进行水平矫正等预处理)，提高了文本行提取的鲁棒性；此外，能够消除冗余噪声的影响，适用于在弯曲、变形等图像变化较大的场景将相应的文本行分割出来，从而解决了传统文本框标注中因文本框相交或者重叠导致的文本行分割失败的问题，提高了文本行提取的精度和准确性；进一步地，基于混合神经网络模型结构简单、参数少的优势，能够大大提高混合神经网络模型的训练和处理速度，进而提高文本行提取效率，并且，通过在混合神经网络模型的第一网络层和第二网络层采用批量归一化算法和线性整流函数，能够减少随机梯度方法中人为选择与调整网络参数的步骤，提高训练混合神经网络模型的效率。

实施例五

请参阅图5，图5是本发明实施例公开的一种文本行提取装置的结构示意图。如图5所示，该文本行提取装置可以包括：获取单元501、二值化处理单元502、提取单元503以及上采样单元504，其中，

获取单元501，用于获取输入图像。

二值化处理单元502，用于对输入图像进行二值化处理，以获得二值输入图像。

提取单元503，用于将二值输入图像输入混合神经网络模型以进行文本行标注，获得标有文本行特征线的输出图像；其中，混合神经网络模型包括卷积层、最大池化层以及长短期记忆网络层。

上采样单元504，用于对标有文本行特征线的输出图像进行上采样，获得目标输出图像，以根据目标输出图像的文本行特征线，从输入图像中提取出相应的文本行；其中，目标输出图像的尺寸与输入图像的尺寸相匹配。

作为一种可选的实施方式，上采样单元504可以包括：

新建子单元，用于新建待填充图像；其中，待填充图像的尺寸与输入图像的尺寸一致；

获取子单元，用于利用坐标映射方程获取待填充图像中每一个待填充像素点在标有文本行特征线的输出图像中对应的原像素点；

计算子单元，用于结合标有文本行特征线的输出图像中与每一个待填充像素点对应的原像素点相邻的四个参考像素点，计算得到待填充图像中每一个待填充像素点的像素值；

插值子单元，用于根据每一个待填充像素点的像素值，对待填充图像进行插值处理，以实现对标有文本行特征线的输出图像进行上采样，获得目标输出图像。

可见，实施图5所描述的装置，无需提前对输入图像进行水平矫正等预处理，能够适用于复杂图像(通常难以进行水平矫正等预处理)，提高了文本行提取的鲁棒性；此外，能够消除冗余噪声的影响，适用于在弯曲、变形等图像变化较大的场景将相应的文本行分割出来，从而解决了传统文本框标注中因文本框相交或者重叠导致的文本行分割失败的问题，提高了文本行提取的精度和准确性。

实施例六

请参阅图6，图6是本发明实施例公开的另一种文本行提取装置的结构示意图。图6所示的文本行提取装置是由图5所示的文本行提取装置进行优化得到的。与图5所示的文本行提取装置相比较，图6所示的文本行提取装置还包括标注单元505、输入单元506以及生成单元507，其中：

标注单元505，用于在获取单元501获取输入图像之前，对用于训练模型的二值文本图像进行文本行标注，以获得目标二值图像。

作为一种可选的实施方式，标注单元505可以包括：

标注子单元5051，用于利用包围盒对用于训练模型的二值文本图像进行标注，以获得标有包围盒的二值文本图像；

高斯处理子单元5052，用于利用高斯滤波器对标有包围盒的二值文本图像中的文本行图像进行处理，以获得标有文本行特征线的二值文本图像；

消除子单元5053，用于通过掩模对标有文本行特征线的二值文本图像进行冗余内容及噪声消除处理，以获得目标二值图像；其中，冗余内容包括插图、表格或者内部文本行；噪声包括图像边缘噪声。

输入单元506，用于将二值文本图像和目标二值图像输入混合神经网络。

生成单元507，用于根据目标二值图像调整混合神经网络的参数，直至利用混合神经网络对二值文本图像进行文本行标注后输出的图像与目标二值图像达到指定的匹配度时，生成混合神经网络模型。

作为一种可选的实施方式，二值化处理单元502，可以包括：

灰度转换子单元5021，用于将输入图像从RGB颜色空间转换到灰度颜色空间，以获得灰度输入图像；

二值化处理子单元5022，用于对灰度输入图像进行二值化处理，以获得初始二值图像；其中，初始二值图像的背景色为白色；

反转处理子单元5023，用于对初始二值图像进行颜色反转处理，以获得二值输入图像；其中，二值输入图像的背景色为黑色。

可见，实施图6所描述的装置，无需提前对输入图像进行水平矫正等预处理，能够适用于复杂图像(通常难以进行水平矫正等预处理)，提高了文本行提取的鲁棒性；此外，能够将彩色的输入图像转换为二值输入图像，便于后续的图像处理；进一步地，通过将二值文本图像及对其标注文本行特征线后生成的目标二值图像作为训练数据，来不断调整混合神经网络的参数，直至输出结果满足匹配度要求，从而生成文本行检测准确性高、且鲁棒性强的混合神经网络模型；其中，针对训练数据，通过高斯滤波器对包围盒区域的文本行图像进行平滑处理，获得对应于文本行位置的文本行特征线，能够在弯曲、变形等图像变化较大的场景将相应的文本行分割出来，从而解决了传统文本框标注中因文本框相交或者重叠导致的文本行分割失败的问题，提高了文本行提取的精度和准确性，并且，通过利用掩膜去除图像中的非必要数据，能够排除非必要数据的干扰，实现对图像中符合提取意图的文本行进行标注。

实施例七

请参阅图7，图7是本发明实施例公开的又一种文本行提取装置的结构示意图。图7所示的文本行提取装置是由图6所示的文本行提取装置进行优化得到的。与图6所示的文本行提取装置相比较，在图7所示的文本行提取装置中，混合神经网络模型包括第一网络层、第二网络层、第三网络层、第四网络层和第五网络层；第一网络层包括卷积层和最大池化层，第二网络层包括卷积层和最大池化层，第三网络层包括卷积层和长短期记忆网络层，第四网络层包括卷积层和长短期记忆网络层，第五网络层包括卷积层：

提取单元503，包括：

第一处理子单元5031，用于将二值输入图像经第一网络层进行卷积和过滤处理，获得第一处理图像；其中，第一处理图像的图像通道数大于二值输入图像的图像通道数，且第一处理图像的尺寸为二值输入图像的尺寸的二分之一；

第二处理子单元5032，用于将第一处理图像经第二网络层进行卷积和过滤处理，获得第二处理图像；其中，第二处理图像的图像通道数大于第一处理图像的图像通道数，且第二处理图像的尺寸为第一处理图像的尺寸的二分之一；

第三处理子单元5033，用于通过第三网络层和第四网络层对所述第二处理图像进行高斯特征与结构信息提取处理，以获得第三处理图像；其中，第三处理图像的图像通道数小于第二处理图像的图像通道数，且第三处理图像的尺寸与第二处理图像的尺寸一致；

转化子单元5034，用于通过第五网络层将第三处理图像从多通道图像转化为单通道图像，以获得标有文本行特征线的输出图像；其中，标有文本行特征线的输出图像的图像通道数为1，且标有文本行特征线的输出图像的尺寸与第三处理图像的尺寸一致。

作为一种可选的实施方式，第一处理子单元5031，具体用于将二值输入图像经第一网络层的卷积层的卷积处理、批量归一化算法的归一化处理、线性整流函数的非线性化处理以及第一网络层的最大池化层的过滤处理，获得第一处理图像；

第二处理子单元5032，具体用于将第一处理图像经第二网络层的卷积层的卷积处理、批量归一化算法的归一化处理、线性整流函数的非线性化处理以及第二网络层的最大池化层的过滤处理，获得第二处理图像。

作为一种可选的实施方式，该装置还可以包括存储单元和调用单元，其中：

存储单元，用于将输入图像标记为已标注图像，并将输入图像与目标输出图像进行关联存储；

调用单元，用于在获取到被标记为已标注图像的输入图像时，直接调用与输入图像关联存储的目标输出图像，以利用已存储的目标输出图像，从输入图像中提取出相应的文本行。

可见，实施可选的实施方式，若需要再次从输入图像中提取文本行，通过直接调用与输入图像关联存储的目标输出图像，便可以根据已存储的目标输出图像中的文本行特征线位置，从输入图像中提取出相应的文本内容，无需再将输入图像输入混合神经网络模型进行训练，极大地改善了文本行提取的效率。

可见，实施图7所描述的装置，无需提前对输入图像进行水平矫正等预处理，能够适用于复杂图像(通常难以进行水平矫正等预处理)，提高了文本行提取的鲁棒性；此外，能够消除冗余噪声的影响，适用于在弯曲、变形等图像变化较大的场景将相应的文本行分割出来，从而解决了传统文本框标注中因文本框相交或者重叠导致的文本行分割失败的问题，提高了文本行提取的精度和准确性；进一步地，基于混合神经网络模型结构简单、参数少的优势，能够大大提高混合神经网络模型的训练和处理速度，进而提高文本行提取效率，并且，通过在混合神经网络模型的第一网络层和第二网络层采用批量归一化算法和线性整流函数，能够减少随机梯度方法中人为选择与调整网络参数的步骤，提高训练混合神经网络模型的效率。

本发明还提供一种电子设备，该电子设备包括：

处理器；

存储器，该存储器上存储有计算机可读指令，该计算机可读指令被处理器执行时，实现如前所示的文本行提取方法。

该电子设备可以是图1所示装置100。

在一示例性实施例中，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如前所示的文本行提取方法。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种文本行提取方法，其特征在于，所述方法包括：

获取输入图像；

对所述输入图像进行二值化处理，以获得二值输入图像；

2.根据权利要求1所述的方法，其特征在于，所述对所述输入图像进行二值化处理，以获得二值输入图像，包括：

3.根据权利要求1所述的方法，其特征在于，在所述获取输入图像之前，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述对用于训练模型的二值文本图像进行文本行标注，以获得目标二值图像，包括：

5.根据权利要求1所述的方法，其特征在于，所述混合神经网络模型包括第一网络层、第二网络层、第三网络层、第四网络层和第五网络层；所述第一网络层包括卷积层和最大池化层，所述第二网络层包括卷积层和最大池化层，所述第三网络层包括卷积层和长短期记忆网络层，所述第四网络层包括卷积层和长短期记忆网络层，所述第五网络层包括卷积层；

6.根据权利要求5所述的方法，其特征在于，所述将所述二值输入图像经所述第一网络层进行卷积和过滤处理，获得第一处理图像，包括：

7.根据权利要求1～6任一项所述的方法，其特征在于，所述对所述标有文本行特征线的输出图像进行上采样，获得目标输出图像，包括：

8.一种文本行提取装置，其特征在于，所述装置包括：

获取单元，用于获取输入图像；

9.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1～7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，其存储计算机程序，所述计算机程序使得计算机执行权利要求1～7任一项所述的文本行提取方法。