CN111144411B

CN111144411B - 一种基于显著图的不规则文本修正与识别方法及系统

Info

Publication number: CN111144411B
Application number: CN201911373170.3A
Authority: CN
Inventors: 尤晶晶; 李武军
Original assignee: Nanjing Heguang Intelligent Manufacturing Research Institute Co ltd; Nanjing University
Current assignee: Nanjing Heguang Intelligent Manufacturing Research Institute Co ltd; Nanjing University
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2024-02-27
Anticipated expiration: 2039-12-27
Also published as: CN111144411A

Abstract

本发明公开了一种基于显著图的不规则文本修正与识别方法及系统，将不规则文本图片输入至预先训练好的不规则文本修正网络模型，输出字符级别的分类显著图；利用条状区域变换算法对不规则文本图片和分类显著图进行修正，输出修正图片；将修正图片输入至预先训练好的不规则文本识别网络模型，输出文本图片识别信息。优点：通过训练好的不规则文本修正网络模型，条状区域变换算法，训练好的不规则文本识别网络模型，对不规则文本图片进行处理，提高了不规则文本识别的准确率和鲁棒性。

Description

一种基于显著图的不规则文本修正与识别方法及系统

技术领域

本发明涉及一种基于显著图的不规则文本修正与识别方法及系统，属于自然场景文本识别技术领域。

背景技术

近年来，自然场景文本识别已经成为计算机视觉的研究热点，其输入是文本图片，输出是图片中的文本信息。自然场景文本识别在自动驾驶、图片检索、证件识别、集装箱箱号识别等领域都有重要的应用。自然场景文本识别主要可以分为两类：规则文本识别与不规则文本识别。规则文本为水平文本，不规则文本为倾斜文本、曲形文本、透视扭曲文本等。不规则文本在很多场景中都有出现，比如瓶盖、商标等。目前多数文本识别方法都只能对规则文本进行识别，对于不规则文本，如曲形文本、倾斜文本等，识别效果依旧很差。

以前的不规则文本识别方法主要使用语义分割的方法来对不规则文本进行识别，这种方法虽然能很好的捕获文本的位置信息，但是其没有考虑字符之间的关联信息，所以识别效果比较差。还有一类方法先将不规则文本修正成规则文本，然后再对修正后的规则文本进行识别，在该种方法中，一般使用薄板样条插值来对其进行修正，但是由于其难以训练，对参数敏感，所以该种方法依旧不能很好的识别不规则文本。

发明内容

本发明所要解决的技术问题是克服目前已有的不规则文本识别方法依旧不能很好的识别不规则文本、识别准确率低的缺陷，提供一种基于显著图的不规则文本修正与识别方法及系统。

为解决上述技术问题，本发明提供一种基于显著图的不规则文本修正与识别方法，其特征在于，

将不规则文本图片输入至预先训练好的不规则文本修正网络模型，输出字符级别的分类显著图；

利用条状区域变换算法对不规则文本图片和分类显著图进行修正，输出修正图片；

将修正图片输入至预先训练好的不规则文本识别网络模型，输出文本图片识别信息。

进一步的，所述不规则文本修正网络模型的结构采用全卷积神经网络，将不规则文本图片输入到全卷积神经网络中提取不同尺度、不同深度的特征，采取U型网络结构对不同尺度、不同深度的特征进行特征融合，得到字符级别的分类显著图。

进一步的，所述不规则文本修正网络模型的训练过程为：

对不规则文本修正网络模型的参数进行初始化；获取训练文本图片及真实分类显著图标签；将训练文本图片输入到不规则修正网络模型中，得到预测显著图；根据预测显著图和真实分类显著图标签计算网络损失，根据损失更新修正网络参数；不断重复以上过程，直到达到一定轮数，训练结束，保存修正网络参数。

进一步的，所述条状区域变换算法的步骤为：

步骤101，输入不规则文本图片、分类显著图，不规则文本图片的宽W及高H；

步骤102，二值化分类显著图，求取分类显著图连通区域的中心点集C与平均高度h_avg；

步骤103，根据中心点集C拟合文本中心线L；

步骤104，初始化变换坐标集合循环变量i＝1；

步骤105，根据i计算中心线当前坐标点p_i以及垂线V_i；

步骤106，求取垂线V_i上点和/>的坐标，其中/>和/>与p_i距离为h_avg；

步骤107，对和/>进行线性插值，插值数为H，得到当前位置变换坐标集合P_i，将P_i加入到G中；

步骤108，如果i≤W，则i＝i+1，转步骤105，否则转步骤109；

步骤109，根据变换坐标集合G对I变换，得到修正图片；

步骤110，输出修正图片。

进一步的，所述不规则文本识别网络模型的结构包括编码网络和解码网络；

所述编码网络包括两层卷积层，三层门控循环卷积层，两层双向长短期记忆网络和四层最大值池化层；

所述解码网络包括一层长短期记忆网络和一层基于注意力机制的长短期记忆网络；

所述解码网络将编码网络部分的输出作为输入，在每个时刻，解码网络都预测一个字符，一直到输出终止符为止。

进一步的，所述不规则文本识别网络模型的训练过程为：

将不规则文本识别网络模型的参数进行初始化；获取训练文本图片及真实字符串标签；将训练文本图片输入到不规则文本识别网络中，根据网络预测值和真实字符串标签计算网络损失，根据损失更新识别网络参数；不断重复以上过程，直到达到一定轮数，训练结束，保存识别网络参数。

一种基于显著图的不规则文本修正与识别系统，包括第一输出模块、第二输出模块和第三输出模块；

所述第一输出模块，用于将不规则文本图片输入至预先训练好的不规则文本修正网络模型，输出字符级别的分类显著图；

所述第二输出模块，用于利用条状区域变换算法对不规则文本图片和分类显著图进行修正，输出修正图片；

所述第三输出模块，用于将修正图片输入至预先训练好的不规则文本识别网络模型，输出文本图片识别信息。

进一步的，所述第一输出模块包括第一初始化模块、第一数据获取模块、第一修正模块和第一循环模块；

所述第一初始化模块，用于对不规则文本修正网络模型的参数进行初始化；

所述第一数据获取模块，获取训练文本图片及真实分类显著图标签；

所述第一修正模块，用于将训练文本图片输入到不规则修正网络模型中，得到预测显著图；根据预测显著图和真实分类显著图标签计算网络损失，根据损失更新修正网络参数；

所述第一循环模块，用于不断重复以上过程，直到达到一定轮数，训练结束，保存修正网络参数。

进一步的，所述第三输出模块包括编码网络模块和解码网络模块；

所述编码网络模块包括两层卷积层，三层门控循环卷积层，两层双向长短期记忆网络和四层最大值池化层；

所述解码网络模块包括一层长短期记忆网络和一层基于注意力机制的长短期记忆网络；

所述解码网络模块将编码网络模块的输出作为输入，在每个时刻，解码网络都预测一个字符，一直到输出终止符为止。

进一步的，所述第三输出模块包括第三初始化模块、第三数据获取模块、第三修正模块和第三循环模块；

所述第三初始化模块，用于将不规则文本识别网络模型的参数进行初始化；

所述第三数据获取模块，用于获取训练文本图片及真实字符串标签；

所述第三修正模块，用于将训练文本图片输入到不规则文本识别网络中，根据网络预测值和真实字符串标签计算网络损失，根据损失更新识别网络参数；

所述第三循环模块，用于不断重复以上过程，直到达到一定轮数，训练结束，保存识别网络参数。

本发明所达到的有益效果：

与现有技术相比，本发明提供的基于显著图的不规则文本修正与识别方法，通过不规则文本修正网络构建，条状区域变换算法，不规则文本识别网络构建，不规则文本修正与识别网络训练，提高了不规则文本识别的准确率和鲁棒性。

附图说明

图1为自然场景下不规则文本示意图；

图2为本发明实施的基于显著图的不规则文本修正网络结构图；

图3a为不规则文本图；

图3b为分类显著图；

图3c为字符外接四边形与中心点示意图；

图3d为文本中心线示意图；

图3e为变换坐标示意图；

图3f为修正后的文本图；

图4为本发明实施的基于显著图的条状区域变换算法流程图；

图5为本发明实施的基于显著图的不规则文本修正网络训练流程图；

图6为本发明实施的基于显著图的不规则文本识别网络训练流程图；

图7为本发明实施的基于显著图的不规则文本修正与识别方法的预测流程图；

图8为本发明实施的基于显著图的不规则文本修正算法效果图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

一种基于显著图的不规则文本修正与识别方法，主要分为基于显著图的不规则文本修正网络构建部分，基于显著图的条状区域变换算法部分，基于显著图的不规则文本识别网络构建部分，基于显著图的不规则文本修正网络训练部分，基于显著图的不规则文本识别网络训练部分，以及基于显著图的不规则文本修正与识别方法的预测过程部分。

图1为自然场景下不规则文本示意图。相比于规则文本图片，不规则文本图片包含更多的背景信息，更难识别。

图2为本发明实施的基于显著图的不规则文本修正网络结构图。该网络模型分为两阶段：左侧为特征提取阶段，右侧为特征融合阶段。对于输入图片，首先将其输入到全卷积神经网络中进行特征提取，对于提取出的不同尺度、不同深度的特征表示，采取U型网络结构对不同尺度、不同深度的特征进行特征融合，最后得到通道数为1的分类显著图。对于图像中位置p，显著图中该位置的值s^(p)表明该点为字符区域的分类得分，若为字符区域，则s^(p)值为1，否则为0。

图3a-图3f为本发明实施的基于显著图的条状区域变换算法步骤示意图，图4为本发明实施的基于显著图的条状区域变换算法流程图。算法的输入为原始图片I、修正网络预测的分类显著图S和原始图片宽W及高H，输出为修正后的文本图片。算法流程描述如下：首先对不规则文本图，如图3a进行二值化，如图3b,求取显著图连通区域的中心点集C与平均高度h_avg；然后根据中心点集C拟合文本的中心线L，如图3d；对于中心线上的每个点，从左到右依次求取当前坐标点p_i以及垂线V_i，i∈[1,W]，求取垂线V_i上点和/>(/>和/>与p_i距离为h_avg)的坐标，对/>和/>进行线性插值(插值数为H)，得到当前位置变换坐标集合P_i，将所有位置的变换坐标集合组合得到集合G，如图3e；最后根据变换坐标集合对原始图片I进行双线性插值得到修正后的图片，如图3f。

表1为本发明实施的基于显著图的不规则文本识别网络结构，为13层网络结构，其由编码网络和解码网络组成。编码网络位于前11层，由两层卷积层，三层门控循环卷积层，两层双向长短期记忆网络和四层最大值池化层组成，具体所在层数如下表所述。对于输入图像，编码网络用来对网络的特征进行编码，捕获图像的语义信息。解码网络为后两层，由一层长短期记忆网络和一层基于注意力机制的长短期记忆网络组成，具体所在层数如下表所述，解码网络将编码网络部分的输出作为输入，在每个时刻，解码网络都预测一个字符，一直到输出终止符为止。

表1：

图5为本发明实施的基于显著图的不规则文本修正网络训练流程图。在训练开始时，首先对不规则文本修正网络参数进行初始化；将训练文本图片及真实分类显著图标签输入到训练平台；然后将图片输入到不规则文本修正网络中，得到预测显著图；根据预测显著图和真实显著图计算网络损失，根据损失更新修正网络参数。不断重复以上过程，直到达到一定轮数，训练结束，保存修正网络参数。

具体训练步骤为：

步骤201，初始化不规则文本修正网络框架参数；

步骤202，输入文本图片及真实显著图标签至数据处理平台；

步骤203，使用文本图片及真实显著图标签作为监督信息对不规则文本修正网络进行训练；

步骤204，保存训练好的不规则文本修正网络框架和网络参数至数据平台存储系统。

图6为本发明实施的基于显著图的不规则文本识别网络训练流程图。训练过程描述如下：在训练开始时，首先对不规则文本识别网络参数进行初始化；将训练文本图片及真实字符串标签输入到训练平台；然后将图片输入到不规则文本识别网络中，根据网络预测值和真实字符串信息计算网络损失，根据损失更新识别网络参数。不断重复以上过程，直到达到一定轮数，训练结束，保存识别网络参数。

具体训练步骤为：

步骤301，初始化不规则文本识别网络框架参数；

步骤302，输入文本图片及真实字符串标签至数据处理平台；

步骤303，使用文本图片及真实字符串标签作为监督信息对不规则文本识别网络进行训练；

步骤304，保存训练好的不规则文本识别网络框架和网络参数至数据平台存储系统。

图7为本发明实施的基于显著图的不规则文本修正与识别方法的预测流程图。具体流程如下：首先读取保存的不规则文本修正网络和识别网络的网络框架和网络参数；接着输入要预测的文本图片至数据处理平台；然后将文本图片输入到不规则文本修正网络，得到字符级别的分类显著图信息；根据分类显著图使用条状区域变换算法对文本进行修正，得到修正后的文本图片；最后将修正后的文本图片输入到识别网络中进行识别，输出文本图片识别信息。

图8为本发明实施的基于显著图的不规则文本修正算法效果图。其中第一列为原始输入图片；第二列为修正网络预测的分类显著图；第三列变换坐标示意图；第四列为修正后图片。

相应的，本发明提供一种基于显著图的不规则文本修正与识别系统，包括第一输出模块、第二输出模块和第三输出模块；

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于显著图的不规则文本修正与识别方法，其特征在于，

所述不规则文本修正网络模型的结构采用全卷积神经网络，将不规则文本图片输入到全卷积神经网络中提取不同尺度、不同深度的特征，采取U型网络结构对不同尺度、不同深度的特征进行特征融合，得到字符级别的分类显著图；

利用条状区域变换算法对不规则文本图片和分类显著图进行修正，输出修正图片；所述条状区域变换算法的步骤为：

步骤103，根据中心点集C拟合文本中心线L；

步骤104，初始化变换坐标集合循环变量i＝1；

步骤105，根据i计算中心线当前坐标点p_i以及垂线V_i；

步骤108，如果i≤W，则i＝i+1，转步骤105，否则转步骤109；

步骤109，根据变换坐标集合G对I变换，得到修正图片，I表示原始图片；

步骤110，输出修正图片；

将修正图片输入至预先训练好的不规则文本识别网络模型，输出文本图片识别信息；所述不规则文本识别网络模型的结构包括编码网络和解码网络；

2.根据权利要求1所述的基于显著图的不规则文本修正与识别方法，其特征在于，所述不规则文本修正网络模型的训练过程为：

3.根据权利要求1所述的基于显著图的不规则文本修正与识别方法，其特征在于，所述不规则文本识别网络模型的训练过程为：

将不规则文本识别网络模型的参数进行初始化；获取训练文本图片及真实字符串标签；将训练文本图片输入到不规则文本识别网络模型中，得到网络预测值；根据网络预测值和真实字符串标签计算网络损失，根据损失更新识别网络参数；不断重复以上过程，直到达到一定轮数，训练结束，保存识别网络参数。

4.一种基于显著图的不规则文本修正与识别系统，其特征在于，包括第一输出模块、第二输出模块和第三输出模块；

所述第一输出模块，用于将不规则文本图片输入至预先训练好的不规则文本修正网络模型，输出字符级别的分类显著图；所述不规则文本修正网络模型的结构采用全卷积神经网络，将不规则文本图片输入到全卷积神经网络中提取不同尺度、不同深度的特征，采取U型网络结构对不同尺度、不同深度的特征进行特征融合，得到字符级别的分类显著图；

所述第三输出模块，用于将修正图片输入至预先训练好的不规则文本识别网络模型，输出文本图片识别信息；

所述条状区域变换算法的步骤为：

步骤103，根据中心点集C拟合文本中心线L；

步骤104，初始化变换坐标集合循环变量i＝1；

步骤105，根据i计算中心线当前坐标点p_i以及垂线V_i；

步骤108，如果i≤W，则i＝i+1，转步骤105，否则转步骤109；

步骤110，输出修正图片；

所述不规则文本识别网络模型的结构包括编码网络和解码网络；

5.根据权利要求4所述的基于显著图的不规则文本修正与识别系统，其特征在于，所述第一输出模块包括第一初始化模块、第一数据获取模块、第一修正模块和第一循环模块；

所述第一循环模块，用于不断重复更新修正网络参数的过程，直到达到一定轮数，训练结束，保存修正网络参数。

6.根据权利要求4所述的基于显著图的不规则文本修正与识别系统，其特征在于，所述第三输出模块包括第三初始化模块、第三数据获取模块、第三修正模块和第三循环模块；

所述第三修正模块，用于将训练文本图片输入到不规则文本识别网络模型中，得到网络预测值；根据网络预测值和真实字符串标签计算网络损失，根据损失更新识别网络参数；

所述第三循环模块，用于不断重复更新识别网络参数的过程，直到达到一定轮数，训练结束，保存识别网络参数。