CN113269045A

CN113269045A - 自然场景下中文艺术字检测识别方法

Info

Publication number: CN113269045A
Application number: CN202110466339.0A
Authority: CN
Inventors: 俞扬; 詹德川; 周志华; 李奇威
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-08-17

Abstract

本申请提供了一种自然场景下中文艺术字检测识别方法，其包括如下步骤：准备文本检测识别的训练数据集；使用所述训练数据集训练一个文字检测识别网络模型文字检测识别网络模型；使待识别图片输入至训练好的所述文字检测识别网络模型；所述文字检测识别网络模型输出输出概率最大的文字序列。本申请的有益之处在于提供了一种能综合有效的识别文字位置和文字内容的自然场景下中文艺术字检测识别方法。

Description

自然场景下中文艺术字检测识别方法

技术领域

本申请涉及文字识别领域，具体而言，涉及一种自然场景下中文艺术字检测识别方法。

背景技术

随着照相技术和互联网技术的发展，图像内文字信息的读取需求与日俱增，依靠人工读取文档图像、日常生活图像内文字信息费时费力，使用文本识别技术帮助计算机读取图像信息。

图像文字识别根据识别图像的类型分为非场景文本识别和场景文本识别。非场景文本识别针对输入扫描文档图像，文字背景较为单一，图像内文字集中，字体变化少。场景文本识别针对自然场景图像中文字识别，文字背景为自然场景，背景复杂并且光线等干扰信息多，文字分散。

现有尚没有一种较为有效的自然场景下中文艺术字检测识别方法。

发明内容

为了解决现有技术的不足之处，本申请提供了一种自然场景下中文艺术字检测识别方法，包括如下步骤：准备文本检测识别的训练数据集；使用所述训练数据集训练一个文字检测识别网络模型；使待识别图片输入至训练好的所述文字检测识别网络模型；所述文字检测识别网络模型输出文字序列和文本位置；所述文字检测识别网络模型为一个端到端文本识别网络模型。

进一步地，所述训练数据集包括：真实数据；其中，所述真实数据为带有标记信息的包含艺术字自然场景图片，所述标记信息的格式为(x1,y1,x2,y2,x3,y3,x4,y4,θ,文字)。

进一步地，所述训练数据集包括：合成数据；其中，所述合成数据分为增强合成数据和添加合成数据，所述增强合成数据中的图片为对真实数据中的图片进行旋转而生成新的图片和标记信息；所述添加合成数据中的图片为由无标记不含艺术字的自然场景图片，通过艺术字库自动在图片内添加艺术字后，再根据添加艺术字内容位置旋转角度计算合成图片和标记信息。

进一步地，在使用所述训练数据集训练一个文字检测识别网络模型时，将所述训练数据集中的图片输入至一个具有HRnet网络结构的的人工神经网络模型进行特征提取并生成特征图。

进一步地，所述端到端文本识别网络模型包括：文字定位分支；在使用所述训练数据集训练一个文字检测识别网络模型时，将所述特征图输入至所述文字定位分支，所述文字定位分支分为神经网络模块和文本框生成模块两部分，神经网络模块由卷积层和全连接层组成，输出是p1和p2两张概率图；p1表示对应的原图的像素是文字中心的概率；p2表示对应的原图的像素是两个文字中间区域的概率；文字中心概率和两个文字中间区域概率设有阈值；大于阈值的像素值为1，否则设为0；将所有相连的值为1的像素定为一个文本目标；输出是包含这个文本目标最小矩形框坐标和水平偏移角度。

进一步地，所述端到端文本识别网络模型包括：ROI Rotate模块；

在使用所述训练数据集训练一个端到端文本识别网络模型时，所述ROI Rotate模块根据文字定位分支预测的位置坐标，在共享特征模块输出的特征图的相应位置截取图像，根据文字定位分支预测偏移角度对图像进行旋转，然后将截图的特征图在保证长宽比不变的情况下缩放到预设的固定大小，缩放缺失部分使用0进行填充。

进一步地，所述端到端文本识别网络模型包括：文字识别分支；

在使用所述训练数据集训练一个端到端文本识别网络模型时，所述ROI Rotate模块输出的文本区域特征图输入至所述文字识别分支，所述文字识别分支通过一个双向LSTM网络模型-输出标准化文字信息。

进一步地，所述端到端文本识别网络模型根据损失函数公式；所述损失函数公式包含：

1)l＝l_d+λ₁l_r

2)l_d＝l_θ+λ₂l_s

3)l_θ＝1-cos(θ′-θ)

4)

5)

其中，所述损失函数公式由文本区域定位误差l_d和文字识别误差l_r两部分的共同组成；

λ₁是控制这两部分占比的超参；N是输入图像中文本区域的数量；

是表示所有预测值是

的路径概率之和；

文字定位分支输出为(x1,y1,x2,y2,x3,y3,x4,y4,θ′),θ′是预测的水平偏移角度；

(x1,y1)(x2,y2)(x3,y3)(x4,y4)为四个坐标点；

s′是根据预测坐标计算的预测矩形面积；s是根据标签坐标计算的真实区域面积；s_s′是预测区域和真实区域重合部分的面积。

进一步地，所述自然场景下中文艺术字检测识别方法包括：

对所述待处理图片进行预处理，所述预处理包括：

对图片进行以图片正中为中心，进行旋转操作，计算矩形位置坐标和旋转角度。旋转前点坐标(x′,y′),旋转中心坐标(x_中,y_中)，图片旋转角度α，是旋转前矩形偏转角度θ′；旋转后点坐标(x,y)，旋转后矩形偏转角度θ计算公式如下：

x＝(x′-x_中)cosθ-(y′-y_中)sinθ+x2

y＝(y′-y_中)cosθ+(x′-x_中)sinθ+y2

θ＝θ′+α。

进一步地，所述使用所述训练数据集训练一个文字检测识别网络模型的步骤还包括生成添加合成数据；所述生成添加合成数据包括：

对批量自然场景图片随机加入艺术字图片，艺术字方向任意，长度1至5个字；记录文字位置坐标和角度，记录文字内容，图片不旋转，只旋转文字区域，旋转前矩形框左上角坐标为矩形框以左上角坐标(x1′,y1′)右下角(x2′,y2′)顺时针旋转角度θ，图片标签(x1,y1,x2,y2,x3,y3,x4,y4,θ,文字)；旋转四个坐标点计算公式如下：

(x1,y1)＝(x1′,y1′)

(x2,y2)＝(x1′+(x2′-x1′)cosθ,y1′+(x2′-x1′)sinθ)

(x3,y3)＝(x1′-(y2′-y1′)sinθ,y2′-(y2′-y1′)(1-cosθ))

文字检测识别网络模型

本申请的有益之处在于：提供了一种能综合有效的识别文字位置和文字内容的自然场景下中文艺术字检测识别方法。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请一种实施例的自然场景下中文艺术字检测识别方法所识别图片坐标示意图；

图2是根据本申请一种实施例的自然场景下中文艺术字检测识别方法的部分流程步骤框图(网络结构示意图)。

图3是根据本申请一种实施例的自然场景下中文艺术字检测识别方法的共享特征模块结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

参照图1和图2所示，本申请的自然场景下中文艺术字检测识别方法主要分为数据预处理和文字识别两部分。

如图1所示，图片标签(x1,y1,x2,y2,x3,y3,x4,y4,θ,文字)中(x1,y1)(x2,y2)(x3,y3)(x4,y4)是矩形左上角开始顺时针方向四个坐标，θ为顺时针旋转角度。数据预处理对图片进行处理，由标注原始真实图片，标注合成图片两部分数据组成图片识别的神经网络的训练集。

对图片进行以图片正中为中心，进行旋转操作，计算矩形位置坐标和旋转角度。旋转前点坐标(x′,y′),旋转中心坐标(x_中，y_中)，图片旋转角度α，是旋转前矩形偏转角度θ′。

旋转后点坐标(x,y)，旋转后矩形偏转角度θ计算公式如下。

x＝(x′-x_中)cosθ-(y′-y_中)sinθ+x2

y＝(y′-y_中)cosθ+(x′-x_中)sinθ+y2

θ＝θ′+α

合成数据具体为：批量生成自然场景图片随机加入艺术字图片，艺术字方向任意，长度1-5个字。记录文字位置坐标和角度，记录文字内容，图片不旋转，只旋转文字区域，旋转前矩形框左上角坐标为矩形框以左上角坐标(x1′,y1′)右下角(x2′,y2′)顺时针旋转角度θ，旋转四个坐标点计算公式如下，图片标签(x1,y1,x2,y2,x3,y3,x4,y4,θ,文字)。

(x1,y1)＝(x1′,y1′)

(x2,y2)＝(x1′+(x2′-x1′)cosθ,y1′+(x2′-x1′)sinθ)

(x3,y3)＝(x1′-(y2′-y1′)sinθ,y2′-(y2′-y1′)(1-cosθ))

文字识别部分使用一个神经网络模型完成文字定位和文字识别，这个神经网络模型输入是图片，输出是文字，实现了端到端的文字识别。这个模型由共享卷积，文字定位分支，文字识别分支三个模块组成。

共享卷积模块基于HRnet结构的卷积神经网络-,该模块目的是图片提取文字特征生成特征图，该模块生成的特征图传入文字定位分支和ROI Rotate模块。

文字定位分支分为神经网络模块和文本框生成模块两部分，神经网络模块由卷积层和全连接层组成。文字定位分输出(x1,y1,x2,y2,x3,y3,x4,y4,θ′),θ′是预测角度，(x1,y1)(x2,y2)(x3,y3)(x4,y4)为四个坐标点，s′是根据预测坐标计算的预测矩形面积，s是根据标签坐标计算的真实区域面积，s_s′是预测区域和真实区域重合部分的面积。文字识别分支使用双向LSTM网络模型-对文字进行识别。

端到端文本识别网络模型损失函数如下：

1)l＝l_d+λ₁l_r

2)l_d＝l_θ+λ₂l_s

3)l_θ＝1-cos(θ′-θ)

4)

5)

再如图2所示，作为具体方案，本申请的自然场景下中文艺术字检测识别方法具体包括步骤为：

准备文本检测识别训练数据集。训练数据集由真实数据和合成数据组成。真实数据是带有标记信息的包含艺术字自然场景图片，标记格式为(x1,y1,x2,y2,x3,y3,x4,y4,θ,文字)。合成数据由一部分为对真实数据进行数据增强，旋转图片生成新的图片和标记；一部分由无标记不含艺术字的自然场景图片，使用艺术字库自动在图片内添加艺术字，根据添加艺术字内容位置旋转角度计算合成图片标记。

使用数据集训练端到端文本识别网络，将图片输入端到端文本识别网络，使用共享特征模块进行特征提取，生成特征图，特征图传递给文字定位分支和ROI Rotate模块。

文字定位分支输入特征图，-输出为预测的文字位置坐标和水平偏移角度。输出信息传给ROI Rotate模块。

ROI Rotate模块使用文字定位分支模块提供的位置坐标和旋转角度θ对特征图处理，将特征图逆时针旋转θ，计算旋转都的文字定位坐标，对特征图进行剪裁，然后缩放到固定尺寸，输入文字识别分支。

文字识别分支输入处理后的特征图，使用双向LSTM神经网络模型对文字进行分类-输出标准化的文字。保存训练好的端到端文本识别模型。

使用损失函数l＝l_d+λ₁l_r训练端到端文本识别网络模型，包括共享特征模块、文字定位分支和文字识别分支。

载入训练好的文字识别模型，输入待识别图片，输出结果即为文字信息，包括文字序列和文本位置。

采用以上方案，可以识别如图1所示图片，即使图片中招牌为倾斜状态。换言之，本申请的方法能用于识别自然场景图片内商铺招牌文字信息，输入自然场景图片到神经网络模型，通过共享卷积网络提取特征，文字定位分支使用特征图得到文字定位信息，使用文字定位信息处理特征图输入到文字识别分支，得到具体的结构化文字识别结果。

本申请使用合成的自然场景艺术字数据集，可以对真实图片数据集进行补充，进行文字识别检测模型的训练。使用基于深度神经网络的方法对中文艺术字传递进行检测与分类，无需特殊预处理。使用神经网络模型实现端到端的文字识别方法，对不定长的中文艺术字文字信息进行识别，不需分割。

以上方案使用端到端神经网络模型，识别图片类型面向复杂自然场景图片，定位识别散落分布的任意方向的中文艺术字体，例如对识别商铺名称、广告招牌等图像内文字进行识别，本申请可应用于智能图像审核等领域，具有广泛的应用场景。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种自然场景下中文艺术字检测识别方法，其特征在于：

所述自然场景下中文艺术字检测识别方法包括如下步骤：

准备文本检测识别的训练数据集；

使用所述训练数据集训练一个文字检测识别网络模型；

使待识别图片输入至训练好的所述文字检测识别网络模型；

所述文字检测识别网络模型输出文字序列和文本位置；

所述文字检测识别网络模型为一个端到端文本识别网络模型。

2.根据权利要求1所述的自然场景下中文艺术字检测识别方法，其特征在于：

所述训练数据集包括：真实数据；

其中，所述真实数据为带有标记信息的包含艺术字自然场景图片，所述标记信息的格式为(x1,y1,x2,y2,x3,y3,x4,y4,θ,文字)。

3.根据权利要求2所述的自然场景下中文艺术字检测识别方法，其特征在于：

所述训练数据集包括：合成数据；

其中，所述合成数据分为增强合成数据和添加合成数据，所述增强合成数据中的图片为对真实数据中的图片进行旋转而生成新的图片和标记信息；所述添加合成数据中的图片为由无标记不含艺术字的自然场景图片，通过艺术字库自动在图片内添加艺术字后，再根据添加艺术字内容位置旋转角度计算合成图片和标记信息。

4.根据权利要求3所述的自然场景下中文艺术字检测识别方法，其特征在于：

在使用所述训练数据集训练一个文字检测识别网络模型时，将所述训练数据集中的图片输入至一个具有HRnet网络结构的的人工神经网络模型进行特征提取并生成特征图。

5.根据权利要求4所述的自然场景下中文艺术字检测识别方法，其特征在于：

所述端到端文本识别网络模型包括：文字定位分支；

在使用所述训练数据集训练一个文字检测识别网络模型时，将所述特征图输入至所述文字定位分支，所述文字定位分支分为神经网络模块和文本框生成模块两部分，神经网络模块由卷积层和全连接层组成，输出是p1和p2两张概率图；p1表示对应的原图的像素是文字中心的概率；p2表示对应的原图的像素是两个文字中间区域的概率；

文字中心概率和两个文字中间区域概率设有阈值；大于阈值的像素值为1，否则设为0；将所有相连的值为1的像素定为一个文本目标；输出是包含这个文本目标最小矩形框坐标和水平偏移角度。

6.根据权利要求5所述的自然场景下中文艺术字检测识别方法，其特征在于：

所述端到端文本识别网络模型包括：ROI Rotate模块；

7.根据权利要求6所述的自然场景下中文艺术字检测识别方法，其特征在于：

所述端到端文本识别网络模型包括：文字识别分支；

8.根据权利要求7所述的自然场景下中文艺术字检测识别方法，其特征在于：

所述端到端文本识别网络模型根据损失函数公式；

所述损失函数公式包含：

1)l＝l_d+λ₁l_r

2)l_d＝l_θ+λ₂l_s

3)l_θ＝1-cos(θ′-θ)

4)

5)

其中，所述损失函数公式由文本区域定位误差l_d和文字识别误差l_r两部分的共同组成；λ₁是控制这两部分占比的超参；N是输入图像中文本区域的数量；

是表示所有预测值是

的路径概率之和；文字定位分支输出为(x1,y1,x2,y2,x3,y3,x4,y4,θ′),θ′是预测的水平偏移角度；(x1,y1)(x2,y2)(x3,y3)(x4,y4)为四个坐标点；s′是根据预测坐标计算的预测矩形面积；s是根据标签坐标计算的真实区域面积；s_s′是预测区域和真实区域重合部分的面积。

9.根据权利要求8所述的自然场景下中文艺术字检测识别方法，其特征在于：

所述自然场景下中文艺术字检测识别方法包括：

对所述待处理图片进行预处理，所述预处理包括：

对图片进行以图片正中为中心，进行旋转操作，计算矩形位置坐标和旋转角度；旋转前点坐标(x′,y′),旋转中心坐标(x_中,y_中)，图片旋转角度α，是旋转前矩形偏转角度θ′；旋转后点坐标(x,y)，旋转后矩形偏转角度θ计算公式如下：

x＝(x′-x_中)cosθ-(y′-y_中)sinθ+x2

y＝(y′-y_中)cosθ+(x′-x_中)sinθ+y2

θ＝θ′+α。

10.根据权利要求9所述的自然场景下中文艺术字检测识别方法，其特征在于：

所述使用所述训练数据集训练一个文字检测识别网络模型的步骤还包括生成添加合成数据；

所述生成添加合成数据包括：

(x1,y1)＝(x1′,y1′)

(x2,y2)＝(x1′+(x2′-x1′)cosθ,y1′+(x2′-x1′)sinθ)

(x3,y3)＝(x1′-(y2′-y1′)sinθ,y2′-(y2′-y1′)(1-cosθ))