CN113780276A

CN113780276A - 一种结合文本分类的文本检测和识别方法及系统

Info

Publication number: CN113780276A
Application number: CN202111046769.3A
Authority: CN
Inventors: 周昌世
Original assignee: Chengdu Renren Mutual Entertainment Technology Co ltd
Current assignee: Chengdu Renren Mutual Entertainment Technology Co ltd
Priority date: 2021-09-06
Filing date: 2021-09-06
Publication date: 2021-12-10
Anticipated expiration: 2041-09-06
Also published as: CN113780276B

Abstract

本发明公开一种结合文本分类的文本检测和识别方法及系统。其中，该方法包括：获取目标图片中的所有目标文本行框；对所有目标文本行框进行裁剪提取得到文本图；将文本图送入到文本方向分类模型中进行矫正识别以矫正任意方向的文本图到同一水平方向，得到文本矫正图；将文本矫正图送入到文字语言分类模型中进行文字语言类别识别，得到文字语言类别图像；将文字语言类别图像送入到该语言类别相对应的语言文本识别模型中进行识别，得到最终文本内容。本发明解决了现有技术中文本检测不能检测任意形状、场景复杂的文本；以及不能检测存在的文本颠倒，方向不正的情况；多语言文本区域都要送入到多个模型中进行识别所造成的时间花费大，效率低下的问题。

Description

一种结合文本分类的文本检测和识别方法及系统

技术领域

本发明涉及计算机视觉技术领域，具体而言，涉及一种结合文本分类的文本检测和识别方法及系统。

背景技术

近年来，自然场景文本检测识别技术，因其场景理解、即时翻译、自动驾驶和目标地理定位等众多应用而受到广泛关注。然而，自然场景文本检测识别的效果还不理想，其检测到的本文具有：倾斜字、艺术字、变形字、模糊字、形似字、残缺字、光影遮蔽以及多语言混合。

传统的文字识别系统，在采用计算机视觉中的图像形态学操作，包括膨胀、腐蚀基本操作，即可实现简单场景的文本检测(不能检测任意形状、场景复杂的文本)，接着将检测到的文本内容统一送入到文本识别模型中，通过对输出的文本内容进行概率比较得到文本内容，假设有三种语言模型，检测到的文本区域就要分别送入到三个模型中进行识别三次，所以带来了巨大时间的开销，效率低下的问题，并且图片中存在文本颠倒，方向不正的情况，如果不加以识别矫正方向，直接送入模型，则识别的准确率也会降低。

针对现有技术中文本检测不能检测任意形状、场景复杂的文本；以及不能检测文本中存在的文本颠倒，方向不正的情况；对于多语言文本需要每个文本区域都要送入到多个模型中进行识别所造成的时间花费大，效率低下的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例中提供一种结合文本分类的文本检测和识别方法及系统，以解决现有技术中文本检测不能检测任意形状、场景复杂的文本；以及不能检测文本中存在的文本颠倒，方向不正的情况；对于多语言文本需要每个文本区域都要送入到多个模型中进行识别所造成的时间花费大，效率低下的问题。

为达到上述目的，一方面，本发明提供了一种结合本文分类的文本检测和识别方法，该方法包括：获取目标图片中的所有目标文本行框；对所述所有目标文本行框进行裁剪提取得到文本图；将所述文本图送入到文本方向分类模型中进行矫正识别以矫正任意方向的文本图到同一水平方向，得到文本矫正图；将所述文本矫正图送入到文字语言分类模型中进行文字语言类别识别，得到文字语言类别图像；将所述文字语言类别图像送入到该语言类别相对应的语言文本识别模型中进行识别，得到最终文本内容。

可选的，所述将所述文本矫正图送入到文字语言分类模型中进行文字语言类别识别，得到文字语言类别图像包括：将轻量级网络结构mobilenetv3作为所述文字语言分类模型的主干网络，并根据所述主干网络对预处理图像进行特征提取，得到第一特征图；对所述第一特征图进行最大池化操作以使所述特征图的尺寸减小，得到第一池化图；根据预设的文字语言分类模型的种类数目，将所述第一池化图中的所有特征进行全连接并输出与所述种类数目相等的第一特征值，得到训练好的所述文字语言分类模型；对所述文本矫正图进行变换操作，并将变换操作后的所述文本矫正图送入到训练好的所述文字语言分类模型中进行文字语言类别识别，得到文字语言类别图像。

可选的，所述获取目标图片中的所有目标文本行框包括:将目标图片送入到文本检测模型中进行检测，得到单个字符图和字符间连接关系图；将所述单个字符图和字符间连接关系图分别进行二值化，且将二值化后的两个图进行逐像素相加，得到字符连接图；对所述字符连接图进行形态学轮廓检测，并将检测到的所述轮廓进行框选，得到多个目标文本框；对所述多个目标文本框进行级联合并得到多个目标文本行框。

可选的，所述对所述所有目标文本框进行级联合并得到多个目标文本行框包括：根据所述多个目标文本框的数量m，生成m*m的图像，以及生成空集列表L；所述空集列表L的长度与所述目标图片的宽相等；根据每个所述目标文本框的左坐标，将每个所述目标文本框的左坐标依次填入到所述空集列表L中；所述填入规则为L[左坐标]＝目标文本框的数字编号；根据预设的相邻两个所述目标文本框的垂直方向重合阈值T以及水平方向连接阈值x_score，判断相邻两个所述目标文本框在垂直方向和水平方向是否能进行合并，若是，将两个所述目标文本框填入到所述m*m的图像中，以使两个所述目标文本框合并。

可选的，所述将所述文本图送入到文本方向分类模型中进行矫正识别以矫正任意方向的文本图到同一水平方向，得到文本矫正图包括：将轻量级网络结构mobilenetv3作为所述文本方向分类模型的主干网络，并根据所述主干网络对预处理图像进行特征提取，得到第二特征图；对所述第二特征图进行最大池化操作以使所述第二特征图的尺寸减小，得到第二池化图；根据预设的文字语言分类模型的种类数目，将所述第二池化图中的所有特征进行两次全连接并输出数值为4的第二特征值，得到训练好的所述文本方向分类模型；将所述文本图送入到训练好的所述文本方向分类模型中进行文字方向类别识别，得到所述文本矫正图。

可选的，所述将所述文字语言类别图像送入到该语言类别相对应的语言文本识别模型中进行识别，得到最终文本内容包括：对所述文字语言类别图像进行卷积操作，提取得到所述文字语言类别图像的特征向量序列；将所述特征向量序列进行预测，得到标签分布；对所述标签分布依次进行去重操作、整合操作，转换得到所述最终文本内容。

另一方面，本发明提供了一种结合文本分类的文本检测和识别系统，其特征在于，包括：获取单元，用于获取目标图片中的所有目标文本行框；文本方向分类单元，用于对所述所有目标文本行框进行裁剪提取得到文本图；将所述文本图送入到文本方向分类模型中进行矫正识别以矫正任意方向的文本图到同一水平方向，得到文本矫正图；文字语言分类单元，用于将所述文本矫正图送入到文字语言分类模型中进行文字语言类别识别，得到文字语言类别图像；识别单元，用于将所述文字语言类别图像送入到该语言类别相对应的语言文本识别模型中进行识别，得到最终文本内容。

可选的，所述文字语言类别单元包括：第一特征提取子单元，用于将轻量级网络结构mobilenetv3作为所述文字语言分类模型的主干网络，并根据所述主干网络对预处理图像进行特征提取，得到第一特征图；第一池化子单元，用于对所述第一特征图进行最大池化操作以使所述特征图的尺寸减小，得到第一池化图；全连接子单元，用于根据预设的文字语言分类模型的种类数目，将所述第一池化图中的所有特征进行全连接并输出与所述种类数目相等的第一特征值，得到训练好的所述文字语言分类模型；文字语言类别识别子单元，用于对所述文本矫正图进行变换操作，并将变换操作后的所述文本矫正图送入到训练好的所述文字语言分类模型中进行文字语言类别识别，得到文字语言类别图像。

可选的，所述获取单元包括：第一生成子单元，用于将目标图片送入到文本检测模型中进行检测，得到单个字符图和字符间连接关系图；第二生成子单元，用于将所述单个字符图和字符间连接关系图分别进行二值化，且将二值化后的两个图进行逐像素相加，得到字符连接图；级联合并子单元，用于对所述字符连接图进行形态学轮廓检测，并将检测到的所述轮廓进行框选，得到多个目标文本框；对所述多个目标文本框进行级联合并得到多个目标文本行框。

可选的，所述文本方向分类单元包括：第二特征提取及第二池化子单元，用于将轻量级网络结构mobilenetv3作为所述文本方向分类模型的主干网络，并根据所述主干网络对预处理图像进行特征提取，得到第二特征图；对所述第二特征图进行最大池化操作以使所述第二特征图的尺寸减小，得到第二池化图；第二全连接单元，用于根据预设的文字语言分类模型的种类数目，将所述第二池化图中的所有特征进行两次全连接并输出数值为4的第二特征值，得到训练好的所述文本方向分类模型；文本方向类别识别子单元，用于将所述文本图送入到训练好的所述文本方向分类模型中进行文字方向类别识别，得到所述文本矫正图。

本发明的有益效果：

本发明提供了一种结合文本分类的文本检测和识别方法，该方法包括：获取目标图片中的所有目标文本行框；对所述所有目标文本行框进行裁剪提取得到文本图；将所述文本图送入到文本方向分类模型中进行矫正识别以矫正任意方向的文本图到同一水平方向，得到文本矫正图；这样能够检测图片中存在的文本颠倒，方向不正的情况，保证了文本识别的准确率。将所述文本矫正图送入到文字语言分类模型中进行文字语言类别识别，得到文字语言类别图像；将所述文字语言类别图像送入到该语言类别相对应的语言文本识别模型中进行识别，得到最终文本内容。这样能够先将文本进行语言分类，将分类后的文字送到对应的语言文本识别模型中进行识别，在保证识别的高精度情况下，大大减少了计算量以及模型的参数量，提高了识别速度，且鲁棒性强。

附图说明

图1是本发明实施例提供的一种结合文本分类的文本检测和识别方法的流程图；

图2是本发明实施例提供的得到文字语言类别图像的流程图；

图3是本发明实施例提供的获取目标图片中的所有目标文本行框的流程图；

图4是本发明实施例提供的得到文本矫正图的流程图；

图5是本发明实施例提供的一种结合文本分类的文本检测和识别系统的结构示意图；

图6是本发明实施例提供的文字语言类别单元的结构示意图；

图7是本发明实施例提供的获取单元的结构示意图；

图8是本发明实施例提供的文本方向分类单元的结构示意图；

图9是本发明实施例提供的多个目标文本框进行级联合并的结构示意图；

图10是本发明实施例提供的文本方向分类的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

因而，本发明提供了一种结合文本分类的文本检测和识别方法，图1是本发明实施例提供的一种结合文本分类的文本检测和识别方法的流程图，如图1所示，该方法包括：

S101.获取目标图片中的所有目标文本行框；

在一个可选的实时方式中，所述S101包括:

S1011.将目标图片送入到文本检测模型中进行检测，得到单个字符图和字符间连接关系图；

读入需要检测的目标图片，为了防止个别目标图片像素过大，在目标图片读入过程中会造成显卡挤爆的情况，需要对获取的目标图片进行缩放(resize)操作，即将宽高大于1080像素的目标图片进行缩放(resize)操作，最大边缩放到1080像素，小边等比缩放相同的倍数；将宽高小于1080像素的目标图片不做处理。

将缩放(resize)操作后的目标图片送入到文本检测模型(训练好的CRAFT(Character RegionAwareness for TextDetection)模型文件)中进行检测，得到单个字符图(region score)和字符间连接关系图(affinity score)。

S1012.将所述单个字符图和字符间连接关系图分别进行二值化，且将二值化后的两个图进行逐像素相加，得到字符连接图；

S1013.对所述字符连接图进行形态学轮廓检测，并将检测到的所述轮廓进行框选，得到多个目标文本框；对所述多个目标文本框进行级联合并得到多个目标文本行框。

对所述字符连接图进行形态学轮廓检测，求检测到的所述轮廓的外接矩形，遍历每个轮廓的外接矩形，分别先做形态学腐蚀操作，去掉噪音数据，之后再进行形态学膨胀操作使得单个字符区域进行连接到一起，之后再对该轮廓进行求轮廓的外界矩形，得到轮廓外接矩形的坐标，即得到最终的多个目标文本框。

由于上述的CRAFT文本检测会存在着将一行文本检测结果为多个目标文本框，这样对于我们后续的文字识别不能够组合成整句话的语义信息，造成语义的离散情况，因此，本发明中，对所述多个目标文本框进行级联合并得到多个目标文本行框。

具体的，所述对所述多个目标文本框进行级联合并得到多个目标文本行框包括：

S10131.根据所述多个目标文本框的数量m，生成m*m的图像(graph)，以及生成空集列表L；所述空集列表L的长度与所述目标图片的宽相等；

S10132.根据每个所述目标文本框的左坐标，将每个所述目标文本框的左坐标依次填入到所述空集列表L中；所述填入规则为L[左坐标]＝目标文本框的数字编号；

图9是本发明实施例提供的多个目标文本框进行级联合并的结构示意图，如图9所示，

假设有a，b，c三个待合并的目标文本框(即编号为1、2、3的目标文本框)，a框的左坐标(即左上角坐标的横坐标)为100，右坐标(即右下角坐标的横坐标)为200，表示为a[100，200]，b框的左坐标(即左上角坐标的横坐标)为210，右坐标(即右下角坐标的横坐标)为310，表示为b[210，310]，遍历每个目标文本框，将每个所述目标文本框的左坐标依次填入到所述空集列表L中，填入规则为L[左坐标]＝目标文本框的数字编号；即L[100]＝1，L[210]＝2。

S10133.根据预设的相邻两个所述目标文本框的垂直方向重合阈值T以及水平方向连接阈值x_score，判断相邻两个所述目标文本框在垂直方向和水平方向是否能进行合并，若是，将两个所述目标文本框填入到所述m*m的图像中，根据其输出值等于1，以使两个所述目标文本框合并。

例如：预设的相邻两个所述目标文本框的水平方向连接阈值x_score＝30，遍历每个目标文本框的[左坐标，右坐标+连接阈值]的像素值，看是否在L[左坐标]中有值，例如：a[100，200]，b[210，310]，此时遍历[100，200+30]是否为非空，会遍历到b的左坐标，则是非空的。非空则认为a目标文本框和b目标文本框能进行水平方向的合并。

进一步判断在垂直方向上a目标文本框和b目标文本框的重合阈值，将其与预设的相邻两个所述目标文本框的垂直方向重合阈值T作比较，若大于T，则说明a目标文本框和b目标文本框能进行垂直方向的合并。更进一步的，如图9所示，若在b目标文本框的下方有一个d目标文本框，b和d在水平方向有交集，在垂直方向上没有交集，则b和d就不能合并。

若相邻的两个目标文本框能进行合并，则将两个目标文本框的索引(数字编号)写入到m*m的图像(graph)中，使graph[a索引][b索引]＝1，graph值为1的时候a目标文本框和b目标文本框就合并了。

传统的文本检测方法一般采用手工特征提取的方式进行检测文本，例如：笔画宽度转换(SWT)文本检测方法、最大稳定极值区域(MSER)文本检测方法等，之后采用模板匹配或模型训练的方法对检测到的文本进行识别。而本发明中，使用卷积神经网络(CRAFT)代替手工特征提取的方法进行文本检测，得到所有目标文本行框，极大的提高了文本检测的性能。

S102.对所述所有目标文本行框进行裁剪提取得到文本图；具体的，获取文本检测获得的目标文本行框的坐标，滤除边框过小的目标文本行框，以及处理上下左右越界的目标文本行框，根据目标文本行框的坐标进行裁剪提取得到文本图。将所述文本图送入到文本方向分类模型中进行矫正识别以矫正任意方向的文本图到同一水平方向，得到文本矫正图；

在一个可选的实施方式中，所述S102包括：

S1021.将轻量级网络结构mobilenetv3作为所述文本方向分类模型的主干网络，并根据所述主干网络对预处理图像进行特征提取，得到第二特征图；对所述第二特征图进行最大池化操作以使所述第二特征图的尺寸减小，得到第二池化图；

S1022.根据预设的文字语言分类模型的种类数目，将所述第二池化图中的所有特征进行两次全连接并输出数值为4的第二特征值，得到训练好的所述文本方向分类模型；

S1023.将所述文本图送入到训练好的所述文本方向分类模型中进行文字方向类别识别，得到所述文本矫正图。

本发明中，将文字方向的类型分为4个方向，分别为0度、90度、180度、270度，如图10所示，它包含了出现在文本图上所有的文字方向的类型。由于后续的语言文本识别模型的特殊性，只能去识别横排文字即0方向的文本，如果对检测到的文字不加以方向分类直接送入到语言文本识别模型，那么如果遇到其他角度的文字就会出现识别不出的情况，带来准确率的下降。

具体的，本发明中，通过以下过程将文本图进行：

(1)训练图片准备

使用文字检测调高文字检测的文字框阈值，将检测到的文本图片裁剪下来分为四个方向，即0度，90度，180度，270度，将每个图片打上方向的标签。由于在文本图片中大多数图片的文本内容都是0度的，分别旋转每个角度的文字来形成其他角度(90度，180度，270度)的文本图片，这样能够增加不同方向类别的数量。比如对于0度图片，顺时针旋转90度就是方向为90度的图片。以此类推，旋转得到其他角度的图片，增加训练图片的数量。

(2)图片的缩放

由于文本图片的内容不一致，或长或短，如果不加以缩放，那么在同一个批处理文件内将会影响显存使用，带来显存占满，训练奔溃。因而，将文本图片缩放宽(w)高(h)分别为280，32，具体如下：

首先获取文本图片的h，w

如果

需要先将高h放缩到32，宽

此时为了保持同一个批处理文件内文本图片的宽高一致，方便训练，需要将w进行像素填充处理，加边到宽为280。

如果

那么需要将图片的高放缩到h＝32，宽放缩到w＝280。

(3)分类模型使用

本发明采用轻量级网络结构mobilenetv3作为文本方向分类模型的主干网络，在文本方向分类模型进行预测的过程中，会对输入的文本图进行方向分类，如果得到分类的结果是90、180或者是270的结果，分别要进行逆时针90，180，270的旋转来得到0方向的文本矫正图。

S103.将所述文本矫正图送入到文字语言分类模型中进行文字语言类别识别，得到文字语言类别图像；

在一个可选的实施方式中，所述S103包括：

S1031.将轻量级网络结构mobilenetv3作为所述文字语言分类模型的主干网络，并根据所述主干网络对预处理图像进行特征提取，得到第一特征图；

本发明采用轻量级网络结构mobilenetv3作为文字语言分类模型的主干网络(backbone)，该网络结构推理速度快，并且占用的内存小。其采用的是深度可分离卷积，它的卷积计算量是普通卷积的8-9倍，因而其速度快体积小。根据主干网络对预处理图像进行特征提取，得到第一特征图。

S1032.对所述第一特征图进行最大池化操作以使所述特征图的尺寸减小，得到第一池化图；

最大池化操作可以减少第一特征图的尺寸，从而减少计算量，同时能够增加感受野，增强文字语言分类模型非线性的表达能力。池化的具体计算公式如下：

H为第一特征图的高，W为第一特征图的宽，H_new为第一池化图的高，W_new为第一池化图的宽，F为滤波器的大小，S为2。

S1033.根据预设的文字语言分类模型的种类数目，将所述第一池化图中的所有特征进行全连接并输出与所述种类数目相等的第一特征值，得到训练好的所述文字语言分类模型；

S1034.对所述文本矫正图进行变换操作，具体为对所述文本矫正图进行减均值和除方差的处理，得到变换操作后的所述文本图，具体计算公式如下：

其中x为文本矫正图的像素值，x*为变换操作后的所述文本矫正图的像素值，u在图像识别数据库(ImageNet)上统计得到的图像均值，σ也为在图像识别数据库(ImageNet)上统计得到的图像标准差，则其经过标准化处理后的x*会分布在N(0,1)内，需要注意的是x,u,σ代表的都是图像的r，g，b三通道的值。

将变换操作后的所述文本矫正图送入到训练好的所述文字语言分类模型中进行文字语言类别识别，得到文字语言类别图像。

例如：可以得到中文图像、英文图像、日文图像。

S104.将所述文字语言类别图像送入到该语言类别相对应的语言文本识别模型中进行识别，得到最终文本内容。

在一个可选的实施方式中，将中文图像送入到中文模型中进行识别，将英文图像送入到英文模型中进行识别，将日文图像送入到日文模型中进行识别，得到最终文本内容。

文本识别方法有很多种，现有技术中是使用注意力机制(attention)来进行文本识别，而本发明中，通过卷积循环神经网络(CRNN)来实现文本识别。

具体的，所述S104包括：

S1041.对所述文字语言类别图像进行卷积操作，提取得到所述文字语言类别图像的特征向量序列；提取的特征向量序列中的向量在特征图上是从左至右按照顺序生成的。每个特征向量表示了特征图上一定宽度上的特征，默认宽度为1，也即单个像素。

S1042.将所述特征向量序列进行预测，得到标签分布；

S1043.对所述标签分布依次进行去重操作、整合操作，转换得到所述最终文本内容。

本发明中，通过文字检测定位到文本区域，通过裁剪剪出文字区域，然后将文字区域进行文本方向分类、文字语言分类，最终将分类后的文本，输入到训练好的语言文本识别模型中，得到最终的识别结果。

图5是本发明实施例提供的一种结合文本分类的文本检测和识别系统的结构示意图，如图5所示，该系统包括：

获取单元201，用于获取目标图片中的所有目标文本行框；

在一个可选的实时方式中，所述获取单元201包括:

第一生成子单元2011，用于将目标图片送入到文本检测模型中进行检测，得到单个字符图和字符间连接关系图；

第二生成子单元2012，用于将所述单个字符图和字符间连接关系图分别进行二值化，且将二值化后的两个图进行逐像素相加，得到字符连接图；

级联合并子单元2013，用于对所述字符连接图进行形态学轮廓检测，并将检测到的所述轮廓进行框选，得到多个目标文本框；对所述多个目标文本框进行级联合并得到多个目标文本行框。

根据所述多个目标文本框的数量m，生成m*m的图像(graph)，以及生成空集列表L；所述空集列表L的长度与所述目标图片的宽相等；

根据每个所述目标文本框的左坐标，将每个所述目标文本框的左坐标依次填入到所述空集列表L中；所述填入规则为L[左坐标]＝目标文本框的数字编号；

根据预设的相邻两个所述目标文本框的垂直方向重合阈值T以及水平方向连接阈值x_score，判断相邻两个所述目标文本框在垂直方向和水平方向是否能进行合并，若是，将两个所述目标文本框填入到所述m*m的图像中，根据其输出值等于1，以使两个所述目标文本框合并。

文本方向分类单元202，用于对所述所有目标文本行框进行裁剪提取得到文本图；具体的，获取文本检测获得的目标文本行框的坐标，滤除边框过小的目标文本行框，以及处理上下左右越界的目标文本行框，根据目标文本行框的坐标进行裁剪提取得到文本图。将所述文本图送入到文本方向分类模型中进行矫正识别以矫正任意方向的文本图到同一水平方向，得到文本矫正图；

在一个可选的实施方式中，所述文本方向分类单元202包括：

第二特征提取及第二池化子单元2021，用于将轻量级网络结构mobilenetv3作为所述文本方向分类模型的主干网络，并根据所述主干网络对预处理图像进行特征提取，得到第二特征图；对所述第二特征图进行最大池化操作以使所述第二特征图的尺寸减小，得到第二池化图；

第二全连接单元2022，用于根据预设的文字语言分类模型的种类数目，将所述第二池化图中的所有特征进行两次全连接并输出数值为4的第二特征值，得到训练好的所述文本方向分类模型；

文本方向类别识别子单元2023，用于将所述文本图送入到训练好的所述文本方向分类模型中进行文字方向类别识别，得到所述文本矫正图。

本发明中，将文字方向的类型分为4个方向，分别为0度、90度、180度、270度，如图10所示，它包含了出现在文本图上所有的文字方向的类型。由于后续的语言文本识别模型的特殊性，只能去识别横排文字即0度方向的文本，如果对检测到的文字不加以方向分类直接送入到语言文本识别模型，那么如果遇到其他角度的文字就会出现识别不出的情况，带来准确率的下降。

具体的，本发明中，通过以下过程将文本图进行：

(1)训练图片准备

(2)图片的缩放

首先获取文本图片的h，w

如果

需要先将高h放缩到32，宽

如果

那么需要将图片的高放缩到h＝32，宽放缩到w＝280。

(3)分类模型使用

文字语言分类单元203，用于将所述文本矫正图送入到文字语言分类模型中进行文字语言类别识别，得到文字语言类别图像；

在一个可选的实施方式中，所述文字语言分类单元203包括：

第一特征提取子单元2031，用于将轻量级网络结构mobilenetv3作为所述文字语言分类模型的主干网络，并根据所述主干网络对预处理图像进行特征提取，得到第一特征图；

第一池化子单元2032，用于对所述第一特征图进行最大池化操作以使所述特征图的尺寸减小，得到第一池化图；

全连接子单元2033，用于根据预设的文字语言分类模型的种类数目，将所述第一池化图中的所有特征进行全连接并输出与所述种类数目相等的第一特征值，得到训练好的所述文字语言分类模型；

文字语言类别识别子单元2034，用于对所述文本矫正图进行变换操作，具体为对所述文本矫正图进行减均值和除方差的处理，得到变换操作后的所述文本图，具体计算公式如下：

例如：可以得到中文图像、英文图像、日文图像。

识别单元204，用于将所述文字语言类别图像送入到该语言类别相对应的语言文本识别模型中进行识别，得到最终文本内容。

具体的，所述识别单元204包括：

卷积子单元，用于对所述文字语言类别图像进行卷积操作，提取得到所述文字语言类别图像的特征向量序列；提取的特征向量序列中的向量在特征图上是从左至右按照顺序生成的。每个特征向量表示了特征图上一定宽度上的特征，默认宽度为1，也即单个像素。

循环子单元，用于将所述特征向量序列进行预测，得到标签分布；

转录子单元，用于对所述标签分布依次进行去重操作、整合操作，转换得到所述最终文本内容。

本发明的有益效果：

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种结合文本分类的文本检测和识别方法，其特征在于，包括：

获取目标图片中的所有目标文本行框；

对所述所有目标文本行框进行裁剪提取得到文本图；将所述文本图送入到文本方向分类模型中进行矫正识别以矫正任意方向的文本图到同一水平方向，得到文本矫正图；

将所述文本矫正图送入到文字语言分类模型中进行文字语言类别识别，得到文字语言类别图像；

将所述文字语言类别图像送入到该语言类别相对应的语言文本识别模型中进行识别，得到最终文本内容。

2.根据权利要求1所述的方法，其特征在于，所述将所述文本矫正图送入到文字语言分类模型中进行文字语言类别识别，得到文字语言类别图像包括：

将轻量级网络结构mobilenetv3作为所述文字语言分类模型的主干网络，并根据所述主干网络对预处理图像进行特征提取，得到第一特征图；

对所述第一特征图进行最大池化操作以使所述特征图的尺寸减小，得到第一池化图；

根据预设的文字语言分类模型的种类数目，将所述第一池化图中的所有特征进行全连接并输出与所述种类数目相等的第一特征值，得到训练好的所述文字语言分类模型；

对所述文本矫正图进行变换操作，并将变换操作后的所述文本矫正图送入到训练好的所述文字语言分类模型中进行文字语言类别识别，得到文字语言类别图像。

3.根据权利要求1所述的方法，其特征在于，所述获取目标图片中的所有目标文本行框包括:

将目标图片送入到文本检测模型中进行检测，得到单个字符图和字符间连接关系图；

将所述单个字符图和字符间连接关系图分别进行二值化，且将二值化后的两个图进行逐像素相加，得到字符连接图；

对所述字符连接图进行形态学轮廓检测，并将检测到的所述轮廓进行框选，得到多个目标文本框；对所述多个目标文本框进行级联合并得到多个目标文本行框。

4.根据权利要求3所述的方法，其特征在于，所述对所述所有目标文本框进行级联合并得到多个目标文本行框包括：

根据所述多个目标文本框的数量m，生成m*m的图像，以及生成空集列表L；所述空集列表L的长度与所述目标图片的宽相等；

5.根据权利要求1所述的方法，其特征在于，所述将所述文本图送入到文本方向分类模型中进行矫正识别以矫正任意方向的文本图到同一水平方向，得到文本矫正图包括：

将轻量级网络结构mobilenetv3作为所述文本方向分类模型的主干网络，并根据所述主干网络对预处理图像进行特征提取，得到第二特征图；对所述第二特征图进行最大池化操作以使所述第二特征图的尺寸减小，得到第二池化图；

根据预设的文字语言分类模型的种类数目，将所述第二池化图中的所有特征进行两次全连接并输出数值为4的第二特征值，得到训练好的所述文本方向分类模型；

将所述文本图送入到训练好的所述文本方向分类模型中进行文字方向类别识别，得到所述文本矫正图。

6.根据权利要求1所述的方法，其特征在于，所述将所述文字语言类别图像送入到该语言类别相对应的语言文本识别模型中进行识别，得到最终文本内容包括：

对所述文字语言类别图像进行卷积操作，提取得到所述文字语言类别图像的特征向量序列；

将所述特征向量序列进行预测，得到标签分布；

对所述标签分布依次进行去重操作、整合操作，转换得到所述最终文本内容。

7.一种结合文本分类的文本检测和识别系统，其特征在于，包括：

获取单元，用于获取目标图片中的所有目标文本行框；

文本方向分类单元，用于对所述所有目标文本行框进行裁剪提取得到文本图；将所述文本图送入到文本方向分类模型中进行矫正识别以矫正任意方向的文本图到同一水平方向，得到文本矫正图；

文字语言分类单元，用于将所述文本矫正图送入到文字语言分类模型中进行文字语言类别识别，得到文字语言类别图像；

识别单元，用于将所述文字语言类别图像送入到该语言类别相对应的语言文本识别模型中进行识别，得到最终文本内容。

8.根据权利要求7所述的系统，其特征在于，所述文字语言类别单元包括：

第一特征提取子单元，用于将轻量级网络结构mobilenetv3作为所述文字语言分类模型的主干网络，并根据所述主干网络对预处理图像进行特征提取，得到第一特征图；

第一池化子单元，用于对所述第一特征图进行最大池化操作以使所述特征图的尺寸减小，得到第一池化图；

全连接子单元，用于根据预设的文字语言分类模型的种类数目，将所述第一池化图中的所有特征进行全连接并输出与所述种类数目相等的第一特征值，得到训练好的所述文字语言分类模型；

文字语言类别识别子单元，用于对所述文本矫正图进行变换操作，并将变换操作后的所述文本矫正图送入到训练好的所述文字语言分类模型中进行文字语言类别识别，得到文字语言类别图像。

9.根据权利要求7所述的系统，其特征在于，所述获取单元包括：

第一生成子单元，用于将目标图片送入到文本检测模型中进行检测，得到单个字符图和字符间连接关系图；

第二生成子单元，用于将所述单个字符图和字符间连接关系图分别进行二值化，且将二值化后的两个图进行逐像素相加，得到字符连接图；

级联合并子单元，用于对所述字符连接图进行形态学轮廓检测，并将检测到的所述轮廓进行框选，得到多个目标文本框；对所述多个目标文本框进行级联合并得到多个目标文本行框。

10.根据权利要求7所述的系统，其特征在于，所述文本方向分类单元包括：

第二特征提取及第二池化子单元，用于将轻量级网络结构mobilenetv3作为所述文本方向分类模型的主干网络，并根据所述主干网络对预处理图像进行特征提取，得到第二特征图；对所述第二特征图进行最大池化操作以使所述第二特征图的尺寸减小，得到第二池化图；

第二全连接单元，用于根据预设的文字语言分类模型的种类数目，将所述第二池化图中的所有特征进行两次全连接并输出数值为4的第二特征值，得到训练好的所述文本方向分类模型；

文本方向类别识别子单元，用于将所述文本图送入到训练好的所述文本方向分类模型中进行文字方向类别识别，得到所述文本矫正图。