CN116092069A

CN116092069A - 一种基于轮廓建模的自然场景视频文本检测方法及系统

Info

Publication number: CN116092069A
Application number: CN202310058072.0A
Authority: CN
Inventors: 梁凌宇; 肖沃城
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2023-01-17
Filing date: 2023-01-17
Publication date: 2023-05-09

Abstract

本发明公开了一种基于轮廓建模的自然场景视频文本检测方法及系统，包括视频帧读取与初始化，提取图像帧信息、文本区域信息预测，帧间文本信息融合、GPU加速后处理及视频帧追踪，所述帧间文本信息融合是设定两个大小不同的阈值对相邻两帧预测的文本信息进行融合筛选得到增强后的文本信息。本方法使用傅里叶帧间融合建模文本轮廓，辅以匹配算法对文本目标进行追踪，同时使用GPU加速推理，在保证了较高水准的检测准确率的情况下能够实现对视频文本的实时检测。

Description

一种基于轮廓建模的自然场景视频文本检测方法及系统

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种基于轮廓建模的自然场景视频文本检测方法及系统。

背景技术

随着互联网的高速发展与智能手机、数码相机、数码电视等数码图像拍摄设备的广泛应用，基于内容的图像处理方法得到了广泛的关注，其中需求最大的应用之一是自然场景视频中的文本精确检测。这项技术在计算机视觉、机器学习、自动驾驶、实时翻译等领域发挥着不可或缺的作用。而自然场景视频的文本检测常常面临着检测速度较慢、检测效果不佳的问题。

传统的实现自然场景视频文本检测的算法都是在空间域上进行的，主要分为两类，一类通过边界框回归实现，这种方法边界框的尺寸大小设置通常是固定的，这也就造成边界框难以拟合精细的文本轮廓；另一类则是通过像素点分割的方法实现，这种方法不仅难以聚合出完整的文本，同时逐像素的操作会增加庞大的计算量，导致推理速度极慢，难以达到视频实时检测效果。

同时，过往的方法通常都难以实现检测和速度的性能兼顾。在现实生活中的视频检测应用中，实时性是非常重要的一项需求。即至少达到30fps的检测速率，甚至在高帧率视频中需要达到60fps或者75fps，现有的方法尽管在精度上取得了不错的性能，但在检测推理的速度上距离实时性这个目标还有较大的差距。

发明内容

为了克服现有技术的上述缺点与不足，本发明的目的在于提供一种基于轮廓建模的自然场景视频文本检测方法及系统。该方法使用傅里叶帧间融合建模文本轮廓，辅以匹配算法对文本目标进行追踪，同时使用GPU加速推理，在保证了较高水准的检测准确率的情况下能够实现对视频文本的实时检测。

本发明的目的通过以下技术方案实现：

一种基于轮廓建模的自然场景视频文本检测方法，包括：

视频帧读取与初始化：具体是对读取的视频帧进行尺度变换，并进行归一化操作得到输入图像帧；

提取图像帧信息：使用深度为50的ResNet网络提取输入图像帧的图像帧信息，并利用特征金字塔网络获得图像帧的多尺度信息；

文本区域信息预测：根据多尺度信息，预测相应尺度的文本轮廓置信度图与各像素点对应文本的傅里叶级数；

帧间文本信息融合：设定两个大小不同的阈值对相邻两帧预测的文本信息进行融合筛选得到增强后的文本信息，具体为：

设定两个大小不同的阈值β₁、β₂；

先对前一帧的文本轮廓置信度图cls_t-1与阈值β₁进行比较，筛选大于β₁的部分得到前帧有用的补充信息cls_t-1′，随后将筛选后的cls_t-1′和当前帧的文本轮廓置信度图cls_t融合以加强当前帧的预测效果，得到的融合文本信息图再使用阈值β₂进行比较，得到大于阈值β₂的有效部分作为最后的结果；

GPU加速后处理：在GPU上进行加速，通过傅里叶反变换建模文本轮廓，使用非极大值抑制筛除冗余的文本，得到最终的文本检测结果；

视频帧追踪：对相邻帧的文本检测结果，通过IOU值构建IOU矩阵，通过KM算法和匈牙利算法进行匹配追踪。

进一步，所述文本区域信息预测，具体为：

图像帧信息利用特征金字塔网络获得图像帧的多尺度特征，将多尺度特征分别通过分类预测头和回归预测头得到文本区域信息，其中，分类预测头预测相应尺度下的文本区域TR和文本中心区域TCR，回归预测头预测相应尺度下的文本轮廓的傅里叶级数。

进一步，所述视频帧追踪，具体为：

对于相邻图像帧中所预测的文本轮廓，使用匹配算法对其追踪，对前一时刻t-1图像帧中的轮廓和当前时刻t图像帧中的轮廓，两两计算IOU值构建IOU矩阵，通过IOU矩阵，使用KM算法进行匹配，如匹配成功，则该文本轮廓的追踪状态更新；若匹配失败，查看追踪状态，若达到最大追踪时长，将该文本轮廓删除，若未达到最大追踪时长，则保留该文本轮廓，更新该文本的追踪时长。

进一步，各像素对应文本的傅里叶级数具体是将文本轮廓点序列抽象为傅里叶级数，包括：

使用一个实变量t∈[0,1]的复值函数f:R→C来表示任意文本闭合轮廓如下：

f(t)＝x(t)+iy(t)

i表示虚数单位，(x(t),(t))为特定时间t时的空间坐标，由于f是一个封闭的轮廓，f(t)＝f(t+1)，f(t)通过傅里叶反变换(IFT)重新表述为：

k∈Z表示频率，c_k是用来表征频率k的初始状态的复值傅里叶系数。

进一步，所述文本轮廓置信度图由文本区域置信度和文本中心区域置信度相乘得到，其中文本的中心区域是由文本区域向内缩进文本平均高度的0.3倍距离得到。

进一步，在网络训练前，按照文本实例样本的尺寸比例将文本实例划分为小、中、大三类，其中尺寸比例r由文本实例的横坐标最大差值dx和纵坐标最大差值dy中较大的值与图像高度h的比值决定：

r＝max(dx,dy)/h

小、中、大三类目标分别对应特征金字塔中的多尺度特征输出。

一种自然场景视频文本检测方法的系统，包括

视频读取与初始化模块：用于对读取的视频帧进行尺度变换，并进行归一化操作得到输入图像帧；

提取图像帧模块：用于使用深度为50的ResNet网络提取输入图像帧的图像帧信息，并利用特征金字塔网络获得图像帧的多尺度特征；

文本区域信息预测模块：用于根据多尺度信息，预测相应尺度的文本轮廓置信度二值图与各像素对应文本的傅里叶级数；

帧间文本信息融合模块：用于设定两个大小不同的阈值对相邻两帧预测的文本信息进行融合筛选得到增强后的文本信息，选取置信度二值图大于阈值的像素点与预测的回归傅里叶级数运算；

GPU加速后处理模块：用于在GPU上进行加速，通过傅里叶反变换建模文本轮廓，使用非极大值抑制筛除冗余的文本，得到最终的文本检测结果；

视频帧追踪模块：用于对相邻帧的文本检测结果，通过IOU值构建IOU矩阵，通过KM算法和匈牙利算法进行匹配追踪。

与现有技术相比，本发明具有以下优点和有益效果：

本方法能够通过预测多尺度下文本轮廓对应的傅里叶系数，再通过傅里叶反变换的方法重建模文本轮廓的点序列，并通过相邻帧的文本匹配进行追踪，相较于传统的逐像素点分割预测和边界框回归预测的方法更准确，同时大大减少计算量，提高了推理的速度，实现了在高清视频上的实时检测

附图说明

图1是本发明的工作流程图。

具体实施方式

下面结合实施例，对本发明作进一步地详细说明，但本发明的实施方式不限于此。

如图1所示，本实施例提供一种基于轮廓建模的自然场景视频文本检测方法，该方法能够通过预测多尺度下文本轮廓对应的傅里叶系数，再通过傅里叶反变换的方法重建模文本轮廓的点序列，并通过相邻帧的文本匹配进行追踪，相较于传统的逐像素点分割预测和边界框回归预测的方法更准确，同时大大减少计算量，提高了推理的速度，实现了在高清视频上的实时检测。该方法具体包括以下步骤：

S1、读取视频帧，并对读取的视频帧进行尺度变换，并进行归一化操作得到最终的输入图像帧。

具体为：

S11、在网络训练前，首先需要对自然场景视频文本数据集进行处理。数据集中的视频通常有着大量的低质量图像帧和模糊的文本实例，需要提前对低质量的图像帧和文本实例进行标记处理，在训练时排除掉这些样本，防止对正常样本的训练造成干扰。同时，视频数据集过于庞大，需要对视频进行抽帧选取图像而非直接将所有帧图像全部输入训练，这种操作不仅能大幅降低训练的时间消耗，同时也能提高网络的鲁棒性。

S12、视频图像帧在输入网络训练前需要通过一定的数据增广和归一化，每个图像帧分别通过随机尺寸调整、随机裁剪翻转、旋转填充和随机亮度、对比度、镜像的调整进行图像增强，最后通过归一化得到最终输入图像。

S2、使用深度为50的ResNet网络提取图像帧信息，并利用特征金字塔网络获得图像帧的多尺度信息。

S3、根据特征金字塔网络提取的多尺度信息，预测相应尺度的文本置信度图与各像素点对应文本的傅里叶级数。

文本区域信息预测：图像帧F在通过主干网络后得到多尺度特征C3、C4、C5，将多尺度特征分别通过分类预测头和回归预测头得到预测的文本区域信息。其中，分类预测头预测相应尺度下的文本区域TR和文本中心区域TCR，回归预测头预测相应尺度下的文本轮廓的傅里叶级数。

具体为：

S31、在网络训练时，每个文本轮廓由一个实变量t∈[0,1]的复值函数f:R→C来表示：

f(t)＝x(t)+iy(t)

i表示虚数单位，(x(t),(t))为特定时间t时的空间坐标，送入网络的即是这些空间坐标序列。由于f是一个封闭的轮廓，f(t)＝f(t+1)。f(t)可以通过傅里叶反变换(IFT)重新表述为：

k∈Z表示频率，c_k是用来表征频率k的初始状态的复值傅里叶系数。在该方法中，k只取-2、-1、0、1、2五个频率值，网络所预测的傅里叶级数即对应式子中的c_k。

S32、在网络训练时，按照文本实例样本的尺寸比例将文本实例划分为小、中、大三类，根据分类结果分配到不同的特征金字塔输出层级中进行网络的监督学习。其中尺寸比例r由文本实例的横坐标最大差值dx和纵坐标最大差值dy中较大的值与图像高度h的比值决定。

r＝max(dx,dy)/h

S33、在网络训练时，预测的文本轮廓最终置信度C由文本区域置信度C_tr和文本中心区域置信度C_tcr相乘得到

其中，文本的中心区域由文本区域向内缩进文本平均高度的0.3倍距离得到。

S4、使用一我们提出的视频帧间增强融合模块，通过两个不同的阈值对相邻两帧预测的文本信息进行融合筛选得到增强后的文本信息，具体地，对于两相邻帧的预测输出的文本轮廓置信度图cls_t-1和cls_t，我们设置两个阈值β₁、β₂，先对前一帧的预测值cls_t-1通过阈值β₁通过筛选大于β₁的部分得到前帧有用的补充信息cls_t-1′，随后将筛选后的cls_t-1′和当前帧的预测值cls_t融合以加强当前帧的预测效果，得到的融合文本信息图再使用阈值β₂进行第二次的筛选得到有效部分作为最后的结果，其中对每个尺度的结果，都利用文本区域TR和文本中心区域TCR加权求和计算文本轮廓的置信度。最后选取置信度大于阈值的像素点，和预测的回归傅里叶级数作运算得到的结果再送入后续的后处理。

进一步，β₁、β₂阈值需要根据视频中移动速度和复杂程度设定，比如：

当列车高速通过的场景下，两个阈值取值如下：0.95，1.7。

人手持摄像机前进的速度场景下，两个阈值取值如下：0.8，1.2。

S5、通过傅里叶变换对文本轮廓进行建模，整合所有预测的文本轮廓，使用非极大值抑制筛除冗余的文本，得到最终的文本检测结果，整个过程使用GPU进行加速。

文本信息后处理：对于得到得所有文本轮廓，通过非极大值抑制滤除重叠的文本轮廓。

文本轮廓重建模：在推理时，通过傅里叶反变换(IFT)将预测的傅里叶级数重建模得到文本轮廓的点序列：

S6、对相邻帧的文本检测结果，进行视频帧追踪，通过其IOU值构建IOU矩阵，再通过KM算法和匈牙利算法进行匹配追踪。

视频帧追踪：对于相邻图像帧中所预测的文本轮廓，使用匹配算法对其追踪。对前一时刻t-1图像帧中的轮廓和当前时刻t图像帧中的轮廓，两两计算IOU值构建IOU矩阵，通过IOU矩阵，使用KM算法进行匹配，如匹配成功，则该文本轮廓的追踪状态更新；若匹配失败，查看追踪状态，若达到最大追踪时长，将该文本轮廓删除，若未达到最大追踪时长，则保留该文本轮廓，更新该文本的追踪时长。

本发明的效益和优点包括以下几点：

本发明能利用傅里叶帧间融合建模对视频中的文本实例进行建模，检测到完整、精确的文本实例。

本发明根据设计的GPU加速方法，具有极快的推理速度，能在高清自然场景视频中实现实时检测。

本实施例还提供一种基于轮廓建模的自然场景视频文本检测系统，包括：

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于轮廓建模的自然场景视频文本检测方法，其特征在于，包括：

设定两个大小不同的阈值β₁、β₂；

2.根据权利要求1所述的自然场景视频文本检测方法，其特征在于，所述文本区域信息预测，具体为：

3.根据权利要求1所述的自然场景视频文本检测方法，其特征在于，所述视频帧追踪，具体为：

4.根据权利要求1所述的自然场景视频文本检测方法，其特征在于，各像素对应文本的傅里叶级数具体是将文本轮廓点序列抽象为傅里叶级数，包括：

使用一个实变量t∈[0，1]的复值函数f：R→C来表示任意文本闭合轮廓如下：

f(t)＝x(t)+iy(t)

i表示虚数单位，(x(t)，y(t))为特定时间t时的空间坐标，由于f是一个封闭的轮廓，f(t)＝f(t+1)，f(t)通过傅里叶反变换(IFT)重新表述为：

5.根据权利要求1所述的自然场景视频文本检测方法，其特征在于，所述文本轮廓置信度图由文本区域置信度和文本中心区域置信度相乘得到，其中文本的中心区域是由文本区域向内缩进文本平均字符高度的0.3倍距离得到。

6.根据权利要求1所述的自然场景视频文本检测方法，其特征在于，在网络训练前，按照文本实例样本的尺寸比例将文本实例划分为小、中、大三类，其中尺寸比例r由文本实例的横坐标最大差值dx和纵坐标最大差值dy中较大的值与图像高度h的比值决定：

r＝max(dx，dy)/h

7.一种实现权利要求1-6任一项所述的自然场景视频文本检测方法的系统，其特征在于，包括