CN116092069A - 一种基于轮廓建模的自然场景视频文本检测方法及系统 - Google Patents

一种基于轮廓建模的自然场景视频文本检测方法及系统 Download PDF

Info

Publication number
CN116092069A
CN116092069A CN202310058072.0A CN202310058072A CN116092069A CN 116092069 A CN116092069 A CN 116092069A CN 202310058072 A CN202310058072 A CN 202310058072A CN 116092069 A CN116092069 A CN 116092069A
Authority
CN
China
Prior art keywords
text
information
image frame
outline
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310058072.0A
Other languages
English (en)
Inventor
梁凌宇
肖沃城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202310058072.0A priority Critical patent/CN116092069A/zh
Publication of CN116092069A publication Critical patent/CN116092069A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/478Contour-based spectral representations or scale-space representations, e.g. by Fourier analysis, wavelet analysis or curvature scale-space [CSS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于轮廓建模的自然场景视频文本检测方法及系统,包括视频帧读取与初始化,提取图像帧信息、文本区域信息预测,帧间文本信息融合、GPU加速后处理及视频帧追踪,所述帧间文本信息融合是设定两个大小不同的阈值对相邻两帧预测的文本信息进行融合筛选得到增强后的文本信息。本方法使用傅里叶帧间融合建模文本轮廓,辅以匹配算法对文本目标进行追踪,同时使用GPU加速推理,在保证了较高水准的检测准确率的情况下能够实现对视频文本的实时检测。

Description

一种基于轮廓建模的自然场景视频文本检测方法及系统
技术领域
本发明涉及计算机视觉技术领域,特别涉及一种基于轮廓建模的自然场景视频文本检测方法及系统。
背景技术
随着互联网的高速发展与智能手机、数码相机、数码电视等数码图像拍摄设备的广泛应用,基于内容的图像处理方法得到了广泛的关注,其中需求最大的应用之一是自然场景视频中的文本精确检测。这项技术在计算机视觉、机器学习、自动驾驶、实时翻译等领域发挥着不可或缺的作用。而自然场景视频的文本检测常常面临着检测速度较慢、检测效果不佳的问题。
传统的实现自然场景视频文本检测的算法都是在空间域上进行的,主要分为两类,一类通过边界框回归实现,这种方法边界框的尺寸大小设置通常是固定的,这也就造成边界框难以拟合精细的文本轮廓;另一类则是通过像素点分割的方法实现,这种方法不仅难以聚合出完整的文本,同时逐像素的操作会增加庞大的计算量,导致推理速度极慢,难以达到视频实时检测效果。
同时,过往的方法通常都难以实现检测和速度的性能兼顾。在现实生活中的视频检测应用中,实时性是非常重要的一项需求。即至少达到30fps的检测速率,甚至在高帧率视频中需要达到60fps或者75fps,现有的方法尽管在精度上取得了不错的性能,但在检测推理的速度上距离实时性这个目标还有较大的差距。
发明内容
为了克服现有技术的上述缺点与不足,本发明的目的在于提供一种基于轮廓建模的自然场景视频文本检测方法及系统。该方法使用傅里叶帧间融合建模文本轮廓,辅以匹配算法对文本目标进行追踪,同时使用GPU加速推理,在保证了较高水准的检测准确率的情况下能够实现对视频文本的实时检测。
本发明的目的通过以下技术方案实现:
一种基于轮廓建模的自然场景视频文本检测方法,包括:
视频帧读取与初始化:具体是对读取的视频帧进行尺度变换,并进行归一化操作得到输入图像帧;
提取图像帧信息:使用深度为50的ResNet网络提取输入图像帧的图像帧信息,并利用特征金字塔网络获得图像帧的多尺度信息;
文本区域信息预测:根据多尺度信息,预测相应尺度的文本轮廓置信度图与各像素点对应文本的傅里叶级数;
帧间文本信息融合:设定两个大小不同的阈值对相邻两帧预测的文本信息进行融合筛选得到增强后的文本信息,具体为:
设定两个大小不同的阈值β1、β2
先对前一帧的文本轮廓置信度图clst-1与阈值β1进行比较,筛选大于β1的部分得到前帧有用的补充信息clst-1′,随后将筛选后的clst-1′和当前帧的文本轮廓置信度图clst融合以加强当前帧的预测效果,得到的融合文本信息图再使用阈值β2进行比较,得到大于阈值β2的有效部分作为最后的结果;
GPU加速后处理:在GPU上进行加速,通过傅里叶反变换建模文本轮廓,使用非极大值抑制筛除冗余的文本,得到最终的文本检测结果;
视频帧追踪:对相邻帧的文本检测结果,通过IOU值构建IOU矩阵,通过KM算法和匈牙利算法进行匹配追踪。
进一步,所述文本区域信息预测,具体为:
图像帧信息利用特征金字塔网络获得图像帧的多尺度特征,将多尺度特征分别通过分类预测头和回归预测头得到文本区域信息,其中,分类预测头预测相应尺度下的文本区域TR和文本中心区域TCR,回归预测头预测相应尺度下的文本轮廓的傅里叶级数。
进一步,所述视频帧追踪,具体为:
对于相邻图像帧中所预测的文本轮廓,使用匹配算法对其追踪,对前一时刻t-1图像帧中的轮廓和当前时刻t图像帧中的轮廓,两两计算IOU值构建IOU矩阵,通过IOU矩阵,使用KM算法进行匹配,如匹配成功,则该文本轮廓的追踪状态更新;若匹配失败,查看追踪状态,若达到最大追踪时长,将该文本轮廓删除,若未达到最大追踪时长,则保留该文本轮廓,更新该文本的追踪时长。
进一步,各像素对应文本的傅里叶级数具体是将文本轮廓点序列抽象为傅里叶级数,包括:
使用一个实变量t∈[0,1]的复值函数f:R→C来表示任意文本闭合轮廓如下:
f(t)=x(t)+iy(t)
i表示虚数单位,(x(t),(t))为特定时间t时的空间坐标,由于f是一个封闭的轮廓,f(t)=f(t+1),f(t)通过傅里叶反变换(IFT)重新表述为:
Figure BDA0004060814810000031
k∈Z表示频率,ck是用来表征频率k的初始状态的复值傅里叶系数。
进一步,所述文本轮廓置信度图由文本区域置信度和文本中心区域置信度相乘得到,其中文本的中心区域是由文本区域向内缩进文本平均高度的0.3倍距离得到。
进一步,在网络训练前,按照文本实例样本的尺寸比例将文本实例划分为小、中、大三类,其中尺寸比例r由文本实例的横坐标最大差值dx和纵坐标最大差值dy中较大的值与图像高度h的比值决定:
r=max(dx,dy)/h
小、中、大三类目标分别对应特征金字塔中的多尺度特征输出。
一种自然场景视频文本检测方法的系统,包括
视频读取与初始化模块:用于对读取的视频帧进行尺度变换,并进行归一化操作得到输入图像帧;
提取图像帧模块:用于使用深度为50的ResNet网络提取输入图像帧的图像帧信息,并利用特征金字塔网络获得图像帧的多尺度特征;
文本区域信息预测模块:用于根据多尺度信息,预测相应尺度的文本轮廓置信度二值图与各像素对应文本的傅里叶级数;
帧间文本信息融合模块:用于设定两个大小不同的阈值对相邻两帧预测的文本信息进行融合筛选得到增强后的文本信息,选取置信度二值图大于阈值的像素点与预测的回归傅里叶级数运算;
GPU加速后处理模块:用于在GPU上进行加速,通过傅里叶反变换建模文本轮廓,使用非极大值抑制筛除冗余的文本,得到最终的文本检测结果;
视频帧追踪模块:用于对相邻帧的文本检测结果,通过IOU值构建IOU矩阵,通过KM算法和匈牙利算法进行匹配追踪。
与现有技术相比,本发明具有以下优点和有益效果:
本方法能够通过预测多尺度下文本轮廓对应的傅里叶系数,再通过傅里叶反变换的方法重建模文本轮廓的点序列,并通过相邻帧的文本匹配进行追踪,相较于传统的逐像素点分割预测和边界框回归预测的方法更准确,同时大大减少计算量,提高了推理的速度,实现了在高清视频上的实时检测
附图说明
图1是本发明的工作流程图。
具体实施方式
下面结合实施例,对本发明作进一步地详细说明,但本发明的实施方式不限于此。
如图1所示,本实施例提供一种基于轮廓建模的自然场景视频文本检测方法,该方法能够通过预测多尺度下文本轮廓对应的傅里叶系数,再通过傅里叶反变换的方法重建模文本轮廓的点序列,并通过相邻帧的文本匹配进行追踪,相较于传统的逐像素点分割预测和边界框回归预测的方法更准确,同时大大减少计算量,提高了推理的速度,实现了在高清视频上的实时检测。该方法具体包括以下步骤:
S1、读取视频帧,并对读取的视频帧进行尺度变换,并进行归一化操作得到最终的输入图像帧。
具体为:
S11、在网络训练前,首先需要对自然场景视频文本数据集进行处理。数据集中的视频通常有着大量的低质量图像帧和模糊的文本实例,需要提前对低质量的图像帧和文本实例进行标记处理,在训练时排除掉这些样本,防止对正常样本的训练造成干扰。同时,视频数据集过于庞大,需要对视频进行抽帧选取图像而非直接将所有帧图像全部输入训练,这种操作不仅能大幅降低训练的时间消耗,同时也能提高网络的鲁棒性。
S12、视频图像帧在输入网络训练前需要通过一定的数据增广和归一化,每个图像帧分别通过随机尺寸调整、随机裁剪翻转、旋转填充和随机亮度、对比度、镜像的调整进行图像增强,最后通过归一化得到最终输入图像。
S2、使用深度为50的ResNet网络提取图像帧信息,并利用特征金字塔网络获得图像帧的多尺度信息。
S3、根据特征金字塔网络提取的多尺度信息,预测相应尺度的文本置信度图与各像素点对应文本的傅里叶级数。
文本区域信息预测:图像帧F在通过主干网络后得到多尺度特征C3、C4、C5,将多尺度特征分别通过分类预测头和回归预测头得到预测的文本区域信息。其中,分类预测头预测相应尺度下的文本区域TR和文本中心区域TCR,回归预测头预测相应尺度下的文本轮廓的傅里叶级数。
具体为:
S31、在网络训练时,每个文本轮廓由一个实变量t∈[0,1]的复值函数f:R→C来表示:
f(t)=x(t)+iy(t)
i表示虚数单位,(x(t),(t))为特定时间t时的空间坐标,送入网络的即是这些空间坐标序列。由于f是一个封闭的轮廓,f(t)=f(t+1)。f(t)可以通过傅里叶反变换(IFT)重新表述为:
Figure BDA0004060814810000051
k∈Z表示频率,ck是用来表征频率k的初始状态的复值傅里叶系数。在该方法中,k只取-2、-1、0、1、2五个频率值,网络所预测的傅里叶级数即对应式子中的ck
S32、在网络训练时,按照文本实例样本的尺寸比例将文本实例划分为小、中、大三类,根据分类结果分配到不同的特征金字塔输出层级中进行网络的监督学习。其中尺寸比例r由文本实例的横坐标最大差值dx和纵坐标最大差值dy中较大的值与图像高度h的比值决定。
r=max(dx,dy)/h
S33、在网络训练时,预测的文本轮廓最终置信度C由文本区域置信度Ctr和文本中心区域置信度Ctcr相乘得到
其中,文本的中心区域由文本区域向内缩进文本平均高度的0.3倍距离得到。
S4、使用一我们提出的视频帧间增强融合模块,通过两个不同的阈值对相邻两帧预测的文本信息进行融合筛选得到增强后的文本信息,具体地,对于两相邻帧的预测输出的文本轮廓置信度图clst-1和clst,我们设置两个阈值β1、β2,先对前一帧的预测值clst-1通过阈值β1通过筛选大于β1的部分得到前帧有用的补充信息clst-1′,随后将筛选后的clst-1′和当前帧的预测值clst融合以加强当前帧的预测效果,得到的融合文本信息图再使用阈值β2进行第二次的筛选得到有效部分作为最后的结果,其中对每个尺度的结果,都利用文本区域TR和文本中心区域TCR加权求和计算文本轮廓的置信度。最后选取置信度大于阈值的像素点,和预测的回归傅里叶级数作运算得到的结果再送入后续的后处理。
进一步,β1、β2阈值需要根据视频中移动速度和复杂程度设定,比如:
当列车高速通过的场景下,两个阈值取值如下:0.95,1.7。
人手持摄像机前进的速度场景下,两个阈值取值如下:0.8,1.2。
S5、通过傅里叶变换对文本轮廓进行建模,整合所有预测的文本轮廓,使用非极大值抑制筛除冗余的文本,得到最终的文本检测结果,整个过程使用GPU进行加速。
文本信息后处理:对于得到得所有文本轮廓,通过非极大值抑制滤除重叠的文本轮廓。
文本轮廓重建模:在推理时,通过傅里叶反变换(IFT)将预测的傅里叶级数重建模得到文本轮廓的点序列:
Figure BDA0004060814810000061
S6、对相邻帧的文本检测结果,进行视频帧追踪,通过其IOU值构建IOU矩阵,再通过KM算法和匈牙利算法进行匹配追踪。
视频帧追踪:对于相邻图像帧中所预测的文本轮廓,使用匹配算法对其追踪。对前一时刻t-1图像帧中的轮廓和当前时刻t图像帧中的轮廓,两两计算IOU值构建IOU矩阵,通过IOU矩阵,使用KM算法进行匹配,如匹配成功,则该文本轮廓的追踪状态更新;若匹配失败,查看追踪状态,若达到最大追踪时长,将该文本轮廓删除,若未达到最大追踪时长,则保留该文本轮廓,更新该文本的追踪时长。
本发明的效益和优点包括以下几点:
本发明能利用傅里叶帧间融合建模对视频中的文本实例进行建模,检测到完整、精确的文本实例。
本发明根据设计的GPU加速方法,具有极快的推理速度,能在高清自然场景视频中实现实时检测。
本实施例还提供一种基于轮廓建模的自然场景视频文本检测系统,包括:
视频读取与初始化模块:用于对读取的视频帧进行尺度变换,并进行归一化操作得到输入图像帧;
提取图像帧模块:用于使用深度为50的ResNet网络提取输入图像帧的图像帧信息,并利用特征金字塔网络获得图像帧的多尺度特征;
文本区域信息预测模块:用于根据多尺度信息,预测相应尺度的文本轮廓置信度二值图与各像素对应文本的傅里叶级数;
帧间文本信息融合模块:用于设定两个大小不同的阈值对相邻两帧预测的文本信息进行融合筛选得到增强后的文本信息,选取置信度二值图大于阈值的像素点与预测的回归傅里叶级数运算;
GPU加速后处理模块:用于在GPU上进行加速,通过傅里叶反变换建模文本轮廓,使用非极大值抑制筛除冗余的文本,得到最终的文本检测结果;
视频帧追踪模块:用于对相邻帧的文本检测结果,通过IOU值构建IOU矩阵,通过KM算法和匈牙利算法进行匹配追踪。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (7)

1.一种基于轮廓建模的自然场景视频文本检测方法,其特征在于,包括:
视频帧读取与初始化:具体是对读取的视频帧进行尺度变换,并进行归一化操作得到输入图像帧;
提取图像帧信息:使用深度为50的ResNet网络提取输入图像帧的图像帧信息,并利用特征金字塔网络获得图像帧的多尺度信息;
文本区域信息预测:根据多尺度信息,预测相应尺度的文本轮廓置信度图与各像素点对应文本的傅里叶级数;
帧间文本信息融合:设定两个大小不同的阈值对相邻两帧预测的文本信息进行融合筛选得到增强后的文本信息,具体为:
设定两个大小不同的阈值β1、β2
先对前一帧的文本轮廓置信度图clst-1与阈值β1进行比较,筛选大于β1的部分得到前帧有用的补充信息clst-1′,随后将筛选后的clst-1′和当前帧的文本轮廓置信度图clst融合以加强当前帧的预测效果,得到的融合文本信息图再使用阈值β2进行比较,得到大于阈值β2的有效部分作为最后的结果;
GPU加速后处理:在GPU上进行加速,通过傅里叶反变换建模文本轮廓,使用非极大值抑制筛除冗余的文本,得到最终的文本检测结果;
视频帧追踪:对相邻帧的文本检测结果,通过IOU值构建IOU矩阵,通过KM算法和匈牙利算法进行匹配追踪。
2.根据权利要求1所述的自然场景视频文本检测方法,其特征在于,所述文本区域信息预测,具体为:
图像帧信息利用特征金字塔网络获得图像帧的多尺度特征,将多尺度特征分别通过分类预测头和回归预测头得到文本区域信息,其中,分类预测头预测相应尺度下的文本区域TR和文本中心区域TCR,回归预测头预测相应尺度下的文本轮廓的傅里叶级数。
3.根据权利要求1所述的自然场景视频文本检测方法,其特征在于,所述视频帧追踪,具体为:
对于相邻图像帧中所预测的文本轮廓,使用匹配算法对其追踪,对前一时刻t-1图像帧中的轮廓和当前时刻t图像帧中的轮廓,两两计算IOU值构建IOU矩阵,通过IOU矩阵,使用KM算法进行匹配,如匹配成功,则该文本轮廓的追踪状态更新;若匹配失败,查看追踪状态,若达到最大追踪时长,将该文本轮廓删除,若未达到最大追踪时长,则保留该文本轮廓,更新该文本的追踪时长。
4.根据权利要求1所述的自然场景视频文本检测方法,其特征在于,各像素对应文本的傅里叶级数具体是将文本轮廓点序列抽象为傅里叶级数,包括:
使用一个实变量t∈[0,1]的复值函数f:R→C来表示任意文本闭合轮廓如下:
f(t)=x(t)+iy(t)
i表示虚数单位,(x(t),y(t))为特定时间t时的空间坐标,由于f是一个封闭的轮廓,f(t)=f(t+1),f(t)通过傅里叶反变换(IFT)重新表述为:
Figure FDA0004060814800000021
k∈Z表示频率,ck是用来表征频率k的初始状态的复值傅里叶系数。
5.根据权利要求1所述的自然场景视频文本检测方法,其特征在于,所述文本轮廓置信度图由文本区域置信度和文本中心区域置信度相乘得到,其中文本的中心区域是由文本区域向内缩进文本平均字符高度的0.3倍距离得到。
6.根据权利要求1所述的自然场景视频文本检测方法,其特征在于,在网络训练前,按照文本实例样本的尺寸比例将文本实例划分为小、中、大三类,其中尺寸比例r由文本实例的横坐标最大差值dx和纵坐标最大差值dy中较大的值与图像高度h的比值决定:
r=max(dx,dy)/h
小、中、大三类目标分别对应特征金字塔中的多尺度特征输出。
7.一种实现权利要求1-6任一项所述的自然场景视频文本检测方法的系统,其特征在于,包括
视频读取与初始化模块:用于对读取的视频帧进行尺度变换,并进行归一化操作得到输入图像帧;
提取图像帧模块:用于使用深度为50的ResNet网络提取输入图像帧的图像帧信息,并利用特征金字塔网络获得图像帧的多尺度特征;
文本区域信息预测模块:用于根据多尺度信息,预测相应尺度的文本轮廓置信度二值图与各像素对应文本的傅里叶级数;
帧间文本信息融合模块:用于设定两个大小不同的阈值对相邻两帧预测的文本信息进行融合筛选得到增强后的文本信息,选取置信度二值图大于阈值的像素点与预测的回归傅里叶级数运算;
GPU加速后处理模块:用于在GPU上进行加速,通过傅里叶反变换建模文本轮廓,使用非极大值抑制筛除冗余的文本,得到最终的文本检测结果;
视频帧追踪模块:用于对相邻帧的文本检测结果,通过IOU值构建IOU矩阵,通过KM算法和匈牙利算法进行匹配追踪。
CN202310058072.0A 2023-01-17 2023-01-17 一种基于轮廓建模的自然场景视频文本检测方法及系统 Pending CN116092069A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310058072.0A CN116092069A (zh) 2023-01-17 2023-01-17 一种基于轮廓建模的自然场景视频文本检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310058072.0A CN116092069A (zh) 2023-01-17 2023-01-17 一种基于轮廓建模的自然场景视频文本检测方法及系统

Publications (1)

Publication Number Publication Date
CN116092069A true CN116092069A (zh) 2023-05-09

Family

ID=86198859

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310058072.0A Pending CN116092069A (zh) 2023-01-17 2023-01-17 一种基于轮廓建模的自然场景视频文本检测方法及系统

Country Status (1)

Country Link
CN (1) CN116092069A (zh)

Similar Documents

Publication Publication Date Title
CN108986050B (zh) 一种基于多分支卷积神经网络的图像和视频增强方法
CN107844779B (zh) 一种视频关键帧提取方法
CN110969589A (zh) 基于多流注意对抗网络的动态场景模糊图像盲复原方法
CN108564597B (zh) 一种融合高斯混合模型和h-s光流法的视频前景目标提取方法
CN113610087B (zh) 一种基于先验超分辨率的图像小目标检测方法及存储介质
Patil et al. Motion saliency based generative adversarial network for underwater moving object segmentation
CN111612741A (zh) 一种基于失真识别的精确无参考图像质量评价方法
Su et al. Prior guided conditional generative adversarial network for single image dehazing
CN111681198A (zh) 一种形态学属性滤波多模融合成像方法、系统及介质
Guo et al. Joint raindrop and haze removal from a single image
Zheng et al. T-net: Deep stacked scale-iteration network for image dehazing
CN108270945B (zh) 一种运动补偿去噪方法及装置
CN112364865A (zh) 一种复杂场景中运动小目标的检测方法
Zhang et al. Underwater image enhancement using improved generative adversarial network
Xu et al. COCO-Net: A dual-supervised network with unified ROI-loss for low-resolution ship detection from optical satellite image sequences
Lu et al. CNN-enabled visibility enhancement framework for vessel detection under haze environment
CN113139544A (zh) 一种基于多尺度特征动态融合的显著性目标检测方法
Zhang et al. Dehazing with improved heterogeneous atmosphere light estimation and a nonlinear color attenuation prior model
CN110322479B (zh) 一种基于时空显著性的双核kcf目标跟踪方法
CN112115786A (zh) 基于注意力U-net的单目视觉里程计方法
Gao et al. Single image haze removal algorithm using pixel-based airlight constraints
CN113627342B (zh) 视频深度特征提取优化的方法、系统、设备及存储介质
CN115953312A (zh) 一种基于单幅图像的联合去雾检测方法、装置及存储介质
Dai et al. Data augmentation using mixup and random erasing
Liu et al. Attention-guided lightweight generative adversarial network for low-light image enhancement in maritime video surveillance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination