CN109729298A - 图像处理方法与图像处理装置 - Google Patents

图像处理方法与图像处理装置 Download PDF

Info

Publication number
CN109729298A
CN109729298A CN201711022796.0A CN201711022796A CN109729298A CN 109729298 A CN109729298 A CN 109729298A CN 201711022796 A CN201711022796 A CN 201711022796A CN 109729298 A CN109729298 A CN 109729298A
Authority
CN
China
Prior art keywords
text
edge
frame
rolling
motion vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711022796.0A
Other languages
English (en)
Other versions
CN109729298B (zh
Inventor
胡鹏媛
李永超
陈俊维
汪淳
黄鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Novatek Microelectronics Corp
Original Assignee
Novatek Microelectronics Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Novatek Microelectronics Corp filed Critical Novatek Microelectronics Corp
Priority to CN201711022796.0A priority Critical patent/CN109729298B/zh
Priority to US15/807,600 priority patent/US10445583B2/en
Publication of CN109729298A publication Critical patent/CN109729298A/zh
Application granted granted Critical
Publication of CN109729298B publication Critical patent/CN109729298B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0127Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level by changing the field or frame frequency of the incoming video signal, e.g. frame rate converter
    • H04N7/013Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level by changing the field or frame frequency of the incoming video signal, e.g. frame rate converter the incoming video signal comprising different parts having originally different frame rate, e.g. video and graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/77Determining position or orientation of objects or cameras using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/758Involving statistics of pixels or of feature values, e.g. histogram matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20072Graph-based image processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0127Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level by changing the field or frame frequency of the incoming video signal, e.g. frame rate converter
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0135Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes
    • H04N7/014Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes involving the use of motion vectors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0135Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes
    • H04N7/0142Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes the interpolation being edge adaptive

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Image Analysis (AREA)
  • Television Systems (AREA)

Abstract

本发明涉及图像处理方法与图像处理装置,它根据滚动文字的信息与边缘图中的运动边缘对来决定插值帧中的滚动文字区域。首先,根据边缘图中的运动边缘对检测文字图像块。接着,根据检测到的文字图像块建立第一运动向量直方图与第二运动向量直方图。根据第一运动向量直方图与第二运动向量直方图决定两帧之间是否存在滚动文字,文字滚动的方向以及速度。根据滚动文字的方向、速度以及两帧中至少一帧中的滚动文字区域,决定插值帧中各个滚动文字像素所在的位置,并给插值帧中图像块按照类型赋予不同的运动向量,背景图像块赋予背景运动向量,文字图像块赋予文字运动向量。

Description

图像处理方法与图像处理装置
技术领域
本发明涉及一种图像处理方法与图像处理装置,且特别涉及藉由滚动文字信息与文字相关的运动边缘决定插值帧中的文字区域的图像处理方法与图像处理装置。
背景技术
由于显示科技与处理能力的发展,当前市场特别要求显示科技具备高分辨率、高亮度、低能耗以及高帧率的性能表现。为了增加视频序列的帧率,帧率转换(frame rate upconversion,FRC)系统应运而生,藉以基于现有帧来产生插值帧。举例来说,插值帧可基于两个连续的帧产生。若视频序列包含文字,文字区域将被内插于插值帧中。
现有的文字检测方法通常使用边缘信息以在现有帧中定位文字区域。然而,用边缘信息本身在检测视频序列中的文字区域时并不具备足够的辨识度,特别是具有复杂背景(例如:具有树或是栅栏的背景)的视频序列。因此,现有的文字检测方法可能会无法检测文字或在视频序列中产生许多正误识(false positive)。最终,将会导致插值帧的视觉副作用,使得经过帧率转换的视频序列表现差强人意。
有鉴于此,需要能够高度正确地检测视频序列的帧中的文字区域并正确地将检测到的文字区域内插至经过帧率转换的视频序列的插值帧中而不产生视觉瑕疵的图像处理方法。
发明内容
本发明提供图像处理方法与图像处理装置,其藉由滚动文字信息与文字检测图决定帧率转换系统的插值帧中的文字区域,藉此提高正确率并减少经过帧率转换的视频序列的视觉瑕疵。
根据本发明的一示范实施例,图像处理装置包括内存与处理器。内存存储多个模块,而处理器用以执行存储于内存的多个模块。这些模块包括运动估计模块、文字检测模块、滚动文字判断模块、先前滚动信息模块、文字预测模块、运动向量分配模块以及运动补偿模块。文字检测模块用以根据边缘图的运动边缘对检测文字图像块,其中边缘图是根据第一帧与第二帧获得。滚动文字判断模块用以根据文字检测模块检测到的文字图像块建立第一运动向量直方图与第二运动向量直方图。滚动文字判断模块还用以根据第一运动向量直方图与第二运动向量直方图决定定滚动文字是否存在、滚动文字的方向以及滚动文字在第一帧与第二帧之间的运动向量。文字预测模块用以根据多个文字图像块所在行/列与滚动文字的运动向量定位第一帧与第二帧的至少其中之一中的滚动文字区域,其中文字图像块所在行/列的方向与滚动文字的方向相同。文字预测模块用以根据滚动文字的运动向量与第一帧与第二帧的至少其中之一中的滚动文字区域决定插值帧中各个滚动文字像素的位置。
根据本发明的一示范实施例,滚动文字判断模块决定第一运动向量直方图中的第一局部最大值与第二运动向量直方图中的第二局部最大值,藉以决定滚动文字是否存在、滚动文字的方向以及滚动文字的运动向量。滚动文字是否存在可根据一条件组决定,而滚动文字的运动向量可根据第一运动向量直方图与第二运动向量直方图中的局部最大值决定。
根据本发明的一示范实施例,文字预测模块可从多个图像块所在行/列中决定多个文字图像块所在行/列,其中各个图像块所在行/列在滚动文字的方向上延伸,且各个图像块所在行/列包括一系列的图像块。文字预测模块移除孤立的文字图像块所在行/列并设定包括多个连续图像块所在行/列的区域为滚动文字区域。
根据本发明的一示范实施例,图像处理装置还包括运动向量分配模块。运动向量分配模块用以将插值帧中的滚动文字区域分为图像块,并根据插值帧的滚动文字像素图将各个图像块分类为文字图像块或背景图像块。运动向量分配模块还用以对滚动文字区域的文字图像块分配滚动文字的运动向量,并对滚动文字区域的背景图像块分配背景运动向量。
根据本发明的一示范实施例,图像处理方法包括以下步骤:根据边缘图的运动边缘对检测文字图像块,其中边缘图是根据第一帧与第二帧获得;根据检测到的文字图像块建立第一运动向量直方图与第二运动向量直方图;根据第一运动向量直方图与第二运动向量直方图,决定滚动文字是否存在与滚动文字的运动向量;根据多个文字图像块所在行/列与滚动文字的运动向量,定位第一帧与第二帧的至少其中之一中的滚动文字区域;以及根据滚动文字的运动向量与第一帧与第二帧的至少其中之一的滚动文字区域,决定插值帧中各个滚动文字像素的位置。
根据本发明的另一示范实施例,图像处理方法还包括将所述插值帧中的滚动文字区域分为图像块,根据插值帧的滚动文字像素图将各个图像块分类为文字图像块或背景图像块;以及对滚动文字区域的文字图像块分配滚动文字的运动向量,并对滚动文字区域的背景图像块分配背景运动向量。
附图说明
包含附图以便进一步理解本发明,且附图并入本说明书中并构成本说明书的一部分。附图说明本发明的实施例,并与描述一起用于解释本发明的原理。
图1为依据本发明的实施例的图像处理装置的整体结构所示出的方块图。
图2A至图2C为依据图1的图像处理装置的文字检测模块的配置所示出的方块图。
图3A至图3B分别示出第一方向与在第二方向的运动向量直方图的示范实施例。
图4示出本发明的实施例,决定视频序列是否具有滚动文字的步骤的流程图。
图5为依据本发明的实施例所示出的第一帧、第二帧以及插值帧的示范实施例。
图6为依据本发明的实施例的图像处理方法所示出的流程图。
图7为依据本发明的另一实施例的图像处理方法所示出的流程图。
符号说明
100:图像处理装置;
110:运动估计模块;
120:文字检测模块;
130:滚动文字判断模块;
140:先前滚动信息模块;
150:文字预测模块;
160:运动向量分配模块;
170:运动补偿模块;
220、220a、220b:文字检测模块;
222:边缘检测模块;
224:弱静态边缘移除模块;
226:非滚动文字边缘移除模块;
228:文字图像块模块;
222a:垂直边缘检测模块;
222b:水平边缘检测模块;
224a、224b:弱静态边缘移除模块;
2241a、2241b:阈值转换模块;
2242a、2242b:时域差分模块;
2243a、2243b:信号转换模块;
226a、226b:非滚动文字边缘移除模块;
2261a、2261b:笔划宽度计算模块;
2262a、2262b:单一边缘与非滚动文字边缘对移除模块;228a、228b:文字图像块模块;
a*textBlockNUM:比例值;
BV:文字图像块模块的输出;
B1:强边缘图;
B2:强边缘图;
D1:二值图;
E1:第一边缘图;
E2:第二边缘图;
finter:插值帧;
fn、fn+1:帧;
F1:第一帧;
F2:第二帧;
Hx:第一运动向量直方图;
Hy:第二运动向量直方图;
M v,x、M v,y:运动向量;
RV:地图;
SW:划宽度计算模块的输出;
S601、S602、S603、S604、S605、S701、S702、S703、S704、S705、S706、S707;
T:阈值;
V:地图。
具体实施方式
现将详细地参考本发明的示范实施例,示范实施例的实例说明于附图中。只要有可能,相同组件符号在附图和描述中用来表示相同或相似部分。
图1示出依据本发明的实施例的图像处理装置的整体结构。参照图1,图像处理装置100可包括存储多个模块的内存以及用于执行存储于内存中的模块的处理器。这些模块包括运动估计模块110、文字检测模块120、滚动文字判断模块130、先前滚动信息模块140、文字预测模块150、运动向量分配模块160以及运动补偿模块170。
处理器可包括单一个或多个处理器以执行示范的图像处理方法,但本发明不受限于处理器的数量。在本实施例中,处理器可例如为微处理单元(micro-controller unit,MCU)、中央处理器(central processing unit,CPU)或其他微处理器、数字信号处理器(digital signal processor,DSP)、可编程控制器、特定应用集成电路(applicationspecific integrated circuits,ASIC)、可编程逻辑组件(programmable logic device,PLD)或其他类似装置。
在本实施例中,内存例如为随机存取内存(random access memory,RAM)、闪存、只读存储器(read-only memory,ROM)、可擦除可编程只读存储器(erasable programmableread only memory,EPROM)、电子抹除式可复写只读存储器(electrically-erasableprogrammable read-only memory,EEPROM)、缓存器、硬盘、可移除式磁盘、只读存储器光盘(compact disc read-only memory,CD-ROM)或任何其他机器或计算器可读存储介质。内存可耦接于处理器,使得处理器可自内存读取信息或将信息写入内存。或者,内存可整合于处理器中。
运动估计模块110用以估计视频序列中,当前帧与先前帧之间的运动。当前帧与先前帧可为视频序列中的连续帧,然本发明不限于此。当前帧也可不与先前帧连续,或当前帧与先前帧可属于不同视频序列。
文字检测模块120用以根据在第一帧与第二帧中检测到的边缘信息检测可能的文字图像块。文字检测模块120可检测第一帧与第二帧中至少一个方向上的边缘信息,并使用边缘信息检测第一帧与第二帧中可能的文字图像块。举例来说,文字检测模块120可检测特定方向(例如:水平方向、垂直方向或空间中的任何其他方向)上的边缘信息,并根据在特定方向上检测到的边缘信息检测可能的文字图像块。在另一个例子中,文字检测模块120可检测多个不同方向上的边缘信息,并使用在多个不同方向上检测到的边缘信息检测第一帧与第二帧中的文字图像块。边缘信息可包括第一帧与第二帧之间的强运动边缘对(strongmoving edge-pairs),但本发明不限于此。值得一提的是,文字检测模块120可基于以下前提检测可能的文字图像块:
(i)文字相对背景具有高对比度;
(ii)文字中的笔画具有水平对齐的强垂直边缘对或文字中的笔画具有垂直对齐的强水平边缘对;以及
(iii)滚动文字与视频序列的每一帧中的运动边缘相关。
滚动文字判断模块130用以决定滚动文字是否存在于视频序列的帧中,若滚动文字存在,亦决定文字的滚动方向与速度。视频序列中的第一帧与第二帧可为连续帧,但本发明不限于此。滚动文字判断模块130可用以决定滚动文字是否存在以及滚动文字在视频序列的不连续帧中的方向与运动向量。滚动文字判断模块130可根据文字检测模块120检测到的文字图像块建立第一运动向量直方图与第二运动向量直方图。第一运动向量直方图可对应于运动向量的x分量,而第二运动向量直方图可对应于运动向量的y分量,然而本发明不限于此。例如,图3A示出第一运动向量直方图Hx(运动向量的x分量),而图3B示出第二运动向量直方图Hy(运动向量的y分量)。
此外,滚动文字判断模块130可检测第一运动向量直方图与第二运动向量直方图中的局部最大值(local peak),接收来自先前滚动信息模块140的先前滚动信息,并根据检测到的局部最大值与先前滚动信息决定第一帧与第二帧之间是否具有滚动文字。当满足一组条件时,滚动文字判断模块130决定第一帧与第二帧之间存在滚动文字。例如,此组条件包括:
(i)第一局部最大值与第二局部最大值的其中之一集中在零,且另一个对应于滚动文字的运动向量;
(ii)对应于滚动文字的运动向量的局部最大值超过预设阈值;
(iii)对应于滚动文字的运动向量的局部最大值超过文字图像块数的比例值;以及
(iv)对应于滚动文字的运动向量的局部最大值在视频序列中的数个连续帧中保持不变。
一旦滚动文字存在,可据以决定滚动文字的方向与运动向量。例如,滚动文字的方向为局部最大值不集中为零的运动向量的方向,而运动向量代表在文字在滚动方向上的运动。
在滚动文字判断模块130决定滚动文字存在于第一帧与第二帧之间并得到滚动文字的运动向量后,文字预测模块150可在第一帧与第二帧中定位滚动文字区域。文字预测模块150可根据多个文字图像块所在行/列与滚动文字的运动向量定位滚动文字区域。可藉由选择符合预设条件的图像块所在行/列决定这些文字图像块所在行/列,其中各个图像块所在行/列包括一系列的图像块并在滚动文字的方向上延伸。举例来说,可进行以下步骤以决定图像块所在行/列是否为文字图像块所在行/列:
(i)计算代表当前图像块所在行/列的运动向量的直方图;
(ii)寻找直方图的最大值(即,最常出现的运动向量);以及
(iii)比较直方图的最大值与关联于滚动文字的局部最大值之间的相似度,以得到比较结果。
若比较结果大于预设阈值,则决定当前图像块所在行/列为文字图像块所在行/列。反之,则决定当前图像块所在行/列非文字图像块所在行/列。此外,由于滚动文字区域应在连续的帧中保持一致,之前帧中的滚动文字区域可用以决定当前图像块所在行/列是否为文字图像块所在行/列。由于滚动文字区域包括数个文字图像块所在行/列,孤立的文字图像块所在行/列应从滚动文字区域移除。文字预测模块150用以利用从先前滚动信息模块140取得的之前帧中的滚动文字区域以决定当前图像块所在行/列是否为文字图像块所在行/列。文字预测模块150还用以将孤立的文字图像块所在行/列从滚动文字区域移除。藉此,文字预测模块150可定位滚动文字区域。
一旦决定第一帧与第二帧的至少其中之一中的滚动文字区域,可根据滚动文字的运动向量和第一帧与第二帧的至少其中之一中的滚动文字区域得到插值帧中的滚动文字像素。文字预测模块150用以根据滚动文字的运动向量和第一帧与第二帧的至少其中之一中的滚动文字区域决定插值帧中各个滚动文字像素的位置。举例来说,假设两个连续的帧fn以及帧fn+1之间具有滚动文字,滚动的方向为x(例如:水平方向),滚动文字的运动向量为MV(v,0)。以位置(i,j)的像素来说,此像素在帧fn中被认为是滚动文字像素,其位置在帧fn+1中为位置(i',j'),且位置(i,j)与位置(i',j')之间的关系可用以下等式(1)表示:
fn(i,j)=fn+1(i',j')
与等式(1)类似,可藉由以下等式(2)计算在插值帧finter中的位置(i”,j”):
fn(i,j)=finter(i”,j”) fn+1(i',j')=finter(i”,j”)
一般而言,插值帧(finter)中的各个滚动文字像素的位置是根据文字滚动运动向量MV(v,0)以及与第一帧(fn)与第二帧(fn+1)的至少其中之一的滚动文字区域获得。应注意,以上的示范实施例是假设文字在x方向上滚动,因此滚动文字向量为MV(v,0)。若文字滚动在y方向上(垂直方向)上,则滚动文字向量可表示为MV(0,v)。完成插值帧中所有滚动文字像素的计算后,即得到插值帧的文字区域。图5示出具有两个连续帧fn与fn+1以及插值帧的示范实施例,其中插值帧的滚动文字区域是根据滚动文字的运动向量MV(v,0)以及帧fn与fn+1的至少其中之一的滚动文字区域得到。
运动向量分配模块160用以将插值帧中的滚动文字区域分成图像块,根据插值帧的滚动文字像素图将各个图像块分类为文字图像块或背景图像块,并对滚动文字区域的文字图像块分配滚动文字的运动向量,以及对滚动文字区域的背景图像块分配背景运动向量。
运动补偿模块170用以针对第一帧与第二帧之间的运动对插值帧进行补偿,藉以产生经过帧率转换的视频序列。
图2A示出依据本发明的实施例的文字检测模块220的配置。文字检测模块220包括边缘检测模块222、弱静态边缘(weak static edge)移除模块224、非滚动文字边缘移除模块226以及文字图像块模块228。边缘检测模块222用以检测第一帧F1与第二帧F2中,在空间中的特定方向或在空间中的多个方向上的边缘。边缘检测模块222可藉由边缘检测模板与帧的卷积运算对第一帧F1与第二帧F2中的边缘进行检测。边缘检测模板可为垂直边缘滤波器、水平边缘滤波器、对角边缘滤波器或其组合。举例来说,边缘检测模板可基于Sobel、Canny或Robert等边缘检测方法。边缘检测模板(M)与帧(F)的卷积运算在数学上可表示如下:
边缘检测模块222接收第一帧F1与第二帧F2,检测第一帧与第二帧的边缘,并输出第一边缘图E1与第二边缘图E2,其中第一边缘图E1与第二边缘图E2各自包含检测自第一帧F1与第二帧F2的边缘信息。
弱静态边缘移除模块224用以移除边缘图中的弱边缘与静态边缘,因为弱边缘与静态边缘通常与帧中的文字区域无关。为了从边缘图中移除弱边缘与静态边缘,可根据以下等式(4)计算二值图(binary map)D:
其中D(i,j)代表二值图D在位置(i,j)的值,abs代表绝对差运算(absolutedifference operation),而T代表预设阈值。
二值图D仅存储两个二元值(0或1)。若边缘图E1与E2之间的绝对差在特定位置(i,j)大于阈值T,则在二值图的值D(i,j)存储1。若否,则在二值图的值D(i,j)存储0。
值得注意的是,强边缘与文字的笔划在边缘图中以脉冲信号的形式出现。像素值从背景变为文字再回到背景。此外,背景与文字之间的改变相对较高。举黑色背景中的白色字体为例,背景区域的像素值相对较低(黑),而像素值接着上升(白),接着再回到背景(黑)。因此,边缘对与图像中的文字相关。为了找出帧之间的边缘对,可根据以下等式(5)计算出可表示帧F1与F2中各个位置的上升边缘、下降边缘以及非边缘的地图(map)V。
其中D(i,j)为二值图D在位置(i,j)的值,E(i,j)为边缘图在位置(i,j)的值,而T代表预设阈值。
根据等式(5),当E(i,j)大于正的阈值T且D(i,j)的值不为零时,在地图V存储数值1。当E(i,j)小于负的阈值-T且D(i,j)的值不为零时,在地图V存储数值-1。否则,在地图V存储0。值得一提的是,在地图V中,数值1代表上升边缘,数值-1代表下降边缘,而数值0代表非边缘。
非滚动文字边缘移除模块226用以进一步移除被认为与帧中的文字区域无关的非滚动文字边缘。笔划宽度是用于移除正误识(单一边缘或边缘对之间的距离明显小于或大于笔划宽度的边缘对)以根据地图V决定文字区域的重要参数。在边缘图中,文字的字符笔划以脉冲信号的形式出现,其中像素值从背景变为文字(例如:上升边缘)再回到背景(例如:下降边缘)。举黑色背景中的白色字体为例,背景区域的像素值相对较低,而像素值接着上升至高值再回到背景。因此,包括上升边缘与下降边缘的边缘对可能与图像中的文字有关。
上升边缘与下降边缘之间的距离被定义为笔划宽度,而笔划宽度在视频序列的所有文字字符中几乎相同。值得一提的是,由于笔划宽度变换(stroke width transform,SWT)在硬件的实现较为困难,在此所述的笔划宽度为笔划宽度变换的简易版本。因此,计算边缘对之间的距离的直方图,出现次数最多的距离被设为笔划宽度。以地图V中不为零的像素为中心,在一定窗口内寻找对应值。即当前像素为上升边缘,则在窗口内找下降边缘,反之,如果当前像素为下降边缘,则在窗口内找上升边缘。如果当前窗口内可以找到对应值,则此像素被认为是与文字相关的边缘。若否,则设此像素为零。窗口的大小与笔划宽度相关。例如,窗口的大小被设定为略大于笔划宽度的两倍。然而,应理解本发明不限于此,且窗口尺寸可根据设计需求(例如:处理速度和/或正确性)调整。
将非滚动文字边缘从地图V移除后,地图RV包含与帧中的文字区域相关的边缘(例如:具有适当笔划宽度的边缘对)。
文字图像块模块228用以将基于像素的地图RV转换为图像块以供后续处理,藉以适用于多数帧率转换系统所采用的基于图像块配对的运动估计与运动补偿算法。值得注意的是,地图RV是基于像素的地图,其中地图RV的各个值对应于帧(帧F1和/或F2)的像素。然而,多数帧率转换系统基于图像块进行运动估计和运动补偿。因此,为了后续处理,文字图像块模块228可将基于像素的地图RV转换为图像块以适用于基于图像块配对的运动估计与补偿算法。然而,本发明不限于图像块层级的地图。在可行的情况下,像素层级的地图RV可直接供后续处理使用。
图2B至图2C示出根据本发明实施例的图像处理装置的文字检测模块的配置。参照图2B,文字检测模块220a包括垂直边缘检测模块222a、弱静态边缘移除模块224a、非滚动文字边缘移除模块226a以及文字图像块模块228a。
垂直边缘检测模块222a用以接收第一帧F1与第二帧F2、检测垂直方向上的边缘并输出检测到的垂直边缘。应注意第一帧F1与第二帧F2可为视频序列中的连续帧,但本发明不限于此。第一帧F1与第二帧F2可为视频序列中的任意帧或存在于不同的视频序列。例如,代表垂直边缘的垂直边缘图(E1,E2)可根据等式(3)中帧(F1,F2)与边缘检测模板的卷积计算。在另一个例子中,若F1与F2代表视频序列中的连续帧,而F(i,j)表示图像F在位置(i,j)的像素值,则垂直边缘图(E1,E2)可根据等式(6)计算。
E(i,j)=F(i,j+1)-F(i,j) (6)
弱静态边缘移除模块224a可包括阈值转换模块(thresholding module)2241a、时域差分模块2242a以及信号转换模块2243a。时域差分模块2242a可耦接于垂直边缘检测模块222a以接收垂直边缘检测模块222a所检测到的垂直边缘。根据检测到的垂直边缘,时域差分模块2242a可用以检测帧F1与帧F2之间运动的垂直边缘。举例来说,可将第一垂直边缘图E1中的各个值与第二垂直边缘图E2的对应值相减以得到运动的垂直边缘。运动边缘检测模块222a检测到的运动垂直边缘存储于二值图D1中。数学上,二值图D1可藉由等式(4)获得。如图2B所示,二值图D1代表帧F1与帧F2之间的运动垂直边缘之间的时域差分并由时域差分模块2242a输出至信号转换模块2243a。
阈值转换模块2241a用以区分强边缘与弱边缘,其中强边缘可能与文字相关并与背景显著不同,而弱边缘与文字无关并与背景无显著不同。数学上,强边缘图可根据以下等式(7)求得:
其中B(i,j)为在位置(i,j)的强边缘图,E(i,j)为在位置(i,j)的边缘图,而T代表预设阈值。
当边缘图E(i,j)的绝对值大于预设阈值T的时候,强边缘图B(i,j)存储E(i,j)的值。否则,强边缘图B(i,j)存储0,其中0代表位置(i,j)具有弱边缘或不具有边缘,因此较不可能具有文字。代表帧F1与帧F2中的强垂直边缘的强边缘图B1与B2分别由阈值转换模块2241a输出。
信号转换模块2243a耦接于时域差分模块2242a与阈值转换模块2241a以接收二值图D1以及强边缘图B1与B2。信号转换模块2243a用以将存储于二值图D1与强边缘图B1与B2的信息转换至地图V,其中地图V可表示帧F1与F2中的各个位置的上升边缘、下降边缘以及非边缘。地图V可依据等式(5)得到。
非滚动文字边缘移除模块226a包括笔划宽度计算模块2261a与单一边缘与非滚动文字边缘对移除模块2262a。笔划宽度计算模块2261a用以决定边缘对,其中各个边缘对具有上升边缘与下降边缘,且上升边缘与下降边缘之间的距离在预设区间内。上升边缘与下降边缘之间的距离可为视频序列中文字字符的笔划宽度。因此,不属于任一边缘对的边缘或上升边缘与下降边缘之间的距离过大或过小(超过预设区间)的边缘对从被认为与视频序列的文字相关的边缘对组中移除。SW是笔划宽度计算模块2261a的输出。
信号边缘移除模块2262a用以移除地图V中的单一边缘,其中单一边缘不属于任何边缘对。
图2B中的文字图像块模块228a与图2A中的边缘检测模块222类似。因此在此省略关于文字图像块模块228a的细部描述。BV是文字图像块模块228a的输出。
图2C示出依据本发明的实施例的文字检测模块220b。文字检测模块220b包括与文字检测模块220a实质相似的模块,且文字检测模块220b的功能亦与文字检测模块220a的功能实质上相似。文字检测模块220b与文字检测模块220a的差异在于,文字检测模块220b包括水平边缘检测模块222b而非垂直边缘检测模块222a。水平边缘检测模块222b用以检测帧F1与帧F2的水平边缘并将检测到的水平边缘输出至时域差分模块2242b与阈值转换模块2241b。文字检测模块220b中的其他模块(时域差分模块2242b、阈值转换模块2241b、信号转换模块2243b、笔划宽度计算模块2261b、单一边缘与非滚动文字边缘对移除模块2262b以及文字图像块模块228b)与文字检测模块220a中的对应模块实质上相同,因此在此将省略关于这些模块的细部描述。文字检测模块220b的输出中,亦提供水平方向上的文字图像块供后续处理。
在一实施例中,图1至图2C所示出的各个模块可藉由一或多个电路实现。然而,本发明不受限于图1与图2A至2C的各个模块是否以软件或硬件形式实现。
如同图1的示范实施例所示,运动估计模块110、文字检测模块120、文字预测模块150、运动向量分配模块160以及运动补偿模块170可藉由一或多个电路(例如:硬件电路)实现,而滚动文字判断模块130与先前滚动信息模块140可藉由以处理器或微处理器执行的软件模块实现。在图2A中,包括边缘检测模块222、弱静态边缘移除模块224、非滚动文字边缘移除模块226以及文字图像块模块228的所有模块可藉由一或多个电路(例如:硬件电路)实现。类似地,图2B至2C所示的所有模块可藉由硬件电路实现。
图3A与图3B分别示出第一运动向量直方图(例如:运动向量的x分量)与第二运动向量直方图(例如:运动向量的y分量)的示范实施例。如同上述,图1中的滚动文字判断模块130是用以根据文字检测模块120所检测到的文字图像块建立第一运动向量直方图Hx以及第二运动向量直方图Hy。各个文字图像块相关于表示运动边缘的运动的运动向量。各个文字图像块的运动向量具有第一分量(x分量)与第二分量(y分量),而第一分量与第二分量分别对应于水平方向与垂直方向。运动向量的第一分量对应于水平方向上的运动,而运动向量的第二分量对应于垂直方向上的运动。
如图3A所示,文字图像块的运动向量集中于第一运动向量直方图Hx的区间(bin)0与区间21至22,而第一运动向量直方图的局部最大值位于区间21。在图3B中,大多数的运动向量集中于第二运动向量直方图Hy的区间0。上述的第一运动向量直方图与第二运动向量直方图可表示文字在水平方向上滚动,而不在垂直方向上滚动。
图4示出依据本发明的实施例,滚动文字判断模块130决定视频序列是否具有滚动文字的步骤的流程图。在步骤S401中,滚动文字判断模块130决定运动向量的x分量是否集中在0附近以及第一运动向量直方图Hx是否具有局部最大值。若是,则在步骤S403中计算第一运动向量直方图Hx的第一局部最大值。若否,滚动文字判断模块130在步骤S402中决定运动向量的y分量是否集中在0附近与第二运动向量直方图Hy是否具有局部最大值。若是,则在步骤S404中计算第二运动向量直方图Hy的第二局部最大值。若否,滚动文字判断模块130将标志设为0以表示帧F1与帧F2中不存在滚动文字。
若在步骤S403中检测到第一局部最大值(不集中于0的局部最大值),则水平方向被视为滚动文字的方向,且第一局部最大值被视为对应于滚动文字的运动向量。若在步骤S404中检测到第二局部最大值(不集中于0的局部最大值),则垂直方向被视为滚动文字的方向,且第二局部最大值被视为对应于滚动文字的运动向量。
在步骤S405中,滚动文字判断模块130决定对应于滚动文字的运动向量的局部最大值是否超过预设阈值T。若局部最大值未超过预设阈值T,滚动文字判断模块130将标志设为0。若否,则进行步骤S406。
在步骤S406中,滚动文字判断模块130决定对应于滚动文字的运动向量的局部最大值是否超过文字图像块数的比例值(a*textBlockNum),其中a为小数。在一示范实施例中,a小于1。若对应于滚动文字的运动向量的局部最大值未超过文字图像块数的比例值,则将标志设为0,认为帧F1与帧F2中不存在滚动文字。
在步骤S407中,滚动文字判断模块130决定对应于滚动文字的运动向量的局部最大值是否在视频序列中的数个连续帧中保持一致。与先前帧相关的先前局部最大值可从图1所示的先前滚动信息模块140得到。若局部最大值在数个连续帧中并不一致,则将标志设为0,并且帧F1与帧F2中不存在滚动文字。
一般而言,滚动文字判断模块130在满足一组条件时决定帧F1与帧F2中存在滚动文字。此组条件包括:
(i)第一局部最大值与第二局部最大值的其中之一集中在零,且另一个对应于滚动文字的运动向量;
(ii)对应于滚动文字的运动向量的局部最大值超过预设阈值;
(iii)对应于滚动文字的运动向量的局部最大值超过文字图像块数的比例值;以及
(iv)对应于滚动文字的运动向量的局部最大值在视频序列中的数个连续帧中保持不变。
一旦决定滚动文字存在,滚动文字的方向即决定为运动向量直方图中文字图像块不集中于0的方向,而滚动文字的运动向量亦决定为对应于局部最大值的运动向量。例如,一旦水平运动向量直方图的局部最大值满足前述条件组,滚动文字则两帧之间存在滚动文字且文字在水平方向上滚动。此外,与水平向量直方图中的局部最大值相关的运动向量亦被决定为滚动文字的运动向量。
图5示出本发明的实施例中,进行文字区域内插以从连续帧形成插值的文字区域。如图5所示,文字在水平方向上滚动,且运动向量MV(v,0)为滚动文字的运动向量。插值帧finter的每个滚动文字像素值可根据滚动文字的运动向量MV(v,0)与帧fn与帧fn+1的至少其中之一的文字区域获得。
图6示出依据本发明的实施例的图像处理方法。在步骤S601中,图像处理方法根据边缘图的运动边缘对检测文字图像块。边缘图是根据第一帧F1与第二帧F2获得,其中第一帧F1与第二帧F2可为连续帧,但本发明不限于此。值得一提的是,用于检测文字图像块的边缘对组排除了上升边缘与下降边缘之间的距离超过预设区间的边缘对。
在步骤S602中,图像处理方法根据检测到的文字图像块建立第一运动向量直方图与第二运动向量直方图。举例来说,第一运动向量直方图为图3A所示出的水平运动向量直方图Hx,而第二运动向量直方图可为图3B所示出的垂直运动向量直方图Hy。
在步骤S603中,图像处理方法根据第一运动向量直方图与第二运动向量直方图决定滚动文字是否存在以及第一帧与第二帧之间的滚动文字的运动向量。如同上述,滚动文字是否存在、文字滚动的方向以及滚动文字的运动向量是根据一条件组决定。
在步骤S604中,图像处理方法根据多个文字图像块所在行/列以及滚动文字的运动向量定位滚动文字区域的位置,其中文字图像块所在行/列的方向与滚动文字的方向相同。图像块所在行/列是决定滚动文字区域的基本单元。若文字在x(水平方向)上滚动,则视一行图像块为图像块所在行/列。若文字在y(垂直方向)上滚动,则视一列图像块为图像块所在行/列。为了决定当前图像块所在行/列是否为文字图像块所在行/列,可进行以下步骤:
(i)计算当前图像块所在行/列中的文字图像块的运动向量直方图;
(ii)决定直方图最大值,其中最大值代表当前图像块所在行/列中最常出现的运动向量;以及
(iii)判断直方图中的最大值与滚动文字的局部最大值之间的相似度。
若相似度高,则注记当前图像块所在行/列为文字图像块所在行/列。由于滚动文字区域包括数个文字图像块所在行/列,应将孤立的文字图像块所在行/列从文字区域组中移除。此外,由于文字应在帧中保持一致,时域差分滚动文字区域信息可用以决定当前图像块所在行/列是否为文字图像块所在行/列。
在步骤S605中,图像处理方法根据滚动文字的运动向量与第一帧与第二帧的至少其中之一的滚动文字区域决定插值帧中的各个滚动文字像素的位置。如同等式(1)与等式(2)所示,插值帧finter中的各个滚动文字像素值可根据滚动文字的运动向量与帧fn与帧fn+1的至少其中之一的滚动文字区域决定。
图7示出依据本发明的另一实施例的图像处理方法。参照图6与图7,图7中的步骤S701至S705与图6中的步骤S601至S605相同,因此在此省略关于这些步骤的细部描述。在步骤S706中,插值帧的滚动文字区域被分成图像块。此外,根据插值帧的滚动文字像素图,各个图像块被分类为文字图像块或背景图像块。
在步骤S707中,对滚动文字区域的文字图像块分配滚动文字的运动向量,并对滚动文字区域的非文字图像块分配非文字的运动向量。据此,插值帧的文字区域图像块可分为数个不同类型(例如:滚动文字区域中的文字图像块与非文字图像块),并对这些不同类型的文字区域图像块分配对应的运动向量。因此,可显著减少插值帧中明显的视觉瑕疵。
综上所述,在本发明的示范实施例中,帧中的运动边缘对被用以决定与文字相关的边缘并同时排除不相关的边缘,藉以提高文字检测的正确率并减少后续处理时消耗的运算资源。此外,藉由使用滚动文字信息(例如:滚动文字方向、滚动文字的运动向量)与所检测到关于文字的边缘决定插值帧中的滚动文字区域,可正确辨识插值帧中滚动文字区域的位置。另外,滚动文字图像块区域被分为文字图像块与背景图像块,其中插值帧中的文字图像块与背景图像块被分配不同的运动向量(文字运动向量与背景运动向量)。藉此,在插值帧中,适合的运动向量被分配至适合的图像块,文字图像块的位置被正确辨识,且视觉瑕疵被有效地移除。因此,本发明可正确地检测滚动文字并尽可能减少正误识、正确地内插文字区域并有效排除插值帧中其他区域的瑕疵。藉此,观看者可获得较舒适的观看体验。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (20)

1.一种图像处理方法,适于具有第一帧与第二帧的视频序列,其特征在于,包括:
根据边缘图的运动边缘对检测文字图像块,其中所述边缘图是根据所述第一帧与所述第二帧获得;
根据检测到的文字图像块建立第一运动向量直方图与第二运动向量直方图;
根据所述第一运动向量直方图与所述第二运动向量直方图,决定滚动文字是否存在与所述滚动文字的运动向量和方向;
根据多个文字图像块所在行/列与所述滚动文字的所述运动向量,定位所述第一帧与所述第二帧的至少其中之一中的滚动文字区域,其中所述多个文字图像块所在行/列的方向与所述滚动文字的方向相同;以及
根据所述滚动文字的所述运动向量与所述第一帧与所述第二帧的至少其中之一的所述滚动文字区域,决定插值帧中各个滚动文字像素的位置。
2.根据权利要求1所述的图像处理方法,其特征在于,其中根据所述边缘图的所述运动边缘对检测所述文字图像块的步骤包括:
检测所述第一帧与所述第二帧之间的运动边缘;
从检测到的运动边缘中决定所述边缘图的所述运动边缘对,其中各个所述运动边缘对包括上升边缘与下降边缘,且所述上升边缘与所述下降边缘之间的距离在预设区间内。
3.根据权利要求2所述的图像处理方法,其特征在于,其中检测所述第一帧与所述第二帧之间的所述运动边缘的步骤包括:
检测所述第一帧与所述第二帧中的边缘以分别获得第一边缘图与第二边缘图;
计算所述第一边缘图与所述第二边缘图之间的差异,以获得所述第一帧与所述第二帧之间的所述运动边缘;以及
移除静态边缘与弱边缘,其中所述静态边缘与所述弱边缘的绝对差异小于预设的阈值。
4.根据权利要求2所述的图像处理方法,其特征在于,其中边缘对的所述上升边缘与所述下降边缘之间的所述距离定义所述滚动文字的笔划宽度。
5.根据权利要求1所述的图像处理方法,其特征在于,其中决定所述滚动文字是否存在与所述滚动文字的所述运动向量的步骤包括:
决定所述第一运动向量直方图中的第一局部最大值与所述第二运动向量直方图中的第二局部最大值;
决定是否所述第一局部最大值与所述第二局部最大值的其中之一集中在零且另一个不集中在零;
响应于决定所述第一局部最大值与所述第二局部最大值的其中之一集中在零且另一个不集中在零,决定不集中在零的所述局部最大值为对应于所述滚动文字的所述运动向量的局部最大值;
决定对应于所述滚动文字的所述运动向量的所述局部最大值是否超过预设阈值;
决定对应于所述滚动文字的所述运动向量的所述局部最大值是否超过文字图像块数的比例值;以及
决定对应于所述滚动文字的所述运动向量的所述局部最大值是否在所述视频序列中的数个连续帧中保持不变。
6.根据权利要求5所述的图像处理方法,其特征在于,其中当一条件组被满足时,所述第一帧与所述第二帧之间存在滚动文字,所述条件组包括:
(i)所述第一局部最大值与所述第二局部最大值的其中之一集中在零,且另一个对应于所述滚动文字的所述运动向量;
(ii)对应于所述滚动文字的所述运动向量的所述局部最大值超过预设阈值;
(iii)对应于所述滚动文字的所述运动向量的所述局部最大值超过文字图像块数的比例值;以及
(iv)对应于所述滚动文字的所述运动向量的所述局部最大值在所述视频序列中的数个连续帧中保持不变。
7.根据权利要求5所述的图像处理方法,其特征在于,其中:
所述滚动文字的所述方向与所述第一局部最大值对应于所述滚动文字的所述运动向量时的第一方向相同,
所述滚动文字的所述方向与所述第二局部最大值对应于所述滚动文字的所述运动向量时的第二方向相同。
8.根据权利要求1所述的图像处理方法,其特征在于,其中根据所述多个文字图像块所在行/列与所述滚动文字的所述运动向量定位所述第一帧与所述第二帧的至少其中之一中的所述滚动文字区域的步骤包括:
从多个图像块所在行/列中决定所述多个文字图像块所在行/列,其中各个所述图像块所在行/列在所述滚动文字的所述方向上延伸,且各个所述图像块所在行/列包括一系列的图像块;以及
移除孤立的文字图像块所在行/列并设定包括多个连续图像块所在行/列的区域为所述滚动文字区域。
9.根据权利要求8所述的图像处理方法,其特征在于,其中从所述多个图像块所在行/列中决定所述多个文字图像块所在行/列的步骤包括:
计算各个所述图像块所在行/列中的文字图像块的运动向量直方图;
决定所述直方图的最大值;
比较所述直方图的所述最大值与对应于所述滚动文字的所述运动向量的所述局部最大值以获得比较值;以及
响应于决定所述比较值大于预设值,决定所述图像块所在行/列为所述文字图像块所在行/列的其中之一。
10.根据权利要求1所述的图像处理方法,其特征在于,还包括:
将所述插值帧中的所述滚动文字区域分为图像块,并根据所述插值帧的所述滚动文字像素图将各个所述图像块分类为文字图像块或背景图像块;以及
对所述滚动文字区域的所述文字图像块分配所述滚动文字的所述运动向量,并对所述滚动文字区域的所述背景图像块分配背景运动向量。
11.一种图像处理装置,其特征在于,包括:
内存,用以存储多个模块;以及
处理器,用以执行存储于所述内存的所述多个模块,其中所述多个模块包括:
文字检测模块,用以根据边缘图的运动边缘对检测文字图像块,其中所述边缘图是根据所述第一帧与所述第二帧获得;
滚动文字判断模块,用以根据所述文字检测模块检测到的所述文字图像块建立第一运动向量直方图与第二运动向量直方图,并用以根据所述第一运动向量直方图与所述第二运动向量直方图决定滚动文字是否存在与所述滚动文字的运动向量;
文字预测模块,用以根据多个文字图像块所在行/列与所述滚动文字的所述运动向量定位所述第一帧与所述第二帧的至少其中之一中的滚动文字区域,其中所述多个文字图像块所在行/列的方向与所述滚动文字的方向相同,且所述文字预测模块还用以根据所述滚动文字的所述运动向量与所述第一帧与所述第二帧的至少其中之一的所述滚动文字区域决定插值帧中各个滚动文字像素的位置。
12.根据权利要求11所述的图像处理装置,其特征在于,其中所述文字检测模块还用以:
检测所述第一帧与所述第二帧之间的运动边缘;
从检测到的运动边缘中决定所述边缘图的所述运动边缘对,其中各个所述运动边缘对包括上升边缘与下降边缘,且所述上升边缘与所述下降边缘之间的距离在预设区间内。
13.根据权利要求12所述的图像处理装置,其特征在于,其中所述文字检测模块还用以:
检测所述第一帧与所述第二帧中的边缘以分别获得第一边缘图与第二边缘图;
计算所述第一边缘图与所述第二边缘图之间的差异,以获得所述第一帧与所述第二帧之间的所述运动边缘;以及
移除静态边缘与弱边缘,其中所述静态边缘与所述弱边缘的绝对差异小于预设的阈值。
14.根据权利要求12所述的图像处理装置,其特征在于,其中边缘对的所述上升边缘与所述下降边缘之间的所述距离定义所述滚动文字的笔划宽度。
15.根据权利要求11所述的图像处理装置,其特征在于,其中所述滚动文字判断模块还用以:
决定所述第一运动向量直方图中的第一局部最大值与所述第二运动向量直方图中的第二局部最大值;
决定是否所述第一局部最大值与所述二局部最大值的其中之一集中在零且另一个不集中在零;
响应于决定所述第一局部最大值与所述二局部最大值的其中之一集中在零且另一个不集中在零,决定不集中在零的所述局部最大值为对应于所述滚动文字的所述运动向量的局部最大值;
决定对应于所述滚动文字的所述运动向量的所述局部最大值是否超过预设阈值;
决定对应于所述滚动文字的所述运动向量的所述局部最大值是否超过文字图像块数的比例值;以及
决定对应于所述滚动文字的所述运动向量的所述局部最大值是否在所述视频序列中的数个连续帧中保持不变。
16.根据权利要求15所述的图像处理装置,其特征在于,其中所述滚动文字判断模块还用以:
当一条件组被满足时,决定所述第一帧与所述第二帧之间存在滚动文字,所述条件组包括:
(i)所述第一局部最大值与所述第二局部最大值的其中之一集中在零,且另一个对应于所述滚动文字的所述运动向量;
(ii)对应于所述滚动文字的所述运动向量的所述局部最大值超过预设阈值;
(iii)对应于所述滚动文字的所述运动向量的所述局部最大值超过文字图像块数的比例值;以及
(iv)对应于所述滚动文字的所述运动向量的所述局部最大值在所述视频序列中的数个连续帧中保持不变。
17.根据权利要求15所述的图像处理装置,其特征在于,其中:
所述滚动文字的所述方向与所述第一局部最大值对应于所述滚动文字的所述运动向量时的第一方向相同,
所述滚动文字的所述方向与所述第二局部最大值对应于所述滚动文字的所述运动向量时的第二方向相同。
18.根据权利要求11所述的图像处理装置,其特征在于,其中所述文字预测模块用以:
从多个图像块所在行/列中决定所述多个文字图像块所在行/列,其中各个所述图像块所在行/列在所述滚动文字的所述方向上延伸,且各个所述图像块所在行/列包括一系列的图像块;以及
移除孤立的文字图像块所在行/列并设定包括多个连续图像块所在
行/列的区域为所述滚动文字区域。
19.根据权利要求18所述的图像处理装置,其特征在于,其中所述文字预测模块用以:
计算各个所述图像块所在行/列中的文字图像块的运动向量直方图;
决定所述直方图的最大值;
比较所述直方图的所述最大值与对应于所述滚动文字的所述运动向量的所述局部最大值以获得比较值;以及
响应于决定所述比较值大于预设值,决定所述图像块所在行/列为所述文字图像块所在行/列的其中之一。
20.根据权利要求11所述的图像处理装置,其特征在于,还包括:
运动向量分配模块,用以:
将所述插值帧中的所述滚动文字区域分为图像块;
根据所述插值帧的所述滚动文字像素图将各个所述图像块分类为文字图像块或背景图像块;以及
对所述滚动文字区域的所述文字图像块分配所述滚动文字的所述运动向量,并对所述滚动文字区域的所述背景图像块分配背景运动向量。
CN201711022796.0A 2017-10-27 2017-10-27 图像处理方法与图像处理装置 Expired - Fee Related CN109729298B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201711022796.0A CN109729298B (zh) 2017-10-27 2017-10-27 图像处理方法与图像处理装置
US15/807,600 US10445583B2 (en) 2017-10-27 2017-11-09 Method for scrolling text processing and image processing apparatus using the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711022796.0A CN109729298B (zh) 2017-10-27 2017-10-27 图像处理方法与图像处理装置

Publications (2)

Publication Number Publication Date
CN109729298A true CN109729298A (zh) 2019-05-07
CN109729298B CN109729298B (zh) 2020-11-06

Family

ID=66244042

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711022796.0A Expired - Fee Related CN109729298B (zh) 2017-10-27 2017-10-27 图像处理方法与图像处理装置

Country Status (2)

Country Link
US (1) US10445583B2 (zh)
CN (1) CN109729298B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112631480A (zh) * 2020-12-25 2021-04-09 游艺星际(北京)科技有限公司 图片序列的自动展示方法、装置、电子设备和存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11409791B2 (en) 2016-06-10 2022-08-09 Disney Enterprises, Inc. Joint heterogeneous language-vision embeddings for video tagging and search
US10558761B2 (en) * 2018-07-05 2020-02-11 Disney Enterprises, Inc. Alignment of video and textual sequences for metadata analysis
US20220058452A1 (en) * 2020-08-24 2022-02-24 Qualcomm Incorporated Spatiotemporal recycling network
US20230088882A1 (en) * 2021-09-22 2023-03-23 Samsung Electronics Co., Ltd. Judder detection for dynamic frame rate conversion

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090016618A1 (en) * 2007-07-11 2009-01-15 Samsung Electronics Co., Ltd. System and method for detecting scrolling text in mixed mode film and video
WO2010046990A1 (ja) * 2008-10-23 2010-04-29 パイオニア株式会社 内挿フレーム生成装置、フレームレート変換装置、表示装置、内挿フレーム生成方法、そのプログラム、および、そのプログラムを記録した記録媒体
CN101796813A (zh) * 2007-09-10 2010-08-04 Nxp股份有限公司 用于视频图像数据中的运动估计的方法和装置
CN102447870A (zh) * 2010-09-30 2012-05-09 宝利微电子系统控股公司 静止物体检测方法和运动补偿装置
CN104285241A (zh) * 2012-04-03 2015-01-14 Eizo株式会社 运动图像区域判定装置或其方法
CN105282475A (zh) * 2014-06-27 2016-01-27 澜起科技(上海)有限公司 移动字幕检测与补偿方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100930043B1 (ko) * 2002-11-23 2009-12-08 삼성전자주식회사 스크롤링 텍스트나 그래픽 데이터를 검출할 수 있는움직임 추정장치 및 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090016618A1 (en) * 2007-07-11 2009-01-15 Samsung Electronics Co., Ltd. System and method for detecting scrolling text in mixed mode film and video
CN101796813A (zh) * 2007-09-10 2010-08-04 Nxp股份有限公司 用于视频图像数据中的运动估计的方法和装置
WO2010046990A1 (ja) * 2008-10-23 2010-04-29 パイオニア株式会社 内挿フレーム生成装置、フレームレート変換装置、表示装置、内挿フレーム生成方法、そのプログラム、および、そのプログラムを記録した記録媒体
CN102447870A (zh) * 2010-09-30 2012-05-09 宝利微电子系统控股公司 静止物体检测方法和运动补偿装置
CN104285241A (zh) * 2012-04-03 2015-01-14 Eizo株式会社 运动图像区域判定装置或其方法
CN105282475A (zh) * 2014-06-27 2016-01-27 澜起科技(上海)有限公司 移动字幕检测与补偿方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112631480A (zh) * 2020-12-25 2021-04-09 游艺星际(北京)科技有限公司 图片序列的自动展示方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN109729298B (zh) 2020-11-06
US20190130187A1 (en) 2019-05-02
US10445583B2 (en) 2019-10-15

Similar Documents

Publication Publication Date Title
CN109729298A (zh) 图像处理方法与图像处理装置
CN110458061B (zh) 一种识别老年人跌倒的方法及陪伴机器人
US20200005022A1 (en) Method, terminal, and storage medium for tracking facial critical area
CN107480585B (zh) 基于dpm算法的目标检测方法
CN103632159B (zh) 训练分类器、图像中文字区域检测的方法及系统
CN112967341B (zh) 基于实景图像的室内视觉定位方法、系统、设备及存储介质
CN108197644A (zh) 一种图像识别方法和装置
CN106097256B (zh) 一种基于图像盲去模糊的视频图像模糊度检测方法
CN104969261B (zh) 用于检测移动物体的方法和系统
CN104751153B (zh) 一种识别场景文字的方法及装置
US10110846B2 (en) Computationally efficient frame rate conversion system
CN102938062A (zh) 一种基于内容的文档图像倾斜角估计方法
Belaïd et al. Handwritten and printed text separation in real document
CN101324958A (zh) 一种目标跟踪方法及装置
CN116030396B (zh) 一种用于视频结构化提取的精确分割方法
CN111178367A (zh) 适应多物件尺寸的特征决定装置及方法
CN104268595A (zh) 通用物件检测方法及系统
CN109993028A (zh) 人脸辨识装置及方法、提升影像辨识率的方法
JP5027201B2 (ja) テロップ文字領域検出方法,テロップ文字領域検出装置およびテロップ文字領域検出プログラム
JP2013080389A (ja) 消失点推定方法、消失点推定装置及びコンピュータプログラム
CN109726621A (zh) 行人检测方法、装置及设备
CN110135382B (zh) 一种人体检测方法和装置
CN115035164A (zh) 一种运动目标识别方法及装置
CN112101139B (zh) 人形检测方法、装置、设备及存储介质
Yuan et al. A robust vanishing point estimation method for lane detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201106

Termination date: 20211027

CF01 Termination of patent right due to non-payment of annual fee