CN1512439A

CN1512439A - 视频文本处理装置

Info

Publication number: CN1512439A
Application number: CNA2003101102875A
Authority: CN
Inventors: 孙俊; 胜山裕; 直井聪
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2002-12-26
Filing date: 2003-12-26
Publication date: 2004-07-14
Anticipated expiration: 2023-12-26
Also published as: CN1848138A; US20050201619A1; CN100356389C; CN100458833C; US7929765B2; JP4112968B2; US20100220930A1; US7787705B2; JP2004213095A

Abstract

通过从给定的视频帧中去除多余的帧和非文本帧，选择包含文本区域的视频帧，通过去除伪笔划确定所选择的帧中的文本区域，提取文本区域中的文本行并进行二值化。

Description

视频文本处理装置

技术领域

本发明涉及视频图像处理装置，更具体地涉及用于电子教学视频的文本图像提取设备。文本变化帧检测装置找出包含文本信息的视频帧。文本提取装置从这些视频帧中提取出文本信息，并把所提取的文本信息发送到光学字符识别(OCR)引擎进行识别。

背景技术

在视频和图像中的文本提取是一项非常重要的技术，并具有广泛的应用，例如应用于减少存储容量，视频和图像索引，以及数字图书馆等等。

本发明专注于一种特殊的视频类型——电子教学视频，其通常包含大量文本信息。为了有效地提取视频中的文本内容，需要两种技术：视频中的文本变化帧检测和从图像中提取文本。文本变化帧是标记视频中文本内容的变化的帧。第一种技术快速浏览视频，并选择那些包含文本区域的视频帧。第二种技术则从那些视频帧中提取文本信息，并把它们发送到OCR引擎进行识别。

文本变化帧检测技术可视为场景变化帧检测技术的特殊情况。近年来对于从视频中的多个帧中标记视频中内容变化的检测场景变化帧的技术的研究很活跃。一些方法专注于在帧之间的亮度差异，一些方法专注于色彩直方图和纹理的差异。但是，这些方法不适合于视频中，特别是在电子教学领域中的文本变化帧检测。

以一种典型的电子教学视频——演示视频做个例子，其中视频帧经常包含幻灯片图像。幻灯片图像例子包括Powerpoint^图像和来自投影仪的胶片图像。幻灯片内容的变化不会导致色彩和结构的显著变化。此外，在演讲期间在一个幻灯片图像中视频摄像机的焦距经常四处移动，这将导致图像移动。当演讲人移动他或她的幻灯片时也会出现图像移动。通过常规的方法这些内容移位帧将被标记为场景变化帧。常规方法另外一个缺点是它们不能直接判断一个帧是否包含文本信息。

从视频中提取文本变化帧的另外一种方法是对视频中的每个帧执行文本提取方法，并判断内容是否已经变化。这种策略的问题在于它将非常耗时。

在检测到文本变化帧后，应该使用文本提取方法从帧中提取文本行。提出了很多从视频和静态图像中提取文本行的方法，例如：

V.Wu，R.Manmatha和E.M.Riseman，“TextFinder：An automaticSystem to Detect and Recognize Text in Images″IEEE Transactionson Pattern Analysis and Machine Intelligence，VOL.21，NO.11，pp.1224-1229，1999年11月。

T.Sato，T.Kanade，E.Hughes，M.Smith和S.Satoh，“Video OCR：Indexing Digital News Libraries by Recognition of SuperimposedCaptions，”ACM Multimedia Systems Special Issue on Video Libraries，1998年2月。

此外，一些涉及本领域的专利也已经公开了，例如美国专利No.6.366,699，5,465,304，5,307,422。

当处理电子教学中的视频帧时，这些方法将遇到一些问题。电子教学视频图像中的字符经常具有非常小的尺寸，并且这些字符的边界非常模糊，同时在文本区域周围存在很多干扰，例如文本行的边框，人体的阴影和遮挡等。

然而，在上述常规视频图像处理中存在下列问题。

对视频中的每个帧执行文本提取方法并判断内容是否已经变化是非常耗时的。

电子教学视频图像中的字符总是具有非常小的尺寸，并且这些字符的边界非常模糊，同时在文本区域周围存在很多干扰。因此，常规的文本提取方法将在最终的二值化图像中留下很多伪字符笔划，其将在后面的OCR阶段给出错误的识别结果。

发明内容

本发明一个目的是在保持很高的恢复率的同时，快速地从多个视频帧中选择侯选文本变化帧，这里恢复率定义为所提取的正确的文本变化帧与正确的文本变化帧的总量的比率。

本发明的另一目的是提供一种用于有效地检测文本变化帧中的文本区域，尽可能多地去除伪字符笔划，并为每个文本行提供二值化图像的方案。

上述目的通过一种视频文本处理装置得以实现，该装置用于从视频的所有帧中快速选择出那些包含文本内容的帧，标记文本帧中每个文本行的区域，并以二值化形式输出文本行，该视频文本处理装置包括用于在视频中快速选择文本帧的文本变化帧检测装置，以及用于在文本帧中提取文本行的文本提取装置。二值化形式是，例如，由相应于背景的黑像素和相应于字符笔划的白像素表示的。

第一文本变化帧检测装置包括第一帧去除装置、第二帧去除装置、第三帧去除装置和输出装置，并从给定的视频帧中选择多个包含文本内容的视频帧。第一帧去除装置从给定的视频帧中除去多余的视频帧。第二帧去除装置从给定的视频帧中除去不包含文本区域的视频帧。第三帧去除装置从给定的视频帧中检测并除去由图像移动导致的多余视频帧。输出装置输出其余的视频帧作为候选文本变化帧。

第二文本变化帧检测装置包括图像块确认装置、图像块相似度测量装置、帧相似性判断装置和输出装置，并从给定的视频帧中选择多个包含文本内容的视频帧。图像块确认装置确定在给定视频帧的两个视频帧中处在相同位置的两个图像块是否是能够显示图像内容变化的有效块对。图像块相似度测量装置计算有效块对的两个图像块的相似性，并确定两个图像块是否相似。帧相似性判断装置利用相似的图像块的数目与有效块对的总数的比率来确定两个视频帧是否相似。在去除相似的视频帧后，输出装置输出其余的视频帧作为候选文本变化帧。

第三文本变化帧检测装置包括快速简易图像二值化装置、文本行区域确定装置、重新二值化装置、文本行确认装置、文本帧验证装置和输出装置，并从给定的视频帧中选择多个包含文本内容的视频帧。快速简易图像二值化装置产生给定视频帧中一个视频帧的第一二值化图像。文本行区域确定装置利用第一二值化图像的水平投影和垂直投影确定文本行区域的位置。重新二值化装置产生每个文本行区域的第二二值化图像。文本行确认装置利用在第一二值化图像和第二二值化图像之间的差异和在文本行区域中前景像素的数目与在文本行区域中像素的总数的填充比率来确定文本行区域的有效性。文本帧验证装置利用在一组连续视频帧中有效文本行区域的数目来确认一组连续视频帧是否是不包含文本区域的非文本帧。在去除该非文本帧后，输出装置输出其余的视频帧作为候选文本变化帧。

第四文本变化帧检测装置包括快速简易图像二值化装置、文本行垂直位置确定装置、垂直移动检测装置、水平移动检测装置和输出装置，并从给定的视频帧中选择多个包含文本内容的视频帧。快速简易图像二值化装置产生给定视频帧中的两个视频帧的二值化图像。文本行垂直位置确定装置利用这两个视频帧的二值化图像的水平投影确定每个文本行区域的垂直位置。利用在水平投影之间的相关性，垂直移动检测装置确定在两个视频帧之间的图像移动的垂直偏移，以及这两个视频帧在垂直方向的相似性。利用在两个视频帧的二值化图像中的每个文本行垂直投影之间的相关性，水平移动检测装置确定图像移动的水平移动和两个视频帧在水平方向的相似性。在去除相似的视频帧后，输出装置输出其余的视频帧作为候选文本变化帧。

在文本变化帧检测装置检测到视频中的候选文本变化帧之后，每个帧的图像被发送到文本提取装置进行文本提取。

第一文本提取装置包括边缘图像生成装置、笔划图像生成装置、笔划过滤装置、文本行区域形成装置、文本行验证装置、文本行二值化装置和输出装置，并且从给定的图像中提取至少一个文本行区域。边缘图像生成装置产生给定的图像的边缘信息。笔划图像生成装置利用边缘信息产生给定的图像中候选字符笔划的二值化图像。笔划过滤装置利用边缘信息从二值化图像除去伪笔划。文本行区域形成装置把多个笔划合并到文本行区域中。文本行验证装置从文本行区域中除去伪字符笔划并重组文本行区域。文本行二值化装置利用文本行区域的高度将文本行区域二值化。输出装置输出文本行区域的二值化图像。

第二文本提取装置包括边缘图像生成装置、笔划图像生成装置、笔划过滤装置和输出装置，并从给定的图像中提取至少一个文本行区域。边缘图像生成装置产生给定的图像的边缘图像。笔划图像生成装置利用边缘图像产生给定图像中候选字符笔划的二值化图像。笔划过滤装置通过边缘图像中指示边缘的像素检查在候选字符笔划的二值化图像中笔划的轮廓的重叠率，如果重叠率大于预定的阈值，则确定笔划是有效笔划，而如果重叠率小于预定的阈值，则为无效笔划，并且除去无效笔划。输出装置输出候选字符笔划二值化图像中其余的笔划的信息。

在文本提取装置提取文本行区域之后，发送文本行区域到OCR引擎进行识别。

附图说明

图1显示了根据本发明的视频文本处理装置的配置；

图2显示了视频文本处理装置的处理流程图；

图3显示了根据本发明的文本变化帧检测装置的配置；

图4显示了帧相似度测量单元的配置；

图5显示了文本帧检测和核查单元的配置；

图6显示了图像移动检测单元的配置；

图7显示了具有文本内容的第一帧；

图8显示了具有文本内容的第二帧；

图9显示了帧相似度测量单元的处理结果；

图10显示了帧相似度测量单元操作的流程图；

图11显示了确定两个帧相似性的流程图；

图12显示了图像块确认单元的操作流程图；

图13显示了图像块相似度测量单元的操作流程图；

图14显示了用于文本帧检测和核查的原始视频帧；

图15显示了由快速简易图像二值化产生的第一二值化图像；

图16显示了水平投影的结果；

图17显示了投影正则化的结果；

图18显示了在每个候选文本行中垂直二值化投影的结果；

图19显示了文本行区域确定结果；

图20显示了两个候选文本行区域的两对二值化图像；

图21显示了检测到的文本行区域；

图22显示了文本帧检测和核查单元的操作的流程图(No.1)；

图23显示了文本帧检测和核查单元的操作的流程图(No.2)；

图24显示了快速简易图像二值化单元的操作的流程图；

图25显示了Niblack图像二值化方法的流程图；

图26显示了文本行区域确定单元的操作的流程图；

图27显示了水平图像投影的流程图；

图28显示了投影平滑的流程图；

图29显示了投影正则化的流程图；

图30显示了在投影中最大和最小的例子；

图31显示了文本行确认单元的操作的流程图；

图32显示了图像移动检测单元的操作流程图(No.1)；

图33显示了图像移动检测单元操作的流程图(No.2)；

图34显示了根据本发明的文本提取装置的配置；

图35显示了边缘图像生成单元的配置；

图36显示了笔划图像生成单元的配置；

图37显示了笔划过滤单元的配置；

图38显示了文本行区域形成单元的配置；

图39显示了文本行验证单元的配置；

图40显示了文本行二值化单元的配置；

图41显示了用于文本提取的原始视频帧；

图42显示了边缘图像生成的结果；

图43显示了笔划生成的结果；

图44显示了笔划过滤的结果；

图45显示了文本行区域形成的结果；

图46显示了最终的二值化文本行区域；

图47显示了边缘图像生成单元的操作流程图(No.1)；

图48显示了边缘图像生成单元的操作流程图(No.2)；

图49显示了像素I的邻近排列；

图50显示了边缘强度计算单元的操作流程图；

图51显示了笔划图像生成单元的操作流程图；

图52显示了笔划过滤单元的操作的流程图；

图53显示了笔划边缘覆盖范围验证单元的操作的流程图；

图54显示了文本行区域形成单元的操作的流程图；

图55显示了笔划连接检查单元的操作流程图；

图56显示了文本行确认单元的操作的流程图；

图57显示了垂直伪笔划检测单元的操作流程图；

图58显示了多文本行检测的流程图；

图59显示了水平伪笔划检测单元的操作流程图；

图60显示了第一伪笔划；

图61显示了第二伪笔划；

图62显示了文本行二值化单元的操作流程图；

图63显示了信息处理装置的配置；以及

图64显示了存储介质。

具体实施方式

以下参照附图详细说明本发明的实施例。

图1显示了根据本发明的视频文本处理装置的配置。该装置的输入是现成的视频数据101或来自电视(TV)摄像机102的现场视频流，输入的视频数据首先通过视频分解单元103分解为连续帧。然后使用文本变化帧检测装置104寻找视频帧中的候选文本变化帧。文本变化帧检测装置将大大减少总处理时间。此后，将文本提取装置105应用于每个候选文本变化帧，以检测帧中的文本行(文本区域)，并输出文本行的图像到数据库106进行进一步的OCR处理。

图2显示了图1所示的视频文本处理装置的处理流程图。视频分解单元103执行S201中的处理，文本变化帧检测装置104执行S202到S204中的处理，文本提取装置105执行S205到S210中的处理。

首先将输入视频分解为连续帧(S201)。然后执行帧相似度测量以测量两个邻近的帧的相似性(S202)。如果两个帧是相似的，则去除第二帧。执行下一个文本帧检测和确认以判断S202的处理中其余的帧是否包含文本行(S203)。如果帧不包含文本行，则去除该帧。进一步执行图像移动检测以确定在两个帧中是否存在图像移动(S204)。如果是，则去除第二帧。文本变化帧检测装置104的输出是一组候选文本变化帧。

对每个候选文本变化帧，执行边缘图像生成以产生帧的边缘图像(S205)。然后根据边缘信息执行笔划生成以产生笔划图像(S206)。接下来基于边缘信息执行笔划过滤以除去伪笔划(S207)。进一步执行文本行区域形成以把各个笔划连接成文本行(S208)。此后，执行文本行核查以除去文本行中伪笔划并重组文本行(S209)。最后，执行文本行二值化以产生文本行最终的二值化图像(S210)。最终的输出是一系列二值化文本行图像，它们将由OCR引擎处理以进行识别。

图3显示了图1所示的文本变化帧检测装置104的配置。输入的视频帧首先被发送到用于删除重复帧的帧相似度测量单元301，然后使用文本帧检测和核查单元302检查帧是否包含文本信息。接下来，使用图像移动检测单元303除去图像移动导致的多余帧。帧相似度测量单元301、文本帧检测和核查单元302以及图像移动检测单元303分别相应于第一、第二和第三帧去除装置。文本变化帧检测装置104很适合于检测在电子教学视频中的文本变化帧。它可在保持较高的恢复率的同时快速除去重复的视频帧、移动视频帧以及不包含文本区域的视频帧。

图4显示了图3所示的帧相似度测量单元301的配置。帧相似度测量单元301包括图像块确认单元311、图像块相似度测量单元312以及帧相似性判断单元313。图像块确认单元311确定处在两个视频帧的相同位置的两个图像块是否为有效块对。有效块对是能够说明图像内容变化的图像块对。图像块相似度测量单元312计算有效块对的两个图像块的相似性，并确定两个图像块是否相似。利用相似的图像块的数目与有效块对总数的比率，帧相似性判断单元313确定两个视频帧是否相似。根据帧相似度测量单元301，可从视频帧中有效地检测并除去重复的帧。

图5显示了图3所示的文本帧检测和核查单元302的配置。文本帧检测和核查单元302包括快速简易图像二值化单元321、文本行区域确定单元322、重新二值化单元323、文本行确认单元324以及文本帧验证单元325。快速简易图像二值化单元321生成视频帧的第一二值化图像。文本行区域确定单元322利用第一二值化图像的水平投影和垂直投影确定文本行区域的位置。重新二值化单元323产生每个文本行区域的第二二值化图像。利用第一二值化图像和第二二值化图像之间的差异和在文本行区域中前景像素数与文本行区域中像素总数的填充比率，文本行确认单元324确定文本行区域的有效性。文本帧验证单元325利用在一组连续视频帧中有效文本行区域的数目确认一组连续视频帧是否为不包含文本区域的非文本帧。根据文本帧检测和核查单元302，从视频帧中快速检测并除去非文本帧。

图6显示了图3所示的图像移动检测单元303的配置。图像移动检测单元303包括快速简易图像二值化单元331、文本行垂直位置确定单元332和垂直移动检测单元333、水平移动检测单元334。快速简易像二值化单元331产生两个视频帧的二值化图像。文本行垂直位置确定单元332利用二值化图像的水平投影确定每个文本行区域的垂直位置。利用水平投影之间的相关性，垂直移动检测单元333确定在两个视频帧之间图像移动的垂直偏移和两个视频帧在垂直方向的相似性。利用在二值化图像中每个文本行的垂直投影之间的相关性，水平移动检测单元334确定图像移动的水平偏移和两个视频帧在水平方向的相似性。根据图像移动检测单元303，可从视频帧中快速检测并除去图像移动导致的多余帧。

图7和8显示了具有相同的文本内容的两个帧。图9显示了帧相似度测量单元301对这两个帧的处理结果。在图9中的白框标出了所有包括在有效块对中并能够显示内容变化的有效图像块。实线框代表相似的图像块，而虚线框代表不相似的图像块。由于相似的图像块的数目与有效块的数目的比率大于预定的阈值，这两个图像被认为是相似的并且去除第二帧。

图10显示了图4所示的帧相似度测量单元301的操作流程图。在第0秒的第0帧开始比较(S501)，当前的第i帧与第j帧比较，其具有STEP帧的帧间隔(S502)。如果在两个帧比较中，第i帧与第j帧相似(S503)，则当前帧跳到第j帧(S510)，并重复S502和S503中的比较处理。

如果两个帧不相同，从当前帧之后的一个帧重新开始比较，即第k帧(S504和S505)。检查k是否小于j(S506)。如果第k帧在第j帧之前，并且如果第i帧与第k帧相似(S511)，则当前帧被指定为第k帧(S512)，并重复S502和S503中的比较处理。

如果第i帧不同于第k帧，则k增加1(S505)，并检查k是否小于j。如果k不小于j，那将意味着第j帧与先前的帧不同，第j帧标记为新的候选文本变化帧(S507)。从第j帧开始新的搜索(S508)。如果当前搜索帧的索引i和STEP的和大于输入视频帧的总数nFrame(S509)，则结束搜索，并且把所找到的候选文本变化帧送到后面的单元302和303进行进一步处理。否则，继续搜索。

帧间隔STEP的目的是减少搜索操作的总时间。如果STEP太大而且视频内容迅速变化，则性能会下降。如果STEP太小，总搜索时间也不会很短。例如，该帧间隔选为STEP＝4帧。

图11显示了图10所示的S503中确定两个帧相似性的操作流程图。通过在图11中用k替换j可获得S511中的处理的流程图。

开始时，图像块计数n、有效块计数nValid和相似块计数nSimilar都被设置为零(S513)。然后第i帧和第j帧被分成无重叠的尺寸为NxN的小图像块，并且图像块的数目被记录为nBlock(S514)。例如，这里N＝16。在两个帧中相同的位置的两个图像块被定义为图像块对。对每个图像块对，图像块确认单元311被用于检查是否图像块对是有效块对(S515)。通过检测每个图像块对中的变化可以实现两个帧之间变化的检测。即使内容已经变化，幻灯片的背景部分通常不变化。因此在这些部分中的图像块对不应被认为是有效块对。

如果块对无效，则检查下一个块对(S519和S520)。如果块对是有效块对，则有效块计数nValid增加1(S516)，而图像块相似度测量单元312被用于测量两个图像块的相似性(S517)。如果块是相似的，则相似块计数nSimilar增加1(S518)。当比较了所有的块对时(S519和S520)，帧相似性判断单元313被用于确定两个帧是否相似(S521)。如果满足下列条件(S522)，则两个帧被认为是相似的：

nSimilar＞nValid*simrate，

例如，这里simrate＝0.85。如果不满足上面的条件，两个帧被认为是不相似的(S523)。

图12显示了图11所示的图像块确认单元311在S515中的操作的流程图。首先，计算第n个图像块对的均值和方差(S524)。在第i帧中图像块的灰度的均值和方差分别由M(i)和V(i)表示。在第j帧中图像块的灰度的均值和方差分别由M(j)和V(j)表示。如果块对的两个方差V(i)和V(j)都小于预定的阈值Tv(S525)，并且两个均值M(i)和M(j)的绝对差也小于预定的阈值Tm(S526)，则图像块对是无效块对(S527)。否则，图像块对是有效块对(S528)。

图13显示了图11所示的S517中图像块相似度测量单元312的操作的流程图。首先计算第n个图像块对的均值M(i)和M(j)(S529)。如果两个均值M(i)和M(j)的绝对差大于预定的阈值Tm1(S530)，则两个图像块被认为是不相似的图像块(S534)。否则，计算两个图像块的相关性C(i，j)(S531)。如果相关性C(i，j)大于预定的阈值Tc(S532)，则两个图像块是相似的(S533)，并如果相关性小于阈值Tc，则两个图像块是不相似的(S534)。

图14到21显示了通过在图5所示的文本帧检测和核查单元302执行处理的一些样例结果。图14显示了原始视频帧。图15显示了由快速简易图像二值化产生的第一二值化图像。图16显示了水平二值化投影的结果。图17显示了投影正则化的结果。图18显示了在每个候选文本行中垂直二值化投影的结果。图19显示了文本行区域确定结果。灰色矩形指示候选文本行区域。

图20显示了图19中以虚线标记的两个候选文本行区域的两个二值化图像对的结果。第一对二值化图像包含文本信息。这两个图像之间的差异很小。因此这个文本行区域被视为真正的文本行区域。第二对二值化图像有很大差异。由于不相同部分大于预定的阈值，所以该区域被认为是非文本行区域。图21显示了检测到的文本行区域。

图22和23显示了图3所示的文本帧检测和核查单元302的操作流程图。首先，执行连续候选帧部分检测以将由帧相似度测量单元301输出的候选文本帧分类成多个部分，每个部分包含一系列连续候选帧(S701)。这些部分的数目由nSection表示。从第一部分开始(S702)，如果第i部分的连续候选帧M(i)的数目大于预定的阈值Tncf(S703)，则快速简易图像二值化单元321被用于获得所有视频帧的每个二值化图像(S704)。然后使用文本行区域确定单元322确定文本行的区域(S705)，文本行区域确定单元322使用二值化图像的水平和垂直投影。

接下来从第一个检测到的文本行区域开始(S706)，使用重新二值化单元323产生文本行区域的第二二值化图像(S707)。重新二值化单元323对每个检测到的文本行的整个区域使用Niblack图像二值化方法以获得二值化图像。通过文本行确认单元324比较同一文本行区域的两个二值化图像(S708)。如果两个二值化图像是相似的，则第i部分的相似文本行计数nTextLine(i)增加1(S709)。对这M(i)个连续候选帧中的所有文本行重复此过程(S710和S711)。

有时非文本帧会被检测为包含一些文本行，但是如果一系列候选帧不包含任何文本行，则在这些帧中检测到的文本行的总数不太可能很大。因此文本帧验证单元325被用于确认一系列候选文本帧是否是非文本帧。如果满足下列条件，一系列候选文本帧被认为是非文本帧(S712)：

nTextLine(i)≤αM(i)，

并且错误的候选文本帧被去除(S713)。这里，α是通过实验确定的正实数。通常它被设为α＝0.8。对所有的连续候选帧部分重复此过程(S714和S715)。

图24显示了图22所示的S704中快速简易二值化单元321的操作流程图。帧图像首先被分成具有NxN尺寸的无重叠的图像块，并且图像块的数目被记录为nBlock(S716)。例如，这里N＝16。从第一图像块开始(S717)，使用Niblack图像二值化方法对每个图像块进行二值化(S718)。Niblack图像二值化的参数k被设为k＝-0.4。对所有的图像块重复该过程(S719和S720)。

图25显示了图24所示的S718中Niblack图像二值化方法的流程图。输入是一个MxN尺寸的灰度图像。首先，计算图像的均值Mean和方差Var(S721)。如果方差Var小于预定的阈值Tv(S722)，则所有的像素在二值化图像中被设为0。如果Var＞Tv，则通过下列公式计算二值化阈值T：

T＝Mean+k*Var。

对于每个图像像素i，如果像素的灰度gray(i)大于T(S726)，则在二值化图像中像素bin(i)被设为0(S727)，否则，像素被设为1(S728)。对二值化图像中所有的像素重复此过程(S729和S730)。

图26显示了图22所示的S705中文本行区域确定单元322的操作流程图。此单元的输入是来自S704的视频帧的二值化图像。首先计算水平图像投影Prjh(S731)。该投影随后被平滑(S732)和正则化(S733)。Prjh的正则化结果是Prjhr，它仅具有两个值：0或1。1意味着该位置具有大的投影值，0意味着该位置具有小的投影值。在Prjhr中的每个1的区域的起点和终点被分别记录为sy(i)和ey(i)(S734)。对Prjhr中的每个1区域，计算垂直图像投影Prjv(i)(S735)。Prjv(i)被平滑(S736)并且正则化为Prjvr(i)(S737)。如果Prjvr(i)中的两个1区域之间的距离小于2*区域高度，则这两个1区域被连接成一个区域，并且连接的区域的起始和终点被分别记录为sx(i)和ex(i)(S738)。输出sx(i)，ex(i)，sy(i)和ey(i)确定文本行的第i区域(S739)。

图27显示了图26所示的S731中水平图像投影的流程图。从第一水平行开始(S740)，通过下列公式计算第i水平行的投影(S741)：

prj (i) = Σ_{j = 0}^{w - 1} I (i, j)

其中I(i，j)是第i行和第j列中的像素值，而w是图像宽度。为图像中的所有水平行重复这个计算，h作为图像的高度(S742和S743)。

图28显示了图26所示的S732中投影平滑的流程图。从平滑窗的边界δ开始(S744)，通过下列公式计算在平滑投影prjs(i)中的第i点的值(S745)：

prjs (i) = \frac{1}{2 δ + 1} Σ_{j = i - δ}^{i + δ} prj (j),

其中平滑窗口的长度为2*δ+1。对平滑投影中所有的点重复这个计算，L作为平滑范围(S746和S747)。

图29显示了图26所示的S733中投影正则化的流程图。首先，检测在投影中所有的局部最大值(S748)。正则化投影Prjr的每个像素的值被设置为0(S749)。从第一局部最大值max(i)开始(S750)，检测两个邻近的局部最小值min1(i)和min2(i)(S751)。

图30显示了max(i)、min1(i)和min2(i)在投影曲线中的位置示意图。有三个局部最大值。P2、P4和P6分别是max(1)、max(2)和max(3)。P1是max(1)的上部最小值min1(1)，P3是max(1)的下部最小值min2(1)。P3也是max(2)的上部最小值min1(2)。类似的，P5是max(2)的下部最小值min2(2)，也是max(3)的上部最小值min1(3)。P7是max(3)的下部最小值min2(3)。

如果min1(i)＜max(i)/2，且min2(i)＜max(i)/2(S752)，则在min1(i)和min2(i)位置之间的正则化投影Prjr中的值被设为1(S753)。对每个局部最大值重复此过程(S754和S755)。

图31显示了图22所示的S708中文本行确认单元324的操作流程图。此单元的输入是同一文本行区域的两个尺寸为wxh的二值化图像I1和I2。首先计数值count1、count2和count被设为0(S756)。count表示在I1和I2中两个相应的像素的值都是1的像素的数目。count1表示在I1中相应的像素值是1而在I2中是0的像素的数目。count2表示在I2中相应的像素值是1而在I1中的值是0的像素的数目。

从两个图像中的第一位置开始，如果相应的两个像素I1(i)和I2(i)都是1，则count增加1(S757和S758)。否则，如果I1(i)是1，则count1增加1(S759和S760)。否则，如果I2(i)是1，则count2增加1(S761和S762)。在检查所有的像素后(S763和S764)，检查是否满足下列条件(S765和S766)：

count+count1＜w*h/2，

count+count2＜w*h/2，

count1＜count*0.2，

count2＜count*0.2，

填充率＜0.5。

文本行区域的“填充率”定义为前景像素的数目与区域中的总像素数的比率。如果满足上面的条件，则在该文本行区域中两个二值化图像被认为是相似的，且该文本行区域被认为是有效文本行(S768)。如果不满足这些条件其中之一，则文本行区域被认为是无效文本行(S767)

图32和33显示了图6所示的图像移动检测单元303的操作流程图。对两个连续帧，帧i和帧j，第一快速简易图像二值化单元331被用于获得两个帧的二值化图像(S801)。然后如图26中的S731说明的，文本行垂直位置确定单元332被用于执行水平图像投影，以分别获得帧i和帧j的水平投影Prjyi和Prjyj(S802)。垂直移动检测单元333则被用于计算两个投影的相关函数Cy(t)(S803)。

这里，两个投影Prj1(x)和Prj2(x)的相关函数C(t)被定义为：

C (t) = \frac{1}{L * V 1 * V 2} Σ (prj 1 (x) - M 1) * (prj 2 (x + t) - M 2)

其中L是投影的长度，而M1和M2分别是投影Prj1和Prj2的均值。V1和V2分别是Prj1和Prj2的方差。

如果Cy(t)的最大值小于90％(S804)，则两个图像不是移动图像。否则，Cy(t)最大值的位置被记录为垂直偏移offy(S805)，然后执行如S733中的投影正则化以获得投影Prjyi的正则化投影Prjyir(S806)。如果帧j是帧i的移动版本，则帧j的垂直移动偏移由offy表示。在Prjyir中每个1区域被认为是候选文本行区域，它可由起点和终点syi和eyi指示出来(S807)。候选文本行区域的数目被记为nCanTL。

从第一候选文本行区域开始，匹配计数nMatch被设置为0(S808)。假设在帧j中第c个相应的移动候选文本行区域用syj(c)＝syi(c)+offy和eyj(c)＝eyi(c)+offy表示(S809)。对两个相应的候选文本行区域，计算垂直投影(S810)。然后由于已经计算出两个垂直投影，使用水平移动检测单元334计算相关函数Cx(t)，并且对于这两个投影，Cx(t)的最大值位置被记为水平偏移offx(S811)。如果Cx(t)的最大值大于90％(S812)，则两个候选文本行区域被认为是匹配的移动文本行区域，并且匹配计数nMatch增加1(S813)。在检查每个候选文本行对后(S814和S815)，如果匹配的移动文本行区域的数目大于候选文本行区域的数目的70％(S816)，则帧j被视为是帧i的移动版本(S817)。否则帧j不是帧i的移动版本(S818)。

图34显示了图1所示的文本提取装置105的配置。文本提取装置包括：用于提取视频帧的边缘信息的边缘图像生成单元901；笔划图像生成单元902，其使用边缘图像产生候选字符笔划的笔划图像；用于去除伪笔划的笔划过滤单元903；用于把邻近的笔划连接成文本行区域的文本行区域形成单元904；用于在文本行区域中删除伪字符笔划的文本行验证单元905；以及用于获得文本行区域的最终的二值化图像的文本行二值化单元906。该文本提取装置的输出是在帧中所有的文本行区域的二值化图像的列表。根据文本提取装置105，由于可尽可能多地检测到并除去伪笔划，可准确地对文本行区域进行二值化。

图35显示了图34所示的边缘图像生成单元901的配置。边缘图像生成单元901包括边缘强度计算单元911、第一边缘图像生成单元912、第二边缘图像生成单元913。边缘强度计算单元911利用Sobel边缘检测器计算视频帧中的每个像素的边缘强度。第一边缘图像生成单元912通过把每个像素边缘强度与预定的边缘阈值进行比较而产生第一边缘图像，并且如果边缘强度大于阈值则把在第一边缘图像中相应的像素值设为一个二值化值，如果边缘强度小于阈值则设为另一个二值化值。例如，逻辑值“1”用作一个二值化值，它可指示白像素，而逻辑值“0”用作另一个二值化值，它可指示黑像素。通过将在以第一边缘图像中一个二值化值的每个像素的位置为中心的窗口中的每个像素的边缘强度与窗口中像素的平均边缘强度进行比较，第二边缘图像生成单元913产生第二边缘图像，并且如果像素边缘强度大于平均边缘强度则把在第二边缘图像中的相应的像素值设置为一个二值化值，如果像素边缘强度小于平均边缘强度则设为另一个二值化值。例如，大小为3×3的小窗口可被用于生成第二边缘图像。

图36显示了图34所示的笔划图像生成单元902的配置。笔划图像生成单元902包括局部图像二值化单元921。利用以在第二边缘图像中一个二值化值的每个像素的位置为中心的窗口，局部图像二值化单元921以Niblack二值化方法对视频帧的灰度图像进行二值化，以获得候选字符笔划的二值化图像。例如，大小为11×11的窗口可被用于局部图像二值化。

图37显示了图34所示的笔划过滤单元903的配置。笔划过滤单元903包括笔划边缘覆盖范围验证单元931和长直线检测单元932。笔划边缘覆盖范围验证单元931利用第二边缘图像中一个二值化值的像素检查在候选字符笔划的二值化图像中的笔划轮廓的重叠率，如果重叠率大于预定的阈值，确定笔划是有效笔划，而如果重叠率小于预定的阈值则为无效笔划，并且将无效笔划作为伪笔划除去。长直线检测单元932利用笔划的宽度和高度把很大的笔划作为伪笔划除去。根据笔划过滤单元903，从候选字符笔划的二值化图像中检测到文本行区域不需要的伪笔划并将其除去。

图38显示了图34所示的文本行区域形成单元904的配置。文本行区域形成单元904包括笔划连接检查单元941。笔划连接检查单元941利用两个笔划高度的重叠率和两个笔划之间的距离检查两个邻近的笔划是否可连接。文本行区域形成单元904利用检查的结果将笔划合并到文本行区域中。

图39显示了图34所示的文本行验证单元905的配置。文本行验证单元905包括垂直伪笔划检测单元951、水平伪笔划检测单元952以及文本行重组单元953。垂直伪笔划检测单元951检查每个高度高于文本行区域中的笔划平均高度的笔划，并且如果笔划把两个水平文本行区域连接成一个大的文本行区域，则把那些笔划标记为伪笔划。水平伪笔划检测单元952检查每个宽度大于由文本行区域中笔划的平均宽度确定的阈值的笔划，并且如果在包含该笔划的区域中的笔划数小于预定的阈值，则把该笔划标记为伪笔划。如果在文本行区域中检测到伪笔划，文本行重组单元953重新连接在文本行区域中除了伪笔划之外的笔划。根据文本行验证单元905，从文本行区域进一步检测并除去伪笔划。

图40显示了图34所示的文本行二值化单元906的配置。文本行二值化单元906包括自动尺寸计算单元961和块图像二值化单元962。自动尺寸计算单元961确定进行二值化的窗口的尺寸。利用以在第二边缘图像中一个二值化值的每个像素的位置为中心的窗口，块图像二值化单元962以Niblack二值化方法将视频帧的灰度图像进行二值化，以获得文本行区域的二值化图像。在去除伪笔划后，根据这样的文本行二值化，可精确地对文本行区域进行二值化。

图41到46显示了文本提取装置的一些结果。图41显示了原始视频帧。图42显示了边缘图像生成的结果，它是最终的边缘图像(第二边缘图像)。图43显示了笔划生成结果。图44显示了笔划过滤结果。图45显示了文本行形成结果。图46显示了优化的最终二值化文本行区域的结果。

图47和48显示了图35所示的边缘图像生成单元901的操作流程图。首先在尺寸为W×H的第一边缘图像EdgeImg1中，像素EdgeImg1(i)的所有的值都被设置为0(S1101)。从第一像素开始(S1102)，边缘强度计算单元911使用Sobel边缘检测器来计算第i像素的边缘强度E(i)(S1103)。下一步，第一边缘图像生成单元912被用于确定EdgeImg1(i)的值。如果边缘强度大于预定的阈值Tedge(S1104)，则在第一边缘图像中此像素的值被设置为1，EdgeImg1(i)＝1(S1105)。继续此过程直到检查了所有的像素(S1106和S1107)。

在获得第一边缘图像后，尺寸为W×H的第二边缘图像EdgeImg2的所有值EdgeImg2(i)被初始化为0(S1108)。从第一像素开始扫描(S1109)，如果在第一边缘图像中像素的值是1(S1110)，则根据在图49所示的像素i的邻近排列1116获得邻近像素的平均边缘强度(S1111)。然后第二边缘图像生成单元913通过将像素的边缘强度与平均边缘强度进行比较而确定在第二边缘图像中这些邻近像素的值(S1112)。如果边缘强度大于平均边缘强度，则在第二边缘图像中该像素值被设为1，否则值被设为0。在检查在第一边缘图像中所有的像素后(S1113和S1114)后，输出第二边缘图像作为最终的边缘图像EdgeImg(S1115)。

图50显示了图47所示的S1103中边缘强度计算单元911的操作流程图。对第i个像素，通过下列公式可首先获得在图49所示的邻近区域1116中的水平和垂直边缘强度Ex(i)和Ey(i)(S1117和S1118)：

Ex(i)＝I(d)+2*I(e)+I(f)-I(b)-2*I(a)-I(h)，

Ey(i)＝I(b)+2*I(c)+1(d)-I(h)-2*I(g)-I(f)，

其中I(x)表示第x个像素的灰度(x＝a，b，c，d，e，f，g，h)。通过下列公式计算总边缘强度E(i)(S1119)：

E (i) = \sqrt{Ex (i) * Ex (i) + Ey (i) * Ey (i)}

通过下列公式计算在图48所示的S111中的像素I的平均边缘强度：

Medge(i)＝(E(a)+E(b)+E(c)+E(d)+E(e)+E(f)+E(g)+E(h)+E(i))/9。

图51显示了图36所示的笔划图像生成单元902的操作流程图。尺寸为W×H的笔划图像首先被初始化为0(S1201)。然后局部图像二值化单元921被用于确定笔划图像的像素值。从第一像素开始(S1202)，如果在边缘图像EdgeImg中第i个像素EdgeImg(i)的值是1(S1203)，则在以该像素的位置为中心的灰度帧图像上设定11×11窗口，并且通过在图25所示的Niblack二值化方法确定窗口中笔划图像的像素值(S1204)。在检查了边缘图像中所有的像素后(S1205和S1206)，产生笔划图像。

图52显示了图37所示的笔划过滤单元903的操作流程图。首先长直线检测单元932被用于删除很大的笔划。从第一笔划开始(S1301)，如果笔划的宽度或高度超过预定的阈值MAXSTROKESIZE(S1302)，则此笔划将被删除(S1304)。否则，笔划边缘覆盖确认单元931被用于检查笔划的有效性(S1303)。有效笔划意味着候选字符笔划和无效笔划不是一个真正的字符笔划。如果笔划无效，可被删除(S1304)。对笔划图像中发现的所有笔划重复进行这个检查，nStroke作为笔划数(S1305和S1306)。

图53显示了图52所示的S1303中笔划边缘覆盖范围验证单元931的操作的流程图。首先获得笔划的轮廓C(S1307)。从第一轮廓点开始(S1308)，检查在当前轮廓点邻近区域中的EdgeImg的像素值(S1309)。如图49中所说明，点a到点h被认为是点i的邻近点。如果存在具有1值的邻近边缘像素，则该轮廓点被视为有效边缘轮廓点，并且有效边缘轮廓点的计数nEdge增加1(S1310)。在检查了所有的轮廓点后，nContour作为轮廓点数(S1311和S1312)，如果有效边缘轮廓点的数目大于0.8*nContour(S1313)，则笔划被认为是有效笔划，即，候选字符笔划(S1314)。否则，笔划是无效笔划(S1315)。从笔划列表中删除无效笔划。S1313中nEdge与nContour的比率表示重叠率。

图54显示了图38所示的文本行区域形成单元904的操作流程图。首先把每个笔划的区域设为单独的文本行区域，并且文本行的数目nTL被设为nStroke(S1401)。从第一笔划开始(S1402)，选择接近笔划i的笔划j(S1403)，并检查笔划i和笔划j是否属于一个文本行区域(S1404)。如果不是，使用笔划连接检查单元941检查这两个笔划是否可连接(S1405)。如果是，则把这两个文本行(笔划i所属的文本行和笔划j所属的文本行)中的所有笔划合并为一个大文本行(S1406)，并且文本行的数目减少1(S1407)。

这里，文本行是一组可连接的笔划，并且每个笔划具有文本行的属性。如果笔划i属于第m个文本行，笔划j属于第n个文本行，且笔划i与笔划j是可连接的，则在第m个和第n个文本行中所有的笔划的属性被设为m。在检查每一对笔划后(S1408，S1409，S1410和S1411)，nTL是帧中文本行的数目。

图55显示了图54所示的S1405中笔划连接检查单元941的操作流程图。首先，获得两个笔划h1和h2的高度，并且较高的高度标记为maxh，而较低的高度标记为minh(S1412)。如果笔划i和笔划j的中心之间的水平距离大于1.5*maxh(S1413)，则这两个笔划不可连接(S1417)。否则，与笔划i和笔划j都相交的水平行的数目被记为nOverlap(S1414)。如果nOverlap大于0.5*minh(S1415)，则这两个笔划是可连接的(S1416)。否则，这两个笔划是不可连接的(S1417)。S1415中nOverlap与minh的比率表示重叠率。

图56显示了图39所示的文本行验证单元905的操作的流程图。首先，修改标记modflag被设为假(S1501)。从第一文本行区域开始(S1502)，如果第i文本行区域的高度Height(i)小于预定的阈值MINTLHEIGHT(S1503)，则此文本行区域被删除(S1504)。否则，垂直伪笔划检测单元951和水平伪笔划检测单元952被用于检测伪笔划(S1505和S1506)。如果检测到伪笔划，则该笔划被删除(S1507)，使用文本行重组单元953重新连接其余的笔划(S1508)，并且修改标记被设为真(S1509)。文本行重组单元953以与文本行区域形成单元904相同的方式重新连接其余的笔划。在检查所有的文本行区域后(S1510和S1511)，如果修改标记为真(S1512)，则重复整个处理直到检测不到伪笔划。

图57显示了图56所示的S1505中垂直伪笔划检测单元951的操作流程图。首先计算在文本行区域中笔划的平均高度(S1513)。从第一笔划开始(S1514)，如果笔划高度i大于平均高度(S1515)，则执行多文本行检测以检查笔划i左边的区域中的笔划(S1516)。笔划i左边的区域是文本行区域内的区域，并且此区域的左、上和下边界是分别文本行区域的左、上和下边界。此区域右边界是笔划i的左边界。如果在笔划i左边区域中存在两个或更多无重叠的水平文本行区域，则笔划i是垂直伪笔划(S1520)。

否则，执行多文本行检测以检查在笔划i右边区域中的笔划(S1517)。笔划i右边的区域具有与笔划i左边的区域相似的定义。如果在笔划i右边区域中存在两个或更多无重叠的水平文本行区域，则笔划i是垂直伪笔划(S1520)。重复此过程直到检查了文本行区域中的每个笔划(S1518和S1519)。

图58显示了图57所示的S1516和S1517中的多文本行检测流程图。首先，以与文本区域形成单元904相同的方式连接笔划(S1521)。如果文本行区域的数目nTextLine大于1(S1522)，则检查是否满足下列三个条件。

1.有两个不重叠的文本行区域(S1523)

2.一个文本行区域高于其他文本行区域(S1524)

3.各个文本行区域中的笔划数大于3(S1525)

如果满足所有这三个条件，则检测到了多文本行(S1526)。

图59显示了图56所示的S1506中的水平伪笔划检测单元952操作的流程图。首先，计算文本行区域中所有的笔划的平均宽度(S1527)。从第一笔划开始(S1528)，如果笔划宽度大于平均笔划宽度的2.5倍(S1529)，则设置检测区域R(S1530)。分别通过笔划i的左边界Stroke(i).Left和右边界Stroke(i).Right确定R的左边界R.Left和右边界R.Right。分别通过文本行区域的下上边界textline.top和下边界textline.bottom确定R的上边界R.top和R的下边界R.bottom。计算检测区域R中的笔划数(S1531)，如果数目小于或等于3(S1532)，则把笔划i标记为水平伪笔划(51533)。重复这个过程直至检查了文本行区域中的每个笔划(S1534和S1535)。

图60和61显示了伪笔划的例子。在图60所示的笔划1541是垂直伪笔划，在图61所示的笔划1542是水平伪笔划。

图62显示了图40所示的文本行二值化单元906的操作流程图。首先，基于文本行区域高度Height，使用自动尺寸计算单元961确定进行二值化的窗口wh的尺寸(S1601)，其必须满足下列三个条件：

wh＝Height/3，

如果wh是偶数则wh＝wh+1，

如果wh＜5则wh＝5。

在此之后，使用块图像二值化单元962重新二值化文本行区域(S1602)。块图像二值化单元962把Niblack二值化方法的窗口尺寸设定为wh，并以与笔划图像生成单元902相同的方式重新二值化文本行区域。

例如，使用在图63所示的信息处理装置(计算机)对图1所示的视频文本处理装置或文本变化帧检测装置104以及文本提取装置105进行配置。在图63所示的信息处理装置包括CPU(中央处理装置)1701、存储器1702、输入装置1703、输出装置1704、外部存储装置1705、介质驱动装置1706、网络连接装置1707和视频输入装置1708。它们通过总线1709互相连接。

存储器1702包括，例如，ROM(只读存储器)、RAM(随机访问存储器)等，并存储在处理中使用的程序和数据。CPU 1701使用存储器1702通过执行程序来执行必需的处理。在这种情况下，在图3所示的单元301到303和在图34所示的单元901到906对应于在存储器1702中存储的程序。

输入装置1703是，例如键盘、指示装置、触摸板等，并被用于输入来自用户的指令和信息。输出装置1704是，例如，显示器、打印机、扬声器等，并用于输出对用户的询问和处理结果。

外部存储装置1705是，例如，磁盘装置、光盘装置、磁光盘装置、磁带装置等。信息处理装置在外部存储装置1705中存储程序和数据，并把它们加载到存储器1702以在需要时使用。外部存储装置1705也可用作在图1所示的存储现有视频数据101的数据库。

介质驱动装置1706驱动可移动存储介质1710，并访问存储的内容。可移动存储介质1710是任意的计算机可读存储介质，例如存储卡、软盘、CD-ROM(只读光盘存储器)、光盘、磁光盘等，用户把程序和数据存储在可移动存储介质1710中，并把它们加载到存储器1702以在需要时使用。

网络连接装置1707可连接到任意的通信网络，例如LAN(局域网)、互联网等，并在通信时转换数据。信息处理装置通过网络连接装置1707接收程序和数据，把它们加载到存储器1702以在需要时使用。

视频输入装置1708是，例如，在图1所示的TV摄像机102，并用于输入现场视频流。

图64显示了计算机可读存储介质，其能够提供用于在图63所示的信息处理装置的程序和数据。存储在可移动存储介质1710和服务器1801的数据库1803中的程序和数据被加载到信息处理装置1802的存储器1702。服务器1801产生用于传播程序和数据的传播信号，并通过网络中的任意传输介质把它传输到信息处理装置1802。CPU 1701使用该数据执行程序，以执行必需的处理。

如上面所详细说明的，根据本发明，可以从给定的视频帧中非常快速地除去重复的视频帧，移动视频帧以及不包含文本区域视频帧。进一步，由于可以尽可能多地检测到并除去伪笔划，可以准确地二值化视频帧中的文本行区域。

Claims

1.一种从给定的视频帧中选择多个包含文本内容的视频帧的文本变化帧检测装置，所述装置包括：

第一帧去除单元，用于从所述给定的视频帧中去除多余的视频帧；

第二帧去除单元，用于从所述给定的视频帧中去除不包含文本区域的视频帧；

第三帧去除单元，用于从所述给定的视频帧中检测并去除由图像移动导致的多余的视频帧；以及

输出单元，用于输出其余的视频帧作为候选文本变化帧。

2.根据权利要求1的文本变化帧检测装置，其中所述的第一帧去除单元包括：

图像块确认单元，用于确定处在所述给定视频帧中的两个视频帧的相同位置上的两个图像块是否是能够显示图像内容变化的有效块对；

图像块相似度测量单元，用于计算有效块对的两个图像块的相似度，并确定两个图像块是否相似；以及

帧相似度判断单元，用于利用相似图像块的数目与有效块对总数的比率，来确定两个视频帧是否相似，

并且，第一帧去除单元将相似的视频帧作为多余的视频帧去除。

3.根据权利要求1的文本变化帧检测装置，其中所述的第二帧去除单元包括：

快速简易图像二值化单元，用于生成所述给定视频帧中视频帧的第一二值化图像；

文本行区域确定单元，用于利用第一二值化图像的水平投影和垂直投影确定文本行区域的位置；

重新二值化单元，用于生成每个文本行区域的第二二值化图像；

文本行确认单元，用于利用第一二值化图像和第二二值化图像之间的差异和文本行区域中前景像素数相对于文本行区域中像素总数的填充率，来确定文本行区域的有效性；以及

文本帧验证单元，用于利用一组连续视频帧中有效文本行区域的数目，来确认这组连续视频帧是否是不包含文本区域的非文本帧。

4.根据权利要求1的文本变化帧检测装置，其中所述的第三帧去除单元包括：

快速简易图像二值化单元，用于生成所述给定视频帧中两个视频帧的二值化图像；

文本行垂直位置确定单元，用于利用所述两个视频帧的二值化图像的水平投影，确定每个文本行区域的垂直位置；

垂直移动检测单元，用于利用水平投影之间的相关性，确定两个视频帧之间图像移动的垂直偏移，以及两个视频帧在垂直方向的相似度；以及

水平移动检测单元，用于利用在两个视频帧的二值化图像中每个文本行的垂直投影之间的相关性，确定图像移动的水平偏移以及两个视频帧在水平方向的相似度，

并且，第三帧去除单元把相似的视频帧作为由图像移动导致的多余视频帧而去除。

5.一种从给定的视频帧中选择多个包含文本内容的视频帧的文本变化帧检测装置，所述装置包括：

图像块相似度测量单元，用于计算有效块对的两个图像块的相似度，并确定两个图像块是否相似；

帧相似度判断单元，用于利用相似图像块的数目相对于有效块对总数的比率，确定两个视频帧是否相似；以及

输出单元，用于在去除相似的视频帧之后，输出其余的视频帧作为候选文本变化帧。

6.一种从给定的视频帧中选择多个包含文本内容的视频帧的文本变化帧检测装置，所述装置包括：

文本行确认单元，用于利用第一二值化图像和第二二值化图像之间的差异，以及文本行区域中前景像素的数目相对于文本行区域中像素总数的填充率，确定文本行区域的有效性；

文本帧验证单元，用于利用一组连续视频帧中有效文本行区域的数目，确认这组连续视频帧是否是不包含文本区域的非文本帧；以及

输出单元，用于在去除非文本帧之后，输出其余的视频帧作为候选文本变化帧。

7.一种从给定的视频帧中选择多个包含文本内容的视频帧的文本变化帧检测装置，所述装置包括：

文本行垂直位置确定单元，用于利用两个视频帧的二值化图像的水平投影，确定每个文本行区域的垂直位置；

垂直移动检测单元，用于利用水平投影之间的相关性，确定在两个视频帧之间图像移动的垂直偏移，以及两个视频帧在垂直方向的相似度；

水平移动检测单元，用于利用在两个视频帧的二值化图像中每个文本行的垂直投影之间的相关性，确定图像移动的水平偏移以及两个视频帧在水平方向的相似度；以及

8.一种从给定图像中提取至少一个文本行区域的文本提取装置，所述装置包括：

边缘图像生成单元，用于生成所述给定图像的边缘信息；

笔划图像生成单元，用于利用边缘信息生成给定图像中候选字符笔划的二值化图像；

笔划过滤单元，用于利用边缘信息从二值化图像中去除伪笔划；

文本行区域形成单元，用于把多个笔划合并为文本行区域；

文本行验证单元，用于从文本行区域中去除伪字符笔划，并重组文本行区域；

文本行二值化单元，用于利用文本行区域的高度对文本行区域进行二值化；和

输出单元，用于输出文本行区域的二值化图像。

9.根据权利要求8的文本提取装置，其中边缘图像生成单元包括：

边缘强度计算单元，用于利用Sobel边缘检测器，计算给定图像中每个像素的边缘强度；

第一边缘图像生成单元，用于通过将每个像素的边缘强度和预定的边缘阈值进行比较，生成第一边缘图像，并且如果边缘强度大于该阈值，则把第一边缘图像中相应的像素值设置为一个二值化值，而如果边缘强度小于阈值，则设置为另一个二值化值；以及

第二边缘图像生成单元，其通过将以第一边缘图像中每一个具有所述一个二值化值的像素的位置为中心的窗口中的每个像素的边缘强度与该窗口中像素的平均边缘强度进行比较，生成第二边缘图像，并且如果像素边缘强度大于平均边缘强度，则把第二边缘图像中相应的像素值设置为所述一个二值化值，而如果像素边缘强度小于平均边缘强度设置为所述另一个二值化值。

10.根据权利要求9的文本提取装置，其中笔划图像生成单元包括局部图像二值化单元，用于利用以第二边缘图像中每一个具有所述一个二值化值的像素的位置为中心的窗口，以Niblack二值化方法对给定图像的灰度图像进行二值化，以获得候选字符笔划的二值化图像。

11.根据权利要求9的文本提取装置，其中笔划过滤单元包括：

笔划边缘覆盖确认单元，其通过第二边缘图像中具有所述的一个二值化值的像素，检查候选字符笔划的二值化图像中笔划轮廓的重叠率，如果重叠率大于预定的阈值确定该笔划是有效笔划，而如果重叠率小于该预定阈值则为无效笔划，并去除无效笔划；以及

长直线检测单元，用于利用笔划的宽度和高度去除大笔划。

12.根据权利要求9的文本提取装置，其中文本行二值化单元包括：

自动尺寸计算单元，用于确定二值化窗口的尺寸；以及

块图像二值化单元，用于利用以第二边缘图像中每一个具有所述一个二值化值的像素的位置为中心的窗口，以Niblack二值化方法对给定图像的灰度图像进行二值化，以获得文本行区域的二值化图像。

13.根据权利要求8的文本提取装置，其中文本行区域形成单元包括笔划连接检查单元，其利用两个笔划高度的重叠率和两个笔划之间的距离来检查两个邻近的笔划是否是可连接，并且文本行区域形成单元利用检查结果把多个笔划合并为文本行区域。

14.根据权利要求8的文本提取装置，其中文本行验证单元包括：

垂直伪笔划检测单元，用于检查每个高度大于文本行区域中笔划平均高度的笔划，并且如果笔划将两个水平文本行区域连接成一个大的文本行区域，则把该笔划标记为伪笔划；

水平伪笔划检测单元，用于检查每个宽度大于由文本行区域中笔划平均宽度确定的阈值的笔划，并且如果包含该笔划的区域中的笔划数小于一个预定阈值，则把该笔划标记为伪笔划；以及

文本行重组单元，如果在文本行区域中检测到伪笔划，则重新连接文本行区域中除伪笔划之外的笔划。

15.一种从给定图像中提取至少一个文本行区域的文本提取装置，所述装置包括：

边缘图像生成单元，用于生成给定图像的边缘图像；

笔划图像生成单元，用于利用边缘图像，生成给定图像中的候选字符笔划的二值化图像；

笔划过滤单元，其通过指示边缘图像边缘的像素，检查候选字符笔划的二值化图像中笔划轮廓的重叠率，如果重叠率大于一个预定阈值，则确定笔划是有效笔划，而如果重叠率小于该预定阈值则为无效笔划，并将无效笔划去除；以及

输出单元，用于输出候选字符笔划的二值化图像中其余的笔划信息。

16.一种用于存储程序的计算机可读存储介质，计算机从给定的视频帧中选择多个包含文本内容的视频帧，该程序使计算机执行以下处理：

从给定视频帧中去除多余的视频帧；

从给定视频帧中去除不包含文本区域的视频帧；

从给定视频帧中检测并去除由图像移动导致的多余视频帧；以及

输出其余的视频帧作为候选文本变化帧。

17.根据权利要求16的存储介质，其中去除多余视频帧的处理包括：

确定处在所述给定视频帧中两个视频帧的相同位置上的两个图像块是否是能够显示图像内容变化的有效块对；

计算有效块对的两个图像块的相似度，并确定两个图像块是否相似；以及

利用相似图像块的数目相对于有效块对总数的比率，确定两个视频帧是否相似，

并且，去除多余视频帧的处理将相似的视频帧作为多余的视频帧去除。

18.根据权利要求16的存储介质，其中去除不包含文本区域的视频帧的处理包括：

生成所述给定视频帧中视频帧的第一二值化图像；

利用第一二值化图像的水平投影和垂直投影确定文本行区域的位置；

生成每个文本行区域的第二二值化图像；

利用第一二值化图像和第二二值化图像之间的差异和文本行区域中前景像素的数目相对于文本行区中像素总数的填充率，确定文本行区域的有效性；以及

利用一组连续视频帧中的有效文本行区域的数目，确认这组连续视频帧是否是不包含文本区域的非文本帧。

19.根据权利要求16的存储介质，其中检测并去除由图像移动导致的多余视频帧的处理包括：

生成所述给定视频帧中两个视频帧的二值化图像；

使用这两个视频帧的二值化图像的水平投影，确定每个文本行区域的垂直位置；

使用水平投影之间的相关性，确定两个视频帧之间图像移动的垂直偏移，以及两个视频帧在垂直方向的相似度；以及

使用在这两个视频帧的二值化图像中每个文本行的垂直投影之间的相关性，确定图像移动的水平偏移以及两个视频帧在水平方向的相似度，

并且，检测并去除多余视频帧的处理把相似的视频帧作为由图像移动导致的多余视频帧而去除。

20.一种用于存储程序的计算机可读存储介质，计算机从给定的视频帧中选择多个包含文本内容的视频帧，该程序使计算机执行以下处理：

计算有效块对的两个图像块的相似度，并确定这两个图像块是否相似；

使用相似图像块的数目相对于有效块对总数的比率，确定这两个视频帧是否相似；以及

在去除相似的视频帧之后，输出其余的视频帧作为候选文本变化帧。

21.一种用于存储程序的计算机可读存储介质，计算机从给定的视频帧中选择多个包含文本内容的视频帧，该程序使计算机执行以下处理：

生成给定视频帧中视频帧的第一二值化图像；

使用第一二值化图像的水平投影和垂直投影，确定文本行区域的位置；

生成每个文本行区域的第二二值化图像；

使用第一二值化图像和第二二值化图像之间的差异，以及文本行区域中前景像素的数目相对于文本行区域中像素总数的填充率，确定文本行区域的有效性；

使用一组连续视频帧的有效文本行区域的数目，确认这组连续视频帧是否是不包含文本区域的非文本帧；以及

在去除非文本帧之后，输出其余的视频帧作为候选文本变化帧。

22.一种用于存储程序的计算机可读存储介质，计算机从给定的视频帧中选择多个包含文本内容的视频帧，该程序使计算机执行以下处理：

生成所述给定视频帧中两个视频帧的二值化图像；

使用水平投影之间的相关性，确定在两个视频帧之间图像移动的垂直偏移，以及两个视频帧在垂直方向的相似度；

使用在两个视频帧的二值化图像中每个文本行的垂直投影之间的相关性，确定图像移动的水平偏移以及两个视频帧在水平方向的相似度；以及

23.一种用于存储程序的计算机可读存储介质，计算机从给定的视频帧中选择多个包含文本内容的视频帧，该程序使计算机执行以下处理：

生成给定图像的边缘信息；

使用边缘信息生成给定图像中候选字符笔划的二值化图像；

使用边缘信息从二值化图像中去除伪笔划；

把多个笔划合并为文本行区域；

从文本行区域中去除伪字符笔划，并重组文本行区域；

使用文本行区域的高度对文本行区域进行二值化；和

输出文本行区域的二值化图像。

24.根据权利要求23的存储介质，其中生成边缘信息的处理包括：

使用Sobel边缘检测器计算给定图像中每个像素的边缘强度；

通过将每个像素的边缘强度和预定的边缘阈值进行比较，生成第一边缘图像，并且如果边缘强度大于该阈值，则把第一边缘图像中相应的像素值设置为一个二值化值，而如果边缘强度小于该阈值，则设置为另一个二值化值；以及

通过将第一边缘图像中以每一个具有所述一个二值化值的像素位置为中心的窗口中的每个像素的边缘强度与该窗口中像素的平均边缘强度进行比较，生成第二边缘图像，并且如果像素边缘强度大于平均边缘强度，则把第二边缘图像中相应的像素值设置为所述的一个二值化值，而如果像素边缘强度小于平均边缘强度，则设置为所述的另一个二值化值。

25.根据权利要求24的存储介质，其中生成候选字符笔划的二值化图像的处理包括：

使用以第二边缘图像中每一个具有所述的一个二值化值的像素位置为中心的窗口，以Niblack二值化方法对所述给定图像的灰度图像进行二值化，以获得候选字符笔划的二值化图像。

26.根据权利要求24的存储介质，其中从二值化图像中去除伪笔划的处理包括：

利用笔划的宽度和高度去除大笔划；

通过第二边缘图像中具有所述一个二值化值的像素检查候选字符笔划的二值化图像中笔划轮廓的重叠率；

如果重叠率大于预定的阈值则确定该笔划是有效笔划，而如果重叠率小于该预定阈值则为无效笔划；以及

去除无效笔划。

27.根据权利要求24的存储介质，其中二值化文本行区域的处理包括：

确定二值化窗口的尺寸；以及

利用以第二边缘图像中每一个具有所述的一个二值化值的像素位置为中心的窗口，以Niblack二值化方法对给定图像的灰度图像进行二值化，以获得文本行区域的二值化图像。

28.根据权利要求23的存储介质，其中把多个笔划合并成文本行区域的处理包括利用两个笔划高度的重叠率和两个笔划之间的距离检查两个邻近笔划是否可连接，并且把多个笔划合并成文本行区域的处理包括利用检查结果把多个笔划合并成文本行区域。

29.根据权利要求23的存储介质，其中从文本行区域中去除伪字符笔划并重组文本行区域的处理包括：

检查每个高度大于文本行区域中笔划平均高度的笔划；

如果笔划将两个水平文本行区域连接成一个大的文本行区域，则把该笔划标记为伪笔划；

检查每个宽度大于由文本行区域中笔划平均宽度确定的阈值的笔划；

如果包含该笔划的区域中的笔划数小于一个预定阈值，则把该笔划标记为伪笔划；以及

如果在文本行区域中检测到伪笔划，则重新连接该文本行区域中除伪笔划之外的笔划。

30.一种用于存储程序的计算机可读存储介质，计算机从给定的视频帧中提取至少一个文本行区域，该程序使计算机执行以下处理：

生成给定图像的边缘图像；

使用边缘图像，生成给定图像中的候选字符笔划的二值化图像；

通过指示边缘图像边缘的像素，检查候选字符笔划的二值化图像中笔划轮廓的重叠率；

如果重叠率大于预定的阈值，确定笔划是有效笔划，而如果重叠率小于该预定阈值则为无效笔划；

将无效笔划去除；以及

输出候选字符笔划的二值化图像中其余的笔划信息。

31.一种用于从给定视频帧中选择多个包含文本内容的视频帧的文本变化帧检测方法，所述方法包括：

从给定视频帧中去除多余的视频帧；

从给定视频帧中去除不包含文本区域的视频帧；

从给定视频帧中检测并去除由图像移动导致的多余视频帧；并且

提供其余的视频帧作为候选文本变化帧。

32.一种用于从给定图像中提取至少一个文本行区域的文本提取方法，所述方法包括：

生成给定图像的边缘信息；

使用边缘信息生成给定图像中候选字符笔划的二值化图像；

使用边缘信息从二值化图像中去除伪笔划；

把多个笔划合并为文本行区域；

从文本行区域中去除伪字符笔划，并重组文本行区域；

利用文本行区域的高度对文本行区域进行二值化；以及

提供文本行区域的二值化图像。