CN101533474B

CN101533474B - 基于视频图像的字符和图像识别系统和方法

Info

Publication number: CN101533474B
Application number: CN200810083575.9A
Authority: CN
Inventors: 陈又新; 欧文武; 王炎; 罗恒亮; 王�华
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2008-03-12
Filing date: 2008-03-12
Publication date: 2014-06-04
Anticipated expiration: 2028-03-12
Also published as: CN101533474A

Abstract

一种基于视频或多幅图像的图像拼接方法，包括步骤：a)获取包括文本的视频帧或图像；b)从连续的视频帧或多幅图像中选取视频帧或图像；c)从步骤b)选取的视频帧或图像中提取文本区域或去除背景区域；d)拼接连续的视频帧或图像，或拼接连续的视频帧或图像的字符识别结果。通过本发明可以提高OCR系统的运用范围，从传统的单一图像到连续的视频信号，特别是一些特殊的OCR应用系统，比如基于视频的名片识别。

Description

基于视频图像的字符和图像识别系统和方法

技术领域

本发明涉及图像处理和模式识别领域，特别涉及基于视频图像的字符和图像识别系统和方法。

背景技术

目前常见的图像识别系统中与文本识别相关的应用大都采用OCR(光学字符识别技术)，并已经取得非常成功的运用，被广泛应用于车牌识别，证件/名片识别，文档电子化等领域。但是，这些现有的OCR系统或版面分析系统的识别对象大都只针对输入完整图像中的文本，给出的识别结果中也只存在文本信息，而在输入完整图像中所存在的图像如LOGO等信息，则不进行识别而抛弃或者作为图像被存储下来。因而，往往会丢失大量有用的信息。

另外，照片图像，即成像一次会得到一张静止的图像，经常会受到光照和抖动等影响造成图像质量太差而无法识别，然而视频多次成像的方式可以在有效的弥补这类问题。

并且因为传统的OCR技术大多是处理静止的图像，成像传感器的大小限制了一幅清晰图像的大小，所以一幅图像往往只能涵盖有限的目标文字目标区域，从而使识别系统无法处理大幅面的文本。比如大幅海报，报纸等，同时也无法处理非平面的文本，比如贴在圆柱体上的海报等。

如果使用照相机进行多次照相，然后再进行照相拼接后进行识别，虽然最终可以取得相应的识别结果，但是大大增加了过程中人为干预的工作量。例如：为了拍一幅较大的全景图，往往需要标定好多个位置，然后逐一拍摄，最后进行半自动合成，这样以来，必然增加了前期输入所需时间。

同时，可以看出虽然一个视频可以包含待识别的完整图像，但是通常视频的每一帧图像可能只包含全部文本信息的部分文本图像块。如何组织视频帧的文本信息和图像信息，最终输出整个文本图像和特定种类的图像块，以及识别结果都是本发明要解决的问题。

目前OCR系统可以提取和识别静止图像上的文字，如果输入是文档图像，OCR系统还可以识别文档图像的版面，甚至输出与原文档图像有相同版面的电子文档；。比如ABBYY公司的FineReader，nuance公司的OmniPage等，这类静止图像可以通过扫描，拍照或者多幅拼接的方式获得。

与本发明相关技术领域中包括自然场景文本检测，识别和视频字幕检测，跟踪识别技术，其中：自然场景文本检测和识别处理的目标是自然场景中文本，比如广告牌，路牌上的文字区域等。例如X.Chen andA.L.Yuille在文献[AdaBoost Learning for Detecting and Reading Textin City Scenes]中提到了一种基于adaboost的文本检测和识别方法和Christian Wolf and Jean-Michel Jolion在[Extraction and recognition ofArtificial Text in Multimedia Documents]提出了基于边缘密度的文字检测方法，这些方法的目标文本区域都是路标等简短文字，通常默认整个路标在一幅图像内，不涉及到多幅图像中属于同一文本区域的拼接和识别问题。

视频字幕检测，跟踪和识别的目标是视频的字幕，例如：RainerLienhart，and Axel Wernicke在[Localizing and Segmenting Text in Imagesand Videos]中提出了一种基于神经网络的视频字幕检测和跟踪方法。通过视频字幕跟踪可以跟踪到同一字幕在不同帧上的位置，通过利用多帧信息提高视频字幕的识别率。与自然场景文字检测和识别一样，视频字幕通常比较简短，同一字幕会在一帧视频中完整出现，同样没有涉及到多帧图像的拼接识别问题。

基于静态图像的字符和图像识别系统因为成像时客观条件限制容易造成图像质量太差导致识别率低下，甚至无法识别，并且这种信息如果不能及时反馈给用户，那么就可能会较大的增加用户的工作量，并有可能造成无法挽回的损失。

基于静态图像的字符和图像识别系统往往因为成像范围有限以至于无法一次处理大幅文本或非平面文本，并且相对而言视频拍摄的方式通常比照片拍摄的方式更为方便。比如对一张报纸的不同区域拍照，使的报纸的每个区域至少被一张图像涵盖的方式非常不方便，并且将多幅图像拼接出原有报纸的图像也非常困难。而通过基于视频的识别系统，我们可以灵活选择拼接方式以获得完整图像，并可以结合视频过程中获得的拍摄方向等信息在获得完整图像前进行预识别，并不断修正达到理想的效果。

发明内容

本发明的目的是提供一种基于视频图像的字符和图像识别系统和方法。

按照本发明的一方面，一种基于视频或多幅图像的图像拼接方法，包括步骤：

a)获取包括文本的视频帧或图像；

b)从连续的视频帧或多幅图像中选取视频帧或图像；

c)从步骤b)选取的视频帧或图像中提取文本区域或去除背景区域；

d)拼接连续的视频帧或图像，或拼接连续的视频帧或图像的字符识别结果。

按照本发明的另一方面，一种基于视频或多幅图像的图像拼接系统，包括：

视频获取模块，用于获取包括文本的视频帧或图像；

视频帧筛选模块，用于从连续的视频帧或多幅图像中选取视频帧或图像；

文字和非文字区分模块，从视频帧筛选模块选取的视频帧或图像中提取文本区域或去除背景区域；

视频拼接模块，拼接连续的视频帧或图像为图像，或拼接连续的视频帧或图像的字符识别结果；

输出模块，用于输出拼接后的图像或识别结果。

通过本发明可以提高OCR系统的运用范围，从传统的单一图像到连续的视频信号，特别是一些特殊的OCR应用系统，比如基于视频的名片识别。

附图说明

图1是基于视频图像的字符和图像识别系统框图；

图2是基于视频的文本图像拼接系统流程图；

图3是图像拼接流程图；

图4是基于视频的文本识别系统流程图；

图5是文本识别流程图；

图6是基于视频的文本图像拼接系统；

图7是基于视频的文本识别系统。

具体实施方式

本发明用到的一些术语和定义如下：

文档版面是指文档各单元在文档图像上的相对位置和逻辑关系，通常的用户要求系统根据原来文档图像，创建相同内容和版面的电子文档。

图像或视频帧添加是指图像或视频帧区域的拷贝，即将图像或视频帧部分或全部拷贝到另外一幅图像的指定区域。

阅读顺序，是指字符的阅读先后关系，比如同一行的文字通常阅读顺序是从左到右，而行与行之间为从上到下，这里所指的阅读顺序包括行与行之间和同一行字符之间的阅读关系。

文本检测，是指从视频帧或图像中检测文本区域及其在视频帧或图像上的位置。

文本跟踪，是指根据目标文本区域的在当前视频帧或图像上的位置和特征，跟踪其在相邻的视频帧或其他图像上的位置，并计算目标文本区域和当前跟踪文本区域的相似度。

OCR系统，即光学字符识别系统。

完整图像：为本系统在一次完整操作中输入的所有图像，具体在基于静止图像的OCR系统中为一张静止图像，在基于视频图象的本系统中是一次完整摄入视频通过拼接算法后得到的图像。

非文字信息，即输入完整图像中除了文字信息以外的所有信息，包含版面信息、色彩信息、特别是完整图像中如徽标等子图像信息。

本发明所描述的文本和图像识别系统包含了对文本进行识别的模块和非文本信息的识别模块。

本发明的具体构成包括如下部分：

1)图像输入模块：获取包含文本信息或非文本信息的视频和图像的模块，其物理构成包括图像传感器，摄像头等可以得到视频数字图像的装置；

2)版面拼接模块：版面拼接同时基于图像和识别结果，根据视频文字检测和跟踪结果，拼接不同视频帧，以便形成完整的文本图像，具体是指一个文本区域可能会存在于连续的多个视频帧，而每个视频帧可能只包含文本区域的一部分，通过和检测，跟踪相邻视频帧的文字区域的变化情况，拼接相同文本区域和拼接新增文本区域以形成一幅包含整个版面的完整图像，比如一张大报纸的全版面图像；同时基于识别结果采用边检测边识别和跟踪的方法，检测到文本区域后在识别模块进行OCR识别，并对该区域跟踪，当在接下来视频帧中添入足够多新文本时，进行重新识别，并且根据识别置信度和跟踪结构等调整拼接多次识别的结果以合成整个完整图像区域。其包含文字检测模块、文字跟踪模块、图像筛选模块和图像拼接模块，其中文字检测模块，能自动检测视频或图像上的文字区域；文字跟踪模块，能在不同的视频帧或图像上跟踪同一文本区域；图像筛选模块根据图像的置信度对图像进行筛选，图像拼接模块，在无文字信息可用的情况下可以独立运作，用于拼接完整图像；

3)识别模块。识别模块的输出分为两个部分，第一部分为文字信息识别结果，第二部分为非文字信息的识别结果，包含版面信息、色彩信息、特别是完整图像中如徽标等子图像信息。

本发明所描述的系统处理流程是图像输入模块送入视频图像，即若干张视频祯图像；由版面拼接模块筛选得到清晰的或置信度高的图片，并判断出其中的文本信息区域和非文本信息区域；识别模块对置信度足够高的图片进行识别，可以实时地得到识别结果，同时版面拼接模块将这些清晰的图像进行拼接给出完整图像，待视频录入完毕后，识别模块给出最终的识别结果。

为了进一步详细说明本发明的方法和装置，下面结合具体的实施例进行更为详细的说明。

为了便于说明，我们在接下来的实施例中假定视频传感器按照文本的阅读顺序，比如从左到右拍摄文本场景，获得文本场景的视频，该视频每帧或图像包含文本图像的部分文本内容，而整个视频包含场景文本的完整信息，并且同一行文本内容的阅读顺序与视频帧或图像顺序有关，即如果同一行文字出现在不同的视频帧或图像，阅读顺序靠前的文字该在靠前的视频帧或图像。需要说明的是本发明并不限定拍摄的连续性和拍摄角度的方向性。

图1是基于视频图像的字符和图像识别系统框图。视频获取模块捕获视频或连续图像作为输入。视频筛选模块从连续的视频帧或多幅图像中选取图像质量相对较高或较为清晰的的视频帧或图像，本实施例中图像或视频帧的筛选是通过比较相邻的视频帧或连续图像的平均边缘强度实现的，具体方法是统计一定的时间内，比如0.5秒，输入视频帧或连续图像的Sobel边缘强度，通过比较这些视频帧或连续图像的边缘强度，选取视频或连续图像的边缘强度相对最大的视频帧或图像作为我们要处理的清晰视频帧或图像。可以理解的是，视频帧的筛选也可以通过其他图像质量评价方法来实现，比如Chunmei Liu；Chunheng Wang；Ruwei Dai在文献”Low Resolution Character Recognition by Image Quality Evaluation”中通过图像的灰度发布特征评价图像质量。文字和非文字区分模块是从上一部选取的视频帧或图像提取文章区域或去除背景区域，关于文字区域和非文字区域的区分目前已有很多公知的方法，比如X.Chen and A.L.Yuille在文章中提到了通过融合118个图像特征形成一个快速的Adboosting分类器用来区分文本和非文本区域“AdaBoost Learning forDetecting and Reading Text in City Scenes”，通过该模块可以检测出图像或视频帧上的文本区域，在本实施例中采用如下方法：

首先，通过canny边缘提取算子，提取视频帧或图像的边缘，生成二值边缘图像；

其次，检测canny边缘图像的连通域，每一个连通域被当作一个备选字符区域；

再次，通过提取连通域内部的图像特征，包括周长，面积，包含的边缘点数量，灰度直方图，方差等特征，区分字符和非字符区域。

最后，是合并相邻的字符连通域区域，形成文字行。

通过文字和非文字区分模块提取图像或视频帧的文字区域。

视频帧拼接模块是将连续的视频帧或图像拼接成内容更加完整的图像。通常被拼接的视频帧或图像有部分相同和部分不同内容，拼接就是以相同内容为基础，拼接连续视频帧，拼接结果包含被拼接视频帧的所有内容。图像拼接目前已有大量的公知方法，比如在Barbara Zitova′^*，JanFlusser在文献‘Image registration methods：a survey’中提到。图像拼接包括以下步骤，首先是特征点检测，比如检测图像的轮廓，交叉线，边缘等作为特征点；其次是特征匹配，即通过特征点匹配建立被拼接多幅图像上的特征点的关系，匹配目的是为了在不同的图像上搜寻相同的特征点或特征区域；再次是变换模型估计，通过匹配点估计拼接图像的变换关系，比如位移，旋转，缩放等，通常以一副图像作为参考，估计其他图像与参考图像之间的转换关系；最后一步是根据变换模型，计算其他图像的变换图像，然后与参考图像合并。在本实施例中，视频拼接的方法是：

首先选取一副图像或视频帧为参考图像或视频帧，相应的另外一副图像为合并图像，提取参考和合并图像或视频帧字符区域的边缘，轮廓作为特征点。

其次，通过变换模型的参数在一定范围内的变化，对合并图像特征点做相应的图像变换，比如缩放，平移及旋转等，计算每次参考图像和变换后合并图像的相似度，找出最佳变换模型的参数，和最佳匹配相似度。这里变换模型是指通过改变变换模型的参数从而控制图像特征点的缩放，平移及旋转。

然后，当最佳匹配相似度小于指定阈值时，不进行视频合并，结束；相反，对合并图像做基于最佳变换模型的变换，将变换后的合并图像与参考图像合并，合并方法是：对于合并图像和参考图像非重叠(匹配)的区域(包括字符和非字符)采用直接填充的方式，而重叠(匹配)区域(只有字符区域)取两幅图像的均值或最大(小)子。

可以理解的该方法可以推广到多幅图像或视频帧的合并。

图2是基于视频的文本图像拼接系统流程图。输入为包含文本的连续视频信号，输出为拼接而成的文本图像。每个视频帧或图像包含文本图像的部分内容，而整个视频则包含完整的文本图像，最后输出的完整文本图像是由多帧或图像视频或多幅图像拼接而成的。下面是该流程图的详细描述：

获取视频后，从视频中依次提取视频帧或图像，然后在视频帧或图像上检测是否存在文本，如果不存在则继续从接下来相邻的视频帧或图像中检测，直到视频结束或从视频帧或图像中检测到文本区域。

检测到文本区域后，判断是否满足拼接条件1，拼接条件1是指，与参考帧或图像上文本区域相比，当前帧或图像是否检测到新的文本区域或文本行。这里参考帧或图像是指，如果当前检测到的区域是整个视频中第一次被检测到的文本区域，则参考帧或图像为空白，当前所有检测到的文本区域都是新的文本区域；如果不是整个视频第一次检测到的文本区域，则参考帧或图像为最近被拼接的视频帧或图像，由于这里涉及文本区域跟踪和拼接，我们将在介绍完文本区域跟踪，拼接后再介绍参考区域为最近被拼接的视频帧或图像的情况，首先只介绍参考区域为空白的情况。在这种情况下，先创建一幅足够大的空白拼接图像，然后把所有检测到的文本区域或文字行添加到空白拼接图像的起始位置，被添加文本区域可根据需要进行缩放或变换。接下来是以当前被拼接视频帧或图像作为起始跟踪帧或图像，跟踪相同文本在接下来相邻视频帧或图像上的位置和变化。

不管检测到的文本区域是否进行了拼接，下一步都是以最近被拼接的视频帧或图像作为起始跟踪帧或图像上文本区域作为参考从接下来相邻视频帧或图像中跟踪这些文本区域，在本实施例中文本跟踪特别是指在连续的视频帧或文本图像中跟踪相同文本行，文本行的跟踪技术可以通过一般的目标跟踪技术，比如Moon，Young-Su在专利【US20030128298】“Method and apparatus for color-based object tracking invideo sequences”提到的通过目标的直方图模型在相邻视频帧中跟踪同一目标，在本实施例中采用如下方法：

首先，以文本检测模块检测到的文本区域作为目标文本区域，计算目标文本区域的边缘强度直方图和灰度直方图。

其次，输入前帧以后的视频帧，在原目标区域的一定搜索范围内，通过比较目标文本区域和当前搜索窗口边缘强度和灰度直方图，计算目标文本在当前搜索区域的概率分布；通常新输入视频帧的搜索范围是目标文本区域的延伸，比如在原来目标区域两倍大小的区域内搜索。

最后是通过当前搜索区域的概率分布找出目标在新视频帧的位置，如果目标在新视频帧与原来目标的相似度小于指定阈值，则跟踪结束。否则，当前目标作为新的目标文本区域，开始下一轮的跟踪。

通过跟踪，我们一方面可以得到起始跟踪帧或图像上文本区域在相邻视频帧或图像的位置，同时通过比较当前被跟踪文本区域和起始跟踪帧或图像上文本区域的相似度得到跟踪文本区域的可信度，可信度越高，当前文本和起始文本越相似，而当可信度越低，当前文本和初始文本越不相似，通常随着时间的增加，跟踪可信度会随着跟踪帧间隔的增加而逐渐降低；当可信度较低到一定程度时，说明当前帧或图像有与起始跟踪帧或图像相比有相当的变化或加入了新信息。

接下来判断是否满足拼接条件2，当满足以下任何一个拼接条件时就开始进行拼接：

√跟踪可信度低于预先设定的域值，即当前被跟踪文本和起始跟踪帧或图像上文本存在较大的差异；

√连续跟踪超过一定的帧数或时间；

当不满足图像拼接条件2时，则重新进入跟踪阶段。

当满足以上任意条件时开始图像拼接步骤，即将当前帧或图像的信息添加到拼接图像，最终拼接成完整的文本图像。由于与起始帧或图像上相同的信息已经被添加到拼接图像，所以拼接只要添加当前帧或图像与起始帧或图像上不同的信息。而当前帧或图像和起始帧或图像上的相同文本信息可以用来确定当前帧或图像拼接到拼接图像的方式，具体将在接下来的部分介绍。图像拼接完成后需将起始跟踪帧或图像设为当前帧或图像，然后判断是否开始文本重新检测。通常判断的条件可是设定为上一次文本检测与这一次文本检测之间的帧数或时间间隔，这是为了避免当新的文本行出现时无法被及时检测和跟踪。如果满足条件则开始重新检测，否则进入跟踪阶段。无论进入那个步骤，当前被拼接的视频帧或图像都会作为下一次拼接的参考帧或图像。

下面我们回到当在视频上检测到文本区域，并且参考帧或图像不是空白的情况，即已经至少有一次拼接完成，参考帧或图像为最近被拼接的视频帧或图像。通过比较参考帧或图像上文本区域和当前检测到的文本区域的差异，我们可以判定当前检测结果是否包含新的文本行或文本区域。具体而言，根据当前帧或图像和参考帧或图像的整体相似度，如果相似度低于设定域值，则认为当前帧或图像和参考帧或图像没有相同文本区域。当前帧或图像检测到的所有文本信息作为新的信息拼接，拼接位置可以是预先设定。比如是上一次拼接结果的右边，或者上一次拼接结果下边最左边的位置。拼接时应该注意，不能与原拼接图像区域重叠。这里当前帧或图像和参考帧或图像的整体相似度可以是，基于图像象素或象素特征的相似度或基于文字区域OCR识别结果，相同字符所占比例等。如果当前帧或图像和参考帧或图像的整体相似度高于设定域值，则找出当前帧或图像检测文本区域和参考帧或图像文本区域的相同区域和不同区域，并根据相同区域把当前不同区域添加到拼接图像，并把当前帧或图像设为起始跟踪帧或图像，开始进入跟踪。

文本跟踪和文本检测会在整个系统中交替进行，直到视频结束，生成文本拼接图像。

图3为图像拼接的流程图，输入为一个等待拼接的视频帧或图像。首先判断拼接图像是否存在，如果拼接图像不存在，这说明这是第一次检测到文本区域，当前帧或图像作为整个拼接图像的起始图像。这时创建一副足够大的空白图像，将当前图像添加到指定的起始位置。如果拼接图像已经存在，并且当前帧或图像和上一次被拼接帧或图像的整体相似度低于设定域值，则说明当前帧或图像和上一次拼接帧或图像没有共同文本区域。当前帧或图像应该作为下一轮图像拼接的起始帧或图像，这时可以将当前帧或图像添加到指定的位置。比如上一次拼接完成后靠右的位置，或上一次拼接靠下面左边的位置，或者关闭上一次拼接图像，重新创建一副足够大的空白拼接图像，把当前图像添加到起始位置。如果当前帧或图像和上一次被拼接帧或图像的整体相似度高于设定域值，则说明当前帧或图像和上一次被拼接帧或图像存在相同文本区域。接下来就是找出当前帧或图像和上一次被拼接帧或图像的相同文本区域，及相应的不同文本区域。接下来根据相同文本区域确定当前帧或图像和上一次被拼接帧或图像的变换系数。这里指的变换系数是指由于视频传感器或文本之间的平移，旋转，及距离，视角变化等引起的相同文本区域在当前帧或图像和上一次被拼接帧或图像上的平移，旋转，缩放，及视角变换系数。这些变化系数通常只需确定两幅帧或图像上一定数量的匹配点就可以确定这些变换系数，确定变换系数后，对当前帧或图像做相应的变换。变换后的当前帧或图像作为下次拼接时的参考帧或图像，或最近一次被拼接的帧或图像。然后把当前帧或图像上的不同文本区域添加到拼接图像，添加的位置是根据当前帧或图像和拼接图像上的相同文本区域和不同文本区域的相对位置确定的。比如，以当前帧或图像相同文本区域的中心点作为参考点确定不同文本区域以该参考点作为原点的坐标，然后在拼接图像上找出相应的相同文本区域的中心点，并以该中心点作为参考点添加相应的不同文本区域。

图4是一个基于视频的文本识别系统流程图。输入为包含文本的连续视频信号，输出为整个文本图像的识别结果。每个视频帧或图像包含文本图像的部分内容，而整个视频则包含完整的文本图像，最后输出的是整个文本的识别结果。由于文本检测，跟踪和拼接条件判断与实施例一基本相同，下面我们主要介绍，与第一实施例不同的部分即识别拼接。与图像拼接不同的是，识别拼接是拼接OCR的字符识别结果。通常当前被拼接帧或图像与上一次被拼接帧或图像有部分相同的字符和部分不同字符及字符间的阅读关系，识别拼接就是将不同的字符添加到拼接识别结果，同时保留原有的阅读顺序，比如上一次图像或视频帧的字符识别结果为“hello，eve”，而接下来的图像或视频帧的字符识别结果为“o，everyone！”，通过比较我们知道，相同字符为“o，eve”，合并结果应该是“hello，everyone！”。

图5为识别拼接的流程图，输入为一个等待拼接的视频帧或图像。首先是识别当前帧或图像的文字区域，得到字符识别结果和相应的字符阅读顺序。判断拼识别结果是否存在，如果拼识别结果不存在，这说明这是第一次检测到文本区域，当前帧或图像的字符识别结果作为起始的拼识别结果。如果拼识别结果已经存在，并且当前帧或图像和上一次被拼接帧或图像的整体相似度低于设定域值，则说明当前帧或图像和上一次拼接帧或图像没有共同文本区域。当前帧或图像应该作为下一轮拼识别的起始结果，这时可以将当前帧或图像识别结果添加到指定的位置。比如添加到当前识别结果的下一行或后面，或作为一次新的拼接识别的起始结果。如果当前帧或图像和上一次被拼接帧或图像的整体相似度高于设定域值，则说明当前帧或图像和上一次被拼接帧或图像存在相同文本区域。接下来就是找出当前帧或图像和上一次被拼接帧或图像的相同字符，及相应的不同字符，并根据当前帧或图像字符的阅读顺序，将当前帧或图像上的不同字符添加到拼接识别结果，及当前帧或图像上的字符阅读顺序与拼接识别结果的阅读顺序一样。

图6给出了基于视频的图像拼接模块，包括视频传感器，输入输出设备，CPU和内存单元。视频传感器用于捕获视频信号；输入输出设备用于显示结果和获取用户命令；内存单元用于存储个模块和数据包括文本检测模块，跟踪模块，拼接模块，流程控制模块和系统控制软件，本图中未给出系统软件。文本图像视频由视频传感器获取后，经CPU处理取出连续视频帧或图像并存入内存单元。同时CPU调用内存中的文本检测和跟踪模块，从连续视频帧或图像中检测和跟踪文本区域。当满足图像拼接条件时，CPU调用图像拼接模块将当前帧或图像添加到拼接图像，直到视频结束。可以理解的是，用户可以预先获取视频，然后交CPU单元处理，获得文本拼接图像。同时也可以在获取视频过程中，实时获取拼接图像。即当传感器获得视频信号后，实时的交CPU处理，在视频录制过程中实时的拼接图像。

图7给出了基于视频的识别模块，包括视频传感器，输入输出设备，CPU和内存单元。视频传感器用于捕获视频信号；输入输出设备用于显示结果和获取用户命令；内存单元用于存储个模块和数据包括文本检测模块，跟踪模块，识别拼接模块，流程控制模块和系统控制软件，本图中未给出系统软件。与图6唯一不同的是，图像拼接模块被替换为识别拼接模块。可以理解的是，用户可以预先获取视频，然后交CPU单元处理，获得整个视频文本的识别结果；同时也可以在获取视频过程中，实时获取拼接图像。即当传感器获得视频信号后，实时的交CPU处理，在视频录制过程中实地完成识别拼接过程并进行识别。识别结果包括输入完整图像中文本识别后的文字信息以及在完整图像中包含的版面信息、颜色信息，特别是完整图像中的子图像如LOGO信息。

Claims

1.一种基于视频或多幅图像的图像拼接方法，包括步骤：

a)获取包括文本的视频帧或图像；

b)从连续的视频帧或多幅图像中选取视频帧或图像；

d)拼接连续的视频帧或图像的文本区域；

其中，所述步骤d)“拼接连续的视频帧或图像的文本区域”包括：

选取一幅图像或视频帧为参考图像或视频帧，相应的另外一幅图像为合并图像，提取参考和合并图像或视频帧字符区域的边缘和轮廓作为特征点；

通过特征点的匹配，找出参考和合并图像或视频帧的匹配模型，并计算基于匹配模型的相似度；

当最佳匹配相似度大于指定阈值时，对合并图像做基于匹配模型的图像变换，将变换后的合并图像与参考图像合并；

其中，所述图像合并包括：对于合并图像和参考图像非重叠的区域采用直接填充的方式，而重叠区域取两幅图像的均值或最大／小值或其他数学计算。

2.根据权利要求1所述的方法，其特征在于所述图像变换包括缩放、平移及旋转。

3.根据权利要求2所述的方法，其特征在于通过估计图像特征点的变换模型的参数从而计算图像的缩放、平移及旋转变换。

4.根据权利要求1所述的方法，其特征在于在步骤c)后面还包括步骤：

以步骤c)检测到的文本区域作为目标区域，在其他视频帧或图像中的一定范围内搜索目标区域在其他视频帧或图像上出现的位置及概率；

如果目标区域在其他视频帧或图像上出现的概率大于设定阈值，则以目标区域所在图像为参考图像。

5.根据权利要求4所述的方法，其特征在于在其他视频帧的搜索范围在原来目标区域位置周边的一定范围内搜索。

6.一种基于视频或多幅图像的图像拼接系统，包括：

视频获取模块，用于获取包括文本的视频帧或图像；

视频拼接模块，拼接连续的视频帧或图像的文本区域；

输出模块，用于输出拼接后的图像；

其中，所述视频拼接模块选取一幅图像或视频帧为参考图像或视频帧，相应的另外一幅图像为合并图像，提取参考和合并图像或视频帧字符区域的边缘和轮廓作为特征点；通过特征点的匹配，找出参考和合并图像或视频帧的匹配模型，并计算基于匹配模型的相似度；当最佳匹配相似度大于指定阈值时，对合并图像做基于匹配模型变换，将变换后的合并图像与参考图像合并；

其中，对于合并图像和参考图像非重叠的区域采用直接填充的方式，

而重叠区域取两幅图像的均值或最大／小值或其他数学计算。

7.根据权利要求6所述的系统，所述视频获取模块是视频传感器。

8.根据权利要求6所述的系统，其特征在于还包括：

文本跟踪模块，用于从相邻视频帧或图像中跟踪目标文本区域的位置及变化。