CN102144236A

CN102144236A - 用于图像和视频ocr的文本定位

Info

Publication number: CN102144236A
Application number: CN200980134487XA
Authority: CN
Inventors: 珍-皮埃尔·古伊洛; 郁杨
Original assignee: Sony Corp; Sony Electronics Inc
Current assignee: Sony Corp; Sony Electronics Inc
Priority date: 2008-09-03
Filing date: 2009-08-31
Publication date: 2011-08-03
Anticipated expiration: 2029-08-31
Also published as: EP2321767A1; US8320674B2; KR20110056380A; WO2010027933A1; KR101452562B1; WO2010027933A9; CN102144236B; JP2012502359A; CA2735824A1; US20100054585A1; MX2011002293A; JP5588987B2

Abstract

根据符合本发明的实施例，从图像和视频中识别文本时的第一个动作是准确地定位文本在图像和视频中的位置。然后，定位到的有可能是低分辨率的文本可被提取、增强和二元化。最后，现有的OCR技术可被应用到被二元化的文本以便识别。本摘要不应被认为是限制性的，因为其他实施例可偏离本摘要中描述的特征。

Description

用于图像和视频OCR的文本定位

相关文献的交叉引用

本申请与2008年9月30日提交的发明人为Yu等人的美国临时专利申请No.61/190,992相关并要求其优先权，特此通过引用将该申请全部并入在此。本申请与发明人均为Candelore的2/14/2007提交的美国专利申请No.11/706,919、2/14/2007提交的美国专利申请No.11/706,890、3/8/2007提交的美国专利申请No.11/715,856以及2/14/2007提交的美国专利申请No.11/706,529相关，特此通过引用将这些申请全部并入在此。

著作权和商标通告

本专利文献的公开的一部分包含受著作权保护的素材。著作权所有人不反对对专利文献或专利公开以其出现在专利商标局专利文件或记录中的形式进行复制再现，但除此之外保留一切著作权权利。商标是其各自的所有人的财产。

背景技术

在TV视频中，经常存在文本，这些文本提供了重要的内容信息，例如所广告的产品的名称、相关信息的URL(通用资源定位符)、发言人或比赛者的姓名、事件的位置和日期等等。被人工添加作为闭合字幕或者嵌入在场景中的文本可用于索引和检索图像和视频、分析观看者对视频内容的兴趣、或者提供可从因特网访问的观看者相关内容。然而，嵌入在普通电视或视频图像中的文本在文本标识和识别方面造成了特殊问题，而当在传统文档中执行文本识别时是不存在这些问题的。

附图说明

通过参考以下结合附图来理解的详细描述，可最好地理解例示出构造和操作方法以及目的和优点的某些例示性实施例，附图中：

图1是符合本发明某些实施例的文本定位(text localization)过程的示例性流程图。

图2由图2A和图2B构成，是在以符合本发明某些实施例的方式进行处理之前和之后的示例性图像。

图3图示了在符合本发明某些实施例的示例性实现方式的合并组中使用的参数。

图4示出了在以符合本发明某些实施例的方式预处理图2B的分割图像之后提取的一些区域。

图5由图5A和图5B构成，示出了以符合本发明某些实施例的方式使用的笔划(stroke)宽度参数。

图6由图6A至图6F构成，示出了符合本发明某些实施例的若干示例的二元化结果。

参考文献

在以下详细描述中参考以下文献：

[1]Rainer Lienhart.Video OCR：A survey and practitioner’s guide，InVideo Mining，Kluwer Academic Publisher，pp.155-184，Oct.2003.

[2]Keechul Jung，Kwang In Kim，and Anil K.Jain，Text informationextraction in images and video：a survey，Pattern Recognition，37，pp.977-997，2004.

[3]Jian Liang，David Doermann，and Huiping Li.Camera-basedanalysis of text and documents：a survey，IJDAR，vol 7，No 2-3，2005.

[4]Anil K.Jain and Bin Yu.Automatic text location in images andvideo frames，Pattern Recognition，Vol.31，No 12，1998.

[5]Shio J.Ohya and S.Akamatsu.Recognizing characters in sceneimages，IEEE Trans.On Pattern Analysis and Machine Intelligence，Vol 16，No2，1994，pp 214-220.

[6]C.M.Lee，A.Kankanhalli，Automatic extraction of characters incomplex images，Int.J.Pattern Recognition Artif.Intell.9(1)，1995，pp67-82.

[7]M.A.Smith，T.Kanade，Video skimming for quick browsing basedon audio and image characterization，Technical Report CMU-CS-95-186，Carnegie Mellon University，July 1995.

[8]D.Chen，K.Shearer and H.Bourlard，Text enhancement withasymmetric filter for video OCR.Proceedings of International Conference onImage Analysis and Processing，Palermo，Italy，2001，pp.192-197.

[9]H.Li，D.Doermann，O.Kia，Automatic text detection and trackingin digital video，IEEE Trans.Image Process.9(1)，2001，pp.147-156.

[10]D.Chen，H.Boulard，J-P.Thiran.Text identification in complexbackground using SVM，Proceedings of IEEE Conference on Computer Visionand Pattern Recognition，Vol.2，2001，pp.621-626.

[11]Xiangrong Che，Alan L.Yuille，Detecting and reading text innatural scenes，Proceedings of IEEE Conference on Computer Vision andPattern Recognition，Vol.2，2004，pp.366-373.

[12]Edward K.Wong and Minya Chen，A new robust algorithm forvideo text extraction，Pattern Recognition.No.36，2003，pp.1398-1406.

[13]K.Subramanian，P.Natarajan，M.Decerbo and D.Castanon，Character-stroke detection for text-localization and extraction，Proceedings ofIEEE Document Analysis and Recognition.Vo.1，2007，pp.23-26.

[14]Richard Nock and Frank Nielsen，Statistical Region Merging，IEEETrans.On Pattern Analysis and Machine Intelligence，Vol.26，No.11，2004，pp.1452-1458.

[15]V.Vapnik，“Statistical learning theory”，John Wiley and Sons，1998.

[16]Chih-Chung Chang and Chih-Jen Lin，LIB SVM：a library forsupport vector machines，2001.Software available athttp://www.csie.ntu.edu.tw/～cjlin/libsv

[17]W.Niblack.An Introduction to Digital Image Processing.pp.115-116，Prentice Hall，1986.

[18]N.Otsu.A threshold selection method from gray-level histograms.IEEE Trans.On Systems，Man and Cybernetics，Vol.9，No.1，pp.62-66，1979.

[19]S.D.Yanowitz and A.M.Bruckstein，A new method for imagesegmentation，Computer Vision，Graphics and Image Prcoessing CVGIP，Vol.46，no.1，pp.82-95，1989.

[20]S.M.Lucas，A.Panaretos，L.Sosa，A.Tang，S.Wong and R.Young.ICDAR 2003 robust reading competitions，In 7th InternationalConference on Document Analysis and Recognition-ICDAR2003，2003

[21]S.M.Lucas，ICDAR 2005 Text locating competition results，ICDAR 2005，pp.80-84.

具体实施方式

虽然本发明可允许许多不同形式的实施例，但是在附图中示出并且在这里将详细描述特定的实施例，要理解这里对这种实施例的公开应被认为是原理的示例而并不意欲将本发明限制到所示出和描述的特定实施例。在以下描述中，相似的标号在若干附图中用于描述相同、相似或相应的部件。

这里使用的术语“一”被定义为一个或多于一个。这里使用的术语“多个”被定义为两个或多于两个。这里使用的术语“另一”被定义为至少另外一个或另外多个。这里使用的术语“包括”和/或“具有”被定义为包含(即，开放语言)。这里使用的术语“耦合”被定义为连接，但不一定是直接的，也不一定是机械式的。这里使用的术语“程序”(program)或“计算机程序”(computer program)或类似术语被定义为被设计用于在计算机系统上执行的指令序列。“程序”或“计算机程序”可包括被设计用于在计算机系统上执行的子例程、函数、过程、对象方法、对象实现、可执行应用、小应用程序、小服务程序、源代码、目标代码、共享库/动态加载库和/或其他指令序列。这里使用的术语“节目”(program)也可用在第二上下文中(以上定义是针对第一上下文的)。在第二上下文中，该术语是在“电视节目”的意义上使用的。在此上下文中，该术语用于指音频视频内容的任何连贯序列，例如在电子节目指南(EPG)中将被解释和报告为单个电视节目的那些，无论内容是电影、体育赛事、多部分系列剧的一段还是新闻广播等等。该术语也可被解释为涵盖插播的商业广告和其他类似节目的内容，它们在电子节目指南中可能不会被报告为节目。

本文献中提及“一个实施例”、“某些实施例”、“一实施例”或类似术语的意思是联系该实施例描述的特定特征、结构或特性被包括在本发明的至少一个实施例中。从而，在整个本说明书的各处出现的这种短语不一定都指的是同一实施例。另外，特定的特征、结构或特性可以没有限制地在一个或多个实施例中以任何适当的方式被组合。

这里使用的术语“或”应被解释为包含性或，意思是任何一个或任何组合。因此，“A、B或C”的意思是“以下各项中的任何一个：A；B；C；A和B；A和C；B和C；A、B和C”。此定义的例外只出现在元件、功能、步骤或动作的组合在某些方面固有地相互排斥时。在整个本文献中，各种阈值被用于某些过程中的比较。这里参考以上参考材料公开的阈值是为了联系当前给出的示例性实施例作为参考，而并不意欲限制符合其他实现方式的其他过程。

在TV视频中，经常存在文本，这些文本提供了重要的内容信息，例如所广告的产品的名称、相关信息的URL(通用资源定位符)、发言人或比赛者的姓名、事件的位置和日期等等。被人工添加作为闭合字幕或者嵌入在场景中的文本可用于索引和检索图像和视频、分析观看者对视频内容的兴趣、或者提供可从因特网访问的观看者相关内容。然而，嵌入在普通电视或视频图像中的文本在文本标识和识别方面造成了特殊问题，而当在传统文档中执行文本识别时是不存在这些问题的。即使是相对高清晰度的视频，文本也经常可能是以相对低清晰度来呈现的，而与利用传统光学字符识别来识别打印文本的通常情况相比，机器更难以识别这种以相对低清晰度呈现的文本。

光学字符识别(OCR)技术可用于从文本文档中自动识别文本，在该文本文档中清晰度足够高(例如高于300dpi)，并且前景文本最好是在简单结构的白背景上呈黑色的。然而，在图像或视频中，分辨率一般低得多(例如50dpi或甚至更低)。图像的恶劣质量也源于由传感器引起的噪声、不均匀的光照或者压缩等等。除此之外，还存在由透视、广角镜头、非平整表面、照明等等引起的失真。最终，文本可能在复杂的背景上，周围有运动的对象。简言之，当处理诸如视频图像或其中的帧之类的图像时，存在传统的OCR技术无法解决的许多变数。所有这些问题常常使得很难或者甚至不可能将OCR技术直接应用到图像和视频数据。

根据符合本发明的实施例，从图像和视频中识别文本时的第一个动作是准确地定位文本在图像和视频中的位置。结果这是一个非常复杂的问题。在此之后，定位到的有可能是低分辨率的文本可被提取、增强和二元化。最后，现有的OCR技术可被应用到被二元化的文本以便识别。

在图像和视频数据中定位文本的问题已被以若干种方式来处理。在以上参考文献中有对文本定位和提取算法的综合评述。在以下的详细描述中参考以下文献：上述的[1]、[2]和[3]。方法经常被分类为基于区域的、基于边缘的和基于纹理的方法。

在参考文献[4]、[5]、[6]中描述的基于区域的方法中，假定文本中的字符具有相同颜色。通过连接成分分析、集群化或分割算法来生成区域。然后，采用诸如大小、区域的高度/宽度比或者基线之类的试探(heuristics)来过滤掉非文本区域。最后，通过试探约束或经训练的分类器来将剩余的区域分类为文本或非文本。

参考文献[7]和[8]中描述的基于边缘的方法是基于观察到的以下事实：文本在背景上表现出强边缘，因此文本区域是边缘的集群，所以第一步是边缘检测。然后，通过平滑和合并，边缘被集群化。最后，通过试探约束或经训练的分类器将这些集群分类为文本或非文本。

基于纹理的方法利用纹理特征来判定像素或区域是否属于文本。整个图像被逐像素或逐块地扫描以提取纹理特征，例如局部空间方差、水平方差、二阶统计、频率特征、局部能量或小波变换的高阶动差，等等。这些特征随后被馈送到分类器中(神经网络[9]、支持向量机[10]或自适应增强[11])，以将像素或块分类为文本或非文本。最后，像素或块被合并以生成最终文本区域。

这里描述的技术可被广泛地表征为基于区域的文本定位方法。首先利用快速且有效的图像分割算法来提取相似颜色的区域。在应用试探来过滤掉不应是文本的区域的预处理之后，分析每个区域的特征。基于文本中的笔划往往具有相似的宽度这个观察到的事实，提取笔划特征。此外，减去重要的边缘特征和填充因子特征。最后，训练支持向量机(SVM)分类器(分类器分离具有不同分组的对象)来将区域分类成文本和非文本。SVM被用于最大化文本与非文本之间的差异。

采用笔划特征来辅助标识文本。注意到一般来说文本中的笔划的宽度在水平和垂直方向上都是相似的。在参考文献[12]和[13]中，也使用了笔划特征，然而为了文本检测只检查了水平笔划宽度。在这里，提取了水平和垂直方向上的笔划宽度的特征。此外，结合了边缘和其他重要特征来进行分类。

1.系统和过程概述

图1是符合某些实施例的视频OCR过程100的示例性流程图，其开始于104。此图也可被看作是系统图，其中该图的每个块表示系统的功能块，该功能块可利用编程的处理器和/或状态机和/或专用硬件来实现。在108，系统接收输入的图像或关键帧。然后，在112，将图像分割成相似颜色的区域。如果这些区域被指派以代表性颜色，则所得到的图像类似于以有限数目的颜色着色的那种图像，并且该图像在颜色区域的边界处具有块状的外观。在预处理块116，通过诸如大小、宽高比、填充因子等等之类的试探约束来对这些区域进行过滤。在120，提取剩余区域的特征。在124，将这些特征馈送到SVM分类器中，该分类器将区域分类成文本区域和非文本区域。在128，对这些文本区域进行增强和二元化。最后，在132，在可以以编程的处理器的形式实现的OCR引擎中执行OCR处理。OCR引擎作用于被二元化的区域并且以识别出的文本的形式输出识别结果，并且过程在136结束。在下文中更详细描述图1的各种要素。

II.通过SVM进行的文本定位

A.分割

根据某些实现方式，将参考文献[4]中描述的统计区域合并算法应用到输入图像以得到相似颜色的区域，但是也可使用其他算法。就本文献而言，术语“相似颜色”当在这里的一个示例性实现方式中使用时指的是两个区域的平均红、绿、蓝(R、G、B)值的绝对差(其中一个区域由撇号标示，并且上划线表示平均值)在合并阈值内，这可以用公式表述如下：

{(\overset{&OverBar;}{R} - \overset{&OverBar;}{R^{'}})}^{2} < T_{dev}, {(\overset{&OverBar;}{G} - \overset{&OverBar;}{G^{'}})}^{2} < T_{dev}, {(\overset{&OverBar;}{B} - \overset{&OverBar;}{B^{'}})}^{2} < T_{dev}

其中T_dev是合并阈值，例如参考文献[14]中提供的那些。其他合并阈值和相似颜色的其他定义在其他实现方式中也可能是适当的。与或多或少地使用了关于分布的限制性假设的大多数其他已知分割算法不同，此算法在目前是优选的，因为它是基于只具有很少假设的图像生成模型的，这使得该算法在所有种类的情形中都是有效的。该算法是在三个阶段中执行的。第一阶段是计算相邻像素的颜色差。第二阶段包括根据其颜色差来整理像素。第三阶段包括合并具有小于阈值的颜色差的像素以生成区域。已经证实，该算法只会有过度合并误差，而很大概率会实现低的分割误差。最后，可以在线性时间/空间中高效地近似该算法，从而带来了快速分割算法。以上引用的临时专利申请61/190,992的图2示出了分割算法的示例性输出，并且在这里被再现为图2A和图2B。

B.预处理

在分割之后，获得相似颜色的区域。目标是将这些区域分类成文本区域和非文本区域。为了提高分类的效率，首先去除那些很不可能是文本的区域。因此在一种实现方式中检查以下条件：

(1)如果region_height(区域高度)小于某个阈值T_low，或者region_height大于某个阈值T_high，则该区域被丢弃；

(2)如果region_area(区域面积)小于某个阈值T_area，则该区域被丢弃；

(3)如果区域接触了图像边界的四边之一，并且其高度大于阈值T，则区域被丢弃；

(4)如果如下定义的fill_factor(填充因子)低于阈值T_fill，则其被丢弃。

以上阈值是经验选择的。在此示例性实现方式中，使用的值如下：

T_low＝10

T_high＝HEIGHT*0.9(HEIGHT是图像大小的高度)

T_area＝12

T＝HEIGHT/2

T_fill＝0.1

其他值也可适合于其他实现方式，并且当前值可被进一步经验优化。

字符往往是以集群方式出现的，并且对字符的集群分类要容易得多。同一个单词中的字符通常具有相同的颜色，并且大多数时间它们是水平对齐的。由于以上事实，如果区域的大小和颜色相似并且其水平位置在某一阈值内，则这些区域被分组。图3示出了在本示例性实现方式中对区域进行合并或分组时使用的参数D_region、D_top和D_bottom，如下：

示例性实现方式中使用的合并或分组规则如下，

规则1：

其中HEIGHT₁和HEIGHT₂是两个区域的高度。

规则2：(颜色相似性)

其中和

是两个区域的平均颜色。

规则3：(区域距离)D_region＜T_region

其中D_region是两个区域的水平距离。

规则4：(水平对齐)D_top＜T_align或D_bttom＜T_align

其中D_top和D_bottom是上边界和下边界之间的垂直距离。关于D_region、D_top和D_bottom的定义，请参考图3。阈值被经验地设定如下，但其他设定也可适合于其他实现方式、规则和规则修改，并且这些阈值可被进一步优化：

T_{height_sim}＝2.5

T_color＝80

T_region＝HEIGHT₁+HEIGHT₂

T_{align} = \max (1,0.4 \cdot \frac{{HEIGHT}_{1} + {HEIGHT}_{2}}{2})

图4示出了在对临时专利申请的图2(图2)中的分割图像进行预处理之后所提取的一些区域。在图4中，方框表示围绕每个示例性区域的方框的边界，黑色区域是前景区域，并且白色区域是背景区域。下一个任务是将这些区域分类成文本区域和非文本区域。

C.特征提取

随后提取剩余区域的特征。我们使用的特征是笔划宽度特征、边缘特征和填充因子特征，对其的详述如下。

笔划宽度特征

由图5A-5B构成的图5示出了笔划宽度的概念。对于本文献而言，笔划宽度被认为是一个笔划的两个边缘之间的水平方向上的以像素为单位的宽度。在使用其笔划宽度的方差在阈值内的邻域的百分比的本方法中，实际宽度不是特别重要。

笔划宽度特征是基于观察到的以下事实的：文本元素内的笔划宽度往往在垂直方向和水平方向上都是相似的，这在图5中示出。图5A示出了字母“F”中的示例性笔划的宽度在由括号140限定的垂直领域中是近似恒定的。箭头示出了字符F的这个区域中的宽度。图5B示出了在水平方向上笔划具有相似的宽度(即近似相等)或者可被集群化成具有相似宽度的群组。在此图中，标号144、148、152和156中的每一个示出了近似相同的宽度。

本上下文中使用的术语“邻域”(neighborhood)是包含笔划的垂直距离的某个范围，并且当说到文本元素在垂直方向上相似时，意味着宽度在垂直邻域内。对于水平方向，笔划宽度在同一行中或者在y坐标相同的情况下被比较。

反映近似恒定的垂直笔划宽度的特征是如下计算的。首先计算的是垂直邻域中的笔划宽度的标准偏差。对于区域内的每一个像素(c，r)∈[ROW_region，HEIGHT_region]，这里使用的垂直邻域被定义为具有坐标(x，y)的像素，其中x＝c，r≤y≤r+T_n。特征值s₁是整个区域中的如下邻域的百分比：这种邻域的笔划宽度的标准偏差在某个阈值内。

类似地，也计算水平笔划宽度的特征。一行中的笔划宽度被计算和集群化，其中“行”被定义为具有相同y坐标的像素。在此示例中具有少于3的成员数的那些集群，其中成员数是集群中的成员的数目，或者具有相似笔划宽度的笔划的数目，因为集群是根据笔划宽度的相似性而获得的。那些具有很少成员的集群或者换言之具有很少相似笔划宽度的笔划被认为是有噪声的或者是异常者(outlier)，因此被从考虑中排除，从而不被考虑。这样，排除了异常者，其中异常者被定义为具有很少成员的集群(在这里是少于3个成员，或者具有少于3个具有相似笔划宽度的笔划的笔划集群)。集群化的另一个原因是一行中可能有不同笔划。例如，在图5B的上方行中，存在被标记为148、152和156的不同笔划宽度的三个集群。反映恒定水平笔划宽度的特征值s₂是如下行的百分比：这些行的水平笔划宽度的标准偏差在某一阈值内，或者可被集群化成群组并且每个群组中的水平笔划宽度的标准偏差在某个阈值内。

基于文本的笔划之间存在某个阈值这个观察到的事实，作为当前笔划宽度与当前笔划到下一相邻笔划的距离的平均比，提取特征值s₃。

最后的笔划特征s₄是最常出现的两个笔划宽度之比。

以下是在示例性实现方式中用于提取笔划宽度特征的过程的伪代码的示例：

提取笔划宽度特征s1，s2，s3，s4的伪代码

特征s₁：恒定垂直笔划宽度的度量

s1＝VerticalConstStrokeWidth(img)

输入：

img：要被分类为文本或非文本的二元图像：前景是黑色的，背景是白色的，即img(foreground)＝0，img(background)＝1，图像中的行的数目是HEIGHT，图像中的列的数目是WIDTH

输出：

s1：衡量恒定垂直笔划宽度的特征值

1.对于img中的每个像素(x，y)，计算笔划宽度阵列StrokeWidthMap

a.对于背景中的像素(x，y)，笔划宽度是0：

StrokeWidthMap(x，y)＝0；

b.对于前景中的像素，笔划宽度是当前笔划的边缘之间的距离。例如，在图A中，红色线中的像素都将具有笔划宽度30-10＝20，即StrokeWidthMap(10:30，60)＝20。(注意：10:30指的是从10到30的坐标)

2.获得每个像素(x，y)的笔划宽度地图的阵列StrokeWidthMap(注意：StrokeWidthMap具有与img相同的尺寸)

3.对于(x，y∈[r，r+Tn])，(换言之，对于每一列x，并且对于Tn行的每个邻域，其中Tn被定义为

Tn＝max(2，ceil(HEIGHT/10))

a.计算笔划宽度的中值：

medianW＝median(StrokeWidthMap(x，r:r+Tn)

b.计算笔划宽度的标准偏差

stdW＝std(StrokeWidthMap(x，r:r+Tn)).

c.如果满足以下条件

medianW＜WIDTH/3(中值笔划宽度不太大)

stdW＜medianW*0.5(标准偏差小)

则此邻域具有恒定垂直笔划宽度，因此

constStrokeNum＝constStrokeNum+1.

4.特征s₁是具有恒定垂直笔划宽度的邻域的比率：

s1＝constStrokeNum/total，

其中total是具有笔划的邻域的数目

特征s2：恒定水平笔划宽度的度量

s2＝HorizontalConstStrokeWidth(img)

输入：

输出：

s2：衡量恒定垂直笔划宽度的特征值

1.对于img中的每一行y，计算当前行的笔划宽度并且得到阵列StrokeWidth(StrokeWidth具有与img相同的行数，并且每一行具有当前行中的笔划的笔划宽度)；

2.对于StrokeWidth中的每一行y：

a.计算StrokeWidth的中值：

medianW＝median(StrokeWidth(y))；

b.计算StrokeWidth的标准偏差：

stdW＝std(StrokeWidth(y))；

c.如果笔划宽度的标准偏差与中值之比小于阈值，即

stdW/medianW＜WidthStdT(阈值WidthStdT＝0.5)

则其被计数为具有水平恒定笔划宽度的行，即

constStrokeNum＝constStrokeNum+1

d.否则，将StrokeWidth(y)集群化。如果集群中的任何一个具有多于3个成员(不是异常者)并且其中值和标准偏差满足

stdW/medianW＜WidthStdT

则它被计数为具有水平恒定笔划宽度的行，即

constStrokeNum＝constStrokeNum+1；

3.特征s2为

s2＝constStrokeNum/total

其中total是图像中具有多于一个笔划的行的数目

特征s3：当前笔划到下一相邻笔划的距离与笔划宽度之比

s3＝RatioStrokeDistWidth(img)

输入：

输出：

s3：当前笔划到下一相邻笔划的距离与笔划宽度之比

1.计算笔划宽度StrokeWidth(其与提取特征s2时的那个相同)；

2.计算当前笔划到下一相邻笔划的距离StrokeDist；

3.计算ratio

ratio＝StrokeDist/StrokeWidth；

4.将ratio放在阵列StrokeDistWidthRatio中

5.特征s3＝median(StrokeDistWidthRatio)

特征s4：最常见的笔划宽度之比

s4＝RatioMostStrokeWidth(img)

输入：

输出：

s4：最常见的笔划宽度之比

1.计算笔划宽度阵列StrokeWidth的柱状图H：[H，Xw]＝hist(StrokeWidth，10)，其中10是用于计算柱状图的柱条数，H是柱条的柱状图或频率，Xw是柱条位置；

2.整理柱状图[sH，sI]＝sort(H)，其中sH是经整理的柱状图，并且sI是索引，即sH＝H(sI)；

3.如果sH(1)/sum(sH)＝＝1(只有一个笔划宽度)，则s4＝0；

4.否则，s4＝Xw(sI(1))/Xw(sI(2))，sI(1)和sI(2)是最常见的笔划宽度的索引。

在上述每种情况中，文本宽度是以像素为单位衡量的，但其他衡量单位也是可能的。

边缘特征

在示例性实现方式中还使用了一组边缘特征(e₁，e₂，e₃)。在文本中，存在许多边缘。因此边缘特征可用于辅助文本定位。第一个边缘特征e₁是基于文本字符一般具有平滑边缘这个事实的。特征值e₁是以具有相同方向的5×5邻域亦即具有平滑方向的块的比率的形式来计算的。边缘特征e₂是基于文本字符通常具有所有方向上的边缘这个观察到的事实的。特征值e₂是最常出现的分割方向的频率。如果该频率太大，则很有可能它不是文本，因为通常文本字符具有所有方向的边缘。这是它为什么被选作用于区分文本和非文本区域的特征的原因。最后是总边缘长度与区域面积之比，其可表征文本具有的边缘的量。

以下是在示例性实现方式中用于提取边缘特征的伪代码：

提取边缘特征(e1，e2，e3)的伪代码

特征e1：边缘平滑性

e1＝EdgeSmoothness(img)

输入

img：要被分类为文本或非文本的二元图像：前景是黑色的，背景是白色的，即img(foreground)＝0，img(background)＝1，图像中的行的数目是HEIGHT，图像中的列的数目是WIDTH。

输出：

e1：衡量边缘的平滑性的特征

1.边缘提取：利用Sobel边缘检测提取8个方向(0，π/4，π/2，3π/4，π，5π/4，3π/2，7π/4)的边缘：

Edge＝SobelEdge(img)

其中Edge具有与img相同的尺寸，并且在边缘处取决于边缘的方向其具有1到8的值，而在非边缘处其具有值0；

2.对于满足Edge(x，y)≠0的(x，y)

a.定义neighborhood：neighborhood＝edge([x-w:x+w]，[y-w:y+w])，其中

b.获得当前方向：curDir＝Edge(x，y)

c.获得具有当前方向的像素的数目curDirNum

d.获得邻域中的边缘像素的数目，即

neighborEdgeNum＝Length(neighborhood≠0)

e.计算具有相同方向的边缘像素的比率：

R(x，y)＝curDirNum/neighborEdgeNum；

3.计算边缘平滑性特征

e1＝length(R＞T)/length(Edge≠0).

特征e2：边缘方向的统一性

e2＝EdgeUniformity(img)

输入：

输出：

e2：衡量边缘的统一性的特征

1.把特征e1的步骤1中提取的8个边缘方向量化成4个方向Edge4，即Edge中的(5π/4，3π/2，7π/4)将变成Edge4中的(π/4，π/2，3π/4)；

2.计算4个方向的柱状图：H＝hist(Edge4(Edge4≠0))；

3.计算H的极大元：maxH＝max(H)，因此maxH是该方向出现的最大次数；

4.计算边缘统一性特征

e2＝maxH/sum(H)

特征e3：边缘的量

e3＝EdgeAmount(img)

输入：

输出：

e2：衡量边缘的量的特征

1.边缘提取：利用Sobel边缘检测提取8个方向(0，π/4，π/2，3π/4，π，5π/4，3π/2，7π/4)的边缘

Edge＝SobelEdge(img)

2.计算边缘的长度：EdgeLength＝length(Edge≠0)；

3.计算img的前景面积；

4.ForeArea＝length(img(foreground))；

5.计算填充因子AreaFill：

6.AreaFill＝ForeArea/(WIDTH*HEIGHT)；

7.计算特征e3＝EdgeLength/AreaFill。

填充特征

在此示例性实现方式中还使用了一组填充因子特征(f₁，f₂)。这组特征是基于文本的前景填充在限界框(bounding box)中这个事实的。它不填充整个限界框，或者说只填充限界框的很小部分。另外，在小邻域中，它具有如下属性：前景不填充整个邻域。

第一个填充因子特征f1描述了整个区域的填充特征。因此它是以前景面积与区域的限界框的面积之比的形式来计算的。第二个填充因子特征f₂描述了局部邻域的填充特征。首先计算一邻域中的前景面积之比。特征值f2是前景面积之比大于某一阈值的邻域的百分比。

以下是在示例性实现方式中使用的用于提取填充因子特征的伪代码：

提取填充因子特征f1、f2的伪代码

特征f1：整个区域的填充特征

f1＝FillFactorWhole(img)

输出：

f1：衡量候选图像的填充因子的特征

1.计算img的前景面积：

2.ForeArea＝length(img(foreground))；

3.计算img的总面积：WholeArea＝WIDTHxHEIGHT；

4.计算特征f1＝ForeArea/WholeArea。

特征f2：局部邻域的填充特征

f2＝FillFactorNeighborhood(img)

输出：

f2：衡量候选图像的局部邻域中的填充因子的特征

1.对于(x，y)，其中x，y按stepSize＝HEIGHT/3增大

a.获得当前邻域：curN＝img(x:x+stepSize，y:y+stepSize)；

b.计算当前邻域中的前景的面积：

AreaN＝length(curN(foreground))；

c.计算邻域的填充因子：FillFactorN(j)＝AreaN/Area(curN)其中j是当前邻域的索引；

2.获得具有大填充因子的邻域的数目

N＝length(FillFactorN＞T)；

3.特征f2是具有大填充因子的那些块的百分比：

f2＝N/length(FillFactorN)

D.基于SVM的分类

SVM在参考文献[15]中记载并且是统计学习理论所激发的一种技术并已被成功应用到许多分类任务。关键思想是利用具有最大边距的判决表面来分开两个类。它最小化了高维空间中的模型的归纳误差而不是训练误差上的界限。在SVM中，学习任务对于正类和负类中的训练例的相对数目是不敏感的(在这里的检测任务中，负类的样本数比正类的多得多)。因此，SVM被选择为此示例性实现方式的优选分类器。

分类问题是二元分类问题，具有m个标记的训练样本：(x₁，y₁)，(x₂，y₂)，...，(x_m，y_m)，其中x_i＝[s₁ ⁱ，s₂ ⁱ，s₃ ⁱ，s₄ ⁱ，e₁ ⁱ，e₂ ⁱ，e₃ ⁱ，f₁ ⁱ，f₂ ⁱ]，其中每个分量的定义如第C.节中所述，这是一个9维特征向量，y_i＝±1，指示正(文本)和负(非文本)类(i＝1，2，...，m)。SVM尝试解决以下问题：

\min_{w, b, ξ_{i}} \frac{1}{2} w^{T} w + C Σ_{i = 1}^{l} ξ_{i} - - - (2)

条件为y_i(w^Tφ(x_i)+b)≥1-ξ_i (3)

其对偶(dual)为

\min_{α} \frac{1}{2} α^{T} Qα - e^{T} α - - - (4)

条件为y^Tα＝0(0≤α_i≤C，i＝1，...，l) (5)

其中e是全1向量，C＞0是上界并且是通过交叉验证来决定的，Q是1×1半正定矩阵，Q_ij≡y_iy_jK(x_i，x_j)并且

是内核，w、α和b是决定分离平面的参数并且应当是通过优化过程来解出的。通过选择非线性内核函数，特征向量x_i可被函数

映射到更高维的空间中。我们使用的内核是径向基函数内核

K (X, X_{j}) = \exp {\frac{- {| | X - X_{j} | |}^{2}}{2 σ^{2}}} - - - (6)

其中内核带宽σ是通过交叉验证来确定的。一旦决定了参数w、α和b，就可以使用以下判决函数来对区域分类

sgn (Σ_{i = 1}^{l} y_{i} α_{i} K (x_{i}, x) + b) . - - - (7)

利用名为LIBSVM的软件包[16]，在被标记为文本或非文本的一组样本上训练SVM。交叉验证审美观点用于决定σ和C的内核带宽。训练和测试结果将在下一节中报告。

E.增强和二元化

在标识了文本区域之后，应当对其进行增强和二元化，以便OCR软件可以容易地识别文本。大多数OCR软件只能识别具有足够大的分辨率的文本。因此，如果文本的高度小于大约75个像素(目前)，则可能需要按比例增大。在按比例增大之前，可以应用一些增强，例如柱状图均衡、锐化等等。

然后向增强的图像应用二元化。存在不同种类的二元化算法，例如Niblack的适应性二元化算法[17]、Otsu的方法[18]以及Yanowitz-Bruchstein的方法[19]等等。在这些方法之中，Niblack的方法和Otsu的方法被广泛使用，但也可使用其他二元化方法适应于符合本发明的实现方式。在Niblack的方法中，根据大小为r的局部窗口内的强度统计，为每个像素适应性地确定阈值T

T_r(x)＝μ_r(x)+kσ_r(x) (8)

其中μ和σ是该窗口内的像素强度的均值和标准偏差。标题参数k是权重，其被设定为-0.2。窗口大小r可以是固定值或者是适应性选择的。在[11]中，提出了窗口大小r被选择为

r (x) = \min_{r} (σ_{r} (x) > T_{σ}) - - - (9)

其中T_σ是固定阈值。T_σ的值被选择为使得具有小于T_σ的标准偏差的窗口是平滑区域。这里我们将T_σ设定为检测到的文本区域的背景面积的标准偏差。在Otsu的方法[18]中，二元化阈值是通过鉴别标准来找到的，即在类方差之间最大化，在类方差内最小化。Otsu的方法可被应用到整个文本区域或者固定大小的窗口或者像(9)中那样是适应性的。由于在图像中背景是复杂的这个事实，如果二元化被应用到整个图像，则背景中的非文本对象可能也会出现在最终的经二元化的图像中。为了避免这种情况，二元化也被应用到检测到的文本区域中的连接的成分。

由图6A-6F构成的图6示出了当Otsu的方法和Niblack的方法被应用到个体成分、固定窗口、适应性窗口和整个限界框时的二元化结果。检测到的文本是来自图2下部所示的示例的。图6A示出了在检测到的区域中的每个连接的成分上的Otsu的二元化。图6B示出了在适应性窗口中的Niblack的二元化。图6C示出了在适应性窗口中的Otsu的二元化。图6D示出了在整个限界框中的Otsu的二元化。图6E示出了在固定窗口中的Niblack的二元化。图6F示出了在固定窗口中的Otsu的二元化。

从图6可以看出，不同二元化方法的性能不同。它显示出在整个限界框中应用的Otsu的方法在此示例中是最好的。在不同的图像中尝试了这些方法，并且确定了没有一个方法能够在所有图像上都给出最好结果。因此，在实践中，一种可能的方案是将不同二元化方法的结果馈送到OCR软件中，然后组合识别结果。

III.实验和结果

在两个数据集合上测试了这里的算法。一个是ICDAR2003的文本定位竞争数据集合[20]。在ICDAR2003的数据集合中，在训练集合中有248个图像，在测试集合中有251个图像。在每个集合中，存在大约1000个文本片段。该数据集合中的图像大多数是利用手持设备在室外拍摄的。另一数据集合是从TV节目收集的，包括来自新闻、商业广告、体育比赛等等的图像。在该数据集合中有489个图像，其中有接近5000个文本片段。

首先在ICDAR2003的数据集合上应用算法。首先分割和预处理图像。在训练数据集合中，在分割和预处理之后，存在841个文本区域片段和3373个非文本区域片段。注意到，文本片段的数目小于认定实况。这部分是由于其中一些文本片段未被正确分割的分割误差引起的，部分是由于其中一些文本片段被合并在一起的预处理引起的。在经处理的数据集合上训练SVM。用交叉验证来选择SVM的参数。(6)中的最优带宽σ是0.5并且(2)中的参数C是32。将经训练的SVM模型应用在测试数据集合上。从测试文本样本获得了90.02％的正确检测率，其中假阳性为6.45％。为了与其他文本定位算法相比较，表1总结了本算法的性能和ICDAR 2003和ICDAR 2005中的胜者的性能。本算法排第3位。相信如果在我们的算法中仔细地调整参数，性能可得到进一步改善。在表1中，f被定义为

其中p是精度，并且r是查全率(recall)。有关精度和查全率的详细定义，请参考[20]和[21]。

系统	精度	查全率	f
				Hinnerk Becker	0.62	0.67	0.62
Alex Chen	0.60	0.60	0.58
				我们的算法	0.58	0.45	0.51
Ashida	0.55	0.46	0.50

表1-与ICDAR2003[20]和ICDAR2005[21]的胜者的比较

接下来，将算法应用到TV数据集合。该数据集合被分成两个集合，一个用于训练(具有245个图像)，另一个用于测试(具有244个图像)。在分割和预处理之后，在训练集合中有1100个文本区域片段和7200个非文本区域片段。在训练集合上训练SVM。用交叉验证来选择SVM的参数。(6)中的最优带宽σ是1并且(2)中的参数C是16。将经训练的SVM模型应用在测试数据集合上，其中有大约850个文本区域片段和6500个非文本区域片段。文本的检测率为88.29％，假阳性为9.34％。上述临时专利申请的图7示出了来自TV数据集合中的图像的示例性检测结果。

检测到的文本区域如上所述被增强和二元化。然后，经二元化的图像被馈送到OCR软件中供识别。例如，图6中的经二元化的图像被馈送到Scansoft的Omnipage^TM Pro 12中以便识别。识别出的结果在以下的表2中列出。表2表明OCR软件可以识别出几乎所有文本。通过组合来自不同二元化方案的识别结果并且在字典中查找结果，通常能够获得正确的识别结果。

表2 Scansoft的Omnipage Pro 12的识别结果

如上所述，基于区域的方法被用于在图像或视频中定位文本。分割被用于获得不同颜色的区域。然后，每个区域的特征被提取。这里提取的特征是笔划特征、边缘特征和填充因子特征。这些特征在检测文本时非常有效。提取的特征向量被用于训练将区域分类为文本区域或非文本区域的SVM模型。已证明算法在公共可得的数据集合和其他数据集合上的性能都非常好。

从而，根据某些示例性实现方式，一种视频图像中的文本检测的方法包括：在图像处理器处接收可能包含文本的视频帧；将该图像分割成具有相似颜色的区域；从具有相似颜色的区域中标识高可能性非文本区域并且丢弃高可能性非文本区域；基于剩余区域的大小和颜色及其水平位置的对齐来合并剩余区域；在合并的区域上执行特征提取过程以提取笔划特征、边缘特征和填充因子特征；使每个区域的所提取的特征向量经过经训练的二元分类器以判定哪些区域是文本以及哪些区域是非文本。

在某些实现方式中，该方法还包括使经二元化分类的文本区域经过光学字符读取器。在某些实现方式中，将图像分割成相似颜色的区域是通过确定两个区域的平均红、绿、蓝(R、G、B)值的绝对差均小于合并阈值来执行的。在某些实现方式中，分割包括计算相邻像素的颜色差；根据像素的颜色差来整理像素；以及合并具有小于阈值的颜色差的像素，以生成区域。在某些实现方式中，二元分类器包括基于支持向量机(SVM)的分类器。在某些实现方式中，如果笔划宽度值在阈值内则认为笔划宽度相似。在某些实现方式中，笔划宽度特征包括表示图像中的其笔划宽度的标准偏差在阈值内的邻域的百分比的特征值，其中笔划宽度值如果在该阈值内则被认为是相似的。在某些实现方式中，笔划宽度特征包括如下行的百分比：这种行的水平笔划宽度的标准偏差在阈值内，或者这种行能够被集群化成群组并且每个群组中的水平笔划宽度的标准偏差在阈值内，或者这种行具有笔划宽度相似的笔划。在某些实现方式中，笔划宽度特征包括当前笔划宽度与当前笔划到相邻笔划的距离的平均比。在某些实现方式中，笔划宽度特征包括最频繁出现的两个笔划宽度之比。在某些实现方式中，边缘特征是候选图像中的边缘的平滑性、边缘的统一性和边缘的量的度量，其中边缘的平滑性由具有相同方向的邻域的百分比表示，边缘的统一性是以最常出现的边缘方向的频率的形式来计算的，并且边缘的数目是由总边缘长度与区域面积之比来衡量的。在某些实现方式中，既在整个候选图像中也按邻域提取填充因子特征。

在某些实现方式中，预处理过程进行操作以确定：

(1)如果region_height小于某个阈值T_low，或者region_height大于某个阈值T_high，或者

(2)如果region_area小于某个阈值T_area，或者

(3)如果区域接触图像边界的四边之一，并且其高度大于阈值T，或者

(4)如果如下定义的fill_factor低于阈值

则区域被认为是高可能性非文本区域。在某些实现方式中，利用多个二元化方法来执行二元化，其中每个经二元化的输出被光学字符读取器处理以产生多个输出，这些输出被组合。

符合某些实现方式的另一文本检测过程包括通过利用统计区域合并进行分割以去除一定不是文本的区域并且基于如下定义的高度相似性、颜色相似性、区域距离和水平对齐的标准对区域分组，从而来预处理图像：

高度相似性被定义为

其中HEIGHT₁和HEIGHT₂是两个区域的高度；

颜色相似性被定义为

D (c_{1}, c_{2}) = \sqrt{{(\overset{&OverBar;}{R_{1}} - \overset{&OverBar;}{R_{2}})}^{2} + {(\overset{&OverBar;}{G_{1}} - \overset{&OverBar;}{G_{2}})}^{2} + {(\overset{&OverBar;}{B_{1}} - \overset{&OverBar;}{B_{2}})}^{2}} < T_{coloc},

其中

和

是两个区域的平均颜色；

区域距离被定义为D_region＜T_region，

其中D_region是两个区域的水平距离，并且

水平对齐被定义为D_top＜T_align或者D_bottom＜T_align，其中D_top和D_bottom是上边界和下边界之间的垂直距离；

执行特征提取过程以描述每个剩余区域，其中每个特征由该区域的笔划特征、边缘特征和填充因子特征表示；以及

通过使用支持向量机(SVM)分类器引擎来对特征向量分类，该引擎利用以下式子来输出区域是否是文本：

sgn (Σ_{i = 1}^{l} y_{i} α_{i} K (x_{i}, x) + b)

以获得分类输出，其中1表明存在文本，-1表明不存在文本。

在某些实现方式中，笔划特征包括具有相似笔划宽度的垂直邻域和行的百分比。在某些实现方式中，填充因子特征既是在整个候选图像中提取的也是按邻域提取的。在某些实现方式中，预处理进行操作以确定：

(2)如果region_area小于某个阈值T_area，或者

(4)如果如下定义的fill_factor低于阈值，

在考虑上述教导后，本领域的技术人员将会认识到，上述示例性实施例中的某些是基于对运行可如图1所示那样布置的各种软件模块的一个或多个编程的处理器的使用的。然而，本发明并不限于这种示例性实施例，因为其他实施例可利用诸如专用硬件和/或专用处理器或状态机之类的硬件组件等同物来实现。类似地，通用计算机、基于微处理器的计算机、微控制器、光学计算机、模拟计算机、专用处理器、专用集成电路和/或专用硬连线逻辑可用于构造替换的等同实施例。

虽然已经描述了某些例示性实施例，但是很明显根据以上描述本领域的技术人员将清楚许多替换、修改、置换和变化。

Claims

1.一种视频图像中的文本检测的方法，包括：

在图像处理器处接收可能包含文本的视频帧；

将所述图像分割成具有相似颜色的区域；

从具有相似颜色的区域中标识高可能性非文本区域并且丢弃所述高可能性非文本区域；

合并剩余区域中的大小和颜色相似并且水平位置在阈值内的区域；

通过执行特征提取过程以提取笔划特征、边缘特征和填充因子特征，来利用特征描述区域；以及

使剩余区域经过经训练的二元分类器以获得最终文本区域，这些最终文本区域能够被二元化并被OCR软件识别。

2.根据权利要求1所述的方法，还包括使经二元化的最高可能性文本区域经过光学字符读取器。

3.根据权利要求1所述的方法，其中，将所述图像分割成相似颜色的区域是通过确定两个区域的平均红、绿、蓝(R、G、B)值的绝对差均小于合并阈值来执行的。

4.根据权利要求1所述的方法，其中，所述分割包括：

计算相邻像素的颜色差；根据像素的颜色差来整理像素；以及合并具有小于阈值的颜色差的像素，以生成区域。

5.根据权利要求1所述的方法，其中，所述二元分类器包括基于支持向量机(SVM)的分类器。

6.根据权利要求1所述的方法，其中，如果笔划宽度在阈值内则认为笔划宽度值相似。

7.根据权利要求1所述的方法，其中，笔划宽度特征包括表示所述图像中的笔划宽度的标准偏差在阈值内的邻域的百分比或者在垂直方向上具有相似的笔划宽度的邻域的百分比的特征值。

8.根据权利要求1所述的方法，其中，笔划宽度特征包括表示如下行的百分比的特征值：这种行的水平笔划宽度的标准偏差在阈值内，或者这种行能够被集群化成群组并且每个群组中的水平笔划宽度的标准偏差在阈值内，或者这种行具有相似的笔划宽度或相似笔划宽度的集群。

9.根据权利要求1所述的方法，其中，笔划宽度特征包括当前笔划宽度与当前笔划到相邻笔划的距离的平均比。

10.根据权利要求1所述的方法，其中，笔划宽度特征包括最频繁出现的两个笔划宽度之比。

11.根据权利要求1所述的方法，其中，边缘特征是候选区域中的边缘的平滑性、边缘的统一性和边缘的量的度量，其中边缘的平滑性由具有相同方向的邻域的百分比表示，边缘的统一性是以最常出现的边缘方向的频率的形式来计算的，并且边缘的量是由总边缘长度与区域面积之比来衡量的。

12.根据权利要求1所述的方法，其中，填充因子特征既是在整个候选图像中提取的也是按邻域提取的。

13.根据权利要求1所述的方法，其中，通过以下步骤来决定有很高可能不是文本的区域：

(2)如果region_area小于某个阈值T_area，或者

(4)如果如下定义的fill_factor低于阈值

则区域被认为是高可能性非文本区域。

14.根据权利要求1所述的方法，其中，二元化是利用多个二元化方法来执行的，其中每个经二元化的输出被光学字符读取器处理以产生多个输出，这些输出被组合。

15.一种文本检测过程，包括：

通过利用统计区域合并进行分割以去除一定不是文本的区域并且基于如下定义的高度相似性、颜色相似性、区域距离和水平对齐的标准对区域分组，从而来预处理图像：

高度相似性被定义为

其中HEIGHT₁和HEIGHT₂是两个区域的高度；

颜色相似性被定义为

D (c_{1}, c_{2}) = \sqrt{{(\overset{&OverBar;}{R_{1}} - \overset{&OverBar;}{R_{2}})}^{2} + {(\overset{&OverBar;}{G_{1}} - \overset{&OverBar;}{G_{2}})}^{2} + {(\overset{&OverBar;}{B_{1}} - \overset{&OverBar;}{B_{2}})}^{2}} < T_{coloc},

其中

和

是两个区域的平均颜色；

区域距离被定义为D_region＜T_region，

其中D_region是两个区域的水平距离，并且

sgn (Σ_{i = 1}^{l} y_{i} α_{i} K (x_{i}, x) + b),

以获得分类输出，其中1表明存在文本，-1表明不存在文本，其中(x_i，y_i)是训练样本的特征向量和认定实况标签，x是要分类的区域的特征向量，α_i和b是通过解定义为并条件为y^Tα＝0(0≤α_i≤C，i＝1，...，l)的最优化问题而获得的参数，K被定义为

16.根据权利要求15所述的方法，其中填充因子特征既是在整个候选图像中提取的也是按邻域提取的。

17.根据权利要求15所述的方法，其中预处理进行操作以确定：

(2)如果region_area小于某个阈值T_area，或者

(4)如果如下定义的fill_factor低于阈值，

则区域被认为是高可能性非文本区域并能够被排除而不被进一步处理。

18.根据权利要求15所述的方法，其中，二元化是利用多个二元化方法来执行的，其中每个经二元化的输出被光学字符读取器处理以产生多个输出，这些输出被组合。