CN1343339A - 视频流可分类符号分离的方法与系统 - Google Patents

视频流可分类符号分离的方法与系统 Download PDF

Info

Publication number
CN1343339A
CN1343339A CN00805011A CN00805011A CN1343339A CN 1343339 A CN1343339 A CN 1343339A CN 00805011 A CN00805011 A CN 00805011A CN 00805011 A CN00805011 A CN 00805011A CN 1343339 A CN1343339 A CN 1343339A
Authority
CN
China
Prior art keywords
image
programmed
edge
pixel
edge pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN00805011A
Other languages
English (en)
Other versions
CN1276384C (zh
Inventor
L·阿尼霍特里
N·迪米特罗瓦
J·H·埃伦巴尔斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Funai Electric Co Ltd
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1343339A publication Critical patent/CN1343339A/zh
Application granted granted Critical
Publication of CN1276384C publication Critical patent/CN1276384C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

一种用于分类符号的图象处理设备与方法依赖于隔离符号区的连接部分技术。该设备与方法从边沿检测过滤器的作用所导出的图象中构成连接部分。来自过滤后的图象的连接部分的构成定义字符形状的边沿。作为结果,实质上减少了定义各连接部分所必须连接的象素数目并从而提高了处理速度。主要对视频流中的正文讨论了本方法的应用。

Description

视频流可分类符号 分离的方法与系统
相关申请的交叉引用
本发明与共同转让给本发明的受让人的名为“利用视频帧中检测到的正文分析视频内容的系统与方法”的1999年8月9日提交的美国专利申请序号09/370,931中所描述的发明相关,现通过引用将其全文结合在此如同在这里全面陈述的一般。本发明还与名为“检测与定位视频中的正文的方法与装置”的共同转让给本发明的受让人的1999年1月28日提交的美国临时专利申请号60/117,658中所公开的发明相关。这里为一切目的将该相关临时专利申请的公开通过引用结合在此,如同在这里全面陈述的一般。本发明还与共同转让给本发明的受让人的名为“用作用在神经网络上的形状特征的符号分类”的与本发明同时提交的申请中所公开的发明相关。通过引用为一切目的将该相关临时专利申请的公开结合在此,如同在这里全面陈述的一般。
背景
本发明涉及识别数字化图象中的模式的系统,而更具体地涉及分离视频数据流中诸如正文字符等符号的这些系统。
实时广播、模拟磁带及数字视频对教育、娱乐及许多多媒体应用是重要的。随着视频收集量的规模以百万小时计,需要插入视频数据的技术以便能更高效地使用与访问这一资料。已提出了各式各样的这种增强的使用。例如,正文与声音识别的使用能导向原始视频的摘要的建立及索引视频内容的关键的自动生成。另一应用范围有赖于广播(或多道播放等)视频数据流中正文与/或其它符号的快速实时分类。例如,正文识别可用于诸如视频内容索引等任何适当目的。
已利用各种正文识别技术来识别数字化模式。最普通的实例是文件光学字符识别(OCR)。所有这些技术的通用模型为从图象中导出输入矢量,该输入矢量刻划原始模式的特征。将该矢量映射到固定数目或范围的符号类别之一上来“识别”该图象。例如,位图图象的象素值可用作输入矢量而对应分类集可以是诸如英文字母表等字母表。没有特定的模式识别技术已达到普适的统治地位。各识别问题具有其本身的难点集合:分类集的大小、输入矢量的大小、要求的速度与精度、及其它问题。同时,可靠性是呼唤几乎每一应用领域中的改进的领域。
作为上述不足的后果,模式识别是不断积极研究的领域,各种应用根据它们各自的诸如实用性与可行性标准受到不同程度的关注。也许这些技术中最成熟的是对正文字符的模式识别的应用,即光学字符识别(OCR)。这一技术由于将印刷品转换成计算机可读的字符的客观需要与实用性而得到开发。从实用观点上,印刷文件提供相对清楚与坚实的数据源。这些文件通常以对均匀的背景高对比度模式集合为特征并可用高分辨率存储。例如,印刷文件可在任意分辨率上扫描以形成印刷字符的二进制图象。同时,存在着对模式识别的这一应用的明显需求,由于从文件到基于计算机的文本免除了键盘打字的劳动,实现经济的数据存储,允许搜索文件,等。
由于随着执行符号或字符分类而来的困难,一些应用领域受到的关注不够。例如,至少由于下述因素而视频流中的模式识别是困难的领域。视频流中的字符趋向于在空间上不均匀(有时在时间上变化的)背景上显出、带有低分辨率、及低对比度。因此识别视频流中的字符是困难的并且没有已知的可靠方法。此外,对于某些应用,如至少在上述相关申请中所公开的,高度希望快速识别速度。
在许多出版物中已描述了索引与分类视频的系统与方法,其中包含:M.Abdel-Mattaleb等人的“CONIVAS:基于内容的图象与视频访问系统”,ACM多媒体学报,427-428页,Boston(1996);S-F.Chang等人的“Video Q:使用视觉提示的自动化的基于内容的视频搜索系统”,ACM多媒体学报313-324页,Seattle(1994);M.Christel等人的“信息媒体数字视频库”,ACM通讯,卷38,第4期57-58页(1995);N.Dimitrova等人的“消费者设备中的视频内容管理”,IEEE知识与数据工程会报(1998年11月);U.Gargi等人的“数字视频数据库中索引正文事件”,模式识别国际会议,Brisbane,916-918页(1998年8月);M.K.Mandal等人的“使用矩与小波的图象索引”,IEEE消费者电子设备会报,卷42,第三期(1996年8月);以及S.Pfeiffer等人的“自动提取数字运动”,视觉通信与图象表示期刊,卷7,第4期,345-353页(1996)。
在Ohya等人的“在场景图象中识别字符”IEEE模式分析与机器智能会报,卷16,214-224页(1994年2月),中描述了用局部阈值法抽取字符及用估算邻接区之间的灰度级差检测包含字符的图象区。Ohya等人进一步公开了检测到的具有紧密接近性与类似灰度级的区的合并,以便生成字符模式候选。
在A.Haubtmann等人的“用于视频分段的正文、语音与视觉:信息媒体项目”,AAAI综合语言与视觉的计算模型1995年秋季讨论会,中描述了使用视频正文的空间上下文与高对比度特征合并带有互相紧密靠近的水平与垂直边的区以便检测正文。在“用于视频索引的自动正文识别”,SPIE图象与视频处理会议(1996年1月),中R.Lienhart与F.Suber讨论了用于减少视频图象中的彩色数目的非线性彩色系统。该对比文件描述了产生具有类似颜色的同类段的分裂与合并过程。Lienhart与Suber使用各种试探法来检测同类区中的字符,其中包含前景字符、单色或刚接字符、大小受限制的字符、及与周围区相比具有高对比度的字符。
在A.K.Jain与B.Yu的“图象与视频帧中的自动正文定位”,IEEE模式识别学报,2055-2076,卷31(1998年11月12日),中描述了用于定位正文及将图象分成多个实前景与背景图象的多值图象分解的使用。在“用于基于内容的注释与检索的从视频自动抽取正文”,模式识别国际会议会报,618-620页(1998),中J-C.Shim等人描述了使用广义区域标记算法来找同类区及分段与抽取正文。为了确定正文的颜色与位置,聚集了识别出的前景图象。
K.V.Mardia等人在“图象分段的空间阈值方法”,IEEE模式分析与机器智能会报,卷10,919-927页(1988)及A.Perez等人在“图象分段的迭代阈值方法”,IEEE模式分析与机器智能会报,卷9,742-751页(1987)中描述了其它有用的图象分段算法。
在数字化位图中定位正文的各种技术是已知的。用于二进制化字符数据来形成能以白底黑色为特征的图象及用于在位图图象上执行字符识别的技术也是已知的。视频流中的正文与其它模式从容易分类的可预测的、大的、与清楚的延伸到即使在原则上也只包含没有来自辅助文字数据的协助来分类的不充分信息的粗糙的、短暂的、不可预测地朝向与定位的。还正在进行研究来提高识别速度以及精度。因此,本技术的当前状态中存在着改进空间,尤其是当诸如视频流数据等应用将当前技术使用到最大限度时。
发明概述
简言之,用于分类符号的图象处理设备与方法依赖用于隔离符号区的连接部分技术。本设备与方法从应用程序边沿检测过滤器导出的图象构成连接的部分。从经过过滤的图象构成连接的部分定义字符形状的边沿。连接的部分是根据诸如面积、高度、宽度、高宽比等阈值标准过滤的。结果,充分地减少了定义各连接部分必须连接的象素数目并从而提高了处理速度。本方法的应用主要是相对于视频流中的正文讨论的。
视频流中正文的字符分类器采用向后传播神经网络(BPNN),其特征空间是从尺寸、平移、与旋转不变的与形状相关的特征导出的。用上述技术精确隔离字符区能使这些特征空间可以实现。这些特征空间的实例包含正则与不变矩及从细的阈值字符的Delaunay三角剖分导出的角直方图。由于视频流中的字符的低劣分辨率,这些特征空间提供对作为分类器的BPNN的良好匹配。
检测与分类出现在视频流中的正文的能力具有许多用途。例如,可根据从这一正文中导出的分类特征化与索引视频序列及其部分。这能导向索引、增强的搜索能力、注释特征、等。此外,视频流中的正文识别允许提出上下文敏感的特征,例如到达响应广播视频流中网址的出现所生成的网站的可调用的链路。
视频中的正文提出来自发展得很好但仍在成熟中的技术的文件OCR的非常不同的问题集合。文件中的正文趋向于单色而高质量的。视频中,缩小的场景图象可包含噪声与不受控制的亮度。出现在视频中的字符可具有不同颜色、尺寸、字体、朝向、粗细,背景可以是复杂而随时变化的等。并且,视频符号识别的许多应用要求高速度。
本发明所采用的用于分类视频正文的技术采用符号隔离的精确高速技术。然后利用符号位图生成作用在BPNN上的与形状相关的特征矢量。该特征矢量提供对于整体图象形状的较大强调而对于上面提出的可变性问题相对地不敏感。在隔离字符区的技术中,根据检测到的边沿定义连接部分结构。由于边沿检测产生比二进制化符号所占用的整个区总体上少得多的象素,生成连接部分的过程能够快得多。特征空间的选择也增进识别速度。利用模拟的BPNN,输入矢量的大小能严重影响吞吐量。对于来自选择的特征空间的所使用的部分的选择性是非常重要的。当然,通过组合诸如矩与线段特征等不同特征的混合物,可构成复杂的特征空间。并且,当所选择的特征共用计算步骤时可实现计算经济性。
将要参照下面的示例性附图结合某些较佳实施例描述本发明,以便更全面地理解它。对于附图的参照,强调所示出的细节是用示例方式的并且只是为了本发明的较佳实施例的示例性讨论的目的,并且是为了提供认为是本发明的原理与概念方面的最有用与容易理解的描述而提出的。因此,并未试图展示比基本理解本发明所必需的更详细的发明的结构细节,利用附图所作的描述使熟悉本技术的人员明白在实践中可以如何实施本发明的多种形式。
附图说明
图1为展示可用于实现本发明的设备的图。
图2为展示按照本发明的实施例的字符分类方法的流程图。
图3A与3B示出包含可按照本发明的实施例分类的信息的视频屏幕中的正文区。
图4A示出来自视频帧的捕捉到的数字图象的正文段的外观。
图4B示出边沿检测过滤后的正文段。
图4C示出在边沿检测中或之前的若干级过滤的效果,注意这些不是实际显示中间结果而是为了说明与本发明相关的概念的目的示出的。
图5A与5B示出按照本发明的实施例的边沿过滤的效果。
图5C示出能用在本发明中的缺口闭合算法的实例。
图6A-6D示出按照本发明的实施例的正文线分段的技术。
图7A与7B为展示按照本发明的实施例的过滤过程建立与管理连接的部分的技术的流程图。
图8为展示按照本发明的实施例的字符分类方法的流程图。
图9A-9D示出过滤分段字符来导出特征矢量前体。
图10A与10B示出在按照本发明的实施例的字符分类过程中的图象过滤步骤中的Delaunay三角剖分与Voronoy图阶段。
图11A与11B示出按照本发明的实施例的角直方图型特征空间。
最佳实施例详述
参见图1,图象正文分析系统100采用视频处理设备110、视频源180、及有可能监视器185来接收视频输入并生成与存储嵌入其中的字符信息。视频处理设备110接收视频图象,分析帧,隔离正文区与字符区,并按照下面详细讨论的过程分类正文与/或字符区。视频是从视频源180施加的。视频源180可以是任何视频数据源,其中包括带模-数转换器(ADC)的VCR、带数字化视频的盘、带ADC的有线盒、DVD或CD-ROM驱动器、数字视频家用系统(DVHS)、数字录像机(DVR)、硬盘驱动器(HDD)等。视频源180能提供少量短剪辑或多个剪辑,其中包括较长长度的数字化视频图象。视频源180可提供诸如MPEG-2、MJPEG等任何模拟或数字格式的视频数据。
视频处理设备110可包含图象处理器120、RAM 130、存储器140、用户I/O卡150、视频卡160、I/O缓冲器170、及处理器总线175。处理器总线175在视频处理设备110的各元件之间传输数据。RAM 130进一步包括图象正文工作空间132及正文分析控制器134。图象处理器120提供对视频处理设备110的总体控制并执行图象正文分析系统100所需的图象处理,其中包含根据系统选择的与用户选择的属性的视频帧中的正文分析。它还包含实现编辑过程,处理供在监视器185上显示与/或存储在存储器140中的数字化视频图象,并在图象正文分析系统100的各种元件之间传输数据。对图象处理器120的要求与能力是本技术中众所周知的,除了本发明所需要的以外,无须详尽描述。
RAM 130提供随机存取存储器供临时存储视频处理设备110生成的数据,这些数据不是系统中的部件提供的。RAM 130包含用于图象正文工作空间130及正文分析控制器134的存储器,以及图象处理器120与相关设备所需的其它存储器。图象正文工作空间132表示在正文分析进程中在其中临时存储与特定视频剪辑相关的视频图象的RAM130部分。图象正文工作空间130允许修改帧的拷贝而不影响原始数据,从而稍后可以恢复原始数据。
在本发明的一个实施例中,正文分析控制器134表示专用于存储在系统或用户定义的正文属性的基础上执行视频图象分析的图象处理器120所执行的应用程序的RAM 130的部分。正文分析控制器134可执行众所周知的编辑技术,诸如场景之间的逐渐改变与边界检测,以及与本发明关联的视频正文识别的新颖技术。正文分析控制器134也可体现为CD-ROM、计算机软盘、或可加载到存储器140中的可拆卸的盘端口或诸如视频源180中的任何地方的其它存储介质上的程序。
存储器140包括一或多个盘系统,其中包括可拆卸的(磁或光)盘,用于永久性存储包含需要的视频与音频数据在内的程序及其它数据。取决于系统要求,可将存储器140配置成与向和自视频源180以及系统的其余部分传输视频与音频数据的一或多条双向总线接口。必要时,存储器140能在视频速率上传输数据。将存储器140的大小定为为了包含正文属性分析在内的编辑目的对若干分钟视频提供足够的存储器。取决于特定应用及图象处理器120的能力,可将存储器140配置成提供存储大量视频剪辑的容量。
用户I/O卡150可将各种用户设备(未示出)接口到图象正文分析系统100的其余部分上。用户I/O卡150将从用户设备接收的数据转换成接口总线175的格式供传输到图象处理器120或RAM 130供图象处理器120以后访问。用户I/O卡150还传输数据给诸如打印机(未示出)等用户输出设备。视频卡160提供监视器185与视频处理设备110的其余部分之间通过数据总线175的接口。
I/O缓冲器170通过总线175连接在视频源180与图象正文分析系统100的其余部分之间。如上面讨论的,视频源180至少具有一条双向总线来与I/O缓冲器170接口。I/O缓冲器170在要求的视频图象传输速率上向/自视频源180传输数据。在视频处理设备110内,I/O缓冲器170将从视频源180接收的数据根据要求传输给存储器140、图象处理器120、或RAM 130。同时传输视频数据给图象处理器120提供了在接收它们时便显示视频图象的手段。
现在参见图2、3A与3B,视频处理设备110或任何其它适当设备能在诸如图3A与3B中所示的包含正文的视频序列上执行正文抽取与识别操作(如图2中概述的)100。将单个帧305提交给图2中概述的过程而得出诸如310、315、360、365、370、及375等单个正文区的隔离。注意可将该过程作用在综合的多个帧的整体上以减少背景的复杂性及提高正文的清楚性。这便是,当若干后面的帧包含相同的正文区时(而当正文区包含诸如类似的频谱密度函数等相同的信号特征时便能识别这一点),便能将多个接连的帧综合(如加以平均)。这趋向于使正文区更清楚并导致正文更好地与背景隔开。当背景是移动图象时,必须用这一过程减少背景的复杂性。注意当如在现代电视中为移动画面增强进行了时间积分时,也可从源获得这一信号平均的某些好处。从而,对于下面的讨论,在“单个”帧上的操作的概念并不限于单个“帧抓取”而在其上面进行图象分析的“帧”可能是一或多个接连的视频帧的组合。
起初,图象处理器120可分离视频图象的一或多帧的彩色及存储减少彩色的图象供在抽取正文中使用。在本发明的一个实施例中,图象处理器120使用红绿蓝(RGB)彩色空间模型来隔离象素的红色分量。图4A中示出帧中正文部分的可能外观的实例。红色分量通常是用于检测视频正文中占统治地位的白、黄、与黑色最有用的。这便是,对于覆盖(重叠)正文,隔离出的红色帧提供公共正文彩色的鲜明的高对比度边沿。当前的方法也可用于抽取不是覆盖在视频上而是诸如停留在广告牌或路牌上的膜片序列等作为其实际部分的正文。在这一情况中,红色帧可能不是最好用的。在这些情况中,灰度(alpha信道)可提供最佳起点。注意在本发明的其它实施例中,图象处理器120可使用各种彩色模型,诸如灰度图象或YIQ视频帧的Y分量、等。
将隔离的帧图象存储在图象正文工作空间132中。然后在步骤S210中,在执行进一步的处理之前,可使捕捉到的图象锐化。例如,可采用下述3×3屏蔽:
    -1    -1    -1
    -1     8    -1
    -1    -1    -1其中各象素是其本身的8倍加上其各相邻象素的负值之和。上面的位图过滤器(或“屏蔽”)的矩阵表示是本技术中的普通符号。存在着许多本技术中已知的这种派生的过滤器。本发明设想采用各式各样的不同技术中任何一种用于隔离正文区。上面只是一个非常简单的例子。过滤步骤可包含多遍,例如沿一个维度的梯度检测后随沿另一维度的梯度检测(同时在各自的正交方向上加以平顺)随后将两种过滤结果相加。在步骤S210中,可采用例如R.C.Gonzalez与R.E.Woods在“数字图象处理”,Addison-Wesley出版公司(1992),中所描述的中值滤波器减少随机噪声。
边沿检测可采用另一边沿过滤器。通过这一过滤器,可以(及最好)放大锐化(红色,灰度、等)图象中的边沿并利用例如下述边沿屏蔽衰减非边沿:
    -1    -1    -1
    -1    12    -1
    -1    -1    -1其中各象素再一次是作用在其本身及相邻象素上的上述各自的系数(权重)之和。图4C中,示出前面的过滤步骤的结果。边沿过滤原始图象163得出差分图象164,然后边沿增强该图象得出最终图象165,将其提交给下面的过滤。
在步骤S215中,应用阈值边沿过滤器或“边沿检测器”。如果Edgem,n表示M×N边沿图象的m,n象素,而Fm,n为从步骤S210得出的增强图象,下面的等式可用于边沿检测:
式1 Edge m , n = &Sigma; i = - 1 1 &Sigma; j = - 1 1 w i , j F m + i , n + j < L edge 其中0<m<M及0<n<N,并且Ledge为一可以是也可不是常量的阈值。值Wi,j为来自边沿屏蔽的权重。在边沿检测进程中可忽略不计最外面的象素。注意,在这一阈值运算中也可蕴含应用锐化过滤器。
边沿阈值Ledge为预定的阈值,它可以是固定值或变量值。使用固定阈值可导致过度的花白噪声并导致正文周围的固定边沿中的不连续性。已知的开放(如腐蚀后再膨胀)方法导致丢失部分正文。带有可变阈值的自适应边沿过滤器改善这些趋势并且是在采用静态阈值上的极大改进。
在步骤S220中,在调节边沿检测阈值的一种模式中,在用边沿检测器作用第一固定阈值之后,降低在固定阈值步骤中识别出的边沿象素的任何邻接(在规定的容差内)象素的局部阈值,并重新作用过滤器。在另一模式中,通过将平顺函数(假定结果是以大于2的象素深度存储的)作用在阈值步骤的结果上然后再一次与阈值比较便可容易地完成后一操作。这会导致标记为非边沿的象素变成标记为边沿的。象素的阈值降低程度最好取决于标记为边沿的相邻象素的数目。它后面的原理是当相邻的象素为边沿时,当前象素较为可能是边沿。从降低它们的局部阈值得出的边沿象素不用于计算相邻象素的降低的阈值。
作为替代,可与低通加权函数一起使用固定阈值以保证将被强边沿象素(具有高梯度的象素)包围的单个或少数非边沿象素标记为边沿象素。事实上,上面描述的所有步骤S210-S220可用式1形式的单一数值运算来描述,但在求和上具有较宽的范围。将它们分成独立的步骤不应认为是必要的或限制性的,并可依赖于计算设备与软件的特点以及其它考虑。
一旦检测出了字符边沿,图象处理器120便执行初级边沿过滤以消除不包含正文或在其中不能可靠地检测到正文的图象区。例如,带有极少量边、非常低的边沿密度(单位面积中边沿象素数)、或边沿象素低聚集度(即它们并不构成长距离结构,如噪声)的帧可从进一步处理中排除。
图象处理器120可在不同的级上执行边沿过滤。例如可在帧级或亚帧级上执行边沿过滤。在帧级上,如果一帧的合理的一部分以上呈现为由边沿组成,图象处理器120可忽略该帧。作为替代,能应用诸如频谱分析等过滤函数来确定该帧是否可能具有太多的边沿。这可从该帧的强边沿对象的高密度得出。前提是过度复杂的帧包含高比例的非字符细节并且通过字符分类来过滤它是不相称地繁重的。
当采用帧级过滤时,图象处理器120维护边沿计数器来确定该图象帧中的边沿象素数目。然而,这可能导致跳过或忽略包含清晰的正文的帧,诸如带有噪声部分以及带有清晰的正文部分的帧。为了避免排除这些图象帧或亚帧,图象处理器120可在亚帧级上执行边沿过滤。为了这样做,图象处理器120可将帧分成较小的区。为了做到这一点,例如,图象处理器120可将帧分成三组象素列及三组象素行。
接着,图象处理器120确定各亚帧中的边沿数目并相应地设定其相关计数器。如果一个亚帧具有比预定数目多的边,处理器可舍弃该亚帧。可根据处理图象区所需的时间量或它们相对于象素密度的大小会使识别精度低于要求的最小值的概率来设定每一区的预定最大边沿计数。可利用较大数目的亚帧来保证不丢失被识别为不能判读的区包围的较小的清楚正文区。
接着在步骤S225中,图象处理器120在前一步骤中生成的边沿上执行连接部分(CC)分析。这一分析在规定的容差范围内组合所有连接的边沿象素。这便是,将邻接另一边沿象素或在其一定距离以内的每一个边沿象素与该象素合并在一起。最终,这一合并过程定义结构或各具有连接或接近连接的边沿象素集的连接部分。这一点的动机在于假定各正文字符区对应于单一CC。取决于图象捕捉的分辨率、向上抽样(在原始图象上用内插加上的象素的比例)或向下抽样(从原始图象消除的象素的比例)的程度,可将容差范围设定为任何适当的值。
参见图4B,对应于连接的字符的CC之间的偶然的间隙或断裂可作为带有固定阈值的边沿检测的后果出现。例如,能发生在171或172上所示的断裂。上述边沿检测方案的使用有助于保证这些断裂的CC部分的合并。从图5A与5B左方字符中的断裂开始,CC合并法得出将断裂174、175与176中的点识别为边沿点并将其分别合并到181与182处的单一连接的部分结构中。除了上面描述的特定方法以外,可用各种机制完成连接区中的“不良”断裂的闭合。例如,可在腐蚀或变细之后应用膨胀。为了避免增加边沿象素的总面积的后果,在检测连接部分之前膨胀后可随即变细。并且,可增加从式1的应用得出的二进制化阈值图象的灰度深度,然后可作用平顺函数及再一次执行阈值法(式1)。存在着许多能用来完成所要求的闭合效果的图象处理技术。又另一替代方法是诸如在图5C中所示当象素基本上被连接的系列中的边沿象素包围时便将其标记为边沿。这便是,所示的24种情况中的每一种是带有8个相邻象素的一个象素。在这些情况的每一种中,邻接象素具有连接的系列中的5个或以上边沿象素。当然,连接的系列中的数目可以改变或在该组上增加特殊情况。此外,矩阵的大小可以增加。有利于被诸如对图5C定义的算法标记为边沿的象素类型是认为较少可能是连续的断裂部分的那些象素。通过闭合(膨胀然后腐蚀)或通过在屏蔽中使用较少的锐化或对阈值(应用式1)进行预处理能得到类似结果。
CC为确定为构成没有非边沿象素将其分成两部分的连接的系列的象素集合。构成各CC的一张表,它包含该结构中最左、最右、最上、及最下象素的坐标,连同诸如结构中心的坐标等该结构的位置的指示。同时存储的能有构成连接部分结构的象素的数目。注意象素计数表示特定连接部分结构的面积。可利用预定的系统与/或用户阈值来定义连接部分结构的面积、高度与宽度的最大与最小极限以便确定将哪些连接部分结构向前传递到下一处理阶段。最后的步骤为过滤器确定CC是否有资格作为字符。可利用其它直观推断来组合太小的CC来使它们本身符合直观推断或分裂太大的CC。
在步骤S230中,图象处理器120根据左下方象素的位置按升序排序满足前一步骤中的标准的连接部分。图象处理器120根据象素坐标排序。通过连接部分的排序的表来确定哪些CC构成正文块(“框”)。
图象处理器120将第一CC分配给第一个框并作为初始或当前分析的框。图象处理器120测试各后续的CC来判明其最下方象素是否位于与第一CC的对应象素相同的水平线(或靠近的水平线)上。即如果其垂直位置靠近当前CC的垂直位置则将其加到当前正文框上。如果是,便假定属于同一正文行。垂直坐标差阈值可以是固定的或可变的。最好,第二CC的水平坐标的接近度是CC的高度的函数。还测试候选新增加者到当前正文框的水平距离来判明它是否位于可接受的范围内。
如果CC不符合与当前正文框合并的标准,生成带有将失败的CC标记为其第一元素的新的正文框。这一过程可对图象中的单行正文得出多个正文框。当系列中的下一个连接部分具有实质上不同的垂直坐标或低于最后的CC的水平坐标时,可在水平横截线的端点上闭合当前正文框并开始一新框。
对于各框,这时图象处理器120对初始字符合并过程所建立的各正文框执行第二级合并。这将可能已错误地解释为分开的正文的行并因而放置在分开的框中的正文框合并。这可能由严格的连接部分合并标准或由于低劣的边沿检测导致,从而使同一字符得出多个CC。
图象处理器120将各框与它后面的正文框用一组条件对比。两个正文框的多个测试条件为:
a)一个框的底部在另一个的规定的垂直间隔之内,该间隔对应于预期的行间隔。并且,两个框之间的水平间隔小于基于第一框中的字符平均宽度的可变阈值。
b)框之一的中心位于另一正文框的区域内,或
c)第一框的顶部与第二正文框的底部重叠且一个框的左或右边分别在另一框的左或右边的少数象素之内。
如果满足上述条件中任何一项,图象处理器120从正文框表中删除第二框并将其合并到第一框中。图象处理器120重复这一过程直到互相相对测试了所有正文框并尽可能组合了为止。
在步骤S235中,如果框符合规定的面积、宽度与高度的制约,图象处理器120接受从步骤235得出的正文框作为正文行。对于各该正文框,图象处理器120抽取对应于来自原始图象的正文框的子图象。然后,图象处理器120二进制化子图象准备字符识别。这便是,将彩色深度降低到2,将阈值设定为保证将字符与背景适当地隔离的值。这是难题,它可包含若干步骤,诸如综合多帧来简化复杂背景。
用于二进制化图象的阈值可确定如下。图象处理器120通过计算正文框中的象素的平均灰度值(AvgFG)来修正正文框图象。将其用作二进制化图象的阈值。同时计算的有正文框周围的区(例如5个象素)的平均灰度值(AvgBG)。通过将AvgFG以上的任何象素标记为白并将AvgFG以下的任何象素标记为黑来二进制化子图象。计算标记为白的象素的平均值Avg1,以及标记为黑的象素的平均值Avg2。
一旦将正文框转换成黑白(二进制)图象,图象处理器120将Avg1及Avg2对AvgBG进行比较。将具有接近AvgBG的平均值分配为背景而将另一区分配为前景(或正文)。例如,如果黑区平均值更接近AvgBG,便将黑区转换成白色并将白区转换成黑色。这保证正文永远是一致的值供输入到OCR程序中。随后图象处理器120将抽取的帧正文存储在图象正文工作空间132中并且进程在进程步骤205在下一帧上继续进行。注意在用局部阈值法之前,可执行超分辨步骤来增强正文分辨率。
下面,在能进行分类以前必须隔离单个字符区。为了隔离正文行中的单个字符区,可用各种直观推断,例如字符高宽比、高度与宽度的上限与阈值等。这些直观推断通常落入各种维度特征的容许值的预测类别中。
由于原始正文中缺乏清楚性,连接部分有可能不能与字符对应。参见图6A-6D,如果CC划分失败,可利用另一工具沿水平线划分字符。一个实例是作为水平坐标的函数并且其值是与当前正文框内所包含的并与该X坐标重合的垂直列中的前景象素的数目(也有可能如示出的灰度值)成比例的垂直投影425。这便是,在其上面累计象素的垂直列不超过正文框的大小,因此只用这一方法测定字符的当前行。也可用窗口函数425加权这一“灰度”垂直投影425,窗口的宽度与序列中下一字符的预期宽度成正比。420上示出用窗口函数425加权的结果。可用最小投影值来定义字符的左与右边。
参见图7A,用于隔离字符区的方法从第一CC开始并顺序进行通过正文框。在步骤S310上开始,选择第一或下一CC。在步骤S312上对照维度直观推断测试所选择的CC来判定该CC是否符合它们。CC上的直观推断测试可能指示该CC不大可能是整个字符或者它太大而有可能包含一个以上字符。如果在步骤314中发现该CC太大,在步骤S316中应用划分字符的替代方法,例如上述灰度投影。如果在步骤S322中发现该CC太小,则在步骤S318中对照直观推断测试下一CC。如果在步骤S320中这显示后面的CC也太小,则在步骤S326中将当前与后面的CC合并而流程返回到步骤S310直到隔离了所有字符区为止。如果后面的CC并不太小,则在步骤S324中丢弃当前CC而流程进行到步骤S310。
参见图7B,另一划分字符的方法保留直观推断失败的选择字符区并试图分类这些选择对象。在分类时,选择达到最高置信度级的选择对象。然后相应地对待其它字符区。例如如果用高置信度测定分类对应于两个合并的CC的图象,不再将对应于用来与第一CC合并的字段作为独立的字符字段对待。在步骤S330中,选择第一或下一CC。在步骤S332上,对照维度直观推断测试选择的CC来判定该CC是否符合它们。如果在步骤S334中发现该CC太大,在步骤S336中应用划分字符的替代方法。如果在步骤S338中发现该CC太小,保留当前CC及与下一CC组合的当前CC两者作为供两者择一的字符字段。当将这些字符字段提交给下述分类时,利用置信度测定来选择两者之一。然后流程返回到步骤S310直到隔离了所有字符区为止。如果步骤S336的分裂操作产生低置信度测定,则保留超大的与断裂的字段供在分类中用作选择对象,并用分类结果在选择对象之间进行选择。
注意不一定非将与字符重合的区定义为用直线组成的。它们可以是橡胶带类型的边界区(任意边数的凸多边形)或正交凸直线多边形(直线组成的多边形其中连接内部两点的每一条水平或垂直线段全部位于内部)或基本上封闭预期的符号或字符的所关心的特征的任何其它适当的形状。
还注意可完全省略正文框的形成而直接用连接部分来识别候选字符区。然而,在这一情况中,预期会有较大数目的连接部分将超出将它们映射(分类)到其中的特定符号集合。还注意从上面的描述中很清楚可将上面的技术一般性地应用在符号分类上而不限于文字字符分类。
参见图8,一旦隔离了所有字符区(用步骤S405概括),便可顺序分类字符。下面在步骤S410中,选择第一或顺序的字符区。在步骤S415中,将原始图象的一部分(或其红色部分)提交给一些适当的图象分析来为特征分析作准备。例如,可将图象二进制化(用阈值),得出灰度图象,二进制化与变细,等。预处理根据所使用的特征空间变化。
参见图9A-9D,例如,特征空间可利用某些特征点(如下面描述的)。特征点是可用构架字符识别的并从正规的视频字符(图9A)导出它们,可将图象二进制化(图9B)然后变细(图9C)。然后可作为变细后的字符460、470的角点465、弯点466、交叉点467及端点468导出特征点(图9D,465-468)。这种图象处理很适用于下述角直方图特征空间。可能需要较低级的图象处理来计算大小不变矩。注意同样可用其它特征点定义系统。
再参见图8,可将原始字符提交给各种不同分析来定义可作用在适当地训练的向后传播神经网络(BPNN)的输入上的特征矢量。对于采用大小不变矩的技术,可使用不变细或变细的字符。在步骤S420中,用适当的图象分析生成选择的特征矢量。可使用各式各样的图象分析。已为与本专利相关的应用定义了若干不同特征空间。下面详细描述的定义的特征空间是大小与旋转不变的并认为特别适用于使用BPNN分类器的视频字符分类。
从变细后的字符的特征点导出第一特征空间,如图9A-9D所示。参见图10A与10B,首先从特征点12导出Delaunay三角剖分(图10A)或Voronoy图(图10B)。图象处理器120执行三角剖分,然后为各三角形1-6生成内角的清单。然后它利用这一清单生成角的直方图,如图11A中所示。该直方图简单地表示由三角剖分定义的三角形1-6的集合中给定大小范围的角A、B与C的频率。注意其它三角剖分法或多边形生成法也能使用。例如,参见图10B,可利用Voronoy多边形17与18定义一组角A’、B’、与C’,各与Voronoy图的顶点14关联。得出的角直方图起到从其导出特征点的特定字符的特征矢量的作用。
可在上面的特征空间上加上其它大小与旋转不变特征,例如水平线的数目、交叉点的数目、端点的数目、孔、拐点、中点、等。角直方图的另一变型为只使用各三角形的两个最大(或最小)内角。角直方图的又另一变型为使用二维角直方图而不是一维角直方图。例如,参见图11B,各三角形的最大(或最小)角对定义Delaunay三角剖分(或Voronoy图的各顶点)中各三角形的有序的对(用大小排序)。各有序对的第一元素用于矩阵的第一维而第二元素用于矩阵的第二维。以这一方式,保存角之间的相关性作为利用BPNN分类器训练与分类的信息。
认为特别适用于视频字符BPNN分类器的又另一特征空间是大小不变矩的阵列。这些矩用下面的等式定义。虽然在各种情况中可使用大量单独的矩,本申请中选择了特定的少数几种。象素位置与质心重合的象数下标i,j用下式给出: i - = &Sigma; i = 1 n &Sigma; j = 1 m iB [ i ] [ j ] A j - = &Sigma; i = 1 n &Sigma; j = 1 m jB [ i ] [ j ] A 其中当阈值图象的第i,j象素为前景象素时B[i][j]为1,而否则为0,而A是由下式给出的前景象素的聚集区: A = &Sigma; i = 1 n &Sigma; j = 1 m B [ i ] [ j ] . 平移不变矩由下式给出: &eta; p , q = M p , q M 0,0 . &gamma; 其中Mp,q为由下式给出的字符图象的第p,q个原始矩: M k , j = &Sigma; i = 1 n &Sigma; j = 1 m ( i - i - ) k ( j - j - ) l B [ i ] [ j ] &gamma; = 1 + p + q 2 , 为输入到BPNN选择的不变矩为:
         φ1=η2,00,2
φ2=4η1,1 2+(η2,00,2)2
φ3=(3η3,01,2)2+(3η2,10,3)2
φ4=(η3,01,2)2+(η2,10,3)2
φ5=(3η2,10,3)(η2,10,3)[3(η3,01,2)2-3(η2,10,3)2]+
3,0-3η1,2)(η3,01,2)[(η3,01,2)2-3(η2,10,3)2]和
φ6=(η2,00,2)[(η3,0-3η1,2)2-(η2,10,3)2]+
1,13,01,2)(η2,10,3)
再参见图8,在步骤S2425中,将各特征矢量作用在输出各种候选类并取决于输入有希望输出非常强的候选者的受过训练的BPNN上。如果存在多个候选字符,通过将BPNN输出的概率与推测的语言与上下文的使用频率数据组合,可在步骤S430中作出最佳猜测。这一数据可从不同类型的资料搜集,例如,电视广告转录文本、印刷资料、从因特网流送或下载的文件。一种组合方式是用与使用频率统计关联的对应概率来加权BPNN输出的概率。
对于熟悉本技术者显而易见本发明不限于上面的示例性实施例的细节,而可以以其它特定形式实施本发明而不脱离其精神或主要属性。例如,上面提出的正文分析描述了对水平对齐的正文的偏爱。很明显相同方法可应用在诸如垂直对齐的正文、沿曲线的正文等其它对齐方式。
因此在所有方面都认为这些实施例是示例性而非限制性的,发明精神是由所附权利要求而非上面的描述指明的,因此旨在将凡是进入权利要求的意义与等效范围内的所有改变都包括在此。

Claims (11)

1.一种用于分类包含符号的图象数据流中的符号的设备,包括:
带有连接捕捉来自所述图象数据流(170)的输入及输出(175)的图象数据存储单元(140);
图象处理器(120),连接至所述图象数据存储单元输出,编程为检测存储在所述图象数据存储单元中的捕捉到的图象数据部分中的边沿并对其作出响应形成边沿图象,从而所述边沿图象包含边沿象素与非边沿象素;
所述图象处理器编程为从所述边沿象素定义至少一个连接部分,所述连接部分实质上是只包含边沿象素的连接的区;
所述图象处理器编程为定义所述部分中的子图象,其高度与宽度基本上与所述至少一个连接部分的最大高度与宽度相同;以及
所述图象处理器编程为分类所述子图象,借此识别符号集与所述子图象之间的最佳匹配。
2.权利要求1中的设备,其中所述图象处理器进一步编程为这样的,即定义所述至少一个连接部分的边沿象素的连接是不完善的。
3.权利要求1中的设备,其中所述图象处理器进一步编程为将其邻域中包含规定数目以上的边沿象素的非边沿象素标记为边沿象素,借此闭合只包含边沿象素的分开的连续区之间的小空隙。
4.一种用于分类包含符号的图象数据流中的符号的设备,包括:
带有连接成捕捉来自所述图象数据流(170)的输入及输出(175)的图象数据存储单元(140);
图象处理器(120),连接在所述图象数据存储单元输出上,编程为在存储在所述图象数据存储单元中的所述视频数据的至少一部分上作用差分过滤器;
所述差分过滤器为诸如区分限定至少一个非边界象素集合的连续的边界象素集合;
所述图象处理器进一步编程为找出包围所述连续的边界象素集合的最小包络;
所述图象处理器进一步编程为在对应于包络的所述部分中定义子图象;以及
所述图象处理器进一步编程为分类所述子图象,借此识别符号集与所述子图象之间的最佳匹配。
5.权利要求4中的设备,其中所述图象处理器进一步编程为根据非边界象素的规定邻域中的边界象素的数目将非边界点标记为边界象素,使得分开的只包含边界象素的连续区之间的空隙闭合。
6.一种分类包含符号的图象数据流中的符号的方法,包括下述步骤:
通过下述步骤识别被至少一个符号占用的一部分图象区:
    在所述图象上应用差分过滤器来生成差分图象;
    将所述差分图象中其值大于预定值的象素标记为第一象素;
    识别基本上连续的第一象素,使得没有所述第一象素的连续集合与所述第一象素的另一连续集合分开大于规定的象素数目;
    定义与包围用所述识别步骤识别出的第一象素的橡皮带型边界重合的子区;以及
将基本上与所述子区重合的一部分所述图象区作用在符号分类器上。
7.一种分类包含符号的图象数据流中的符号的方法,包括下述步骤:
在图象上作用边沿检测过滤器来识别所述图象中的边沿象素;
从所述边沿象素中构成连接部分;
定义各包含所述连接部分中对应的一个的符号范围区;以及
分类各与所述符号范围区中相应的一个重合的所述图象的子图象。
8.一种分类包含符号的图象数据流中的正文的方法,包括下述步骤:
在图象上作用边沿检测过滤器来识别所述图象中的边沿象素;
从边沿象素中构成连接部分;
根据所述构成步骤的结果定义正文区,使得各所述正文区联合多个所述连接部分;
根据所述连接部分之间的间隔划分所述正文区,从而识别所述图象的单个字符区;以及
分类所述图象中各与所述单个字符区中相应的一个重合的子图象。
9.一种用于分类包含符号的图象数据流中的符号的设备,包括:
可连接在所述图象数据流(180)上以从其抽取图象并编程为在所述图象上作用边沿检测过滤器以识别所述图象中的边沿象素的图象处理器(120);
所述图象处理器进一步编程为从所述边沿象素中构成连接部分;
所述图象处理器进一步编程为定义各包含所述连接部分之一的符号区;
所述图象处理器进一步编程为分类各与所述符号区中相应的一个重合的所述图象的子图象。
10.一种用于分类包含符号的图象数据流中的正文的图象处理器,包括:
可连接在图象数据流(180)上以抽取图象并编程为在所述图象上作用边沿检测过滤器以识别所述图象中的边沿象素的图象处理计算机(120);
所述图象处理计算机进一步编程为从所述边沿检测过滤器的应用中得出的边沿象素中构成连接部分;
所述图象处理计算机进一步编程为根据所述构成步骤的结果定义正文区使得各所述正文区联结多个所述连接部分;
所述图象处理计算机进一步编程为根据所述连接部分之间的间隙划分所述正文区,从而识别所述图象的单个字符区;以及
所述图象处理计算机进一步编程为分类各与所述单个字符区中相应的一个重合的所述图象的子图象。
11.权利要求10中的图象处理器,其中所述图象处理计算机编程为生成所述子图象的投影及根据所述投影划分所述正文区。
CNB008050112A 1999-11-17 2000-10-27 视频流可分类符号分离的方法与系统 Expired - Fee Related CN1276384C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/441,943 1999-11-17
US09/441,943 US6614930B1 (en) 1999-01-28 1999-11-17 Video stream classifiable symbol isolation method and system

Publications (2)

Publication Number Publication Date
CN1343339A true CN1343339A (zh) 2002-04-03
CN1276384C CN1276384C (zh) 2006-09-20

Family

ID=23754912

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB008050112A Expired - Fee Related CN1276384C (zh) 1999-11-17 2000-10-27 视频流可分类符号分离的方法与系统

Country Status (6)

Country Link
US (1) US6614930B1 (zh)
EP (1) EP1147485A1 (zh)
JP (1) JP2003515230A (zh)
KR (1) KR20010110416A (zh)
CN (1) CN1276384C (zh)
WO (1) WO2001037212A1 (zh)

Families Citing this family (122)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001060247A (ja) * 1999-06-14 2001-03-06 Fuji Xerox Co Ltd 画像処理装置および画像処理方法
US7367042B1 (en) * 2000-02-29 2008-04-29 Goldpocket Interactive, Inc. Method and apparatus for hyperlinking in a television broadcast
US7343617B1 (en) 2000-02-29 2008-03-11 Goldpocket Interactive, Inc. Method and apparatus for interaction with hyperlinks in a television broadcast
US7346184B1 (en) 2000-05-02 2008-03-18 Digimarc Corporation Processing methods combining multiple frames of image data
EP1295482B1 (en) * 2000-06-09 2010-09-01 British Broadcasting Corporation Generation of subtitles or captions for moving pictures
JP3725418B2 (ja) * 2000-11-01 2005-12-14 インターナショナル・ビジネス・マシーンズ・コーポレーション 複数信号が混合される画像データから多次元信号を復元する信号分離方法、画像処理装置および記憶媒体
US7456902B2 (en) * 2000-12-04 2008-11-25 Jlb Ventures, Llc Method and system for identifying addressing data within a television presentation
US6798912B2 (en) 2000-12-18 2004-09-28 Koninklijke Philips Electronics N.V. Apparatus and method of program classification based on syntax of transcript information
US6735337B2 (en) * 2001-02-02 2004-05-11 Shih-Jong J. Lee Robust method for automatic reading of skewed, rotated or partially obscured characters
WO2003047234A2 (en) * 2001-11-30 2003-06-05 Yissum Research Development Company Of The Hebrew University Of Jerusalem System and method for providing multi-sensor super-resolution
US20030113015A1 (en) * 2001-12-18 2003-06-19 Toshiaki Tanaka Method and apparatus for extracting text information from moving image
US20030198386A1 (en) * 2002-04-19 2003-10-23 Huitao Luo System and method for identifying and extracting character strings from captured image data
US8204079B2 (en) 2002-10-28 2012-06-19 Qualcomm Incorporated Joint transmission of multiple multimedia streams
US20040083495A1 (en) * 2002-10-29 2004-04-29 Lane Richard D. Mulitmedia transmission using variable gain amplification based on data importance
US7274823B2 (en) * 2002-11-12 2007-09-25 Qualcomm Incorporated System and method for processing symbols embedded in digital video
JP4112968B2 (ja) * 2002-12-26 2008-07-02 富士通株式会社 ビデオテキスト処理装置
US7336890B2 (en) * 2003-02-19 2008-02-26 Microsoft Corporation Automatic detection and segmentation of music videos in an audio/video stream
KR101109023B1 (ko) * 2003-04-14 2012-01-31 코닌클리케 필립스 일렉트로닉스 엔.브이. 콘텐트 분석을 사용하여 뮤직 비디오를 요약하는 방법 및 장치
US20050097046A1 (en) 2003-10-30 2005-05-05 Singfield Joy S. Wireless electronic check deposit scanning and cashing machine with web-based online account cash management computer application system
US7805003B1 (en) * 2003-11-18 2010-09-28 Adobe Systems Incorporated Identifying one or more objects within an image
KR100537520B1 (ko) * 2004-02-18 2005-12-19 삼성전자주식회사 동영상의 자막 검출 방법 및 장치
US7127104B2 (en) * 2004-07-07 2006-10-24 The Regents Of The University Of California Vectorized image segmentation via trixel agglomeration
US20060045346A1 (en) 2004-08-26 2006-03-02 Hui Zhou Method and apparatus for locating and extracting captions in a digital image
US8108776B2 (en) * 2004-08-31 2012-01-31 Intel Corporation User interface for multimodal information system
US7873911B2 (en) * 2004-08-31 2011-01-18 Gopalakrishnan Kumar C Methods for providing information services related to visual imagery
US7792385B2 (en) * 2005-01-25 2010-09-07 Globalfoundries Inc. Scratch pad for storing intermediate loop filter data
US8576924B2 (en) * 2005-01-25 2013-11-05 Advanced Micro Devices, Inc. Piecewise processing of overlap smoothing and in-loop deblocking
US9137417B2 (en) 2005-03-24 2015-09-15 Kofax, Inc. Systems and methods for processing video data
US9769354B2 (en) 2005-03-24 2017-09-19 Kofax, Inc. Systems and methods of processing scanned data
US7522782B2 (en) * 2005-04-06 2009-04-21 Hewlett-Packard Development Company, L.P. Digital image denoising
US7965773B1 (en) 2005-06-30 2011-06-21 Advanced Micro Devices, Inc. Macroblock cache
US7636497B1 (en) * 2005-12-27 2009-12-22 Advanced Micro Devices, Inc. Video rotation in a media acceleration engine
US7966552B2 (en) * 2006-10-16 2011-06-21 Sony Corporation Trial selection of STB remote control codes
US20080091713A1 (en) * 2006-10-16 2008-04-17 Candelore Brant L Capture of television metadata via OCR
US7991271B2 (en) 2007-02-14 2011-08-02 Sony Corporation Transfer of metadata using video frames
US20080098357A1 (en) * 2006-10-23 2008-04-24 Candelore Brant L Phantom information commands
US8077263B2 (en) * 2006-10-23 2011-12-13 Sony Corporation Decoding multiple remote control code sets
US20080098433A1 (en) * 2006-10-23 2008-04-24 Hardacker Robert L User managed internet links from TV
US7814524B2 (en) * 2007-02-14 2010-10-12 Sony Corporation Capture of configuration and service provider data via OCR
US7689613B2 (en) * 2006-10-23 2010-03-30 Sony Corporation OCR input to search engine
US7873200B1 (en) 2006-10-31 2011-01-18 United Services Automobile Association (Usaa) Systems and methods for remote deposit of checks
US8351677B1 (en) 2006-10-31 2013-01-08 United Services Automobile Association (Usaa) Systems and methods for remote deposit of checks
US8799147B1 (en) 2006-10-31 2014-08-05 United Services Automobile Association (Usaa) Systems and methods for remote deposit of negotiable instruments with non-payee institutions
US8708227B1 (en) 2006-10-31 2014-04-29 United Services Automobile Association (Usaa) Systems and methods for remote deposit of checks
US8763038B2 (en) 2009-01-26 2014-06-24 Sony Corporation Capture of stylized TV table data via OCR
US8959033B1 (en) 2007-03-15 2015-02-17 United Services Automobile Association (Usaa) Systems and methods for verification of remotely deposited checks
US10380559B1 (en) 2007-03-15 2019-08-13 United Services Automobile Association (Usaa) Systems and methods for check representment prevention
US8438589B2 (en) * 2007-03-28 2013-05-07 Sony Corporation Obtaining metadata program information during channel changes
US20080273114A1 (en) * 2007-05-04 2008-11-06 Hardacker Robert L STB channel reader
US8433127B1 (en) 2007-05-10 2013-04-30 United Services Automobile Association (Usaa) Systems and methods for real-time validation of check image quality
US8538124B1 (en) 2007-05-10 2013-09-17 United Services Auto Association (USAA) Systems and methods for real-time validation of check image quality
US9058512B1 (en) 2007-09-28 2015-06-16 United Services Automobile Association (Usaa) Systems and methods for digital signature detection
US9159101B1 (en) 2007-10-23 2015-10-13 United Services Automobile Association (Usaa) Image processing
US8358826B1 (en) 2007-10-23 2013-01-22 United Services Automobile Association (Usaa) Systems and methods for receiving and orienting an image of one or more checks
US9898778B1 (en) 2007-10-23 2018-02-20 United Services Automobile Association (Usaa) Systems and methods for obtaining an image of a check to be deposited
US9892454B1 (en) 2007-10-23 2018-02-13 United Services Automobile Association (Usaa) Systems and methods for obtaining an image of a check to be deposited
US8320657B1 (en) 2007-10-31 2012-11-27 United Services Automobile Association (Usaa) Systems and methods to use a digital camera to remotely deposit a negotiable instrument
US8290237B1 (en) 2007-10-31 2012-10-16 United Services Automobile Association (Usaa) Systems and methods to use a digital camera to remotely deposit a negotiable instrument
US7900822B1 (en) 2007-11-06 2011-03-08 United Services Automobile Association (Usaa) Systems, methods, and apparatus for receiving images of one or more checks
US10380562B1 (en) 2008-02-07 2019-08-13 United Services Automobile Association (Usaa) Systems and methods for mobile deposit of negotiable instruments
US8230039B2 (en) * 2008-04-16 2012-07-24 Adobe Systems, Incorporated Systems and methods for accelerated playback of rich internet applications
US8351678B1 (en) 2008-06-11 2013-01-08 United Services Automobile Association (Usaa) Duplicate check detection
US8422758B1 (en) 2008-09-02 2013-04-16 United Services Automobile Association (Usaa) Systems and methods of check re-presentment deterrent
US8320674B2 (en) * 2008-09-03 2012-11-27 Sony Corporation Text localization for image and video OCR
US10504185B1 (en) 2008-09-08 2019-12-10 United Services Automobile Association (Usaa) Systems and methods for live video financial deposit
JP5353170B2 (ja) * 2008-10-02 2013-11-27 富士通株式会社 録画予約プログラム、録画予約方法、及び、録画予約装置
US8391599B1 (en) 2008-10-17 2013-03-05 United Services Automobile Association (Usaa) Systems and methods for adaptive binarization of an image
US8035656B2 (en) * 2008-11-17 2011-10-11 Sony Corporation TV screen text capture
JP5445467B2 (ja) * 2009-01-06 2014-03-19 日本電気株式会社 クレジット情報区間検出方法、クレジット情報区間検出装置及びクレジット情報区間検出プログラム
US8503814B2 (en) * 2009-01-19 2013-08-06 Csr Technology Inc. Method and apparatus for spectrum estimation
US8885967B2 (en) * 2009-01-19 2014-11-11 Csr Technology Inc. Method and apparatus for content adaptive sharpness enhancement
US9576272B2 (en) 2009-02-10 2017-02-21 Kofax, Inc. Systems, methods and computer program products for determining document validity
US8774516B2 (en) 2009-02-10 2014-07-08 Kofax, Inc. Systems, methods and computer program products for determining document validity
US9349046B2 (en) 2009-02-10 2016-05-24 Kofax, Inc. Smart optical input/output (I/O) extension for context-dependent workflows
US9767354B2 (en) 2009-02-10 2017-09-19 Kofax, Inc. Global geographic information retrieval, validation, and normalization
US8958605B2 (en) 2009-02-10 2015-02-17 Kofax, Inc. Systems, methods and computer program products for determining document validity
US8452689B1 (en) 2009-02-18 2013-05-28 United Services Automobile Association (Usaa) Systems and methods of check detection
US10956728B1 (en) 2009-03-04 2021-03-23 United Services Automobile Association (Usaa) Systems and methods of check processing with background removal
EP2457196A4 (en) * 2009-07-21 2013-02-06 Qualcomm Inc METHOD AND SYSTEM FOR DETECTION AND ENHANCEMENT OF VIDEO IMAGES
US8542921B1 (en) 2009-07-27 2013-09-24 United Services Automobile Association (Usaa) Systems and methods for remote deposit of negotiable instrument using brightness correction
US9779392B1 (en) 2009-08-19 2017-10-03 United Services Automobile Association (Usaa) Apparatuses, methods and systems for a publishing and subscribing platform of depositing negotiable instruments
US8977571B1 (en) 2009-08-21 2015-03-10 United Services Automobile Association (Usaa) Systems and methods for image monitoring of check during mobile deposit
US8699779B1 (en) 2009-08-28 2014-04-15 United Services Automobile Association (Usaa) Systems and methods for alignment of check during mobile deposit
JP5840130B2 (ja) * 2009-12-31 2016-01-06 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited テキストを含む映像領域の前処理方法及びシステム
US9129340B1 (en) 2010-06-08 2015-09-08 United Services Automobile Association (Usaa) Apparatuses, methods and systems for remote deposit capture with enhanced image detection
TWI462576B (zh) * 2011-11-25 2014-11-21 Novatek Microelectronics Corp 固定圖案的邊緣偵測方法與電路
US10380565B1 (en) 2012-01-05 2019-08-13 United Services Automobile Association (Usaa) System and method for storefront bank deposits
US9058580B1 (en) 2012-01-12 2015-06-16 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US9483794B2 (en) 2012-01-12 2016-11-01 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US9058515B1 (en) 2012-01-12 2015-06-16 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US10146795B2 (en) 2012-01-12 2018-12-04 Kofax, Inc. Systems and methods for mobile image capture and processing
US9514357B2 (en) * 2012-01-12 2016-12-06 Kofax, Inc. Systems and methods for mobile image capture and processing
US8849041B2 (en) 2012-06-04 2014-09-30 Comcast Cable Communications, Llc Data recognition in content
US10552810B1 (en) 2012-12-19 2020-02-04 United Services Automobile Association (Usaa) System and method for remote deposit of financial instruments
KR101283189B1 (ko) * 2012-12-31 2013-07-05 한국항공우주연구원 위성항법 가시성 계산 장치 및 방법
US9208536B2 (en) 2013-09-27 2015-12-08 Kofax, Inc. Systems and methods for three dimensional geometric reconstruction of captured image data
EP2973226A4 (en) 2013-03-13 2016-06-29 Kofax Inc CLASSIFICATION OF OBJECTS ON DIGITAL IMAGES RECORDED BY MOBILE DEVICES
US9355312B2 (en) 2013-03-13 2016-05-31 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US20140316841A1 (en) 2013-04-23 2014-10-23 Kofax, Inc. Location-based workflows and services
EP2992481A4 (en) 2013-05-03 2017-02-22 Kofax, Inc. Systems and methods for detecting and classifying objects in video captured using mobile devices
US11138578B1 (en) 2013-09-09 2021-10-05 United Services Automobile Association (Usaa) Systems and methods for remote deposit of currency
US9762950B1 (en) 2013-09-17 2017-09-12 Amazon Technologies, Inc. Automatic generation of network pages from extracted media content
US9286514B1 (en) 2013-10-17 2016-03-15 United Services Automobile Association (Usaa) Character count determination for a digital image
US9386235B2 (en) 2013-11-15 2016-07-05 Kofax, Inc. Systems and methods for generating composite images of long documents using mobile video data
US9036083B1 (en) 2014-05-28 2015-05-19 Gracenote, Inc. Text detection in video
US9378435B1 (en) * 2014-06-10 2016-06-28 David Prulhiere Image segmentation in optical character recognition using neural networks
CN104053048A (zh) * 2014-06-13 2014-09-17 无锡天脉聚源传媒科技有限公司 一种视频定位的方法及装置
JP6225844B2 (ja) * 2014-06-30 2017-11-08 株式会社デンソー 対象物検出装置
CN106687992B (zh) * 2014-07-10 2021-01-12 赛诺菲-安万特德国有限公司 用于执行光学字符识别的装置和方法
US9760788B2 (en) 2014-10-30 2017-09-12 Kofax, Inc. Mobile document detection and orientation based on reference object characteristics
US20160323483A1 (en) * 2015-04-28 2016-11-03 Invent.ly LLC Automatically generating notes and annotating multimedia content specific to a video production
US10402790B1 (en) 2015-05-28 2019-09-03 United Services Automobile Association (Usaa) Composing a focused document image from multiple image captures or portions of multiple image captures
US10242285B2 (en) 2015-07-20 2019-03-26 Kofax, Inc. Iterative recognition-guided thresholding and data extraction
US9471990B1 (en) * 2015-10-20 2016-10-18 Interra Systems, Inc. Systems and methods for detection of burnt-in text in a video
RU2613734C1 (ru) 2015-10-22 2017-03-21 Общество с ограниченной ответственностью "Аби Девелопмент" Захват видео в сценарии ввода данных
US20170148170A1 (en) * 2015-11-24 2017-05-25 Le Holdings (Beijing) Co., Ltd. Image processing method and apparatus
US9779296B1 (en) 2016-04-01 2017-10-03 Kofax, Inc. Content-based detection and three dimensional geometric reconstruction of objects in image and video data
US11062176B2 (en) 2017-11-30 2021-07-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach
US11030752B1 (en) 2018-04-27 2021-06-08 United Services Automobile Association (Usaa) System, computing device, and method for document detection
CN109146908A (zh) * 2018-07-25 2019-01-04 安徽师范大学 一种二值图像流快速连通域标记算法
US11900755B1 (en) 2020-11-30 2024-02-13 United Services Automobile Association (Usaa) System, computing device, and method for document detection and deposit processing
JP2022092837A (ja) * 2020-12-11 2022-06-23 株式会社東海理化電機製作所 制御装置およびプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2601166B1 (fr) * 1986-07-01 1988-10-21 Thomson Csf Procede d'extraction et de modelisation des contours d'une image et dispositif pour la mise en oeuvre de ce procede.
US4965763A (en) * 1987-03-03 1990-10-23 International Business Machines Corporation Computer method for automatic extraction of commonly specified information from business correspondence
US5131053A (en) * 1988-08-10 1992-07-14 Caere Corporation Optical character recognition method and apparatus
JPH03290774A (ja) * 1990-04-06 1991-12-20 Fuji Facom Corp 文書画像の文章領域抽出装置
FR2665597B1 (fr) 1990-07-31 1995-11-17 Thomson Trt Defense Procede et dispositif de localisation en temps reel de contours rectilignes dans une image numerisee, notamment pour la reconnaissance de formes dans un traitement d'analyse de scene.
US5568571A (en) * 1992-12-14 1996-10-22 University Microfilms, Inc. Image enhancement system
EP0720114B1 (en) 1994-12-28 2001-01-24 Siemens Corporate Research, Inc. Method and apparatus for detecting and interpreting textual captions in digital video signals
US5774579A (en) * 1995-08-11 1998-06-30 Canon Kabushiki Kaisha Block selection system in which overlapping blocks are decomposed
US6009196A (en) * 1995-11-28 1999-12-28 Xerox Corporation Method for classifying non-running text in an image
US5852678A (en) * 1996-05-30 1998-12-22 Xerox Corporation Detection and rendering of text in tinted areas
US5892843A (en) * 1997-01-21 1999-04-06 Matsushita Electric Industrial Co., Ltd. Title, caption and photo extraction from scanned document images
US6128414A (en) * 1997-09-29 2000-10-03 Intermec Ip Corporation Non-linear image processing and automatic discriminating method and apparatus for images such as images of machine-readable symbols
JP3008908B2 (ja) * 1997-11-10 2000-02-14 日本電気株式会社 文字切り出し装置および文字切り出し方式
US6366699B1 (en) * 1997-12-04 2002-04-02 Nippon Telegraph And Telephone Corporation Scheme for extractions and recognitions of telop characters from video data

Also Published As

Publication number Publication date
KR20010110416A (ko) 2001-12-13
US6614930B1 (en) 2003-09-02
EP1147485A1 (en) 2001-10-24
WO2001037212A1 (en) 2001-05-25
JP2003515230A (ja) 2003-04-22
CN1276384C (zh) 2006-09-20

Similar Documents

Publication Publication Date Title
CN1276384C (zh) 视频流可分类符号分离的方法与系统
US6731788B1 (en) Symbol Classification with shape features applied to neural network
USRE47889E1 (en) System and method for segmenting text lines in documents
Gllavata et al. A robust algorithm for text detection in images
JP5050075B2 (ja) 画像判別方法
Xi et al. A video text detection and recognition system
CN102968637B (zh) 一种复杂背景图像文字分割方法
US8520941B2 (en) Method and system for document image classification
MX2011002293A (es) Localizacion de texto para ocr de imagenes y video.
Chamchong et al. Character segmentation from ancient palm leaf manuscripts in Thailand
CN103093185B (zh) 字符识别装置、图像处理装置及其方法
CN105260428A (zh) 图片处理方法和装置
Liu et al. A novel multi-oriented chinese text extraction approach from videos
Sanketi et al. Localizing blurry and low-resolution text in natural images
Qin et al. Video scene text frames categorization for text detection and recognition
CN104182744A (zh) 文本检测方法和装置以及文本信息提取方法和系统
Lue et al. A novel character segmentation method for text images captured by cameras
Zhang et al. A novel approach for binarization of overlay text
Malakar et al. An improved offline handwritten character segmentation algorithm for Bangla script.
Huang et al. A new video text extraction approach
Kavitha et al. A robust script identification system for historical Indian document images
CN109800758A (zh) 一种极大值区域检测的自然场景文字检测方法
Misra et al. Text extraction and recognition from image using neural network
Sushma et al. Text detection in color images
Banik et al. Segmentation of Bangla words in scene images

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: IPG ELECTRONICS 503 CO., LTD.

Free format text: FORMER OWNER: ROYAL PHILIPS ELECTRONICS CO., LTD.

Effective date: 20090904

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20090904

Address after: British Channel Islands

Patentee after: Koninkl Philips Electronics NV

Address before: Holland Ian Deho Finn

Patentee before: Koninklike Philips Electronics N. V.

ASS Succession or assignment of patent right

Owner name: FUNAI ELECTRIC CO., LTD.

Free format text: FORMER OWNER: IPG ELECTRONICS 503 LIMITED

Effective date: 20120523

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20120523

Address after: Osaka Japan

Patentee after: Funai Electric Co., Ltd.

Address before: British Channel Islands

Patentee before: Koninkl Philips Electronics NV

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20060920

Termination date: 20171027

CF01 Termination of patent right due to non-payment of annual fee