CN102147863A - 一种网络动画中的文字定位及识别方法 - Google Patents

一种网络动画中的文字定位及识别方法 Download PDF

Info

Publication number
CN102147863A
CN102147863A CN 201010111374 CN201010111374A CN102147863A CN 102147863 A CN102147863 A CN 102147863A CN 201010111374 CN201010111374 CN 201010111374 CN 201010111374 A CN201010111374 A CN 201010111374A CN 102147863 A CN102147863 A CN 102147863A
Authority
CN
China
Prior art keywords
literal
connected domain
embedded
network
network animation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201010111374
Other languages
English (en)
Other versions
CN102147863B (zh
Inventor
张树武
刘杰
梁伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Tengruiyun Culture Technology Co ltd
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN 201010111374 priority Critical patent/CN102147863B/zh
Publication of CN102147863A publication Critical patent/CN102147863A/zh
Application granted granted Critical
Publication of CN102147863B publication Critical patent/CN102147863B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明是一种网络动画中的文字定位及识别方法,该方法充分利用网络动画的结构分析技术,将网络动画中的内嵌编码文字直接提取出来,并将网络动画分解为基本形状,而基本形状是构成网络动画的主要元素。接下来针对每个基本形状,利用基于连通域的启发合并、特征聚类的两阶段文字定位方法定位基本形状中的非内嵌文字,再利用基于笔画宽度直方图的噪声过滤方法,合理地将非文字连通域过滤掉,从而将所有非内嵌文字定位出来,然后利用梯度直方图特征识别非内嵌文字。最后将识别出的非内嵌文字和内嵌文字返回给用户。

Description

一种网络动画中的文字定位及识别方法
技术领域
本发明提出了一种网络动画(Flash)中的文字定位及识别方法,可以用于网络动画内容分析、监控、检索等技术领域。
背景技术
随着计算机技术及网络的发展,网络动画已经成为一种热门的媒体形式。尤其在网络广告中,网络动画更是占据了主导地位。随之而来,针对网络动画的内容分析、检索、监控的需求也越来越迫切。而网络动画中的文字无疑是实现这些需求的重要线索。
当前,世界上已经有很多关于文字定位的研究。这些研究基本可以被分为两类:基于纹理的方法和基于连通域的方法。基于纹理的方法主要是利用Gabor滤波器、小波变换等方法计算出区域的纹理特征,然后利用分类器来区分文本块与非文本块。而基于连通域的方法首先要假设字符的前景颜色基本一致。因此,基于连通域的方法首先要执行颜色聚类,将当前图形分解成若干颜色层,然后针对每个颜色层去执行连通域分析的方法,最终将符合文字特点的连通域定位出来。
目前这些方法在一定程度上解决了文字定位的问题,但是并不适合网络动画中文字的特点。在网络动画中,大量存在多语言文本混排,正体字和斜体字混排,不同字体、大小、颜色的文字混排。因此,传统算法不能很好地定位网络动画中的文字。
发明内容
(一)要解决的技术问题
有鉴于此,本发明的主要目的在于针对网络动画的特点,提出一种将网络动画结构分析技术与光学字符识别技术相结合的文字定位及识别方法。
(二)技术方案
为达成所述目的,本发明提供一种网络动画中的文字定位及识别方法,该方法将网络动画结构分析技术与光学字符识别技术结合,将网络动画结构分析技术与光学字符识别技术结合,直接提取网络动画文件中的编码内嵌文字,并利用一种基于连通域的启发合并、特征聚类的两阶段文字定位算法定位非内嵌文字,利用一种基于笔画宽度直方图的噪声过滤算法去除非文字连通域,最后利用基于梯度直方图特征识别非内嵌文字,该方法的步骤为:
步骤S1:利用网络动画结构分析技术,分析给定网络动画文件的内容,如果存在定义文字(DefineText)标签,定义文字2(DefineText2)标签之一,则将其中文字记录(TextRecords)域中字符标识(FontID)所定义的编码内嵌文字直接提取出来;
步骤S2:利用网络动画结构分析技术,将网络动画分解为若干基本形状,再将基本形状转化为无失真压缩图像;基本形状是构成网络动画的元素,它包含网络动画中的全部非内嵌文字且背景更加简单,从而提高光学字符识别技术的准确性;
步骤S3:针对每个基本形状转化后的图像,利用基于连通域的启发合并、特征聚类的两阶段文字定位算法,将基本形状中的非内嵌文字图像准确定位,获得非内嵌文字定位图像和错误定位的非文字连通图像;
步骤S4:利用基于笔画宽度直方图的噪声过滤算法,将上述错误定位出的非文字连通域图像过滤掉;
步骤S5:利用基于梯度直方图特征识别非内嵌文字,最后将识别出的非内嵌文字与编码内嵌文字返回给用户。
其中,所述分解若干基本形状的具体步骤包括:
步骤S21:首先读取网络动画文件的头信息:签名、版本、文件大小、帧的大小、帧率、帧数、背景色;
步骤S22:根据网络动画文件的头信息,如果是压缩格式,则对网络动画文件进行解压,并转入步骤23,如果不是压缩格式,则直接转入步骤23;
步骤S23:读取下一个标签头部信息,判断是否为End标签,如果是,结束系统,如果不是,转入步骤S24;
步骤S24:判断标签是否为DefineShape标签、DefineShape2标签、DefineShape3标签、DefineShape4标签之一,如果是,则转入步骤S25,如果不是,则返回到步骤S23;
步骤S25:创建一个网络动画文件,按照上述标签头部信息指定的长度,将原网络动画文件中的对应内容写入新的网络动画文件中,从而分解出基本形状。
其中,将所述网络动画中基本形状转化为无失真压缩图像的具体步骤是:将每个基本形状转化为背景色相反的两幅图像,然后选择两幅图像中前景区域大、反差强烈的图像进行文字定位及识别。
其中,所述文字定位步骤是:
步骤S41:在文字区域颜色一致的假设前提下,通过颜色聚类将图像分割成若干的颜色层,并在每个图像颜色层上定位非内嵌文字,同时用颜色聚类可去除文字颜色渐变的不利影响;
步骤S42:利用文字特点设计启发规则,该启发规则在保证无错的前提下,先正确地将若干符合启发规则的连通域合并成非内嵌文字;
步骤S43:再利用连通域的宽、高及宽高比的特征进行聚类,若属于某个特征的连通域的数目足够多,则认为该特征是有意义的文字连通域特征,反之则认为是无意义的连通域特征;
步骤S44:利用步骤33确定的有意义的文字连通域特征,诱导其它连通域进行合并,当若干连通域就近结合且符合有意义的文字连通域特征,则认为该连通域是非内嵌文字,从而准确地将非内嵌文字定位出来。
其中,所述基于笔画宽度直方图的噪声过滤的具体步骤是:
步骤S51:利用文字连通域的笔画宽度相对稳定,而噪声连通域的宽度变化较大的特点,对连通域建立水平方向与垂直方向的笔画宽度直方图;
步骤S52:对两个直方图分别进行聚类,如果两个直方图的峰值的频率足够多且相差不大,则认为该连通域是非内嵌文字,反之,则认为是噪声。
其中,所述连通域的启发合并,是初始化一个连通域链表,将连通域中所有符合以下启发式规则之一的连通域合并,该启发式规则具体步骤包括如下:
规则a:
Area ( i ∩ j ) min ( Area ( i ) , Area ( j ) ) > 0.5 ,
其中:Area(i)和Area(j)分别表示恰好包含连通域i和j的矩形面积,min(Area(i),Area(j))则表示二者中的较小值,Area(i∩j)表示他们相交区域的面积;
规则b:
W ( i &cup; j ) H ( i &cup; j ) < 1.2 and H ( i &cup; j ) W ( i &cup; j ) < 1 . 2 andDis ( i , j ) < T dis ,
其中:W(i∪j)和H(i∪j)分别代表包含连通域i和j的矩形的宽和高,而Dis(i,j)则表示他们之间中心的距离,Tdis是一个自适应的阈值,自适应的阈值与包含连通域i和j的矩形的最小宽或高成正比,其定义如下:
Tdis=min(W(i),H(i),W(j),H(j))×a,
其中:a是一个放大系数,在实验中被设置为2.3。
本发明的有益效果:
本发明方法的第一方面是充分利用网络动画的结构分析技术,将网络动画中的内嵌编码文字直接提取出来,并将网络动画转化为若干基本形状,而基本形状是构成网络动画主要元素,同时基本形状具有背景简单的特点,更利于光学字符识别技术(OCR)准确定位并识别文字。第二方面是提出了一种基于连通域的启发合并、特征聚类的两阶段文字定位方法。这种方法可根据一定的启发式规则和特征聚类相结合的方法,自适应地提取当前图像中文字的特征,并利用这些特征诱导其它连通域合并,从而将非内嵌文字准确定位出来。第三个方面是基于笔画宽度直方图的噪声过滤方法。这种方法利用了文字笔画宽度相对稳定,而噪声的宽度变化较大的特点,合理地将非文字连通域过滤掉。实验证明,本发明提出的算法充分针对网络动画的特点,可以准确、高效地将网络动画中的文字定位并识别出来。本发明的方法对于多语言混排,正斜体混排以及不同字体、大小、颜色的文字混排,有很好的鲁棒性。
附图说明
图1是一种网络动画中的文字定位及识别方法流程图;
图2a、图2b、图2c、图2d是本发明的文字定位实验结果;
图3是本发明的分解若干基本形状的子流程图。
具体实施方式
下面结合附图详细说明本发明技术方案中所涉及的各个细节问题。应指出的是,所描述的实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。
如图1示出本发明提出的一种网络动画(Flash)中的文字定位及识别方法流程图。该方法将网络动画的结构分析技术与光学字符识别技术(OCR)相结合。首先该方法将网络动画中编码内嵌的文字提取出来,然后将网络动画分解为若干基本形状,而基本形状是构成网络动画的主要元素。基本形状具有背景简单的特点,从而更利于光学字符识别技术定位识别文字。接下来将每个基本形状转化为无失真压缩图像(Jpeg),然后对于每个图像利用均值漂移算法对颜色进行聚类,从而将图像分解为若干图像层,然后在每个图层上利用基于连通域的启发合并、特征聚类两阶段文字定位算法对文字进行定位,接下来利用笔画宽度直方图将噪声过滤掉,最后再提取出文字图像的梯度直方图特征并将文字识别出来。该方法能够在网络动画中出现的多语种混排,正斜体混排以及多字体、大小、颜色的情况下准确地定位并识别出文字。
本发明可用于针对网络动画检索、内容监控等系统。网络动画中的文字分为两类:编码内嵌文字、非内嵌文字。它们的含义如下:
编码内嵌文字:以汉字内码扩展规范(GBK)编码形式直接存在于网络动画文件的源代码中的文字。
非内嵌文字:以图形形式存在于基本形状中的文字。
网络动画是网络广告的主要媒介。如今,自动检索、监控网络广告内容的需求越来越多,而文字无疑是网络广告内容的主要载体。在自动检索、监控网络广告的系统中,利用本发明,用户可在计算机中输入网络动画文件,经本发明分析之后,其中所含的文字信息自动返回给用户的计算机。
本发明主要有如下四个部分:一是网络动画的结构分析技术;二是基于连通域的启发合并、特征聚类的两阶段文字定位算法;三是基于笔画宽度直方图的噪声过滤算法;四是基于梯度直方图的文字特征。本发明也可广泛应用于其它需要定位识别文字的处理领域。
下面将对本发明的四个部分分别加以详细说明。
网络动画结构分析技术。基本形状是构成网络动画的主要元素,它具有背景简单的特点,本发明通过将网络动画分解为基本形状,并转化为图像,可以更利于光学字符识别技术定位识别文字。另外有些网络动画中,还编码内嵌了部分文字信息,本发明可以直接将这些文字信息提取出来。通过网络动画结构分析技术,本发明不仅可以提高文字识别的准确率,还大幅度地提高了识别速度。
基于连通域的启发合并-特征聚类两阶段文字定位算法。该算法由启发合并和特征聚类两个阶段组成。在第一阶段,首先利用汉字的特点,对连通域进行初步合并,该阶段的主要目的是在保证无错合并的前提下,尽可能多地合并连通域,从而使下一阶段能够更好地进行连通域聚类,提取出有意义的连通域特征,最后利用这些特征对剩余连通域进行诱导合并,从而将非内嵌文字准确地定位出来。
启发合并连通域的主要思想为:初始化一个连通域链表,将连通域中所有符合以下启发式规则之一的连通域合并。启发式规则如下:
( a ) - - - Area ( i &cap; j ) min ( Area ( i ) , Area ( j ) ) > 0.5 ,
在这里Area(i)和Area(j)分别表示恰好包含连通域i和j的矩形面积,min(Area(i),Area(j))则表示二者中的较小值,Area(i∩j)表示他们相交区域的面积。
( b ) - - - W ( i &cup; j ) H ( i &cup; j ) < 1.2 and H ( i &cup; j ) W ( i &cup; j ) < 1 . 2 andDis ( i , j ) < T dis ,
在这里W(i∪j)和H(i∪j)分别代表包含连通域i和j的矩形的宽和高,而Dis(i,j)则表示他们之间中心的距离,Tdis是一个自适应的阈值,它与包含连通域i和j的矩形的最小宽或高成正比,其定义如下:
Tdis=min(W(i),H(i),W(j),H(j))×a,
a是一个放大系数,在实验中被设置为2.3。
特征聚类的主要思想为:相同性质文字连通域的宽、高以及宽高比变化稳定,而非文字连通域的宽、高以及宽高比变化很大。因此将包含连通域的矩形的宽、高以及宽高比作为特征,对所有连通域进行聚类,如果属于某一特征的连通域数目足够多,则认为这些连通域为文字。然后利用文字连通域的宽、高以及宽高比特征,对剩余连通域进行诱导合并,如果剩余连通域中的某些连通域可以就近组合成一个新的连通域且这个新的连通域满足文字特征,则将这些连通域合并,从而非内嵌文字被准确地定位出来。
基于笔画宽度直方图的噪声过滤算法。通常情况下,文字的笔画宽度相对稳定,而噪声的宽度则变化很大。基于这个特点,我们提出了一种新的基于笔画宽度直方图的噪声过滤方法。首先针对每个连通域,进行垂直扫描,获得垂直方向笔画宽度直方图,同理获得水平方向笔画宽度直方图。然后对这两个直方图分别进行聚类。如果一个连通域被当作非内嵌文字,当且仅当它满足以下两个条件:
1、两个直方图的峰值的频率足够多;
2、两个直方图的峰值所表示的宽度相差不大。
积分直方图的建立和非内嵌文字图形特征的快速提取。本发明采用梯度方向直方图作为基本特征,分别计算八个方向上像素梯度方向的分布情况。为了加速特征的提取过程,采用积分图像的方式。具体实现过程如下,首先计算图像中每个象素点的梯度方向和模值,并把梯度方向投影到具体的方向上,对每个方向建立一个积分图像,八个方向共有八个积分图像。其次计算不同模块大小的梯度方向直方图特征并将特征归一化处理。模块的长宽由8*8不断增加到各个部件的大小,例如48*48,增加幅度为4,6和8;模块的长宽比例有1∶1,1∶2和2∶1三种。对于各个模块,计算2*2子模块的特征形成总的特征并归一化,特征维数为36维。对于48*48的模块区域,共计得到189个子模块,特征总数为36*189。
算法性能评价。本算法的性能评价是通过对网络动画进行文字定位及识别是否正确进行验证的。
算法性能指标有两个,精度ξ、召回率δ。
公式表示如下:
Figure GSA00000036932300071
Figure GSA00000036932300072
为了测试非内嵌文字定位方法,我们从Flash中随机提取了207副图像,其中包括中文、英文、数字共1724个。
表1 文字定位实验结果
  召回率(%)   精度(%)
  本发明   82.36   93.35
为了测试文字识别方法,我们随机选取了100副Flash。由于将Flash结构分析技术与OCR技术相结合,我们可以看到召回率与精度有了显著提高。
表2 文字识别实验结果
  召回率(%)   精度(%)
  本发明   91.5   95.6
在说明书附图中,我们可以看到本发明针对Flash中的文字的定位结果。在图2a中,包含大小、颜色各不相同的若干非内嵌文字,还有正体字与斜体字混排,但是本发明的算法可以自适应地提取出不同性质非内嵌文字的特征,并利用特征准确定位出非内嵌文字;而在图2b和图2d中包含中英文混排,算法可以准确地定位非内嵌文字;在图2c中,包含中文与数字混排,同时还有标点,算法不受标点的影响,可以准确地定位非内嵌文字。
图3是本发明的分解若干基本形状的子流程图,所述分解若干基本形状的具体步骤包括:
步骤S21:首先读取网络动画文件的头信息:签名、版本、文件大小、帧的大小、帧率、帧数、背景色;
步骤S22:根据网络动画文件的头信息,如果是压缩格式,则对网络动画文件进行解压,并转入步骤23,如果不是压缩格式,则直接转入步骤23;
步骤S23:读取下一个标签头部信息,判断是否为End标签,如果是,结束系统,如果不是,转入步骤S24;
步骤S24:判断标签是否为定义基本形状(DefineShape)标签、定义基本形状2(DefineShape2)标签、定义基本形状3(DefineShape3)标签、定义基本形状4(DefineShape4)标签之一,如果是,则转入步骤S25,如果不是,则返回到步骤S23;
步骤S25:创建一个网络动画文件,按照上述标签头部信息指定的长度,将原网络动画文件中的对应内容写入新的网络动画文件中,从而分解出基本形状。
综上所述,本发明提出了一种网络动画中的文字定位及识别方法,该方法合理地将网络动画结构分析技术与光学字符识别技术技术相结合,可以准确地定位并识别出网络动画中的文字。尽管以本发明之最佳实施方式说明了本发明,然而可以理解的是,在不背离权利要求书所规定之发明实质的前提下,可以对本发明作某些修改。

Claims (6)

1.一种网络动画中的文字定位及识别方法,其特征在于,将网络动画结构分析技术与光学字符识别技术结合,直接提取网络动画文件中的编码内嵌文字,并利用一种基于连通域的启发合并、特征聚类的两阶段文字定位算法定位非内嵌文字,利用一种基于笔画宽度直方图的噪声过滤算法去除非文字连通域,最后利用基于梯度直方图特征识别非内嵌文字,该方法的步骤为:
步骤S1:利用网络动画结构分析技术,分析给定网络动画文件的内容,如果存在DefineText标签,DefineText2标签之一,则将其中TextRecords域中FontID所定义的编码内嵌文字直接提取出来;
步骤S2:利用网络动画结构分析技术,将网络动画分解为若干基本形状,再将基本形状转化为无失真压缩图像;基本形状是构成网络动画的元素,它包含网络动画中的全部非内嵌文字且背景更加简单,从而提高光学字符识别技术的准确性;
步骤S3:针对每个基本形状转化后的图像,利用基于连通域的启发合并、特征聚类的两阶段文字定位算法,将基本形状中的非内嵌文字图像准确定位,获得非内嵌文字定位图像和错误定位的非文字连通图像;
步骤S4:利用基于笔画宽度直方图的噪声过滤算法,将上述错误定位出的非文字连通域图像过滤掉;
步骤S5:利用基于梯度直方图特征识别非内嵌文字,最后将识别出的非内嵌文字与编码内嵌文字返回给用户。
2.根据权利要求1所述的网络动画中的文字定位及识别方法,其特征在于,所述分解若干基本形状的具体步骤包括:
步骤S21:首先读取网络动画文件的头信息:签名、版本、文件大小、帧的大小、帧率、帧数、背景色;
步骤S22:根据网络动画文件的头信息,如果是压缩格式,则对网络动画文件进行解压,并转入步骤23,如果不是压缩格式,则直接转入步骤23;
步骤S23:读取下一个标签头部信息,判断是否为End标签,如果是,结束系统,如果不是,转入步骤S24;
步骤S24:判断标签是否为DefineShape标签、DefineShape2标签、DefineShape3标签、DefineShape4标签之一,如果是,则转入步骤S25,如果不是,则返回到步骤S23;
步骤S25:创建一个网络动画文件,按照上述标签头部信息指定的长度,将原网络动画文件中的对应内容写入新的网络动画文件中,从而分解出基本形状。
3.根据权利要求1所述的网络动画中的文字定位及识别方法,其特征在于,将所述基本形状转化为无失真压缩图像的具体步骤是:将每个基本形状转化为背景色相反的两幅图像,然后选择两幅图像中前景区域大、反差强烈的图像进行文字定位及识别。
4.根据权利要求1或2所述的网络动画中的文字定位及识别方法,其特征在于,所述文字定位步骤是:
步骤S41:在文字区域颜色一致的假设前提下,通过颜色聚类将图像分割成若干的颜色层,并在每个图像颜色层上定位非内嵌文字,同时用颜色聚类可去除文字颜色渐变的不利影响;
步骤S42:利用文字特点设计启发规则,该启发规则在保证无错的前提下,先正确地将若干符合启发规则的连通域合并成非内嵌文字;
步骤S43:再利用连通域的宽、高及宽高比的特征进行聚类,若属于某个特征的连通域的数目足够多,则认为该特征是有意义的文字连通域特征,反之则认为是无意义的连通域特征;
步骤S44:利用步骤33确定的有意义的文字连通域特征,诱导其它连通域进行合并,当若干连通域就近结合且符合有意义的文字连通域特征,则认为该连通域是非内嵌文字,从而准确地将非内嵌文字定位出来。
5.根据权利要求1所述的网络动画中的文字定位及识别方法,其特征在于,所述基于笔画宽度直方图的噪声过滤的具体步骤是:
步骤S51:利用文字连通域的笔画宽度相对稳定,而噪声连通域的宽度变化较大的特点,对连通域建立水平方向与垂直方向的笔画宽度直方图;
步骤S52:对两个直方图分别进行聚类,如果两个直方图的峰值的频率足够多且相差不大,则认为该连通域是非内嵌文字,反之,则认为是噪声。
6.根据权利要求1所述的网络动画中的文字定位及识别方法,其特征在于,所述连通域的启发合并,是初始化一个连通域链表,将连通域中所有符合以下启发式规则之一的连通域合并,该启发式规则具体步骤包括如下:
规则a:
Area ( i &cap; j ) min ( Area ( i ) , Area ( j ) ) > 0.5 ,
其中:Area(i)和Area(j)分别表示恰好包含连通域i和j的矩形面积,min(Area(i),Area(j))则表示二者中的较小值,Area(i∩j)表示他们相交区域的面积;
规则b:
W ( i &cup; j ) H ( i &cup; j ) < 1.2 and H ( i &cup; j ) W ( i &cup; j ) < 1.2 andDis ( i , j ) < T dis ,
其中:W(i∪j)和H(i∪j)分别代表包含连通域i和j的矩形的宽和高,而Dis(i,j)则表示他们之间中心的距离,Tdis是一个自适应的阈值,自适应的阈值与包含连通域i和j的矩形的最小宽或高成正比,其定义如下:
Tdis=min(W(i),H(i),W(j),H(j))×a,
其中:a是一个放大系数,在实验中被设置为2.3。
CN 201010111374 2010-02-10 2010-02-10 一种网络动画中的文字定位及识别方法 Active CN102147863B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010111374 CN102147863B (zh) 2010-02-10 2010-02-10 一种网络动画中的文字定位及识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010111374 CN102147863B (zh) 2010-02-10 2010-02-10 一种网络动画中的文字定位及识别方法

Publications (2)

Publication Number Publication Date
CN102147863A true CN102147863A (zh) 2011-08-10
CN102147863B CN102147863B (zh) 2013-03-06

Family

ID=44422121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010111374 Active CN102147863B (zh) 2010-02-10 2010-02-10 一种网络动画中的文字定位及识别方法

Country Status (1)

Country Link
CN (1) CN102147863B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855502A (zh) * 2012-08-22 2013-01-02 北京壹人壹本信息科技有限公司 手写文字的重心确定方法及电子装置
CN102930262A (zh) * 2012-09-19 2013-02-13 北京百度网讯科技有限公司 一种从图像中提取文字行的方法及装置
CN104112135A (zh) * 2013-04-18 2014-10-22 富士通株式会社 文本图像提取装置以及方法
CN104899586A (zh) * 2014-03-03 2015-09-09 阿里巴巴集团控股有限公司 对图像中包含的文字内容进行识别方法及装置
CN104978576A (zh) * 2014-04-02 2015-10-14 阿里巴巴集团控股有限公司 一种文字识别方法及装置
CN105160300A (zh) * 2015-08-05 2015-12-16 山东科技大学 一种基于水平集分割的文本抽取方法
CN103729638B (zh) * 2012-10-12 2016-12-21 阿里巴巴集团控股有限公司 一种文字区域识别中的文字行排列分析方法和装置
CN110135425A (zh) * 2018-02-09 2019-08-16 北京世纪好未来教育科技有限公司 样本标注方法及计算机存储介质
CN111353961A (zh) * 2020-03-12 2020-06-30 上海合合信息科技发展有限公司 一种文档曲面校正方法及装置
CN114140798A (zh) * 2021-12-03 2022-03-04 北京奇艺世纪科技有限公司 文本区域的分割方法、装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101030258A (zh) * 2006-02-28 2007-09-05 浙江工业大学 基于bp神经网络的数显仪表动态显示字符识别方法
CN101057247A (zh) * 2004-11-15 2007-10-17 皇家飞利浦电子股份有限公司 检测及修改图像中的文字
CN101542504A (zh) * 2006-09-08 2009-09-23 谷歌公司 后光学字符识别处理中的形状聚类

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101057247A (zh) * 2004-11-15 2007-10-17 皇家飞利浦电子股份有限公司 检测及修改图像中的文字
CN101030258A (zh) * 2006-02-28 2007-09-05 浙江工业大学 基于bp神经网络的数显仪表动态显示字符识别方法
CN101542504A (zh) * 2006-09-08 2009-09-23 谷歌公司 后光学字符识别处理中的形状聚类

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855502A (zh) * 2012-08-22 2013-01-02 北京壹人壹本信息科技有限公司 手写文字的重心确定方法及电子装置
CN102855502B (zh) * 2012-08-22 2016-08-03 北京壹人壹本信息科技有限公司 手写文字的重心确定方法及电子装置
CN102930262A (zh) * 2012-09-19 2013-02-13 北京百度网讯科技有限公司 一种从图像中提取文字行的方法及装置
CN102930262B (zh) * 2012-09-19 2017-07-04 北京百度网讯科技有限公司 一种从图像中提取文字行的方法及装置
CN103729638B (zh) * 2012-10-12 2016-12-21 阿里巴巴集团控股有限公司 一种文字区域识别中的文字行排列分析方法和装置
CN104112135B (zh) * 2013-04-18 2017-06-06 富士通株式会社 文本图像提取装置以及方法
CN104112135A (zh) * 2013-04-18 2014-10-22 富士通株式会社 文本图像提取装置以及方法
CN104899586A (zh) * 2014-03-03 2015-09-09 阿里巴巴集团控股有限公司 对图像中包含的文字内容进行识别方法及装置
CN104978576A (zh) * 2014-04-02 2015-10-14 阿里巴巴集团控股有限公司 一种文字识别方法及装置
CN104978576B (zh) * 2014-04-02 2019-01-15 阿里巴巴集团控股有限公司 一种文字识别方法及装置
CN105160300A (zh) * 2015-08-05 2015-12-16 山东科技大学 一种基于水平集分割的文本抽取方法
CN105160300B (zh) * 2015-08-05 2018-08-21 山东科技大学 一种基于水平集分割的文本抽取方法
CN110135425A (zh) * 2018-02-09 2019-08-16 北京世纪好未来教育科技有限公司 样本标注方法及计算机存储介质
CN111353961A (zh) * 2020-03-12 2020-06-30 上海合合信息科技发展有限公司 一种文档曲面校正方法及装置
CN111353961B (zh) * 2020-03-12 2023-12-19 上海合合信息科技股份有限公司 一种文档曲面校正方法及装置
CN114140798A (zh) * 2021-12-03 2022-03-04 北京奇艺世纪科技有限公司 文本区域的分割方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN102147863B (zh) 2013-03-06

Similar Documents

Publication Publication Date Title
CN102147863B (zh) 一种网络动画中的文字定位及识别方法
Tian et al. Multilingual scene character recognition with co-occurrence of histogram of oriented gradients
US8290268B2 (en) Segmenting printed media pages into articles
US8422793B2 (en) Pattern recognition apparatus
Kumar et al. Segmentation of isolated and touching characters in offline handwritten Gurmukhi script recognition
Coüasnon et al. Recognition of tables and forms
CN101763516B (zh) 一种基于拟合函数的文字识别方法
CN103870803A (zh) 一种基于粗定位与精定位融合的车牌识别方法和系统
Sahare et al. Review of text extraction algorithms for scene-text and document images
Sahare et al. Robust character segmentation and recognition schemes for multilingual Indian document images
Faustina Joan et al. A survey on text information extraction from born-digital and scene text images
Unar et al. Artificial Urdu text detection and localization from individual video frames
CN104834891A (zh) 一种中文图像型垃圾邮件过滤方法及系统
Mullick et al. An efficient line segmentation approach for handwritten Bangla document image
Mukherji et al. Shape feature and fuzzy logic based offline devnagari handwritten optical character recognition
Ghai et al. A new approach to extract text from images based on DWT and K-means clustering
Karanje et al. Survey on text detection, segmentation and recognition from a natural scene images
Seeri et al. A novel approach for Kannada text extraction
KR20090111202A (ko) 한글의 기본 구성요소인 수평선, 수직선, 사선, 원의개수와 특성치를 이용한 한글인식 방법 및 장치
Srinivas et al. An overview of OCR research in Indian scripts
Zidouri On multiple typeface Arabic script recognition
Zaw et al. Character segmentation and recognition for Myanmar warning signboard images
Malon et al. Support vector machines for mathematical symbol recognition
Zaw et al. Character Extraction and Recognition For Myanmar Script Signboard Images using Block based Pixel Count and Chain Codes
CN113688649B (zh) 一种快速的qr码定位方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230116

Address after: D1100, 11th Floor, Building 9, No. 9, Wangjing North Road, Chaoyang District, Beijing, 100102

Patentee after: Beijing Tengruiyun Culture Technology Co.,Ltd.

Address before: 100080 No. 95 East Zhongguancun Road, Beijing, Haidian District

Patentee before: INSTITUTE OF AUTOMATION, CHINESE ACADEMY OF SCIENCES