CN102147863A

CN102147863A - 一种网络动画中的文字定位及识别方法

Info

Publication number: CN102147863A
Application number: CN 201010111374
Authority: CN
Inventors: 张树武; 刘杰; 梁伟
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Beijing Tengruiyun Culture Technology Co ltd
Priority date: 2010-02-10
Filing date: 2010-02-10
Publication date: 2011-08-10
Anticipated expiration: 2030-02-10
Also published as: CN102147863B

Abstract

本发明是一种网络动画中的文字定位及识别方法，该方法充分利用网络动画的结构分析技术，将网络动画中的内嵌编码文字直接提取出来，并将网络动画分解为基本形状，而基本形状是构成网络动画的主要元素。接下来针对每个基本形状，利用基于连通域的启发合并、特征聚类的两阶段文字定位方法定位基本形状中的非内嵌文字，再利用基于笔画宽度直方图的噪声过滤方法，合理地将非文字连通域过滤掉，从而将所有非内嵌文字定位出来，然后利用梯度直方图特征识别非内嵌文字。最后将识别出的非内嵌文字和内嵌文字返回给用户。

Description

一种网络动画中的文字定位及识别方法

技术领域

本发明提出了一种网络动画(Flash)中的文字定位及识别方法，可以用于网络动画内容分析、监控、检索等技术领域。

背景技术

随着计算机技术及网络的发展，网络动画已经成为一种热门的媒体形式。尤其在网络广告中，网络动画更是占据了主导地位。随之而来，针对网络动画的内容分析、检索、监控的需求也越来越迫切。而网络动画中的文字无疑是实现这些需求的重要线索。

当前，世界上已经有很多关于文字定位的研究。这些研究基本可以被分为两类：基于纹理的方法和基于连通域的方法。基于纹理的方法主要是利用Gabor滤波器、小波变换等方法计算出区域的纹理特征，然后利用分类器来区分文本块与非文本块。而基于连通域的方法首先要假设字符的前景颜色基本一致。因此，基于连通域的方法首先要执行颜色聚类，将当前图形分解成若干颜色层，然后针对每个颜色层去执行连通域分析的方法，最终将符合文字特点的连通域定位出来。

目前这些方法在一定程度上解决了文字定位的问题，但是并不适合网络动画中文字的特点。在网络动画中，大量存在多语言文本混排，正体字和斜体字混排，不同字体、大小、颜色的文字混排。因此，传统算法不能很好地定位网络动画中的文字。

发明内容

(一)要解决的技术问题

有鉴于此，本发明的主要目的在于针对网络动画的特点，提出一种将网络动画结构分析技术与光学字符识别技术相结合的文字定位及识别方法。

(二)技术方案

为达成所述目的，本发明提供一种网络动画中的文字定位及识别方法，该方法将网络动画结构分析技术与光学字符识别技术结合，将网络动画结构分析技术与光学字符识别技术结合，直接提取网络动画文件中的编码内嵌文字，并利用一种基于连通域的启发合并、特征聚类的两阶段文字定位算法定位非内嵌文字，利用一种基于笔画宽度直方图的噪声过滤算法去除非文字连通域，最后利用基于梯度直方图特征识别非内嵌文字，该方法的步骤为：

步骤S1：利用网络动画结构分析技术，分析给定网络动画文件的内容，如果存在定义文字(DefineText)标签，定义文字2(DefineText2)标签之一，则将其中文字记录(TextRecords)域中字符标识(FontID)所定义的编码内嵌文字直接提取出来；

步骤S2：利用网络动画结构分析技术，将网络动画分解为若干基本形状，再将基本形状转化为无失真压缩图像；基本形状是构成网络动画的元素，它包含网络动画中的全部非内嵌文字且背景更加简单，从而提高光学字符识别技术的准确性；

步骤S3：针对每个基本形状转化后的图像，利用基于连通域的启发合并、特征聚类的两阶段文字定位算法，将基本形状中的非内嵌文字图像准确定位，获得非内嵌文字定位图像和错误定位的非文字连通图像；

步骤S4：利用基于笔画宽度直方图的噪声过滤算法，将上述错误定位出的非文字连通域图像过滤掉；

步骤S5：利用基于梯度直方图特征识别非内嵌文字，最后将识别出的非内嵌文字与编码内嵌文字返回给用户。

其中，所述分解若干基本形状的具体步骤包括：

步骤S21：首先读取网络动画文件的头信息：签名、版本、文件大小、帧的大小、帧率、帧数、背景色；

步骤S22：根据网络动画文件的头信息，如果是压缩格式，则对网络动画文件进行解压，并转入步骤23，如果不是压缩格式，则直接转入步骤23；

步骤S23：读取下一个标签头部信息，判断是否为End标签，如果是，结束系统，如果不是，转入步骤S24；

步骤S24：判断标签是否为DefineShape标签、DefineShape2标签、DefineShape3标签、DefineShape4标签之一，如果是，则转入步骤S25，如果不是，则返回到步骤S23；

步骤S25：创建一个网络动画文件，按照上述标签头部信息指定的长度，将原网络动画文件中的对应内容写入新的网络动画文件中，从而分解出基本形状。

其中，将所述网络动画中基本形状转化为无失真压缩图像的具体步骤是：将每个基本形状转化为背景色相反的两幅图像，然后选择两幅图像中前景区域大、反差强烈的图像进行文字定位及识别。

其中，所述文字定位步骤是：

步骤S41：在文字区域颜色一致的假设前提下，通过颜色聚类将图像分割成若干的颜色层，并在每个图像颜色层上定位非内嵌文字，同时用颜色聚类可去除文字颜色渐变的不利影响；

步骤S42：利用文字特点设计启发规则，该启发规则在保证无错的前提下，先正确地将若干符合启发规则的连通域合并成非内嵌文字；

步骤S43：再利用连通域的宽、高及宽高比的特征进行聚类，若属于某个特征的连通域的数目足够多，则认为该特征是有意义的文字连通域特征，反之则认为是无意义的连通域特征；

步骤S44：利用步骤33确定的有意义的文字连通域特征，诱导其它连通域进行合并，当若干连通域就近结合且符合有意义的文字连通域特征，则认为该连通域是非内嵌文字，从而准确地将非内嵌文字定位出来。

其中，所述基于笔画宽度直方图的噪声过滤的具体步骤是：

步骤S51：利用文字连通域的笔画宽度相对稳定，而噪声连通域的宽度变化较大的特点，对连通域建立水平方向与垂直方向的笔画宽度直方图；

步骤S52：对两个直方图分别进行聚类，如果两个直方图的峰值的频率足够多且相差不大，则认为该连通域是非内嵌文字，反之，则认为是噪声。

其中，所述连通域的启发合并，是初始化一个连通域链表，将连通域中所有符合以下启发式规则之一的连通域合并，该启发式规则具体步骤包括如下：

规则a：

\frac{Area (i \cap j)}{\min (Area (i), Area (j))} > 0.5,

其中：Area(i)和Area(j)分别表示恰好包含连通域i和j的矩形面积，min(Area(i)，Area(j))则表示二者中的较小值，Area(i∩j)表示他们相交区域的面积；

规则b：

\frac{W (i \cup j)}{H (i \cup j)} < 1.2 and \frac{H (i \cup j)}{W (i \cup j)} < 1.2 andDis (i, j) < T_{dis},

其中：W(i∪j)和H(i∪j)分别代表包含连通域i和j的矩形的宽和高，而Dis(i，j)则表示他们之间中心的距离，T_dis是一个自适应的阈值，自适应的阈值与包含连通域i和j的矩形的最小宽或高成正比，其定义如下：

T_dis＝min(W(i)，H(i)，W(j)，H(j))×a，

其中：a是一个放大系数，在实验中被设置为2.3。

本发明的有益效果：

本发明方法的第一方面是充分利用网络动画的结构分析技术，将网络动画中的内嵌编码文字直接提取出来，并将网络动画转化为若干基本形状，而基本形状是构成网络动画主要元素，同时基本形状具有背景简单的特点，更利于光学字符识别技术(OCR)准确定位并识别文字。第二方面是提出了一种基于连通域的启发合并、特征聚类的两阶段文字定位方法。这种方法可根据一定的启发式规则和特征聚类相结合的方法，自适应地提取当前图像中文字的特征，并利用这些特征诱导其它连通域合并，从而将非内嵌文字准确定位出来。第三个方面是基于笔画宽度直方图的噪声过滤方法。这种方法利用了文字笔画宽度相对稳定，而噪声的宽度变化较大的特点，合理地将非文字连通域过滤掉。实验证明，本发明提出的算法充分针对网络动画的特点，可以准确、高效地将网络动画中的文字定位并识别出来。本发明的方法对于多语言混排，正斜体混排以及不同字体、大小、颜色的文字混排，有很好的鲁棒性。

附图说明

图1是一种网络动画中的文字定位及识别方法流程图；

图2a、图2b、图2c、图2d是本发明的文字定位实验结果；

图3是本发明的分解若干基本形状的子流程图。

具体实施方式

下面结合附图详细说明本发明技术方案中所涉及的各个细节问题。应指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

如图1示出本发明提出的一种网络动画(Flash)中的文字定位及识别方法流程图。该方法将网络动画的结构分析技术与光学字符识别技术(OCR)相结合。首先该方法将网络动画中编码内嵌的文字提取出来，然后将网络动画分解为若干基本形状，而基本形状是构成网络动画的主要元素。基本形状具有背景简单的特点，从而更利于光学字符识别技术定位识别文字。接下来将每个基本形状转化为无失真压缩图像(Jpeg)，然后对于每个图像利用均值漂移算法对颜色进行聚类，从而将图像分解为若干图像层，然后在每个图层上利用基于连通域的启发合并、特征聚类两阶段文字定位算法对文字进行定位，接下来利用笔画宽度直方图将噪声过滤掉，最后再提取出文字图像的梯度直方图特征并将文字识别出来。该方法能够在网络动画中出现的多语种混排，正斜体混排以及多字体、大小、颜色的情况下准确地定位并识别出文字。

本发明可用于针对网络动画检索、内容监控等系统。网络动画中的文字分为两类：编码内嵌文字、非内嵌文字。它们的含义如下：

编码内嵌文字：以汉字内码扩展规范(GBK)编码形式直接存在于网络动画文件的源代码中的文字。

非内嵌文字：以图形形式存在于基本形状中的文字。

网络动画是网络广告的主要媒介。如今，自动检索、监控网络广告内容的需求越来越多，而文字无疑是网络广告内容的主要载体。在自动检索、监控网络广告的系统中，利用本发明，用户可在计算机中输入网络动画文件，经本发明分析之后，其中所含的文字信息自动返回给用户的计算机。

本发明主要有如下四个部分：一是网络动画的结构分析技术；二是基于连通域的启发合并、特征聚类的两阶段文字定位算法；三是基于笔画宽度直方图的噪声过滤算法；四是基于梯度直方图的文字特征。本发明也可广泛应用于其它需要定位识别文字的处理领域。

下面将对本发明的四个部分分别加以详细说明。

网络动画结构分析技术。基本形状是构成网络动画的主要元素，它具有背景简单的特点，本发明通过将网络动画分解为基本形状，并转化为图像，可以更利于光学字符识别技术定位识别文字。另外有些网络动画中，还编码内嵌了部分文字信息，本发明可以直接将这些文字信息提取出来。通过网络动画结构分析技术，本发明不仅可以提高文字识别的准确率，还大幅度地提高了识别速度。

基于连通域的启发合并-特征聚类两阶段文字定位算法。该算法由启发合并和特征聚类两个阶段组成。在第一阶段，首先利用汉字的特点，对连通域进行初步合并，该阶段的主要目的是在保证无错合并的前提下，尽可能多地合并连通域，从而使下一阶段能够更好地进行连通域聚类，提取出有意义的连通域特征，最后利用这些特征对剩余连通域进行诱导合并，从而将非内嵌文字准确地定位出来。

启发合并连通域的主要思想为：初始化一个连通域链表，将连通域中所有符合以下启发式规则之一的连通域合并。启发式规则如下：

(a) - - - \frac{Area (i \cap j)}{\min (Area (i), Area (j))} > 0.5,

在这里Area(i)和Area(j)分别表示恰好包含连通域i和j的矩形面积，min(Area(i)，Area(j))则表示二者中的较小值，Area(i∩j)表示他们相交区域的面积。

(b) - - - \frac{W (i \cup j)}{H (i \cup j)} < 1.2 and \frac{H (i \cup j)}{W (i \cup j)} < 1.2 andDis (i, j) < T_{dis},

在这里W(i∪j)和H(i∪j)分别代表包含连通域i和j的矩形的宽和高，而Dis(i，j)则表示他们之间中心的距离，T_dis是一个自适应的阈值，它与包含连通域i和j的矩形的最小宽或高成正比，其定义如下：

T_dis＝min(W(i)，H(i)，W(j)，H(j))×a，

a是一个放大系数，在实验中被设置为2.3。

特征聚类的主要思想为：相同性质文字连通域的宽、高以及宽高比变化稳定，而非文字连通域的宽、高以及宽高比变化很大。因此将包含连通域的矩形的宽、高以及宽高比作为特征，对所有连通域进行聚类，如果属于某一特征的连通域数目足够多，则认为这些连通域为文字。然后利用文字连通域的宽、高以及宽高比特征，对剩余连通域进行诱导合并，如果剩余连通域中的某些连通域可以就近组合成一个新的连通域且这个新的连通域满足文字特征，则将这些连通域合并，从而非内嵌文字被准确地定位出来。

基于笔画宽度直方图的噪声过滤算法。通常情况下，文字的笔画宽度相对稳定，而噪声的宽度则变化很大。基于这个特点，我们提出了一种新的基于笔画宽度直方图的噪声过滤方法。首先针对每个连通域，进行垂直扫描，获得垂直方向笔画宽度直方图，同理获得水平方向笔画宽度直方图。然后对这两个直方图分别进行聚类。如果一个连通域被当作非内嵌文字，当且仅当它满足以下两个条件：

1、两个直方图的峰值的频率足够多；

2、两个直方图的峰值所表示的宽度相差不大。

积分直方图的建立和非内嵌文字图形特征的快速提取。本发明采用梯度方向直方图作为基本特征，分别计算八个方向上像素梯度方向的分布情况。为了加速特征的提取过程，采用积分图像的方式。具体实现过程如下，首先计算图像中每个象素点的梯度方向和模值，并把梯度方向投影到具体的方向上，对每个方向建立一个积分图像，八个方向共有八个积分图像。其次计算不同模块大小的梯度方向直方图特征并将特征归一化处理。模块的长宽由8*8不断增加到各个部件的大小，例如48*48，增加幅度为4，6和8；模块的长宽比例有1∶1，1∶2和2∶1三种。对于各个模块，计算2*2子模块的特征形成总的特征并归一化，特征维数为36维。对于48*48的模块区域，共计得到189个子模块，特征总数为36*189。

算法性能评价。本算法的性能评价是通过对网络动画进行文字定位及识别是否正确进行验证的。

算法性能指标有两个，精度ξ、召回率δ。

公式表示如下：

为了测试非内嵌文字定位方法，我们从Flash中随机提取了207副图像，其中包括中文、英文、数字共1724个。

表1 文字定位实验结果

	召回率(％)	精度(％)
			本发明	82.36	93.35

为了测试文字识别方法，我们随机选取了100副Flash。由于将Flash结构分析技术与OCR技术相结合，我们可以看到召回率与精度有了显著提高。

表2 文字识别实验结果

	召回率(％)	精度(％)
			本发明	91.5	95.6

在说明书附图中，我们可以看到本发明针对Flash中的文字的定位结果。在图2a中，包含大小、颜色各不相同的若干非内嵌文字，还有正体字与斜体字混排，但是本发明的算法可以自适应地提取出不同性质非内嵌文字的特征，并利用特征准确定位出非内嵌文字；而在图2b和图2d中包含中英文混排，算法可以准确地定位非内嵌文字；在图2c中，包含中文与数字混排，同时还有标点，算法不受标点的影响，可以准确地定位非内嵌文字。

图3是本发明的分解若干基本形状的子流程图，所述分解若干基本形状的具体步骤包括：

步骤S24：判断标签是否为定义基本形状(DefineShape)标签、定义基本形状2(DefineShape2)标签、定义基本形状3(DefineShape3)标签、定义基本形状4(DefineShape4)标签之一，如果是，则转入步骤S25，如果不是，则返回到步骤S23；

综上所述，本发明提出了一种网络动画中的文字定位及识别方法，该方法合理地将网络动画结构分析技术与光学字符识别技术技术相结合，可以准确地定位并识别出网络动画中的文字。尽管以本发明之最佳实施方式说明了本发明，然而可以理解的是，在不背离权利要求书所规定之发明实质的前提下，可以对本发明作某些修改。

Claims

1.一种网络动画中的文字定位及识别方法，其特征在于，将网络动画结构分析技术与光学字符识别技术结合，直接提取网络动画文件中的编码内嵌文字，并利用一种基于连通域的启发合并、特征聚类的两阶段文字定位算法定位非内嵌文字，利用一种基于笔画宽度直方图的噪声过滤算法去除非文字连通域，最后利用基于梯度直方图特征识别非内嵌文字，该方法的步骤为：

步骤S1：利用网络动画结构分析技术，分析给定网络动画文件的内容，如果存在DefineText标签，DefineText2标签之一，则将其中TextRecords域中FontID所定义的编码内嵌文字直接提取出来；

2.根据权利要求1所述的网络动画中的文字定位及识别方法，其特征在于，所述分解若干基本形状的具体步骤包括：

3.根据权利要求1所述的网络动画中的文字定位及识别方法，其特征在于，将所述基本形状转化为无失真压缩图像的具体步骤是：将每个基本形状转化为背景色相反的两幅图像，然后选择两幅图像中前景区域大、反差强烈的图像进行文字定位及识别。

4.根据权利要求1或2所述的网络动画中的文字定位及识别方法，其特征在于，所述文字定位步骤是：

5.根据权利要求1所述的网络动画中的文字定位及识别方法，其特征在于，所述基于笔画宽度直方图的噪声过滤的具体步骤是：

6.根据权利要求1所述的网络动画中的文字定位及识别方法，其特征在于，所述连通域的启发合并，是初始化一个连通域链表，将连通域中所有符合以下启发式规则之一的连通域合并，该启发式规则具体步骤包括如下：

规则a：

\frac{Area (i \cap j)}{\min (Area (i), Area (j))} > 0.5,

规则b：

\frac{W (i \cup j)}{H (i \cup j)} < 1.2 and \frac{H (i \cup j)}{W (i \cup j)} < 1.2 andDis (i, j) < T_{dis},

T_dis＝min(W(i)，H(i)，W(j)，H(j))×a，

其中：a是一个放大系数，在实验中被设置为2.3。