CN103279753B

CN103279753B - 一种基于树结构指导的英文场景文本块识别方法

Info

Publication number: CN103279753B
Application number: CN201310230927.XA
Authority: CN
Inventors: 王春恒; 史存召; 肖柏华; 高嵩; 胡仅龙
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Infan Technology (beijing) Co Ltd
Priority date: 2013-06-09
Filing date: 2013-06-09
Publication date: 2016-03-09
Anticipated expiration: 2033-06-09
Also published as: CN103279753A

Abstract

本发明公开一种基于结构指导的英文场景文本块识别方法，S1在部件上对每类字符建立树结构，并为每类字符训练一个用于检测出该类字符结构的字符树结构模型；S2在待识别的文本块图像中使用每类字符树结构模型对每类字符进行检测，得到所有类别字符的检测结果；S3对检测结果进行非极大值抑制，抑制检测分数低的检测结果，保留检测分数高的检测结果，这些保留的检测结果所在位置代表了候选字符所在的位置，将这些候选字符中的每个候选字符所在的位置设为一个节点，利用这些节点建立条件随机场；S4为条件随机场定义损失函数，所述损失函数包括一元损失函数和二元损失函数；S5对损失函数做最小化处理，得到最终的文本块识别结果。

Description

一种基于树结构指导的英文场景文本块识别方法

技术领域

本发明涉及模式识别与机器视觉领域中的自然场景中文本块识别技术领域，具体地是一种基于结构指导的英文场景文本块识别方法。

背景技术

文字是人们进行交流的主要媒介，真正智能的计算机，需要有识别和理解我们人类语言和文字的能力，光学字符识别(OCR)的概念在计算机时代之前就已经产生了，经过约半个世纪的发展，现阶段扫描文档的识别已经成功地应用于各行各业，为文档的保存及快速检索提供了便利。近年来，智能手机迅速覆盖市场，智能手机一般都装配摄像头，让手机自动理解用户拍摄的图像及视频的高层语义信息无疑具有巨大的应用需求，因此，这也成为近年来的计算机视觉及模式识别领域的研究热点。图像和视频等多媒体文档中大都含有文本信息，与颜色、纹理、边缘、亮度、形状等底层信息相比，图像和视频中的文字直接承载了语义信息，因而文字成为理解图像内容的重要线索。基于识别出的文字信息，可以促成诸如自动翻译、交通监控、安全监察等多种多样的应用。然而，由于真实场景中字符本身的光照、分辨率、形变等各种退化，以及字符背景的不可预见性，即使直接利用传统的OCR识别效果较差，因此真实场景中文字识别方法具有很强的研究必要。

现有的文本块识别方法大致分为两类：传统的基于二值化、分割再识别的方法以及基于目标识别的方法。传统的方法基于成熟的OCR识别引擎，由于OCR识别引擎需要二值输入，因此需要对场景中文本块二值化。然而，由于场景文字的颜色、分辨率、光照的多变性，以及场景中各种背景的干扰，传统的二值化方法很多都会失效。如果二值化效果不好，后续的分割及识别效果将很差，而且由二值化带来的识别错误是不能通过后续处理纠正的。基于目标识别的方法无需二值化，直接在原始图像上识别文本块，现有的大部分方法通过多尺度扫描及分类来得到候选文字，再利用各种后处理来得到最终的识别效果。然而，现有的方法在检测时采用多尺度扫描策略，不能很好地利用文字的结构信息，因而会产生很多的误检，极大地影响后面的识别。

文字是由人类设计的，每个文字均有其特有的结构。当人类识别文字时，将文字从复杂的背景中分离开来与识别此文字的过程是相互依存的，即使文字受到很大的污染并且具有复杂的背景，只要其特有的结构保持不变，我们就能将本质的不变的结构信息从复杂背景中剥离出来并将其识别。因此，本发明将文字表示为基于部件的结构，并且将检测与识别无缝链接，在检测文字各个部件的同时就识别了该文字。

发明内容

为了解决现有技术的问题，本发明的目的是提供一种基于树结构指导的英文场景文本块识别方法。

为达到上述目的，本发明基于树结构指导的英文场景文本块识别方法的技术解决方案的步骤如下：

步骤S1：在部件上对每类字符建立树结构，并为每类字符训练一个用于检测出该类字符结构的字符树结构模型；

步骤S2：在待识别的文本块图像中使用每类字符树结构模型对每类字符进行检测，得到所有类别字符的检测结果；

步骤S3：对检测结果进行非极大值抑制，抑制检测分数低的检测结果，保留检测分数高的检测结果，这些保留的检测结果所在位置代表了候选字符所在的位置，将这些候选字符中的每个候选字符所在的位置设为一个节点，利用这些节点建立条件随机场；

步骤S4：为条件随机场定义损失函数，所述损失函数包括一元损失函数和二元损失函数，其中一元损失融入检测得分，二元损失融入字符空间位置约束及语言模型；

步骤S5：对损失函数做最小化处理，得到最终的文本块识别结果。

本发明的有益效果：本发明突破传统的完全依赖于统计特征的文字识别方法，另辟蹊径，利用文字的根本特征——结构信息对文字进行识别，将每类字符表示为—个建立在字符部件上的树结构，其中部件是文字的一部分，各个部件之间的拓扑关系反映了文字的结构。为每类字符训练一个与此字符结构相关的字符树结构模型。识别时，用每类字符的树结构模型在文本块中检测该类字符是否出现，这样以来，在检测字符各个部件的位置的同时就得到了该字符对应的识别结果，在这些候选检测结果上建立条件随机场，一元损失融入模型的检测识别结果，二元损失融入字符的空间位置约束及语言模型，最终通过能量函数最小化得到单词的识别结果。本发明利用了文字的全局结构信息及局部统计信息对字符进行建模，在检测文字各个部分的同时也识别了此文字的结构，将检测与识别无缝对接，并且将检测分数、空间约束以及二元语言模型融合到条件随机场的能量函数中，最终通过能量函数最小化来平衡各种信息得到识别结果。本方法对真实场景中的文本块具有较好的识别效果。

附图说明

图1是本发明基于树结构指导的英文场景文本块识别方法的流程图。

图2是本发明中字符树结构设计及样本标注示意图。

图3是本发明中模型训练过程示意图。

图4是本发明为字符模型在文本块图像上经过非极大值抑制检测结果示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

图1示出本发明所述方法的一个实例流程图，图1描述了如何用本发明识别给定的一个场景文本块图像。首先为每类字符训练一个建立在字符部件上的字符树结构模型，给定输入图像例如HOTEL，用所有类别的字符树结构模型进行字符结构检测，检测结果如图1中检测得分一行所示为：‘H’‘R’…‘O’‘a’…‘T’‘I’…‘E’‘L’…‘L’‘I’…，接着对检测结果进行非极大值抑制，在候选字符上建立条件随机场如图1中条件随机场部分所示为：Node1，…，Node5分别表示五个节点，在此五个节点上建立条件随机场，条件随机场一元损失融入检测得分二元损失融入空间位置约束及语言模型，其中语言模型是通过从词典中学习得到的，最后给出识别结果。本发明提出的一种基于结构指导的英文场景文本块识别方法具体包括以下步骤：

步骤S1：在部件上对每类字符建立树结构，并为每类字符训练一个用于检测该类字符结构的字符树结构模型；

将每类字符表示为一个建立在字符部件之上的树结构，所述部件是文字的一部分，所述文字由多个部件组成，各个部件之间的拓扑关系反映了每类字符的结构信息，用每类字符树结构来反映各个部件之间的拓扑关系。对于某类字符k，用树T_k＝(V_k，E_k)来表示其各个部件及边的连接，V_k代表树的各个节点即字符的各个部件，E_k表示各个节点之间的拓扑关系即字符各个部件之间的结构约束。用I代表输入图像，l_i＝(x_i，y_i)代表某个部件i的位置，x_i，y_i是部件i所在位置的坐标；将所有部件的位置安排在对于某类字符k的某种检测结果L＝{l_i，i∈V_k}时得到的分数为：

S(L，I，k)＝S_App(L，I，k)+S_Str(L，k)+α_k

其中，

S_{App} (L, I, k) = \underset{i &Element; V_{k}}{Σ} w_{i}^{k} \cdot φ (I, l_{i})

对于某类字符k的某个检测结果L的得分由局部部件得分S_App(L，I，k)，全局形状得分S_Str(L，k)，及偏差系数α_k构成。表示部件字符k的部件i的局部统计模型或者是局部卷积模板，φ(I，l_i)是在位置l_i处提取的局部特征，这里使用在计算机视觉领域表现优异的梯度方向直方图HOG特征，局部统计模型S_App(L，I，k)反映了将某个部件局部统计模型放在相应处的适合程度；是形变约束参数，可以控制每个子部件与其父部件之间的相对位置，其中dx＝x_i-x_j，dy＝y_i-y_j表示部件i与部件j之间的相对距离，全局结构模型S_Str(L，k)可以对部件的相对位置依据设定好的拓扑结构进行约束，i为部件的索引，j为与部件i相邻的部件，i＝1，2...，。

为每类字符训练基于部件的树结构模型时，首先要设定每种字符的树结构拓扑关系，然后人工标定训练样本的各个部件，最后通过有监督的学习方法学习出最终的字符树结构模型的参数，具体采用二次规划来学习模型参数，其中字符树结构模型的参数包括每个部件的卷积系数以及部件与部件之间的形变约束系数所述所有字符的类别包括英文大小写字母——‘A’‘B’‘C’…‘Y’‘Z’，‘a’‘b’‘c’…‘x’‘y’‘z’，及数字——‘0’‘1’‘2’…‘9’。

图2所示为字符树结构设计及样本标注示意图。图2中的(a)展示了字符‘X’、‘T’的拓扑树结构，圆点代表每个节点1-节点10，节点与节点之间通过边相连，其中‘1’代表根节点，每个节点2，3，4，5，6，7，8，9，10的箭头指向这些节点的父节点，对于‘T’，3的父节点为2，2的父节点为1，父节点为4，4的父节点为1，以此类推可以得到根节点除外的所有节点的父节点。图2中的(b)和图2中的(c)展示了标注样本的过程，在每个部件的中心标注，提取特征时，如图2(b)和图2(c)上的虚线方框所示，以根节点为例，提取以根节点‘1’为中心的区域的特征来表示节点‘1’所在的部件。

图3所示为字符‘2’标注样本、设计拓扑结构关系及训练得到的字符树模型的示意图。左图为标注好的训练样本，其中圆点为人工标记的每个部件的中心位置；中间为是设计好的树结构的拓扑结构，其中‘1’表示根节点，箭头连接了相邻的节点并且指向相邻节点中的父节点；最后通过二次规划训练得到右图的字符‘2’的建立在部件上的字符树结构模型。字符树结构模型的各个方框中表示训练得到的各个部件模型，而各个部件之间的位置关系通过拓扑结构约束。

步骤S2，在待识别的文本块图像中使用每类字符树结构模型对每类字符进行检测，得到所有类别字符的检测结果；所述依次在待识别的文本块上用各类字符树结构模型进行检测，由于字符的拓扑结构用树来表示，每个字符的检测可以通过动态规划实现。所述动态规划首先是计算树的叶节点所在的部件位置的得分，然后叶节点的父节点的得分可以计算得出，最终算出根节点的得分，选取得分最高的根节点作为最终的检测根节点，最后通过根节点往回反推计算依次得到最高得分的各个部件的位置。

所述非极大值抑制的具体方法为，如果两个检测结果的区域重合程度超过一定比例(70％)，则抑制得分较低的检测结果，保留得分较高的检测结果。经过非极大值抑制，得到一些得分较高的字符检测结果，以这些检测结果所在位置为节点，节点按照从左向右的顺序排列，节点与节点之间通过边相连，在这些节点上构建条件随机场。

图4所示为字符树结果模型在文本块图像上进行检测并经过非极大值抑制得到的检测结果示意图。检测结果中粗线方框标注的是检测到的根节点所在位置，细线方框标注字符的其他节点。识别结果中的字符‘b’‘r’‘e’‘a’‘k’，‘T’‘E’‘A’‘M’对应图4中第一行文本块图像的非极大值抑制后的字符树结构类别，‘O’‘f’‘f’‘i’‘c’‘e’，‘f’‘i’‘s’‘h’对应图4中第二行文本块图像的非极大值抑制后的字符树结构类别。图1所示条件随机场右侧虚线框内为构造条件随机场过程示意图。在对检测结果进行非极大值抑制后得到一些候选字符的位置，在每个位置建立一个节点，按照从左向右的顺序依次在候选位置添加节点，相连节点之间用边相连。

条件随机场是建立在随机变量之上的，这里每个节点代表一个随机变量，则总的损失函数可以表示为：

E (x) = Σ_{i = 1}^{n} E_{i} (x_{i}) + ρ Σ_{{i, j} &Element; E} E_{ij} (x_{i}, x_{j}),

其中x＝{x₁，x₂，...，x_n}带表随机变量集合，每个随机变量代表每个节点可能出现的字符类别，n代表节点的个数，E_i(x_i)为一元损失函数，E_ij(x_i，x_j)为二元损失函数。x_j是与节点x_i相邻的节点坐标，ρ是控制一元ε失与二元损失贡献大小的权衡参数，N表示条件随机场中所有相邻边构成的集合。

一元损失E(x_i)表示为节点x_i分配字符类别c_j所带来的损失E_i(x_i＝c_j)，具体定义如下：

E_{i} (x_{i} = c_{j}) = \{\begin{matrix} 1 - p (c_{j} | x_{i}) & if c_{j} &NotEqual; ϵ \\ \max_{j} p (c_{j} | x_{i}) & otherwise \end{matrix},

其中为节点x_i分配非空类别的损失与非空类别的检测分数成反比，即某类别的检测分数越高，则分配为该字符类别的损失越小；而为节点x_i分配空类别的损失为该节点处所有检测分数的最大值，即此节点的检测分数越高，为其分配空类别的损失越大，反之亦然。p(c_j|x_i)是节点x_i处检测到字符类别c_j的概率，使用字符树结构模型的相应检测分数来反映字符类别c_j的概率。ε为空类别标注，即此节点不属于任何一种字符类别。如果字符类别c_j的树结构模型在节点x_i的位置没有检测到字符类别c_j的出现，则将节点x_i分配字符类别c_j的损失设为一个常数10。

二元损失E_ij(x_i，x_j)融入语言模型及空间位置约束，具体定义为：

其中P(c_i，c_j)是从词典中学习得到的二元语言模型，代表从类别c_i转移到字符类别c_j的概率，即字符类别c_i与字符类别c_j同时出现的概率，这里用SRI语言模型工具包训练二元语言模型；D_ij是两个节点之间的相对距离，这里采用绝对值距离；S_i表示节点x_i处的最大检测分数，S_j表示节点x_j处的最大检测分数，而S_i，j表示S_i，S_j中较大的检测得分。μ的值设置为1.5。以上二元损失的意义为，如果两个类别(c_i，c_j)同时出现的概率较大，则为相邻两节点(x_i，x_j)分配类别标签(c_i，c_j)的损失应该较小；如果两个相邻节点之间的距离较小并且某个节点处的最大检测分数较低，则为某个节点分配空类别标签的损失较小。

所述最小化处理是计算出所有节点各个类别的损失及所有边的损失后，利用序列加权树信息传递算法(TRW-S)来最小化损失函数，以求取出让损失函数最小时各个节点的标签，即识别出文本块中的单词。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于树结构指导的英文场景文本块识别方法，其特征在于，包括以下步骤：

步骤S5：对损失函数做最小化处理，得到最终的文本块识别结果；

其中，所述部件是文字的一部分，所述文字由多个部件组成，各个部件之间的拓扑关系反映了每类字符的结构信息，用每类字符树结构来反映各个部件之间的拓扑关系；

其中，每类字符k用树T_k＝(V_k，E_k)来表示其各个部件及边的连接，V_k代表树的各个节点即字符的各个部件，E_k表示各个节点之间的拓扑关系即字符各个部件之间的结构约束；

其中，将所有部件的位置安排在对于某类字符k的某种检测结果L＝{l_i，i∈V_k}时得到的分数为：

S(L，I，k)＝S_App(L，I，k)+S_Str(L，k)+α_k，

其中，

S_{A p p} (L, I, k) = Σ_{i &Element; V_{k}} w_{i}^{k} \cdot φ (I, l_{i}),

用I代表输入图像；l_i＝(x_i，y_i)代表部件i的位置，x_i，y_i是部件i所在位置的坐标；对于某类字符k的某种检测结果L的得分由局部部件得分S_App(L，I，k)，全局形状得分S_Str(L，k)，及偏差系数α_k构成；表示字符k的部件i的局部统计模型或者是局部卷积模板；φ(I，l_i)是在位置l_i处提取的局部特征，这里使用在计算机视觉领域表现优异的梯度方向直方图(HOG)特征，局部统计模型S_App(L，I，k)反映了将某个部件局部统计模型放在相应处的适合程度；是形变约束参数，用于控制每个子部件与其父部件之间的相对位置，其中dx＝x_i-x_j，dy＝y_i-y_j表示部件i与部件j之间的相对距离，全局结构模型S_Str(L，k)可以对部件的相对位置依据设定好的拓扑结构进行约束，i为部件的索引，j为与部件i相邻的部件，i＝1，2...，；

其中，构建字符树结构模型的步骤包括：首先设定每类字符的树结构拓扑关系，然后人工标定训练样本的各个部件，最后通过有监督的学习方法学习出最终的字符树结构模型的参数，所述监督的学习方法是采用二次规划来学习字符树结构模型的参数，其中字符树结构模型的参数包括每一部件的局部卷积模板以及部件与部件之间的形变约束系数

2.如权利要求1所述的英文场景文本块识别方法，其特征在于，所述对每类字符进行检测的步骤如下：

依次在待识别的文本块用各类字符树结构模型进行检测，由于字符的拓扑结构用树来表示，每个字符的检测通过动态规划实现；所述动态规划首先是计算树的叶节点所在的部件的位置的得分，然后计算出叶节点的父节点的得分，最终算出根节点的得分，选取得分最高的根节点作为最终的检测根节点，最后通过根节点往回反推计算依次得到最高得分的各个部件的位置。

3.如权利要求1所述的英文场景文本块识别方法，其特征在于，所述条件随机场是建立在随机变量之上，这里每个节点代表一个随机变量，则总的损失函数E(x)可以表示为：

E (x) = Σ_{i = 1}^{R} E_{i} (x_{i}) + {ρΣ}_{{i, j} &Element; N} E_{i j} (x_{i}, x_{j}),

其中x＝{x₁，x₂，…，x_n}代表随机变量集合，每个随机变量代表每个节点可能出现的字符类别，n代表节点的个数，E_i(x_i)为一元损失函数，E_ij(x_i，x_j)为二元损失函数，x_j是与节点x_i相邻的节点坐标，ρ是控制一元损失与二元损失贡献大小的权衡参数，N表示条件随机场中所有相邻边构成的集合。

4.如权利要求3所述的英文场景文本块识别方法，其特征在于，所述一元损失E_i(x_i)表示为节点x_i分配字符类别c_j所带来的损失E_i(x_i＝c_j)，定义如下：

E_{i} (x_{i} = c_{j}) = {\begin{matrix} 1 - p (c_{j} | x_{i}) & i f c_{j} &NotEqual; ϵ \\ \max_{j} p (c_{j} | x_{i}) & o t h e r w i s e \end{matrix},

其中为节点x_i分配非空类别的损失与非空类别的检测分数成反比，即某类别的检测分数越高，则分配为该类别的损失越小；而为节点x_i分配空类别的损失为节点x_i处所有检测分数的最大值，即此节点x_i的检测分数越高，为节点x_i分配空类别的损失越大，反之亦然；p(c_j|x_i)是节点x_i处检测到字符类别c_j的概率，使用字符树结构模型的相应检测分数来反映字符类别c_j的概率；∈为空类别标注，即节点x_i不属于任何一种字符类别；如果字符类别c_j的树结构模型在节点x_i的位置没有检测到字符类别c_j的出现，则将节点x_i分配字符类别c_j的损失设为一个常数10。

5.如权利要求4所述的英文场景文本块识别方法，其特征在于，将所述二元损失E_ij(x_i，x_j)融入语言模型及空间位置约束的步骤如下：

其中P(c_i，c_j)是从词典中学习得到的二元语言模型，代表从字符类别c_i转移到字符类别c_j的概率，即字符类别

c_i与字符类别c_j同时出现的概率；D_ij是两个节点之间的相对距离，这里采用绝对值距离；S_i表示节点x_i处的最大检测分数，S_j表示节点x_j处的最大检测分数，而S_i，j表示S_i，S_j中较大的检测得分；μ的值设置为1.5；以上二元损失的意义为，如果两个类别(c_i，c_j)同时出现的概率较大，则为相邻两节点(x_i，x_j)分配类别标签(c_i，c_j)的损失应该较小；如果两个相邻节点之间的距离较小并且某个节点处的最大检测分数较低，则为某个节点分配空类别标签的损失较小。

6.如权利要求1所述的英文场景文本块识别方法，其特征在于，所述最小化处理是计算出所有节点各个类别的损失及所有边的损失后，利用序列加权树信息传递算法(TRW-S)来最小化损失函数，以求取出让损失函数最小时各个节点的标签，即识别出文本块中的单词。