CN105160342A

CN105160342A - 一种基于hmm-gmm的自动文字图片切分方法及系统

Info

Publication number: CN105160342A
Application number: CN201510489963.7A
Authority: CN
Inventors: 刘世林; 何宏靖; 陈炳章; 吴雨浓
Original assignee: Chengdu Business Big Data Technology Co Ltd
Current assignee: Chengdu Business Big Data Technology Co Ltd
Priority date: 2015-08-11
Filing date: 2015-08-11
Publication date: 2015-12-16

Abstract

本发涉及图像识别领域，特别涉及一种基于HMM-GMM的自动文字图片切分方法及系统。本发明应用了隐式马尔科夫模型和混合高斯模型的技术，通过对每个待识别文字构建对应HMM模型，使用前后向算法对GMM和跳转参数的进行监督学习，完成对模型的训练，再根据待识别文字图片的观测值序列，使用Viterbi算法计算出得到该观测值序列概率最大的对应隐含状态序列S_1...L，根据S_1...L与HMM的映射关系找到文字图片的切分点；进而实现文字图片切分的自动化，本发明方法系统减少了人力标注切分点成本，克服了传统文字图片切分方法的缺陷；显著提高了切分效率；在基于文字图片识别的信息挖掘和图片搜索领域具有巨大的应用前景。

Description

一种基于HMM-GMM的自动文字图片切分方法及系统

技术领域

本发明涉及图像识别领域，特别涉及一种基于HMM-GMM的自动文字图片切分方法及系统。

背景技术

随着视听设备的丰富，人们对图像识别技术的需求也在迅猛增长；在众多的图像识别技术中，对图像文字的识别技术显得尤为重要，这是因为图像文字往往比单纯图像包含更加重要的可利用信息，而且图像文字识别技术所应用的领域也很重要，比如说：银行签名的识别，交通管理网络中对于车牌号的追踪和识别，网络安全中对于验证码的识别；这些应用都关系到重要的经济活动或者社会管理活动。

而在进行文字图像识别时，首先需要将图像中的字符串切分开，形成包含单个文字的小图片，然后将单个的文字图片送入分类器进行文字识别；传统的光学文字识别(OCR)系统进行文字切分最常用的方法为投影法，即是将图像文字二值化处理后，通过垂直投影密度找到两个文字之间的分界线。当图片没有噪音的情况下该方法非常简单易用，但是这种方法具有先天缺陷：无法很好的解决左右偏旁构建的汉字。为了解决左右结构的汉字图片切分文字，通常采用“切分-识别-合并”的方法或者设置文字尺寸阈值的方法来判断文字之间的切分点；这样方法计算复杂，切分效率低下；而且当图片存在无法很好去掉的噪音的时候，投影法将存在很大的误差，而这种情况是非常常见的；传统方法切分判断效率低下的主要原因还在于切分依据单一(垂直方向的投影密度，忽略了水平方向的重要信息)。

为了更好的对图片数据进行存储与分析，这就将产生大量的文字图片的识别需求。由于文字图片存在非常多的样式，比如文字的大小、字体、语言、噪音等，传统的OCR方法针对每一个新的识别任务，都需要开发一个新的工具进行文字图片切分，这将耗费大量的人力成本；严重的影响文字切分的效率；开发出针对特定任务的快速自动文字识别系统变得非常有意义。

发明内容

本发明的目的在于克服现有技术中所存在的上述不足，提供一种基于HMM-GMM的自动文字图片切分方法及系统。将待处理文字图片转换成时序数据，依次提取特征观测值序列O_1.....T＝[o₁...o_T]；在提取出特征观测值序列的基础上，使用HMM-GMM对待处理文字图片中的每一字符进行序列建模，完成HMM模型训练；根据待识别文字图片的观测值序列O_1.....L＝[o₁...o_L]，使用Viterbi算法计算出得到O_1.....L＝[o₁...o_L]概率最大的对应隐含状态序列S_1...L，根据S_1...L与HMM的对应关系找到文字图片的切分点；进而实现文字图片切分的自动化。本发明方法系统通过HMM-GMM将垂直信息和水平信息结合起来，得到文字切分的依据更加合理，同时选取的特征的不同能够得到不同文字切分依据，使得文字的切分依据更加多样化，有利于减小噪声污染对文字切分的不利影响；此外本发明方法使用HMM-GMM对文字切分的自动化程度较高，在图像文字识别中具有较高的普适性，显著的提高了文字图片的切分效率。

为了实现上述发明目的，本发明提供了以下技术方案：

一种基于HMM-GMM的自动文字图片切分方法，包含以下实现步骤：

(1)根据待识别文字图片所包含的字符集，选取对应的图片作为待处理子图片，并根据待处理子图片构建待处理文字图片，将待处理文字图片转换成时序特征的数据，并提取特征；

(2)对待处理文字图片中的每一字符构建对应的HMM，并使用GMM来估计HMM中的概率分布；

(3)根据待识别文字图片的大小构建相应的解码网络，提取待识别图片的观测值序列O_1.....L＝[o₁...o_L]；使用Viterbi算法，找出概率最大的对应隐含状态序列S_1...L；并根据此隐含状态序列与所述步骤(2)中字符的HMM对应关系，找出文字的切分点。

其中所述步骤(1)的具体实现过程如下：

(1-1)根据待识别文字图片所包含的字符集，选取相对应的子图片作为待处理子图片。为了使文字切分识别更加高效，减少非必须的计算量，只需要选取与待识别文字图片相适应的字符集所对应的图片来进行相应的处理，比如说比如说待识别图片中仅仅包含数字，那么只需要对应研究对应的数字集“0、1、2、3、4、5、6、7、8、9”图片而不需要研究汉字集图片；当待识别图片中既包括字母又包括数字还包括汉字，比如说常见的车牌号识别，就需要对汉字、字母以及数字所对应的图片都进行研究；而且本发明所说的字符集是指待识别图片集中所包含的所有字符构成的集合，比如说待识别图片集中包含1000个汉字，那么只需要选择这1000个汉字对应的文字图片作为待处理子图片。

进一步的，为了使文字图片切分具有更高的抗噪声干扰能力，可以在待识别图片中选取具有待识别文字图片一般噪声特征的文字图片作为待处理子图片，比如说待识别文字图片中包括点状背景噪声、线条噪声和扭曲特征，那么选择的待处理子图片可以包含上述噪声和扭曲特征；这样在后续步骤中进行HMM模型建立和切分识别时具有更高的准确率。

(1-2)将所有待处理子图片转化成只包含一行文字的待处理文字图片(将待处理文字图片时序化，便于在后续步骤中提取时序特征数据)，并将所有待处理子图片调整为同一高度，比如说为M(像素)；将待处理子图片的高度归一化可以减少由于图片大小不同而引起的计算复杂度；提高文字切分的处理效率。

(1-3)依次对待处理文字图片中的每个待处理子图片提取特征观测值，形成对应的特征观测值序列。

具体的，给定一张大小为M*T分辨率的图片可以得到包含T个特征的序列数据O_1.....T＝[o₁...o_T]，特别的，采用W宽度的采样窗口可以提取更多类型的特征；当选取W列作为一个采样窗口时，可以得到O_1.....Z＝[o₁..o_t.o_Z]，其中Z≥T/w，一般来讲窗口之间存在着重叠用来保证特征的平滑性，o_t＝[c_tΔc_tΔ²c_t]，c_t为W列窗口投影的密度值，c_t相关参数的计算公式如下：

c_{t} = Σ_{i = 1}^{M} Σ_{j = t - w / 2}^{t + w / 2} P_{i, j}

{Δc}_{t} = \frac{Σ_{i = 1}^{δ} i (c_{t + i} - c_{t - i})}{2 Σ_{i = 1}^{δ} i^{2}}

Δ^{2} c_{t} = \frac{Σ_{i = 1}^{δ} i ({Δc}_{t + i} - {Δc}_{t - i})}{2 Σ_{i = 1}^{δ} i^{2}}

进一步的，所述c_t也可以为其他特征，比如说W列窗口的线段平均长度等。特征的选取不同，将直接影响到切分点的判断结果，因此需要根据待识别图片的具体情况选择能够将每个待识别字符区分出来特征；具有可区分性是特征选取的依据。

(1-4)对待处理文字图片中的每个字符进行人工标注。对待处理文字图片进行人工标注，以便在后续步骤中进行相应的操作。相比于待识别图片的数量，需要标记的待处理文字图片中的字符数量和形态有限，适量的人工标注不会影响文字图片切分的效率。

所述步骤(2)中包含以下实现步骤：

(2-1)将待处理文字图片中的每个字符划分为由含有N个隐含状态的HMM所构成，提取每个字符的特征观测值，并使用GMM来估计观测值的概率分布，在进行概率估计时隐含状态之间的跳转概率依赖于马尔科夫假设。其中N的取值可以为任意正整数，以5个隐含状态为例来说明待处理子图片字符的HMM，待处理文字图片中的每个字符都由一个含有5个隐含状态的HMM构成，其中第一隐含状态位于每个字符的开始端，表示该字符即将开始；第五隐含状态位于每个字符的结束端，表示该字符已经结束，第一隐含状态和第五隐含状态不产生观测值；处于中间位置的第二隐含状态、第三隐含状态和第四隐含状态，将字符的本体分成3个阶段，每个状态都可以产生相应的观测值O_t。本步骤中使用混合高斯模型(GMM)来估计观测值的概率分布P(o_t/s)≈GMM，其中s表示对应隐含状态，混合高斯模型可以用来估计任何概率分布，当使用单个高斯模型不能准确描述目标物的概率分布时，可以使用混合高斯模型来进行描述；就本步骤来说由于每个字符的构造和噪声环境的不同，所形成的特征观测值序列也具有各自的分布形状；每个隐含状态的所对应的观测值序列的概率分布由于字符构造的复杂性，使用单个高斯分布不能准确的描述，而使用混合高斯模型却能克服单一高斯模型的不足，通过对混合高斯模型中每个子高斯模型的所对应的均值μ_i和方差∑_i，可以得到对应混合高斯模型，根据观测值序列的数量和分布情况选择子高斯模型的数量，可以防止欠拟合和过拟合的情况发生根据观测值序列的数量和分布情况；应用GMM在概率估计领域的应用已经非常成熟，在此不再赘述。

(2-2)当一张待处理文字图片包含K个字符的时候，每个字符都有它独有的5状态的HMM，那么这张待处理文字图片将由5*K个状态的HMM链条来表示。

(2-3)给定该待处理文字图片的标注及其5*K状态的HMM，计算前后向算法(Baum-Welch算法)的统计量，前向后算法是在给定初始值和观测值序列时，调整HMM相关参数(比如隐含状态跳转概率、观测状态跳转概率)使其得到观测值序列概率最大的算法，是一种经典的算法，在此不再赘述其具体的实现过程。

(2-4)遍历所有待处理子图片，得到总体的统计量，进而更新每个待处理子图片第一隐含状态、第二隐含状态、第三隐含状态、第四隐含状态以及第五隐含状态所对应的GMM参数和状态之间的跳转概率。在HMM中隐含状态之间的跳转概率是最重要的参数之一。所述步骤(2-2)至(2-3)相当于模型训练的步骤，即是通过对待处理文字图片的5*K个状态的构成的马尔科夫链的总体统计量，将每个待处理子图片所对应的HMM调整到最优状态；同时通过每个字符的HMM的建立，形成了一个HMM模型库，为后续的图片文字的切分提供了相对照的基础。

所述步骤(3)包括以下实现步骤：

(3-1)根据待识别图片中所包含的字符的个数，构建相应的解码网络。比如待识别图片中的字符集大小为R，每个字符由5个状态的HMM进行建模，未知图片的尺寸为M*L，构建5R*L的解码网络；

(3-2)将待识别文字图片时序化，依次提取待识别图片的观测值序列：O_1.....L＝[o₁...o_L]；

(3-3)使用Viterbi算法，计算能得到如步骤(3-2)中所述的观测值序列时对应概率最大的隐含状态序列

S_{1 ... L} : \arg \max_{s_{1 ... L}} {P (S_{1 ... L} | o_{1 ... L}, M o d e l)},

其中S_1...L是与观测值序列一一对应的隐含状态序列；在隐性马尔科夫模型中，Viterbi算法是经典的解码算法，通过Viterbi算法可以找出能够产生观测值序列的概率最大的所对应隐含状态序列。

(3-4)通过隐含状态序列与所述步骤(2)中所得到字符HMM的对应关系，找到每个HMM所覆盖观测值的范围，属于不同HMM相邻观测值之间的分界点，便是文字之间的切分点。

总之通过上述方法所实现的文字图片的自动切分过程对图片的切分无需进行去噪的预处理，在保留文字图片原来信息的情况下，建立与待处理文字图片相对应的待处理子图片的HMM模型，通过将待识别图片时序化，依次提取待识别图片的观测值序列；并使用经典的解码算法：Viterbi算法找出产生该观测值序列所对应的概率最大的隐含状态序列，通过该待识别图片文字的隐含状态序列与待处理子图片的HMM对应关系找出图片文字的切分点，本方法相比于传统的基于投影法实现的文字切分，显著提高了文字的切分准确率和效率，且本方法在文字图片具有噪声、扭曲以及粘连等复杂情况下同样有效，相比于传统的基于投影法实现的文字切分具有无可比拟的优势。

进一步的，本发明还提供一种基于HMM-GMM的自动文字图片切分系统，所述系统基于所述方法实现图片文字的自动切分，相比以现有技术中基于投影法所实现的文字切分具有更高的切分效率；并且无须对文字图片进行去除噪声等预处理过程，因而所切分出来的文字图片保留了更多的原始图片的信息，有利于提高文字图片最终的识别准确率。

进一步的，所述基于HMM-GMM的自动文字图片切分系统，包括、扫描模块和，或输入模块以及文字图片切分模块，所述文字图片扫描模块将待处理子图片和待识别图片扫描成电子图像后传输给文字切分模块中，或者由所述输入模块将待处理子图片和待识别文字图片输入到所述文字图片切分模块中；所述文字图片切分模块根据本基于HMM-GMM的自动文字图片切分方法将待识别文字图片切分成仅包含单个文字的待识别子图片输出给下位的文字图片识别模块。在文字图片识别中文字图片的切分是文字图片识别的基础，经过本体系可以实现文字切分的自动化，极大的提高了文字图片切分效率；进而显著提高了文字图片的识别效率，在基于文字图片识别的信息挖掘和图片搜索技术领域具有巨大的应用前景。

进一步的，所述扫描模块为扫描仪；所述输入模块为具有数据传输能力的图片存储设备或者图像拍摄传输设备，所述文字图片切分模块为具有可编程计算处理能力的硬件设备，比如说：计算机、服务器或者移动智能终端；上述设备组成完整的文字图片传输切分系统，可以高效实时的进行文字的切分以及识别。

与现有技术相比，本发明的有益效果：本发明涉及一种基于HMM-GMM的自动文字图片切分方法及系统，选择与待识别文字图片所包含的字符集所对应的子图片来构建待处理文字图片；将待处理文字图片转换成时序数据，依次提取特征观测值序列；在提取出特征观测值序列的基础上，使用HMM-GMM对待处理文字图片中的每一字符进行序列HMM建模，并完成HMM模型训练；形成待识别文字的HMM模型库；根据待识别文字图片的观测值序列，使用Viterbi算法计算出得到该观测值序列概率最大的对应隐含状态序列S_1...L，根据S_1...L与HMM模型库中HMM的对应关系找到文字图片的切分点，进而实现文字图片切分的自动化。本发明方法系统通过HMM-GMM将文字图片的特征序列化、模型化，实现了垂直信息和水平信息的结合，所得到文字切分的依据更加合理；同时选取的特征的不同能够得到不同文字切分依据，使得文字的切分依据更加多样化，有利于减小噪声污染对文字切分的不利影响；此外本发明方法使用HMM-GMM对文字切分的自动化程度较高，在图像文字识别中具有较高的普适性，当遇到新的识别任务时，只需要选取新的待处理字图片进行HMM建模即可而无需重复分析，显著的提高了文字图片的切分效率。本发明方法系统相比与传统的投影法实现的文字切分，具有更高的切分效率；在基于文字图片识别的信息挖掘和图片搜索技术领域具有巨大的应用前景。

附图说明：

图1为本基于HMM-GMM的自动文字图片切分方法的实现流程图。

图2为本基于HMM-GMM的自动文字图片切分方法中步骤(1)的实现流程图。

图3为待处理图片观测值序列提取示意图。

图4为具有5个隐含状态的HMM示意图。

图5为本基于HMM-GMM的自动文字图片切分方法中步骤(2)的实现流程图。

图6为本基于HMM-GMM的自动文字图片切分方法中步骤(3)的实现流程图。

图7为所述步骤(3)中解码网络及Viterbi算法获取最大隐含状态序列路径示意图。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

本发明提供一种基于HMM-GMM的自动文字图片切分方法及系统。将待处理文字图片转换成时序数据，依次提取特征观测值序列O_1.....T＝[o₁...o_T]；在提取出特征观测值序列的基础上，使用HMM-GMM对待处理文字图片中的每一字符进行序列建模，完成HMM模型训练；根据待识别文字图片的观测值序列O_1.....L＝[o₁...o_L]，使用Viterbi算法计算出得到O_1.....L＝[o₁...o_L]概率最大的对应隐含状态序列S_1...L，根据S_1...L与HMM的对应关系找到文字图片的切分点；进而实现文字图片切分的自动化。本发明方法系统通过HMM-GMM将垂直信息和水平信息结合起来，得到文字切分的依据更加合理，同时选取的特征的不同能够得到不同文字切分依据，使得文字的切分依据更加多样化，有利于减小噪声污染对文字切分的不利影响；此外本发明方法使用HMM-GMM对文字切分的自动化程度较高，在图像文字识别中具有较高的普适性，显著的提高了文字图片的切分效率。

为了实现上述发明目的，本发明提供了以下技术方案：

一种基于HMM-GMM的自动文字图片切分方法，包含如图1所示的以下实现步骤：

其中所述步骤(1)的具体实现流程如图2所示：

具体的，给定一张大小为M*T分辨率的图片如图3所示，可以得到包含T个特征的序列数据O_1.....T＝[o₁...o_T]；特别的采用W宽度的采样窗口可以提取更多类型的特征，，当选取W列作为一个采样窗口时，可以得到O_1.....Z＝[o₁..o_t.o_Z]，其中Z≥T/w，一般来讲窗口之间存在着重叠用来保证特征的平滑性，o_t＝[c_tΔc_tΔ²c_t]，c_t为W列窗口投影的密度值，c_t相关参数的计算公式如下：

c_{t} = Σ_{i = 1}^{M} Σ_{j = t - w / 2}^{t + w / 2} P_{i, j}

{Δc}_{t} = \frac{Σ_{i = 1}^{δ} i (c_{t + i} - c_{t - i})}{2 Σ_{i = 1}^{δ} i^{2}}

Δ^{2} c_{t} = \frac{Σ_{i = 1}^{δ} i ({Δc}_{t + i} - {Δc}_{t - i})}{2 Σ_{i = 1}^{δ} i^{2}}

进一步的，所述c_t也可以添加其他特征，比如说W列窗口的线段平均长度等。特征的选取不同，将直接影响到切分点的判断结果，因此需要根据待识别图片的具体情况选择能够将每个待识别字符区分出来特征；具有可区分性是特征选取的依据。

所述步骤(2)中包含如图4所示的以下实现步骤：

(2-1)将待处理文字图片中的每个字符划分为由含有N个隐含状态的HMM所构成，提取每个字符的特征观测值，并使用GMM来估计观测值的概率分布，在进行概率估计时隐含状态之间的跳转概率依赖于马尔科夫假设。其中N的取值可以为任意正整数，如图5所示，以5个隐含状态为例来说明待处理子图片字符的HMM，待处理文字图片中的每个字符都由一个含有5个隐含状态的HMM构成，其中第一隐含状态s₁位于每个字符的开始端，表示该字符即将开始；第五隐含状态s₅位于每个字符的结束端，表示该字符已经结束，第一隐含状态s₁和第五隐含状态s₅不产生观测值；处于中间位置的第二隐含状态s₂、第三隐含状态s₃和第四隐含状态s₄，将字符的本体分成3个阶段，每个状态都可以产生相应的观测值O_t；在图5中a₂₂为第二隐含状态s₂的自转概率，a₃₃为第三隐含状态s₃的自转概率，a₄₄为第四隐含状态s₄的自转概率，a₁₂为第一隐含状态s₁的到第二隐含状态s₂的跳转概率，a₂₃为第二隐含状态s₂的到第三隐含状态s₃的跳转概率，a₃₄为第三隐含状态s₃的到第四隐含状态s₄的跳转概率，就本图实例来说a₂₂＝4/5，a₂₃＝1/5，a₃₃＝6/7，a₃₄＝1/7，a₄₄＝2/3，a₄₅＝1/3。GMM来用估计对应隐含状态下得到该观测值的概率：P(o_t/s)≈GMM。本步骤中使用混合高斯模型(GMM)来估计观测值的概率分布，混合高斯模型可以用来估计任何概率分布，当使用单个高斯模型不能准确描述目标物的概率分布时，可以使用混合高斯模型来进行描述；就本步骤来说由于每个字符的构造和噪声环境的不同，所形成的特征观测值序列也具有各自的分布形状；每个隐含状态的所对应的观测值序列的概率分布由于字符构造的复杂性，使用单个高斯分布不能准确的描述，而使用混合高斯模型却能克服单一高斯模型的不足，通过对混合高斯模型中每个子高斯模型的所对应的均值μ_i和方差∑_i，可以得到对应混合高斯模型，根据观测值序列的数量和分布情况选择子高斯模型的数量，可以防止欠拟合和过拟合的情况发生根据观测值序列的数量和分布情况；应用GMM在概率估计领域的应用已经非常成熟，在此不再赘述。

(2-3)给定该待处理文字图片的标注及其5*K状态的HMM，计算前后向算法的统计值，向前向后算法是在给定初始值和观测值序列时，调整HMM相关参数(比如隐含状态跳转概率、观测状态跳转概率)使其得到观测值序列概率最大的算法，是一种经典的算法，在此不再赘述其具体的实现过程。

(2-4)遍历所有待处理子图片，得到总体的统计值，进而更新每个待处理子图片第一隐含状态、第二隐含状态、第三隐含状态、第四隐含状态以及第五隐含状态所对应的GMM参数和状态之间的跳转概率。在HMM中隐含状态之间的跳转概率是最重要的参数之一。所述步骤(2-2)至(2-3)相当于模型训练的步骤，即是通过对待处理文字图片的5*K个状态的构成的马尔科夫链的总体统计值，将每个待处理子图片所对应的HMM调整到最优状态；同时通过每个字符的HMM的建立，形成了一个HMM模型库，为后续的图片文字的切分提供了相对照的基础。

所述步骤(3)包括如图6所示的以下实现步骤：

(3-1)根据待识别图片中所包含的字符的个数，构建相应的解码网络。比如待识别图片中包含有R个字符，每个字符由5个状态的HMM进行建模，未知图片的尺寸为M*L，构建5R*L的解码网络；

S_{1 ... L} : \arg \max_{s_{1 ... L}} {P (S_{1 ... L} | o_{1 ... L}, M o d e l)},

其中S_1...L是与观测值序列一一对应的隐含状态序列；在隐性马尔科夫模型中，Viterbi算法是经典的解码算法，通过Viterbi算法可以找出能够产生观测值序列所对应的隐含状态序列。

如图7所示，当包含有R个字符的待识别图片尺寸为M*L所构建的解码网络大小为5R*L，依次提取观测值形成观测值序列：O_1.....L＝[o₁...o_L]，依次计算产生该观测值的对应隐含状态的概率。值得注意的是产生观测值o₁的对应隐含状态只能是各个HMM的第一隐含状态，其他隐含状态的概率应为零；其次产生观测值o₂的对应隐含状态只能是各个HMM的第一隐含状态或者第二隐含状态，产生观测值o₃的对应隐含状态只能是各个HMM的第一隐含状态、第二隐含状态或者第三隐含状态；而产生观测值o_L的对应隐含状态只能是各个HMM的第五隐含状态，产生观测值o_L-1的对应隐含状态只能是各个HMM的第四隐含状态或者第五隐含状态，产生观测值o_L-2的对应隐含状态只能是各个HMM的第三隐含状态、第四隐含状态、或者第五隐含状态(即隐含状态之间只能自转和依次跳转，产生的隐含状态序列具有顺序性)。图7中的各个概率值仅为示意性，不代表真实值。

通过上述解码网络结合Viterbi算法找出得到观测值序列概率最大的隐含状态路径，根据该路径对应隐含状态序列得到待识别图片的HMM链。(3-4)通过隐含状态序列与所述步骤(2)中所得到字符HMM的对应关系，找到每个HMM所覆盖观测值的范围，属于不同HMM相邻观测值之间的分界点，便是文字之间的切分点。

总之通过上述方法所实现的文字图片的自动切分过程对图片的切分无需进行去噪的预处理，在保留文字图片原来信息的情况下，建立与待处理文字图片相对应的待处理子图片的HMM模型，通过将待识别图片时序化，依次提取待识别图片的观测值序列；并使用经典的解码算法：Viterbi算法找出产生该观测值序列所对应的概率最大的隐含状态序列，通过该待识别图片文字的隐含状态序列与待处理子图片的HMM对应关系找出图片文字的切分点，本方法相比于传统的基于投影法实现的文字切分，显著提高了文字的切分效率，且本方法在文字图片具有噪声、扭曲以及粘连等复杂情况下同样有效，相比于传统的基于投影法实现的文字切分具有无可比拟的优势。

Claims

1.一种基于HMM-GMM的自动文字图片切分方法，其特征是：将待处理文字图片转换成时序数据，依次提取特征观测值序列O_1.....T＝[o₁...o_T]；在提取出特征观测值序列的基础上，使用HMM-GMM对待处理文字图片中的每一字符进行序列建模，完成HMM模型训练；根据待识别文字图片的观测值序列O_1...L＝[o₁...o_L]，使用Viterbi算法计算出得到所述O_1.....L＝[o₁...o_L]概率最大的对应隐含状态序列S_1...L，根据S_1...L与HMM的对应关系找到文字图片的切分点；进而实现文字图片切分的自动化。

2.如权利要求1所述的方法，其特征是，包含以下实现步骤：

(1)选择与待识别文字图片对应的待处理子图片来构建待处理文字图片，将待处理文字图片转换成时序特征的数据，并提取特征；

3.如权利要求2所述的方法，其特征是，所述步骤(1)包含以下实现步骤：

(1-1)根据待识别文字图片所包含的字符集，选取相对应的子图片作为待处理子图片；

(1-2)将所有待处理子图片转化成只包含一行文字的待处理文字图片；

(1-3)依次对待处理文字图片提取特征观测值，形成对应的特征观测值序列：O_1.....T＝[o₁...o_T]；

(1-4)对待处理文字图片中的每个字符进行人工标注。

4.如权利要求2所述的方法，其特征是，所述步骤(2)包含以下实现步骤：

(2-1)将待处理文字图片中的每个字符划分为由含有N个隐含状态的HMM所构成，提取每个字符的特征观测值，并使用GMM来估计观测值的概率分布。

5.如权利要求4所述的方法，其特征是，所述步骤(2)包含以下实现步骤：

(2-2)当待处理文字图片中包含K个字符时，给定该待处理文字图片的标注及其5*K状态的HMM，计算前后向算法的统计值；

(2-3)遍历所有待处理子图片，得到待处理图片的总体统计量；更新GMM参数和跳转概率。

6.如权利要求2所述的方法，其特征是，所述步骤(3)包含以下实现步骤：

(3-1)根据待识别图片中所包含的字符个数，构建相应的解码网络；

(3-3)使用Viterbi算法，计算能得到如步骤(3-2)中所述的观测值序列O_1.....L＝[o₁...o_L]时对应概率最大的隐含状态序列S_1...L；计算公式如下：

(3-4)通过隐含状态序列S_1...L与所述步骤(2)中所得到文字HMM的对应关系，找到每个HMM所覆盖观测值的范围，属于不同HMM相邻观测值之间的分界点，便是文字之间的切分点。

7.如权利要求3所述的方法，其特征是：所述步骤(1-2)中，将所述待处理图片中待处理子图片的像素高度调整为统一高度。

8.如权利要求3所述的方法，其特征是：所述步骤(1-3)中的特征为W列窗口的像素值投影密度；或者为W列窗口的线段平均长度。

9.一种基于HMM-GMM的自动文字图片切分系统，其特征是：所述系统采用如权利要求1至8之一所述的方法实习文字图片的自动切分。

10.如权利要求9所述的基于HMM-GMM的自动文字图片切分系统，其特征是：所述系统包括扫描模块和，或输入模块以及文字图片切分模块；其中所述文字图片扫描模块将待处理子图片和待识别图片扫描成电子图像后传输给文字切分模块，或者所述输入模块将待处理子图片和待识别文字图片输入到所述文字图片切分模块中；所述文字图片切分模块根据本基于HMM-GMM的自动文字图片切分方法将待识别文字图片切分成仅包含单个文字的待识别子图片。

11.如权利要求10所述的基于HMM-GMM的自动文字图片切分系统，其特征是：所述扫描模块为扫描仪；所述输入模块为具有数据传输能力的图片存储设备或者图像拍摄设备，所述文字图片切分模块为具有可编程计算处理能力的硬件设备。

12.如权利要求11所述的基于HMM-GMM的自动文字图片切分系统，其特征是：所述文字图片切分模块为计算机、服务器或者移动智能终端。