CN115331232A

CN115331232A - 一种满文历史文档图像列分割方法

Info

Publication number: CN115331232A
Application number: CN202210806936.8A
Authority: CN
Inventors: 孙凯明; 刘彤军; 张丽娜; 郝明; 石巍巍; 吕宜光; 张建平; 孙永欣; 杨洋
Original assignee: Heilongjiang Provincial Archives; Institute Of Intelligent Manufacturing Heilongjiang Academy Of Sciences
Current assignee: Heilongjiang Provincial Archives; Institute Of Intelligent Manufacturing Heilongjiang Academy Of Sciences
Priority date: 2022-07-08
Filing date: 2022-07-08
Publication date: 2022-11-11
Anticipated expiration: 2042-07-08
Also published as: CN115331232B

Abstract

一种满文历史文档图像列分割方法，属于文字分割方法领域。现有的汉字、英文的文字分割技术虽相对成熟，但并不适用于存在褪色、破损、印章、列倾斜弯曲问题的手写满文历史档案文字的识别分割。一种满文历史文档图像列分割方法，包括以下步骤：图像预处理；提取列脊线；提取文本轮廓；分割文本列间粘连处；提取文本列；利用获得的灰度图像与获得的双边滤波图像做差，再加上灰度图像的均值，获得背景填充图像；利用文本区域为掩模，以该区域的外接矩形确定文本列分割区域，分割原始满文历史档案图像文本列，并利用获得的图像对文本列进行背景填充。本发明具有满文文字分割准确高的优点且具有良好的泛化性和鲁棒性。

Description

一种满文历史文档图像列分割方法

技术领域

本发明涉及一种图像分割方法，特别涉及一种满文历史文档图像列分割方法。

背景技术

满文历史档案是研究明清历史和满族文化的重要资料，满文历史档案资料因经历多次翻阅使用造成了不同程度的损坏和污染，除了对历史资料的保存以外，由于现在会说满语的人越来越少，保护满族文化刻不容缓。将满文历史档案数字化可以有效利用计算机技术、数据库技术和人工智能技术等现代手段保护满文历史文档，并提供多样的研究手段。光学字符识别(OCR)技术是历史档案数字化的核心技术之一，而文字分割结果直接影响文字识别的准确率。汉字、英文的文字分割技术相对成熟，但这些技术大多针对标准印刷体文字，对手写满文历史档案并没有好的解决方案。满文历史档案的褪色、破损、印章、列倾斜弯曲也增加了文字分割的困难。

发明内容

本发明的目的是为了解决现有的汉字、英文的文字分割技术虽相对成熟，但并不适用于存在褪色、破损、印章、列倾斜弯曲问题的手写满文历史档案文字的识别分割的问题，而提出一种满文历史文档图像列分割方法。

一种满文历史文档图像列分割方法，所述方法通过以下步骤实现：

步骤S1、图像预处理；

步骤S1.1、从原始的RGB满文历史文档图像分离出蓝色单通道分量，作为灰度图像；

步骤S1.2、将步骤S1.1获得的灰度图像输入至双边滤波进行滤波处理；

步骤S2、提取列脊线；

步骤S2.1、将步骤S1.2获取的图像与各向异性高斯核函数进行卷积，并通过二值化处理获取文本列响应，将所得列相应作为列脊线；

步骤S2.2、合并间断的列脊线；

步骤S2.3、运用Zhang-Suen细化算法提取步骤S2.2获得的图像的骨架，并将其延长至图像上下边界，设获得的列脊线在图像中从左至右依次为L_i(i＝0，1，...，m₁)，m₁为列脊线数；

步骤S3、提取文本轮廓；

步骤S3.1、将步骤S1.1获得的灰度图像运用Canny边缘检测；

步骤S3.2、高斯滤波平滑边缘；

步骤S3.3、利用外接矩形方法对文本轮廓筛选并填充，设获得的文本轮廓为 CC_i(i＝0，1，...，m₂)，m₂为文本轮廓数；

步骤S4、分割文本列间粘连处；

步骤S4.1、判断出粘连的文本列，设由CC_k表示待识别的文本列：

令A_k，i＝CC_k∩L_i；如果同时满足A_k，i≠{}和A_k，i+1≠{}，则认为CC_k是列间粘连；

步骤S4.2、用L_i和L_i+1将CC_k分为若干段，对两端分别连接L_i和L_i+1的部分，选择文本轮廓在垂直方向上的最窄处作为该列间粘连文本轮廓的分割线处位置；

步骤S5、提取文本列；

步骤S5.1、将步骤S2、步骤S3和步骤S4的结果合并，形成文本列的初始区域；

步骤S5.2、通过边界区域增长对初始文本区域进行左右扩充，至到相邻区域边界彼此接触为止；

步骤S6、利用S1.1获得的灰度图像与S1.2获得的双边滤波图像做差，再加上S1.1获得的灰度图像的均值，获得背景填充图像；

步骤S7、利用步骤S5.2获得的文本区域为掩模，以该区域的外接矩形确定文本列分割区域，分割原始满文历史档案图像文本列，并利用S6获得的图像对文本列进行背景填充。

优选地，所述的步骤S1.2中，将步骤S1.1获得的灰度图像输入至双边滤波进行滤波处理的步骤，具体为：

边滤波器为：

其中，I(x_i，y_i)表示滤波图像；I_filter(x，y)表示滤波输出；(x_i，y_i)表示像素点坐标；W_ij(I)是双边滤波器权值，其表达式为：

其中，W_p归一化权值，

和

为高斯核函数。

优选地，所述的步骤2.1中，将步骤S1.2获取的图像与各向异性高斯核函数进行卷积，并通过二值化处理获取文本列响应，将所得列相应作为列脊线的步骤中：

设列脊线用集合表示为T＝{t₁，t₂，...，t_n}，t_n表示其中一条列脊线；n为提取的列脊线个数；各向异性高斯核函数为：

优选地，所述的步骤S2.2中，合并间断的列脊线的步骤，具体为：

通过最小外接矩形方法获得列脊线的端点及斜率，设ti的端点为

和Q_i(x_2，ti，y_2，ti)，其斜率的倒数表示为

如果t_i和t_j满足：

则将t_i和t_j合并，其中D和W为设定的阈值。

优选地，所述的的步骤具体为：所述步骤S2.1中σ_x与σ_y可以通过目标函数

自动选取；其中，L_max表示最长列脊线的长度，n表示获得列脊线个数，Area_i表示第i个列脊线的面积。

本发明的有益效果为：

本发明具有满文文字分割准确高的优点且具有良好的泛化性和鲁棒性。本发明方法通过设计适用于满文文字识别所涉及的文字分割技术，以用于提高满文识别的准确率。

具体技术手段是：

首先运用通道分离和双边滤波对图片预处理，有效去除噪声并保留文字边缘信息；然后通过各向异性高斯核函数与图像提取列脊线，连接列脊线后提取其骨架；同时通过边缘检测和轮廓提取获得文本轮廓；最后将列脊线和文本轮廓合并，并通过边界增长完成文本列的分割。本发明省略对原始满文文本图像的二值化处理过程，克服了光照、褪色、残缺等因素对图像处理的影响；向异性高斯核函数可以有效提取倾斜和略带弯曲的满文历史档案图像的文本列脊线。基于初始文本列的形成和边界增长的方法完成列分割，可以极大地减少满文圈点笔画给文本分割带来的影响。

附图说明

为了更清楚地说明本发明实施或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种满文历史档案图像列分割方法流程图；

图2是本发明实施例中的原始图像；

图3是本发明实施例中的双边滤波图像；

图4(a)各向异性高斯处理图示；

图4(b)间断列脊线连接图示；

图4(c)提取列脊线结果图示；

图5是本发明实施例中的文本轮廓提取结果图示；

图6是本发明实施例中的文本列间粘连分割结果图示；

图7(a)是本发明实施例涉及的初始文本列图示；

图7(b)是本发明实施例涉及的边界增长后文本列分割结果图示；

图8是本发明实施例涉及的满文历史档案图像文本列分割结果图示；

图9(a)是利用本发明方法对页面破损情况满文历史档案文本列分割结果图示；

图9(b)是利用本发明方法文本列倾斜情况满文历史档案文本列分割结果图示。

具体实施方式

具体实施方式一：

本实施方式的一种满文历史文档图像列分割方法，如图1所示，所述方法包括以下步骤：

步骤S1、图像预处理。

步骤S1.1、从图2所示的原始原始的RGB满文历史文档图像分离出蓝色单通道分量，作为灰度图像。

步骤S1.2、将步骤S1.1获得的灰度图像输入至双边滤波进行滤波处理。其结果如图3 所示。双边滤波器为：

其中，I(x_i，y_i)表示滤波图像； I_filter(x，y)表示滤波输出；(x_i，y_i)表示像素点坐标；W_ij(I)是双边滤波器权值，其表达式为：

其中，W_p归一化权值，

和

为高斯核函数。σ_s和σ_r分别取40和20。

步骤S2、提取列脊线，如图4(a)、4(b)、4(c)所示。

步骤S2.1、将步骤S1.2获取的图像与各向异性高斯核函数进行卷积，并通过二值化处理获取文本列响应，即列脊线(白色为列脊线，黑色为背景)，用集合表示为T＝{t₁，t₂，...， t_n}，n为提取的列脊线个数。各向异性高斯核函数为：

σ_x和σ_y分别取3和30。

步骤S2.2、合并间断的列脊线。通过最小外接矩形方法获得列脊线的端点及斜率，设 t_i的端点为

和Q_i(x_2，ti，y_2，ti)，其斜率的倒数表示为

如果t_i和t_j满足

则将t_i和t_j合并，其中D和W为设定的阈值，分别取35和20。

步骤S2.3、运用Zhang-Suen细化算法提取步骤S2.2获得的图像的骨架，并将其延长至图像上下边界，设获得的列脊线在图像中从左至右依次为L_i(i＝0，1，...，m₁)，m₁为列脊线数。

步骤S3、提取文本轮廓，如图5所示。

步骤S3.1、将步骤S1.1获得的灰度图像运用Canny边缘检测，上界阈值和下界阈值参数取300和100。

步骤S3.2、高斯滤波平滑边缘，高斯核大小选择3×3。

步骤S3.3、利用外接矩形方法对文本轮廓筛选并填充。设获得的文本轮廓为 CC_i(i＝0，1，...，m₂)，m₂为文本轮廓数。

步骤S4、分割文本列间粘连处，如图6所示。

令A_k，i＝CC_k∩L_i。如果同时满足A_k，i≠{}和A_k，i+1≠{}，则认为CC_k是列间粘连。

步骤S4.2、用L_i和L_i+1将CC_k分为若干段，对两端分别连接L_i和L_i+1的部分，选择文本轮廓在垂直方向上的最窄处为该列间粘连文本轮廓的分割线。

步骤S5、文本列提取，如图7(a)、7(b)所示。

步骤S5.1、将步骤S2、步骤S3和步骤S4的结果合并，形成文本列的初始区域。

步骤S5.2、通过边界区域增长对初始文本区域进行左右扩充，至到相邻区域边界彼此接触为止。

步骤S6、利用S1.1获得的灰度图像与S1.2获得的双边滤波图像做差，再加上S1.1获得的灰度图像的均值，获得背景填充图像。

步骤S7、如图8所示，利用步骤S5.2获得的文本区域为掩模，以该区域的外接矩形确定文本列分割区域，分割原始满文历史档案图像文本列，并利用S6获得的图像对文本列进行背景填充。

具体实施方式二：

与具体实施方式一不同的是，本实施方式的一种满文历史文档图像列分割方法，所述步骤S2.1中σ_x与σ_y可以通过目标函数

自动选取。其中，L_max表示最长列脊线的长度，n表示获得列脊线个数，Area_i表示第i个列脊线的面积。

本发明的实施例公布的是较佳的实施例，但并不局限于此，本领域的普通技术人员，极易根据上述实施例，领会本发明的精神，并做出不同的引申和变化，但只要不脱离本发明的精神，都在本发明的保护范围内。

Claims

1.一种满文历史文档图像列分割方法，其特征在于：所述方法通过以下步骤实现：

步骤S1、图像预处理；

步骤S2、提取列脊线；

步骤S2.2、合并间断的列脊线；

步骤S3、提取文本轮廓；

步骤S3.1、将步骤S1.1获得的灰度图像运用Canny边缘检测；

步骤S3.2、高斯滤波平滑边缘；

步骤S3.3、利用外接矩形方法对文本轮廓筛选并填充，设获得的文本轮廓为CC_i(i＝0，1，...，m₂)，m₂为文本轮廓数；

步骤S4、分割文本列间粘连处；

步骤S5、提取文本列；

2.根据权利要求1所述的一种满文历史文档图像列分割方法，其特征在于，所述的步骤S1.2中，将步骤S1.1获得的灰度图像输入至双边滤波进行滤波处理的步骤，具体为：

设边滤波器为：

其中，W_p归一化权值，

和

为高斯核函数。

3.根据权利要求2所述的一种满文历史文档图像列分割方法，其特征在于，所述的步骤2.1中，将步骤S1.2获取的图像与各向异性高斯核函数进行卷积，并通过二值化处理获取文本列响应，将所得列相应作为列脊线的步骤中：

4.根据权利要求3所述的一种满文历史文档图像列分割方法，其特征在于，所述的步骤S2.2中，合并间断的列脊线的步骤，具体为：

通过最小外接矩形方法获得列脊线的端点及斜率，设t_i的端点为

和Q_i(x_2，ti，y_2，ti)，其斜率的倒数表示为

如果t_i和t_j满足：

则将t_i和t_j合并，其中D和W为设定的阈值。

5.根据权利要求4所述的一种满文历史文档图像列分割方法，其特征在于，所述的的步骤具体为：所述步骤S2.1中σ_x与σ_y可以通过目标函数