CN109344834A

CN109344834A - 一种基于图像处理的残缺汉字识别方法

Info

Publication number: CN109344834A
Application number: CN201811035069.2A
Authority: CN
Inventors: 龙华; 吴睿; 熊新; 邵玉斌; 杜庆治
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2018-09-06
Filing date: 2018-09-06
Publication date: 2019-02-15

Abstract

本发明涉及一种基于图像处理的残缺汉字识别方法，属于汉语信息处理技术领域。本发明通过TTC字体文件提取汉字特征向量以建立汉字特征向量数据库，对任意待检测残缺汉字通过现代扫描技术及汉字形状特征转化为图像，对其进行特定的灰度化、二值化处理后提取汉字特征并生成特征向量，与数据库中现有汉字计算其识别度，最后通过排序输出识别度最高的汉字集合。本发明与现有技术相比，主要解决了现有技术耗费人力且准确性欠佳等现象，增加了目前依靠计算机对残缺汉字进行识别的有效性和准确性。

Description

一种基于图像处理的残缺汉字识别方法

技术领域

本发明涉及一种基于图像处理的残缺汉字识别方法，属于汉语信息处理技术领域。

背景技术

在文物考察、重要文档辨识中，可能存在一些汉字的一部分因某种原因而被抹去，正确识别出这些残缺的汉字对近代历史研究及考察名人语录等方面具有重要意义。

目前，对于残缺汉字的识别，主要是依靠人对汉字的熟悉程度以及人工对比汉语词典，再根据上下文信息进行推理得到，但是由于汉字的广泛性，使得这一工作即耗时又繁琐。若以编码方式为Unicode的基本字符集为标准，则共有20902个汉字，即使可以根据残缺汉字的大概字形及上下文信息推理进行筛选，但筛选结果也存在许多的备选项，更重要的是人工识别中对于这一工作难免会产生疏忽与厌倦，这就造成了识别残缺汉字的难度又一步加大。

发明内容

本发明要解决的技术问题是针对现有技术的局限和不足，提供一种基于图像处理的残缺汉字识别方法，以解决现有技术对残缺汉字的识别耗费人力且准确性欠佳等现象，致力于增加目前依靠计算机对残缺汉字进行识别的有效性和准确性。

本发明的技术方案是：一种基于图像处理的残缺汉字识别方法，该方法具体包括以下步骤：

Step0：从TTC字体文件中提取出每个汉字所对应的图像，即汉字图像大小为l×w(单位为像素点)，共计N个像素点；将汉字图像作为输入源，生成该汉字所对应的汉字矩阵I_l×w，该矩阵中的元素值即为该像素点的灰度值；定义ξ为灰度二值化阈值，对矩阵I_l×w进行公式(1)所示二值化处理，之后将矩阵I_l×w按照从左至右、从上至下的规则生成该汉字所对应的特征向量{f₁,f₂,…,f_N}；将所有汉字及生成的汉字特征向量存入数据库，组建汉字特征向量数据库；

Step1：利用现代扫描技术及汉字形状特征，从纸张或其他载体中提取出待检测残缺汉字X的图像，将图像以l:w的比例剪切至待检测残缺汉字X尽可能铺满图像为止，但要将其残缺汉字重心处于图像的中心，并留取合适的边距，生成待检测残缺汉字X的扫描图像

Step2：将待检测残缺汉字X的扫描图像按比例压缩至l×w像素点，共计N个像素点，随后生成残缺汉字X的扫描图像所对应的汉字矩阵X_l×w，该矩阵中的元素值即为该像素点的灰度值；依然以ξ为灰度二值化阈值，对矩阵X_l×w进行公式(2)所示二值化处理，之后将矩阵X_l×w按照从左至右、从上至下的规则生成残缺汉字X所对应的特征向量{x₁,x₂,…,x_N}；

Step3：调取汉字特征向量数据库中的汉字特征向量{f₁,f₂,…,f_N}，记其所对应的汉字为F，通过差值算法计算其与残缺汉字X的特征向量{x₁,x₂,…,x_N}之间的识别度Sbd(X,F)；具体实施步骤如Step3.1～Step3.2所示；

Step3.1：定义z_i＝x_i-f_i,i∈[1,N]，生成残缺汉字X与汉字F所对应的差值特征向量

Step3.2：通过差值计算公式(3)求得残缺汉字X与汉字F之间的识别度Sbd(X,F)；

Step4：遍历汉字特征向量数据库中的所有数据，对数据库中每个汉字F_i,i∈[1,K]都经Step3步骤计算其与残缺汉字X之间的识别度Sbd(X,F_i),i∈[1,K]；将按照从大到小的顺序排序，提取出前θ个待定汉字并输出。

进一步地，所述步骤Step0中，TTC字体文件包括但不限于宋体、黑体、微软雅黑等十多种常用字体；汉字图像大小l×w是由字体文件中提取的汉字字体大小决定，可自由设置，且总像素点N＝l×w；并且灰度二值化阈值ξ满足公式(4)的要求。

0≤ξ≤255 (4)

进一步地，所述步骤Step1中，提取残缺汉字的图像信息时尽可能使残缺汉字平铺，有助于提取残缺汉字的汉字特征。

进一步地，所述步骤Step4中，K即为汉字的总个数，若按照编码方式为Unicode的基本字符集为标准，则共有20902个汉字，即K＝20902。

进一步地，所述步骤Step4中，θ可由使用者自己定义，通常令θ＝3，θ越大则识别准确度越高，但使用者所需花费的查找时间也随之增加。

本发明的有益效果是：解决了现有技术耗费人力且准确性欠佳等现象，增加了目前依靠计算机对残缺汉字进行识别的有效性和准确性。

附图说明

图1是本发明总流程示意图；

图2是本发明建立数据库流程示意图；

图3是本发明获取待检测残缺文字的特征向量流程示意图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

实施例1：一种基于图像处理的残缺汉字识别方法，通过TTC字体文件提取汉字特征向量以建立汉字特征向量数据库，对任意待检测残缺汉字通过现代扫描技术及汉字形状特征转化为图像，对其进行特定的灰度化、二值化处理后提取汉字特征并生成特征向量，与数据库中现有汉字计算其识别度，最后通过排序输出识别度最高的汉字集合。本发明与现有技术相比，主要解决了现有技术耗费人力且准确性欠佳等现象，增加了目前依靠计算机对残缺汉字进行识别的有效性和准确性。

具体步骤为：

0≤ξ≤255 (4)

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于图像处理的残缺汉字识别方法，其特征在于：

Step0：从TTC字体文件中提取出每个汉字所对应的图像，即汉字图像大小为l×w，单位为像素点，共计N个像素点；将汉字图像作为输入源，生成该汉字所对应的汉字矩阵I_l×w，该矩阵中的元素值即为该像素点的灰度值；定义ξ为灰度二值化阈值，对矩阵I_l×w进行公式(1)所示二值化处理，之后将矩阵I_l×w按照从左至右、从上至下的规则生成该汉字所对应的特征向量{f₁,f₂,…,f_N}；将所有汉字及生成的汉字特征向量存入数据库，组建汉字特征向量数据库；

2.根据权利要求1所述的基于图像处理的残缺汉字识别方法，其特征在于：所述步骤Step0中，汉字图像大小l×w是由字体文件中提取的汉字字体大小决定，且总像素点N＝l×w；并且灰度二值化阈值ξ满足公式(4)的要求；

0≤ξ≤255 (4)。

3.根据权利要求1所述的基于图像处理的残缺汉字识别方法，其特征在于：所述步骤Step4中，K即为汉字的总个数，若按照编码方式为Unicode的基本字符集为标准，则共有20902个汉字，即K＝20902。