CN108038495A

CN108038495A - 一种残缺汉字识别方法

Info

Publication number: CN108038495A
Application number: CN201711256495.4A
Authority: CN
Inventors: 彭艺; 尹玉梅
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2017-12-04
Filing date: 2017-12-04
Publication date: 2018-05-15
Anticipated expiration: 2037-12-04
Also published as: CN108038495B

Abstract

本发明涉及一种残缺汉字识别方法，属于汉语信息处理技术领域。本发明通过中文点阵字库建立汉字特征数据库，对任意待检测残缺汉字通过现代扫描技术及汉字形状特征转化为图像，对其进行灰度化及二值化后提取汉字特征并生成特征向量，与数据库中现有汉字分别计算其基于余弦定理的字形相似度和基于欧氏距离的字形相似度，最后再通过相似融合算法及相似阈值判定，得到待检测残缺汉字的相似字集合。本发明与现有技术相比，主要解决了现有技术耗费人力且准确性欠佳等现象，致力于增加目前依靠计算机对残缺汉字进行识别的有效性和准确性。

Description

一种残缺汉字识别方法

技术领域

本发明涉及一种残缺汉字识别方法，属于汉语信息处理技术领域。

背景技术

在文物考察、重要文档辨识中，可能存在一些汉字的一部分因某种原因而被抹去，正确识别出这些残缺的汉字对近代历史研究及考察名人语录等方面具有重要意义。

目前，对于残缺汉字的识别，主要是依靠人对汉字的熟悉程度以及人工对比汉语词典，再根据上下文信息进行推理得到，但是由于汉字的广泛性，使得这一工作即耗时又繁琐。若以编码方式为Unicode的基本字符集为标准，则共有20902个汉字，即使可以根据残缺汉字的大概字形及上下文信息推理进行筛选，但筛选结果也存在许多的备选项，更重要的是人工识别中对于这一工作难免会产生疏忽与厌倦，这就造成了识别残缺汉字的难度又一步加大。

发明内容

本发明要解决的技术问题是针对现有技术的局限和不足，提供一种残缺汉字识别方法，以解决现有技术对残缺汉字的识别耗费人力且准确性欠佳等现象，致力于增加目前依靠计算机对残缺汉字进行识别的有效性和准确性。

本发明的技术方案是：一种残缺汉字识别方法，具体包括以下步骤：

Step0：提取汉字特征并建立汉字特征数据库。根据15×16像素中文点阵字库，将点阵按照从左至右、从上至下的规则划分为40个2×3像素的小矩阵，记2×3像素小矩阵中汉字所占像素数为p_i,i∈[1,40]，观察所有p_i,i∈[1,40]并生成该汉字所对应的汉字特征向量{p₁,p₂,…,p₄₀}，且将所有汉字及生成的汉字特征向量存入数据库，组建汉字特征数据库P:{P₁,P₂,…,P_N}；

Step1：利用现代扫描技术及汉字形状特征，从汉字载体中提取出待检测残缺汉字X的图片，将图片以15:16的比例剪切至待检测残缺汉字X尽可能铺满图片为止，但要将其残缺汉字重心处于图片的中心，并留取合适的边距，生成待检测残缺汉字X的扫描图片

Step2：将待检测残缺汉字X的扫描图片进行灰度化及二值化，将其按比例切割为15×16像素点所组成的矩阵形式，对每个像素点进行归一化，并以此规则生成待检测残缺汉字X的15×16像素点阵形式；

Step3：将待检测残缺汉字X的15×16像素点阵，按照从左至右、从上至下的规则划分为40个2×3像素的小矩阵，记2×3像素小矩阵中残缺汉字所占像素数为p_i,i∈[1,40]，观察所有p_i,i∈[1,40]并生成待检测残缺汉字X所对应的汉字特征向量X:{x₁,x₂,…,x₄₀}；

Step4：将待检测残缺汉字X的汉字特征向量X:{x₁,x₂,…,x₄₀}，以及汉字特征数据库P中的汉字特征向量P_i:{p₁,p₂,…,p₄₀},i∈[1,N]作为输入，由余弦定理计算公式(1)求得待检测残缺汉字X、目标汉字P_i之间基于余弦定理的字形相似度Sim₁(X,P_i)；

Step5：将待检测残缺汉字X的汉字特征向量X:{x₁,x₂,…,x₄₀}，以及汉字特征数据库P中的汉字特征向量P_i:{p₁,p₂,…,p₄₀},i∈[1,N]作为输入，定义归一化参数δ，由欧氏距离计算公式(2)求得待检测残缺汉字X、目标汉字P_i之间基于欧氏距离的字形相似度Sim₂(X,P_i)；

Step6：设Step4、Step5步骤所计算出的相似度对应权值分别为α、β，权值α、β满足α+β＝1的要求，由字形相似度Sim₁(X,P_i)及权值α、字形相似度Sim₂(X,P_i)及权值β，由相似度融合算法，即公式(3)计算出待检测残缺汉字X、目标汉字P_i之间的最终字形相似度Sim(X,P_i)；

Sim(X,P_i)＝Sim₁(X,P_i)·α+Sim₂(X,P_i)·β (3)

Step7：遍历汉字特征数据库P，对数据库中每个汉字P_i,i∈[1,N]都经Step4、Step5、Step6步骤，计算其与待检测残缺汉字X之间的字形相似度Sim(X,P_i)，定义相似阈值θ，如果满足公式(4)的要求则将该汉字添加至相似字集合，最终导出待检测残缺汉字X的相似字集合S:{S₁,S₂,…,S_M}，其中M是与待检测残缺汉字X相似的汉字个数。

Sim(X,P_i)≥θ (4)

进一步地，所述步骤Step0中，可根据汉字的字体建立多个汉字特征数据库，如宋体汉字特征数据库、楷体汉字特征数据库、隶书汉字特征数据库等。

进一步地，所述步骤Step0和Step3中，2×3像素小矩阵中汉字所占像素数p_i,i∈[1,40]应满足公式(5)的要求。

0≤p_i≤6,i∈[1,40] (5)

进一步地，所述步骤Step0中，汉字特征数据库P:{P₁,P₂,…,P_N}的大小N，即为汉字的总个数，若按照编码方式为Unicode的基本字符集为标准，则共有20902个汉字，即N＝20902。

进一步地，所述步骤Step1中，提取残缺汉字的图片信息时尽可能使残缺汉字平铺，有助于提取残缺汉字的汉字特征。

进一步地，所述步骤Step2中，考虑到待检测残缺汉字可能是彩色，故对其进行灰度化和二值化处理；归一化的规则指每个像素点中若存在该汉字的笔画部件，则以黑点填充，否则不予处理，既空白。

进一步地，所述步骤Step5中，归一化参数δ取正整数，通常取δ＝1，但可根据实际效果进行调整。

进一步地，所述步骤Step4中得到的基于余弦定理的字形相似度Sim₁(X,P_i)、所述步骤Step5中得到的基于欧氏距离的字形相似度Sim₂(X,P_i)、所述步骤Step6中得到的最终字形相似度Sim(X,P_i)，应满足公式(6)的要求，即字形相似度Sim₁(X,P_i)、Sim₂(X,P_i)、Sim(X,P_i)以一个[0,1]之间的数值反映待检测汉字X、目标汉字P_i之间的相似程度，且数值越大表示相似程度越高。

0≤Sim₁(X,P_i),Sim₂(X,P_i),Sim(X,P_i)≤1 (6)

进一步地，所述步骤Step7中，相似阈值θ需满足0≤θ≤1，通常取θ＝0.8，但可根据实际效果进行调整。

本发明的有益效果是：本发明与现有技术相比，主要解决了现有技术耗费人力且准确性欠佳等现象，致力于增加目前依靠计算机对残缺汉字进行识别的有效性和准确性。

附图说明

图1是本发明总流程示意图；

图2是本发明建立数据库流程示意图；

图3是本发明获取待检测残缺文字的特征向量流程示意图；

图4是本发明15×16像素中文点阵示意图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

实施例1：如图1所示，一种残缺汉字识别方法，具体包括以下步骤：

Step1：利用现代扫描技术及汉字形状特征，从纸张或竹简等其他汉字载体中提取出待检测残缺汉字X的图片，将图片以15:16的比例剪切至待检测残缺汉字X尽可能铺满图片为止，但要将其残缺汉字重心处于图片的中心，并留取合适的边距，生成待检测残缺汉字X的扫描图片

Sim(X,P_i)＝Sim₁(X,P_i)·α+Sim₂(X,P_i)·β (3)

Sim(X,P_i)≥θ (4)

进一步地，所述步骤Step0中，15×16像素中文点阵如图4所示，以虚线组成的小方格作为像素点，共计240个像素点；以实线组成2×3像素的小矩阵，共计40个2×3像素的小矩阵。

0≤p_i≤6,i∈[1,40] (5)

0≤Sim₁(X,P_i),Sim₂(X,P_i),Sim(X,P_i)≤1 (6)

本发明通过中文点阵字库建立汉字特征数据库，对任意待检测残缺汉字通过现代扫描技术及汉字形状特征转化为图像，对其进行灰度化及二值化后提取汉字特征并生成特征向量，与数据库中现有汉字分别计算其基于余弦定理的字形相似度和基于欧氏距离的字形相似度，最后再通过相似融合算法及相似阈值判定，得到待检测残缺汉字的相似字集合。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种残缺汉字识别方法，其特征在于,具体包括以下步骤：

Step0：提取汉字特征并建立汉字特征数据库，根据15×16像素中文点阵字库，将点阵按照从左至右、从上至下的规则划分为40个2×3像素的小矩阵，记2×3像素小矩阵中汉字所占像素数为p_i,i∈[1,40]，观察所有p_i,i∈[1,40]并生成该汉字所对应的汉字特征向量{p₁,p₂,…,p₄₀}，且将所有汉字及生成的汉字特征向量存入数据库，组建汉字特征数据库P:{P₁,P₂,…,P_N}；

Step1：利用扫描技术及汉字形状特征，从汉字载体中提取出待检测残缺汉字X的图片，将图片以15:16的比例剪切至待检测残缺汉字X尽可能铺满图片为止，但要将其残缺汉字重心处于图片的中心，并留取合适的边距，生成待检测残缺汉字X的扫描图片

<mrow> <msub> <mi>Sim</mi> <mn>1</mn> </msub> <mrow> <mo>(</mo> <mi>X</mi> <mo>,</mo> <msub> <mi>P</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mn>1</mn> </msub> <msub> <mi>p</mi> <mn>1</mn> </msub> <mo>+</mo> <msub> <mi>x</mi> <mn>2</mn> </msub> <msub> <mi>p</mi> <mn>2</mn> </msub> <mo>+</mo> <mo>...</mo> <mo>+</mo> <msub> <mi>x</mi> <mn>40</mn> </msub> <msub> <mi>p</mi> <mn>40</mn> </msub> </mrow> <mrow> <msqrt> <mrow> <msubsup> <mi>x</mi> <mn>1</mn> <mn>2</mn> </msubsup> <mo>+</mo> <msubsup> <mi>x</mi> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <mn>...</mn> <mo>+</mo> <msubsup> <mi>x</mi> <mn>40</mn> <mn>2</mn> </msubsup> </mrow> </msqrt> <mo>&CenterDot;</mo> <msqrt> <mrow> <msubsup> <mi>p</mi> <mn>1</mn> <mn>2</mn> </msubsup> <mo>+</mo> <msubsup> <mi>p</mi> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <mn>...</mn> <mo>+</mo> <msubsup> <mi>p</mi> <mn>40</mn> <mn>2</mn> </msubsup> </mrow> </msqrt> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>Sim</mi> <mn>2</mn> </msub> <mrow> <mo>(</mo> <mi>X</mi> <mo>,</mo> <msub> <mi>P</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mi>&delta;</mi> <mrow> <mi>&delta;</mi> <mo>+</mo> <msup> <mrow> <mo>&lsqb;</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>40</mn> </munderover> <mo>|</mo> <msub> <mi>x</mi> <mi>t</mi> </msub> <mo>-</mo> <msub> <mi>p</mi> <mi>t</mi> </msub> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>&rsqb;</mo> </mrow> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> </msup> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

Sim(X,P_i)＝Sim₁(X,P_i)·α+Sim₂(X,P_i)·β (3)

Step7：遍历汉字特征数据库P，对数据库中每个汉字P_i,i∈[1,N]都经Step4、Step5、Step6步骤，计算其与待检测残缺汉字X之间的字形相似度Sim(X,P_i)，定义相似阈值θ，如果满足公式：Sim(X,P_i)≥θ的要求则将该汉字添加至相似字集合，最终导出待检测残缺汉字X的相似字集合S:{S₁,S₂,…,S_M}，其中M是与待检测残缺汉字X相似的汉字个数。

2.根据权利要求1所述的残缺汉字识别方法，其特征在于：所述步骤Step0和Step3中，2×3像素小矩阵中汉字所占像素数p_i,i∈[1,40]应满足公式：0≤p_i≤6,i∈[1,40]的要求。

3.根据权利要求1所述的残缺汉字识别方法，其特征在于：所述步骤Step2中，若待检测残缺汉字为彩色，则先其进行灰度化和二值化处理，然后再进行归一化处理；归一化的规则是指每个像素点中若存在该汉字的笔画部件，则以黑点填充，否则不予处理，既空白。

4.根据权利要求1所述的残缺汉字识别方法，其特征在于：所述步骤Step5中，归一化参数δ取正整数。

5.根据权利要求1所述的残缺汉字识别方法，其特征在于：所述步骤Step4中得到的基于余弦定理的字形相似度Sim₁(X,P_i)、所述步骤Step5中得到的基于欧氏距离的字形相似度Sim₂(X,P_i)、所述步骤Step6中得到的最终字形相似度Sim(X,P_i)应满足公式：0≤Sim₁(X,P_i),Sim₂(X,P_i),Sim(X,P_i)≤1的要求，即字形相似度Sim₁(X,P_i)、Sim₂(X,P_i)、Sim(X,P_i)以一个[0,1]之间的数值反映待检测汉字X、目标汉字P_i之间的相似程度，且数值越大表示相似程度越高。

6.根据权利要求1所述的残缺汉字识别方法，其特征在于：所述步骤Step7中，相似阈值θ需满足0≤θ≤1。