CN109447058B - 一种基于矩阵分块的残缺汉字识别方法 - Google Patents

一种基于矩阵分块的残缺汉字识别方法 Download PDF

Info

Publication number
CN109447058B
CN109447058B CN201811052474.5A CN201811052474A CN109447058B CN 109447058 B CN109447058 B CN 109447058B CN 201811052474 A CN201811052474 A CN 201811052474A CN 109447058 B CN109447058 B CN 109447058B
Authority
CN
China
Prior art keywords
chinese character
matrix
image
chinese
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811052474.5A
Other languages
English (en)
Other versions
CN109447058A (zh
Inventor
龙华
祁俊辉
邵玉斌
杜庆治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201811052474.5A priority Critical patent/CN109447058B/zh
Publication of CN109447058A publication Critical patent/CN109447058A/zh
Application granted granted Critical
Publication of CN109447058B publication Critical patent/CN109447058B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及一种基于矩阵分块的残缺汉字识别方法,属于汉语信息处理技术领域。本发明通过TTC字体文件提取汉字图像,对图像矩阵进行灰度二值化处理后将其分为四块,按要求依次生成其纵向特征向量及横向特征向量,并进行连接合并处理后得到特征向量,建立汉字特征数据库,对任意待检测残缺汉字通过现代扫描技术及汉字形状特征转化为图像,对其进行特定的灰度化、二值化处理后提取汉字特征并生成纵向特征向量及横向特征向量,进行连接合并处理后得到特征向量,与数据库中现有汉字计算其识别度,最后通过排序输出识别度最高的汉字集合。本发明解决了现有技术耗费人力且准确性欠佳等现象,增加了目前依靠计算机对残缺汉字进行识别的有效性和准确性。

Description

一种基于矩阵分块的残缺汉字识别方法
技术领域
本发明涉及一种基于矩阵分块的残缺汉字识别方法,属于汉语信息处理技术领域。
背景技术
在文物考察、重要文档辨识中,可能存在一些汉字的一部分因某种原因而被抹去,正确识别出这些残缺的汉字对近代历史研究及考察名人语录等方面具有重要意义。
目前,对于残缺汉字的识别,主要是依靠人对汉字的熟悉程度以及人工对比汉语词典,再根据上下文信息进行推理得到,但是由于汉字的广泛性,使得这一工作即耗时又繁琐。若以编码方式为Unicode的基本字符集为标准,则共有20902个汉字,即使可以根据残缺汉字的大概字形及上下文信息推理进行筛选,但筛选结果也存在许多的备选项,更重要的是人工识别中对于这一工作难免会产生疏忽与厌倦,这就造成了识别残缺汉字的难度又一步加大。
发明内容
本发明要解决的技术问题是针对现有技术的局限和不足,提供一种基于矩阵分块的残缺汉字识别方法,以解决现有技术对残缺汉字的识别耗费人力且准确性欠佳等现象,致力于增加目前依靠计算机对残缺汉字进行识别的有效性和准确性。
本发明的技术方案是:一种基于矩阵分块的残缺汉字识别方法,该方法具体包括以下步骤:
Step0:采集汉字图像,对图像进行预处理,并创建汉字特征数据库;具体实施步骤如Step0.1~Step0.4所示;
Step0.1:从TTC字体文件中提取出每个汉字所对应的图像,即汉字图像大小为l×w,单位为像素点,并强制令l、w为偶数;将汉字图像作为输入源,生成该汉字所对应的汉字矩阵I,该矩阵中的元素值即为该像素点的灰度值;定义ξ为灰度二值化阈值,对矩阵I进行公式(1)所示二值化处理,得到二值化矩阵I′,其中I′(i,j),i∈[1,l],j∈[1,w]为元素值;
Figure BDA0001794934050000011
Step0.2:将二值化矩阵I′进行公式(2)所示分块处理,得到分块矩阵I1′、I2′、I3′、I4′;
Figure BDA0001794934050000021
Step0.3:将分块矩阵I1′、I2′、I3′、I4′进行公式(3)所示纵向叠加处理,生成纵向特征向量{z1,z2,…,z2l};
Figure BDA0001794934050000022
Step0.4:将分块矩阵I1′、I2′、I3′、I4′进行公式(4)所示横向叠加处理,生成横向特征向量{h1,h2,…,h2w};
Figure BDA0001794934050000023
Step0.5:将纵向特征向量{z1,z2,…,z2l}、横向特征向量{h1,h2,…,h2w}进行连接合并,组成新的特征向量{f1,f2,…,f2l+2w};
Step0.6:将汉字及其对应的特征向量{f1,f2,…,f2l+2w}存入数据库,组建汉字特征数据库;
Step1:利用现代扫描技术及汉字形状特征,从纸张或其他载体中提取出待检测残缺汉字X的图像,将图像以l:w的比例剪切至待检测残缺汉字X尽可能铺满图像为止,但要将其残缺汉字重心处于图像的中心,并留取合适的边距,生成待检测残缺汉字X的扫描图像
Figure BDA0001794934050000031
Step2:将待检测残缺汉字X的扫描图像
Figure BDA0001794934050000032
按比例压缩至l×w像素点,随后生成残缺汉字X的扫描图像
Figure BDA0001794934050000033
所对应的汉字矩阵X,该矩阵中的元素值即为该像素点的灰度值;依然以ξ为灰度二值化阈值,对矩阵X进行公式(5)所示二值化处理,得到二值化矩阵X′,其中X′(i,j),i∈[1,l],j∈[1,w]为元素值;
Figure BDA0001794934050000034
Step3:将二值化矩阵X′进行公式(6)所示分块处理,得到分块矩阵X1′、X2′、X3′、X4′;
Figure BDA0001794934050000035
Step4:将分块矩阵X1′、X2′、X3′、X4′进行公式(7)所示纵向叠加处理,生成纵向特征向量{xz1,xz2,…,xz2l};
Figure BDA0001794934050000036
Step5:将分块矩阵X1′、X2′、X3′、X4′进行公式(8)所示横向叠加处理,生成横向特征向量{xh1,xh2,…,xh2w};
Figure BDA0001794934050000041
Step6:将纵向特征向量{xz1,xz2,…,xz2l}、横向特征向量{xh1,xh2,…,xh2w}进行连接合并,组成新的特征向量{x1,x2,…,x2l+2w};
Step7:调取汉字特征数据库中的汉字F,以及对应的特征向量{f1,f2,…,f2l+2w},通过余弦定理算法公式(9)计算残缺汉字X与汉字F之间的识别度Sbd(X,F);
Figure BDA0001794934050000042
Step8:遍历汉字特征数据库中的所有数据,对数据库中每个汉字Fi,i∈[1,K]都经Step7步骤计算其与残缺汉字X之间的识别度Sbd(X,Fi),i∈[1,K];将按照从大到小的顺序排序,提取出前θ个待定汉字并输出。
进一步地,所述步骤Step0.1中,TTC字体文件包括但不限于宋体、黑体、微软雅黑等十多种常用字体;汉字图像大小l×w是由字体文件中提取的汉字字体大小决定,可自由设置,并强制令l、w为偶数;并且灰度二值化阈值ξ满足0≤ξ≤255的要求,通常取ξ=1。
进一步地,所述步骤Step1中,提取残缺汉字的图像信息时尽可能使残缺汉字平铺,有助于提取残缺汉字的汉字特征。
进一步地,所述步骤Step8中,K即为汉字的总个数,若按照编码方式为Unicode的基本字符集为标准,则共有20902个汉字,即K=20902。
进一步地,所述步骤Step8中,θ可由使用者自己定义,通常令θ=3,θ越大则识别准确度越高,但使用者所需花费的查找时间也随之增加。
本发明的有益效果是:本发明与现有技术相比,主要解决了现有技术耗费人力且准确性欠佳等现象,增加了目前依靠计算机对残缺汉字进行识别的有效性和准确性。
附图说明
图1是本发明步骤流程图;
图2是本发明建立数据库流程示意图;
图3是本发明获取待检测残缺文字的特征向量流程示意图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1-3所示,一种基于矩阵分块的残缺汉字识别方法,通过TTC字体文件提取汉字图像,对图像矩阵进行灰度二值化处理后将其分为四块,按要求依次生成其纵向特征向量及横向特征向量,并进行连接合并处理后得到特征向量,建立汉字特征数据库,对任意待检测残缺汉字通过现代扫描技术及汉字形状特征转化为图像,对其进行特定的灰度化、二值化处理后提取汉字特征并生成纵向特征向量及横向特征向量,进行连接合并处理后得到特征向量,与数据库中现有汉字计算其识别度,最后通过排序输出识别度最高的汉字集合。
具体步骤为:
Step0:采集汉字图像,对图像进行预处理,并创建汉字特征数据库;具体实施步骤如Step0.1~Step0.4所示;
Step0.1:从TTC字体文件中提取出每个汉字所对应的图像,即汉字图像大小为l×w(单位为像素点),并强制令l、w为偶数;将汉字图像作为输入源,生成该汉字所对应的汉字矩阵I,该矩阵中的元素值即为该像素点的灰度值;定义ξ为灰度二值化阈值,对矩阵I进行公式(1)所示二值化处理,得到二值化矩阵I′,其中I′(i,j),i∈[1,l],j∈[1,w]为元素值;
Figure BDA0001794934050000051
Step0.2:将二值化矩阵I′进行公式(2)所示分块处理,得到分块矩阵I1′、I2′、I3′、I4′;
Figure BDA0001794934050000052
Step0.3:将分块矩阵I1′、I2′、I3′、I4′进行公式(3)所示纵向叠加处理,生成纵向特征向量{z1,z2,…,z2l};
Figure BDA0001794934050000061
Step0.4:将分块矩阵I1′、I2′、I3′、I4′进行公式(4)所示横向叠加处理,生成横向特征向量{h1,h2,…,h2w};
Figure BDA0001794934050000062
Step0.5:将纵向特征向量{z1,z2,…,z2l}、横向特征向量{h1,h2,…,h2w}进行连接合并,组成新的特征向量{f1,f2,…,f2l+2w};
Step0.6:将汉字及其对应的特征向量{f1,f2,…,f2l+2w}存入数据库,组建汉字特征数据库;
Step1:利用现代扫描技术及汉字形状特征,从纸张或其他载体中提取出待检测残缺汉字X的图像,将图像以l:w的比例剪切至待检测残缺汉字X尽可能铺满图像为止,但要将其残缺汉字重心处于图像的中心,并留取合适的边距,生成待检测残缺汉字X的扫描图像
Figure BDA0001794934050000063
Step2:将待检测残缺汉字X的扫描图像
Figure BDA0001794934050000064
按比例压缩至l×w像素点,随后生成残缺汉字X的扫描图像
Figure BDA0001794934050000065
所对应的汉字矩阵X,该矩阵中的元素值即为该像素点的灰度值;依然以ξ为灰度二值化阈值,对矩阵X进行公式(5)所示二值化处理,得到二值化矩阵X′,其中X′(i,j),i∈[1,l],j∈[1,w]为元素值;
Figure BDA0001794934050000066
Step3:将二值化矩阵X′进行公式(6)所示分块处理,得到分块矩阵X1′、X2′、X3′、X4′;
Figure BDA0001794934050000071
Step4:将分块矩阵X1′、X2′、X3′、X4′进行公式(7)所示纵向叠加处理,生成纵向特征向量{xz1,xz2,…,xz2l};
Figure BDA0001794934050000072
Step5:将分块矩阵X1′、X2′、X3′、X4′进行公式(8)所示横向叠加处理,生成横向特征向量{xh1,xh2,…,xh2w};
Figure BDA0001794934050000073
Step6:将纵向特征向量{xz1,xz2,…,xz2l}、横向特征向量{xh1,xh2,…,xh2w}进行连接合并,组成新的特征向量{x1,x2,…,x2l+2w};
Step7:调取汉字特征数据库中的汉字F,以及对应的特征向量{f1,f2,…,f2l+2w},通过余弦定理算法公式(9)计算残缺汉字X与汉字F之间的识别度Sbd(X,F);
Figure BDA0001794934050000081
Step8:遍历汉字特征数据库中的所有数据,对数据库中每个汉字Fi,i∈[1,K]都经Step7步骤计算其与残缺汉字X之间的识别度Sbd(X,Fi),i∈[1,K];将按照从大到小的顺序排序,提取出前θ个待定汉字并输出。
进一步地,所述步骤Step0.1中,TTC字体文件包括但不限于宋体、黑体、微软雅黑等十多种常用字体;汉字图像大小l×w是由字体文件中提取的汉字字体大小决定,可自由设置,并强制令l、w为偶数;并且灰度二值化阈值ξ满足0≤ξ≤255的要求,通常取ξ=1。
进一步地,所述步骤Step1中,提取残缺汉字的图像信息时尽可能使残缺汉字平铺,有助于提取残缺汉字的汉字特征。
进一步地,所述步骤Step8中,K即为汉字的总个数,若按照编码方式为Unicode的基本字符集为标准,则共有20902个汉字,即K=20902。
进一步地,所述步骤Step8中,θ可由使用者自己定义,通常令θ=3,θ越大则识别准确度越高,但使用者所需花费的查找时间也随之增加。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (2)

1.一种基于矩阵分块的残缺汉字识别方法,其特征在于:
Step0:采集汉字图像,对图像进行预处理,并创建汉字特征数据库;具体实施步骤如Step0.1~Step0.4所示;
Step0.1:从TTC字体文件中提取出每个汉字所对应的图像,即汉字图像大小为l×w,单位为像素点,并强制令l、w为偶数;将汉字图像作为输入源,生成该汉字所对应的汉字矩阵I,该矩阵中的元素值即为该像素点的灰度值;定义ξ为灰度二值化阈值,对矩阵I进行公式(1)所示二值化处理,得到二值化矩阵I′,其中I′(i,j)为元素值,i∈[1,l],j∈[1,w];
Figure FDA0003311557660000011
Step0.2:将二值化矩阵I′进行公式(2)所示分块处理,得到分块矩阵I1′、I2′、I3′、I4′;
Figure FDA0003311557660000012
Step0.3:将分块矩阵I1′、I2′、I3′、I4′进行公式(3)所示纵向叠加处理,生成纵向特征向量{z1,z2,…,z2l};
Figure FDA0003311557660000013
Step0.4:将分块矩阵I1′、I2′、I3′、I4′进行公式(4)所示横向叠加处理,生成横向特征向量{h1,h2,…,h2w};
Figure FDA0003311557660000021
Step0.5:将纵向特征向量{z1,z2,…,z2l}、横向特征向量{h1,h2,…,h2w}进行连接合并,组成新的特征向量{f1,f2,…,f2l+2w};
Step0.6:将汉字及其对应的特征向量{f1,f2,…,f2l+2w}存入数据库,组建汉字特征数据库;
Step1:利用现代扫描技术及汉字形状特征,从纸张或其他载体中提取出待检测残缺汉字X的图像,将图像以l:w的比例剪切至待检测残缺汉字X尽可能铺满图像为止,但要将其残缺汉字重心处于图像的中心,并留取合适的边距,生成待检测残缺汉字X的扫描图像
Figure FDA0003311557660000022
Step2:将待检测残缺汉字X的扫描图像
Figure FDA0003311557660000023
按比例压缩至l×w像素点,随后生成残缺汉字X的扫描图像
Figure FDA0003311557660000024
所对应的汉字矩阵X,该矩阵中的元素值即为该像素点的灰度值;依然以ξ为灰度二值化阈值,对矩阵X进行公式(5)所示二值化处理,得到二值化矩阵X′,其中X′(i,j)为元素值,i∈[1,l],j∈[1,w];
Figure FDA0003311557660000025
Step3:将二值化矩阵X′进行公式(6)所示分块处理,得到分块矩阵X1′、X2′、X3′、X4′;
Figure FDA0003311557660000031
Step4:将分块矩阵X1′、X2′、X3′、X4′进行公式(7)所示纵向叠加处理,生成纵向特征向量{xz1,xz2,…,xz2l};
Figure FDA0003311557660000032
Step5:将分块矩阵X1′、X2′、X3′、X4′进行公式(8)所示横向叠加处理,生成横向特征向量{xh1,xh2,…,xh2w};
Figure FDA0003311557660000033
Step6:将纵向特征向量{xz1,xz2,…,xz2l}、横向特征向量{xh1,xh2,…,xh2w}进行连接合并,组成新的特征向量{x1,x2,…,x2l+2w};
Step7:调取汉字特征数据库中的汉字F,以及对应的特征向量{f1,f2,…,f2l+2w},通过余弦定理算法公式(9)计算残缺汉字X与汉字F之间的识别度Sbd(X,F);
Figure FDA0003311557660000041
Step8:遍历汉字特征数据库中的所有数据,对数据库中每个汉字Fp,p∈[1,K]都经Step7步骤计算其与残缺汉字X之间的识别度Sbd(X,Fp),p∈[1,K];将识别度按照从大到小的顺序排序,提取出前θ个待定汉字并输出;
所述步骤Step0.1中,TTC字体文件包括但不限于宋体、黑体、微软雅黑;汉字图像大小l×w是由字体文件中提取的汉字字体大小决定,并强制令l、w为偶数;并且灰度二值化阈值ξ满足0≤ξ≤255的要求,取ξ=1。
2.根据权利要求1所述的基于矩阵分块的残缺汉字识别方法,其特征在于:所述步骤Step8中,K即为汉字的总个数,若按照编码方式为Unicode的基本字符集为标准,则共有20902个汉字,即K=20902。
CN201811052474.5A 2018-09-10 2018-09-10 一种基于矩阵分块的残缺汉字识别方法 Active CN109447058B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811052474.5A CN109447058B (zh) 2018-09-10 2018-09-10 一种基于矩阵分块的残缺汉字识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811052474.5A CN109447058B (zh) 2018-09-10 2018-09-10 一种基于矩阵分块的残缺汉字识别方法

Publications (2)

Publication Number Publication Date
CN109447058A CN109447058A (zh) 2019-03-08
CN109447058B true CN109447058B (zh) 2022-04-12

Family

ID=65533312

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811052474.5A Active CN109447058B (zh) 2018-09-10 2018-09-10 一种基于矩阵分块的残缺汉字识别方法

Country Status (1)

Country Link
CN (1) CN109447058B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7634137B2 (en) * 2005-10-14 2009-12-15 Microsoft Corporation Unfolded convolution for fast feature extraction
CN104376300A (zh) * 2014-11-03 2015-02-25 电子科技大学 一种基于网格特征智能匹配残缺汉字的识别方法
CN108038495A (zh) * 2017-12-04 2018-05-15 昆明理工大学 一种残缺汉字识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7634137B2 (en) * 2005-10-14 2009-12-15 Microsoft Corporation Unfolded convolution for fast feature extraction
CN104376300A (zh) * 2014-11-03 2015-02-25 电子科技大学 一种基于网格特征智能匹配残缺汉字的识别方法
CN108038495A (zh) * 2017-12-04 2018-05-15 昆明理工大学 一种残缺汉字识别方法

Also Published As

Publication number Publication date
CN109447058A (zh) 2019-03-08

Similar Documents

Publication Publication Date Title
Kashyap et al. Automatic number plate recognition
WO2017016240A1 (zh) 一种钞票冠字号识别方法
CN108038495B (zh) 一种残缺汉字识别方法
Mohammad et al. Optical character recognition implementation using pattern matching
US8320665B2 (en) Document image segmentation system
CN109583438B (zh) 电子图像的文字的识别方法及图像处理装置
JP2001167131A (ja) 文書シグネチュアを使用する文書の自動分類方法
CN102831403A (zh) 一种基于指纹特征点的识别方法
US11132407B2 (en) System for the automatic separation of documents in a batch of documents
CN112508011A (zh) 一种基于神经网络的ocr识别方法及设备
CN108520215B (zh) 基于多尺度联合特征编码器的单样本人脸识别方法
CN113569833A (zh) 基于文本文档的文字识别方法、装置、设备及存储介质
CN106991416A (zh) 一种基于手动拍照的化验单识别方法
CN110414431B (zh) 基于弹性上下文关系损失函数的人脸识别方法及系统
CN114495139A (zh) 一种基于图像的作业查重系统及方法
CN108171115B (zh) 一种残缺英文单词识别方法
CN109447058B (zh) 一种基于矩阵分块的残缺汉字识别方法
CN109409358B (zh) 一种基于纵横直方图的残缺汉字识别方法
CN109460701B (zh) 一种基于纵横直方图的字体识别方法
Halder et al. Individuality of isolated Bangla characters
JPH0869506A (ja) 手書き文字の認識方法および装置
Çakı et al. A novel shape descriptor for object recognition
CN109409373A (zh) 一种基于图像处理的字体识别方法
CN110728214A (zh) 一种基于尺度匹配的弱小人物目标检测方法
Ali et al. UOCR: A ligature based approach for an Urdu OCR system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant