CN109447058B - 一种基于矩阵分块的残缺汉字识别方法 - Google Patents
一种基于矩阵分块的残缺汉字识别方法 Download PDFInfo
- Publication number
- CN109447058B CN109447058B CN201811052474.5A CN201811052474A CN109447058B CN 109447058 B CN109447058 B CN 109447058B CN 201811052474 A CN201811052474 A CN 201811052474A CN 109447058 B CN109447058 B CN 109447058B
- Authority
- CN
- China
- Prior art keywords
- chinese character
- matrix
- image
- chinese
- formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/287—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及一种基于矩阵分块的残缺汉字识别方法,属于汉语信息处理技术领域。本发明通过TTC字体文件提取汉字图像,对图像矩阵进行灰度二值化处理后将其分为四块,按要求依次生成其纵向特征向量及横向特征向量,并进行连接合并处理后得到特征向量,建立汉字特征数据库,对任意待检测残缺汉字通过现代扫描技术及汉字形状特征转化为图像,对其进行特定的灰度化、二值化处理后提取汉字特征并生成纵向特征向量及横向特征向量,进行连接合并处理后得到特征向量,与数据库中现有汉字计算其识别度,最后通过排序输出识别度最高的汉字集合。本发明解决了现有技术耗费人力且准确性欠佳等现象,增加了目前依靠计算机对残缺汉字进行识别的有效性和准确性。
Description
技术领域
本发明涉及一种基于矩阵分块的残缺汉字识别方法,属于汉语信息处理技术领域。
背景技术
在文物考察、重要文档辨识中,可能存在一些汉字的一部分因某种原因而被抹去,正确识别出这些残缺的汉字对近代历史研究及考察名人语录等方面具有重要意义。
目前,对于残缺汉字的识别,主要是依靠人对汉字的熟悉程度以及人工对比汉语词典,再根据上下文信息进行推理得到,但是由于汉字的广泛性,使得这一工作即耗时又繁琐。若以编码方式为Unicode的基本字符集为标准,则共有20902个汉字,即使可以根据残缺汉字的大概字形及上下文信息推理进行筛选,但筛选结果也存在许多的备选项,更重要的是人工识别中对于这一工作难免会产生疏忽与厌倦,这就造成了识别残缺汉字的难度又一步加大。
发明内容
本发明要解决的技术问题是针对现有技术的局限和不足,提供一种基于矩阵分块的残缺汉字识别方法,以解决现有技术对残缺汉字的识别耗费人力且准确性欠佳等现象,致力于增加目前依靠计算机对残缺汉字进行识别的有效性和准确性。
本发明的技术方案是:一种基于矩阵分块的残缺汉字识别方法,该方法具体包括以下步骤:
Step0:采集汉字图像,对图像进行预处理,并创建汉字特征数据库;具体实施步骤如Step0.1~Step0.4所示;
Step0.1:从TTC字体文件中提取出每个汉字所对应的图像,即汉字图像大小为l×w,单位为像素点,并强制令l、w为偶数;将汉字图像作为输入源,生成该汉字所对应的汉字矩阵I,该矩阵中的元素值即为该像素点的灰度值;定义ξ为灰度二值化阈值,对矩阵I进行公式(1)所示二值化处理,得到二值化矩阵I′,其中I′(i,j),i∈[1,l],j∈[1,w]为元素值;
Step0.2:将二值化矩阵I′进行公式(2)所示分块处理,得到分块矩阵I1′、I2′、I3′、I4′;
Step0.3:将分块矩阵I1′、I2′、I3′、I4′进行公式(3)所示纵向叠加处理,生成纵向特征向量{z1,z2,…,z2l};
Step0.4:将分块矩阵I1′、I2′、I3′、I4′进行公式(4)所示横向叠加处理,生成横向特征向量{h1,h2,…,h2w};
Step0.5:将纵向特征向量{z1,z2,…,z2l}、横向特征向量{h1,h2,…,h2w}进行连接合并,组成新的特征向量{f1,f2,…,f2l+2w};
Step0.6:将汉字及其对应的特征向量{f1,f2,…,f2l+2w}存入数据库,组建汉字特征数据库;
Step1:利用现代扫描技术及汉字形状特征,从纸张或其他载体中提取出待检测残缺汉字X的图像,将图像以l:w的比例剪切至待检测残缺汉字X尽可能铺满图像为止,但要将其残缺汉字重心处于图像的中心,并留取合适的边距,生成待检测残缺汉字X的扫描图像
Step2:将待检测残缺汉字X的扫描图像按比例压缩至l×w像素点,随后生成残缺汉字X的扫描图像所对应的汉字矩阵X,该矩阵中的元素值即为该像素点的灰度值;依然以ξ为灰度二值化阈值,对矩阵X进行公式(5)所示二值化处理,得到二值化矩阵X′,其中X′(i,j),i∈[1,l],j∈[1,w]为元素值;
Step3:将二值化矩阵X′进行公式(6)所示分块处理,得到分块矩阵X1′、X2′、X3′、X4′;
Step4:将分块矩阵X1′、X2′、X3′、X4′进行公式(7)所示纵向叠加处理,生成纵向特征向量{xz1,xz2,…,xz2l};
Step5:将分块矩阵X1′、X2′、X3′、X4′进行公式(8)所示横向叠加处理,生成横向特征向量{xh1,xh2,…,xh2w};
Step6:将纵向特征向量{xz1,xz2,…,xz2l}、横向特征向量{xh1,xh2,…,xh2w}进行连接合并,组成新的特征向量{x1,x2,…,x2l+2w};
Step7:调取汉字特征数据库中的汉字F,以及对应的特征向量{f1,f2,…,f2l+2w},通过余弦定理算法公式(9)计算残缺汉字X与汉字F之间的识别度Sbd(X,F);
Step8:遍历汉字特征数据库中的所有数据,对数据库中每个汉字Fi,i∈[1,K]都经Step7步骤计算其与残缺汉字X之间的识别度Sbd(X,Fi),i∈[1,K];将按照从大到小的顺序排序,提取出前θ个待定汉字并输出。
进一步地,所述步骤Step0.1中,TTC字体文件包括但不限于宋体、黑体、微软雅黑等十多种常用字体;汉字图像大小l×w是由字体文件中提取的汉字字体大小决定,可自由设置,并强制令l、w为偶数;并且灰度二值化阈值ξ满足0≤ξ≤255的要求,通常取ξ=1。
进一步地,所述步骤Step1中,提取残缺汉字的图像信息时尽可能使残缺汉字平铺,有助于提取残缺汉字的汉字特征。
进一步地,所述步骤Step8中,K即为汉字的总个数,若按照编码方式为Unicode的基本字符集为标准,则共有20902个汉字,即K=20902。
进一步地,所述步骤Step8中,θ可由使用者自己定义,通常令θ=3,θ越大则识别准确度越高,但使用者所需花费的查找时间也随之增加。
本发明的有益效果是:本发明与现有技术相比,主要解决了现有技术耗费人力且准确性欠佳等现象,增加了目前依靠计算机对残缺汉字进行识别的有效性和准确性。
附图说明
图1是本发明步骤流程图;
图2是本发明建立数据库流程示意图;
图3是本发明获取待检测残缺文字的特征向量流程示意图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1-3所示,一种基于矩阵分块的残缺汉字识别方法,通过TTC字体文件提取汉字图像,对图像矩阵进行灰度二值化处理后将其分为四块,按要求依次生成其纵向特征向量及横向特征向量,并进行连接合并处理后得到特征向量,建立汉字特征数据库,对任意待检测残缺汉字通过现代扫描技术及汉字形状特征转化为图像,对其进行特定的灰度化、二值化处理后提取汉字特征并生成纵向特征向量及横向特征向量,进行连接合并处理后得到特征向量,与数据库中现有汉字计算其识别度,最后通过排序输出识别度最高的汉字集合。
具体步骤为:
Step0:采集汉字图像,对图像进行预处理,并创建汉字特征数据库;具体实施步骤如Step0.1~Step0.4所示;
Step0.1:从TTC字体文件中提取出每个汉字所对应的图像,即汉字图像大小为l×w(单位为像素点),并强制令l、w为偶数;将汉字图像作为输入源,生成该汉字所对应的汉字矩阵I,该矩阵中的元素值即为该像素点的灰度值;定义ξ为灰度二值化阈值,对矩阵I进行公式(1)所示二值化处理,得到二值化矩阵I′,其中I′(i,j),i∈[1,l],j∈[1,w]为元素值;
Step0.2:将二值化矩阵I′进行公式(2)所示分块处理,得到分块矩阵I1′、I2′、I3′、I4′;
Step0.3:将分块矩阵I1′、I2′、I3′、I4′进行公式(3)所示纵向叠加处理,生成纵向特征向量{z1,z2,…,z2l};
Step0.4:将分块矩阵I1′、I2′、I3′、I4′进行公式(4)所示横向叠加处理,生成横向特征向量{h1,h2,…,h2w};
Step0.5:将纵向特征向量{z1,z2,…,z2l}、横向特征向量{h1,h2,…,h2w}进行连接合并,组成新的特征向量{f1,f2,…,f2l+2w};
Step0.6:将汉字及其对应的特征向量{f1,f2,…,f2l+2w}存入数据库,组建汉字特征数据库;
Step1:利用现代扫描技术及汉字形状特征,从纸张或其他载体中提取出待检测残缺汉字X的图像,将图像以l:w的比例剪切至待检测残缺汉字X尽可能铺满图像为止,但要将其残缺汉字重心处于图像的中心,并留取合适的边距,生成待检测残缺汉字X的扫描图像
Step2:将待检测残缺汉字X的扫描图像按比例压缩至l×w像素点,随后生成残缺汉字X的扫描图像所对应的汉字矩阵X,该矩阵中的元素值即为该像素点的灰度值;依然以ξ为灰度二值化阈值,对矩阵X进行公式(5)所示二值化处理,得到二值化矩阵X′,其中X′(i,j),i∈[1,l],j∈[1,w]为元素值;
Step3:将二值化矩阵X′进行公式(6)所示分块处理,得到分块矩阵X1′、X2′、X3′、X4′;
Step4:将分块矩阵X1′、X2′、X3′、X4′进行公式(7)所示纵向叠加处理,生成纵向特征向量{xz1,xz2,…,xz2l};
Step5:将分块矩阵X1′、X2′、X3′、X4′进行公式(8)所示横向叠加处理,生成横向特征向量{xh1,xh2,…,xh2w};
Step6:将纵向特征向量{xz1,xz2,…,xz2l}、横向特征向量{xh1,xh2,…,xh2w}进行连接合并,组成新的特征向量{x1,x2,…,x2l+2w};
Step7:调取汉字特征数据库中的汉字F,以及对应的特征向量{f1,f2,…,f2l+2w},通过余弦定理算法公式(9)计算残缺汉字X与汉字F之间的识别度Sbd(X,F);
Step8:遍历汉字特征数据库中的所有数据,对数据库中每个汉字Fi,i∈[1,K]都经Step7步骤计算其与残缺汉字X之间的识别度Sbd(X,Fi),i∈[1,K];将按照从大到小的顺序排序,提取出前θ个待定汉字并输出。
进一步地,所述步骤Step0.1中,TTC字体文件包括但不限于宋体、黑体、微软雅黑等十多种常用字体;汉字图像大小l×w是由字体文件中提取的汉字字体大小决定,可自由设置,并强制令l、w为偶数;并且灰度二值化阈值ξ满足0≤ξ≤255的要求,通常取ξ=1。
进一步地,所述步骤Step1中,提取残缺汉字的图像信息时尽可能使残缺汉字平铺,有助于提取残缺汉字的汉字特征。
进一步地,所述步骤Step8中,K即为汉字的总个数,若按照编码方式为Unicode的基本字符集为标准,则共有20902个汉字,即K=20902。
进一步地,所述步骤Step8中,θ可由使用者自己定义,通常令θ=3,θ越大则识别准确度越高,但使用者所需花费的查找时间也随之增加。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (2)
1.一种基于矩阵分块的残缺汉字识别方法,其特征在于:
Step0:采集汉字图像,对图像进行预处理,并创建汉字特征数据库;具体实施步骤如Step0.1~Step0.4所示;
Step0.1:从TTC字体文件中提取出每个汉字所对应的图像,即汉字图像大小为l×w,单位为像素点,并强制令l、w为偶数;将汉字图像作为输入源,生成该汉字所对应的汉字矩阵I,该矩阵中的元素值即为该像素点的灰度值;定义ξ为灰度二值化阈值,对矩阵I进行公式(1)所示二值化处理,得到二值化矩阵I′,其中I′(i,j)为元素值,i∈[1,l],j∈[1,w];
Step0.2:将二值化矩阵I′进行公式(2)所示分块处理,得到分块矩阵I1′、I2′、I3′、I4′;
Step0.3:将分块矩阵I1′、I2′、I3′、I4′进行公式(3)所示纵向叠加处理,生成纵向特征向量{z1,z2,…,z2l};
Step0.4:将分块矩阵I1′、I2′、I3′、I4′进行公式(4)所示横向叠加处理,生成横向特征向量{h1,h2,…,h2w};
Step0.5:将纵向特征向量{z1,z2,…,z2l}、横向特征向量{h1,h2,…,h2w}进行连接合并,组成新的特征向量{f1,f2,…,f2l+2w};
Step0.6:将汉字及其对应的特征向量{f1,f2,…,f2l+2w}存入数据库,组建汉字特征数据库;
Step1:利用现代扫描技术及汉字形状特征,从纸张或其他载体中提取出待检测残缺汉字X的图像,将图像以l:w的比例剪切至待检测残缺汉字X尽可能铺满图像为止,但要将其残缺汉字重心处于图像的中心,并留取合适的边距,生成待检测残缺汉字X的扫描图像
Step2:将待检测残缺汉字X的扫描图像按比例压缩至l×w像素点,随后生成残缺汉字X的扫描图像所对应的汉字矩阵X,该矩阵中的元素值即为该像素点的灰度值;依然以ξ为灰度二值化阈值,对矩阵X进行公式(5)所示二值化处理,得到二值化矩阵X′,其中X′(i,j)为元素值,i∈[1,l],j∈[1,w];
Step3:将二值化矩阵X′进行公式(6)所示分块处理,得到分块矩阵X1′、X2′、X3′、X4′;
Step4:将分块矩阵X1′、X2′、X3′、X4′进行公式(7)所示纵向叠加处理,生成纵向特征向量{xz1,xz2,…,xz2l};
Step5:将分块矩阵X1′、X2′、X3′、X4′进行公式(8)所示横向叠加处理,生成横向特征向量{xh1,xh2,…,xh2w};
Step6:将纵向特征向量{xz1,xz2,…,xz2l}、横向特征向量{xh1,xh2,…,xh2w}进行连接合并,组成新的特征向量{x1,x2,…,x2l+2w};
Step7:调取汉字特征数据库中的汉字F,以及对应的特征向量{f1,f2,…,f2l+2w},通过余弦定理算法公式(9)计算残缺汉字X与汉字F之间的识别度Sbd(X,F);
Step8:遍历汉字特征数据库中的所有数据,对数据库中每个汉字Fp,p∈[1,K]都经Step7步骤计算其与残缺汉字X之间的识别度Sbd(X,Fp),p∈[1,K];将识别度按照从大到小的顺序排序,提取出前θ个待定汉字并输出;
所述步骤Step0.1中,TTC字体文件包括但不限于宋体、黑体、微软雅黑;汉字图像大小l×w是由字体文件中提取的汉字字体大小决定,并强制令l、w为偶数;并且灰度二值化阈值ξ满足0≤ξ≤255的要求,取ξ=1。
2.根据权利要求1所述的基于矩阵分块的残缺汉字识别方法,其特征在于:所述步骤Step8中,K即为汉字的总个数,若按照编码方式为Unicode的基本字符集为标准,则共有20902个汉字,即K=20902。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811052474.5A CN109447058B (zh) | 2018-09-10 | 2018-09-10 | 一种基于矩阵分块的残缺汉字识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811052474.5A CN109447058B (zh) | 2018-09-10 | 2018-09-10 | 一种基于矩阵分块的残缺汉字识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109447058A CN109447058A (zh) | 2019-03-08 |
CN109447058B true CN109447058B (zh) | 2022-04-12 |
Family
ID=65533312
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811052474.5A Active CN109447058B (zh) | 2018-09-10 | 2018-09-10 | 一种基于矩阵分块的残缺汉字识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109447058B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7634137B2 (en) * | 2005-10-14 | 2009-12-15 | Microsoft Corporation | Unfolded convolution for fast feature extraction |
CN104376300A (zh) * | 2014-11-03 | 2015-02-25 | 电子科技大学 | 一种基于网格特征智能匹配残缺汉字的识别方法 |
CN108038495A (zh) * | 2017-12-04 | 2018-05-15 | 昆明理工大学 | 一种残缺汉字识别方法 |
-
2018
- 2018-09-10 CN CN201811052474.5A patent/CN109447058B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7634137B2 (en) * | 2005-10-14 | 2009-12-15 | Microsoft Corporation | Unfolded convolution for fast feature extraction |
CN104376300A (zh) * | 2014-11-03 | 2015-02-25 | 电子科技大学 | 一种基于网格特征智能匹配残缺汉字的识别方法 |
CN108038495A (zh) * | 2017-12-04 | 2018-05-15 | 昆明理工大学 | 一种残缺汉字识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109447058A (zh) | 2019-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kashyap et al. | Automatic number plate recognition | |
WO2017016240A1 (zh) | 一种钞票冠字号识别方法 | |
CN108038495B (zh) | 一种残缺汉字识别方法 | |
Mohammad et al. | Optical character recognition implementation using pattern matching | |
US8320665B2 (en) | Document image segmentation system | |
CN109583438B (zh) | 电子图像的文字的识别方法及图像处理装置 | |
JP2001167131A (ja) | 文書シグネチュアを使用する文書の自動分類方法 | |
CN102831403A (zh) | 一种基于指纹特征点的识别方法 | |
US11132407B2 (en) | System for the automatic separation of documents in a batch of documents | |
CN112508011A (zh) | 一种基于神经网络的ocr识别方法及设备 | |
CN108520215B (zh) | 基于多尺度联合特征编码器的单样本人脸识别方法 | |
CN113569833A (zh) | 基于文本文档的文字识别方法、装置、设备及存储介质 | |
CN106991416A (zh) | 一种基于手动拍照的化验单识别方法 | |
CN110414431B (zh) | 基于弹性上下文关系损失函数的人脸识别方法及系统 | |
CN114495139A (zh) | 一种基于图像的作业查重系统及方法 | |
CN108171115B (zh) | 一种残缺英文单词识别方法 | |
CN109447058B (zh) | 一种基于矩阵分块的残缺汉字识别方法 | |
CN109409358B (zh) | 一种基于纵横直方图的残缺汉字识别方法 | |
CN109460701B (zh) | 一种基于纵横直方图的字体识别方法 | |
Halder et al. | Individuality of isolated Bangla characters | |
JPH0869506A (ja) | 手書き文字の認識方法および装置 | |
Çakı et al. | A novel shape descriptor for object recognition | |
CN109409373A (zh) | 一种基于图像处理的字体识别方法 | |
CN110728214A (zh) | 一种基于尺度匹配的弱小人物目标检测方法 | |
Ali et al. | UOCR: A ligature based approach for an Urdu OCR system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |