CN109409358A - 一种基于纵横直方图的残缺汉字识别方法 - Google Patents
一种基于纵横直方图的残缺汉字识别方法 Download PDFInfo
- Publication number
- CN109409358A CN109409358A CN201811052475.XA CN201811052475A CN109409358A CN 109409358 A CN109409358 A CN 109409358A CN 201811052475 A CN201811052475 A CN 201811052475A CN 109409358 A CN109409358 A CN 109409358A
- Authority
- CN
- China
- Prior art keywords
- chinese character
- matrix
- image
- chinese
- incomplete
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000006243 chemical reaction Methods 0.000 claims abstract description 5
- 239000000284 extract Substances 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 39
- 239000000969 carrier Substances 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 230000005484 gravity Effects 0.000 claims description 3
- 230000010365 information processing Effects 0.000 abstract description 2
- 238000002156 mixing Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Abstract
本发明涉及一种基于纵横直方图的残缺汉字识别方法,属于汉语信息处理技术领域。本发明通过TTC字体文件提取汉字的纵向特征向量及横向特征向量,建立汉字特征数据库,对任意待检测残缺汉字通过现代扫描技术及汉字形状特征转化为图像,对其进行特定的灰度化、二值化处理后提取汉字特征并生成纵向特征向量及横向特征向量,与数据库中现有汉字分别计算其基于纵向直方图的识别度及基于横向直方图的识别度,通过融合算法计算最终识别度,最后通过排序输出识别度最高的汉字集合。本发明主要解决了现有技术耗费人力且准确性欠佳等现象,增加了目前依靠计算机对残缺汉字进行识别的有效性和准确性。
Description
技术领域
本发明涉及一种基于纵横直方图的残缺汉字识别方法,属于汉语信息处理技术领域。
背景技术
在文物考察、重要文档辨识中,可能存在一些汉字的一部分因某种原因而被抹去,正确识别出这些残缺的汉字对近代历史研究及考察名人语录等方面具有重要意义。
目前,对于残缺汉字的识别,主要是依靠人对汉字的熟悉程度以及人工对比汉语词典,再根据上下文信息进行推理得到,但是由于汉字的广泛性,使得这一工作即耗时又繁琐。若以编码方式为Unicode的基本字符集为标准,则共有20902个汉字,即使可以根据残缺汉字的大概字形及上下文信息推理进行筛选,但筛选结果也存在许多的备选项,更重要的是人工识别中对于这一工作难免会产生疏忽与厌倦,这就造成了识别残缺汉字的难度又一步加大。
发明内容
本发明要解决的技术问题是提供一种基于纵横直方图的残缺汉字识别方法,以解决现有技术对残缺汉字的识别耗费人力且准确性欠佳等现象,致力于增加目前依靠计算机对残缺汉字进行识别的有效性和准确性。
本发明的技术方案是:一种基于纵横直方图的残缺汉字识别方法,该方法具体包括以下步骤:
Step0:采集汉字图像,对图像进行预处理,并创建汉字特征数据库;具体实施步骤如Step0.1~Step0.4所示;
Step0.1:从TTC字体文件中提取出每个汉字所对应的图像,即汉字图像大小为l×w(单位为像素点);将汉字图像作为输入源,生成该汉字所对应的汉字矩阵Il×w,该矩阵中的元素值即为该像素点的灰度值;定义ξ为灰度二值化阈值,对矩阵Il×w进行公式(1)所示二值化处理,得到二值化矩阵I′l×w,其中I′(i,j),i∈[1,l],j∈[1,w]为元素值;
Step0.2:将二值化矩阵I′l×w进行公式(2)所示纵向叠加处理,生成纵向特征向量{z1,z2,…,zl};
Step0.3:将二值化矩阵I′l×w进行公式(3)所示横向叠加处理,生成横向特征向量{h1,h2,…,hw};
Step0.4:将汉字及其对应的纵向特征向量{z1,z2,…,zl}、横向特征向量{h1,h2,…,hw}存入数据库,组建汉字特征数据库;
Step1:利用现代扫描技术及汉字形状特征,从纸张或其他载体中提取出待检测残缺汉字X的图像,将图像以l:w的比例剪切至待检测残缺汉字X尽可能铺满图像为止,但要将其残缺汉字重心处于图像的中心,并留取合适的边距,生成待检测残缺汉字X的扫描图像
Step2:将待检测残缺汉字X的扫描图像按比例压缩至l×w像素点,随后生成残缺汉字X的扫描图像所对应的汉字矩阵Xl×w,该矩阵中的元素值即为该像素点的灰度值;依然以ξ为灰度二值化阈值,对矩阵Xl×w进行公式(4)所示二值化处理,得到二值化矩阵X′l×w,其中X′(i,j),i∈[1,l],j∈[1,w]为元素值;
Step3:将二值化矩阵X′l×w进行公式(5)所示纵向叠加处理,生成纵向特征向量{xz1,xz2,…,xzl};
Step4:将二值化矩阵I′l×w进行公式(6)所示横向叠加处理,生成横向特征向量{xh1,xh2,…,xhw};
Step5:调取汉字特征数据库中的汉字F,以及对应的纵向特征向量{fz1,fz2,…,fzl}、横向特征向量{fh1,fh2,…,fhw},通过余弦定理算法公式(7)、公式(8)计算残缺汉字X与汉字F之间基于纵向直方图的识别度Sbdz(X,F)及基于横向直方图的识别度Sbdh(X,F),最后通过融合公式(9)计算最终识别度Sbd(X,F);
Step6:遍历汉字特征数据库中的所有数据,对数据库中每个汉字Fi,i∈[1,K]都经Step5步骤计算其与残缺汉字X之间的识别度Sbd(X,Fi),i∈[1,K];将按照从大到小的顺序排序,提取出前θ个待定汉字并输出。
进一步地,所述步骤Step0.1中,TTC字体文件包括但不限于宋体、黑体、微软雅黑等十多种常用字体;汉字图像大小l×w是由字体文件中提取的汉字字体大小决定,可自由设置;并且灰度二值化阈值ξ满足0≤ξ≤255的要求,通常取ξ=1。
进一步地,所述步骤Step1中,提取残缺汉字的图像信息时尽可能使残缺汉字平铺,有助于提取残缺汉字的汉字特征。
进一步地,所述步骤Step6中,K即为汉字的总个数,若按照编码方式为Unicode的基本字符集为标准,则共有20902个汉字,即K=20902。
进一步地,所述步骤Step6中,θ可由使用者自己定义,通常令θ=3,θ越大则识别准确度越高,但使用者所需花费的查找时间也随之增加。
本发明的有益效果是:本发明与现有技术相比,主要解决了现有技术耗费人力且准确性欠佳等现象,增加了目前依靠计算机对残缺汉字进行识别的有效性和准确性。
附图说明
图1是本发明步骤流程图;
图2是本发明建立数据库流程示意图;
图3是本发明获取待检测残缺文字的纵向及横向特征向量流程示意图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1-3所示,一种基于纵横直方图的残缺汉字识别方法,通过TTC字体文件提取汉字的纵向特征向量及横向特征向量,建立汉字特征数据库,对任意待检测残缺汉字通过现代扫描技术及汉字形状特征转化为图像,对其进行特定的灰度化、二值化处理后提取汉字特征并生成纵向特征向量及横向特征向量,与数据库中现有汉字分别计算其基于纵向直方图的识别度及基于横向直方图的识别度,通过融合算法计算最终识别度,最后通过排序输出识别度最高的汉字集合。
具体步骤为:
Step0:采集汉字图像,对图像进行预处理,并创建汉字特征数据库;具体实施步骤如Step0.1~Step0.4所示;
Step0.1:从TTC字体文件中提取出每个汉字所对应的图像,即汉字图像大小为l×w(单位为像素点);将汉字图像作为输入源,生成该汉字所对应的汉字矩阵Il×w,该矩阵中的元素值即为该像素点的灰度值;定义ξ为灰度二值化阈值,对矩阵Il×w进行公式(1)所示二值化处理,得到二值化矩阵I′l×w,其中I′(i,j),i∈[1,l],j∈[1,w]为元素值;
Step0.2:将二值化矩阵I′l×w进行公式(2)所示纵向叠加处理,生成纵向特征向量{z1,z2,…,zl};
Step0.3:将二值化矩阵I′l×w进行公式(3)所示横向叠加处理,生成横向特征向量{h1,h2,…,hw};
Step0.4:将汉字及其对应的纵向特征向量{z1,z2,…,zl}、横向特征向量{h1,h2,…,hw}存入数据库,组建汉字特征数据库;
Step1:利用现代扫描技术及汉字形状特征,从纸张或其他载体中提取出待检测残缺汉字X的图像,将图像以l:w的比例剪切至待检测残缺汉字X尽可能铺满图像为止,但要将其残缺汉字重心处于图像的中心,并留取合适的边距,生成待检测残缺汉字X的扫描图像
Step2:将待检测残缺汉字X的扫描图像按比例压缩至l×w像素点,随后生成残缺汉字X的扫描图像所对应的汉字矩阵Xl×w,该矩阵中的元素值即为该像素点的灰度值;依然以ξ为灰度二值化阈值,对矩阵Xl×w进行公式(4)所示二值化处理,得到二值化矩阵X′l×w,其中X′(i,j),i∈[1,l],j∈[1,w]为元素值;
Step3:将二值化矩阵X′l×w进行公式(5)所示纵向叠加处理,生成纵向特征向量{xz1,xz2,…,xzl};
Step4:将二值化矩阵I′l×w进行公式(6)所示横向叠加处理,生成横向特征向量{xh1,xh2,…,xhw};
Step5:调取汉字特征数据库中的汉字F,以及对应的纵向特征向量{fz1,fz2,…,fzl}、横向特征向量{fh1,fh2,…,fhw},通过余弦定理算法公式(7)、公式(8)计算残缺汉字X与汉字F之间基于纵向直方图的识别度Sbdz(X,F)及基于横向直方图的识别度Sbdh(X,F),最后通过融合公式(9)计算最终识别度Sbd(X,F);
Step6:遍历汉字特征数据库中的所有数据,对数据库中每个汉字Fi,i∈[1,K]都经Step5步骤计算其与残缺汉字X之间的识别度Sbd(X,Fi),i∈[1,K];将按照从大到小的顺序排序,提取出前θ个待定汉字并输出。
进一步地,所述步骤Step0.1中,TTC字体文件包括但不限于宋体、黑体、微软雅黑等十多种常用字体;汉字图像大小l×w是由字体文件中提取的汉字字体大小决定,可自由设置;并且灰度二值化阈值ξ满足0≤ξ≤255的要求,通常取ξ=1。
进一步地,所述步骤Step1中,提取残缺汉字的图像信息时尽可能使残缺汉字平铺,有助于提取残缺汉字的汉字特征。
进一步地,所述步骤Step6中,K即为汉字的总个数,若按照编码方式为Unicode的基本字符集为标准,则共有20902个汉字,即K=20902。
进一步地,所述步骤Step6中,θ可由使用者自己定义,通常令θ=3,θ越大则识别准确度越高,但使用者所需花费的查找时间也随之增加。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (3)
1.一种基于纵横直方图的残缺汉字识别方法,其特征在于:
Step0:采集汉字图像,对图像进行预处理,并创建汉字特征数据库;具体实施步骤如Step0.1~Step0.4所示;
Step0.1:从TTC字体文件中提取出每个汉字所对应的图像,即汉字图像大小为l×w,单位为像素点;将汉字图像作为输入源,生成该汉字所对应的汉字矩阵Il×w,该矩阵中的元素值即为该像素点的灰度值;定义ξ为灰度二值化阈值,对矩阵Il×w进行公式(1)所示二值化处理,得到二值化矩阵I′l×w,其中I′(i,j),i∈[1,l],j∈[1,w]为元素值;
Step0.2:将二值化矩阵I′l×w进行公式(2)所示纵向叠加处理,生成纵向特征向量{z1,z2,…,zl};
Step0.3:将二值化矩阵I′l×w进行公式(3)所示横向叠加处理,生成横向特征向量{h1,h2,…,hw};
Step0.4:将汉字及其对应的纵向特征向量{z1,z2,…,zl}、横向特征向量{h1,h2,…,hw}存入数据库,组建汉字特征数据库;
Step1:利用现代扫描技术及汉字形状特征,从纸张或其他载体中提取出待检测残缺汉字X的图像,将图像以l:w的比例剪切至待检测残缺汉字X尽可能铺满图像为止,但要将其残缺汉字重心处于图像的中心,并留取合适的边距,生成待检测残缺汉字X的扫描图像
Step2:将待检测残缺汉字X的扫描图像按比例压缩至l×w像素点,随后生成残缺汉字X的扫描图像所对应的汉字矩阵Xl×w,该矩阵中的元素值即为该像素点的灰度值;依然以ξ为灰度二值化阈值,对矩阵Xl×w进行公式(4)所示二值化处理,得到二值化矩阵X′l×w,其中X′(i,j),i∈[1,l],j∈[1,w]为元素值;
Step3:将二值化矩阵X′l×w进行公式(5)所示纵向叠加处理,生成纵向特征向量{xz1,xz2,…,xzl};
Step4:将二值化矩阵I′l×w进行公式(6)所示横向叠加处理,生成横向特征向量{xh1,xh2,…,xhw};
Step5:调取汉字特征数据库中的汉字F,以及对应的纵向特征向量{fz1,fz2,…,fzl}、横向特征向量{fh1,fh2,…,fhw},通过余弦定理算法公式(7)、公式(8)计算残缺汉字X与汉字F之间基于纵向直方图的识别度Sbdz(X,F)及基于横向直方图的识别度Sbdh(X,F),最后通过融合公式(9)计算最终识别度Sbd(X,F);
Step6:遍历汉字特征数据库中的所有数据,对数据库中每个汉字Fi,i∈[1,K]都经Step5步骤计算其与残缺汉字X之间的识别度Sbd(X,Fi),i∈[1,K];将按照从大到小的顺序排序,提取出前θ个待定汉字并输出。
2.根据权利要求1所述的基于纵横直方图的残缺汉字识别方法,其特征在于:所述步骤Step0.1中,TTC字体文件包括但不限于宋体、黑体、微软雅黑;汉字图像大小l×w是由字体文件中提取的汉字字体大小决定,并且灰度二值化阈值ξ满足0≤ξ≤255的要求,取ξ=1。
3.根据权利要求1所述的基于纵横直方图的残缺汉字识别方法,其特征在于:所述步骤Step6中,K即为汉字的总个数,若按照编码方式为Unicode的基本字符集为标准,则共有20902个汉字,即K=20902。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811052475.XA CN109409358B (zh) | 2018-09-10 | 2018-09-10 | 一种基于纵横直方图的残缺汉字识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811052475.XA CN109409358B (zh) | 2018-09-10 | 2018-09-10 | 一种基于纵横直方图的残缺汉字识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109409358A true CN109409358A (zh) | 2019-03-01 |
CN109409358B CN109409358B (zh) | 2021-10-22 |
Family
ID=65464671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811052475.XA Active CN109409358B (zh) | 2018-09-10 | 2018-09-10 | 一种基于纵横直方图的残缺汉字识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109409358B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7010166B2 (en) * | 2000-11-22 | 2006-03-07 | Lockheed Martin Corporation | Character recognition system and method using spatial and structural feature extraction |
CN106295645A (zh) * | 2016-08-17 | 2017-01-04 | 东方网力科技股份有限公司 | 一种车牌字符识别方法和装置 |
CN108038495A (zh) * | 2017-12-04 | 2018-05-15 | 昆明理工大学 | 一种残缺汉字识别方法 |
-
2018
- 2018-09-10 CN CN201811052475.XA patent/CN109409358B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7010166B2 (en) * | 2000-11-22 | 2006-03-07 | Lockheed Martin Corporation | Character recognition system and method using spatial and structural feature extraction |
CN106295645A (zh) * | 2016-08-17 | 2017-01-04 | 东方网力科技股份有限公司 | 一种车牌字符识别方法和装置 |
CN108038495A (zh) * | 2017-12-04 | 2018-05-15 | 昆明理工大学 | 一种残缺汉字识别方法 |
Non-Patent Citations (2)
Title |
---|
C.SURESHKUMAR ET AL.: "Handwritten Tamil Character Recognition and Conversion using Neural Network", 《IJCSE》 * |
郭明: "残缺和破损条形码的图像识别技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN109409358B (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108509881A (zh) | 一种无切分的脱机手写汉字文本识别方法 | |
CN109871851B (zh) | 一种基于卷积神经网络算法的汉字书写规范性判定方法 | |
CN101763516B (zh) | 一种基于拟合函数的文字识别方法 | |
WO2007005937A2 (en) | Grammatical parsing of document visual structures | |
Saady et al. | Amazigh handwritten character recognition based on horizontal and vertical centerline of character | |
CN108038495A (zh) | 一种残缺汉字识别方法 | |
CN103093240A (zh) | 书法字识别方法 | |
Dhali et al. | A digital palaeographic approach towards writer identification in the dead sea scrolls | |
Chaabouni et al. | Fractal and multi-fractal for arabic offline writer identification | |
CN112069900A (zh) | 基于卷积神经网络的票据文字识别方法及系统 | |
Karunarathne et al. | Recognizing ancient sinhala inscription characters using neural network technologies | |
CN111666937A (zh) | 一种图像中的文本识别方法及系统 | |
CN109685061A (zh) | 适用于结构化的数学公式的识别方法 | |
Inunganbi et al. | Recognition of handwritten Meitei Mayek script based on texture feature | |
Naz et al. | An Ocr system for printed Nasta'liq script: A segmentation based approach | |
CN109344834A (zh) | 一种基于图像处理的残缺汉字识别方法 | |
CN109409373A (zh) | 一种基于图像处理的字体识别方法 | |
Halder et al. | Individuality of isolated Bangla characters | |
CN109409358A (zh) | 一种基于纵横直方图的残缺汉字识别方法 | |
Ali et al. | UOCR: A ligature based approach for an Urdu OCR system | |
Azmi et al. | Digital paleography: Using the digital representation of Jawi manuscripts to support paleographic analysis | |
Ajao et al. | Yoruba handwriting word recognition quality evaluation of preprocessing attributes using information theory approach | |
CN109447058A (zh) | 一种基于矩阵分块的残缺汉字识别方法 | |
Rajithkumar et al. | Template matching method for recognition of stone inscripted Kannada characters of different time frames based on correlation analysis | |
CN109460701B (zh) | 一种基于纵横直方图的字体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |