CN109344834A - 一种基于图像处理的残缺汉字识别方法 - Google Patents

一种基于图像处理的残缺汉字识别方法 Download PDF

Info

Publication number
CN109344834A
CN109344834A CN201811035069.2A CN201811035069A CN109344834A CN 109344834 A CN109344834 A CN 109344834A CN 201811035069 A CN201811035069 A CN 201811035069A CN 109344834 A CN109344834 A CN 109344834A
Authority
CN
China
Prior art keywords
chinese character
incomplete
image
chinese
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811035069.2A
Other languages
English (en)
Inventor
龙华
吴睿
熊新
邵玉斌
杜庆治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201811035069.2A priority Critical patent/CN109344834A/zh
Publication of CN109344834A publication Critical patent/CN109344834A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Abstract

本发明涉及一种基于图像处理的残缺汉字识别方法,属于汉语信息处理技术领域。本发明通过TTC字体文件提取汉字特征向量以建立汉字特征向量数据库,对任意待检测残缺汉字通过现代扫描技术及汉字形状特征转化为图像,对其进行特定的灰度化、二值化处理后提取汉字特征并生成特征向量,与数据库中现有汉字计算其识别度,最后通过排序输出识别度最高的汉字集合。本发明与现有技术相比,主要解决了现有技术耗费人力且准确性欠佳等现象,增加了目前依靠计算机对残缺汉字进行识别的有效性和准确性。

Description

一种基于图像处理的残缺汉字识别方法
技术领域
本发明涉及一种基于图像处理的残缺汉字识别方法,属于汉语信息处理技术领域。
背景技术
在文物考察、重要文档辨识中,可能存在一些汉字的一部分因某种原因而被抹去,正确识别出这些残缺的汉字对近代历史研究及考察名人语录等方面具有重要意义。
目前,对于残缺汉字的识别,主要是依靠人对汉字的熟悉程度以及人工对比汉语词典,再根据上下文信息进行推理得到,但是由于汉字的广泛性,使得这一工作即耗时又繁琐。若以编码方式为Unicode的基本字符集为标准,则共有20902个汉字,即使可以根据残缺汉字的大概字形及上下文信息推理进行筛选,但筛选结果也存在许多的备选项,更重要的是人工识别中对于这一工作难免会产生疏忽与厌倦,这就造成了识别残缺汉字的难度又一步加大。
发明内容
本发明要解决的技术问题是针对现有技术的局限和不足,提供一种基于图像处理的残缺汉字识别方法,以解决现有技术对残缺汉字的识别耗费人力且准确性欠佳等现象,致力于增加目前依靠计算机对残缺汉字进行识别的有效性和准确性。
本发明的技术方案是:一种基于图像处理的残缺汉字识别方法,该方法具体包括以下步骤:
Step0:从TTC字体文件中提取出每个汉字所对应的图像,即汉字图像大小为l×w(单位为像素点),共计N个像素点;将汉字图像作为输入源,生成该汉字所对应的汉字矩阵Il×w,该矩阵中的元素值即为该像素点的灰度值;定义ξ为灰度二值化阈值,对矩阵Il×w进行公式(1)所示二值化处理,之后将矩阵Il×w按照从左至右、从上至下的规则生成该汉字所对应的特征向量{f1,f2,…,fN};将所有汉字及生成的汉字特征向量存入数据库,组建汉字特征向量数据库;
Step1:利用现代扫描技术及汉字形状特征,从纸张或其他载体中提取出待检测残缺汉字X的图像,将图像以l:w的比例剪切至待检测残缺汉字X尽可能铺满图像为止,但要将其残缺汉字重心处于图像的中心,并留取合适的边距,生成待检测残缺汉字X的扫描图像
Step2:将待检测残缺汉字X的扫描图像按比例压缩至l×w像素点,共计N个像素点,随后生成残缺汉字X的扫描图像所对应的汉字矩阵Xl×w,该矩阵中的元素值即为该像素点的灰度值;依然以ξ为灰度二值化阈值,对矩阵Xl×w进行公式(2)所示二值化处理,之后将矩阵Xl×w按照从左至右、从上至下的规则生成残缺汉字X所对应的特征向量{x1,x2,…,xN};
Step3:调取汉字特征向量数据库中的汉字特征向量{f1,f2,…,fN},记其所对应的汉字为F,通过差值算法计算其与残缺汉字X的特征向量{x1,x2,…,xN}之间的识别度Sbd(X,F);具体实施步骤如Step3.1~Step3.2所示;
Step3.1:定义zi=xi-fi,i∈[1,N],生成残缺汉字X与汉字F所对应的差值特征向量
Step3.2:通过差值计算公式(3)求得残缺汉字X与汉字F之间的识别度Sbd(X,F);
Step4:遍历汉字特征向量数据库中的所有数据,对数据库中每个汉字Fi,i∈[1,K]都经Step3步骤计算其与残缺汉字X之间的识别度Sbd(X,Fi),i∈[1,K];将按照从大到小的顺序排序,提取出前θ个待定汉字并输出。
进一步地,所述步骤Step0中,TTC字体文件包括但不限于宋体、黑体、微软雅黑等十多种常用字体;汉字图像大小l×w是由字体文件中提取的汉字字体大小决定,可自由设置,且总像素点N=l×w;并且灰度二值化阈值ξ满足公式(4)的要求。
0≤ξ≤255 (4)
进一步地,所述步骤Step1中,提取残缺汉字的图像信息时尽可能使残缺汉字平铺,有助于提取残缺汉字的汉字特征。
进一步地,所述步骤Step4中,K即为汉字的总个数,若按照编码方式为Unicode的基本字符集为标准,则共有20902个汉字,即K=20902。
进一步地,所述步骤Step4中,θ可由使用者自己定义,通常令θ=3,θ越大则识别准确度越高,但使用者所需花费的查找时间也随之增加。
本发明的有益效果是:解决了现有技术耗费人力且准确性欠佳等现象,增加了目前依靠计算机对残缺汉字进行识别的有效性和准确性。
附图说明
图1是本发明总流程示意图;
图2是本发明建立数据库流程示意图;
图3是本发明获取待检测残缺文字的特征向量流程示意图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:一种基于图像处理的残缺汉字识别方法,通过TTC字体文件提取汉字特征向量以建立汉字特征向量数据库,对任意待检测残缺汉字通过现代扫描技术及汉字形状特征转化为图像,对其进行特定的灰度化、二值化处理后提取汉字特征并生成特征向量,与数据库中现有汉字计算其识别度,最后通过排序输出识别度最高的汉字集合。本发明与现有技术相比,主要解决了现有技术耗费人力且准确性欠佳等现象,增加了目前依靠计算机对残缺汉字进行识别的有效性和准确性。
具体步骤为:
Step0:从TTC字体文件中提取出每个汉字所对应的图像,即汉字图像大小为l×w(单位为像素点),共计N个像素点;将汉字图像作为输入源,生成该汉字所对应的汉字矩阵Il×w,该矩阵中的元素值即为该像素点的灰度值;定义ξ为灰度二值化阈值,对矩阵Il×w进行公式(1)所示二值化处理,之后将矩阵Il×w按照从左至右、从上至下的规则生成该汉字所对应的特征向量{f1,f2,…,fN};将所有汉字及生成的汉字特征向量存入数据库,组建汉字特征向量数据库;
Step1:利用现代扫描技术及汉字形状特征,从纸张或其他载体中提取出待检测残缺汉字X的图像,将图像以l:w的比例剪切至待检测残缺汉字X尽可能铺满图像为止,但要将其残缺汉字重心处于图像的中心,并留取合适的边距,生成待检测残缺汉字X的扫描图像
Step2:将待检测残缺汉字X的扫描图像按比例压缩至l×w像素点,共计N个像素点,随后生成残缺汉字X的扫描图像所对应的汉字矩阵Xl×w,该矩阵中的元素值即为该像素点的灰度值;依然以ξ为灰度二值化阈值,对矩阵Xl×w进行公式(2)所示二值化处理,之后将矩阵Xl×w按照从左至右、从上至下的规则生成残缺汉字X所对应的特征向量{x1,x2,…,xN};
Step3:调取汉字特征向量数据库中的汉字特征向量{f1,f2,…,fN},记其所对应的汉字为F,通过差值算法计算其与残缺汉字X的特征向量{x1,x2,…,xN}之间的识别度Sbd(X,F);具体实施步骤如Step3.1~Step3.2所示;
Step3.1:定义zi=xi-fi,i∈[1,N],生成残缺汉字X与汉字F所对应的差值特征向量
Step3.2:通过差值计算公式(3)求得残缺汉字X与汉字F之间的识别度Sbd(X,F);
Step4:遍历汉字特征向量数据库中的所有数据,对数据库中每个汉字Fi,i∈[1,K]都经Step3步骤计算其与残缺汉字X之间的识别度Sbd(X,Fi),i∈[1,K];将按照从大到小的顺序排序,提取出前θ个待定汉字并输出。
进一步地,所述步骤Step0中,TTC字体文件包括但不限于宋体、黑体、微软雅黑等十多种常用字体;汉字图像大小l×w是由字体文件中提取的汉字字体大小决定,可自由设置,且总像素点N=l×w;并且灰度二值化阈值ξ满足公式(4)的要求。
0≤ξ≤255 (4)
进一步地,所述步骤Step1中,提取残缺汉字的图像信息时尽可能使残缺汉字平铺,有助于提取残缺汉字的汉字特征。
进一步地,所述步骤Step4中,K即为汉字的总个数,若按照编码方式为Unicode的基本字符集为标准,则共有20902个汉字,即K=20902。
进一步地,所述步骤Step4中,θ可由使用者自己定义,通常令θ=3,θ越大则识别准确度越高,但使用者所需花费的查找时间也随之增加。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (3)

1.一种基于图像处理的残缺汉字识别方法,其特征在于:
Step0:从TTC字体文件中提取出每个汉字所对应的图像,即汉字图像大小为l×w,单位为像素点,共计N个像素点;将汉字图像作为输入源,生成该汉字所对应的汉字矩阵Il×w,该矩阵中的元素值即为该像素点的灰度值;定义ξ为灰度二值化阈值,对矩阵Il×w进行公式(1)所示二值化处理,之后将矩阵Il×w按照从左至右、从上至下的规则生成该汉字所对应的特征向量{f1,f2,…,fN};将所有汉字及生成的汉字特征向量存入数据库,组建汉字特征向量数据库;
Step1:利用现代扫描技术及汉字形状特征,从纸张或其他载体中提取出待检测残缺汉字X的图像,将图像以l:w的比例剪切至待检测残缺汉字X尽可能铺满图像为止,但要将其残缺汉字重心处于图像的中心,并留取合适的边距,生成待检测残缺汉字X的扫描图像
Step2:将待检测残缺汉字X的扫描图像按比例压缩至l×w像素点,共计N个像素点,随后生成残缺汉字X的扫描图像所对应的汉字矩阵Xl×w,该矩阵中的元素值即为该像素点的灰度值;依然以ξ为灰度二值化阈值,对矩阵Xl×w进行公式(2)所示二值化处理,之后将矩阵Xl×w按照从左至右、从上至下的规则生成残缺汉字X所对应的特征向量{x1,x2,…,xN};
Step3:调取汉字特征向量数据库中的汉字特征向量{f1,f2,…,fN},记其所对应的汉字为F,通过差值算法计算其与残缺汉字X的特征向量{x1,x2,…,xN}之间的识别度Sbd(X,F);具体实施步骤如Step3.1~Step3.2所示;
Step3.1:定义zi=xi-fi,i∈[1,N],生成残缺汉字X与汉字F所对应的差值特征向量
Step3.2:通过差值计算公式(3)求得残缺汉字X与汉字F之间的识别度Sbd(X,F);
Step4:遍历汉字特征向量数据库中的所有数据,对数据库中每个汉字Fi,i∈[1,K]都经Step3步骤计算其与残缺汉字X之间的识别度Sbd(X,Fi),i∈[1,K];将按照从大到小的顺序排序,提取出前θ个待定汉字并输出。
2.根据权利要求1所述的基于图像处理的残缺汉字识别方法,其特征在于:所述步骤Step0中,汉字图像大小l×w是由字体文件中提取的汉字字体大小决定,且总像素点N=l×w;并且灰度二值化阈值ξ满足公式(4)的要求;
0≤ξ≤255 (4)。
3.根据权利要求1所述的基于图像处理的残缺汉字识别方法,其特征在于:所述步骤Step4中,K即为汉字的总个数,若按照编码方式为Unicode的基本字符集为标准,则共有20902个汉字,即K=20902。
CN201811035069.2A 2018-09-06 2018-09-06 一种基于图像处理的残缺汉字识别方法 Pending CN109344834A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811035069.2A CN109344834A (zh) 2018-09-06 2018-09-06 一种基于图像处理的残缺汉字识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811035069.2A CN109344834A (zh) 2018-09-06 2018-09-06 一种基于图像处理的残缺汉字识别方法

Publications (1)

Publication Number Publication Date
CN109344834A true CN109344834A (zh) 2019-02-15

Family

ID=65297011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811035069.2A Pending CN109344834A (zh) 2018-09-06 2018-09-06 一种基于图像处理的残缺汉字识别方法

Country Status (1)

Country Link
CN (1) CN109344834A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110126484A (zh) * 2019-05-30 2019-08-16 深圳龙图腾创新设计有限公司 一种打印设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101286202A (zh) * 2008-05-23 2008-10-15 中南民族大学 多字体多字号的基于彝文字符集的印刷体字符识别方法
CN102663380A (zh) * 2012-03-30 2012-09-12 中南大学 一种钢铁板坯编码图像中的字符识别方法
CN103093240A (zh) * 2013-01-18 2013-05-08 浙江大学 书法字识别方法
CN103106402A (zh) * 2013-03-07 2013-05-15 成都威路特软件科技有限公司 一种基于重建的车牌汉字识别方法
CN103428307A (zh) * 2013-08-09 2013-12-04 中国科学院计算机网络信息中心 仿冒域名检测方法及设备
CN104021376A (zh) * 2014-06-05 2014-09-03 北京乐动卓越科技有限公司 验证码识别方法和装置
CN108038495A (zh) * 2017-12-04 2018-05-15 昆明理工大学 一种残缺汉字识别方法
CN108154167A (zh) * 2017-12-04 2018-06-12 昆明理工大学 一种汉字字形相似度计算方法
CN108171115A (zh) * 2017-12-04 2018-06-15 昆明理工大学 一种残缺英文单词识别方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101286202A (zh) * 2008-05-23 2008-10-15 中南民族大学 多字体多字号的基于彝文字符集的印刷体字符识别方法
CN102663380A (zh) * 2012-03-30 2012-09-12 中南大学 一种钢铁板坯编码图像中的字符识别方法
CN103093240A (zh) * 2013-01-18 2013-05-08 浙江大学 书法字识别方法
CN103106402A (zh) * 2013-03-07 2013-05-15 成都威路特软件科技有限公司 一种基于重建的车牌汉字识别方法
CN103428307A (zh) * 2013-08-09 2013-12-04 中国科学院计算机网络信息中心 仿冒域名检测方法及设备
CN104021376A (zh) * 2014-06-05 2014-09-03 北京乐动卓越科技有限公司 验证码识别方法和装置
CN108038495A (zh) * 2017-12-04 2018-05-15 昆明理工大学 一种残缺汉字识别方法
CN108154167A (zh) * 2017-12-04 2018-06-12 昆明理工大学 一种汉字字形相似度计算方法
CN108171115A (zh) * 2017-12-04 2018-06-15 昆明理工大学 一种残缺英文单词识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110126484A (zh) * 2019-05-30 2019-08-16 深圳龙图腾创新设计有限公司 一种打印设备

Similar Documents

Publication Publication Date Title
Obaidullah et al. PHDIndic_11: page-level handwritten document image dataset of 11 official Indic scripts for script identification
Naz et al. The optical character recognition of Urdu-like cursive scripts
Saady et al. Amazigh handwritten character recognition based on horizontal and vertical centerline of character
EP1894144A2 (en) Grammatical parsing of document visual structures
Srihari et al. Role of automation in the examination of handwritten items
CN112508011A (zh) 一种基于神经网络的ocr识别方法及设备
CN108038495A (zh) 一种残缺汉字识别方法
Peng et al. Multi-font printed Mongolian document recognition system
Karunarathne et al. Recognizing ancient sinhala inscription characters using neural network technologies
CN105184329A (zh) 一种基于云平台的脱机手写识别方法
Mozaffari et al. IfN/Farsi-Database: a database of Farsi handwritten city names
Sanjrani et al. Handwritten optical character recognition system for Sindhi numerals
Inunganbi et al. Recognition of handwritten Meitei Mayek script based on texture feature
Nayak et al. Odia running text recognition using moment-based feature extraction and mean distance classification technique
Sharma et al. Primitive feature-based optical character recognition of the Devanagari script
CN109508712A (zh) 一种基于图像的汉语文字识别方法
CN109344834A (zh) 一种基于图像处理的残缺汉字识别方法
CN109409373A (zh) 一种基于图像处理的字体识别方法
Halder et al. Individuality of isolated Bangla characters
Choudhary et al. Offline handwritten mathematical expression evaluator using convolutional neural network
Ajao et al. Yoruba handwriting word recognition quality evaluation of preprocessing attributes using information theory approach
Mane et al. Handwritten character recognition using elastic matching and PCA
Fahn et al. A text independent handwriting forgery detection system based on branchlet features and Gaussian mixture models
CN109460701B (zh) 一种基于纵横直方图的字体识别方法
CN109409358A (zh) 一种基于纵横直方图的残缺汉字识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190215