CN108038495A - 一种残缺汉字识别方法 - Google Patents
一种残缺汉字识别方法 Download PDFInfo
- Publication number
- CN108038495A CN108038495A CN201711256495.4A CN201711256495A CN108038495A CN 108038495 A CN108038495 A CN 108038495A CN 201711256495 A CN201711256495 A CN 201711256495A CN 108038495 A CN108038495 A CN 108038495A
- Authority
- CN
- China
- Prior art keywords
- chinese character
- mrow
- msub
- sim
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 239000011159 matrix material Substances 0.000 claims abstract description 24
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 5
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000005192 partition Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 241000208340 Araliaceae Species 0.000 claims 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 1
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 235000008434 ginseng Nutrition 0.000 claims 1
- 238000010606 normalization Methods 0.000 claims 1
- 238000002156 mixing Methods 0.000 abstract description 4
- 230000010365 information processing Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000005484 gravity Effects 0.000 description 2
- 235000017166 Bambusa arundinacea Nutrition 0.000 description 1
- 235000017491 Bambusa tulda Nutrition 0.000 description 1
- 241001330002 Bambuseae Species 0.000 description 1
- 235000015334 Phyllostachys viridis Nutrition 0.000 description 1
- 239000011425 bamboo Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/28—Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/757—Matching configurations of points or features
Abstract
本发明涉及一种残缺汉字识别方法,属于汉语信息处理技术领域。本发明通过中文点阵字库建立汉字特征数据库,对任意待检测残缺汉字通过现代扫描技术及汉字形状特征转化为图像,对其进行灰度化及二值化后提取汉字特征并生成特征向量,与数据库中现有汉字分别计算其基于余弦定理的字形相似度和基于欧氏距离的字形相似度,最后再通过相似融合算法及相似阈值判定,得到待检测残缺汉字的相似字集合。本发明与现有技术相比,主要解决了现有技术耗费人力且准确性欠佳等现象,致力于增加目前依靠计算机对残缺汉字进行识别的有效性和准确性。
Description
技术领域
本发明涉及一种残缺汉字识别方法,属于汉语信息处理技术领域。
背景技术
在文物考察、重要文档辨识中,可能存在一些汉字的一部分因某种原因而被抹去,正确识别出这些残缺的汉字对近代历史研究及考察名人语录等方面具有重要意义。
目前,对于残缺汉字的识别,主要是依靠人对汉字的熟悉程度以及人工对比汉语词典,再根据上下文信息进行推理得到,但是由于汉字的广泛性,使得这一工作即耗时又繁琐。若以编码方式为Unicode的基本字符集为标准,则共有20902个汉字,即使可以根据残缺汉字的大概字形及上下文信息推理进行筛选,但筛选结果也存在许多的备选项,更重要的是人工识别中对于这一工作难免会产生疏忽与厌倦,这就造成了识别残缺汉字的难度又一步加大。
发明内容
本发明要解决的技术问题是针对现有技术的局限和不足,提供一种残缺汉字识别方法,以解决现有技术对残缺汉字的识别耗费人力且准确性欠佳等现象,致力于增加目前依靠计算机对残缺汉字进行识别的有效性和准确性。
本发明的技术方案是:一种残缺汉字识别方法,具体包括以下步骤:
Step0:提取汉字特征并建立汉字特征数据库。根据15×16像素中文点阵字库,将点阵按照从左至右、从上至下的规则划分为40个2×3像素的小矩阵,记2×3像素小矩阵中汉字所占像素数为pi,i∈[1,40],观察所有pi,i∈[1,40]并生成该汉字所对应的汉字特征向量{p1,p2,…,p40},且将所有汉字及生成的汉字特征向量存入数据库,组建汉字特征数据库P:{P1,P2,…,PN};
Step1:利用现代扫描技术及汉字形状特征,从汉字载体中提取出待检测残缺汉字X的图片,将图片以15:16的比例剪切至待检测残缺汉字X尽可能铺满图片为止,但要将其残缺汉字重心处于图片的中心,并留取合适的边距,生成待检测残缺汉字X的扫描图片
Step2:将待检测残缺汉字X的扫描图片进行灰度化及二值化,将其按比例切割为15×16像素点所组成的矩阵形式,对每个像素点进行归一化,并以此规则生成待检测残缺汉字X的15×16像素点阵形式;
Step3:将待检测残缺汉字X的15×16像素点阵,按照从左至右、从上至下的规则划分为40个2×3像素的小矩阵,记2×3像素小矩阵中残缺汉字所占像素数为pi,i∈[1,40],观察所有pi,i∈[1,40]并生成待检测残缺汉字X所对应的汉字特征向量X:{x1,x2,…,x40};
Step4:将待检测残缺汉字X的汉字特征向量X:{x1,x2,…,x40},以及汉字特征数据库P中的汉字特征向量Pi:{p1,p2,…,p40},i∈[1,N]作为输入,由余弦定理计算公式(1)求得待检测残缺汉字X、目标汉字Pi之间基于余弦定理的字形相似度Sim1(X,Pi);
Step5:将待检测残缺汉字X的汉字特征向量X:{x1,x2,…,x40},以及汉字特征数据库P中的汉字特征向量Pi:{p1,p2,…,p40},i∈[1,N]作为输入,定义归一化参数δ,由欧氏距离计算公式(2)求得待检测残缺汉字X、目标汉字Pi之间基于欧氏距离的字形相似度Sim2(X,Pi);
Step6:设Step4、Step5步骤所计算出的相似度对应权值分别为α、β,权值α、β满足α+β=1的要求,由字形相似度Sim1(X,Pi)及权值α、字形相似度Sim2(X,Pi)及权值β,由相似度融合算法,即公式(3)计算出待检测残缺汉字X、目标汉字Pi之间的最终字形相似度Sim(X,Pi);
Sim(X,Pi)=Sim1(X,Pi)·α+Sim2(X,Pi)·β (3)
Step7:遍历汉字特征数据库P,对数据库中每个汉字Pi,i∈[1,N]都经Step4、Step5、Step6步骤,计算其与待检测残缺汉字X之间的字形相似度Sim(X,Pi),定义相似阈值θ,如果满足公式(4)的要求则将该汉字添加至相似字集合,最终导出待检测残缺汉字X的相似字集合S:{S1,S2,…,SM},其中M是与待检测残缺汉字X相似的汉字个数。
Sim(X,Pi)≥θ (4)
进一步地,所述步骤Step0中,可根据汉字的字体建立多个汉字特征数据库,如宋体汉字特征数据库、楷体汉字特征数据库、隶书汉字特征数据库等。
进一步地,所述步骤Step0和Step3中,2×3像素小矩阵中汉字所占像素数pi,i∈[1,40]应满足公式(5)的要求。
0≤pi≤6,i∈[1,40] (5)
进一步地,所述步骤Step0中,汉字特征数据库P:{P1,P2,…,PN}的大小N,即为汉字的总个数,若按照编码方式为Unicode的基本字符集为标准,则共有20902个汉字,即N=20902。
进一步地,所述步骤Step1中,提取残缺汉字的图片信息时尽可能使残缺汉字平铺,有助于提取残缺汉字的汉字特征。
进一步地,所述步骤Step2中,考虑到待检测残缺汉字可能是彩色,故对其进行灰度化和二值化处理;归一化的规则指每个像素点中若存在该汉字的笔画部件,则以黑点填充,否则不予处理,既空白。
进一步地,所述步骤Step5中,归一化参数δ取正整数,通常取δ=1,但可根据实际效果进行调整。
进一步地,所述步骤Step4中得到的基于余弦定理的字形相似度Sim1(X,Pi)、所述步骤Step5中得到的基于欧氏距离的字形相似度Sim2(X,Pi)、所述步骤Step6中得到的最终字形相似度Sim(X,Pi),应满足公式(6)的要求,即字形相似度Sim1(X,Pi)、Sim2(X,Pi)、Sim(X,Pi)以一个[0,1]之间的数值反映待检测汉字X、目标汉字Pi之间的相似程度,且数值越大表示相似程度越高。
0≤Sim1(X,Pi),Sim2(X,Pi),Sim(X,Pi)≤1 (6)
进一步地,所述步骤Step7中,相似阈值θ需满足0≤θ≤1,通常取θ=0.8,但可根据实际效果进行调整。
本发明的有益效果是:本发明与现有技术相比,主要解决了现有技术耗费人力且准确性欠佳等现象,致力于增加目前依靠计算机对残缺汉字进行识别的有效性和准确性。
附图说明
图1是本发明总流程示意图;
图2是本发明建立数据库流程示意图;
图3是本发明获取待检测残缺文字的特征向量流程示意图;
图4是本发明15×16像素中文点阵示意图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1所示,一种残缺汉字识别方法,具体包括以下步骤:
Step0:提取汉字特征并建立汉字特征数据库。根据15×16像素中文点阵字库,将点阵按照从左至右、从上至下的规则划分为40个2×3像素的小矩阵,记2×3像素小矩阵中汉字所占像素数为pi,i∈[1,40],观察所有pi,i∈[1,40]并生成该汉字所对应的汉字特征向量{p1,p2,…,p40},且将所有汉字及生成的汉字特征向量存入数据库,组建汉字特征数据库P:{P1,P2,…,PN};
Step1:利用现代扫描技术及汉字形状特征,从纸张或竹简等其他汉字载体中提取出待检测残缺汉字X的图片,将图片以15:16的比例剪切至待检测残缺汉字X尽可能铺满图片为止,但要将其残缺汉字重心处于图片的中心,并留取合适的边距,生成待检测残缺汉字X的扫描图片
Step2:将待检测残缺汉字X的扫描图片进行灰度化及二值化,将其按比例切割为15×16像素点所组成的矩阵形式,对每个像素点进行归一化,并以此规则生成待检测残缺汉字X的15×16像素点阵形式;
Step3:将待检测残缺汉字X的15×16像素点阵,按照从左至右、从上至下的规则划分为40个2×3像素的小矩阵,记2×3像素小矩阵中残缺汉字所占像素数为pi,i∈[1,40],观察所有pi,i∈[1,40]并生成待检测残缺汉字X所对应的汉字特征向量X:{x1,x2,…,x40};
Step4:将待检测残缺汉字X的汉字特征向量X:{x1,x2,…,x40},以及汉字特征数据库P中的汉字特征向量Pi:{p1,p2,…,p40},i∈[1,N]作为输入,由余弦定理计算公式(1)求得待检测残缺汉字X、目标汉字Pi之间基于余弦定理的字形相似度Sim1(X,Pi);
Step5:将待检测残缺汉字X的汉字特征向量X:{x1,x2,…,x40},以及汉字特征数据库P中的汉字特征向量Pi:{p1,p2,…,p40},i∈[1,N]作为输入,定义归一化参数δ,由欧氏距离计算公式(2)求得待检测残缺汉字X、目标汉字Pi之间基于欧氏距离的字形相似度Sim2(X,Pi);
Step6:设Step4、Step5步骤所计算出的相似度对应权值分别为α、β,权值α、β满足α+β=1的要求,由字形相似度Sim1(X,Pi)及权值α、字形相似度Sim2(X,Pi)及权值β,由相似度融合算法,即公式(3)计算出待检测残缺汉字X、目标汉字Pi之间的最终字形相似度Sim(X,Pi);
Sim(X,Pi)=Sim1(X,Pi)·α+Sim2(X,Pi)·β (3)
Step7:遍历汉字特征数据库P,对数据库中每个汉字Pi,i∈[1,N]都经Step4、Step5、Step6步骤,计算其与待检测残缺汉字X之间的字形相似度Sim(X,Pi),定义相似阈值θ,如果满足公式(4)的要求则将该汉字添加至相似字集合,最终导出待检测残缺汉字X的相似字集合S:{S1,S2,…,SM},其中M是与待检测残缺汉字X相似的汉字个数。
Sim(X,Pi)≥θ (4)
进一步地,所述步骤Step0中,可根据汉字的字体建立多个汉字特征数据库,如宋体汉字特征数据库、楷体汉字特征数据库、隶书汉字特征数据库等。
进一步地,所述步骤Step0中,15×16像素中文点阵如图4所示,以虚线组成的小方格作为像素点,共计240个像素点;以实线组成2×3像素的小矩阵,共计40个2×3像素的小矩阵。
进一步地,所述步骤Step0和Step3中,2×3像素小矩阵中汉字所占像素数pi,i∈[1,40]应满足公式(5)的要求。
0≤pi≤6,i∈[1,40] (5)
进一步地,所述步骤Step0中,汉字特征数据库P:{P1,P2,…,PN}的大小N,即为汉字的总个数,若按照编码方式为Unicode的基本字符集为标准,则共有20902个汉字,即N=20902。
进一步地,所述步骤Step1中,提取残缺汉字的图片信息时尽可能使残缺汉字平铺,有助于提取残缺汉字的汉字特征。
进一步地,所述步骤Step2中,考虑到待检测残缺汉字可能是彩色,故对其进行灰度化和二值化处理;归一化的规则指每个像素点中若存在该汉字的笔画部件,则以黑点填充,否则不予处理,既空白。
进一步地,所述步骤Step5中,归一化参数δ取正整数,通常取δ=1,但可根据实际效果进行调整。
进一步地,所述步骤Step4中得到的基于余弦定理的字形相似度Sim1(X,Pi)、所述步骤Step5中得到的基于欧氏距离的字形相似度Sim2(X,Pi)、所述步骤Step6中得到的最终字形相似度Sim(X,Pi),应满足公式(6)的要求,即字形相似度Sim1(X,Pi)、Sim2(X,Pi)、Sim(X,Pi)以一个[0,1]之间的数值反映待检测汉字X、目标汉字Pi之间的相似程度,且数值越大表示相似程度越高。
0≤Sim1(X,Pi),Sim2(X,Pi),Sim(X,Pi)≤1 (6)
进一步地,所述步骤Step7中,相似阈值θ需满足0≤θ≤1,通常取θ=0.8,但可根据实际效果进行调整。
本发明通过中文点阵字库建立汉字特征数据库,对任意待检测残缺汉字通过现代扫描技术及汉字形状特征转化为图像,对其进行灰度化及二值化后提取汉字特征并生成特征向量,与数据库中现有汉字分别计算其基于余弦定理的字形相似度和基于欧氏距离的字形相似度,最后再通过相似融合算法及相似阈值判定,得到待检测残缺汉字的相似字集合。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (6)
1.一种残缺汉字识别方法,其特征在于,具体包括以下步骤:
Step0:提取汉字特征并建立汉字特征数据库,根据15×16像素中文点阵字库,将点阵按照从左至右、从上至下的规则划分为40个2×3像素的小矩阵,记2×3像素小矩阵中汉字所占像素数为pi,i∈[1,40],观察所有pi,i∈[1,40]并生成该汉字所对应的汉字特征向量{p1,p2,…,p40},且将所有汉字及生成的汉字特征向量存入数据库,组建汉字特征数据库P:{P1,P2,…,PN};
Step1:利用扫描技术及汉字形状特征,从汉字载体中提取出待检测残缺汉字X的图片,将图片以15:16的比例剪切至待检测残缺汉字X尽可能铺满图片为止,但要将其残缺汉字重心处于图片的中心,并留取合适的边距,生成待检测残缺汉字X的扫描图片
Step2:将待检测残缺汉字X的扫描图片进行灰度化及二值化,将其按比例切割为15×16像素点所组成的矩阵形式,对每个像素点进行归一化,并以此规则生成待检测残缺汉字X的15×16像素点阵形式;
Step3:将待检测残缺汉字X的15×16像素点阵,按照从左至右、从上至下的规则划分为40个2×3像素的小矩阵,记2×3像素小矩阵中残缺汉字所占像素数为pi,i∈[1,40],观察所有pi,i∈[1,40]并生成待检测残缺汉字X所对应的汉字特征向量X:{x1,x2,…,x40};
Step4:将待检测残缺汉字X的汉字特征向量X:{x1,x2,…,x40},以及汉字特征数据库P中的汉字特征向量Pi:{p1,p2,…,p40},i∈[1,N]作为输入,由余弦定理计算公式(1)求得待检测残缺汉字X、目标汉字Pi之间基于余弦定理的字形相似度Sim1(X,Pi);
<mrow>
<msub>
<mi>Sim</mi>
<mn>1</mn>
</msub>
<mrow>
<mo>(</mo>
<mi>X</mi>
<mo>,</mo>
<msub>
<mi>P</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<msub>
<mi>x</mi>
<mn>1</mn>
</msub>
<msub>
<mi>p</mi>
<mn>1</mn>
</msub>
<mo>+</mo>
<msub>
<mi>x</mi>
<mn>2</mn>
</msub>
<msub>
<mi>p</mi>
<mn>2</mn>
</msub>
<mo>+</mo>
<mo>...</mo>
<mo>+</mo>
<msub>
<mi>x</mi>
<mn>40</mn>
</msub>
<msub>
<mi>p</mi>
<mn>40</mn>
</msub>
</mrow>
<mrow>
<msqrt>
<mrow>
<msubsup>
<mi>x</mi>
<mn>1</mn>
<mn>2</mn>
</msubsup>
<mo>+</mo>
<msubsup>
<mi>x</mi>
<mn>2</mn>
<mn>2</mn>
</msubsup>
<mo>+</mo>
<mn>...</mn>
<mo>+</mo>
<msubsup>
<mi>x</mi>
<mn>40</mn>
<mn>2</mn>
</msubsup>
</mrow>
</msqrt>
<mo>&CenterDot;</mo>
<msqrt>
<mrow>
<msubsup>
<mi>p</mi>
<mn>1</mn>
<mn>2</mn>
</msubsup>
<mo>+</mo>
<msubsup>
<mi>p</mi>
<mn>2</mn>
<mn>2</mn>
</msubsup>
<mo>+</mo>
<mn>...</mn>
<mo>+</mo>
<msubsup>
<mi>p</mi>
<mn>40</mn>
<mn>2</mn>
</msubsup>
</mrow>
</msqrt>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
Step5:将待检测残缺汉字X的汉字特征向量X:{x1,x2,…,x40},以及汉字特征数据库P中的汉字特征向量Pi:{p1,p2,…,p40},i∈[1,N]作为输入,定义归一化参数δ,由欧氏距离计算公式(2)求得待检测残缺汉字X、目标汉字Pi之间基于欧氏距离的字形相似度Sim2(X,Pi);
<mrow>
<msub>
<mi>Sim</mi>
<mn>2</mn>
</msub>
<mrow>
<mo>(</mo>
<mi>X</mi>
<mo>,</mo>
<msub>
<mi>P</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mi>&delta;</mi>
<mrow>
<mi>&delta;</mi>
<mo>+</mo>
<msup>
<mrow>
<mo>&lsqb;</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>t</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mn>40</mn>
</munderover>
<mo>|</mo>
<msub>
<mi>x</mi>
<mi>t</mi>
</msub>
<mo>-</mo>
<msub>
<mi>p</mi>
<mi>t</mi>
</msub>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<mo>&rsqb;</mo>
</mrow>
<mfrac>
<mn>1</mn>
<mn>2</mn>
</mfrac>
</msup>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
Step6:设Step4、Step5步骤所计算出的相似度对应权值分别为α、β,权值α、β满足α+β=1的要求,由字形相似度Sim1(X,Pi)及权值α、字形相似度Sim2(X,Pi)及权值β,由相似度融合算法,即公式(3)计算出待检测残缺汉字X、目标汉字Pi之间的最终字形相似度Sim(X,Pi);
Sim(X,Pi)=Sim1(X,Pi)·α+Sim2(X,Pi)·β (3)
Step7:遍历汉字特征数据库P,对数据库中每个汉字Pi,i∈[1,N]都经Step4、Step5、Step6步骤,计算其与待检测残缺汉字X之间的字形相似度Sim(X,Pi),定义相似阈值θ,如果满足公式:Sim(X,Pi)≥θ的要求则将该汉字添加至相似字集合,最终导出待检测残缺汉字X的相似字集合S:{S1,S2,…,SM},其中M是与待检测残缺汉字X相似的汉字个数。
2.根据权利要求1所述的残缺汉字识别方法,其特征在于:所述步骤Step0和Step3中,2×3像素小矩阵中汉字所占像素数pi,i∈[1,40]应满足公式:0≤pi≤6,i∈[1,40]的要求。
3.根据权利要求1所述的残缺汉字识别方法,其特征在于:所述步骤Step2中,若待检测残缺汉字为彩色,则先其进行灰度化和二值化处理,然后再进行归一化处理;归一化的规则是指每个像素点中若存在该汉字的笔画部件,则以黑点填充,否则不予处理,既空白。
4.根据权利要求1所述的残缺汉字识别方法,其特征在于:所述步骤Step5中,归一化参数δ取正整数。
5.根据权利要求1所述的残缺汉字识别方法,其特征在于:所述步骤Step4中得到的基于余弦定理的字形相似度Sim1(X,Pi)、所述步骤Step5中得到的基于欧氏距离的字形相似度Sim2(X,Pi)、所述步骤Step6中得到的最终字形相似度Sim(X,Pi)应满足公式:0≤Sim1(X,Pi),Sim2(X,Pi),Sim(X,Pi)≤1的要求,即字形相似度Sim1(X,Pi)、Sim2(X,Pi)、Sim(X,Pi)以一个[0,1]之间的数值反映待检测汉字X、目标汉字Pi之间的相似程度,且数值越大表示相似程度越高。
6.根据权利要求1所述的残缺汉字识别方法,其特征在于:所述步骤Step7中,相似阈值θ需满足0≤θ≤1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711256495.4A CN108038495B (zh) | 2017-12-04 | 2017-12-04 | 一种残缺汉字识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711256495.4A CN108038495B (zh) | 2017-12-04 | 2017-12-04 | 一种残缺汉字识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108038495A true CN108038495A (zh) | 2018-05-15 |
CN108038495B CN108038495B (zh) | 2021-08-20 |
Family
ID=62094705
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711256495.4A Active CN108038495B (zh) | 2017-12-04 | 2017-12-04 | 一种残缺汉字识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108038495B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255040A (zh) * | 2018-07-27 | 2019-01-22 | 昆明理工大学 | 一种基于矩阵运算的相似汉字提取方法 |
CN109344834A (zh) * | 2018-09-06 | 2019-02-15 | 昆明理工大学 | 一种基于图像处理的残缺汉字识别方法 |
CN109409358A (zh) * | 2018-09-10 | 2019-03-01 | 昆明理工大学 | 一种基于纵横直方图的残缺汉字识别方法 |
CN109409373A (zh) * | 2018-09-06 | 2019-03-01 | 昆明理工大学 | 一种基于图像处理的字体识别方法 |
CN109447058A (zh) * | 2018-09-10 | 2019-03-08 | 昆明理工大学 | 一种基于矩阵分块的残缺汉字识别方法 |
CN109460701A (zh) * | 2018-09-10 | 2019-03-12 | 昆明理工大学 | 一种基于纵横直方图的字体识别方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003308317A (ja) * | 2002-04-17 | 2003-10-31 | Toshiba Corp | 文字列変換方法および文字認識方法および文字認識装置および文字認識プログラム |
CN101286097A (zh) * | 2008-06-02 | 2008-10-15 | 昆明理工大学 | 一种汉字输入方法 |
CN102081731A (zh) * | 2009-11-26 | 2011-06-01 | 中国移动通信集团广东有限公司 | 一种从图像中提取文本的方法和装置 |
CN102231188A (zh) * | 2011-07-05 | 2011-11-02 | 上海合合信息科技发展有限公司 | 结合文字识别和图像匹配的名片识别方法 |
CN102654902A (zh) * | 2012-01-16 | 2012-09-05 | 江南大学 | 基于轮廓向量特征的嵌入式实时图像匹配方法 |
CN103838789A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种文本相似度计算方法 |
CN106407179A (zh) * | 2016-08-26 | 2017-02-15 | 福建网龙计算机网络信息技术有限公司 | 汉字字形相似度计算方法及其系统 |
-
2017
- 2017-12-04 CN CN201711256495.4A patent/CN108038495B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003308317A (ja) * | 2002-04-17 | 2003-10-31 | Toshiba Corp | 文字列変換方法および文字認識方法および文字認識装置および文字認識プログラム |
CN101286097A (zh) * | 2008-06-02 | 2008-10-15 | 昆明理工大学 | 一种汉字输入方法 |
CN102081731A (zh) * | 2009-11-26 | 2011-06-01 | 中国移动通信集团广东有限公司 | 一种从图像中提取文本的方法和装置 |
CN102231188A (zh) * | 2011-07-05 | 2011-11-02 | 上海合合信息科技发展有限公司 | 结合文字识别和图像匹配的名片识别方法 |
CN102654902A (zh) * | 2012-01-16 | 2012-09-05 | 江南大学 | 基于轮廓向量特征的嵌入式实时图像匹配方法 |
CN103838789A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种文本相似度计算方法 |
CN106407179A (zh) * | 2016-08-26 | 2017-02-15 | 福建网龙计算机网络信息技术有限公司 | 汉字字形相似度计算方法及其系统 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255040A (zh) * | 2018-07-27 | 2019-01-22 | 昆明理工大学 | 一种基于矩阵运算的相似汉字提取方法 |
CN109255040B (zh) * | 2018-07-27 | 2021-10-22 | 昆明理工大学 | 一种基于矩阵运算的相似汉字提取方法 |
CN109344834A (zh) * | 2018-09-06 | 2019-02-15 | 昆明理工大学 | 一种基于图像处理的残缺汉字识别方法 |
CN109409373A (zh) * | 2018-09-06 | 2019-03-01 | 昆明理工大学 | 一种基于图像处理的字体识别方法 |
CN109409358A (zh) * | 2018-09-10 | 2019-03-01 | 昆明理工大学 | 一种基于纵横直方图的残缺汉字识别方法 |
CN109447058A (zh) * | 2018-09-10 | 2019-03-08 | 昆明理工大学 | 一种基于矩阵分块的残缺汉字识别方法 |
CN109460701A (zh) * | 2018-09-10 | 2019-03-12 | 昆明理工大学 | 一种基于纵横直方图的字体识别方法 |
CN109460701B (zh) * | 2018-09-10 | 2020-09-25 | 昆明理工大学 | 一种基于纵横直方图的字体识别方法 |
CN109409358B (zh) * | 2018-09-10 | 2021-10-22 | 昆明理工大学 | 一种基于纵横直方图的残缺汉字识别方法 |
CN109447058B (zh) * | 2018-09-10 | 2022-04-12 | 昆明理工大学 | 一种基于矩阵分块的残缺汉字识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108038495B (zh) | 2021-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108038495A (zh) | 一种残缺汉字识别方法 | |
Naz et al. | The optical character recognition of Urdu-like cursive scripts | |
CN101763516B (zh) | 一种基于拟合函数的文字识别方法 | |
CN108509881A (zh) | 一种无切分的脱机手写汉字文本识别方法 | |
Mahmoud | Recognition of writer-independent off-line handwritten Arabic (Indian) numerals using hidden Markov models | |
WO2017016240A1 (zh) | 一种钞票冠字号识别方法 | |
Chaabouni et al. | Fractal and multi-fractal for arabic offline writer identification | |
CN105574063A (zh) | 基于视觉显著性的图像检索方法 | |
Slimane et al. | ICDAR2017 competition on multi-font and multi-size digitally represented Arabic text | |
CN108154167A (zh) | 一种汉字字形相似度计算方法 | |
CN103258037A (zh) | 一种针对多组合内容的商标识别检索方法 | |
Kassis et al. | Vml-hd: The historical arabic documents dataset for recognition systems | |
CN105931253A (zh) | 一种基于半监督学习相结合的图像分割方法 | |
RU2765884C2 (ru) | Идентификация блоков связанных слов в документах сложной структуры | |
CN106529395A (zh) | 基于深度置信网络和k均值聚类的签名图像鉴定方法 | |
CN109685061A (zh) | 适用于结构化的数学公式的识别方法 | |
Shen et al. | A method of synthesizing handwritten chinese images for data augmentation | |
CN110532864B (zh) | 软笔书法临摹相似性评价方法 | |
Obaidullah et al. | Structural feature based approach for script identification from printed Indian document | |
Naz et al. | An Ocr system for printed Nasta'liq script: A segmentation based approach | |
CN109299726A (zh) | 一种基于特征向量和笔顺编码的汉字字形相似算法 | |
CN105405204B (zh) | 验钞机的纸币冠字号识别方法 | |
CN108171115A (zh) | 一种残缺英文单词识别方法 | |
Firdaus et al. | Arabic letter segmentation using modified connected component labeling | |
Li et al. | Unsupervised speech text localization in comic images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |