CN108171115A - 一种残缺英文单词识别方法 - Google Patents
一种残缺英文单词识别方法 Download PDFInfo
- Publication number
- CN108171115A CN108171115A CN201711257234.4A CN201711257234A CN108171115A CN 108171115 A CN108171115 A CN 108171115A CN 201711257234 A CN201711257234 A CN 201711257234A CN 108171115 A CN108171115 A CN 108171115A
- Authority
- CN
- China
- Prior art keywords
- english word
- english
- incomplete
- detected
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000005520 cutting process Methods 0.000 claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims description 29
- OQCFWECOQNPQCG-UHFFFAOYSA-N 1,3,4,8-tetrahydropyrimido[4,5-c]oxazin-7-one Chemical compound C1CONC2=C1C=NC(=O)N2 OQCFWECOQNPQCG-UHFFFAOYSA-N 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000005484 gravity Effects 0.000 claims description 3
- 238000005192 partition Methods 0.000 claims description 3
- 238000010408 sweeping Methods 0.000 claims 1
- 238000002156 mixing Methods 0.000 abstract description 4
- 230000010365 information processing Effects 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/293—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of characters other than Kanji, Hiragana or Katakana
Abstract
本发明涉及一种残缺英文单词识别方法,属于信息处理技术领域。本发明通过将英文单词映射为点阵形式,提取单词特征并建立英文单词特征数据库;对任意待检测残缺英文单词通过现代扫描技术及英文单词形状特征转化为图像,对其进行灰度化及二值化后提取英文单词特征并生成特征向量;根据该特征向量的长度从数据库中筛选出目标英文单词集合;进而与目标英文单词集合中经补零或切割操作后的英文单词分别计算其基于余弦定理的词形相似度和基于欧氏距离的词形相似度;最后再通过相似融合算法及相似阈值判定,得到待检测残缺英文单词的相似词集合。
Description
技术领域
本发明涉及一种残缺英文单词识别方法,属于信息处理技术领域。
背景技术
在文物考察、重要文档辨识中,可能存在一些英文单词的一部分因某种原因而被抹去,正确识别出这些残缺的英文单词对近代历史研究及考察名人语录等方面具有重要意义。
目前,对于残缺英文单词的识别,主要是依靠人对英文单词的熟悉程度以及人工对比英文词典,再根据上下文信息进行推理得到,但是由于英文单词的广泛性,使得这一工作即耗时又繁琐。若以第二版牛津词典为依据,则共有171476个英文单词,即使可以根据残缺英文单词的大概词形及上下文信息推理进行筛选,但筛选结果也存在许多的备选项,更重要的是人工识别中对于这一工作难免会产生疏忽与厌倦,这就造成了识别残缺英文单词的难度又一步加大。
发明内容
本发明要解决的技术问题是针对现有技术的局限和不足,提供一种残缺英文单词识别方法,以解决现有技术对残缺英文单词的识别耗费人力且准确性欠佳等现象,致力于增加目前依靠计算机对残缺英文单词进行识别的有效性和准确性。
本发明的技术方案是:一种残缺英文单词识别方法,该方法具体包括以下步骤:
Step0:提取英文单词特征并建立英文单词特征数据库。将英文单词映射为16×N像素的英文单词点阵,将点阵按照从上至下、从左至右的规则划分为2N个8×1像素的小矩阵,记8×1像素小矩阵中英文单词所占像素数为pj,j∈[1,2N],观察所有pj,j∈[1,2N]并生成该英文单词所对应的英文单词特征向量{p1,p2,…,p2N},且将所有英文单词及生成的英文单词特征向量存入数据库,组建英文单词特征数据库P:{P1,P2,…,PM};
Step1:利用现代扫描技术及字母形状特征,从单词载体中提取出待检测残缺英文单词X的图片,将图片以16:NX的比例剪切至待检测残缺英文单词X尽可能铺满图片为止,但要将其残缺英文单词重心处于图片的中心,并留取合适的边距,生成待检测残缺英文单词X的扫描图片
Step2:将待检测残缺英文单词X的扫描图片进行灰度化及二值化,将其按比例切割为16×NX像素点所组成的矩阵形式,对每个像素点进行归一化,并以此规则生成待检测残缺英文单词X的16×NX像素点阵形式;
Step3:将待检测残缺英文单词X的16×NX像素点阵,按照从上至下、从左至右的规则划分为2NX个8×1像素的小矩阵,记8×1像素小矩阵中残缺英文单词所占像素数为pj,j∈[1,2NX],观察所有pj,j∈[1,2NX]并生成待检测残缺英文单词X所对应的英文单词特征向量X:
Step4:定义Δ为长度误差,从英文单词特征数据库P:{P1,P2,…,PM}中筛选出长度范围在2NX±2Δ内的英文单词特征向量,生成目标英文单词集合P':{P'1,P'2,…,P'M'};
Step5:将待检测残缺英文单词X的英文单词特征向量X:以及目标英文单词集合P'中的英文单词特征向量P'i:{p1,p2,…,p2N},i∈[1,M']作为输入,由于特征向量的长度2NX和2N存在长度误差,故需进行特征向量的长度统一化,具体实现方式为以待检测残缺英文单词X的英文单词特征向量长度2NX为标准,对目标英文单词特征向量P'i进行补零和切割操作,使其长度统一;之后由余弦定理计算公式(1)求得待检测残缺英文单词X、目标英文单词P'i之间基于余弦定理的词形相似度Sim1(X,P'i);
Step6:将待检测残缺英文单词X的英文单词特征向量X:以及目标英文单词集合P'中的英文单词特征向量P'i:{p1,p2,…,p2N},i∈[1,M']作为输入,由于特征向量的长度2NX和2N存在长度误差,故需进行特征向量的长度统一化,具体实现方式为以待检测残缺英文单词X的英文单词特征向量长度2NX为标准,对目标英文单词特征向量P'i进行补零和切割操作,使其长度统一;定义归一化参数δ,由欧氏距离计算公式(2)求得待检测残缺英文单词X、目标英文单词P'i之间基于欧氏距离的词形相似度Sim2(X,P'i);
Step7:设Step5、Step6步骤所计算出的相似度对应权值分别为α、β,权值α、β满足α+β=1的要求,由词形相似度Sim1(X,P'i)及权值α、词形相似度Sim2(X,P'i)及权值β,由相似度融合算法,即公式(3)计算出待检测残缺英文单词X、目标英文单词P'i之间的最终词形相似度Sim(X,P'i);
Sim(X,P'i)=Sim1(X,P'i)·α+Sim2(X,P'i)·β (3)
Step8:遍历目标英文单词集合P',对数据库中每个英文单词P'i,i∈[1,M']都经Step5、Step6、Step7步骤,计算其与待检测残缺英文单词X之间的词形相似度Sim(X,P'i),定义相似阈值θ,如果满足公式(4)的要求则将该英文单词添加至相似字集合,最终导出待检测残缺英文单词X的相似词集合S:{S1,S2,…,Sq},其中q是与待检测残缺英文单词X相似的英文单词个数。
Sim(X,P'i)≥θ (4)
进一步地,所述步骤Step0中,可根据英文单词的字体建立多个英文单词特征数据库,如Arial英文单词特征数据库、Impact英文单词特征数据库、Times New Roman英文单词特征数据库等。
进一步地,所述步骤Step0和Step3中,8×1像素小矩阵中英文单词所占像素数pj应满足公式(5)的要求。
0≤pj≤8 (5)
进一步地,所述步骤Step0中,英文单词特征数据库P:{P1,P2,…,PM}的大小M,以第二版牛津词典为依据,则共有171476个英文单词,即M=171476。
进一步地,所述步骤Step2中,提取残缺英文单词的图片信息时尽可能使残缺英文单词平铺,有助于提取残缺英文单词的英文单词特征。
进一步地,所述步骤Step2中,考虑到待检测残缺英文单词可能是彩色,故对其进行灰度化和二值化处理;归一化的规则指每个像素点中若存在该英文单词的笔画部件,则以黑点填充,否则不予处理,既空白。
进一步地,所述步骤Step4中,长度误差Δ取值范围为0≤Δ≤2,通常取值Δ=1,但可根据实际效果进行调整。
进一步地,所述步骤Step5和Step6中,对目标英文单词特征向量P'i进行补零操作是指在向量尾部追加元素0,使向量P'i的长度为2NX;对目标英文单词特征向量P'i进行切割操作是指在向量尾部删除多余元素,使向量P'i的长度为2NX。
进一步地,所述步骤Step6中,归一化参数δ取正整数,通常取δ=1,但可根据实际效果进行调整。
进一步地,所述步骤Step5中得到的基于余弦定理的词形相似度Sim1(X,Pj)、所述步骤Step6中得到的基于欧氏距离的词形相似度Sim2(X,Pj)、所述步骤Step7中得到的最终词形相似度Sim(X,Pj),应满足公式(6)的要求,即词形相似度Sim1(X,Pj)、Sim2(X,Pj)、Sim(X,Pj)以一个[0,1]之间的数值反映待检测英文单词X、目标英文单词Pj之间的相似程度,且数值越大表示相似程度越高。
0≤Sim1(X,Pj),Sim2(X,Pj),Sim(X,Pj)≤1 (6)
进一步地,所述步骤Step7中,相似阈值θ需满足0≤θ≤1,通常取θ=0.8,但可根据实际效果进行调整。
本发明的有益效果是:本发明通过将英文单词映射为点阵形式,提取单词特征并建立英文单词特征数据库;对任意待检测残缺英文单词通过现代扫描技术及英文单词形状特征转化为图像,对其进行灰度化及二值化后提取英文单词特征并生成特征向量;根据该特征向量的长度从数据库中筛选出目标英文单词集合;进而与目标英文单词集合中经补零或切割操作后的英文单词分别计算其基于余弦定理的词形相似度和基于欧氏距离的词形相似度;最后再通过相似融合算法及相似阈值判定,得到待检测残缺英文单词的相似词集合。本发明与现有技术相比,主要解决了现有技术耗费人力且准确性欠佳等现象,致力于增加目前依靠计算机对残缺英文单词进行识别的有效性和准确性。
附图说明
图1是本发明总流程示意图;
图2是本发明建立数据库流程示意图;
图3是本发明获取待检测残缺英文单词的特征向量流程示意图;
图4是本发明获取目标目标英文单词集合的流程示意图;
图5是本发明15×16像素中文点阵示意图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:一种残缺英文单词识别方法,该方法具体包括以下步骤:
Step0:提取英文单词特征并建立英文单词特征数据库。将英文单词映射为16×N像素的英文单词点阵,将点阵按照从上至下、从左至右的规则划分为2N个8×1像素的小矩阵,记8×1像素小矩阵中英文单词所占像素数为pj,j∈[1,2N],观察所有pj,j∈[1,2N]并生成该英文单词所对应的英文单词特征向量{p1,p2,…,p2N},且将所有英文单词及生成的英文单词特征向量存入数据库,组建英文单词特征数据库P:{P1,P2,…,PM};
Step1:利用现代扫描技术及字母形状特征,从纸张或其他载体中提取出待检测残缺英文单词X的图片,将图片以16:NX的比例剪切至待检测残缺英文单词X尽可能铺满图片为止,但要将其残缺英文单词重心处于图片的中心,并留取合适的边距,生成待检测残缺英文单词X的扫描图片
Step2:将待检测残缺英文单词X的扫描图片进行灰度化及二值化,将其按比例切割为16×NX像素点所组成的矩阵形式,对每个像素点进行归一化,并以此规则生成待检测残缺英文单词X的16×NX像素点阵形式;
Step3:将待检测残缺英文单词X的16×NX像素点阵,按照从上至下、从左至右的规则划分为2NX个8×1像素的小矩阵,记8×1像素小矩阵中残缺英文单词所占像素数为pj,j∈[1,2NX],观察所有pj,j∈[1,2NX]并生成待检测残缺英文单词X所对应的英文单词特征向量X:
Step4:定义Δ为长度误差,从英文单词特征数据库P:{P1,P2,…,PM}中筛选出长度范围在2NX±2Δ内的英文单词特征向量,生成目标英文单词集合P':{P'1,P'2,…,P'M'};
Step5:将待检测残缺英文单词X的英文单词特征向量X:以及目标英文单词集合P'中的英文单词特征向量P'i:{p1,p2,…,p2N},i∈[1,M']作为输入,由于特征向量的长度2NX和2N存在长度误差,故需进行特征向量的长度统一化,具体实现方式为以待检测残缺英文单词X的英文单词特征向量长度2NX为标准,对目标英文单词特征向量P'i进行补零和切割操作,使其长度统一;之后由余弦定理计算公式(1)求得待检测残缺英文单词X、目标英文单词P'i之间基于余弦定理的词形相似度Sim1(X,P'i);
Step6:将待检测残缺英文单词X的英文单词特征向量X:以及目标英文单词集合P'中的英文单词特征向量P'i:{p1,p2,…,p2N},i∈[1,M']作为输入,由于特征向量的长度2NX和2N存在长度误差,故需进行特征向量的长度统一化,具体实现方式为以待检测残缺英文单词X的英文单词特征向量长度2NX为标准,对目标英文单词特征向量P'i进行补零和切割操作,使其长度统一;定义归一化参数δ,由欧氏距离计算公式(2)求得待检测残缺英文单词X、目标英文单词P'i之间基于欧氏距离的词形相似度Sim2(X,P'i);
Step7:设Step5、Step6步骤所计算出的相似度对应权值分别为α、β,权值α、β满足α+β=1的要求,由词形相似度Sim1(X,P'i)及权值α、词形相似度Sim2(X,P'i)及权值β,由相似度融合算法,即公式(3)计算出待检测残缺英文单词X、目标英文单词P'i之间的最终词形相似度Sim(X,P'i);
Sim(X,P'i)=Sim1(X,P'i)·α+Sim2(X,P'i)·β (3)
Step8:遍历目标英文单词集合P',对数据库中每个英文单词P'i,i∈[1,M']都经Step5、Step6、Step7步骤,计算其与待检测残缺英文单词X之间的词形相似度Sim(X,P'i),定义相似阈值θ,如果满足公式(4)的要求则将该英文单词添加至相似字集合,最终导出待检测残缺英文单词X的相似词集合S:{S1,S2,…,Sq},其中q是与待检测残缺英文单词X相似的英文单词个数。
Sim(X,P'i)≥θ (4)
进一步地,所述步骤Step0中,可根据英文单词的字体建立多个英文单词特征数据库,如Arial英文单词特征数据库、Impact英文单词特征数据库、Times New Roman英文单词特征数据库等。
进一步地,所述步骤Step0中,16×N像素中文点阵如图5所示,以虚线组成的小方格作为像素点,共计16N个像素点;以实线组成8×1像素的小矩阵,共计2N个8×1像素的小矩阵。
进一步地,所述步骤Step0和Step3中,8×1像素小矩阵中英文单词所占像素数pj应满足公式(5)的要求。
0≤pj≤8 (5)
进一步地,所述步骤Step0中,英文单词特征数据库P:{P1,P2,…,PM}的大小M,以第二版牛津词典为依据,则共有171476个英文单词,即M=171476。
进一步地,所述步骤Step2中,提取残缺英文单词的图片信息时尽可能使残缺英文单词平铺,有助于提取残缺英文单词的英文单词特征。
进一步地,所述步骤Step2中,考虑到待检测残缺英文单词可能是彩色,故对其进行灰度化和二值化处理;归一化的规则指每个像素点中若存在该英文单词的笔画部件,则以黑点填充,否则不予处理,既空白。
进一步地,所述步骤Step4中,长度误差Δ取值范围为0≤Δ≤2,通常取值Δ=1,但可根据实际效果进行调整。
进一步地,所述步骤Step5和Step6中,对目标英文单词特征向量P'i进行补零操作是指在向量尾部追加元素0,使向量P'i的长度为2NX;对目标英文单词特征向量P'i进行切割操作是指在向量尾部删除多余元素,使向量P'i的长度为2NX。
进一步地,所述步骤Step6中,归一化参数δ取正整数,通常取δ=1,但可根据实际效果进行调整。
进一步地,所述步骤Step5中得到的基于余弦定理的词形相似度Sim1(X,Pj)、所述步骤Step6中得到的基于欧氏距离的词形相似度Sim2(X,Pj)、所述步骤Step7中得到的最终词形相似度Sim(X,Pj),应满足公式(6)的要求,即词形相似度Sim1(X,Pj)、Sim2(X,Pj)、Sim(X,Pj)以一个[0,1]之间的数值反映待检测英文单词X、目标英文单词Pj之间的相似程度,且数值越大表示相似程度越高。
0≤Sim1(X,Pj),Sim2(X,Pj),Sim(X,Pj)≤1 (6)
进一步地,所述步骤Step7中,相似阈值θ需满足0≤θ≤1,通常取θ=0.8,但可根据实际效果进行调整。
本发明通过将英文单词映射为点阵形式,进而提取特征并建立英文单词特征数据库,对任意待检测残缺英文单词通过现代扫描技术及英文单词形状特征转化为图像,对其进行灰度化及二值化后提取英文单词特征并生成特征向量,与数据库中现有英文单词分别计算其基于余弦定理的词形相似度和基于欧氏距离的词形相似度,最后再通过相似融合算法及相似阈值判定,得到待检测残缺英文单词的相似词集合。本发明与现有技术相比,主要解决了现有技术耗费人力且准确性欠佳等现象,致力于增加目前依靠计算机对残缺英文单词进行识别的有效性和准确性。
以上对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (8)
1.一种残缺英文单词识别方法,其特征在于,具体包括以下步骤:
Step0:提取英文单词特征并建立英文单词特征数据库,将英文单词映射为16×N像素的英文单词点阵,将点阵按照从上至下、从左至右的规则划分为2N个8×1像素的小矩阵,记8×1像素小矩阵中英文单词所占像素数为pj,j∈[1,2N],观察所有pj,j∈[1,2N]并生成该英文单词所对应的英文单词特征向量{p1,p2,…,p2N},且将所有英文单词及生成的英文单词特征向量存入数据库,组建英文单词特征数据库P:{P1,P2,…,PM};
Step1:利用现代扫描技术及字母形状特征,从单词载体中提取出待检测残缺英文单词X的图片,将图片以16:NX的比例剪切至待检测残缺英文单词X尽可能铺满图片为止,但要将其残缺英文单词重心处于图片的中心,并留取合适的边距,生成待检测残缺英文单词X的扫描图片
Step2:将待检测残缺英文单词X的扫描图片进行灰度化及二值化,将其按比例切割为16×NX像素点所组成的矩阵形式,对每个像素点进行归一化,并以此规则生成待检测残缺英文单词X的16×NX像素点阵形式;
Step3:将待检测残缺英文单词X的16×NX像素点阵,按照从上至下、从左至右的规则划分为2NX个8×1像素的小矩阵,记8×1像素小矩阵中残缺英文单词所占像素数为pj,j∈[1,2NX],观察所有pj,j∈[1,2NX]并生成待检测残缺英文单词X所对应的英文单词特征向量
Step4:定义Δ为长度误差,从英文单词特征数据库P:{P1,P2,…,PM}中筛选出长度范围在2NX±2Δ内的英文单词特征向量,生成目标英文单词集合P':{P1',P2',…,P'M'};
Step5:将待检测残缺英文单词X的英文单词特征向量以及目标英文单词集合P'中的英文单词特征向量Pi':{p1,p2,…,p2N},i∈[1,M']作为输入,由于特征向量的长度2NX和2N存在长度误差,故需进行特征向量的长度统一化,具体实现方式为以待检测残缺英文单词X的英文单词特征向量长度2NX为标准,对目标英文单词特征向量Pi'进行补零和切割操作,使其长度统一;之后由余弦定理计算公式(1)求得待检测残缺英文单词X、目标英文单词Pi'之间基于余弦定理的词形相似度Sim1(X,Pi');
Step6:将待检测残缺英文单词X的英文单词特征向量以及目标英文单词集合P'中的英文单词特征向量Pi':{p1,p2,…,p2N},i∈[1,M']作为输入,由于特征向量的长度2NX和2N存在长度误差,故需进行特征向量的长度统一化,具体实现方式为以待检测残缺英文单词X的英文单词特征向量长度2NX为标准,对目标英文单词特征向量Pi'进行补零和切割操作,使其长度统一;定义归一化参数δ,由欧氏距离计算公式(2)求得待检测残缺英文单词X、目标英文单词Pi'之间基于欧氏距离的词形相似度Sim2(X,Pi');
Step7:设Step5、Step6步骤所计算出的相似度对应权值分别为α、β,权值α、β满足α+β=1的要求,由词形相似度Sim1(X,Pi')及权值α、词形相似度Sim2(X,Pi')及权值β,由相似度融合算法,即公式(3)计算出待检测残缺英文单词X、目标英文单词Pi'之间的最终词形相似度Sim(X,Pi');
Sim(X,Pi')=Sim1(X,Pi')·α+Sim2(X,Pi')·β (3)
Step8:遍历目标英文单词集合P',对数据库中每个英文单词Pi',i∈[1,M']都经Step5、Step6、Step7步骤,计算其与待检测残缺英文单词X之间的词形相似度Sim(X,Pi'),定义相似阈值θ,如果满足公式Sim(X,Pi')≥θ的要求则将该英文单词添加至相似字集合,最终导出待检测残缺英文单词X的相似词集合S:{S1,S2,…,Sq},其中q是与待检测残缺英文单词X相似的英文单词个数。
2.根据权利要求1所述的残缺英文单词识别方法,其特征在于:所述步骤Step0和Step3中,8×1像素小矩阵中英文单词所占像素数pj应满足公式:0≤pj≤8。
3.根据权利要求1所述的残缺英文单词识别方法,其特征在于:所述步骤Step2中,若待检测残缺英文单词为彩色,则对其进行灰度化和二值化处理,然后再进行归一化处理;归一化的规则是指每个像素点中若存在该英文单词的笔画部件,则以黑点填充,否则不予处理,既空白。
4.根据权利要求1所述的残缺英文单词识别方法,其特征在于:所述步骤Step4中,长度误差Δ取值范围为0≤Δ≤2。
5.根据权利要求1所述的残缺英文单词识别方法,其特征在于:所述步骤Step5和Step6中,对目标英文单词特征向量Pi'进行补零操作是指在向量尾部追加元素0,使向量Pi'的长度为2NX;对目标英文单词特征向量Pi'进行切割操作是指在向量尾部删除多余元素,使向量Pi'的长度为2NX。
6.根据权利要求1所述的残缺英文单词识别方法,其特征在于:所述步骤Step6中,归一化参数δ取正整数。
7.根据权利要求1所述的残缺英文单词识别方法,其特征在于:所述步骤Step5中得到的基于余弦定理的词形相似度Sim1(X,Pj)、所述步骤Step6中得到的基于欧氏距离的词形相似度Sim2(X,Pj)、所述步骤Step7中得到的最终词形相似度Sim(X,Pj),应满足公式(6)的要求,即词形相似度Sim1(X,Pj)、Sim2(X,Pj)、Sim(X,Pj)以一个[0,1]之间的数值反映待检测英文单词X、目标英文单词Pj之间的相似程度,且数值越大表示相似程度越高;
0≤Sim1(X,Pj),Sim2(X,Pj),Sim(X,Pj)≤1 (6)。
8.根据权利要求1所述的残缺英文单词识别方法,其特征在于:所述步骤Step7中,相似阈值θ需满足0≤θ≤1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711257234.4A CN108171115B (zh) | 2017-12-04 | 2017-12-04 | 一种残缺英文单词识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711257234.4A CN108171115B (zh) | 2017-12-04 | 2017-12-04 | 一种残缺英文单词识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108171115A true CN108171115A (zh) | 2018-06-15 |
CN108171115B CN108171115B (zh) | 2021-08-20 |
Family
ID=62524254
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711257234.4A Active CN108171115B (zh) | 2017-12-04 | 2017-12-04 | 一种残缺英文单词识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108171115B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344834A (zh) * | 2018-09-06 | 2019-02-15 | 昆明理工大学 | 一种基于图像处理的残缺汉字识别方法 |
CN109409373A (zh) * | 2018-09-06 | 2019-03-01 | 昆明理工大学 | 一种基于图像处理的字体识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030099398A1 (en) * | 2001-11-28 | 2003-05-29 | Kabushiki Kaisha Toshiba | Character recognition apparatus and character recognition method |
CN101216947A (zh) * | 2008-01-18 | 2008-07-09 | 北京语言大学 | 基于笔段网格的手写汉字输入方法和汉字识别方法 |
CN102663382A (zh) * | 2012-04-25 | 2012-09-12 | 重庆邮电大学 | 基于子网格特征自适应加权的视频图像文字识别方法 |
CN106203424A (zh) * | 2016-06-29 | 2016-12-07 | 合肥民众亿兴软件开发有限公司 | 一种基于网络的图像形状轮廓识别方法 |
-
2017
- 2017-12-04 CN CN201711257234.4A patent/CN108171115B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030099398A1 (en) * | 2001-11-28 | 2003-05-29 | Kabushiki Kaisha Toshiba | Character recognition apparatus and character recognition method |
CN101216947A (zh) * | 2008-01-18 | 2008-07-09 | 北京语言大学 | 基于笔段网格的手写汉字输入方法和汉字识别方法 |
CN102663382A (zh) * | 2012-04-25 | 2012-09-12 | 重庆邮电大学 | 基于子网格特征自适应加权的视频图像文字识别方法 |
CN106203424A (zh) * | 2016-06-29 | 2016-12-07 | 合肥民众亿兴软件开发有限公司 | 一种基于网络的图像形状轮廓识别方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344834A (zh) * | 2018-09-06 | 2019-02-15 | 昆明理工大学 | 一种基于图像处理的残缺汉字识别方法 |
CN109409373A (zh) * | 2018-09-06 | 2019-03-01 | 昆明理工大学 | 一种基于图像处理的字体识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108171115B (zh) | 2021-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107305630B (zh) | 文本序列识别方法和装置 | |
CN107368831A (zh) | 一种自然场景图像中的英文文字和数字识别方法 | |
CN104809481A (zh) | 一种基于自适应色彩聚类的自然场景文本检测的方法 | |
CN113610540B (zh) | 一种河蟹防伪溯源方法及系统 | |
CN108038495A (zh) | 一种残缺汉字识别方法 | |
JP2022532177A (ja) | 偽造された顔の認識方法、装置、および非一時的コンピュータ可読記憶媒体 | |
CN107480649A (zh) | 一种基于全卷积神经网络的指纹汗孔提取方法 | |
CN104899965B (zh) | 一种基于清分机的多国纸币序列号识别方法 | |
CN105404885B (zh) | 一种二维字符图形验证码复杂背景噪音干扰去除方法 | |
CN108681735A (zh) | 基于卷积神经网络深度学习模型的光学字符识别方法 | |
Chaabouni et al. | Fractal and multi-fractal for arabic offline writer identification | |
CN106611174A (zh) | 一种非常见字体的ocr识别方法 | |
CN104156730B (zh) | 一种基于骨架的抗噪声汉字特征提取方法 | |
CN113723330B (zh) | 一种图表文档信息理解的方法及系统 | |
CN106845513A (zh) | 基于条件随机森林的人手检测器及方法 | |
CN106529395A (zh) | 基于深度置信网络和k均值聚类的签名图像鉴定方法 | |
CN106203373B (zh) | 一种基于深度视觉词袋模型的人脸活体检测方法 | |
CN108171115A (zh) | 一种残缺英文单词识别方法 | |
CN105550278A (zh) | 基于深度学习的网页区域识别算法 | |
Obaidullah et al. | Structural feature based approach for script identification from printed Indian document | |
Vithlani et al. | Structural and statistical feature extraction methods for character and digit recognition | |
Pal et al. | Interval-valued symbolic representation based method for off-line signature verification | |
Sadri et al. | Automatic segmentation of unconstrained handwritten numeral strings | |
Singh et al. | Fingerprint feature extraction using morphological operations | |
CN104504385B (zh) | 手写粘连数字串的识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |