CN108171115A

CN108171115A - 一种残缺英文单词识别方法

Info

Publication number: CN108171115A
Application number: CN201711257234.4A
Authority: CN
Inventors: 彭艺; 尹玉梅
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2017-12-04
Filing date: 2017-12-04
Publication date: 2018-06-15
Anticipated expiration: 2037-12-04
Also published as: CN108171115B

Abstract

本发明涉及一种残缺英文单词识别方法，属于信息处理技术领域。本发明通过将英文单词映射为点阵形式，提取单词特征并建立英文单词特征数据库；对任意待检测残缺英文单词通过现代扫描技术及英文单词形状特征转化为图像，对其进行灰度化及二值化后提取英文单词特征并生成特征向量；根据该特征向量的长度从数据库中筛选出目标英文单词集合；进而与目标英文单词集合中经补零或切割操作后的英文单词分别计算其基于余弦定理的词形相似度和基于欧氏距离的词形相似度；最后再通过相似融合算法及相似阈值判定，得到待检测残缺英文单词的相似词集合。

Description

一种残缺英文单词识别方法

技术领域

本发明涉及一种残缺英文单词识别方法，属于信息处理技术领域。

背景技术

在文物考察、重要文档辨识中，可能存在一些英文单词的一部分因某种原因而被抹去，正确识别出这些残缺的英文单词对近代历史研究及考察名人语录等方面具有重要意义。

目前，对于残缺英文单词的识别，主要是依靠人对英文单词的熟悉程度以及人工对比英文词典，再根据上下文信息进行推理得到，但是由于英文单词的广泛性，使得这一工作即耗时又繁琐。若以第二版牛津词典为依据，则共有171476个英文单词，即使可以根据残缺英文单词的大概词形及上下文信息推理进行筛选，但筛选结果也存在许多的备选项，更重要的是人工识别中对于这一工作难免会产生疏忽与厌倦，这就造成了识别残缺英文单词的难度又一步加大。

发明内容

本发明要解决的技术问题是针对现有技术的局限和不足，提供一种残缺英文单词识别方法，以解决现有技术对残缺英文单词的识别耗费人力且准确性欠佳等现象，致力于增加目前依靠计算机对残缺英文单词进行识别的有效性和准确性。

本发明的技术方案是：一种残缺英文单词识别方法，该方法具体包括以下步骤：

Step0：提取英文单词特征并建立英文单词特征数据库。将英文单词映射为16×N像素的英文单词点阵，将点阵按照从上至下、从左至右的规则划分为2N个8×1像素的小矩阵，记8×1像素小矩阵中英文单词所占像素数为p_j,j∈[1,2N]，观察所有p_j,j∈[1,2N]并生成该英文单词所对应的英文单词特征向量{p₁,p₂,…,p_2N}，且将所有英文单词及生成的英文单词特征向量存入数据库，组建英文单词特征数据库P:{P₁,P₂,…,P_M}；

Step1：利用现代扫描技术及字母形状特征，从单词载体中提取出待检测残缺英文单词X的图片，将图片以16:N_X的比例剪切至待检测残缺英文单词X尽可能铺满图片为止，但要将其残缺英文单词重心处于图片的中心，并留取合适的边距，生成待检测残缺英文单词X的扫描图片

Step2：将待检测残缺英文单词X的扫描图片进行灰度化及二值化，将其按比例切割为16×N_X像素点所组成的矩阵形式，对每个像素点进行归一化，并以此规则生成待检测残缺英文单词X的16×N_X像素点阵形式；

Step3：将待检测残缺英文单词X的16×N_X像素点阵，按照从上至下、从左至右的规则划分为2N_X个8×1像素的小矩阵，记8×1像素小矩阵中残缺英文单词所占像素数为p_j,j∈[1,2N_X]，观察所有p_j,j∈[1,2N_X]并生成待检测残缺英文单词X所对应的英文单词特征向量X:

Step4：定义Δ为长度误差，从英文单词特征数据库P:{P₁,P₂,…,P_M}中筛选出长度范围在2N_X±2Δ内的英文单词特征向量，生成目标英文单词集合P':{P'₁,P'₂,…,P'_M'}；

Step5：将待检测残缺英文单词X的英文单词特征向量X:以及目标英文单词集合P'中的英文单词特征向量P'_i:{p₁,p₂,…,p_2N},i∈[1,M']作为输入，由于特征向量的长度2N_X和2N存在长度误差，故需进行特征向量的长度统一化，具体实现方式为以待检测残缺英文单词X的英文单词特征向量长度2N_X为标准，对目标英文单词特征向量P'_i进行补零和切割操作，使其长度统一；之后由余弦定理计算公式(1)求得待检测残缺英文单词X、目标英文单词P'_i之间基于余弦定理的词形相似度Sim₁(X,P'_i)；

Step6：将待检测残缺英文单词X的英文单词特征向量X:以及目标英文单词集合P'中的英文单词特征向量P'_i:{p₁,p₂,…,p_2N},i∈[1,M']作为输入，由于特征向量的长度2N_X和2N存在长度误差，故需进行特征向量的长度统一化，具体实现方式为以待检测残缺英文单词X的英文单词特征向量长度2N_X为标准，对目标英文单词特征向量P'_i进行补零和切割操作，使其长度统一；定义归一化参数δ，由欧氏距离计算公式(2)求得待检测残缺英文单词X、目标英文单词P'_i之间基于欧氏距离的词形相似度Sim₂(X,P'_i)；

Step7：设Step5、Step6步骤所计算出的相似度对应权值分别为α、β，权值α、β满足α+β＝1的要求，由词形相似度Sim₁(X,P'_i)及权值α、词形相似度Sim₂(X,P'_i)及权值β，由相似度融合算法，即公式(3)计算出待检测残缺英文单词X、目标英文单词P'_i之间的最终词形相似度Sim(X,P'_i)；

Sim(X,P'_i)＝Sim₁(X,P'_i)·α+Sim₂(X,P'_i)·β (3)

Step8：遍历目标英文单词集合P'，对数据库中每个英文单词P'_i,i∈[1,M']都经Step5、Step6、Step7步骤，计算其与待检测残缺英文单词X之间的词形相似度Sim(X,P'_i)，定义相似阈值θ，如果满足公式(4)的要求则将该英文单词添加至相似字集合，最终导出待检测残缺英文单词X的相似词集合S:{S₁,S₂,…,S_q}，其中q是与待检测残缺英文单词X相似的英文单词个数。

Sim(X,P'_i)≥θ (4)

进一步地，所述步骤Step0中，可根据英文单词的字体建立多个英文单词特征数据库，如Arial英文单词特征数据库、Impact英文单词特征数据库、Times New Roman英文单词特征数据库等。

进一步地，所述步骤Step0和Step3中，8×1像素小矩阵中英文单词所占像素数p_j应满足公式(5)的要求。

0≤p_j≤8 (5)

进一步地，所述步骤Step0中，英文单词特征数据库P:{P₁,P₂,…,P_M}的大小M，以第二版牛津词典为依据，则共有171476个英文单词，即M＝171476。

进一步地，所述步骤Step2中，提取残缺英文单词的图片信息时尽可能使残缺英文单词平铺，有助于提取残缺英文单词的英文单词特征。

进一步地，所述步骤Step2中，考虑到待检测残缺英文单词可能是彩色，故对其进行灰度化和二值化处理；归一化的规则指每个像素点中若存在该英文单词的笔画部件，则以黑点填充，否则不予处理，既空白。

进一步地，所述步骤Step4中，长度误差Δ取值范围为0≤Δ≤2，通常取值Δ＝1，但可根据实际效果进行调整。

进一步地，所述步骤Step5和Step6中，对目标英文单词特征向量P'_i进行补零操作是指在向量尾部追加元素0，使向量P'_i的长度为2N_X；对目标英文单词特征向量P'_i进行切割操作是指在向量尾部删除多余元素，使向量P'_i的长度为2N_X。

进一步地，所述步骤Step6中，归一化参数δ取正整数，通常取δ＝1，但可根据实际效果进行调整。

进一步地，所述步骤Step5中得到的基于余弦定理的词形相似度Sim₁(X,P_j)、所述步骤Step6中得到的基于欧氏距离的词形相似度Sim₂(X,P_j)、所述步骤Step7中得到的最终词形相似度Sim(X,P_j)，应满足公式(6)的要求，即词形相似度Sim₁(X,P_j)、Sim₂(X,P_j)、Sim(X,P_j)以一个[0,1]之间的数值反映待检测英文单词X、目标英文单词P_j之间的相似程度，且数值越大表示相似程度越高。

0≤Sim₁(X,P_j),Sim₂(X,P_j),Sim(X,P_j)≤1 (6)

进一步地，所述步骤Step7中，相似阈值θ需满足0≤θ≤1，通常取θ＝0.8，但可根据实际效果进行调整。

本发明的有益效果是：本发明通过将英文单词映射为点阵形式，提取单词特征并建立英文单词特征数据库；对任意待检测残缺英文单词通过现代扫描技术及英文单词形状特征转化为图像，对其进行灰度化及二值化后提取英文单词特征并生成特征向量；根据该特征向量的长度从数据库中筛选出目标英文单词集合；进而与目标英文单词集合中经补零或切割操作后的英文单词分别计算其基于余弦定理的词形相似度和基于欧氏距离的词形相似度；最后再通过相似融合算法及相似阈值判定，得到待检测残缺英文单词的相似词集合。本发明与现有技术相比，主要解决了现有技术耗费人力且准确性欠佳等现象，致力于增加目前依靠计算机对残缺英文单词进行识别的有效性和准确性。

附图说明

图1是本发明总流程示意图；

图2是本发明建立数据库流程示意图；

图3是本发明获取待检测残缺英文单词的特征向量流程示意图；

图4是本发明获取目标目标英文单词集合的流程示意图；

图5是本发明15×16像素中文点阵示意图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

实施例1：一种残缺英文单词识别方法，该方法具体包括以下步骤：

Step1：利用现代扫描技术及字母形状特征，从纸张或其他载体中提取出待检测残缺英文单词X的图片，将图片以16:N_X的比例剪切至待检测残缺英文单词X尽可能铺满图片为止，但要将其残缺英文单词重心处于图片的中心，并留取合适的边距，生成待检测残缺英文单词X的扫描图片

Sim(X,P'_i)＝Sim₁(X,P'_i)·α+Sim₂(X,P'_i)·β (3)

Sim(X,P'_i)≥θ (4)

进一步地，所述步骤Step0中，16×N像素中文点阵如图5所示，以虚线组成的小方格作为像素点，共计16N个像素点；以实线组成8×1像素的小矩阵，共计2N个8×1像素的小矩阵。

0≤p_j≤8 (5)

0≤Sim₁(X,P_j),Sim₂(X,P_j),Sim(X,P_j)≤1 (6)

本发明通过将英文单词映射为点阵形式，进而提取特征并建立英文单词特征数据库，对任意待检测残缺英文单词通过现代扫描技术及英文单词形状特征转化为图像，对其进行灰度化及二值化后提取英文单词特征并生成特征向量，与数据库中现有英文单词分别计算其基于余弦定理的词形相似度和基于欧氏距离的词形相似度，最后再通过相似融合算法及相似阈值判定，得到待检测残缺英文单词的相似词集合。本发明与现有技术相比，主要解决了现有技术耗费人力且准确性欠佳等现象，致力于增加目前依靠计算机对残缺英文单词进行识别的有效性和准确性。

以上对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种残缺英文单词识别方法，其特征在于，具体包括以下步骤：

Step0：提取英文单词特征并建立英文单词特征数据库，将英文单词映射为16×N像素的英文单词点阵，将点阵按照从上至下、从左至右的规则划分为2N个8×1像素的小矩阵，记8×1像素小矩阵中英文单词所占像素数为p_j,j∈[1,2N]，观察所有p_j,j∈[1,2N]并生成该英文单词所对应的英文单词特征向量{p₁,p₂,…,p_2N}，且将所有英文单词及生成的英文单词特征向量存入数据库，组建英文单词特征数据库P:{P₁,P₂,…,P_M}；

Step3：将待检测残缺英文单词X的16×N_X像素点阵，按照从上至下、从左至右的规则划分为2N_X个8×1像素的小矩阵，记8×1像素小矩阵中残缺英文单词所占像素数为p_j,j∈[1,2N_X]，观察所有p_j,j∈[1,2N_X]并生成待检测残缺英文单词X所对应的英文单词特征向量

Step4：定义Δ为长度误差，从英文单词特征数据库P:{P₁,P₂,…,P_M}中筛选出长度范围在2N_X±2Δ内的英文单词特征向量，生成目标英文单词集合P':{P₁',P₂',…,P'_M'}；

Step5：将待检测残缺英文单词X的英文单词特征向量以及目标英文单词集合P'中的英文单词特征向量P_i':{p₁,p₂,…,p_2N},i∈[1,M']作为输入，由于特征向量的长度2N_X和2N存在长度误差，故需进行特征向量的长度统一化，具体实现方式为以待检测残缺英文单词X的英文单词特征向量长度2N_X为标准，对目标英文单词特征向量P_i'进行补零和切割操作，使其长度统一；之后由余弦定理计算公式(1)求得待检测残缺英文单词X、目标英文单词P_i'之间基于余弦定理的词形相似度Sim₁(X,P_i')；

Step6：将待检测残缺英文单词X的英文单词特征向量以及目标英文单词集合P'中的英文单词特征向量P_i':{p₁,p₂,…,p_2N},i∈[1,M']作为输入，由于特征向量的长度2N_X和2N存在长度误差，故需进行特征向量的长度统一化，具体实现方式为以待检测残缺英文单词X的英文单词特征向量长度2N_X为标准，对目标英文单词特征向量P_i'进行补零和切割操作，使其长度统一；定义归一化参数δ，由欧氏距离计算公式(2)求得待检测残缺英文单词X、目标英文单词P_i'之间基于欧氏距离的词形相似度Sim₂(X,P_i')；

Step7：设Step5、Step6步骤所计算出的相似度对应权值分别为α、β，权值α、β满足α+β＝1的要求，由词形相似度Sim₁(X,P_i')及权值α、词形相似度Sim₂(X,P_i')及权值β，由相似度融合算法，即公式(3)计算出待检测残缺英文单词X、目标英文单词P_i'之间的最终词形相似度Sim(X,P_i')；

Sim(X,P_i')＝Sim₁(X,P_i')·α+Sim₂(X,P_i')·β (3)

Step8：遍历目标英文单词集合P'，对数据库中每个英文单词P_i',i∈[1,M']都经Step5、Step6、Step7步骤，计算其与待检测残缺英文单词X之间的词形相似度Sim(X,P_i')，定义相似阈值θ，如果满足公式Sim(X,P_i')≥θ的要求则将该英文单词添加至相似字集合，最终导出待检测残缺英文单词X的相似词集合S:{S₁,S₂,…,S_q}，其中q是与待检测残缺英文单词X相似的英文单词个数。

2.根据权利要求1所述的残缺英文单词识别方法，其特征在于：所述步骤Step0和Step3中，8×1像素小矩阵中英文单词所占像素数p_j应满足公式：0≤p_j≤8。

3.根据权利要求1所述的残缺英文单词识别方法，其特征在于：所述步骤Step2中，若待检测残缺英文单词为彩色，则对其进行灰度化和二值化处理，然后再进行归一化处理；归一化的规则是指每个像素点中若存在该英文单词的笔画部件，则以黑点填充，否则不予处理，既空白。

4.根据权利要求1所述的残缺英文单词识别方法，其特征在于：所述步骤Step4中，长度误差Δ取值范围为0≤Δ≤2。

5.根据权利要求1所述的残缺英文单词识别方法，其特征在于：所述步骤Step5和Step6中，对目标英文单词特征向量P_i'进行补零操作是指在向量尾部追加元素0，使向量P_i'的长度为2N_X；对目标英文单词特征向量P_i'进行切割操作是指在向量尾部删除多余元素，使向量P_i'的长度为2N_X。

6.根据权利要求1所述的残缺英文单词识别方法，其特征在于：所述步骤Step6中，归一化参数δ取正整数。

7.根据权利要求1所述的残缺英文单词识别方法，其特征在于：所述步骤Step5中得到的基于余弦定理的词形相似度Sim₁(X,P_j)、所述步骤Step6中得到的基于欧氏距离的词形相似度Sim₂(X,P_j)、所述步骤Step7中得到的最终词形相似度Sim(X,P_j)，应满足公式(6)的要求，即词形相似度Sim₁(X,P_j)、Sim₂(X,P_j)、Sim(X,P_j)以一个[0,1]之间的数值反映待检测英文单词X、目标英文单词P_j之间的相似程度，且数值越大表示相似程度越高；

0≤Sim₁(X,P_j),Sim₂(X,P_j),Sim(X,P_j)≤1 (6)。

8.根据权利要求1所述的残缺英文单词识别方法，其特征在于：所述步骤Step7中，相似阈值θ需满足0≤θ≤1。