CN107563382A

CN107563382A - 基于特征捕捉技术的文本识别方法

Info

Publication number: CN107563382A
Application number: CN201710860298.7A
Authority: CN
Inventors: 曾传德
Original assignee: Individual
Current assignee: Individual
Priority date: 2017-09-21
Filing date: 2017-09-21
Publication date: 2018-01-09

Abstract

本发明公开了基于特征捕捉技术的文本识别方法，包括以下步骤：S1：建立文字特征数据库；所述文字特征数据库包括文字的多个特征点、特征点的相对位置和特征点之间的连线关系；S2：对含有文本的图片进行灰度化；S3：对灰度化后的图片进行特征点捕捉；S4：对捕捉后的特征点与文字特征数据库进行对比，选出与含有文本的图片对应的文字。本发明基于特征捕捉技术的文本识别方法，通过特征点对文字进行识别，避免了用概率算法对文字进行识别，提高了文字识别的速度。

Description

基于特征捕捉技术的文本识别方法

技术领域

本发明涉及计算机技术领域，具体涉及基于特征捕捉技术的文本识别方法。

背景技术

利用计算机自动识别字符的技术，是模式识别应用的一个重要领域。人们在生产和生活中，要处理大量的文字、报表和文本。为了减轻人们的劳动，提高处理效率，50年代开始探讨一般文字识别方法，并研制出光学字符识别器。60年代出现了采用磁性墨水和特殊字体的实用机器。60年代后期，出现了多种字体和手写体文字识别机，其识别精度和机器性能都基本上能满足要求。如用于信函分拣的手写体数字识别机和印刷体英文数字识别机。70年代主要研究文字识别的基本理论和研制高性能的文字识别机，并着重于汉字识别的研究。

然而现有的文字识别技术普遍基于概率算法，这种算法的计算矩阵大，运算时间长，从而导致了文字识别速度降低。

发明内容

本发明所要解决的技术问题是现有的文字识别技术普遍基于概率算法，这种算法的计算矩阵大，运算时间长，从而导致了文字识别速度降低，目的在于提供基于特征捕捉技术的文本识别方法，解决上述问题。

本发明通过下述技术方案实现：

基于特征捕捉技术的文本识别方法，包括以下步骤：S1：建立文字特征数据库；所述文字特征数据库包括文字的多个特征点、特征点的相对位置和特征点之间的连线关系；S2：对含有文本的图片进行灰度化；S3：对灰度化后的图片进行特征点捕捉；S4：对捕捉后的特征点与文字特征数据库进行对比，选出与含有文本的图片对应的文字。

现有技术中，文字识别技术普遍基于概率算法，这种算法的计算矩阵大，运算时间长，从而导致了文字识别速度降低。本发明应用时，先建立关于特征点的数据库，再对图片进行灰度化，然后对灰度化的图片进行特征点捕捉，捕捉特征点相比概率算法，只需要很小的运算矩阵即可实现，再对捕捉后的特征点与数据库进行比较，从而选出相对应的文字。本发明通过特征点对文字进行识别，避免了用概率算法对文字进行识别，提高了文字识别的速度。

进一步的，所述文字的多个特征点包括笔画端点、笔画交点和笔画弯曲点。

进一步的，所述步骤S3包括以下子步骤：S31：扫描灰度化后图片的像素点和该像素点预定范围内的灰度值；S32：如果灰度值发生大幅变化，则判定该像素点为特征点；S33：根据灰度值判断该像素点为笔画端点、笔画交点或笔画弯曲点；笔画端点、笔画弯曲点和笔画交点分别对应的特征点的灰度值依次增大。

本发明应用时，扫描像素点和该像素点预定范围内的灰度值，当灰度值变化时，也就是文字笔画出现弯曲、交点和端点时，再根据灰度值的大小来判断此点是笔画端点、笔画弯曲点还是笔画交点，这种判断方法，运算量非常小，只需要进行四元判断即可，远远低于概率算法。

进一步的，文字特征数据库内的特征点根据所需语种进行添加。

进一步的，步骤S4还包括以下子步骤：如果文字特征数据库中无法选出对应的文字，则请求补充数据库。

本发明与现有技术相比，具有如下的优点和有益效果：

本发明基于特征捕捉技术的文本识别方法，通过特征点对文字进行识别，避免了用概率算法对文字进行识别，提高了文字识别的速度。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例

本发明基于特征捕捉技术的文本识别方法，包括以下步骤：S1：建立文字特征数据库；所述文字特征数据库包括文字的多个特征点、特征点的相对位置和特征点之间的连线关系；S2：对含有文本的图片进行灰度化；S3：对灰度化后的图片进行特征点捕捉；S4：对捕捉后的特征点与文字特征数据库进行对比，选出与含有文本的图片对应的文字。所述文字的多个特征点包括笔画端点、笔画交点和笔画弯曲点。所述步骤S3包括以下子步骤：S31：扫描灰度化后图片的像素点和该像素点预定范围内的灰度值；S32：如果灰度值发生大幅变化，则判定该像素点为特征点；S33：根据灰度值判断该像素点为笔画端点、笔画交点或笔画弯曲点；笔画端点、笔画弯曲点和笔画交点分别对应的特征点的灰度值依次增大。文字特征数据库内的特征点根据所需语种进行添加。步骤S4还包括以下子步骤：如果文字特征数据库中无法选出对应的文字，则请求补充数据库。

本实施例实施时，先建立关于特征点的数据库，再对图片进行灰度化，然后对灰度化的图片进行特征点捕捉，捕捉特征点相比概率算法，只需要很小的运算矩阵即可实现，再对捕捉后的特征点与数据库进行比较，从而选出相对应的文字。本发明通过特征点对文字进行识别，避免了用概率算法对文字进行识别，提高了文字识别的速度。扫描像素点和该像素点预定范围内的灰度值，当灰度值变化时，也就是文字笔画出现弯曲、交点和端点时，再根据灰度值的大小来判断此点是笔画端点、笔画弯曲点还是笔画交点，这种判断方法，运算量非常小，只需要进行四元判断即可，远远低于概率算法。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于特征捕捉技术的文本识别方法，其特征在于，包括以下步骤：

S1：建立文字特征数据库；所述文字特征数据库包括文字的多个特征点、特征点的相对位置和特征点之间的连线关系；

S2：对含有文本的图片进行灰度化；

S3：对灰度化后的图片进行特征点捕捉；

S4：对捕捉后的特征点与文字特征数据库进行对比，选出与含有文本的图片对应的文字。

2.根据权利要求1所述的基于特征捕捉技术的文本识别方法，其特征在于，所述文字的多个特征点包括笔画端点、笔画交点和笔画弯曲点。

3.根据权利要求1所述的基于特征捕捉技术的文本识别方法，其特征在于：所述步骤S3包括以下子步骤：

S31：扫描灰度化后图片的像素点和该像素点预定范围内的灰度值；

S32：如果灰度值发生大幅变化，则判定该像素点为特征点；

S33：根据灰度值判断该像素点为笔画端点、笔画交点或笔画弯曲点；笔画端点、笔画弯曲点和笔画交点分别对应的特征点的灰度值依次增大。

4.根据权利要求1所述的基于特征捕捉技术的文本识别方法，其特征在于：文字特征数据库内的特征点根据所需语种进行添加。

5.根据权利要求1所述的基于特征捕捉技术的文本识别方法，其特征在于：步骤S4还包括以下子步骤：

如果文字特征数据库中无法选出对应的文字，则请求补充数据库。