CN107563382A - 基于特征捕捉技术的文本识别方法 - Google Patents

基于特征捕捉技术的文本识别方法 Download PDF

Info

Publication number
CN107563382A
CN107563382A CN201710860298.7A CN201710860298A CN107563382A CN 107563382 A CN107563382 A CN 107563382A CN 201710860298 A CN201710860298 A CN 201710860298A CN 107563382 A CN107563382 A CN 107563382A
Authority
CN
China
Prior art keywords
stroke
characteristic point
point
word
recognition method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201710860298.7A
Other languages
English (en)
Inventor
曾传德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201710860298.7A priority Critical patent/CN107563382A/zh
Publication of CN107563382A publication Critical patent/CN107563382A/zh
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明公开了基于特征捕捉技术的文本识别方法,包括以下步骤:S1:建立文字特征数据库;所述文字特征数据库包括文字的多个特征点、特征点的相对位置和特征点之间的连线关系;S2:对含有文本的图片进行灰度化;S3:对灰度化后的图片进行特征点捕捉;S4:对捕捉后的特征点与文字特征数据库进行对比,选出与含有文本的图片对应的文字。本发明基于特征捕捉技术的文本识别方法,通过特征点对文字进行识别,避免了用概率算法对文字进行识别,提高了文字识别的速度。

Description

基于特征捕捉技术的文本识别方法
技术领域
本发明涉及计算机技术领域,具体涉及基于特征捕捉技术的文本识别方法。
背景技术
利用计算机自动识别字符的技术,是模式识别应用的一个重要领域。人们在生产和生活中,要处理大量的文字、报表和文本。为了减轻人们的劳动,提高处理效率,50年代开始探讨一般文字识别方法,并研制出光学字符识别器。60年代出现了采用磁性墨水和特殊字体的实用机器。60年代后期,出现了多种字体和手写体文字识别机,其识别精度和机器性能都基本上能满足要求。如用于信函分拣的手写体数字识别机和印刷体英文数字识别机。70年代主要研究文字识别的基本理论和研制高性能的文字识别机,并着重于汉字识别的研究。
然而现有的文字识别技术普遍基于概率算法,这种算法的计算矩阵大,运算时间长,从而导致了文字识别速度降低。
发明内容
本发明所要解决的技术问题是现有的文字识别技术普遍基于概率算法,这种算法的计算矩阵大,运算时间长,从而导致了文字识别速度降低,目的在于提供基于特征捕捉技术的文本识别方法,解决上述问题。
本发明通过下述技术方案实现:
基于特征捕捉技术的文本识别方法,包括以下步骤:S1:建立文字特征数据库;所述文字特征数据库包括文字的多个特征点、特征点的相对位置和特征点之间的连线关系;S2:对含有文本的图片进行灰度化;S3:对灰度化后的图片进行特征点捕捉;S4:对捕捉后的特征点与文字特征数据库进行对比,选出与含有文本的图片对应的文字。
现有技术中,文字识别技术普遍基于概率算法,这种算法的计算矩阵大,运算时间长,从而导致了文字识别速度降低。本发明应用时,先建立关于特征点的数据库,再对图片进行灰度化,然后对灰度化的图片进行特征点捕捉,捕捉特征点相比概率算法,只需要很小的运算矩阵即可实现,再对捕捉后的特征点与数据库进行比较,从而选出相对应的文字。本发明通过特征点对文字进行识别,避免了用概率算法对文字进行识别,提高了文字识别的速度。
进一步的,所述文字的多个特征点包括笔画端点、笔画交点和笔画弯曲点。
进一步的,所述步骤S3包括以下子步骤:S31:扫描灰度化后图片的像素点和该像素点预定范围内的灰度值;S32:如果灰度值发生大幅变化,则判定该像素点为特征点;S33:根据灰度值判断该像素点为笔画端点、笔画交点或笔画弯曲点;笔画端点、笔画弯曲点和笔画交点分别对应的特征点的灰度值依次增大。
本发明应用时,扫描像素点和该像素点预定范围内的灰度值,当灰度值变化时,也就是文字笔画出现弯曲、交点和端点时,再根据灰度值的大小来判断此点是笔画端点、笔画弯曲点还是笔画交点,这种判断方法,运算量非常小,只需要进行四元判断即可,远远低于概率算法。
进一步的,文字特征数据库内的特征点根据所需语种进行添加。
进一步的,步骤S4还包括以下子步骤:如果文字特征数据库中无法选出对应的文字,则请求补充数据库。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明基于特征捕捉技术的文本识别方法,通过特征点对文字进行识别,避免了用概率算法对文字进行识别,提高了文字识别的速度。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
本发明基于特征捕捉技术的文本识别方法,包括以下步骤:S1:建立文字特征数据库;所述文字特征数据库包括文字的多个特征点、特征点的相对位置和特征点之间的连线关系;S2:对含有文本的图片进行灰度化;S3:对灰度化后的图片进行特征点捕捉;S4:对捕捉后的特征点与文字特征数据库进行对比,选出与含有文本的图片对应的文字。所述文字的多个特征点包括笔画端点、笔画交点和笔画弯曲点。所述步骤S3包括以下子步骤:S31:扫描灰度化后图片的像素点和该像素点预定范围内的灰度值;S32:如果灰度值发生大幅变化,则判定该像素点为特征点;S33:根据灰度值判断该像素点为笔画端点、笔画交点或笔画弯曲点;笔画端点、笔画弯曲点和笔画交点分别对应的特征点的灰度值依次增大。文字特征数据库内的特征点根据所需语种进行添加。步骤S4还包括以下子步骤:如果文字特征数据库中无法选出对应的文字,则请求补充数据库。
本实施例实施时,先建立关于特征点的数据库,再对图片进行灰度化,然后对灰度化的图片进行特征点捕捉,捕捉特征点相比概率算法,只需要很小的运算矩阵即可实现,再对捕捉后的特征点与数据库进行比较,从而选出相对应的文字。本发明通过特征点对文字进行识别,避免了用概率算法对文字进行识别,提高了文字识别的速度。扫描像素点和该像素点预定范围内的灰度值,当灰度值变化时,也就是文字笔画出现弯曲、交点和端点时,再根据灰度值的大小来判断此点是笔画端点、笔画弯曲点还是笔画交点,这种判断方法,运算量非常小,只需要进行四元判断即可,远远低于概率算法。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.基于特征捕捉技术的文本识别方法,其特征在于,包括以下步骤:
S1:建立文字特征数据库;所述文字特征数据库包括文字的多个特征点、特征点的相对位置和特征点之间的连线关系;
S2:对含有文本的图片进行灰度化;
S3:对灰度化后的图片进行特征点捕捉;
S4:对捕捉后的特征点与文字特征数据库进行对比,选出与含有文本的图片对应的文字。
2.根据权利要求1所述的基于特征捕捉技术的文本识别方法,其特征在于,所述文字的多个特征点包括笔画端点、笔画交点和笔画弯曲点。
3.根据权利要求1所述的基于特征捕捉技术的文本识别方法,其特征在于:所述步骤S3包括以下子步骤:
S31:扫描灰度化后图片的像素点和该像素点预定范围内的灰度值;
S32:如果灰度值发生大幅变化,则判定该像素点为特征点;
S33:根据灰度值判断该像素点为笔画端点、笔画交点或笔画弯曲点;笔画端点、笔画弯曲点和笔画交点分别对应的特征点的灰度值依次增大。
4.根据权利要求1所述的基于特征捕捉技术的文本识别方法,其特征在于:文字特征数据库内的特征点根据所需语种进行添加。
5.根据权利要求1所述的基于特征捕捉技术的文本识别方法,其特征在于:步骤S4还包括以下子步骤:
如果文字特征数据库中无法选出对应的文字,则请求补充数据库。
CN201710860298.7A 2017-09-21 2017-09-21 基于特征捕捉技术的文本识别方法 Withdrawn CN107563382A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710860298.7A CN107563382A (zh) 2017-09-21 2017-09-21 基于特征捕捉技术的文本识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710860298.7A CN107563382A (zh) 2017-09-21 2017-09-21 基于特征捕捉技术的文本识别方法

Publications (1)

Publication Number Publication Date
CN107563382A true CN107563382A (zh) 2018-01-09

Family

ID=60982461

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710860298.7A Withdrawn CN107563382A (zh) 2017-09-21 2017-09-21 基于特征捕捉技术的文本识别方法

Country Status (1)

Country Link
CN (1) CN107563382A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229428A (zh) * 2018-01-30 2018-06-29 上海思愚智能科技有限公司 一种文字识别方法、装置、服务器及介质
CN110580476A (zh) * 2018-06-11 2019-12-17 夏普株式会社 文字识别装置以及文字识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229428A (zh) * 2018-01-30 2018-06-29 上海思愚智能科技有限公司 一种文字识别方法、装置、服务器及介质
CN110580476A (zh) * 2018-06-11 2019-12-17 夏普株式会社 文字识别装置以及文字识别方法
CN110580476B (zh) * 2018-06-11 2023-05-23 夏普株式会社 文字识别装置以及文字识别方法

Similar Documents

Publication Publication Date Title
CN107133571A (zh) 一种将纸质发票自动生成财务报表的系统及方法
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
CN112396049A (zh) 文本纠错方法、装置、计算机设备及存储介质
CN111695518B (zh) 结构化文档信息标注的方法、装置及电子设备
CN111666937A (zh) 一种图像中的文本识别方法及系统
CN112862024A (zh) 一种文本识别方法及系统
CN112966685B (zh) 用于场景文本识别的攻击网络训练方法、装置及相关设备
Sadanand et al. Offline MODI character recognition using complex moments
CN107563382A (zh) 基于特征捕捉技术的文本识别方法
Siddiqi et al. A database of artificial urdu text in video images with semi-automatic text line labeling scheme
CN112749639B (zh) 模型训练方法、装置、计算机设备和存储介质
CN113177542A (zh) 识别印章文字的方法、装置、设备和计算机可读介质
CN109508712A (zh) 一种基于图像的汉语文字识别方法
Aravinda et al. Template matching method for Kannada handwritten recognition based on correlation analysis
Gunawan et al. Russian character recognition using self-organizing map
CN104866631A (zh) 咨询问题聚合的方法和装置
CN114220112A (zh) 一种面向人物名片的任职关系抽取方法和系统
Zhi et al. A Hybrid Framework for Text Recognition Used in Commodity Futures Document Verification
Ajao et al. Yoruba handwriting word recognition quality evaluation of preprocessing attributes using information theory approach
CN107679540A (zh) 采用灰度化处理的分辨系统
Ofusa et al. Glyph-based data augmentation for accurate kanji character recognition
CN112395834A (zh) 基于图片输入的脑图生成方法、装置、设备及存储介质
Korovai et al. Recognition-Independent Handwritten Text Alignment Using Lightweight Recurrent Neural Network
Zheng et al. Chinese/English mixed character segmentation as semantic segmentation
Henke Building and improving an OCR classifier for Republican Chinese newspaper text

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20180109

WW01 Invention patent application withdrawn after publication