CN106127202A - 一种图片中字符识别的方法以及装置 - Google Patents

一种图片中字符识别的方法以及装置 Download PDF

Info

Publication number
CN106127202A
CN106127202A CN201610454416.XA CN201610454416A CN106127202A CN 106127202 A CN106127202 A CN 106127202A CN 201610454416 A CN201610454416 A CN 201610454416A CN 106127202 A CN106127202 A CN 106127202A
Authority
CN
China
Prior art keywords
picture
pictures
sub
cutting
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610454416.XA
Other languages
English (en)
Inventor
赖祥芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Fujitsu Communication Software Co Ltd
Original Assignee
Fujian Fujitsu Communication Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Fujitsu Communication Software Co Ltd filed Critical Fujian Fujitsu Communication Software Co Ltd
Priority to CN201610454416.XA priority Critical patent/CN106127202A/zh
Publication of CN106127202A publication Critical patent/CN106127202A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

本发明提供一种图片中字符识别的方法,所述方法包括一模板数据库;将原始图片进行图片预处理;将处理后的图片切分为复数个子图片,并将切分后的每个子图片转化为数组列表;取出一子图片所转化的数组列表与模板数据库中的模板进行对比,获取识别结果;将该识别的子图片的数组列表消除,并进入步骤3直至所有字图片识别完成,本发明还提供一种图片中字符识别的装置,便于识别图片中的字符,提高识别准确率。

Description

一种图片中字符识别的方法以及装置
技术领域
本发明涉及一种图片中字符识别的方法以及装置。
背景技术
现有的图片中字符识别技术主要采用先将图片进行切割,然后对切割后的图片进行识别的方法,采用图片切割的方式进行图片中字符识别的技术,识别字符粘连的图片准确率低,不适合在生产过程中应用。而对于整体识别的技术,如果在识别过程中,没有把已经识别出来的字符在原图上完全消除,这些该消除而实际上又没被消除的字符残留部分,容易形成较大的干扰噪声,影响整体的识别准确率。
发明内容
本发明要解决的技术问题,在于提供一种图片中字符识别的方法以及装置,便于识别图片中的字符,并保证准确率。
本发明之一是这样实现的:一种图片中字符识别的方法,所述方法包括一模板数据库;包括如下步骤:
步骤1、将原始图片进行图片预处理;
步骤2、将处理后的图片切分为复数个子图片,并将切分后的每个子图片转化为数组列表;
步骤3、取出一子图片所转化的数组列表与模板数据库中的模板进行对比,获取识别结果;
步骤4、将该识别的子图片的数组列表消除,并进入步骤3直至所有字图片识别完成。
进一步地,所述步骤1中,图片预处理包括二值化以及除噪处理。
进一步地,所述步骤2进一步具体为:按照像素投影算法,查找预处理后的图片中无字符粘连的位置,并在该位置上执行图片切分动作,把原始输入的图片切分为复数个不可再切分的子图片,最终将每个子图片转化为由数字0、1组成的数组列表。
本发明之二是这样实现的:一种图片中字符识别的装置,所述装置包括一模板数据库;包括如下模块:
图片预处理模块,用于将原始图片进行图片预处理;
图片切分模块,用于将处理后的图片切分为复数个子图片,并将切分后的每个子图片转化为数组列表;
字符识别模块,用于取出一子图片所转化的数组列表与模板数据库中的模板进行对比,获取识别结果;
字符消除模块,用于将该识别的子图片的数组列表消除,并进入字符识别模块直至所有字图片识别完成。
进一步地,所述图片预处理模块中,图片预处理包括二值化以及除噪处理。
进一步地,所述图片切分模块进一步具体为:按照像素投影算法,查找预处理后的图片中无字符粘连的位置,并在该位置上执行图片切分动作,把原始输入的图片切分为复数个不可再切分的子图片,最终将每个子图片转化为由数字0、1组成的数组列表。
本发明具有如下优点:本发明一种图片中字符识别的方法以及装置,本发明中的技术可以很好的识别具有粘连字符特性的图片,识别准确率接近100%;可以很好的解决WEB自动测试工具不能填写验证码的问题;在网络数据抓取、分析的过程中,可以将网络中保存为图片格式的电话号码、电子邮箱地址等信息转换为计算机可以批量处理的数据,从而进行数据挖掘等深入应用。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1为本发明方法执行流程图。
图2为本发明装置的原理框图。
具体实施方式
如图1所示,本发明图片中字符识别的方法,所述方法包括一模板数据库;包括如下步骤:
步骤1、将原始图片进行图片预处理,图片预处理包括二值化以及除噪处理;
步骤2、按照像素投影算法,查找预处理后的图片中无字符粘连的位置,并在该位置上执行图片切分动作,把原始输入的图片切分为复数个不可再切分的子图片,最终将每个子图片转化为由数字0、1组成的数组列表;
步骤3、取出一子图片所转化的数组列表与模板数据库中的模板进行对比,获取识别结果;
步骤4、将该识别的子图片的数组列表消除,并进入步骤3直至所有字图片识别完成。
如图2所示,本发明图片中字符识别的装置,所述装置包括一模板数据库;包括如下模块:
图片预处理模块,用于将原始图片进行图片预处理,图片预处理包括二值化以及除噪处理;
图片切分模块,用于按照像素投影算法,查找预处理后的图片中无字符粘连的位置,并在该位置上执行图片切分动作,把原始输入的图片切分为复数个不可再切分的子图片,最终将每个子图片转化为由数字0、1组成的数组列表;
字符识别模块,用于取出一子图片所转化的数组列表与模板数据库中的模板进行对比,获取识别结果;
字符消除模块,用于将该识别的子图片的数组列表消除,并进入字符识别模块直至所有字图片识别完成。
本装置由图片预处理、图片切分、字符模版管理、字符识别、字符消除等五个模块组成。图片预处理模块负责对输入的原始图片进行二值化、除噪等处理为图片切分模块提供输入;图片切分模块按照像素投影算法,查找预处理后的图片中无字符粘连的位置,并在该位置上执行图片切分动作,把原始输入的图片切分为多个不可再切分的子图片,最终将各自子图片转化为由数字0、1组成的数组列表,为字符识别和字符消除模块提供输入;字符模版管理模块负责从现有的图片数据中分析出单个字符模版,为字符识别和字符消除模块提供输入;字符识别模块从字符模块管理模块中获取所有字符模版,针对切分后的每一个子图片进行如下操作:把字符模版逐一与子图片数据进行匹配、比对,每次匹配的结果会输出一个匹配率,最终将匹配率最高的模版所代表的字符作为单次识别的结果输出;字符消除模块负责从图片数据中消除本次已经识别的内容,以决策下一步动作:a)继续识别;b)图片识别结束,输出图片总体识别结果。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。

Claims (6)

1.一种图片中字符识别的方法,其特征在于:所述方法包括一模板数据库;包括如下步骤:
步骤1、将原始图片进行图片预处理;
步骤2、将处理后的图片切分为复数个子图片,并将切分后的每个子图片转化为数组列表;
步骤3、取出一子图片所转化的数组列表与模板数据库中的模板进行对比,获取识别结果;
步骤4、将该识别的子图片的数组列表消除,并进入步骤3直至所有字图片识别完成。
2.根据权利要求1所述的一种图片中字符识别的方法,其特征在于:所述步骤1中,图片预处理包括二值化以及除噪处理。
3.根据权利要求1所述的一种图片中字符识别的方法,其特征在于:所述步骤2进一步具体为:按照像素投影算法,查找预处理后的图片中无字符粘连的位置,并在该位置上执行图片切分动作,把原始输入的图片切分为复数个不可再切分的子图片,最终将每个子图片转化为由数字0、1组成的数组列表。
4.一种图片中字符识别的装置,其特征在于:所述装置包括一模板数据库;包括如下模块:
图片预处理模块,用于将原始图片进行图片预处理;
图片切分模块,用于将处理后的图片切分为复数个子图片,并将切分后的每个子图片转化为数组列表;
字符识别模块,用于取出一子图片所转化的数组列表与模板数据库中的模板进行对比,获取识别结果;
字符消除模块,用于将该识别的子图片的数组列表消除,并进入字符识别模块直至所有字图片识别完成。
5.根据权利要求4所述的一种图片中字符识别的装置,其特征在于:所述图片预处理模块中,图片预处理包括二值化以及除噪处理。
6.根据权利要求4所述的一种图片中字符识别的装置,其特征在于:所述图片切分模块进一步具体为:按照像素投影算法,查找预处理后的图片中无字符粘连的位置,并在该位置上执行图片切分动作,把原始输入的图片切分为复数个不可再切分的子图片,最终将每个子图片转化为由数字0、1组成的数组列表。
CN201610454416.XA 2016-06-21 2016-06-21 一种图片中字符识别的方法以及装置 Pending CN106127202A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610454416.XA CN106127202A (zh) 2016-06-21 2016-06-21 一种图片中字符识别的方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610454416.XA CN106127202A (zh) 2016-06-21 2016-06-21 一种图片中字符识别的方法以及装置

Publications (1)

Publication Number Publication Date
CN106127202A true CN106127202A (zh) 2016-11-16

Family

ID=57471389

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610454416.XA Pending CN106127202A (zh) 2016-06-21 2016-06-21 一种图片中字符识别的方法以及装置

Country Status (1)

Country Link
CN (1) CN106127202A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682666A (zh) * 2016-12-29 2017-05-17 成都数联铭品科技有限公司 用于非常见字体ocr识别的特征模板制备方法
CN107038438A (zh) * 2017-03-16 2017-08-11 上海电机学院 一种基于图像识别的评阅方法
CN109409362A (zh) * 2018-10-11 2019-03-01 杭州安恒信息技术股份有限公司 基于tesseract引擎的图片敏感词检测和定位方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102364496A (zh) * 2011-11-24 2012-02-29 无锡慧眼电子科技有限公司 一种基于图像分析的汽车车牌自动识别方法及系统
CN102456136A (zh) * 2010-10-29 2012-05-16 方正国际软件(北京)有限公司 一种图文切分方法及系统
CN102663380A (zh) * 2012-03-30 2012-09-12 中南大学 一种钢铁板坯编码图像中的字符识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102456136A (zh) * 2010-10-29 2012-05-16 方正国际软件(北京)有限公司 一种图文切分方法及系统
CN102364496A (zh) * 2011-11-24 2012-02-29 无锡慧眼电子科技有限公司 一种基于图像分析的汽车车牌自动识别方法及系统
CN102663380A (zh) * 2012-03-30 2012-09-12 中南大学 一种钢铁板坯编码图像中的字符识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李晓: ""基于像素积分投影的印刷体维文字母切分方法"", 《计算机技术与发展》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682666A (zh) * 2016-12-29 2017-05-17 成都数联铭品科技有限公司 用于非常见字体ocr识别的特征模板制备方法
CN107038438A (zh) * 2017-03-16 2017-08-11 上海电机学院 一种基于图像识别的评阅方法
CN109409362A (zh) * 2018-10-11 2019-03-01 杭州安恒信息技术股份有限公司 基于tesseract引擎的图片敏感词检测和定位方法和装置

Similar Documents

Publication Publication Date Title
CN108052577B (zh) 一种通用文本内容挖掘方法、装置、服务器及存储介质
CN106250513B (zh) 一种基于事件建模的事件个性化分类方法及系统
CN108629043A (zh) 网页目标信息的提取方法、装置及存储介质
CN105740402A (zh) 数字图像的语义标签的获取方法及装置
CN105373588B (zh) 快递分拣装置及方法
US10061844B2 (en) Methods and systems for query segmentation in a search
CN108255602B (zh) 任务组合方法及终端设备
CN105930836A (zh) 一种视频文字的识别方法和装置
CN111210402A (zh) 人脸图像质量评分方法、装置、计算机设备及存储介质
CN106127202A (zh) 一种图片中字符识别的方法以及装置
CN106445977A (zh) 图片推送方法及装置
CN103500172A (zh) 一种图片搜索系统
CN106649210A (zh) 一种数据转换方法及装置
CN104408036B (zh) 关联话题的识别方法和装置
CN113254572B (zh) 一种基于云平台的电子文档分类监管系统
CN104142955A (zh) 一种推荐学习课程的方法和终端
US20150149374A1 (en) Relationship circle processing method and system, and computer storage medium
CN104462322B (zh) 字符串比对方法和装置
CN103389981A (zh) 网络标签自动识别方法及其系统
CN107798004B (zh) 关键词查找方法、装置及终端
CN104462279B (zh) 分析对象特征信息的获取方法和装置
JP5206268B2 (ja) ルール作成プログラム、ルール作成方法及びルール作成装置
CN111492364B (zh) 数据标注方法、装置及存储介质
CN110362694A (zh) 基于人工智能的文献数据检索方法、设备及可读存储介质
CN113283231B (zh) 获取签章位的方法、设置系统、签章系统及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161116

RJ01 Rejection of invention patent application after publication