CN112257705A - 一种用于识别图片文字内容的方法 - Google Patents

一种用于识别图片文字内容的方法 Download PDF

Info

Publication number
CN112257705A
CN112257705A CN202011045800.7A CN202011045800A CN112257705A CN 112257705 A CN112257705 A CN 112257705A CN 202011045800 A CN202011045800 A CN 202011045800A CN 112257705 A CN112257705 A CN 112257705A
Authority
CN
China
Prior art keywords
image
line
points
gray
intersection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011045800.7A
Other languages
English (en)
Inventor
胡丙良
何玉华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Quantong Jinxin Holdings Guangdong Co ltd
Original Assignee
Quantong Jinxin Holdings Guangdong Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Quantong Jinxin Holdings Guangdong Co ltd filed Critical Quantong Jinxin Holdings Guangdong Co ltd
Priority to CN202011045800.7A priority Critical patent/CN112257705A/zh
Publication of CN112257705A publication Critical patent/CN112257705A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Abstract

本发明提供一种用于识别图片文字内容的方法,它包括以下步骤:拍摄或采集立体物品的原始图,所述立体物品具至少两个面存在文字;对所述原始图进行灰度化处理得到灰度图;确定所述两个面的交接线;计算交接线与Y轴角度差,旋转所述的灰度图,直至所述角度差为零;以所述的交接线为分界线,分割所述灰度图生成第一面和第二面得到两张图片;对第一面和第二面的图片分别向XY平面进行扭曲校正生成扭曲校正后的第一图和第二图;对所述第一图和第二图以交接线为左右重新组合,生成待识别的灰度整图;对所述灰度整图进行二值化、图像降噪、分割图片和文字识别,实现对立体物件两个面的文字同时进行识别。

Description

一种用于识别图片文字内容的方法
技术领域
本发明涉及图片文字识别技术,尤其是能够识别立体物件上文字的方法。
背景技术
OCR光学字符识别被广泛应用到图片文字的识别。 现有OCR文字识别方法依次经过以下步骤:灰度化,二值化,图像降噪,倾斜矫正,图片分割,文字识别六个步骤;
现有的图片文字识别,包括OCR文字识别,对图片、拍摄和扫描的要求比较高,只能对纯平面上的文字进行识别,对立体物件上的文字往往无法识别或者识别率低。
发明内容
本发明的主要目的是克服现有技术的不足,提供一种用于识别图片文字内容的方法,它能对立体物件两个面的文字同时进行识别;
其中,一种用于识别图片文字内容的方法,其特征在于:包括以下步骤:
拍摄或采集立体物品的原始图,所述立体物品具至少两个面存在文字;
对所述原始图进行灰度化处理得到灰度图;
确定所述两个面的交接线;
计算交接线与Y轴角度差,旋转所述的灰度图,直至所述角度差为零;
以所述的交接线为分界线,分割所述灰度图生成第一面和第二面得到两张图片;
对第一面和第二面的图片分别向XY平面进行扭曲校正生成扭曲校正后的第一图和第二图;
对所述第一图和第二图以交接线为左右重新组合,生成待识别的灰度整图;
对所述灰度整图进行二值化;
对二值化后的图像降噪;
对降噪处理后的图片分割;
对分割后的图片,扫描图片上的文字提取的特征向量与特征模板库进行模板粗分类和模板细匹配,识别出字符。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图;
图1为某优选实施方案中的灰度图示意图;
图2为某优选实施方案中的方灰度图进行Y轴校正后的示意图;
图3为某优选实施例中第一图示意图;
图4为某优选实施例中第二图示意图;
图5为某优选实施例中灰度整图的示意图;
图6为某优选实施例中核心步骤流程图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子;
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、 “所述”和“该”也旨在包 括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合;
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称 为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”;
在一个实施例中,参考图1至6,本申请提供的用于识别图片文字内容的方法具体包括以下步骤:S01,拍摄或采集立体物品的原始图,所述立体物品具至少两个面存在文字
拍摄或采集可以通过手机、相机、摄像机等拍摄或者实时采集,也可以是通过预录制的视频中采集具体图像帧来实现;
S02,对所述原始图进行灰度化处理得到灰度图
对原始图片进行灰度化处理,得到灰度化处理后的原始图片,简称灰度图。具体灰度化可以参考现有的OCR文字识别的灰度化处理;
S03,确定所述两个面的交接线
确定两个面的交接线。交接线的确定,可以通过逐行扫描计算灰度图沿X轴方向的灰度值或者亮度值,确定其中的灰度值或者亮度值的突变点,然后将所述每行的突变点连接,形成两个面的交接线。在一实施例中,为了降低计算量,可以沿Y轴选取三个不相邻的点,沿X轴方向扫描三行的灰度值,确定每行扫描的突变点,共得到三个突变点并连线作为两个面的交接线;
S04,计算交接线与Y轴角度差,旋转所述的灰度图,直至所述角度差为零
判断交接线是否与Y轴重合,如果不重合,则计算交接线与Y轴角度差,旋转所述的灰度图,直至角度差为零。在一实施例中,如果交接线为曲线的,可以通过计算曲线起始点连线两侧的最大曲变幅度,计算平均曲变幅度,将起始点连线平行移动至平均曲变幅度所在位置确定交接线,这样是交接线直线化。另外,对交接线允许一定阀值的曲变幅度,如果没有超过该阀值,直接忽略其曲变,直接校正为直线即可;
S05,以所述的交接线为分界线,分割所述灰度图生成第一面和第二面得到两张图片
以所述的交接线为分界线,分割所述灰度图,生成所述第一面和第二面两张子图片。分割后的图可缓存形式存储在移动终端、或服务器等执行本方法的设备;
S06,对第一面和第二面的图片分别向XY平面进行扭曲校正生成扭曲校正后的第一图和第二图
对所述第一面和第二面的图片分别向XY平面进行扭曲校正得到扭曲校正后的第一图和第二图。具体扭曲校正方式可以有多种。其中一种确定第一图和第二图角点、通过位置探测它们的部分角点以及四条边的拟合曲线,其中保持位于交接线上的角点位置不变,计算与交接线相交接的两条拟合曲线与交接线的夹角,第一图和第二图的对应拟合曲线分别向负90度和正90度方向校正。校正时,由于扭曲形变,曲线距离有所变化。用积分的方法,求出四条边拟合曲线和扭曲图像上位置探测图形的边长。由于为线性形变,每条边的形变大小相同。根据校正图形的大小, 用积分方式求出扭曲图每条边长及伸缩系数,接下来找出与各点最近的拟合曲线上点的坐标,为扭曲图像的对应点,最后是分别一一映射,并使用灰度插值的方法即可得到该点的灰度。对校正图像中的每一点做这样的处理,就完成了图像的扭曲校正;
S07,对所述第一图和第二图以交接线为左右重新组合,生成待识别的灰度整图
S08,对所述灰度整图进行二值化;
对所述灰度整图进行二值化:非黑即白对摄像头拍摄的图片,大多数是彩色图像,彩色图像所含信息量巨大,对于图片的内容,我们可以简单的分为前景与背景,为了让计算机更快的,更好的识别文字,我们需要先对彩色图进行处理,使图片只有前景信息与背景信息,可以简单的定义前景信息为黑色,背景信息为白色,形成整体二值化图。具体二值化过程根据OCR光学字符识别技术的常规手段进行
S09,对二值化后的图像降噪;
现实中的数字图像在数字化和传输过程中常受到成像设备与外部环境噪声干扰等影响,称为含噪图像或噪声图像。减少数字图像中噪声的过程称为图像降噪。当二值化之后的图片会显示很多小黑点 ,这些都是不需要的信息,会对后面进行图片的轮廓切割识别造成极大的影响,降噪是一个非常重要的阶段,降噪处理的好坏直接影响了图片识别的准确率。具体图像降噪过程根据OCR光学字符识别技术的常规手段进行
S10,对降噪处理后的图片分割;
对于一段多行文本来讲,文字切分包含了行切分与字符切分两个步骤。将文字投影到Y轴,并将所有值累加,这样就能得到一个在y轴上的直方图。图片分割过程根据OCR光学字符识别技术的常规手段进行
S11,文字识别
对分割后的图片,扫描图片上的文字提取的特征向量与特征模板库进行模板粗分类和模板细匹配,识别出字符。以上所有的步骤都是为了获取这一小块的图片 ,把每一部分的图片扫描的文字提取的特征向量与特征模板库进行模板粗分类和模板细匹配,识别出字符;
这样,通过本方法,能够通过对立体物件的两个面上的文字同时进行准确的识别,克服现有图片文字识别仅局限在一个平面,而且对拍摄和扫描必须正对文字才能识别的不足,具有显著进步;
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可;
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化,这些变型、 用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本说明书的真正范围和精神由下面的权利要求指出;
应当理解的是,本说明书并不局限于上面已经描述并在附图中示出的精确结构, 并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。

Claims (5)

1.一种用于识别图片文字内容的方法,其特征在于:包括以下步骤:
拍摄或采集立体物品的原始图,所述立体物品具至少两个面存在文字;
对所述原始图进行灰度化处理得到灰度图;
确定所述两个面的交接线;
计算交接线与Y轴角度差,旋转所述的灰度图,直至所述角度差为零;
以所述的交接线为分界线,分割所述灰度图生成第一面和第二面得到两张图片;
对第一面和第二面的图片分别向XY平面进行扭曲校正生成扭曲校正后的第一图和第二图;
对所述第一图和第二图以交接线为左右重新组合,生成待识别的灰度整图;
对所述灰度整图进行二值化;
对二值化后的图像降噪;
对降噪处理后的图片分割;
对分割后的图片,扫描图片上的文字提取的特征向量与特征模板库进行模板粗分类和模板细匹配,识别出字符。
2.如权利要求1所述的用于识别图片文字内容的方法,其特征在于,所述确定所述两个面的交接线时,逐行扫描计算灰度图沿X轴方向的灰度值或者亮度值,确定其中的灰度值或者亮度值的突变点,然后将所述每行的突变点连接,形成两个面的交接线。
3.如权利要求1所述的用于识别图片文字内容的方法,其特征在于,所述确定所述两个面的交接线时,沿Y轴选取三个不相邻的点,沿X轴方向扫描三行的灰度值,确定每行扫描的突变点,共得到三个突变点并连线作为两个面的交接线。
4.如权利要求1所述的用于识别图片文字内容的方法,其特征在于,所述计算交接线与Y轴角度差,旋转所述的灰度图,直至所述角度差为零时,若交接线为曲线的,则计算曲线起始点连线两侧的最大曲变幅度,计算平均曲变幅度,将起始点连线平行移动至平均曲变幅度所在位置进而确定交接线。
5.如权利要求1所述的用于识别图片文字内容的方法,其特征在于,所述对第一面和第二面的图片分别向XY平面进行扭曲校正生成扭曲校正后的第一图和第二图过程中,确定第一图和第二图角点、通过位置探测它们的部分角点以及四条边的拟合曲线,其中保持位于交接线上的角点位置不变,计算与交接线相交接的两条拟合曲线与交接线的夹角,第一图和第二图的对应拟合曲线分别向负90度和正90度方向校正;用积分的方法,求出四条边拟合曲线和扭曲图像上位置探测图形的边长;根据校正图形的大小, 用积分方式求出扭曲图每条边长及伸缩系数,找出与各点最近的拟合曲线上点的坐标,为扭曲图像的对应点,最后是分别一一映射,并使用灰度插值的方法即可得到该点的灰度。
CN202011045800.7A 2020-09-29 2020-09-29 一种用于识别图片文字内容的方法 Pending CN112257705A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011045800.7A CN112257705A (zh) 2020-09-29 2020-09-29 一种用于识别图片文字内容的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011045800.7A CN112257705A (zh) 2020-09-29 2020-09-29 一种用于识别图片文字内容的方法

Publications (1)

Publication Number Publication Date
CN112257705A true CN112257705A (zh) 2021-01-22

Family

ID=74233407

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011045800.7A Pending CN112257705A (zh) 2020-09-29 2020-09-29 一种用于识别图片文字内容的方法

Country Status (1)

Country Link
CN (1) CN112257705A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622593A (zh) * 2012-02-10 2012-08-01 北方工业大学 一种文本识别方法及系统
CN102826209A (zh) * 2012-08-03 2012-12-19 中国神华能源股份有限公司 用单臂爬壁机器人实现船舶水尺图像立体拍摄的方法
CN105488507A (zh) * 2016-01-22 2016-04-13 吉林大学 圆柱表面文字识别系统及方法
US20180255287A1 (en) * 2012-03-15 2018-09-06 Fuji Xerox Co., Ltd. Generating hi-res dewarped book images
CN108921804A (zh) * 2018-07-04 2018-11-30 苏州大学 扭曲文档图像的校正方法
CN109063704A (zh) * 2018-07-05 2018-12-21 西安交通大学 基于投影法的两阶段文档图像非线性失真校正方法
EP3606060A1 (en) * 2018-07-31 2020-02-05 Coretronic Corporation Projection device, projection system and image correction method

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622593A (zh) * 2012-02-10 2012-08-01 北方工业大学 一种文本识别方法及系统
US20180255287A1 (en) * 2012-03-15 2018-09-06 Fuji Xerox Co., Ltd. Generating hi-res dewarped book images
CN102826209A (zh) * 2012-08-03 2012-12-19 中国神华能源股份有限公司 用单臂爬壁机器人实现船舶水尺图像立体拍摄的方法
CN105488507A (zh) * 2016-01-22 2016-04-13 吉林大学 圆柱表面文字识别系统及方法
CN108921804A (zh) * 2018-07-04 2018-11-30 苏州大学 扭曲文档图像的校正方法
CN109063704A (zh) * 2018-07-05 2018-12-21 西安交通大学 基于投影法的两阶段文档图像非线性失真校正方法
EP3606060A1 (en) * 2018-07-31 2020-02-05 Coretronic Corporation Projection device, projection system and image correction method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
丛伟建;杨健;刘越;王涌天;: "基于造影图像的能量场反投影合成冠脉三维重建", 中国科学:信息科学, no. 08, 20 August 2013 (2013-08-20) *
陈姚节;薛雅婷;姚永强;: "一种适应多几何面投影的校正算法", 科学技术与工程, no. 01, 8 January 2018 (2018-01-08) *

Similar Documents

Publication Publication Date Title
CN111179243A (zh) 一种基于计算机视觉的小尺寸芯片裂纹检测方法及系统
CN115294099B (zh) 一种钢板轧制过程发纹缺陷的检测方法及系统
CN113077437B (zh) 工件质量检测方法及其系统
CN105447489B (zh) 一种图片ocr识别系统的字符与背景粘连噪声消除方法
CN114863492B (zh) 一种低质量指纹图像的修复方法及修复装置
CN115100191A (zh) 基于工业检测的金属铸件缺陷识别方法
CN115760820A (zh) 一种塑料件缺陷图像识别方法及应用
CN111861979A (zh) 一种定位方法、设备及计算机可读存储介质
CN112419207A (zh) 一种图像矫正方法及装置、系统
CN111582000A (zh) 一种条形码定位方法、装置及相关设备
CN113298769A (zh) Fpc软排线外观缺陷检测方法、系统和介质
CN110060239B (zh) 一种用于瓶子瓶口的缺陷检测方法
CN111354047A (zh) 一种基于计算机视觉的摄像模组定位方法及系统
CN108205641B (zh) 手势图像处理方法及装置
CN112257705A (zh) 一种用于识别图片文字内容的方法
CN114067122B (zh) 一种两级式二值化图像处理方法
CN115187744A (zh) 一种基于激光点云的机柜识别方法
CN114994072A (zh) 一种基于机器视觉的磁棒端面缺陷检测方法
JPH06103275B2 (ja) 外観検査による欠陥抽出方法
JP2871590B2 (ja) 画像抽出方式
CN110310239A (zh) 一种基于特性值拟合消除光照影响的图像处理方法
CN109271986B (zh) 一种基于Second-Confirm的数字识别方法
JP2710685B2 (ja) 外観検査による欠陥検出方法
CN116523909B (zh) 一种用于汽车车身外观的视觉检测方法及系统
JP2785747B2 (ja) 文字読取装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination