CN104268512A - 基于光学字符识别的图像中字符识别方法及装置 - Google Patents

基于光学字符识别的图像中字符识别方法及装置 Download PDF

Info

Publication number
CN104268512A
CN104268512A CN201410475608.XA CN201410475608A CN104268512A CN 104268512 A CN104268512 A CN 104268512A CN 201410475608 A CN201410475608 A CN 201410475608A CN 104268512 A CN104268512 A CN 104268512A
Authority
CN
China
Prior art keywords
image
character
character string
identification
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410475608.XA
Other languages
English (en)
Other versions
CN104268512B (zh
Inventor
李德斌
王巨宏
许勇
全琦
黄志斌
杨大威
谭志鹏
吴现
杨言
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tsinghua University
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Tencent Technology Shenzhen Co Ltd filed Critical Tsinghua University
Priority to CN201410475608.XA priority Critical patent/CN104268512B/zh
Publication of CN104268512A publication Critical patent/CN104268512A/zh
Application granted granted Critical
Publication of CN104268512B publication Critical patent/CN104268512B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/88Image or video recognition using optical means, e.g. reference filters, holographic masks, frequency domain filters or spatial domain filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)

Abstract

本发明涉及一种基于光学字符识别的图像中字符识别方法及装置,所述方法在一个实施例中包括以下步骤:将所述图像灰度化转化为灰度图像;滑动读取图像的窗口,循环截取预设范围的所述灰度图像直到所述图像被完全截取;根据预设的计算方法计算得到的第一阀值对当前所述截取的预设范围的图像进行二值化直到所述灰度图像被完全二值化;将所述二值化的灰度图像的灰度值离散分布通过离散傅里叶变换变换到频域,通过高斯滤波对所述频域中的点值进行调整;再将所述频域中距离中心距离小于预设值的点值均置为零,得到处理图像;将所述处理图像中的字符串进行识别,生成目标字符串。根据发明中的方法及装置,可以更准确的识别图像中的字符串。

Description

基于光学字符识别的图像中字符识别方法及装置
技术领域
本发明涉及光学字符识别领域,特别涉及一种基于光学字符识别的图像中字符识别方法及装置。
背景技术
图像中的字符的识别技术越来越重要,通过扫描识别影像直接获取影像中的字符,减少字符输入的麻烦操作。光学字符识别技术已经应用到诸如车牌识别、证件信息识别、取词翻译等。现有技术中没有对于图像中有明显摩尔纹等明显阴影的字符识别的有效方法,对于不清晰的图像中的字符识别也就成为亟待解决的问题。
发明内容
有鉴于此,本发明提供一种基于光学字符识别的图像中字符识别方法及装置,可以更准确的识别图像中的字符串。
一种基于光学字符识别的图像中字符识别方法,所述方法用于读取图像中的字符串,所述方法包括以下步骤:
将所述图像灰度化转化为灰度图像;
滑动读取图像的窗口,循环截取预设范围的所述灰度图像直到所述图像被完全截取;
根据预设的计算方法计算得到的第一阀值对当前所述截取的预设范围的图像进行二值化直到所述灰度图像被完全二值化;
将所述二值化的灰度图像的灰度值的离散分布通过离散傅里叶变换变换到频域,通过高斯滤波对所述频域中的点值进行调整;
再将所述频域中距离中心距离小于预设值的点值均置为零,得到处理图像;以及
将所述处理图像中的字符串进行识别,生成目标字符串。
一种基于光学字符识别的图像中字符识别装置,所述装置用于读取图像中的字符串,所述装置包括以下模块:
二值化模块,用于根据灰度化将所述图像转化为灰度图像,滑动读取图像的窗口,循环截取预设范围的所述图像直到所述图像被完全截取,根据预设的计算方法计算得到的第一阀值将当前所述截取的图像进行二值化;
滤波模块,用于将所述二值化的灰度图像的灰度值的离散分布通过离散傅里叶变换变换到频域,通过高斯滤波对所述频域中的点值进行调整;
截断模块,用于再将所述频域中距离中心距离小于预设值的点值均置为零,得到处理图像;以及
识别模块,用于将所述处理图像中的字符串进行识别,生成目标字符串。
根据上述实施例的方法及装置,通过先对图像预处理,减少较明显阴影的影响,有效识别图像中的字符串。
为让本发明的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。
附图说明
图1为一种电子装置的结构框图。
图2为第一实施例提供的基于光学字符识别的图像中字符识别方法流程图。
图3为第二实施例提供的基于光学字符识别的图像中字符识别方法流程图。
图4为第三实施例提供的基于光学字符识别的图像中字符识别方法流程图。
图5为第四实施例提供的基于光学字符识别的图像中字符识别方法流程图。
图6为第五实施例提供的基于光学字符识别的图像中字符识别方法流程图。
图7为第六实施例提供的基于光学字符识别的图像中字符识别方法流程图。
图8为第七实施例提供的基于光学字符识别的图像中字符识别装置结构框图。
图9为第八实施例提供的基于光学字符识别的图像中字符识别装置结构框图。
图10为第九实施例提供的基于光学字符识别的图像中字符识别装置结构框图。
图11为第十实施例提供的基于光学字符识别的图像中字符识别装置结构框图。
图12为第十一实施例提供的基于光学字符识别的图像中字符识别装置结构框图。
图13为第十二实施例提供的基于光学字符识别的图像中字符识别装置结构框图。
具体实施方式
为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明的具体实施方式、结构、特征及其功效,详细说明如后。
本发明实施例涉及一种基于光学字符识别的图像中字符识别方法及装置,其可用于一种电子装置中。
图1为上述电子装置的结构框图。如图1所示,电子装置100包括一个或多个(图中仅示出一个)处理器102、存储器104、RF(Radio Frequency,射频)模块106、网络模块108、传感器110、摄像模块112、输入模块114、显示模块116、。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对电子装置100的结构造成限定。例如,电子装置100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。上述的电子装置100的具体实例包括但并不限于手持式计算机、移动电话、媒体播放器、车载设备、个人数字助理及前述装置的各种组合。
本领域普通技术人员可以理解,相对于处理器102来说,所有其他的组件均属于外设,处理器102与这些外设之间通过多个外设接口124相耦合。外设接口124可基于以下标准实现:通用异步接收/发送装置(UniversalAsynchronous Receiver/Transmitter,UART)、通用输入/输出(GeneralPurpose Input Output,GPIO)、串行外设接口(Serial Peripheral Interface,SPI)、内部集成电路(Inter-Integrated Circuit,I2C),但不并限于上述标准。在一些实例中,外设接口124可仅包括总线;在另一些实例中,外设接口124还可包括其他元件,如一个或者多个控制器,例如用于连接液晶显示面板的显示控制器或者用于连接存储器的存储控制器122。此外,这此控制器还可以从外设接口124中脱离出来,而集成于处理器102内或者相应的外设内。
存储器104可用于存储软件程序以及模块,如本发明实施例中的基于光学字符识别的图像中字符识别方法/装置对应的程序指令/模块,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的基于光学字符识别的图像中字符识别方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至电子装置100。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
RF模块106用于接收以及发送电磁波,实现电磁波与电信号的相互转换,从而与通讯网络或者其他设备进行通讯。RF模块106可包括各种现有的用于执行这些功能的电路元件,例如,天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。RF模块106可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。上述的无线网络可以使用各种通信标准、协议及技术,包括但并不限于全球移动通信系统(Global System for MobileCommunication,GSM)、增强型移动通信技术(Enhanced Data GSMEnvironment,EDGE),宽带码分多址技术(wideband code division multipleaccess,W-CDMA),码分多址技术(Code division access,CDMA)、时分多址技术(time division multiple access,TDMA),无线保真技术(Wireless,Fidelity,WiFi)(如美国电气和电子工程师协会标准IEEE802.11a,IEEE 802.11b,IEEE802.11g和/或IEEE 802.11n)、网络电话(Voice over internet protocal,VoIP)、全球微波互联接入(WorldwideInteroperability for Microwave Access,Wi-Max)、其他用于邮件、即时通讯及短消息的协议,以及任何其他合适的通讯协议,甚至可包括那些当前仍未被开发出来的协议。
网络模块108用于接收以及发送网络信号。上述网络信号可包括无线信号或者有线信号。在一个实例中,上述网络信号为WiFi信号,由于WiFi的工作频率也处于射频的频段内,此时网络模块可具有与RF模块106类似的硬件结构,即可包括天线、射频收发器、数字信号处理器、加密/解密芯片等元件。在一个实例中,上述网络信号为有线网络信号。此时,网络模块108可包括处理器、随机存储器、转换器、晶体振荡器等元件。
传感器110的实例包括但并不限于:光传感器、运行传感器、及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可以感测环境光的明暗,进而处理器102执行的一些模块可利用环境光传感器的输出来自动调节显示的输出。接近传感器可在电子装置100移动到耳边时,关闭显示输出。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于电子装置100还可配置的陀螺仪、气压计、湿度计、温度计等其他传感器,在此不再赘述。
摄像模块112用于拍摄照片或者视频。拍摄的照片或者视频可以存储至存储器104内,并可通过RF模块106发送。摄像模块112具体可包括镜头模组、影像感测器以及闪光灯等组件。镜头模组用于对被拍摄的目标成像,并将所成的像映射至影像感测器中。影像感测器用于接收来自镜头模组的光线,实现感光,以记录图像信息。具体地,影像感测器可基于互补金属氧化物半导体(Complementary Metal Oxide Semiconductor,CMOS)、电荷耦合元件(Charge-coupled Device,CCD)或者其他影像感测原理实现。闪光灯用于在拍摄时进行曝光补偿。一般来说,用于电子装置100的闪光灯可为发光二极体(Light Emitting Diode,LED)闪光灯。
输入单元114可用于接收输入的字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元114可包括按键以及触控表面。按键例如可包括用于输入字符的字符按键,以及用于触发控制功能的控制按键。控制按键的实例包括“返回主屏”按键、开机/关机按键、拍照键等等。触控表面可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控表面上或在触控表面附近的操作),并根据预先设定的程序驱动相应的连接装置。可选的,触控表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器102,并能接收处理器102发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控表面。除了触控表面,输入单元114还可以包括其他输入设备。上述的其他输入设备包括但不限于物理键盘、轨迹球、鼠标、操作杆等中的一种或多种。
显示模块116用于显示由用户输入的信息、提供给用户的信息以及电子装置100的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。在一个实例中,显示模块116包括一个显示面板。显示面板例如可为一个液晶显示面板(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode Display,OLED)显示面板、电泳显示面板(Electro-Phoretic Display,EPD)等。进一步地,触控表面可设置于显示面板上从而与显示面板构成一个整体。在另一些实施例中,显示模块116还可包括其他类型的显示装置,例如包括一个投影显示装置。相比于一般的显示面板,投影显示装置还需要包括一些用于投影的部件例如透镜组。
第一实施例
图2为本实施例提供的一种基于光学字符识别的图像中字符识别方法流程图,如图2所示,本实施例的方法包括以下步骤:
步骤S101、将所述图像转化为灰度图像。
所述图像可以是任何带有字符串的图像。可以知道的是,图像可以由多种采样颜色组成。多种颜色会影响光学字符识别对字符的识别。所述灰度图像表示每个像素只有一个采样颜色的图像,也就是黑白图像。
步骤S102、滑动读取图像的窗口,截取预设范围的所述灰度图像直到所述图像被完全截取。
本实施例中采用局部自适应阈值二值化算法。所述局部自适应阈值二值化每次二值化仅截图图像的一部分。通过滑动扫描图像的窗口截取部分图像。所述预设范围为根据当前图像的大小进行设定的范围。例如,用一个SW*SW的正方形滑动窗口截取所述图像。其中SW的值根据当前使用的扫描窗口而定。通过滑动所述窗口截取图像中像素点,直至将所述图像中的像素点完全截取。
步骤S103、根据预设的计算方法计算得到的第一阀值对当前所述截取的预设范围的图像进行二值化直到所述灰度图像被完全二值化。
在一个实例中,所述预设的计算方法可以是以下算法:其中每次基于窗口中的像素来计算所述第一阈值T,灰度值高于T的变为白色,灰度值低于T的变为黑色。所述灰度值指黑白图像中点的颜色深度,范围一般从0到255,白色为255,黑色为0,故黑白图片也称灰度图像。局部阈值确定的具体算法是,滑动窗口每次截取图片中的SW*SW范围内的像素点,对这些像素点计算它们的平均值m以及标准差s,所述算法依据如下公式计算第一阈值T:
T = m · ( 1 - k · ( 1 - s R ) )
其中k是一个0到1间的常数。R是标准差的最大值,一般可以固定取128。通过改变常数k以及窗口大小SW可以改变二值化后的效果。k越大,阈值越低,二值化后的文本中白色部分就越多。SW越大,方差越大,二值化后的文本中黑色部分也就越多。通过逐步局部二值化最后达到对所述图像完全二值化。
步骤S104、将所述二值化的灰度图像的灰度值的离散分布通过离散傅里叶变换变换到频域,通过高斯滤波对所述频域中的点值进行调整。
可以知道的是,上述二值化后的灰度图像中的像素点的灰度值形成的函数在图像中的分布为灰度值的离散分布。通过离散傅里叶变换变换成将所述离散的像素点表示成更多正弦信号想加的表达形式。可以知道的是,所述高斯函数为傅里叶变换的特征函数。分别交换对称的左右区域,再交换对称的上下区域,与一个中心在图像正中的高斯函数相乘完成所述离散傅里叶变换。
步骤S105、再将所述频域中距中心距离小于预设值的点值均置为零,得到处理图像。
所述预设值可以为上述的标准差的最大值R。
步骤S106、将所述处理图像中的字符串进行识别,生成目标字符串。
对处理后的所述处理图像,可以知道的是,二值化后的灰度图像只有黑白两色。在一个实例中,通过光学字符识别识别图像中的字符。所述光学字符识别检查图像中的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。
根据本实施例的方法,对识别图像先进行图像处理,减少图像中的阴影的影响,从而提高识别率。
第二实施例
本实施例提供一种基于光学字符识别的图像中字符识别方法,本实施例与第一实施例类似,其不同之处在于,如图3所示,在步骤S106之后还包括:
步骤S201、计算所述图像中字符串顶部与图像顶部的距离,若所述距离小于第二阀值则将所述字符串删除。
步骤S202、计算所述图像中字符串与图像底部的距离,若所述距离小于所述第二阀值则将所述字符串删除。
所述图像可以是为拍摄的照片或截屏的图像等方式获取的,上述获取的图像难以避免的会有部分边界文本缺损。在一个实例中,所述图像为拍摄的照片,先通过计算第一行字符的顶部距图像的顶部边缘的距离。可以知道的是,若所述图像中的字符串第一行被完全获取,可以通过字符串的边缘距离判断。在一个实例中,可以设定所述第二阀值为所述第一行字符串顶部到底部距离的十分之一。若计算得到所述距离小于所述第二阀值,可以判断为缺损字符行,则将缺损的行删除。同样的,若所述图像中的字符串最后一行被完全获取,可以通过该行字符串的底部与图像底部边缘距离判断。
由于识别引擎库不会对残缺行进行识别导致识别准确率降低,本实施例通过计算字符串距边缘的距离来判断是否为残缺行,若是则去除,使不用对残缺行再进行识别。
根据本实施例的方法,通过计算字符边缘与图像边缘之间的距离判断残缺行,并对残缺字符串的删除,使识别出来的字符串更加准确,提高识别的准确率。
第三实施例
本实施例提供一种基于光学字符识别的图像中字符识别方法,本实施例与第一实施例类似,其不同之处在于,如图4所示,本实施例的方法还包括:
步骤S301、若所述图像包括至少两段字符串时,将所述相邻两段字符串进行从上至下遍历进行多行匹配。
单行匹配为判断两行字符串的相似度。所述多行匹配对两段文本的相对应的每一行进行单行匹配。所述相似度可通过两段字符串之间的编辑距离判断,编辑距离小于阀值则判断为一次成功的匹配。所述编辑距离是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符等。
在一个实例中,通过照相工具拍照获取图像,在图像过长的情况下,无法一次拍摄就获取全部字符段,则需要多次拍摄,在此情况下获得的多段字符串可能存在相邻两段之间的重复拍摄。实现多次拍摄的字符串的拼接,则还识别相邻拍摄的图片之间首尾重复的字符串,删除重复实现有效拼接。在本实施例中通过对相邻两图像中的字符串段落进行遍历匹配识别,获取相邻图像中的相似段落。
步骤S302、计算单行匹配成功的行数占总行数的比例。
可以知道的,字符串段落中间也可能存在匹配的行数。例如,在代码匹配中,代码明显会有多次重复出现的代码。在一个实例中,两次连续拍摄的图像中,前一张图像中的后面五行出现在后面相邻一张的前面五行,若两张图像都拍摄完整不存在缺行,则此次多行匹配,单行匹配成功的行数为五行而匹配总行数也为五行,则所述比例在此次匹配为百分之百。在另一个实例中,前一张图像中的后面五行出现在后面相邻一张的前面五行,但是前一张图像中出现末行不完整,则不完整行的单行匹配不成功,则此次多行匹配,单行匹配成功的行数为四行而匹配总行数为五行,则所述比例在此次匹配为百分之八十。
步骤S303、若所述比例超过第三阀值,则判断此次多行匹配成功。
所述第三阀值为预先根据经验值设定的判断值,例如,可以是计算单行匹配成功的行数占总行数的比例为三分之二时为第三阀值。上述的两种情况下的比例分别为百分之百与百分之八十,在本实例中则判断为两种成功的多行匹配。
步骤S304、比较所有匹配成功的多行匹配的行数,行数最多的所述多行匹配为最终匹配段,将所述最终匹配段删除。
可以知道的是,非首尾段也可能存在相似段落但非重复段落,通过判断匹配行数最多的匹配段落未最终匹配段。对于中间的重复句段为必要重复语句,不能删除。
步骤S305、将删除最终匹配段之后的相邻段字符串进行拼接。
通过删除重复的段落,再进行拼接,使拼接的字符串段与分别拍摄前的字符串段落相同。
根据本实施例的方法,通过对多段字符串进行比较删除重复内容再进行拼接,可以对长段字符进行拼接识别,有效解决对于代码过长无法一次拍摄的问题,通过拼接确保拼接的字符串也无重复内容。
第四实施例
本实施例提供一种基于光学字符识别的图像中字符识别方法,本实施例与第一实施例类似,其不同之处在于,如图5所示,若所述字符串为代码,本实施例的方法还包括:
步骤S401、在所述光学字符识别的识别引擎库中根据所述代码设置白名单。
通过设置光学字符识别识别的白名单为所述代码出现的白名单。进一步地,设置识别引擎库,例如Tesseract库,禁止非字典单词的惩罚,减少对字典单词的不识别。
根据本实施例的方法,通过增加识别英文代码的白名单,有效提高在识别代码时的识别率。
第五实施例
本实施例提供一种基于光学字符识别的图像中字符识别方法,本实施例与第一实施例类似,其不同之处在于,如图6所示,本实施例的方法还包括:
步骤S501、根据所述图像中字符串的包围盒的信息计算图像中字符串的行高与字符串的宽度计算得到所述图像中字符串的之间的空白数。
所述包围盒算法是一种求解离散点集最优包围空间的方法。基本思想是用体积稍大且特性简单的几何体(称为包围盒)来近似地代替复杂的几何对象。本实施例中,通过所述每个字符的包围盒计算图像中字符串的平均行高。从而根据原图像中字符的位置找到近似的缩进和空白行数。
步骤S502、根据所述计算得到的字符之间的空白数,调整所述目标字符串的格式。
步骤S503、将所述格式调整之后的目标字符串进行高亮。
例如,在代码编辑软件中编辑代码时自动对一些关键字进行高亮。本实施例中,在所述字符串是代码的情况下,对识别之后的目标字符串中的关键字进行高亮,使代码识别性更高,更接近原始代码。
根据本实施例的方法,对字符串恢复其原有的格式,方法用户查看图像中的内容,进一步地,若所述图像中为代码,有格式及高亮的代码也方便用户阅读所述代码。
第六实施例
本实施例提供一种基于光学字符识别的图像中字符识别方法,本实施例与第一实施例类似,其不同之处在于,如图7所示,本实施例的方法还包括:
步骤S601、计算当前行的字符串为代码的概率。
在一个实例中,用朴素贝叶斯方法计算每一行是代码的概率。计算公式可以是:
其中pc表示当前位置是代码的频率,pt表示当前位置是普通文本的频率。p表示该行为代码的概率。
步骤S602、若所述概率超过第四阀值,判断为代码,则对所述判断为代码的区域作标记。
所述第四阀值可以是根据经验选择一个阈值。例如,在某一行中多个位置中出现了“int”“float”“==”代码中常用字符所述pc的值也会增加。P的值也会越高。利用每一行是代码的概率,超过所述第四阀值则判定为代码行,则提取出代码区域。
进一步地,还可以对部分异常结果,根据其上下文及缩进空格数进行矫正。在一个实例中,一行英文文本或者代码行计算得到的p值却与所述第四阀值的值很接近。可以进一步地,根据第五实施例中的方法计算该行的上下空行情况,以及该行的缩进进一步判断。例如,若该行上下行均判断为代码,缩进格数不仅仅是段落的首行缩进数,则判断为代码。再例如,若该行首没有空格,按照代码的惯常行首会有空格,则判断该行为普通文本。
根据本实施例的方法,由于代码的格式比较多,通过对代码进行标记突出代码的显示格式,提高对代码的识别率。
第七实施例
本实施例提供一种基于光学字符识别的图像中字符识别装置,如图8所示,所述装置包括:二值化模块701、滤波模块702、截断模块703及识别模块704。
二值化模块701,用于根据灰度化将所述图像转化为灰度图像,滑动读取图像的窗口,循环截取预设范围的所述图像直到所述图像被完全截取,根据预设的计算方法计算得到的第一阀值将当前所述截取的图像进行二值化。
滤波模块702,用于将所述二值化的灰度图像的灰度值的离散分布通过离散傅里叶变换变换到频域,通过高斯滤波对所述频域中的点值进行调整。
截断模块703,用于再将所述频域中距离中心距离小于预设值的点值均置为零,得到处理图像。
识别模块704,用于将所述处理图像中的字符串进行识别,生成目标字符串。
关于本实施例的装置的其他细节,还可进一步参阅第一实施例,在此不再重复。
根据本实施例的装置,对识别图像先进行图像处理,减少图像中的阴影的影响,从而提高识别率。
第八实施例
本实施例提供一种基于光学字符识别的图像中字符识别装置,本实施例与第七实施例类似,其不同之处在于,如图9所示,所述装置还包括:
去残模块801,用于去除所述图像中残缺的字符串。
所述去残模块包括:
第一计算单元8011,用于计算所述图像中字符串顶部与图像顶部的距离。
删除单元8012,用于若所述距离小于第二阀值则将所述字符串删除。
所述第一计算单元还用于计算所述图像中字符串底部与图像底部的距离。
所述删除单元还用于若所述距离小于所述第二阀值则将所述字符串删除。
识别引擎库不会对残缺行进行识别导致识别准确率降低,本实施例通过计算字符串距边缘的距离来判断是否为残缺行,若是则去除,保证识别准确率。
关于本实施例的装置的其他细节,还可进一步参阅第二实施例,在此不再重复。
根据本实施例的装置,通过计算字符边缘与图像边缘之间的距离判断残缺行,并对残缺字符串的删除,使识别出来的字符串更加准确,提高识别的准确率。
第九实施例
本实施例提供一种基于光学字符识别的图像中字符识别装置,本实施例与第七实施例类似,其不同之处在于,如图10所示,所述装置还包括:
拼接模块901,用于若所述图像包括至少两张字符串图像时,将所述图像中的字符串进行拼接输出。
所述拼接模块包括:
匹配单元9011,用于若所述图像包括至少两张字符串图像时,将所述相邻两张图像字符串段落进行从上至下遍历进行多行匹配。
第二计算单元9012,用于计算单行匹配成功的行数占总行数的比例。
判断单元9013,用于根据第三阀值判断此次多行匹配是否成功,若超过所述第三阀值则判断匹配成功,若未超过所述第三阀值则判断失败。
删除单元9014,用于比较所有匹配成功的多行匹配的行数,行数最多的所述多行匹配未最终匹配段,将所述最终匹配段删除。
拼接单元9015,用于将删除最终匹配段之后的相邻段字符串进行拼接。
关于本实施例的装置的其他细节,还可进一步参阅第三实施例,在此不再重复。
根据本实施例的装置,通过对多段字符串进行比较删除重复内容再进行拼接,可以对长段字符进行拼接识别,有效解决对于代码过长无法一次拍摄的问题,通过拼接确保拼接的字符串也无重复内容。
第十实施例
本实施例提供一种基于光学字符识别的图像中字符识别装置,本实施例与第七实施例类似,其不同之处在于,如图11所示,所述装置还包括:
设置模块1001,用于在所述光学字符识别的识别引擎库中根据所述代码常用语句设置白名单。
通过设置光学字符识别识别的白名单为所述代码出现的白名单。进一步地,设置识别引擎库,例如Tesseract库,禁止非字典单词的惩罚,减少对字典单词的不识别。
根据本实施例的装置,通过增加识别英文代码的白名单,有效提高在识别代码时的识别率。
第十一实施例
本实施例提供一种基于光学字符识别的图像中字符识别装置,本实施例与第七实施例类似,其不同之处在于,如图12所示,所述装置还包括:
格式调整模块1101,用于将识别模块获得的所述目标字符串的格式进行调整;
所述格式调整模块包括:
第二计算单元,用于根据所述图像中字符串的包围盒的信息计算图像中字符串的行高与字符串的宽度并进一步得到所述图像中字符串的之间的空白数。
调整单元,用于根据所述计算得到的字符之间的空白数,调整所述目标字符串的格式。
高亮模块1102,用于将所述格式调整之后的目标字符串进行高亮。
关于本实施例的装置的其他细节,还可进一步参阅第五实施例,在此不再重复。
根据本实施例的装置,对字符串恢复其原有的格式,方法用户查看图像中的内容,进一步地,若所述图像中为代码,有格式及高亮的代码也方便用户阅读所述代码。
第十二实施例
本实施例提供一种基于光学字符识别的图像中字符识别装置,本实施例与第七实施例类似,其不同之处在于,如图13所示,所述装置还包括:
标记模块1201,用于标记所述图像生成的字符串中的代码部分;
所述标记模块包括:
第三计算单元,用于计算当前行的字符串为代码的概率。
标记单元,用于若所述概率超过第四阀值,判断为代码,则对所述判断为代码的区域作标记。
关于本实施例的装置的其他细节,还可进一步参阅第六实施例,在此不再重复。
根据本实施例的装置,由于代码的格式比较多,通过对代码进行标记突出代码的显示格式,提高对代码的识别率。
此外,本发明实施例还提供一种计算机可读存储介质,其内存储有计算机可执行指令,上述的计算机可读存储介质例如为非易失性存储器例如光盘、硬盘、或者闪存。上述的计算机可执行指令用于让计算机或者类似的运算装置完成上述的基于光学字符识别的图像中字符识别方法中的各种操作。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭示如上,然而并非用以限定本发明,任何本领域技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (16)

1.一种基于光学字符识别的图像中字符识别方法,所述方法用于读取图像中的字符串,其特征在于,所述方法包括以下步骤:
将所述图像转化为灰度图像;
滑动读取图像的窗口,截取预设范围的所述灰度图像直到所述图像被完全截取;
根据第一阀值对当前所述截取的预设范围的图像进行二值化直到所述灰度图像被完全二值化;
将所述二值化的灰度图像的灰度值离散分布变换到频域,通过滤波对所述频域中的点值进行调整;
将所述频域中距离中心距离小于预设值的点值均置为零,得到处理图像;以及
将所述处理图像中的字符串进行识别,生成目标字符串。
2.如权利要求1所述的基于光学字符识别的图像中字符识别方法,其特征在于,所述将所述二值化的灰度图像的灰度值离散分布变换到频域,通过滤波对所述频域中的点值进行调整具体为:
通过离散傅里叶变换将所述二值化的灰度图像的灰度值离散分布变换到频域;
通过高斯滤波对所述频域中的点值进行调整。
3.如权利要求1所述的基于光学字符识别的图像中字符识别方法,其特征在于,在所述根据光学字符识别进行识别所述图像中字符串之后还包括:
计算所述图像中字符串顶部与图像顶部的距离,若所述距离小于第二阀值则将所述字符串删除;
计算所述图像中字符串底部与图像底部的距离,若所述距离小于所述第二阀值则将所述字符串删除。
4.如权利要求1所述的基于光学字符识别的图像中字符识别方法,其特征在于,
若所述图像包括至少两张字符串图像时,将所述相邻两张图像字符串段落进行从上至下遍历进行多行匹配;
计算单行匹配成功的行数占总行数的比例;
若所述比例超过第三阀值,则判断此次多行匹配成功;
比较所有匹配成功的多行匹配的行数,行数最多的所述多行匹配为最终匹配段,将所述最终匹配段删除;
将删除最终匹配段之后的相邻段字符串进行拼接。
5.如权利要求1所述的基于光学字符识别的图像中字符识别方法,其特征在于,若所述图像中字符串为代码,所述方法还包括,在所述光学字符识别的识别引擎库中根据所述代码设置白名单。
6.如权利要求1所述的基于光学字符识别的图像中字符识别方法,其特征在于,在所述根据光学字符识别进行识别所述图像中字符串之后还包括:
根据所述图像中字符串的包围盒的信息计算图像中字符串的行高与字符串的宽度计算得到所述图像中字符串的之间的空白数;
根据所述计算得到的字符之间的空白数,调整所述目标字符串的格式。
7.如权利要求6所述的基于光学字符识别的图像中字符识别方法,其特征在于,在所述根据光学字符识别进行识别所述图像中字符串,生成目标字符串之后还包括,
将所述格式调整之后的目标字符串进行高亮。
8.如权利要求1所述的基于光学字符识别的图像中字符识别方法,其特征在于,当所述图像中的字符串包括代码与英文,在所述根据光学字符识别进行识别所述图像中字符串之后还包括:
计算当前行的字符串为代码的概率;
若所述概率超过第四阀值,判断为代码,则对所述判断为代码的区域作标记。
9.一种基于光学字符识别的图像中字符识别装置,所述装置用于读取图像中的字符串,其特征在于,所述装置包括以下模块:
二值化模块,用于将所述图像转化为灰度图像,滑动读取图像的窗口,截取预设范围的所述图像直到所述图像被完全截取,根据第一阀值将当前所述截取的图像进行二值化;
滤波模块,用于将所述二值化的灰度图像的灰度值离散分布变换到频域,通过滤波对所述频域中的点值进行调整;
截断模块,用于将所述频域中距离中心距离小于预设值的点值均置为零,得到处理图像;以及
识别模块,用于将所述处理图像中的字符串进行识别,生成目标字符串。
10.如权利要求9所述的基于光学字符识别的图像中字符识别装置,其特征在于,所述滤波模块,具体用于通过离散傅里叶变换将所述二值化的灰度图像的灰度值离散分布变换到频域,通过高斯滤波对所述频域中的点值进行调整。
11.如权利要求9所述的基于光学字符识别的图像中字符识别装置,其特征在于,在识别模块之后还包括:
去残模块,用于去除所述图像中残缺的字符串;
所述去残模块包括:
第一计算单元,用于计算所述图像中字符串顶部与图像顶部的距离;
删除单元,用于若所述距离小于第二阀值则将所述字符串删除;
所述第一计算单元还用于计算所述图像中字符串底部与图像底部的距离;
所述删除单元还用于若所述距离小于所述第二阀值则将所述字符串删除。
12.如权利要求9所述的基于光学字符识别的图像中字符识别装置,其特征在于,
拼接模块,用于若所述图像包括至少两段字符串时,将所述图像中的字符串进行拼接输出;
所述拼接模块包括:
匹配单元,用于若所述图像包括至少两张字符串图像时,将所述相邻两张图像字符串段落进行从上至下遍历进行多行匹配;
第二计算单元,用于计算单行匹配成功的行数占总行数的比例;
判断单元,用于根据第三阀值判断此次多行匹配是否成功,若超过所述第三阀值则判断匹配成功,若未超过所述第三阀值则判断失败;
删除单元,用于比较所有匹配成功的多行匹配的行数,行数最多的所述多行匹配为最终匹配段,将所述最终匹配段删除;
拼接单元,用于将删除最终匹配段之后的相邻段字符串进行拼接。
13.如权利要求9所述的基于光学字符识别的图像中字符识别装置,其特征在于,所述图像中的字符串为代码,所装置还包括,
设置模块,用于在所述光学字符识别的识别引擎库中根据所述代码设置白名单。
14.如权利要求9所述的基于光学字符识别的图像中字符识别装置,其特征在于,在所述识别模块之后还包括:
格式调整模块,用于将识别模块获得的所述目标字符串的格式进行调整;
所述格式调整模块包括:
第二计算单元,用于根据所述图像中字符串的包围盒的信息计算图像中字符串的行高与字符串的宽度并进一步得到所述图像中字符串的之间的空白数;
调整单元,用于根据所述计算得到的字符之间的空白数,调整所述目标字符串的格式。
15.如权利要求14所述的基于光学字符识别的图像中字符识别装置,其特征在于,在所述格式调整模块之后还包括,
高亮模块,用于将所述格式调整之后的目标字符串进行高亮。
16.如权利要求9所述的基于光学字符识别的图像中字符识别装置,其特征在于,当所述图像中的字符串包括代码与英文,在所述识别模块之后还包括:
标记模块,用于标记所述图像生成的字符串中的代码部分;
所述标记模块包括:
第三计算单元,用于计算当前行的字符串为代码的概率;
标记单元,用于若所述概率超过第四阀值,判断为代码,则对所述判断为代码的区域作标记。
CN201410475608.XA 2014-09-17 2014-09-17 基于光学字符识别的图像中字符识别方法及装置 Active CN104268512B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410475608.XA CN104268512B (zh) 2014-09-17 2014-09-17 基于光学字符识别的图像中字符识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410475608.XA CN104268512B (zh) 2014-09-17 2014-09-17 基于光学字符识别的图像中字符识别方法及装置

Publications (2)

Publication Number Publication Date
CN104268512A true CN104268512A (zh) 2015-01-07
CN104268512B CN104268512B (zh) 2018-04-27

Family

ID=52160032

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410475608.XA Active CN104268512B (zh) 2014-09-17 2014-09-17 基于光学字符识别的图像中字符识别方法及装置

Country Status (1)

Country Link
CN (1) CN104268512B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106127118A (zh) * 2016-06-15 2016-11-16 珠海迈科智能科技股份有限公司 一种英语单词识别方法和装置
CN106874906A (zh) * 2017-01-17 2017-06-20 腾讯科技(上海)有限公司 一种图片的二值化方法、装置及终端
CN107424123A (zh) * 2017-03-29 2017-12-01 北京粉笔未来科技有限公司 一种摩尔纹去除方法及装置
CN108475335A (zh) * 2016-01-27 2018-08-31 霍尼韦尔国际公司 用于使用光学字符识别&智能字符识别的过程工业中的跳闸现场设备的事后检查分析的方法和工具
CN108537231A (zh) * 2017-03-03 2018-09-14 防城港市港口区思达电子科技有限公司 一种数显仪表字符自动识别方法
CN110659489A (zh) * 2019-09-20 2020-01-07 哈尔滨安天科技集团股份有限公司 针对字符串拼接行为的威胁检测方法、装置及存储介质
CN117037185A (zh) * 2023-10-10 2023-11-10 天津普传控制设备有限公司 一种基于光学字符识别技术的导线线号识别方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101334837A (zh) * 2008-07-31 2008-12-31 重庆大学 一种多方法融合的车牌图像定位方法
CN102156868A (zh) * 2011-03-31 2011-08-17 汉王科技股份有限公司 图像二值化方法和装置
CN102270340A (zh) * 2011-09-05 2011-12-07 上海果壳电子有限公司 基于笔画算子的文本图像增强方法及系统
US20110309138A1 (en) * 2010-06-17 2011-12-22 Mstar Semiconductor, Inc. Barcode Image Recognition System and Associated Method for Hand-Held Device
CN103617423A (zh) * 2013-11-26 2014-03-05 觅林网络科技(上海)有限公司 基于色彩参数的图像拆分识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101334837A (zh) * 2008-07-31 2008-12-31 重庆大学 一种多方法融合的车牌图像定位方法
US20110309138A1 (en) * 2010-06-17 2011-12-22 Mstar Semiconductor, Inc. Barcode Image Recognition System and Associated Method for Hand-Held Device
CN102156868A (zh) * 2011-03-31 2011-08-17 汉王科技股份有限公司 图像二值化方法和装置
CN102270340A (zh) * 2011-09-05 2011-12-07 上海果壳电子有限公司 基于笔画算子的文本图像增强方法及系统
CN103617423A (zh) * 2013-11-26 2014-03-05 觅林网络科技(上海)有限公司 基于色彩参数的图像拆分识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李宏峰: "基于OCR的试卷版面理解", 《中国优秀硕士学位论文全文数据库·信息科技辑》 *
高鸿: "文档图像拼接技术研究", 《中国优秀硕士学位论文全文数据库·信息科技辑》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108475335A (zh) * 2016-01-27 2018-08-31 霍尼韦尔国际公司 用于使用光学字符识别&智能字符识别的过程工业中的跳闸现场设备的事后检查分析的方法和工具
CN108475335B (zh) * 2016-01-27 2022-10-14 霍尼韦尔国际公司 用于使用光学字符识别、智能字符识别的过程工业中的跳闸现场设备的事后检查分析的方法
CN106127118A (zh) * 2016-06-15 2016-11-16 珠海迈科智能科技股份有限公司 一种英语单词识别方法和装置
CN106874906A (zh) * 2017-01-17 2017-06-20 腾讯科技(上海)有限公司 一种图片的二值化方法、装置及终端
CN106874906B (zh) * 2017-01-17 2023-02-28 腾讯科技(上海)有限公司 一种图片的二值化方法、装置及终端
CN108537231A (zh) * 2017-03-03 2018-09-14 防城港市港口区思达电子科技有限公司 一种数显仪表字符自动识别方法
CN107424123A (zh) * 2017-03-29 2017-12-01 北京粉笔未来科技有限公司 一种摩尔纹去除方法及装置
CN107424123B (zh) * 2017-03-29 2020-06-23 北京猿力教育科技有限公司 一种摩尔纹去除方法及装置
CN110659489A (zh) * 2019-09-20 2020-01-07 哈尔滨安天科技集团股份有限公司 针对字符串拼接行为的威胁检测方法、装置及存储介质
CN110659489B (zh) * 2019-09-20 2023-03-24 安天科技集团股份有限公司 针对字符串拼接行为的威胁检测方法、装置及存储介质
CN117037185A (zh) * 2023-10-10 2023-11-10 天津普传控制设备有限公司 一种基于光学字符识别技术的导线线号识别方法及装置
CN117037185B (zh) * 2023-10-10 2024-01-12 天津普传控制设备有限公司 一种基于光学字符识别技术的导线线号识别方法及装置

Also Published As

Publication number Publication date
CN104268512B (zh) 2018-04-27

Similar Documents

Publication Publication Date Title
CN104268512A (zh) 基于光学字符识别的图像中字符识别方法及装置
US9104261B2 (en) Method and apparatus for notification of input environment
US10127441B2 (en) Systems and methods for classifying objects in digital images captured using mobile devices
US9141874B2 (en) Feature extraction and use with a probability density function (PDF) divergence metric
EP3163504B1 (en) Method, device and computer-readable medium for region extraction
WO2017140233A1 (zh) 文字检测方法及系统、设备、存储介质
US10915750B2 (en) Method and device for searching stripe set
US20130004076A1 (en) System and method for recognizing text information in object
WO2013109478A1 (en) Systems and methods for mobile image capture and processing
CN106295638A (zh) 证件图像倾斜校正方法和装置
CN106874906B (zh) 一种图片的二值化方法、装置及终端
KR101606469B1 (ko) 이미지 분석방법, 특히 이동 단말기용 이미지 분석방법
CN108269220B (zh) 定位数字水印的方法及装置
CN110431563B (zh) 图像校正的方法和装置
JP2014132453A (ja) 文書内の文字の局所的な拡大縮小、回転および表示位置に対して不変である光学的文字認識のためのワード検出
KR102236616B1 (ko) 정보 처리 장치, 그의 제어 방법, 및 기억 매체
CN111598065B (zh) 深度图像获取方法及活体识别方法、设备、电路和介质
US10621427B2 (en) Information processing apparatus, storage medium, and information processing method for character recognition by setting a search area on a target image
CN103745193A (zh) 一种肤色检测方法及装置
US11568623B2 (en) Image processing apparatus, image processing method, and storage medium
CN111985465A (zh) 文本识别方法、装置、设备及存储介质
KR20230012651A (ko) 이미지 기반 테이블 정보 생성 방법
US20220318545A1 (en) Detecting table information in electronic documents
JP2011022938A (ja) 文字認識装置、文字認識プログラムおよび文字認識方法
CN111178362B (zh) 文本图像处理方法、装置、设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent of invention or patent application
CB03 Change of inventor or designer information

Inventor after: Li Debin

Inventor after: Hu Shimin

Inventor after: Xu Kun

Inventor after: Wang Juhong

Inventor after: Xu Yong

Inventor after: Quan Qi

Inventor after: Huang Zhibin

Inventor after: Yang Dawei

Inventor after: Tan Zhipeng

Inventor after: Wu Xian

Inventor after: Yang Yan

Inventor before: Li Debin

Inventor before: Wang Juhong

Inventor before: Xu Yong

Inventor before: Quan Qi

Inventor before: Huang Zhibin

Inventor before: Yang Dawei

Inventor before: Tan Zhipeng

Inventor before: Wu Xian

Inventor before: Yang Yan

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: LI DEBIN WANG JUHONG XU YONG QUAN QI HUANG ZHIBIN YANG DAWEI TAN ZHIPENG WU XIAN YANG YAN TO: LI DEBIN WANG JUHONG XU YONG QUAN QI HUANG ZHIBIN YANG DAWEI TAN ZHIPENG WU XIAN YANG YAN HU SHIMIN XU KUN

GR01 Patent grant
GR01 Patent grant