CN109558876B - 字符识别处理方法及装置 - Google Patents

字符识别处理方法及装置 Download PDF

Info

Publication number
CN109558876B
CN109558876B CN201811382334.4A CN201811382334A CN109558876B CN 109558876 B CN109558876 B CN 109558876B CN 201811382334 A CN201811382334 A CN 201811382334A CN 109558876 B CN109558876 B CN 109558876B
Authority
CN
China
Prior art keywords
character
connected domains
menu
character recognition
domains
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811382334.4A
Other languages
English (en)
Other versions
CN109558876A (zh
Inventor
贺三元
罗晗璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Koubei Network Technology Co Ltd
Original Assignee
Zhejiang Koubei Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Koubei Network Technology Co Ltd filed Critical Zhejiang Koubei Network Technology Co Ltd
Priority to CN201811382334.4A priority Critical patent/CN109558876B/zh
Publication of CN109558876A publication Critical patent/CN109558876A/zh
Application granted granted Critical
Publication of CN109558876B publication Critical patent/CN109558876B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种字符识别处理方法及装置,其中,字符识别处理方法包括:从待识别文件中提取待识别区域;对待识别区域进行连通域分析,得到多个连通域;根据多个连通域对应的字符参数信息,对多个连通域进行合并,得到连通域合并处理结果;按照连通域合并处理结果,对待识别区域内的字符识别结果进行组合或拆分,得到多个字符组。根据本发明提供的技术方案,实现了对识别出的字符的有效拆分,有效地提高了字符识别处理精度,而且充分利用了现有的字符识别算法所识别得到的字符识别结果,极大地节约了开发成本,提高了字符识别处理效率。

Description

字符识别处理方法及装置
技术领域
本发明涉及字符识别技术领域,具体涉及一种字符识别处理方法及装置。
背景技术
现有技术中常用的字符识别算法包括OCR(光学字符识别,Optical CharacterRecognition)算法等,利用字符识别算法能够对图片、文档等文件中的字符进行自动识别,将文件中所有的字符识别出来。然而现有技术中的字符识别算法大多只能按行或列进行识别,不同字号、不同颜色和间隔较大的字符会被组合拼接成一段字符,无法对识别出的字符进行有效拆分,导致字符识别处理精度较低,无法很好地满足用户使用需求。
为解决字符识别精度低的问题,申请公布号为CN103854019A的中国专利申请提供了一种图像中的字段提取方法,该方法将文字区域的像素按颜色划分为若干个聚类,对文字区域的像素进行连通域分析,并对识别出的每个像素连通区域的像素设定对应该连通区域中的像素所属聚类的颜色,对像素连通区域进行文本行识别,将同在一个文本行中且颜色相同的像素连通区域判定为一个字段,从而能够按照颜色从文字区域中提取出字段。然而,采用该方法,需对现有的字符识别算法进行修改,提高了人工成本,降低了字符识别处理效率,而且该方法仅能够按照颜色拆分字符,没有很好地实现对字符的有效拆分,仍然存在着字符识别处理精度较低的问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的字符识别处理方法及装置。
根据本发明的一个方面,提供了一种字符识别处理方法,该方法包括:
从待识别文件中提取待识别区域;
对待识别区域进行连通域分析,得到多个连通域;
根据多个连通域对应的字符参数信息,对多个连通域进行合并,得到连通域合并处理结果;
按照连通域合并处理结果,对待识别区域内的字符识别结果进行组合或拆分,得到多个字符组。
进一步地,从待识别文件中提取待识别区域进一步包括:
对待识别文件进行字符识别处理得到字符识别结果,根据字符识别结果从待识别文件中提取待识别区域。
进一步地,对待识别区域进行连通域分析,得到多个连通域进一步包括:
利用种子填充算法对待识别区域进行连通域分析,得到多个初始连通域,针对每个初始连通域,获取该初始连通域的外接矩形;
依据多个外接矩形的参数信息,对多个初始连通域进行合并,得到多个连通域。
进一步地,利用种子填充算法对待识别区域进行连通域分析,得到多个初始连通域进一步包括:
利用最大类间方差算法对待识别区域进行二值化处理,得到二值图片;
利用种子填充算法对二值图片进行连通域分析,得到多个初始连通域。
进一步地,依据多个外接矩形的参数信息,对多个初始连通域进行合并,得到多个连通域进一步包括:
依据多个外接矩形的位置参数信息,判断多个外接矩形是否存在重叠区域;
若是,则将存在重叠区域的外接矩形对应的初始连通域进行合并。
进一步地,依据多个外接矩形的参数信息,对多个初始连通域进行合并,得到多个连通域进一步包括:
判断多个初始连通域对应的字符内容是否为汉字;
若是,则依据多个外接矩形的大小参数信息,计算多个外接矩形的宽长比;
将宽长比小于预设比例阈值的外接矩形对应的初始连通域与相邻的后面的初始连通域进行合并,直至合并后的连通域对应的外接矩形的宽长比大于或等于预设比例阈值。
进一步地,根据多个连通域对应的字符参数信息,对多个连通域进行合并,得到连通域合并处理结果进一步包括:
依据多个连通域对应的多个外接矩形的大小参数信息,确定多个连通域对应的字符字号;
将字符字号相同的相邻的连通域进行合并,得到连通域合并处理结果。
进一步地,根据多个连通域对应的字符参数信息,对多个连通域进行合并,得到连通域合并处理结果进一步包括:
依据字符识别结果中的字符内容,确定多个连通域对应的字符类型;
将字符类型相同的相邻的连通域进行合并,得到连通域合并处理结果。
进一步地,在对待识别区域进行连通域分析,得到多个连通域之后,该方法还包括:根据多个连通域在待识别区域中对应位置处的颜色值,确定多个连通域的颜色值;
根据多个连通域对应的字符参数信息,对多个连通域进行合并,得到连通域合并处理结果进一步包括:
依据多个连通域的颜色值,确定多个连通域对应的字符颜色;
将字符颜色相同的相邻的连通域进行合并,得到连通域合并处理结果。
进一步地,在根据多个连通域对应的字符参数信息,对多个连通域进行合并,得到连通域合并处理结果之前,该方法还包括:将相邻的连通域之间的间隔小于预设间隔的连通域划分为同一分组,得到连通域分组结果;
在按照连通域合并处理结果,对待识别区域内的字符识别结果进行组合或拆分,得到多个字符组之后,该方法还包括:根据连通域分组结果,对多个字符组进行组合。
根据本发明的另一方面,提供了一种菜单录入方法,该方法包括:
获取包含菜单信息的待识别菜单;
根据上述的字符识别处理方法,对待识别菜单进行处理,得到多个菜单字符组;
将多个菜单字符组作为待录入菜单信息进行菜单录入。
进一步地,获取包含菜单信息的待识别菜单进一步包括:
获取摄像设备拍摄得到的包含菜单信息的菜单图片,将菜单图片作为待识别菜单。
进一步地,将多个菜单字符组作为待录入菜单信息进行菜单录入进一步包括:
在菜单录入页面中呈现多个菜单字符组对应的菜品选项;
根据用户输入的一键录入指令,将多个菜单字符组作为待录入菜单信息,生成目标菜单。
根据本发明的另一方面,提供了一种字符识别处理装置,该装置包括:
提取模块,适于从待识别文件中提取待识别区域;
分析模块,适于对待识别区域进行连通域分析,得到多个连通域;
合并模块,适于根据多个连通域对应的字符参数信息,对多个连通域进行合并,得到连通域合并处理结果;
处理模块,适于按照连通域合并处理结果,对待识别区域内的字符识别结果进行组合或拆分,得到多个字符组。
进一步地,提取模块进一步适于:
对待识别文件进行字符识别处理得到字符识别结果,根据字符识别结果从待识别文件中提取待识别区域。
进一步地,分析模块进一步适于:
利用种子填充算法对待识别区域进行连通域分析,得到多个初始连通域,针对每个初始连通域,获取该初始连通域的外接矩形;
依据多个外接矩形的参数信息,对多个初始连通域进行合并,得到多个连通域。
进一步地,分析模块进一步适于:
利用最大类间方差算法对待识别区域进行二值化处理,得到二值图片;
利用种子填充算法对二值图片进行连通域分析,得到多个初始连通域。
进一步地,分析模块进一步适于:
依据多个外接矩形的位置参数信息,判断多个外接矩形是否存在重叠区域;
若是,则将存在重叠区域的外接矩形对应的初始连通域进行合并。
进一步地,分析模块进一步适于:
判断多个初始连通域对应的字符内容是否为汉字;
若是,则依据多个外接矩形的大小参数信息,计算多个外接矩形的宽长比;
将宽长比小于预设比例阈值的外接矩形对应的初始连通域与相邻的后面的初始连通域进行合并,直至合并后的连通域对应的外接矩形的宽长比大于或等于预设比例阈值。
进一步地,合并模块进一步适于:
依据多个连通域对应的多个外接矩形的大小参数信息,确定多个连通域对应的字符字号;
将字符字号相同的相邻的连通域进行合并,得到连通域合并处理结果。
进一步地,合并模块进一步适于:
依据字符识别结果中的字符内容,确定多个连通域对应的字符类型;
将字符类型相同的相邻的连通域进行合并,得到连通域合并处理结果。
进一步地,该装置还包括:确定模块,适于根据多个连通域在待识别区域中对应位置处的颜色值,确定多个连通域的颜色值;
合并模块进一步适于:依据多个连通域的颜色值,确定多个连通域对应的字符颜色;将字符颜色相同的相邻的连通域进行合并,得到连通域合并处理结果。
进一步地,该装置还包括:分组模块,适于将相邻的连通域之间的间隔小于预设间隔的连通域划分为同一分组,得到连通域分组结果;
组合模块,适于根据连通域分组结果,对多个字符组进行组合。
根据本发明的另一方面,提供了一种菜单录入系统,该系统包括:获取装置、上述的字符识别处理装置和录入装置;
获取装置适于:获取包含菜单信息的待识别菜单;
字符识别处理装置适于:对待识别菜单进行处理,得到多个菜单字符组;
录入装置适于:将多个菜单字符组作为待录入菜单信息进行菜单录入。
进一步地,获取装置进一步适于:
获取摄像设备拍摄得到的包含菜单信息的菜单图片,将菜单图片作为待识别菜单。
进一步地,录入装置进一步适于:
在菜单录入页面中呈现多个菜单字符组对应的菜品选项;
根据用户输入的一键录入指令,将多个菜单字符组作为待录入菜单信息,生成目标菜单。
根据本发明的另一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;
存储器用于存放至少一可执行指令,可执行指令使处理器执行上述字符识别处理方法对应的操作。
根据本发明的另一方面,提供了一种计算机存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行如上述字符识别处理方法对应的操作。
根据本发明的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;
存储器用于存放至少一可执行指令,可执行指令使处理器执行上述菜单录入方法对应的操作。
根据本发明的再一方面,提供了一种计算机存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行如上述菜单录入方法对应的操作。
根据本发明提供的技术方案,基于字符参数信息对待识别区域对应的连通域进行合并,并按照连通域合并处理结果,对字符识别结果进行组合或拆分,得到多个字符组,实现了对识别出的字符的有效拆分,有效地提高了字符识别处理精度,使得用户能够方便地对多个字符组分别进行存储与使用;并且,该方法充分利用了现有的字符识别算法所识别得到的字符识别结果,无需对现有的字符识别算法进行修改,极大地节约了开发成本,提高了字符识别处理效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1a示出了根据本发明实施例的字符识别处理方法的流程示意图;
图1b示出了待识别区域的示意图;
图1c示出了图1b所示的待识别区域对应的二值图片的示意图;
图1d示出了图1b所示的待识别区域对应的多个连通域的示意图;
图1e示出了图1d所示的多个连通域对应的连通域合并处理结果的示意图;
图2a示出了根据本发明实施例的菜单录入方法的流程示意图;
图2b示出了待识别菜单区域的示意图;
图2c示出了图2b所示的待识别菜单区域对应的多个连通域的示意图;
图2d示出了图2c所示的多个连通域对应的连通域合并处理结果的示意图;
图3示出了根据本发明实施例的字符识别处理装置的结构框图;
图4示出了根据本发明实施例的菜单录入系统的结构框图;
图5示出了根据本发明实施例的一种计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1a示出了根据本发明实施例的字符识别处理方法的流程示意图,如图1a所示,该方法包括如下步骤:
步骤S100,从待识别文件中提取待识别区域。
待识别文件为需要进行字符识别处理的文件,待识别文件可以图片、文档等。可利用现有技术中的OCR等字符识别算法对待识别文件进行字符识别处理得到字符识别结果,其中,字符识别结果可包括:字符位置和字符内容等信息,根据字符识别结果中的字符位置从待识别文件中提取待识别区域,待识别区域为待识别文件中字符所在区域。具体地,根据字符识别结果中的字符位置能够得知待识别文件中哪些位置存在字符,那么从待识别文件中提取字符位置对应的区域,将所提取的区域作为待识别区域。
步骤S101,对待识别区域进行连通域分析,得到多个连通域。
在连通域分析过程中可利用种子填充算法,种子填充算法的原理是从待识别区域内部的某一个点开始,也就是将该点作为种子,由此向外出发用给定的颜色画点直到边界为止,具体地,可通过上、下、左、右四个方向或上、下、左、右、左上、左下、右上和右下八个方向到达待识别区域内的任意像素。那么可利用种子填充算法对待识别区域进行连通域分析,得到多个初始连通域。为了便于进行连通域分析,可先利用最大类间方差算法(OTSU算法)对待识别区域进行二值化处理,得到二值图片,其中,OTSU算法是一种进行二值化的高效算法,其能够利用阈值将原有的待识别区域分成前景和背景,得到二值图片,即黑白图片。若待识别区域如图1b所示,那么待识别区域经二值化处理后所得到的二值图片可如图1c所示。在得到二值图片之后,就可更为方便地利用种子填充算法对二值图片进行连通域分析,从而得到多个初始连通域。
考虑到可能存在一个初始连通域不对应于一个完整的字符的情况,在得到多个初始连通域之后,可基于字符所具有的特征等对多个初始连通域进行合并,从而得到多个连通域,使得一个连通域对应于一个完整的字符。为了便于确定初始连通域是否需要合并,本发明针对每个初始连通域,获取该初始连通域的外接矩形,接着就可依据多个外接矩形的参数信息,对多个初始连通域进行合并,得到多个连通域。
具体地,依据多个外接矩形的位置参数信息,判断多个外接矩形是否存在重叠区域;若存在重叠区域,则将存在重叠区域的外接矩形对应的初始连通域进行合并。由于有些字符会具有多个不连通的独立部分,例如字符“i”具有上、下两个独立部分,字符“%”具有左上、中间和右下三个独立部分,对于这种情况,可依据多个外接矩形的位置参数信息,判断多个外接矩形在上、下、左、右各个方向是否存在重叠区域,和/或,判断位于同一行的多个外接矩形在垂直方向的投影是否存在重叠区域。如果存在重叠区域,说明存在重叠区域的外接矩形对应的初始连通域对应于同一个字符,则将存在重叠区域的外接矩形对应的初始连通域进行合并。
另外,通过对汉字字符进行分析,得到汉字字符的宽长比必定大于或等于预设比例阈值。其中,预设比例阈值是根据具体分析而确定的,例如预设比例阈值为66%。那么可基于汉字字符所具有的宽长比特征,对多个初始连通域进行合并。具体地,根据字符识别结果中的字符内容,判断多个初始连通域对应的字符内容是否为汉字;若为汉字,则依据多个外接矩形的大小参数信息,计算多个外接矩形的宽长比,然后可按照从前到后的排列顺序,将宽长比小于预设比例阈值的外接矩形对应的初始连通域与相邻的后面的初始连通域进行合并,直至合并后的连通域对应的外接矩形的宽长比大于或等于预设比例阈值。
假设经连通域分析后所得到的初始连通域包括“氵”对应的初始连通域1、“木”对应的初始连通域2、“目”对应的初始连通域3和其他初始连通域,且初始连通域1、初始连通域2、初始连通域3和其他初始连通域从前到后依次排列。其中,针对初始连通域1、初始连通域2和初始连通域3,如果经计算得到初始连通域1对应的外接矩形的宽长比和初始连通域2对应的外接矩形的宽长比都小于预设比例阈值,初始连通域3对应的外接矩形的宽长比大于或等于预设比例阈值,则将初始连通域1与相邻的后面的初始连通域2进行合并,合并后的连通域对应于字符“沐”,经计算得到合并后的连通域对应的外接矩形的宽长比大于或等于预设比例阈值,则停止将该合并后的连通域与相邻的后面的初始连通域进一步合并。如果经计算得到初始连通域1对应的外接矩形的宽长比、初始连通域2对应的外接矩形的宽长比和初始连通域3对应的外接矩形的宽长比都小于预设比例阈值,则将初始连通域1与相邻的后面的初始连通域2进行合并,合并后的连通域对应于字符“沐”,经计算得到合并后的连通域对应的外接矩形的宽长比仍小于预设比例阈值,则继续将其与相邻的后面的初始连通域3进一步合并,此时合并后的连通域对应于字符“湘”,经计算得到合并后的连通域对应的外接矩形的宽长比大于或等于预设比例阈值,则停止将该合并后的连通域与相邻的后面的初始连通域进一步合并。
如果在对待识别区域进行连通域分析的过程中对待识别区域进行了二值化处理,那么所得到的多个连通域的颜色值均为黑色的颜色值,无法真实反映原有的字符颜色。为了便于后续能够根据字符颜色对多个连通域进行合并,在得到多个连通域之后,还需根据多个连通域在待识别区域中对应位置处的颜色值,确定多个连通域的颜色值。针对图1b所示的待识别区域,确定了颜色值后的多个连通域可如图1d所示,其中,图1d中的边框为连通域的外接矩形,一个外接矩形对应于一个连通域,外接矩形内的部分即为其对应的连通域。
步骤S102,根据多个连通域对应的字符参数信息,对多个连通域进行合并,得到连通域合并处理结果。
在得到多个连通域之后,就可根据多个连通域对应的字符字号、字符类型、字符颜色等字符参数信息对多个连通域进行合并,将字符参数信息相同的相邻的连通域合并在一起,字符参数信息不同的相邻的连通域不进行合并,从而得到连通域合并处理结果。其中,不同的字符参数信息还能够反映出字符的语义不同。本领域技术人员可根据实际需要设置对多个连通域进行合并所根据的字符参数信息,此处不做具体限定。在一种可选实施方式中,可仅根据多个连通域对应的字符字号这一种字符参数信息对多个连通域进行合并,将字符字号相同的相邻的连通域合并在一起;在另一种可选实施方式中,可根据多个连通域对应的字符字号和字符类型这两种字符参数信息对多个连通域进行合并,将字符字号相同且字符类型相同的相邻的连通域合并在一起。
其中,当所根据的字符参数信息为字符字号时,可依据多个连通域对应的多个外接矩形的大小参数信息,确定多个连通域对应的字符字号,具体地,可将多个外接矩形的大小参数信息分别与预先设置的各种字符字号的大小参数信息进行匹配,根据匹配结果确定多个连通域对应的字符字号。在确定多个连通域对应的字符字号之后,将字符字号相同的相邻的连通域进行合并,得到连通域合并处理结果。
当所根据的字符参数信息为字符类型时,可依据字符识别结果中的字符内容,确定多个连通域对应的字符类型,字符类型可包括:汉字字符类型、西文字符类型、数字字符类型等,具体地,可根据字符识别结果中的字符内容的字符编码分别与字符编码规则中所规定的各种字符类型的字符编码取值范围进行匹配,根据匹配结果确定多个连通域对应的字符类型。在确定了多个连通域对应的字符类型之后,将字符类型相同的相邻的连通域进行合并,得到连通域合并处理结果。
当所根据的字符参数信息为字符颜色时,可依据多个连通域中的颜色值,确定多个连通域对应的字符颜色,然后将字符颜色相同的相邻的连通域进行合并,得到连通域合并处理结果。其中,可根据多个连通域在待识别区域中对应位置处的颜色值,确定多个连通域的颜色值,依据多个连通域的颜色值,确定多个连通域对应的字符颜色,并将字符颜色相同的相邻的连通域进行合并,得到连通域合并处理结果。
可选地,考虑到多个连通域中相邻的连通域之间可能存在着较强的关联度,其中,连通域之间的间隔可在一定程度上反映连通域之间关联度的强弱,那么在对多个连通域进行合并过程中,还可根据连通域之间的间隔对多个连通域进行合并。例如,将相邻的连通域之间的间隔小于预设间隔且字符参数信息相同的连通域合并在一起,相邻的连通域之间的间隔大于或等于预设间隔或者字符参数信息不同的连通域不进行合并,从而得到连通域合并处理结果。本领域技术人员可根据实际需要对预设间隔进行设置,此处不做具体限定。针对图1d所示的多个连通域,对多个连通域进行合并所得到的连通域合并处理结果的示意图可如图1e所示,连通域合并处理结果中一共包括5个合并后的连通域,这5个连通域从左到右分别为连通域11、连通域12、连通域13、连通域14和连通域15,其中,连通域11对应于字符“取餐时间:”,连通域12对应于字符“今天”,连通域13对应于字符“18:30”,连通域14对应于字符“桌号:”,连通域15对应于字符“274”。
步骤S103,按照连通域合并处理结果,对待识别区域内的字符识别结果进行组合或拆分,得到多个字符组。
在得到了连通域合并处理结果之后,就可按照连通域合并处理结果,对待识别区域内的字符识别结果进行组合或拆分。具体地,可将属于连通域合并处理结果中的同一连通域的字符识别结果中的字符内容组合在一起,将属于连通域合并处理结果中的不同连通域的字符识别结果中的字符内容隔断拆分,从而得到多个字符组。若连通域合并处理结果的示意图如图1e所示,那么所得到的多个字符组包括:字符组“取餐时间:”、字符组“今天”、字符组“18:30”、字符组“桌号:”和字符组“274”。
可选地,考虑到多个字符组中相邻的字符组之间可能存在着较强的关联度,可对存在较强的关联度的字符组进行组合。其中,连通域之间的间隔可在一定程度上反映连通域之间关联度的强弱,具体地,可在步骤S103之前,将相邻的连通域之间的间隔小于预设间隔的连通域划分为同一分组,得到连通域分组结果,连通域分组结果中包括各个连通域分组的分组情况。属于同一连通域分组的连通域之间存在较强的关联度,属于不同连通域分组的连通域之间存在较弱的关联度。那么在步骤S103得到多个字符组之后,就可根据连通域分组结果,对多个字符组进行组合,从而将关联度较强的相邻的字符组组合在一起。例如,根据连通域分组结果,可为属于同一连通域分组但在步骤S103中却被拆分的多个字符组设置容器框,从而将属于同一连通域分组的多个字符组组合在一起,而对于属于同一连通域分组且在步骤S103中也未被拆分的字符组可不进行任何操作。
例如,图1d中的对应于字符“桌”的连通域、对应于字符“号”的连通域、对应于字符“:”的连通域、对应于字符“2”的连通域、对应于字符“7”的连通域以及对应于字符“4”的连通域中相邻的连通域之间的间隔小于预设间隔,属于同一连通域分组,这一连通域分组在步骤S103中却被拆分为两个字符组,分别为字符组“桌号:”和字符组“274”,那么可为这两个字符组设置容器框,从而将这两个字符组组合在一起。
本实施例提供的字符识别处理方法,基于字符参数信息对待识别区域对应的连通域进行合并,并按照连通域合并处理结果,对字符识别结果进行组合或拆分,得到多个字符组,实现了对识别出的字符的有效拆分,有效地提高了字符识别处理精度,使得用户能够方便地对多个字符组分别进行存储与使用;并且,该方法充分利用了现有的字符识别算法所识别得到的字符识别结果,无需对现有的字符识别算法进行修改,极大地节约了开发成本,提高了字符识别处理效率。
为了结合场景对本发明提供的字符识别处理方法进行具体说明,本发明实施例还提供了适用于在菜单录入场景下的菜单录入方法。
图2a示出了根据本发明实施例的菜单录入方法的流程示意图,如图2a所示,该方法包括如下步骤:
步骤S200,获取包含菜单信息的待识别菜单。
具体地,利用摄像设备对菜单进行拍摄,得到包含菜单信息的菜单图片,其中,所拍摄的菜单可以为纸质的菜单,也可以为电子设备的屏幕中所展示的菜单等。菜单信息可包括但不限于:菜品名称、菜品价格、菜品分类、菜品推荐标识、菜品优惠活动信息等信息,菜单信息还可包括餐饮店铺基本信息,具体地,餐饮店铺基本信息包括:餐饮店铺名称、餐饮店铺地址、餐饮店铺联系方式、餐饮店铺优惠活动信息等信息。在步骤S200中可获取摄像设备拍摄得到的包含菜单信息的菜单图片,并将菜单图片作为待识别菜单。
步骤S201,根据上述的字符识别处理方法,对待识别菜单进行处理,得到多个菜单字符组。
在获取了待识别菜单之后,可将待识别菜单作为待识别文件,根据上述实施例提供的字符识别处理方法,对待识别菜单进行处理,得到多个菜单字符组。在本场景下,从待识别菜单中提取待识别菜单区域;对待识别菜单区域进行连通域分析,得到多个连通域;根据多个连通域对应的字符参数信息,对多个连通域进行合并,得到连通域合并处理结果;按照连通域合并处理结果,对待识别菜单区域内的字符识别结果进行组合或拆分,得到多个菜单字符组。
其中,利用现有技术中的OCR等字符识别算法对待识别菜单进行字符识别处理得到字符识别结果,根据字符识别结果中的字符位置能够得知待识别菜单中哪些位置存在字符,那么从待识别菜单中提取字符位置对应的区域,将所提取的区域作为待识别菜单区域,待识别菜单区域为待识别菜单中菜单信息所在区域,待识别菜单区域可如图2b所示。
在提取了待识别菜单区域之后,为了便于进行连通域分析,可先利用最大类间方差算法对待识别菜单区域进行二值化处理,得到二值图片,利用种子填充算法对二值图片进行连通域分析,从而得到多个初始连通域。针对每个初始连通域,获取该初始连通域的外接矩形,接着依据多个外接矩形的参数信息,对多个初始连通域进行合并,得到多个连通域。
具体地,可依据多个外接矩形的位置参数信息,判断多个外接矩形是否存在重叠区域;若存在重叠区域,则将存在重叠区域的外接矩形对应的初始连通域进行合并。另外,根据字符识别结果中的字符内容,判断多个初始连通域对应的字符内容是否为汉字;若为汉字,则依据多个外接矩形的大小参数信息,计算多个外接矩形的宽长比,然后按照从前到后的排列顺序,将宽长比小于预设比例阈值的外接矩形对应的初始连通域与相邻的后面的初始连通域进行合并,直至合并后的连通域对应的外接矩形的宽长比大于或等于预设比例阈值。
若在对待识别菜单区域进行连通域分析的过程中对待识别菜单区域进行了二值化处理,那么所得到的多个连通域的颜色值均为黑色的颜色值,为了便于后续能够根据字符颜色对多个连通域进行合并,在得到多个连通域之后,还需根据多个连通域在待识别菜单区域中对应位置处的颜色值,确定多个连通域的颜色值。针对图2b所示的待识别菜单区域,确定了颜色值后的多个连通域可如图2c所示。
在得到多个连通域之后,就可根据多个连通域对应的字符字号、字符类型、字符颜色等字符参数信息对多个连通域进行合并,将字符参数信息相同的相邻的连通域合并在一起,字符参数信息不同的相邻的连通域不进行合并,从而得到连通域合并处理结果。其中,当所根据的字符参数信息为字符字号时,依据多个连通域对应的多个外接矩形的大小参数信息,确定多个连通域对应的字符字号,将字符字号相同的相邻的连通域进行合并,得到连通域合并处理结果;当所根据的字符参数信息为字符类型时,依据字符识别结果中的字符内容,确定多个连通域对应的字符类型,将字符类型相同的相邻的连通域进行合并,得到连通域合并处理结果;当所根据的字符参数信息为字符颜色时,依据多个连通域中的颜色值,确定多个连通域对应的字符颜色,将字符颜色相同的相邻的连通域进行合并,得到连通域合并处理结果。
针对图2c所示的多个连通域,对多个连通域进行合并所得到的连通域合并处理结果的示意图可如图2d所示,连通域合并处理结果中一共包括5个合并后的连通域,这5个连通域分别为连通域21、连通域22、连通域23、连通域24和连通域25,其中,连通域21对应于字符“家常小炒”,连通域22对应于字符“香菇肉片”,连通域23对应于字符“22”,连通域24对应于字符“辣子鸡”,连通域25对应于字符“46”。
在得到了连通域合并处理结果之后,就可按照连通域合并处理结果,对待识别菜单区域内的字符识别结果进行组合或拆分。具体地,可将属于连通域合并处理结果中的同一连通域的字符识别结果中的字符内容组合在一起,将属于连通域合并处理结果中的不同连通域的字符识别结果中的字符内容隔断拆分,从而得到多个菜单字符组。若连通域合并处理结果的示意图如图2d所示,那么所得到的多个菜单字符组包括:菜单字符组“家常小炒”、菜单字符组“香菇肉片”、菜单字符组“22”、菜单字符组“辣子鸡”和菜单字符组“46”。
步骤S202,将多个菜单字符组作为待录入菜单信息进行菜单录入。
为了便于用户查看并审核利用字符识别处理方法处理后所得到的多个菜单字符组,在菜单录入页面中呈现多个菜单字符组对应的菜品选项,其中,菜品选项包括:菜品名称选项、菜品价格选项、菜品分类选项等。可选地,用户还可根据实际需要对菜单录入页面中的菜品选项进行删除、修改、增加,调整字号、调整颜色等编辑,例如修改菜品价格选项,将菜品价格选项“46”修改为“52”,从而便捷地完成了对菜品价格的调整。
在用户完成对菜单选项的审核后,用户可输入一键录入指令,那么在步骤S202中,根据用户输入的一键录入指令,将多个菜单字符组作为待录入菜单信息,生成目标菜单,从而方便、快捷地完成了菜单录入。
本实施例提供的菜单录入方法,能够对菜单图片中的菜品名称、菜品价格等信息进行自动识别,极大地提升了菜单录入效率,无需人工地按照菜单一一录入菜品名称、菜品价格等信息,有效地节省了菜单录入所耗费的时间及所投入的人工成本;并且,还能够基于字符参数信息对字符识别结果进行组合或拆分得到多个菜单字符组,有效地提高了字符识别处理精度,便于用户使用,使得用户能够方便地对多个菜单字符组进行编辑。
图3示出了根据本发明实施例的字符识别处理装置的结构框图,如图3所示,该装置包括:提取模块310、分析模块320、合并模块330和处理模块340。
提取模块310适于:从待识别文件中提取待识别区域。
可选地,提取模块310进一步适于:对待识别文件进行字符识别处理得到字符识别结果,根据字符识别结果从待识别文件中提取待识别区域。
分析模块320适于:对待识别区域进行连通域分析,得到多个连通域。
可选地,分析模块320进一步适于:利用种子填充算法对待识别区域进行连通域分析,得到多个初始连通域,针对每个初始连通域,获取该初始连通域的外接矩形;依据多个外接矩形的参数信息,对多个初始连通域进行合并,得到多个连通域。
可选地,分析模块320进一步适于:利用最大类间方差算法对待识别区域进行二值化处理,得到二值图片;利用种子填充算法对二值图片进行连通域分析,得到多个初始连通域。
可选地,分析模块进一步320适于:依据多个外接矩形的位置参数信息,判断多个外接矩形是否存在重叠区域;若是,则将存在重叠区域的外接矩形对应的初始连通域进行合并。
可选地,分析模块320进一步适于:判断多个初始连通域对应的字符内容是否为汉字;若是,则依据多个外接矩形的大小参数信息,计算多个外接矩形的宽长比;将宽长比小于预设比例阈值的外接矩形对应的初始连通域与相邻的后面的初始连通域进行合并,直至合并后的连通域对应的外接矩形的宽长比大于或等于预设比例阈值。
合并模块330适于:根据多个连通域对应的字符参数信息,对多个连通域进行合并,得到连通域合并处理结果。
可选地,合并模块330进一步适于:依据多个连通域对应的多个外接矩形的大小参数信息,确定多个连通域对应的字符字号;将字符字号相同的相邻的连通域进行合并,得到连通域合并处理结果。
可选地,合并模块330进一步适于:依据字符识别结果中的字符内容,确定多个连通域对应的字符类型;将字符类型相同的相邻的连通域进行合并,得到连通域合并处理结果。
可选地,该装置还包括:确定模块350,适于根据多个连通域在待识别区域中对应位置处的颜色值,确定多个连通域的颜色值。那么合并模块330进一步适于:依据多个连通域的颜色值,确定多个连通域对应的字符颜色;将字符颜色相同的相邻的连通域进行合并,得到连通域合并处理结果。
处理模块340适于:按照连通域合并处理结果,对待识别区域内的字符识别结果进行组合或拆分,得到多个字符组。
可选地,该装置还包括:分组模块360,适于将相邻的连通域之间的间隔小于预设间隔的连通域划分为同一分组,得到连通域分组结果;组合模块370,适于根据连通域分组结果,对多个字符组进行组合。
本实施例提供的字符识别处理装置,基于字符参数信息对待识别区域对应的连通域进行合并,并按照连通域合并处理结果,对字符识别结果进行组合或拆分,得到多个字符组,实现了对识别出的字符的有效拆分,有效地提高了字符识别处理精度,使得用户能够方便地对多个字符组分别进行存储与使用;并且,该方法充分利用了现有的字符识别算法所识别得到的字符识别结果,无需对现有的字符识别算法进行修改,极大地节约了开发成本,提高了字符识别处理效率。
图4示出了根据本发明实施例的菜单录入系统的结构框图,如图4所示,该系统包括:获取装置410、上述的字符识别处理装置420和录入装置430。
获取装置410适于:获取包含菜单信息的待识别菜单。
可选地,获取装置410进一步适于:获取摄像设备拍摄得到的包含菜单信息的菜单图片,将菜单图片作为待识别菜单。
字符识别处理装置420适于:对待识别菜单进行处理,得到多个菜单字符组。
其中,对于字符识别处理装置420的说明可参照对于图3所示的字符识别处理装置实施例的说明,此处不再赘述。
录入装置430适于:将多个菜单字符组作为待录入菜单信息进行菜单录入。
可选地,录入装置430进一步适于:在菜单录入页面中呈现多个菜单字符组对应的菜品选项;根据用户输入的一键录入指令,将多个菜单字符组作为待录入菜单信息,生成目标菜单。
本实施例提供的菜单录入系统,能够对菜单图片中的菜品名称、菜品价格等信息进行自动识别,极大地提升了菜单录入效率,无需人工地按照菜单一一录入菜品名称、菜品价格等信息,有效地节省了菜单录入所耗费的时间及所投入的人工成本;并且,还能够基于字符参数信息对字符识别结果进行组合或拆分得到多个菜单字符组,有效地提高了字符识别处理精度,便于用户使用,使得用户能够方便地对多个菜单字符组进行编辑。
本发明还提供了一种非易失性计算机存储介质,计算机存储介质存储有至少一可执行指令,可执行指令可执行上述任意方法实施例中的字符识别处理方法。
图5示出了根据本发明实施例的一种计算设备的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
如图5所示,该计算设备可以包括:处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。
其中:
处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。
通信接口504,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器502,用于执行程序510,具体可以执行上述字符识别处理方法实施例中的相关步骤。
具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。
处理器502可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器506,用于存放程序510。存储器506可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序510具体可以用于使得处理器502执行上述任意方法实施例中的字符识别处理方法。程序510中各步骤的具体实现可以参见上述字符识别处理实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
本发明还提供了一种非易失性计算机存储介质,计算机存储介质存储有至少一可执行指令,可执行指令可执行上述任意方法实施例中的菜单录入方法。
本发明还提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;存储器用于存放至少一可执行指令,可执行指令使处理器执行上述的菜单录入方法对应的操作。该计算设备的结构示意图与图5所示的计算设备的结构示意图相同,此处不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (28)

1.一种字符识别处理方法,所述方法包括:
从待识别文件中提取待识别区域;
对所述待识别区域进行连通域分析,得到多个连通域;将相邻的连通域之间的间隔小于预设间隔的连通域划分为同一分组,得到连通域分组结果;
根据所述多个连通域对应的字符参数信息,对多个连通域进行合并,得到连通域合并处理结果;其中,所述字符参数信息包括:字符字号、字符类型和/或字符颜色,将所述字符参数信息相同的相邻的连通域合并在一起,所述字符参数信息不同的相邻的连通域不进行合并;
按照所述连通域合并处理结果,对待识别区域内的字符识别结果进行组合或拆分,得到多个字符组;其中,将属于所述连通域合并处理结果中的同一连通域的字符识别结果中的字符内容组合在一起,将属于所述连通域合并处理结果中的不同连通域的字符识别结果中的字符内容隔断拆分,得到多个字符组;
根据所述连通域分组结果,为属于同一连通域分组的多个字符组设置容器框,将属于同一连通域分组的多个字符组进行组合。
2.根据权利要求1所述的字符识别处理方法,其中,所述从待识别文件中提取待识别区域进一步包括:
对待识别文件进行字符识别处理得到字符识别结果,根据所述字符识别结果从待识别文件中提取待识别区域。
3.根据权利要求1所述的字符识别处理方法,其中,所述对所述待识别区域进行连通域分析,得到多个连通域进一步包括:
利用种子填充算法对所述待识别区域进行连通域分析,得到多个初始连通域,针对每个初始连通域,获取该初始连通域的外接矩形;
依据多个外接矩形的参数信息,对所述多个初始连通域进行合并,得到多个连通域。
4.根据权利要求3所述的字符识别处理方法,其中,所述利用种子填充算法对所述待识别区域进行连通域分析,得到多个初始连通域进一步包括:
利用最大类间方差算法对所述待识别区域进行二值化处理,得到二值图片;
利用种子填充算法对所述二值图片进行连通域分析,得到多个初始连通域。
5.根据权利要求3所述的字符识别处理方法,其中,所述依据多个外接矩形的参数信息,对所述多个初始连通域进行合并,得到多个连通域进一步包括:
依据所述多个外接矩形的位置参数信息,判断所述多个外接矩形是否存在重叠区域;
若是,则将存在重叠区域的外接矩形对应的初始连通域进行合并。
6.根据权利要求3-5任一项所述的字符识别处理方法,其中,所述依据多个外接矩形的参数信息,对所述多个初始连通域进行合并,得到多个连通域进一步包括:
判断所述多个初始连通域对应的字符内容是否为汉字;
若是,则依据多个外接矩形的大小参数信息,计算所述多个外接矩形的宽长比;
将所述宽长比小于预设比例阈值的外接矩形对应的初始连通域与相邻的后面的初始连通域进行合并,直至合并后的连通域对应的外接矩形的宽长比大于或等于所述预设比例阈值。
7.根据权利要求1-6任一项所述的字符识别处理方法,其中,所述根据所述多个连通域对应的字符参数信息,对多个连通域进行合并,得到连通域合并处理结果进一步包括:
依据所述多个连通域对应的多个外接矩形的大小参数信息,确定所述多个连通域对应的字符字号;
将所述字符字号相同的相邻的连通域进行合并,得到连通域合并处理结果。
8.根据权利要求1-7任一项所述的字符识别处理方法,其中,所述根据所述多个连通域对应的字符参数信息,对多个连通域进行合并,得到连通域合并处理结果进一步包括:
依据所述字符识别结果中的字符内容,确定所述多个连通域对应的字符类型;
将所述字符类型相同的相邻的连通域进行合并,得到连通域合并处理结果。
9.根据权利要求1-8任一项所述的字符识别处理方法,其中,在所述对所述待识别区域进行连通域分析,得到多个连通域之后,所述方法还包括:根据所述多个连通域在所述待识别区域中对应位置处的颜色值,确定所述多个连通域的颜色值;
所述根据所述多个连通域对应的字符参数信息,对多个连通域进行合并,得到连通域合并处理结果进一步包括:
依据所述多个连通域的颜色值,确定所述多个连通域对应的字符颜色;
将所述字符颜色相同的相邻的连通域进行合并,得到连通域合并处理结果。
10.一种菜单录入方法,所述方法包括:
获取包含菜单信息的待识别菜单;
根据权利要求1-9中任一项所述的方法,对所述待识别菜单进行处理,得到多个菜单字符组;
将所述多个菜单字符组作为待录入菜单信息进行菜单录入。
11.根据权利要求10所述的菜单录入方法,其中,所述获取包含菜单信息的待识别菜单进一步包括:
获取摄像设备拍摄得到的包含菜单信息的菜单图片,将所述菜单图片作为待识别菜单。
12.根据权利要求10或11所述的菜单录入方法,其中,所述将所述多个菜单字符组作为待录入菜单信息进行菜单录入进一步包括:
在菜单录入页面中呈现所述多个菜单字符组对应的菜品选项;
根据用户输入的一键录入指令,将所述多个菜单字符组作为待录入菜单信息,生成目标菜单。
13.一种字符识别处理装置,所述装置包括:
提取模块,适于从待识别文件中提取待识别区域;
分析模块,适于对所述待识别区域进行连通域分析,得到多个连通域;
分组模块,适于将相邻的连通域之间的间隔小于预设间隔的连通域划分为同一分组,得到连通域分组结果;
合并模块,适于根据所述多个连通域对应的字符参数信息,对多个连通域进行合并,得到连通域合并处理结果;其中,所述字符参数信息包括:字符字号、字符类型和/或字符颜色,将所述字符参数信息相同的相邻的连通域合并在一起,所述字符参数信息不同的相邻的连通域不进行合并;
处理模块,适于按照所述连通域合并处理结果,对待识别区域内的字符识别结果进行组合或拆分,得到多个字符组;其中,将属于所述连通域合并处理结果中的同一连通域的字符识别结果中的字符内容组合在一起,将属于所述连通域合并处理结果中的不同连通域的字符识别结果中的字符内容隔断拆分,得到多个字符组;
组合模块,适于根据所述连通域分组结果,为属于同一连通域分组的多个字符组设置容器框,将属于同一连通域分组的多个字符组进行组合。
14.根据权利要求13所述的字符识别处理装置,其中,所述提取模块进一步适于:
对待识别文件进行字符识别处理得到字符识别结果,根据所述字符识别结果从待识别文件中提取待识别区域。
15.根据权利要求13所述的字符识别处理装置,其中,所述分析模块进一步适于:
利用种子填充算法对所述待识别区域进行连通域分析,得到多个初始连通域,针对每个初始连通域,获取该初始连通域的外接矩形;
依据多个外接矩形的参数信息,对所述多个初始连通域进行合并,得到多个连通域。
16.根据权利要求15所述的字符识别处理装置,其中,所述分析模块进一步适于:
利用最大类间方差算法对所述待识别区域进行二值化处理,得到二值图片;
利用种子填充算法对所述二值图片进行连通域分析,得到多个初始连通域。
17.根据权利要求15所述的字符识别处理装置,其中,所述分析模块进一步适于:
依据所述多个外接矩形的位置参数信息,判断所述多个外接矩形是否存在重叠区域;
若是,则将存在重叠区域的外接矩形对应的初始连通域进行合并。
18.根据权利要求13-17任一项所述的字符识别处理装置,其中,所述分析模块进一步适于:
判断所述多个初始连通域对应的字符内容是否为汉字;
若是,则依据多个外接矩形的大小参数信息,计算所述多个外接矩形的宽长比;
将所述宽长比小于预设比例阈值的外接矩形对应的初始连通域与相邻的后面的初始连通域进行合并,直至合并后的连通域对应的外接矩形的宽长比大于或等于所述预设比例阈值。
19.根据权利要求13-18任一项所述的字符识别处理装置,其中,所述合并模块进一步适于:
依据所述多个连通域对应的多个外接矩形的大小参数信息,确定所述多个连通域对应的字符字号;
将所述字符字号相同的相邻的连通域进行合并,得到连通域合并处理结果。
20.根据权利要求13-19任一项所述的字符识别处理装置,其中,所述合并模块进一步适于:
依据所述字符识别结果中的字符内容,确定所述多个连通域对应的字符类型;
将所述字符类型相同的相邻的连通域进行合并,得到连通域合并处理结果。
21.根据权利要求13-20任一项所述的字符识别处理装置,其中,所述装置还包括:确定模块,适于根据所述多个连通域在所述待识别区域中对应位置处的颜色值,确定所述多个连通域的颜色值;
所述合并模块进一步适于:依据所述多个连通域的颜色值,确定所述多个连通域对应的字符颜色;将所述字符颜色相同的相邻的连通域进行合并,得到连通域合并处理结果。
22.一种菜单录入系统,所述系统包括:获取装置、权利要求13-21所述的字符识别处理装置和录入装置;
所述获取装置适于:获取包含菜单信息的待识别菜单;
所述字符识别处理装置适于:对所述待识别菜单进行处理,得到多个菜单字符组;
所述录入装置适于:将所述多个菜单字符组作为待录入菜单信息进行菜单录入。
23.根据权利要求22所述的菜单录入系统,其中,所述获取装置进一步适于:
获取摄像设备拍摄得到的包含菜单信息的菜单图片,将所述菜单图片作为待识别菜单。
24.根据权利要求22或23所述的菜单录入系统,其中,所述录入装置进一步适于:
在菜单录入页面中呈现所述多个菜单字符组对应的菜品选项;
根据用户输入的一键录入指令,将所述多个菜单字符组作为待录入菜单信息,生成目标菜单。
25.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-9中任一项所述的字符识别处理方法对应的操作。
26.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-9中任一项所述的字符识别处理方法对应的操作。
27.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求10-12中任一项所述的菜单录入方法对应的操作。
28.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求10-12中任一项所述的菜单录入方法对应的操作。
CN201811382334.4A 2018-11-20 2018-11-20 字符识别处理方法及装置 Active CN109558876B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811382334.4A CN109558876B (zh) 2018-11-20 2018-11-20 字符识别处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811382334.4A CN109558876B (zh) 2018-11-20 2018-11-20 字符识别处理方法及装置

Publications (2)

Publication Number Publication Date
CN109558876A CN109558876A (zh) 2019-04-02
CN109558876B true CN109558876B (zh) 2021-11-16

Family

ID=65866566

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811382334.4A Active CN109558876B (zh) 2018-11-20 2018-11-20 字符识别处理方法及装置

Country Status (1)

Country Link
CN (1) CN109558876B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101266654A (zh) * 2007-03-14 2008-09-17 中国科学院自动化研究所 基于连通分量和支持向量机的图像文本定位方法和装置
CN103854019A (zh) * 2012-11-29 2014-06-11 北京千橡网景科技发展有限公司 图像中的字段提取方法及装置
CN104021184A (zh) * 2014-06-10 2014-09-03 广州品唯软件有限公司 一种定位方法与系统
CN104751142A (zh) * 2015-04-01 2015-07-01 电子科技大学 一种基于笔划特征的自然场景文本检测算法
CN104809481A (zh) * 2015-05-21 2015-07-29 中南大学 一种基于自适应色彩聚类的自然场景文本检测的方法
CN104951741A (zh) * 2014-03-31 2015-09-30 阿里巴巴集团控股有限公司 一种文字识别方法及装置
CN106874905A (zh) * 2017-01-12 2017-06-20 中南大学 一种基于自学习色彩聚类的自然场景文本检测的方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7099507B2 (en) * 1998-11-05 2006-08-29 Ricoh Company, Ltd Method and system for extracting title from document image
CN102063619B (zh) * 2010-11-30 2013-03-13 汉王科技股份有限公司 文字行提取方法和装置
CN102750534B (zh) * 2012-06-26 2016-08-31 北京文通科技有限公司 一种字符切分的方法和装置
CN103093228B (zh) * 2013-01-17 2015-12-09 上海交通大学 一种在自然场景图像中基于连通域的中文检测方法
US9047528B1 (en) * 2013-02-19 2015-06-02 Amazon Technologies, Inc. Identifying characters in grid-based text
CN103400132B (zh) * 2013-07-02 2017-08-25 Tcl集团股份有限公司 一种字符分割方法及装置
CN105740860B (zh) * 2016-01-28 2018-04-06 河南大学 自然场景中商铺标牌汉字区域自动检测方法
CN106355177B (zh) * 2016-08-17 2019-05-10 天津德闻数据科技有限公司 一种医疗检验单的检验项信息自动提取方法
CN107977593A (zh) * 2016-10-21 2018-05-01 富士通株式会社 图像处理装置和图像处理方法
CN108319641A (zh) * 2017-12-21 2018-07-24 无锡雅座在线科技股份有限公司 菜品信息录入方法及装置
CN108241862A (zh) * 2018-01-10 2018-07-03 王荆正 一种医疗检验单的检验项信息自动提取方法
CN108763380B (zh) * 2018-05-18 2022-03-08 徐庆 商标识别检索方法、装置、计算机设备和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101266654A (zh) * 2007-03-14 2008-09-17 中国科学院自动化研究所 基于连通分量和支持向量机的图像文本定位方法和装置
CN103854019A (zh) * 2012-11-29 2014-06-11 北京千橡网景科技发展有限公司 图像中的字段提取方法及装置
CN104951741A (zh) * 2014-03-31 2015-09-30 阿里巴巴集团控股有限公司 一种文字识别方法及装置
CN104021184A (zh) * 2014-06-10 2014-09-03 广州品唯软件有限公司 一种定位方法与系统
CN104751142A (zh) * 2015-04-01 2015-07-01 电子科技大学 一种基于笔划特征的自然场景文本检测算法
CN104809481A (zh) * 2015-05-21 2015-07-29 中南大学 一种基于自适应色彩聚类的自然场景文本检测的方法
CN106874905A (zh) * 2017-01-12 2017-06-20 中南大学 一种基于自学习色彩聚类的自然场景文本检测的方法

Also Published As

Publication number Publication date
CN109558876A (zh) 2019-04-02

Similar Documents

Publication Publication Date Title
CN109670500B (zh) 一种文字区域获取方法、装置、存储介质及终端设备
US10140511B2 (en) Building classification and extraction models based on electronic forms
JP5972468B2 (ja) 画像からのラベルの検出
US8218890B2 (en) Method and apparatus for cropping images
US9754164B2 (en) Systems and methods for classifying objects in digital images captured using mobile devices
US9235759B2 (en) Detecting text using stroke width based text detection
US9965871B1 (en) Multi-binarization image processing
US8041139B2 (en) Method and apparatus for calculating the background color of an image
CN108090511B (zh) 图像分类方法、装置、电子设备及可读存储介质
EP2974261A2 (en) Systems and methods for classifying objects in digital images captured using mobile devices
WO2017088462A1 (zh) 图像处理方法和装置
CN108121982B (zh) 面单图像的获取方法及装置
CN108304562B (zh) 一种搜题方法、搜题装置及智能终端
CN111460355B (zh) 一种页面解析方法和装置
CN103198311A (zh) 基于拍摄的图像来识别字符的方法及装置
CN106156794B (zh) 基于文字风格识别的文字识别方法及装置
CN108877030B (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN108304840B (zh) 一种图像数据处理方法以及装置
JP6785181B2 (ja) 物体認識装置、物体認識システム、及び物体認識方法
CN108804652B (zh) 封面图片的生成方法、装置、存储介质和电子装置
CN109558876B (zh) 字符识别处理方法及装置
CN109145879B (zh) 一种打印字体识别的方法、设备及存储介质
JP2010186246A (ja) 画像処理装置、方法、及び、プログラム
Bhaskar et al. Implementing optical character recognition on the android operating system for business cards
CN106846351B (zh) 图像处理方法及客户端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant