CN113505745A - 一种文字识别方法、装置、电子设备及存储介质 - Google Patents

一种文字识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113505745A
CN113505745A CN202110851664.9A CN202110851664A CN113505745A CN 113505745 A CN113505745 A CN 113505745A CN 202110851664 A CN202110851664 A CN 202110851664A CN 113505745 A CN113505745 A CN 113505745A
Authority
CN
China
Prior art keywords
text
coordinate
pixel
vertical
effective
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110851664.9A
Other languages
English (en)
Other versions
CN113505745B (zh
Inventor
唐铭蔚
裴积全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong Technology Holding Co Ltd
Original Assignee
Jingdong Technology Holding Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdong Technology Holding Co Ltd filed Critical Jingdong Technology Holding Co Ltd
Priority to CN202110851664.9A priority Critical patent/CN113505745B/zh
Publication of CN113505745A publication Critical patent/CN113505745A/zh
Application granted granted Critical
Publication of CN113505745B publication Critical patent/CN113505745B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Input (AREA)

Abstract

本发明提供一种文字识别方法、装置、电子设备及存储介质,获取竖排文本行图像;对竖排文本行图像进行二值化处理,得到二值图;将二值图进行纵向投影,得到第一投影数据,其中,第一投影数据包括多行像素行,每行像素行包括多个像素点;遍历第一投影数据的每行像素行,从第一投影数据中确定纵向有效文本区域;其中,纵向有效文本区域为像素值为0的像素点的个数大于预设阈值的像素行对应的区域;根据纵向有效文本区域,从在竖排文本行图像中剪切出对应的目标有效文本区域,并对目标有效文本区域进行文字识别。本发明能够提高文字识别的精度。

Description

一种文字识别方法、装置、电子设备及存储介质
技术领域
本发明涉及文字识别技术领域,更具体地说,涉及一种文字识别方法、装置、电子设备及存储介质。
背景技术
随着科技技术的不断发展,文字识别技术也随之不断的发展,且被广泛应用于各个行业中。
目前的文字识别技术大部分集中在对横排文本行进行文字识别,当文本行为竖排文本行时,需要先将竖排文本行旋转成横排文本行后,再对该竖排文本行对应的横排文本行进行文字识别,从而实现对竖排文本行的文字识别。但是,这种方式需要提供大量竖排文本行样本,重新训练一套支持竖排文本行的文字识别模型;并且,由于竖排文本行和横排文本行的比例存在一定的差异,导致文字识别器对竖排文本行对应的横排文本行识别的精度低。
发明内容
有鉴于此,本发明提供一种文字识别方法、装置、电子设备及存储介质,以提高文字识别的精度为目的。
本发明第一方面公开一种文字识别方法,所述方法包括:
获取竖排文本行图像;
对所述竖排文本行图像进行二值化处理,得到二值图;
将所述二值图进行纵向投影,得到第一投影数据,其中,所述第一投影数据包括多行像素行,每行所述像素行包括多个像素点;
遍历所述第一投影数据的每行所述像素行,从所述第一投影数据中确定纵向有效文本区域;其中,所述纵向有效文本区域为像素值为0的像素点的个数大于预设阈值的像素行对应的区域;
根据所述纵向有效文本区域,从在所述竖排文本行图像中剪切出对应的目标有效文本区域,并对所述目标有效文本区域进行文字识别。
可选的,所述将所述二值图进行纵向投影,得到第一投影数据,包括:
构建坐标系;
将所述二值图沿所述坐标系的y轴进行纵向投影,得到第一投影数据。
可选的,所述遍历所述第一投影数据的每行所述像素行,从所述第一投影数据中确定纵向有效文本区域,包括:
遍历所述第一投影数据的每行所述像素行,并判断所述像素行中像素值为0的像素点的个数是否大于预设阈值;
若所述像素行中像素值为0的像素点的个数大于预设阈值,将所述像素行对应的区域确定为纵向有效文本区域。
可选的,所述根据所述纵向有效文本区域,从在所述竖排文本行图像中剪切出对应的目标有效文本区域,并对所述目标有效文本区域进行文字识别,包括:
确定所述纵向有效文本区域对应的第一起始坐标、第二起始坐标、第一终点坐标和第二终点坐标;
将所述竖排文本行图像对应的所述待识别竖行文本图像沿所述坐标系的y轴进行投影,将投影在所述坐标系中的所述待识竖行文本图像中左上角的像素点的坐标确定为原始坐标;
确定投影在所述坐标系中的所述待识别竖行文本图像中,所述纵向有效文本区域对应的所述竖排文本行图像左上角的像素点的坐标为参考坐标;
根据所述原始坐标和所述参考坐标,计算所述纵向有效文本区域的相对位置关系;
根据所述纵向有效文本区域的相对位置关系、所述纵向有效文本区域对应的所述第一起始坐标、所述第二起始坐标、所述第一终点坐标和所述第二终点坐标,计算所述纵向有效文本区域在所述待识别竖行文本图像中对应的目标有效文字区域的第一实际起始坐标、第二实际起始坐标、第一实际终点坐标和第二实际终点坐标;
基于所述目标有效文字区域的所述第一实际起始坐标、所述第二实际起始坐标、所述第一实际终点坐标和所述第二实际终点坐标,从所述待识别竖行文本图像剪切出所述目标有效文字区域,并对所述目标有效文字区域进行文字识别。
可选的,所述方法还包括:
将所述二值图进行横向投影,得到第二投影数据,其中,所述第二投影数据包括多列像素列,每列所述像素列包括多个像素点;
遍历所述第二投影数据的每列所述像素列,从所述第二投影数据中确定横向有效文本区域,其中,所述横向有效文本区域为像素值为0的像素点的个数大于预设阈值的像素列对应的区域。
可选的,所述根据所述纵向有效文本区域,从在所述竖排文本行图像中剪切出对应的目标有效文本区域,并对所述目标有效文本区域进行文字识别,包括:
确定每个所述横向有效文本区域对应的第三起始坐标、第四起始坐标、第三终点坐标和第四终点坐标;
基于所述纵向有效文本区域的所述第一起始坐标、所述第二起始坐标、所述第一终点坐标、所述第二终点坐标,和所述横向有效文本区域对应的所述横向有效文本区域的第三起始坐标、第四起始坐标、第三终点坐标和第四终点坐标,确定目标有效文本区域的第一实际起始坐标、第二实际起始坐标、第一实际终点坐标和第二实际终点坐标;其中,所述纵向有效文本区域与所述横向有效文本区域,在所述待识别竖行文本图像中对应同一个所述目标有效文本区域;
基于所述目标有效文字区域的所述第一实际起始坐标、所述第二实际起始坐标、所述第一实际终点坐标和所述第二实际终点坐标,从所述待识别竖行文本图像剪切出所述目标有效文字区域,并对所述目标有效文字区域进行文字识别。
本发明第二方面公开一种文字识别装置,所述装置包括:
第一获取单元,用于获取竖排文本行图像;
二值化处理单元,用于对所述竖排文本行图像进行二值化处理,得到二值图;
第一投影单元,用于将所述二值图进行纵向投影,得到第一投影数据,其中,所述第一投影数据包括多行像素行,每行所述像素行包括多个像素点;
第一遍历单元,用于遍历所述第一投影数据的每行所述像素行,从所述第一投影数据中确定纵向有效文本区域;其中,所述纵向有效文本区域为像素值为0的像素点的个数大于预设阈值的像素行对应的区域;
文字识别单元,用于根据所述纵向有效文本区域,从在所述竖排文本行图像中剪切出对应的目标有效文本区域,并对所述目标有效文本区域进行文字识别。
可选的,所述第一投影单元,包括:
构建单元,用于构建坐标系;
第二投影单元,用于将所述二值图沿所述坐标系的y轴进行纵向投影,得到第一投影数据。
本发明第三方面示出了一种电子设备,所述电子设备包括处理器和存储器,所述存储器用于存储文字识别的程序代码和数据,所述处理器用于调用所述存储器中的程序指令执行如本发明第一方面示出的一种文字识别方法。
本发明第四方面示出了一种存储介质,所述存储介质包括存储程序,其中,在所述程序运行时控制所述存储介质所在设备执行如本发明第一方面示出的一种文字识别方法。
本发明提供一种文字识别方法、装置、电子设备及存储介质,获取竖排文本行图像;对竖排文本行图像进行二值化处理,得到二值图;将二值图进行纵向投影,得到第一投影数据,其中,第一投影数据包括多行像素行,每行像素行包括多个像素点;遍历第一投影数据的每行像素行,从第一投影数据中确定纵向有效文本区域;其中,纵向有效文本区域为像素值为0的像素点的个数大于预设阈值的像素行对应的区域;根据纵向有效文本区域,从在竖排文本行图像中剪切出对应的目标有效文本区域,经过行切割后的目标有效文字区域中文字上下边框紧贴文字本身,实现文字上下白边的去除,减少上下白边对文字识别器的干扰,从而提升文字识别的精度。并且,本发明提供的技术方案,不需要重新利用大量的竖排文本行样本,重新训练一套支持竖排文本行的文字识别器,利用原始的文字识别器便可实现文字识别,无需考虑竖排文本行和横排文本行的比例,进一步提高了文字识别的精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种文字识别方法的流程示意图;
图2为本发明实施例提供的一种待识别竖行文本图像的示例图;
图3为本发明实施例提供的一种基于每个目标有效文字区域的第一实际起始坐标、第二实际起始坐标、第一实际终点坐标和第二实际终点坐标,从待识别竖行文本图像剪切出每个目标有效文字区域的示例图;
图4为本发明实施例提供的一种将二值图进行纵向投影得到第一投影数据的示例图;
图5为本发明实施例提供的一种遍历图3所示的第一投影数据的每行像素行,从该第一投影数据中确定有5个有效文本区域,确定每个执行有效文本区域的起始纵坐标和终点纵坐标的示例图;
图6为本发明实施例提供的另一种文字识别方法的流程示意图;
图7为本发明实施例提供的一种文字识别装置的结构示意图;
图8为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本发明公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本发明公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
参见图1,示出了本发明实施例提供的一种文字识别方法的流程示意图,该文字识别方法具体包括以下步骤:
S101:获取竖排文本行图像。
在具体执行步骤S101的过程中,获取待识别竖行文本图像,利用文本行检测算法对获取的待识别竖行文本图像进行检测,以便从待识别竖行文本图像中选取并剪切出一个竖排文本行图像,或者多个竖排文本行图像。
在本申请实施例中,文本行检测算法可以根据待识别竖行文本图像中各个文字之间竖直方向的间距和水平方向的文字间距来检测出竖排文本行。例如,如图2所示,“伯牙抱琴”中的“伯”字与水平方向的“凭”和“香”间隔接近一个空格的大小,而与“牙”字的间隔更符合在同一个文本行的特征距离,文本行检测算法可以根据各个文字之间竖直方向的间距和水平方向的文字间距来,分析出“伯牙抱琴”属于同一个竖排文本行。
S102:对竖排文本行图像进行二值化处理,得到二值图。
在具体执行步骤S102的过程中,对获取的待识别竖行文本图像进行检测,从待识别竖行图像中剪切出竖排文本行图像后,将该竖排文本行图像转换成相应的灰度图后,并该竖排文本行图像对应的灰度图进行二值化处理,得到该竖排文本行图像对应的二值图。
S103:将二值图进行纵向投影,得到第一投影数据,其中,第一投影数据包括多行像素行,每行像素行包括多个像素点。
在具体执行步骤S103的过程中,在对竖排文本行图像进行二值化处理,得到二值图后,构建坐标系,将该竖排文本行图像对应的二值图沿所构建的坐标的y轴进行投影,得到该竖排文本行图像对应的二值图对应的投影数据,如图3所示(为了便于区分,将竖排文本行图像对应的二值图沿所构建的坐标的y轴进行投影得到的投影数据称为第一投影数据)。
S104:遍历第一投影数据的每行像素行,从第一投影数据中确定纵向有效文本区域;其中,纵向有效文本区域为像素值为0的像素点的个数大于预设阈值的像素行对应的区域。
在步骤S104的中,由于对竖排文本行图像进行了二值化处理,故,得到的竖排文本行图像对应的二值图中每个像素点只有0和255两种取值。其中,像素值为0的像素点呈现黑色,像素值为255的像素点呈白色。
在具体执行步骤S104的过程中,在将将二值图进行纵向投影,得到第一投影数据后,遍历该遍历第一投影数据中的每行像素行中的每个像素点,判断该像素行中像素值为0的像素点的个数是否大于预设阈值。
若该像素行中像素值为0的像素点的个数大于预设阈值,将该像素行对应的区域确定为纵向有效文本区域,即该区域内存在文字。若该像素行中像素值为0的像素点的个数不大于预设阈值,将该像素行对应的区域确定为无效文本区域,即该区域每没有文字。
S105:根据纵向有效文本区域,从在竖排文本行图像中剪切出对应的目标有效文本区域,并对目标有效文本区域进行文字识别。
在具体执行步骤S105的过程中,在从第一投影数据中确定出纵向有效文本区域后,确定该纵向有效文本区域的起始纵坐标和终点纵坐标,进而可以根据所确定的起始纵坐标和终点纵坐标确定该纵向有效文本区域的第一起始坐标、第二起始坐标、第一终点坐标和第二终点坐标。
可以将待识别竖行文本图像沿所构建的坐标系的y轴进行投影,进而可以将坐标系中的待识别竖行文本图像投影中左上交的像素点的坐标确定为原始坐标(0,0)。
确定在坐标系中的待识别竖行文本图像投影中,该纵向有效文本区域对应的竖排文本行图像左上角的像素点的坐标,并将所确定的该纵向有效文本区域对应的竖排文本行图像左上角的像素点的坐标作为参考坐标。
根据所确定的原始坐标和参考坐标,计算该纵向有效文本区域的相对位置关系,进而根据该纵向有效文本区域的相对位置关系、纵向有效文本区域对应的第一起始坐标、第二起始坐标、第一终点坐标和第二终点坐标,计算纵向有效文本区域在待识别竖行文本图像中对应的目标有效文字区域的第一实际起始坐标、第二实际起始坐标、第一实际终点坐标和第二实际终点坐标。
基于该目标有效文字区域的第一实际起始坐标、第二实际起始坐标、第一实际终点坐标和第二实际终点坐标,从待识别竖行文本图像剪切出该目标有效文字区域,如图3所示,并对剪切出的每个目标有效文字区域进行文字识别。
在本申请实施例中,可以利用文字识别器对剪切出的目标有效文字区域进行文字识别。
例如,参见图4,遍历图4所示的第一投影数据的每行像素行,从该第一投影数据中确定有5个纵向有效文本区域,确定每个纵向有效文本区域的起始纵坐标和终点纵坐标,如图5所示,进而可以根据每个纵向有效文本区域的起始纵坐标和终点纵坐标,确定每个纵向有效文本区域对应的第一起始坐标、第二起始坐标、第一终点坐标和第二终点坐标。
若某个纵向有效文本区域对应的起始纵坐标为5,终点纵坐标为10,根据纵向有效文本区域对应的起始纵坐标和终点纵坐标,确定该纵向有效文本区域对应的第一起始坐标为(5,5)第二起始坐标为(10,5)、第一终点坐标为(5,10)和第二终点坐标为(10,10)。
将待识别竖行文本图像沿所构建的坐标系的y轴进行投影,将坐标系中的待识别竖行文本图像投影中左上交的像素点的坐标确定为原始坐标(0,0),若确定在坐标系中的待识别竖行文本图像投影中,该纵向有效文本区域对应的竖排文本行图像左上角的像素点的坐标为(10,10),即参考坐标为(10,10)。
根据所确定的原始坐标和参考坐标,计算该纵向有效文本区域的相对位置关系为(10,10),进而根据该纵向有效文本区域的相对位置关系(10,10)、纵向有效文本区域对应的第一起始坐标(5,5)第二起始坐标(10,5)、第一终点坐标(5,10)和第二终点坐标(10,10),计算纵向有效文本区域在待识别竖行文本图像中对应的目标有效文字区域的第一实际起始坐标为(15,15)、第二实际起始坐标(20,15)、第一实际终点坐标(15,20)和第二实际终点坐标(20,20)。
基于该目标有效文字区域的第一实际起始坐标为(15,15)、第二实际起始坐标(20,15)、第一实际终点坐标(15,20)和第二实际终点坐标(20,20),从待识别竖行文本图像剪切出该目标有效文字区域,并对剪切出的每个目标有效文字区域进行文字识别。
本发明提供一种文字识别方法,获取竖排文本行图像;对竖排文本行图像进行二值化处理,得到二值图;将二值图进行纵向投影,得到第一投影数据,其中,第一投影数据包括多行像素行,每行像素行包括多个像素点;遍历第一投影数据的每行像素行,从第一投影数据中确定纵向有效文本区域;其中,纵向有效文本区域为像素值为0的像素点的个数大于预设阈值的像素行对应的区域;根据纵向有效文本区域,从在竖排文本行图像中剪切出对应的目标有效文本区域,经过行切割后的目标有效文字区域中文字上下边框紧贴文字本身,实现文字上下白边的去除,减少上下白边对文字识别器的干扰,从而提升文字识别的精度。并且,本发明提供的技术方案,不需要重新利用大量的竖排文本行样本,重新训练一套支持竖排文本行的文字识别器,利用原始的文字识别器便可实现文字识别,无需考虑竖排文本行和横排文本行的比例,进一步提高了文字识别的精度。
参见图6,示出了本发明实施例提供的另一种文字识别方法的流程示意图,该文字识别方法具体包括以下步骤:
S601:获取竖排文本行图像。
S602:对竖排文本行图像进行二值化处理,得到二值图。
S603:将二值图进行纵向投影,得到第一投影数据,其中,第一投影数据包括多行像素行,每行像素行包括多个像素点。
S604:遍历第一投影数据的每行像素行,从第一投影数据中确定纵向有效文本区域;其中,纵向有效文本区域为像素值为0的像素点的个数大于预设阈值的像素行对应的区域。
在具体执行步骤S601至步骤S604的过程中,步骤S601至步骤S604的实现原理和具体执行过程,与上述本发明实施例公开的图1中的步骤S101至步骤S104的实现原理和具体执行过程相同,可参见图1中公开的相应部分,这里不再进行赘述。
S605:将二值图进行横向投影,得到第二投影数据,其中,第二投影数据包括多列像素列,每列像素列包括多个像素点。
在具体执行步骤S605的过程中,还可以该将竖排文本行图像对应的二值图沿所构建的坐标的x轴进行投影,得到该竖排文本行图像对应的二值图对应的投影数据(为了便于区分,将将竖排文本行图像对应的二值图沿所构建的坐标的x轴进行投影得到的投影数据称为第二投影数据)。
S606:遍历第二投影数据的每列像素列,从第二投影数据中确定横向有效文本区域,其中,横向有效文本区域为像素值为0的像素点的个数大于预设阈值的像素列对应的区域。
在具体执行步骤S606的过程中,在将竖排文本行图像转换成的该竖排文本行图像对应的二值图沿坐标系的x轴进行投影,得到二值图对应的第二投影数据后,针对第二投影数据中的每列像素列而言,遍历该像素列中的每个像素点,判断该像素列中像素值为0的像素点的个数是否大于预设阈值。
若该像素列中像素值为0的像素点的个数大于预设阈值,将该像素列对应的区域确定为横向有效文本区域,即该区域内存在文字。若该像素列中像素值为0的像素点的个数不大于预设阈值,将该像素列对应的区域确定为无效文本区域,即该区域每没有文字。
S607:根据纵向有效文本区域和横向有效文本区域,从在竖排文本行图像中剪切出对应的目标有效文本区域,并对目标有效文本区域进行文字识别,其中,纵向有效文本区域与横向有效文本区域,在待识别竖行文本图像中对应同一个目标有效文本区域。
在具体执行步骤S607的过程中,可以将待识别竖行文本图像沿所构建的坐标系的y轴进行投影,进而可以将坐标系中的待识别竖行文本图像投影中左上交的像素点的坐标确定为原始坐标(0,0)。
确定在坐标系中的待识别竖行文本图像投影中,该纵向有效文本区域对应的竖排文本行图像左上角的像素点的坐标,并将所确定的该纵向有效文本区域对应的竖排文本行图像左上角的像素点的坐标作为参考坐标,根据所确定的原始坐标和参考坐标,计算该纵向有效文本区域的相对位置关系。
确定纵向有效文本区域对应的横向有效文本区域的横始纵坐标和终点横坐标,进而可以根据所确定的起始横坐标和终点横坐标确定该横向有效文本区域的第三起始坐标、第四起始坐标、第三终点坐标和第四终点坐标。
可以将待识别竖行文本图像沿所构建的坐标系的x轴进行投影,进而可以将坐标系中的待识别竖行文本图像投影中左上交的像素点的坐标确定为原始坐标(0,0)。
确定在坐标系中的待识别竖行文本图像投影中,该横向有效文本区域对应的竖排文本行图像左上角的像素点的坐标,并将所确定的该横向有效文本区域对应的竖排文本行图像左上角的像素点的坐标作为参考坐标,根据所确定的原始坐标和参考坐标,计算该横向有效文本区域的相对位置关系。
根据该纵向有效文本区域的相对位置关系、该纵向有效文本区域对应的横向有效文本区域的相对位置关系、纵向有效文本区域对应的第一起始坐标、第二起始坐标、第一终点坐标和第二终点坐标,和纵向有效文本区域对应的横向有效文本区域的第三起始坐标、第四起始坐标、第三终点坐标和第四终点坐标,确定目标有效文本区域的第一实际起始坐标、第二实际起始坐标、第一实际终点坐标和第二实际终点坐标。
基于该目标有效文字区域的第一实际起始坐标、第二实际起始坐标、第一实际终点坐标和第二实际终点坐标,从待识别竖行文本图像剪切出该目标有效文字区域,如图5所示,并对剪切出的每个目标有效文字区域进行文字识别。
例如,纵向有效文本区域对应的起始纵坐标为5,终点纵坐标为10,根据纵向有效文本区域对应的起始纵坐标和终点纵坐标,确定该纵向有效文本区域对应的第一起始坐标为(5,5)第二起始坐标为(10,5)、第一终点坐标为(5,10)和第二终点坐标为(10,10)。
将待识别竖行文本图像沿所构建的坐标系的y轴进行投影,将坐标系中的待识别竖行文本图像投影中左上交的像素点的坐标确定为原始坐标(0,0),若确定在坐标系中的待识别竖行文本图像投影中,该纵向有效文本区域对应的竖排文本行图像左上角的像素点的坐标为(10,10),即参考坐标为(10,10),根据所确定的原始坐标和参考坐标,计算该纵向有效文本区域的相对位置关系为(10,10)。
纵向有效文本区域对应横向有效文本区域的起始横坐标为5,终点横坐标为9,根据横向有效文本区域对应的起始横坐标和终点横坐标,确定该横向有效文本区域对应的第三起始坐标为(5,5)第四起始坐标为(9,5)、第三终点坐标为(5,10)和第四终点坐标为(9,10)。
将待识别竖行文本图像沿所构建的坐标系的x轴进行投影,将坐标系中的待识别竖行文本图像投影中左上交的像素点的坐标确定为原始坐标(0,0),若确定在坐标系中的待识别竖行文本图像投影中,该横向有效文本区域对应的竖排文本行图像左上角的像素点的坐标为(10,10),即参考坐标为(10,10),根据所确定的原始坐标和参考坐标,计算该横向有效文本区域的相对位置关系为(10,10)。
根据该纵向有效文本区域的相对位置关系(10,10)、该纵向有效文本区域对应的横向有效文本区域的相对位置关系(10,10)、纵向有效文本区域对应的第一起始坐标(5,5)第二起始坐标(10,5)、第一终点坐标(5,10)和第二终点坐标(10,10),和纵向有效文本区域对应的横向有效文本区域的第三起始坐标为(5,5)第四起始坐标为(9,5)、第三终点坐标为(5,10)和第四终点坐标为(9,10),计算纵向有效文本区域在待识别竖行文本图像中对应的目标有效文字区域的第一实际起始坐标为(15,15)、第二实际起始坐标(19,15)、第一实际终点坐标(15,20)和第二实际终点坐标(19,20)。
基于该目标有效文字区域的第一实际起始坐标为(15,15)、第二实际起始坐标(19,15)、第一实际终点坐标(15,20)和第二实际终点坐标(19,20),从待识别竖行文本图像剪切出该目标有效文字区域,并对剪切出的每个目标有效文字区域进行文字识别。
本发明提供一种文字识别方法,进一步将竖排文本行图像转换成的二值图沿构建的坐标系的x轴进行投影得到的第二投影数据,以便从第二投影数据中确定与纵向有效区域对应的横向有效文本区域,基于纵向有效文本区域的第一起始坐标、第二起始坐标、第一终点坐标、第二终点坐标,和横向有效文本区域对应的横向有效文本区域的第三起始坐标、第四起始坐标、第三终点坐标和第四终点坐标,确定目标有效文本区域的第一实际起始坐标、第二实际起始坐标、第一实际终点坐标和第二实际终点坐标;基于目标有效文字区域的第一实际起始坐标、第二实际起始坐标、第一实际终点坐标和第二实际终点坐标,从待识别竖行文本图像剪切出对应的目标有效文字区域,经过行切割后的目标有效文字区域中文字上下左右边框紧贴文字本身,实现文字上下白边的去除,减少上下左右白边对文字识别器的干扰,从而进一步提升文字识别的精度。
基于本申请实施例公开的文字识别方法,本发明实施例还对应公开了一种文字识别装置,如图7所示,该文字识别装置包括:
第一获取单元71,用于获取竖排文本行图像;
二值化处理单元72,用于对竖排文本行图像进行二值化处理,得到二值图;
第一投影单元73,用于将二值图进行纵向投影,得到第一投影数据,其中,第一投影数据包括多行像素行,每行像素行包括多个像素点;
第一遍历单元74,用于遍历第一投影数据的每行像素行,从第一投影数据中确定纵向有效文本区域;其中,纵向有效文本区域为像素值为0的像素点的个数大于预设阈值的像素行对应的区域;
文字识别单元75,用于根据纵向有效文本区域,从在竖排文本行图像中剪切出对应的目标有效文本区域,并对目标有效文本区域进行文字识别。
上述本发明实施例公开的文字识别装置中各个单元具体的原理和执行过程,与上述本发明实施例公开的文字识别方法相同,可参见上述本发明实施例公开的文字识别方法中相应的部分,这里不再进行赘述。
本发明提供一种文字识别装置,获取竖排文本行图像;对竖排文本行图像进行二值化处理,得到二值图;将二值图进行纵向投影,得到第一投影数据,其中,第一投影数据包括多行像素行,每行像素行包括多个像素点;遍历第一投影数据的每行像素行,从第一投影数据中确定纵向有效文本区域;其中,纵向有效文本区域为像素值为0的像素点的个数大于预设阈值的像素行对应的区域;根据纵向有效文本区域,从在竖排文本行图像中剪切出对应的目标有效文本区域,经过行切割后的目标有效文字区域中文字上下边框紧贴文字本身,实现文字上下白边的去除,减少上下白边对文字识别器的干扰,从而提升文字识别的精度。并且,本发明提供的技术方案,不需要重新利用大量的竖排文本行样本,重新训练一套支持竖排文本行的文字识别器,利用原始的文字识别器便可实现文字识别,无需考虑竖排文本行和横排文本行的比例,进一步提高了文字识别的精度。
可选的,第一投影单元,包括:
构建单元,用于构建坐标系;
第二投影单元,用于将二值图沿坐标系的y轴进行纵向投影,得到第一投影数据。
可选的,第一遍历单元,包括:
第二遍历单元,用于遍历第一投影数据的每行像素行,并判断像素行中像素值为0的像素点的个数是否大于预设阈值;
第一确定单元,用于若像素行中像素值为0的像素点的个数大于预设阈值,将像素行对应的区域确定为纵向有效文本区域。
可选的,文字识别单元,包括:
第二确定单元,用于确定纵向有效文本区域对应的第一起始坐标、第二起始坐标、第一终点坐标和第二终点坐标;
第二投影单元,用于将竖排文本行图像对应的待识别竖行文本图像沿坐标系的y轴进行投影,将投影在坐标系中的待识竖行文本图像中左上角的像素点的坐标确定为原始坐标;
第三确定单元,用于确定投影在坐标系中的待识别竖行文本图像中,纵向有效文本区域对应的竖排文本行图像左上角的像素点的坐标为参考坐标;
第一计算单元根据原始坐标和参考坐标,计算纵向有效文本区域的相对位置关系;
第二计算单元,用于根据纵向有效文本区域的相对位置关系、纵向有效文本区域对应的第一起始坐标、第二起始坐标、第一终点坐标和第二终点坐标,计算纵向有效文本区域在待识别竖行文本图像中对应的目标有效文字区域的第一实际起始坐标、第二实际起始坐标、第一实际终点坐标和第二实际终点坐标;
第一文字识别子单元,用于基于目标有效文字区域的第一实际起始坐标、第二实际起始坐标、第一实际终点坐标和第二实际终点坐标,从待识别竖行文本图像剪切出目标有效文字区域,并对目标有效文字区域进行文字识别。
进一步的,本发明提供的文字识别装置,还包括:
第三投影单元,用于将二值图进行横向投影,得到第二投影数据,其中,第二投影数据包括多列像素列,每列像素列包括多个像素点;
第三遍历单元,用于遍历第二投影数据的每列像素列,从第二投影数据中确定横向有效文本区域,其中,横向有效文本区域为像素值为0的像素点的个数大于预设阈值的像素列对应的区域。
可选的,文字识别单元,包括:
第四确定单元,用于确定每个横向有效文本区域对应的第三起始坐标、第四起始坐标、第三终点坐标和第四终点坐标;
第五确定单元,用于基于纵向有效文本区域的第一起始坐标、第二起始坐标、第一终点坐标、第二终点坐标,和横向有效文本区域对应的横向有效文本区域的第三起始坐标、第四起始坐标、第三终点坐标和第四终点坐标,确定目标有效文本区域的第一实际起始坐标、第二实际起始坐标、第一实际终点坐标和第二实际终点坐标;其中,纵向有效文本区域与横向有效文本区域,在待识别竖行文本图像中对应同一个目标有效文本区域;
第二文字识别子单元,用于基于目标有效文字区域的第一实际起始坐标、第二实际起始坐标、第一实际终点坐标和第二实际终点坐标,从待识别竖行文本图像剪切出目标有效文字区域,并对目标有效文字区域进行文字识别。
本申请实施例提供了一种电子设备,如图8所示,电子设备包括处理器801和存储器802,存储器802用于存储文字识别的程序代码和数据,处理器801用于调用存储器中的程序指令执行实现如上述实施例中文字识别所示的步骤。
本申请实施例提供了一种存储介质,存储介质包括存储程序,其中,在程序运行时控制存储介质所在设备执行上述实施例示出的文字识别方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种文字识别方法,其特征在于,所述方法包括:
获取竖排文本行图像;
对所述竖排文本行图像进行二值化处理,得到二值图;
将所述二值图进行纵向投影,得到第一投影数据,其中,所述第一投影数据包括多行像素行,每行所述像素行包括多个像素点;
遍历所述第一投影数据的每行所述像素行,从所述第一投影数据中确定纵向有效文本区域;其中,所述纵向有效文本区域为像素值为0的像素点的个数大于预设阈值的像素行对应的区域;
根据所述纵向有效文本区域,从在所述竖排文本行图像中剪切出对应的目标有效文本区域,并对所述目标有效文本区域进行文字识别。
2.根据权利要求1所述的方法,其特征在于,所述将所述二值图进行纵向投影,得到第一投影数据,包括:
构建坐标系;
将所述二值图沿所述坐标系的y轴进行纵向投影,得到第一投影数据。
3.根据权利要求1所述的方法,其特征在于,所述遍历所述第一投影数据的每行所述像素行,从所述第一投影数据中确定纵向有效文本区域,包括:
遍历所述第一投影数据的每行所述像素行,并判断所述像素行中像素值为0的像素点的个数是否大于预设阈值;
若所述像素行中像素值为0的像素点的个数大于预设阈值,将所述像素行对应的区域确定为纵向有效文本区域。
4.根据权利要求1所述的方法,其特征在于,所述根据所述纵向有效文本区域,从在所述竖排文本行图像中剪切出对应的目标有效文本区域,并对所述目标有效文本区域进行文字识别,包括:
确定所述纵向有效文本区域对应的第一起始坐标、第二起始坐标、第一终点坐标和第二终点坐标;
将所述竖排文本行图像对应的所述待识别竖行文本图像沿所述坐标系的y轴进行投影,将投影在所述坐标系中的所述待识竖行文本图像中左上角的像素点的坐标确定为原始坐标;
确定投影在所述坐标系中的所述待识别竖行文本图像中,所述纵向有效文本区域对应的所述竖排文本行图像左上角的像素点的坐标为参考坐标;
根据所述原始坐标和所述参考坐标,计算所述纵向有效文本区域的相对位置关系;
根据所述纵向有效文本区域的相对位置关系、所述纵向有效文本区域对应的所述第一起始坐标、所述第二起始坐标、所述第一终点坐标和所述第二终点坐标,计算所述纵向有效文本区域在所述待识别竖行文本图像中对应的目标有效文字区域的第一实际起始坐标、第二实际起始坐标、第一实际终点坐标和第二实际终点坐标;
基于所述目标有效文字区域的所述第一实际起始坐标、所述第二实际起始坐标、所述第一实际终点坐标和所述第二实际终点坐标,从所述待识别竖行文本图像剪切出所述目标有效文字区域,并对所述目标有效文字区域进行文字识别。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述二值图进行横向投影,得到第二投影数据,其中,所述第二投影数据包括多列像素列,每列所述像素列包括多个像素点;
遍历所述第二投影数据的每列所述像素列,从所述第二投影数据中确定横向有效文本区域,其中,所述横向有效文本区域为像素值为0的像素点的个数大于预设阈值的像素列对应的区域。
6.根据权利要求4所述的方法,其特征在于,所述根据所述纵向有效文本区域,从在所述竖排文本行图像中剪切出对应的目标有效文本区域,并对所述目标有效文本区域进行文字识别,包括:
确定每个所述横向有效文本区域对应的第三起始坐标、第四起始坐标、第三终点坐标和第四终点坐标;
基于所述纵向有效文本区域的所述第一起始坐标、所述第二起始坐标、所述第一终点坐标、所述第二终点坐标,和所述横向有效文本区域对应的所述横向有效文本区域的第三起始坐标、第四起始坐标、第三终点坐标和第四终点坐标,确定目标有效文本区域的第一实际起始坐标、第二实际起始坐标、第一实际终点坐标和第二实际终点坐标;其中,所述纵向有效文本区域与所述横向有效文本区域,在所述待识别竖行文本图像中对应同一个所述目标有效文本区域;
基于所述目标有效文字区域的所述第一实际起始坐标、所述第二实际起始坐标、所述第一实际终点坐标和所述第二实际终点坐标,从所述待识别竖行文本图像剪切出所述目标有效文字区域,并对所述目标有效文字区域进行文字识别。
7.一种文字识别装置,其特征在于,所述装置包括:
第一获取单元,用于获取竖排文本行图像;
二值化处理单元,用于对所述竖排文本行图像进行二值化处理,得到二值图;
第一投影单元,用于将所述二值图进行纵向投影,得到第一投影数据,其中,所述第一投影数据包括多行像素行,每行所述像素行包括多个像素点;
第一遍历单元,用于遍历所述第一投影数据的每行所述像素行,从所述第一投影数据中确定纵向有效文本区域;其中,所述纵向有效文本区域为像素值为0的像素点的个数大于预设阈值的像素行对应的区域;
文字识别单元,用于根据所述纵向有效文本区域,从在所述竖排文本行图像中剪切出对应的目标有效文本区域,并对所述目标有效文本区域进行文字识别。
8.根据权利要求7所述的装置,其特征在于,所述第一投影单元,包括:
构建单元,用于构建坐标系;
第二投影单元,用于将所述二值图沿所述坐标系的y轴进行纵向投影,得到第一投影数据。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器用于存储文字识别的程序代码和数据,所述处理器用于调用所述存储器中的程序指令执行如权利要求1-6中任一所述的一种文字识别方法。
10.一种存储介质,其特征在于,所述存储介质包括存储程序,其中,在所述程序运行时控制所述存储介质所在设备执行如权利要求1-6中任一所述的一种文字识别方法。
CN202110851664.9A 2021-07-27 2021-07-27 一种文字识别方法、装置、电子设备及存储介质 Active CN113505745B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110851664.9A CN113505745B (zh) 2021-07-27 2021-07-27 一种文字识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110851664.9A CN113505745B (zh) 2021-07-27 2021-07-27 一种文字识别方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113505745A true CN113505745A (zh) 2021-10-15
CN113505745B CN113505745B (zh) 2024-04-05

Family

ID=78014137

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110851664.9A Active CN113505745B (zh) 2021-07-27 2021-07-27 一种文字识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113505745B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115410191A (zh) * 2022-11-03 2022-11-29 平安银行股份有限公司 文本图像识别方法、装置、设备和存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0472313B1 (en) * 1990-08-03 1998-11-11 Canon Kabushiki Kaisha Image processing method and apparatus therefor
CN103034848A (zh) * 2012-12-19 2013-04-10 方正国际软件有限公司 一种表单类型的识别方法
CN103544475A (zh) * 2013-09-23 2014-01-29 方正国际软件有限公司 一种版面类型的识别方法及系统
CN103839062A (zh) * 2014-03-11 2014-06-04 东方网力科技股份有限公司 一种图像文字定位方法及装置
CN104573675A (zh) * 2015-01-29 2015-04-29 百度在线网络技术(北京)有限公司 作业图像的展示方法和装置
CN104978576A (zh) * 2014-04-02 2015-10-14 阿里巴巴集团控股有限公司 一种文字识别方法及装置
US20160063355A1 (en) * 2014-08-29 2016-03-03 Ancestry.Com Operations Inc. System and method for transcribing handwritten records using word grouping with assigned centroids
CN106599889A (zh) * 2016-12-17 2017-04-26 北京小米移动软件有限公司 一种识别字符的方法和装置
CN107590447A (zh) * 2017-08-29 2018-01-16 北京奇艺世纪科技有限公司 一种文字标题识别方法及装置
CN108171104A (zh) * 2016-12-08 2018-06-15 腾讯科技(深圳)有限公司 一种文字检测方法及装置
US20190266431A1 (en) * 2018-02-28 2019-08-29 Konica Minolta Laboratory U.S.A., Inc. Method, apparatus, and computer-readable medium for processing an image with horizontal and vertical text
CN112507758A (zh) * 2019-09-16 2021-03-16 深圳中兴网信科技有限公司 答题卡字符串识别方法、装置、终端和计算机存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0472313B1 (en) * 1990-08-03 1998-11-11 Canon Kabushiki Kaisha Image processing method and apparatus therefor
CN103034848A (zh) * 2012-12-19 2013-04-10 方正国际软件有限公司 一种表单类型的识别方法
CN103544475A (zh) * 2013-09-23 2014-01-29 方正国际软件有限公司 一种版面类型的识别方法及系统
CN103839062A (zh) * 2014-03-11 2014-06-04 东方网力科技股份有限公司 一种图像文字定位方法及装置
CN104978576A (zh) * 2014-04-02 2015-10-14 阿里巴巴集团控股有限公司 一种文字识别方法及装置
US20160063355A1 (en) * 2014-08-29 2016-03-03 Ancestry.Com Operations Inc. System and method for transcribing handwritten records using word grouping with assigned centroids
CN104573675A (zh) * 2015-01-29 2015-04-29 百度在线网络技术(北京)有限公司 作业图像的展示方法和装置
CN108171104A (zh) * 2016-12-08 2018-06-15 腾讯科技(深圳)有限公司 一种文字检测方法及装置
CN106599889A (zh) * 2016-12-17 2017-04-26 北京小米移动软件有限公司 一种识别字符的方法和装置
CN107590447A (zh) * 2017-08-29 2018-01-16 北京奇艺世纪科技有限公司 一种文字标题识别方法及装置
US20190266431A1 (en) * 2018-02-28 2019-08-29 Konica Minolta Laboratory U.S.A., Inc. Method, apparatus, and computer-readable medium for processing an image with horizontal and vertical text
CN112507758A (zh) * 2019-09-16 2021-03-16 深圳中兴网信科技有限公司 答题卡字符串识别方法、装置、终端和计算机存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邹志文: "图文混编图像的版面分析及识别研究", 中国优秀硕士学位论文全文数据库 信息科技辑 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115410191A (zh) * 2022-11-03 2022-11-29 平安银行股份有限公司 文本图像识别方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN113505745B (zh) 2024-04-05

Similar Documents

Publication Publication Date Title
CN110136069B (zh) 文本图像矫正方法、装置与电子设备
CN110659658B (zh) 一种目标检测方法及其装置
JP7026165B2 (ja) テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体
CN112598922B (zh) 车位检测方法、装置、设备及存储介质
US20150090796A1 (en) Method and system for detecting a correction pattern in a qr code
CN108734161B (zh) 冠字号区域的识别方法、装置、设备及存储介质
CN111368638A (zh) 电子表格的创建方法、装置、计算机设备和存储介质
CN111985469B (zh) 一种图像中文字的识别方法、装置及电子设备
CN114529837A (zh) 建筑物轮廓提取方法、系统、计算机设备及存储介质
CN110619333A (zh) 一种文本行分割方法、文本行分割装置及电子设备
CN115937003A (zh) 图像处理方法、装置、终端设备和可读存储介质
CN113505745B (zh) 一种文字识别方法、装置、电子设备及存储介质
CN115546809A (zh) 基于单元格约束的表格结构识别方法及其应用
CN112532884B (zh) 识别方法、装置及电子设备
CN112733855B (zh) 表格结构化方法、表格恢复设备及具有存储功能的装置
CN111767752B (zh) 一种二维码识别方法及装置
CN106663317B (zh) 数字图像的形态学处理方法和数字图像处理装置
CN112036232A (zh) 一种图像表格结构识别方法、系统、终端以及存储介质
CN111932517A (zh) 余料板材的轮廓测绘方法、装置、电子设备与存储介质
CN114399729A (zh) 监控对象移动识别方法、系统、终端及存储介质
CN113343866A (zh) 表格信息的识别方法及装置、电子设备
CN111709419A (zh) 一种纸币冠字号的定位方法、系统、设备及可读存储介质
JP2009098867A (ja) 文字列認識方法、コンピュータプログラム、記憶媒体
CN110443251A (zh) 仪表图像识别方法及装置
JPH09185726A (ja) 罫線除去方式

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant