CN111476243A - 影像文字识别方法及装置 - Google Patents

影像文字识别方法及装置 Download PDF

Info

Publication number
CN111476243A
CN111476243A CN202010283832.4A CN202010283832A CN111476243A CN 111476243 A CN111476243 A CN 111476243A CN 202010283832 A CN202010283832 A CN 202010283832A CN 111476243 A CN111476243 A CN 111476243A
Authority
CN
China
Prior art keywords
image
processing
generate
background
character recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010283832.4A
Other languages
English (en)
Inventor
张鹏
齐蓉
童华臣
张敏华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202010283832.4A priority Critical patent/CN111476243A/zh
Publication of CN111476243A publication Critical patent/CN111476243A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/273Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion removing elements interfering with the pattern to be recognised
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种影像文字识别方法及装置,其中,该方法包括:获取原始影像,对原始影像进行影像背景去除处理,以生成去除背景图像;对去除背景图像进行二值化处理,以生成二值化图像;将二值化图像进行膨胀处理,并对膨胀处理后的图像进行干扰形状去除处理,以生成去除干扰形状的二值化图像;根据预先设置的数据字典对去除干扰形状的二值化图像进行文字识别,以识别原始影像中的文字。通过本发明,可以提高影像文字识别的准确率。

Description

影像文字识别方法及装置
技术领域
本发明涉及图像识别领域,具体涉及一种影像文字识别方法及装置。
背景技术
在当前的国际单证业务中,业务人员需对客户提交的影像资料,人工识别其中内容并手工录入。若要实现单证智能审单,则首先需要对这些影像识别其中的文字,并基于识别结果形成结构化数据。因此,影像文字识别的准确性是智能审单的有效性必要前提。
但是,单证业务影像来自各行各业,不同公司、不同类别影像的板式和质量千差万别,很难使用同一标准进行图像预处理,从而导致了影像文字识别的准确性较低。
发明内容
有鉴于此,本发明提供一种影像文字识别方法及装置,以解决上述提及的至少一个问题。
根据本发明的第一方面,提供一种影像文字识别方法,所述方法包括:获取原始影像,对所述原始影像进行影像背景去除处理,以生成去除背景图像;对所述去除背景图像进行二值化处理,以生成二值化图像;将所述二值化图像进行膨胀处理,并对膨胀处理后的图像进行干扰形状去除处理,以生成去除干扰形状的二值化图像;根据预先设置的数据字典对所述去除干扰形状的二值化图像进行文字识别,以识别所述原始影像中的文字。
根据本发明的第二方面,提供一种影像文字识别装置,所述装置包括:影像获取单元,用于获取原始影像;背景去除处理单元,用于对所述原始影像进行影像背景去除处理,以生成去除背景图像;二值化处理单元,用于对所述去除背景图像进行二值化处理,以生成二值化图像;膨胀处理单元,用于将所述二值化图像进行膨胀处理;干扰形状去除处理单元,用于对膨胀处理后的图像进行干扰形状去除处理,以生成去除干扰形状的二值化图像;文字识别单元,用于根据预先设置的数据字典对所述去除干扰形状的二值化图像进行文字识别,以识别所述原始影像中的文字。
根据本发明的第三方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
根据本发明的第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
由上述技术方案可知,通过对获取的原始影像进行影像背景去除处理生成去除背景图像,并对去除背景图像进行二值化处理生成二值化图像,随后对二值化图像进行膨胀处理后进行干扰形状去除处理生成去除干扰形状的二值化图像,之后根据预先设置的数据字典对去除干扰形状的二值化图像进行文字识别,以识别所述原始影像中的文字,通过对原始影像进行影像背景去除处理、二值化处理、膨胀处理和干扰形状去除处理这些预处理,去除了影像中和文本无关的内容,仅保留了关注的信息,从而可以获得更好的影像文字识别的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的影像文字识别方法的流程图;
图2是根据本发明实施例的影像文字识别装置的结构框图;
图3是根据本发明实施例的背景去除处理单元22的结构框图;
图4是根据本发明实施例的二值化处理单元23的结构框图;
图5是根据本发明实施例的膨胀处理单元24的结构框图;
图6是根据本发明实施例的干扰形状去除处理单元25的结构框图;
图7是根据本发明实施例的影像文字识别装置的详细结构框图;
图8是根据本发明实施例的自适应图像预处理系统的结构框图;
图9是根据本发明实施例的影像背景去除装置1的结构框图;
图10是根据本发明实施例的影像自适应二值化装置2的结构框图;
图11(a)是原始图像,图11(b)是根据本发明实施例的二值化后的图像;
图12是根据本发明实施例的影像干扰形状去除装置3的结构框图;
图13是根据本发明实施例的轮廓边界框示意图;
图14是根据本发明实施例的轮廓拟合直线示意图;
图15是根据本发明实施例的影像文字识别装置4的结构框图;
图16是根据本发明实施例的基于图8所示系统的图像识别流程图;
图17是根据本发明实施例的电子设备的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在识别单证业务影像过程中,存在待处理影像差别较大、无法使用同一预处理方法处理的场景,此时很难使用同一标准对待处理影像进行图像预处理,而图像预处理的好坏在很大程度上决定了影像文字识别的准确率。基于此,本发明实施例提供一种影像文字识别方案,以提高影像文字识别的准确率。
图1是根据本发明实施例的影像文字识别方法的流程图,如图1所示,该方法包括:
步骤101,获取原始影像,对所述原始影像进行影像背景去除处理,以生成去除背景图像。
具体而言,影像背景去除处理包括:先对所述原始影像进行灰度处理,以生成灰度图像;之后对所述灰度图像进行直方图均衡化处理和平滑去噪处理,以生成所述去除背景图像。
步骤102,对所述去除背景图像进行二值化处理,以生成二值化图像。
在具体实施过程中,可以先将去除背景图像输入至训练好的图像分类模型,以生成应用于该去除背景图像的二值化分割阈值;之后,根据所述二值化分割阈值对所述去除背景图像进行二值化处理,以生成二值化图像。
步骤103,将所述二值化图像进行膨胀处理,并对膨胀处理后的图像进行干扰形状去除处理,以生成去除干扰形状的二值化图像。
具体地,在进行膨胀处理时,先要对所述二值化图像进行像素反转处理,以生成像素反转的二值化图像;之后根据预定的膨胀算法对所述像素反转的二值化图像进行膨胀处理。这里的膨胀算法可以依据现有算法而定,本发明不限于此。
像素反转处理,即为将像素原为白点置为黑点,原黑点置为白点。
随后,根据预定的轮廓识别算法对所述膨胀处理后的图像进行轮廓查找操作,生成多个轮廓;再根据预定的非文字区域识别规则对所述多个轮廓进行识别,以识别属于非文字区域的轮廓;最后去除识别的属于非文字区域的轮廓,以生成所述去除干扰形状的二值化图像。
在根据预定非文字区域识别规则对所述多个轮廓进行识别时,具体可以根据以下的一种或多种进行识别:轮廓面积信息、轮廓边界矩形的长宽信息和面积信息、轮廓直线拟合直线与原始影像图像的横轴或纵轴夹角信息。
这里的轮廓识别算法可以依据现有算法而定,本发明不限于此。
步骤104,根据预先设置的数据字典对所述去除干扰形状的二值化图像进行文字识别,以识别所述原始影像中的文字。
通过对获取的原始影像进行影像背景去除处理生成去除背景图像,并对去除背景图像进行二值化处理生成二值化图像,随后对二值化图像进行膨胀处理后进行干扰形状去除处理生成去除干扰形状的二值化图像,之后根据预先设置的数据字典对去除干扰形状的二值化图像进行文字识别,以识别所述原始影像中的文字,通过对原始影像进行影像背景去除处理、二值化处理、膨胀处理和干扰形状去除处理这些预处理,去除了影像中和文本无关的内容,仅保留了关注的信息,从而可以获得更好的影像文字识别的准确率。
在识别原始影像中的文字之后,还可以根据预定规则对文字识别结果进行有效性判断。这里的文字识别结果主要包括多个单词,当识别的多个单词中的有效单词数量与总单词数量的比值大于预定阈值时,判断文字识别结果有效。
其中,包含在数据字典中的单词认为是有效单词。这里的预定阈值可以依据实际情况而定,本发明不限于此。
当文字识别结果有效时,可以根据所述文字识别结果更新步骤104中的数据字典,以及根据步骤102中的去除背景图像和二值化分割阈值更新上述图像分类模型。
本发明实施例通过分析图像背景、底纹、噪点和干扰线等形态学和统计学特征,迭代去除影像中和文本无关的内容,仅保留关注的信息,从而可以获得更好的影像文字识别准确率。
基于相似的发明构思,本发明实施例还提供一种影像文字识别装置,优选地,该装置用于实现上述方法实施例中的流程。
图2是该影像文字识别装置的结构框图,如图2所示,该装置包括:影像获取单元21、背景去除处理单元22、二值化处理单元23、膨胀处理单元24、干扰形状去除处理单元25和文字识别单元26,其中:
影像获取单元21,用于获取原始影像;
背景去除处理单元22,用于对所述原始影像进行影像背景去除处理,以生成去除背景图像;
二值化处理单元23,用于对所述去除背景图像进行二值化处理,以生成二值化图像;
膨胀处理单元24,用于将所述二值化图像进行膨胀处理;
干扰形状去除处理单元25,用于对膨胀处理后的图像进行干扰形状去除处理,以生成去除干扰形状的二值化图像;
文字识别单元26,用于根据预先设置的数据字典对所述去除干扰形状的二值化图像进行文字识别,以识别所述原始影像中的文字。
通过背景去除处理单元22对影像获取单元21获取的原始影像进行影像背景去除处理生成去除背景图像,二值化处理单元23对去除背景图像进行二值化处理生成二值化图像,随后膨胀处理单元24对二值化图像进行膨胀处理,干扰形状去除处理单元25对膨胀处理后的图像进行干扰形状去除处理生成去除干扰形状的二值化图像,之后文字识别单元26根据预先设置的数据字典对去除干扰形状的二值化图像进行文字识别,以识别所述原始影像中的文字,通过对原始影像进行影像背景去除处理、二值化处理、膨胀处理和干扰形状去除处理这些预处理,去除了影像中和文本无关的内容,仅保留了关注的信息,从而可以获得更好的影像文字识别的准确率。
具体地,如图3所示,背景去除处理单元22包括:灰度处理模块221和背景去除处理模块222,其中:
灰度处理模块221,用于对所述原始影像进行灰度处理,以生成灰度图像;
背景去除处理模块222,用于对所述灰度图像进行直方图均衡化处理和平滑去噪处理,以生成所述去除背景图像。
如图4所示,二值化处理单元23具体包括:二值化分割阈值生成模块231和二值化处理模块232,其中:
二值化分割阈值生成模块231,用于将所述去除背景图像输入至训练好的图像分类模型,以生成应用于该去除背景图像的二值化分割阈值;
二值化处理模块232,用于根据所述二值化分割阈值对所述去除背景图像进行二值化处理,以生成二值化图像。
如图5所示,膨胀处理单元24具体包括:像素反转处理模块241和膨胀处理模块242,其中:
像素反转处理模块241,用于将所述二值化图像进行像素反转处理,以生成像素反转的二值化图像;
膨胀处理模块242,用于根据预定的膨胀算法对所述像素反转的二值化图像进行膨胀处理。
如图6所示,干扰形状去除处理单元25具体包括:轮廓识别模块251、非文字区域识别模块252和干扰形状去除处理模块253,其中:
轮廓识别模块251,用于根据预定的轮廓识别算法对所述膨胀处理后的图像进行轮廓查找操作,以生成多个轮廓。
非文字区域识别模块252,用于根据预定的非文字区域识别规则对所述多个轮廓进行识别,以识别属于非文字区域的轮廓。
非文字区域识别模块252具体识别:轮廓面积信息、轮廓边界矩形的长宽信息和面积信息、轮廓直线拟合直线与原始影像图像的横轴或纵轴夹角信息,其中的一种或多种。
干扰形状去除处理模块253,用于去除识别的属于非文字区域的轮廓,以生成所述去除干扰形状的二值化图像。
在实际操作中,如图7所示,上述装置还包括:识别结果判断单元27和更新单元28,其中:
识别结果判断单元27,用于根据预定规则对文字识别结果进行有效性判断。该文字识别识别包括:多个单词。当识别的多个单词中的有效单词数量与总单词数量的比值大于预定阈值时,识别结果判断单元27判断所述文字识别结果有效。
更新单元28,用于响应于所述文字识别结果有效,根据所述文字识别结果更新所述数据字典,以及根据所述去除背景图像和所述二值化分割阈值更新所述图像分类模型,从而提升二值化的准确性。
上述各单元、各模块的具体执行过程,可以参见上述方法实施例中的描述,此处不再赘述。
在实际操作中,上述各单元、各模块可以组合设置、也可以单一设置,本发明不限于此。
为了更好地理解本发明实施例,以下结合图8所示的系统来详细描述。
图8示出了基于统计学、图像形态学和深度学习的自适应图像预处理系统,如图8所示,该系统包括:影像背景去除装置1、影像自适应二值化装置2、影像干扰形状去除装置3、影像文字识别装置4。影像背景去除装置1与影像自适应二值化装置2相连;影像自适应二值化装置2与影像干扰形状去除装置3相连;影像干扰形状去除装置3与影像文字识别装置4相连;影像文字识别装置4与影像自适应二值化装置2相连。
优选地,影像背景去除装置1具有上述背景去除处理单元22的功能,影像自适应二值化装置2具有上述二值化处理单元23的功能,影像干扰形状去除装置3具有上述膨胀处理单元24和干扰形状去除处理单元25的功能,影像文字识别装置4具有上述文字识别单元26的功能。
以下结合附图分别详细描述各装置。
(1)影像背景去除装置1
影像背景去除装置1,主要用于对原始影像进行灰度处理使其转化为灰度图,再对灰度图进行自适应的直方图均衡化取得最佳的对比度,最后由暗及亮考察灰度图中每种亮度点在影像中的分布情况,对于在整个影像中分布非常平均的亮度可归属于背景,将这些亮度点置为最高亮度(即,白色)实现对影像背景的去除。再应用平滑去噪的方式去除图像中较小的孤立的噪点。
图9是该影像背景去除装置1的详细结构框图,如图9所示,该影像背景去除装置1包括:图像灰度化单元11、直方图均衡化单元12、背景点去除单元13和图像平滑去噪单元14,其中:
图像灰度化单元11:用于将原始影像转化为灰度图,为提高精度,采用图像灰度化的加权平均法,应用如下公式(1),其中,Gray表示灰度值,R、G、B分别表示彩色影像中的红色、绿色和蓝色的三分量:
Gray=0.114B+0.587G+0.299R (1)
在实际操作中,上述公式是根据心理学推导而成,具有较高的精度。但是,由于浮点运算较慢,在大量图像数据处理时,可采用精度稍低但运算速度较高的变体算法,如整数或位移算法来实现。
直方图均衡化单元12:采用自适应的直方图均衡化方式,先将整幅图像分成很多小块,然后对每一个小块分别进行直方图均衡化,最后,为了去除每一个小块之间由于算法造成的边界,使用双线性差值,对小块进行缝合生成完整的图像。
直方图均衡化可以应用如下公式(2)或(3),其中,r为原图中的像素值(灰度级),T(r)为均衡化后对应的像素值(灰度级)。图像的灰度级为[0,L],一般为[0,255];p(t)表示灰度级t在图像中出现的概率。
在数值连续情况下,直方图均衡化应用如下公式(2):
Figure BDA0002447742860000081
在离散情况情况下,直方图均衡化应用如下公式(3),其中n是图像的像素总数,ni是图像中第i个灰度级的像素总数:
Figure BDA0002447742860000082
背景点去除单元13:将上述直方图均衡化单元12输出的直方图均衡化后的图像,作为该单元的输入图像。对输入的图像由暗及亮获取每种亮度点在图像中的坐标(x,y)数据,同种亮度的点组成一类数据集。使用K-S检验等方法检验同类亮度数据集是否足够近似服从均匀分布,对于足够近似服从均匀分布的亮度,在原图像中将这类亮度的点置为最高亮度。重复上述过程,直到考察完所有亮度的点,这样可以得到去除背景的图像。
图像平滑去噪单元14:对背景点去除单元13输出的图像,应用高斯模糊或双边过滤等方法,去除图像中的高频成分,如噪音等,得到平滑后的图像。
(2)影像自适应二值化装置2
影像自适应二值化装置2:使用标记好的数据训练一个图像分类模型,模型输出可应用于该图像的二值化分割阈值,在应用该阈值得到的二值化图像中能够尽最大可能保留原始影像的文字信息,同时去除其他干扰信息。
图10是影像自适应二值化装置2的结构框图,如图10所示,影像自适应二值化装置2包括:阈值模型生成单元21和图像最佳二值化单元22,其中:
阈值模型生成单元21:用于收集足够多的专业领域的已标注的图像,标注数据的标签可以是一个数值。一个图像对应一个数值,可形成类似如下的数据结构:
Figure BDA0002447742860000091
其中,image字段是字符串类型,表示图片路径;threshold是数字类型,表示适用于该图像的最佳阈值,取值范围是图像的灰度级,一般为是0到255。
在初始时,按照如下步骤获取图像的最佳二值化分割阈值:
步骤1、随机选取一个数值,应用该数值对图像进行二值化处理;
步骤2、如果二值化后的图像中文字较清晰但含有较多噪点,则阈值可能取值过低,应适当提高阈值;如果二值化后的图像中文字较不清晰,则阈值可能取值过高,应适当降低阈值;
步骤3,更新阈值再次对原始图像二值化,并依据上述规则对阈值进行再调整。重复上述步骤直到得到满意的结果,对应的阈值即可作为该图像的最佳二值化分割阈值。
所述数值应满足这样的特征:对应的被标注的图像在应用该数值作为阈值进行二值化后,得到的二值化图像中能够尽最大可能保留文字信息,同时去除其他干扰信息。
参见图11(a)和图11(b),其中,图11(a)是原始图像,图11(b)是二值化后的图像。
如图11(a)所示,原始图像是灰度图像,灰度图像没有颜色只有亮度,一般亮度范围是0到255,其中0为黑点,255为白点,中间数值即为灰点。图像二值化是指选取一个数值,例如,175,当像素的亮度大于等于该数值时重置为255,即变为纯白点;当像素的亮度小于该数值时重置为0,即变为纯黑点。最终生成的二值化图像中仅有纯白点和纯黑点,如图11(b)所示。
在实际操作中,根据标记好的数据可以训练一个图像分类模型,可以选用VGG(Visual Geometry Group Network,神经网络)、TesNet等深度学习图像分类技术。阈值模型生成单元21在系统初始时执行一次,在系统运行期间适时执行。
图像最佳二值化单元22:将待处理图像作为所述阈值模型生成单元21生成的图像分类模型的输入,得到适用于该图像的最佳二值化分割阈值。应用该阈值对待处理图像进行二值化,得到二值化图像。所述二值化是当图像中的像素值高于阈值时,给这个像素赋予一个白色值,否则赋予相反的黑色值。
(3)影像干扰形状去除装置3
影像干扰形状去除装置3:对输入的二值化图像进行适度膨胀,得到膨胀后的图像,膨胀的目标是使归属同一段落的文字能够尽量连接在一起形成文字区域,同时尽量使非文字区域孤立,使其不与文字区域连接在一起。查找膨胀后图像中的轮廓,计算轮廓的面积、周长、边界矩形和直线拟合等轮廓特征,根据这些特征判断非文字的轮廓区域,并在二值化图像中将这些非文字的形状去除,得到去除干扰形状后的二值化图像。
图12是影像干扰形状去除装置3的结构框图,如图12所示,所述影像干扰形状去除装置3包括:图像膨胀单元31、形状轮廓识别单元32和非文字形状去除单元33,其中:
图像膨胀单元31:将输入的二值化图像,依像素进行反转,即原白点置为黑点,原黑点置为白点,生成反转后的二值化图像。对反转后的图像应用膨胀算法在给定的水平下进行适度膨胀,使归属同一段落的文字能够尽量连接在一起,得到膨胀后的图像。这里的膨胀算法可以是现有算法,本发明不限于此。
形状轮廓识别单元32:对所述图像膨胀单元31输出的膨胀后的图像应用轮廓识别算法,查找所有的轮廓,查找轮廓就是在黑色背景中找白色物体。计算每个轮廓的面积、周长、旋转的边界矩形和直线拟合等。
非文字形状去除单元33:逐个考察所述形状轮廓识别单元32输出的每个轮廓,对于非文字区域形状特征的轮廓,在输入到所述图像膨胀单元31的原二值化图像中将这类轮廓所包含的形状去除,即将轮廓所包含区域的像素都置为白色点。满足如下任意一个条件的轮廓,可视为非文字区域形状特征的轮廓。
条件1:给定一个预设数值,若轮廓的面积小于这个数值,则可视为非文字区域形状特征的轮廓。一般来说,8号字体的大小为6px,在单证系统中字体的大小一般不会小于6px,如果一个轮廓较小,例如小于4px,则可视为是非文字轮廓。这一判断一般用于较小的噪点。
条件2:给定一个预设数值,若轮廓边界矩形的宽长比小于这个数值,则可视为非文字区域形状特征的轮廓。字体的长宽比一般不小于1:5,若一个轮廓的长宽比小于1:10,即可视为干扰线等非文字区域。
条件3:给定一个预设数值,若轮廓面积与边界矩形面积的比值小于这个数值,则可视为非文字区域形状特征的轮廓。如图13所示的正方形框是轮廓的边界矩形,白色区域是轮廓。一般来说,文字区域的轮廓面积占其边界矩形的面积较大,一般为80%以上,若这个比值小于20%则可认为是非文字区域。该方式主要用于去除表格线等本身轮廓体积不大,但是产生的边界矩形很大,甚至能够横跨整个影像的这样特征的轮廓。
条件4:给定一个预设数值,若轮廓直线拟合的直线与原影像图像横轴或纵轴的夹角小于这个数值,则可视为非文字区域形状特征的轮廓。如图14所示的直线即是轮廓的拟合直线,对于文字区域拟合的直线,一般近乎平行于原影像图像的横轴或垂直于纵轴,若一个轮廓的直线拟合与图像横轴或纵轴的夹角在40°和50°之间,则可认为是非轮廓区域。
上述条件中的各预设数值,可以依据实际情况而定,只需能够满足识别非文字区域形状特征轮廓的需求即可,本发明对此不作限定。
(4)影像文字识别装置4
影像文字识别装置4:对输入的二值化图像应用OCR(Optical CharacterRecognition,光学字符识别)技术识别其中的文字。可以先构建包含通用的和影像所属专业领域的自定义数据字典,包含在该字典中的单词称为有效单词。当评价识别结果中的有效单词占识别到的总单词的比值高于预设阈值时,表示识别有效,此时可将相关图像和二值化阈值作为潜在训练数据,提升图像二值化效果。
图15是该影像文字识别装置4的结构框图,如图15所示,该影像文字识别装置4包括:专业字典构建单元41、图像文字识别单元42和识别结果评价单元43,其中:
专业字典构建单元41:构建包含通用单词和影像所属领域专业单词的数据字典。所述专业字典构建单元41不是每次都执行,在系统初始时执行一次,在系统运行期间适时执行,更新通用单词或新发现的专业领域单词。
图像文字识别单元42:利用Tesseract等OCR技术对二值化图像进行OCR识别,识别出文本。
识别结果评价单元43:计算图像文字识别单元42识别到的文本的单词总数。计算识别文本中的单词在专业字典里的单词个数,称为有效单词数。若有效单词数占识别到的总单词数的比值高于预设值,则认为本次影像识别处理有效。
图16是基于图8所示系统的图像识别流程图,该流程包括:
步骤S601:应用系统初始化;
步骤S602:执行影像自适应二值化装置2的阈值模型生成单元,生成初始的最佳阈值图像分类模型;
步骤S603:执行文字识别装置4的专业字典构建单元,生成初始的专业字典;
步骤S604:应用系统开始启动;
步骤S605:获取待处理的原始影像;
步骤S606:将原始影像应用于影像背景去除装置1,得到去除背景后的影像;
步骤S607:将去除背景后的影像应用于影像自适应二值化装置2,得到二值化后的影像和最佳分割阈值;
步骤S608:将二值化后的影像应用于影像干扰形状去除装置3,得到去除干扰形状后的影像;
步骤S609:将去除干扰形状后的影像应用于影像文字识别装置4,得到识别到的文字结果,和该图像处理是否有效的评价结果,当有效时,执行步骤S611,否则执行步骤S612;
步骤S610:将识别到的文字结果输出;
步骤S611:对于步骤S609评价处理有效的图像,将步骤S606输出的图像和步骤S607输出的分割阈值作为新的标注数据,输入到影像自适应二值化装置2,积累到足够的新的标注数据后,重新执行模型训练,以更新模型;
步骤S612:对于步骤S609评价处理非有效的图像,比较原始影像与识别结果,若发现新的专业领域单词,则将该单词输入到影像文字识别装置4,以扩充专业字典。
图17是根据本发明实施例的电子设备的示意图。图17所示的电子设备为通用数据处理装置,其包括通用的计算机硬件结构,其至少包括处理器1701和存储器1702。处理器1701和存储器1702通过总线1703连接。存储器1702适于存储处理器1701可执行的一条或多条指令或程序。该一条或多条指令或程序被处理器1701执行以实现上述影像文字识别方法中的步骤。
上述处理器1701可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器1701通过执行存储器1702所存储的命令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其他装置的控制。总线1703将上述多个组件连接在一起,同时将上述组件连接到显示控制器1704和显示装置以及输入/输出(I/O)装置1705。输入/输出(I/O)装置1705可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出(I/O)装置1705通过输入/输出(I/O)控制器1706与系统相连。
其中,存储器1702可以存储软件组件,例如操作系统、通信模块、交互模块以及应用程序。以上所述的每个模块和应用程序都对应于完成一个或多个功能和在发明实施例中描述的方法的一组可执行程序指令。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现上述影像文字识别方法的步骤。
综上所述,本发明实施例提出了一种自适应的迭代图像预处理方案,可以广泛应用于以OCR为核心的图像预处理任务中,特别适用于待处理影像差别较大、无法使用同一预处理方法处理的场景。通过本发明实施例,对于不同的图像,能够自适应的采用适合的预处理策略,实现对每类图像最佳的预处理,最终提升OCR整体识别的准确率。
以上参照附图描述了本发明的优选实施方式。这些实施方式的许多特征和优点根据该详细的说明书是清楚的,因此权利要求旨在覆盖这些实施方式的落入其真实精神和范围内的所有这些特征和优点。此外,由于本领域的技术人员容易想到很多修改和改变,因此不是要将本发明的实施方式限于所例示和描述的精确结构和操作,而是可以涵盖落入其范围内的所有合适修改和等同物。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (18)

1.一种影像文字识别方法,其特征在于,所述方法包括:
获取原始影像,对所述原始影像进行影像背景去除处理,以生成去除背景图像;
对所述去除背景图像进行二值化处理,以生成二值化图像;
将所述二值化图像进行膨胀处理,并对膨胀处理后的图像进行干扰形状去除处理,以生成去除干扰形状的二值化图像;
根据预先设置的数据字典对所述去除干扰形状的二值化图像进行文字识别,以识别所述原始影像中的文字。
2.根据权利要求1所述的方法,其特征在于,对所述原始影像进行影像背景去除处理,以生成去除背景图像包括:
对所述原始影像进行灰度处理,以生成灰度图像;
对所述灰度图像进行直方图均衡化处理和平滑去噪处理,以生成所述去除背景图像。
3.根据权利要求1所述的方法,其特征在于,对所述去除背景图像进行二值化处理,以生成二值化图像包括:
将所述去除背景图像输入至训练好的图像分类模型,以生成应用于该去除背景图像的二值化分割阈值;
根据所述二值化分割阈值对所述去除背景图像进行二值化处理,以生成二值化图像。
4.根据权利要求3所述的方法,其特征在于,在识别所述原始影像中的文字之后,所述方法还包括:
根据预定规则对文字识别结果进行有效性判断;
响应于所述文字识别结果有效,根据所述文字识别结果更新所述数据字典,以及根据所述去除背景图像和所述二值化分割阈值更新所述图像分类模型。
5.根据权利要求4所述的方法,其特征在于,所述文字识别结果包括:多个单词,通过如下方式判断所述文字识别结果有效:
当识别的多个单词中的有效单词数量与总单词数量的比值大于预定阈值时,判断所述文字识别结果有效。
6.根据权利要求1所述的方法,其特征在于,将所述二值化图像进行膨胀处理包括:
将所述二值化图像进行像素反转处理,以生成像素反转的二值化图像;
根据预定的膨胀算法对所述像素反转的二值化图像进行膨胀处理。
7.根据权利要求1所述的方法,其特征在于,对膨胀处理后的图像进行干扰形状去除处理,以生成去除干扰形状的二值化图像包括:
根据预定的轮廓识别算法对所述膨胀处理后的图像进行轮廓查找操作,以生成多个轮廓;
根据预定的非文字区域识别规则对所述多个轮廓进行识别,以识别属于非文字区域的轮廓;
去除识别的属于非文字区域的轮廓,以生成所述去除干扰形状的二值化图像。
8.根据权利要求7所述的方法,其特征在于,根据预定的非文字区域识别规则对所述多个轮廓的以下至少之一进行识别:
轮廓面积信息、轮廓边界矩形的长宽信息和面积信息、轮廓直线拟合直线与原始影像图像的横轴或纵轴夹角信息。
9.一种影像文字识别装置,其特征在于,所述装置包括:
影像获取单元,用于获取原始影像;
背景去除处理单元,用于对所述原始影像进行影像背景去除处理,以生成去除背景图像;
二值化处理单元,用于对所述去除背景图像进行二值化处理,以生成二值化图像;
膨胀处理单元,用于将所述二值化图像进行膨胀处理;
干扰形状去除处理单元,用于对膨胀处理后的图像进行干扰形状去除处理,以生成去除干扰形状的二值化图像;
文字识别单元,用于根据预先设置的数据字典对所述去除干扰形状的二值化图像进行文字识别,以识别所述原始影像中的文字。
10.根据权利要求9所述的装置,其特征在于,所述背景去除处理单元包括:
灰度处理模块,用于对所述原始影像进行灰度处理,以生成灰度图像;
背景去除处理模块,用于对所述灰度图像进行直方图均衡化处理和平滑去噪处理,以生成所述去除背景图像。
11.根据权利要求9所述的装置,其特征在于,所述二值化处理单元包括:
二值化分割阈值生成模块,用于将所述去除背景图像输入至训练好的图像分类模型,以生成应用于该去除背景图像的二值化分割阈值;
二值化处理模块,用于根据所述二值化分割阈值对所述去除背景图像进行二值化处理,以生成二值化图像。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
识别结果判断单元,用于根据预定规则对文字识别结果进行有效性判断;
更新单元,用于响应于所述文字识别结果有效,根据所述文字识别结果更新所述数据字典,以及根据所述去除背景图像和所述二值化分割阈值更新所述图像分类模型。
13.根据权利要求12所述的装置,其特征在于,所述文字识别结果包括:多个单词,所述识别结果判断单元具体用于:
当识别的多个单词中的有效单词数量与总单词数量的比值大于预定阈值时,判断所述文字识别结果有效。
14.根据权利要求9所述的装置,其特征在于,所述膨胀处理单元包括:
像素反转处理模块,用于将所述二值化图像进行像素反转处理,以生成像素反转的二值化图像;
膨胀处理模块,用于根据预定的膨胀算法对所述像素反转的二值化图像进行膨胀处理。
15.根据权利要求9所述的装置,其特征在于,所述干扰形状去除处理单元包括:
轮廓识别模块,用于根据预定的轮廓识别算法对所述膨胀处理后的图像进行轮廓查找操作,以生成多个轮廓;
非文字区域识别模块,用于根据预定的非文字区域识别规则对所述多个轮廓进行识别,以识别属于非文字区域的轮廓;
干扰形状去除处理模块,用于去除识别的属于非文字区域的轮廓,以生成所述去除干扰形状的二值化图像。
16.根据权利要求15所述的装置,其特征在于,所述非文字区域识别模块根据预定的非文字区域识别规则对所述多个轮廓的以下至少之一进行识别:
轮廓面积信息、轮廓边界矩形的长宽信息和面积信息、轮廓直线拟合直线与原始影像图像的横轴或纵轴夹角信息。
17.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至8中任一项所述方法的步骤。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8中任一项所述方法的步骤。
CN202010283832.4A 2020-04-13 2020-04-13 影像文字识别方法及装置 Pending CN111476243A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010283832.4A CN111476243A (zh) 2020-04-13 2020-04-13 影像文字识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010283832.4A CN111476243A (zh) 2020-04-13 2020-04-13 影像文字识别方法及装置

Publications (1)

Publication Number Publication Date
CN111476243A true CN111476243A (zh) 2020-07-31

Family

ID=71752169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010283832.4A Pending CN111476243A (zh) 2020-04-13 2020-04-13 影像文字识别方法及装置

Country Status (1)

Country Link
CN (1) CN111476243A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298982A (zh) * 2013-07-16 2015-01-21 深圳市腾讯计算机系统有限公司 一种文字识别方法及装置
CN106127751A (zh) * 2016-06-20 2016-11-16 北京小米移动软件有限公司 图像检测方法、装置以及系统
CN106326895A (zh) * 2015-06-16 2017-01-11 富士通株式会社 图像处理装置和图像处理方法
CN106446896A (zh) * 2015-08-04 2017-02-22 阿里巴巴集团控股有限公司 一种字符分割方法、装置及电子设备
CN108073931A (zh) * 2016-11-08 2018-05-25 广州城市职业学院 一种复杂背景图像下去除非文字图形的方法
CN110097046A (zh) * 2019-03-11 2019-08-06 上海肇观电子科技有限公司 一种文字检测方法及装置、设备和计算机可读存储介质
WO2019174130A1 (zh) * 2018-03-14 2019-09-19 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298982A (zh) * 2013-07-16 2015-01-21 深圳市腾讯计算机系统有限公司 一种文字识别方法及装置
CN106326895A (zh) * 2015-06-16 2017-01-11 富士通株式会社 图像处理装置和图像处理方法
CN106446896A (zh) * 2015-08-04 2017-02-22 阿里巴巴集团控股有限公司 一种字符分割方法、装置及电子设备
CN106127751A (zh) * 2016-06-20 2016-11-16 北京小米移动软件有限公司 图像检测方法、装置以及系统
CN108073931A (zh) * 2016-11-08 2018-05-25 广州城市职业学院 一种复杂背景图像下去除非文字图形的方法
WO2019174130A1 (zh) * 2018-03-14 2019-09-19 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
CN110097046A (zh) * 2019-03-11 2019-08-06 上海肇观电子科技有限公司 一种文字检测方法及装置、设备和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN107609549B (zh) 一种自然场景下证件图像的文本检测方法
US8750619B2 (en) Character recognition
CN102782706B (zh) 经历光学字符识别的文本图像的文本增强
US9251614B1 (en) Background removal for document images
CN110866529A (zh) 字符识别方法、装置、电子设备及存储介质
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN110070548B (zh) 一种深度学习训练样本优化方法
CN113688838B (zh) 红色笔迹提取方法、系统、可读存储介质及计算机设备
CN111507337A (zh) 基于混合神经网络的车牌识别方法
CN113159045A (zh) 一种结合图像预处理与卷积神经网络的验证码识别方法
CN109741273A (zh) 一种手机拍照低质图像的自动处理与评分方法
Natarajan et al. Enhancement of ancient manuscript images by log based binarization technique
Liu et al. An object attribute thresholding algorithm for document image binarization
CN112200789B (zh) 一种图像识别的方法及装置、电子设备和存储介质
CN108205678B (zh) 一种含有亮斑干扰的铭牌文字识别处理方法
Shi et al. Image enhancement for degraded binary document images
US10460219B2 (en) Generating an object map from a plurality of binary images
Nomura et al. A new method for degraded color image binarization based on adaptive lightning on grayscale versions
EP0632404B1 (en) Pattern recognition by generating and using zonal features and anti-features
CN116030472A (zh) 文字坐标确定方法及装置
CN113421256B (zh) 一种点阵文本行字符投影分割方法及装置
CN111476243A (zh) 影像文字识别方法及装置
Boiangiu et al. Methods of bitonal image conversion for modern and classic documents
CN110298350B (zh) 一种高效的印刷体维吾尔文单词分割算法
Soumya et al. Enhancement and segmentation of historical records

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination