CN111783780B - 图像处理方法、装置及计算机可读存储介质 - Google Patents

图像处理方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN111783780B
CN111783780B CN201911125775.0A CN201911125775A CN111783780B CN 111783780 B CN111783780 B CN 111783780B CN 201911125775 A CN201911125775 A CN 201911125775A CN 111783780 B CN111783780 B CN 111783780B
Authority
CN
China
Prior art keywords
row
image
pixel coordinates
pixel
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911125775.0A
Other languages
English (en)
Other versions
CN111783780A (zh
Inventor
谢树雷
赖荣凤
梅涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201911125775.0A priority Critical patent/CN111783780B/zh
Publication of CN111783780A publication Critical patent/CN111783780A/zh
Application granted granted Critical
Publication of CN111783780B publication Critical patent/CN111783780B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了一种图像处理方法、装置及计算机可读存储介质,涉及计算机视觉技术领域。其中的图像处理方法包括:采用预先训练的神经网络对包含单行文字的图像进行处理,得到图像的行特征向量;行特征向量表示图像中各个行像素坐标为图像中单个文字的起始行像素坐标的预测概率以及终止行像素坐标的预测概率;利用行特征向量,确定图像中各个文字的起始行像素坐标以及终止行像素坐标;利用图像中各个文字的起始行像素坐标以及终止行像素坐标,对图像中的各个文字进行分割。本公开能够更加准确的将图像中的文字分割为单个文字,有助于提升文字识别的准确性。

Description

图像处理方法、装置及计算机可读存储介质
技术领域
本公开涉及计算机视觉技术领域,特别涉及一种图像处理方法、装置及计算机可读存储介质。
背景技术
光学符号识别技术是计算机视觉领域的研究分支之一。光学符号识别技术利用计算机视觉技术,能够提取图像中的文字并识别为人和计算机可以理解的文本。
在对单个文字进行识别之前,需要检测图像中的文本区域,并对文本区域中的文字分割为单个文字,从而进一步对单个文字进行分类识别。
发明内容
本公开解决的一个技术问题是,如何更加准确的将图像中的文字分割为单个文字。
根据本公开实施例的一个方面,提供了一种图像处理方法,包括:采用预先训练的神经网络对包含单行文字的图像进行处理,得到图像的行特征向量;行特征向量表示图像中各个行像素坐标为图像中单个文字的起始行像素坐标的预测概率以及终止行像素坐标的预测概率;利用行特征向量,确定图像中各个文字的起始行像素坐标以及终止行像素坐标;利用图像中各个文字的起始行像素坐标以及终止行像素坐标,对图像中的各个文字进行分割。
在一些实施例中,行特征向量包含双通道,行特征向量的第一通道为图像中各个行像素坐标为图像中单个文字的起始行像素坐标的预测概率,行特征向量的第二通道为图像中各个行像素坐标为图像中单个文字的终止行像素坐标的预测概率。
在一些实施例中,该图像处理方法,还包括:对包含单行文字的训练图像进行标注,得到训练图像的训练标签;训练标签包含双通道,训练标签的第一通道为训练图像中各个行像素坐标为训练图像中单个文字的起始行像素坐标的标注概率,训练标签的第二通道为训练图像中各个行像素坐标为训练图像中单个文字的终止行像素坐标的标注概率;利用训练图像及训练标签对神经网络进行训练,使得神经网络能够对图像进行处理,得到行特征向量。
在一些实施例中,对包含单行文字的训练图像进行标注,得到训练图像的训练标签包括:标注训练图像中各个文字的起始行像素坐标以及终止行像素坐标;利用训练图像中各个文字的起始行像素坐标、终止行像素坐标以及像素宽度,确定训练图像中各个行像素坐标为训练图像中单个文字的起始行像素坐标的标注概率,以形成训练标签的第一通道;利用训练图像中各个文字的起始行像素坐标、终止行像素坐标以及像素宽度,确定训练图像中各个行像素坐标为训练图像中单个文字的终止行像素坐标的标注概率,以形成训练标签的第二通道。
在一些实施例中,采用如下方式确定训练图像中各个行像素坐标为训练图像中单个文字的起始行像素坐标的标注概率:
其中,i为训练图像中各个文字的序号,C(i)表示训练图像中第i个文字的某一行像素坐标,S(i)表示训练图像中第i个文字的起始行像素坐标,W(i)表示训练图像中第i个文字的像素宽度,Pc(i)表示训练图像中行像素坐标C(i)为训练图像中第i个文字的起始行像素坐标的标注概率。
在一些实施例中,若某一行像素坐标不属于任何单个文字,则该行像素坐标为训练图像中单个文字的起始行像素坐标的标注概率0。
在一些实施例中,采用如下方式确定训练图像中各个行像素坐标为训练图像中单个文字的终止行像素坐标的标注概率:
其中,i为训练图像中各个文字的序号,C(i)表示训练图像中第i个文字的某一行像素坐标,E(i)表示训练图像中第i个文字的终止行像素坐标,W(i)表示训练图像中第i个文字的像素宽度,QC(i)表示训练图像中行像素坐标C(i)为训练图像中第i个文字的终止行像素坐标的标注概率。
在一些实施例中,若某一行像素坐标不属于任何单个文字,则该行像素坐标为训练图像中单个文字的终止行像素坐标的标注概率0。
在一些实施例中,神经网络包括多个卷积块,每个卷积块包含卷基层和池化层;单个卷基层的输出特征维度与输入特征维度相同;单个池化层的输出特征行维度与输入特征行维度相同,单个池化层的输出特征列维度为输入特征列维度的一半。
在一些实施例中,利用行特征向量,确定图像中各个文字的起始行像素坐标以及终止行像素坐标包括:利用行特征向量,确定起始行像素坐标的预测概率取极大值且极大值大于预设值时的行像素坐标,以形成起始行像素坐标集合;利用行特征向量,确定终止行像素坐标的预测概率取极大值且极大值大于预设值时的行像素坐标,以形成终止行像素坐标集合;按照预设顺序对起始行像素坐标集合及终止行像素坐标集合中的行像素坐标排序,并根据排序结果进行配对,得到图像中各个文字的起始行像素坐标以及终止行像素坐标。
在一些实施例中,利用图像中各个文字的起始行像素坐标以及终止行像素坐标,对图像中的各个文字进行分割包括:利用图像中各个文字的起始行像素坐标以及终止行像素坐标,生成图像中各个文字的检测框。
根据本公开实施例的另一个方面,提供了一种图像处理装置,包括:图像处理模块,被配置为采用预先训练的神经网络对包含单行文字的图像进行处理,得到图像的行特征向量;行特征向量表示图像中各个行像素坐标为图像中单个文字的起始行像素坐标的预测概率以及终止行像素坐标的预测概率;坐标确定模块,被配置为利用行特征向量,确定图像中各个文字的起始行像素坐标以及终止行像素坐标;文字分割模块,被配置为利用图像中各个文字的起始行像素坐标以及终止行像素坐标,对图像中的各个文字进行分割。
在一些实施例中,行特征向量包含双通道,行特征向量的第一通道为图像中各个行像素坐标为图像中单个文字的起始行像素坐标的预测概率,行特征向量的第二通道为图像中各个行像素坐标为图像中单个文字的终止行像素坐标的预测概率。
在一些实施例中,该图像处理装置还包括:图像标注模块,被配置为对包含单行文字的训练图像进行标注,得到训练图像的训练标签;训练标签包含双通道,训练标签的第一通道为训练图像中各个行像素坐标为训练图像中单个文字的起始行像素坐标的标注概率,训练标签的第二通道为训练图像中各个行像素坐标为训练图像中单个文字的终止行像素坐标的标注概率;网络训练模块,被配置为利用训练图像及训练标签对神经网络进行训练,使得神经网络能够对图像进行处理,得到行特征向量。
在一些实施例中,图像标注模块被配置为:标注训练图像中各个文字的起始行像素坐标以及终止行像素坐标;利用训练图像中各个文字的起始行像素坐标、终止行像素坐标以及像素宽度,确定训练图像中各个行像素坐标为训练图像中单个文字的起始行像素坐标的标注概率,以形成训练标签的第一通道;利用训练图像中各个文字的起始行像素坐标、终止行像素坐标以及像素宽度,确定训练图像中各个行像素坐标为训练图像中单个文字的终止行像素坐标的标注概率,以形成训练标签的第二通道。
在一些实施例中,图像标注模块被配置为采用如下方式确定训练图像中各个行像素坐标为训练图像中单个文字的起始行像素坐标的标注概率:
其中,i为训练图像中各个文字的序号,C(i)表示训练图像中第i个文字的某一行像素坐标,S(i)表示训练图像中第i个文字的起始行像素坐标,W(i)表示训练图像中第i个文字的像素宽度,Pc(i)表示训练图像中行像素坐标C(i)为训练图像中第i个文字的起始行像素坐标的标注概率。
在一些实施例中,若某一行像素坐标不属于任何单个文字,则该行像素坐标为训练图像中单个文字的起始行像素坐标的标注概率0。
在一些实施例中,图像标注模块被配置为采用如下方式确定训练图像中各个行像素坐标为训练图像中单个文字的终止行像素坐标的标注概率:
其中,i为训练图像中各个文字的序号,C(i)表示训练图像中第i个文字的某一行像素坐标,E(i)表示训练图像中第i个文字的终止行像素坐标,W(i)表示训练图像中第i个文字的像素宽度,QC(i)表示训练图像中行像素坐标C(i)为训练图像中第i个文字的终止行像素坐标的标注概率。
在一些实施例中,若某一行像素坐标不属于任何单个文字,则该行像素坐标为训练图像中单个文字的终止行像素坐标的标注概率0。
在一些实施例中,神经网络包括多个卷积块,每个卷积块包含卷基层和池化层;单个卷基层的输出特征维度与输入特征维度相同;单个池化层的输出特征行维度与输入特征行维度相同,单个池化层的输出特征列维度为输入特征列维度的一半。
在一些实施例中,坐标确定模块被配置为:利用行特征向量,确定图像中各个文字的起始行像素坐标以及终止行像素坐标包括:利用行特征向量,确定起始行像素坐标的预测概率取极大值且极大值大于预设值时的行像素坐标,以形成起始行像素坐标集合;利用行特征向量,确定终止行像素坐标的预测概率取极大值且极大值大于预设值时的行像素坐标,以形成终止行像素坐标集合;按照预设顺序对起始行像素坐标集合及终止行像素坐标集合中的行像素坐标排序,并根据排序结果进行配对,得到图像中各个文字的起始行像素坐标以及终止行像素坐标。
在一些实施例中,文字分割模块被配置为:利用图像中各个文字的起始行像素坐标以及终止行像素坐标,生成图像中各个文字的检测框。
根据本公开实施例的又一个方面,提供了一种图像处理装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器中的指令,执行前述的图像处理方法。
根据本公开实施例的再一个方面,提供了一种计算机可读存储介质,其中,计算机可读存储介质存储有计算机指令,指令被处理器执行时实现前述的图像处理方法。
本公开能够更加准确的将图像中的文字分割为单个文字,有助于提升文字识别的准确性。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了本公开一些实施例的图像处理方法的流程示意图。
图2示出了训练图像的示意图。
图3示出了训练图像中各个文字的左上角行像素坐标以及右下角行像素坐标。
图4示出了训练图像中各个行像素坐标为训练图像中单个文字的起始行像素坐标的标注概率波形图。
图5示出了训练图像中各个行像素坐标为训练图像中单个文字的终止行像素坐标的标注概率波形图。
图6示出了神经网络的结构示意图。
图7示出了本公开另一些实施例的图像处理方法的流程示意图。
图8示出了图像中各个文字的检测框的示意图。
图9示出了本公开一些实施例的图像处理装置的结构示意图。
图10示出了本公开另一些实施例的图像处理装置的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。
发明人研究发现,传统的机器学习方法采用投影的方式对图像中的文字进行分割。即,将检测到的文本区域在文字的行方向(横轴方向)上做像素投影。由于文字之间的空白区域深色像素较少,文字区域深色像素多,因此可以根据投影后的像素值进行文字区域和非文字区域的分割。然而,该方法存在诸多缺点。第一,图像在暗光、反光、模糊等不利光线条件下,投影后的像素值会收到影响,从而造成文字分割错误。第二,对于形如数字“1”、字母“i”、汉字“丁”等文字,由于占用像素值较少,容易被当作空白区域而分割。第三,对于形如“江”、“村”等左右结构的汉字,由于左右结构之间存在空白像素,属于单个文字的部分容易被分割成不同的文字。
发明人进一步研究发现,传统的基于深度学习的文字检测方法将单个文字作为物体,使用YOLO、SSD、Faster-RCNN等物体检测器进行单个文字的检测或者使用DeepLab、Mask-Rcnn等实例分割方法对单个文字进行实例分割。然而,这些检测方法也存在诸多问题。一方面,这些检测方法中的NMS机制和分割中边缘像素分类结果的不平滑特性会造成文字边缘不精确,文字边缘容易被裁切造成检测后的文字不完整。另一方面,这些检测方法在文字间距较小的情况下难以适用。
针对以上问题,发明人提出了一种图像处理方法,能够更加准确的将图像中的文字分割为单个文字。
首先结合图1描述本公开图像处理方法的一些实施例,以介绍本公开所使用神经网络的训练过程。
图1示出了本公开一些实施例的图像处理方法的流程示意图。如图1所示,本实施例包括步骤S101~步骤S102。
在步骤S101中,对包含单行文字的训练图像进行标注,得到训练图像的训练标签。
其中,训练标签包含双通道,训练标签的行维度与训练图像的行维度相同,训练标签的列维度为1。本领域技术人员应理解,训练图像中的各个像素在训练图像的图像坐标系中的行坐标,可以称为行像素坐标。训练标签的第一通道为训练图像中各个行像素坐标为训练图像中单个文字的起始行像素坐标的标注概率,训练标签的第二通道为训练图像中各个行像素坐标为训练图像中单个文字的终止行像素坐标的标注概率。
图2示出了训练图像的示意图。标注时,首先可以标注训练图像中各个文字的起始行像素坐标以及终止行像素坐标。图3示出了训练图像中各个文字的左上角行像素坐标以及右下角行像素坐标。根据图3可以得到图2中训练图像中9个文字的起始行像素坐标及终止行像素坐标分别为(23,73)、(75,125)、(124,174)、(173,223)、(225,275)、(275,325)、(324,374)、(375,425)、(424,
474)。然后,利用训练图像中各个文字的起始行像素坐标、终止行像素坐标以及像素宽度,确定训练图像中各个行像素坐标为训练图像中单个文字的起始行像素坐标的标注概率,以形成训练标签的第一通道;利用训练图像中各个文字的起始行像素坐标、终止行像素坐标以及像素宽度,确定训练图像中各个行像素坐标为训练图像中单个文字的终止行像素坐标的标注概率,以形成训练标签的第二通道。
例如,可以采用如下方式确定训练图像中各个行像素坐标为训练图像中单个文字的起始行像素坐标的标注概率:
其中,i为训练图像中各个文字的序号,C(i)表示训练图像中第i个文字的某一行像素坐标,S(i)表示训练图像中第i个文字的起始行像素坐标,W(i)表示训练图像中第i个文字的像素宽度,Pc(i)表示训练图像中行像素坐标C(i)为训练图像中第i个文字的起始行像素坐标的标注概率。若某一行像素坐标不属于任何单个文字(处于非文字区域),则该行像素坐标为训练图像中单个文字的起始行像素坐标的标注概率0。为了提高非文字区域与文字区域之间的区分度,可以设置Pc(i)的最小值为0.1。图4示出了训练图像中各个行像素坐标为训练图像中单个文字的起始行像素坐标的标注概率波形图。
同理,可以采用如下方式确定训练图像中各个行像素坐标为训练图像中单个文字的终止行像素坐标的标注概率:
其中,i为训练图像中各个文字的序号,C(i)表示训练图像中第i个文字的某一行像素坐标,E(i)表示训练图像中第i个文字的终止行像素坐标,W(i)表示训练图像中第i个文字的像素宽度,QC(i)表示训练图像中行像素坐标C(i)为训练图像中第i个文字的终止行像素坐标的标注概率。若某一行像素坐标不属于任何单个文字(处于非文字区域),则该行像素坐标为训练图像中单个文字的终止行像素坐标的标注概率0。为了提高非文字区域与文字区域之间的区分度,可以设置QC(i)的最小值为0.1。图5示出了训练图像中各个行像素坐标为训练图像中单个文字的终止行像素坐标的标注概率波形图。
在步骤S102中,利用训练图像及训练标签对神经网络进行训练,使得神经网络能够对图像进行处理,得到行特征向量。
其中,行特征向量表示图像中各个行像素坐标为图像中单个文字的起始行像素坐标的预测概率以及终止行像素坐标的预测概率。行特征向量包含双通道,行特征向量的第一通道为图像中各个行像素坐标为图像中单个文字的起始行像素坐标的预测概率,行特征向量的第二通道为图像中各个行像素坐标为图像中单个文字的终止行像素坐标的预测概率。
图6示出了神经网络的结构示意图。如图6所示,神经网络包括多个卷积块(例如可以包括4个卷积块)和一个输出层,每个卷积块包含卷基层和池化层(例如两个卷基层和一个池化层)。单个卷基层的输出特征维度与输入特征维度相同,不改变特征行维度和特征列维度的尺寸。单个池化层的输出特征行维度与输入特征行维度相同,不改变特征行维度的尺寸;单个池化层的输出特征列维度为输入特征列维度的一半,即每次池化操作特征高度减小一半。本领域技术人员应理解,本公开采用的神经网络要求最终输出的行特征向量与输入的原始图像具有相同的特征行维度(宽度),因此该神经网络不限于图6或上文中的具体描述。
下面结合图7描述本公开图像处理方法的另一些实施例,以介绍利用训练好的神经网络进行图像处理的过程。
图7示出了本公开另一些实施例的图像处理方法的流程示意图。如图7所示,本实施例包括步骤S701~步骤S703。
在步骤S701中,采用预先训练的神经网络对包含单行文字的图像进行处理,得到图像的行特征向量。
在步骤S702中,利用行特征向量,确定图像中各个文字的起始行像素坐标以及终止行像素坐标。
具体来说,首先利用行特征向量,确定起始行像素坐标的预测概率取极大值且极大值大于预设值(例如0.75)时的行像素坐标,以形成起始行像素坐标集合。然后利用行特征向量,确定终止行像素坐标的预测概率取极大值且极大值大于预设值(例如0.75)时的行像素坐标,以形成终止行像素坐标集合。最后按照预设顺序对起始行像素坐标集合及终止行像素坐标集合中的行像素坐标排序(例如数值从小到大排序,或数值从大到小排序),并根据排序结果进行一一配对,即可得到图像中各个文字的起始行像素坐标以及终止行像素坐标。
在步骤S703中,利用图像中各个文字的起始行像素坐标以及终止行像素坐标,对图像中的各个文字进行分割。
由于配对后的起始行像素坐标以及终止行像素坐标之间的区域为文字区域,因此可以利用图像中各个文字的起始行像素坐标以及终止行像素坐标,生成图像中各个文字的检测框。图8示出了图像中各个文字的检测框的示意图。本公开实施例中以行像素坐标举例进行了详细说明,本领域技术人员应理解,可以采用相同的原理来确定起始列像素坐标以及终止列像素坐标。
本公开能够更加准确、完整的将图像中的文字分割为单个文字,在复杂光线、复杂成像场景下能够体现出较高的鲁棒性,提高了窄小文字、左右结构文字以及字间距过短等情况下的文字分割准确率,有助于大幅提升文字识别的准确性。
下面结合图9描述本公开图像处理装置的一些实施例。
图9示出了本公开一些实施例的图像处理装置的结构示意图。如图9所示,本实施例中的图像处理装置90包括:
图像处理模块901,被配置为采用预先训练的神经网络对包含单行文字的图像进行处理,得到图像的行特征向量;行特征向量表示图像中各个行像素坐标为图像中单个文字的起始行像素坐标的预测概率以及终止行像素坐标的预测概率;坐标确定模块902,被配置为利用行特征向量,确定图像中各个文字的起始行像素坐标以及终止行像素坐标;文字分割模块903,被配置为利用图像中各个文字的起始行像素坐标以及终止行像素坐标,对图像中的各个文字进行分割。
在一些实施例中,行特征向量包含双通道,行特征向量的第一通道为图像中各个行像素坐标为图像中单个文字的起始行像素坐标的预测概率,行特征向量的第二通道为图像中各个行像素坐标为图像中单个文字的终止行像素坐标的预测概率。
在一些实施例中,该图像处理装置90还包括:图像标注模块9001,被配置为对包含单行文字的训练图像进行标注,得到训练图像的训练标签;训练标签包含双通道,训练标签的第一通道为训练图像中各个行像素坐标为训练图像中单个文字的起始行像素坐标的标注概率,训练标签的第二通道为训练图像中各个行像素坐标为训练图像中单个文字的终止行像素坐标的标注概率;网络训练模块9002,被配置为利用训练图像及训练标签对神经网络进行训练,使得神经网络能够对图像进行处理,得到行特征向量。
在一些实施例中,图像标注模块9001被配置为:标注训练图像中各个文字的起始行像素坐标以及终止行像素坐标;利用训练图像中各个文字的起始行像素坐标、终止行像素坐标以及像素宽度,确定训练图像中各个行像素坐标为训练图像中单个文字的起始行像素坐标的标注概率,以形成训练标签的第一通道;利用训练图像中各个文字的起始行像素坐标、终止行像素坐标以及像素宽度,确定训练图像中各个行像素坐标为训练图像中单个文字的终止行像素坐标的标注概率,以形成训练标签的第二通道。
在一些实施例中,图像标注模块9001被配置为采用如下方式确定训练图像中各个行像素坐标为训练图像中单个文字的起始行像素坐标的标注概率:
其中,i为训练图像中各个文字的序号,C(i)表示训练图像中第i个文字的某一行像素坐标,S(i)表示训练图像中第i个文字的起始行像素坐标,W(i)表示训练图像中第i个文字的像素宽度,Pc(i)表示训练图像中行像素坐标C(i)为训练图像中第i个文字的起始行像素坐标的标注概率。
在一些实施例中,若某一行像素坐标不属于任何单个文字,则该行像素坐标为训练图像中单个文字的起始行像素坐标的标注概率0。
在一些实施例中,图像标注模块9001被配置为采用如下方式确定训练图像中各个行像素坐标为训练图像中单个文字的终止行像素坐标的标注概率:
其中,i为训练图像中各个文字的序号,C(i)表示训练图像中第i个文字的某一行像素坐标,E(i)表示训练图像中第i个文字的终止行像素坐标,W(i)表示训练图像中第i个文字的像素宽度,QC(i)表示训练图像中行像素坐标C(i)为训练图像中第i个文字的终止行像素坐标的标注概率。
在一些实施例中,若某一行像素坐标不属于任何单个文字,则该行像素坐标为训练图像中单个文字的终止行像素坐标的标注概率0。
在一些实施例中,神经网络包括多个卷积块,每个卷积块包含卷基层和池化层;单个卷基层的输出特征维度与输入特征维度相同;单个池化层的输出特征行维度与输入特征行维度相同,单个池化层的输出特征列维度为输入特征列维度的一半。
在一些实施例中,坐标确定模块902被配置为:利用行特征向量,确定图像中各个文字的起始行像素坐标以及终止行像素坐标包括:利用行特征向量,确定起始行像素坐标的预测概率取极大值且极大值大于预设值时的行像素坐标,以形成起始行像素坐标集合;利用行特征向量,确定终止行像素坐标的预测概率取极大值且极大值大于预设值时的行像素坐标,以形成终止行像素坐标集合;按照预设顺序对起始行像素坐标集合及终止行像素坐标集合中的行像素坐标排序,并根据排序结果进行配对,得到图像中各个文字的起始行像素坐标以及终止行像素坐标。
在一些实施例中,文字分割模块903被配置为:利用图像中各个文字的起始行像素坐标以及终止行像素坐标,生成图像中各个文字的检测框。
本公开能够更加准确、完整的将图像中的文字分割为单个文字,在复杂光线、复杂成像场景下能够体现出较高的鲁棒性,提高了窄小文字、左右结构文字以及字间距过短等情况下的文字分割准确率,有助于大幅提升文字识别的准确性。
下面结合图10描述本公开图像处理装置的另一些实施例。
图10示出了本公开另一些实施例的图像处理装置的结构示意图。如图10所示,该实施例的图像处理装置100包括:存储器1010以及耦接至该存储器1010的处理器1020,处理器1020被配置为基于存储在存储器1010中的指令,执行前述任意一些实施例中的图像处理方法。
其中,存储器1010例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。
图像处理装置100还可以包括输入输出接口1030、网络接口1040、存储接口1050等。这些接口1030、1040、1050以及存储器1010和处理器1020之间例如可以通过总线1060连接。其中,输入输出接口1030为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口1040为各种联网设备提供连接接口。存储接口1050为SD卡、U盘等外置存储设备提供连接接口。
本公开还包括一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现前述任意一些实施例中的图像处理方法。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (12)

1.一种图像处理方法,包括:
采用预先训练的神经网络对包含单行文字的图像进行处理,得到所述图像的行特征向量;所述行特征向量包含双通道,所述行特征向量的第一通道为所述图像中各个行像素坐标为所述图像中单个文字的起始行像素坐标的预测概率,所述行特征向量的第二通道为所述图像中各个行像素坐标为所述图像中单个文字的终止行像素坐标的预测概率;
利用所述行特征向量,确定所述图像中各个文字的起始行像素坐标以及终止行像素坐标,包括:
利用所述行特征向量,确定起始行像素坐标的预测概率取极大值且极大值大于预设值时的行像素坐标,以形成起始行像素坐标集合;
利用所述行特征向量,确定终止行像素坐标的预测概率取极大值且极大值大于预设值时的行像素坐标,以形成终止行像素坐标集合;和
按照预设顺序对起始行像素坐标集合及终止行像素坐标集合中的行像素坐标排序,并根据排序结果进行配对,得到所述图像中各个文字的起始行像素坐标以及终止行像素坐标;以及
利用所述图像中各个文字的起始行像素坐标以及终止行像素坐标,对所述图像中的各个文字进行分割。
2.如权利要求1所述的图像处理方法,还包括:
对包含单行文字的训练图像进行标注,得到所述训练图像的训练标签;所述训练标签包含双通道,所述训练标签的第一通道为所述训练图像中各个行像素坐标为所述训练图像中单个文字的起始行像素坐标的标注概率,所述训练标签的第二通道为所述训练图像中各个行像素坐标为所述训练图像中单个文字的终止行像素坐标的标注概率;
利用所述训练图像及所述训练标签对所述神经网络进行训练,使得所述神经网络能够对所述图像进行处理,得到所述行特征向量。
3.如权利要求2所述的图像处理方法,其中,所述对包含单行文字的训练图像进行标注,得到所述训练图像的训练标签包括:
标注所述训练图像中各个文字的起始行像素坐标以及终止行像素坐标;
利用所述训练图像中各个文字的起始行像素坐标、终止行像素坐标以及像素宽度,确定所述训练图像中各个行像素坐标为所述训练图像中单个文字的起始行像素坐标的标注概率,以形成所述训练标签的第一通道;
利用所述训练图像中各个文字的起始行像素坐标、终止行像素坐标以及像素宽度,确定所述训练图像中各个行像素坐标为所述训练图像中单个文字的终止行像素坐标的标注概率,以形成所述训练标签的第二通道。
4.如权利要求3所述的图像处理方法,其中,采用如下方式确定所述训练图像中各个行像素坐标为所述训练图像中单个文字的起始行像素坐标的标注概率:
其中,i为所述训练图像中各个文字的序号,C(i)表示所述训练图像中第i个文字的某一行像素坐标,S(i)表示所述训练图像中第i个文字的起始行像素坐标,W(i)表示所述训练图像中第i个文字的像素宽度,Pc(i)表示所述训练图像中行像素坐标C(i)为所述训练图像中第i个文字的起始行像素坐标的标注概率。
5.如权利要求4所述的图像处理方法,其中,若某一行像素坐标不属于任何单个文字,则该行像素坐标为所述训练图像中单个文字的起始行像素坐标的标注概率0。
6.如权利要求3所述的图像处理方法,其中,采用如下方式确定所述训练图像中各个行像素坐标为所述训练图像中单个文字的终止行像素坐标的标注概率:
其中,i为所述训练图像中各个文字的序号,C(i)表示所述训练图像中第i个文字的某一行像素坐标,E(i)表示所述训练图像中第i个文字的终止行像素坐标,W(i)表示所述训练图像中第i个文字的像素宽度,QC(i)表示所述训练图像中行像素坐标C(i)为所述训练图像中第i个文字的终止行像素坐标的标注概率。
7.如权利要求6所述的图像处理方法,其中,若某一行像素坐标不属于任何单个文字,则该行像素坐标为所述训练图像中单个文字的终止行像素坐标的标注概率0。
8.如权利要求1所述的图像处理方法,其中,所述神经网络包括多个卷积块,每个卷积块包含卷基层和池化层;
单个卷基层的输出特征维度与输入特征维度相同;
单个池化层的输出特征行维度与输入特征行维度相同,单个池化层的输出特征列维度为输入特征列维度的一半。
9.如权利要求1所述的图像处理方法,其中,所述利用所述图像中各个文字的起始行像素坐标以及终止行像素坐标,对所述图像中的各个文字进行分割包括:
利用所述图像中各个文字的起始行像素坐标以及终止行像素坐标,生成所述图像中各个文字的检测框。
10.一种图像处理装置,包括:
图像处理模块,被配置为采用预先训练的神经网络对包含单行文字的图像进行处理,得到所述图像的行特征向量;所述行特征向量包含双通道,所述行特征向量的第一通道为所述图像中各个行像素坐标为所述图像中单个文字的起始行像素坐标的预测概率,所述行特征向量的第二通道为所述图像中各个行像素坐标为所述图像中单个文字的终止行像素坐标的预测概率;
坐标确定模块,被配置为利用所述行特征向量,确定所述图像中各个文字的起始行像素坐标以及终止行像素坐标,包括:
利用所述行特征向量,确定起始行像素坐标的预测概率取极大值且极大值大于预设值时的行像素坐标,以形成起始行像素坐标集合;
利用所述行特征向量,确定终止行像素坐标的预测概率取极大值且极大值大于预设值时的行像素坐标,以形成终止行像素坐标集合;和
按照预设顺序对起始行像素坐标集合及终止行像素坐标集合中的行像素坐标排序,并根据排序结果进行配对,得到所述图像中各个文字的起始行像素坐标以及终止行像素坐标;以及
文字分割模块,被配置为利用所述图像中各个文字的起始行像素坐标以及终止行像素坐标,对所述图像中的各个文字进行分割。
11.一种图像处理装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1至9中任一项所述的图像处理方法。
12.一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行时实现如权利要求1至9中任一项所述的图像处理方法。
CN201911125775.0A 2019-11-18 2019-11-18 图像处理方法、装置及计算机可读存储介质 Active CN111783780B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911125775.0A CN111783780B (zh) 2019-11-18 2019-11-18 图像处理方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911125775.0A CN111783780B (zh) 2019-11-18 2019-11-18 图像处理方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111783780A CN111783780A (zh) 2020-10-16
CN111783780B true CN111783780B (zh) 2024-03-05

Family

ID=72755766

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911125775.0A Active CN111783780B (zh) 2019-11-18 2019-11-18 图像处理方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111783780B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI773444B (zh) * 2021-07-20 2022-08-01 永豐金融控股股份有限公司 影像識別系統與方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5781660A (en) * 1994-07-28 1998-07-14 Seiko Epson Corporation Image processing method and apparatus
JP2011259511A (ja) * 2011-09-29 2011-12-22 Seiko Epson Corp 画像処理装置及び画像処理方法
CN105426856A (zh) * 2015-11-25 2016-03-23 成都数联铭品科技有限公司 一种图像表格文字识别方法
CN105844275A (zh) * 2016-03-25 2016-08-10 北京云江科技有限公司 文本图像中文本行的定位方法
CN106446896A (zh) * 2015-08-04 2017-02-22 阿里巴巴集团控股有限公司 一种字符分割方法、装置及电子设备
CN107077279A (zh) * 2016-11-07 2017-08-18 深圳市汇顶科技股份有限公司 一种压力检测的方法及装置
KR101805318B1 (ko) * 2016-11-01 2017-12-06 포항공과대학교 산학협력단 텍스트 영역 식별 방법 및 장치
CN109117848A (zh) * 2018-09-07 2019-01-01 泰康保险集团股份有限公司 一种文本行字符识别方法、装置、介质和电子设备
CN109740542A (zh) * 2019-01-07 2019-05-10 福建博思软件股份有限公司 基于改进型east算法的文本检测方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5781660A (en) * 1994-07-28 1998-07-14 Seiko Epson Corporation Image processing method and apparatus
JP2011259511A (ja) * 2011-09-29 2011-12-22 Seiko Epson Corp 画像処理装置及び画像処理方法
CN106446896A (zh) * 2015-08-04 2017-02-22 阿里巴巴集团控股有限公司 一种字符分割方法、装置及电子设备
CN105426856A (zh) * 2015-11-25 2016-03-23 成都数联铭品科技有限公司 一种图像表格文字识别方法
CN105844275A (zh) * 2016-03-25 2016-08-10 北京云江科技有限公司 文本图像中文本行的定位方法
KR101805318B1 (ko) * 2016-11-01 2017-12-06 포항공과대학교 산학협력단 텍스트 영역 식별 방법 및 장치
CN107077279A (zh) * 2016-11-07 2017-08-18 深圳市汇顶科技股份有限公司 一种压力检测的方法及装置
CN109117848A (zh) * 2018-09-07 2019-01-01 泰康保险集团股份有限公司 一种文本行字符识别方法、装置、介质和电子设备
CN109740542A (zh) * 2019-01-07 2019-05-10 福建博思软件股份有限公司 基于改进型east算法的文本检测方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Detecting Text in Natural Image with Connectionist Text Proposal Network;Zhi Tian et al;《European Conference on Computer Vision》;全文 *
利用OCR识别技术实现视频中文字的提取;陈义;李言俊;孙小炜;;计算机工程与应用(10);全文 *
图像处理和文字识别技术在手机软件自动化测试系统中的应用;刘岩;薛涛;李周;张小英;;现代电信科技(07);全文 *
基于投影法的文档图像分割算法;杨晓娟;宋凯;;成都大学学报(自然科学版)(02);全文 *
基于极坐标变换的脱机手写藏文字符特征提取方法;朱利娟;云中华;边巴旺堆;;计算机应用与软件(03);全文 *
基于自适应阈值的视频文本检测方法;卢海彦等;《计算机仿真》;全文 *

Also Published As

Publication number Publication date
CN111783780A (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN109726643B (zh) 图像中表格信息的识别方法、装置、电子设备及存储介质
CN111401371B (zh) 一种文本检测识别方法、系统及计算机设备
US11003941B2 (en) Character identification method and device
US10643094B2 (en) Method for line and word segmentation for handwritten text images
US10817741B2 (en) Word segmentation system, method and device
CN106156766B (zh) 文本行分类器的生成方法及装置
US9189694B2 (en) Image processing device and image processing method
EP3401842B1 (en) Text image processing method and apparatus
CN113486828B (zh) 图像处理方法、装置、设备和存储介质
Dave Segmentation methods for hand written character recognition
CN111488826A (zh) 一种文本识别方法、装置、电子设备和存储介质
US9286527B2 (en) Segmentation of an input by cut point classification
CN111507330B (zh) 习题识别方法、装置、电子设备及存储介质
US10025976B1 (en) Data normalization for handwriting recognition
CN110942004A (zh) 基于神经网络模型的手写识别方法、装置及电子设备
CN113033543B (zh) 曲形文本识别方法、装置、设备及介质
Xu et al. End-to-end subtitle detection and recognition for videos in East Asian languages via CNN ensemble
CN111191611A (zh) 基于深度学习的交通标志标号识别方法
US11600088B2 (en) Utilizing machine learning and image filtering techniques to detect and analyze handwritten text
KR20200020305A (ko) 문자 인식을 위한 방법 및 장치
CN111738252B (zh) 图像中的文本行检测方法、装置及计算机系统
CN109508716B (zh) 一种图像文字的定位方法及装置
CN111783780B (zh) 图像处理方法、装置及计算机可读存储介质
US9418281B2 (en) Segmentation of overwritten online handwriting input
CN112784737B (zh) 结合像素分割和线段锚的文本检测方法、系统及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant