CN112733857A - 自动分割字符区域的图像文字检测模型训练方法及装置 - Google Patents
自动分割字符区域的图像文字检测模型训练方法及装置 Download PDFInfo
- Publication number
- CN112733857A CN112733857A CN202110021189.2A CN202110021189A CN112733857A CN 112733857 A CN112733857 A CN 112733857A CN 202110021189 A CN202110021189 A CN 202110021189A CN 112733857 A CN112733857 A CN 112733857A
- Authority
- CN
- China
- Prior art keywords
- character
- image
- detection model
- region
- area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Abstract
自动分割字符区域的图像文字检测模型训练方法及装置,使用多层卷积神经网络抽取图像特征,然后通过卷积层将通道数转换为类别个数;生成的是目标图像按比例缩小的特征图,每个像素点的值是对应的类别,将特征图放大至目标图像尺寸即可作为文字区域的掩码图;将掩码与原图叠加即可得到包含文字的区域子图像;能够识别一行文字中的间隙并标记为背景,从而在掩码图中每个文字字符都已分隔开,只需简单的图像处理操作即可得到单个字符的图像。本发明得到的文字检测模型能够完成字符级别的文字检测,在检测过程中直接划分字符区域,简化图像文字识别的流程,提高计算性能;能够自动构建海量训练数据提供丰富的特征信息,以低成本训练高质量模型。
Description
技术领域
本发明涉及图像识别技术领域,具体涉及一种自动分割字符区域的图像文字检测模型训练方法。
背景技术
文字区域检测通常使用图像检测模型(如Yolo,SSD等),图像检测模型能够输出文字区域坐标从而提取出对应的区域子图像。而区域子图像虽然包含了相邻范围内的所有文字,但并没有区分其中每一个字符的位置和轮廓,仍需要在字符识别模型中使用循环神经网络对整个文字区域进行滑动探测,以此识别出每一个字符。
文字区域检测模型的训练数据使用的是较大尺寸的带文本图像,人工标注其中的文字区域,训练数据使用人工标注成本高,模型推理阶段不能切分字符,导致后续需要用更加复杂的文字识别模型(基于循环神经网络)来分析识别字符,模型尺寸较大,推理时间长,难以应用在实时图像流分析场景和嵌入式系统上。综上亟需一种新的图像文字检测模型训练技术方案。
发明内容
为此,本发明实施例提供一种自动分割字符区域的图像文字检测模型训练方法及装置,使得到的图像文字检测模型能够完成字符级别的文字检测,实现低成本训练高质量的图像文字检测模型。
为了实现上述目的,本发明的实施方式提供如下技术方案:一种自动分割字符区域的图像文字检测模型训练方法,包括以下步骤:
采用卷积神经网络抽取目标图像特征,利用卷积层将所述目标图像的通道数转换为类别个数;
通过文字区域检测模型生成所述目标图像按比例缩小的特征图,将所述特征图中每个像素点的值对应于所述类别;
将所述特征图放大至所述目标图像的尺寸并作为文字区域的掩码图,将生成的掩码与目标图像叠加获得包含文字的区域子图像;
对所述区域子图像进行文字间隙识别,将所述文字间隙标记为背景,使所述掩码图中每个文字字符分隔开。
作为自动分割字符区域的图像文字检测模型训练方法的优选方案,所述文字区域检测模型在训练时按照图像分类模型进行训练,将卷积层输出后添加Flatten层转换,再添加一个softmax层输出类别。
作为自动分割字符区域的图像文字检测模型训练方法的优选方案,所述文字区域检测模型在推理时,去掉最后的Flatten层和softmax层,直接获取卷积层的输出。
作为自动分割字符区域的图像文字检测模型训练方法的优选方案,对所述目标图像采用原始尺寸或按比例缩放后进行输入,采用文字区域检测模型对整张目标图像进行扫描和特征提取,每次卷积依次提取目标图像的一块区域,对文字区域检测模型前向计算得到每个区域的对应特征。
作为自动分割字符区域的图像文字检测模型训练方法的优选方案,当区域中出现预设范围字符时将该区域标记为文字区域;
在对输入的目标图像扫描的过程中,当计算窗口经过一组字符时,将字符的周围均输出为0,字符中心输出为1,在最终的特征图上把每个字符区域分割开来。
作为自动分割字符区域的图像文字检测模型训练方法的优选方案,进行文字图像生成工具构建,通过所述文字图像生成工具随机设定字体、灰度和大小,从已有的语料库中随机选取文字组合打印成为文字位图;将所述文字位图合并至随机选取的背景图像上,根据窗口采样规则提取选定区域作为训练数据。
作为自动分割字符区域的图像文字检测模型训练方法的优选方案,对窗口采样的区域图像进行图像增强处理,所述图像增强处理包括高斯噪声、高斯滤波、图像颜色翻转和直方图均衡。
作为自动分割字符区域的图像文字检测模型训练方法的优选方案,通过所述文字图像生成工具读入配置参数,所述配置参数包括生成训练数据的总数、背景图像的数据源目录、字体库路径和采样区域的随机权重分布以及图像增强的随机权重指数;
通过所述文字图像生成工具对目标图像进行多进程处理,依次执行字符串生成、背景图像选取、文字打印参数选取、执行文字打印、窗口采样和图像增强步骤,将得到的采样图像统一缩放至预设大小并与标注数据一并压缩为记录文件作为文字区域检测模型的训练数据集。
本发明还提供一种自动分割字符区域的图像文字检测模型训练装置,包括:
图像特征提取单元,用于采用卷积神经网络抽取目标图像特征,利用卷积层将所述目标图像的通道数转换为类别个数;
像素点类别处理单元,用于通过文字区域检测模型生成所述目标图像按比例缩小的特征图,将所述特征图中每个像素点的值对应于所述类别;
区域子图像生成单元,用于将所述特征图放大至所述目标图像的尺寸并作为文字区域的掩码图,将生成的掩码与目标图像叠加获得包含文字的区域子图像;
文字间隙识别单元,用于对所述区域子图像进行文字间隙识别,将所述文字间隙标记为背景,使所述掩码图中每个文字字符分隔开。
作为自动分割字符区域的图像文字检测模型训练装置的优选方案,还包括:
文字图像生成单元,用于通过文字图像生成工具随机设定字体、灰度和大小,从已有的语料库中随机选取文字组合打印成为文字位图;将所述文字位图合并至随机选取的背景图像上,根据窗口采样规则提取选定区域作为训练数据;
图像增强单元,用于对窗口采样的区域图像进行图像增强处理,所述图像增强处理包括高斯噪声、高斯滤波、图像颜色翻转和直方图均衡;
通过所述文字图像生成工具读入配置参数,所述配置参数包括生成训练数据的总数、背景图像的数据源目录、字体库路径和采样区域的随机权重分布以及图像增强的随机权重指数;
通过所述文字图像生成工具对目标图像进行多进程处理,依次执行字符串生成、背景图像选取、文字打印参数选取、执行文字打印、窗口采样和图像增强步骤,将得到的采样图像统一缩放至预设大小并与标注数据一并压缩为记录文件作为文字区域检测模型的训练数据集。
本发明实现了一个简化的全卷积网络(FCN),构造时先使用多层卷积神经网络抽取图像特征,然后通过卷积层将通道数转换为类别个数(和经典的FCN不同,不再添加后面的转置卷积层);最终生成的是目标图像按比例缩小的特征图,每个像素点的值是对应的类别(文字区域为1,背景为0),将特征图放大至目标图像尺寸即可作为文字区域的掩码图;将掩码与原图叠加即可得到包含文字的区域子图像;能够识别一行文字中的间隙并标记为背景,从而在掩码图中每个文字字符都已分隔开,只需简单的图像处理操作即可得到单个字符的图像。本发明得到的文字检测模型能够完成字符级别的文字检测,在检测过程中直接划分字符区域,能够极大的简化图像文字识别的流程,提高计算性能;能够自动构建海量训练数据并为文字检测模型训练提供丰富的特征信息,便于以低成本训练高质量的文字检测模型。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
图1为本发明实施例中提供的图像文字检测模型结构示意图;
图2为本发明实施例中提供的自动分割字符区域的图像文字检测模型训练方法示意图;
图3为本发明实施例中提供的自动分割字符区域的图像文字检测模型训练过程采用的表示文字边缘和文字间隙的图像;
图4为本发明实施例中提供的自动分割字符区域的图像文字检测模型训练过程文字区域采样示意图;
图5为本发明实施例中提供的自动分割字符区域的图像文字检测模型训练过程文字边缘区域采样示意图;
图6-1和图6-2为本发明实施例中提供的坏尺寸字符区域采样示意图;
图7为本发明实施例中提供的自动生成工具技术路线示意图;
图8为本发明实施例中提供的自动分割字符区域的图像文字检测模型训练装置示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
参见图1和图2,提供一种自动分割字符区域的图像文字检测模型训练方法,包括以下步骤:
S1:采用卷积神经网络抽取目标图像特征,利用卷积层将所述目标图像的通道数转换为类别个数;
S2:通过文字区域检测模型生成所述目标图像按比例缩小的特征图,将所述特征图中每个像素点的值对应于所述类别;
S3:将所述特征图放大至所述目标图像的尺寸并作为文字区域的掩码图,将生成的掩码与目标图像叠加获得包含文字的区域子图像;
S4:对所述区域子图像进行文字间隙识别,将所述文字间隙标记为背景,使所述掩码图中每个文字字符分隔开。
参见图3,文字区域检测模型在训练时按照图像分类模型进行训练,将卷积层输出后添加Flatten层转换,再添加一个softmax层输出类别。所述文字区域检测模型在推理时,去掉最后的Flatten层和softmax层,直接获取卷积层的输出。以便能够识别文字间隙,且简化文字区域检测模型。
具体的,Flatten层用来将输入“压平”,即把多维的输入一维化,实现从卷积层到全连接层的过渡,Flatten不影响超参数batch的大小。softmax层是一个全连接层,可以将卷积神经网络计算后的多个神经元输出,映射到(0,1)区间,给出每种分类的概率情况。
具体的,将1x1卷积层的输出后添加Flatten层转换再添加一个softmax层输出类别。训练使用的图像为固定大小的灰度图(1×45×45),文字区域检测模型输出为分类结果(1:包含文字,0:背景);为了能够识别文字间隙,训练数据需要准备表示文字边缘和文字间隙的图像。
对所述目标图像采用原始尺寸或按比例缩放后进行输入,采用文字区域检测模型对整张目标图像进行扫描和特征提取,每次卷积依次提取目标图像的一块区域,对文字区域检测模型前向计算得到每个区域的对应特征。当区域中出现预设范围字符时将该区域标记为文字区域;在对输入的目标图像扫描的过程中,当计算窗口经过一组字符时,将字符的周围均输出为0,字符中心输出为1,在最终的特征图上把每个字符区域分割开来。
具体的,训练得到的模型在推理时去掉最后的Flatten层和softmax层,直接获取1x1卷积层的输出,输入图像无需限定为固定大小,可直接原图尺寸输入或选取适当的缩放比例。
辅助图4、图5和图6-1、图6-2,文字区域检测模型对整张图像进行扫描和特征提取,每次卷积依次提取其中一块区域,模型前向计算得到每块区域的对应特征值:
第一、该区域包含完整的字符时,且字符大小适中,对应训练数据中的文字标注图片,此时特征值为1(文字);
第二、该区域没有包含任何字符,特征值为0(背景);
第三、该区域包含字符的一部分,且字符的边缘没有超过区域中心点,输出特征值为0(背景);
第四、该区域的中心点处于两个字符中间的空隙,输出特征值为0(背景);
第五、整个区域均处于字符的其中(字符比区域尺寸大),输出特征值为0(背景);
第六、区域中的字符过小,输出特征值为0(背景)。
只有满足字符绝大部分出现在区域中且大小适中才会被标记为文字区域,其他情形无法激活文字特征。在对输入目标图像扫描的过程中,计算窗口经过一组文字时,会将文字的周围均输出为0,只有文字中心输出为1,因而在最终的特征图上把每个字符区域都分割开来。
具体的,辅助参见图7,进行文字图像生成工具构建,通过所述文字图像生成工具随机设定字体、灰度和大小,从已有的语料库中随机选取文字组合打印成为文字位图;将所述文字位图合并至随机选取的背景图像上,根据窗口采样规则提取选定区域作为训练数据。
文字区域检测模型的训练极大依赖于训练数据的质量。为了获得海量的特征充分的训练数据,构建一种文字图像自动生成工具。文字图像自动生成工具能够随机设定字体,灰度,大小,从已有的语料库中随机选取文字组合打印成为文字位图,取其中一个文字中心作为焦点,其他文字模拟了上下文环境,比单文字图像更接近真实识别的图像。文字位图合并至随机选取的背景图像上,随后根据窗口采样规则提取选定区域作为训练数据。
设文字焦点坐标为(x0,y0),焦点文字的区域宽w,高h,在文字图像自动生成工具中设定如下四种窗口选取规则,覆盖训练数据所需的六种数据场景:
(1)文字区域(标记为1,对应上面的(1)类图像):焦点位置在窗口中心周围。
算法:窗口中心坐标
x=random(x0-alpha*w,x0+alpha*w)
y=random(y0-alpha*h,y0+alpha*h)
其中alpha为中心偏离系数,该系数取值为0.2(经验值)。
窗口边长取max(w,h)*beta,beta为窗口尺寸系数,取值为random(1,2)。
(2)背景区域(标记为0,对应上面的第二类图像):背景图像不添加文字位图。按固定大小窗口随机采样背景图像。
(3)文字边缘区域(标记为0,对应上面的第三、第四类图像):使文字焦点偏离窗口中心区域。
随机选取以文字焦点为中心,长宽为w*h的矩形区域的边长上任一一点坐标(x,y)作为窗口中心坐标。窗口边长取max(w,h)*beta,beta为窗口尺寸系数,取值为random(1,2)。
(4)坏尺寸字符区域(标记为0,对应上面的第五、第六类图像):字符在窗口中过大或过小。
窗口中心坐标
x=random(x0-alpha*w,x0+alpha*w)
y=random(y0-alpha*h,y0+alpha*h)
其中alpha为中心偏离系数,该系数取值为0.2(经验值)。
窗口边长max(w,h)*beta,beta为窗口尺寸参数,从下面两组范围中随机选取
a.(0.1~0.5)对应字符在窗口中过大
b.(2.5~4.0)对应字符在窗口中过小。
具体的,对窗口采样的区域图像进行图像增强处理,所述图像增强处理包括高斯噪声、高斯滤波、图像颜色翻转和直方图均衡。为了增强模型的抗噪声能力,对窗口采样区域图像进行图像增强处理,进一步扩大了训练数据的规模和特征多样性。
参见图7,通过所述文字图像生成工具读入配置参数,所述配置参数包括生成训练数据的总数、背景图像的数据源目录、字体库路径和采样区域的随机权重分布以及图像增强的随机权重指数;通过所述文字图像生成工具对目标图像进行多进程处理,依次执行字符串生成、背景图像选取、文字打印参数选取、执行文字打印、窗口采样和图像增强步骤,将得到的采样图像统一缩放至预设大小并与标注数据一并压缩为记录文件作为文字区域检测模型的训练数据集。
文字图像自动生成工具启动后读入配置参数,参数包括生成训练数据的总数、背景图像的数据源目录、字体库路径、四种采样区域的随机权重分布以及图像增强的随机权重指数。程序启动多进程处理,依次执行字符串生成、背景图像选取、文字打印参数选取、执行文字打印、窗口采样、图像增强等步骤,将得到的采样图像统一缩放至固定大小45x45,与图片的标注数据一并压缩为rec文件作为模型的训练数据集。
本发明实现了一个简化的全卷积网络(FCN),构造时先使用多层卷积神经网络抽取图像特征,然后通过卷积层将通道数转换为类别个数(和经典的FCN不同,不再添加后面的转置卷积层);最终生成的是目标图像按比例缩小的特征图,每个像素点的值是对应的类别(文字区域为1,背景为0),将特征图放大至目标图像尺寸即可作为文字区域的掩码图;将掩码与原图叠加即可得到包含文字的区域子图像;能够识别一行文字中的间隙并标记为背景,从而在掩码图中每个文字字符都已分隔开,只需简单的图像处理操作即可得到单个字符的图像。本发明得到的文字检测模型能够完成字符级别的文字检测,在检测过程中直接划分字符区域,能够极大的简化图像文字识别的流程,提高计算性能;能够自动构建海量训练数据并为文字检测模型训练提供丰富的特征信息,便于以低成本训练高质量的文字检测模型。
实施例2
参见图8,本发明还提供一种自动分割字符区域的图像文字检测模型训练装置,包括:
图像特征提取单元1,用于采用卷积神经网络抽取目标图像特征,利用卷积层将所述目标图像的通道数转换为类别个数;
像素点类别处理单元2,用于通过文字区域检测模型生成所述目标图像按比例缩小的特征图,将所述特征图中每个像素点的值对应于所述类别;
区域子图像生成单元3,用于将所述特征图放大至所述目标图像的尺寸并作为文字区域的掩码图,将生成的掩码与目标图像叠加获得包含文字的区域子图像;
文字间隙识别单元4,用于对所述区域子图像进行文字间隙识别,将所述文字间隙标记为背景,使所述掩码图中每个文字字符分隔开。
具体的,还包括:
文字图像生成单元5,用于通过文字图像生成工具随机设定字体、灰度和大小,从已有的语料库中随机选取文字组合打印成为文字位图;将所述文字位图合并至随机选取的背景图像上,根据窗口采样规则提取选定区域作为训练数据;
图像增强单元6,用于对窗口采样的区域图像进行图像增强处理,所述图像增强处理包括高斯噪声、高斯滤波、图像颜色翻转和直方图均衡。
文字区域检测模型在训练时按照图像分类模型进行训练,将卷积层输出后添加Flatten层转换,再添加一个softmax层输出类别。所述文字区域检测模型在推理时,去掉最后的Flatten层和softmax层,直接获取卷积层的输出。以便能够识别文字间隙,且简化文字区域检测模型。
具体的,Flatten层用来将输入“压平”,即把多维的输入一维化,实现从卷积层到全连接层的过渡,Flatten不影响超参数batch的大小。softmax层是一个全连接层,可以将卷积神经网络计算后的多个神经元输出,映射到(0,1)区间,给出每种分类的概率情况。
具体的,将1x1卷积层的输出后添加Flatten层转换再添加一个softmax层输出类别。训练使用的图像为固定大小的灰度图(1×45×45),文字区域检测模型输出为分类结果(1:包含文字,0:背景);为了能够识别文字间隙,训练数据需要准备表示文字边缘和文字间隙的图像。
对所述目标图像采用原始尺寸或按比例缩放后进行输入,采用文字区域检测模型对整张目标图像进行扫描和特征提取,每次卷积依次提取目标图像的一块区域,对文字区域检测模型前向计算得到每个区域的对应特征。当区域中出现预设范围字符时将该区域标记为文字区域;在对输入的目标图像扫描的过程中,当计算窗口经过一组字符时,将字符的周围均输出为0,字符中心输出为1,在最终的特征图上把每个字符区域分割开来。
具体的,通过所述文字图像生成工具读入配置参数,所述配置参数包括生成训练数据的总数、背景图像的数据源目录、字体库路径和采样区域的随机权重分布以及图像增强的随机权重指数;通过所述文字图像生成工具对目标图像进行多进程处理,依次执行字符串生成、背景图像选取、文字打印参数选取、执行文字打印、窗口采样和图像增强步骤,将得到的采样图像统一缩放至预设大小并与标注数据一并压缩为记录文件作为文字区域检测模型的训练数据集。
文字区域检测模型对整张图像进行扫描和特征提取,每次卷积依次提取其中一块区域,模型前向计算得到每块区域的对应特征值:
第一、该区域包含完整的字符时,且字符大小适中,对应训练数据中的文字标注图片,此时特征值为1(文字);
第二、该区域没有包含任何字符,特征值为0(背景);
第三、该区域包含字符的一部分,且字符的边缘没有超过区域中心点,输出特征值为0(背景);
第四、该区域的中心点处于两个字符中间的空隙,输出特征值为0(背景);
第五、整个区域均处于字符的其中(字符比区域尺寸大),输出特征值为0(背景);
第六、区域中的字符过小,输出特征值为0(背景)。
只有满足字符绝大部分出现在区域中且大小适中才会被标记为文字区域,其他情形无法激活文字特征。在对输入目标图像扫描的过程中,计算窗口经过一组文字时,会将文字的周围均输出为0,只有文字中心输出为1,因而在最终的特征图上把每个字符区域都分割开来。
具体的,辅助参见图7,进行文字图像生成工具构建,通过所述文字图像生成工具随机设定字体、灰度和大小,从已有的语料库中随机选取文字组合打印成为文字位图;将所述文字位图合并至随机选取的背景图像上,根据窗口采样规则提取选定区域作为训练数据。
文字区域检测模型的训练极大依赖于训练数据的质量。为了获得海量的特征充分的训练数据,构建一种文字图像自动生成工具。文字图像自动生成工具能够随机设定字体,灰度,大小,从已有的语料库中随机选取文字组合打印成为文字位图,取其中一个文字中心作为焦点,其他文字模拟了上下文环境,比单文字图像更接近真实识别的图像。文字位图合并至随机选取的背景图像上,随后根据窗口采样规则提取选定区域作为训练数据。
设文字焦点坐标为(x0,y0),焦点文字的区域宽w,高h,在文字图像自动生成工具中设定如下四种窗口选取规则,覆盖训练数据所需的六种数据场景:
(1)文字区域(标记为1,对应上面的(1)类图像):焦点位置在窗口中心周围。
算法:窗口中心坐标
x=random(x0-alpha*w,x0+alpha*w)
y=random(y0-alpha*h,y0+alpha*h)
其中alpha为中心偏离系数,该系数取值为0.2(经验值)。
窗口边长取max(w,h)*beta,beta为窗口尺寸系数,取值为random(1,2)。
(2)背景区域(标记为0,对应上面的第二类图像):背景图像不添加文字位图。按固定大小窗口随机采样背景图像。
(3)文字边缘区域(标记为0,对应上面的第三、第四类图像):使文字焦点偏离窗口中心区域。
随机选取以文字焦点为中心,长宽为w*h的矩形区域的边长上任一一点坐标(x,y)作为窗口中心坐标。窗口边长取max(w,h)*beta,beta为窗口尺寸系数,取值为random(1,2)。
(4)坏尺寸字符区域(标记为0,对应上面的第五、第六类图像):字符在窗口中过大或过小。
窗口中心坐标
x=random(x0-alpha*w,x0+alpha*w)
y=random(y0-alpha*h,y0+alpha*h)
其中alpha为中心偏离系数,该系数取值为0.2(经验值)。
窗口边长max(w,h)*beta,beta为窗口尺寸参数,从下面两组范围中随机选取
a.(0.1~0.5)对应字符在窗口中过大
b.(2.5~4.0)对应字符在窗口中过小。
具体的,通过所述文字图像生成工具读入配置参数,所述配置参数包括生成训练数据的总数、背景图像的数据源目录、字体库路径和采样区域的随机权重分布以及图像增强的随机权重指数;通过所述文字图像生成工具对目标图像进行多进程处理,依次执行字符串生成、背景图像选取、文字打印参数选取、执行文字打印、窗口采样和图像增强步骤,将得到的采样图像统一缩放至预设大小并与标注数据一并压缩为记录文件作为文字区域检测模型的训练数据集。
文字图像自动生成工具启动后读入配置参数,参数包括生成训练数据的总数、背景图像的数据源目录、字体库路径、四种采样区域的随机权重分布以及图像增强的随机权重指数。程序启动多进程处理,依次执行字符串生成、背景图像选取、文字打印参数选取、执行文字打印、窗口采样、图像增强等步骤,将得到的采样图像统一缩放至固定大小45x45,与图片的标注数据一并压缩为rec文件作为模型的训练数据集。
实施例3
本发明提供一种计算机可读存储介质,所述计算机可读存储介质中存储用于自动分割字符区域的图像文字检测模型训练的程序代码,所述程序代码包括用于执行实施例1或其任意可能的实现方式中的自动分割字符区域的图像文字检测模型训练方法的指令。
计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(SolidStateDisk、SSD))等。
实施例4
本发明提供了一种电子设备,所述电子设备包括处理器,所述处理器与存储介质耦合,当所述处理器执行存储介质中的指令时,使得所述电子设备执行实施例1或其任意可能的实现方式中的自动分割字符区域的图像文字检测模型训练方法。
具体的,处理器可以通过硬件来实现也可以通过软件来实现,当通过硬件实现时,该处理器可以是逻辑电路、集成电路等;当通过软件来实现时,该处理器可以是一个通用处理器,通过读取存储器中存储的软件代码来实现,该存储器可以集成在处理器中,可以位于所述处理器之外,独立存在。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。
具体的,中央处理单元(CPU)根据只读存储器(ROM)中存储的程序或从存储部分加载到随机存取存储器(RAM)的程序执行各种处理。在RAM中,还根据需要存储当CPU执行各种处理等等时所需的数据。CPU、ROM和RAM经由总线彼此连接。输入/输出接口也连接到总线。
下述部件连接到输入/输出接口:输入部分(包括键盘、鼠标等等)、输出部分(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分(包括硬盘等)、通信部分(包括网络接口卡比如LAN卡、调制解调器等)。通信部分经由网络比如因特网执行通信处理。根据需要,驱动器也可连接到输入/输出接口。可拆卸介质比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器上,使得从中读出的计算机程序根据需要被安装到存储部分中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于存储有程序的、与设备相分离地分发以向用户提供程序的可拆卸介质。可拆卸介质的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM、存储部分中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (10)
1.一种自动分割字符区域的图像文字检测模型训练方法,其特征在于,包括以下步骤:
采用卷积神经网络抽取目标图像特征,利用卷积层将所述目标图像的通道数转换为类别个数;
通过文字区域检测模型生成所述目标图像按比例缩小的特征图,将所述特征图中每个像素点的值对应于所述类别;
将所述特征图放大至所述目标图像的尺寸并作为文字区域的掩码图,将生成的掩码与目标图像叠加获得包含文字的区域子图像;
对所述区域子图像进行文字间隙识别,将所述文字间隙标记为背景,使所述掩码图中每个文字字符分隔开。
2.根据权利要求1所述的一种自动分割字符区域的图像文字检测模型训练方法,其特征在于,所述文字区域检测模型在训练时按照图像分类模型进行训练,在卷积层输出后添加Flatten层转换,再添加一个softmax层输出类别。
3.根据权利要求2所述的一种自动分割字符区域的图像文字检测模型训练方法,其特征在于,所述文字区域检测模型在推理时,去掉最后的Flatten层和softmax层,直接获取卷积层的输出。
4.根据权利要求1所述的一种自动分割字符区域的图像文字检测模型训练方法,其特征在于,对所述目标图像采用原始尺寸或按比例缩放后进行输入,采用文字区域检测模型对整张目标图像进行扫描和特征提取,每次卷积依次提取目标图像的一块区域,对文字区域检测模型前向计算得到每个区域的对应特征。
5.根据权利要求4所述的一种自动分割字符区域的图像文字检测模型训练方法,其特征在于,当区域中出现预设范围字符时将该区域标记为文字区域;
在对输入的目标图像扫描的过程中,当计算窗口经过一组字符时,将字符的周围均输出为0,字符中心输出为1,在最终的特征图上把每个字符区域分割开来。
6.根据权利要求1所述的一种自动分割字符区域的图像文字检测模型训练方法,其特征在于,进行文字图像生成工具构建,通过所述文字图像生成工具随机设定字体、灰度和大小,从已有的语料库中随机选取文字组合打印成为文字位图;将所述文字位图合并至随机选取的背景图像上,根据窗口采样规则提取选定区域作为训练数据。
7.根据权利要求6所述的一种自动分割字符区域的图像文字检测模型训练方法,其特征在于,对窗口采样的区域图像进行图像增强处理,所述图像增强处理包括高斯噪声、高斯滤波、图像颜色翻转和直方图均衡。
8.根据权利要求7所述的一种自动分割字符区域的图像文字检测模型训练方法,其特征在于,通过所述文字图像生成工具读入配置参数,所述配置参数包括生成训练数据的总数、背景图像的数据源目录、字体库路径和采样区域的随机权重分布以及图像增强的随机权重指数;
通过所述文字图像生成工具对目标图像进行多进程处理,依次执行字符串生成、背景图像选取、文字打印参数选取、执行文字打印、窗口采样和图像增强步骤,将得到的采样图像统一缩放至预设大小并与标注数据一并压缩为记录文件作为文字区域检测模型的训练数据集。
9.一种自动分割字符区域的图像文字检测模型训练装置,其特征在于,包括:
图像特征提取单元,用于采用卷积神经网络抽取目标图像特征,利用卷积层将所述目标图像的通道数转换为类别个数;
像素点类别处理单元,用于通过文字区域检测模型生成所述目标图像按比例缩小的特征图,将所述特征图中每个像素点的值对应于所述类别;
区域子图像生成单元,用于将所述特征图放大至所述目标图像的尺寸并作为文字区域的掩码图,将生成的掩码与目标图像叠加获得包含文字的区域子图像;
文字间隙识别单元,用于对所述区域子图像进行文字间隙识别,将所述文字间隙标记为背景,使所述掩码图中每个文字字符分隔开。
10.根据权利要求9所述的一种自动分割字符区域的图像文字检测模型训练装置,其特征在于,还包括:
文字图像生成单元,用于通过文字图像生成工具随机设定字体、灰度和大小,从已有的语料库中随机选取文字组合打印成为文字位图;将所述文字位图合并至随机选取的背景图像上,根据窗口采样规则提取选定区域作为训练数据;
图像增强单元,用于对窗口采样的区域图像进行图像增强处理,所述图像增强处理包括高斯噪声、高斯滤波、图像颜色翻转和直方图均衡;
通过所述文字图像生成工具读入配置参数,所述配置参数包括生成训练数据的总数、背景图像的数据源目录、字体库路径和采样区域的随机权重分布以及图像增强的随机权重指数;
通过所述文字图像生成工具对目标图像进行多进程处理,依次执行字符串生成、背景图像选取、文字打印参数选取、执行文字打印、窗口采样和图像增强步骤,将得到的采样图像统一缩放至预设大小并与标注数据一并压缩为记录文件作为文字区域检测模型的训练数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110021189.2A CN112733857B (zh) | 2021-01-08 | 2021-01-08 | 自动分割字符区域的图像文字检测模型训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110021189.2A CN112733857B (zh) | 2021-01-08 | 2021-01-08 | 自动分割字符区域的图像文字检测模型训练方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112733857A true CN112733857A (zh) | 2021-04-30 |
CN112733857B CN112733857B (zh) | 2021-10-15 |
Family
ID=75589675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110021189.2A Active CN112733857B (zh) | 2021-01-08 | 2021-01-08 | 自动分割字符区域的图像文字检测模型训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112733857B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0774729B1 (en) * | 1995-11-15 | 2002-09-11 | Hitachi, Ltd. | Character recognizing and translating system |
CN104794504A (zh) * | 2015-04-28 | 2015-07-22 | 浙江大学 | 基于深度学习的图形图案文字检测方法 |
CN107943967A (zh) * | 2017-11-28 | 2018-04-20 | 华南理工大学 | 基于多角度卷积神经网络与循环神经网络的文本分类算法 |
CN108062547A (zh) * | 2017-12-13 | 2018-05-22 | 北京小米移动软件有限公司 | 文字检测方法及装置 |
CN109344825A (zh) * | 2018-09-14 | 2019-02-15 | 广州麦仑信息科技有限公司 | 一种基于卷积神经网络的车牌识别方法 |
CN111985464A (zh) * | 2020-08-13 | 2020-11-24 | 山东大学 | 面向法院判决文书的多尺度学习的文字识别方法及系统 |
CN112036395A (zh) * | 2020-09-04 | 2020-12-04 | 联想(北京)有限公司 | 基于目标检测的文本分类识别方法及装置 |
US10878270B1 (en) * | 2018-06-26 | 2020-12-29 | Amazon Technologies, Inc. | Keypoint-based multi-label word segmentation and localization |
-
2021
- 2021-01-08 CN CN202110021189.2A patent/CN112733857B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0774729B1 (en) * | 1995-11-15 | 2002-09-11 | Hitachi, Ltd. | Character recognizing and translating system |
CN104794504A (zh) * | 2015-04-28 | 2015-07-22 | 浙江大学 | 基于深度学习的图形图案文字检测方法 |
CN107943967A (zh) * | 2017-11-28 | 2018-04-20 | 华南理工大学 | 基于多角度卷积神经网络与循环神经网络的文本分类算法 |
CN108062547A (zh) * | 2017-12-13 | 2018-05-22 | 北京小米移动软件有限公司 | 文字检测方法及装置 |
US10878270B1 (en) * | 2018-06-26 | 2020-12-29 | Amazon Technologies, Inc. | Keypoint-based multi-label word segmentation and localization |
CN109344825A (zh) * | 2018-09-14 | 2019-02-15 | 广州麦仑信息科技有限公司 | 一种基于卷积神经网络的车牌识别方法 |
CN111985464A (zh) * | 2020-08-13 | 2020-11-24 | 山东大学 | 面向法院判决文书的多尺度学习的文字识别方法及系统 |
CN112036395A (zh) * | 2020-09-04 | 2020-12-04 | 联想(北京)有限公司 | 基于目标检测的文本分类识别方法及装置 |
Non-Patent Citations (2)
Title |
---|
YOUNGMIN BAEK ET AL: "Character Region Awareness for Text Detection", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
孙巧榆: "复杂背景图像的文本信息提取研究", 《中国博士学位论文全文数据库》 * |
Also Published As
Publication number | Publication date |
---|---|
CN112733857B (zh) | 2021-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4806230B2 (ja) | 劣化辞書生成プログラム、方法および装置 | |
CN110942074B (zh) | 字符切分识别方法、装置、电子设备、存储介质 | |
JP2802036B2 (ja) | 文書処理のためのイメージ・セグメント化およびイメージ要素分類の方法 | |
CN111291629A (zh) | 图像中文本的识别方法、装置、计算机设备及计算机存储介质 | |
CN109635805B (zh) | 图像文本定位方法及装置、图像文本识别方法及装置 | |
CN112070649B (zh) | 一种去除特定字符串水印的方法及系统 | |
CN112613502A (zh) | 文字识别方法及装置、存储介质、计算机设备 | |
CN113673338A (zh) | 自然场景文本图像字符像素弱监督自动标注方法、系统及介质 | |
JPH11345339A (ja) | 画像セグメンテ―ション方法及び装置及びシステム及びコンピュ―タ可読メモリ | |
CN113344826A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN110956167A (zh) | 一种基于定位字符的分类判别强化分离的方法 | |
CN112733858B (zh) | 基于字符区域检测的图像文字快速识别方法及装置 | |
CN111626145A (zh) | 一种简捷有效的残缺表格识别及跨页拼接方法 | |
RU2633182C1 (ru) | Определение направления строк текста | |
CN113065404A (zh) | 基于等宽文字片段的火车票内容检测方法与系统 | |
CN112733857B (zh) | 自动分割字符区域的图像文字检测模型训练方法及装置 | |
US7532756B2 (en) | Grayscale character dictionary generation apparatus | |
CN115937039A (zh) | 数据扩充方法、装置、电子设备及可读存储介质 | |
CN115439850A (zh) | 基于审单的图文字符识别方法、装置、设备及存储介质 | |
Rao et al. | MTESSERACT: An Application for Form Recognition in Courier Services | |
CN114155540A (zh) | 基于深度学习的文字识别方法、装置、设备及存储介质 | |
Rani et al. | Object Detection in Natural Scene Images Using Thresholding Techniques | |
CN112712080B (zh) | 一种用于走字屏采集图像的文字识别处理方法 | |
Hirata et al. | Comics image processing: learning to segment text | |
Chi et al. | Hierarchical content classification and script determination for automatic document image processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |