CN110222693A - 构建字符识别模型与识别字符的方法和装置 - Google Patents
构建字符识别模型与识别字符的方法和装置 Download PDFInfo
- Publication number
- CN110222693A CN110222693A CN201910477704.0A CN201910477704A CN110222693A CN 110222693 A CN110222693 A CN 110222693A CN 201910477704 A CN201910477704 A CN 201910477704A CN 110222693 A CN110222693 A CN 110222693A
- Authority
- CN
- China
- Prior art keywords
- layer
- character
- network structure
- feature extraction
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Abstract
提供了一种构建字符识别模型与识别字符的方法和装置。本发明中的特征提取网络结构包括第一特征提取网络结构或者第二特征提取网络结构,第一特征提取网络结构包括至少一层第一特征提取单元,第一特征提取单元包括依次连接的第一卷积层、第一激活函数层、第二卷积层、第一批标准化层、第二激活函数层以及第一池化层;第二特征提取网络结构包括至少一层第二特征提取单元,第二特征提取单元包括依次连接的第三卷积层、第三激活函数层、第四卷积层、第四激活函数层、第二批标准化层以及第二池化层。在字符识别过程中,通过利用该特征提取网络结构对图片进行特征提取,可以在大大降低对计算资源的要求的同时,做到比主流架构更好的特征提取效果。
Description
技术领域
本发明总体说来涉及字符识别技术领域,更具体地说,涉及一种构建字符识别模型的方法和装置,基于字符识别模型识别图片中字符的方法和装置,以及系统和存储介质。
背景技术
字符识别是计算机视觉研究领域的一个分支。随着科技的发展,字符识别技术的应用越来越广泛。例如,当车辆进入停车场、收费站时,通过利用字符识别技术自动识别车牌,可以免去人工登记步骤,节省人力资源。再例如,通过字符识别技术自动识别出发票中的交易金额、纳税人识别号、开户行等发票信息,可以免去人工录入操作,节省人力资源。
目前主要是利用神经网络技术来实现字符识别。基于神经网络技术的字符识别方案,主要是利用vgg16、ResNet等经典网络骨架来进行特征提取,但是vgg16、ResNet等经典网络骨架往往包含上亿参数,对计算资源要求较高。
发明内容
本发明的示例性实施例旨在克服字符识别过程中特征提取部分所需计算量较高的缺陷。
根据本发明的第一个方面,提出了一种基于字符识别模型识别图片中字符的方法,其中,字符识别模型包括特征提取模块和识别模块,方法包括:将预测图片输入特征提取模块,得到特征提取模块输出的特征矩阵;其中,特征提取模块包括第一特征提取网络结构或者第二特征提取网络结构;第一特征提取网络结构包括至少一层第一特征提取单元,第一特征提取单元包括依次连接的第一卷积层、第一激活函数层、第二卷积层、第一批标准化层、第二激活函数层以及第一池化层;第二特征提取网络结构包括至少一层第二特征提取单元,第二特征提取单元包括依次连接的第三卷积层、第三激活函数层、第四卷积层、第四激活函数层、第二批标准化层以及第二池化层;将特征矩阵输入识别模块,得到识别模块输出的字符识别结果。
可选地,在第一特征提取网络结构包括至少两层第一特征提取单元的情况下,在后的第一特征提取单元中卷积层中的卷积核的个数是在前的第一特征提取单元中卷积层中的卷积核的个数的M倍,其中M≥2,并且/或者在第二特征提取网络结构包括至少两层第二特征提取单元的情况下,在后的第二特征提取单元中卷积层中的卷积核的个数是在前的第二特征提取单元中卷积层中的卷积核的个数的N倍,其中N≥2。
可选地,识别模块包括概率生成单元和解码单元,将特征矩阵输入识别模块,得到识别模块输出的字符识别结果的步骤包括:将特征矩阵输入概率生成单元,以得到概率矩阵,其中,概率矩阵中的每个列向量用于表征预测图片中的一块区域所包含的字符的概率分布,列向量中的每个元素对应于一个字符,元素的取值用于表征该区域包含的字符是该元素所对应的字符的概率;将概率矩阵输入解码单元,得到解码单元生成的预测图片包含的字符的识别结果。
可选地,将特征矩阵输入概率生成单元,以得到概率矩阵的步骤包括:概率生成单元为循环神经网络结构,将特征矩阵中的列向量依次输入循环神经网络结构,以得到由循环神经网络结构输出的概率矩阵。
可选地,循环神经网络结构的隐藏层中神经元的个数是根据字符解空间的大小设定的,并且/或者循环神经网络结构的输出层中神经元的个数与字符解空间的大小之间的差值的绝对值小于第三预定阈值。
可选地,循环神经网络结构的隐藏层中神经元的个数与字符解空间的大小正相关。
可选地,在循环神经网络结构的输出层中神经元的个数与循环神经网络结构的隐藏层中神经元的个数之间的数量差异大于第四预定阈值的情况下,在隐藏层和输出层之间设置一层全连接层,全连接层中神经元的个数与字符解空间的大小之间的差值的绝对值小于第五预定阈值。
可选地,循环神经网络结构由两层双向循环神经网络构成。
可选地,将概率矩阵输入解码单元,得到解码单元生成的预测图片包含的字符的识别结果步骤包括:解码单元计算概率矩阵所有可能的解码路径的概率之和;选取概率之和最大的解码路径,作为预测图片所包含的字符的识别结果。
可选地,解码单元包括编码器和解码器,将概率矩阵输入解码单元,得到解码单元生成的预测图片包含的字符的识别结果的步骤包括:将概率矩阵输入编码器,以得到编码器输出的隐向量;将编码器输出的隐向量输入解码器,以得到解码器输出的识别结果。
根据本发明的第二个方面,还提出了一种构建字符识别模型的方法,该方法包括:设置字符识别模型包括特征提取模块和识别模块,其中,特征提取模块包括第一特征提取网络结构或者第二特征提取网络结构;第一特征提取网络结构包括至少一层第一特征提取单元,第一特征提取单元包括依次连接的第一卷积层、第一激活函数层、第二卷积层、第一批标准化层、第二激活函数层以及第一池化层;第二特征提取网络结构包括至少一层第二特征提取单元,第二特征提取单元包括依次连接的第三卷积层、第三激活函数层、第四卷积层、第四激活函数层、第二批标准化层以及第二池化层;将训练集中的训练图片输入字符识别模型,训练图片经由特征提取模块进行特征提取得到特征矩阵,将特征矩阵输入识别模块,得到识别模块输出的字符识别结果;以使识别模块输出的识别结果与训练图片的标记之间的差异减小为目标,调整特征提取模块和/或识别模块的参数;其中,当特征提取模块包括第一特征提取网络结构时,采用的训练集所包含的所有训练图片中的字符构成的字符解空间大于第一预定阈值,当特征提取模块包括第二特征提取网络结构时,采用的训练集所包含的所有训练图片中的字符构成的字符解空间小于第二预定阈值,第一预定阈值大于或等于第二预定阈值。
可选地,在设置第一特征提取网络结构包括至少两层第一特征提取单元的情况下,设置在后的第一特征提取单元中卷积层中的卷积核的个数是在前的第一特征提取单元中卷积层中的卷积核的个数的M倍,其中M≥2,并且/或者在设置第二特征提取网络结构包括至少两层第二特征提取单元的情况下,设置在后的第二特征提取单元中卷积层中的卷积核的个数是在前的第二特征提取单元中卷积层中的卷积核的个数的N倍,其中N≥2。
可选地,识别模块包括概率生成单元和解码单元,将特征矩阵输入识别模块,得到识别模块输出的字符识别结果的步骤包括:将特征矩阵输入概率生成单元,以得到概率矩阵,其中,概率矩阵中的每个列向量用于表征训练图片中的一块区域所包含的字符的概率分布,列向量中的每个元素对应于一个字符,元素的取值用于表征该区域包含的字符是该元素所对应的字符的概率;将概率矩阵输入解码单元,得到解码单元生成的训练图片包含的字符的识别结果。
可选地,设置概率生成单元为循环神经网络结构,将特征矩阵中的列向量依次输入循环神经网络结构,以得到由循环神经网络结构输出的概率矩阵。
可选地,根据字符解空间的大小设定循环神经网络结构的隐藏层中神经元的个数,并且/或者设置循环神经网络结构的输出层中神经元的个数与字符解空间对应的数值的差值的绝对值小于第三预定阈值。
可选地,设置循环神经网络结构的隐藏层中神经元的个数与字符解空间的大小正相关。
可选地,在循环神经网络结构的输出层中神经元的个数与循环神经网络结构的隐藏层中神经元的个数之间的数量差异大于第四预定阈值的情况下,在隐藏层和输出层之间设置一层全连接层,并设置全连接层中神经元的个数与字符解空间的大小之间的差值的绝对值小于第五预定阈值。
可选地,设置循环神经网络结构由两层双向循环神经网络构成。
可选地,以使识别模块输出的字符识别结果与训练图片的标记之间的差异减小为目标,调整特征提取模块和/或识别模块的参数的步骤包括:根据损失函数调整特征提取网络结构和/或预测模块的参数,损失函数用于表征识别模块输出的字符识别结果与训练图片的标记之间的差异,解码单元还用于计算概率矩阵中符合标记的所有可能解码路径的概率之和,并将概率之和的负相关表达作为损失函数。
可选地,该方法还包括:将训练集分为第一训练集和第二训练集,第一训练集中各个训练图片所包含的字符的数量小于第六预定阈值,第二训练集中各个训练图片所包含的字符的数量大于第七预定阈值,第六预定阈值小于或等于第七预定阈值,其中,将训练集中的训练图片输入字符识别模型的步骤包括:首先将第一训练集中的训练图片输入字符识别模型以进行运算;在利用第一训练集中的训练图片对字符识别模型进行训练之后,再将第二训练集中的训练图片输入字符识别模型以进行运算。
根据本发明的第三个方面,还提出了一种基于字符识别模型识别图片中字符的装置,其中,所述字符识别模型包括特征提取模块和识别模块,所述装置包括:第一输入模块,用于将预测图片输入特征提取模块,得到所述特征提取模块输出的特征矩阵;其中,所述特征提取模块包括第一特征提取网络结构或者第二特征提取网络结构;所述第一特征提取网络结构包括至少一层第一特征提取单元,所述第一特征提取单元包括依次连接的第一卷积层、第一激活函数层、第二卷积层、第一批标准化层、第二激活函数层以及第一池化层;所述第二特征提取网络结构包括至少一层第二特征提取单元,所述第二特征提取单元包括依次连接的第三卷积层、第三激活函数层、第四卷积层、第四激活函数层、第二批标准化层以及第二池化层;第二输入模块,用于将所述特征矩阵输入所述识别模块,得到所述识别模块输出的字符识别结果。
可选地,在第一特征提取网络结构包括至少两层第一特征提取单元的情况下,在后的第一特征提取单元中卷积层中的卷积核的个数是在前的第一特征提取单元中卷积层中的卷积核的个数的M倍,其中M≥2,并且/或者在第二特征提取网络结构包括至少两层第二特征提取单元的情况下,在后的第二特征提取单元中卷积层中的卷积核的个数是在前的第二特征提取单元中卷积层中的卷积核的个数的N倍,其中N≥2。
可选地,识别模块包括:概率生成单元,用于基于利用特征提取模块得到的特征矩阵生成概率矩阵,概率矩阵中的每个列向量用于表征预测图片中的一块区域所包含的字符的概率分布,列向量中的每个元素对应于一个字符,元素的取值用于表征该区域包含的字符是该元素所对应的字符的概率;解码单元,用于基于概率矩阵得到预测图片包含的字符的识别结果。
可选地,概率生成单元为循环神经网络结构,特征矩阵中的列向量被依次输入循环神经网络结构,以得到由循环神经网络结构输出的概率矩阵。
可选地,循环神经网络结构的隐藏层中神经元的个数是根据字符解空间的大小设定的,并且/或者循环神经网络结构的输出层中神经元的个数与字符解空间对应的数值的差值的绝对值小于第三预定阈值。
可选地,循环神经网络结构的隐藏层中神经元的个数与字符解空间的大小正相关。
可选地,在循环神经网络结构的输出层中神经元的个数与循环神经网络结构的隐藏层中神经元的个数之间的数量差异大于第四预定阈值的情况下,在隐藏层和输出层之间设置一层全连接层,全连接层中神经元的个数与字符解空间的大小之间的差值的绝对值小于第五预定阈值。
可选地,循环神经网络结构由两层双向循环神经网络构成。
可选地,解码单元计算概率矩阵所有可能的解码路径的概率之和,并选取概率之和最大的解码路径,作为预测图片所包含的字符的识别结果。
可选地,解码单元包括:编码器,用于对概率矩阵进行处理,以得到隐向量;解码器,用于对隐向量进行处理,以得到预测图片所包含的字符的识别结果。
根据本发明的第四个方面,还提出了一种构建字符识别模型的装置,该装置包括:设置模块,用于设置字符识别模型包括特征提取模块和识别模块,其中,特征提取模块包括第一特征提取网络结构或者第二特征提取网络结构;第一特征提取网络结构包括至少一层第一特征提取单元,第一特征提取单元包括依次连接的第一卷积层、第一激活函数层、第二卷积层、第一批标准化层、第二激活函数层以及第一池化层,第二特征提取网络结构包括至少一层第二特征提取单元;第二特征提取单元包括依次连接的第三卷积层、第三激活函数层、第四卷积层、第四激活函数层、第二批标准化层以及第二池化层:输入模块,用于将训练集中的训练图片输入字符识别模型,训练图片经由特征提取模块进行特征提取得到特征矩阵;将特征矩阵输入识别模块,得到识别模块输出的字符识别结果;调整模块,用于以使识别模块输出的字符识别结果与训练图片的标记之间的差异减小为目标,调整特征提取网络结构和/或预测模块的参数;其中,当特征提取模块包括第一特征提取网络结构时,采用的训练集所包含的所有训练图片中的字符构成的字符解空间大于第一预定阈值,当特征提取模块包括第二特征提取网络结构时,采用的训练集所包含的所有训练图片中的字符构成的字符解空间小于第二预定阈值,第一预定阈值大于或等于第二预定阈值。
可选地,设置模块在设置第一特征提取网络结构包括至少两层第一特征提取单元的情况下,设置在后的第一特征提取单元中卷积层中的卷积核的个数是在前的第一特征提取单元中卷积层中的卷积核的个数的M倍,其中M≥2,并且/或者设置模块在设置第二特征提取网络结构包括至少两层第二特征提取单元的情况下,设置在后的第二特征提取单元中卷积层中的卷积核的个数是在前的第二特征提取单元中卷积层中的卷积核的个数的N倍,其中N≥2。
可选地,识别模块包括概率生成单元和解码单元,输入模块将特征矩阵输入概率生成单元,得到概率矩阵,其中,概率矩阵中的每个列向量用于表征训练图片中的一块区域所包含的字符的概率分布,列向量中的每个元素对应于一个字符,元素的取值用于表征该区域包含的字符是该元素所对应的字符的概率;输入模块将概率矩阵输入解码单元,得到解码单元生成的训练图片包含的字符的识别结果。
可选地,设置模块设置概率生成单元为循环神经网络结构,输入模块将特征矩阵中的列向量依次输入循环神经网络结构,得到由循环神经网络结构输出的概率矩阵。
可选地,设置模块根据字符解空间的大小设定循环神经网络结构的隐藏层中神经元的个数,并且/或者设置模块设置循环神经网络结构的输出层中神经元的个数与字符解空间对应的数值的差值的绝对值小于第三预定阈值。
可选地,设置模块设置循环神经网络结构的隐藏层中神经元的个数与字符解空间的大小正相关。
可选地,在循环神经网络结构的输出层中神经元的个数与循环神经网络结构的隐藏层中神经元的个数之间的数量差异大于第四预定阈值的情况下,设置模块在隐藏层和输出层之间设置一层全连接层,并设置全连接层中神经元的个数与字符解空间的大小之间的差值的绝对值小于第五预定阈值。
可选地,设置模块设置循环神经网络结构由两层双向循环神经网络构成。
可选地,调整模块根据损失函数调整特征提取网络结构和/或预测模块的参数,损失函数用于表征识别模块输出的字符识别结果与训练图片的标记之间的差异,解码单元还用于计算概率矩阵中符合标记的所有可能解码路径的概率之和,并将概率之和的负相关表达作为损失函数。
可选地,该装置还包括:划分模块,用于将训练集分为第一训练集和第二训练集,第一训练集中各个训练图片所包含的字符的数量小于第六预定阈值,第二训练集中各个训练图片所包含的字符的数量大于第七预定阈值,第六预定阈值小于或等于第七预定阈值,输入模块首先将第一训练集中的训练图片输入字符识别模型,在利用第一训练集中的训练图片对字符识别模型进行训练之后,再将第二训练集中的训练图片输入字符识别模型。
根据本发明的第五个方面,还提出了一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,指令在被至少一个计算装置运行时,促使至少一个计算装置执行如本发明第一个方面或第二个方面述及的方法。
根据本发明的第六个方面,还提出了一种存储指令的计算机可读存储介质,其中,当指令被至少一个计算装置运行时,促使至少一个计算装置执行如本发明第一个方面或第二个方面述及的方法。
根据本发明示例性实施例的构建字符识别模型的方法和装置,基于字符识别模型识别图片中字符的方法和装置,以及系统和存储介质中,通过利用本发明探索出的特征提取网络结构对图片进行特征提取,可以在大大降低对计算资源的要求的同时,做到比主流架构更好的特征提取效果,为将方案部署在移动端提供了更大的可能性。
附图说明
从下面结合附图对本发明实施例的详细描述中,本发明的这些和/或其他方面和优点将变得更加清楚并更容易理解,其中:
图1示出了根据本发明示例性实施例的特征提取网络结构的一种结构示意图;
图2示出了根据本发明示例性实施例的特征提取网络结构的另一种结构示意图;
图3示出了根据本发明示例性实施例的字符识别模型的示意图;
图4示出了根据本发明示例性实施例的构建字符识别模型的方法的流程图;
图5示出了根据本发明示例性实施例的基于字符识别模型识别图片中字符的方法的流程图;
图6示出了根据本发明示例性实施例的构建字符识别模型的装置的结构框图;
图7示出了根据本发明示例性实施例的基于字符识别模型识别图片中字符的装置的结构框图。
具体实施方式
为了使本领域技术人员更好地理解本发明,下面结合附图和具体实施方式对本发明的示例性实施例作进一步详细说明。
如背景技术部分所述,现有的基于神经网络技术的字符识别方案主要是利用vgg16、ResNet等经典网络骨架进行特征提取,但是vgg16、ResNet等经典网络骨架往往包含上亿参数,对计算资源要求较高。
为此,本申请的发明人经过大量试验研究后,探索出了一种更为简单、实用的特征提取网络结构。本发明的特征提取网络结构与主流架构(如vgg16、ResNet等)相比,通过一些非常简单的神经网络层,就可以做到比主流架构还要好的特征提取效果。并且本发明的特征提取网络结构的参数量相对较少,可以大大降低对计算资源的要求。
特征提取网络结构
下面首先就本发明探索出的特征提取网络结构进行示例性说明。
本发明探索出了两种分别适用于不同字符解空间大小的特征提取网络结构。
本发明述及的字符解空间是指进行字符识别时涉及的字符的集合,字符解空间的大小也即集合中包含的字符的数量。例如,在需要识别图片中的阿拉伯数字的情况下,字符解空间为{0,1,2,3,4,5,6,7,8,9},字符解空间的大小为10。再例如,如果需要识别图片中的常用汉字,那么字符解空间为常用汉字集合,字符解空间大小约为6000。其中,本发明述及的字符可以是但不限于字母、数字、文字(如汉字)和符号等等。
图1、图2示出了根据本发明示例性实施例的特征提取网络结构的两种结构示意图。为了便于区分,图1所示的特征提取网络结构可以称为第一特征提取网络结构,图2所示的特征提取网络结构可以称为第二特征提取网络结构。
第一特征提取网络结构适用于字符解空间大于第一预定阈值的场景,第二特征提取网络结构适用于字符解空间小于第二预定阈值的场景。其中,第一预定阈值大于或等于第二预定阈值。作为示例,第一预定阈值可以设置为1000,第二预定阈值可以设置为200。第一预定阈值、第二预定阈值还可以是其它数值,关于第一预定阈值、第二预定阈值的其他具体数值,本发明不再赘述。
如图1所示,第一特征提取网络结构包括至少一层第一特征提取单元。其中,每个第一特征提取单元包括依次连接的第一卷积层、第一激活函数层、第二卷积层、第一批标准化层、第二激活函数层以及第一池化层。
如图2所示,第二特征提取网络结构包括至少一层第二特征提取单元。其中,每个第二特征提取单元包括依次连接的第三卷积层、第三激活函数层、第四卷积层、第四激活函数层、第二批标准化层以及第二池化层。
在本发明中,卷积层的作用在于提取局部图像的特征。激活函数层的作用是增加模型的非线性程度,学习更复杂的模式。批标准化层可以控制参数数值的大小,加速模型收敛的速度。池化层可以减小模型对局部扰动的依赖,增加模型的鲁棒性以及平移不变形。
卷积层、激活函数层、批标准化层以及池化层均是本领域技术人员熟知的术语。关于卷积层、激活函数层、批标准化层以及池化层的具体构造及工作原理,本发明不再赘述。
根据上文对本发明的特征提取网络结构的描述可知,本发明的特征提取网络结构使用的都是非常简单的神经网络层。通过对特征提取网络结构各部分的参数进行预估可以发现,本发明的特征提取网络结构的参数量仅在百万数量级。相比于传统的千万甚至上亿个参数的特征提取架构(如vgg16、ResNet等),发明的特征提取网络结构小了很多,对计算资源的要求也不高,为日后部署在移动端提供了更大的可能性。
进一步地,在第一特征提取网络结构包括至少两层第一特征提取单元的情况下,可以设置在后的第一特征提取单元中卷积层中的卷积核的个数是在前的第一特征提取单元中卷积层中的卷积核的个数的M倍,M≥2。由此,可以充分提取前一层的特征。其中,同层第一特征提取单元中各个卷积层中的卷积核的个数相同。
以第一特征提取网络结构包括三层第一特征提取单元为例,首层第一特征提取单元中各个卷积层中的卷积核的个数可以是32,与首层第一特征提取单元连接的第二层的第一特征提取单元中各个卷积层中的卷积核的个数可以是64,与第二层第一特征提取单元连接的第三层的第一特征提取单元中各个卷积层中的卷积核的个数可以是128。
同样地,在第二特征提取网络结构包括至少两层第二特征提取单元的情况下,可以设置在后的第二特征提取单元中卷积层中的卷积核的个数是在前的第二特征提取单元中卷积层中的卷积核的个数的N倍,N≥2。其中,同层第二特征提取单元中各个卷积层中的卷积核的个数相同。由此,可以充分提取前一层的特征。
至此,结合图1、图2就本发明探索出的特征提取网络结构做了详细说明。
字符识别模型
基于本发明探索出的特征提取网络结构,本发明还构建了一种新的字符识别模型。如图3所示,本发明的字符识别模型包括特征提取模块和识别模块。
特征提取模块用于对输入的图片进行特征提取,以得到图片的特征矩阵。特征提取模块包括第一特征提取网络结构或者第二特征提取网络结构。关于第一特征提取网络结构、第二特征提取网络结构可以参见上文相关描述,此处不再赘述。
在实际应用中,可以根据字符识别模型涉及的字符解空间的大小,确定特征提取模块选用哪种特征提取网络结构。例如,在字符识别模型涉及的字符解空间大于第一预定阈值的情况下,特征提取模块包括第一特征提取网络结构,在字符识别模型涉及的字符解空间小于第二预定阈值的情况下,特征提取模块包括第二特征提取网络结构。
识别模块用于基于特征提取模块输出的特征矩阵,得到图片所包含的字符的识别结果。
作为本发明的一个示例,识别模块可以包括概率生成单元和解码单元。
1、概率生成单元
特征提取模块输出的特征矩阵可以输入概率生成单元,以得到概率矩阵。其中,概率矩阵中的每个列向量用于表征图片中的一块区域所包含的字符的概率分布,列向量中的每个元素对应于一个字符,元素的取值用于表征该区域包含的字符是该元素所对应的字符的概率。
考虑到图片中不同字符间通常具有预定的排列顺序,这种排列顺序可以在一定程度上反映字符的上下文关系以及字符的组合关系。例如,图片中的字符通常是从左往右书写的,所以字符的信息是沿着书写顺序传播的。并且对于手写字符,字符中大多还存在连笔等书写现象。
为了使得模型能够学习到字符的上下文关系、字符的组合关系(如词组的结合关系)以及连笔等书写现象,概率生成单元可以采用循环神经网络结构(Recurrent NeuralNetwork,RNN),例如循环神经网络结构可以由两层双向循环神经网络构成。由此,可以基于循环神经网络结构来学习到上述诸多信息,提高模型的识别准确度。其中,循环神经网络结构为本领域技术人员熟知的术语,关于循环神经网络结构的构造及工作原理,本发明不再赘述。
在概率生成单元为循环神经网络结构的情况下,特征矩阵中的列向量可以依次输入循环神经网络结构,以得到由循环神经网络结构输出的概率矩阵。
进一步地,考虑到字符解空间越大,字符识别问题就越复杂,模型解决复杂问题所需的参数通常也就越多。本发明提出,可以根据字符解空间的大小设置循环神经网络结构的隐藏层中神经元的个数。
一般地,字符解空间越大,设置的循环神经网络结构的隐藏层中神经元的个数也就越多。也即可以设置循环神经网络结构的隐藏层中神经元的个数与字符解空间的大小正相关。这里述及的正相关并非数学上严格意义的线性关系,而是定性的正相关关系。
以循环神经网络结构由两层双向循环神经网络构成为例,对于字符解空间大小小于100的场景,可以置第一层双向循环神经网络和第二层双向循环神经网络的隐藏层中神经元的个数均为128,对于解空间大小大于1000的场景,可以设置第一层双向循环神经网络的隐藏层中神经元的个数为128,第二层双向循环神经网络的隐藏层中神经元的个数为256。
在概率生成单元为循环神经网络结构的情况下,可以设置循环神经网络结构的输出层中神经元的个数与字符解空间的大小之间的差值的绝对值小于第三预定阈值。其中,在循环神经网络结构包括多层循环神经网络的情况下,是指对最后一层循环神经网络的输出层中神经元的个数进行设置。第三预定阈值可以是一个常数,如可以是0、1或其他数值。这里之所以将循环神经网络结构的输出层中神经元的个数设置为与字符解空间的大小之间的差值的绝对值小于第三预定阈值,是为了使得循环神经网络结构的输出层中神经元的个数与字符解空间的大小相当,从而使得循环神经网络结构输出的概率矩阵中列向量的维度与字符解空间的大小相当。
例如,在概率生成单元为循环神经网络结构,解码单元采用CTC算法的情况下,循环神经网络结构输出的概率矩阵中每个列向量的维度等于字符解空间的大小加1,其中1用于表征空字符。由此,循环神经网络结构的输出层中神经元的个数可以设置为字符解空间的大小加1。
在循环神经网络结构的输出层中神经元的个数与循环神经网络结构的隐藏层中神经元的个数之间的数量差异较大,例如大于第四预定阈值的情况下,模型效果较差。为此本发明提出,可以在隐藏层和输出层之间设置一层全连接层,全连接层可以视为中间过渡层,全连接层中神经元的个数可以设置为与字符解空间的大小之间的差值的绝对值小于第五预定阈值。其中,第四预定阈值大于第五预定阈值,第四预定阈值、第五预定阈值的具体取值可以根据实际情况设定,此处不再赘述。
在循环神经网络结构的隐藏层中神经元个数与输出层的神经元个数差异较大的情况下,通过增加中间过渡层的方式简单快捷,且能够保证模型效果不受干扰。
以循环神经网络结构为双向RNN为例,双向RNN的隐藏层输出的矢量维度可以是10^2数量级,在解空间大小较小(如字符解空间大小数量级在10^2以内)的场景下,双向RNN的隐藏层和输出层的矢量维度大小的数量级上差别不大,效果较好。在解空间大小较大(如在5000以上),那么最后一层输出层输出的矢量维度比RNN的隐藏层输出的矢量维度大太多,需要中间加一层过渡用的全连接层,维度可以设置为1024,使得连续两层的矢量维度差距不要太大,这样模型的效果较好。
可选地,概率生成单元还可以是其他网络结构。例如,概率生成单元可以由全连接网络和Softmax激活函数构成。特征提取模块的输出(即特征矩阵)可以作用于全连接网络,全连接网络的输出再作用上Softmax激活函数,即可得到概率矩阵。全连接网络、Softmax激活函数均是本领域技术人员熟知的术语,关于全连接网络、Softmax激活函数的结构及工作原理,本发明不再赘述。
2、解码单元
在预测阶段,解码单元可以对概率生成单元输出的代表概率分布的概率矩阵进行解码,以得到图片包含的字符的识别结果。
在训练阶段,解码单元除了可以对概率生成单元输出的代表概率分布的概率矩阵进行解码以得到图片包含的字符的识别结果,还可以根据概率生成单元输出的代表概率分布的概率矩阵,计算损失函数,以便根据损失函数来调整模型参数。其中,损失函数可以用于表征模型的识别结果与真实结果之间的差异,也即可以用于评价模型的效果的好坏。
在本发明中,解码单元可以采用但不限于CTC算法、Attention解码等多种解码算法。
以解码单元采用CTC算法为例,在预测阶段,解码单元可以计算概率矩阵所有可能的解码路径的概率之和,并选取概率之和最大的解码路径,作为图片所包含的字符的识别结果;在训练阶段,解码单元可以计算概率矩阵中符合标记的所有可能解码路径的概率之和,将该概率之和的负相关表达(例如可以将该概率之和的log取负)作为损失函数。
以解码单元采用Attention解码方式为例,解码单元可以包括编码器和解码器两部分。可以将概率矩阵输入编码器,以得到编码器输出的隐向量,并将编码器输出的隐向量输入解码器,以得到解码器输出的识别结果。
CTC算法、Attention解码均为本领域成熟技术,关于解码单元使用CTC算法、Attention解码等方式对概率矩阵进行解码,以得到识别结果的具体实现过程,本发明不再赘述。
至此结合图3就本发明的字符识别模型的结构做了说明。
与现有技术相比,本发明的字符识别模型至少具有如下有益效果。
1)通过利用本发明的特征提取网络结构对图片进行特征提取,可以在大大降低对计算资源的要求的同时,做到比主流架构更好的特征提取效果。
2)传统图像处理方法对图片预处理有一定的要求,往往需要应用二值化、灰度图处理、腐蚀膨胀、去除印章、去除噪音等预处理手段。这样针对不同场景的图片,需要工程师进行针对性的预处理模块设计。本发明的字符识别模型抗噪声的能力较强,对预处理没有要求,可以直接对输入图片进行计算。
3)部分传统模型需要先将图片中的文字逐个切出,再逐个识别切出的单字,最后再将识别结果连接在一起。这样步骤较多,产生误差的概率也会随之增加。本发明的字符识别模型是基于seq2seq(序列到序列)的模型,不需要预先切出单字,直接对图片进行识别即可。
4)传统OCR识别主要针对的印刷体字符,对手写体字符的识别效果较差。本发明对手写体字符的特征提取依旧有效,可以做到和印刷体字符识别差距较小的识别率。
本发明还提出了一种构建字符识别模型的方法,以及基于字符识别模型识别图片中字符的方法。
图4示出了根据本发明示例性实施例的构建字符识别模型的方法的流程图。其中,图4所示的方法可完全通过计算机程序以软件方式实现,还可通过特定配置的计算装置来执行图4所示的方法。
参见图4,在步骤S410,设置字符识别模型包括特征提取模块和识别模块。
特征提取模块包括第一特征提取网络结构或者第二特征提取网络结构。关于第一特征提取网络结构、第二特征提取网络结构,可以参见上文相关描述,此处不再赘述。
在字符识别模型设置完毕后,就可以利用训练集对字符识别模型进行训练,以使得训练后的字符识别模型能够准确地识别出图片中的字符。其中,字符识别模型中的特征提取模块和识别模块可以联合训练,也可以分开训练。
在本发明中,训练集中的训练图片可以是指只包含一行字符的图片。可选地,字符占图片面积的比例可以大于预定阈值,如30%,如此可以提升训练得到的字符识别模型的准确度。
如上文所述,本发明是根据识别场景涉及的字符解空间的大小,来确定特征提取模块选用第一特征提取网络结构还是第二特征提取网络结构的。特征提取模块所选用的特征提取网络结构不同,所采用的训练集也不相同。例如,当特征提取模块包括第一特征提取网络结构时,采用的训练集所包含的所有训练图片中的字符构成的字符解空间大于第一预定阈值,当特征提取模块包括第二特征提取网络结构时,采用的训练集所包含的所有训练图片中的字符构成的字符解空间小于第二预定阈值,第一预定阈值大于或等于第二预定阈值。
在步骤S420,将训练集中的训练图片输入字符识别模型。
训练图片经由特征提取模块进行特征提取得到特征矩阵,将特征矩阵输入识别模块,得到识别模块输出的字符识别结果。
在步骤S430,以使识别模块输出的字符识别结果与训练图片的标记之间的差异减小为目标,调整特征提取模块和/或识别模块的参数。其中,训练图片的标记用于表征训练图片包括的字符的标注结果。
作为示例,可以用损失函数来表征识别模块输出的字符识别结果与训练图片的标记之间的差异。也即可以根据损失函数来调整特征提取模块和/或识别模块的参数。
以识别模块包括概率生成单元和解码单元为例,可以将特征矩阵输入所述概率生成单元,得到概率矩阵,并且可以将概率矩阵输入解码单元,得到解码单元生成的训练图片包含的字符的识别结果。
在训练阶段,解码单元可以用于计算概率矩阵中符合标记的所有可能解码路径的概率之和,并将概率之和的负相关表达作为损失函数。也即概率之和越大,表明模型识别效果越好,差异也就越小。例如,可以将概率之和的log取负来表征损失函数。
可选地,在利用训练集对字符识别模型进行训练的过程中,可以首先利用字符长度短的训练图片进行训练,收敛之后,再利用字符长度长的训练图片进行训练,直到再次收敛。
换言之,可以将训练集分为第一训练集和第二训练集,第一训练集中各个训练图片所包含的字符的数量小于第六预定阈值,第二训练集中各个训练图片所包含的字符的数量大于第七预定阈值,第六预定阈值小于或等于第七预定阈值。可以首先将第一训练集中的训练图片输入字符识别模型,以进行训练;在利用第一训练集中的训练图片对字符识别模型进行训练之后(例如收敛之后),再将第二训练集中的训练图片输入字符识别模型,以进行训练。
图5示出了根据本发明示例性实施例的基于字符识别模型识别图片中字符的方法的流程图。其中,字符识别模型包括特征提取模块和识别模块。图5所示的方法可完全通过计算机程序以软件方式实现,还可通过特定配置的计算装置来执行图5所示的方法。
参见图5,在步骤S510,将预测图片输入特征提取模块,得到特征提取模块输出的特征矩阵。
特征提取模块包括第一特征提取网络结构或者第二特征提取网络结构。关于第一特征提取网络结构、第二特征提取网络结构,可以参见上文相关描述,此处不再赘述。
在步骤S520,将特征矩阵输入识别模块,得到识别模块输出的字符识别结果。关于字符识别模块的结构及识别过程,可以参见上文相关描述,此处不再赘述。
在利用字符识别模型识别图片中所包括的字符时,字符识别模型的输入为仅包括一行字符的图片。在待识别的图片中包括多行文本的情况下,可以首先定位出图片中的每一行文本,然后将每行文本所在的区域切分出来,切出来的图片即可作为字符识别模型的输入。
另外,还可以对识别模块输出的字符识别结果进行修正,将修正后的结果作为最终的字符识别结果。例如,可以通过自然语言处理的n-gram模型对识别模块输出的字符识别结果进行修正。实验结果表明对一些特定的场景,例如地址、公司名,经过修正可以得到更为准确的识别效果。
本发明的构建字符识别模型的方法,还可以实现为一种构建字符识别模型的装置。图6示出了根据本发明示例性实施例的构建字符识别模型的装置的结构框图。其中,构建字符识别模型的装置的功能单元可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是,图6所描述的功能单元可以组合起来或者划分成子单元,从而实现上述发明的原理。因此,本文的描述可以支持对本文描述的功能单元的任何可能的组合、或者划分、或者更进一步的限定。
下面就构建字符识别模型的装置可以具有的功能单元以及各功能单元可以执行的操作做简要说明,对于其中涉及的细节部分可以参见上文相关描述,这里不再赘述。
参见图6,构建字符识别模型的装置600包括设置模块610、输入模块620以及调整模块630。
设置模块610用于设置字符识别模型包括特征提取模块和识别模块,其中,特征提取模块包括第一特征提取网络结构或者第二特征提取网络结构。关于第一特征提取网络结构、第二特征提取网络结构,可以参见上文相关描述,此处不再赘述。
设置模块610在设置第一特征提取网络结构包括至少两层第一特征提取单元的情况下,设置在后的第一特征提取单元中卷积层中的卷积核的个数是在前的第一特征提取单元中卷积层中的卷积核的个数的M倍,其中M≥2。并且/或者,设置模块610在设置第二特征提取网络结构包括至少两层第二特征提取单元的情况下,设置在后的第二特征提取单元中卷积层中的卷积核的个数是在前的第二特征提取单元中卷积层中的卷积核的个数的N倍,其中N≥2。
输入模块620用于将训练集中的训练图片输入字符识别模型,训练图片经由特征提取模块进行特征提取得到特征矩阵;将特征矩阵输入识别模块,得到识别模块输出的字符识别结果。
作为示例,识别模块可以包括概率生成单元和解码单元,输入模块将特征矩阵输入概率生成单元,得到概率矩阵,其中,概率矩阵中的每个列向量用于表征训练图片中的一块区域所包含的字符的概率分布,列向量中的每个元素对应于一个字符,元素的取值用于表征该区域包含的字符是该元素所对应的字符的概率;输入模块将概率矩阵输入解码单元,得到解码单元生成的训练图片包含的字符的识别结果。
设置模块610可以设置概率生成单元为循环神经网络结构,例如设置模块610可以设置所述循环神经网络结构由两层双向循环神经网络构成。输入模块620可以将特征矩阵中的列向量依次输入循环神经网络结构,得到由循环神经网络结构输出的概率矩阵。
设置模块610还可以根据字符解空间的大小设定循环神经网络结构的隐藏层中神经元的个数。例如,设置模块610可以设置循环神经网络结构的隐藏层中神经元的个数与字符解空间的大小正相关。并且/或者设置模块610还可以设置循环神经网络结构的输出层中神经元的个数与字符解空间对应的数值的差值的绝对值小于第三预定阈值。
在循环神经网络结构的输出层中神经元的个数与循环神经网络结构的隐藏层中神经元的个数之间的数量差异大于第四预定阈值的情况下,设置模块610还可以在隐藏层和输出层之间设置一层全连接层,并设置全连接层中神经元的个数与字符解空间的大小之间的差值的绝对值小于第五预定阈值。
调整模块630用于以使识别模块输出的字符识别结果与训练图片的标记之间的差异减小为目标,调整特征提取网络结构和/或预测模块的参数。
可选地,调整模块630可以根据损失函数调整特征提取网络结构和/或预测模块的参数,损失函数用于表征所述识别模块输出的字符识别结果与所述训练图片的标记之间的差异。其中,解码单元还用于计算概率矩阵中符合标记的所有可能解码路径的概率之和,并将概率之和的负相关表达作为损失函数。
应该理解,根据本发明示例性实施例的构建字符识别模型的装置600的具体实现方式可参照结合图4描述的相关具体实现方式来实现,在此不再赘述。
本发明的基于字符识别模型识别图片中字符的方法,还可以实现为一种基于字符识别模型识别图片中字符的装置。图7示出了根据本发明示例性实施例的基于字符识别模型识别图片中字符的装置的结构框图。其中,字符识别模型包括特征提取模块和识别模块。基于字符识别模型识别图片中字符的装置的功能单元可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是,图7所描述的功能单元可以组合起来或者划分成子单元,从而实现上述发明的原理。因此,本文的描述可以支持对本文描述的功能单元的任何可能的组合、或者划分、或者更进一步的限定。
下面就基于字符识别模型识别图片中字符的装置可以具有的功能单元以及各功能单元可以执行的操作做简要说明,对于其中涉及的细节部分可以参见上文相关描述,这里不再赘述。
参见图7,基于字符识别模型识别图片中字符的装置700包括第一输入模块710和第二输入模块720。
第一输入模块710用于将预测图片输入特征提取模块,得到特征提取模块输出的特征矩阵。其中,特征提取模块包括第一特征提取网络结构或者第二特征提取网络结构。关于第一特征提取网络结构、第二特征提取网络结构可以参见上文相关描述,此处不再赘述。
第二输入模块720用于将特征矩阵输入识别模块,得到识别模块输出的字符识别结果。关于识别模块的结构及识别原理可以参见上文相关描述,此处不再赘述。
应该理解,根据本发明示例性实施例的基于字符识别模型识别图片中字符的装置700的具体实现方式可参照结合图5描述的相关具体实现方式来实现,在此不再赘述。
图6、图7所示出的装置可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如,这些装置可对应于专用的集成电路,也可对应于纯粹的软件代码,还可对应于软件与硬件相结合的单元或模块。此外,这些装置所实现的一个或多个功能也可由物理实体设备(例如,处理器、客户端或服务器等)中的组件来统一执行。
以上参照图1到图7描述了根据本发明示例性实施例的构建字符识别模型的方法、基于字符识别模型识别图片中字符的方法以及相应的装置。应理解,上述方法可通过记录在计算可读介质上的程序来实现,例如,根据本发明的示例性实施例,可提供一种存储指令的计算机可读存储介质,其中,在所述计算机可读介质上记录有用于执行图4示出的构建字符识别模型的方法或者图5示出的基于字符识别模型识别图片中字符的方法的计算机程序。
上述计算机可读介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,应注意,所述计算机程序除了可用于执行除了图4、图5示出的步骤之外,还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理,这些附加步骤和进一步处理的内容已经参照图4、图5进行了描述,这里为了避免重复将不再进行赘述。
应注意,根据本发明示例性实施例的构建字符识别模型的装置和基于字符识别模型识别图片中字符的装置,可完全依赖计算机程序的运行来实现相应的功能,即,各个装置与计算机程序的功能架构中与各步骤相应,使得整个系统通过专门的软件包(例如,lib库)而被调用,以实现相应的功能。
另一方面,图6、图7所示的各个装置也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时,用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中,使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。
例如,本发明的示例性实施例还可以实现为计算装置,该计算装置包括存储部件和处理器,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行构建字符识别模型的方法或基于字符识别模型识别图片中字符的方法。
具体说来,所述计算装置可以部署在服务器或客户端中,也可以部署在分布式网络环境中的节点装置上。此外,所述计算装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。
这里,所述计算装置并非必须是单个的计算装置,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算装置还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子装置。
在所述计算装置中,处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
根据本发明示例性实施例的构建字符识别模型的方法或基于字符识别模型识别图片中字符的方法中所描述的某些操作可通过软件方式来实现,某些操作可通过硬件方式来实现,此外,还可通过软硬件结合的方式来实现这些操作。
处理器可运行存储在存储部件之一中的指令或代码,其中,所述存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,所述网络接口装置可采用任何已知的传输协议。
存储部件可与处理器集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储部件可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储部件和处理器可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器能够读取存储在存储部件中的文件。
此外,所述计算装置还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。计算装置的所有组件可经由总线和/或网络而彼此连接。
根据本发明示例性实施例的构建字符识别模型的方法或基于字符识别模型识别图片中字符的方法所涉及的操作可被描述为各种互联或耦合的功能块或功能示图。然而,这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。
例如,如上所述,根据本发明示例性实施例的构建字符识别模型的装置或基于字符识别模型识别图片中字符的装置可包括存储部件和处理器,其中,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行上文述及的构建字符识别模型的方法或基于字符识别模型识别图片中字符的方法。
以上描述了本发明的各示例性实施例,应理解,上述描述仅是示例性的,并非穷尽性的,本发明不限于所披露的各示例性实施例。在不偏离本发明的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本发明的保护范围应该以权利要求的范围为准。
Claims (10)
1.一种基于字符识别模型识别图片中字符的方法,其中,所述字符识别模型包括特征提取模块和识别模块,所述方法包括:
将预测图片输入特征提取模块,得到所述特征提取模块输出的特征矩阵;其中,所述特征提取模块包括第一特征提取网络结构或者第二特征提取网络结构;所述第一特征提取网络结构包括至少一层第一特征提取单元,所述第一特征提取单元包括依次连接的第一卷积层、第一激活函数层、第二卷积层、第一批标准化层、第二激活函数层以及第一池化层;所述第二特征提取网络结构包括至少一层第二特征提取单元,所述第二特征提取单元包括依次连接的第三卷积层、第三激活函数层、第四卷积层、第四激活函数层、第二批标准化层以及第二池化层;
将所述特征矩阵输入所述识别模块,得到所述识别模块输出的字符识别结果。
2.根据权利要求1所述的方法,其中,
在所述第一特征提取网络结构包括至少两层第一特征提取单元的情况下,在后的第一特征提取单元中卷积层中的卷积核的个数是在前的第一特征提取单元中卷积层中的卷积核的个数的M倍,其中M≥2,并且/或者
在所述第二特征提取网络结构包括至少两层第二特征提取单元的情况下,在后的第二特征提取单元中卷积层中的卷积核的个数是在前的第二特征提取单元中卷积层中的卷积核的个数的N倍,其中N≥2。
3.根据权利要求1所述的方法,其中,所述识别模块包括概率生成单元和解码单元,所述将所述特征矩阵输入所述识别模块,得到所述识别模块输出的字符识别结果的步骤包括:
将所述特征矩阵输入所述概率生成单元,以得到概率矩阵,其中,所述概率矩阵中的每个列向量用于表征所述预测图片中的一块区域所包含的字符的概率分布,所述列向量中的每个元素对应于一个字符,元素的取值用于表征该区域包含的字符是该元素所对应的字符的概率;
将所述概率矩阵输入所述解码单元,得到所述解码单元生成的所述预测图片包含的字符的识别结果。
4.根据权利要求3所述的方法,其中,所述将所述特征矩阵输入所述概率生成单元,以得到概率矩阵的步骤包括:
所述概率生成单元为循环神经网络结构,将所述特征矩阵中的列向量依次输入循环神经网络结构,以得到由所述循环神经网络结构输出的概率矩阵。
5.根据权利要求4所述的方法,其中,
所述循环神经网络结构的隐藏层中神经元的个数是根据所述字符解空间的大小设定的,并且/或者
所述循环神经网络结构的输出层中神经元的个数与所述字符解空间的大小之间的差值的绝对值小于第三预定阈值。
6.一种构建字符识别模型的方法,该方法包括:
设置字符识别模型包括特征提取模块和识别模块,其中,所述特征提取模块包括第一特征提取网络结构或者第二特征提取网络结构;所述第一特征提取网络结构包括至少一层第一特征提取单元,所述第一特征提取单元包括依次连接的第一卷积层、第一激活函数层、第二卷积层、第一批标准化层、第二激活函数层以及第一池化层;所述第二特征提取网络结构包括至少一层第二特征提取单元,所述第二特征提取单元包括依次连接的第三卷积层、第三激活函数层、第四卷积层、第四激活函数层、第二批标准化层以及第二池化层;
将训练集中的训练图片输入所述字符识别模型,训练图片经由所述特征提取模块进行特征提取得到特征矩阵,将所述特征矩阵输入所述识别模块,得到所述识别模块输出的字符识别结果;
以使所述识别模块输出的字符识别结果与所述训练图片的标记之间的差异减小为目标,调整所述特征提取模块和/或所述识别模块的参数;
其中,当所述特征提取模块包括第一特征提取网络结构时,采用的训练集所包含的所有训练图片中的字符构成的字符解空间大于第一预定阈值,当所述特征提取模块包括第二特征提取网络结构时,采用的训练集所包含的所有训练图片中的字符构成的字符解空间小于第二预定阈值,所述第一预定阈值大于或等于所述第二预定阈值。
7.一种基于字符识别模型识别图片中字符的装置,其中,所述字符识别模型包括特征提取模块和识别模块,所述装置包括:
第一输入模块,用于将预测图片输入特征提取模块,得到所述特征提取模块输出的特征矩阵;其中,所述特征提取模块包括第一特征提取网络结构或者第二特征提取网络结构;所述第一特征提取网络结构包括至少一层第一特征提取单元,所述第一特征提取单元包括依次连接的第一卷积层、第一激活函数层、第二卷积层、第一批标准化层、第二激活函数层以及第一池化层;所述第二特征提取网络结构包括至少一层第二特征提取单元,所述第二特征提取单元包括依次连接的第三卷积层、第三激活函数层、第四卷积层、第四激活函数层、第二批标准化层以及第二池化层;
第二输入模块,用于将所述特征矩阵输入所述识别模块,得到所述识别模块输出的字符识别结果。
8.一种构建字符识别模型的装置,该装置包括:
设置模块,用于设置字符识别模型包括特征提取模块和识别模块,其中,所述特征提取模块包括第一特征提取网络结构或者第二特征提取网络结构;所述第一特征提取网络结构包括至少一层第一特征提取单元,所述第一特征提取单元包括依次连接的第一卷积层、第一激活函数层、第二卷积层、第一批标准化层、第二激活函数层以及第一池化层,所述第二特征提取网络结构包括至少一层第二特征提取单元;所述第二特征提取单元包括依次连接的第三卷积层、第三激活函数层、第四卷积层、第四激活函数层、第二批标准化层以及第二池化层:
输入模块,用于将训练集中的训练图片输入所述字符识别模型,训练图片经由所述特征提取模块进行特征提取得到特征矩阵;将所述特征矩阵输入所述识别模块,得到所述识别模块输出的字符识别结果;
调整模块,用于以使所述识别模块输出的字符识别结果与所述训练图片的标记之间的差异减小为目标,调整所述特征提取网络结构和/或所述预测模块的参数;
其中,当所述特征提取模块包括第一特征提取网络结构时,采用的训练集所包含的所有训练图片中的字符构成的字符解空间大于第一预定阈值,当所述特征提取模块包括第二特征提取网络结构时,采用的训练集所包含的所有训练图片中的字符构成的字符解空间小于第二预定阈值,所述第一预定阈值大于或等于所述第二预定阈值。
9.一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1到6中的任一权利要求所述的方法。
10.一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1到6中的任一权利要求所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910477704.0A CN110222693B (zh) | 2019-06-03 | 2019-06-03 | 构建字符识别模型与识别字符的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910477704.0A CN110222693B (zh) | 2019-06-03 | 2019-06-03 | 构建字符识别模型与识别字符的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110222693A true CN110222693A (zh) | 2019-09-10 |
CN110222693B CN110222693B (zh) | 2022-03-08 |
Family
ID=67819183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910477704.0A Active CN110222693B (zh) | 2019-06-03 | 2019-06-03 | 构建字符识别模型与识别字符的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110222693B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033240A (zh) * | 2019-12-09 | 2021-06-25 | 上海高德威智能交通系统有限公司 | 多行文本识别方法、模型训练方法、装置、设备及介质 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919942A (zh) * | 2017-01-18 | 2017-07-04 | 华南理工大学 | 用于手写汉字识别的深度卷积神经网络的加速压缩方法 |
CN107480680A (zh) * | 2017-07-28 | 2017-12-15 | 顺丰科技有限公司 | 基于OCR和Bi‑LSTM的识别图像中文字信息的方法、系统及设备 |
CN108304921A (zh) * | 2018-02-09 | 2018-07-20 | 北京市商汤科技开发有限公司 | 卷积神经网络的训练方法及图像处理方法、装置 |
CN108446689A (zh) * | 2018-05-30 | 2018-08-24 | 南京开为网络科技有限公司 | 一种人脸识别方法 |
US20180261213A1 (en) * | 2017-03-13 | 2018-09-13 | Baidu Usa Llc | Convolutional recurrent neural networks for small-footprint keyword spotting |
CN108804397A (zh) * | 2018-06-12 | 2018-11-13 | 华南理工大学 | 一种基于少量目标字体的汉字字体转换生成的方法 |
CN108921163A (zh) * | 2018-06-08 | 2018-11-30 | 南京大学 | 一种基于深度学习的包装喷码检测方法 |
CN108922517A (zh) * | 2018-07-03 | 2018-11-30 | 百度在线网络技术(北京)有限公司 | 训练盲源分离模型的方法、装置及存储介质 |
CN109191457A (zh) * | 2018-09-21 | 2019-01-11 | 中国人民解放军总医院 | 一种病理图像质量有效性识别方法 |
CN109299717A (zh) * | 2018-09-13 | 2019-02-01 | 网易(杭州)网络有限公司 | 文字识别模型建立及文字识别方法、装置、介质及设备 |
US20190057521A1 (en) * | 2017-08-15 | 2019-02-21 | Siemens Healthcare Gmbh | Topogram Prediction from Surface Data in Medical Imaging |
CN109492679A (zh) * | 2018-10-24 | 2019-03-19 | 杭州电子科技大学 | 基于注意力机制与联结时间分类损失的文字识别方法 |
CN109685100A (zh) * | 2018-11-12 | 2019-04-26 | 平安科技(深圳)有限公司 | 字符识别方法、服务器及计算机可读存储介质 |
CA3034730A1 (en) * | 2018-02-26 | 2019-05-06 | Capital One Services, Llc | Dual stage neural network pipeline systems and methods |
CN109815339A (zh) * | 2019-01-02 | 2019-05-28 | 平安科技(深圳)有限公司 | 基于TextCNN知识抽取方法、装置、计算机设备及存储介质 |
-
2019
- 2019-06-03 CN CN201910477704.0A patent/CN110222693B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919942A (zh) * | 2017-01-18 | 2017-07-04 | 华南理工大学 | 用于手写汉字识别的深度卷积神经网络的加速压缩方法 |
US20180261213A1 (en) * | 2017-03-13 | 2018-09-13 | Baidu Usa Llc | Convolutional recurrent neural networks for small-footprint keyword spotting |
CN107480680A (zh) * | 2017-07-28 | 2017-12-15 | 顺丰科技有限公司 | 基于OCR和Bi‑LSTM的识别图像中文字信息的方法、系统及设备 |
US20190057521A1 (en) * | 2017-08-15 | 2019-02-21 | Siemens Healthcare Gmbh | Topogram Prediction from Surface Data in Medical Imaging |
CN108304921A (zh) * | 2018-02-09 | 2018-07-20 | 北京市商汤科技开发有限公司 | 卷积神经网络的训练方法及图像处理方法、装置 |
CA3034730A1 (en) * | 2018-02-26 | 2019-05-06 | Capital One Services, Llc | Dual stage neural network pipeline systems and methods |
CN108446689A (zh) * | 2018-05-30 | 2018-08-24 | 南京开为网络科技有限公司 | 一种人脸识别方法 |
CN108921163A (zh) * | 2018-06-08 | 2018-11-30 | 南京大学 | 一种基于深度学习的包装喷码检测方法 |
CN108804397A (zh) * | 2018-06-12 | 2018-11-13 | 华南理工大学 | 一种基于少量目标字体的汉字字体转换生成的方法 |
CN108922517A (zh) * | 2018-07-03 | 2018-11-30 | 百度在线网络技术(北京)有限公司 | 训练盲源分离模型的方法、装置及存储介质 |
CN109299717A (zh) * | 2018-09-13 | 2019-02-01 | 网易(杭州)网络有限公司 | 文字识别模型建立及文字识别方法、装置、介质及设备 |
CN109191457A (zh) * | 2018-09-21 | 2019-01-11 | 中国人民解放军总医院 | 一种病理图像质量有效性识别方法 |
CN109492679A (zh) * | 2018-10-24 | 2019-03-19 | 杭州电子科技大学 | 基于注意力机制与联结时间分类损失的文字识别方法 |
CN109685100A (zh) * | 2018-11-12 | 2019-04-26 | 平安科技(深圳)有限公司 | 字符识别方法、服务器及计算机可读存储介质 |
CN109815339A (zh) * | 2019-01-02 | 2019-05-28 | 平安科技(深圳)有限公司 | 基于TextCNN知识抽取方法、装置、计算机设备及存储介质 |
Non-Patent Citations (4)
Title |
---|
BAOGUANG SHI 等: "An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
SUKESH ADIGA V 等: "FPD-M-net: Fingerprint Image Denoising and Inpainting Using M-Net Based Convolutional Neural Networks", 《网络在线公开: HTTPS://ARXIV.53YU.COM/ABS/1812.10191》 * |
李竞: "基于深度学习的微表情识别研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
论智: "Batch-normalized 应该放在非线性激活层的前面还是后面?", 《网络在线公开: HTTPS://WWW.ZHIHU.COM/QUESTION/283715823》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033240A (zh) * | 2019-12-09 | 2021-06-25 | 上海高德威智能交通系统有限公司 | 多行文本识别方法、模型训练方法、装置、设备及介质 |
CN113033240B (zh) * | 2019-12-09 | 2023-05-02 | 上海高德威智能交通系统有限公司 | 多行文本识别方法、模型训练方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110222693B (zh) | 2022-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111985229B (zh) | 一种序列标注方法、装置及计算机设备 | |
Chen et al. | Residual multi-task learning for facial landmark localization and expression recognition | |
CN110232373A (zh) | 人脸聚类方法、装置、设备和存储介质 | |
CN111325664B (zh) | 风格迁移方法、装置、存储介质及电子设备 | |
JP2006073000A (ja) | テキストおよびグラフィクスの空間認識およびグループ化 | |
CN111488931A (zh) | 文章质量评估方法、文章推荐方法及其对应的装置 | |
CN111738016A (zh) | 多意图识别方法及相关设备 | |
CN114970522B (zh) | 语言模型的预训练方法、装置、设备、存储介质 | |
CN110222184A (zh) | 一种文本的情感信息识别方法及相关装置 | |
CN111243050A (zh) | 肖像简笔画生成方法、系统及绘画机器人 | |
CN106067019A (zh) | 针对图像进行文字识别的方法及装置 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN110688897A (zh) | 一种基于联合判断与生成学习的行人重识别方法及装置 | |
CN112949758A (zh) | 应答模型的训练方法、应答方法、装置、设备及存储介质 | |
CN112541332A (zh) | 表单信息抽取方法、装置、电子设备及存储介质 | |
CN115311130A (zh) | 一种多风格中国书法文字图像风格迁移方法、系统及终端 | |
CN111046771A (zh) | 用于恢复书写轨迹的网络模型的训练方法 | |
CN112199502A (zh) | 基于情感的诗句生成方法及装置、电子设备和存储介质 | |
CN113723077B (zh) | 基于双向表征模型的句向量生成方法、装置及计算机设备 | |
JP2021182441A (ja) | 画像を処理するための方法、装置、機器、媒体およびプログラム | |
Li et al. | Multi-level correlation mining framework with self-supervised label generation for multimodal sentiment analysis | |
Wang et al. | Towards harmonized regional style transfer and manipulation for facial images | |
CN113408418A (zh) | 一种书法字体与文字内容同步识别方法及系统 | |
CN117033609B (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
CN110222839A (zh) | 一种网络表示学习的方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |