CN112464945A - 基于深度学习算法的文本识别方法、装置、设备及存储介质 - Google Patents

基于深度学习算法的文本识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112464945A
CN112464945A CN202011391722.6A CN202011391722A CN112464945A CN 112464945 A CN112464945 A CN 112464945A CN 202011391722 A CN202011391722 A CN 202011391722A CN 112464945 A CN112464945 A CN 112464945A
Authority
CN
China
Prior art keywords
image
text recognition
network model
key point
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011391722.6A
Other languages
English (en)
Inventor
郭唐仪
陈墨
练智超
张德龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Chengshi Technology Co ltd
Original Assignee
Zhejiang Chengshi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Chengshi Technology Co ltd filed Critical Zhejiang Chengshi Technology Co ltd
Priority to CN202011391722.6A priority Critical patent/CN112464945A/zh
Publication of CN112464945A publication Critical patent/CN112464945A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明适用于计算机技术领域,提供了一种基于深度学习算法的文本识别方法、装置、设备及存储介质,所述方法包括:根据关键点定位网络模型对包含不规则文本的图像进行处理,确定多个关键点的坐标信息,并进一步构建B样条曲线;根据B样条曲线和矫正直线确定差值变换矩阵,并利用该差值变换矩阵对图像进行变化处理得到矫正后图像;根据文本识别网络模型对矫正后图像进行文本识别,确定文本识别结果信息。本发明提供的方法先定位关键点,再构建描述文本走向的B样条曲线,然后确定B样条曲线与矫正直线之间的差值变换矩阵,并利用该差值变换矩阵对图像进行矫正,同时实现了对图像中不规则文本的矫正,提高了最终利用文本识别网络模型进行文本识别处理的准确率。

Description

基于深度学习算法的文本识别方法、装置、设备及存储介质
技术领域
本发明属于计算机技术领域,尤其涉及一种基于深度学习算法的文本识别方法、装置、设备及存储介质。
背景技术
随着科技的发展,文本识别算法已经得到了广泛且深入的研究并且已经有大量基于这些算法的工业应用,例如证件识别,文案识别,车牌识别。然而,在上述特定的应用场景中,所识别的文档文本照片中文本较为工整,而对于场景文本的识别却仍存在着许多难题,例如任意角度的文本走向、弯曲文本、各种各样的字体、多重字形艺术风格。
现有的文本识别算法在用于对文本较为工整的文档文本照片的识别,识别结果较为准确,然而当文档文本照片中存在着不规则的文本时,识别难度将大大提高,常规的文本识别算法无法准确的识别出不规则的文本,而有些算法虽然可以在一定程度上提升不规则的文本的识别准确率,但是需要大量的训练样本数量,训练时间也会大大延长,导致算法成本提升。
可见,现有的文本识别算法还无法快速、准确对不规则的文本进行识别。
发明内容
本发明实施例的目的在于提供一种基于深度学习算法的文本识别方法,旨在解决现有的文本识别算法还存在的无法快速、准确对不规则的文本进行识别的技术问题。
本发明实施例是这样实现的,一种基于深度学习算法的文本识别方法,其特征在于,包括:
获取包含不规则文本的待识别图像;
根据预设的关键点定位网络模型对所述待识别图像进行处理,确定所述待识别图像的多个关键点的坐标信息;
根据所述多个关键点的坐标信息构建B样条曲线;
根据所述B样条曲线与预设的矫正直线确定差值变换矩阵;
根据所述差值变换矩阵对所述待识别图像进行变换,得到矫正后图像;
根据预设的文本识别网络模型对所述矫正后图像进行处理,确定文本识别结果信息。
本发明实施例的另一目的在于提供一种基于深度学习算法的文本识别装置,包括:
待识别图像获取单元,用于获取包含不规则文本的待识别图像;
关键点定位单元,用于根据预设的关键点定位网络模型对所述待识别图像进行处理,确定所述待识别图像的多个关键点的坐标信息;
B样条曲线构建单元,用于根据所述多个关键点的坐标信息构建B样条曲线;
差值变换矩阵确定单元,用于根据所述B样条曲线与预设的矫正直线确定差值变换矩阵;
图像矫正单元,用于根据所述差值变换矩阵对所述待识别图像进行变换,得到矫正后图像;
文本识别单元,用于根据预设的文本识别网络模型对所述矫正后图像进行处理,确定文本识别结果信息。
本发明实施例的另一目的在于提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上述所述基于深度学习算法的文本识别方法的步骤。
本发明实施例的另一目的在于提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上述所述基于深度学习算法的文本识别方法的步骤。
本发明实施例提供的一种基于深度学习算法的文本识别方法,在获取到包含不规则文本的待识别图像,先利用关键点定位网络模型定位待识别图像中的关键点坐标信息,然后根据关键点的坐标信息构建B样条曲线,其中B样条曲线可以描述待识别图像中不规则文本的走向,然后进一步根据B样条曲线和矫正直线确定差值变换矩阵,再利用该差值变换矩阵对待识别图像进行变换,得到矫正后图像,此时待识别图像中的不规则文本也随之得到矫正,最后根据文本识别网络模型对矫正后图像进行处理以确定文本识别结果信息。本发明提供的基于深度学习算法的文本识别方法,先定位关键点,再构建描述文本走向的B样条曲线,然后确定B样条曲线与矫正直线之间的差值变换矩阵,并利用该差值变换矩阵对待识别图像进行矫正,从而同时实现了对待识别图像中不规则文本的矫正,最后对矫正后的图像利用常规的文本识别网络模型进行识别处理,相对于常规文本识别网络模型,文本识别准确率高,而相对于可直接对不规则文本进行识别的文本识别网络模型,本发明中用到的关键点定位网络模型和文本识别网络模型所需要的训练成本更低。
附图说明
图1为本发明实施例提供的一种基于深度学习算法的文本识别方法的步骤流程图;
图2为本发明实施例提供的一种确定差值变换矩阵的步骤流程图;
图3为本发明实施例提供的一种训练生成关键点定位网络模型的步骤流程图;
图4为本发明实施例提供的一种训练生成关键点定位网络模型的步骤流程图;
图5为本发明实施例提供的一种基于深度学习算法的文本识别方法的实施示例图;
图6为本发明实施例提供的一种基于深度学习算法的文本识别装置的结构示意图;
图7为本发明实施例提供的一种执行基于深度学习算法的文本识别方法的计算机设备的内部结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
现有的文本识别网络模型对包含不规则文本的图像文本识别效果不理想,而专门训练生成的可对包含不规则文本的图像进行文本识别的文本识别网络模型需要依赖于大量的样本数据,且训练时间长,训练成本高。本发明为解决上述技术问题,通过利用关键点定位网络模型以及B样条曲线来确定图像中不规则文本的走向,并得到与矫正直线之间的差值变换矩阵,通过利用该差值变换矩阵对待识别图像进行识别处理,可以同时实现对图像中不规则文本的矫正,最后基于常规的文本识别网络模型就可以方便快捷的实现对图像中文本的识别处理。本发明提供的基于深度学习算法的文本识别方法对包含不规则文本的图像的文本识别效果好,且不需要依赖于大量的样本数据进行训练,实现成本低。
如图1所示,为本发明实施例提供的一种基于深度学习算法的文本识别方法的步骤流程图,具体包括以下步骤:
步骤S102,获取包含不规则文本的待识别图像。
在本发明实施例中,在生活中有许多场景都涉及到对不规则文本的图像识别,所述不规则文本通常是指排列形状不平整、字体大小不统一的文本,当然也可以涉及到艺术字体等等,本发明对不规则文本的具体表现形式不做具体的限制。
在本发明实施例中,需要说明的一点是,虽然本发明提供的是一种不规则文本识别方法,但显然本发明提供的不规则文本识别方法也能够和常规的文本识别模型一样对规则文本进行识别,效果并无明显区别。
步骤S104,根据预设的关键点定位网络模型对所述待识别图像进行处理,确定所述待识别图像的多个关键点的坐标信息。
在本发明实施例中,所述关键点通常是指待识别图像中不规则文本的边角,此类边角通常具有明显的边缘特征,因此可以通过人工智能算法学习该边缘特征,从而实现对关键点的定位。而通过这些关键点,就可以拟合出不规则文本的趋势走向,用于后续的矫正处理。
作为本发明的一个优选实施例,关键点定位网络模型是预先基于卷积神经网络算法训练生成的。其中,卷积神经网络算法属于本领域技术人员的熟知的一种常规人工智能算法,本发明在此不对卷积神经网络算法的原理做详细的说明,而基于卷积神经网络算法训练生成关键点定位网络模型的具体实现过程请参阅后续图3及其解释说明。
作为本发明的一个优选实施例,进一步的,提供一种具体的关键点定位网络模型的构型,具体可分为十层,用于实现对尺寸为32*100*1(高*宽*通道数)的灰度图像(也就是包含不规则文本的待识别图像)的处理,其中:
第一层为第一个卷积层,输出尺寸为32*100*64;
第二层为第一个池化层,输出尺寸为16*50*64;
第三层为第二个卷积层,输出尺寸为16*50*128;
第四层为第二个池化层,输出尺寸为8*25*128;
第五层为第三个卷积层,输出尺寸为8*25*256;
第六层为第三个池化层,输出尺寸为4*12*256;
第七层为第四个卷积层,输出尺寸为4*12*256;
第八层为第八个池化层,输出尺寸为2*6*256。
第九层为第一个完全连接层,输出尺寸为512。
第十层为第二个完全连接层,输出尺寸为2n,n为关键点的数量,即n个关键点的坐标信息。
当然,上述网络模型仅仅为可选方案的一种,本领域技术人员在熟知卷积神经网络算法的基础上,可以对该关键点定位网络模型的构型进行任意适应性的调整以满足准确率的实际需求。
步骤S106,根据所述多个关键点的坐标信息构建B样条曲线。
在本发明实施例中,所述B样条曲线可以理解为用于描述待识别图像不规则文本的走向的曲线。
在本发明实施例中,所述B样条曲线Ct是多个关键点P=[p0,p1,...,pn-1]和B样条基函数Ni,k(t)的线性组合,其具体的计算公式如下:
Figure BDA0002813029820000071
其中,n是关键点的数量,k是B样条曲线阶数,B样条基函数Ni,k(t)具体可以通过德布尔循环准则获得,其具体计算公式为:
Figure BDA0002813029820000072
Figure BDA0002813029820000073
其中,Ni,0(t)是分段常量,取值为0或1,显示了t处于的节点范围,B样条基函数Ni,k(t)的定义域是一个节点向量:
T=(t0,t1,...,tk-1,tk,tk+1,...,tn-1,tn,tn+1,...,tn+k)
其中,在实际构建过程中,应当对节点向量T进行归一化处理以使其覆盖[0,1]的范围。在超参数节点向量T和B样条曲线阶数k被预先固定的情况下,此时当关键点的坐标通过关键点定位网络模型被确定时,则B样条曲线也随之被确定。
步骤S108,根据所述B样条曲线与预设的矫正直线确定差值变换矩阵。
在本发明实施例中,所述预设的矫正直线通常包括有两条,差值变换矩阵可以等同于理解为将描述不规则文本走向的B样条曲线矫正为直线所需要进行的差值变换系数,也就是说在矫正后,两条预设的矫正直线将描述文本走向,即文本被矫正为直线。
在本发明实施例中,其中矫正直线通常选择图像的上下边,当然也可以选择其他直线。考虑到后续还需要进行进一步的图像识别,优选图像的上下边作为预设的矫正直线。
在本发明实施例中,通常情况下是在B样条曲线和矫正直线上采样获取相应的点来实现确定差值变换矩阵,此时,具体的实现过程请参阅图2及其解释说明。
步骤S110,根据所述差值变换矩阵对所述待识别图像进行变换,得到矫正后图像。
在本发明实施例中,结合前述可知,当利用差值变换矩阵对所述待识别图像进行变换后,此时矫正直线将描述文本走向,即文本被矫正为直线,从而方便后续的识别。
在本发明实施例中,根据所述差值变换矩阵对所述待识别图像进行变换,得到矫正后图像的具体实现过程如下:
设输入也就是获取的待识别图像为I,输出也就是矫正后图像为I′,待识别图像中第i个像素点的二维坐标为(xi,yi),则矫正后图像中对应的第i个像素点的二维坐标p′i满足:
p′i=Tpi
其中,T为前述过程中得到的差值变换矩阵,pi=[1,xi,yi,ri,1,...,ri,k]T
Figure BDA0002813029820000081
di,j为原始待识别图像中第i个像素点和第k个目标点的欧几里得距离。
进一步的,在确定矫正后图像中各对应像素点的矫正位置后,可以直接将原始像素点的像素值作为矫正后图像中各对应像素点的像素值,当然也可以通过邻域插值的方式对像素值进行优化处理,具体的,变换后点p′i的像素值是通过双线性的方法从输入照片中对应点的邻域插值获得。
步骤S112,根据预设的文本识别网络模型对所述矫正后图像进行处理,确定文本识别结果信息。
在本发明实施例中,由于矫正后图像中文本已被矫正处理,因此可直接采用常规的文本识别网络模型即可对矫正后图像进行处理,就可以得到较为准确的文本识别结果信息,而不需要再通过大量样本数据训练生成的专用对不规则本文进行识别的文本识别网络模型对图像进行处理。
在本发明实施例中,考虑到矫正后图像是通过既定的规则对包含不规则文本的图像进行处理得到的,矫正后图像中仍存在一定的文本变形,因而不同算法训练生成的文本识别网络模型对矫正后图像的文本识别准确率互不相同,本发明优先选择基于引入了注意力机制的双向长短期记忆神经网络算法所训练生成的文本识别网络模型,通过上述算法训练生成的文本识别网络模型相比于其他常规文本识别网络模型对矫正后图像具有更好的适应性,识别准确率更高。当然,引入了注意力机制的双向长短期记忆神经网络算法属于本领域技术人员所知晓的公知常识,本发明对其实现原理以及具体的训练过程不做具体的阐述,仅仅简单描述识别的流程,此时,具体的根据文本识别网络模型确定识别文本信息的流程,请参阅图3及其解释说明。
本发明实施例提供的一种基于深度学习算法的文本识别方法,在获取到包含不规则文本的待识别图像,先利用关键点定位网络模型定位待识别图像中的关键点坐标信息,然后根据关键点的坐标信息构建B样条曲线,其中B样条曲线可以描述待识别图像中不规则文本的走向,然后进一步根据B样条曲线和矫正直线确定差值变换矩阵,再利用该差值变换矩阵对待识别图像进行变换,得到矫正后图像,此时待识别图像中的不规则文本也随之得到矫正,最后根据文本识别网络模型对矫正后图像进行处理以确定文本识别结果信息。本发明提供的基于深度学习算法的文本识别方法,先定位关键点,再构建描述文本走向的B样条曲线,然后确定B样条曲线与矫正直线之间的差值变换矩阵,并利用该差值变换矩阵对待识别图像进行矫正,从而同时实现了对待识别图像中不规则文本的矫正,最后对矫正后的图像利用常规的文本识别网络模型进行识别处理,相对于常规文本识别网络模型,文本识别准确率高,而相对于可直接对不规则文本进行识别的文本识别网络模型,本发明中用到的关键点定位网络模型和文本识别网络模型所需要的训练成本更低。
如图2所示,为本发明实施例提供的一种确定差值变换矩阵的步骤流程图,具体包括以下步骤:
步骤S202,根据预设的采样规则对所述B样条曲线进行采样得到多个控制点坐标。
步骤S204,根据所述采样规则对预设的矫正直线进行采样得到与所述多个控制点坐标分别对应的多个目标点坐标。
在本发明实施例中,所述采样规则可以是任意形式,但需要保证对B样条曲线进行采样和对预设的矫正直线进行采样所采用的规则相同,以保证采样得到点一一对应。具体的,例如可以是对节点向量T进行均匀采样,得到一系列的t=(t0,t1,...,tk-1),然后将t代入至B样条曲线和矫正直线中,得到相对应的k个控制点
Figure BDA0002813029820000101
以及k个目标点
Figure BDA0002813029820000102
步骤S206,根据所述多个控制点坐标与所述多个目标点坐标计算差值变换矩阵。
在本发明实施例中,差值变换矩阵T的具体计算公式如下:
Figure BDA0002813029820000103
其中,
Figure BDA0002813029820000104
是一个仅由C′确定的常量矩阵,其计算公式为:
Figure BDA0002813029820000105
其中,在矩阵R中,第i行第j列的元素ri,j满足:
Figure BDA0002813029820000111
di,j是目标点c′i和c′j的欧几里得距离
如图3所示,为本发明实施例提供的一种训练生成关键点定位网络模型的步骤流程图,具体包括以下步骤:
步骤S302,获取训练样本图像。
在本发明实施例中,所述训练样本图像上预先标注有标签关键点信息。
步骤S304,构建含有可变参数的初始化的关键点定位网络模型。
在本发明实施例中,其中结合前述关键点定位网络模型的构型可知,卷积层、池化层以及完全连接层可以理解为不同大小的矩阵,其中矩阵中各数值均为可变参数,具体需要根据后续计算得到的损失值进行更新。
步骤S306,根据所述关键点定位网络模型对训练样本图像进行处理,确定所述训练样本图像的响应关键点信息。
在本发明实施例中,根据关键点定位网络模型对训练样本图像进行处理可以得到相应的训练样本图像的响应关键点信息。
步骤S308,根据所述响应关键点信息与所述标签关键点信息之间的损失值。
在本发明实施例中,响应关键点信息与所述标签关键点信息之间的损失值越大,表明当前关键点定位网络模型与理想关键点定位网络模型差异越大,需要对关键点定位网络模型当中的可变参数进行调整。
步骤S310,根据所述损失值判断所述关键点定位网络模型是否训练完成。当判断否时,执行步骤S312;当判断是时,执行步骤S314。
在本发明实施例中,通常给定损失值阈值,通过比较损失值与损失值阈值的大小,如果损失值小于损失值阈值,表明当前关键点定位网络模型与理想关键点定位网络模型差异越小,此时可以确定关键点定位网络模型已经训练完成,反之表明当前关键点定位网络模型与理想关键点定位网络模型之间还存在一定的差异,需要继续对关键点定位网络模型进行迭代更新以缩小当前关键点定位网络模型与理想关键点定位网络模型之间差异。
步骤S312,根据梯度下降算法以及所述损失值对所述关键点定位网络模型中的可变参数进行调整,确定更新后的关键点定位网络模型,并返回至所述步骤S306。
在本发明实施例中,在卷积神经网络算法中,通常是基于梯度下将算法对关键点定位网络模型中的可变参数也就是各卷积层、池化层、全连接层的矩阵进行调整,具体的调整过程属于本领域技术人员的公知常识,本发明在此不作具体说明。
步骤S314,将当前关键点定位网络模型确定为基于卷积神经网络模型训练生成的关键点定位网络模型。
在本发明实施例中,当关键点定位网络模型训练完成时,此时当前关键点定位网络模型即为基于卷积神经网络模型训练生成的关键点定位网络模型。
如图4所示,为本发明实施例提供的一种训练生成关键点定位网络模型的步骤流程图,具体包括以下步骤:
步骤S402,获取矫正后图像的特征向量。
在本发明实施例中,通常采用多重卷积层来对矫正后图像进行特征提取。
步骤S404,根据预设的引入注意力机制的解码器对所述特征向量进行处理生成引入了注意力权重的权重化特征向量。
在本发明实施例中,基于注意力机制可以对特征向量进行处理,得到引入了注意力权重的权重化特征向量。
步骤S406,根据基于长短期记忆神经网络算法训练生成的文本识别网络模型分别从左向与右向分别对权重化特征向量进行处理,生成左向文本识别结果以及右向文本识别结果。
在本发明实施例中,利用文本识别网络模型分别从左向与右向分别对权重化特征向量进行处理可以等同理解为对权重化特征向量以及倒叙的权重化特征向量进行处理。
步骤S408,根据所述左向文本识别结果以及右向文本识别结果确定文本识别结果信息。
在本发明实施例中,当左向文本识别结果以及右向文本识别结果顺序刚好相反时,则可以唯一确定文本识别结果信息,当左向文本识别结果以及右向文本识别结果顺序不是相反时,则需要对左向文本识别结果以及右向文本识别结果进行进一步的处理来确定文本识别结果信息。
如图5所示,为本发明实施例提供的一种基于深度学习算法的文本识别方法的实施示例图,详述如下。
在本发明实施例中,可以看出,将输入照片输入至关键点定位网络,可以确定出关键点坐标,进一步的拟合B样条曲线,可以得到模拟文本走向的曲线,然后根据B样条曲线和输入图像计算得到差值变换矩阵T,然后利用差值变换矩阵T对输入图像处理可以得到文本被矫正规则的矫正后图像,最后利用引入了注意力机制的双向文本识别网络模型分别从左向和右向对文本进行识别,合并识别结果并最终确定文本识别结果信息。
如图6所示,为本发明实施例提供的一种基于深度学习算法的文本识别装置的结构示意图,具体包括以下结构:
待识别图像获取单元610,用于获取包含不规则文本的待识别图像。
在本发明实施例中,在生活中有许多场景都涉及到对不规则文本的图像识别,所述不规则文本通常是指排列形状不平整、字体大小不统一的文本,当然也可以涉及到艺术字体等等,本发明对不规则文本的具体表现形式不做具体的限制。
在本发明实施例中,需要说明的一点是,虽然本发明提供的是一种不规则文本识别方法,但显然本发明提供的不规则文本识别方法也能够和常规的文本识别模型一样对规则文本进行识别,效果并无明显区别。
关键点定位单元620,用于根据预设的关键点定位网络模型对所述待识别图像进行处理,确定所述待识别图像的多个关键点的坐标信息。
在本发明实施例中,所述关键点通常是指待识别图像中不规则文本的边角,此类边角通常具有明显的边缘特征,因此可以通过人工智能算法学习该边缘特征,从而实现对关键点的定位。而通过这些关键点,就可以拟合出不规则文本的趋势走向,用于后续的矫正处理。
作为本发明的一个优选实施例,关键点定位网络模型是预先基于卷积神经网络算法训练生成的。其中,卷积神经网络算法属于本领域技术人员的熟知的一种常规人工智能算法,本发明在此不对卷积神经网络算法的原理做详细的说明,而基于卷积神经网络算法训练生成关键点定位网络模型的具体实现过程请参阅后续图3及其解释说明。
作为本发明的一个优选实施例,进一步的,提供一种具体的关键点定位网络模型的构型,具体可分为十层,用于实现对尺寸为32*100*1(高*宽*通道数)的灰度图像(也就是包含不规则文本的待识别图像)的处理,其中:
第一层为第一个卷积层,输出尺寸为32*100*64;
第二层为第一个池化层,输出尺寸为16*50*64;
第三层为第二个卷积层,输出尺寸为16*50*128;
第四层为第二个池化层,输出尺寸为8*25*128;
第五层为第三个卷积层,输出尺寸为8*25*256;
第六层为第三个池化层,输出尺寸为4*12*256;
第七层为第四个卷积层,输出尺寸为4*12*256;
第八层为第八个池化层,输出尺寸为2*6*256。
第九层为第一个完全连接层,输出尺寸为512。
第十层为第二个完全连接层,输出尺寸为2n,n为关键点的数量,即n个关键点的坐标信息。
当然,上述网络模型仅仅为可选方案的一种,本领域技术人员在熟知卷积神经网络算法的基础上,可以对该关键点定位网络模型的构型进行任意适应性的调整以满足准确率的实际需求。
B样条曲线构建单元630,用于根据所述多个关键点的坐标信息构建B样条曲线。
在本发明实施例中,所述B样条曲线可以理解为用于描述待识别图像不规则文本的走向的曲线。
在本发明实施例中,所述B样条曲线Ct是多个关键点P=[p0,p1,...,pn-1]和B样条基函数Ni,k(t)的线性组合,其具体的计算公式如下:
Figure BDA0002813029820000151
其中,n是关键点的数量,k是B样条曲线阶数,B样条基函数Ni,k(t)具体可以通过德布尔循环准则获得,其具体计算公式为:
Figure BDA0002813029820000152
Figure BDA0002813029820000153
其中,Ni,0(t)是分段常量,取值为0或1,显示了t处于的节点范围,B样条基函数Ni,k(t)的定义域是一个节点向量:
T=(t0,t1,...,tk-1,tk,tk+1,...,tn-1,tn,tn+1,...,tn+k)
其中,在实际构建过程中,应当对节点向量T进行归一化处理以使其覆盖[0,1]的范围。在超参数节点向量T和B样条曲线阶数k被预先固定的情况下,此时当关键点的坐标通过关键点定位网络模型被确定时,则B样条曲线也随之被确定。
差值变换矩阵确定单元640,用于根据所述B样条曲线与预设的矫正直线确定差值变换矩阵。
在本发明实施例中,所述预设的矫正直线通常包括有两条,差值变换矩阵可以等同于理解为将描述不规则文本走向的B样条曲线矫正为直线所需要进行的差值变换系数,也就是说在矫正后,两条预设的矫正直线将描述文本走向,即文本被矫正为直线。
在本发明实施例中,其中矫正直线通常选择图像的上下边,当然也可以选择其他直线。考虑到后续还需要进行进一步的图像识别,优选图像的上下边作为预设的矫正直线。
在本发明实施例中,通常情况下是在B样条曲线和矫正直线上采样获取相应的点来实现确定差值变换矩阵,此时,具体的实现过程请参阅图2及其解释说明。
图像矫正单元650,用于根据所述差值变换矩阵对所述待识别图像进行变换,得到矫正后图像。
在本发明实施例中,结合前述可知,当利用差值变换矩阵对所述待识别图像进行变换后,此时矫正直线将描述文本走向,即文本被矫正为直线,从而方便后续的识别。
在本发明实施例中,根据所述差值变换矩阵对所述待识别图像进行变换,得到矫正后图像的具体实现过程如下:
设输入也就是获取的待识别图像为I,输出也就是矫正后图像为I′,待识别图像中第i个像素点的二维坐标为(xi,yi),则矫正后图像中对应的第i个像素点的二维坐标p′i满足:
p′i=Tpi
其中,T为前述过程中得到的差值变换矩阵,pi=[1,xi,yi,ri,1,...,ri,k]T
Figure BDA0002813029820000171
di,j为原始待识别图像中第i个像素点和第k个目标点的欧几里得距离。
进一步的,在确定矫正后图像中各对应像素点的矫正位置后,可以直接将原始像素点的像素值作为矫正后图像中各对应像素点的像素值,当然也可以通过邻域插值的方式对像素值进行优化处理,具体的,变换后点pi′的像素值是通过双线性的方法从输入照片中对应点的邻域插值获得。
文本识别单元660,用于根据预设的文本识别网络模型对所述矫正后图像进行处理,确定文本识别结果信息。
在本发明实施例中,由于矫正后图像中文本已被矫正处理,因此可直接采用常规的文本识别网络模型即可对矫正后图像进行处理,就可以得到较为准确的文本识别结果信息,而不需要再通过大量样本数据训练生成的专用对不规则本文进行识别的文本识别网络模型对图像进行处理。
在本发明实施例中,考虑到矫正后图像是通过既定的规则对包含不规则文本的图像进行处理得到的,矫正后图像中仍存在一定的文本变形,因而不同算法训练生成的文本识别网络模型对矫正后图像的文本识别准确率互不相同,本发明优先选择基于引入了注意力机制的双向长短期记忆神经网络算法所训练生成的文本识别网络模型,通过上述算法训练生成的文本识别网络模型相比于其他常规文本识别网络模型对矫正后图像具有更好的适应性,识别准确率更高。当然,引入了注意力机制的双向长短期记忆神经网络算法属于本领域技术人员所知晓的公知常识,本发明对其实现原理以及具体的训练过程不做具体的阐述,仅仅简单描述识别的流程,此时,具体的根据文本识别网络模型确定识别文本信息的流程,请参阅图3及其解释说明。
本发明实施例提供的一种基于深度学习算法的文本识别装置,在获取到包含不规则文本的待识别图像,先利用关键点定位网络模型定位待识别图像中的关键点坐标信息,然后根据关键点的坐标信息构建B样条曲线,其中B样条曲线可以描述待识别图像中不规则文本的走向,然后进一步根据B样条曲线和矫正直线确定差值变换矩阵,再利用该差值变换矩阵对待识别图像进行变换,得到矫正后图像,此时待识别图像中的不规则文本也随之得到矫正,最后根据文本识别网络模型对矫正后图像进行处理以确定文本识别结果信息。本发明提供的基于深度学习算法的文本识别装置,先定位关键点,再构建描述文本走向的B样条曲线,然后确定B样条曲线与矫正直线之间的差值变换矩阵,并利用该差值变换矩阵对待识别图像进行矫正,从而同时实现了对待识别图像中不规则文本的矫正,最后对矫正后的图像利用常规的文本识别网络模型进行识别处理,相对于常规文本识别网络模型,文本识别准确率高,而相对于可直接对不规则文本进行识别的文本识别网络模型,本发明中用到的关键点定位网络模型和文本识别网络模型所需要的训练成本更低。
图7示出了一个实施例中计算机设备的内部结构图。如图7所示,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现基于深度学习算法的文本识别方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行基于深度学习算法的文本识别方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的基于深度学习算法的文本识别装置可以实现为一种计算机程序的形式,计算机程序可在如图7所示的计算机设备上运行。计算机设备的存储器中可存储组成该基于深度学习算法的文本识别装置的各个程序模块,比如,图6所示的待识别图像获取单元610、关键点定位单元620、B样条曲线构建单元630等等。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的基于深度学习算法的文本识别方法中的步骤。
例如,图7所示的计算机设备可以通过如图6所示的基于深度学习算法的文本识别装置中的待识别图像获取单元610执行步骤S102;计算机设备可通过关键点定位单元620执行步骤S104;计算机设备可通过B样条曲线构建单元630执行步骤S106。
在一个实施例中,提出了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取包含不规则文本的待识别图像;
根据预设的关键点定位网络模型对所述待识别图像进行处理,确定所述待识别图像的多个关键点的坐标信息;
根据所述多个关键点的坐标信息构建B样条曲线;
根据所述B样条曲线与预设的矫正直线确定差值变换矩阵;
根据所述差值变换矩阵对所述待识别图像进行变换,得到矫正后图像;
根据预设的文本识别网络模型对所述矫正后图像进行处理,确定文本识别结果信息。
在一个实施例中,提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:
获取包含不规则文本的待识别图像;
根据预设的关键点定位网络模型对所述待识别图像进行处理,确定所述待识别图像的多个关键点的坐标信息;
根据所述多个关键点的坐标信息构建B样条曲线;
根据所述B样条曲线与预设的矫正直线确定差值变换矩阵;
根据所述差值变换矩阵对所述待识别图像进行变换,得到矫正后图像;
根据预设的文本识别网络模型对所述矫正后图像进行处理,确定文本识别结果信息。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于深度学习算法的文本识别方法,其特征在于,包括:
获取包含不规则文本的待识别图像;
根据预设的关键点定位网络模型对所述待识别图像进行处理,确定所述待识别图像的多个关键点的坐标信息;
根据所述多个关键点的坐标信息构建B样条曲线;
根据所述B样条曲线与预设的矫正直线确定差值变换矩阵;
根据所述差值变换矩阵对所述待识别图像进行变换,得到矫正后图像;
根据预设的文本识别网络模型对所述矫正后图像进行处理,确定文本识别结果信息。
2.根据权利要求1所述的文本识别方法,其特征在于,所述根据所述B样条曲线与预设的矫正直线确定差值变换矩阵的步骤,具体包括:
根据预设的采样规则对所述B样条曲线进行采样得到多个控制点坐标;
根据所述采样规则对预设的矫正直线进行采样得到与所述多个控制点坐标分别对应的多个目标点坐标;
根据所述多个控制点坐标与所述多个目标点坐标计算差值变换矩阵。
3.根据权利要求2所述的文本识别方法,其特征在于,所述根据所述多个控制点坐标与所述多个目标点坐标计算差值变换矩阵的步骤中,计算差值变换矩阵的公式具体为:
Figure FDA0002813029810000011
其中,T为差值变换矩阵,
Figure FDA0002813029810000012
Figure FDA0002813029810000013
表示k个控制点的坐标,
Figure FDA0002813029810000014
表示k个目标点的坐标,矩阵R中第i行第j列的元素ri,j满足:
Figure FDA0002813029810000021
di,j是目标点c′i和c′j的欧几里得距离。
4.根据权利要求1所述的文本识别方法,其特征在于,所述根据所述差值变换矩阵对所述待识别图像进行变换,得到矫正后图像的步骤中,变换过程的计算公式具体为:
p′i=Tpi
其中p′i即为矫正后图像中第i个像素点的坐标,pi=[1,xi,yi,ri,1,...,ri,k]T,(xi,yi)是原始待识别图像中第i个像素点的坐标,
Figure FDA0002813029810000022
di,j为原始待识别图像中第i个像素点和第k个目标点的欧几里得距离。
5.根据权利要求1所述的文本识别方法,其特征在于,所述根据所述多个关键点的坐标信息构建B样条曲线的步骤中,B样条曲线Ct的构建公式具体为:
Figure FDA0002813029810000023
其中,pi为n个关键点P=[p0,p1,...,pn-1]中的第i个关键点,Ni,k(t)是B样条基函数,B样条基函数Ni,k(t)具体可以通过如下公式获得:
Figure FDA0002813029810000024
Figure FDA0002813029810000025
6.根据权利要求1所述的文本识别方法,其特征在于,所述关键点定位网络模型是预先基于卷积神经网络算法训练生成的;训练生成所述关键点定位网络模型的步骤,具体包括:
获取训练样本图像;所述训练样本图像上预先标注有标签关键点信息;
构建含有可变参数的初始化的关键点定位网络模型;
根据所述关键点定位网络模型对训练样本图像进行处理,确定所述训练样本图像的响应关键点信息;
根据所述响应关键点信息与所述标签关键点信息之间的损失值;
根据所述损失值判断所述关键点定位网络模型是否训练完成;
当判断否时,根据梯度下降算法以及所述损失值对所述关键点定位网络模型中的可变参数进行调整,确定更新后的关键点定位网络模型,并返回至所述根据所述关键点定位网络模型对训练样本图像进行处理,确定所述训练样本图像的响应关键点信息的步骤;
当判断是时,将当前关键点定位网络模型确定为基于卷积神经网络模型训练生成的关键点定位网络模型。
7.根据权利要求1所述的文本识别方法,其特征在于,所述文本识别网络模型是预先基于引入了注意力机制的双向长短期记忆神经网络算法训练生成的;所述根据预设的文本识别网络模型对所述矫正后图像进行处理,确定识别文本信息的步骤,具体包括:
获取矫正后图像的特征向量;
根据预设的引入注意力机制的解码器对所述特征向量进行处理生成引入了注意力权重的权重化特征向量;
根据基于长短期记忆神经网络算法训练生成的文本识别网络模型分别从左向与右向分别对权重化特征向量进行处理,生成左向文本识别结果以及右向文本识别结果;
根据所述左向文本识别结果以及右向文本识别结果确定文本识别结果信息。
8.一种基于深度学习算法的文本识别装置,其特征在于,包括:
待识别图像获取单元,用于获取包含不规则文本的待识别图像;
关键点定位单元,用于根据预设的关键点定位网络模型对所述待识别图像进行处理,确定所述待识别图像的多个关键点的坐标信息;
B样条曲线构建单元,用于根据所述多个关键点的坐标信息构建B样条曲线;
差值变换矩阵确定单元,用于根据所述B样条曲线与预设的矫正直线确定差值变换矩阵;
图像矫正单元,用于根据所述差值变换矩阵对所述待识别图像进行变换,得到矫正后图像;
文本识别单元,用于根据预设的文本识别网络模型对所述矫正后图像进行处理,确定文本识别结果信息。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至7中任一项权利要求所述基于深度学习算法的文本识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1至7中任一项权利要求所述基于深度学习算法的文本识别方法的步骤。
CN202011391722.6A 2020-12-02 2020-12-02 基于深度学习算法的文本识别方法、装置、设备及存储介质 Pending CN112464945A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011391722.6A CN112464945A (zh) 2020-12-02 2020-12-02 基于深度学习算法的文本识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011391722.6A CN112464945A (zh) 2020-12-02 2020-12-02 基于深度学习算法的文本识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112464945A true CN112464945A (zh) 2021-03-09

Family

ID=74805266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011391722.6A Pending CN112464945A (zh) 2020-12-02 2020-12-02 基于深度学习算法的文本识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112464945A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113205090A (zh) * 2021-04-29 2021-08-03 北京百度网讯科技有限公司 图片矫正方法、装置、电子设备及计算机可读存储介质
CN113505741A (zh) * 2021-07-27 2021-10-15 京东科技控股股份有限公司 一种文本图像处理方法、装置、电子设备及存储介质
CN114202648A (zh) * 2021-12-08 2022-03-18 北京百度网讯科技有限公司 文本图像矫正方法、训练方法、装置、电子设备以及介质
CN115082935A (zh) * 2022-07-04 2022-09-20 网易有道信息技术(北京)有限公司 用于对文档图像进行矫正的方法、设备及存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113205090A (zh) * 2021-04-29 2021-08-03 北京百度网讯科技有限公司 图片矫正方法、装置、电子设备及计算机可读存储介质
CN113205090B (zh) * 2021-04-29 2023-10-24 北京百度网讯科技有限公司 图片矫正方法、装置、电子设备及计算机可读存储介质
CN113505741A (zh) * 2021-07-27 2021-10-15 京东科技控股股份有限公司 一种文本图像处理方法、装置、电子设备及存储介质
CN113505741B (zh) * 2021-07-27 2024-04-09 京东科技控股股份有限公司 一种文本图像处理方法、装置、电子设备及存储介质
CN114202648A (zh) * 2021-12-08 2022-03-18 北京百度网讯科技有限公司 文本图像矫正方法、训练方法、装置、电子设备以及介质
CN114202648B (zh) * 2021-12-08 2024-04-16 北京百度网讯科技有限公司 文本图像矫正方法、训练方法、装置、电子设备以及介质
CN115082935A (zh) * 2022-07-04 2022-09-20 网易有道信息技术(北京)有限公司 用于对文档图像进行矫正的方法、设备及存储介质

Similar Documents

Publication Publication Date Title
CN112464945A (zh) 基于深度学习算法的文本识别方法、装置、设备及存储介质
US11281925B2 (en) Method and terminal for recognizing object node in image, and computer-readable storage medium
CN111598089B (zh) 一种基于深度学习的车牌矫正与识别方法
CN111079632A (zh) 文本检测模型的训练方法、装置、计算机设备和存储介质
CN110516541B (zh) 文本定位方法、装置、计算机可读存储介质和计算机设备
CN112001406B (zh) 一种文本区域检测方法及装置
CN107886082B (zh) 图像中数学公式检测方法、装置、计算机设备及存储介质
CN112818963B (zh) 人脸识别模型的训练方法、装置、设备及存储介质
CN112651490B (zh) 人脸关键点检测模型的训练方法及设备、可读存储介质
CN110942012A (zh) 图像特征提取方法、行人重识别方法、装置和计算机设备
CN111291753B (zh) 基于图像的文本识别方法、装置及存储介质
CN111598087B (zh) 不规则文字的识别方法、装置、计算机设备及存储介质
CN113421276B (zh) 一种图像处理方法、装置及存储介质
CN112539843A (zh) 检测温度的方法、装置和计算机设备
CN112348116A (zh) 利用空间上下文的目标检测方法、装置和计算机设备
CN110069655B (zh) 一种私人相册的人脸搜索方法
CN113012075A (zh) 一种图像矫正方法、装置、计算机设备及存储介质
CN111652245B (zh) 车辆轮廓检测方法、装置、计算机设备及存储介质
US11030488B1 (en) Book scanning using machine-trained model
CN111178162B (zh) 图像识别方法、装置、计算机设备和存储介质
CN112464860A (zh) 手势识别方法、装置、计算机设备及存储介质
CN116091596A (zh) 一种自下而上的多人2d人体姿态估计方法及装置
CN116777988A (zh) 手部关键点的三维坐标构建方法、装置、设备及存储介质
CN111179337A (zh) 空间直线朝向测量方法、装置、计算机设备和存储介质
CN114742990A (zh) 基于人工智能的目标检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination