CN111414913B - 一种文字识别方法以及识别装置、电子设备 - Google Patents
一种文字识别方法以及识别装置、电子设备 Download PDFInfo
- Publication number
- CN111414913B CN111414913B CN201910016406.1A CN201910016406A CN111414913B CN 111414913 B CN111414913 B CN 111414913B CN 201910016406 A CN201910016406 A CN 201910016406A CN 111414913 B CN111414913 B CN 111414913B
- Authority
- CN
- China
- Prior art keywords
- stroke
- node
- nodes
- text
- connection relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 239000011159 matrix material Substances 0.000 claims abstract description 44
- 238000003062 neural network model Methods 0.000 claims abstract description 17
- 238000010586 diagram Methods 0.000 claims description 49
- 230000008859 change Effects 0.000 claims description 20
- 230000033001 locomotion Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 description 14
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000002787 reinforcement Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000010410 layer Substances 0.000 description 2
- 238000013178 mathematical model Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000012015 optical character recognition Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/287—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
Abstract
本申请实施例公开了一种文字识别方法及装置、电子设备,所述方法包括:确定图像中的文字区域;在所述文字区域中,确定用于表示待识别文字的笔画节点信息,以及确定用于表示所述笔画节点之间连接关系的邻接矩阵信息,其中笔画节点包括笔画的端点以及多个笔画的交叉点;以及,将所述笔画节点信息输入已训练的神经网络模型,通过所述神经网络模型识别所述待识别文字。通过以文字笔画之间的交叉点、边界点为节点,将文字以图的形式进行存储,然后再利用图卷积对文字进行识别,能够简单而有效的概括提炼出文字的结构特征,尤其是能够对手写文字进行进一步抽象的提炼出文字的结构特征,不仅能够降低图卷积的学习难度,而且还节省了存储空间。
Description
技术领域
本申请涉及信息技术领域,具体涉及一种文字识别方法以及识别装置、电子设备。
背景技术
现有技术中文字识别通常是将文字灰度化或二值化后进行存储,提取特征再输入分类器中进行分类。所用分类器可为支持向量机,可为卷积神经网络等。但是因人与人之间书写风格差异巨大,会存在连笔、顿笔各不相同的情形,现有技术中的文字识别方法未能抽象出彼此之间的相关性,大大增加了神经网络的学习难度。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种文字识别方法,解决了现有技术中文字识别方法未能抽象出彼此之间的相关性,大大增加了神经网络的学习难度的技术问题。
根据本申请的一个方面,提供了一种文字识别方法,包括:确定图像中的文字区域;在所述文字区域中,确定用于表示待识别文字的笔画节点信息,以及确定用于表示所述笔画节点之间连接关系的邻接矩阵信息,其中所述笔画节点包括笔画的端点以及多个笔画的交叉点;以及,将所述笔画节点信息输入已训练的神经网络模型,通过所述神经网络模型识别所述待识别文字。
根据本申请的另一个方面,提供了一种文字识别装置,包括:解析模块,用于从接收到的待识别文字中解析所述待识别文字的笔画节点信息以及确定用于表示所述笔画节点之间连接关系的邻接矩阵信息;识别模块,用于将所述解析模块得到的所述待识别文字的所述笔画节点信息以及所述邻接矩阵信息进行识别并输出识别结果。
根据本申请的领一个方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述任一所述的文字识别方法。
根据本申请的另一个方面,提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于执行上述任一所述的文字识别方法。
本申请提供的文字识别方法,通过以文字笔画之间的交叉点、边界点为节点,将文字以图的形式进行存储,然后再利用图卷积对文字进行识别,能够简单而有效的概括提炼出文字的结构特征,尤其是能够对手写文字进行进一步抽象的提炼出文字的结构特征,不仅能够降低图卷积的学习难度,而且还节省了存储空间。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本申请一示例性实施例提供的文字识别方法的流程示意图。
图2是本申请另一示例性实施例提供的文字识别方法的流程示意图。
图3是本申请另一示例性实施例提供的文字识别方法的流程示意图。
图4是本申请另一示例性实施例提供的文字识别方法的流程示意图。
图5是本申请一示例性实施例提供的带有待识别文字的图像的示意图。
图6是本申请另一示例性实施例提供的带有待识别文字的图像的示意图。
图7是本申请一示例性实施例提供的文字识别装置的结构示意图。
图8是本申请另一示例性实施例提供的文字识别装置的结构示意图。
图9是本申请另一示例性实施例提供的文字识别装置的结构示意图。
图10是本申请另一示例性实施例提供的文字识别装置的结构示意图。
图11是本申请一示例性实施例提供的电子设备的结构图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
申请概述
本申请可以应用于任何使用神经网络处理器进行任务处理的领域。例如,本申请实施例可以应用于文字识别、手写字体识别、光学字符识别、自然场景中的文字识别等场景下,本申请是针对神经网络对文字进行识别的方法和装置,因此,只要是有经过神经网络进行文字识别的领域均可以采用本申请所提供的方法和装置。
如上所述,在文字字体风格、形态差异巨大的应用场景下,如每个人的性格、习惯以及想象力不同,因此每年都会诞生大量的艺术字体,并且文字的书写者、设计者在不同的环境下书写出或者设计出的文字在形态、风格上有巨大的差异,因而造成了文字的数据样本的多样化,在进行利用图卷积进行识别的时候,对识别效果影响较大。
然而现有的对于文字进行识别的过程是:将手写字灰度化或者二值化,提取特征再输入分类器进行分类,其所用分类器可为卷积神经网络。但是需要的存储空间较大,并且每个文字书写者之间的书写风格差异巨大,会存在连笔、顿笔各不相同的情形,未能抽象出各笔画之间的相关性,大大增加了卷积神经网络的学习难度。
针对上述的技术问题,本申请的基本构思是提出一种文字识别方法,通过以文字笔画之间的交叉点、边界点为节点,将文字以图的形式进行存储,然后再利用图卷积对文字进行识别,以实现对手写文字进行进一步抽象的提炼出文字的结构特征,不仅能够降低图卷积的学习难度,而且还节省了存储空间。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性方法
图1是本申请一示例性实施例提供的文字识别方法的流程示意图。本实施例可应用在电子设备上,如图1所示,包括如下步骤:
步骤101,确定图像中的文字区域。
确定图像中的文字区域,首先需要获取包括待识别文字的图像,然后再确定图像中的文字区域。
在一实施例中,获取包括待识别文字的图像的方式可以采用以下几种可能的实现方式:
(1)采用该文字识别方法的电子设备终端提供图片提交入口,从而基于该图片提交入口获取上传的图片,并将该上传的图片确定为待识别的图片。
(2)采用该文字识别方法的电子设备终端可以自动获取终端中的图片,并将该图片确定为待识别的图片。例如该终端可以获取当前接收的图片,从而将接收的图片确定为待识别的图片;或者获取当前拍摄的图片,从而将该拍摄的图像确定为待识别的图片;或者获取当前显示的图片,从而将该显示的图片确定为待识别的图片。
(3)采用该文字识别方法的电子设备终端可以获取视频中的视频帧图片,将该视频帧图像确定为待识别的图片,其中,该视频可以为当前播放的视频或者当前拍摄的视频。
需要说明的是,采用该文字识别方法的电子设备终端获取包括待识别文字的图像的方式可以有多种,例如可以为上述获取包括待识别文字的图像的获取方式之一,因此本申请实施例对获取包括待识别文字的图像的具体方式不作限定。
在一实施例中,确定图像中的文字区域可以采用将图片输入至图卷积神经网络中来确定图片中文字的区域。
需要说明的是,确定图像中的文字区域的方式可以有多种,例如可以为上述的采用图卷积神经网络来进行确定,本申请实施例对确定图像中的文字区域的具体方式不作限定。
步骤102,在文字区域中,确定用于表示待识别文字的笔画节点信息,以及确定用于表示笔画节点之间连接关系的邻接矩阵信息,其中,笔画节点包括笔画的端点以及多个笔画的交叉点。
在一实施例中,笔画节点信息包括笔画的坐标信息,即笔画节点在图片中的二维坐标,例如一个文字有三个笔画节点,以其中一个笔画节点为原点建立二维坐标系,则该笔画节点的二维坐标信息为(0,0),另外两个笔画节点则可以根据该笔画节点的二维坐标来确定各自的二维坐标。
在一实施例中,邻接矩阵信息是用一个二维数组存放图中所有顶点数据;用一个二维数组存放顶点间关系(边或弧)的数据,其中图指的是图论中的图,图论中的图是由若干给定的点及连接两点的线所构成的图形,这种图形通常用来描述某些事物之间的某种特定关系,用点代表事物,用连接两点的线表示相应两个事物间具有这种关系。
步骤103,将笔画节点信息输入至已训练的神经网络模型,通过神经网络模型识别待识别文字。
神经网络模型是以神经元的数学模型为基础来描述的,它是一个数学模型,神经网络模型由网络拓扑,节点特点和学习规则来表示。已训练的神经网络模型的训练过程可以采用以下步骤:收集多个不同的书写者书写的风格不同的多个文字,一个训练图片包含一个文字,然后通过多个训练图片,通过随机梯度下降算法和softmax损失函数对待训练的卷积申请网络的后两个卷积层的参数和softmax分类层的参数进行训练,得到书写风格不同的文字的神经网络模型。
需要说明的是,神经网络模型现在有数十种之多,应用较多的典型的神经网络模型包括BP神经网络、Hopfield网络、ART网络和Kohonen网络。本申请实施例对上述文字识别中的已训练的神经网络模型的具体训练方法不作限定。
本申请提供的文字识别方法,通过以文字笔画之间的交叉点、边界点为节点,将文字以图的形式进行存储,然后再利用图卷积对文字进行识别,能够简单而有效的概括提炼出文字的结构特征,尤其是能够对手写文字进行进一步抽象的提炼出文字的结构特征,不仅能够降低图卷积的学习难度,而且还节省了存储空间。
图2是本申请另一示例性实施例提供的文字识别方法的流程示意图,如图2所示,步骤102实际上包括两个步骤,分别为:
步骤1021:确定用于表示待识别文字的笔画节点信息;
步骤1022:确定用于表示笔画节点之间连接关系的邻接矩阵信息。
在上述图2所示实施例的基础上,步骤1021可包括如下步骤,如图3所示:步骤10211,获取待识别文字的骨架图。
文字的图像骨架提取,实际上就是提取文字在图像上的中心像素轮廓。即以文字中心为准,对文字进行细化,在一实施例中,细化后的待识别文字的笔画宽度为单个像素的宽度。
在一实施例中,待识别文字的骨架图的获取方法可以采用K3M顺序迭代算法进行提取,具体提取步骤如下:
步骤102111:提取出伪骨架:
为了能够更好地提取出伪骨架,伪骨架的提取方式可以采用如下步骤:
a)、提取文字的轮廓,并记录这些轮廓点。
b)、依次检测这些轮廓点的八像素邻域,是否只含有三连通像素,如果有,把此点从轮廓点删除,并在目标图像中删除(腐蚀掉)对应点。
c)、依次检测步骤b)中剩余轮廓点的八像素邻域,是否只含有三连通或者四连通像素,如果有,把此点从轮廓点删除,并在目标图像中删除(腐蚀掉)对应点。
d)、依次检测步骤c)中剩余轮廓点的八像素邻域,是否只含有三连通或者四连通或者五连通像素,如果有,把此点从轮廓点删除,并在目标图像中删除(腐蚀掉)对应点。
e)、依次检测步骤d)中剩余轮廓点的八像素邻域,是否只含有三连通或者四连通或者五连通或者六连通像素,如果有,把此点从轮廓点删除,并在目标图像中删除(腐蚀掉)对应点。
f)、依次检测步骤e)中剩余轮廓点的八像素邻域,是否只含有三连通或者四连通或者五连通或者六连通或者七连通像素,如果有,把此点从轮廓点删除,并在目标图像中删除(腐蚀掉)对应点。从而得到文字的伪骨架图。
步骤102112:从伪骨架中提取真实骨架:
从上述步骤102111中得到文字的伪骨架,伪骨架有部分区域是两个像素宽度,而目标骨架是单层像素宽度。因此通过下面这一步骤提取最终骨架:
依次检测目标图像中,伪骨架的八像素邻域,是否只含有二连通或者三连通或者四连通或者五连通或者六连通或者七连通像素,如果有,把此点从伪骨架中删除(腐蚀),得到文字的真是骨架图。
需要说明,待识别文字的骨架图的提取方法有很多种,例如可以采用如上述所述的K3M顺序迭代算法进行提取,也可以采用skeleton算法进行提取,本申请实施例对图像中文字的骨架图的提取方法不作限定。
步骤10212,基于上述步骤10211得到的骨架图,获取待识别文字的多个笔画节点各自的笔画节点信息。
为了更清晰的表示笔画节点的信息,在一实施例中,笔画节点信息包括笔画节点的性质,例如一个笔画节点是笔画的端点或者多个笔画之间的交叉点。
在一实施例中,获取待识别文字的多个笔画各自的笔画节点信息,即确定笔画节点是笔画的端点或者多个笔画的交叉点,具体步骤如下:
步骤102121:采用第一运动窗口在文字区域中扫描步骤1021中得到的骨架图,并检测第一运动窗口区域内的骨架图的图像特征的变化;
步骤102122:当第一运动窗口区域内的骨架图的图像特征的变化值大于第一阈值,将当前第一运动窗口区域的中心像素点确定为一个角点;
步骤102123:以步骤:102122中获取的角点为中心,将第一运动窗口沿着任意方向对骨架图进行扫描;
步骤102124:根据第一运动窗口在任意方向进行移动时第一运动窗口内的骨架图的图像特征变化判断步骤102122中获取的角点的类型为笔画端点或笔画交叉点。
当所述第一运动窗口分别沿着两个以上的方向上移动时第一运动窗口内的骨架图的图像特征变化值均大于第一阈值,将角点确定为笔画交叉点;
当第一运动窗口沿着一个方向移动时,第一运动窗口内的骨架图的图像特征变化值大于第一阈值,而在其他方向进行移动时第一运动窗口内的骨架图的图像特征变化值没有发生变化,则将该角点确定为笔画端点。
至此步骤10212,获取了待识别文字的各个笔画节点的节点信息。然后根据各笔画节点的节点信息获取待识别文字中的各笔画节点之间的连接关系,即步骤1022可包括如下步骤,如图4所示:
步骤10221:获取笔画节点之间的连接关系;
采用第二运动窗口在一个笔画节点的八邻域内进行搜索;
当第二运动窗口内的骨架图的图像特征变化值大于第二阈值且搜索到另一个笔画节点时,确定该笔画节点与另一个笔画节点之间具有连接关系。
至此,获取到了待识别文字的各笔画节点的节点信息,即获取得到了待识别文字中笔画节点的个数以及任意两个笔画节点之间的连接关系。
步骤10222:根据笔画节点之间的连接关系,生成待识别文字的邻接矩阵信息。
邻接矩阵信息是用一个二维数组存放图中所有顶点数据;用一个二维数组存放顶点间关系(边或弧)的数据,其中图指的是图论中的图,图论中的图是由若干给定的点及连接两点的线所构成的图形,这种图形通常用来描述某些事物之间的某种特定关系,用点代表事物,用连接两点的线表示相应两个事物间具有这种关系。
在一实施例中,根据笔画节点之间的连接关系,生成待识别文字的邻接矩阵信息可包括采用去下方法:
建立N×N的二维数组A1[i,j],其中i和j均为取值为1到N之间的整数,N为所述笔画节点的个数;
其中,当第i个笔画节点与第j个笔画节点之间连接关系为具有连接关系时,将为A1[i,j]赋值为第一数值,其中第一数值是二维数组中的一个元素,用于说明二维数组中与之相对应的两个笔画节点之间存在一个边,即该两个笔画节点之间存在连接关系。当将笔画节点的个数以及表示笔画节点的连接关系的邻接矩阵信息输入神经网络进行识别时,神经网络根据能够根据邻接矩阵中的该元素的值获取该邻接矩阵中与之相对应的两个笔画节点之间存在连接关系,即该两个笔画节点之间存在一个边。在一实施例中,第一数值为1。
当第i个笔画节点与第j个笔画节点之间连接关系为非连接关系时,将为A1[i,j]赋值为第二数值,其中第二数值是二维数组中的一个元素,用于说明二维数组中与之相对应的两个笔画节点之间不存在一个边,即该两个笔画节点之间不存在连接关系。当将笔画节点的个数以及表示笔画节点的连接关系的邻接矩阵信息输入神经网络进行识别时,神经网络根据能够根据邻接矩阵中的该元素的值获取该邻接矩阵中与之相对应的两个笔画节点之间不存在连接关系,即该两个笔画节点之间不存在一个边。在一实施例中,第一数值为0。
至此步骤10222,待识别文字的笔画节点信息以及待识别文字的邻接矩阵信息均已确定,将待识别文字的笔画节点信息以及待识别文字的邻接矩阵信息输入已训练的神经网络模型,即可对待识别文字进行识别,抽象出带待识别文字中的笔画节点之间的相关性,大大降低了神经网络的学习难度,且节省了网络存储空间。
在一实施例中,待识别文字中的笔画节点之间的连接关系包括有向连接关系,即两个具有有向连接关系的笔画节点中,其中一个笔画为有向连接关系的起点,另一个笔画为有向连接关系的终点。其中,两个笔画之间的有向连接关系可以为两个笔画之间的笔画走向,而该笔画走向可以为笔画的书写方向。因此当带识别文字中的笔画节点之间的连接关系包括有向连接关系时,步骤10222:根据笔画节点之间的连接关系,生成待识别文字的邻接矩阵信息,可包括如下步骤:
步骤102221:获取待识别文字中任意两个笔画节点之间的笔画走向;
在一实施例中,获取待识别文字中任意两个笔画节点之间的笔画走向的方法可以是:根据文字规定的书写方式中的笔画走向,即从上到下,从左到右,例如笔画一横“一”中的两个笔画节点,左边的笔画节点与右边的笔画节点之间的有向连接关系为从左到右。因为这个是文字规定的书写方式中的笔画走向,因此该笔画走向是唯一的。
在一实施例中,获取待识别文字中任意两个笔画节点之间的笔画走向的方法可以是:根据书写者的书写过程获取待识别文字中各笔画中的笔画节点之间的有向连接关系。该笔画的笔画节点之间的连接关系和书写者的书写方式有关系,因此不是唯一的。
步骤102222:根据两个笔画节点之间的笔画走向获取两个笔画节点之间的有向连接关系;
通过步骤102222,可获取到待识别文字中笔画节点的个数以及任意两个笔画节点之间的有向连接关系。
步骤102223:根据笔画节点之间的连接关系,生成待识别文字的邻接矩阵信息。
建立M×M的二维数组A2[i,j],其中i和j均为取值为1到M之间的整数,M为笔画节点的个数;
其中,当第i个笔画结点与第j个笔画结点之间具有有向连接关系时,将为A2[i,j]赋值为第一数值;当第i个所述笔画节点与第j个所述笔画节点之间不具有有向连接关系时,将为A1[i,j]赋值为第二数值。
其中第i个笔画节点与第j个笔画节点之间具有有向连接关系的表现方式,可以如以下方式:
第i个笔画节点位于笔画走向的终点处,第j个笔画节点位于笔画走向的起点处;或者,
第i个笔画节点位于笔画走向的起点处,第j个笔画节点位于笔画走向的终点处。
至此步骤102223,待识别文字的笔画节点信息以及待识别文字的邻接矩阵信息均已确定,将待识别文字的笔画节点信息以及待识别文字的邻接矩阵信息输入已训练的神经网络模型,即可对待识别文字进行识别,因为各笔画节点之间的连接关系是有向的连接关系,邻接矩阵也是有向的邻接矩阵,因此,更加能够清楚表明待识别文字中的笔画之间的相关性,进一步降低了神经网络的学习难度,且节省了网络存储空间。
下面以“正”字为例,详细介绍获取“正”骨架图中笔画节点信息以及笔画节点之间连接关系的邻接矩阵信息的方法,具体步骤如下:
步骤1:采用Harries角点检测算法对在图片中已经提取出来的“正”字的骨架图进行检测,检测出“正”中的各笔画节点。
在图像中设计一个局部检测第一运动窗口,当该第一运动窗口沿各个方向做微小移动时,考察第一运动窗口的平均能量变化,当该能量变化超过设定的阈值时,就将第一运动窗口的中心像素点提取为节点。依次采用此方法检测“正”骨架图中的笔画节点,如图5所示中的节点0,1,2,3,4,5,6,7,8,9十个笔画节点。
步骤2:采用seed filling(种子填充法)对在图片中已经提取出来的“正”字的骨架图进行检测,从图的左上角开始进行图像八-邻域内连通性分析。获取各个笔画节点之间的连接关系。具体如下:
步骤21:采用第二运动窗口对骨架图进行扫描,直到扫描到像素点0(即笔画节点0):
步骤211:将该像素点作为种子(像素位置),并赋予其一个标签值,然后将该种子相邻的所有前景像素都压入栈中;
步骤212:弹出栈顶像素,赋予其相同的标签值,然后再讲该栈顶像素相邻的所有前景像素都压入栈中;
步骤213:重复212步骤,直到栈为空;
此时,边找到了骨架图中的一个连通区域,该区域内的像素值被标记为标签值。
步骤22:重复步骤21,直到扫描结束。扫描结束后,即可得到骨架图中所有的连通区域。
此时,得到了“正”骨架图中的笔画节点个数(10个)以及笔画节点之间的连接关系,如图3所示。即,“正”骨架图中的笔画节点个数有10个,分别为节点0,1,2,3,4,5,6,7,8,9,各节点之间的连接关系为:节点0和节点1有连接关系,节点1和节点2有连接关系,节点3和节点1有连接关系,节点3和节点5有连接关系,节点3和节点4有连接关系,节点4和节点9有连接关系,节点4和节点7有连接关系,节点7和节点6有连接关系,节点7和节点8有连接关系。
步骤3:根据步骤1和步骤2中得到的笔画节点以及笔画节点之间的连接关系,获取用于表示笔画节点之间连接关系的邻接矩阵信息,具体步骤如下:
设G1=(V,{E})是一个具有10个笔画节点,9条边的图;其邻接矩阵具有如下性质的10×10的二维数组A1[i,j],其中当第i个笔画节点与第j个笔画节点之间连接关系为具有连接关系时,将为A1[i,j]赋值为1;当第i个笔画节点与第j个笔画节点之间连接关系为非连接关系时,将为A1[i,j]赋值为0。10×10的二维数组A1[i,j]为:
通过步骤1、步骤2以及步骤3,图中“正”字的各笔画节点信息以及表示笔画节点信息之间的连接关系的邻接矩阵信息均已获取。为输入卷积神经网络做好准备。
在一实施例中,步骤2中采用seed filling(种子填充法)对在图片中已经提取出来的“正”字的骨架图进行检测,从图的左上角开始进行图像8-邻域内连通性分析。能够获取各个笔画节点之间的有向连接关系。即,“正”骨架图中的笔画节点个数有10个,分别为节点0,1,2,3,4,5,6,7,8,9,各节点之间的有向连接关系为:节点0和节点1为有向连接关系,节点0指向节点1;节点1和节点2为有向连接关系,节点1指向节点2;节点3和节点1为有向连接关系,节点1指向节点3;节点3和节点5为有向连接关系,节点3指向节点5;节点3和节点4为有向连接关系,节点3指向节点4;节点4和节点9为有向连接关系,节点4指向节点9;节点4和节点7为有向连接关系,节点7指向节点4;节点7和节点6为有向连接关系,节点6指向节点7;节点7和节点8为有向连接关系,节点8指向节点7,如图6所示。
那么用于表示该10个笔画节点之间连接关系的邻接矩阵信息具有如下性质的10×10的二维数组A2[i,j],其中当第i个笔画节点与第j个笔画节点之间连接关系为具有有向连接关系,且第i个笔画节点位于笔画走向的起点处,第j个笔画节点位于笔画走向的终点处时,将为A2[i,j]赋值为1;当第i个笔画节点与第j个笔画节点之间连接关系为非连接关系时(即不是连接关系,也不是第i个笔画节点指向第j个笔画节点),将为A2[i,j]赋值为0。10×10的二维数组A2[i,j]为:
应当说明,当第i个所述笔画结点与第j个所述笔画结点之间连接关系为具有有向连接关系,且第i个所述笔画节点位于笔画走向的终点处,第j个笔画节点位于所述笔画走向的起点处时,将为A2’[i,j]赋值为1;当第i个笔画节点与第j个笔画节点之间连接关系为非连接关系时(即不是连接关系,也不是第j个笔画节点指向第i个笔画节点),将为A2’[i,j]赋值为0,此时的二维数组A2’[i,j]也可以表示十个笔画节点之间的有向连接关系,只是A2’[i,j]与上述的A2[i,j]互为转置矩阵。
示例性装置
本申请提供的一种文字识别装置,用于实现上述文字识别方法。
图7是本申请一示例性实施例提供的文字识别装置的结构图。如图7所示,该文字识别装置包括:解析模块1以及识别模块2,其中解析模块1用于从接收到的待识别文字中解析待识别文字的笔画节点信息以及确定用于表示笔画节点之间连接关系的邻接矩阵信息;识别模块2用于将解析模块1得到的待识别文字的笔画节点信息以及邻接矩阵信息进行识别并输出识别结果。
本申请实施例提供的文字识别装置,通过解析模块1将图像中的文字解析为笔画节点以及笔画节点之间的连接关系,然后以图的形式进行存储(图是图论中的图),然后将图输入识别模块,能够简单而有效的概括提炼出文字的结构特征,尤其是能够对手写文字进行进一步抽象的提炼出文字的结构特征,不仅能够降低图卷积的学习难度,而且还节省了存储空间。
图8所示是本申请一示例性实施例提供的解析模块的结构图,如图8所示,解析模块1可以包括:
第一获取单元11,用于根据待识别文字的骨架图获取待识别文字的多个笔画节点各自的笔画节点信息;
第二获取单元12,用于根据待识别文字的多个笔画节点信息获取待识别文字中的多个笔画节点之间的连接关系;
第三获取单元13,用于根据多个笔画节点之间的连接关系生成待识别文字的邻接矩阵信息。
在一实施例中,第一获取单元11可以包括图像获取单元111、文字区域获取单元112,文字骨架图获取单元113以及笔画节点信息获取单元114,如图9所示。其中图像获取单元111用于获取带有文字的图像,例如可以获取电子设备终端当前接收的图片,从而将接收的图片确定为待识别的图片;或者获取当前拍摄的图片,从而将该拍摄的图像确定为待识别的图片;或者获取当前显示的图片,从而将该显示的图片确定为待识别的图片。文字区域获取单元112用于在图像获取单元111获取的图像中获取具有文字区域的图像。文字骨架图获取单元113用于获取文字的骨架图,文字的图像骨架提取,实际上就是提取文字在图像上的中心像素轮廓。即以文字中心为准,对文字进行细化,在一实施例中,细化后的待识别文字的笔画宽度为单个像素的宽度。笔画节点信息获取单元114用于通过对文字骨架图获取单元113获取的文字骨架图进行扫描来获取文字的笔画节点信息。
第二获取单元12以包括笔画节点关系获取单元121,第三获取单元13可以包括邻接矩阵生成单元131。其中,笔画节点关系获取单元121用于根据笔画节点信息获取多个笔画节点信息之间的连接关系,例如多个笔画节点中,两个笔画节点之间是否有连接关系。邻接矩阵生成单元131用于根据笔画节点信息以及笔画节点信息之间的连接关系生成邻接矩阵,用于表示笔画节点信息之间的连接关系。从而实现将文字以图的形式表示出来(图指的是图论中的图),将文字中的各笔画之间的关系进行抽象表达,从而降低了卷积神经网络的学习难度。
在一实施例中,第二获取单元13还可以包括笔画走向获取单元132,如图10所示,用于获取文字中笔画节点之间的走向,进而获取笔画节点之间的有向连接关系,从而将图像中的文字存储为有向图的形式,进一步的将文字中的各笔画之间的关系进行抽象表达,在输入神经网络进行识别的时候,更加降低了神经网络的学习难度。
示例性电子设备
图11图示了根据本申请实施例的电子设备的框图。需要说明的是,当电子设备执行上述图1至图4所示实施例的方法流程时,其可以为摄像装置、录音装置、智能装置等电子设备。当电子设备执行上述图1至图4所示实施例的方法流程时,其可以为技术人员用于训练强化学习模型的服务器等电子设备。
如图11所示,电子设备3包括一个或多个处理器31和存储器32。
处理器31可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备3中的其他组件以执行期望的功能。
存储器32可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器31可以运行所述程序指令,以实现上文所述的本申请的各个实施例的功率参数调整方法或强化学习模型的训练方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备3还可以包括:输入装置33和输出装置34,如图11所示,这些组件通过总线系统和/或其他形式的连接机构(图11中未示出)互连。
例如,该输入装置33可以是上述的摄像头或麦克风、麦克风阵列等,用于捕捉图像或声源的输入信号。在该电子设备是单机设备时,该输入装置33可以是通信网络连接器,用于从神经网络处理器接收所采集的输入信号。
此外,该输入设备3还可以包括例如键盘、鼠标等等。
该输出装置34可以向外部输出各种信息,包括确定出的输出电压、输出电流信息等。该输出装置34可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图11中仅示出了该电子设备3中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备3还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请图1至图4所示实施例的文字识别方法的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的功率参数调整方法或强化学习模型的训练方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (9)
1.一种文字识别方法,包括:
确定图像中的文字区域;
在所述文字区域中,确定用于表示待识别文字的笔画节点信息,以及确定用于表示所述笔画节点之间连接关系的邻接矩阵信息,其中所述笔画节点包括笔画的端点以及多个笔画的交叉点,所述笔画节点之间连接关系包括具有连接关系以及非连接关系;以及,
将所述笔画节点信息输入已训练的神经网络模型,通过所述神经网络模型识别所述待识别文字;
其中,所述确定用于表示所述笔画节点之间连接关系的邻接矩阵信息,包括:
获取所述待识别文字中的所述笔画节点之间的连接关系;以及
根据所述笔画节点之间的连接关系,生成所述待识别文字的邻接矩阵信息;
所述获取所述待识别文字中的所述笔画节点之间的连接关系,包括:
采用第二运动窗口在一个所述笔画节点的八邻域内进行搜索;
当所述第二运动窗口内的所述待识别文字的骨架图的图像特征变化值大于第二阈值且搜索到另一个所述笔画节点时,确定所述一个笔画节点与所述另一个笔画节点之间具有连接关系;
所述根据所述笔画节点之间的连接关系,生成所述待识别文字的邻接矩阵信息,包括:
建立N×N的二维数组A1[i,j],其中i和j均为取值为1到N之间的整数,N为所述笔画节点的个数;
其中,当第i个所述笔画节点与第j个所述笔画节点之间连接关系为具有所述连接关系时,将为A1[i,j]赋值为第一数值;当第i个所述笔画节点与第j个所述笔画节点之间连接关系为非所述连接关系时,将为A1[i,j]赋值为第二数值。
2.根据权利要求1所述的文字识别方法,其中,所述确定用于表示待识别文字的笔画节点信息包括:
获取所述待识别文字的骨架图;
基于所述骨架图,获取所述待识别文字的多个笔画节点各自的所述笔画节点信息。
3.根据权利要求2所述的文字识别方法,其中,所述确定用于表示待识别文字的笔画节点信息包括:
采用第一运动窗口在所述文字区域中扫描骨架图,并检测所述第一运动窗口区域内的骨架图的图像特征的变化;
当所述第一运动窗口区域内的所述骨架图的图像特征的变化值大于第一阈值,将当前所述第一运动窗口区域的中心像素点确定为一个角点;
以所述角点为中心,将所述第一运动窗口沿着任意方向对所述骨架图进行扫描;以及,
根据所述第一运动窗口在任意方向进行移动时所述第一运动窗口内的所述骨架图的图像特征变化判断所述角点的类型为所述笔画端点或所述笔画交叉点。
4.根据权利要求3所述的文字识别方法,其中,所述根据所述第一运动窗口在任意方向进行移动时所述第一运动窗口内的所述骨架图的图像特征变化判断所述角点的类型为所述笔画端点或所述笔画交叉点包括:
当所述第一运动窗口分别沿着两个以上的方向上移动时所述第一运动窗口内的所述骨架图的图像特征变化值均大于所述第一阈值,将所述角点确定为所述笔画交叉点;
当所述第一运动窗口沿着一个方向移动时,所述第一运动窗口内的所述骨架图的图像特征变化值大于所述第一阈值,而在其他方向进行移动时所述第一运动窗口内的所述骨架图的图像特征变化值没有发生变化,则将所述角点确定为所述笔画端点。
5.根据权利要求1所述的文字识别方法,其中,所述获取所述待识别文字中的所述笔画节点之间的连接关系还包括:
获取所述待识别文字中任意两个所述笔画节点之间的笔画走向;以及,
根据两个所述笔画节点之间的笔画走向获取两个所述笔画节点之间的连接关系。
6.根据权利要求5所述的文字识别方法,其中,所述根据所述笔画节点之间的连接关系,生成所述待识别文字的邻接矩阵信息还包括:
建立M×M的二维数组A2[i,j],其中i和j均为取值为1到M之间的整数,M为所述笔画节点的个数;
其中,当第i个所述笔画节点与第j个所述笔画节点之间连接关系为具有所述连接关系,且第i个所述笔画节点位于所述笔画走向的起点处,第j个所述笔画节点位于所述笔画走向的终点处时,将为A2[i,j]赋值为第一数值;或,当第i个所述笔画节点与第j个所述笔画节点之间连接关系为具有所述连接关系,且第i个所述笔画节点位于所述笔画走向的终点处,第j个所述笔画节点位于所述笔画走向的起点处时,将为A2[i,j]赋值为第一数值;
当第i个所述笔画节点与第j个所述笔画节点之间连接关系为非所述连接关系时,将为A1[i,j]赋值为第二数值。
7.一种文字识别装置,包括:
解析模块,用于从接收到的待识别文字中解析所述待识别文字的笔画节点信息以及确定用于表示所述笔画节点之间连接关系的邻接矩阵信息,其中所述笔画节点包括笔画的端点以及多个笔画的交叉点,所述笔画节点之间连接关系包括具有连接关系以及非连接关系;
识别模块,用于将所述解析模块得到的所述待识别文字的所述笔画节点信息以及所述邻接矩阵信息进行识别并输出识别结果;
所述解析模块还包括:
第二获取单元,用于获取所述待识别文字中的所述笔画节点之间的连接关系;以及
第三获取单元,用于根据所述笔画节点之间的连接关系,生成所述待识别文字的邻接矩阵信息;
其中,所述获取所述待识别文字中的所述笔画节点之间的连接关系,包括:
采用第二运动窗口在一个所述笔画节点的八邻域内进行搜索;
当所述第二运动窗口内的所述待识别文字的骨架图的图像特征变化值大于第二阈值且搜索到另一个所述笔画节点时,确定所述一个笔画节点与所述另一个笔画节点之间具有连接关系;
所述根据所述笔画节点之间的连接关系,生成所述待识别文字的邻接矩阵信息,包括:
建立N×N的二维数组A1[i,j],其中i和j均为取值为1到N之间的整数,N为所述笔画节点的个数;
其中,当第i个所述笔画节点与第j个所述笔画节点之间连接关系为具有所述连接关系时,将为A1[i,j]赋值为第一数值;当第i个所述笔画节点与第j个所述笔画节点之间连接关系为非所述连接关系时,将为A1[i,j]赋值为第二数值。
8.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-6任一所述的文字识别方法。
9.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于执行上述权利要求1-6任一所述的文字识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910016406.1A CN111414913B (zh) | 2019-01-08 | 2019-01-08 | 一种文字识别方法以及识别装置、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910016406.1A CN111414913B (zh) | 2019-01-08 | 2019-01-08 | 一种文字识别方法以及识别装置、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111414913A CN111414913A (zh) | 2020-07-14 |
CN111414913B true CN111414913B (zh) | 2024-02-02 |
Family
ID=71492613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910016406.1A Active CN111414913B (zh) | 2019-01-08 | 2019-01-08 | 一种文字识别方法以及识别装置、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111414913B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113469184B (zh) * | 2021-04-21 | 2022-08-12 | 华东师范大学 | 一种基于多模态数据的面向手写中文的性格识别方法 |
CN115457531A (zh) | 2021-06-07 | 2022-12-09 | 京东科技信息技术有限公司 | 用于识别文本的方法和装置 |
CN113449726A (zh) * | 2021-07-08 | 2021-09-28 | 中国工商银行股份有限公司 | 文字比对及识别方法、装置 |
CN116311209B (zh) * | 2023-03-28 | 2024-01-19 | 北京匠数科技有限公司 | 窗口检测方法、系统和电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5337370A (en) * | 1992-02-28 | 1994-08-09 | Environmental Research Institute Of Michigan | Character recognition method employing non-character recognizer |
CN106022363A (zh) * | 2016-05-12 | 2016-10-12 | 南京大学 | 一种适用于自然场景下的中文文字识别方法 |
CN106067019A (zh) * | 2016-05-27 | 2016-11-02 | 北京旷视科技有限公司 | 针对图像进行文字识别的方法及装置 |
CN108345833A (zh) * | 2018-01-11 | 2018-07-31 | 深圳中兴网信科技有限公司 | 数学公式的识别方法及系统和计算机设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10713519B2 (en) * | 2017-06-22 | 2020-07-14 | Adobe Inc. | Automated workflows for identification of reading order from text segments using probabilistic language models |
-
2019
- 2019-01-08 CN CN201910016406.1A patent/CN111414913B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5337370A (en) * | 1992-02-28 | 1994-08-09 | Environmental Research Institute Of Michigan | Character recognition method employing non-character recognizer |
CN106022363A (zh) * | 2016-05-12 | 2016-10-12 | 南京大学 | 一种适用于自然场景下的中文文字识别方法 |
CN106067019A (zh) * | 2016-05-27 | 2016-11-02 | 北京旷视科技有限公司 | 针对图像进行文字识别的方法及装置 |
CN108345833A (zh) * | 2018-01-11 | 2018-07-31 | 深圳中兴网信科技有限公司 | 数学公式的识别方法及系统和计算机设备 |
Non-Patent Citations (5)
Title |
---|
张青,尹俊勋.用神经网络方法进行汉字的部件识别.华南理工大学学报(自然科学版).1997,(第11期),全部页. * |
胡玲琳 ; 张若男 ; 李培年 ; 王仁芳 ; .手写数字体自动识别技术的研究现状.浙江万里学院学报.2015,(第02期),全部页. * |
蔡自兴,成浩.一种基于骨架特征和神经网络的手写体字符识别技术.计算技术与自动化.2001,(第03期),全部页. * |
邓冬华 ; .新的基于骨架特征的泰文识别技术.计算机应用.2013,(第S1期),全部页. * |
魏巍 ; 郭晨 ; .基于多特征集成分类器的脱机满文识别方法.计算机工程与设计.2012,(第06期),全部页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111414913A (zh) | 2020-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111414913B (zh) | 一种文字识别方法以及识别装置、电子设备 | |
CN109409222B (zh) | 一种基于移动端的多视角人脸表情识别方法 | |
CN110647829A (zh) | 一种票据的文本识别方法及系统 | |
CN106980856B (zh) | 公式识别方法及系统和符号推理计算方法及系统 | |
JP7425147B2 (ja) | 画像処理方法、テキスト認識方法及び装置 | |
CN111488826A (zh) | 一种文本识别方法、装置、电子设备和存储介质 | |
WO2014205231A1 (en) | Deep learning framework for generic object detection | |
CN113239818B (zh) | 基于分割和图卷积神经网络的表格跨模态信息提取方法 | |
CN109685065B (zh) | 试卷内容自动分类的版面分析方法、系统 | |
CN111652181B (zh) | 目标跟踪方法、装置及电子设备 | |
CN112364873A (zh) | 弯曲文本图像的文字识别方法、装置及计算机设备 | |
CN112819686A (zh) | 基于人工智能的图像风格处理方法、装置及电子设备 | |
CN112101386B (zh) | 文本检测方法、装置、计算机设备和存储介质 | |
CN113673338A (zh) | 自然场景文本图像字符像素弱监督自动标注方法、系统及介质 | |
CN114092938B (zh) | 图像的识别处理方法、装置、电子设备及存储介质 | |
CN108520263B (zh) | 一种全景图像的识别方法、系统及计算机存储介质 | |
CN114937285B (zh) | 动态手势识别方法、装置、设备及存储介质 | |
CN111709338B (zh) | 一种用于表格检测的方法、装置及检测模型的训练方法 | |
CN112633100A (zh) | 行为识别方法、装置、电子设备和存储介质 | |
CN117115824A (zh) | 一种基于笔划区域分割策略的视觉文本检测方法 | |
CN116994049A (zh) | 全自动针织横机及其方法 | |
CN111680691A (zh) | 文字检测方法、装置、电子设备和计算机可读存储介质 | |
Naz et al. | Challenges in baseline detection of cursive script languages | |
CN115909356A (zh) | 数字文档的段落确定方法、装置、电子设备及存储介质 | |
CN114399768A (zh) | 基于Tesseract-OCR引擎的工件产品序列号识别方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |