CN115240183A - 一种识别扭曲文本图像的处理方法、装置、设备及介质 - Google Patents
一种识别扭曲文本图像的处理方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN115240183A CN115240183A CN202210953356.1A CN202210953356A CN115240183A CN 115240183 A CN115240183 A CN 115240183A CN 202210953356 A CN202210953356 A CN 202210953356A CN 115240183 A CN115240183 A CN 115240183A
- Authority
- CN
- China
- Prior art keywords
- data
- pixel
- point data
- dimensional
- generate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 22
- 238000009499 grossing Methods 0.000 claims abstract description 26
- 230000011218 segmentation Effects 0.000 claims abstract description 26
- 238000000034 method Methods 0.000 claims description 33
- 238000012937 correction Methods 0.000 claims description 23
- 230000015654 memory Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 17
- 230000009466 transformation Effects 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 description 12
- 238000013527 convolutional neural network Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003702 image correction Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/168—Smoothing or thinning of the pattern; Skeletonisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19107—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种识别扭曲文本图像的处理方法、装置、设备及介质,包括获取包含文本块的扭曲表面图像的像素数据,所述像素数据包括多个像素点数据;将所述像素数据输入语义分割网络,获取所述扭曲表面图像中包含所述文本块的像素点数据;计算包含文本块的所述像素点数据的深度值,基于所述深度值生成多个三维点数据;基于所述三维点数据的法向量数据聚类所述三维点数据,生成多个聚类簇数据;对所述聚类簇数据的初始坐标数据进行平滑处理,生成中间坐标数据。通过本发明公开的一种识别扭曲文本图像的处理方法、装置、设备及介质,能够对扭曲的文本图像进行矫正识别。
Description
技术领域
本发明涉及文本图像处理技术领域,特别是涉及一种识别扭曲文本图像的处理方法、装置、设备及介质。
背景技术
随着移动摄像终端设备的发展,终端用户逐渐采用数字化记录的方式保存文本图像。例如,目前用户普遍使用移动摄像终端设备进行随手拍照,实现高效化记录文档。但是,由于移动摄像终端的不稳定性,文本图像中常常存在各种形变叠加,即文本图像中具有扭曲表面。文本图像的扭曲表面对后续的文本识别过程造成了极大干扰。因此,如何对扭曲表面的文本图像进行有效的矫正识别,已经成为亟需解决的问题。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种识别扭曲文本图像的处理方法、装置、设备及介质,本发明能够对扭曲表面的文本图像进行矫正识别。
为实现上述目的及其他相关目的,本发明提供一种识别扭曲文本图像的处理方法、装置、设备及介质,包括:
获取包含文本块的扭曲表面图像的像素数据,所述像素数据包括多个像素点数据;
将所述像素数据输入语义分割网络,获取所述扭曲表面图像中包含所述文本块的像素点数据;
计算包含文本块的所述像素点数据的深度值,基于所述深度值生成多个三维点数据;
基于所述三维点数据的法向量数据聚类所述三维点数据,生成多个聚类簇数据;
对所述聚类簇数据的初始坐标数据进行平滑处理,生成中间坐标数据;
基于所述聚类簇数据的法向量数据对所述中间坐标数据进行矫正处理,生成目标坐标数据;
将所述目标坐标数据投影至二维平面,生成矫正图像数据;
识别所述矫正图像数据中的文本信息,生成文本数据。
在本发明一实施例中,所述将所述像素数据输入语义分割网络,获取所述扭曲表面图像中包含所述文本块的像素点数据的步骤包括:
将所述像素数据输入语义分割网络,输出每个所述像素点数据的类别概率数据,所述类别概率数据表示为其中,表示某个像素点数据对应于某个类别j的概率,j表示背景类像素点数据或包含文本块的像素点数据,i表示某个像素点数据对应于某个类别j的权重矢量;
基于所述类别概率数据,获取包含文本块的所述像素点数据。
在本发明一实施例中,所述基于所述三维点数据的法向量数据聚类所述三维点数据,生成多个聚类簇数据的步骤包括:
基于预设的所述三维点数据的邻域数据,计算所述三维点数据的法向量数据;
根据所述三维点数据的法向量数据,计算每个三维点数据的邻近点密度数据;
基于所述邻近点密度数据,聚类所述三维点数据,生成多个聚类簇数据。
在本发明一实施例中,所述对所述聚类簇数据的初始坐标数据进行平滑处理,生成中间坐标数据的步骤包括:
基于所述聚类簇数据,建立所述聚类簇数据的三角网格;
对所述三角网格中聚类簇数据的初始坐标数据进行平滑处理,并生成中间坐标数据,所述中间坐标数据表示为其中,Vk表示某个初始坐标数据迭代k-1次的中间坐标数据,N表示聚类簇数据中某个三维点数据的相邻点集合,d表示聚类簇数据中某个三维点数据的相邻点数目,λ表示权重值,k表示迭代次数。
在本发明一实施例中,所述基于所述聚类簇数据的法向量数据对所述中间坐标数据进行矫正处理,生成目标坐标数据的步骤包括:
获取每个所述聚类簇数据中核心点数据的法向量数据;
基于所述核心点数据的法向量数据,对所述中间坐标数据进行矫正处理,生成目标坐标数据。
在本发明一实施例中,所述基于所述三角网格的法向量数据,对所述中间坐标数据进行矫正处理,生成目标坐标数据的步骤包括:
基于所述核心点数据的法向量数据,对所述中间坐标数据进行矫正处理;
对矫正处理后的所述中间坐标数据进行坐标变换,生成目标坐标数据。
在本发明一实施例中,所述将所述目标坐标数据投影至二维平面,生成矫正图像数据的步骤包括:
消除所述目标坐标数据的深度值,生成二维坐标数据;
将所述二维坐标数据投影至二维平面,生成矫正图像数据。
本发明还提出一种识别扭曲文本图像的处理装置,包括:
获取模块,用于获取包含文本块的扭曲表面图像的像素数据,所述像素数据包括多个像素点数据;
分割模块,用于将所述像素数据输入语义分割网络,获取所述扭曲表面图像中包含所述文本块的像素点数据;
生成模块,用于计算包含所述文本块的像素点数据的深度值,基于所述深度值生成多个三维点数据;
聚类模块,用于基于所述三维点数据的法向量数据聚类所述三维点数据,生成多个聚类簇数据;
平滑模块,用于对所述聚类簇数据的初始坐标数据进行平滑处理,生成中间坐标数据;
矫正模块,用于基于所述聚类簇数据的法向量数据对所述中间坐标数据进行矫正处理,生成目标坐标数据;
投影模块,用于将所述目标坐标数据投影至二维平面,生成矫正图像数据;
识别模块,用于识别所述矫正图像数据中的文本信息,生成文本数据。
本发明还提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现识别扭曲文本图像的处理方法的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现识别扭曲文本图像的处理方法的步骤。
如上所述,本发明提供一种识别扭曲文本图像的处理方法、装置、设备及介质,能够利用图像中三维物体的几何信息进行文本的矫正识别,提高图像的矫正效果,并且矫正过程无需特定设备的支持。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中识别扭曲文本图像的处理方法的一应用环境示意图;
图2是本发明一实施例中识别扭曲文本图像的处理方法的一流程示意图;
图3是图2中步骤S20的一具体实施方式流程示意图;
图4是图2中步骤S40的一具体实施方式流程示意图;
图5是图2中步骤S50的一具体实施方式流程示意图;
图6是图2中步骤S60的一具体实施方式流程示意图;
图7是图6中步骤S62的一具体实施方式流程示意图;
图8是图2中步骤S70的一具体实施方式流程示意图;
图9是本发明一实施例中识别扭曲文本图像的处理装置的一结构示意图。
图10是本发明一实施例中计算机设备的一结构示意图;
图11是本发明一实施例中计算机设备的另一结构示意图。
元件标号说明:
101、获取模块;102、分割模块;103、生成模块;104、聚类模块;105、平滑模块;106、矫正模块;107、投影模块;108、识别模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例提供的一种识别扭曲文本图像的处理方法,可应用在如图1的应用环境中,其中客户端通过网络与服务端进行通信。服务端可以通过客户端获取包含文本块的扭曲表面图像的像素数据,所述像素数据包括多个像素点数据;将所述像素数据输入语义分割网络,获取所述扭曲表面图像中包含所述文本块的像素点数据;计算包含所述文本块的所述像素点数据的深度值,基于所述深度值生成多个三维点数据;基于所述三维点数据的法向量数据聚类所述三维点数据,生成多个聚类簇数据;对所述聚类簇数据的初始坐标数据进行平滑处理,生成中间坐标数据;基于所述聚类簇数据的法向量数据对所述中间坐标数据进行矫正处理,生成目标坐标数据;将所述目标坐标数据投影至二维平面,生成矫正图像数据;识别所述矫正图像数据中的文本信息,生成文本数据。本发明中,利用图像中三维物体的几何信息进行文本识别,并且无需特定设备的支持。其中,客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。下面通过具体的实施例对本发明进行详细的描述。
请参阅图2所示,图2为本发明实施例提供的一种识别扭曲文本图像的处理方法的一个流程示意图,包括如下步骤:
步骤S10、获取包含文本块的扭曲表面图像的像素数据,所述像素数据包括多个像素点数据。
在一实施例中,本发明提供的智能问答处理方法,可应用于各种文本图像识别的场景中,文本图像识别通常通过服务端来实现,该服务端可以通过客户端接收文本图像的像素数据。具体的,包含文本块的扭曲表面图像可以为褶皱的文档、带有折痕的商品外壳及其他具有扭曲表面的文本图像。客户端内可储存有包含文本块的扭曲表面图像数据,包含文本块的扭曲表面图像可由多个像素点组成,此图像数据即为图像的像素数据,像素数据可包括多个像素点数据。在进行文本图像的矫正识别时,客户端可将包含文本块的扭曲表面图像的像素数据传输至服务端,以进行矫正识别操作。
需要说明的是,多个像素点数据中可包括背景类像素点数据与包含文本块的像素点数据。
步骤S20、将所述像素数据输入语义分割网络,获取所述扭曲表面图像中包含所述文本块的像素点数据。
在一实施例中,由于多个像素点数据中可包括背景类像素点数据与包含文本块的像素点数据,在进行文本图像的矫正识别过程中,背景类像素点数据会对矫正过程造成干扰。因此,服务端可提取像素数据内包含文本块的像素点数据,以单独对包含文本块的像素点数据进行矫正识别,消除背景类像素点数据的干扰。
请参阅图3,图3为图2中步骤S20的一具体实施方式流程示意图。步骤S20中将所述像素数据输入语义分割网络,获取所述扭曲表面图像中包含所述文本块的像素点数据的步骤,可包括:
步骤S21、将所述像素数据输入语义分割网络,输出每个所述像素点数据的类别概率数据,所述类别概率数据表示为其中,表示某个像素点数据对应于某个类别j的概率,j表示背景类像素点数据或包含文本块的像素点数据,i表示某个像素点数据对应于某个类别j的权重矢量。
步骤S22、基于所述类别概率数据,获取包含所述文本块的所述像素点数据。
对于步骤S21-S22,在获取包含文本块的像素点数据时,可将包含文本块的扭曲表面图像的像素数据输入语义分割网络中,以分割出包含文本块的像素点数据。此处的语义分割网络可以是基于卷积神经网络的语义分割模型。
具体的来说,包含文本块的扭曲表面图像的像素数据可作为参数,输入至卷积神经网络中。即像素数据的每个像素点数据可作为一个输入值,输入至卷积神经网络。每个输入的像素点数据可对应卷积神经网络中的两个输出节点,其中一个输出节点可为某个像素点数据对应于背景类像素点数据的权重矢量,另一个输出节点可为某个像素点数据对应于包含文本块的像素点数据的权重矢量。其中,某个像素点数据对应于某个类别像素点数据的权重矢量越大,该像素点数据为此类别像素点数据的可能性越大。
由于权重矢量无法直观的表示每个像素点数据对应于某个类别像素点数据的概率,此处可在卷积神经网络的最后一层引入分类概率公式。基于每个像素点数据的权重矢量,利用分类概率公式,可计算每个像素点数据对应于某个类别像素点数据的类别概率数据。从而判断每个像素点数据的类别。具体的,类别概率数据可表示为其中,表示某个像素点数据对应于某个类别j的概率,j表示背景类像素点数据或包含文本块的像素点数据,i表示某个像素点数据对应于某个类别j的权重矢量。
例如,某个像素点数据对应于背景类像素点数据的权重矢量为i,某个像素点数据对应于包含文本块的像素点数据的权重矢量为j,则此像素点数据对应于背景类像素点数据的类别概率数据为此像素点数据对应于包含文本块的像素点数据的类别概率数据为若则此像素点数据为背景类像素点数据。若则此像素点数据为包含文本块的像素点数据。因此,基于此类别概率数据,可识别出背景类像素点数据与包含文本块的像素点数据,从而分割出包含文本块的像素点数据。
步骤S30、计算包含文本块的所述像素点数据的深度值,基于所述深度值生成多个三维点数据。
在一实施例中,包含文本块的所述像素点数据可转化为三维点数据,以利用图像中的三维信息进行矫正。
例如,某个像素点数据的坐标数据可为(xi,yj),此坐标数据为二维坐标数据,可以理解为此坐标数据具有X轴、Y轴上的坐标值。基于二维坐标数据,可获取此坐标数据在Z轴上的坐标值,Z轴上的坐标值可表示为zi,j。从而,可获取某个像素点数据的三维坐标数据(xi,yj,zi,j)。需要说明的是,某个像素点数据的坐标数据在Z轴上的坐标值即为该像素点数据的深度值,深度值可以指该像素点离拍摄设备的距离。
需要注意的是,在计算每个像素点数据的深度值时,可先利用编码器提取每个像素点数据的二维坐标数据,二维坐标数据可表示为(xi,yj)。接着,利用解码器可分析二维坐标数据,并获取每个像素点数据的深度值。具体的,深度值可表示为zi,j=f(xi,yj),其中,(xi,yj)为二维坐标数据,f为映射函数。综上,可将每个像素点数据转化为三维点数据,每个三维点数据的坐标数据可表示为(xi,yj,zi,j)。多个三维点数据可构成一个点云集合。
步骤S40、基于所述三维点数据的法向量数据聚类所述三维点数据,生成多个聚类簇数据。
在一实施例中,需要说明的是,每个三维点数据具有一个法向量数据,此法向量数据可以为每个三维点数据及其邻近点构成的拟合面的法向量。邻近点可以指每个三维点数据的邻域中其他三维点。
需要注意的是,某个三维点数据的邻域是指以某个三维点数据为中心的任何开区间。例如,某个三维点数据可设为a,相应邻域的半径可设为δ,则三维点数据的开区间可表示为(a-δ,a+δ)。此开区间内的其他三维点数据即为此三维点数据的邻近点数据。
请参阅图4,图4为图2中步骤S40的一具体实施方式流程示意图。步骤S40中基于所述三维点数据的法向量数据聚类所述三维点数据,生成多个聚类簇数据的步骤,可包括:
步骤S41、基于预设的所述三维点数据的邻域数据,计算所述三维点数据的法向量数据;
步骤S42、根据所述三维点数据的法向量数据,计算每个三维点数据的邻近点密度数据;
步骤S43、基于所述邻近点密度数据,聚类所述三维点数据,生成多个聚类簇数据。
对于步骤S41-S43,预设的邻域数据可以包括邻域的半径参数R和最少邻近点数目参数。基于每个三维点数据及其邻域的半径参数R可以确定每个邻域的范围,每个邻域的中心点即为相应的三维点数据。
需要说明的是,在计算某个三维点数据的法向量数据时,即是计算某个三维点数据及其邻近点构成平面的法向量。此法向量可以描述为,某个三维点及其邻近点在该法向量的方向上投影点分布最为密集。因此,计算某个三维点数据的法向量数据时,首先可通过主成分分析法建立每个三维点数据及其邻近点数据的拟合平面的协方差矩阵。协方差矩阵的最小特征值和对应的特征向量可表示,某个三维点数据及其邻近点数据在该特征向量的方向上的方差最小,分布最密集。因此,协方差矩阵的最小特征值对应的特征向量即为需要计算的法向量数据。
具体的来说,某个三维点数据及其邻近点的拟合平面的协方差矩阵可表示为其中,pi表示在邻域半径R的范围内距离最近的三维点数据,k表示在邻域半径R的范围内距离最近的k个点的数目,为某个三维点数据的邻域中心数据。k值可以根据计算精度进行设定。此协方差矩阵D的最小特征值对应的特征向量即为所要计算的法向量。
在一实施例中,对三维点数据进行聚类操作时,首先设定多个三维点数据为核心点,以核心点为中心聚类相应的邻近点,可得到多个聚类簇。需要说明的是,每个核心点可基于每个三维点数据的法向量数据进行确定。
具体的来说,可随机选择某个三维点数据,并将其标记为已访问点。将该三维点数据的邻域半径参数设定为R,计算该三维点数据与其邻域中每个三维点数据的法向量的角度差值。基于该角度差值,可计算该三维点数据的邻近点密度数据,邻近点密度数据即为该邻域中角度差值小于差值阈值的点的个数。若邻近点密度数据大于最少邻近点数目参数,可将该三维点数据设定为核心点,并将此核心点设定为一个聚类簇Ci。一个簇Ci可代表一个扭曲表面信息。最后,可将该邻域中小于差值阈值的点聚类至簇Ci中,并更新簇Ci。
需要注意的是,可对每个簇Ci中的每个三维点做一次访问,并将访问过的三维点标记为已访问点。同样的,可计算每个三维点数据的邻近点密度数据,并将每个簇Ci中邻近点密度数据最大的三维点更新为核心点。同时,可将每个核心点邻域内法向量的角度差值小于差值阈值的点聚类至每个簇Ci中。
需要注意的是,当访问完每个簇Ci中的所有三维点数据后,将未聚类的三维点标记为噪声点并剔除。
步骤S50、对所述聚类簇数据的初始坐标数据进行平滑处理,生成中间坐标数据。
在一实施例中,可对聚类簇中每个三维点数据的初始坐标数据进行平滑处理,将每个初始坐标数据调整至与其相邻点的坐标数据近似,完成扭曲表面信息的初步调整。
请参阅图5,图5为图2中步骤S50的一具体实施方式流程示意图。步骤S50中对所述聚类簇数据的初始坐标数据进行平滑处理,生成中间坐标数据的步骤,可包括:
步骤S51、基于所述聚类簇数据,建立所述聚类簇数据的三角网格;
步骤S52、对所述三角网格中聚类簇数据的初始坐标数据进行平滑处理,并生成中间坐标数据,所述中间坐标数据表示为:
其中,Vk表示某个初始坐标数据迭代k-1次的中间坐标数据,N表示聚类簇数据中某个三维点数据的相邻点集合,d表示聚类簇数据中某个三维点数据的相邻点数目,λ表示权重值,k表示迭代次数。
对于步骤S51-S52,基于三角剖分的空间区域增长算法,可对各个聚类簇数据建立三角拓扑结构,形成多个三维点数据的三角网格。具体的来说,选取某个聚类簇数据中的三个三维点构成初始三角形,再选取某个三维点数据,与初始三角形的一个边连接,形成一个新的三角形。重复相同步骤,直至形成所有三维点数据的三角网格。
具体的,在进行平滑操作时,可将每个三维点数据的初始坐标数据表示为笛卡尔坐标系下的三维坐标基于该初始坐标数据,可获得对应的三维点数据与其相邻的三维点数据的中心之间的偏移量。此偏移量可表示为拉普拉斯坐标系下的三维坐标δ1,拉普拉斯坐标δ1可表示为 其中N表示聚类簇数据中某个三维点数据的相邻点集合,d表示聚类簇数据中某个三维点数据的相邻点数目。
根据此拉普拉斯坐标系下的三维坐标δ1,可进行迭代平滑操作,以获得中间坐标数据。具体的来说。第一次的拉普拉斯坐标可为δ1,获得的第一次平滑后的坐标数据为v2=v1+λδ1。λ可表示权重值,可设定为0.1,也可根据计算需求设定为其他值。综上为第一次迭代,同样的,可进行第二次迭代。基于坐标数据v2,可再次计算第二次的拉普拉斯坐标δ2。拉普拉斯坐标δ2可表示为获得的第二次平滑后的坐标数据为v3=v2+λδ2。此上为第二次迭代。根据上述同样步骤,可进行多次迭代。迭代次数可不加限制,具体可根据计算需求进行设定。依据上述迭代平滑过程,可获得最终的中间坐标数据为此中间坐标数据为笛卡尔坐标系下的坐标数据。
步骤S60、基于所述聚类簇数据的法向量数据对所述中间坐标数据进行矫正处理,生成目标坐标数据。
在一实施例中,可获取步骤S41-S43中的核心点数据及对应的核心点的法向量数据。基于每个核心点的法向量,可矫正每个核心点对应的聚类簇中其他三维点的中间坐标。从而可将其余三维点的中间坐标投影至核心点对应的平面内,使得矫正后的每个聚类簇中各个三维点处于同一个平面内。最后,对矫正后的每个三维点的中间坐标数据进行坐标变换,得到目标坐标数据,可使得每个三维点的坐标数据的深度值保持一致。在上述步骤中,充分利用了三维点的几何信息进行矫正。
请参阅图6,图6为图1中步骤S60的一具体实施方式流程示意图。步骤S60中基于所述聚类簇数据的法向量数据对所述中间坐标数据进行矫正处理,生成目标坐标数据的步骤,可包括:
S61、获取每个所述聚类簇数据中核心点数据的法向量数据;
S62、基于所述核心点数据的法向量数据,对所述中间坐标数据进行矫正处理,生成目标坐标数据。
对于步骤S61-S62,基于核心点的法向量数据,可对所述中间坐标数据进行矫正处理。例如,每个核心点及其法向量可确定一个平面,根据该平面方程,可矫正每个聚类簇中各个三维点的坐标,以使矫正后的每个聚类簇中各个三维点所处的网格面的法向量与对应的核心点的法向量的朝向一致。由此,每个聚类簇中每个三维点所处的网格面朝向一致,每个聚类簇代表的扭曲表面可变成平面。
具体的来说,在矫正每个聚类簇中各个三维点的坐标时,某个核心点的中间坐标数据可表示为p=(xp,yp,zp),矫正处理后的坐标可表示为(x′i,y′i,z′i),该核心点对应的法向量可表示为通过该核心点及其法向量可确定一个平面,该平面方程可表示为(x-xp)a+(y-yp)b+(z-zp)c=0。其中,矫正处理后的坐标可表示为
请参阅图7,图7为图6中步骤S62的一具体实施方式流程示意图。步骤S62中基于所述核心点数据的法向量数据,对所述中间坐标数据进行矫正处理,生成目标坐标数据的步骤,可包括:
步骤S621、基于所述核心点数据的法向量数据,对所述中间坐标数据进行矫正处理;
步骤S622、对矫正处理后的所述中间坐标数据进行坐标变换,生成目标坐标数据。
对于步骤S621-S622,基于每个核心点的法向量数据,可对矫正处理后的中间坐标进行坐标变换,以使各个中间坐标的深度值保持一致。当各个中间坐标的深度值保持一致时,每个聚类簇代表的倾斜的平面可由倾斜状态转变为垂直状态。因此,后续将每个聚类簇的坐标数据投影至二维平面时,可以减少图像的扭曲。
具体的来说,每个核心点对应的法向量可表示为在进行坐标变换时,R=RxRyRz。其中, 其中,Rx、Ry,Rz分别可为绕x、y、z轴旋转的坐标矩阵,R可为最终的三维变换矩阵。根据此三维变换矩阵,可对笛卡尔坐标系下的各个三维点坐标构成的坐标矩阵Ci进行旋转变换,以使每个三维点坐标的深度值保持一致。具体的来说,各个三维点坐标构成的目标坐标矩阵可表示为Cz=RCi。其中,R为上述最终的三维变换矩阵。
步骤S70、将所述目标坐标数据投影至二维平面,生成矫正图像数据。
在一实施例中,基于各个三维点坐标构成的目标坐标矩阵可得到每个聚类簇中各个三维点的目标坐标数据。
需要说明的是,在将目标坐标数据投影至二维平面之前,需要对目标坐标数据消除深度值,即目标坐标数据在Z轴上的坐标值。
请参阅图8,图8为图2中步骤S70的一具体实施方式流程示意图。步骤S70中将所述目标坐标数据投影至二维平面,生成矫正图像数据的步骤,可包括:
S71、消除所述目标坐标数据的深度值,生成二维坐标数据;
S72、将所述二维坐标数据投影至二维平面,生成矫正图像数据。
对于步骤S71-S72,某个三维点的目标坐标数据可表示为(xa,ya,za),在消除深度值后,某个三维点的目标坐标数据可表示为(xa,ya)。
需要注意的是,将消除深度值后的每个三维点投影至二维平面后,会存在丢失的像素点,可利用双线性插值法填补空缺像素点。具体的来说,二维平面内的某个二维点的像素值空缺未知,由于空缺像素点的像素值与原坐标系中的点的像素值具有相似性,每个空缺像素点可以对应原坐标系中的某个位置。通过原坐标系中离该位置相邻的四个点的像素值,可计算对应的空缺像素值。例如,相邻的四个点的坐标可表示为Q11(x1,y1)、Q12(x1,y2)、Q21(x2,y1)及Q22(x2,y2)。相邻的四个点的像素值可对应表示为f(Q11)、f(Q12)、f(Q21)及f(Q22)。则二维平面内某个二维点的空缺像素值可表示为f(x,y)=f(Q11)/[(x2-x1)(y2-y1)](x2-x)(y2-y)+f(Q21)/[(x2-x1)(y2-y1)](x-x1)(y2-y)+f(Q12)/[(x2-x1)(y2-y1)](x2-x)(y-y1)+f(Q22)/[(x2-x1)(y2-y1)](x-x1)(y-y1)。填补二维平面内各个二维点的空缺像素值后,可生成矫正图像数据。
步骤S80、识别所述矫正图像数据中的文本信息,生成文本数据。
在一实施例中,对矫正图像数据进行文本信息的识别时,可利用卷积神经网络进行识别,得到最终文本内容。也可使用其他文本识别方法进行文本的识别,例如长短期记忆网络。
具体的,以利用卷积神经网络进行识别为例进行说明,矫正图像数据可输入以特征金字塔网络和全卷积神经网络为核心的文本检测网络,输出文本中心线得分映射图以及文本区域得分映射图。文本中心线得分映射图反映了文本中心线的位置。文本中心线得分映射图反映了文本区域边界的位置。利用文本中心线得分映射图对文本区域得分映射图进行掩码操作,得到掩码后的文本区域得分映射图。掩码后的文本区域得分映射图反映了文本区域的位置。将掩码后的文本区域得分映射图映射至对应的矫正图像数据,可得到文本区域。接着将文本区域裁剪为单行文字内容,并输入模型以Transformer神经网络为主要架构的文本识别模型。其中,为了简化编码过程,模型使用以残差网络为主要架构的卷积神经网络代替编码器,简化编码过程。使用局部敏感哈希代码代替传统嵌入,降低模型维度,提高迭代速度。最终数据通过解码器逐字生成文本,组成单行文本数据。
可见,在上述方案中,能够利用图像中三维物体的几何信息进行文本的矫正识别,提高图像的矫正效果,并且矫正过程无需特定设备的支持。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种识别扭曲文本图像的处理装置,该识别扭曲文本图像的处理装置与上述实施例中识别扭曲文本图像的处理方法一一对应。如图9所示,该识别扭曲文本图像的处理装置包括获取模块101、分割模块102、生成模块103、聚类模块104、平滑模块105、矫正模块106、投影模块107和识别模块108。各功能模块详细说明如下:
获取模块101,用于获取包含文本块的扭曲表面图像的像素数据,所述像素数据包括多个像素点数据;
分割模块102,用于将所述像素数据输入语义分割网络,获取所述扭曲表面图像中包含所述文本块的像素点数据;
生成模块103,用于计算包含所述文本块的像素点数据的深度值,基于所述深度值生成多个三维点数据;
聚类模块104,用于基于所述三维点数据的法向量数据聚类所述三维点数据,生成多个聚类簇数据;
平滑模块105,用于对所述聚类簇数据的初始坐标数据进行平滑处理,生成中间坐标数据;
矫正模块106,用于基于所述聚类簇数据的法向量数据对所述中间坐标数据进行矫正处理,生成目标坐标数据;
投影模块107,用于将所述目标坐标数据投影至二维平面,生成矫正图像数据;
识别模块108,用于识别所述矫正图像数据中的文本信息,生成文本数据。
在一实施例中,分割模块102,具体用于:
将所述像素数据输入语义分割网络,输出每个所述像素点数据的类别概率数据,所述类别概率数据表示为其中,表示某个像素点数据对应于某个类别j的概率,j表示背景类像素点数据或包含文本块的像素点数据,i表示某个像素点数据对应于某个类别j的权重矢量;
基于所述类别概率数据,获取包含文本块的所述像素点数据。
在一实施例中,聚类模块104,具体用于:
基于预设的所述三维点数据的邻域数据,计算所述三维点数据的法向量数据;
根据所述三维点数据的法向量数据,计算每个三维点数据的邻近点密度数据;
基于所述邻近点密度数据,聚类所述三维点数据,生成多个聚类簇数据。
在一实施例中,平滑模块105,具体用于:
基于所述聚类簇数据,建立所述聚类簇数据的三角网格;
对所述三角网格中聚类簇数据的初始坐标数据进行平滑处理,并生成中间坐标数据,所述中间坐标数据表示为其中,Vk表示某个初始坐标数据迭代k-1次的中间坐标数据,N表示聚类簇数据中某个三维点数据的相邻点集合,d表示聚类簇数据中某个三维点数据的相邻点数目,λ表示权重值,k表示迭代次数。
在一实施例中,矫正模块106,具体用于:
获取每个所述聚类簇数据中核心点数据的法向量数据;
基于所述核心点数据的法向量数据,对所述中间坐标数据进行矫正处理,生成目标坐标数据。
在一实施例中,矫正模块106,还用于:
基于所述核心点数据的法向量数据,对所述中间坐标数据进行矫正处理;
对矫正处理后的所述中间坐标数据进行坐标变换,生成目标坐标数据。
在一实施例中,投影模块107,具体用于:
消除所述目标坐标数据的深度值,生成二维坐标数据;
将所述二维坐标数据投影至二维平面,生成矫正图像数据。
本发明提供了一种识别扭曲文本图像的处理装置,能够利用图像中三维物体的几何信息进行文本的矫正识别,提高图像的矫正效果,并且矫正过程无需特定设备的支持。
关于识别扭曲文本图像的处理装置的具体限定可以参见上文中对于识别扭曲文本图像的处理方法的限定,在此不再赘述。上述智能问答处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务端,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性和/或易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的客户端通过网络连接通信。该计算机程序被处理器执行时以实现一种识别扭曲文本图像的处理方法服务端侧的功能或步骤。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是客户端,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种识别扭曲文本图像的处理方法客户端侧的功能或步骤。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取包含文本块的扭曲表面图像的像素数据,所述像素数据包括多个像素点数据;
将所述像素数据输入语义分割网络,获取所述扭曲表面图像中包含所述文本块的像素点数据;
计算包含所述文本块的像素点数据的深度值,基于所述深度值生成多个三维点数据;
基于所述三维点数据的法向量数据聚类所述三维点数据,生成多个聚类簇数据;
对所述聚类簇数据的初始坐标数据进行平滑处理,生成中间坐标数据;
基于所述聚类簇数据的法向量数据对所述中间坐标数据进行矫正处理,生成目标坐标数据;
将所述目标坐标数据投影至二维平面,生成矫正图像数据;
识别所述矫正图像数据中的文本信息,生成文本数据。
在一个实施例中,提供了一种计算机可读介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取包含文本块的扭曲表面图像的像素数据,所述像素数据包括多个像素点数据;
将所述像素数据输入语义分割网络,获取所述扭曲表面图像中包含所述文本块的像素点数据;
计算包含所述文本块的像素点数据的深度值,基于所述深度值生成多个三维点数据;
基于所述三维点数据的法向量数据聚类所述三维点数据,生成多个聚类簇数据;
对所述聚类簇数据的初始坐标数据进行平滑处理,生成中间坐标数据;
基于所述聚类簇数据的法向量数据对所述中间坐标数据进行矫正处理,生成目标坐标数据;
将所述目标坐标数据投影至二维平面,生成矫正图像数据;
识别所述矫正图像数据中的文本信息,生成文本数据。
需要说明的是,上述关于计算机可读存储介质或计算机设备所能实现的功能或步骤,可对应参阅前述方法实施例中,服务端侧以及客户端侧的相关描述,为避免重复,这里不再一一描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种识别扭曲文本图像的处理方法,其特征在于,包括:
获取包含文本块的扭曲表面图像的像素数据,所述像素数据包括多个像素点数据;
将所述像素数据输入语义分割网络,获取所述扭曲表面图像中包含所述文本块的像素点数据;
计算包含所述文本块的像素点数据的深度值,基于所述深度值生成多个三维点数据;
基于所述三维点数据的法向量数据聚类所述三维点数据,生成多个聚类簇数据;
对所述聚类簇数据的初始坐标数据进行平滑处理,生成中间坐标数据;
基于所述聚类簇数据的法向量数据对所述中间坐标数据进行矫正处理,生成目标坐标数据;
将所述目标坐标数据投影至二维平面,生成矫正图像数据;
识别所述矫正图像数据中的文本信息,生成文本数据。
3.根据权利要求1所述的识别扭曲文本图像的处理方法,其特征在于,所述基于所述三维点数据的法向量数据聚类所述三维点数据,生成多个聚类簇数据的步骤包括:
基于预设的所述三维点数据的邻域数据,计算所述三维点数据的法向量数据;
根据所述三维点数据的法向量数据,计算每个三维点数据的邻近点密度数据;
基于所述邻近点密度数据,聚类所述三维点数据,生成多个聚类簇数据。
5.根据权利要求1所述的识别扭曲文本图像的处理方法,其特征在于,所述基于所述聚类簇数据的法向量数据对所述中间坐标数据进行矫正处理,生成目标坐标数据的步骤包括:
获取每个所述聚类簇数据中核心点数据的法向量数据;
基于所述核心点数据的法向量数据,对所述中间坐标数据进行矫正处理,生成目标坐标数据。
6.根据权利要求5所述的识别扭曲文本图像的处理方法,其特征在于,所述基于所述核心点数据的法向量数据,对所述中间坐标数据进行矫正处理,生成目标坐标数据的步骤包括:
基于所述核心点数据的法向量数据,对所述中间坐标数据进行矫正处理;
对矫正处理后的所述中间坐标数据进行坐标变换,生成目标坐标数据。
7.根据权利要求1所述的识别扭曲文本图像的处理方法,其特征在于,所述将所述目标坐标数据投影至二维平面,生成矫正图像数据的步骤包括:
消除所述目标坐标数据的深度值,生成二维坐标数据;
将所述二维坐标数据投影至二维平面,生成矫正图像数据。
8.一种识别扭曲文本图像的处理装置,其特征在于,包括:
获取模块,用于获取包含文本块的扭曲表面图像的像素数据,所述像素数据包括多个像素点数据;
分割模块,用于将所述像素数据输入语义分割网络,获取所述扭曲表面图像中包含所述文本块的像素点数据;
生成模块,用于计算包含文本块的所述像素点数据的深度值,基于所述深度值生成多个三维点数据;
聚类模块,用于基于所述三维点数据的法向量数据聚类所述三维点数据,生成多个聚类簇数据;
平滑模块,用于对所述聚类簇数据的初始坐标数据进行平滑处理,生成中间坐标数据;
矫正模块,用于基于所述聚类簇数据的法向量数据对所述中间坐标数据进行矫正处理,生成目标坐标数据;
投影模块,用于将所述目标坐标数据投影至二维平面,生成矫正图像数据;
识别模块,用于识别所述矫正图像数据中的文本信息,生成文本数据。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的识别扭曲文本图像的处理方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的识别扭曲文本图像的处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210953356.1A CN115240183A (zh) | 2022-08-10 | 2022-08-10 | 一种识别扭曲文本图像的处理方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210953356.1A CN115240183A (zh) | 2022-08-10 | 2022-08-10 | 一种识别扭曲文本图像的处理方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115240183A true CN115240183A (zh) | 2022-10-25 |
Family
ID=83679526
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210953356.1A Pending CN115240183A (zh) | 2022-08-10 | 2022-08-10 | 一种识别扭曲文本图像的处理方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115240183A (zh) |
-
2022
- 2022-08-10 CN CN202210953356.1A patent/CN115240183A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110826395B (zh) | 人脸旋转模型的生成方法、装置、计算机设备及存储介质 | |
CN109063742B (zh) | 蝴蝶识别网络构建方法、装置、计算机设备及存储介质 | |
WO2021072879A1 (zh) | 证件中的目标文本提取方法、装置、设备及可读存储介质 | |
WO2020098296A1 (zh) | 一种图像检索方法及装置 | |
CN109584327B (zh) | 人脸老化模拟方法、装置以及设备 | |
WO2023030163A1 (zh) | 三维模型纹理贴图的转换方法、装置、设备以及介质 | |
CN109919971B (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN114529837A (zh) | 建筑物轮廓提取方法、系统、计算机设备及存储介质 | |
CN113850807B (zh) | 图像亚像素匹配定位方法、系统、设备及介质 | |
WO2017107865A1 (zh) | 图像检索系统、服务器、数据库及相关的方法 | |
US20220237880A1 (en) | System and method of generating a 3d representation of an object | |
CN113869293A (zh) | 车道线识别方法、装置、电子设备和计算机可读介质 | |
CN113129311B (zh) | 一种标签优化点云实例分割方法 | |
US11367263B1 (en) | Image-guided three dimensional modeling | |
CN110378423A (zh) | 特征提取方法、装置、计算机设备及存储介质 | |
JP2002190025A (ja) | パターン識別方法および装置 | |
US20210365718A1 (en) | Object functionality predication methods, computer device, and storage medium | |
CN112328715A (zh) | 视觉定位方法及相关模型的训练方法及相关装置、设备 | |
CN115601774B (zh) | 表格识别方法、装置、设备、存储介质和程序产品 | |
CN114283332A (zh) | 一种模糊聚类遥感影像分割方法、系统、终端及存储介质 | |
CN109934926B (zh) | 模型数据处理方法、装置、可读存储介质和设备 | |
WO2024088111A1 (zh) | 图像处理方法、装置、设备、介质及程序产品 | |
CN111027551B (zh) | 图像处理方法、设备和介质 | |
CN110275895B (zh) | 一种缺失交通数据的填充设备、装置及方法 | |
CN115240183A (zh) | 一种识别扭曲文本图像的处理方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |