CN113343987B - 文本检测处理方法、装置、电子设备及存储介质 - Google Patents
文本检测处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113343987B CN113343987B CN202110745524.3A CN202110745524A CN113343987B CN 113343987 B CN113343987 B CN 113343987B CN 202110745524 A CN202110745524 A CN 202110745524A CN 113343987 B CN113343987 B CN 113343987B
- Authority
- CN
- China
- Prior art keywords
- text
- pixel point
- interest
- pixel
- inclined plane
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及文本检测处理方法、装置、电子设备及存储介质,属于文本检测技术领域。本申请包括:识别待处理图像中的目标感兴趣区域;获取目标感兴趣区域中各像素点的概率值,概率值用于指示像素点为文本像素点的概率;对各像素点的概率值与像素位置信息进行迭代回归处理,确定待处理图像中的文本区域。通过本申请,有助于实现提升检测到的文本区域与实际文本区域的匹配度,提升文本检测精度。
Description
技术领域
本申请属于文本检测技术领域,具体涉及文本检测处理方法、装置、电子设备及存储介质。
背景技术
在文本识别中,文本检测(或称为:文本区域检测、文本位置检测)是一个非常重要的步骤,对于文本检测,直观的理解是,给定一张含有文本的图片,找出图片中各个文本出现的区域位置。
对于文本区域边界的检测确定,相关技术中,可通过如下方式实现,在确定出一个具有文本的区域后,通过相关神经网络模型对该区域中的各像素点进行属于文本的概率预测,然后,根据概率阈值对该区域中的各像素点进行分类,如将文本的概率大于或等于概率阈值的像素点分类为一类,该类中的像素点属于文本像素点,而将文本的概率小于概率阈值的像素点分类为另一类。基于分类结果,为该区域生成对应的二值掩码图,在二值掩码图上,该区域中文本像素点对应的掩码值为1,而另一类像素点对应的掩码值为0。
但是,存在的问题是,文本周围的非文本区域对文本检测会形成干扰,通过概率阈值进行分类,文本周围的非文本区域非常容易被大范围分类到属于文本,进而以此生成二值掩码图,进行文本边界识别提取时,往往使得文本检测区域的边界选定范围过大,与实际文本区域不匹配。
发明内容
为此,本申请提供文本检测处理方法、装置、电子设备及存储介质,有助于解决因文本周围的非文本区域对文本检测会形成干扰,导致检测到的文本区域的选定范围过大,与实际文本区域不匹配的问题。
为实现以上目的,本申请采用如下技术方案:
第一方面,本申请提供一种文本检测处理方法,所述方法包括:
识别待处理图像中的目标感兴趣区域;
获取所述目标感兴趣区域中各像素点的概率值,所述概率值用于指示像素点为文本像素点的概率;
对各像素点的概率值与像素位置信息进行迭代回归处理,确定所述待处理图像中的文本区域。
第二方面,本申请提供一种文本检测处理装置,所述装置包括:
识别模块,用于识别待处理图像中的目标感兴趣区域;
获取模块,用于获取所述目标感兴趣区域中各像素点的概率值,所述概率值用于指示像素点为文本像素点的概率;
处理模块,用于对各像素点的概率值与像素位置信息进行迭代回归处理,确定所述待处理图像中的文本区域。
第三方面,本申请提供一种电子设备,包括:
一个或者多个存储器,其上存储有可执行程序;
一个或者多个处理器,用于执行所述存储器中的所述可执行程序,以实现上述任一项所述方法的步骤。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上述中任一项所述方法的步骤。
本申请采用以上技术方案,至少具备以下有益效果:
本申请识别待处理图像中的目标感兴趣区域,通过目标感兴趣区域对文本进行选定,然后获取目标感兴趣区域中各像素点的概率值,该概率值用于指示像素点为文本像素点的概率,在此基础上,对各像素点的概率值与像素位置信息进行迭代回归处理,以在目标感兴趣区域中进行更精细的文本区域确定处理,每迭代回归处理一次,就可使检测的文本区域边界向实际文本区域接近一次,以此方式来寻找更加匹配实际文本区域的边界,从而,实现提升检测到的文本区域与实际文本区域的匹配度,提升文本区域检测精度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种文本检测处理方法的流程图;
图2是根据一示例性实施例示出的在待处理图像上识别出感兴趣区域示意图;
图3是根据一示例性实施例示出的对各像素点的概率值与像素位置信息进行迭代回归处理的流程图;
图4是根据一示例性实施例示出的对目标感兴趣区域单独建立三维直角坐标系的示意图;
图5是根据一示例性实施例示出的对待处理图像建立三维直角坐标系的示意图;
图6是根据一示例性实施例示出的矩形感兴趣区域情况下的初始棱锥模型的俯视示意图;
图7是根据一示例性实施例示出的任意一次迭代回归过程的流程图;
图8是根据一示例性实施例示出的迭代回归过程中棱锥模型变化演示示意图;
图9是根据一示例性实施例示出的识别待处理图像中的目标感兴趣区域的流程图;
图10是根据一示例性实施例示出的一种文本检测处理装置的框图结构示意图;
图11是根据一示例性实施例示出的一种电子设备的框图结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将对本申请的技术方案进行详细的描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本申请所保护的范围。
请参阅图1,图1是根据一示例性实施例示出的一种文本检测处理方法的流程图,该文本检测处理方法可应用于任意电子设备,电子设备可以包括但不限于如下至少一种:智能手机、电脑、服务器等,该文本检测处理方法包括如下步骤:
步骤S11、识别待处理图像中的目标感兴趣区域。
对于待处理图像的获得,可以通过电子设备自身配置的摄像头拍摄获得,可以是电子设备通过接收其他电子设备发送的图像获得,也可以是电子设备通过网络检索图像获得。以应用于智能手机为例,可以是智能手机通过其摄像头拍摄获得待处理图像,也可以是智能手机接收其他电子设备发送的待处理图像。
待处理图像中的文本可以包括有文字、数字、字符等等中的至少一种。实际场景下,待处理图像可以含有一处文本,也可以含有两处或两处以上的文本,因而,对待处理图像进行文本的目标感兴趣区域识别,基于待处理图像中文本的实际位置分布,可能识别出一个目标感兴趣区域,即待处理图像中有一处文本,也可能识别出两个或两个以上的目标感兴趣区域,即待处理图像中有两处或两处以上的文本。
在待处理图像中进行文本的目标感兴趣区域识别,可以通过训练好的识别文本的计算机视觉神经网络,以文本作为感兴趣对象,来识别待处理图像中的目标感兴趣区域,通过目标感兴趣区域对文本进行选定,以在目标感兴趣区域中对文本进行更精细的边界检测处理。对于目标感兴趣区域的识别,也可以是基于待处理图像的像素特征,先确定出多个候选感兴趣区域,然后对候选感兴趣区域进行分类识别处理,在多个候选感兴趣区域中确定出待处理图像上涵盖文本的目标感兴趣区域。
对于感兴趣区域的形状,本申请中不做具体限定,可以包括但不限于:规则形状或不规则形状,例如,各种四边形、五边形等等。本申请应用于文本检测这一应用场景,鉴于文本轮廓通常为矩形,在具体应用中,感兴趣区域形状可采用矩形窗。具体的,感兴趣区域可以通过一个横平竖直的矩形窗口来体现。请参阅图2,图2中示出在待处理图像1中识别出矩形目标感兴趣区域2,图2中以斜线填充部分3示出实际文本区域。
步骤S12、获取目标感兴趣区域中各像素点的概率值,该概率值用于指示像素点为文本像素点的概率。
本申请中,将待处理图像中的文本作为感兴趣对象识别出,以此确定感兴趣区域,感兴趣区域中会包含较多的文本周围的其他非文本内容,如在感兴趣区域通过横平竖直的矩形窗口限定情况下,在文本为倾斜长文本时,虽然整个倾斜长文本处于感兴趣区域中,但感兴趣区域中存在有较多的非文本区域。请参阅图2,图2中示出的文本为倾斜长文本,该矩形感兴趣区域虽然涵盖了整个文本,但也涵盖了较多的非文本内容,相对来说,感兴趣区域的边界与实际文本区域的边界并不匹配,感兴趣区域对文本的选定范围过大。
因而,需要在感兴趣区域中进一步确定出一个更为准确的文本区域,本申请通过步骤S12来获取感兴趣区域中各像素点的概率值,该概率值用于指示像素点为文本像素点的概率,以此用于后续确定更准确的文本区域边界。
可以利用卷积神经网络对感兴趣区域中各像素点进行属于文本像素点的概率预测,预测出的概率值是连续型变量,可以设定为属于[0,1]区间的值,比如,预测出感兴趣区域中A像素点属于文本的概率为0.3,预测出目标感兴趣区域中B像素点属于文本的概率为0.8,预测出目标感兴趣区域中C像素点属于文本的概率为1,等等,概率值越大表明像素点属于文本像素点的可能性越大。文本中心概率值最大,越远离文本中心概率值越小,因而,目标感兴趣区域中,从目标感兴趣区域边缘到文本中心,像素点的概率值逐渐增大。
步骤S13、对各像素点的概率值与像素位置信息进行迭代回归处理,确定待处理图像中的文本区域。
具体应用中,对各像素点的概率值与像素位置信息进行迭代回归处理,是针对每个目标感兴趣区域分别进行迭代回归处理。
本申请中存在像素点的概率值与像素位置信息两种数据,需要通过这两种数据来寻找文本区域边界,对于任一文本方向边界线的得到,可将像素点的概率值与像素位置信息结合进行平面拟合,通过迭代回归,最终找到拟合平面的最优解,最优解拟合平面在目标感兴趣区域上的交线,能更为精确地匹配实际文本区域边界,由此,检测确定出文本区域,能够提升文本区域的检测精度。
请参阅图3,对于步骤S13,在本申请的一个实施例中,步骤S13的具体处理过程可以包括如下步骤:
步骤S131、基于各像素点的概率值与像素位置信息,确定各像素点在三维直角坐标系中的三维坐标位置,其中,待处理图像的平面为三维直角坐标系的基平面,概率值为三维直角坐标系的第三维坐标。
本申请中,存在像素点的概率值与像素位置信息两种数据,需要通过这两种数据来寻找文本区域边界,像素点的概率值与像素位置信息这两种数据类型不同,通过上述步骤,将像素点的概率值与像素位置信息这两种数据转换为在三维直角坐标系中的三维坐标位置,得到统一的新的数据类型,通过各像素点在三维直角坐标系中的三维坐标位置,来进行后续步骤处理。
基于各像素点的概率值与像素位置信息,是针对每个目标感兴趣区域的。具体应用中,可以是对各个目标感兴趣区域分别单独建立三维直角坐标系,如图4所示,以各个目标感兴趣区域2的左下角为原点,对各个目标感兴趣区域2分别单独建立三维直角坐标系,其中,图4中以斜线填充部分3示出实际文本区域。
具体应用中,也可以是对待处理图像建立一个总的三维直角坐标系,待处理图像中的各目标感兴趣区域同处于该总的三维直角坐标系中,如图5所示,以待处理图像1的左下角为原点,对待处理图像1建立一个总的三维直角坐标系,待处理图像1中的各目标感兴趣区域2同处于该三维直角坐标系中,其中,图5中以斜线填充部分3示出实际文本区域。
以待处理图像的平面为三维直角坐标系的基平面,该基平面可以设定为三维直角坐标系中的x-y平面,如图5所示,可将该待处理图像1的左下角端点设定为x-y平面的(0,0)坐标,并将该待处理图像1横平竖直设定于x-y平面。由目标感兴趣区域2中各像素点的像素位置信息,确定目标感兴趣区域2中各像素点在三维直角坐标系中的(x,y)坐标,以及由目标感兴趣区域2中各像素点的概率值,确定目标感兴趣区域2中各像素点在三维直角坐标系中的第三维坐标——z坐标,具体的,在概率值为百分比时,可将百分比转换为数值,如转换为小数或整数,作为像素点在三维直角坐标系中的z坐标,在概率值为小数时,直接作为像素点在三维直角坐标系中的z坐标。从而,得到目标感兴趣区域中各像素点在三维直角坐标系中的三维坐标位置。
步骤S132、基于各像素点在三维直角坐标系中的三维坐标位置,构建初始棱锥模型,其中,初始棱锥模型由多个斜面与基平面合围构成。
基于各像素点在三维直角坐标系中的三维坐标位置,构建初始棱锥模型,是针对每个目标感兴趣区域构建出一个对应的初始棱锥模型,请参阅图5,图5示出针对待处理图像上的两个目标感兴趣区域构建出两个对应的初始棱锥模型。
目标感兴趣区域2中包括有文本以及分布在文本周围的非文本内容(图5中以斜线填充部分3示出实际文本区域),目标感兴趣区域2中各像素点的概率值,是指示像素点为文本像素点的概率,概率值越大表明像素点属于文本像素点的可能性越大,每个目标感兴趣区域2中,从目标感兴趣区域2边缘到文本中心,像素点的概率值逐渐增大。基于此,目标感兴趣区域2中各像素点在三维直角坐标系中的三维坐标位置分布情况是——从边缘向最高点逐渐上升。
对于初始棱锥模型的构建,需要在目标感兴趣区域上方,选取一点作为初始棱锥模型的顶点,连接顶点与目标感兴趣区域的各端点,得到各斜面,由各斜面与基平面合围构成初始棱锥模型。其中,初始棱锥模型的顶点选择,可以是选取特定位置的点作为初始棱锥模型的顶点,如可以是选取目标感兴趣区域中概率值最大的像素点,以该像素点在三维直角坐标系中的三维坐标位置作为顶点,也可以是选取目标感兴趣区域中心位置的像素点,以该中心位置像素点在三维直角坐标系中的三维坐标位置作为顶点,等等。此外,初始棱锥模型的顶点选择,也可以是在目标感兴趣区域上方,任意选择一点得到。
请参阅图6,图6中示出矩形感兴趣区域情况下的初始棱锥模型,图6示出的是初始棱锥模型的俯视角度示意图,该初始棱锥模型呈金字塔结构,俯视视角下,初始棱锥模型顶点垂直投影于矩形感兴趣区域上时,正好与矩形感兴趣区域的中心点重合。图6示出的初始棱锥模型,在构建时,其顶点选择,可能是选取目标感兴趣区域中心位置的像素点,以该像素点在三维直角坐标系中的三维坐标位置作为顶点,也可能是选取目标感兴趣区域中概率值最大的像素点,以该像素点在三维直角坐标系中的三维坐标位置作为顶点,而该目标感兴趣区域中概率值最大的像素点正好处于感兴趣区域中心位置,等等。
步骤S133、对初始棱锥模型中的各斜面进行迭代回归,确定各斜面的最优解斜面。
在实际应用中,对初始棱锥模型中的各斜面进行迭代回归,可能是仅经过一次迭代回归过程,就确定出各斜面的最优解斜面,而更可能的是经过两次或两次以上的迭代回归过程,才可确定出各斜面的最优解斜面。
在一个实施例中,步骤S133的具体处理过程可以包括如下:
以初始棱锥模型为基础,进行至少一次迭代回归过程,直至确定出各斜面的最优解斜面;
请参阅图7,其中,任意一次迭代回归过程包括:
步骤S1331、确定第一棱锥模型各斜面对应的像素点数据,得到多组第一像素点数据,其中,第一棱锥模型为任意一次迭代回归的初始模型。
第一棱锥模型各斜面在基平面上的交线形成围合区域,第一棱锥模型各斜面在围合区域分别有个对应的区域,将各对应区域内的像素点作为各斜面对应的像素点数据。
在一个实施例中,对于第一棱锥模型,其各斜面对应的像素点数据,可通过如下方式确定:确定各斜面在基平面上的垂直投影区域;将各垂直投影区域中的像素点,确定为各斜面对应的像素点,也即,获取各所述垂直投影区域中的像素点的像素点数据,确定为各斜面对应的像素点数据。
请参阅图8,图8可示意为经历两次迭代回归过程得到最优解斜面,需要指出的是,图8仅是示例性的,实际场景中,基于是否满足最优解斜面而确定迭代次数,对迭代次数并未进行限定。图8中示出的8A、8B和8C三幅图均为俯视状态下的示意图,为了便于直观理解,8A、8B和8C三幅图中,以阴影部分示出实际文本区域,箭头指示的是迭代回归的演变方向,8A、8B和8C三图中,虚线框示意对应棱锥模型各斜面在基平面上交线形成的围合区域。A图示意初始棱锥模型,作为第一棱锥模型时,8A图中,四个斜面在基平面上交线形成的围合区域是目标感兴趣区域,四个斜面在基平面上有四个垂直投影区域,将目标感兴趣区域分成四份,每个垂直投影区域中的像素点作为对应斜面的像素点数据。在8B图中的棱锥模型作为第一棱锥模型时,8B图中,棱锥模型各斜面在基平面上交线形成新的围合区域(8B图虚线所示的围合区域),在虚线围合的区域中确定各斜面对应的像素点数据,8B图中的棱锥模型四个斜面在基平面上有四个垂直投影区域,将虚线围合的区域分成四份,每个垂直投影区域中的像素点作为对应斜面的像素点数据。
步骤S1332、基于任意一组第一像素点数据,进行平面拟合处理,得到相应斜面的表达式。
通过第一像素点数据中各像素点在三维直角坐标系中的三维坐标位置,进行平面拟合,采用的平面拟合算法可以包括但不限于以下任一种:最小二乘算法、随机采样一致性(RANdomSAmple Consensus,RANSAC)算法,等等。由于目标感兴趣区域中,从目标感兴趣区域边缘到文本中心,像素点的概率值逐渐增大,对于任一组第一像素点数据,其各像素点在三维直角坐标系中的三维坐标位置分布情况是——从边缘向最高点逐渐上升。因而,拟合出的平面是一个斜平面,可以用如下表达式表示:Aijx+Bijy+Cijz+Dij=0,Aij、Bij、Cij和Dij为第i次迭代回归时,第j组第一像素点数据的拟合平面对应的具体系数值。如8A图示意的初始棱锥模型作为第一棱锥模型时,有四组第一像素点数据,可拟合出四个平面(即8B图棱锥模型四个斜面所在的平面),如8B图示意的棱锥模型作为第一棱锥模型时,有四组新的第一像素点数据,可拟合出四个新的平面(即8C图棱锥模型四个斜面所在的平面)。
对于上述拟合出的斜面的表达式:Aijx+Bijy+Cijz+Dij=0,其需要确定四个参数(Aij、Bij、Cij和Dij)。
在实际应用中,以基平面设定于x-y平面为例,因拟合平面是一个斜面,因而,对于上述表达式:Aijx+Bijy+Cijz+Dij=0,其Cijz≠0。基于此,表达式:Aijx+Bijy+Cijz+Dij=0,可进行如下简化操作,令表达式两边均除以Cij,得到如下表达式:(Aij/Cij)x+(Bij/Cij)y+z+(Dij/Cij)=0,该表达式经换元后,可变为如下简化表达式:A’ijx+B’ijy+z+D’ij=0,A’ij、B’ij和D’ij为第i次迭代回归时,第j组第一像素点数据的拟合平面对应的具体系数值。基于换元后公式,每次迭代回归过程中,目标斜平面只需通过{A’ij,B’ij,D’ij}三个参数来确定。
步骤S1333、基于各斜面的表达式,确定各斜面合围构成的第二棱锥模型,其中,第二棱锥模型为任意一次迭代回归的迭代后模型。
通过每组第一像素点数据,进行平面拟合处理,得到相应斜面的表达式,每个表达式可确定一个平面,各个表达式确定出的平面与基平面的合围,可以得到一个新的棱锥模型,该新的棱锥模型即为第二棱锥模型。如图8A棱锥模型迭代回归后,得到第二棱锥模型(即图8B棱锥模型),图8B图棱锥模型相对于图8A图棱锥模型发生变化。又如图8B图棱锥模型迭代回归后,得到第二棱锥模型(即图8C棱锥模型),图8C图棱锥模型相对于图8B图棱锥模型发生变化。
步骤S1334、确定第二棱锥模型各斜面对应的像素点数据,得到多组第二像素点数据。
第二棱锥模型各斜面在基平面上的交线形成围合区域,第二棱锥模型各斜面在围合区域分别有个对应的区域,将各对应区域内的像素点作为各斜面对应的像素点数据。第二棱锥模型相对于第一棱锥模型发生变化,如图8B棱锥模型相对于图8A棱锥模型发生变化,图8C棱锥模型相对于图8B棱锥模型发生变化。通过第二棱锥模型,使得第二棱锥模型各斜面对应新的像素点数据。
在一个实施例中,对于第二棱锥模型,其各斜面对应的像素点数据,可通过如下方式确定:确定各斜面在基平面上的垂直投影区域;获取各所述垂直投影区域中的像素点的像素点数据,确定为各斜面对应的像素点数据。
图8A示意初始棱锥模型,作为第一棱锥模型时,图8B棱锥模型为经第一次迭代回归后得到的第二棱锥模型,图8B中,四个斜面在基平面上交线形成围合区域(图8B虚线所示的围合区域),四个斜面在基平面上有四个垂直投影区域,将围合区域分成四份,每个垂直投影区域中的像素点作为对应斜面的像素点数据。在图8B中的棱锥模型作为第一棱锥模型时,图8C棱锥模型为经第二次迭代回归后得到的第二棱锥模型,同样地,图8C中,四个斜面在基平面上交线形成围合区域(图8C虚线所示的围合区域),四个斜面在基平面上有四个垂直投影区域,将围合区域分成四份,每个垂直投影区域中的像素点作为对应斜面的像素点数据。
步骤S1335、基于各组第二像素点数据,验证第二棱锥模型中各斜面是否为最优解斜面。
作为迭代后得到的第二棱锥模型,其相对于第一棱锥模型发生变化,利用该变化,判断发生变化的第二棱锥模型的各斜面是否为最优解斜面,利用第二棱锥模型各斜面对应的像素点数据(第二像素点数据)进行判断,第二棱锥模型各斜面对应的像素点数据(第二像素点数据)中,包括有文本像素点和非文本像素点,请参阅图8B和图8C,在图8B棱锥模型作为第二棱锥模型时,各斜面对应的第二像素点数据中,文本像素点变多,非文本像素点变少,各斜面与基平面的交线在向实际文本区域边界匹配靠近,在对图8B棱锥模型进行迭代回归后,图8C棱锥模型作为第二棱锥模型,各斜面对应的第二像素点数据中,基本为文本像素点,非文本像素点很少,各斜面与基平面的交线已与文本区域的边界匹配。可见,每进行一次迭代回归,第二像素点数据中,文本像素点变多,非文本像素点变少,基于此,可判断各斜面是否为最优解斜面。
在一个实施例中,基于各组第二像素点数据,验证第二棱锥模型中各斜面是否为最优解斜面,包括:
对第二棱锥模型的任意一个斜面,基于斜面的第二像素点数据,获取第二像素点数据中的各像素点与对应斜面之间的距离;
距离统计值小于或等于预设阈值时,确定出第二棱锥模型的各斜面是最优解斜面;其中,距离统计值是基于各像素点与斜面之间的距离确定的。
第二棱锥模型的每个斜面,每个斜面各自对应有一组第二像素点数据,第二像素点数据中各像素点在三维直角坐标系中有着对应的三维坐标,对应斜面有着确定表达式,由此,可以计算出第二像素点数据中的各像素点与对应斜面之间的距离,然后获取第二像素点数据中的各像素点与对应斜面之间的距离,基于各像素点与斜面之间的距离可以确定出一个距离统计值,该距离统计值可以包括但不限于如下任一种:各像素点与斜面之间的距离的和、均值、方差或标准差,等等。对于任意一个第二棱锥模型,在判断出当前第二棱锥模型对应的距离统计值小于或等于预设阈值时,可将当前第二棱锥模型对应解,确定为最优解斜面。反之,则继续进行迭代回归处理。
在实际迭代回归过程中,可能是先确定出部分斜面是最优解斜面,对于先确定出的最优解斜面,其迭代回归停止,剩下斜面继续进行迭代回归,直至确定出所有的最优解斜面。也可能是同时迭代出所有斜面均是最优解斜面。
步骤S134、获取最优解斜面与基平面之间的交线,得到文本区域的边界线。
请参阅图8C,图8C图可示意为迭代回归得到的最优解斜面,最优解斜面与基平面之间的交线是实际文本区域的最优解边界线,有助于最大程度地匹配实际文本区域边界。
步骤S135、将各边界线合围的区域,确定为待处理图像中的文本区域。
通过最优解斜面与基平面之间的交线,得到实际文本区域的最优解边界线,将各最优解边界线合围的区域,确定为待处理图像中的文本区域,该确定出的文本区域,可与实际文本区域最为匹配。
通过上述相关方法步骤,可在识别文本内容之前,先去检测确定一个精确的文本区域。本申请上述相关步骤检测确定出的文本区域,并不等同于文本的最小外接矩形。虽然文本的最小外接矩形现阶段无法获得,但本申请通过上述相关步骤使的检测的文本区域努力向文本的最小外接矩形接近。
请参阅图9,在一个实施例中,对于步骤S11,步骤S11的具体处理过程可以包括如下步骤:
步骤S111、对待处理图像进行像素特征提取,得到特征图。
具体应用中,可以利用训练好的特征提取网络,对待处理图像进行像素特征提取,得到特征图特征,提取网络可以采用但不限于ResNet网络、AlexNet网络等等,以ResNet网络为例,可以采用ResNet50、ResNet101等,其中,50、101表示网络的层数。待处理图像中的物包括:文本和非文本的其他物,非文本的其他物可以包括但不限于如下至少一种:人、图形、线条等等。待处理图像中的文本可以包括但不限于如下至少一种:文字、数字、字符等等。提取的像素特征可以包括物的边缘、形状、颜色等的像素特征。
步骤S112、在特征图上确定多个候选感兴趣区域。
基于特征图上的像素特征,可以确定出多个候选感兴趣区域,具体的,可以是以特征图中的全部或者部分像素点各自为中心,对每个像素点生成N(N≥1)个候选框,每个候选框的框选区域作为一个候选感兴趣区域,以此在特征图上确定多个候选感兴趣区域。也可以是将特征图分割成许多个小的区域,多次重复执行以下操作步骤:计算每两个相邻区域的相似度,合并最相似的两个区域。以此确定出多个候选感兴趣区域,其中,相似度可以包括但不限于如下至少一方面:纹理和形状等等。
步骤S113、对候选感兴趣区域进行分类处理,得到目标感兴趣区域;其中,分类处理包括:第一分类和/或第二分类处理,第一分类处理用于进行前景/背景分类处理;第二分类处理用于进行文本/非文本分类处理;当分类处理包括第一分类处理时,目标感兴趣区域包括分类为前景的候选感兴趣区域;当分类处理包括第二分类处理时,目标感兴趣区域包括分类为文本的候选感兴趣区域。
对所有的候选感兴趣区域进行第一分类和/或第二分类处理,得到目标感兴趣区域,有助于提升目标感兴趣区域中含有文本的准确性。
候选感兴趣区域中的感兴趣对象,可能是文本,也可能是非文本的物,如图形、线条等等。上述步骤通过分类处理将属于文本的候选感兴趣区域分类出来。
其中,对所有的候选感兴趣区域进行第一分类处理,该第一分类处理用于进行前景/背景分类处理,将分类为前景的候选感兴趣区域作为目标感兴趣区域。本申请中,文本为感兴趣对象,文本在感兴趣区域中应为前景,非文本的其他物属于背景,如待处理图像中包括有文本、图形、线条等等,通过第一分类处理,则文本被分类为前景,而图形、线条等非文本的物被分类为背景。在实际应用中,可通过卷积神经网络对各候选感兴趣区域进行前景/背景分类处理,以通过区域建议网络得到多个候选感兴趣区域为例,区域建议网络可以为各候选感兴趣区域生成前景/背景的预测分,可将预测分高于或等于阈值分数的候选感兴趣区域分类为前景,而将预测分低于阈值分数的候选感兴趣区域分类为背景。
其中,对所有的候选感兴趣区域进行第二分类处理,该第二分类处理用于进行文本/非文本分类处理,其对候选感兴趣区域中的感兴趣对象具体是什么进行识别分类,在实际应用中,该第二分类处理通过分类器来实现,来确定感兴趣区域中的感兴趣对象具体是什么,如待处理图像中包括有文本、图形、线条等等,通过第二分类处理,识别出候选感兴趣区域中的感兴趣对象是文本,是图形,还是线条,等等,并进行分类,进而将分类为文本的候选感兴趣区域确定为目标感兴趣区域。
第一分类处理和第二分类处理可以只选用其中的一种,在选用其中一种时,对事先训练的分类识别效果要求会更高。
第一分类处理和第二分类处理可以两者均采用,如:先进行第一分类处理,然后,再在第一分类处理结果的基础上,进行第二分类处理;又如:先进行第二分类处理,然后,再在第二分类处理结果的基础上,进行第一分类处理。
第一分类处理和第二分类处理这两种分类处理的具体方式不同,两种分类处理先后进行,可以提高对属于文本候选感兴趣区域的识别精确度。如对于一些不是字、但类似字的特征,有可能的是第一分类处理未能分类识别出来,但是第二分类处理能分类识别出来,也有可能是第二分类处理未能分类识别出来,但是第一分类处理能分类识别出来。因第一分类处理是根据像素特征进行前景/背景预测的分类处理,而第二分类处理是根据像素特征进行具体类型确定的分类处理,如确定感兴趣对象是文本,是人,还是图形,还是线条,等等,相对来说,第二分类处理的计算复杂度较大,因而,两种分类处理均使用的情况下,更为效率的是,先进行第一分类处理,然后,再在第一分类处理结果的基础上,进行第二分类处理。
在一个实施例中,在分类处理之后,还对目标感兴趣区域进行尺寸和/或位置的匹配调整处理。在实际应用中,在候选感兴趣区域确定为目标感兴趣区域时,其大小和/或位置与区域中的文本可能存在不匹配的问题,如候选感兴趣区域中的文本处在边缘位置,在分类处理之后,对目标感兴趣区域进行尺寸和/或位置的匹配调整处理(可通过边框回归处理实现),可让目标感兴趣区域中的文本处于中间位置。
在一个实施例中,在对待处理图像进行特征提取之前,还执行对待处理图像执行如下操作:将待处理图像缩放到预设像素,和/或,对待处理图像进行增强处理。
待处理图像的来源是多样性的,其尺寸大小、清晰度等方面往往是不统一的,在对待处理图像进行特征提取之前,将待处理图像缩放到预设像素,可满足一些网络模型输入图片的大小是固定的要求;在对待处理图像进行特征提取之前,对待处理图像进行增强处理,可以扩大图像中不同物体特征之间的差别,增强文本特征区别度,有利于图像中文本特征的提取。在实际应用中,在对于一张含有文本的图片,可以首先统一缩放到预设规格要求像素(如1000*800像素),然后,再进行图片增强等预处理操作。
通过上述相关步骤在待处理图像中检测出文本区域,有助于最大程度地匹配实际文本区域边界,该文本区域可尽量减少文本周围非文本内容被选定到文本区域中,在此基础上,本申请还进一步包括如下步骤:
对待处理图像中确定出的文本区域进行文本识别,得到文本内容。
文本区域中的文本内容可以包括但不限于如下至少一种:文字、数字、字符等等。可以采用光学字符识别(optical character recognition,OCR)算法,对待处理图像中确定出的文本区域中的具体文本内容进行识别。
通过上述相关步骤先在待处理图像中检测出文本区域,该文本区域可尽量减少文本周围非文本内容被选定到文本区域中,能与实际文本区域更加匹配,然后,在此基础上,对检测到的文本区域进行具体文本内容识别,可尽量减少对文本周围非文本内容的识别,提高文本识别的效率。
综合上述相关实施例方案,本申请给出如下一种在待处理图像上确定文本区域的具体方案,包括如下步骤:
步骤S21、获取待处理图像,对待处理图像执行如下预处理操作:将待处理图像缩放到预设像素,然后,对待处理图像进行增强处理。
电子设备可以通过自身配置的摄像头拍摄获得包含有文本的待处理图像,也可以通过接收其他电子设备发送图像获得包含文本的待处理图像。在获取到待处理图像后,可先将待处理图像缩放到预设像素,满足后续特征提取网络要求输入固定尺寸图像的要求,然后进行增强处理,可以扩大图像中不同物体特征之间的差别,增强像素特征的区分度,有利于图像中像素特征的提取。
步骤S22、将预处理后的图像输入特征提取网络,通过特征提取网络提取图像中的像素特征,并输出特征图。
待处理图像中的物,可能是文本,也可能是非文本的物,如图形、线条等等。通过特征提取网络,提取待处理图像中物的像素特征,提取的像素特征可以包括物的边缘、形状、颜色等的像素特征。通过提取的物的像素特征来生成特征图。
步骤S23、以特征图中的各像素点为中心,得到多个候选感兴趣区域。
以特征图中的每个像素点为中心,针对每个像素点生成N个候选框,每个候选框的框选区域作为一个候选感兴趣区域,其中,N≥1,由此,在特征图上得到多个候选感兴趣区域。
步骤S24、对各候选感兴趣区域执行如下操作:进行前景/背景分类处理,得到属于前景类的候选感兴趣区域,以及对属于前景类的候选感兴趣区域进行尺寸和/或位置的匹配调整处理。
具体的,本申请中是为了检测文本,文本应为前景,非文本的其他物属于背景,如待处理图像中包括有文本、图形、线条等等,则文本被分类为前景,而图形、线条等非文本的物被分类为背景。在实际应用中,可通过区域建议网络(Region Proposal Network,RPN),为各候选感兴趣区域生成前景/背景的预测分,可将预测分高于或等于阈值分数的候选感兴趣区域分类为前景,而将预测分低于阈值分数的候选感兴趣区域分类为背景,分类为属于前景的候选感兴趣区域中可能存在文本,而分类属于背景的候选感兴趣区域则不存在文本。
对于分类为前景类别的候选感兴趣区域,其大小和/或位置与区域中的感兴趣对象可能存在不匹配的问题,如候选感兴趣区域中的感兴趣对象在边缘位置,可通过对分类为前景的候选感兴趣区域进行尺寸和/或位置的匹配调整处理,使候选感兴趣区域涵盖感兴趣对象,让候选感兴趣区域中的感兴趣对象处于中间位置。
步骤S25、将待处理图像与特征图的像素建立对应关系,以及将特征图与分类为前景的各候选感兴趣区域建立对应关系。
在具体应用中,可通过ROIAlign操作或ROIPooling操作实现上述步骤方法,先将待处理图像与特征图的像素建立对应关系,然后再将特征图与分类为前景的各候选感兴趣区域建立对应关系,通过该步骤操作,让分类为前景的各候选感兴趣区域与待处理图像上的相应位置对应,能得到分类为前景的各候选感兴趣区域在待处理图像中是具体的哪一块区域。
步骤S26、基于待检测图片与特征图的像素建立的对应关系,以及特征图与分类为前景的各候选感兴趣区域建立的对应关系,对分类为前景的候选感兴趣区域执行如下操作:进行文本/非文本的分类处理,将分类为文本的候选感兴趣区域确定为目标感兴趣区域,以及对属于文本的候选感兴趣区域进行尺寸和/或位置的匹配调整处理。
该步骤确定感兴趣区域中的物具体是什么,如待处理图像中包括有文本、图形、线条等等,通过该步骤分类处理,识别出候选感兴趣区域中的物是文本,还是图形,还是线条,等等,进而将分类为文本的候选感兴趣区域确定为目标感兴趣区域。然后,在将分类为文本的候选感兴趣区域确定为目标感兴趣区域时,对目标感兴趣区域进行尺寸和/或位置的匹配调整处理,来进一步精调目标感兴趣区域的尺寸和/或位置。
步骤S27、获取目标感兴趣区域中各像素点的概率值,概率值用于指示像素点为文本像素点的概率;基于目标感兴趣区域中各像素点的概率值与像素位置信息,生成目标感兴趣区域对应的掩码图,其中,掩码图中与目标感兴趣区域各像素点对应位置的掩码值,为对应像素点的概率值。
每个目标感兴趣区域可生成一个对应的掩码图,掩码图能对目标感兴趣区域进行遮挡,由掩码图来替代目标感兴趣区域,基于掩码图进行后续步骤操作。
步骤S28、对掩码图中的掩码值以及掩码值的位置信息进行迭代回归处理,确定待处理图像中的文本区域。
本申请中,每个目标感兴趣区域具有一个对应的掩码图,掩码图与对应的目标感兴趣区域形状大小一致,且,掩码图中与目标感兴趣区域各像素点对应位置的掩码值,为对应像素点的概率值。因而,对掩码图中的掩码值以及掩码值的位置信息进行迭代回归处理,同样地,可确定出待处理图像中的文本区域。因而,对于利用掩码图中的掩码值以及掩码值的位置信息,进行迭代回归处理,可参照上述针对步骤S13的相关说明。
请参阅图10,图10是根据一示例性实施例示出的一种文本检测处理装置的框图结构示意图,如图10所示,该文本检测处理装置10包括:
识别模块21,用于识别待处理图像中的感兴趣区域;
获取模块22,用于获取感兴趣区域中各像素点的概率值,概率值用于指示像素点为文本像素点的概率;
处理模块23,用于对各像素点的概率值与像素位置信息进行迭代回归处理,确定待处理图像中的文本区域。
进一步地,处理模块23,包括:
三维坐标位置确定子模块,用于基于各像素点的概率值与像素位置信息,确定各像素点在三维直角坐标系中的三维坐标位置,其中,待处理图像的平面为三维直角坐标系的基平面,概率值为三维直角坐标系的第三维坐标;
初始棱锥模型构建子模块,用于基于各像素点在三维直角坐标系中的三维坐标位置,构建初始棱锥模型,其中,初始棱锥模型由多个斜面与基平面合围构成;
最优解斜面确定子模块,用于对初始棱锥模型中的各斜面进行迭代回归,确定各斜面的最优解斜面;
边界线获取子模块,用于获取最优解斜面与基平面之间的交线,得到文本区域的边界线;
文本区域确定子模块,用于将各边界线合围的区域,确定为待处理图像中的文本区域。
进一步地,最优解斜面确定子模块,具体用于:
以初始棱锥模型为基础,进行至少一次迭代回归过程,直至确定出各斜面的最优解斜面;
其中,任意一次迭代回归过程包括:
确定第一棱锥模型各斜面对应的像素点数据,得到多组第一像素点数据,其中,第一棱锥模型为任意一次迭代回归的初始模型;
基于任意一组第一像素点数据,进行平面拟合处理,得到相应斜面的表达式;
基于各斜面的表达式,确定各斜面合围构成的第二棱锥模型,其中,第二棱锥模型为任意一次迭代回归的迭代后模型;
确定第二棱锥模型各斜面对应的像素点数据,得到多组第二像素点数据;
基于各组第二像素点数据,验证第二棱锥模型中各斜面是否为最优解斜面。
进一步地,最优解斜面确定子模块中,具体用于按以下方式确定各斜面对应的像素点数据:
确定各斜面在基平面上的垂直投影区域;
获取各所述垂直投影区域中的像素点的像素点数据,确定为各斜面对应的像素点数据。
进一步地,最优解斜面确定子模块中,具体按以下方式实现基于各组第二像素点数据,验证第二棱锥模型中各斜面是否为最优解斜面:
对第二棱锥模型的任意一个斜面,基于斜面的第二像素点数据,获取第二像素点数据中的各像素点与对应斜面之间的距离;
当距离统计值小于或等于预设阈值时,确定出第二棱锥模型的各斜面是最优解斜面;其中,距离统计值是基于各像素点与斜面之间的距离确定的。
进一步地,识别模块21,包括:
特征提取子模块,用于对待处理图像进行文本特征提取,得到特征图;
确定候选感兴趣区域子模块,用于在特征图上确定多个候选感兴趣区域;
分类处理子模块,用于对候选感兴趣区域进行分类处理,得到目标感兴趣区域;
其中,分类处理包括:第一分类和/或第二分类处理,第一分类处理用于进行前景/背景分类处理;第二分类处理用于进行文本/非文本分类处理;
当分类处理包括第一分类处理时,目标感兴趣区域包括分类为前景的候选感兴趣区域;
当分类处理包括第二分类处理时,目标感兴趣区域包括分类为文本的候选感兴趣区域。
进一步地,识别模块21还包括:
调整处理子模块,用于在分类处理之后,对目标感兴趣区域进行尺寸和/或位置的匹配调整处理。
进一步地,识别模块21还包括:
特征提取前处理子模块,用于在对待处理图像进行特征提取之前,将待处理图像缩放到预设像素,和/或,对待处理图像进行增强处理。
进一步地,文本检测处理装置10还包括:
文本内容得到模块24,用于对待处理图像中确定出的文本区域进行文本识别,得到文本内容。
关于上述实施例中的文本检测处理装置10,其中各个模块执行操作的具体方式已经在上述相关方法的实施例中进行了详细描述,此处将不做详细阐述说明。
请参阅图11,图11是根据一示例性实施例示出的一种电子设备的框图结构示意图,如图11所示,该电子设备7包括:
一个或者多个存储器31,其上存储有可执行程序;
一个或者多个处理器32,用于执行存储器31中的可执行程序,以实现上述任一项方法的步骤。
关于上述实施例中的电子设备11,其处理器32执行存储器31中程序的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现上述任一项方法的步骤。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”、“多”的含义是指至少两个。
应该理解,当元件被称为“固定于”或“设置于”另一个元件,它可以直接在另一个元件上或者可能同时存在居中元件;当一个元件被称为“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件,此外,这里使用的“连接”可以包括无线连接;使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为:表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (11)
1.一种文本检测处理方法,其特征在于,所述方法包括:
识别待处理图像中的目标感兴趣区域;
获取所述目标感兴趣区域中各像素点的概率值,所述概率值用于指示像素点为文本像素点的概率;
对各像素点的概率值与像素位置信息进行迭代回归处理,确定所述待处理图像中的文本区域,包括:基于各像素点的概率值与像素位置信息,确定各像素点在三维直角坐标系中的三维坐标位置,其中,所述待处理图像的平面为所述三维直角坐标系的基平面,概率值为所述三维直角坐标系的第三维坐标;基于各像素点在所述三维直角坐标系中的三维坐标位置,构建初始棱锥模型;所述初始棱锥模型由多个斜面与所述基平面合围构成;对所述初始棱锥模型中的各斜面进行迭代回归,确定各斜面的最优解斜面;获取所述最优解斜面与所述基平面之间的交线,得到所述文本区域的边界线;将各边界线合围的区域,确定为所述待处理图像中的所述文本区域。
2.根据权利要求1所述的方法,其特征在于,所述对所述初始棱锥模型中的各斜面进行迭代回归,确定各斜面的最优解斜面,包括:
以所述初始棱锥模型为基础,进行至少一次迭代回归过程,直至确定出各斜面的最优解斜面;
任意一次所述迭代回归过程包括:
确定第一棱锥模型各斜面对应的像素点数据,得到多组第一像素点数据,其中,所述第一棱锥模型为任意一次迭代回归的初始模型;
基于任意一组所述第一像素点数据,进行平面拟合处理,得到相应斜面的表达式;
基于各所述斜面的表达式,确定各斜面合围构成的第二棱锥模型,其中,所述第二棱锥模型为任意一次迭代回归的迭代后模型;
确定所述第二棱锥模型各斜面对应的像素点数据,得到多组第二像素点数据;
基于各组所述第二像素点数据,验证所述第二棱锥模型中各斜面是否为最优解斜面。
3.根据权利要求2所述的方法,其特征在于,其中,确定各斜面对应的像素点数据,包括:
确定各斜面在所述基平面上的垂直投影区域;
获取各所述垂直投影区域中的像素点的像素点数据,确定为各斜面对应的像素点数据。
4.根据权利要求2所述的方法,其特征在于,所述基于各组所述第二像素点数据,验证所述第二棱锥模型中各斜面是否为最优解斜面,包括:
对所述第二棱锥模型的任意一个斜面,基于所述斜面的所述第二像素点数据,获取所述第二像素点数据中的各像素点与对应斜面之间的距离;
当距离统计值小于或等于预设阈值时,确定出所述第二棱锥模型的各斜面是最优解斜面;其中,所述距离统计值是基于各像素点与斜面之间的距离确定的。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述识别待处理图像中的目标感兴趣区域,包括:
对所述待处理图像进行像素特征提取,得到特征图;
在所述特征图上确定多个候选感兴趣区域;
对所述候选感兴趣区域进行分类处理,得到所述目标感兴趣区域;
其中,所述分类处理包括:第一分类和/或第二分类处理,所述第一分类处理用于进行前景/背景分类处理;所述第二分类处理用于进行文本/非文本分类处理;
当所述分类处理包括第一分类处理时,所述目标感兴趣区域包括分类为前景的候选感兴趣区域;
当所述分类处理包括第二分类处理时,所述目标感兴趣区域包括分类为文本的候选感兴趣区域。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
在分类处理之后,对所述目标感兴趣区域进行尺寸和/或位置的匹配调整处理。
7.根据权利要求5所述的方法,其特征在于,在对所述待处理图像进行像素特征提取之前,所述方法还包括:
将所述待处理图像缩放到预设像素,和/或,
对所述待处理图像进行增强处理。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述待处理图像中确定出的文本区域进行文本识别,得到文本内容。
9.一种文本检测处理装置,其特征在于,所述装置包括:
识别模块,用于识别待处理图像中的目标感兴趣区域;
获取模块,用于获取所述目标感兴趣区域中各像素点的概率值,所述概率值用于指示像素点为文本像素点的概率;
处理模块,用于对各像素点的概率值与像素位置信息进行迭代回归处理,确定所述待处理图像中的文本区域;具体用于基于各像素点的概率值与像素位置信息,确定各像素点在三维直角坐标系中的三维坐标位置,其中,所述待处理图像的平面为所述三维直角坐标系的基平面,概率值为所述三维直角坐标系的第三维坐标;基于各像素点在所述三维直角坐标系中的三维坐标位置,构建初始棱锥模型;所述初始棱锥模型由多个斜面与所述基平面合围构成;对所述初始棱锥模型中的各斜面进行迭代回归,确定各斜面的最优解斜面;获取所述最优解斜面与所述基平面之间的交线,得到所述文本区域的边界线;将各边界线合围的区域,确定为所述待处理图像中的所述文本区域。
10.一种电子设备,其特征在于,包括:
一个或者多个存储器,其上存储有可执行程序;
一个或者多个处理器,用于执行所述存储器中的所述可执行程序,以实现权利要求1-8任一项所述方法的步骤。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110745524.3A CN113343987B (zh) | 2021-06-30 | 2021-06-30 | 文本检测处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110745524.3A CN113343987B (zh) | 2021-06-30 | 2021-06-30 | 文本检测处理方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113343987A CN113343987A (zh) | 2021-09-03 |
CN113343987B true CN113343987B (zh) | 2023-08-22 |
Family
ID=77482215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110745524.3A Active CN113343987B (zh) | 2021-06-30 | 2021-06-30 | 文本检测处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113343987B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115631493B (zh) * | 2022-11-04 | 2023-05-09 | 金蝶软件(中国)有限公司 | 文本区确定方法、系统及相关装置 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106339661A (zh) * | 2015-07-17 | 2017-01-18 | 阿里巴巴集团控股有限公司 | 一种用于检测图像中文本区域的方法及装置 |
WO2018103608A1 (zh) * | 2016-12-08 | 2018-06-14 | 腾讯科技(深圳)有限公司 | 一种文字检测方法、装置及存储介质 |
WO2019076187A1 (zh) * | 2017-10-16 | 2019-04-25 | 杭州海康威视数字技术股份有限公司 | 视频遮蔽区域选取方法、装置、电子设备及系统 |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110569708A (zh) * | 2019-06-28 | 2019-12-13 | 北京市商汤科技开发有限公司 | 文本检测方法及装置、电子设备和存储介质 |
CN111062258A (zh) * | 2019-11-22 | 2020-04-24 | 华为技术有限公司 | 文本区域识别方法、装置、终端设备及可读存储介质 |
WO2020098177A1 (zh) * | 2018-11-06 | 2020-05-22 | 五邑大学 | 一种基于线性回归拟合的天线下倾角测量方法 |
CN111881907A (zh) * | 2020-06-22 | 2020-11-03 | 浙江大华技术股份有限公司 | 一种边框回归的定位方法、装置和电子设备 |
WO2020221298A1 (zh) * | 2019-04-30 | 2020-11-05 | 北京金山云网络技术有限公司 | 文本检测模型训练方法、文本区域、内容确定方法和装置 |
WO2020258506A1 (zh) * | 2019-06-27 | 2020-12-30 | 平安科技(深圳)有限公司 | 文本信息匹配度检测方法、装置、计算机设备和存储介质 |
CN112784737A (zh) * | 2021-01-21 | 2021-05-11 | 上海云从汇临人工智能科技有限公司 | 结合像素分割和线段锚的文本检测方法、系统及装置 |
CN112990204A (zh) * | 2021-05-11 | 2021-06-18 | 北京世纪好未来教育科技有限公司 | 目标检测方法、装置、电子设备及存储介质 |
CN113033558A (zh) * | 2021-04-19 | 2021-06-25 | 深圳市华汉伟业科技有限公司 | 一种用于自然场景的文本检测方法及装置、存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7397945B2 (en) * | 2003-11-20 | 2008-07-08 | Hewlett-Packard Development Company, L.P. | Method and system of image segmentation using regression clustering |
CN108304835B (zh) * | 2018-01-30 | 2019-12-06 | 百度在线网络技术(北京)有限公司 | 文字检测方法和装置 |
-
2021
- 2021-06-30 CN CN202110745524.3A patent/CN113343987B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106339661A (zh) * | 2015-07-17 | 2017-01-18 | 阿里巴巴集团控股有限公司 | 一种用于检测图像中文本区域的方法及装置 |
WO2018103608A1 (zh) * | 2016-12-08 | 2018-06-14 | 腾讯科技(深圳)有限公司 | 一种文字检测方法、装置及存储介质 |
WO2019076187A1 (zh) * | 2017-10-16 | 2019-04-25 | 杭州海康威视数字技术股份有限公司 | 视频遮蔽区域选取方法、装置、电子设备及系统 |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
WO2020098177A1 (zh) * | 2018-11-06 | 2020-05-22 | 五邑大学 | 一种基于线性回归拟合的天线下倾角测量方法 |
WO2020221298A1 (zh) * | 2019-04-30 | 2020-11-05 | 北京金山云网络技术有限公司 | 文本检测模型训练方法、文本区域、内容确定方法和装置 |
WO2020258506A1 (zh) * | 2019-06-27 | 2020-12-30 | 平安科技(深圳)有限公司 | 文本信息匹配度检测方法、装置、计算机设备和存储介质 |
CN110569708A (zh) * | 2019-06-28 | 2019-12-13 | 北京市商汤科技开发有限公司 | 文本检测方法及装置、电子设备和存储介质 |
CN111062258A (zh) * | 2019-11-22 | 2020-04-24 | 华为技术有限公司 | 文本区域识别方法、装置、终端设备及可读存储介质 |
CN111881907A (zh) * | 2020-06-22 | 2020-11-03 | 浙江大华技术股份有限公司 | 一种边框回归的定位方法、装置和电子设备 |
CN112784737A (zh) * | 2021-01-21 | 2021-05-11 | 上海云从汇临人工智能科技有限公司 | 结合像素分割和线段锚的文本检测方法、系统及装置 |
CN113033558A (zh) * | 2021-04-19 | 2021-06-25 | 深圳市华汉伟业科技有限公司 | 一种用于自然场景的文本检测方法及装置、存储介质 |
CN112990204A (zh) * | 2021-05-11 | 2021-06-18 | 北京世纪好未来教育科技有限公司 | 目标检测方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
结合亮度分级和笔画检测的彩色图像文本提取;刘琼等;《计算机工程与应用》(第18期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113343987A (zh) | 2021-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lee et al. | Simultaneous traffic sign detection and boundary estimation using convolutional neural network | |
JP7236545B2 (ja) | ビデオターゲット追跡方法と装置、コンピュータ装置、プログラム | |
CN110717489B (zh) | Osd的文字区域的识别方法、装置及存储介质 | |
CN107358149B (zh) | 一种人体姿态检测方法和装置 | |
CN110232713B (zh) | 一种图像目标定位修正方法及相关设备 | |
CN110738125B (zh) | 利用Mask R-CNN选择检测框的方法、装置及存储介质 | |
CN111027493B (zh) | 一种基于深度学习多网络软融合的行人检测方法 | |
US9607391B2 (en) | Image object segmentation using examples | |
CN104573614B (zh) | 用于跟踪人脸的设备和方法 | |
CN109960742B (zh) | 局部信息的搜索方法及装置 | |
US9275277B2 (en) | Using a combination of 2D and 3D image data to determine hand features information | |
CN110738207A (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
US10410354B1 (en) | Method and apparatus for multi-model primitive fitting based on deep geometric boundary and instance aware segmentation | |
CN113139543B (zh) | 目标对象检测模型的训练方法、目标对象检测方法和设备 | |
JP2017531883A (ja) | 画像の主要被写体を抽出する方法とシステム | |
Singh et al. | Self-organizing maps for the skeletonization of sparse shapes | |
CN108710916B (zh) | 图片分类的方法及装置 | |
CN107545223B (zh) | 图像识别方法及电子设备 | |
US20190066311A1 (en) | Object tracking | |
KR20150024719A (ko) | 영상에서 객체를 분리하는 방법 및 장치. | |
CN111860309A (zh) | 一种人脸识别方法及系统 | |
CN111401293A (zh) | 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法 | |
CN111951283A (zh) | 一种基于深度学习的医学图像识别方法及系统 | |
CN113343987B (zh) | 文本检测处理方法、装置、电子设备及存储介质 | |
US20160292529A1 (en) | Image collation system, image collation method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |