CN116246283A - 一种文本检测方法、装置、电子设备和存储介质 - Google Patents

一种文本检测方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN116246283A
CN116246283A CN202111478287.5A CN202111478287A CN116246283A CN 116246283 A CN116246283 A CN 116246283A CN 202111478287 A CN202111478287 A CN 202111478287A CN 116246283 A CN116246283 A CN 116246283A
Authority
CN
China
Prior art keywords
text
difficult
detect
image
text box
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111478287.5A
Other languages
English (en)
Inventor
罗时婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Suzhou Software Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202111478287.5A priority Critical patent/CN116246283A/zh
Publication of CN116246283A publication Critical patent/CN116246283A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Image Analysis (AREA)

Abstract

本申请公开了一种文本检测方法、文本检测装置、电子设备和存储介质,方法包括:基于获取的预测文本框和参考文本框,对训练文本图像进行处理,得到难检测文本图像和第一标签文件;基于难检测文本图像和第一标签文件,对构建好的初始文本检测模型进行训练,得到目标文本检测模型;将获取的待检测文本图像输入至目标文本检测模型,得到目标文本图像和目标文本图像对应的目标标签文件,如此,本申请有选择地提取包含有难检测文本框的难检测文本图像,增加了训练样本数据,避免了模型训练过程中采用同一份训练集图像反复迭代训练;同时,提升了模型的学习能力,提高了模型的检测精度。

Description

一种文本检测方法、装置、电子设备和存储介质
技术领域
本申请涉及图像处理领域,尤其是涉及一种文本检测方法、文本检测装置、电子设备和存储介质。
背景技术
自然场景图像是各种拍摄设备如照相机、手机等,在没有特定限制的条件下,直接采集生活中真实存在的场景的图像。自然场景图像中包括了丰富的底层物理信息如纹理、形状和颜色,自然场景图像中还包括了蕴含重要语义的文本信息如广告牌、车牌识别、商品介绍和交通标志牌等。由于自然场景图像所包括的文本信息具有很高的逻辑性和很强的概括性,因此,通过检测和识别自然场景图像中的文本信息,获取当前场景所要表达的视觉信息。
相关技术中,对自然场景图像进行文本检测的方法,首先对待测图像进行预处理;对预处理后的待测图像进行数据转化,得到包含像素点数值及对应坐标的数据集;采用基于密度的噪声应用空间聚类(Density-Based Spatial Clustering of Applicationswith Noise,DBSCAN)算法对数据集进行聚类,生成不同类的数据集;采用Alpha Shape算法获取聚类后待测图像的感兴趣区域;检测感兴趣区域的内容,提取相应的文字信息。然而,该方法仅适用于手写文字、简单文字场景的文本检测,自然场景图像中背景复杂,如果使用相关技术中的文本检测方法将很难达到理想的检测效果。可见,目前亟需提供一种新的文本检测方法。
发明内容
本申请提供一种文本检测方法、文本检测装置、电子设备和存储介质。
本申请的技术方案是这样实现的:
本申请提供一种文本检测方法,所述方法包括:
基于获取的预测文本框和参考文本框,对训练文本图像进行处理,得到难检测文本图像和第一标签文件,其中,所述预测文本框是所述训练文本图像经过文本检测模型处理后得到的,所述第一标签文件包括所述难检测文本图像中的难检测文本框的位置信息和文本内容;
基于所述难检测文本图像和所述第一标签文件,对构建好的初始文本检测模型进行训练,得到目标文本检测模型;
将获取的待检测文本图像输入至所述目标文本检测模型,得到目标文本图像和所述目标文本图像对应的目标标签文件。
本申请提供一种文本检测装置,所述装置包括:
第一处理模块,用于基于获取的预测文本框和参考文本框,对训练文本图像进行处理,得到难检测文本图像和第一标签文件,其中,所述预测文本框是所述训练文本图像经过文本检测模型处理后得到的,所述第一标签文件包括所述难检测文本图像中的难检测文本框的位置信息和文本内容;
第二处理模块,用于基于所述难检测文本图像和所述第一标签文件,对构建好的初始文本检测模型进行训练,得到目标文本检测模型;
第三处理模块,用于将获取的待检测文本图像输入至所述目标文本检测模型,得到目标文本图像和所述目标文本图像对应的目标标签文件。
本申请提供一种电子设备,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令,以实现上述所述的文本检测方法。
本申请提供一种计算机存储介质,所述计算机存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述所述的文本检测方法。
本申请提供一种文本检测方法、文本检测装置、电子设备和存储介质,通过基于获取的预测文本框和参考文本框,对训练文本图像进行处理,得到难检测文本图像和第一标签文件,其中,预测文本框是训练文本图像经过文本检测模型处理后得到的,第一标签文件包括难检测文本图像中的难检测文本框的位置信息和文本内容;基于难检测文本图像和第一标签文件,对构建好的初始文本检测模型进行训练,得到目标文本检测模型;将获取的待检测文本图像输入至目标文本检测模型,得到目标文本图像和目标文本图像对应的目标标签文件,如此,本申请有选择地提取包含有难检测文本框的难检测文本图像,增加了训练样本数据,避免了模型训练过程中采用同一份训练集图像反复迭代训练;同时,提升了模型的学习能力,提高了模型的检测精度。
附图说明
图1为本申请实施例提供的一种可选的文本检测方法的流程示意图;
图2为本申请实施例提供的一种可选的文本检测方法的流程示意图;
图3为本申请实施例提供的一种椭圆滤波器的结构示意图;
图4为本申请实施例提供的一种训练文本图像进行增强前后的示意图;
图5为本申请实施例提供的一种可选的文本检测方法的流程示意图;
图6为本申请实施例提供的一种可选的训练文本数据中的训练文本图像和第二标签文件的示意图;
图7为本申请实施例提供的一种可选的文本检测方法的流程示意图;
图8为本申请实施例提供的一种可选的文本检测方法的流程示意图;
图9为本申请实施例提供的一种可选的文本检测方法的流程示意图;
图10为本申请实施例提供的一种可选的文本检测方法的流程示意图;
图11为本申请实施例提供的一种可选的文本检测方法的流程示意图;
图12为本申请实施例提供的一种可选的文本检测方法的流程示意图;
图13为本申请实施例提供的一种可选的难检测文本图像旋转前后的示意图;
图14为本申请实施例提供的一种文本检测装置的结构示意图;
图15为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
参见图1,图1是本申请实施例提供的文本检测方法的一个实现流程示意图,该文本检测方法应用于电子设备,该文本检测方法包括以下步骤:
步骤101、基于获取的预测文本框和参考文本框,对训练文本图像进行处理,得到难检测文本图像和第一标签文件。
其中,预测文本框是训练文本图像经过文本检测模型处理后得到的,第一标签文件包括难检测文本图像中的难检测文本框的位置信息和文本内容。
本申请实施例中,难检测文本图像包含有难检测文本框的图像,难检测文本框中的文本区域的特征复杂,电子设备基于难检测文本图像对应的第一标签文件,确定难检测文本框在难检测文本图像中的位置信息和文本内容。
本申请实施例中,参考文本框是基于训练文本图像对应的标签文件中的文本框的位置信息和文本内容,得到的文本框。这里,参考文本框可以理解为训练文本图像中的真实文本框。
本申请实施例中,预测文本框是训练文本图像经过文本检测模型处理后得到的文本框,这里,文本检测模型可以是高效准确的场景文本(Efficient and Accuracy SceneText,EAST)网络结构模型,文本检测模型也可以是旋转区域候选网络(rotation regionproposal networks,RRPN)模型,文本检测模型还可以是其他的模型,对此,本申请不做具体限制。
本申请实施例中,首先,电子设备获取训练文本图像,将训练文本图像经过文本检测模型进行处理得到预测文本框;其次,电子设备基于训练文本图像和训练文本图像的标签文件中包括的文本框的位置信息和文本内容,得到参考文本框;然后,电子设备基于预测文本框和参考文本框,对训练文本图像进行处理,得到难检测文本图像和难检测文本图像对应的第一标签文件。
本申请其他实施例中,电子设备获取训练文本图像,将训练文本图像经过文本检测模型进行处理得到预测文本框之前,电子设备获取的原始训练文本图像,将原始训练文本图像的尺寸调整成设定的目标尺寸,得到训练文本图像;示例性的,目标尺寸可以是512×512像素(pixel,px)。
在实际应用中,电子设备可以包括但不限于智能手机、平板电脑、笔记本电脑、智能电视、个人数字助理(Personal Digital Assistant,PDA)、相机、可穿戴设备等移动终端设备,以及台式计算机等固定终端设备。
步骤102、基于难检测文本图像和第一标签文件,对构建好的初始文本检测模型进行训练,得到目标文本检测模型。
本申请实施例中,初始文本检测模型可以是EAST网络结构模型,初始文本检测模型还可以是RRPN模型,初始文本检测模型又可以是深度匹配先验网络(deep matchingprior network,DMPNet),对此,本申请不做具体限制。
本申请实施例中,电子设备可以将难检测文本图像和第一标签文件作为训练样本数据,对构建好的初始文本检测模型进行训练,得到目标文本检测模型;电子设备还可以将难检测文本图像和第一标签文件,以及训练文本图像和训练文本图像对应的标签文件作为训练样本数据,对构建好的初始文本检测模型进行训练,得到目标文本检测模型。
本申请实施例中,电子设备可以是基于难检测文本图像和第一标签文件,对初始文本检测模型进行一次模型训练,即可得到目标文本检测模型;电子设备还可以是基于难检测文本图像和第一标签文件,对初始文本检测模型进行多次模型训练,才可得到目标文本检测模型。对此,本申请不做具体限制。
在一种可实现的应用场景中,以初始文本检测模型为EAST网络结构模型为例进行说明。EAST网络结构模型包括特征提取网络、特征合并网络和输出得分结果。首先,电子设备判断是否是首次对EAST网络结构模型进行训练,若是,初始化EAST网络结构模型中的网络参数后,获取难检测文本图像和第一标签文件;若否,电子设备直接获取难检测文本图像和第一标签文件。电子设备将难检测文本图像与EAST网络结构模型进行结合计算,得到EAST网络结构模型输出的每一文本区域的第一得分结果,其中,第一得分结果包括单通道的文本分数特征图和多通道的几何分数特征图。这里,文本分数特征图
Figure BDA0003394431850000051
表示每个像素位置是否为文本的置信度值,取值范围是[0,1],需要说明的是,置信度越接近1,表示该像素位置越可能是文本;文本分数特征图/>
Figure BDA0003394431850000052
的维度为128×128×1。这里,几何分数的输出可以通过RBOX形式表示,几何分数的输出还可以通过QUAD形式表示。这里,几何分数的输出以RBOX为例进行说明,多通道的几何分数特征图包括第一特征图/>
Figure BDA0003394431850000053
和第二特征图/>
Figure BDA0003394431850000054
第一特征图/>
Figure BDA0003394431850000055
表示每个像素位置距离预测文本框边界的距离值,即每个像素位置分别到预测文本框的顶部、右侧、底部、左侧边界的4个距离,第一特征图/>
Figure BDA0003394431850000056
的维度是128×128×4;第二特征图/>
Figure BDA0003394431850000057
表示的是每个像素位置所对应的预测文本框的旋转角度。同时,电子设备基于难检测文本图像和第一标签文件,确定训练样本数据,并得到训练样本数据中每一文本区域的参考标签结果;之后,电子设备利用损失函数如Dice Loss函数,将同一文本区域对应的参考标签结果与相应的第一得分结果进行计算,得到损失值。最后,电子设备基于损失值,利用优化器如ADAM优化器,对网络参数进行优化,得到目标EAST网络结构模型。
由上述可知,本申请实施例中,电子设备通过上述方法,既保证了目标文本检测模型更好地学习难检测文本框,即难检测文本区域的特征;又保证了目标文本检测模型持续的学习复杂特征,更加全面获取文本与背景特征,从而更加精确地检测出图像中文本信息;同时,该模型的通用性强。
步骤103、将获取的待检测文本图像输入至目标文本检测模型,得到目标文本图像和目标文本图像对应的目标标签文件。
在一种实现场景中,电子设备基于难检测文本图像和第一标签文件,对构建好的初始文本检测模型进行训练,得到目标文本模型之后,获取待检测文本图像,将待检测文本图像输入至目标文本检测模型,得到目标文本检测模型输出的多个文本区域图像、文本区域图像对应的文本标签文件以及每一文本区域图像包括的文本区域的第二得分结果。进一步地,电子设备基于第二得分结果,对得到的多个文本区域图像进行筛选,得到目标文本图像和目标文本图像对应的目标标签文件,示例性的,电子设备基于第二得分结果,利用NMS算法对多个文本区域图像进行筛选,从而得到目标文本图像和目标文本图像对应的目标标签文件。
本申请提供一种文本检测方法,通过基于获取的预测文本框和参考文本框,对训练文本图像进行处理,得到难检测文本图像和第一标签文件,其中,预测文本框是训练文本图像经过文本检测模型处理后得到的,第一标签文件包括难检测文本图像中的难检测文本框的位置信息和文本内容;基于难检测文本图像和第一标签文件,对构建好的初始文本检测模型进行训练,得到目标文本检测模型;将获取的待检测文本图像输入至目标文本检测模型,得到目标文本图像和目标文本图像对应的目标标签文件,如此,本申请有选择地提取包含有难检测文本框的难检测文本图像,增加了训练样本数据,避免了模型训练过程中采用同一份训练集图像反复迭代训练;同时,提升了模型的学习能力,提高了模型的检测精度。
参见图2,图2是本申请实施例提供的文本检测方法的一个实现流程示意图,该文本检测方法应用于电子设备,该文本检测方法包括以下步骤:
步骤201、基于获取的预测文本框和参考文本框,对训练文本图像进行处理,得到难检测文本图像和第一标签文件。
本申请其他实施例中,电子设备获取到训练文本图像后,还可以对训练文本图像进行图像增强处理,得到增强后的训练文本图像,进而基于获取的预测文本框和参考文本框,对增强后的训练文本图像进行处理,得到难检测文本图像和第一标签文件。
本申请实施例中,图像增强用于增强文字或文本所在区域的特征,图像增强用于解决图像中可能存在的画质模糊、清晰度低的问题。
本申请实施例中,电子设备可以利用深度神经网络滤波器(Deep LocalParametric Filters,DeepLPF)模型对训练文本图像进行增强处理,以增强图像中的细节信息。这里,DeepLPF模型融合了椭圆滤波器(Elliptical Filter)、多项式滤波器(Polynomial Filter)和渐变滤波器(Graduated Filter)的深局部参数滤波器模型。
这里,以DeepLPF模型通过椭圆滤波器实现对训练文本图像进行增强处理为例进行说明。参照图3所示,图3示出的是椭圆滤波器的结构示意图。这里,椭圆滤波器对训练文本图像进行增强处理,可以通过如下公式实现,
Figure BDA0003394431850000061
/>
其中,(h,k)表示椭圆中心位置,a表示椭圆的长半轴,b表示椭圆的短半轴,
Figure BDA0003394431850000071
表示椭圆的倾斜角度,se为放缩因子,这里,放缩因子se包括在红(red,R)、绿(green,G)、蓝(blue,B)三个通道上分别对应红放缩因子/>
Figure BDA0003394431850000072
绿放缩因子/>
Figure BDA0003394431850000073
蓝放缩因子/>
Figure BDA0003394431850000074
这里,上述参数为DeepLPF模型需要训练的参数。需要说明的是,在本申请实施例中,电子设备使用通用数据集训练好的DeepLPF模型对训练文本图像进行增强处理,如此,节省时间的同时可以达到良好的图像增强效果。由公式可以看出,椭圆中心缩放值为100%,即更加突出中心区域特征细节,椭圆区域内进行渐变突出,椭圆外缩小值为0。其他两种滤波器作用效果与椭圆滤波器的作用效果类似,对于选定区域进行增强,对于不同类型的图像,结合多种类型的滤波器可以达到更好的增强效果。参照图4所示,图4示出的是训练文本图像进行增强前后的示意图,其中,图4中的A为未增强处理的训练文本图像,图4中的B为增强后的训练文本图像。如此,本申请对训练文本图像进行增强处理,有效地提升了图像的亮度,降低了图像的模糊程度,同时为后续模型训练提供了更好地识别文字的特征。
本申请实施例中,参照图5所示,步骤201基于获取的预测文本框和参考文本框,对训练文本图像进行处理,得到难检测文本图像和第一标签文件之前,还可以执行如下步骤:
步骤A1、基于训练文本图像对应的第二标签文件,确定所有文本框的第一长度和第一宽度。
其中,第二标签文件包括训练文本图像中所有文本框的位置信息和文本内容。
本申请实施例中,训练文本图像和训练文本图像对应的第二标签文件组成训练文本数据。示例性的,参照图6所示,图6示出的是训练文本数据中的训练文本图像和第二标签文件的示意图;其中,图6中的A为训练文本图像,图6中的B为第二标签文件。这里,以训练文本图像的左上角为坐标轴原点,以横向作为X坐标轴,以纵向作为Y坐标轴,建立直角坐标系,确定训练文本图像的所有文本框的位置信息;第二标签文件中每一行记录的内容信息对应训练文本图像中的一个文本框,这里,以顺时针的方向记录每一文本框四个顶点的坐标,如第一行中的前8位分别对应文本框中的4个顶点即左上角、左下角、右下角和右上角的坐标,最后一位为该文本框所包含的文本内容。需要说明的是,考虑到存在不规则四边形的文本框,根据第二标签文件中真实文本框的位置信息,选择横向和纵向最长的边作为长和宽。
本申请实施例中,电子设备获取训练文本图像和第二标签文件,从第二标签文件中获取所有文本框的左上角、左下角、右下角和右上角的坐标,基于每一文本框的左上角、左下角、右下角和右上角的坐标,得到所有文本框的第一长度和第一宽度。
在一种可实现的应用场景中,电子设备获取第二标签文件中文本框的位置信息,即文本框的左上角、左下角、右下角和右上角四个顶点的坐标后,确定文本框的第一长度和第一宽度,可以通过如下公式实现,
l=max(x2-x1,x3-x4)
w=max(y2-y1,y3-y4)
其中,l为第一长度,w为第一宽度,(x1,y1,x2,y2,x3,y3,x4,y4)分别为文本框的左上角、左下角、右下角和右上角四个顶点的坐标。
步骤A2、若第一长度属于第一长度范围,和/或第一宽度属于第一宽度范围,确定文本框为参考文本框。
本申请实施例中,第一长度属于第一长度范围可以理解为第一长度在设定的长度阈值范围内,第一宽度属于第一宽度范围可以理解为第一宽度在设定的宽度阈值范围内。
本申请实施例中,电子设备基于训练文本图像对应的第二标签文件,确定所有文本框的第一长度和第一宽度之后,判断第一长度是否属于第一长度范围,和/或第一宽度是否属于第一宽度范围,若电子设备确定第一长度属于第一长度范围,和/或第一宽度属于第一宽度范围,则进一步确定文本框为参考文本框。
本申请其他实施例中,若电子设备确定第一长度不属于第一长度范围,和/或第一宽度不属于第一宽度范围,确定文本框为标准文本框。
本申请实施例中,参照图7所示,步骤A2若第一长度属于第一长度范围,和/或第一宽度属于第一宽度范围,确定文本框为参考文本框,可以通过如下步骤实现:
步骤B1、若第一长度大于第一长度阈值,和/或第一宽度大于第一宽度阈值,确定文本框为长尺度文本框。
本申请实施例中,第一长度阈值可以为训练文本图像的长度的一半,第一宽度阈值可以为训练文本图像的宽度的一半。示例性的,若训练文本图像的尺寸为512×512px,则第一长度阈值为256px,第一宽度阈值为256px;若训练文本图像的尺寸为672×512px,则第一长度阈值为336px,第一宽度阈值为256px。
步骤B2、若第一长度小于第二长度阈值,且第一宽度小于第二宽度阈值,确定文本框为小尺度文本框。
其中,参考文本框包括长尺度文本框和小尺度文本框。
本申请实施例中,第二长度阈值可以为训练文本图像的长度的1/4,第二宽度阈值可以为训练文本图像的宽度的1/4。示例性的,若训练文本图像的尺寸为512×512px,则第二长度阈值为128px,第二宽度阈值为128px;若训练文本图像的尺寸为672×512px,则第二长度阈值为168px,第二宽度阈值为128px。
本申请实施例中,电子设备获取第一长度阈值、第一宽度阈值、第二长度阈值和第二宽度阈值,进一步地,电子设备确定第一长度大于第一长度阈值,和/或第一宽度大于第一宽度阈值,则将该文本框作为长尺度文本框;电子设备确定第一长度小于第二长度阈值,且第一宽度小于第二宽度阈值,则将该文本框作为小尺度文本框,电子设备将第一长度不属于第一长度范围,和/或第一宽度不属于第一宽度范围的文本框作为标准尺度文本框。需要说明的是,长尺度文本框和小尺度文本框属于难检测文本框,标准尺度文本框属于易检测文本框。如此,根据文本框长度和宽度对真实文本框进行划分,筛选出符合条件的长尺度文本框和小尺度文本框作为参考文本框,以及标准尺度文本框。
本申请实施例中,参照图8所示,步骤201基于获取的预测文本框和参考文本框,对训练文本图像进行处理,得到难检测文本图像和第一标签文件,可以通过如下步骤实现:
步骤301、计算每一参考文本框与第一数量个预测文本框之间的交并比,为每一参考文本框对应的第一数量个第一交并比值。
本申请实施例中,计算参考文本框和预测文本框之间的交并比(Intersection-over-Union,IoU)可以通过如下公式计算:
Figure BDA0003394431850000091
/>
其中,IOU表示参考文本框与预测文本框之间的交并比值;A表示参考文本框;B表示预测文本框;IOU(Ai,Bj)表示的是第i个参考文本框与第j个预测文本框之间的交并比值,这里,i为大于1小于等于I的正整数,I为参考文本框的总个数,即I为第二数量;j为大于1小于等于J的正整数,J为预测文本框的总个数,即J为第一数量。需要说明的是,电子设备基于参考文本框与预测文本框之间的重叠区域,与参考文本框与预测文本框之间的所占的全部区域之间的比值,确定参考文本框与预测文本框之间的交并比值。
步骤302、从第一数量个第一交并比值中确定最大的交并比值,为与每一参考文本框相似度最高的预测文本框的第二交并比值。
步骤303、从第二数量个参考文本框对应的第二交并比值中,确定属于交并比值范围的第二交并比值为目标交并比值。
本申请实施例中,交并比值范围可以理解为交并比值在交并比阈值范围内。
本申请实施例中,首先,电子设备计算每一参考文本框与第一数量个预测文本框之间的交并比,为每一参考文本框对应的第一数量个第一交并比值。之后,电子设备从第一数量个第一交并比值中确定最大的交并比值,为与每一参考文本框相似度最高的预测文本框的第二交并比值IOUi=max(IOU(Ai,B1),OU(Ai,B2)…IOU(Ai,BJ)),之后,电子设备从第二数量个参考文本框对应的第二交并比值中,确定属于交并比值范围的第二交并比值为目标交并比值。
本申请实施例中,参照图9所示,参考文本框包括长尺度文本框和小尺度文本框,步骤303从第二数量个参考文本框对应的第二交并比值中,确定属于交并比值范围的第二交并比值为目标交并比值,可以通过如下步骤实现:
步骤C1、从第一子数量个长尺度文本框对应的第二交并比值中,确定最小的交并比值为第一目标交并比值。
步骤C2、从第二子数量个小尺度文本框对应的第二交并比值中,确定最小的交并比值为第二目标交并比值。
其中,第二数量包括第一子数量和第二子数量,目标交并比值包括第一目标交并比值和第二目标交并比值。
本申请实施例中,第二数量I个参考文本框包括第一子数量M个长尺度文本框和第二子数量N个小尺度文本框,电子设备从第一子数量M个长尺度文本框对应的第二交并比值中,确定最小的交并比值为第一目标交并比值,即IOU1=min(IOU1,IOU2,…,IOUM);从第二子数量N个小尺度文本框对应的第二交并比值中,确定最小的交并比值为第二目标交并比值,即IOU2=min(IOU1,OU2,…,OUN)。
步骤304、基于目标交并比值对应的参考文本框为难检测文本框,对训练样本图像进行处理,得到难检测文本图像。
本申请实施例中,电子设备确定目标交并比值后,将目标交并比值对应的参考文本框作为难检测文本框,对训练样本图像进行处理,得到难检测文本图像。
本申请实施例中,参照图10所示,步骤304基于目标交并比值对应的参考文本框为难检测文本框,对训练样本图像进行处理,得到难检测文本图像,可以通过如下步骤实现:
步骤D1、若难检测文本框为长尺度文本框,基于长尺度文本框的第一顶点的第一坐标和第二顶点的第二坐标,确定与长尺度文本框各个边界的第一间距。
本申请实施例中,电子设备确定与长尺度文本框各个边界的第一间距,可以通过如下公式得到,
Figure BDA0003394431850000101
其中,l1、l2、w1、w2分别为训练文本图像中的像素点与长尺度文本框上边界、下边界、左边界、右边界之间的距离;(x1,y1,x2,y2,x3,y3,x4,y4)为长尺度文本框的四个顶点坐标。
步骤D2、基于第一间距,从训练文本图像上确定新的长尺度文本框,并将训练文本图像上新的长尺度文本框之外的区域填充为第一颜色,得到难检测文本图像。
本申请实施例中,第一颜色可以是黑色,第一颜色也可以是红色,第一颜色还可以是其他颜色,对此,本申请不做具体限定。
本申请实施例中,电子设备基于长尺度文本框的第一顶点的第一坐标和第二顶点的第二坐标,确定与长尺度文本框各个边界的第一间距之后,从训练文本图像上确定新的长尺度文本框,并将训练文本图像上新的长尺度文本框之外的区域填充为第一颜色如黑色,得到难检测文本图像。
由上述可知,本申请实施例中,利用裁剪的方式提取长尺度文本框及其周边区域,可以明显区分出文本与背景的特征,并将裁剪后的难检测文本框对应的难检测文本图像作为训练文本图像训练文本检测模型,如此,通过获取包含有难检测文本框的难检测文本图像,增加了训练样本数据,提高了目标文本检测模型的检测精度。
本申请实施例中,参照图11所示,步骤304基于确定的目标交并比值对应的参考文本框为难检测文本框,对训练样本图像进行处理,得到难检测文本图像,还可以通过如下步骤实现:
步骤E1、若难检测文本框为小尺度文本框,基于小尺度文本框的第一顶点的第一坐标和第二顶点的第二坐标,确定与小尺度文本框各个边界的第二间距。
本申请实施例中,电子设备确定与小尺度文本框各个边界的第二间距,可以通过如下公式得到,
Figure BDA0003394431850000111
其中,l3、l4、w3、w4分别为训练文本图像中的像素点与小尺度文本框上边界、下边界、左边界、右边界之间的距离;(x5,y5,x6,y6,x7,y7,x8,y8)为小尺度文本框的四个顶点坐标。
步骤E2、基于第二间距,从训练文本图像上确定新的小尺度文本框,并将训练文本图像上新的小尺度文本框之外的区域填充为第二颜色,得到难检测文本图像。
本申请实施例中,第一颜色可以是黑色,第一颜色也可以是红色,第一颜色还可以是其他颜色,第二颜色与第一颜色可以相同,第二颜色与第一颜色也可以不同,对此,本申请不做具体限定。
本申请实施例中,电子设备基于长尺度文本框的第一顶点的第一坐标和第二顶点的第二坐标,确定与长尺度文本框各个边界的第一间距之后,从训练文本图像上确定新的长尺度文本框,并将训练文本图像上新的长尺度文本框之外的区域填充为第一颜色如黑色,得到难检测文本图像。
由上述可知,本申请实施例中,利用裁剪的方式提取小尺度文本框及其周边区域,可以明显区分出文本与背景的特征,并将裁剪后的难检测文本框对应的难检测文本图像作为训练文本图像训练文本检测模型;如此,本申请有选择地提取包含有难检测文本框的难检测文本图像,增加了训练样本数据,避免了模型训练过程中采用同一份训练集图像反复迭代训练;同时,提升了模型的学习能力,提高了模型的检测精度。
步骤305、基于难检测文本图像和第二标签文件,生成第一标签文件。
步骤202、通过随机函数在第一角度范围内选取角度值。
本申请实施例中,第一角度范围可以是为预先设定的角度范围,如(-90°,90°),第一角度范围也可以是通过随机旋转角度选择算法确定的角度范围,对此,本申请不做具体限制。需要说明的是,电子设备为更好地拟合真实场景下照片的不同拍摄角度,设定第一角度范围。选择90°作为旋转的角度范围是由于在真实场景下利用手机、照相机等设备拍摄照片时,不考虑特殊的拍摄需要,电子设备的倾斜角度都是在(-90°,90°)的角度范围之内。
在一种可实现的应用场景中,电子设备利用随机旋转角度选择算法如RotateAngelSELECT非等概率的生成角度值θ,从而模拟真实场景下电子设备采集照片时的多种角度情况,算法的伪代码如下所示:
Figure BDA0003394431850000121
其中,range为随机角度取值区间的最大值,如range取90;Random(-i,i)函数代表在-i到i闭区间内等概率选择随机整数。
步骤203、基于角度值,确定旋转方向。
本申请实施例中,角度值存在正数和负数。若角度值为正数,电子设备确定旋转方向为顺时针方向,若角度值为负数,电子设备确定旋转方向为逆时针方向。
步骤204、以难检测文本图像的中心点为旋转中心点,以难检测文本框的位置为旋转起始位置,沿着旋转方向旋转角度值,得到旋转后的难检测文本图像。
本申请实施例中,电子设备基于获取的预测文本框和参考文本框,对训练文本图像进行处理,得到难检测文本图像和第一标签文件,通过随机函数在第一角度范围内选取角度值,基于角度值,确定旋转方向的情况下,以难检测文本图像的中心点为旋转中心点,以难检测文本框的位置为旋转起始位置,沿着旋转方向旋转角度值,得到旋转后的难检测文本图像。
本申请实施例中,参照图12所示,步骤204以难检测文本图像的中心点为旋转中心点,以难检测文本框的位置为旋转起始位置,沿着旋转方向旋转角度值,得到旋转后的难检测文本图像,可以通过如下步骤实现:
步骤F1、以难检测文本图像的中心点为旋转中心点,以难检测文本框的位置为旋转起始位置,沿着旋转方向旋转角度值,得到难检测文本图像所在的目标区域内的初始难检测文本图像。
本申请实施例中,目标区域可以理解为难检测文本图像未旋转前所在的区域。
步骤F2、将目标区域内的初始难检测文本图像之外的区域填充为第三颜色,得到旋转后的难检测文本图像。
本申请实施例中,第三颜色可以是黑色,第三颜色也可以是红色,第三颜色可以与第一颜色相同,第三颜色也可以与第一颜色不同,对此,本申请不做具体限定。
本申请实施例中,参照图13所示,图13示出的是难检测文本图像旋转前后的示意图。为难检测文本图像旋转前如图13中的A所示,这里,电子设备以难检测文本图像的中心点为旋转中心点,以难检测文本框的位置为旋转起始位置,沿着旋转方向旋转角度值,得到难检测文本图像所在的目标区域内的初始难检测文本图像,进一步地,将目标区域内的初始难检测文本图像之外的区域填充为第三颜色,得到旋转后的难检测文本图像,如图13中的B所示;如此,当目标区域内出现的空白区域时,进行颜色填充,从而保持图像的尺寸不发生变化。
步骤205、基于旋转后的难检测文本图像和第一标签文件,生成第三标签文件。
本申请实施例中,第三标签文件包括旋转后的难检测文本图像中的难检测文本框的位置信息和文本内容。
本申请实施例中,电子设备旋转后的难检测文本图像和第一标签文件,生成用于记录旋转后的难检测文本图像中的难检测文本框的位置信息和文本内容的第三标签文件。
在一种可实现的应用场景中,以难检测文本图像中的难检测文本框的左上角顶点(x1,y1)为例展示旋转后坐标的变化旋转后的文本框坐标计算公式如下:
x′1=(x1-xcenter)·cosθ-(y1-ycenter)·sinθ+xcenter
Figure BDA0003394431850000141
y′1=(y1-ycenter)·cosθ+(x1-xcenter)·sinθ+ycenter
Figure BDA0003394431850000142
其中,(x1′,y1′)为旋转后的难检测文本图像的左上角的坐标,(x1″,y1″)为对旋转后的难检测文本图像进行裁剪后的左上角坐标,θ为旋转难检测文本图像的角值度,(xcenter,ycenter)为难检测文本图像的中心点的坐标。示例性的,难检测文本图像大小为512×512,则xcenter为256,ycenter为256。
需要说明的是,难检测文本图像中的难检测文本框的其余三个顶点都以相同的方式进行坐标转换,对此,本申请不再进行具体说明。
步骤206、基于难检测文本图像、第一标签文件、旋转后的难检测文本图像和第三标签文件,对初始文本检测模型进行训练,得到目标文本检测模型。
本申请实施例中,电子设备基于难检测文本图像、第一标签文件、旋转后的难检测文本图像和第三标签文件,对初始文本检测模型进行训练,得到目标文本检测模型。如此,本申请通过随机旋转增强难检测文本图像,增加了训练样本数据,避免了模型训练过程中采用同一份训练集图像反复迭代训练;同时,提升了模型的学习能力,提高了模型的检测精度。
步骤207、将获取的待检测文本图像输入至目标文本检测模型,得到目标文本检测模型输出的目标文本图像和目标文本图像对应的目标标签文件。
需要说明的是,本实施例中与其它实施例中相同步骤和相同内容的说明,可以参照其它实施例中的描述,此处不再赘述。
基于前述实施例,本申请提供一种文本检测装置,该文本检测装置可以用于实施图1~图2、图5、图7~图12对应提供的一种文本检测方法,参见图14所示,该文本检测装置14包括:
第一处理模块1401,用于基于获取的预测文本框和参考文本框,对训练文本图像进行处理,得到难检测文本图像和第一标签文件,其中,预测文本框是训练文本图像经过文本检测模型处理后得到的,第一标签文件包括难检测文本图像中的难检测文本框的位置信息和文本内容;
第二处理模块1402,用于基于难检测文本图像和第一标签文件,对构建好的初始文本检测模型进行训练,得到目标文本检测模型;
第三处理模块1403,用于将获取的待检测文本图像输入至目标文本检测模型,得到目标文本图像和目标文本图像对应的目标标签文件。
在本申请其他实施例中,文本检测装置14还包括确定模块,确定模块,用于基于训练文本图像对应的第二标签文件,确定所有文本框的第一长度和第一宽度,其中,第二标签文件包括训练文本图像中所有文本框的位置信息和文本内容;若第一长度属于第一长度范围,和/或第一宽度属于第一宽度范围,确定文本框为参考文本框。
在本申请其他实施例中,确定模块,还用于若第一长度大于第一长度阈值,和/或第一宽度大于第一宽度阈值,确定文本框为长尺度文本框;若第一长度小于第二长度阈值,且第一宽度小于第二宽度阈值,确定文本框为小尺度文本框;其中,参考文本框包括长尺度文本框和小尺度文本框。
在本申请其他实施例中,第一处理模块1401,还用于计算每一参考文本框与第一数量个预测文本框之间的交并比,为每一参考文本框对应的第一数量个第一交并比值;从第一数量个第一交并比值中确定最大的交并比值,为与每一参考文本框相似度最高的预测文本框的第二交并比值;从第二数量个参考文本框对应的第二交并比值中,确定属于交并比值范围的第二交并比值为目标交并比值;基于目标交并比值对应的参考文本框为难检测文本框,对训练样本图像进行处理,得到难检测文本图像;基于难检测文本图像和第二标签文件,生成第一标签文件。
在本申请其他实施例中,第一处理模块1401,还用于从第一子数量个长尺度文本框对应的第二交并比值中,确定最小的交并比值为第一目标交并比值;从第二子数量个小尺度文本框对应的第二交并比值中,确定最小的交并比值为第二目标交并比值;其中,第二数量包括第一子数量和第二子数量,目标交并比值包括第一目标交并比值和第二目标交并比值。
在本申请其他实施例中,第一处理模块1401,还用于若难检测文本框为长尺度文本框,基于长尺度文本框的第一顶点的第一坐标和第二顶点的第二坐标,确定与长尺度文本框各个边界的第一间距;基于第一间距,从训练文本图像上确定新的长尺度文本框,并将训练文本图像上新的长尺度文本框之外的区域填充为第一颜色,得到难检测文本图像。
在本申请其他实施例中,第一处理模块1401,还用于若难检测文本框为小尺度文本框,基于小尺度文本框的第一顶点的第一坐标和第二顶点的第二坐标,确定与小尺度文本框各个边界的第二间距;基于第二间距,从训练文本图像上确定新的小尺度文本框,并将训练文本图像上新的小尺度文本框之外的区域填充为第二颜色,得到难检测文本图像。
在本申请其他实施例中,第二处理模块1402,还用于通过随机函数在第一角度范围内选取角度值;基于角度值,确定旋转方向;以难检测文本图像的中心点为旋转中心点,以难检测文本框的位置为旋转起始位置,沿着旋转方向旋转角度值,得到旋转后的难检测文本图像;基于旋转后的难检测文本图像和第一标签文件,生成第三标签文件;基于难检测文本图像、第一标签文件、旋转后的难检测文本图像和第三标签文件,对初始文本检测模型进行训练,得到目标文本检测模型。
在本申请其他实施例中,第二处理模块1402,还用于以难检测文本图像的中心点为旋转中心点,以难检测文本框的位置为旋转起始位置,沿着旋转方向旋转角度值,得到难检测文本图像所在的目标区域内的初始难检测文本图像;将目标区域内的初始难检测文本图像之外的区域填充为第三颜色,得到旋转后的难检测文本图像。
基于前述实施例,本申请提供一种电子设备,该电子设备可以用于实施图1~图2、图5、图7~图12对应提供的一种文本检测方法,参见图15所示,该电子设备15(图15中的电子设备15对应图14中的文本检测装置14)包括:存储器1501和处理器1502,其中;处理器1502用于执行存储器1501中存储的文本检测程序,以实现以下步骤:
基于获取的预测文本框和参考文本框,对训练文本图像进行处理,得到难检测文本图像和第一标签文件,其中,预测文本框是训练文本图像经过文本检测模型处理后得到的,第一标签文件包括难检测文本图像中的难检测文本框的位置信息和文本内容;
基于难检测文本图像和第一标签文件,对构建好的初始文本检测模型进行训练,得到目标文本检测模型;
将获取的待检测文本图像输入至目标文本检测模型,得到目标文本图像和目标文本图像对应的目标标签文件。
在本申请其他实施例中,处理器1502用于执行存储器1501中存储的文本检测程序,以实现以下步骤:
基于训练文本图像对应的第二标签文件,确定所有文本框的第一长度和第一宽度,其中,第二标签文件包括训练文本图像中所有文本框的位置信息和文本内容;若第一长度属于第一长度范围,和/或第一宽度属于第一宽度范围,确定文本框为参考文本框。
在本申请其他实施例中,处理器1502用于执行存储器1501中存储的文本检测程序,以实现以下步骤:
若第一长度大于第一长度阈值,和/或第一宽度大于第一宽度阈值,确定文本框为长尺度文本框;若第一长度小于第二长度阈值,且第一宽度小于第二宽度阈值,确定文本框为小尺度文本框;其中,参考文本框包括长尺度文本框和小尺度文本框。
在本申请其他实施例中,处理器1502用于执行存储器1501中存储的文本检测程序,以实现以下步骤:
计算每一参考文本框与第一数量个预测文本框之间的交并比,为每一参考文本框对应的第一数量个第一交并比值;从第一数量个第一交并比值中确定最大的交并比值,为与每一参考文本框相似度最高的预测文本框的第二交并比值;从第二数量个参考文本框对应的第二交并比值中,确定属于交并比值范围的第二交并比值为目标交并比值;基于目标交并比值对应的参考文本框为难检测文本框,对训练样本图像进行处理,得到难检测文本图像;基于难检测文本图像和第二标签文件,生成第一标签文件。
在本申请其他实施例中,处理器1502用于执行存储器1501中存储的文本检测程序,以实现以下步骤:
从第一子数量个长尺度文本框对应的第二交并比值中,确定最小的交并比值为第一目标交并比值;从第二子数量个小尺度文本框对应的第二交并比值中,确定最小的交并比值为第二目标交并比值;其中,第二数量包括第一子数量和第二子数量,目标交并比值包括第一目标交并比值和第二目标交并比值。
在本申请其他实施例中,处理器1502用于执行存储器1501中存储的文本检测程序,以实现以下步骤:
若难检测文本框为长尺度文本框,基于长尺度文本框的第一顶点的第一坐标和第二顶点的第二坐标,确定与长尺度文本框各个边界的第一间距;基于第一间距,从训练文本图像上确定新的长尺度文本框,并将训练文本图像上新的长尺度文本框之外的区域填充为第一颜色,得到难检测文本图像。
在本申请其他实施例中,处理器1502用于执行存储器1501中存储的文本检测程序,以实现以下步骤:
若难检测文本框为小尺度文本框,基于小尺度文本框的第一顶点的第一坐标和第二顶点的第二坐标,确定与小尺度文本框各个边界的第二间距;基于第二间距,从训练文本图像上确定新的小尺度文本框,并将训练文本图像上新的小尺度文本框之外的区域填充为第二颜色,得到难检测文本图像。
在本申请其他实施例中,处理器1502用于执行存储器1501中存储的文本检测程序,以实现以下步骤:
通过随机函数在第一角度范围内选取角度值;基于角度值,确定旋转方向;以难检测文本图像的中心点为旋转中心点,以难检测文本框的位置为旋转起始位置,沿着旋转方向旋转角度值,得到旋转后的难检测文本图像;基于旋转后的难检测文本图像和第一标签文件,生成第三标签文件;基于难检测文本图像、第一标签文件、旋转后的难检测文本图像和第三标签文件,对初始文本检测模型进行训练,得到目标文本检测模型。
在本申请其他实施例中,处理器1502用于执行存储器1501中存储的文本检测程序,以实现以下步骤:
以难检测文本图像的中心点为旋转中心点,以难检测文本框的位置为旋转起始位置,沿着旋转方向旋转角度值,得到难检测文本图像所在的目标区域内的初始难检测文本图像;将目标区域内的初始难检测文本图像之外的区域填充为第三颜色,得到旋转后的难检测文本图像。
本申请提供一种计算机可读存储介质,该计算机可读存储介质存储有一个或者多个程序,该一个或者多个程序可被一个或者多个处理器执行,通过基于获取的预测文本框和参考文本框,对训练文本图像进行处理,得到难检测文本图像和第一标签文件,其中,预测文本框是训练文本图像经过文本检测模型处理后得到的,第一标签文件包括难检测文本图像中的难检测文本框的位置信息和文本内容;基于难检测文本图像和第一标签文件,对构建好的初始文本检测模型进行训练,得到目标文本检测模型;将获取的待检测文本图像输入至目标文本检测模型,得到目标文本图像和目标文本图像对应的目标标签文件,如此,本申请有选择地提取包含有难检测文本框的难检测文本图像,增加了训练样本数据,避免了模型训练过程中采用同一份训练集图像反复迭代训练;同时,提升了模型的学习能力,提高了模型的检测精度。
需要说明的是,上述计算机存储介质/存储器可以是只读存储器(Read OnlyMemory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory,FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory,CD-ROM)等存储器;也可以是包括上述存储器之一或任意组合的各种终端,如移动电话、计算机、平板设备、个人数字助理等。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理模块中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本申请所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (12)

1.一种文本检测方法,其特征在于,所述方法包括:
基于获取的预测文本框和参考文本框,对训练文本图像进行处理,得到难检测文本图像和第一标签文件,其中,所述预测文本框是所述训练文本图像经过文本检测模型处理后得到的,所述第一标签文件包括所述难检测文本图像中的难检测文本框的位置信息和文本内容;
基于所述难检测文本图像和所述第一标签文件,对构建好的初始文本检测模型进行训练,得到目标文本检测模型;
将获取的待检测文本图像输入至所述目标文本检测模型,得到目标文本图像和所述目标文本图像对应的目标标签文件。
2.根据权利要求1所述的文本检测方法,其特征在于,所述基于获取的预测文本框和参考文本框,对训练文本图像进行处理,得到难检测文本图像和第一标签文件之前,所述方法包括:
基于所述训练文本图像对应的第二标签文件,确定所有文本框的第一长度和第一宽度,其中,所述第二标签文件包括所述训练文本图像中所有文本框的位置信息和文本内容;
若所述第一长度属于第一长度范围,和/或所述第一宽度属于第一宽度范围,确定所述文本框为所述参考文本框。
3.根据权利要求2所述的文本检测方法,其特征在于,所述若所述第一长度属于第一长度范围,和/或所述第一宽度属于第一宽度范围,确定所述文本框为所述参考文本框,包括:
若所述第一长度大于第一长度阈值,和/或所述第一宽度大于第一宽度阈值,确定所述文本框为长尺度文本框;
若所述第一长度小于第二长度阈值,且所述第一宽度小于第二宽度阈值,确定所述文本框为小尺度文本框;其中,所述参考文本框包括所述长尺度文本框和所述小尺度文本框。
4.根据权利要求1至3任一项所述的文本检测方法,其特征在于,所述基于获取的预测文本框和参考文本框,对训练文本图像进行处理,得到难检测文本图像和第一标签文件,包括:
计算每一所述参考文本框与第一数量个预测文本框之间的交并比,为每一所述参考文本框对应的所述第一数量个第一交并比值;
从所述第一数量个第一交并比值中确定最大的交并比值,为与每一所述参考文本框相似度最高的预测文本框的第二交并比值;
从第二数量个所述参考文本框对应的第二交并比值中,确定属于交并比值范围的第二交并比值为目标交并比值;
基于所述目标交并比值对应的参考文本框为难检测文本框,对所述训练样本图像进行处理,得到所述难检测文本图像;
基于所述难检测文本图像和所述第二标签文件,生成所述第一标签文件。
5.根据权利要求4所述的文本检测方法,其特征在于,所述从第二数量个所述参考文本框对应的第二交并比值中,确定属于交并比值范围的第二交并比值为目标交并比值,包括:
从第一子数量个长尺度文本框对应的第二交并比值中,确定最小的交并比值为第一目标交并比值;
从第二子数量个小尺度文本框对应的第二交并比值中,确定最小的交并比值为第二目标交并比值;其中,所述第二数量包括所述第一子数量和第二子数量,所述目标交并比值包括所述第一目标交并比值和所述第二目标交并比值。
6.根据权利要求4所述的文本检测方法,其特征在于,所述基于确定的所述目标交并比值对应的参考文本框为难检测文本框,对所述训练样本图像进行处理,得到所述难检测文本图像,包括:
若所述难检测文本框为所述长尺度文本框,基于所述长尺度文本框的第一顶点的第一坐标和第二顶点的第二坐标,确定与所述长尺度文本框各个边界的第一间距;
基于所述第一间距,从所述训练文本图像上确定新的长尺度文本框,并将所述训练文本图像上所述新的长尺度文本框之外的区域填充为第一颜色,得到所述难检测文本图像。
7.根据权利要求4所述的文本检测方法,其特征在于,所述基于确定的所述目标交并比值对应的参考文本框为难检测文本框,对所述训练样本图像进行处理,得到所述难检测文本图像,包括:
若所述难检测文本框为所述小尺度文本框,基于所述小尺度文本框的第一顶点的第一坐标和第二顶点的第二坐标,确定与所述小尺度文本框各个边界的第二间距;
基于所述第二间距,从所述训练文本图像上确定新的小尺度文本框,并将所述训练文本图像上所述新的小尺度文本框之外的区域填充为第二颜色,得到所述难检测文本图像。
8.根据权利要求1至4任一项述的文本检测方法,其特征在于,所述基于所述难检测文本图像和所述第一标签文件,对所述初始文本检测模型进行训练,得到目标文本检测模型之前,所述方法包括:
通过随机函数在第一角度范围内选取角度值;
基于所述角度值,确定旋转方向;
以所述难检测文本图像的中心点为旋转中心点,以所述难检测文本框的位置为旋转起始位置,沿着所述旋转方向旋转所述角度值,得到旋转后的难检测文本图像;
基于所述旋转后的难检测文本图像和所述第一标签文件,生成第三标签文件;
相应地,所述基于所述难检测文本图像和所述第一标签文件,对构建好的初始文本检测模型进行训练,得到目标文本检测模型,包括:
基于所述难检测文本图像、所述第一标签文件、所述旋转后的难检测文本图像和所述第三标签文件,对所述初始文本检测模型进行训练,得到目标文本检测模型。
9.根据权利要求8所述的文本检测方法,其特征在于,所述以所述难检测文本图像的中心点为旋转中心点,以所述难检测文本框的位置为旋转起始位置,沿着所述旋转方向旋转所述角度值,得到旋转后的难检测文本图像,包括:
以所述难检测文本图像的中心点为旋转中心点,以所述难检测文本框的位置为旋转起始位置,沿着所述旋转方向旋转所述角度值,得到所述难检测文本图像所在的目标区域内的初始难检测文本图像;
将所述目标区域内的所述初始难检测文本图像之外的区域填充为第三颜色,得到所述旋转后的难检测文本图像。
10.一种文本检测装置,其特征在于,所述装置包括:
第一处理模块,用于基于获取的预测文本框和参考文本框,对训练文本图像进行处理,得到难检测文本图像和第一标签文件,其中,所述预测文本框是所述训练文本图像经过文本检测模型处理后得到的,所述第一标签文件包括所述难检测文本图像中的难检测文本框的位置信息和文本内容;
第二处理模块,用于基于所述难检测文本图像和所述第一标签文件,对构建好的初始文本检测模型进行训练,得到目标文本检测模型;
第三处理模块,用于将获取的待检测文本图像输入至所述目标文本检测模型,得到目标文本图像和所述目标文本图像对应的目标标签文件。
11.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,以实现权利要求1至9任一项所述的文本检测方法。
12.一种计算机存储介质,其特征在于,所述计算机存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至9中任一项所述的文本检测方法。
CN202111478287.5A 2021-12-06 2021-12-06 一种文本检测方法、装置、电子设备和存储介质 Pending CN116246283A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111478287.5A CN116246283A (zh) 2021-12-06 2021-12-06 一种文本检测方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111478287.5A CN116246283A (zh) 2021-12-06 2021-12-06 一种文本检测方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN116246283A true CN116246283A (zh) 2023-06-09

Family

ID=86633559

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111478287.5A Pending CN116246283A (zh) 2021-12-06 2021-12-06 一种文本检测方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN116246283A (zh)

Similar Documents

Publication Publication Date Title
CN112348815B (zh) 图像处理方法、图像处理装置以及非瞬时性存储介质
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN110414507B (zh) 车牌识别方法、装置、计算机设备和存储介质
CN108121986B (zh) 目标检测方法及装置、计算机装置和计算机可读存储介质
CN108304835B (zh) 文字检测方法和装置
CN110348294B (zh) Pdf文档中图表的定位方法、装置及计算机设备
KR101896357B1 (ko) 객체를 검출하는 방법, 디바이스 및 프로그램
CN112329702B (zh) 一种快速人脸密度预测和人脸检测方法、装置、电子设备及存储介质
CN110555433A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
JP2014531097A (ja) マルチレイヤ連結成分をヒストグラムと共に用いるテキスト検出
CN111950355A (zh) 印章识别方法、装置及电子设备
CN110852311A (zh) 一种三维人手关键点定位方法及装置
CN112380978B (zh) 基于关键点定位的多人脸检测方法、系统及存储介质
CN112101386B (zh) 文本检测方法、装置、计算机设备和存储介质
CN111178355A (zh) 印章识别方法、装置和存储介质
CN105701489A (zh) 一种新型的数字提取和识别的方法及系统
CN111160395A (zh) 图像识别方法、装置、电子设备和存储介质
CN114444565A (zh) 一种图像篡改检测方法、终端设备及存储介质
CN115761258A (zh) 一种基于多尺度融合与注意力机制的图像方向预测方法
CN112241736B (zh) 一种文本检测的方法及装置
CN114565035A (zh) 一种舌象分析方法、终端设备及存储介质
CN112749696B (zh) 一种文本检测方法及装置
CN116798041A (zh) 图像识别方法、装置和电子设备
CN112257708A (zh) 一种字符级文本检测方法、装置、计算机设备及存储介质
CN116486153A (zh) 图像分类方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination