CN113128485A - 文本检测模型的训练方法、文本检测方法及装置 - Google Patents

文本检测模型的训练方法、文本检测方法及装置 Download PDF

Info

Publication number
CN113128485A
CN113128485A CN202110285620.4A CN202110285620A CN113128485A CN 113128485 A CN113128485 A CN 113128485A CN 202110285620 A CN202110285620 A CN 202110285620A CN 113128485 A CN113128485 A CN 113128485A
Authority
CN
China
Prior art keywords
text detection
text
candidate
sample image
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110285620.4A
Other languages
English (en)
Inventor
吴翔宇
袁玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202110285620.4A priority Critical patent/CN113128485A/zh
Publication of CN113128485A publication Critical patent/CN113128485A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本公开关于一种文本检测模型的训练方法、文本检测方法及装置,该文本检测模型的训练方法包括:获取目标样本图像集,该目标样本图像集包括具有文本框标签的目标样本图像;对目标样本图像进行旋转,得到旋转后的目标样本图像;确定旋转后的目标样本图像中的文本框的目标位置信息;基于旋转后的目标样本图像和该目标位置信息,对神经网络进行文本检测训练,得到目标样本图像对应的文本预测结果;根据文本预测结果和文本框标签,确定损失数据;基于损失数据训练上述神经网络,得到文本检测模型。利用本公开实施例提供的技术方案不仅可以对常见自然场景中的文本识别保持较高的精度,还可以确保对竖排文本检测的较高准确率和召回率。

Description

文本检测模型的训练方法、文本检测方法及装置
技术领域
本公开涉及计算机视觉技术领域,尤其涉及文本检测模型的训练方法、文本检测方法及装置。
背景技术
文本检测任务作为文本识别任务的前置任务,是一项非常重要的视觉任务。随着深度学习技术的发展,利用神经网络来进行文本检测已成为普遍流行的方式。
相关技术中,通常采取相同的网络框架,通过变换数据集的方式,来实现不同语种文本的检测。然而中文字符检测存在一种特殊的情况,即竖排文本。由于竖排文本的标注数据较少、竖排关系较难确认等原因,采用相关技术中的网络框架对其进行检测,无法确保竖排文本检测的较高准确率和召回率,从而使得相关技术中的网络框架无法很好地支持竖排文本的检测。
发明内容
本公开提供一种文本检测模型的训练方法、文本检测方法及装置,以至少解决相关技术中的网络框架无法确保竖排文本检测的高准确率和召回率的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种文本检测模型的训练方法,包括:
获取目标样本图像集,所述目标样本图像集包括具有文本框标签的目标样本图像;
对所述目标样本图像进行旋转,得到旋转后的目标样本图像;
确定所述旋转后的目标样本图像中的文本框的目标位置信息;
基于所述旋转后的目标样本图像和所述目标位置信息,对神经网络进行文本检测训练,得到所述目标样本图像对应的文本预测结果;
根据所述文本预测结果和所述文本框标签,确定损失数据;
基于所述损失数据训练所述神经网络,得到文本检测模型。
在一示例性的实施方式中,在所述获取目标样本图像集之前,所述文本检测模型的训练方法还包括:
获取候选样本图像集,所述候选样本图像集包括候选样本图像;
对所述候选样本图像进行文本检测,得到标注有所述文本框标签的候选样本图像;
据所述文本框标签,从所述候选样本图像集中获取包含竖排文本框的目标候选样本图像;
对所述目标候选样本图像进行过采样,得到过采样后的目标候选样本图像;
响应于基于所述过采样后的目标候选样本图像触发的竖排文本编辑指令,在所述过采样后的目标候选样本图像上编辑预设数量个竖排文本,得到编辑后的目标候选样本图像;
基于所述候选样本图像集中除所述目标候选样本图像之外的其他候选样本图像,以及所述编辑后的目标候选样本图像,确定所述目标样本图像集,所述目标样本图像包括所述其他候选样本图像和所述编辑后的目标候选样本图像。
在一示例性的实施方式中,所述确定所述旋转后的目标样本图像中的文本框的目标位置信息,包括:
基于所述文本框标签,确定所述文本框的原始位置信息;
确定所述原始位置信息在旋转过程中的偏移信息;
对所述原始位置信息进行线性变换,得到变换后的原始位置信息;
基于所述变换后的原始位置信息和所述偏移信息,确定所述目标位置信息。
在一示例性的实施方式中,所述目标样本图像为多个,则所述对所述目标样本图像进行旋转,得到旋转后的目标样本图像,包括:
确定多个目标样本图像各自对应的旋转中心;
基于所述多个目标样本图像各自对应的旋转中心,将所述多个目标样本图像沿着各自对应的旋转方向旋转相应的角度,得到旋转后的多个目标样本图像。
根据本公开实施例的第二方面,提供一种文本检测方法,包括:
获取待检测图像;
基于文本检测模型对所述待检测图像进行文本检测处理,得到所述待检测图像对应的文本检测结果;
其中,所述文本检测模型采用如上述任一实施方式所述的文本检测模型的训练方法训练得到。
在一示例性的实施方式中,所述文本检测结果包括多个文本检测框和所述多个文本检测框各自包含文本的概率,则在所述基于文本检测模型对所述待检测图像进行文本检测处理,得到所述待检测图像对应的文本检测结果之后,所述文本检测方法还包括:
从所述多个文本检测框中,获取包含文本的概率大于预设概率阈值的预设数量个候选文本检测框;
确定所述预设数量个候选文本检测框各自对应的第一尺寸信息;
将所述预设数量个候选文本检测框,按照相应的第一尺寸信息进行降序排序,得到第一序列;
将所述第一序列中排序最前的候选文本检测框,作为当前候选文本检测框,并将所述当前候选文本检测框从所述第一序列中迁移至候选集合中;
从所述第一序列中,确定与所述当前候选文本检测框的交并比大于预设交并比阈值的其他候选文本检测框;
过滤所述其他候选文本检测框;
重复所述将所述第一序列中排序最前的候选文本检测框,作为当前候选文本检测框,并将所述当前候选文本检测框从所述第一序列中迁移至候选集合中,至所述过滤所述其他候选文本检测框的步骤,直至所述第一序列为空,并在所述第一序列为空时,将所述候选集合中的候选文本检测框作为所述待检测图像对应的目标文本检测框。
在一示例性的实施方式,所述目标文本检测框为多个,则在所述第一序列为空时,将所述候选集合中的候选文本检测框作为所述待检测图像对应的目标文本检测框之后,所述文本检测方法还包括:
确定多个目标文本检测框各自对应的第二尺寸信息;
将第二尺寸信息满足预设条件的预设数量个目标文本检测框,作为预设数量个竖排文本检测框;
确定所述预设数量个竖排文本检测框各自对应的横坐标信息;
将所述预设数量个竖排文本检测框按照各自对应的横坐标信息进行升序排序,得到第二序列;
依次遍历所述第二序列中的每一竖排文本检测框,当遍历每一竖排文本检测框时,执行以下操作:
确定与当前遍历的当前竖排文本检测框对应的其他竖排文本检测框,所述当前竖排文本检测框对应的其他竖排文本检测框,为所述第二序列中与所述当前竖排文本检测框之间满足预设大小关系和预设位置关系的竖排文本检测框;
根据所述当前竖排文本检测框与所述对应的其他竖排文本检测框,确定所述待检测图像对应的一组竖排文本检测框集合。
在一示例性的实施方式中,所述竖排文本检测框集合为多组,则在所述根据所述当前竖排文本检测框与所述对应的目标竖排文本检测框,确定所述待检测图像对应的一组竖排文本检测框集合之后,所述文本检测方法还包括:
对多组竖排文本检测框集合各自包含的竖排文本检测框进行连通处理,得到所述多组竖排文本检测框集合各自对应的目标竖排文本检测框;
将所述多组竖排文本检测框集合各自对应的目标竖排文本检测框,作为所述待检测图像对应的竖排文本检测框。
根据本公开实施例的第三方面,提供一种文本检测模型的训练装置,包括:
目标样本图像集获取模块,被配置为执行获取目标样本图像集,所述目标样本图像集包括具有文本框标签的目标样本图像;
旋转模块,被配置为执行对所述目标样本图像进行旋转,得到旋转后的目标样本图像;
目标位置信息确定模块,被配置为执行确定所述旋转后的目标样本图像中的文本框的目标位置信息;
训练模块,被配置为执行基于所述旋转后的目标样本图像和所述目标位置信息,对神经网络进行文本检测训练,得到所述目标样本图像对应的文本预测结果;
损失数据确定模块,被配置为执行根据所述文本预测结果和所述文本框标签,确定损失数据;
文本检测模型确定模块,被配置为执行基于所述损失数据训练所述神经网络,得到文本检测模型。
在一示例性的实施方式中,所述文本检测模型的训练装置还包括:
候选样本图像集获取模块,被配置为执行获取候选样本图像集,所述候选样本图像集包括候选样本图像;
文本检测模块,被配置为执行对所述候选样本图像进行文本检测,得到标注有所述文本框标签的候选样本图像;
目标候选样本图像获取模块,被配置为执行根据所述文本框标签,从所述候选样本图像集中获取包含竖排文本框的目标候选样本图像;
过采样模块,被配置为执行对所述目标候选样本图像进行过采样,得到过采样后的目标候选样本图像;
编辑模块,被配置为执行响应于基于所述过采样后的目标候选样本图像触发的竖排文本编辑指令,在所述过采样后的目标候选样本图像上编辑预设数量个竖排文本,得到编辑后的目标候选样本图像;
目标样本图像集确定模块,被配置为执行基于所述候选样本图像集中除所述目标候选样本图像之外的其他候选样本图像,以及所述编辑后的目标候选样本图像,确定所述目标样本图像集,所述目标样本图像包括所述其他候选样本图像和所述编辑后的目标候选样本图像。
在一示例性的实施方式中,所述目标位置信息确定模块包括:
原始位置信息确定单元,被配置为执行基于所述文本框标签,确定所述文本框的原始位置信息;
偏移信息确定单元,被配置为执行确定所述原始位置信息在旋转过程中的偏移信息;
变换单元,被配置为执行对所述原始位置信息进行线性变换,得到变换后的原始位置信息;
目标位置信息确定单元,被配置为执行基于所述变换后的原始位置信息和所述偏移信息,确定所述目标位置信息。
在一示例性的实施方式中,所述目标样本图像为多个,则所述旋转模块包括:
旋转中心确定单元,被配置为执行确定多个目标样本图像各自对应的旋转中心;
目标样本图像确定单元,被配置为执行基于所述多个目标样本图像各自对应的旋转中心,将所述多个目标样本图像沿着各自对应的旋转方向旋转相应的角度,得到旋转后的多个目标样本图像。
根据本公开实施例的第四方面,提供一种文本检测装置,包括:
待检测图像获取模块,被配置为执行获取待检测图像;
文本检测结果确定模块,被配置为执行基于文本检测模型对所述待检测图像进行文本检测处理,得到所述待检测图像对应的文本检测结果;其中,所述文本检测模型采用如上述任一实施方式所述的文本检测模型的训练方法训练得到。
在一示例性的实施方式中,所述文本检测结果包括多个文本检测框和所述多个文本检测框各自包含文本的概率,则所述文本检测装置还包括:
候选文本检测框获取模块,被配置为执行从所述多个文本检测框中,获取包含文本的概率大于预设概率阈值的预设数量个候选文本检测框;
第一尺寸信息确定模块,被配置为执行确定所述预设数量个候选文本检测框各自对应的第一尺寸信息;
第一序列获取模块,被配置为执行将所述预设数量个候选文本检测框,按照相应的第一尺寸信息进行降序排序,得到第一序列;
迁移模块,被配置为执行将所述第一序列中排序最前的候选文本检测框,作为当前候选文本检测框,并将所述当前候选文本检测框从所述第一序列中迁移至候选集合中;
其他候选文本检测框确定模块,被配置为执行从所述第一序列中,确定与所述当前候选文本检测框的交并比大于预设交并比阈值的其他候选文本检测框;
过滤模块,被配置为执行过滤所述其他候选文本检测框;
目标文本检测框确定模块,被配置为执行重复所述将所述第一序列中排序最前的候选文本检测框,作为当前候选文本检测框,并将所述当前候选文本检测框从所述第一序列中迁移至候选集合中,至所述过滤所述其他候选文本检测框的步骤,直至所述第一序列为空,并在所述第一序列为空时,将所述候选集合中的候选文本检测框作为所述待检测图像对应的目标文本检测框。
在一示例性的实施方式中,所述目标文本检测框为多个,则所述文本检测装置还包括:
第二尺寸信息确定模块,被配置为执行确定多个目标文本检测框各自对应的第二尺寸信息;
竖排文本检测框确定模块,被配置为执行将第二尺寸信息满足预设条件的预设数量个目标文本检测框,作为预设数量个竖排文本检测框;
横坐标信息确定模块,被配置为执行确定所述预设数量个竖排文本检测框各自对应的横坐标信息;
第二序列确定模块,被配置为执行将所述预设数量个竖排文本检测框按照各自对应的横坐标信息进行升序排序,得到第二序列;
遍历模块,被配置为执行依次遍历所述第二序列中的每一竖排文本检测框,当遍历每一竖排文本检测框时,执行以下操作:
其他竖排文本检测框确定模块,被配置为执行确定与当前遍历的当前竖排文本检测框对应的其他竖排文本检测框,所述当前竖排文本检测框对应的其他竖排文本检测框,为所述第二序列中与所述当前竖排文本检测框之间满足预设大小关系和预设位置关系的竖排文本检测框;
检测框集合确定模块,被配置为执行根据所述当前竖排文本检测框与所述对应的其他竖排文本检测框,确定所述待检测图像对应的一组竖排文本检测框集合。
在一示例性的实施方式中,所述竖排文本检测框集合为多组,则所述文本检测装置还包括:
连通模块,被配置为执行对多组竖排文本检测框集合各自包含的竖排文本检测框进行连通处理,得到所述多组竖排文本检测框集合各自对应的目标竖排文本检测框;
确定模块,被配置为执行将所述多组竖排文本检测框集合各自对应的目标竖排文本检测框,作为所述待检测图像对应的竖排文本检测框。
根据本公开实施例的第五方面,提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如上述任一实施方式所述的文本检测模型的训练方法或如上述任一实施方式所述的文本检测方法。
根据本公开实施例的第六方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备执行如上述任一实施方式所述的文本检测模型的训练方法或如上述任一实施方式所述的文本检测方法。
根据本公开实施例的第七方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述任一实施方式所述的文本检测模型的训练方法或如上述任一实施方式所述的文本检测方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
本公开在文本检测模型的训练学习过程中,对目标样本图像进行旋转,并实时计算该旋转变换下,目标样本图像中的文本框的目标位置信息,接着根据旋转后的目标样本图像和该目标位置信息进行文本检测模型的训练,使得训练得到的文本检测模型能够检测出任意角度的文本框,从而在实现通用的文本检测任务的同时,可以优化对竖排文本的检测效果。后续,利用该文本检测模型对待检测图像进行文本检测时,不仅可以对常见自然场景中的文本识别保持较高的精度,还可以确保对竖排文本检测的较高准确率和召回率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种文本检测系统的应用环境示意图。
图2是根据一示例性实施例示出的一种文本检测模型的训练方法的流程示意图。
图3是根据一示例性实施例示出的一种确定目标样本图像集的流程示意图。
图4是根据一示例性实施例示出的一种确定上述旋转后的目标样本图像中的文本框的目标位置信息的流程示意图。
图5是根据一示例性实施例示出的一种文本检测方法的流程示意图。
图6是根据一示例性实施例示出的一种确定待检测图像对应的目标文本检测框的流程示意图。
图7是根据一示例性实施例示出的一种确定待检测图像对应的竖排文本检测框集合的流程示意图。
图8是根据一示例性实施例示出的一种确定待检测图像对应的竖排文本检测框的流程示意图。
图9是根据一示例性实施例示出的一种对竖排文本检测框集合中的竖排文本检测框进行连通前和连通后的示意图。图9(a)为连通前的示意图,图9(b)为连通后的示意图。
图10是根据一示例性实施例示出的一种文本检测模型的训练装置的框图。
图11是根据一示例性实施例示出的一种文本检测装置的框图。
图12是根据一示例性实施例示出的一种用于文本检测的电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
请参阅图1,图1根据一示例性实施例示出的一种文本检测系统的应用环境示意图。如图1所示,该应用环境可以包括训练设备001、终端002和服务器003。
训练设备001用于进行文本检测的训练,并将训练好的文本检测模型发送给服务器003。可选地,该训练设备001可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、智能可穿戴设备等终端设备,也可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群。
终端002可以用于采集待检测图像,并将上述待检测图像发送给服务器003。可选地,终端002可以包括智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、智能可穿戴设备等类型的电子设备。也可以为运行于上述电子设备的软体,例如应用程序、小程序等。可选的,电子设备上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。
服务器003可以用于基于训练得到的本文检测模型对待检测图像进行文本检测,确定文本检测结果。可选的,服务器003可以是包括独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
此外,需要说明的是,图1所示的仅仅是本公开提供的文本检测系统一种应用环境示意图,在实际应用中,还可以包括其他应用环境。例如,服务器003也可以用于进行文本检测模型的训练处理,相应地,上述文本检测系统可以包括终端002和服务器003。
以下介绍本公开的一种文本检测模型的训练方法。图2是根据一示例性实施例示出的一种文本检测模型的训练方法的流程示意图,如图2所示,可以包括以下步骤。
在步骤S11中,获取目标样本图像集,上述目标样本图像集包括具有文本框标签的目标样本图像。
本公开实施例中,在进行文本检测模型训练的时候,可以获取目标样本图像集,该目标样本图像集可以包括至少一个目标样本图像,每个目标样本图像中均标注有相应的文本框标签。
示例性地,上述文本框标签可以包括:是否含有文本框、文本框中包含文本的概率、文本框位置信息、文本框类型信息等。
示例性地,该文本框位置信息可以为文本框在上述目标样本图像中的坐标信息。
示例性地,该文本框类型信息可以包括横排文本框、竖排文本框。可选地,该竖排文本框可以为竖排文本的文本框,也可以为倾斜文本的最小外接矩形框。
在一个可选的实施例中,如图3所示,图3是根据一示例性实施例示出的一种确定目标样本图像集的流程示意图。相应地,在上述获取目标样本图像集之前,上述方法还可以包括:
在步骤S01中,获取候选样本图像集,上述候选样本图像集包括候选样本图像。
在步骤S02中,对上述候选样本图像进行文本检测,得到标注有上述文本框标签的候选样本图像。
在步骤S03中,根据上述文本框标签,从上述候选样本图像集中获取包含竖排文本框的目标候选样本图像。
在步骤S04中,对上述目标候选样本图像进行过采样,得到过采样后的目标候选样本图像。
在步骤S05中,响应于基于上述过采样后的目标候选样本图像触发的竖排文本编辑指令,在上述过采样后的目标候选样本图像上编辑预设数量个竖排文本,得到编辑后的目标候选样本图像。
在步骤S06中,基于上述候选样本图像集中除上述目标候选样本图像之外的其他候选样本图像,以及上述编辑后的目标候选样本图像,确定上述目标样本图像集,上述目标样本图像包括上述其他候选样本图像和上述编辑后的目标候选样本图像。
示例性地,在步骤S01中,可以通过预设方式获取由至少一个候选样本图像组成的候选样本图像集。
示例性地,在步骤S02中,可以通过预设文本检测方式或预设文本检测模型自动对每个候选样本图像进行文本检测,文本检测结果以文本框的形式返回。根据以文本框形式返回的文本检测结果,对每个候选样本图像进行文本框标注,得到标注有文本框标签的候选样本图像。可选地,该文本框标签可以包括:是否含有文本框、文本框中包含文本的概率、文本框位置信息、文本框类型信息等。
可选地,在步骤S02之后,对于文本框未标注完整的候选样本图像,还可以响应于基于该候选样本图像触发的文本框补充指令,对该候选样本图像中未标注的文本框进行补充标注。而对于文本框标注出现偏差的候选样本图像,还可以响应于基于该候选样本图像触发的文本框调整指令,对该候选样本图像中标注出现偏差的文本框进行调整。
通过上述步骤S02可以自动对候选样本图像进行文本检测,大大节约候选样本图像中的文本框标注的成本,提高文本框标注的效率和准确率;此外,通过上述文本框补充指令以及上述文本框调整指令,可以对步骤S02中的标注结果进行补充或偏差调整,从而进一步提高候选样本图像中的文本框标注的准确率,进而使得训练得到的文本检测模型具有较高的文本检测精度。
在实际应用中,通过步骤S02标注得到的候选样本图像所包含的竖排文本可能较少,使用该较少的竖排文本训练文本检测模型,可能会使得训练得到的文本检测模型无法确保竖排文本检测的较高准确率和召回率。为了使得训练得到的文本检测模型能够在实现通用的文本检测任务的同时,对竖排文本的检测也具有较高的准确率和召回率,示例性地,在步骤S03和在步骤S04中,可以对包含竖排文本的候选样本图像进行扩充,以对候选样本图像集进行离线增强。具体地:可以根据预先标注的文本框标签中的文本框类型信息,获取包含竖排文本框的目标候选样本图像,并对该目标候选样本图像按照预设倍数进行过采样,得到过采样后的目标候选样本图像。其中,过采样为一种增加样本的采样方法,即将样本数增加预设数量倍。
示例性地,为了进一步对候选样本图像集进行离线增强,从而进一步确保训练得到的文本检测模型能够在实现通用的文本检测任务的同时,对竖排文本的检测也具有较高的准确率和召回率。在步骤S05中,还可以在过采样后的目标候选样本图像中随机增加竖排文本。
示例性地,可以使用opencv中的putText方法,响应于在过采样后的目标候选样本图像中没有文字的区域触发的竖排文本标记指令,在上述没有文字的区域编辑预设数量个竖排随机文字,得到编辑后的目标候选样本图像。其中,opencv是一个跨平台计算机视觉和机器学习软件库。putText是一种将文本从存储区拷贝到屏幕的函数,用于在图像中某一位置显示文字。
可选地,putText中的参数可以如下:
参数1:待显示文字的图像(即过采样后的目标候选样本图像)。
参数2:待显示的文字(即竖排随机文字)。
参数3:文字在图像中的左下角坐标。
参数4:字体类型。
参数5:字体大小。
参数6:字体颜色。
参数7:字体粗细。
参数8:线型。
本公开实施例通过上述两个方面的离线增强策略(对包含竖排文本的候选样本图像进行扩充以及在扩充后的目标候选样本图像中增加随机竖排文本),对自然场景中较少见的竖排文本进行了针对性的增强,最终完成了目标样本图像集的采集。由于包含竖排文本的候选样本图像的扩充以及在扩充后的目标候选样本图像中增加随机竖排文本,丰富了候选样本图像的多样性,间接增加了文本检测模型的训练数据量,从而确保训练得到的文本检测模型能够在实现通用的文本检测任务的同时,对竖排文本的检测也具有较高的准确率和召回率。
在步骤S12中,对上述目标样本图像进行旋转,得到旋转后的目标样本图像。
示例性地,为了使得训练得到的文本检测模型能够检测出任意角度的文本框,进一步提高对竖排文本检测的准确率和召回率,还可以在模型训练时的数据读取阶段,对目标样本图像进行随机的在线数据增强操作。
可选地,该在线数据增强操作包括在线旋转、颜色通道变换、色彩增强、遮挡等操作。
对于在线旋转操作,在一个具体的实施例中,在目标样本图像为多个时,则对上述目标样本图像进行旋转,得到旋转后的目标样本图像,可以包括以下步骤:
确定多个目标样本图像各自对应的旋转中心。
基于上述多个目标样本图像各自对应的旋转中心,将上述多个目标样本图像沿着各自对应的旋转方向旋转相应的角度,得到旋转后的多个目标样本图像。
本公开实施例中的在线旋转操作是为了使得训练得到的文本检测模型能够检测出任意角度的文本框。在旋转过程中,对于任意一个目标样本图像,可以将其沿着相应的旋转中心和旋转方向,在0至360°之间随机旋转任意角度。
可选地,为了进一步提高目标样本图像的多样性和丰富性,从而进一步提高文本检测模型的文本检测精度,可以使得多个目标样本图像的旋转角度的0至360°之间均匀采样。
在步骤S13中,确定上述旋转后的目标样本图像中的文本框的目标位置信息。
本公开实施例中,在目标样本图像旋转之后,可以计算旋转后的目标样本图像中所包含的文本框的目标位置信息。
可选地,该目标位置信息可以为该文本框在该目标样本图像中的坐标信息。
在一个具体的实施例中,可以利用仿射变换,实时计算出该旋转变换下,文本框的坐标变换。图4所示是根据一示例性实施例示出的一种确定上述旋转后的目标样本图像中的文本框的目标位置信息的流程示意图。如图4所示,可以包括以下步骤:
在步骤S131中,基于上述文本框标签,确定上述文本框的原始位置信息。
在步骤S132中,确定上述原始位置信息在旋转过程中的偏移信息。
在步骤S133中,对上述原始位置信息进行线性变换,得到变换后的原始位置信息。
在步骤S134中,基于上述变换后的原始位置信息和上述偏移信息,确定上述目标位置信息。
其中,图像上的仿射变换,实质上是图片中的一个像素点,通过某种线性变换,移动到另外一个地方。从数学上来讲,即为一个向量空间进行一次线形变换并加上平移向量,从而变换到另外一个向量空间的过程。
假设,某一向量空间m:m=(x,y),变换到另一向量空间n:n=(x′,y′),向量空间从m到n的线性变换为n=A*m+b,则,
x′=A00*x+A01*y+b0
y′=A10*x+A11*y+b1,
其中,b0,b1为偏移信息(即偏移量)。
本公开实施例中,由于文本框标签包括文本框位置信息,则在步骤S131中,可以从该文本框标签中获取上述文本框在旋转变换之前的原始位置信息。并在步骤S132中,确定旋转过程中的偏移信息(例如,上述公式中的b0,b1)。接着在步骤S133中,采用预设线性变换方式对该原始位置信息进行线性变换,得到变换后的原始位置信息。最后在步骤S134中,对变换后的原始位置信息和偏移信息相加,得到上述目标位置信息。
本公开实施例中,通过仿射变换,能够实时且准确地计算出旋转变换下,目标样本图像中的文本框的位置信息,从而提高训练得到的文本检测模型的文本检测精度。经实验验证,使用上述在线增强操作(即上述旋转和仿射变换方式)训练出的文本检测模型的均值平均精度(Mean Average Precision,MAP),与未使用上述在线增强操作训练出的文本检测模型的MAP相比,提升了约2个百分点(PP)。
在步骤S14中,基于上述旋转后的目标样本图像和上述目标位置信息,对神经网络进行文本检测训练,得到上述目标样本图像对应的文本预测结果。
在步骤S15中,根据上述文本预测结果和上述文本框标签,确定损失数据。
在步骤S16中,基于上述损失数据训练上述神经网络,得到文本检测模型。
本公开实施例中,可以将旋转后的目标样本图像和上述目标位置信息输入到神经网络进行文本检测训练,得到上述目标样本图像对应的文本预测结果。
在步骤S15中,可以根据上述文本预测结果和上述文本框标签,确定损失数据。在步骤S16中,若上述损失数据不满于预设条件,则重复上述的文本检测训练的步骤,若上述损失数据满足预设条件,则将当前神经网络模型作为上述文本检测模型。
示例性地,该神经网络可以包括目标检测算法模型,该目标检测算法模型可以包括Faster RCNN、CenterNet,但并不局限于此。
示例性地,模型训练的输入可以采用512*512的RGB图像,对于长宽比不为1:1的目标样本图像,在进行图像大小变换(Resize)之前,可以使用加填充(Padding)的方式,将其扩充成方形图。其中,RGB是一种工业标准,是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色。
示例性地,由于竖排文本与横排文本能够通过长宽比进行判断,为了减少模型的分类损失,使得模型的更多表达能力用于学习文本的位置,而不是关注于当前检测框中的文字的方向,特别是在模型训练的初期,文本框不完整时(如竖排文本只框出中间的某个字符),文本的朝向很难区分的。因此,可以使用单目标的检测任务,使得模型得以更快的获得收敛。
示例性地,在使用单目标的检测任务时,上述步骤S14中得到的文本预测结果可以包括:文本框的位置信息达到上述文本框标签中所包含的位置信息的概率、文本框中包含文本的情况达到目标水平的概率,该目标水平为上述文本框标签中所包含的文本的概率,等等。
示例性地,在某些场景中,也可以使用多目标的检测任务,使得模型既可以用于学习文本的位置,又可以关注于当前检测框中的文字的方向。相应地,上述步骤S14中得到的文本预测结果还可以包括文本框的类型信息达到上述文本框标签所包含的文本框类型的概率。
示例性地,以神经网络为CenterNet为例,对上述的模型训练过程进行说明:以“DLA_34”作为骨干网络,通过单机八卡分布式训练的方式进行模型的训练。单机Batch_Size大小可以为32,总Batch Size大小可以为256;初始化学习率可以为1.25e-4,并可以在第10与第20个epoch开始,分别将学习率缩小为之前的1/10;选取Adam作为优化器。模型训练至第26个epoch时,损失数据(Loss)趋于稳定,此时可以终止模型的训练,并将当前得到的模型作为上述文本检测模型。
其中,DLA是Deep Layer Aggregation的缩写,其中文名为深层聚合。Batch指的是每次送入神经网络中训练的一部分数据,Batch Size指的是每个Batch中训练样本的数量。epoch指的是使用目标样本图像集中的目标样本图像对神经模型进行一次完整的训练。Adam是一种优化算法。
综上所述,在上述文本检测模型训练过程中,对候选样本图像进行了两方面的离线增强(对包含竖排文本的候选样本图像的扩充以及在扩充后的候选样本图像上增加随机竖排文本),对自然场景中较少见的竖排文本进行了针对性的增强,增加了候选样本图像的多样性和丰富性,间接增加了文本检测模型的训练数据量,从而确保训练得到的文本检测模型能够在实现通用的文本检测任务的同时,对竖排文本的检测也具有较高的准确率和召回率。而上述在线增强操作(即上述旋转和仿射变换方式),使得训练得到的文本检测模型能够进一步检测出任意角度的文本框,从而进一步提高训练得到的文本检测模型对竖排文本的检测的准确率和召回率。
以下介绍本公开的一种文本检测方法。图5是根据一示例性实施例示出的一种文本检测方法的流程示意图,如图5所示,以该文本检测方法用于图1中所示的包括训练设备001、终端002和服务器003的系统进行说明,可以包括以下步骤。
在步骤S21中,获取待检测图像。
在步骤S22中,基于文本检测模型对上述待检测图像进行文本检测处理,得到上述待检测图像对应的文本检测结果。其中,上述文本检测模型采用上述任一实施方式所述的文本检测模型的训练方法训练得到。
可选地,该文本检测结果可以包括多个文本检测框、多个文本检测框各自包含文本的概率、多个文本检测框各自对应的位置信息等。
示例性地,在该文本检测模型用于学习多目标任务时,该文本检测结果还可以包括文本框的类型信息。
由于在上述文本检测模型的训练过程中,通过对候选样本图像进行两方面的离线增强,从而得到增强后的目标样本图像集,接着再对目标样本图像进行在线增强操作,确保训练得到的文本检测模型能够在实现通用的文本检测任务的同时,还可以优化对竖排文本的检测效果。因此,利用该文本检测模型对待检测图像进行文本检测,不仅可以对常见自然场景中的文本识别保持较高的精度,还确保了对竖排文本检测的较高准确率和召回率。
在实际应用中,在使用上述文本检测模型对待检测图像进行文本检测的时候,可能仍然会存在待检测图像中的部分文本(间距过大、角度过大)无法检测的情况。为了提高文本检测的全面性和准确性,本公开实施例还可以对上述文本检测结果中所包括的多个文本检测框进行后处理。
本公开实施例的一种后处理操作可以为:通过预设方式从多个文本检测框中确定出待检测图像对应的目标文本检测框。
图6是根据一示例性实施例示出的一种确定待检测图像对应的目标文本检测框的流程示意图。如图6所示,在上述基于文本检测模型对上述待检测图像进行文本检测处理,得到上述待检测图像对应的文本检测结果之后,还可以包括以下步骤:
在步骤S31中,从上述多个文本检测框中,获取包含文本的概率大于预设概率阈值的预设数量个候选文本检测框。
在步骤S32中,确定上述预设数量个候选文本检测框各自对应的第一尺寸信息。
在步骤S33中,将上述预设数量个候选文本检测框,按照相应的第一尺寸信息进行降序排序,得到第一序列。
在步骤S34中,将上述第一序列中排序最前的候选文本检测框,作为当前候选文本检测框,并将上述当前候选文本检测框从上述第一序列中迁移至候选集合中。
在步骤S35中,从上述第一序列中,确定与上述当前候选文本检测框的交并比大于预设交并比阈值的其他候选文本检测框。
在步骤S36中,过滤上述其他候选文本检测框。
在步骤S37中,重复将上述第一序列中排序最前的候选文本检测框,作为当前候选文本检测框,并将上述当前候选文本检测框从上述第一序列中迁移至候选集合中,至过滤上述其他候选文本检测框的步骤,直至上述第一序列为空,并在上述第一序列为空时,将上述候选集合中的候选文本检测框作为上述待检测图像对应的目标文本检测框。
综上所述,本公开实施例可以根据多个文本检测框各自包含文本的概率、第一尺寸信息以及相互之间的交并比,从多个文本检测框中确定出上述目标文本检测框。具体地,可以从文本检测结果所包括的多个文本检测框中,获取包含文本的概率大于预设概率阈值的预设数量个候选文本检测框。接着将该预设数量个候选文本检测框按照各自对应的第一尺寸信息进行降序排序,得到第一序列。可选地,该第一尺寸信息可以为面积信息(宽度信息与高度信息的乘积)、大小信息(宽度信息、高度信息、宽度信息与高度信息之间的比值等)等。
假设该第一序列为:候选文本检测框1—选候选文本检测框2—选候选文本检测框3—选候选文本检测框4—选候选文本检测框5。则在上述步骤S34中,可以将候选文本检测框1作为当前候选文本检测框,并将该候选文本检测框1从上述第一序列中迁移至上述候选集合中。在上述步骤S35中,分别计算选候选文本检测框2、选候选文本检测框3、选候选文本检测框4和选候选文本检测框5与候选文本检测框1的交并比(Intersection-over-Union,IOU),从而确定出IOU大于预设交并比阈值(例如,0.75)的其他候选文本检测框(假设为选候选文本检测框4),则在上述步骤S36中,删除其他候选文本检测框(假设为选候选文本检测框4)。然后在步骤S37中,重复上述步骤S34-步骤S36,由于候选文本检测框1已被迁移至上述候选集合中,则此时排序最前的候选文本检测框为候选文本检测框2,则将选候选文本检测框2作为当前候选文本检测框,并将候选文本检测框2从上述第一序列中迁移至上述候选集合中,分别计算选候选文本检测框3和选候选文本检测框5与候选文本检测框2的IOU,从而确定出IOU大于预设交并比阈值的其他候选文本检测框(假设为选候选文本检测框3),则删除其他候选文本检测框(假设为选候选文本检测框3),以此类推,直至该第一序列为空,最后将上述候选集合中的候选文本检测框作为待检测图像对应的目标文本检测框。
其中,IOU为两边界框相交部分面积与相并部分面积之比,计算公式如下:
Figure BDA0002980325980000171
由于文本检测结果所包括的多个文本检测框之间可能会产生很大的重叠,从而影响文本检测结果确定的准确率,而通过上述步骤S31-步骤S37,可以有效去除多个文本检测框之间重叠的部分,从而寻找到最佳的目标检测框,对间距过大及角度过大的文本也有很好的检出率,进而提高文本检测结果确定的全面性和准确性。
本公开实施例在确定出上述目标文本检测框之后,还可以针对竖排文本检测的竖排文本检测框进行进一步的后处理操作,从而从目标文本检测框中确定出待检测图像对应的竖排文本检测框集合。
图7是根据一示例性实施例示出的一种确定待检测图像对应的竖排文本检测框集合的流程示意图。如图7所示,上述目标文本检测框为多个,则在上述第一序列为空时,将上述候选集合中的候选文本检测框作为上述待检测图像对应的目标文本检测框之后,还可以包括以下步骤:
在步骤S41中,确定多个目标文本检测框各自对应的第二尺寸信息。
在步骤S42中,将第二尺寸信息满足预设条件的预设数量个目标文本检测框,作为预设数量个竖排文本检测框。
在步骤S43中,确定上述预设数量个竖排文本检测框各自对应的横坐标信息。
在步骤S44中,将上述预设数量个竖排文本检测框按照各自对应的横坐标信息进行升序排序,得到第二序列。
在步骤S45中,依次遍历上述第二序列中的每一竖排文本检测框,当遍历每一竖排文本检测框时,执行以下操作。
在步骤S46中,确定与当前遍历的当前竖排文本检测框对应的其他竖排文本检测框,上述当前竖排文本检测框对应的其他竖排文本检测框,为上述第二序列中与上述当前竖排文本检测框之间满足预设大小关系和预设位置关系的竖排文本检测框。
在骤S47中,根据上述当前竖排文本检测框与上述对应的其他竖排文本检测框,确定上述待检测图像对应的一组竖排文本检测框集合。
通过上述步骤S31-步骤S37确定出的多个目标文本检测框可以包括横排文本检测框,也可以包括竖排文本检测框,本公开实施例可以根据多个目标文本检测框各自对应的第二尺寸信息、横坐标信息、各个目标文本检测框相互之间的大小关系和位置关系,从多个目标文本检测框中确定出竖排文本检测框集合。
示例性地,上述步骤S41中第二尺寸信息可以为宽度信息与高度信息的比值,也可以为高度信息与宽度信息的比值。
示例性地,在该第二尺寸信息为宽度信息与高度信息的比值时,上述步骤S42中的预设条件可以为“宽度信息与高度信息的比值小于预设宽高比阈值(例如,1.5)”。在该第二尺寸信息为高度信息与宽度信息的比值时,上述步骤S42中的预设条件可以为“高度信息与宽度信息的比值大于预设宽高比阈值”。
示例性地,上述步骤S43中的横坐标信息可以为竖排文本检测框的左下角或左上角的横坐标信息。需要说明的是,文本检测框的左上角和左下角的横坐标信息是相等的。
示例性地,上述步骤S46中的“预设大小关系”可以表征当前竖排文本检测框的尺寸信息与对应的其他竖排文本检测框的尺寸信息之间的关系。可选地,“预设大小关系”可以为二者(当前竖排文本检测框和对应的其他竖排文本检测框)之间的宽度信息的比值。具体地,“预设大小关系”可以为二者之间宽度较大的宽与宽度较小的宽之间的比值。
示例性地,在该“预设大小关系”为二者之间宽度较大的宽与宽度较小的宽之间的比值时,则该“预设大小关系”可以大于预设宽度阈值。假设当前竖排文本检测框的宽为w1,对应的其他竖排文本检测框的宽为w2,w1大于w2,则w1与w2之间的比值大于预设宽度阈值。
示例性地,上述步骤S46中的“预设位置关系”可以表征当前竖排文本检测框的位置信与对应的其他竖排文本检测框的位置信息之间的关系。可选地,该“预设位置关系”可以为二者(当前竖排文本检测框和对应的其他竖排文本检测框)在待检测图像中的高度信息。具体地,该“预设位置关系”可以为二者在该待检测图像中的高度信息的差值,小于二者之间任意一个检测框在该待检测图像中的高度信息。假设当前竖排检测检测框在该待检测图像中的高度信息为h1,对应的其他竖排文本检测框在该待检测图像中的高度信息为h2,则h1与h2之间的差值小于h1或h2。
假设上述步骤S44中得到的第二序列为:竖排文本检测框1—竖排文本检测框2—竖排文本检测框3—竖排文本检测框4—竖排文本检测框5。
在上述步骤S45-步骤S47中,可以依次遍历上述第二序列,即先遍历竖排文本检测框1,从竖排文本检测框2、竖排文本检测框3、竖排文本检测框4、竖排文本检测框5中确定出与竖排文本检测框1之间满足上述预设大小关系和上述预设位置关系的竖排文本检测框,假设竖排文本检测框3满足该条件,则将竖排文本检测框1和竖排文本检测框3组成一组竖排文本检测框集合(即包括排文本检测框1和竖排文本检测框3的集合);接着遍历竖排文本检测框2,从竖排文本检测框1、竖排文本检测框3、竖排文本检测框4、竖排文本检测框5中确定出与竖排文本检测框2之间满足上述预设大小关系和上述预设位置关系的竖排文本检测框,假设竖排文本检测框4满足该条件,则将竖排文本检测框2和竖排文本检测框4组成一组竖排文本检测框集合(即包括排文本检测框2和竖排文本检测框4的集合),以此类推,直至遍历完第二序列中的每个竖排文本检测框,从而得到多组竖排文本检测框集合。
需要说明的是,如果在遍历过程中,某一当前竖排文本检测框未检测到满足上述预设大小关系和预设位置关系的其他竖排文本检测框,则可以将该当前竖排文本检测框单独放置在一组竖排文本检测框集合中。
需要说明的是,通过上述遍历方式得到的多组竖排文本检测框集合,可能会存在相互重合的竖排文本检测框集合,为了提高最终竖排文本确定的准确率,可以对相互重叠的竖排文本检测框集合进行去重处理。
示例性地,上述确定待检测图像对应的竖排文本检测框集合的过程还可以直接在上述步骤S22之后进行,即直接对上述步骤S22中得到的文本检测结果所包含的多个文本检测框进行上述步骤S41-步骤S47的操作(即将步骤S41-步骤S47中的目标文本检测框直接替换为文本检测结果所包含的多个文本检测框),从而直接从多个文本检测框中确定出待检测图像对应的竖排文本检测框集合。
由于横排文本与竖排文本的尺寸信息(比如,宽高比信息)不同,因此本公开实施例通过上述步骤S41-步骤S42,可以快速且准确地从多个目标文本检测框中确定出预设数量个竖排文本检测框,提高竖排文本检测的时效性和精度。此外,由于检测过程中,可能会针对一段完整的竖排文本确定出多个竖排文本检测框,为了准确确定出属于一段完整的竖排文本的多个竖排文本检测框,进一步提高竖排文本检测的精度,本公开实施例通过上述步骤S43-步骤S47,将预设大小关系和预设位置关系的若干个竖排文本检测组成一组竖排文本检测框集合,每组竖排文本检测框集合所包括的各个竖排文本检测框,对应于一段完整的竖排文本。
本公开实施例在确定出上述竖排文本检测框集合之后,还可以针对竖排文本检测框集合进行进一步的后处理操作,从而确定出待检测图像最终对应的竖排文本检测框。
图8是根据一示例性实施例示出的一种确定待检测图像对应的竖排文本检测框的流程示意图。如图8所示,上述竖排文本检测框集合为多组,则在根据上述当前竖排文本检测框与上述对应的目标竖排文本检测框,确定上述待检测图像对应的一组竖排文本检测框集合之后,还可以包括以下步骤:
在步骤S51中,对多组竖排文本检测框集合各自包含的竖排文本检测框进行连通处理,得到上述多组竖排文本检测框集合各自对应的目标竖排文本检测框。
在步骤S52中,将上述多组竖排文本检测框集合各自对应的目标竖排文本检测框,作为上述待检测图像对应的竖排文本检测框。
示例性地,步骤S51中的连通可以为:对每组竖排文本检测框集合各自包含的竖排文本检测框取最大连通图,或取最小外接矩形。而对于竖排文本检测框中的文本而言,连通可以为,将属于同一竖排文本检测框集合中的各个竖排文本检测框中的文本进行融合。
需要说明的是,如果某一组竖排文本检测框集合中仅包括一个竖排文本检测框,则可以将该竖排文本检测框直接作为该组竖排文本检测框集合对应的目标竖排文本检测框。
示例性地,在上述步骤S52中,可以将该连通得到的目标竖排文本检测框,可以作为上述待检测图像最终对应的竖排文本检测框。
图9是根据一示例性实施例示出的一种对竖排文本检测框集合中的竖排文本检测框进行连通前和连通后的示意图。图9(a)为连通前的示意图,图9(b)为连通后的示意图。如图9(a)所示,连通前,通过上述步骤S41-步骤S47确定出的竖排文本检测框A、竖排文本检测框B和竖排文本检测框C组成一组竖排文本检测框集合。则通过上述步骤S51中的对竖排文本检测框A、竖排文本检测框B和竖排文本检测框C进行连通处理之后,得到图9(b)所示的连通后的目标竖排文本检测框的示意图。
本公开实施例通过上述步骤S51,针对一段完整的竖排文本的多个竖排文本检测框进行连通操作,从而进一步提高竖排文本检测的精度。
经实验结果验证,相对于未进行检测框后处理的模型,本公开实施例对文本检测结果所包括的多个文本检测框进行上述后处理,使得文本检测结果对应的MAP提高了4.9个百分点。此外,本公开实施例提供的文本检测模型为支持竖排文本检测的通用文本检测算法,在保持对常见自然场景的文本高精度检测的同时,对竖排文本的检测也具有较高的召回率和准确率。而通过对竖排文本的检测,能够为下游的识别任务提供更准确的候选框,从而达到识别精度,更好地服务于其他业务场景。
图10是根据一示例性实施例示出的一种文本检测模型的训练装置的框图。参照图10,该装置可以包括目标样本图像集获取模块61,旋转模块62,目标位置信息确定模块63,训练模块64,损失数据确定模块65和文本检测模型确定模块66。
该目标样本图像集获取模块61,被配置为执行获取目标样本图像集,上述目标样本图像集包括具有文本框标签的目标样本图像。
该旋转模块62,被配置为执行对上述目标样本图像进行旋转,得到旋转后的目标样本图像。
该目标位置信息确定模块63,被配置为执行确定上述旋转后的目标样本图像中的文本框的目标位置信息。
该训练模块64,被配置为执行基于上述旋转后的目标样本图像和上述目标位置信息,对神经网络进行文本检测训练,得到上述目标样本图像对应的文本预测结果。
该损失数据确定模块65,被配置为执行根据上述文本预测结果和上述文本框标签,确定损失数据。
该文本检测模型确定模块66,被配置为执行基于上述损失数据训练上述神经网络,得到文本检测模型。
在一示例性的实施方式中,上述文本检测模型的训练装置还可以包括:
候选样本图像集获取模块,被配置为执行获取候选样本图像集,上述候选样本图像集包括候选样本图像。
文本检测模块,被配置为执行对上述候选样本图像进行文本检测,得到标注有上述文本框标签的候选样本图像。
目标候选样本图像获取模块,被配置为执行根据上述文本框标签,从上述候选样本图像集中获取包含竖排文本框的目标候选样本图像。
过采样模块,被配置为执行对上述目标候选样本图像进行过采样,得到过采样后的目标候选样本图像。
编辑模块,被配置为执行响应于基于上述过采样后的目标候选样本图像触发的竖排文本编辑指令,在上述过采样后的目标候选样本图像上编辑预设数量个竖排文本,得到编辑后的目标候选样本图像。
目标样本图像集确定模块,被配置为执行基于上述候选样本图像集中除上述目标候选样本图像之外的其他候选样本图像,以及上述编辑后的目标候选样本图像,确定上述目标样本图像集,上述目标样本图像包括上述其他候选样本图像和上述编辑后的目标候选样本图像。
在一示例性的实施方式中,上述目标位置信息确定模块63可以包括:
原始位置信息确定单元,被配置为执行基于上述文本框标签,确定上述文本框的原始位置信息。
偏移信息确定单元,被配置为执行确定上述原始位置信息在旋转过程中的偏移信息。
变换单元,被配置为执行对上述原始位置信息进行线性变换,得到变换后的原始位置信息。
目标位置信息确定单元,被配置为执行基于上述变换后的原始位置信息和上述偏移信息,确定上述目标位置信息。
在一示例性的实施方式中,目标样本图像为多个,则上述旋转模块62可以包括:
旋转中心确定单元,被配置为执行确定多个目标样本图像各自对应的旋转中心。
目标样本图像确定单元,被配置为执行基于上述多个目标样本图像各自对应的旋转中心,将上述多个目标样本图像沿着各自对应的旋转方向旋转相应的角度,得到旋转后的多个目标样本图像。
图11是根据一示例性实施例示出的一种文本检测装置的框图。参照图11,该装置可以包括待检测图像获取模块71和文本检测结果确定模块72。
该待检测图像获取模块71,被配置为执行获取待检测图像。
该文本检测结果确定模块72,被配置为执行基于文本检测模型对上述待检测图像进行文本检测处理,得到上述待检测图像对应的文本检测结果;其中,上述文本检测模型采用如上述任一实施方式所述的文本检测模型的训练方法训练得到。
在一示例性的实施方式中,上述文本检测结果包括多个文本检测框和上述多个文本检测框各自包含文本的概率,则上述文本检测装置还可以包括:
候选文本检测框获取模块,被配置为执行从上述多个文本检测框中,获取包含文本的概率大于预设概率阈值的预设数量个候选文本检测框。
第一尺寸信息确定模块,被配置为执行确定上述预设数量个候选文本检测框各自对应的第一尺寸信息。
第一序列获取模块,被配置为执行将上述预设数量个候选文本检测框,按照相应的第一尺寸信息进行降序排序,得到第一序列。
迁移模块,被配置为执行将上述第一序列中排序最前的候选文本检测框,作为当前候选文本检测框,并将上述当前候选文本检测框从上述第一序列中迁移至候选集合中。
其他候选文本检测框确定模块,被配置为执行从上述第一序列中,确定与上述当前候选文本检测框的交并比大于预设交并比阈值的其他候选文本检测框。
过滤模块,被配置为执行过滤上述其他候选文本检测框。
目标文本检测框确定模块,被配置为执行重复将上述第一序列中排序最前的候选文本检测框,作为当前候选文本检测框,并将上述当前候选文本检测框从上述第一序列中迁移至候选集合中,至过滤上述其他候选文本检测框的步骤,直至上述第一序列为空,并在上述第一序列为空时,将上述候选集合中的候选文本检测框作为上述待检测图像对应的目标文本检测框。
在一示例性的实施方式中,上述目标文本检测框为多个,则上述文本检测装置还可以包括:
第二尺寸信息确定模块,被配置为执行确定多个目标文本检测框各自对应的第二尺寸信息。
竖排文本检测框确定模块,被配置为执行将第二尺寸信息满足预设条件的预设数量个目标文本检测框,作为预设数量个竖排文本检测框。
横坐标信息确定模块,被配置为执行确定上述预设数量个竖排文本检测框各自对应的横坐标信息。
第二序列确定模块,被配置为执行将上述预设数量个竖排文本检测框按照各自对应的横坐标信息进行升序排序,得到第二序列。
遍历模块,被配置为执行依次遍历上述第二序列中的每一竖排文本检测框,当遍历每一竖排文本检测框时,执行以下操作。
其他竖排文本检测框确定模块,被配置为执行确定与当前遍历的当前竖排文本检测框对应的其他竖排文本检测框,上述当前竖排文本检测框对应的其他竖排文本检测框,为上述第二序列中与上述当前竖排文本检测框之间满足预设大小关系和预设位置关系的竖排文本检测框。
检测框集合确定模块,被配置为执行根据上述当前竖排文本检测框与上述对应的其他竖排文本检测框,确定上述待检测图像对应的一组竖排文本检测框集合。
在一示例性的实施方式中,上述竖排文本检测框集合为多组,则上述文本检测装置还可以包括:
连通模块,被配置为执行对多组竖排文本检测框集合各自包含的竖排文本检测框进行连通处理,得到上述多组竖排文本检测框集合各自对应的目标竖排文本检测框。
确定模块,被配置为执行将上述多组竖排文本检测框集合各自对应的目标竖排文本检测框,作为上述待检测图像对应的竖排文本检测框。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在示例性实施例中,还提供了一种电子设备,包括处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行存储器上所存放的指令时,实现上述实施例中任一文本检测模型的训练方法的步骤或任一文本检测方法的步骤。
该电子设备可以是终端、服务器或者类似的运算装置,以该电子设备是服务器为例,图12是根据一示例性实施例示出的一种用于文本检测的电子设备的框图,该电子设备80可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)81(中央处理器81可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器83,一个或一个以上存储应用程序823或数据822的存储介质82(例如一个或一个以上海量存储设备)。其中,存储器83和存储介质82可以是短暂存储或持久存储。存储在存储介质82的程序可以包括一个或一个以上模块,每个模块可以包括对电子设备中的一系列指令操作。更进一步地,中央处理器81可以设置为与存储介质82通信,在电子设备80上执行存储介质82中的一系列指令操作。电子设备80还可以包括一个或一个以上电源86,一个或一个以上有线或无线网络接口85,一个或一个以上输入输出接口84,和/或,一个或一个以上操作系统821,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
输入输出接口84可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括电子设备80的通信供应商提供的无线网络。在一个实例中,输入输出接口84包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个示例性实施例中,输入输出接口84可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图12所示的结构仅为示意,其并不对上述电子设备的结构造成限定。例如,电子设备80还可包括比图12中所示更多或者更少的组件,或者具有与图12所示不同的配置。
在示例性实施例中,还提供了一种计算机可读存储介质,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述实施例中任一文本检测模型的训练方法的步骤或任一文本检测方法的步骤。
在示例性实施例中,还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任一种实施方式中提供的文本检测模型的训练方法或文本检测方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本公开所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种文本检测模型的训练方法,其特征在于,包括:
获取目标样本图像集,所述目标样本图像集包括具有文本框标签的目标样本图像;
对所述目标样本图像进行旋转,得到旋转后的目标样本图像;
确定所述旋转后的目标样本图像中的文本框的目标位置信息;
基于所述旋转后的目标样本图像和所述目标位置信息,对神经网络进行文本检测训练,得到所述目标样本图像对应的文本预测结果;
根据所述文本预测结果和所述文本框标签,确定损失数据;
基于所述损失数据训练所述神经网络,得到文本检测模型。
2.根据权利要求1所述的文本检测模型的训练方法,其特征在于,在所述获取目标样本图像集之前,所述文本检测模型的训练方法还包括:
获取候选样本图像集,所述候选样本图像集包括候选样本图像;
对所述候选样本图像进行文本检测,得到标注有所述文本框标签的候选样本图像;
根据所述文本框标签,从所述候选样本图像集中获取包含竖排文本框的目标候选样本图像;
对所述目标候选样本图像进行过采样,得到过采样后的目标候选样本图像;
响应于基于所述过采样后的目标候选样本图像触发的竖排文本编辑指令,在所述过采样后的目标候选样本图像上编辑预设数量个竖排文本,得到编辑后的目标候选样本图像;
基于所述候选样本图像集中除所述目标候选样本图像之外的其他候选样本图像,以及所述编辑后的目标候选样本图像,确定所述目标样本图像集,所述目标样本图像包括所述其他候选样本图像和所述编辑后的目标候选样本图像。
3.根据权利要求1或2所述的文本检测模型的训练方法,其特征在于,所述确定所述旋转后的目标样本图像中的文本框的目标位置信息,包括:
基于所述文本框标签,确定所述文本框的原始位置信息;
确定所述原始位置信息在旋转过程中的偏移信息;
对所述原始位置信息进行线性变换,得到变换后的原始位置信息;
基于所述变换后的原始位置信息和所述偏移信息,确定所述目标位置信息。
4.一种文本检测方法,其特征在于,包括:
获取待检测图像;
基于文本检测模型对所述待检测图像进行文本检测处理,得到所述待检测图像对应的文本检测结果;
其中,所述文本检测模型采用如权利要求1至3中任一项所述的文本检测模型的训练方法训练得到。
5.根据权利要求4所述的文本检测方法,其特征在于,所述文本检测结果包括多个文本检测框和所述多个文本检测框各自包含文本的概率,则在所述基于文本检测模型对所述待检测图像进行文本检测处理,得到所述待检测图像对应的文本检测结果之后,所述文本检测方法还包括:
从所述多个文本检测框中,获取包含文本的概率大于预设概率阈值的预设数量个候选文本检测框;
确定所述预设数量个候选文本检测框各自对应的第一尺寸信息;
将所述预设数量个候选文本检测框,按照相应的第一尺寸信息进行降序排序,得到第一序列;
将所述第一序列中排序最前的候选文本检测框,作为当前候选文本检测框,并将所述当前候选文本检测框从所述第一序列中迁移至候选集合中;
从所述第一序列中,确定与所述当前候选文本检测框的交并比大于预设交并比阈值的其他候选文本检测框;
过滤所述其他候选文本检测框;
重复所述将所述第一序列中排序最前的候选文本检测框,作为当前候选文本检测框,并将所述当前候选文本检测框从所述第一序列中迁移至候选集合中,至所述过滤所述其他候选文本检测框的步骤,直至所述第一序列为空,并在所述第一序列为空时,将所述候选集合中的候选文本检测框作为所述待检测图像对应的目标文本检测框。
6.根据权利要求5所述的文本检测方法,其特征在于,所述目标文本检测框为多个,则在所述第一序列为空时,将所述候选集合中的候选文本检测框作为所述待检测图像对应的目标文本检测框之后,所述文本检测方法还包括:
确定多个目标文本检测框各自对应的第二尺寸信息;
将第二尺寸信息满足预设条件的预设数量个目标文本检测框,作为预设数量个竖排文本检测框;
确定所述预设数量个竖排文本检测框各自对应的横坐标信息;
将所述预设数量个竖排文本检测框按照各自对应的横坐标信息进行升序排序,得到第二序列;
依次遍历所述第二序列中的每一竖排文本检测框,当遍历每一竖排文本检测框时,执行以下操作:
确定与当前遍历的当前竖排文本检测框对应的其他竖排文本检测框,所述当前竖排文本检测框对应的其他竖排文本检测框,为所述第二序列中与所述当前竖排文本检测框之间满足预设大小关系和预设位置关系的竖排文本检测框;
根据所述当前竖排文本检测框与所述对应的其他竖排文本检测框,确定所述待检测图像对应的一组竖排文本检测框集合。
7.一种文本检测模型的训练装置,其特征在于,包括:
目标样本图像集获取模块,被配置为执行获取目标样本图像集,所述目标样本图像集包括具有文本框标签的目标样本图像;
旋转模块,被配置为执行对所述目标样本图像进行旋转,得到旋转后的目标样本图像;
目标位置信息确定模块,被配置为执行确定所述旋转后的目标样本图像中的文本框的目标位置信息;
训练模块,被配置为执行基于所述旋转后的目标样本图像和所述目标位置信息,对神经网络进行文本检测训练,得到所述目标样本图像对应的文本预测结果;
损失数据确定模块,被配置为执行根据所述文本预测结果和所述文本框标签,确定损失数据;
文本检测模型确定模块,被配置为执行基于所述损失数据训练所述神经网络,得到文本检测模型。
8.一种文本检测装置,其特征在于,包括:
待检测图像获取模块,被配置为执行获取待检测图像;
文本检测结果确定模块,被配置为执行基于文本检测模型对所述待检测图像进行文本检测处理,得到所述待检测图像对应的文本检测结果;其中,所述文本检测模型采用如权利要求1至3中任一项所述的文本检测模型的训练方法训练得到。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至3中任一项所述的文本检测模型的训练方法或如权利要求5至6中任一项所述的文本检测方法。
10.一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备执行如权利要求1至3中任一项所述的文本检测模型的训练方法或如权利要求5至6中任一项所述的文本检测方法。
CN202110285620.4A 2021-03-17 2021-03-17 文本检测模型的训练方法、文本检测方法及装置 Pending CN113128485A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110285620.4A CN113128485A (zh) 2021-03-17 2021-03-17 文本检测模型的训练方法、文本检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110285620.4A CN113128485A (zh) 2021-03-17 2021-03-17 文本检测模型的训练方法、文本检测方法及装置

Publications (1)

Publication Number Publication Date
CN113128485A true CN113128485A (zh) 2021-07-16

Family

ID=76773261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110285620.4A Pending CN113128485A (zh) 2021-03-17 2021-03-17 文本检测模型的训练方法、文本检测方法及装置

Country Status (1)

Country Link
CN (1) CN113128485A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117611513A (zh) * 2022-11-08 2024-02-27 郑州英视江河生态环境科技有限公司 微观生物图像处理方法、设备及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991445A (zh) * 2019-11-21 2020-04-10 北京达佳互联信息技术有限公司 竖排文字识别方法、装置、设备及介质
CN111241947A (zh) * 2019-12-31 2020-06-05 深圳奇迹智慧网络有限公司 目标检测模型的训练方法、装置、存储介质和计算机设备
CN111368831A (zh) * 2020-03-03 2020-07-03 开放智能机器(上海)有限公司 一种竖排文字的定位系统及方法
CN111444918A (zh) * 2020-04-01 2020-07-24 中移雄安信息通信科技有限公司 图像倾斜文本行检测模型训练及图像倾斜文本行检测方法
CN111783541A (zh) * 2020-06-01 2020-10-16 北京捷通华声科技股份有限公司 一种文本识别方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991445A (zh) * 2019-11-21 2020-04-10 北京达佳互联信息技术有限公司 竖排文字识别方法、装置、设备及介质
CN111241947A (zh) * 2019-12-31 2020-06-05 深圳奇迹智慧网络有限公司 目标检测模型的训练方法、装置、存储介质和计算机设备
CN111368831A (zh) * 2020-03-03 2020-07-03 开放智能机器(上海)有限公司 一种竖排文字的定位系统及方法
CN111444918A (zh) * 2020-04-01 2020-07-24 中移雄安信息通信科技有限公司 图像倾斜文本行检测模型训练及图像倾斜文本行检测方法
CN111783541A (zh) * 2020-06-01 2020-10-16 北京捷通华声科技股份有限公司 一种文本识别方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117611513A (zh) * 2022-11-08 2024-02-27 郑州英视江河生态环境科技有限公司 微观生物图像处理方法、设备及系统

Similar Documents

Publication Publication Date Title
CN110334585A (zh) 表格识别方法、装置、计算机设备和存储介质
CN112037077B (zh) 基于人工智能的印章识别方法、装置、设备及存储介质
WO2022257254A1 (zh) 图像数据处理方法、装置、设备以及介质
CN114494892B (zh) 一种货架商品陈列信息识别方法、装置、设备及存储介质
CN111898668A (zh) 一种基于深度学习的小目标物体检测方法
CN112418278A (zh) 一种多类物体检测方法、终端设备及存储介质
CN112270686A (zh) 图像分割模型训练、图像分割方法、装置及电子设备
CN111144215A (zh) 图像处理方法、装置、电子设备及存储介质
CN111859002B (zh) 兴趣点名称生成方法及装置、电子设备和介质
CN109522898A (zh) 手写样本图片标注方法、装置、计算机设备及存储介质
CN111325798A (zh) 相机模型纠正方法、装置、ar实现设备及可读存储介质
CN114399512B (zh) 基于人工智能的实例分割模型训练方法、装置、存储介质
CN117095019B (zh) 一种图像分割方法及相关装置
CN110728687A (zh) 文件图像分割方法、装置、计算机设备和存储介质
CN114529773A (zh) 基于结构单元的表格识别方法、系统、终端及介质
CN111401421A (zh) 基于深度学习的图像类别判定方法、电子设备以及介质
CN113128485A (zh) 文本检测模型的训练方法、文本检测方法及装置
CN113688273B (zh) 面向图形类题目的作答及判定方法和装置
CN116737301A (zh) 图层元素的对齐方法及装置
CN116612347A (zh) 基于考场违规的深度学习模型训练方法
CN116052193A (zh) Rpa界面动态表格的拾取和匹配方法及系统
CN113033721A (zh) 题目批改方法及计算机存储介质
CN111444834A (zh) 图像文本行检测方法、装置、设备及存储介质
CN113158632B (zh) Cad图纸的表格重建方法和计算机可读存储介质
CN115205202A (zh) 视频检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination