CN114863431A - 一种文本检测方法、装置及设备 - Google Patents
一种文本检测方法、装置及设备 Download PDFInfo
- Publication number
- CN114863431A CN114863431A CN202210391702.1A CN202210391702A CN114863431A CN 114863431 A CN114863431 A CN 114863431A CN 202210391702 A CN202210391702 A CN 202210391702A CN 114863431 A CN114863431 A CN 114863431A
- Authority
- CN
- China
- Prior art keywords
- candidate frame
- text
- target
- mask
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 84
- 238000000034 method Methods 0.000 claims description 34
- 238000010586 diagram Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 12
- 238000013527 convolutional neural network Methods 0.000 description 9
- 238000012015 optical character recognition Methods 0.000 description 9
- 230000009471 action Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/147—Determination of region of interest
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种文本检测方法、装置及设备,可应用于人工智能领域。提取待处理图像中的特征图,获取特征图对应的锚框,基于特征图和特征图对应的锚框,获取初选矩形候选框和初选矩形候选框对应的目标图像特征。基于初选矩形候选框和初选矩形候选框对应的目标图像特征,获取目标四边形候选框和目标四边形候选框对应的文本区域。目标四边形候选框为较精确的结果。将待处理图像、目标四边形候选框以及目标四边形候选框对应的文本区域输入掩码预测网络中,得到预测文本掩码。获取预测文本掩码对应的掩码评分,将满足预设范围的掩码评分对应的预测文本掩码确定为文本检测结果。如此,通过两次候选框的筛选,得到的文本检测结果更准确。
Description
技术领域
本申请涉及计算机技术领域,具体涉及一种文本检测方法、装置及设备。
背景技术
在当今社会中,存在着各式各样的纸质单据,例如,医疗单据和银行单据等。纸质单据上的信息是重要数据来源,可利用光学字符识别(Optical Character Recognition,OCR)技术对纸质单据上的信息进行识别和信息录入。
OCR技术是指利用电子设备获取纸质单据影像,检查单据影像上的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。其中,文本检测技术属于OCR技术,通过对单据图像进行文本检测,可以获得图像中的文本,进而可对检测到的文本再进行文本识别。
目前,由于单据图像中的文本在单据图像中表现出稀疏性特点,以及由于拍摄角度问题可能导致出现多方向文本、弯曲文本等特殊文本。这增加了文字检测的难度,使得文本检测准确度降低。
发明内容
有鉴于此,本申请实施例提供一种文本检测方法、装置及设备,能够提升文本检测的准确度。
为解决上述问题,本申请实施例提供的技术方案如下:
本申请实施例提供了一种文本检测方法,所述方法包括:
提取待处理图像中的特征图;
获取所述特征图对应的锚框,并基于所述特征图和所述特征图对应的锚框,获取初选矩形候选框以及所述初选矩形候选框对应的目标图像特征;
基于所述初选矩形候选框以及所述初选矩形候选框对应的目标图像特征,获取目标四边形候选框以及所述目标四边形候选框对应的文本区域;
将所述待处理图像、所述目标四边形候选框以及所述目标四边形候选框对应的文本区域输入掩码预测网络中,得到预测文本掩码;
获取所述预测文本掩码对应的掩码评分,并将满足预设范围的掩码评分对应的预测文本掩码确定为文本检测结果。
可选地,所述提取待处理图像中的特征图,包括:
获取待处理图像;
将所述待处理图像输入注意力金字塔网络,获取所述待处理图像中的特征图。
可选地,所述获取所述特征图对应的锚框,并基于所述特征图和所述特征图对应的锚框,获取初选矩形候选框以及所述初选矩形候选框对应的目标图像特征,包括:
获取所述特征图对应的锚框;
基于所述特征图和所述特征图对应的锚框,进行第一次文本二分类和矩形边界框回归,获取初选矩形候选框以及所述初选矩形候选框对应的目标区域;
基于所述初选矩形候选框对应的目标区域和所述特征图,获取所述初选矩形候选框对应的目标图像特征;所述目标区域和所述目标图像特征相对应。
可选地,所述基于所述初选矩形候选框以及所述初选矩形候选框对应的目标图像特征,获取目标四边形候选框以及所述目标四边形候选框对应的文本区域,包括:
基于所述初选矩形候选框以及所述初选矩形候选框对应的目标图像特征,进行第二次文本二分类和四边形候选框回归,获取四边形候选框以及所述四面形候选框对应的文本区域;
获取所述四边形候选框对应的置信度;
基于四边形候选框、所述四面形候选框对应的文本区域以及所述四边形候选框对应的置信度,获取目标四边形候选框以及所述目标四边形候选框对应的文本区域。
可选地,所述获取所述预测文本掩码对应的掩码评分,包括:
根据所述预测文本掩码与所述目标图像特征的连接结果,获取所述预测文本掩码和真实文本掩码的交并比;
获取所述第二次文本二分类的文本区域对应的分类分数;
将所述第二次文本二分类的文本区域对应的分类分数和所述交并比的乘积,确定为所述预测文本掩码对应的掩码评分。
本申请实施例还提供了一种文本检测装置,所述装置包括:
提取单元,用于提取待处理图像中的特征图;
第一获取单元,用于获取所述特征图对应的锚框,并基于所述特征图和所述特征图对应的锚框,获取初选矩形候选框以及所述初选矩形候选框对应的目标图像特征;
第二获取单元,用于基于所述初选矩形候选框以及所述初选矩形候选框对应的目标图像特征,获取目标四边形候选框以及所述目标四边形候选框对应的文本区域;
输入单元,用于将所述待处理图像、所述目标四边形候选框以及所述目标四边形候选框对应的文本区域输入掩码预测网络中,得到预测文本掩码;
确定单元,用于获取所述预测文本掩码对应的掩码评分,并将满足预设范围的掩码评分对应的预测文本掩码确定为文本检测结果。
可选地,所述提取单元,包括:
第一获取子单元,用于获取待处理图像;
输入子单元,用于将所述待处理图像输入注意力金字塔网络,获取所述待处理图像中的特征图。
可选地,所述第一获取单元,包括:
第二获取子单元,用于获取所述特征图对应的锚框;
第三获取子单元,用于基于所述特征图和所述特征图对应的锚框,进行第一次文本二分类和矩形边界框回归,获取初选矩形候选框以及所述初选矩形候选框对应的目标区域;
第四获取子单元,用于基于所述初选矩形候选框对应的目标区域,获取所述初选矩形候选框对应的目标图像特征;所述目标区域和所述目标图像特征相对应。
本申请实施例还提供了一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述任一所述的文本检测方法。
本申请实施例还提供了一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如上述任一所述的文本检测方法。
由此可见,本申请实施例具有如下有益效果:
本申请实施例提供了一种文本检测方法、装置及设备,先提取待处理图像中的特征图,再获取特征图对应的锚框,并基于特征图和特征图对应的锚框,获取初选矩形候选框以及初选矩形候选框对应的目标图像特征。提取到的初选矩形候选框以及初选矩形候选框对应的目标图像特征为较粗糙的结果。进而,基于初选矩形候选框以及初选矩形候选框对应的目标图像特征,获取目标四边形候选框以及目标四边形候选框对应的文本区域。由此,得到的目标四边形候选框以及目标四边形候选框对应的文本区域为较精确的结果。基于此,再将待处理图像、目标四边形候选框以及目标四边形候选框对应的文本区域输入掩码预测网络中,得到预测文本掩码。获取预测文本掩码对应的掩码评分,并将满足预设范围的掩码评分对应的预测文本掩码确定为文本检测结果。如此,基于提取的特征图,先得到初选矩形候选框以及初选矩形候选框对应的目标图像特征,再获取较为精细的目标四边形候选框以及目标四边形候选框对应的文本区域。进而,将待处理图像、目标四边形候选框以及目标四边形候选框对应的文本区域输入到掩码预测网络中所得到的预测文本掩码是更准确的预测结果。进而,能够提高文本检测结果的准确性。
附图说明
图1为本申请实施例提供的一种示例性应用场景的框架示意图;
图2为本申请实施例提供的一种文本检测方法的流程图;
图3为本申请实施例提供的另一种文本检测方法的流程图;
图4为本申请实施例提供的一种文本检测模型结构示意图;
图5为本申请实施例提供的一种文本检测装置的结构示意图;
图6为本申请实施例提供的一种电子设备的示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。
为了便于理解和解释本申请实施例提供的技术方案,先对本申请实施例中所涉及到的背景技术进行介绍。
在当今社会中,存在着各式各样的纸质单据,例如,医疗单据和银行单据等。纸质单据上的信息是重要数据来源,可利用光学字符识别(Optical Character Recognition,OCR)技术对纸质单据上的信息进行识别和信息录入。例如,在银行交易业务中自动识别银行业务单据文本,自动获取业务单据文本。
OCR技术是指利用电子设备,例如扫描仪或数码相机,获取纸质单据影像,检查单据影像上的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。其中,文本检测技术属于OCR技术,通过对单据图像进行文本检测以得到图像中包括的文本,进而可对检测到的文本进行识别。
目前,由于单据图像中的文本在单据图像中表现出稀疏性特点,以及由于拍摄角度问题可能导致出现多方向文本、弯曲文本等特殊文本。这增加了文字检测的难度,使得文本检测准确度降低。
基于此,本申请实施例提供了一种文本检测方法、装置及设备,先提取待处理图像中的特征图,再获取特征图对应的锚框,并基于特征图和特征图对应的锚框,获取初选矩形候选框以及初选矩形候选框对应的目标图像特征。提取到的初选矩形候选框以及初选矩形候选框对应的目标图像特征为较粗糙的结果。进而,基于初选矩形候选框以及初选矩形候选框对应的目标图像特征,获取目标四边形候选框以及目标四边形候选框对应的文本区域。由此,得到的目标四边形候选框以及目标四边形候选框对应的文本区域为较精确的结果。基于此,再将待处理图像、目标四边形候选框以及目标四边形候选框对应的文本区域输入掩码预测网络中,得到预测文本掩码。获取预测文本掩码对应的掩码评分,并将满足预设范围的掩码评分对应的预测文本掩码确定为文本检测结果。如此,基于提取的特征图,先得到初选矩形候选框以及初选矩形候选框对应的目标图像特征,再获取较为精细的目标四边形候选框以及目标四边形候选框对应的文本区域。进而,将待处理图像、目标四边形候选框以及目标四边形候选框对应的文本区域输入到掩码预测网络中所得到的预测文本掩码是更准确的预测结果。
为了便于理解本申请实施例提供的图像修复方法,下面结合图1所示的场景示例进行说明。参见图1所示,该图为本申请实施例提供的示例性应用场景的框架示意图。
在实际应用中,先获取待处理图像。例如,待处理图像为单据图像。进而,提取待处理图像中的特征图。可以理解的是,特征图为提取待处理图像中特征所得到的特征图像。进而,获取特征图对应的锚框。锚框为以锚点为中心得到的先验框。之后,基于特征图和特征图对应的锚框,获取初选矩形候选框以及初选矩形候选框对应的目标图像特征。可以理解的是,初选矩形候选框是从锚框中选出的,是一种较为粗糙的筛选方式。
进而,基于初选矩形候选框以及初选矩形候选框对应的目标图像特征,获取目标四边形候选框以及所述目标四边形候选框对应的文本区域。目标是变形候选框是由初选矩形候选框进行候选框回归得到的,是一种较为精细的筛选方式。
最后,将待处理图像、目标四边形候选框以及目标四边形候选框对应的文本区域输入掩码预测网络中,得到预测文本掩码。获取预测文本掩码对应的掩码评分,并将满足预设范围的掩码评分对应的预测文本掩码确定为文本检测结果。由此,得到了文本检测结果。
本领域技术人员可以理解,图1所示的框架示意图仅是本申请的实施方式可以在其中得以实现的一个示例。本申请实施方式的适用范围不受到该框架任何方面的限制。
为了便于理解本申请,下面结合附图对本申请实施例提供的一种图像修复模型的训练方法进行说明。
参见图2所示,该图为本申请实施例提供的一种图像修复模型的训练方法的流程图,如图2所示,该方法可以包括S201-S205:
S201:提取待处理图像中的特征图。
获取待处理图像。待处理图像为单据图像。例如,银行单据图像。具体实施时,可通过OCR技术获取纸质银行单据对应的银行单据图像。
进而,提取待处理图像中的特征图。可以理解的是,特征图为提取待处理图像中特征所得到的特征图像。
在一种可能的实现方式中,本申请实施例提供了一种提取待处理图像中的特征图的具体实施方式,包括:
获取待处理图像;
将待处理图像输入注意力金字塔网络,获取待处理图像中的特征图。
其中,注意力金字塔网络是结合注意力机制与金字塔模型得到的。金字塔模型包括上采样过程(即Bottom-up过程)和下采样过程(即Top-down过程)。具体实施时,在Bottom-up过程中,利用残差网络(如ResNet101)得到待处理图像的第一特征图,即各阶段特征层。在Top-down过程中,利用注意力向量引导高阶段语义信息结合低阶段空间信息,从第一特征图得到第二特征图,即待处理图像中的多尺度卷积金字塔特征图。第二特征图为具有判别力的特征图,可提高待处理图像的特征表示能力。最后,输出待处理图像中的多尺度卷积金字塔特征图。
S202:获取特征图对应的锚框,并基于特征图和特征图对应的锚框,获取初选矩形候选框以及初选矩形候选框对应的目标图像特征。
在获取特征图后,在特征图上选择锚点,基于锚点生成特征图对应的锚框。其中,锚框,就是为以锚点为中心,再设置框长和框宽后得到的先验框。当特征图为多个时,对应的锚框也有多个。
进而,基于特征图和特征图对应的锚框,获取初选矩形候选框以及初选矩形候选框对应的目标图像特征。其中,初选矩形候选框由锚框通过矩形边界框回归得到。
在一种可能的实现方式中,本申请实施例提供了一种获取特征图对应的锚框,并基于特征图和特征图对应的锚框,获取初选矩形候选框以及初选矩形候选框对应的目标图像特征的具体实施方式,包括:
A1:获取特征图对应的锚框。
A2:基于特征图和特征图对应的锚框,进行第一次文本二分类和矩形边界框回归,获取初选矩形候选框以及初选矩形候选框对应的目标区域。
在一种可选示例中,采用区域建议网络(Region Proposal Net,RPN)实现第一次文本二分类和矩形边界框回归。当采用注意力金字塔网络获取待处理图像中的特征图时,注意力金字塔网络特征层上连接RPN来进行第一次文本二分类和矩形边界框回归。
其中,第一次文本二分类是对特征图进行文本区域和除文本区域之外的背景区域进行分类。初选矩形候选框是由特征图对应的锚框进行矩形边界框回归得到的。初选矩形候选框对应的目标区域为感兴趣区域(Region of Interest,ROI)。目标区域为包括文本区域的区域。
A3:基于初选矩形候选框对应的目标区域和特征图,获取初选矩形候选框对应的目标图像特征;目标区域和目标图像特征相对应。
在获取初选矩形候选框对应的目标区域后,可基于特征图,获取初选矩形候选框对应的目标区域中的图像特征,即特征图中初选矩形候选框框选出的部分特征。基于此,再获取初选矩形候选框对应的目标图像特征。在一个或多个实施例中,初选矩形候选框对应的目标图像特征由初选矩形候选框对应的目标区域中的图像特征得到。
作为一种可选示例,在获取初选矩形候选框后,采用Skip-RoIAlign方法提取初选矩形候选框对应的目标图像特征。其中,目标图像特征为ROI特征。
可以理解的是,采用Skip-RoIAlign结合特征图(例如多尺度卷积金字塔特征图)得到ROI特征的方法,能够有效提高对小尺寸文本的检测精度。
S203:基于初选矩形候选框以及初选矩形候选框对应的目标图像特征,获取目标四边形候选框以及目标四边形候选框对应的文本区域。
由于获得的初选矩形候选框只能对规整的文本区域进行检测。但是当存在多方向文本时,此时得到的初选矩形候选框对应的目标图像特征便不能满足要求。此时,基于初选矩形候选框以及初选矩形候选框对应的目标图像特征,获取目标四边形候选框以及目标四边形候选框对应的文本区域。获得的目标四边形候选框是由初选矩形候选框进行回归得到的,能够更适应于多方向文本区域的检测。
需要说明的是,在该步骤中,当待处理图像中存在多方向文本和/或弯曲文本时,此时得到的目标四边形候选框对应的文本区域可认为是多方向文本检测结果和/或弯曲文本检测结果。另一方面,作为一种可选示例,可继续进行后续的S204-S205来获取更准确的多方向文本检测结果。
在一种可能的实现方式中,本申请实施例提供了一种基于初选矩形候选框以及初选矩形候选框对应的目标图像特征,获取目标四边形候选框以及目标四边形候选框对应的文本区域的具体实施方式,包括:
B1:基于初选矩形候选框以及初选矩形候选框对应的目标图像特征,进行第二次文本二分类和四边形候选框回归,获取四边形候选框以及四面形候选框对应的文本区域。
作为一种可选示例,第二次文本二分类和四边形候选框回归通过快速区域卷积神经网络(Fast Region-Convolutional Neural Networks,Fast R-CNN)网络实现。
基于初选矩形候选框对应的目标图像特征进行的第二次文本二分类是更精细的分类。在第二次文本二分类中,同样是进行文本区域和非文本区域的背景区域的分类。基于初选矩形候选框,通过四边形候选框回归获得的四边形候选框是更精细的候选框,由于四边形相比于矩形更适合多方向文本区域的检测,则有助于提高后续文本检测结果的准确性。
B2:获取四边形候选框对应的置信度。
在获取的四边形候选框的数量为多个时,可确定最优的四边形候选框。作为一种可选示例,采用非极大值抑制算法(Non-maximum suppression,NMS)实现去重,即去除多余的四边形候选框,获取最佳的检测文本区域。具体实施时,先获取四边形候选框对应的置信度。
B3:基于四边形候选框、四面形候选框对应的文本区域以及四边形候选框对应的置信度,获取目标四边形候选框以及目标四边形候选框对应的文本区域。
进而,再基于四边形候选框、四面形候选框对应的文本区域以及四边形候选框对应的置信度,获取目标四边形候选框以及目标四边形候选框对应的文本区域。例如,选择置信度最高的四边形候选框作为目标四边形候选框。
S204:将待处理图像、目标四边形候选框以及目标四边形候选框对应的文本区域输入掩码预测网络中,得到预测文本掩码。
作为一种可选示例,掩码预测网络为训练完成后的全卷积神经网络(FullyConvolutional Networks,FCN)。在训练FCN的过程中,可使用包括多方向文本和弯曲文本的图像进行训练。可以理解的是,掩码预测网络是一种图像分割网络。
将待处理图像、目标四边形候选框以及目标四边形候选框对应的文本区域输入FCN中,得到预测文本掩码。
S205:获取预测文本掩码对应的掩码评分,并将满足预设范围的掩码评分对应的预测文本掩码确定为文本检测结果。
在获取预测文本掩码时,通常预测文本掩码有多个,此时需要获取预测文本掩码对应的掩码评分,并将满足预设范围的掩码评分对应的预测文本掩码确定为文本检测结果。文本检测结果包括多方向文本检测结果和/或弯曲文本检测结果。其中,预测范围根据实际情况进行确定,这里不进行限定。例如,选择掩码评分最高的预测文本掩码作为文本检测结果。
在一种可能的实现方式中,本申请实施例提供了一种获取预测文本掩码对应的掩码评分的具体实施方式,包括:
C1:根据预测文本掩码与目标图像特征的连接结果,获取预测文本掩码和真实文本掩码的交并比。
作为一种可选示例,将预测文本掩码与目标图像特征的连接结果,输入到MaskIoUhead中,获取预测的预测文本掩码和真实文本掩码的交并比。其中,真实文本掩码为期望的文本掩码。
C1:获取第二次文本二分类的文本区域对应的分类分数。
可以理解的是,第二次文本二分类之后能够获取文本区域和背景区域,以及各自对应的分类分数。
C1:将第二次文本二分类的文本区域对应的分类分数和交并比的乘积,确定为预测文本掩码对应的掩码评分。
获得交并比、第二次文本二分类的文本区域对应的分类分数之后,将该分类分数和交并比的乘积作为预测文本掩码对应的掩码评分。
可以理解的是,掩码评分用于评估获取的预测文本掩码的质量。
基于S201-S205的内容可知,本申请实施例提供了一种文本检测方法,先提取待处理图像中的特征图,再获取特征图对应的锚框,并基于特征图和特征图对应的锚框,获取初选矩形候选框以及初选矩形候选框对应的目标图像特征。提取到的初选矩形候选框以及初选矩形候选框对应的目标图像特征为较粗糙的结果。进而,基于初选矩形候选框以及初选矩形候选框对应的目标图像特征,获取目标四边形候选框以及目标四边形候选框对应的文本区域。由此,得到的目标四边形候选框以及目标四边形候选框对应的文本区域为较精确的结果。基于此,再将待处理图像、目标四边形候选框以及目标四边形候选框对应的文本区域输入掩码预测网络中,得到预测文本掩码。获取预测文本掩码对应的掩码评分,并将满足预设范围的掩码评分对应的预测文本掩码确定为文本检测结果。如此,基于提取的特征图,先得到初选矩形候选框以及初选矩形候选框对应的目标图像特征,再获取较为精细的目标四边形候选框以及目标四边形候选框对应的文本区域。进而,将待处理图像、目标四边形候选框以及目标四边形候选框对应的文本区域输入到掩码预测网络中所得到的预测文本掩码是更准确的预测结果。进而,能够提高文本检测结果的准确性。
基于上述内容,本申请实施例提供了另一种文本检测方法,参见图3,图3为本申请实施例提供的另一种文本检测方法的流程图。
如图3所示,在获取待处理图像后,将待处理图像输入注意力金字塔网络中,获得注意力金字塔网络输出的多尺度卷积金字塔特征图。进而,将多尺度卷积金字塔特征图和对应的锚框输入区域建议网络进行第一次文本二分类和矩形边界框回归,获得初选矩形候选框和初选矩形候选框对应的目标区域。
进一步,基于初选矩形候选框对应的目标区域和多尺度卷积金字塔特征图,利用Skip-RoIAlign获取初选矩形候选框对应的目标图像特征。之后,将初选矩形候选框和初选矩形候选框对应的目标图像特征输入Fast R-CNN网络中,进行第二次文本二分类和四边形候选框回归,得到四边形候选框以及四面形候选框对应的文本区域。获取四边形候选框对应的置信度,并利用NMS算法从四边形候选框中获取目标四边形候选框以及目标四边形候选框对应的文本区域。
将待处理图像、目标四边形候选框以及目标四边形候选框对应的文本区域输入FCN中,获得预测文本掩码。最后,将预测文本掩码和目标图像特征共同输入MaskIoU head中,获得预测文本掩码和真实文本掩码的交并比。基于交并比和第二次文本二分类的文本区域对应的分类分数,获取预测文本掩码对应的掩码评分,并将满足预设范围的掩码评分对应的预测文本掩码确定为文本检测结果。
可以理解的是,图3所示的文本检测方法给出了详细地文本检测流程,进行了两次文本二分类和候选框回归,能够使得获取的目标四边形候选框更精准,使得获取的文本检测结果更加准确。
结合图3,本申请实施例给出了一种文本检测模型。参见图4,图4为本申请实施例提供的一种文本检测模型结构示意图。
如图4所示,注意力金字塔网络包括1个卷积神经网络、残差网络2-残差网络5、全局平均池化网络、第一层优化残差网络(包括四个优化残差网络)、一层注意力模块(包括三个注意力模块)和第二层优化残差网络(包括四个优化残差网络)。卷积神经网络和残差网络2相连接,残差网络2和残差网络3相连接,残差网络3和残差网络4相连接,残差网络4和残差网络5相连接,残差网络5和全局平均池化网络相连接,残差网络2-残差网络5分别和第一层优化残差网络相连接,再连接一层注意力模块,进而连接第二层优化残差网络。全局平均池化网络和注意力模块相连。
第二层优化残差网络和上层对应位置的注意力模块相连接。具体地,第二层优化残差网络的第二个优化残差网络和上层注意力模块中的第一个注意力模块相连接,第二层优化残差网络的第三个优化残差网络和上层注意力模块中的第二个注意力模块相连接,第二层优化残差网络的第四个优化残差网络和上层注意力模块中的第三个注意力模块相连接。
第二层优化残差网络和一层区域建议网络(包括三个区域建议网络)相连接。具体地,第二层优化残差网络的第一个优化残差网络和第一个区域建议网络相连接,第二层优化残差网络的第二个优化残差网络和第二个区域建议网络相连接,第二层优化残差网络的第三个优化残差网络和第三个区域建议网络相连接。
区域建议网络和Skip-RoIAlign模块相连接,Skip-RoIAlign模块和Fast R-CNN网络相连接,Fast R-CNN网络输出目标四边形候选框。Fast R-CNN网络和FCN网络相连接。Skip-RoIAlign模块、FCN网络均和MaskIoU head相连接。MaskIoU head输出交并比,进而基于交并比和第二次文本二分类的文本区域对应的分类分数,从FCN网络输出的预测文本掩码中确定文本检测结果。
基于上述方法实施例提供的一种文本检测方法,本申请实施例还提供了一种文本检测装置,下面将结合附图对该文本检测装置进行说明。
参见图5所示,该图为本申请实施例提供的一种文本检测装置的结构示意图。如图5所示,该文本检测装置包括:
提取单元501,用于提取待处理图像中的特征图;
第一获取单元502,用于获取所述特征图对应的锚框,并基于所述特征图和所述特征图对应的锚框,获取初选矩形候选框以及所述初选矩形候选框对应的目标图像特征;
第二获取单元503,用于基于所述初选矩形候选框以及所述初选矩形候选框对应的目标图像特征,获取目标四边形候选框以及所述目标四边形候选框对应的文本区域;
输入单元504,用于将所述待处理图像、所述目标四边形候选框以及所述目标四边形候选框对应的文本区域输入掩码预测网络中,得到预测文本掩码;
确定单元505,用于获取所述预测文本掩码对应的掩码评分,并将满足预设范围的掩码评分对应的预测文本掩码确定为文本检测结果。
在一种可能的实现方式中,所述提取单元501,包括:
第一获取子单元,用于获取待处理图像;
输入子单元,用于将所述待处理图像输入注意力金字塔网络,获取所述待处理图像中的特征图。
在一种可能的实现方式中,所述第一获取单元502,包括:
第二获取子单元,用于获取所述特征图对应的锚框;
第三获取子单元,用于基于所述特征图和所述特征图对应的锚框,进行第一次文本二分类和矩形边界框回归,获取初选矩形候选框以及所述初选矩形候选框对应的目标区域;
第四获取子单元,用于基于所述初选矩形候选框对应的目标区域,获取所述初选矩形候选框对应的目标图像特征;所述目标区域和所述目标图像特征相对应。
在一种可能的实现方式中,所述第二获取单元503,包括:
第五获取子单元,用于基于所述初选矩形候选框以及所述初选矩形候选框对应的目标图像特征,进行第二次文本二分类和四边形候选框回归,获取四边形候选框以及所述四面形候选框对应的文本区域;
第六获取子单元,用于获取所述四边形候选框对应的置信度;
第七获取子单元,用于基于四边形候选框、所述四面形候选框对应的文本区域以及所述四边形候选框对应的置信度,获取目标四边形候选框以及所述目标四边形候选框对应的文本区域。
在一种可能的实现方式中,所述确定单元505,包括:
第八获取子单元,用于根据所述预测文本掩码与所述目标图像特征的连接结果,获取所述预测文本掩码和真实文本掩码的交并比;
第九获取子单元,用于获取所述第二次文本二分类的文本区域对应的分类分数;
确定子单元,用于将所述第二次文本二分类的文本区域对应的分类分数和所述交并比的乘积,确定为所述预测文本掩码对应的掩码评分。
本申请实施例提供了一种文本检测装置,基于提取的特征图,先得到初选矩形候选框以及初选矩形候选框对应的目标图像特征,再获取较为精细的目标四边形候选框以及目标四边形候选框对应的文本区域。进而,将待处理图像、目标四边形候选框以及目标四边形候选框对应的文本区域输入到掩码预测网络中所得到的预测文本掩码是更准确的预测结果。进而,能够提高文本检测结果的准确性。
本申请实施例还提供了一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如上述任一所述的批量作业性能分析方法。
参见图6,图6示出根据本公开的示例性实施例的电子设备的示意图。
参照图6,根据本公开的示例性实施例的电子设备,包括存储装置61和一个或多个处理器62,所述存储装置61上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述任一所述的批量作业性能分析方法。
在本公开的示例性实施例中,当所述计算机程序被处理器62执行时,可实现以下步骤:
提取待处理图像中的特征图;
获取所述特征图对应的锚框,并基于所述特征图和所述特征图对应的锚框,获取初选矩形候选框以及所述初选矩形候选框对应的目标图像特征;
基于所述初选矩形候选框以及所述初选矩形候选框对应的目标图像特征,获取目标四边形候选框以及所述目标四边形候选框对应的文本区域;
将所述待处理图像、所述目标四边形候选框以及所述目标四边形候选框对应的文本区域输入掩码预测网络中,得到预测文本掩码;
获取所述预测文本掩码对应的掩码评分,并将满足预设范围的掩码评分对应的预测文本掩码确定为文本检测结果。
需要说明的是,本发明提供的一种文本检测方法、装置及设备可用于人工智能领域。上述仅为示例,并不对本发明提供的发明名称的应用领域进行限定。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种文本检测方法,其特征在于,所述方法包括:
提取待处理图像中的特征图;
获取所述特征图对应的锚框,并基于所述特征图和所述特征图对应的锚框,获取初选矩形候选框以及所述初选矩形候选框对应的目标图像特征;
基于所述初选矩形候选框以及所述初选矩形候选框对应的目标图像特征,获取目标四边形候选框以及所述目标四边形候选框对应的文本区域;
将所述待处理图像、所述目标四边形候选框以及所述目标四边形候选框对应的文本区域输入掩码预测网络中,得到预测文本掩码;
获取所述预测文本掩码对应的掩码评分,并将满足预设范围的掩码评分对应的预测文本掩码确定为文本检测结果。
2.根据权利要求1所述的方法,其特征在于,所述提取待处理图像中的特征图,包括:
获取待处理图像;
将所述待处理图像输入注意力金字塔网络,获取所述待处理图像中的特征图。
3.根据权利要求1所述的方法,其特征在于,所述获取所述特征图对应的锚框,并基于所述特征图和所述特征图对应的锚框,获取初选矩形候选框以及所述初选矩形候选框对应的目标图像特征,包括:
获取所述特征图对应的锚框;
基于所述特征图和所述特征图对应的锚框,进行第一次文本二分类和矩形边界框回归,获取初选矩形候选框以及所述初选矩形候选框对应的目标区域;
基于所述初选矩形候选框对应的目标区域和所述特征图,获取所述初选矩形候选框对应的目标图像特征;所述目标区域和所述目标图像特征相对应。
4.根据权利要求1所述的方法,其特征在于,所述基于所述初选矩形候选框以及所述初选矩形候选框对应的目标图像特征,获取目标四边形候选框以及所述目标四边形候选框对应的文本区域,包括:
基于所述初选矩形候选框以及所述初选矩形候选框对应的目标图像特征,进行第二次文本二分类和四边形候选框回归,获取四边形候选框以及所述四面形候选框对应的文本区域;
获取所述四边形候选框对应的置信度;
基于四边形候选框、所述四面形候选框对应的文本区域以及所述四边形候选框对应的置信度,获取目标四边形候选框以及所述目标四边形候选框对应的文本区域。
5.根据权利要求4所述的方法,其特征在于,所述获取所述预测文本掩码对应的掩码评分,包括:
根据所述预测文本掩码与所述目标图像特征的连接结果,获取所述预测文本掩码和真实文本掩码的交并比;
获取所述第二次文本二分类的文本区域对应的分类分数;
将所述第二次文本二分类的文本区域对应的分类分数和所述交并比的乘积,确定为所述预测文本掩码对应的掩码评分。
6.一种文本检测装置,其特征在于,所述装置包括:
提取单元,用于提取待处理图像中的特征图;
第一获取单元,用于获取所述特征图对应的锚框,并基于所述特征图和所述特征图对应的锚框,获取初选矩形候选框以及所述初选矩形候选框对应的目标图像特征;
第二获取单元,用于基于所述初选矩形候选框以及所述初选矩形候选框对应的目标图像特征,获取目标四边形候选框以及所述目标四边形候选框对应的文本区域;
输入单元,用于将所述待处理图像、所述目标四边形候选框以及所述目标四边形候选框对应的文本区域输入掩码预测网络中,得到预测文本掩码;
确定单元,用于获取所述预测文本掩码对应的掩码评分,并将满足预设范围的掩码评分对应的预测文本掩码确定为文本检测结果。
7.根据权利要求6所述的装置,其特征在于,所述提取单元,包括:
第一获取子单元,用于获取待处理图像;
输入子单元,用于将所述待处理图像输入注意力金字塔网络,获取所述待处理图像中的特征图。
8.根据权利要求6所述的装置,其特征在于,所述第一获取单元,包括:
第二获取子单元,用于获取所述特征图对应的锚框;
第三获取子单元,用于基于所述特征图和所述特征图对应的锚框,进行第一次文本二分类和矩形边界框回归,获取初选矩形候选框以及所述初选矩形候选框对应的目标区域;
第四获取子单元,用于基于所述初选矩形候选框对应的目标区域,获取所述初选矩形候选框对应的目标图像特征;所述目标区域和所述目标图像特征相对应。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的文本检测方法。
10.一种计算机可读介质,其特征在于,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-5中任一所述的文本检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210391702.1A CN114863431A (zh) | 2022-04-14 | 2022-04-14 | 一种文本检测方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210391702.1A CN114863431A (zh) | 2022-04-14 | 2022-04-14 | 一种文本检测方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114863431A true CN114863431A (zh) | 2022-08-05 |
Family
ID=82631563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210391702.1A Pending CN114863431A (zh) | 2022-04-14 | 2022-04-14 | 一种文本检测方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114863431A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115546790A (zh) * | 2022-11-29 | 2022-12-30 | 深圳智能思创科技有限公司 | 文档版面分割方法、装置、设备及存储介质 |
CN117315702A (zh) * | 2023-11-28 | 2023-12-29 | 山东正云信息科技有限公司 | 基于集合预测的文本检测方法、系统及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560857A (zh) * | 2021-02-20 | 2021-03-26 | 鹏城实验室 | 文字区域边界检测方法、设备、存储介质及装置 |
CN113255669A (zh) * | 2021-06-28 | 2021-08-13 | 山东大学 | 任意形状自然场景文本检测方法及系统 |
US20210271917A1 (en) * | 2019-04-29 | 2021-09-02 | Tencent Technology (Shenzhen) Company Limited | Image processing method and apparatus, electronic device, and storage medium |
-
2022
- 2022-04-14 CN CN202210391702.1A patent/CN114863431A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210271917A1 (en) * | 2019-04-29 | 2021-09-02 | Tencent Technology (Shenzhen) Company Limited | Image processing method and apparatus, electronic device, and storage medium |
CN112560857A (zh) * | 2021-02-20 | 2021-03-26 | 鹏城实验室 | 文字区域边界检测方法、设备、存储介质及装置 |
CN113255669A (zh) * | 2021-06-28 | 2021-08-13 | 山东大学 | 任意形状自然场景文本检测方法及系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115546790A (zh) * | 2022-11-29 | 2022-12-30 | 深圳智能思创科技有限公司 | 文档版面分割方法、装置、设备及存储介质 |
CN117315702A (zh) * | 2023-11-28 | 2023-12-29 | 山东正云信息科技有限公司 | 基于集合预测的文本检测方法、系统及介质 |
CN117315702B (zh) * | 2023-11-28 | 2024-02-23 | 山东正云信息科技有限公司 | 基于集合预测的文本检测方法、系统及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7480408B2 (en) | Degraded dictionary generation method and apparatus | |
JP5844783B2 (ja) | テキスト領域を含むグレースケール文書画像を処理する方法、グレースケール文書画像の少なくともテキスト領域を二値化する方法、グレースケール文書画像においてグリッドを形成するテーブルの抽出方法及びプログラム | |
RU2659745C1 (ru) | Реконструкция документа из серии изображений документа | |
US20200134382A1 (en) | Neural network training utilizing specialized loss functions | |
Demilew et al. | Ancient Geez script recognition using deep learning | |
US9245198B2 (en) | Object recognition by comparison of patterns against map of image | |
CN114863431A (zh) | 一种文本检测方法、装置及设备 | |
CN110443258B (zh) | 文字检测方法、装置、电子设备及存储介质 | |
CN109740515B (zh) | 一种评阅方法及装置 | |
CN113591719A (zh) | 一种自然场景任意形状文本检测方法、装置和训练方法 | |
JPWO2020066257A1 (ja) | 分類装置、分類方法、プログラム、ならびに、情報記録媒体 | |
CN111275126A (zh) | 样本数据集生成方法、装置、设备及存储介质 | |
US11715288B2 (en) | Optical character recognition using specialized confidence functions | |
US6694059B1 (en) | Robustness enhancement and evaluation of image information extraction | |
US7231086B2 (en) | Knowledge-based hierarchical method for detecting regions of interest | |
JP6377214B2 (ja) | テキスト検出方法および装置 | |
US12046067B2 (en) | Optical character recognition systems and methods for personal data extraction | |
CN112766082A (zh) | 基于宏微观特征的中文文本笔迹鉴别方法、装置及存储介质 | |
CN117576416B (zh) | 工件边缘区域的检测方法、设备及存储介质 | |
Konya et al. | Adaptive methods for robust document image understanding | |
Dojčinović et al. | Neural network based optical character recognition system | |
US12131450B2 (en) | Systems and methods for image data processing to correct document deformations using machine learning system | |
Dalla Mura et al. | Classification of hyperspectral images by using morphological attribute filters and independent component analysis | |
Kieri | Context dependent thresholding and filter selection for optical character recognition | |
Chandra et al. | Development of an End-to-End Form Data Capture Model for an Electronic Election Recapitulation System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |