CN112183523A - 一种文本检测方法和装置 - Google Patents
一种文本检测方法和装置 Download PDFInfo
- Publication number
- CN112183523A CN112183523A CN202011387915.4A CN202011387915A CN112183523A CN 112183523 A CN112183523 A CN 112183523A CN 202011387915 A CN202011387915 A CN 202011387915A CN 112183523 A CN112183523 A CN 112183523A
- Authority
- CN
- China
- Prior art keywords
- text box
- text
- sample
- detection result
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种文本检测方法和装置,该方法包括:获取包含文本的图片;对所述图片进行文本检测,得到检测结果,所述检测结果中包括文本框和非文本框;基于预先训练的分类模型对所述检测结果中的文本框和非文本框进行分类,得到文本框和非文本框。在得到文本检测结果后,由于可以使用预先训练的分类模型对检测结果中的文本框和非文本框进行分类,因此,可以确定出检测结果中哪些是文本框,哪些是非文本框,从而可以过滤掉其中的非文本框,仅保留文本框,改善文本检测效果;进一步地,在后续进行文本识别时,可以仅基于检测结果中的文本框进行文本识别,从而可以减少文本识别的次数,提高整个文本检测识别过程的效率。
Description
技术领域
本申请涉及文本检测领域,尤其涉及一种文本检测方法和装置。
背景技术
目前,在很多应用场景下,都需要对图片中的文本进行识别,以得到图片中包含的文本。一般地,在对图片中的文本进行识别时,可以基于OCR(Optical CharacterRecognition,光学字符识别)实现。具体地,首先,可以对图片进行文本检测,得到包含文本的文本框,其次,对文本框进行文本识别,进而得到图片中包含的文本。
然而,在实际应用中,在使用OCR对图片进行文本检测时,在图片中包括复杂背景的情况下,检测结果中会包含非文本框,导致文本检测的检测效果不佳,严重影响后续的文本识别。
发明内容
本申请实施例提供一种文本检测方法和装置,用于解决目前在使用OCR对包含复杂背景的图片进行文本检测时,检测效果不佳的问题。
为解决上述技术问题,本申请实施例是这样实现的:
第一方面,提出一种文本检测方法,包括:
获取包含文本的图片;
对所述图片进行文本检测,得到检测结果,所述检测结果中包括文本框和非文本框;
基于预先训练的分类模型对所述检测结果中的文本框和非文本框进行分类,得到文本框和非文本框。
第二方面,提出一种文本检测装置,包括:
获取单元,获取包含文本的图片;
文本检测单元,对所述图片进行文本检测,得到检测结果,所述检测结果中包括文本框和非文本框;
分类单元,基于预先训练的分类模型对所述检测结果中的文本框和非文本框进行分类,得到文本框和非文本框。
第三方面,提出一种电子设备,该电子设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,该可执行指令在被执行时使该处理器执行以下操作:
获取包含文本的图片;
对所述图片进行文本检测,得到检测结果,所述检测结果中包括文本框和非文本框;
基于预先训练的分类模型对所述检测结果中的文本框和非文本框进行分类,得到文本框和非文本框。
第四方面,提出一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下方法:
获取包含文本的图片;
对所述图片进行文本检测,得到检测结果,所述检测结果中包括文本框和非文本框;
基于预先训练的分类模型对所述检测结果中的文本框和非文本框进行分类,得到文本框和非文本框。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
本申请实施例在进行文本检测之前,可以训练得到用于对文本框和非文本框进行分类的分类模型,这样,在进行文本检测并得到包括文本框和非文本框的检测结果后,可以使用分类模型对检测结果中的文本框和非文本框进行分类,得到文本框和非文本框。由于在得到文本检测结果后,可以使用预先训练的分类模型对文本检测结果中的文本框和非文本框进行分类,因此,可以确定出检测结果中哪些是文本框,哪些是非文本框,从而可以过滤掉其中的非文本框,仅保留文本框,改善文本检测效果;进一步地,在后续进行文本识别时,由于可以仅基于其中的文本框进行文本识别,因此可以减少文本识别的次数,从而提高整个文本检测识别过程的效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图;
图1是本申请的一个实施例文本检测方法的流程示意图;
图2是本申请的一个实施例样本图片的示意图;
图3是本申请的一个实施例样本文本框和样本非文本框的示意图;
图4是本申请的一个实施例文本检测方法的流程示意图;
图5是本申请的一个实施例电子设备的结构示意图;
图6是本申请的一个实施例文本检测装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1是本申请的一个实施例文本检测方法的流程示意图。所述方法如下所述。
S102:获取获取包含文本的图片。
在对图片中的文本进行识别时,可以获取包含文本的图片。本实施例中,获取到的图片中还可以包括背景,其中,该背景可以文本背景(即文本位于背景所在的区域),也可以是非文本背景(即文本位于背景所在区域以外的其他区域),在后续对图片进行文本检测时,该背景会影响检测结果,使得检测结果中包括非文本框。
在获取到包含文本的图片后,可以执行S104。
S104:对所述图片进行文本检测,得到检测结果,所述检测结果中包括文本框和非文本框。
在对图片进行文本检测时,可以使用MSER(Maximally Stable ExtremalRegions,最大极值稳定区域),或SWT(Stroke Width Transform,笔画宽度变换)等计算机视觉算法,当然,也可以使用其他能够对图片进行文本检测的算法,这里不做具体限定。
本实施例中,在对图片进行文本检测后,可以得到包括文本框和非文本框的检测结果。其中,文本框中包含文本,非文本框中不包含文本,需要说明的是,在得到的检测结果中,并不确定哪些是文本框,哪些是非文本框。
在得到检测结果后,可以执行S106。
S106:基于预先训练的分类模型对所述检测结果中的文本框和非文本框进行分类,得到文本框和非文本框。
本实施例中,预先训练的分类模型可以对S104中得到的检测结果进行分类,以确定出检测结果中哪些是文本框,哪些是非文本框。
在一种实现方式中,上述分类模型可以通过以下方式训练得到:
首先,获取样本图片。
样本图片中可以包括文本和背景,如图2所示,图2所示的样本图片中包括文本和背景,其中,在图片顶部有浅灰色背景,在图片的中间区域没有背景,在图片底部有深灰色背景。
应理解,图2所示的样本图片中的背景是一种示例,在其他实现方式中,样本图片中的背景还可以是其他更为复杂的背景,比如高楼、风景等,这里不再一一举例说明。
样本图片中还可以包括已标注的样本文本框和样本非文本框,这些标注数据可以是可视化的数据。如图3所示,图3为对图2所示的样本图片进行可视化标注后得到的图片,图3中,文本框是已经标注的区域,非文本框可以是已经标注的区域以外的随机区域。
其次,提取样本图片中包括的样本文本框和样本非文本框。
样本文本框和样本非文本框均可以视为样本图片中的一部分图片,在样本图片中已标注样本文本框和样本非文本框的情况下,可以提取得到其中的样本文本框和样本非文本框。
最后,基于样本文本框和样本非文本框进行学习训练,得到分类模型。
本实施例在对样本文本框和样本非文本框进行学习训练之前,可以对样本文本框和样本非文本框进行标准化处理,以得到相同大小的样本文本框和样本非文本框。
具体地,可以在保证图片比例的前提下,将样本文本框和样本非文本框各自对应的图片缩放为设定像素高度和设定像素宽度的图片,其中,该设定像素高度和设定像素宽度不宜过大,太大会影响模型训练的速度。优选地,设定像素高度和设定像素宽度均不大于100个像素。
需要说明的是,在对图片进行缩放后,若图片的像素高度或像素宽度不满足设定像素高度或设定像素宽度,则需要对图片进行调整。
以设定像素高度为16,设定像素宽度为64为例,如果图片的高度为16个像素,宽度大于64个像素,则可以从左到右(也可以从右到左)截取64个像素宽的图片,得到64x16的图片;如果图片的高度为16个像素,宽度小于64个像素,则可以在图片的左边或右边添加白色,以将图片的宽度填充到64个像素,得到64x16的图片。
在对样本文本框和样本非文本框进行标准化处理后,考虑到样本文本框和样本非文本框中可能存在错误标注的样本,因此,在进行模型训练之前,还可以对样本文本框和样本非文本框进行数据清洗,得到标注正确的样本,这些标注正确的样本用于训练得到分类模型。
在一种实现方式中,在对样本文本框和样本非文本框进行数据清洗,可以基于数据清洗模型实现。具体地,首先,可以构建一个神经网络模型(比如CNN(ConvolutionalNeural Networks,卷积神经网络)模型),该模型的层数可以是最终需要训练的分类模型的双倍或更多倍;其次,利用上述需要进行数据清洗的样本文本框和样本非文本框进行二分类模型训练,得到数据清洗模型;最后,基于该数据清洗模型对需要进行数据清洗的样本文本框和样本非文本框进行分类,得到模型分类结果,结合之前的标注结果,可以找出其中标注错误的样本(标注结果和模型分类结果不一致可以视为标注错误),对于标注错误的样本可以进行人工校验,进而实现数据清洗。
在对样本文本框和样本非文本框进行数据清洗后,可以基于数据清洗后的样本进行模型训练,进而得到分类模型。
在进行模型训练时,可以构建神经网络模型,该神经网络模型中可以包括卷积层、标准化层、池化层、丢弃层(Dropout层)和全连接层,其中,该神经网络模型可以上述CNN模型,也可以是其他能够实现本实施例的模型训练目的的模型,这里不做具体限定。
在一种实现方式中,构建的神经网络模型的结构可以如下所述:
model = Sequential()
// 一个有64个3x3的卷积核的卷积层
model.add(Conv2D(64,(3,3),activation='relu',
input_shape=(IMAGE_HEIGHT, IMAGE_WIDTH, IMAGE_CHANNELS)))
// 一个批量标准化层
model.add(BatchNormalization())
// 一个最大池化层
model.add(MaxPooling2D(pool_size=(2, 2)))
// 随机丢弃神经元参数的Dropout层
model.add(Dropout(0.25))
model.add(Conv2D(32, (3, 3), activation='relu'))
model.add(BatchNormalization())
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Dropout(0.25))
model.add(Conv2D(32, (3, 3), activation='relu'))
model.add(BatchNormalization())
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Dropout(0.25))
// 将之前层的参数变成一维的参数矩阵
model.add(Flatten())
// 全连接层,将全部参数浓缩为128个参数
model.add(Dense(128, activation='relu'))
model.add(BatchNormalization())
model.add(Dropout(0.5))
// 将所有参数浓缩到2个参数,完成2分类
model.add(Dense(2, activation='softmax'))
model.compile(loss='categorical_crossentropy',optimizer='rmsprop',metrics=['accuracy'])
在构建得到神经网络模型后,可以基于神经网络模型对样本文本框和样本非文本框进行学习训练,进而得到分类模型。
本实施例中,在基于预先训练的分类模型对检测结果中的文本框和非文本框进行分类时,具体实现方式如下:
首先,将检测结果中的文本框和非文本框进行标准化处理,得到具有相同大小的文本框和非文本框。
由于在模型训练时,是针对标准化后的样本进行的模型训练,因此,在基于分类模型对检测结果中的文本框和非文本框进行分类时,需要对检测结果进行标准化处理。由于标准化处理后可以减小检测结果中的文本框和非文本框的大小,因此,在使用分类模型对标准化后的检测结果中的文本框和非文本框进行分类时,可以提高处理效率。
其次,将标准化处理后得到的文本框和非文本框作为模型输入,基于分类模型得到输出结果。
最后,基于输出结果对检测结果中的文本框和非文本框进行分类。
本实施例中,模型的输出结果中包括模型输入(即文本检测的检测结果)属于文本框的概率,该概率越大,说明模型输入属于文本框的可能性越大,反之,概率越小,说明模型输入属于文本框的可能性越小。
在基于输出结果对检测结果中的文本框和非文本框进行分类时,具体地,由于在检测结果中并不确定哪些是文本框哪些是非文本框,因此可以将检测结果中的文本框/非文本框作为待分类对象,针对检测结果中的任一待分类对象,可以执行以下操作:
确定与该待分类对象对应的模型输出结果,该模型输出结果中包括待分类对象属于文本框的概率,若该概率大于或等于预设阈值,则可以确定待分类对象为文本框;反之,若该概率小于预设阈值,则可以确定待分类对象为非文本框。其中,预设阈值可以根据实际情况确定,优选地,为了避免将文本框误识别为非文本框,可以将预设阈值设置的低一些,比如,0.1。
在基于上述方法对检测结果中的文本框和非文本框进行分类后,可以确定检测结果中哪些是文本框,哪些是非文本框,从而可以过滤掉其中的非文本框,仅保留文本框,改善文本检测效果。
本实施例中,在对检测结果中的文本框和非文本框进行分类,并确定出哪些是文本框,哪些是非文本框后,还可以基于其中的文本框进行文本识别,进而得到图片中的文本。这样,由于可以过滤掉文本检测结果中的非文本框,仅基于其中的文本框进行文本识别,因此可以减少文本识别的次数,从而提高整个文本检测识别过程的效率。
本申请实施例提供的技术方案,在进行文本检测之前,可以训练得到用于对文本框和非文本框进行分类的分类模型,这样,在进行文本检测并得到包括文本框和非文本框的检测结果后,可以使用分类模型对检测结果中的文本框和非文本框进行分类,得到文本框和非文本框。由于在得到文本检测结果后,可以使用预先训练的分类模型对文本检测结果中的文本框和非文本框进行分类,因此,可以确定出检测结果中哪些是文本框,哪些是非文本框,从而可以过滤掉其中的非文本框,仅保留文本框,改善文本检测效果;进一步地,在后续进行文本识别时,由于可以仅基于其中的文本框进行文本识别,因此可以减少文本识别的次数,从而提高整个文本检测识别过程的效率。
为了便于理解本申请实施例提供的技术方案,可以参见图4,图4是本申请的一个实施例文本检测方法的流程示意图,图4所示的实施例可以包括以下步骤:
S401:获取样本图片,样本图片中包括已标注的样本文本框和样本非文本框。
S402:提取样本图片中的样本文本框和样本非文本框。
S403:对样本文本框和样本非文本框进行标准化处理和数据清洗。
S404:构建神经网络模型,神经网络模型中包括卷积层、标准化层、池化层、丢弃层和全连接层。
S405:基于神经网络模型对样本文本框和样本非文本框进行学习训练,得到分类模型。
S406:获取包含文本的图片。
S407:对图片进行文本检测,得到包括文本框和非文本框的检测结果。
S408:基于训练的分类模型,确定检测结果中任一待分类对象属于文本框的概率。
S409:将概率大于或等于预设阈值的待分类对象确定为文本框,将概率小于预设阈值的待分类对象确定为非文本框。
S410:对分类得到的文本框进行文本识别,得到图片中包括的文本。
上述S401至S410的具体实现可以参见图1所示实施例中相应步骤的具体实现,这里不再重复说明。
本申请实施例是在原有的文本检测方案上,加上轻量级的深度学习模型,对检测结果中存在的非文本框进行过滤,减少了非文本框的数量,从而减少文本识别的次数,提高文本检测识别过程的整体速度。在实际项目中的应用效果,非文本框过滤环节耗时大约为40ms,识别耗时减少100ms左右,整体过程减少60ms。
此外,本申请实施例在保留传统图像算法的计算速度优势的基础上,将传统图像算法无法处理的问题,抽象为简单的二分类问题,由轻量级的深度学习模型解决。因为深度学习的模型是轻量级的,如只是用两到三层CNN网络,而且输入的图片非常小,如64x16,这样的模型在CPU上运行也可以达到较高的速度,1000张图以上每秒,如果使用模型加速技术,可以达到5000张图每秒的处理速度。另外因为只是二分类问题,对于深度学习模型来说是最简单的任务,可以达到较高的准确率;过滤掉的文本框,不需要再进行后续实际的文本识别过程,减少了文本识别的时间。从整体来看,虽然增加了文本框的过滤耗时,但减少了文本识别时间,同时,对非文本框的过滤,可以降低文本识别的False-Positive(假阳性,即在没有文本的区域,检测识别出了文本)结果数量,提高了文本检测识别的整体效果。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
图5是本申请的一个实施例电子设备的结构示意图。请参考图5,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成文本检测装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取包含文本的图片;
对所述图片进行文本检测,得到检测结果,所述检测结果中包括文本框和非文本框;
基于预先训练的分类模型对所述检测结果中的文本框和非文本框进行分类,得到文本框和非文本框。
上述如本申请图5所示实施例揭示的文本检测装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1和图4的方法,并实现文本检测装置在图1和图4所示实施例中的功能,本申请实施例在此不再赘述。
当然,除了软件实现方式之外,本申请的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1和图4所示实施例的方法,并具体用于执行以下操作:
获取包含文本的图片;
对所述图片进行文本检测,得到检测结果,所述检测结果中包括文本框和非文本框;
基于预先训练的分类模型对所述检测结果中的文本框和非文本框进行分类,得到文本框和非文本框。
图6是本申请的一个实施例文本检测装置60的结构示意图。请参考图6,在一种软件实施方式中,所述文本检测装置60可包括:获取单元61、文本检测单元62和分类单元63,其中:
获取单元61,获取包含文本的图片;
文本检测单元62,对所述图片进行文本检测,得到检测结果,所述检测结果中包括文本框和非文本框;
分类单元63,基于预先训练的分类模型对所述检测结果中的文本框和非文本框进行分类,得到文本框和非文本框。
可选地,所述分类单元63,通过以下方式确定得到所述分类模型:
获取样本图片,所述样本图片中包括已标注的样本文本框和样本非文本框;
提取所述样本图片中的所述样本文本框和所述样本非文本框;
基于所述样本文本框和所述样本非文本框进行学习训练,得到所述分类模型。
可选地,所述分类单元63,在基于所述样本文本框和所述样本非文本框进行学习训练之前,还包括:
对所述样本文本框和所述样本非文本框进行标准化处理,得到具有相同大小的样本文本框和样本非文本框;
对标准化处理后得到的样本文本框和样本非文本框进行数据清洗,得到用于模型训练的样本文本框和样本非文本框。
可选地,所述分类单元63,基于所述样本文本框和所述样本非文本框进行学习训练,得到所述分类模型,包括:
构建神经网络模型,所述神经网络模型中包括卷积层、标准化层、池化层、丢弃层和全连接层;
基于所述神经网络模型对数据清洗后的样本文本框和样本非文本框进行学习训练,得到所述分类模型。
可选地,所述分类单元63,基于预先训练的分类模型对所述检测结果中的文本框和非文本框进行分类,包括:
将所述检测结果中的文本框和非文本框进行标准化处理,得到具有相同大小的文本框和非文本框;
将标准化处理后得到的文本框和非文本框输入所述分类模型,得到输出结果;
基于所述输出结果对所述检测结果中的文本框和非文本框进行分类。
可选地,所述输出结果中包括模型输入属于文本框的概率;
其中,所述分类单元63,基于所述输出结果对所述检测结果中的文本框和非文本框进行分类,包括:
针对所述检测结果中的任一待分类对象,确定与所述待分类对象对应的模型输出结果;
若所述模型输出结果中包括的概率大于或等于预设阈值,则确定所述待分类对象为文本框;
若所述模型输出结果中包括的概率小于所述预设阈值,则确定所述待分类对象为非文本框。
可选地,所述分类单元63,在得到文本框和非文本框后,还基于分类得到的文本框进行文本识别,得到所述图片中的文本。
本申请实施例提供的文本检测装置60还可执行图1和图4的方法,并实现文本检测装置在图1和图4所示实施例的功能,本申请实施例在此不再赘述。
总之,以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
Claims (10)
1.一种文本检测方法,其特征在于,包括:
获取包含文本的图片;
对所述图片进行文本检测,得到检测结果,所述检测结果中包括文本框和非文本框;
基于预先训练的分类模型对所述检测结果中的文本框和非文本框进行分类,得到文本框和非文本框。
2.如权利要求1所述的方法,其特征在于,所述分类模型通过以下方式确定得到:
获取样本图片,所述样本图片中包括已标注的样本文本框和样本非文本框;
提取所述样本图片中的所述样本文本框和所述样本非文本框;
基于所述样本文本框和所述样本非文本框进行学习训练,得到所述分类模型。
3.如权利要求2所述的方法,其特征在于,在基于所述样本文本框和所述样本非文本框进行学习训练之前,所述方法还包括:
对所述样本文本框和所述样本非文本框进行标准化处理,得到具有相同大小的样本文本框和样本非文本框;
对标准化处理后得到的样本文本框和样本非文本框进行数据清洗,得到用于模型训练的样本文本框和样本非文本框。
4.如权利要求3所述的方法,其特征在于,基于所述样本文本框和所述样本非文本框进行学习训练,得到所述分类模型,包括:
构建神经网络模型,所述神经网络模型中包括卷积层、标准化层、池化层、丢弃层和全连接层;
基于所述神经网络模型对数据清洗后的样本文本框和样本非文本框进行学习训练,得到所述分类模型。
5.如权利要求1所述的方法,其特征在于,基于预先训练的分类模型对所述检测结果中的文本框和非文本框进行分类,包括:
将所述检测结果中的文本框和非文本框进行标准化处理,得到具有相同大小的文本框和非文本框;
将标准化处理后得到的文本框和非文本框输入所述分类模型,得到输出结果;
基于所述输出结果对所述检测结果中的文本框和非文本框进行分类。
6.如权利要求5所述的方法,其特征在于,所述输出结果中包括模型输入属于文本框的概率;
其中,基于所述输出结果对所述检测结果中的文本框和非文本框进行分类,包括:
针对所述检测结果中的任一待分类对象,确定与所述待分类对象对应的模型输出结果;
若所述模型输出结果中包括的概率大于或等于预设阈值,则确定所述待分类对象为文本框;
若所述模型输出结果中包括的概率小于所述预设阈值,则确定所述待分类对象为非文本框。
7.如权利要求1所述的方法,其特征在于,在得到文本框和非文本框后,所述方法还包括:
基于分类得到的文本框进行文本识别,得到所述图片中的文本。
8.一种文本检测装置,其特征在于,包括:
获取单元,获取包含文本的图片;
文本检测单元,对所述图片进行文本检测,得到检测结果,所述检测结果中包括文本框和非文本框;
分类单元,基于预先训练的分类模型对所述检测结果中的文本框和非文本框进行分类,得到文本框和非文本框。
9.一种电子设备,其特征在于,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,该可执行指令在被执行时使该处理器执行以下操作:
获取包含文本的图片;
对所述图片进行文本检测,得到检测结果,所述检测结果中包括文本框和非文本框;
基于预先训练的分类模型对所述检测结果中的文本框和非文本框进行分类,得到文本框和非文本框。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下方法:
获取包含文本的图片;
对所述图片进行文本检测,得到检测结果,所述检测结果中包括文本框和非文本框;
基于预先训练的分类模型对所述检测结果中的文本框和非文本框进行分类,得到文本框和非文本框。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011387915.4A CN112183523A (zh) | 2020-12-02 | 2020-12-02 | 一种文本检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011387915.4A CN112183523A (zh) | 2020-12-02 | 2020-12-02 | 一种文本检测方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112183523A true CN112183523A (zh) | 2021-01-05 |
Family
ID=73918363
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011387915.4A Pending CN112183523A (zh) | 2020-12-02 | 2020-12-02 | 一种文本检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112183523A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114065868A (zh) * | 2021-11-24 | 2022-02-18 | 马上消费金融股份有限公司 | 文本检测模型的训练方法、文本检测方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102750540A (zh) * | 2012-06-12 | 2012-10-24 | 大连理工大学 | 基于形态滤波增强的最稳定极值区视频文本检测方法 |
CN105761201A (zh) * | 2016-02-02 | 2016-07-13 | 山东大学 | 一种翻译图片中文字的方法 |
CN106156766A (zh) * | 2015-03-25 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 文本行分类器的生成方法及装置 |
CN106796647A (zh) * | 2014-09-05 | 2017-05-31 | 北京市商汤科技开发有限公司 | 场景文本检测系统和方法 |
CN108664968A (zh) * | 2018-04-18 | 2018-10-16 | 江南大学 | 一种基于文本选取模型的无监督文本定位方法 |
CN108898138A (zh) * | 2018-05-30 | 2018-11-27 | 西安理工大学 | 基于深度学习的场景文本识别方法 |
CN109344914A (zh) * | 2018-10-31 | 2019-02-15 | 焦点科技股份有限公司 | 一种端到端的不定长文字识别的方法和系统 |
CN111062393A (zh) * | 2019-11-08 | 2020-04-24 | 西安理工大学 | 一种基于谱聚类的自然场景汉字分割方法 |
CN111832390A (zh) * | 2020-05-26 | 2020-10-27 | 西南大学 | 一种手写古文字检测方法 |
-
2020
- 2020-12-02 CN CN202011387915.4A patent/CN112183523A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102750540A (zh) * | 2012-06-12 | 2012-10-24 | 大连理工大学 | 基于形态滤波增强的最稳定极值区视频文本检测方法 |
CN106796647A (zh) * | 2014-09-05 | 2017-05-31 | 北京市商汤科技开发有限公司 | 场景文本检测系统和方法 |
CN106156766A (zh) * | 2015-03-25 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 文本行分类器的生成方法及装置 |
CN105761201A (zh) * | 2016-02-02 | 2016-07-13 | 山东大学 | 一种翻译图片中文字的方法 |
CN108664968A (zh) * | 2018-04-18 | 2018-10-16 | 江南大学 | 一种基于文本选取模型的无监督文本定位方法 |
CN108898138A (zh) * | 2018-05-30 | 2018-11-27 | 西安理工大学 | 基于深度学习的场景文本识别方法 |
CN109344914A (zh) * | 2018-10-31 | 2019-02-15 | 焦点科技股份有限公司 | 一种端到端的不定长文字识别的方法和系统 |
CN111062393A (zh) * | 2019-11-08 | 2020-04-24 | 西安理工大学 | 一种基于谱聚类的自然场景汉字分割方法 |
CN111832390A (zh) * | 2020-05-26 | 2020-10-27 | 西南大学 | 一种手写古文字检测方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114065868A (zh) * | 2021-11-24 | 2022-02-18 | 马上消费金融股份有限公司 | 文本检测模型的训练方法、文本检测方法及装置 |
CN114065868B (zh) * | 2021-11-24 | 2022-09-02 | 马上消费金融股份有限公司 | 文本检测模型的训练方法、文本检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107358157B (zh) | 一种人脸活体检测方法、装置以及电子设备 | |
CN110378235B (zh) | 一种模糊人脸图像识别方法、装置及终端设备 | |
KR20210110823A (ko) | 이미지 인식 방법, 인식 모델의 트레이닝 방법 및 관련 장치, 기기 | |
CN112634209A (zh) | 一种产品缺陷检测方法和装置 | |
CN107368827B (zh) | 字符识别方法及装置、用户设备、服务器 | |
CN110717366A (zh) | 文本信息的识别方法、装置、设备及存储介质 | |
CN111860502A (zh) | 图片表格的识别方法、装置、电子设备及存储介质 | |
US20170308742A1 (en) | Facial expression recognition using relations determined by class-to-class comparisons | |
CN109299276B (zh) | 一种将文本转化为词嵌入、文本分类方法和装置 | |
CN114782412A (zh) | 图像检测方法、目标检测模型的训练方法及装置 | |
CN111310826A (zh) | 样本集的标注异常检测方法、装置及电子设备 | |
CN112200218B (zh) | 一种模型训练方法、装置及电子设备 | |
CN111368632A (zh) | 一种签名识别方法及设备 | |
CN108520263B (zh) | 一种全景图像的识别方法、系统及计算机存储介质 | |
CN112417970A (zh) | 目标对象识别方法、装置和电子系统 | |
CN115937879A (zh) | 基于多尺度特征融合网络的学术内容目标检测方法及系统 | |
CN110232381B (zh) | 车牌分割方法、装置、计算机设备及计算机可读存储介质 | |
CN112183523A (zh) | 一种文本检测方法和装置 | |
CN111382638A (zh) | 一种图像检测方法、装置、设备和存储介质 | |
CN113780116A (zh) | 发票分类方法、装置、计算机设备和存储介质 | |
CN113129298A (zh) | 文本图像的清晰度识别方法 | |
CN116486153A (zh) | 图像分类方法、装置、设备及存储介质 | |
CN115841672A (zh) | 文字检测识别方法、装置及设备 | |
CN115984671A (zh) | 模型在线更新方法、装置、电子设备及可读存储介质 | |
CN111597966B (zh) | 一种表情图像识别方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210105 |