CN111967545A - 文本检测方法、装置、电子设备及计算机存储介质 - Google Patents
文本检测方法、装置、电子设备及计算机存储介质 Download PDFInfo
- Publication number
- CN111967545A CN111967545A CN202011157370.8A CN202011157370A CN111967545A CN 111967545 A CN111967545 A CN 111967545A CN 202011157370 A CN202011157370 A CN 202011157370A CN 111967545 A CN111967545 A CN 111967545A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- region
- lines
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供了一种文本检测方法、装置、电子设备及计算机存储介质,该文本检测方法包括:先对待检测文本图像进行特征提取,得到待检测文本图像对应的文本区域概率图和文本区域编号概率图;再根据文本区域概率图对应的文本区域二值图和文本区域编号概率图,确定文本区域编号图;根据文本区域编号图和不同区块中文本行对应的不同编号阈值,即可得到待检测文本图像中每个真实的文本区域的坐标,获得待检测文本图像的文本检测结果。通过本申请实施例的方案,无需反复卷积,也无需对特征映射图进行遍历并逐个进行框内是否存在文本的分类判定,减少了文本检测计算量,也节省了计算资源,提高了文本检测效率和速度。
Description
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种文本检测方法、装置、电子设备及计算机存储介质。
背景技术
文本检测是一种检测图像中的文本区域并标记其边界框的技术,文本检测应用范围广泛,是很多计算机视觉任务的前置步骤,比如图像搜索、文字识别,身份认证和视觉导航等。
文本检测的主要目的是定位文本行或字符在图像中的位置,目前一种比较流行的文本检测方法是基于滑动窗口的文本检测方法。该方法基于通用目标检测的思想,设置大量不同长宽比、不同大小的锚点框,以这些锚点框为滑动窗口,在图像上或者在从图像上进行过卷积操作得到的特征映射图上进行遍历搜索,对于每个搜索到的位置框,进行框内是否是文本的分类判定。
但是,这种方法计算量过大,不仅需要耗费大量计算资源,而且耗时较长,降低文本检测的速度。
发明内容
有鉴于此,本申请实施例提供一种文本检测方法、装置、电子设备及计算机存储介质,用以客服现有技术中在检测文本时耗费大量计算资源、耗时较长的缺陷。
第一方面,本申请实施例提供了一种文本检测方法,所述方法包括:
对待检测文本图像进行特征提取,得到所述待检测文本图像对应的文本区域概率图和文本区域编号概率图,其中,所述文本区域编号概率图用于表征文本像素点在预设的不同区块中不同的文本行编号;
根据所述文本区域概率图对应的文本区域二值图和所述文本区域编号概率图,确定文本区域编号图;
根据所述文本区域编号图和不同区块中文本行对应的不同编号阈值,获得所述待检测文本图像的文本检测结果。
第二方面,本申请实施例提供了一种文本检测装置,所述装置包括特征提取模块、编号图确定模块和结果获取模块;
所述特征提取模块用于对待检测文本图像进行特征提取,得到所述待检测文本图像对应的文本区域概率图和文本区域编号概率图,其中,所述文本区域编号概率图用于表征文本像素点在预设的不同区块中不同的文本行编号;
所述编号图确定模块用于根据所述文本区域概率图对应的文本区域二值图和所述文本区域编号概率图,确定文本区域编号图;
所述结果获取模块用于根据所述文本区域编号图和不同区块中文本行对应的不同编号阈值,获得所述待检测文本图像的文本检测结果。
第三方面,本申请实施例提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一个可执行指令,所述可执行指令使所述处理器执行如第一方面或第一方面的任意一个实施例中所述的文本检测方法对应的操作。
第四方面,本申请实施例提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面或第一方面的任意一个实施例中所述的文本检测方法。
本申请实施例提供的文本检测方案,先对待检测文本图像进行特征提取,得到待检测文本图像对应的文本区域概率图和文本区域编号概率图,其中,文本区域编号概率图用于表征文本像素点在预设的不同区块中不同的文本行编号;再根据文本区域概率图对应的文本区域二值图和文本区域编号概率图,确定文本区域编号图;根据文本区域编号图和不同区块中文本行对应的不同编号阈值,即可得到待检测文本图像中每个真实的文本区域的坐标,获得待检测文本图像的文本检测结果。对于待检测文本图像来说,可以将待检测文本图像划分成至少一个区块,并对不同区块中的不同文本行进行编号,再根据不同的编号以及不同区块中文本行对应的不同编号阈值区分出每个区块中的多个文本行,从而获得文本检测结果。通过本申请实施例的方案,无需反复卷积,也无需对特征映射图进行遍历并逐个进行框内是否存在文本的分类判定,减少了文本检测计算量,也节省了计算资源,提高了文本检测效率和速度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种文本检测方法的流程图;
图2为本申请实施例提供的一种待检测文本图像中区块的示意图;
图3为本申请实施例提供了一种区块中文本行编号的示意图;
图4为本申请实施例提供的另一种文本检测方法的流程图;
图5为本申请实施例提供的一种文本检测装置的结构框图;
图6为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
需要说明的是,本申请中的第一和第二只是为了区分名称,并不代表顺序关系,不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量,例如,第一文本特征、第二文本特征,第一损失值、第二损失值;本申请中多个指两个及两个以上,例如,多个文本行。
下面结合本申请实施例附图进一步说明本申请实施例具体实现。
实施例一、
本申请实施例一提供一种文本检测方法,如图1所示,图1为本申请实施例提供的一种文本检测方法的流程图,该文本检测方法包括以下步骤:
步骤S101、对待检测文本图像进行特征提取,得到待检测文本图像对应的文本区域概率图和文本区域编号概率图。
需要说明的是,本申请实施例中的文本检测方法可适用于具有各种文本密度的文本检测,包括但不限于常规密度文本、密集密度文本、稀疏密度文本,尤其是密集密度文本。其中,确定某个文本是否为密集文本的具体指标可以由本领域技术人员根据实际情况适当设置,包括但不限于:根据文本之间的间距(如间距小于2磅等)、根据单位范围内的文本的数量(如每平方厘米中的文本数量多于3个等)等等,本申请实施例对此不作限制。
本申请中文本区域概率图用于表征待检测文本图像中的像素点属于文本或是背景的概率;文本区域编号概率图用于表征文本像素点在预设的不同区块中不同的文本行编号,待检测文本图像包括至少一个区块,每个区块中文本行对应不同的编号,区块中每个文本行可根据文本行编号进行区分,一个文本行中的所有像素点对应一个编号。
如图2所示,图2为本申请实施例提供的一种待检测文本图像中区块的示意图,图2中的待检测文本图像被划分为9个区块,分别是区块1、区块2、区块3、区块4、区块5、区块6、区块7、区块8、区块9。需要说明的是,本申请实施例中对待检测图像进行分区时,是按照从左到右、从上到下的方式,将整个图像平均分成9个区块,可以理解是,也可以将整个图像分为4个区块或12个区块,可以根据实际情况对区块的数量进行调整,本申请实施例对区块数量不做限制;本申请实施例也可以仅从上到下将整个图像分为9个区块,或者是其他方式的划分,本申请实施例对区块的划分方式不做限制,只要是划分得到的区块中的文本行数量在预设数量内即可,可选地,预设数量是10个文本行。
其中,每个区块中包括至少一个文本行,以区块1为例进行说明,如图3所示,图3为本申请实施例提供了一种区块中文本行编号的示意图,图3中的区块包括9个文本行,文本行编号分别是0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9,每个文本行相差0.1,以文本行编号是0.1为例进行说明,文本行编号是0.1的文本行中的所有像素点的像素值均是0.1,可以理解的是,若区块中包括4个文本行,文本行编号可以是0.2、0.4、0.6、0.8,每个文本行相差0.2,可以根据实际情况对文本行编号进行调整,只要是能将文本行与其他的文本行区分开即可。
步骤S102、根据文本区域概率图对应的文本区域二值图和文本区域编号概率图,确定文本区域编号图。
本申请实施例根据预设阈值对文本区域概率图进行二值化,从而获得待检测文本图像的文本区域二值图。其中,预设阈值可以由本领域技术人员根据实际需求适当设置,使得待检测文本图像中的像素点被有效区分即可,一种可实现的方式中,预设阈值可以根据模型训练阶段时的阈值设定,另一种可实现的方式中,预设阈值可以通过对大量的文本区域概率图进行二值化处理中,对使用的大量阈值的分析确定。
根据文本区域二值图和文本区域编号概率图确定文本区域编号图,文本区域编号图用于表征文本像素点在不同区块中的不同文本行编号。
步骤S103、根据文本区域编号图和不同区块中文本行对应的不同编号阈值,获得待检测文本图像的文本检测结果。
不同区块中文本行对应的不同编号阈值表征在不同区块中用于对不同文本行进行区分时所用的预设阈值,预设阈值可以由本领域技术人员根据实际需求适当设置,使得像素点的文本行编号被有效区分即可。如图3所示,文本行编号分别是0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9,相邻文本行相差0.1,图3中对9个文本行进行区分时所用的预设阈值为0.1,若区块中包括4个文本行,文本行编号分别是0.2、0.4、0.6、0.8,相邻文本行相差0.2,则对该4个文本行进行区分时所用的预设阈值为0.2。
根据不同区块中文本行对应的不同编号阈值对文本区域编号图中的文本行编号进行区分,可以得到多个文本行,从而获得待检测文本图像的文本检测结果。
对于待检测文本图像来说,可以将待检测文本图像划分成至少一个区块,并对不同区块中的不同文本行进行编号,根据本申请提供的文本检测方法,在进行文本检测时,可以根据不同的编号以及不同区块中文本行对应的不同编号阈值区分出每个区块中的多个文本行,即可得到待检测文本图像中每个真实的文本区域的坐标,从而获得文本检测结果。通过本申请实施例的方案,无需反复卷积,也无需对特征映射图进行遍历并逐个进行框内是否存在文本的分类判定,减少了文本检测计算量,也节省了计算资源,提高了文本检测效率和速度。
本实施例的文本检测方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、PC机、甚至高性能的移动终端等。
实施例二、
本申请实施例二基于实施例一的方案,可选地,在本申请的一种实施例中,其中的步骤S102可以实现为步骤102a和步骤102b。
示例地,步骤102a、对文本区域概率图进行二值化,得到文本区域二值图;步骤102b、将文本区域二值图和文本区域编号概率图进行与操作,得到文本区域编号图。
其中,通过与操作,可以对文本区域编号概率图中有效像素点进行保留,或,对文本区域编号概率图中噪声像素点进行滤除。
可选地,在本申请的一种实施例中,步骤102b通过以下方式实现:将文本区域编号概率图中与文本区域二值图中表示文本的像素点的对应位置的像素点确定为有效像素点,将保留有效像素点后的文本区域编号概率图确定为文本区域编号图;或者,将文本区域编号概率图中与文本区域二值图中表示非文本的像素点的对应位置的像素点确定为噪声像素点,将滤除噪声像素点后的文本区域编号概率图确定为文本区域编号图。
文本区域二值图中像素点的像素值是0或1,像素值0表示非文本、像素值1表示文本,将文本区域二值图和文本区域编号概率图进行与操作之后,可以将文本区域编号概率图中与像素值1对应位置的像素点的像素值变为文本行编号,也就是作为有效像素点保留下来,并将文本区域编号概率图中与像素值0对应位置的像素点的像素值变为0,也就是作为噪声像素点进行滤除,从而得到文本区域编号图。本申请实施例通过将文本区域二值图和文本区域编号概率图进行与操作,将噪声像素点进行滤除,提高了文本区域编号图中文本像素点在不同区块中不同文本行编号的准确性。
基于实施例一的方案,可选地,在本申请的一种实施例中,其中的步骤S103可以实现为步骤103a和步骤103b。
示例地,步骤103a、根据文本区域编号图和不同区块中文本行对应的不同编号阈值,对待检测文本图像中的至少一个区块中的像素点进行区分,得到多个文本行的坐标;步骤103b、根据多个文本行的坐标,获得待检测文本图像的文本检测结果。
可以理解的是,像素点不仅包括用于表示文本行编号的像素值,还包括用于表征所属区块的区块标识,一种可实现的方式中,文本区域编号图中区块位置坐标是已知的,例如图2中的区块1到区块9,本申请实施例仅需要对每个区块中的像素点的像素值进行区分即可;另一种可实现的方式中,文本区域编号图中像素点包括区块标识,先根据区块标识将像素点分类到不同的区块中,例如,先将多个像素点分类到9个区块中,再针对每个区块,对每个区块中的像素点的像素值进行区分;以上两种方式均可实现对像素点进行区分,得到多个文本行的坐标,对此本申请实施例不做限制。
在对每个区块中的像素点进行区分,得到多个文本行的坐标时,示例地,例如图3中的文本行编号0.1到文本行编号0.9,包括9个文本行,该示例中文本行对应的不同编号阈值设置为0.1,可使得像素点的文本行编号被有效区分,对图3中的像素点进行区分,可以得到9个文本行的坐标,从而获得待检测文本图像的文本检测结果。需要说明的是,不同区块中文本行对应的不同编号阈值表征在不同区块中用于对不同文本行进行区分时所用的预设阈值,预设阈值可以由本领域技术人员根据实际需求适当设置,若区块中包5个文本行,文本行编号分别是0.1、0.3、0.5、0.7、0.9,相邻文本行相差0.2,则对该5个文本行进行区分时,将文本行对应的不同编号阈值设置为0.2。
可选地,在本申请的一种实施例中,步骤103a还可以包括:根据文本区域编号图和不同区块中文本行对应的不同编号阈值,对待检测文本图像中的每个区块中的像素点进行区分,将编号相同的像素点确定为一个文本行,得到每个区块中的至少一个文本行;针对每个文本行,根据文本行包括的像素点坐标确定文本行的坐标。
一个文本行中的所有像素点对应一个编号,在对每个区块中的像素点进行区分时,编号相同的像素点是属于同一个文本行,可以得到一个文本行中的像素点,然后根据该文本行包括的像素点坐标得到该文本行的坐标。
本申请实施例通过对待检测图像进行分区,得到至少一个区块,每个区块中包括至少一个文本行,会存在一个文本行被多个区块截断的情况,也就是一个文本行横跨多个区块,因此在根据多个文本行的坐标,获得待检测文本图像的文本检测结果时,可选地,在本申请的一种实施例中,步骤103b还可以包括:步骤103b1、对多个文本行的坐标进行分析,筛选出至少两个跨区文本行,跨区文本行用于指示同一个文本行被至少两个相邻区块截断形成的文本行;步骤103b2、根据跨区文本行的坐标的几何位置关系,对至少两个跨区文本行进行合并,得到至少一个合并文本行;步骤103b3、根据多个文本行中除去至少两个跨区文本行外的文本行的坐标,和至少一个合并文本行的坐标,获得待检测文本图像的文本检测结果。
以一个待检测文本图像包括多个区块、一个区块包括多个文本行为例进行说明,在得到多个文本行之后,对多个文本行的坐标进行分析,筛选出至少两个跨区文本行,文本行包括跨区文本行,跨区文本行可能横跨两个区块,也可能横跨四个区块,对此本申请实施例不做限制,以横跨两个区块的跨区文本行为例进行说明,根据跨区文本行的坐标的几何位置关系将相邻的两个跨区文本行进行合并,得到一个合并文本行。本申请实施例还对筛选多个文本行中的跨区文本行,并将跨区文本行进行合并,然后根据多个文本行中除去所有跨区文本行之外的文本行以及合并文本行,获得待检测文本图像的文本检测结果,提高了检测得到的文本行的准确性。
可选地,在本申请的一种实施例中,步骤103b1可以具体为以下实现方式,对多个文本行的坐标进行统计分析,将具有相同坐标的两个文本行确定为两个跨区文本行,筛选得到至少两个跨区文本行。
本申请实施例是根据文本行的坐标对多个文本行进行筛选,以一个文本行被两个区块截断成两个跨区文本行为例进行说明,若两个文本行具有相同的坐标,说明这两个文本行应该是同一文本行被区块截断的两个文本行,则将这两个文本行确定为两个跨区文本行,可以理解的是,一个文本行也可能被四个区块截断成四个跨区文本行,对此,在对多个文本行进行筛选时,可以根据相同坐标筛选出每两个跨区文本行,从而得到四个跨区文本行,对此本申请实施例不做限制。
实施例三、
本申请实施例三基于实施例一和实施例二的方案,其中的步骤S101还可以实现为下述步骤101a-101d。
步骤101a、对待检测文本图像进行第一文本特征提取。
本申请实施例在对待检测文本图像进行特征提取时,可以将待检测文本图像输入残差网络部分(如Resnet网络),进行第一文本特征的提取,如对输入图像提取纹理、边缘、角点和语义信息等特征,这些特征由4组大小不同的特征映射表征。以待检测文本图像为原始图像、Resnet网络对原始图像进行特征提取为例进行说明,Resnet18网络由4个block块串联构建,每个block块包括若干层卷积操作,第一个block块输出的特征映射大小为原始图像的1/4,第二个block块输出的特征映射大小为原始图像的1/8,第三个block块输出的特征映射大小为原始图像的1/16,第四个block块输出的特征映射大小为原始图像的1/32,每个block块输出的特征映射数量都为128,然后将4组大小不同的特征映射全部通过插值的方式将其大小变为原始图像的1/4大小,并串联在一起,得到第一文本特征。
步骤101b、对第一文本特征的特征进行增强处理得到第二文本特征。
将步骤101a提取到的第一文本特征,经过两个特征金字塔增强模块(FeaturePyramid Enhancement Module,简称FPEM)模块,对特征进行增强处理,再次提取纹理、边缘、角点和语义信息等第二文本特征,并得到该第二文本特征对应的4组特征映射。
步骤101c、对第二文本特征进行上采样,并将上采样后的文本特征进行串联,得到串联后的特征。
将得到的4组特征映射的特征图大小全部上采样到原始图像1/4大小,并串联在一起,此处串联的含义是指将4组与原始图像1/4大小一样的特征映射,以通道为轴串在一起,举例来说,如果每组特征映射通道为512,则串联在一起之后得到一组特征映射,其通道数量为512。
步骤101d、将串联后的特征进行卷积操作,得到待检测文本图像对应的文本区域概率图和文本区域编号概率图。
将串联后的特征映射进行一次卷积操作,两次反卷积操作,得到与输入的原始图像大小一致的2通道输出,其中第一个通道表示文本区域概率图,用于表征待检测文本图像中的像素点属于文本或是背景的概率,第二个通道表示文本区域编号概率图,用于表征文本像素点在预设的不同区块中不同的文本行编号。
需要说明的是,相较于单个FPEM模块,两个FPEM模块可以达到最好的效果。每个FPEM模块的处理相同,包括:对得到的4组大小不同的多通道特征映射,按照从大到小的,从前往后的次序,依次称为正向第一、正向第二、正向第三、正向第四组特征映射,先对正向第四组特征映射进行2倍上采样,即将其大小扩大2倍,然后将其与正向第三组特征映射按照通道逐点相加,对结果进行一次深度可分离卷积操作之后,再进行一次卷积、批归一化和激活函数作用操作,得到的结果称为反向第二组特征映射,同样的操作用于反向第二组特征映射和正向第二组特征映射得到反向第三组特征映射,然后同样的操作作用于反向第三组特征映射和正向第一组特征映射,得到反向第四组特征映射,同时将正向第四组特征映射视为反向第一组特征映射,由此得到4组反向特征映射;将第四组反向特征映射作为目标第一组特征映射,然后对目标第一组特征映射进行2倍下采样,即大小缩小2倍,然后将其与反向第三组特征映射按通道逐点相加,对结果进行一次深度可分离卷积操作之后,再进行一次卷积、批归一化和激活函数作用操作,得到的结果称为目标第二组特征映射,同样的操作作用于目标第二组特征映射和反向第二组特征映射,得到目标第三组特征映射,然后同样的操作作用于目标第三组特征映射和反向第一组特征映射,得到目标第四组特征映射,目标第一、目标第二、目标第三和目标第四组特征映射便是FPEM模块的输出。第二个FPEM模块是以第一个FPEM模块的输出作为输入,进行同样的操作,得到输出。该输出中包括形成至少一个特征映射图的特征,或者说,输出的特征可以形成特征映射图。
实施例四、
本申请实施例四基于实施例一至实施例三的方案,在实现步骤S101中的特征提取时,可以通过文本检测模型进行特征提取,示例地,将待检测文本图像输入文本检测模型,通过文本检测模型获得待检测文本图像对应的文本区域概率图和文本区域编号概率图。
本申请实施例在应用阶段时,通过训练好的文本检测模型获得待检测文本图像对应的文本区域概率图和文本区域编号概率图。而在训练阶段,还需要执行实施例三中的步骤101a-步骤101d,在得到文本区域概率图和文本区域编号概率图之后,还对文本区域概率图和文本区域编号概率图进行训练,从而得到训练好的文本检测模型。
可选地,在本申请的一种实施例中,在将待检测文本图像输入文本检测模型之前,本申请还包括对文本检测模型进行训练的过程,使用训练图像样本,对文本检测模型进行训练。
示例地,获取训练图像样本,并将图像样本输入初始文本检测模型;通过初始文本检测模型得到文本区域预测概率图和文本区域编号预测概率图;根据文本区域预测概率图和预设的交并比损失函数,获得对应的第一损失值;且,根据文本区域编号预测概率图和预设的平滑L1损失函数,获得对应的第二损失值;根据第一损失值和第二损失值对初始文本检测模型进行训练,得到文本检测模型。
本申请实施例是使用交并比值(DiceLoss)作为目标损失函数对文本区域预测概率图进行训练优化,计算文本区域预测概率图对应的第一损失值,并使用平滑L1损失函数作为目标损失函数对文本区域编号预测概率图进行训练优化,计算文本区域编号预测概率图对应的第二损失值,并根据第一损失值和第二损失值对文本检测模型进行训练,直至达到训练终止条件,例如,训练次数达到预设次数,或者,损失值达到预设阈值等。
在获取训练图像样本时,可选地,在本申请的一种实施例中,获取初始训练图像样本,对初始训练图像样本进行分区,得到多个区块样本,每个区块样本中包括预设数量的文本行样本;对每个区块样本中的文本行样本进行编号,得到初始训练图像样本的标签信息,训练图像样本包括初始训练图像样本和初始训练图像样本的标签信息。
在对初始训练图像样本中文本行样本添加编号标签时,若一个待检测图像上有100个文本行,则将每个文本行包含的所有像素点的像素值设置为同一个值,例如,第一个文本行的值设置为1,第二个文本行的像素值设置为2,依次类推,在预测文本区域编号概率图之后,就可以直接根据文本行编号进行排序,从而得到真实的文本区域。但是如果这样设置文本行编号标签,那么损失函数是没办法设置的,因为待检测图像可能有100个文本行,对于100个文本行来说,文本行编号从1到100之间的极差太大,使得损失函数倾向于把所有文本行编号都变成50左右,最终没法达成根据文本行编号区分文本行的效果,极差用于表征最小文本行编号和最大文本行编号之间的差值。但是如果待检测图像只有5个文本行,可以让第一个文本行包含的所有像素点的像素值设置为0.2,第二个文本行的值设置为0.4,依次类推,这个待检测图像的极差保持在1以内,极差越小越容易根据损失函数对文本行编号进行训练。可以理解的是,也可以将待检测图像的极差设置在0.3以内,但是极差越小,相邻的文本行编号之间的梯度也就越小,在根据文本行编号对文本行进行区分时,容易被忽略,也就是根据梯度太小的文本行编号区分不出来每个文本行,梯度表示两个最近的文本行编号之间的差值。因此,需要在极差和损失函数之间选择一个平衡点。因此本申请实施例通过分区的方式,对初始训练图像样本进行分区,得到多个区块样本,可以根据实际情况对区块样本的数量进行调整,使得划分得到的区块中的文本行数量在预设数量内即可,可选地,预设数量是10个文本行。例如,若一个待检测图像包含30个文本行,可以将该待检测图像划分为4个区块,若一个待检测图像包含70个文本行,可以将该待检测图像划分为9个区块等。
在对每个区块样本中的文本行样本添加编号标签时,只要是能将文本行与其他的文本行区分开、且极差设置在1以内即可,从而得到初始训练图像样本的标签信息。本申请实施例中通过对初始训练图像样本进行分区,得到多个区块样本,并对每个区块样本中的文本行样本进行独立编号,从而减小文本行编号之间的极差值,得到初始训练图像样本的标签信息,避免因为图像中文本行较多导致文本行编号之间的极差过大的问题,使得根据初始训练图像样本的标签信息能够更好的训练文本检测模型,提高训练文本检测模型的准确性。
在对每个区块样本中的文本行样本进行编号时,可选地,在本申请的一种实施例中,根据不同区块样本中文本行样本对应的不同编号阈值,对每个区块样本中的每个文本行样本进行编号,得到初始训练图像样本的标签信息,一个文本行样本中的所有像素点对应一个编号。
文本行样本对应的不同编号阈值表征在不同区块中用于对不同文本行样本进行编号时所用的预设阈值,预设阈值可以由本领域技术人员根据实际需求适当设置,使得文本行样本的不同编号能够被有效区分即可,从而得到初始训练图像样本的标签信息。例如,若某一区块中包括9个文本行样本,则将文本行样本对应的不同编号阈值设置为0.1,对9个文本行样本分别编号为0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9;若某一区块中包括3个文本行样本,则将文本行样本对应的不同编号阈值设置为0.4,对3个文本行样本分别编号为0.1、0.5、0.9。
可以理解的是,在对每个区块样本中的每个文本行样本进行编号时,不仅对文本行样本添加文本行编号,同时还对文本行样本添加用于表征所属区块的区块标识,从而得到初始训练图像样本的标签信息。
对每个区块样本中的文本行样本进行编号时,可选地,在本申请的一种实施例中,若确定存在横跨至少两个区块样本的文本行样本,则对文本行样本在不同区块样本中的面积进行计算,得到对应的多个文本行面积值;将多个文本行面积值中最大面积值对应的区块样本作为文本行样本对应的区块样本,并在文本行样本对应的区块样本对文本行样本进行编号。
本申请实施例训练图像样本进行分区,得到至少一个区块样本,每个区块样本中包括至少一个文本行样本,会存在一个文本行样本被多个区块样本截断的情况,一种可实现的方式中,不管是否存在横跨区块样本的文本行样本,均对每个区块样本中的文本行样本添加文本行编号,得到初始训练图像样本的标签信息;另一种可实现的方式中,还计算横跨区块样本的文本行样本的面积,得到多个跨区文本行样本的面积值,选择面积值中最大面积值对应的区块样本,仅在该区块样本中对文本行样本添加文本行编号,其他的区块样本中不再对文本行样本添加文本行编号。示例地,一个文本行样本横跨区块1和区块2,计算文本行样本分布在区块1和区块2中的面积,文本行样本分布在区块1中的面积大于分布在区块2中的面积,则在区块1中对该文本行样本添加文本行编号,在区块2中不再对该文本行样本添加文本行编号。本申请实施例中在对文本行样本添加文本行编号时,通过对文本行样本在不同区块样本中的面积进行计算,仅在最大面积值对应的区块样本中对文本行样本添加文本行编号,从而得到初始训练图像样本的标签信息,减少了对初始文本检测模型进行训练时的计算量,也节省了计算资源,提高了初始文本检测模型的训练效率和速度。
进一步的,列举一个具体的示例对本申请实施例中对待检测文本图像的文本检测进行说明,如图4所示,图4为本申请实施例提供的另一种文本检测方法的流程图,可以包括以下步骤:
步骤S401、将待检测的文本图像输入Resnet18网络,进行第一文本特征提取。
步骤S402、将提取到的第一文本特征,经过两个FPEM模块,再次提取第二文本特征,并得到该第二文本特征对应的4组特征映射。
步骤S403、将步骤S402得到的4组特征映射的特征图大小全部上采样到原始图像1/4大小,并串联在一起。
步骤S404、将串联后的特征映射进行一次卷积操作,两次反卷积操作,输出待检测文本图像对应的文本区域概率图和文本区域编号概率图。
步骤S405、根据设定阈值,对文本区域概率图进行二值化,得到文本区域二值图。
步骤S406、将文本区域二值图和文本区域编号概率图进行与操作,滤除噪声像素点,得到文本区域编号图。
步骤S407、对每个区块中的像素点进行不同编号阈值的区分操作,得到每个区块中的至少一个文本行。
步骤S408、对于横跨不同区块的文本行做合并处理,得到真实的文本区域坐标。
由上述过程可见,通过本申请提供的文本检测方法,将文本区域二值图和文本区域编号概率图进行与操作,将噪声像素点进行滤除,提高了文本区域编号图中文本像素点在不同区块中不同文本行编号的准确性,然后根据不同的编号以及不同区块中文本行对应的不同编号阈值,区分出每个区块中的多个文本行,并对横跨不同区块的文本行做合并处理,得到真实的文本区域坐标,从而获得文本检测结果,提高了文本区域检测的准确性。并且,相较于传统方式,无需反复卷积,也无需对特征映射图进行遍历并逐个进行框内是否存在文本的分类判定,减少了文本检测计算量,也节省了计算资源,提高了文本检测效率和速度。
实施例五、
本申请实施例提供了一种文本检测装置,如图5所示,图5为本申请实施例提供的一种文本检测装置,装置50包括特征提取模块501、编号图确定模块502和结果获取模块503;
特征提取模块501用于对待检测文本图像进行特征提取,得到待检测文本图像对应的文本区域概率图和文本区域编号概率图,其中,文本区域编号概率图用于表征文本像素点在预设的不同区块中不同的文本行编号;
编号图确定模块502用于根据文本区域概率图对应的文本区域二值图和文本区域编号概率图,确定文本区域编号图;
结果获取模块503用于根据文本区域编号图和不同区块中文本行对应的不同编号阈值,获得待检测文本图像的文本检测结果。
可选地,在本申请的一种实施例中,结果获取模块503还用于根据文本区域编号图和不同区块中文本行对应的不同编号阈值,对待检测文本图像中的至少一个区块中的像素点进行区分,得到多个文本行的坐标;根据多个文本行的坐标,获得待检测文本图像的文本检测结果。
可选地,在本申请的一种实施例中,结果获取模块503还用于根据文本区域编号图和不同区块中文本行对应的不同编号阈值,对待检测文本图像中的每个区块中的像素点进行区分,将编号相同的像素点确定为一个文本行,得到每个区块中的至少一个文本行;针对每个文本行,根据文本行包括的像素点坐标确定文本行的坐标。
可选地,在本申请的一种实施例中,结果获取模块503还用于对多个文本行的坐标进行分析,筛选出至少两个跨区文本行,跨区文本行用于指示同一个文本行被至少两个相邻区块截断形成的文本行;根据跨区文本行的坐标的几何位置关系,对至少两个跨区文本行进行合并,得到至少一个合并文本行;根据多个文本行中除去至少两个跨区文本行外的文本行的坐标,和至少一个合并文本行的坐标,获得待检测文本图像的文本检测结果。
可选地,在本申请的一种实施例中,结果获取模块503还用于对多个文本行的坐标进行统计分析,将具有相同坐标的两个文本行确定为两个跨区文本行,筛选得到至少两个跨区文本行。
可选地,在本申请的一种实施例中,编号图确定模块502还用于对文本区域概率图进行二值化,得到文本区域二值图;将文本区域二值图和文本区域编号概率图进行与操作,得到文本区域编号图。
可选地,在本申请的一种实施例中,特征提取模块501还用于对待检测文本图像进行第一文本特征提取;对第一文本特征的特征进行增强处理得到第二文本特征;对第二文本特征进行上采样,并将上采样后的文本特征进行串联,得到串联后的特征;将串联后的特征进行卷积操作,得到待检测文本图像对应的文本区域概率图和文本区域编号概率图。
可选地,在本申请的一种实施例中,特征提取模块501还用于将待检测文本图像输入文本检测模型,通过文本检测模型获得待检测文本图像对应的文本区域概率图和文本区域编号概率图。
可选地,在本申请的一种实施例中,文本检测装置50还包括训练模块,训练模块用于获取训练图像样本,并将图像样本输入初始文本检测模型;通过初始文本检测模型得到文本区域预测概率图和文本区域编号预测概率图;根据文本区域预测概率图和预设的交并比损失函数,获得对应的第一损失值;且,根据文本区域编号预测概率图和预设的平滑L1损失函数,获得对应的第二损失值;根据第一损失值和第二损失值对初始文本检测模型进行训练,得到文本检测模型。
可选地,在本申请的一种实施例中,训练模块还用于获取初始训练图像样本,对初始训练图像样本进行分区,得到多个区块样本,每个区块样本中包括预设数量的文本行样本;对每个区块样本中的文本行样本进行编号,得到初始训练图像样本的标签信息,训练图像样本包括初始训练图像样本和初始训练图像样本的标签信息。
可选地,在本申请的一种实施例中,训练模块还用于根据不同区块样本中文本行样本对应的不同编号阈值,对每个区块样本中的每个文本行样本进行编号,得到初始训练图像样本的标签信息,一个文本行样本中的所有像素点对应一个编号。
可选地,在本申请的一种实施例中,训练模块还用于若确定存在横跨至少两个区块样本的文本行样本,则对文本行样本在不同区块样本中的面积进行计算,得到对应的多个文本行面积值;将多个文本行面积值中最大面积值对应的区块样本作为文本行样本对应的区块样本,并在文本行样本对应的区块样本对文本行样本进行编号。
本实施例的文本检测装置用于实现前述多个方法实施例中相应的文本检测方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本实施例的文本检测装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述,在此亦不再赘述。
实施例六、
基于上述实施例一至实施例四描述的任一项文本检测方法,本申请实施例提供了一种电子设备,需要说明的,本实施例的文本检测方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。如图6所示,图6为本申请实施例提供的一种电子设备的结构图。本申请具体实施例并不对电子设备的具体实现做限定。该电子设备60可以包括:处理器(processor)602、通信接口(CommunicationsInterface)604、存储器(memory)606、以及通信总线608。
其中:处理器602、通信接口604、以及存储器606通过通信总线608完成相互间的通信。
通信接口604,用于与其它电子设备或服务器进行通信。
处理器602,用于执行计算机程序610,具体可以执行上述文本检测方法实施例中的相关步骤。
具体地,计算机程序610可以包括计算机程序代码,该计算机程序代码包括计算机操作指令。
处理器602可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器606,用于存放计算机程序610。存储器606可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
计算机程序610具体可以用于使得处理器602执行以下操作:
对待检测文本图像进行特征提取,得到待检测文本图像对应的文本区域概率图和文本区域编号概率图,其中,文本区域编号概率图用于表征文本像素点在预设的不同区块 中不同的文本行编号;
根据文本区域概率图对应的文本区域二值图和文本区域编号概率图,确定文本区域编号图;
根据文本区域编号图和不同区块中文本行对应的不同编号阈值,获得待检测文本图像的文本检测结果。
可选地,在本申请的一种实施例中,计算机程序610还可以用于使得处理器602在根据文本区域编号图和不同区块中文本行对应的不同编号阈值,获得待检测文本图像的文本检测结果时,根据文本区域编号图和不同区块中文本行对应的不同编号阈值,对待检测文本图像中的至少一个区块中的像素点进行区分,得到多个文本行的坐标;根据多个文本行的坐标,获得待检测文本图像的文本检测结果。
可选地,在本申请的一种实施例中,计算机程序610还可以用于使得处理器602在根据文本区域编号图和不同区块中文本行对应的不同编号阈值,对待检测文本图像中的至少一个区块中的像素点进行区分,得到多个文本行的坐标时,根据文本区域编号图和不同区块中文本行对应的不同编号阈值,对待检测文本图像中的每个区块中的像素点进行区分,将编号相同的像素点确定为一个文本行,得到每个区块中的至少一个文本行;针对每个文本行,根据文本行包括的像素点坐标确定文本行的坐标。
可选地,在本申请的一种实施例中,计算机程序610还可以用于使得处理器602在根据多个文本行的坐标,获得待检测文本图像的文本检测结果时,对多个文本行的坐标进行分析,筛选出至少两个跨区文本行,跨区文本行用于指示同一个文本行被至少两个相邻区块截断形成的文本行;根据跨区文本行的坐标的几何位置关系,对至少两个跨区文本行进行合并,得到至少一个合并文本行;根据多个文本行中除去至少两个跨区文本行外的文本行的坐标,和至少一个合并文本行的坐标,获得待检测文本图像的文本检测结果。
可选地,在本申请的一种实施例中,计算机程序610还可以用于使得处理器602在对多个文本行的坐标进行分析,筛选出至少两个跨区文本行时,对多个文本行的坐标进行统计分析,将具有相同坐标的两个文本行确定为两个跨区文本行,筛选得到至少两个跨区文本行。
可选地,在本申请的一种实施例中,计算机程序610还可以用于使得处理器602在根据文本区域概率图对应的文本区域二值图和文本区域编号概率图确定文本区域编号图时,对文本区域概率图进行二值化,得到文本区域二值图;将文本区域二值图和文本区域编号概率图进行与操作,得到文本区域编号图。
可选地,在本申请的一种实施例中,计算机程序610还可以用于使得处理器602在对待检测文本图像进行特征提取,得到待检测文本图像对应的文本区域概率图和文本区域编号概率图时,对待检测文本图像进行第一文本特征提取;对第一文本特征的特征进行增强处理得到第二文本特征;对第二文本特征进行上采样,并将上采样后的文本特征进行串联,得到串联后的特征;将串联后的特征进行卷积操作,得到待检测文本图像对应的文本区域概率图和文本区域编号概率图。
可选地,在本申请的一种实施例中,计算机程序610还可以用于使得处理器602在对待检测文本图像进行特征提取,得到待检测文本图像对应的文本区域概率图和文本区域编号概率图时,将待检测文本图像输入文本检测模型,通过文本检测模型获得待检测文本图像对应的文本区域概率图和文本区域编号概率图。
可选地,在本申请的一种实施例中,计算机程序610还可以用于使得处理器602执行以下操作:获取训练图像样本,并将图像样本输入初始文本检测模型;通过初始文本检测模型得到文本区域预测概率图和文本区域编号预测概率图;根据文本区域预测概率图和预设的交并比损失函数,获得对应的第一损失值;且,根据文本区域编号预测概率图和预设的平滑L1损失函数,获得对应的第二损失值;根据第一损失值和第二损失值对初始文本检测模型进行训练,得到文本检测模型。
可选地,在本申请的一种实施例中,计算机程序610还可以用于使得处理器602在获取训练图像样本时,获取初始训练图像样本,对初始训练图像样本进行分区,得到多个区块样本,每个区块样本中包括预设数量的文本行样本;对每个区块样本中的文本行样本进行编号,得到初始训练图像样本的标签信息,训练图像样本包括初始训练图像样本和初始训练图像样本的标签信息。
可选地,在本申请的一种实施例中,计算机程序610还可以用于使得处理器602在对每个区块样本中的文本行样本进行编号,得到初始训练图像样本的标签信息时,根据不同区块样本中文本行样本对应的不同编号阈值,对每个区块样本中的每个文本行样本进行编号,得到初始训练图像样本的标签信息,一个文本行样本中的所有像素点对应一个编号。
可选地,在本申请的一种实施例中,计算机程序610还可以用于使得处理器602在对每个区块样本中的文本行样本进行编号时,若确定存在横跨至少两个区块样本的文本行样本,则对文本行样本在不同区块样本中的面积进行计算,得到对应的多个文本行面积值;将多个文本行面积值中最大面积值对应的区块样本作为文本行样本对应的区块样本,并在文本行样本对应的区块样本对文本行样本进行编号。
可以理解的是,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
实施例七、
基于上述实施例一至实施例四所描述的文本检测方法,本申请实施例提供了一种计算机存储介质,其存储有计算机程序,该计算机程序被处理器执行时实现如实施例一至实施例四所描述的文本检测方法。
需要指出,根据实施的需要,可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本申请实施例的目的。
上述根据本申请实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的文本检测方法。此外,当通用计算机访问用于实现在此示出的文本检测方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的文本检测方法的专用计算机。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例地单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的范围。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上实施方式仅用于说明本申请实施例,而并非对本申请实施例的限制,有关技术领域的普通技术人员,在不脱离本申请实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本申请实施例的范畴,本申请实施例的专利保护范围应由权利要求限定。
Claims (15)
1.一种文本检测方法,其特征在于,所述方法包括:
对待检测文本图像进行特征提取,得到所述待检测文本图像对应的文本区域概率图和文本区域编号概率图,其中,所述文本区域编号概率图用于表征文本像素点在预设的不同区块中不同的文本行编号;
根据所述文本区域概率图对应的文本区域二值图和所述文本区域编号概率图,确定文本区域编号图;
根据所述文本区域编号图和不同区块中文本行对应的不同编号阈值,获得所述待检测文本图像的文本检测结果。
2.根据权利要求1所述的方法,其特征在于,根据所述文本区域编号图和不同区块中文本行对应的不同编号阈值,获得所述待检测文本图像的文本检测结果,包括:
根据所述文本区域编号图和所述不同区块中文本行对应的不同编号阈值,对所述待检测文本图像中的至少一个区块中的像素点进行区分,得到多个文本行的坐标;
根据所述多个文本行的坐标,获得所述待检测文本图像的文本检测结果。
3.根据权利要求2所述的方法,其特征在于,根据所述文本区域编号图和所述不同区块中文本行对应的不同编号阈值,对所述待检测文本图像中的至少一个区块中的像素点进行区分,得到多个文本行的坐标,包括:
根据所述文本区域编号图和所述不同区块中文本行对应的不同编号阈值,对所述待检测文本图像中的每个区块中的像素点进行区分,将编号相同的像素点确定为一个文本行,得到所述每个区块中的至少一个文本行;
针对每个文本行,根据文本行包括的像素点坐标确定所述文本行的坐标。
4.根据权利要求2所述的方法,其特征在于,根据所述多个文本行的坐标,获得所述待检测文本图像的文本检测结果,包括:
对所述多个文本行的坐标进行分析,筛选出至少两个跨区文本行,所述跨区文本行用于指示同一个文本行被至少两个相邻区块截断形成的文本行;
根据所述跨区文本行的坐标的几何位置关系,对所述至少两个跨区文本行进行合并,得到至少一个合并文本行;
根据所述多个文本行中除去所述至少两个跨区文本行外的文本行的坐标,和所述至少一个合并文本行的坐标,获得所述待检测文本图像的文本检测结果。
5.根据权利要求4所述的方法,其特征在于,对所述多个文本行的坐标进行分析,筛选出至少两个跨区文本行,包括:
对所述多个文本行的坐标进行统计分析,将具有相同坐标的两个文本行确定为两个跨区文本行,筛选得到所述至少两个跨区文本行。
6.根据权利要求1所述的方法,其特征在于,根据所述文本区域概率图对应的文本区域二值图和所述文本区域编号概率图确定文本区域编号图,包括:
对所述文本区域概率图进行二值化,得到所述文本区域二值图;
将所述文本区域二值图和所述文本区域编号概率图进行与操作,得到所述文本区域编号图。
7.根据权利要求1所述的方法,其特征在于,所述对待检测文本图像进行特征提取,得到所述待检测文本图像对应的文本区域概率图和文本区域编号概率图,包括:
对所述待检测文本图像进行第一文本特征提取;
对所述第一文本特征的特征进行增强处理得到第二文本特征;
对所述第二文本特征进行上采样,并将上采样后的文本特征进行串联,得到串联后的特征;
将所述串联后的特征进行卷积操作,得到所述待检测文本图像对应的文本区域概率图和文本区域编号概率图。
8.根据权利要求1所述的方法,其特征在于,所述对待检测文本图像进行特征提取,得到所述待检测文本图像对应的文本区域概率图和文本区域编号概率图,包括:
将所述待检测文本图像输入文本检测模型,通过所述文本检测模型获得所述待检测文本图像对应的文本区域概率图和文本区域编号概率图。
9.根据权利要求8所述的方法,其特征在于,在将所述待检测文本图像输入所述文本检测模型之前,所述方法还包括:
获取训练图像样本,并将所述图像样本输入初始文本检测模型;
通过所述初始文本检测模型得到文本区域预测概率图和文本区域编号预测概率图;
根据所述文本区域预测概率图和预设的交并比损失函数,获得对应的第一损失值;且,根据所述文本区域编号预测概率图和预设的平滑L1损失函数,获得对应的第二损失值;
根据所述第一损失值和所述第二损失值对所述初始文本检测模型进行训练,得到所述文本检测模型。
10.根据权利要求9所述的方法,其特征在于,所述获取训练图像样本,包括:
获取初始训练图像样本,对所述初始训练图像样本进行分区,得到多个区块样本,每个区块样本中包括预设数量的文本行样本;
对所述每个区块样本中的文本行样本进行编号,得到所述初始训练图像样本的标签信息,所述训练图像样本包括所述初始训练图像样本和所述初始训练图像样本的标签信息。
11.根据权利要求10所述的方法,其特征在于,对所述每个区块样本中的文本行样本进行编号,得到所述初始训练图像样本的标签信息,包括:
根据不同区块样本中文本行样本对应的不同编号阈值,对每个区块样本中的每个文本行样本进行编号,得到所述初始训练图像样本的标签信息,一个文本行样本中的所有像素点对应一个编号。
12.根据权利要求10所述的方法,其特征在于,对所述每个区块样本中的文本行样本进行编号,包括:
若确定存在横跨至少两个区块样本的文本行样本,则对所述文本行样本在不同区块样本中的面积进行计算,得到对应的多个文本行面积值;
将所述多个文本行面积值中最大面积值对应的区块样本作为所述文本行样本对应的区块样本,并在所述文本行样本对应的区块样本对所述文本行样本进行编号。
13.一种文本检测装置,其特征在于,所述装置包括特征提取模块、编号图确定模块和结果获取模块:
所述特征提取模块用于对待检测文本图像进行特征提取,得到所述待检测文本图像对应的文本区域概率图和文本区域编号概率图,其中,所述文本区域编号概率图用于表征文本像素点在预设的不同区块中不同的文本行编号;
所述编号图确定模块用于根据所述文本区域概率图对应的文本区域二值图和所述文本区域编号概率图,确定文本区域编号图;
所述结果获取模块用于根据所述文本区域编号图和不同区块中文本行对应的不同编号阈值,获得所述待检测文本图像的文本检测结果。
14.一种电子设备,其特征在于,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一个可执行指令,所述可执行指令使所述处理器执行如权利要求1-12中任一项所述的文本检测方法对应的操作。
15.一种计算机存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-12中任一所述的文本检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011157370.8A CN111967545B (zh) | 2020-10-26 | 2020-10-26 | 文本检测方法、装置、电子设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011157370.8A CN111967545B (zh) | 2020-10-26 | 2020-10-26 | 文本检测方法、装置、电子设备及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111967545A true CN111967545A (zh) | 2020-11-20 |
CN111967545B CN111967545B (zh) | 2021-02-26 |
Family
ID=73387171
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011157370.8A Active CN111967545B (zh) | 2020-10-26 | 2020-10-26 | 文本检测方法、装置、电子设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111967545B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329761A (zh) * | 2021-01-05 | 2021-02-05 | 北京易真学思教育科技有限公司 | 文本检测方法、装置、设备及存储介质 |
CN112926564A (zh) * | 2021-02-25 | 2021-06-08 | 中国平安人寿保险股份有限公司 | 图片分析方法、系统、计算机设备和计算机可读存储介质 |
CN113129298A (zh) * | 2021-05-06 | 2021-07-16 | 北京思图场景数据科技服务有限公司 | 文本图像的清晰度识别方法 |
CN113743063A (zh) * | 2021-09-02 | 2021-12-03 | 北京力信联合科技有限公司 | 用于生成物品的物理特性报告的方法、系统及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011198162A (ja) * | 2010-03-23 | 2011-10-06 | Yahoo Japan Corp | 代表表記抽出装置、方法及びプログラム |
CN107967472A (zh) * | 2017-12-11 | 2018-04-27 | 深圳市唯特视科技有限公司 | 一种使用动态形状编码的搜索词语方法 |
CN110569830A (zh) * | 2019-08-01 | 2019-12-13 | 平安科技(深圳)有限公司 | 多语言文本识别方法、装置、计算机设备及存储介质 |
CN111145202A (zh) * | 2019-12-31 | 2020-05-12 | 北京奇艺世纪科技有限公司 | 模型生成方法、图像处理方法、装置、设备及存储介质 |
CN111259899A (zh) * | 2020-01-13 | 2020-06-09 | 华中科技大学 | 一种喷码字符检测方法 |
CN111652217A (zh) * | 2020-06-03 | 2020-09-11 | 北京易真学思教育科技有限公司 | 文本检测方法、装置、电子设备及计算机存储介质 |
CN111709420A (zh) * | 2020-06-18 | 2020-09-25 | 北京易真学思教育科技有限公司 | 文本检测方法、电子设备及计算机可读介质 |
CN111814794A (zh) * | 2020-09-15 | 2020-10-23 | 北京易真学思教育科技有限公司 | 文本检测方法、装置、电子设备及存储介质 |
-
2020
- 2020-10-26 CN CN202011157370.8A patent/CN111967545B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011198162A (ja) * | 2010-03-23 | 2011-10-06 | Yahoo Japan Corp | 代表表記抽出装置、方法及びプログラム |
CN107967472A (zh) * | 2017-12-11 | 2018-04-27 | 深圳市唯特视科技有限公司 | 一种使用动态形状编码的搜索词语方法 |
CN110569830A (zh) * | 2019-08-01 | 2019-12-13 | 平安科技(深圳)有限公司 | 多语言文本识别方法、装置、计算机设备及存储介质 |
CN111145202A (zh) * | 2019-12-31 | 2020-05-12 | 北京奇艺世纪科技有限公司 | 模型生成方法、图像处理方法、装置、设备及存储介质 |
CN111259899A (zh) * | 2020-01-13 | 2020-06-09 | 华中科技大学 | 一种喷码字符检测方法 |
CN111652217A (zh) * | 2020-06-03 | 2020-09-11 | 北京易真学思教育科技有限公司 | 文本检测方法、装置、电子设备及计算机存储介质 |
CN111709420A (zh) * | 2020-06-18 | 2020-09-25 | 北京易真学思教育科技有限公司 | 文本检测方法、电子设备及计算机可读介质 |
CN111814794A (zh) * | 2020-09-15 | 2020-10-23 | 北京易真学思教育科技有限公司 | 文本检测方法、装置、电子设备及存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329761A (zh) * | 2021-01-05 | 2021-02-05 | 北京易真学思教育科技有限公司 | 文本检测方法、装置、设备及存储介质 |
CN112926564A (zh) * | 2021-02-25 | 2021-06-08 | 中国平安人寿保险股份有限公司 | 图片分析方法、系统、计算机设备和计算机可读存储介质 |
CN113129298A (zh) * | 2021-05-06 | 2021-07-16 | 北京思图场景数据科技服务有限公司 | 文本图像的清晰度识别方法 |
CN113129298B (zh) * | 2021-05-06 | 2024-01-12 | 北京思图场景数据科技服务有限公司 | 文本图像的清晰度识别方法 |
CN113743063A (zh) * | 2021-09-02 | 2021-12-03 | 北京力信联合科技有限公司 | 用于生成物品的物理特性报告的方法、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111967545B (zh) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111967545B (zh) | 文本检测方法、装置、电子设备及计算机存储介质 | |
CN111709420B (zh) | 文本检测方法、电子设备及计算机可读介质 | |
CN111652217B (zh) | 文本检测方法、装置、电子设备及计算机存储介质 | |
CN112016551B (zh) | 文本检测方法、装置、电子设备及计算机存储介质 | |
CN109670500B (zh) | 一种文字区域获取方法、装置、存储介质及终端设备 | |
CN111652218A (zh) | 文本检测方法、电子设备及计算机可读介质 | |
CN111507226A (zh) | 道路图像识别模型建模方法、图像识别方法及电子设备 | |
CN112487848B (zh) | 文字识别方法和终端设备 | |
CN111797821A (zh) | 文本检测方法、装置、电子设备及计算机存储介质 | |
CN111932577B (zh) | 文本检测方法、电子设备及计算机可读介质 | |
CN108154132A (zh) | 一种身份证文字提取方法、系统及设备和存储介质 | |
CN111967449A (zh) | 文本检测方法、电子设备及计算机可读介质 | |
CN112966687B (zh) | 图像分割模型训练方法、装置及通信设备 | |
KR20220169373A (ko) | 타겟 검출 방법들, 장치들, 전자 디바이스들 및 컴퓨터 판독가능한 저장 매체 | |
CN115937056A (zh) | 电路板的点胶缺陷检测方法、装置、设备及存储介质 | |
CN111967460B (zh) | 文本检测方法、装置、电子设备及计算机存储介质 | |
CN110555344B (zh) | 车道线识别方法、装置、电子设备、存储介质 | |
CN112101347B (zh) | 文本检测方法、装置、电子设备及计算机存储介质 | |
JP4967045B2 (ja) | 背景判別装置、方法及びプログラム | |
CN109101973B (zh) | 文字识别方法、电子设备、存储介质 | |
CN111738250B (zh) | 文本检测方法、装置、电子设备及计算机存储介质 | |
CN110807286A (zh) | 一种结构网格识别方法 | |
CN116524503A (zh) | 多行文本行提取方法、装置、设备及可读存储介质 | |
CN113191351B (zh) | 数字电表的示数识别方法及装置、模型训练方法及装置 | |
CN114511862A (zh) | 表格识别方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |