CN113780283A - 模型训练方法、文本检测方法、装置及轻量级网络模型 - Google Patents

模型训练方法、文本检测方法、装置及轻量级网络模型 Download PDF

Info

Publication number
CN113780283A
CN113780283A CN202111090473.1A CN202111090473A CN113780283A CN 113780283 A CN113780283 A CN 113780283A CN 202111090473 A CN202111090473 A CN 202111090473A CN 113780283 A CN113780283 A CN 113780283A
Authority
CN
China
Prior art keywords
text
image
detected
map
size
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111090473.1A
Other languages
English (en)
Inventor
杨康
郭玮
李文勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei Tiantian Digital Chain Technology Co ltd
Original Assignee
Hubei Tiantian Digital Chain Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei Tiantian Digital Chain Technology Co ltd filed Critical Hubei Tiantian Digital Chain Technology Co ltd
Priority to CN202111090473.1A priority Critical patent/CN113780283A/zh
Publication of CN113780283A publication Critical patent/CN113780283A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本申请涉及一种模型训练方法、文本检测方法、装置及轻量级网络模型,属于图像处理技术领域。该文本检测方法包括获取包含文本的待检测图像,待检测图像为按照预设的通道数*高*宽裁剪后的图像;利用预先训练好的轻量级网络模型对待检测图像进行处理,得到表征文本所在区域的文本概率图和表征文本所在区域的边界框的阈值图;将文本概率图中的数据和阈值图中的数据进行乘积,得到近似二值图;基于近似二值图确定待检测图像中文本所在区域的文本框。在确定二值图时,不再是传统的仅从文本概率图中得到检测框二值图,而是创新地在文本概率图的基础上,引入阈值图,融合文本概率图和阈值图信息,将二值化进行近似使其可导,以此来提高预测的准确性。

Description

模型训练方法、文本检测方法、装置及轻量级网络模型
技术领域
本申请属于图像处理技术领域,具体涉及一种模型训练方法、文本检测方法、装置及轻量级网络模型。
背景技术
目前的基于深度学习的文本检测方法,一般可以分为两大类,一类为基于回归算法的文本检测,例如,COCR(Chinese OpticalCharacter Recognition,中文光学字符识别)中使用的CTPN(Connectionist Text ProposalNetwork,连接文本提议网络)的文本检测,采用的就是bounding box(边界框)回归的算法。另一类为基于分割算法的文本检测,例如,基于PSENet(Progressive Scale Expansion Network,渐进式尺度扩展网络)的文本检测,采用的就是分割算法。
基于bounding box回归算法的文本检测,对规则形状文本的检测效果较好,但无法准确检测不规则形状文本。而基于分割的PSENet算法不受文本形状的限制,对各种形状的文本都能取得较好的效果,但是往往后处理比较复杂,导致耗时严重。
发明内容
鉴于此,本申请的目的在于提供一种文本检测方法、装置、电子设备及计算机可读存储介质,以提高预测的准确性和减少后处理的耗时的问题。
本申请的实施例是这样实现的:
第一方面,本申请实施例提供了一种文本检测方法,包括:获取包含文本的待检测图像,所述待检测图像为按照预设的通道数*高*宽裁剪后的图像;利用预先训练好的轻量级网络模型对所述待检测图像进行处理,得到表征文本所在区域的文本概率图和表征文本所在区域的边界框的阈值图;将所述文本概率图中的数据和所述阈值图中的数据进行乘积,得到近似二值图;基于所述近似二值图确定所述待检测图像中文本所在区域的文本框。本申请实施例中,通过利用轻量级网络模型对待检测图像进行处理,得到表征文本所在区域的文本概率图和表征文本所在区域的边界框的阈值图,将文本概率图中的数据和阈值图中的数据进行乘积,以此来得到近似二值图,在确定二值图时,不再是传统的那样仅从文本概率图中得到检测框二值图,而是创新地在文本概率图的基础上,引入阈值图,融合文本概率图和阈值图信息,将二值化进行近似使其可导,使得在训练网络模型时,可以将近似二值化融入训练过程,从而获取更准确的边界,大大降低了后处理的耗时。
结合第一方面实施例的一种可能的实施方式,所述轻量级网络模型包括骨干网络、卷积神经网络,利用预先训练好的轻量级网络模型对所述待检测图像进行处理,包括:利用所述骨干网络提取所述待检测图像的文本特征图;利用所述卷积神经网络对所述文本特征图进行处理,得到所述文本概率图和所述阈值图。
结合第一方面实施例的一种可能的实施方式,所述骨干网络包括顺次连接的n个卷积层,n为大于等于2的正整数;利用所述骨干网络提取所述待检测图像的文本特征图,包括:i为整数,依次取1至n,利用第i个卷积层对输入自身的输入数据进行处理,其中,输入第1个卷积层的输入数据为所述待检测图像,当i大于等于2时,输入第i个卷积层的输入数据为第i-1个卷积层的输出数据,第i个卷积层的输出数据为1/2i所述待检测图像尺寸的特征图;对于i大于等于j的第i个卷积层,将对第i个卷积层的输出数据进行2倍上采样的转置卷积得到的1/2i-1所述待检测图像尺寸的特征图,与第i-1个卷积层输出的1/2i-1所述待检测图像尺寸的特征图相加,得到1/2i-1所述待检测图像尺寸的合并特征图,j为大于等于2,小于n的整数;分别对1/2i-1所述待检测图像尺寸的合并特征图、1/2n所述待检测图像尺寸的特征图,进行2i-j倍、2n-j+1倍上采样的转置卷积,得到n-j+2个1/2j-1所述待检测图像尺寸的第一特征图;将得到的n-j+2个1/2j-1所述待检测图像尺寸的第一特征图,按照通道数进行拼接,得到所述文本特征图。本申请实施例中,骨干网络采用特征金字塔结构来提取文本特征,以便提取高分辨率的多层级特征图,从而提高文本检测的准确率。
结合第一方面实施例的一种可能的实施方式,所述骨干网络包括顺次连接的n个卷积层,n为大于等于2的正整数;利用所述骨干网络提取所述待检测图像的文本特征图,包括:i为整数,依次取1至n,利用第i个卷积层对输入自身的输入数据进行处理,其中,输入第1个卷积层的输入数据为所述待检测图像,当i大于等于2时,输入第i个卷积层的输入数据为第i-1个卷积层的输出数据,第i个卷积层的输出数据为1/2i所述待检测图像尺寸的特征图;将对第n个卷积层的输出数据进行2倍上采样的转置卷积得到的1/2n-1所述待检测图像尺寸的特征图,与第n-1个卷积层输出的1/2n-1所述待检测图像尺寸的特征图相加,得到第n-1个卷积层对应的1/2n-1所述待检测图像尺寸的合并特征图;对于i大于等于j,且小于n的第i个卷积层,将对第i个卷积层对应的1/2i所述待检测图像尺寸的合并特征图进行2倍上采样的转置卷积,与第i-1个卷积层输出的1/2i-1所述待检测图像尺寸的特征图相加,得到第i-1个卷积层对应的1/2i-1所述待检测图像尺寸的合并特征图,其中,所述第i个卷积层对应的1/2i所述待检测图像尺寸的合并特征图为将对第i+1个卷积层对应的合并特征图进行2倍上采样的转置卷积得到的1/2i所述待检测图像尺寸的特征图,与第i个卷积层输出的1/2i所述待检测图像尺寸的特征图相加得到,j为大于等于2,小于n的整数;分别对1/2i-1所述待检测图像尺寸的合并特征图、1/2n-1所述待检测图像尺寸的合并特征图、1/2n所述待检测图像尺寸的特征图,进行2i-j倍、2n-j倍、2n-j+1倍上采样的转置卷积,得到n-j+2个1/2j-1所述待检测图像尺寸的第一特征图;将得到的n-j+2个1/2j-1所述待检测图像尺寸的第一特征图,按照通道数进行拼接,得到所述文本特征图。本申请实施例中,骨干网络采用特征金字塔结构来提取文本特征,以便提取高分辨率的多层级特征图,从而提高文本检测的准确率。
结合第一方面实施例的一种可能的实施方式,所述卷积神经网络包括顺次连接的第一卷积层、最大池化层、第二卷积层、转置卷积层、第三卷积层和预测层;利用所述卷积神经网络对所述文本特征图进行处理,得到所述文本概率图和所述阈值图,包括:利用所述第一卷积层对所述文本特征图进行卷积处理;利用所述最大池化层对所述第一卷积层的输出数据进行池化处理;利用所述第二卷积层对所述最大池化层的输出数据进行卷积处理;利用所述转置卷积层对所述第二卷积层的输出数据进行2倍上采样的转置卷积处理;利用所述第三卷积层对所述转置卷积层的输出数据进行卷积处理,得到所述文本概率图;利用所述预测层对所述第三卷积层的输出数据进行文本所在区域的概率预测,得到所述阈值图。本申请实施例中,采用上述的卷积神经网络来预测文本概率图和阈值图,能提高预测的准确性,同时,创新地在文本概率图的基础上,引入阈值图,融合文本概率图和阈值图信息,将二值化进行近似使其可导,使得在训练网络模型时,可以将近似二值化融入训练过程,从而获取更准确的边界,大大降低了后处理的耗时。
结合第一方面实施例的一种可能的实施方式,基于所述近似二值图确定所述待检测图像中文本所在区域的文本框,包括:基于所述近似二值图确定所述待检测图像中文本所在区域的初始文本框;根据所述初始文本框所围成的区域的面积、所述初始文本框的周长以及预设公式,确定调整比例;利用所述调整比例对所述初始文本框的尺寸进行调整,并将调整后的初始文本框作为最终文本框。本申请实施例中,在基于近似二值图得到待检测图像中文本所在区域的初始文本框后,还进一步初始文本框的尺寸进行调整,以进一步提高检测的准确性。
第二方面,本申请实施例还提供了一种模型训练方法,包括:获取带有训练标签的训练样本图像,所述训练标签包括表征文本所在区域的正标签和非文本所在区域的负标签;利用所述训练样本图像对预设的轻量级网络模型进行训练,得到训练好的用于文本检测的轻量级网络模型,其中,用于训练所述轻量级网络模型的损失函数L包含用于预测表征文本所在区域的文本概率图的损失函数Ls、用于预测表征文本所在区域的边界框的阈值图的损失函数Lb和用于预测表征文本所在区域的文本框的近似二值图的损失函数Lt;其中,L=Ls+α×Lb+β×Lt,α、β均为权重因子,取值范围为[1,10]。本申请实施例中,在训练模型时,将文本概率图、阈值图、近似二值图的损失进行综合考虑,使得训练出的模型的准确性更好,通过将近似二值化融入训练过程,从而获取更准确的边界,大大降低了后处理的耗时。
第三方面,本申请实施例还提供了一种轻量级网络模型,包括:骨干网络、卷积神经网络、乘积网络、预测网络;骨干网络,用于提取待检测图像的文本特征图;卷积神经网络,用于对所述文本特征图进行处理,得到表征文本所在区域的文本概率图和表征文本所在区域的边界框的阈值图;乘积网络,用于将所述文本概率图中的数据和所述阈值图中的数据进行乘积,得到近似二值图;预测网络,用于基于所述近似二值图确定所述待检测图像中文本所在区域的文本框。
第四方面,本申请实施例还提供了一种文本检测装置,包括:获取模块、处理模块;获取模块,用于获取包含文本的待检测图像,所述待检测图像为按照预设的通道数*高*宽裁剪后的图像;处理模块,用于利用预先训练好的轻量级网络模型对所述待检测图像进行处理,得到表征文本所在区域的文本概率图和表征文本所在区域的边界框的阈值图,以及将所述文本概率图中的数据和所述阈值图中的数据进行乘积,得到近似二值图,基于所述近似二值图确定所述待检测图像中文本所在区域的文本框。
第五方面,本申请实施例还提供了一种电子设备,包括:存储器和处理器,所述处理器与所述存储器连接;所述存储器,用于存储程序;所述处理器,用于调用存储于所述存储器中的程序,以执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的文本检测方法,或者,执行上述第二方面实施例提供的模型训练方法。
第六方面,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时,执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的文本检测方法,或者,执行上述第二方面实施例提供的模型训练方法。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例而了解。本申请的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。通过附图所示,本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本申请的主旨。
图1示出了本申请实施例提供的一种文本检测方法的流程示意图。
图2示出了本申请实施例提供的一种骨干网络的原理示意图的示意图。
图3示出了本申请实施例提供的又一种骨干网络的原理示意图的示意图。
图4示出了本申请实施例提供的又一种骨干网络的原理示意图的示意图。
图5示出了本申请实施例提供的又一种骨干网络的原理示意图的示意图。
图6示出了本申请实施例提供的又一种骨干网络的原理示意图的示意图。
图7示出了本申请实施例提供的又一种骨干网络的原理示意图的示意图。
图8示出了本申请实施例提供的一种卷积神经网络的结构示意图。
图9示出了本申请实施例提供的一种轻量级网络模型的结构示意图。
图10示出了本申请实施例提供的一种模型训练方法的流程示意图。
图11示出了本申请实施例提供的一种文本检测装置的模块框图。
图12示出了本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中诸如“第一”、“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
再者,本申请中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
鉴于现有文本检测方法存在的问题,本申请实施例提供了一种文本检测方法,通过利用轻量级网络模型对待检测图像进行处理,得到表征文本所在区域的文本概率图和表征文本所在区域的边界框的阈值图,将文本概率图中的数据和阈值图中的数据进行乘积,以此来得到近似二值图,以提高文本检测的准确率;同时优化后处理的二值化过程,使之参与训练过程,以便于更好分割不同实例,提升预测文本框的准确率。本实施例中,采用轻量级网络模型来检测文本,使得该文本检测方法可以适应于移动终端,如平板、个人电脑等。
下面将结合图1,对本申请实施例提供的文本检测方法进行说明。
S1:获取包含文本的待检测图像,所述待检测图像为按照预设的通道数*高*宽裁剪后的图像。
获取的包含文本的待检测图像可以是身份证图像、简历图像等。获取的待检测图像为按照预设的通道数*高*宽裁剪后的图像,例如,对于简历图像来说,可以按照通道数(channel)为3、高(height)为32、宽(width)为320的数据格式来剪裁,使得输入的简历图像的通道数*高*宽为[3,32,320]。需要说明的是,对于不同的图像,裁剪时对应的通道数*高*宽可以不同。
一种实施方式下,可以是获取包含文本的原始图像,然后按照预设的格式(通道数*高*宽)对其进行裁剪,得到待检测图像。
又一种实施方式下,可以是事先对包含文本的原始图像按照预设的通道数*高*宽进行裁剪,得到待检测图像。通过事先裁剪的方式,可以提高文本检测时的效率。
S2:利用预先训练好的轻量级网络模型对所述待检测图像进行处理,得到表征文本所在区域的文本概率图和表征文本所在区域的边界框的阈值图。
在获取到包含文本的待检测图像后,基于利用预先训练好的轻量级网络模型对待检测图像进行处理,得到表征文本所在区域的文本概率图和表征文本所在区域的边界框的阈值图。
一种实施方式下,轻量级网络模型包括骨干网络、卷积神经网络,利用预先训练好的轻量级网络模型对待检测图像进行处理的过程可以是:利用骨干网络提取待检测图像的文本特征图;利用卷积神经网络对文本特征图进行处理,得到文本概率图和阈值图。
可选地,骨干网络包括顺次连接的n个卷积层,n为大于等于2的正整数,利用骨干网络提取待检测图像的文本特征图的过程可以是:i为整数,依次取1至n,利用第i个卷积层对输入自身的输入数据进行处理,其中,输入第1个卷积层的输入数据为待检测图像,当i大于等于2时,输入第i个卷积层的输入数据为第i-1个卷积层的输出数据,第i个卷积层的输出数据为1/2i待检测图像尺寸的特征图;对于i大于等于j的第i个卷积层(也即对于j至n的卷积层),将对第i个卷积层的输出数据进行2倍上采样的转置卷积(卷积核大小可以为[5,5],步长为1)得到的1/2i-1待检测图像尺寸的特征图,与第i-1个卷积层输出的1/2i-1待检测图像尺寸的特征图相加,得到1/2i-1待检测图像尺寸的合并特征图,j为大于等于2,小于n的整数;分别对1/2i-1待检测图像尺寸的合并特征图、1/2n待检测图像尺寸的特征图,进行2i-j倍、2n-j+1,得到n-j+2个1/2j-1待检测图像尺寸的第一特征图;将得到的n-j+2个1/2j-1待检测图像尺寸的第一特征图,按照通道数进行拼接,得到文本特征图。
本申请实施例中,采用特征金字塔网络(Feature Parymid Network,FPN)作为骨干网络(如为MobileNetV3-small模型),以便提取高分辨率的多层级特征图,从而提高文本检测的准确率。通过对输入数据做n次缩小尺寸的卷积计算,输入数据逐渐缩小为原尺寸的1/2,1/4,1/8,1/16,1/32……。数据尺寸缩小由卷积计算中的移动步数(stride)决定,即stride=2。本实施例中,输入图像数据尺寸(主要指宽度width)设置为32的倍数,例如320。输出数据尺寸计算公式:
Figure BDA0003267224950000101
Figure BDA0003267224950000102
所得的商向下取整+1,其中,padding=(kernel-1)//2,也即padding=(kernel-1)/2所得的商向下取整,kernel为卷积核的大小,width为输入图像数据的宽度。其中,n个卷积层的卷积核大小可以是前几层(例如前2层)卷积核大小为[3,3],中间几层(例如2层n-1层)卷积核大小为[5,5],最后一层卷积核大小为[3,3]。以n为5为例,前2层卷积核大小为[3,3],中间2层卷积核大小为[5,5],最后一层卷积核大小为[3,3]。
为了便于理解,以n=5,j=3为例,i依次取1至5(n=5),利用第i个卷积层对输入自身的输入数据进行处理,可以得到1/2、1/4、1/8、1/16、1/32待检测图像尺寸的特征图。对于编号大于等于3(j=3)的卷积层(也即对于编号为3至5的卷积层),对于第3个卷积层来说,将对第3(i=3)个卷积层的输出数据进行2倍上采样的转置卷积得到的1/4待检测图像尺寸的特征图,与第2(3-1)个卷积层输出的特征图(1/4待检测图像尺寸的特征图)相加,得到1/4待检测图像尺寸的合并特征图;对第4个卷积层来说,将对第4(i=4)个卷积层的输出数据进行2倍上采样的转置卷积得到的1/8待检测图像尺寸的特征图,与第3(4-1)个卷积层输出的特征图(1/8待检测图像尺寸的特征图)相加,得到1/8待检测图像尺寸的合并特征图;对第5(i=5)个卷积层来说,将对第5个卷积层的输出数据进行2倍上采样的转置卷积得到的1/16待检测图像尺寸的特征图,与第4(5-1)个卷积层输出的特征图(1/16待检测图像尺寸的特征图)相加,得到1/16待检测图像尺寸的合并特征图。在分别对1/2i-1待检测图像尺寸的合并特征图、1/2n待检测图像尺寸的特征图,进行2i-j倍、2n-j+1倍上采样的转置卷积,得到n-j+2个1/2j-1待检测图像尺寸的第一特征图时,也即分别对1/4待检测图像尺寸的合并特征图、对1/8待检测图像尺寸的合并特征图、对1/16待检测图像尺寸的合并特征图、1/32待检测图像尺寸的特征图,进行1(23-3)倍、2(24-3)倍、4(25-3)倍、8(25-3+1)倍上采样的转置卷积,得到4(5-3+2)个1/4(23-1)检测图像尺寸的第一特征图,最后将得到的4个1/4待检测图像尺寸的第一特征图,按照通道数进行拼接,得到文本特征图。其原理示意图如图2所示。
又例如,以n=5,j=2为例,i依次取1至5(n=5),利用第i个卷积层对输入自身的输入数据进行处理,可以得到1/2、1/4、1/8、1/16、1/32待检测图像尺寸的特征图。对于编号大于等于2(j=2)的卷积层(也即对于编号为2至5的卷积层),对于第2个卷积层来说,将对第2(i=2)个卷积层的输出数据进行2倍上采样的转置卷积得到的1/2待检测图像尺寸的特征图,与第2(2-1)个卷积层输出的特征图(1/2待检测图像尺寸的特征图)相加,得到1/2待检测图像尺寸的合并特征图;对于第3个卷积层来说,将对第3(i=3)个卷积层的输出数据进行2倍上采样的转置卷积得到的1/4待检测图像尺寸的特征图,与第2(3-1)个卷积层输出的特征图(1/4待检测图像尺寸的特征图)相加,得到1/4待检测图像尺寸的合并特征图;对第4个卷积层来说,将对第4(i=4)个卷积层的输出数据进行2倍上采样的转置卷积得到的1/8待检测图像尺寸的特征图,与第3(4-1)个卷积层输出的特征图(1/8待检测图像尺寸的特征图)相加,得到1/8待检测图像尺寸的合并特征图;对第5(i=5)个卷积层来说,将对第5个卷积层的输出数据进行2倍上采样的转置卷积得到的1/16待检测图像尺寸的特征图,与第4(5-1)个卷积层输出的特征图(1/16待检测图像尺寸的特征图)相加,得到1/16待检测图像尺寸的合并特征图。在分别对1/2i-1待检测图像尺寸的合并特征图、1/2n待检测图像尺寸的特征图,进行2i-j倍、2n-j+1倍上采样的转置卷积,得到n-j+2个1/2j-1待检测图像尺寸的第一特征图时,也即分别对1/2待检测图像尺寸的合并特征图、1/4待检测图像尺寸的合并特征图、对1/8待检测图像尺寸的合并特征图、对1/16待检测图像尺寸的合并特征图、1/32待检测图像尺寸的特征图,进行1(22-2)倍、2(23-2)倍、4(24-2)倍、8(25-2)倍、16(25-2+1)倍上采样的转置卷积,得到5(5-2+2)个1/2(22-1)检测图像尺寸的第一特征图,最后将得到的5个1/2待检测图像尺寸的第一特征图,按照通道数进行拼接,得到文本特征图。其原理示意图如图3所示。
又例如,以n=6,j=2为例,i依次取1至5(n=5),利用第i个卷积层对输入自身的输入数据进行处理,可以得到1/2、1/4、1/8、1/16、1/32、1/64待检测图像尺寸的特征图。对于编号大于等于2(j=2)的卷积层(也即对于编号为2至6的卷积层),对第2个卷积层来说,将对第32(i=2)个卷积层的输出数据进行2倍上采样的转置卷积得到的1/2待检测图像尺寸的特征图,与第1(2-1)个卷积层输出的特征图(1/2待检测图像尺寸的特征图)相加,得到1/2待检测图像尺寸的合并特征图;对第3个卷积层来说,将对第3(i=3)个卷积层的输出数据进行2倍上采样的转置卷积得到的1/4待检测图像尺寸的特征图,与第2(3-1)个卷积层输出的特征图(1/4待检测图像尺寸的特征图)相加,得到1/4待检测图像尺寸的合并特征图;对第4个卷积层来说,将对第4(i=4)个卷积层的输出数据进行2倍上采样的转置卷积得到的1/8待检测图像尺寸的特征图,与第3(4-1)个卷积层输出的特征图(1/8待检测图像尺寸的特征图)相加,得到1/8待检测图像尺寸的合并特征图;对第5(i=5)个卷积层来说,将对第5个卷积层的输出数据进行2倍上采样的转置卷积得到的1/16待检测图像尺寸的特征图,与第4(5-1)个卷积层输出的特征图(1/16待检测图像尺寸的特征图)相加,得到1/16待检测图像尺寸的合并特征图;对第6(i=6)个卷积层来说,将对第6个卷积层的输出数据进行2倍上采样的转置卷积得到的1/32待检测图像尺寸的特征图,与第5(6-1)个卷积层输出的特征图(1/32待检测图像尺寸的特征图)相加,得到1/32待检测图像尺寸的合并特征图。分别对1/2i-1待检测图像尺寸的合并特征图、1/2n待检测图像尺寸的特征图,进行2i-j倍、2n-j+1倍上采样的转置卷积,得到n-j+2个1/2j-1待检测图像尺寸的第一特征图。再分别对1/2待检测图像尺寸的合并特征图、1/4待检测图像尺寸的合并特征图、1/8待检测图像尺寸的合并特征图、对1/16待检测图像尺寸的合并特征图、对1/32待检测图像尺寸的合并特征图、1/64待检测图像尺寸的特征图,进行1(22-2)倍、2(23-2)倍、4(24-2)倍、8(25-2)、16(26-2)倍、32(26-2+1)倍上采样的转置卷积,得到6(6-2+2)个1/2(22-1)检测图像尺寸的第一特征图,最后将得到的6个1/2待检测图像尺寸的第一特征图,按照通道数进行拼接,得到文本特征图。其原理示意图如图4所示。
可选地,除了采用上述的方式得到合并特征图外,还可以采用其他的方式得到合并特征图,例如,对于i大于等于j,且小于n的第i个卷积层,也即此时i大于等于j小于等于n-1;将对第i个卷积层对应的1/2i待检测图像尺寸的合并特征图进行2倍上采样的转置卷积,与第i-1个卷积层输出的1/2i-1待检测图像尺寸的特征图相加,得到第i-1个卷积层对应的1/2i-1待检测图像尺寸的合并特征图。其中,第i个卷积层对应的1/2i待检测图像尺寸的合并特征图为将对第i+1个卷积层对应的合并特征图进行2倍上采样的转置卷积得到的1/2i待检测图像尺寸的特征图,与第i个卷积层输出的1/2i待检测图像尺寸的特征图相加得到。第n-1个卷积层对应的1/2n-1待检测图像尺寸的合并特征图将对第n个卷积层的输出数据进行2倍上采样的转置卷积得到的1/2n-1待检测图像尺寸的特征图,与第n-1个卷积层输出的1/2n-1待检测图像尺寸的特征图相加得到。
之后,分别对1/2i-1待检测图像尺寸的合并特征图、1/2n-1待检测图像尺寸的合并特征图、1/2n待检测图像尺寸的特征图,进行2i-j倍、2n-j倍、2n-j+1倍上采样的转置卷积,得到n-j+2个1/2j-1待检测图像尺寸的第一特征图。
为了便于理解,结合上述的图2至图4的例子为例进行说明,在该种实施方式下,图2所示的示意图变更为图5所示,也即,将对第5个卷积层的输出数据进行2倍上采样的转置卷积得到的1/16待检测图像尺寸的特征图,与第4个卷积层输出的1/16待检测图像尺寸的特征图相加,得到第4个卷积层对应的1/16待检测图像尺寸的合并特征图;将对第4个卷积层对应的1/16待检测图像尺寸的合并特征图进行2倍上采样的转置卷积得到的1/8待检测图像尺寸的特征图,与第3个卷积层输出的1/8待检测图像尺寸的特征图相加,得到第3个卷积层对应的1/8待检测图像尺寸的合并特征图,将对第3个卷积层的输出数据进行2倍上采样的转置卷积得到的1/4待检测图像尺寸的特征图,与第2个卷积层输出的1/4待检测图像尺寸的特征图相加,得到第2个卷积层对应的1/4待检测图像尺寸的合并特征图。
相应地,图3所示的示意图变更为图6所示,图4所示的示意图变更为图7所示。其中,上述的转置卷积的卷积核大小可以为[5,5],步长为1。
可选地,卷积神经网络包括顺次连接的第一卷积层(步长为1,卷积核大小可以为[1,1])、最大池化层、第二卷积层(步长为1,卷积核大小可以为[3,3])、转置卷积层(卷积核大小可以为[1,1])、第三卷积层(卷积核大小可以为[3,3])和预测层,其结构示意图如图8所示。其中,利用卷积神经网络对文本特征图进行处理,得到文本概率图和阈值图的过程可以是:先利用第一卷积层对文本特征图进行卷积处理,然后利用最大池化层对第一卷积层的输出数据进行池化处理,然后再利用第二卷积层对最大池化层的输出数据进行卷积处理,然后再利用转置卷积层对第二卷积层的输出数据进行2倍上采样的转置卷积处理,之后再利用第三卷积层对转置卷积层的输出数据进行卷积处理,得到文本概率图,然后利用预测层对第三卷积层的输出数据进行文本所在区域的概率预测,得到阈值图。
其中,预测层包含一个sigmoid激活函数,激活函数的输出即为文本概率图数据。sigmoid函数表达式为
Figure BDA0003267224950000151
x表示输入预测层的输入数据,y表示文本概率图数据。
S3:将所述文本概率图中的数据和所述阈值图中的数据进行乘积,得到近似二值图。
在得到文本概率图和阈值图后,将文本概率图中的数据和阈值图中的数据进行乘积,得到近似二值图。一种实施方式下,可以是利用轻量级网络模型中的乘积网络将文本概率图中的数据和阈值图中的数据进行乘积,得到近似二值图。
其中,阈值图包含多个坐标点,这些坐标点可以构成一个N*M的矩阵,同理,文本概率图也包含多个坐标点,这些坐标点可以构成一个N*M的矩阵。
S4:基于所述近似二值图确定所述待检测图像中文本所在区域的文本框。
在得到近似二值图后,便可基于近似二值图确定待检测图像中文本所在区域的文本框,完成文本的检测。例如,将近似二值图中的坐标点的数值与预设阈值进行比较,若大于等于预设阈值,则表征该坐标点为文本所在区域的文本框所在的点,若小于预设阈值,则表征该坐标点不为文本所在区域的文本框所在的点,这样便可确定待检测图像中文本所在区域的文本框。
一种实施方式下,可以是利用轻量级网络模型中的预测网络来基于近似二值图确定待检测图像中文本所在区域的文本框。
一种实施方式下,基于近似二值图确定待检测图像中文本所在区域的文本框的过程可以是:基于近似二值图确定待检测图像中文本所在区域的初始文本框;根据初始文本框所围成的区域的面积、初始文本框的周长以及预设公式,确定调整比例;利用调整比例对初始文本框的尺寸进行调整,并将调整后的初始文本框作为最终文本框。例如,预设公式为
Figure BDA0003267224950000161
其中,D′为调整比例,A′为初始文本框所围成的区域的面积,L′为初始文本框的周长,r′为调整系数,例如为1.5。
一种实施方式下,在得到待检测图像中文本所在区域的文本框后,还可以进一步对文本框内的文字进行文字识别。
一种实施方式下,本申请所提供的轻量级网络模型的结构如图9所示。包括:顺次连接的骨干网络、卷积神经网络、乘积网络和预测网络。其中,骨干网络,用于提取待检测图像的文本特征图。卷积神经网络,用于对文本特征图进行处理,得到表征文本所在区域的文本概率图和表征文本所在区域的边界框的阈值图。乘积网络,用于将文本概率图中的数据和阈值图中的数据进行乘积,得到近似二值图。预测网络,用于基于近似二值图确定待检测图像中文本所在区域的文本框。
本申请实施例所提供的轻量级网络模型,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,轻量级网络模型实施例部分未提及之处,可参考前述方法实施例中相应内容。
本申请实施例中,在确定二值图时,不再是传统的仅从文本概率图中得到检测框二值图,而是创新地在文本概率图的基础上,引入阈值图,融合文本概率图和阈值图信息,将二值化进行近似,使其可导。使得在训练网络模型时,可以将近似二值化融入训练过程,从而获取更准确的边界,大大降低了后处理的耗时。
为了便于理解,下面对其原理进行说明。常规二值化方程如下:
Figure BDA0003267224950000162
其中t为预设的阈值参数,Pi,j为文本概率图中的坐标点。常规二值化方程为分段函数,在分段处不可导,因而不能在训练网络时得到优化。
而本申请实施例中,将常规二值化方程做近似处理,将其转换为可导函数。近似二值化函数如下:
Figure BDA0003267224950000171
其中,Ti,j为阈值图中的坐标点,k为扩增因子。取二值交叉熵(binary cross-entropy)函数
Figure BDA0003267224950000172
Figure BDA0003267224950000173
为损失函数,对近似二值化函数可导的过程进行说明:定义
Figure BDA0003267224950000174
其中x=Pi,j-Ti,j。则正负标签处的损失函数分别为
Figure BDA0003267224950000175
Figure BDA0003267224950000176
使用链式法则分别对正负标签处的损失函数求导,结果为
Figure BDA0003267224950000177
转换后的近似二值化函数可导,能在训练网络时得到优化,从而更好的在背景中区分文本区域,同时更好的分割紧邻的不同实例。
一种实施方式下,可以采用如图10所示的模型训练方法,来训练上述的轻量级网络模型。下面将结合图10,对本申请实施例提供的模型训练方法进行说明。
S10:获取带有训练标签的训练样本图像,所述训练标签包括表征文本所在区域的正标签和非文本所在区域的负标签。
获取带有训练标签的训练样本图像(包括多张训练样本图像),其中,训练标签包括表征文本所在区域的正标签和非文本所在区域的负标签。
一种实施方式下,在生成训练样本图像中的表征文本所在区域的正标签和非文本所在区域的负标签时,还可以采用裁剪算法(如Vatti clipping algorithm)分别对原始文本框(标签文本框)进行缩放或扩张,缩放或扩张的计算公式如下:
Figure BDA0003267224950000178
D为缩放或扩张因子,A为原始文本框所在区域的面积,L为原始文本框的周长,r为缩放比例系数,一般取0.4。原始文本框区域G按照偏置D分别缩放和扩张为Gs和Gd,阈值图的标签数据Gl即在Gs和Gd之间。
S20:利用所述训练样本图像对预设的轻量级网络模型进行训练,得到训练好的用于文本检测的轻量级网络模型,其中,用于训练所述轻量级网络模型的损失函数L包含用于预测表征文本所在区域的文本概率图的损失函数Ls、用于预测表征文本所在区域的边界框的阈值图的损失函数Lb和用于预测表征文本所在区域的文本框的近似二值图的损失函数Lt
其中,L=Ls+α×Lb+β×Lt,α、β均为权重因子,取值范围为[1,10],用来调整不同损失值的权重。
其中,Ls=Lb=∑(yilogxi+(1-yi)log(1-xi)),Lt取文本框的标签数据和预测标签数据之间的L1距离为损失函数,即Lt=∑|yi-xi|。xi为预测标签数据,yi为标签数据(如正标签、负标签)。
具体的训练过程已经为本领域技术人员所熟知,在此不再进行介绍。
基于同样的发明构思,本申请实施例还提供了一种文本检测装置100,如图11所示。该文本检测装置100包括:获取模块110、处理模块120。
获取模块120,用于获取包含文本的待检测图像,所述待检测图像为按照预设的通道数*高*宽裁剪后的图像。
处理模块130,用于利用预先训练好的轻量级网络模型对所述待检测图像进行处理,得到表征文本所在区域的文本概率图和表征文本所在区域的边界框的阈值图,以及将所述文本概率图中的数据和所述阈值图中的数据进行乘积,得到近似二值图,基于所述近似二值图确定所述待检测图像中文本所在区域的文本框。
可选地,所述轻量级网络模型包括骨干网络、卷积神经网络;处理模块130,用于利用所述骨干网络提取所述待检测图像的文本特征图;利用所述卷积神经网络对所述文本特征图进行处理,得到所述文本概率图和所述阈值图。
可选地,所述骨干网络包括顺次连接的n个卷积层,n为大于等于2的正整数;处理模块130用于:i为整数,依次取1至n,利用第i个卷积层对输入自身的输入数据进行处理,其中,输入第1个卷积层的输入数据为所述待检测图像,当i大于等于2时,输入第i个卷积层的输入数据为第i-1个卷积层的输出数据,第i个卷积层的输出数据为1/2i所述待检测图像尺寸的特征图;对于i大于等于j的第i个卷积层,将对第i个卷积层的输出数据进行2倍上采样的转置卷积得到的1/2i-1所述待检测图像尺寸的特征图,与第i-1个卷积层输出的1/2i-1所述待检测图像尺寸的特征图相加,得到1/2i-1所述待检测图像尺寸的合并特征图,j为大于等于2,小于n的整数;分别对1/2i-1所述待检测图像尺寸的合并特征图、1/2n所述待检测图像尺寸的特征图,进行2i-j倍、2n-j+1倍上采样的转置卷积,得到n-j+2个1/2j-1所述待检测图像尺寸的第一特征图;将得到的n-j+2个1/2j-1所述待检测图像尺寸的第一特征图,按照通道数进行拼接,得到所述文本特征图。
可选地,所述骨干网络包括顺次连接的n个卷积层,n为大于等于2的正整数;处理模块130用于:i为整数,依次取1至n,利用第i个卷积层对输入自身的输入数据进行处理,其中,输入第1个卷积层的输入数据为所述待检测图像,当i大于等于2时,输入第i个卷积层的输入数据为第i-1个卷积层的输出数据,第i个卷积层的输出数据为1/2i所述待检测图像尺寸的特征图;将对第n个卷积层的输出数据进行2倍上采样的转置卷积得到的1/2n-1所述待检测图像尺寸的特征图,与第n-1个卷积层输出的1/2n-1所述待检测图像尺寸的特征图相加,得到第n-1个卷积层对应的1/2n-1所述待检测图像尺寸的合并特征图;对于i大于等于j,且小于n的第i个卷积层,将对第i个卷积层对应的1/2i所述待检测图像尺寸的合并特征图进行2倍上采样的转置卷积,与第i-1个卷积层输出的1/2i-1所述待检测图像尺寸的特征图相加,得到第i-1个卷积层对应的1/2i-1所述待检测图像尺寸的合并特征图,其中,所述第i个卷积层对应的1/2i所述待检测图像尺寸的合并特征图为将对第i+1个卷积层对应的合并特征图进行2倍上采样的转置卷积得到的1/2i所述待检测图像尺寸的特征图,与第i个卷积层输出的1/2i所述待检测图像尺寸的特征图相加得到,j为大于等于2,小于n的整数;分别对1/2i-1所述待检测图像尺寸的合并特征图、1/2n-1所述待检测图像尺寸的合并特征图、1/2n所述待检测图像尺寸的特征图,进行2i-j倍、2n-j倍、2n-j+1倍上采样的转置卷积,得到n-j+2个1/2j-1所述待检测图像尺寸的第一特征图;将得到的n-j+2个1/2j-1所述待检测图像尺寸的第一特征图,按照通道数进行拼接,得到所述文本特征图。
可选地,所述卷积神经网络包括顺次连接的第一卷积层、最大池化层、第二卷积层、转置卷积层、第三卷积层和预测层;处理模块130用于:利用所述第一卷积层对所述文本特征图进行卷积处理;利用所述最大池化层对所述第一卷积层的输出数据进行池化处理;利用所述第二卷积层对所述最大池化层的输出数据进行卷积处理;利用所述转置卷积层对所述第二卷积层的输出数据进行2倍上采样的转置卷积处理;利用所述第三卷积层对所述转置卷积层的输出数据进行卷积处理,得到所述文本概率图;利用所述预测层对所述第三卷积层的输出数据进行文本所在区域的概率预测,得到所述阈值图。
可选地,处理模块130用于:基于所述近似二值图确定所述待检测图像中文本所在区域的初始文本框;根据所述初始文本框所围成的区域的面积、所述初始文本框的周长以及预设公式,确定调整比例;利用所述调整比例对所述初始文本框的尺寸进行调整,并将调整后的初始文本框作为最终文本框。
本申请实施例所提供的文本检测装置100,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
如图12所示,图12示出了本申请实施例提供的一种电子设备200的结构框图。所述电子设备200包括:收发器210、存储器220、通讯总线230以及处理器240。
所述收发器210、所述存储器220、处理器240各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线230或信号线实现电性连接。其中,收发器210用于收发数据。存储器220用于存储计算机程序,如存储有图11中所示的软件功能模块,即文本检测装置100,或者,存储有用于执行上述模型训练方法所需的计算机程序。其中,文本检测装置100包括至少一个可以软件或固件(Firmware)的形式存储于所述存储器220中或固化在所述电子设备200的操作系统(Operating System,OS)中的软件功能模块。所述处理器240,用于执行存储器220中存储的可执行模块。
例如,处理器240执行文本检测装置100包括的软件功能模块或计算机程序时,处理器240,用于获取包含文本的待检测图像,所述待检测图像为按照预设的通道数*高*宽裁剪后的图像;利用预先训练好的轻量级网络模型对所述待检测图像进行处理,得到表征文本所在区域的文本概率图和表征文本所在区域的边界框的阈值图;将所述文本概率图中的数据和所述阈值图中的数据进行乘积,得到近似二值图;基于所述近似二值图确定所述待检测图像中文本所在区域的文本框。
例如,处理器240执行上述模型训练方法所需的计算机程序时,处理器240,用于获取带有训练标签的训练样本图像,所述训练标签包括表征文本所在区域的正标签和非文本所在区域的负标签;利用所述训练样本图像对预设的轻量级网络模型进行训练,得到训练好的用于文本检测的轻量级网络模型,其中,用于训练所述轻量级网络模型的损失函数L包含用于预测表征文本所在区域的文本概率图的损失函数Ls、用于预测表征文本所在区域的边界框的阈值图的损失函数Lb和用于预测表征文本所在区域的文本框的近似二值图的损失函数Lt;其中,L=Ls+α×Lb+β×Lt,α、β均为权重因子,取值范围为[1,10]。
其中,存储器220可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
处理器240可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(CentralProcessing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器240也可以是任何常规的处理器等。
其中,上述的电子设备200,包括但不限于平板、智能手机、计算机等。
本申请实施例还提供了一种非易失性的计算机可读取存储介质(以下简称存储介质),该存储介质上存储有计算机程序,该计算机程序被计算机如上述的电子设备200运行时,执行上述所示的文本检测方法,或者,上述所示的模型训练方法。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,笔记本电脑,服务器,或者电子设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种文本检测方法,其特征在于,包括:
获取包含文本的待检测图像,所述待检测图像为按照预设的通道数*高*宽裁剪后的图像;
利用预先训练好的轻量级网络模型对所述待检测图像进行处理,得到表征文本所在区域的文本概率图和表征文本所在区域的边界框的阈值图;
将所述文本概率图中的数据和所述阈值图中的数据进行乘积,得到近似二值图;
基于所述近似二值图确定所述待检测图像中文本所在区域的文本框。
2.根据权利要求1所述的方法,其特征在于,所述轻量级网络模型包括骨干网络、卷积神经网络,利用预先训练好的轻量级网络模型对所述待检测图像进行处理,包括:
利用所述骨干网络提取所述待检测图像的文本特征图;
利用所述卷积神经网络对所述文本特征图进行处理,得到所述文本概率图和所述阈值图。
3.根据权利要求2所述的方法,其特征在于,所述骨干网络包括顺次连接的n个卷积层,n为大于等于2的正整数;利用所述骨干网络提取所述待检测图像的文本特征图,包括:
i为整数,依次取1至n,利用第i个卷积层对输入自身的输入数据进行处理,其中,输入第1个卷积层的输入数据为所述待检测图像,当i大于等于2时,输入第i个卷积层的输入数据为第i-1个卷积层的输出数据,第i个卷积层的输出数据为1/2i所述待检测图像尺寸的特征图;
将对第n个卷积层的输出数据进行2倍上采样的转置卷积得到的1/2n-1所述待检测图像尺寸的特征图,与第n-1个卷积层输出的1/2n-1所述待检测图像尺寸的特征图相加,得到第n-1个卷积层对应的1/2n-1所述待检测图像尺寸的合并特征图;
对于i大于等于j,且小于n的第i个卷积层,将对第i个卷积层对应的1/2i所述待检测图像尺寸的合并特征图进行2倍上采样的转置卷积,与第i-1个卷积层输出的1/2i-1所述待检测图像尺寸的特征图相加,得到第i-1个卷积层对应的1/2i-1所述待检测图像尺寸的合并特征图,其中,所述第i个卷积层对应的1/2i所述待检测图像尺寸的合并特征图为将对第i+1个卷积层对应的合并特征图进行2倍上采样的转置卷积得到的1/2i所述待检测图像尺寸的特征图,与第i个卷积层输出的1/2i所述待检测图像尺寸的特征图相加得到,j为大于等于2,小于n的整数;
分别对1/2i-1所述待检测图像尺寸的合并特征图、1/2n-1所述待检测图像尺寸的合并特征图、1/2n所述待检测图像尺寸的特征图,进行2i-j倍、2n-j倍、2n-j+1倍上采样的转置卷积,得到n-j+2个1/2j-1所述待检测图像尺寸的第一特征图;
将得到的n-j+2个1/2j-1所述待检测图像尺寸的第一特征图,按照通道数进行拼接,得到所述文本特征图。
4.根据权利要求2所述的方法,其特征在于,所述卷积神经网络包括顺次连接的第一卷积层、最大池化层、第二卷积层、转置卷积层、第三卷积层和预测层;利用所述卷积神经网络对所述文本特征图进行处理,得到所述文本概率图和所述阈值图,包括:
利用所述第一卷积层对所述文本特征图进行卷积处理;
利用所述最大池化层对所述第一卷积层的输出数据进行池化处理;
利用所述第二卷积层对所述最大池化层的输出数据进行卷积处理;
利用所述转置卷积层对所述第二卷积层的输出数据进行2倍上采样的转置卷积处理;
利用所述第三卷积层对所述转置卷积层的输出数据进行卷积处理,得到所述文本概率图;
利用所述预测层对所述第三卷积层的输出数据进行文本所在区域的概率预测,得到所述阈值图。
5.根据权利要求1所述的方法,其特征在于,基于所述近似二值图确定所述待检测图像中文本所在区域的文本框,包括:
基于所述近似二值图确定所述待检测图像中文本所在区域的初始文本框;
根据所述初始文本框所围成的区域的面积、所述初始文本框的周长以及预设公式,确定调整比例;
利用所述调整比例对所述初始文本框的尺寸进行调整,并将调整后的初始文本框作为最终文本框。
6.一种模型训练方法,其特征在于,包括:
获取带有训练标签的训练样本图像,所述训练标签包括表征文本所在区域的正标签和非文本所在区域的负标签;
利用所述训练样本图像对预设的轻量级网络模型进行训练,得到训练好的用于文本检测的轻量级网络模型,其中,用于训练所述轻量级网络模型的损失函数L包含用于预测表征文本所在区域的文本概率图的损失函数Ls、用于预测表征文本所在区域的边界框的阈值图的损失函数Lb和用于预测表征文本所在区域的文本框的近似二值图的损失函数Lt
其中,L=Ls+α×Lb+β×Lt,α、β均为权重因子,取值范围为[1,10]。
7.一种轻量级网络模型,其特征在于,包括:
骨干网络,用于提取待检测图像的文本特征图;
卷积神经网络,用于对所述文本特征图进行处理,得到表征文本所在区域的文本概率图和表征文本所在区域的边界框的阈值图;
乘积网络,用于将所述文本概率图中的数据和所述阈值图中的数据进行乘积,得到近似二值图;
预测网络,用于基于所述近似二值图确定所述待检测图像中文本所在区域的文本框。
8.一种文本检测装置,其特征在于,包括:
获取模块,用于获取包含文本的待检测图像,所述待检测图像为按照预设的通道数*高*宽裁剪后的图像;
处理模块,用于利用预先训练好的轻量级网络模型对所述待检测图像进行处理,得到表征文本所在区域的文本概率图和表征文本所在区域的边界框的阈值图,以及将所述文本概率图中的数据和所述阈值图中的数据进行乘积,得到近似二值图,基于所述近似二值图确定所述待检测图像中文本所在区域的文本框。
9.一种电子设备,其特征在于,包括:
存储器和处理器,所述处理器与所述存储器连接;
所述存储器,用于存储程序;
所述处理器,用于调用存储于所述存储器中的程序,以执行如权利要求1-5中任一项所述的方法,或者,执行如权利要求6所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器运行时,执行如权利要求1-5中任一项所述的方法,或者,执行如权利要求6所述的方法。
CN202111090473.1A 2021-09-17 2021-09-17 模型训练方法、文本检测方法、装置及轻量级网络模型 Pending CN113780283A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111090473.1A CN113780283A (zh) 2021-09-17 2021-09-17 模型训练方法、文本检测方法、装置及轻量级网络模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111090473.1A CN113780283A (zh) 2021-09-17 2021-09-17 模型训练方法、文本检测方法、装置及轻量级网络模型

Publications (1)

Publication Number Publication Date
CN113780283A true CN113780283A (zh) 2021-12-10

Family

ID=78851835

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111090473.1A Pending CN113780283A (zh) 2021-09-17 2021-09-17 模型训练方法、文本检测方法、装置及轻量级网络模型

Country Status (1)

Country Link
CN (1) CN113780283A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114283431A (zh) * 2022-03-04 2022-04-05 南京安元科技有限公司 一种基于可微分二值化的文本检测方法
CN114445825A (zh) * 2022-02-07 2022-05-06 北京百度网讯科技有限公司 文字检测方法、装置、电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781967A (zh) * 2019-10-29 2020-02-11 华中科技大学 一种基于可微分二值化的实时文本检测方法
CN111723841A (zh) * 2020-05-09 2020-09-29 北京捷通华声科技股份有限公司 文本检测方法、装置、电子设备及存储介质
CN111753839A (zh) * 2020-05-18 2020-10-09 北京捷通华声科技股份有限公司 一种文本检测方法和装置
CN112183537A (zh) * 2020-11-30 2021-01-05 北京易真学思教育科技有限公司 模型训练方法及装置、文本区域检测方法及装置
CN112597918A (zh) * 2020-12-25 2021-04-02 创新奇智(西安)科技有限公司 文本检测方法及装置、电子设备、存储介质
CN112990204A (zh) * 2021-05-11 2021-06-18 北京世纪好未来教育科技有限公司 目标检测方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781967A (zh) * 2019-10-29 2020-02-11 华中科技大学 一种基于可微分二值化的实时文本检测方法
CN111723841A (zh) * 2020-05-09 2020-09-29 北京捷通华声科技股份有限公司 文本检测方法、装置、电子设备及存储介质
CN111753839A (zh) * 2020-05-18 2020-10-09 北京捷通华声科技股份有限公司 一种文本检测方法和装置
CN112183537A (zh) * 2020-11-30 2021-01-05 北京易真学思教育科技有限公司 模型训练方法及装置、文本区域检测方法及装置
CN112597918A (zh) * 2020-12-25 2021-04-02 创新奇智(西安)科技有限公司 文本检测方法及装置、电子设备、存储介质
CN112990204A (zh) * 2021-05-11 2021-06-18 北京世纪好未来教育科技有限公司 目标检测方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MINGHUI LLIAO等: "Real-time Scene Text Detection with Differentiable Binarization", AAAI-20/IAAI-20/EAAI-20 PROCEEDINGS, vol. 34, no. 7, 3 April 2020 (2020-04-03), pages 1 - 8 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114445825A (zh) * 2022-02-07 2022-05-06 北京百度网讯科技有限公司 文字检测方法、装置、电子设备和存储介质
WO2023147717A1 (zh) * 2022-02-07 2023-08-10 北京百度网讯科技有限公司 文字检测方法、装置、电子设备和存储介质
CN114283431A (zh) * 2022-03-04 2022-04-05 南京安元科技有限公司 一种基于可微分二值化的文本检测方法

Similar Documents

Publication Publication Date Title
AU2019200270B2 (en) Concept mask: large-scale segmentation from semantic concepts
van Beers et al. Deep neural networks with intersection over union loss for binary image segmentation
CN107239786B (zh) 一种字符识别方法和装置
US20190385054A1 (en) Text field detection using neural networks
Mathew et al. Multilingual OCR for Indic scripts
CN111191457B (zh) 自然语言语义识别方法、装置、计算机设备和存储介质
CN109657582B (zh) 人脸情绪的识别方法、装置、计算机设备及存储介质
Bhunia et al. Indic handwritten script identification using offline-online multi-modal deep network
CN114283430A (zh) 跨模态图文匹配训练方法及装置、存储介质、电子设备
Ohyama et al. Detecting mathematical expressions in scientific document images using a u-net trained on a diverse dataset
CN113780283A (zh) 模型训练方法、文本检测方法、装置及轻量级网络模型
Anand et al. Real time noisy dataset implementation of optical character identification using CNN
Kumar et al. Segmentation-free writer identification based on convolutional neural network
Naseer et al. Meta features-based scale invariant OCR decision making using LSTM-RNN
Tan et al. A new handwritten character segmentation method based on nonlinear clustering
Saha et al. Handwriting recognition using active contour
CN110717407A (zh) 基于唇语密码的人脸识别方法、装置及存储介质
Angadi et al. A deep learning approach to recognize handwritten Telugu character using convolution neural networks
CN114283432A (zh) 一种文本块识别方法、装置及电子设备
Ahmed et al. Recognition of Urdu Handwritten Alphabet Using Convolutional Neural Network (CNN).
Durga et al. Ensemble deep learning to classify specific types of t and i patterns in graphology
Hemanth et al. CNN-RNN BASED HANDWRITTEN TEXT RECOGNITION.
Naseer et al. Meta‐feature based few‐shot Siamese learning for Urdu optical character recognition
Yogesh et al. Artificial Intelligence Based Handwriting Digit Recognition (HDR)-A Technical Review
Tan et al. Content-based similar document image retrieval using fusion of CNN features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination