CN111553351A - 一种基于语义分割的场景任意形状的文本检测方法 - Google Patents

一种基于语义分割的场景任意形状的文本检测方法 Download PDF

Info

Publication number
CN111553351A
CN111553351A CN202010340620.5A CN202010340620A CN111553351A CN 111553351 A CN111553351 A CN 111553351A CN 202010340620 A CN202010340620 A CN 202010340620A CN 111553351 A CN111553351 A CN 111553351A
Authority
CN
China
Prior art keywords
text
network
scene
semantic segmentation
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010340620.5A
Other languages
English (en)
Inventor
杨海东
罗哲
黄坤山
彭文瑜
林玉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Foshan Nanhai Guangdong Technology University CNC Equipment Cooperative Innovation Institute
Foshan Guangdong University CNC Equipment Technology Development Co. Ltd
Original Assignee
Foshan Nanhai Guangdong Technology University CNC Equipment Cooperative Innovation Institute
Foshan Guangdong University CNC Equipment Technology Development Co. Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Foshan Nanhai Guangdong Technology University CNC Equipment Cooperative Innovation Institute, Foshan Guangdong University CNC Equipment Technology Development Co. Ltd filed Critical Foshan Nanhai Guangdong Technology University CNC Equipment Cooperative Innovation Institute
Priority to CN202010340620.5A priority Critical patent/CN111553351A/zh
Publication of CN111553351A publication Critical patent/CN111553351A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

本发明公开一种基于语义分割的场景任意形状的文本检测方法,包括以下步骤:S1、构建任意形状的基于语义分割的场景文本检测网络模型;S2、根据整体目标损失函数,利用反向传播算法和随机梯度下降优化,最小化整体损失函数,对S1中设计的模型进行迭代训练;S3、利用逐步扩展尺度的方法,根据S2中训练的模型来进行场景文本检测识别,本发明针对自然场景下任意形状、紧密靠近的文本实例的文本检测问题,提出了一种基于语义分割,并创造性地利用多内核的逐步扩展尺度方法来检测文本,更精准地检测文本块位置。

Description

一种基于语义分割的场景任意形状的文本检测方法
技术领域
本发明涉及计算机视觉领域,尤其涉及一种基于语义分割的场景任意形状的文本检测方法。
背景技术
随着卷积神经网络的发展,场景文本检测已经取得了快速发展,目前在地理定位、实时翻译、盲人帮助等领域得到了不错的应用。但场景文本的检测不同于传统的光学字符识别(OCR),由于多方向、弯曲甚至非文本行的文字布局,场景文本的检测更具有挑战性。目前,广泛应用的场景文本检测方法中主要存在两大困难:一方面,大多数现有方法采用四边形bounding box(边界框),这种边界框无法准确定位具有任意形状的文本;另一方面,有很多场景文本行间彼此很相近,导致检测正确率不高,会把连着的文本行识别为一行。传统上,基于分割的方法可以很好的缓解第一个困难,但通常无法解决第二个困难。
发明内容
针对上述问题,本发明提出一种基于语义分割的场景任意形状的文本检测方法,主要解决背景技术中的问题。
本发明提出一种基于语义分割的场景任意形状的文本检测方法,包括以下步骤:
S1、构建任意形状的基于语义分割的场景文本检测网络模型;
S2、根据整体目标损失函数,利用反向传播算法和随机梯度下降优化,最小化整体损失函数,对S1中设计的模型进行迭代训练;
S3、利用逐步扩展尺度的方法,根据S2中训练的模型来进行场景文本检测识别。
进一步改进在于,所述步骤S1中场景文本检测网络模型的构建方法包括以下步骤:
S101、利用特征金字塔网络进行特征提取和多特征融合,特征金字塔网络是一个以残差深度卷积神经网络为基础,由一个自底向上连接、一个顶向下连接和一个横向连接的结构组成的网络;利用特征金字塔网络模型从输入数据集图片中提取并融合低层高分辨率特征和高层高语义信息特征:首先,将训练数据集图片输入特征金字塔网络自底向上网络结构中,即网络的前向过程。前向过程中,网络特征图经过某些层后会改变,而在经过其他一些层的时候不会改变,以网络中不改变特征图大小的卷积层单元定义为一个层级,即有层级{P2,P3,P4,P5}。接下来,利用自上而下连接进行上采样操作,利用横向连接将高层特征和低层特征进行融合,最后,再采用3*3卷积核对每个融合进行卷积,以消除上采样的混叠效应,最终得到{F2,F3,F4,F5}四个特征层。
S102、利用文本/非文本区域分割网络,实现像素级别文本区域识别,从而实现准确定位具有任意形状文本的检测要求,并将步骤S101中所得到的特征图经1*1卷积层-上采样-sigmoid层产生n个同一文本图像里但文本区域分割尺度各异的mask图S1,S2,…,Sn
进一步改进在于,所述步骤S102具体包括:
为顺序获得不同尺度mask图,采用Vatti裁剪算法将原始多边形pn缩小di个像素从而得到缩小的多边形pi,其中每个缩放的pi都被转换成0/1二进制的掩码作为分割标签真值G1,G2,…,Gn;若定义真值的缩放比例ri为:
Figure BDA0002468391550000031
其中,m是最小的尺度比例,在(0,1]之间,比例值r1,r2,…,rn由两个超参数n和m决定,它们从m线性增加到1。
则pn和pi之间的余量di可以计算为:
Figure BDA0002468391550000032
其中,Area(·)是计算多边形面积的函数,Perimeter(·)是计算多边形周长的函数。
进一步改进在于,所述步骤S2中的损失函数由Lc代表的完整文本实例损失Sn和Ls代表的缩放后文本实例损失S1→Sn-1组成,λ用于平衡Lc和Ls
L=λLc+(1-λ)Ls
计算loss时,采用dice系数损失函数:
Figure BDA0002468391550000033
其中Si,x,y,Gi,x,y分别代表分割结果Si和真值Gi的(x,y)位置处的像素值。
因此Lc和Ls的计算方式可如下表示为:
Lc=1-D(Sn·M,Gn·M)
Figure BDA0002468391550000041
其中,为了对文本进行区分,设置正负样本比例值设为3:1,避免误检。
进一步改进在于,所述步骤S3中的逐步扩展尺度的方法是对步骤S102中得到的一系列mask图S1,S2,…,Sn在基于广度优先搜索算法下进行文本区域的像素级别定位,具体包括以下步骤:
S301、从S1中找出所有的文本块连通区域,连通区域个数=文本区域个数=kernel;
S302、把kernel放到S2中,并利用广度优先搜索的方法把每个kernel的大小扩展到和S2一样;
S303、把扩展后的kernel放到S3中,按照S3的文本区域的样子进行扩展,扩展到和S3一样,对于更多的Si则以此类推,最后得到Sn中的每个像素属于哪个文本区域,进而把靠得很近的文本区域分开。
与现有技术相比,本发明的有益效果为:
1、任意形状文本检测准确度高:本发明针对自然场景下任意形状、紧密靠近的文本实例的文本检测问题,提出了一种基于语义分割,并创造性地利用多内核的逐步扩展尺度方法来检测文本,更精准地检测文本块位置。
2、任意形状文本检测速度快:本发明网络结构简单,在保证文本检测精度的同时,速度较快。
3、任意形状文本检测泛化能力强:本发明一个基于分割的场景文本检测模型,不仅可以准确定位并识别任意形状场景文本,如弯曲、旋转、多方向等等,还能精准检测识别紧密靠近文本实例。
4、鲁棒性强:本发明可以克服文本尺度和形状的变化,能同时检测水平、定向、弯曲、彼此接近的文本。
附图说明
附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
图1为本发明一实施方式的整体流程示意图;
图2为本发明一实施方式的特征金字塔网络结构示意图;
图3为本发明一实施方式的用于生成多内核文本分割结果的标签生成示意图;
图4为本发明一实施方式的对多内核进行逐步扩展的流程示意图。
具体实施方式
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以是通过中间媒介间接连接,可以说两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明的具体含义。下面结合附图和实施例对本发明的技术方案做进一步的说明。
本发明提出一种基于语义分割的场景任意形状的文本检测方法,包括以下步骤:
S1、构建任意形状的基于语义分割的场景文本检测网络模型,本发明的文本检测模型网络结构主要包括:用于特征提取和多特征融合的基于残差网络的多特征金字塔结构网络、文本/非文本区域分割网络;
S2、根据整体目标损失函数,利用反向传播算法和随机梯度下降优化,最小化整体损失函数,对S1中设计的模型进行迭代训练;
S3、利用逐步扩展尺度的方法,根据S2中训练的模型来进行场景文本检测识别。
作为本发明一优选实施方案,所述步骤S1中场景文本检测网络模型的构建方法包括以下步骤:
S101、利用特征金字塔网络进行特征提取和多特征融合,参照图2,特征金字塔网络是一个以残差深度卷积神经网络为基础,由一个自底向上连接、一个顶向下连接和一个横向连接的结构组成的网络;利用特征金字塔网络模型从输入数据集图片中提取并融合低层高分辨率特征和高层高语义信息特征:首先,将训练数据集图片输入特征金字塔网络自底向上网络结构中,即网络的前向过程。前向过程中,网络特征图经过某些层后会改变,而在经过其他一些层的时候不会改变,以网络中不改变特征图大小的卷积层单元定义为一个层级,即有层级{P2,P3,P4,P5}。接下来,利用自上而下连接进行上采样操作,利用横向连接将高层特征和低层特征进行融合,最后,再采用3*3卷积核对每个融合进行卷积,以消除上采样的混叠效应,最终得到{F2,F3,F4,F5}四个特征层。
本实施中我们从残差的骨干网络中获得4个256通道的特征层{F2,F3,F4,F5}的,为进一步将语义特征从低级别升级到高级别,我们将对多层融合结果进行进一步处理,具体地,通过函数C(·)用4*256=1024个通道融合该四个特征层,映射得到feature map F:
F=C(F2,F3,F4,F5)=F2||Up×2(F3)||Up×4(F4)||Up×8(F5)
其中,“||”代表级联,Up×2(·)、Up×4(·)、Up×8(·)分别代表上采样2、4、8倍。
S102、利用文本/非文本区域分割网络,实现像素级别文本区域识别,从而实现准确定位具有任意形状文本的检测要求,并将步骤S101中所得到的特征图经1*1卷积层-上采样-sigmoid层产生n个同一文本图像里但文本区域分割尺度各异的mask图S1,S2,…,Sn
具体地,相较于常用的边界框法定位文本区域,图像分割的方法可实现像素级识别,从而实现准确定位具有任意形状文本的检测要求。将S101步骤中所得到的特征图经1*1卷积层-上采样-sigmoid层产生n个同一文本图像里但多内核(即文本区域分割尺度各异)的mask图,例如S1,S2,…,Sn,Si表示同一文本图像中不同尺度文字块内核的mask图,以便于有效分离靠的很近的文本区域。
作为本发明一优选实施方案,所述步骤S102具体包括:
对于S102所述生成n个文本区域分割尺度mask图S1,S2,…,Sn,这是需要有标签的图像来训练的,为了生成训练时不同尺度kernels所对应的真值(ground truth),本发明中具体文本区域分割的标签生成流程如图。事实上,这些真值可以通过缩小原始文本实例简单且有效的生成,在图3(b)中描出来的多边形代表原始文本实例,它对应于最大的分割标签mask图(Sn,即图3(c)最右边)。
因此,为顺序获得不同尺度mask图,采用Vatti裁剪算法将原始多边形pn缩小di个像素从而得到缩小的多边形pi,其中每个缩放的pi都被转换成0/1二进制的掩码作为分割标签真值G1,G2,…,Gn;若定义真值的缩放比例ri为:
Figure BDA0002468391550000081
其中,m是最小的尺度比例,在(0,1]之间,比例值r1,r2,…,rn由两个超参数n和m决定,它们从m线性增加到1。
则pn和pi之间的余量di可以计算为:
Figure BDA0002468391550000082
其中,Area(·)是计算多边形面积的函数,Perimeter(·)是计算多边形周长的函数。
作为本发明一优选实施方案,所述步骤S2中的损失函数由Lc代表的完整文本实例损失Sn和Ls代表的缩放后文本实例损失S1→Sn-1组成,λ用于平衡Lc和Ls
L=λLc+(1-λ)Ls
另外,在自然场景图像中,文本区域往往只占图片面积的一小部分,为缓解文本/非文本的像素分类任务中的类别不平衡问题,本发明进行了如下操作:
计算loss时,采用dice系数损失函数:
Figure BDA0002468391550000091
其中Si,x,y,Gi,x,y分别代表分割结果Si和真值Gi的(x,y)位置处的像素值。
因此Lc和Ls的计算方式可如下表示为:
Lc=1-D(Sn·M,Gn·M)
Figure BDA0002468391550000092
为了更好地对文本进行区分,避免误检,我们使用所有的正样本,但只选择一定数量的最难负样本,其中正负样本比例值设为3:1。负样本的难度由相应位置的交叉熵loss值表示:loss越大代表难度越高。
作为本发明一优选实施方案,所述步骤S3中的逐步扩展尺度的方法是对步骤S102中得到的一系列mask图S1,S2,…,Sn在基于广度优先搜索算法下进行文本区域的像素级别定位,且能把靠的很近的文本区域准确地分开(如图4所示),我们有三个分割的结果S={S1,S2,S3},且mask图中有4个不同的连通域,具体包括以下步骤:
S301、从S1中找出所有的文本块连通区域,连通区域个数=文本区域个数=kernel;
S302、把kernel放到S2中,并利用广度优先搜索的方法把每个kernel的大小扩展到和S2一样;
S303、把扩展后的kernel放到S3中,按照S3的文本区域的样子进行扩展,扩展到和S3一样,对于更多的Si则以此类推,最后得到Sn中的每个像素属于哪个文本区域,进而把靠得很近的文本区域分开。
图中,描述位置关系仅用于示例性说明,不能理解为对本专利的限制;显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (5)

1.一种基于语义分割的场景任意形状的文本检测方法,其特征在于,包括以下步骤:
S1、构建任意形状的基于语义分割的场景文本检测网络模型;
S2、根据整体目标损失函数,利用反向传播算法和随机梯度下降优化,最小化整体损失函数,对S1中设计的模型进行迭代训练;
S3、利用逐步扩展尺度的方法,根据S2中训练的模型来进行场景文本检测识别。
2.根据权利要求1所述的一种基于语义分割的场景任意形状的文本检测方法,其特征在于,所述步骤S1中场景文本检测网络模型的构建方法包括以下步骤:
S101、利用特征金字塔网络进行特征提取和多特征融合,特征金字塔网络是一个以残差深度卷积神经网络为基础,由一个自底向上连接、一个顶向下连接和一个横向连接的结构组成的网络;利用特征金字塔网络模型从输入数据集图片中提取并融合低层高分辨率特征和高层高语义信息特征:首先,将训练数据集图片输入特征金字塔网络自底向上网络结构中,即网络的前向过程。前向过程中,网络特征图经过某些层后会改变,而在经过其他一些层的时候不会改变,以网络中不改变特征图大小的卷积层单元定义为一个层级,即有层级{P2,P3,P4,P5}。接下来,利用自上而下连接进行上采样操作,利用横向连接将高层特征和低层特征进行融合,最后,再采用3*3卷积核对每个融合进行卷积,以消除上采样的混叠效应,最终得到{F2,F3,F4,F5}四个特征层。
S102、利用文本/非文本区域分割网络,实现像素级别文本区域识别,从而实现准确定位具有任意形状文本的检测要求,并将步骤S101中所得到的特征图经1*1卷积层-上采样-sigmoid层产生n个同一文本图像里但文本区域分割尺度各异的mask图S1,S2,…,Sn
3.根据权利要求2所述的一种基于语义分割的场景任意形状的文本检测方法,其特征在于,所述步骤S102具体包括:
为顺序获得不同尺度mask图,采用Vatti裁剪算法将原始多边形pn缩小di个像素从而得到缩小的多边形pi,其中每个缩放的pi都被转换成0/1二进制的掩码作为分割标签真值G1,G2,…,Gn;若定义真值的缩放比例ri为:
Figure FDA0002468391540000021
其中,m是最小的尺度比例,在(0,1]之间,比例值r1,r2,…,rn由两个超参数n和m决定,它们从m线性增加到1。
则pn和pi之间的余量di可以计算为:
Figure FDA0002468391540000022
其中,Area(·)是计算多边形面积的函数,Perimeter(·)是计算多边形周长的函数。
4.根据权利要求1所述的一种基于语义分割的场景任意形状的文本检测方法,其特征在于,所述步骤S2中的损失函数由Lc代表的完整文本实例损失Sn和Ls代表的缩放后文本实例损失S1→Sn-1组成,λ用于平衡Lc和Ls
L=λLc+(1-λ)Ls
计算loss时,采用dice系数损失函数:
Figure FDA0002468391540000031
其中Si,x,y,Gi,x,y分别代表分割结果Si和真值Gi的(x,y)位置处的像素值。
因此Lc和Ls的计算方式可如下表示为:
Lc=1-D(Sn·M,Gn·M)
Figure FDA0002468391540000032
其中,为了对文本进行区分,设置正负样本比例值设为3:1,避免误检。
5.根据权利要求2所述的一种基于语义分割的场景任意形状的文本检测方法,其特征在于,所述步骤S3中的逐步扩展尺度的方法是对步骤S102中得到的一系列mask图S1,S2,…,Sn在基于广度优先搜索算法下进行文本区域的像素级别定位,具体包括以下步骤:
S301、从S1中找出所有的文本块连通区域,连通区域个数=文本区域个数=kernel;
S302、把kernel放到S2中,并利用广度优先搜索的方法把每个kernel的大小扩展到和S2一样;
S303、把扩展后的kernel放到S3中,按照S3的文本区域的样子进行扩展,扩展到和S3一样,对于更多的Si则以此类推,最后得到Sn中的每个像素属于哪个文本区域,进而把靠得很近的文本区域分开。
CN202010340620.5A 2020-04-26 2020-04-26 一种基于语义分割的场景任意形状的文本检测方法 Pending CN111553351A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010340620.5A CN111553351A (zh) 2020-04-26 2020-04-26 一种基于语义分割的场景任意形状的文本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010340620.5A CN111553351A (zh) 2020-04-26 2020-04-26 一种基于语义分割的场景任意形状的文本检测方法

Publications (1)

Publication Number Publication Date
CN111553351A true CN111553351A (zh) 2020-08-18

Family

ID=72005881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010340620.5A Pending CN111553351A (zh) 2020-04-26 2020-04-26 一种基于语义分割的场景任意形状的文本检测方法

Country Status (1)

Country Link
CN (1) CN111553351A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113159020A (zh) * 2021-03-10 2021-07-23 国网河北省电力有限公司 基于核尺度扩张的文本检测方法
CN113888505A (zh) * 2021-09-30 2022-01-04 大连理工大学 一种基于语义分割的自然场景文本检测方法
CN114067321A (zh) * 2022-01-14 2022-02-18 腾讯科技(深圳)有限公司 一种文本检测模型训练方法、装置、设备及存储介质
CN114332841A (zh) * 2021-12-31 2022-04-12 福州大学 一种基于选择性特征融合金字塔的场景文本检测方法
WO2022105521A1 (zh) * 2020-11-20 2022-05-27 深圳壹账通智能科技有限公司 弯曲文本图像的文字识别方法、装置及计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109859190A (zh) * 2019-01-31 2019-06-07 北京工业大学 一种基于深度学习的目标区域检测方法
CN110008950A (zh) * 2019-03-13 2019-07-12 南京大学 一种对形状鲁棒的自然场景中文本检测的方法
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN109859190A (zh) * 2019-01-31 2019-06-07 北京工业大学 一种基于深度学习的目标区域检测方法
CN110008950A (zh) * 2019-03-13 2019-07-12 南京大学 一种对形状鲁棒的自然场景中文本检测的方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022105521A1 (zh) * 2020-11-20 2022-05-27 深圳壹账通智能科技有限公司 弯曲文本图像的文字识别方法、装置及计算机设备
CN113159020A (zh) * 2021-03-10 2021-07-23 国网河北省电力有限公司 基于核尺度扩张的文本检测方法
CN113159020B (zh) * 2021-03-10 2023-06-06 国网河北省电力有限公司 基于核尺度扩张的文本检测方法
CN113888505A (zh) * 2021-09-30 2022-01-04 大连理工大学 一种基于语义分割的自然场景文本检测方法
CN114332841A (zh) * 2021-12-31 2022-04-12 福州大学 一种基于选择性特征融合金字塔的场景文本检测方法
CN114067321A (zh) * 2022-01-14 2022-02-18 腾讯科技(深圳)有限公司 一种文本检测模型训练方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108549893B (zh) 一种任意形状的场景文本端到端识别方法
CN107977620B (zh) 一种基于全卷积网络的多方向场景文本单次检测方法
CN111461114B (zh) 一种基于分割的多尺度特征金字塔文本检测方法
CN111553351A (zh) 一种基于语义分割的场景任意形状的文本检测方法
CN111753828B (zh) 一种基于深度卷积神经网络的自然场景水平文字检测方法
CN108345850B (zh) 基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法
CN110020676A (zh) 基于多感受野深度特征的文本检测方法、系统、设备及介质
CN109740686A (zh) 一种基于区域池化和特征融合的深度学习图像多标记分类方法
CN110443258B (zh) 文字检测方法、装置、电子设备及存储介质
CN110503103B (zh) 一种基于全卷积神经网络的文本行中的字符切分方法
CN110751154B (zh) 一种基于像素级分割的复杂环境多形状文本检测方法
CN112528997B (zh) 一种基于文本中心区域扩增的藏汉双语场景文本检测方法
CN115131797B (zh) 一种基于特征增强金字塔网络的场景文本检测方法
CN111461213A (zh) 一种目标检测模型的训练方法、目标快速检测方法
CN116645592B (zh) 一种基于图像处理的裂缝检测方法和存储介质
CN110929665A (zh) 一种自然场景曲线文本检测方法
CN110852327A (zh) 图像处理方法、装置、电子设备及存储介质
CN114266794A (zh) 基于全卷积神经网络的病理切片图像癌症区域分割系统
CN111898608B (zh) 一种基于边界预测的自然场景多语言文字检测方法
CN113033559A (zh) 一种基于目标检测的文本检测方法及装置、存储介质
CN112580624A (zh) 基于边界预测的多方向文本区域检测方法和装置
CN114842482B (zh) 一种图像分类方法、装置、设备和存储介质
CN114708591A (zh) 基于单字连接的文档图像中文字符检测方法
CN114898372A (zh) 一种基于边缘注意力引导的越南场景文字检测方法
CN114820423A (zh) 一种基于显著性目标检测的自动抠图方法及其配套系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200818