CN110781967B - 一种基于可微分二值化的实时文本检测方法 - Google Patents
一种基于可微分二值化的实时文本检测方法 Download PDFInfo
- Publication number
- CN110781967B CN110781967B CN201911038562.4A CN201911038562A CN110781967B CN 110781967 B CN110781967 B CN 110781967B CN 201911038562 A CN201911038562 A CN 201911038562A CN 110781967 B CN110781967 B CN 110781967B
- Authority
- CN
- China
- Prior art keywords
- map
- threshold
- prediction module
- text detection
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 29
- 230000011218 segmentation Effects 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 11
- 238000007373 indentation Methods 0.000 claims description 9
- 239000000203 mixture Substances 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 5
- 230000003321 amplification Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 3
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 3
- 230000000750 progressive effect Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 2
- 238000012805 post-processing Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005452 bending Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于可微分二值化的实时文本检测方法。通过对图像进行分割,得到文本区域的概率图,对概率图采用可微分二值化得到二值图,在二值图上寻找联通区域即可得到文本区域的包围盒。本方法通过给概率图和二值图均施加监督,将二值化的过程纳入训练之中,提升检测效果。本发明相对于现有文本检测方法,在准确度、运行效率和通用性方面都取得了卓越效果,有很强的实际应用价值。
Description
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种基于可微分二值化的实时文本检测方法。
背景技术
近年来,由于图像/视频理解、视觉搜索、自动驾驶和盲辅助等广泛的实际应用,在场景图像中阅读文本已经成为一个活跃的研究领域。
作为场景文本阅读的关键组成部分,旨在定位每个文本实例的边界框或区域的场景文本检测仍然是一项具有挑战性的任务,因为场景文本通常具有各种尺度和形状,包括水平、多向和弯曲文本。基于分割的场景文本检测方法最近引起了很多关注,因为受益于其在像素级的预测结果,它可以描述各种形状的文本。然而,大多数基于分割的方法需要复杂的后处理以将像素级预测结果分组为检测到的文本实例,从而导致推理过程中花费相当大的时间成本。
如图1所示,大多数现有的检测方法使用类似的后处理流水线:首先,它们设置一个固定的阈值,用于将分割网络产生的概率图转换成二进制图像,然后,一些启发式技术(如像素聚类)用于将像素分组为文本实例。或者,我们的流水线旨在将二值化操作插入到分段网络中以进行联合优化。通过这种方式,可以自适应地预测图像的每个位置处的阈值,这可以完全区分像素与前景和背景。然而标准二值化函数是不可微分的,因此无法直接在深度学习网络中参与反向传播训练。
发明内容
本发明的目的在于提供一种基于分割的实时文本检测方法,并在速度和精度上达到很好的平衡。
为实现上述目的,本发明提出了一种基于可微分二值化的实时文本检测方法,包括下述步骤:
(1)训练基于可微分二值化的文本检测网络模型,包括如下子步骤:
(1.1)准备具有文本位置标注的训练数据集,位置的表示方式可以是水平的矩形或者任意的多边形;
(1.2)定义场景文本检测网络模型,使用步骤(1.1)中适应于批量训练的带标注训练数据集,设计损失函数,选择参数优化器,利用反向传导方法训练该网络,得到场景文本检测网络模型;具体包括如下子步骤:
(1.2.1)如图2所示构建基于可微分二值化的场景文本检测网络模型,所述网络模型由基本特征提取模块、概率图预测模块、阈值图预测模块和二值化模块组成。其中,所述基本特征提取模块以ResNet-18或者ResNet-50深度卷积神经网络为基础网络,采用特征金字塔的形式,将不同尺寸的特征图进行融合,用于从输入图片中提取基本特征;将提取的基本特征分别输入概率图预测模块和阈值图预测模块;概率图预测模块和阈值图预测模块的组成结构是一致的,均由一个3*3的卷积层和两个stride为2的反卷积层组成;然后将概率图和阈值图输入二值化模块,得到二值图;最后对二值图找连通区域,得到文本包围盒。
(1.2.2)生成分割图和阈值图的训练标签,所述分割图的训练标签被用于概率图预测模块生成概率图,所述阈值图的训练标签被用于阈值图预测模块生成阈值图。对于一幅文字图片,每个标注的文字区域由多边形 描述,其中n为多边形的端点数量。为了生成分割图和阈值图的训练标签,首先通过多边形内缩算法变换为内缩或外扩的多边形框。内缩或外扩的距离由框的面积和周长计算得到,表达式为:
其中L是多边形的周长,A表示多边形的面积,r是内缩系数。从内缩之后的多边形框可以得到分割图的标签:在多边形内的像素视为正样本而其他像素位置视为负样本。同样地,从原始多边形框到内缩和外扩多边形框之间的区域可以生成阈值图的渐进标签。
(1.2.3)以标准训练数据集Itr作为场景文本检测网络模型的输入,利用基本特征提取模块提取基本特征,将基本特征输入概率图预测模块得到概率图,将基本特征输入阈值图预测模块得到阈值图,分别将概率图和阈值图输入二值化模块,通过可微分二值化操作输出二值图。首先,将图片输入给一个特征金字塔结构的网络;然后,将这些不同尺度的特征图上采样到同一个尺度(W/4*H/4),其中W和H为输入图片的宽和高,并将它们串联起来形成融合特征图F;接下来,融合特征图F被用来预测概率图P和阈值图T,概率图预测模块和阈值图预测模块的组成结构是一致的,均由一个3*3的卷积层和两个stride为2的反卷积层组成,分别施以分割图和阈值图的训练标签;最后,通过P和T计算出二值图B,计算公式为
(1.2.4)分别计算概率图预测模块、阈值图预测模块和二值图的损失函数;对上述3个损失函数加权求和,得到总的损失函数,反向传播计算梯度,使用随机梯度下降优化器更新模型参数,得到训练好的场景文本检测网络模型。
模型的损失函数L计算如下:
L=Ls+α×Lb+β×Lt
其中Ls是概率图的损失函数;Lb和Lt分别是二值图和阈值图的损失函数。α和β分别设置为1.0和10.0。
对于Ls和Lb,我们采用了二分类的交叉熵损失函数:
其中Sl是一个采样的集合,xi和yi分别表示概率图和二值图的预测值和标签值。为了保持正负样本的数量的平衡,我们将采样的正负样本比例设置为1:3。
对于Lt我们采用了L1损失函数:
其中Rd是在文本包围盒内的像素的序号;x*和y*分别是是阈值图的预测值和标签值。
(2)利用上述训练好的模型进行场景文本检测,包括如下子步骤:
(2.1)将待检测的场景文本图片提取基本特征,输入概率图预测模块,得到概率图;
(2.2)将概率图根据一个固定阈值(比如0.5)进行二值化,得到二值图。
(2.3)对二值图寻找连通区域,并将对应连通区域内的平均概率值作为置信度进行过滤,得到文本的包围盒。
通过本发明所构思的以上技术方案,与现有技术相比,本发明具有以下技术效果:
(1)准确率高:该发明通过将二值化过程引入训练过程之中,能有效地提高检测模型的准确率;
(2)检测速度快:该发明用到的模型仅由简单的分割网络和简单的后处理组成,在GPU上运行可以达到实时的速度;
(3)易于嵌入现有模型:本发明中的可微分二值化方法可以方便地嵌入到现有的其他基于分割的模型方法中;
(4)通用性强:本发明对文字方向、弯曲性不敏感,因而可以用于水平文本行、倾斜文本以及弯曲文本等的文本检测任务。
附图说明
图1是现有检测方法中后的处理流程及相应网络模型的示意图;
图2是本发明实施例中基于可微分二值化的文本检测方法流程图,其中实线箭头表示训练,虚线箭头表示识别;
图3是本发明的训练标签生成示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
以下首先就本发明的技术术语进行解释和说明:
Vatti clipping算法:一种常用的多边形裁剪算法。
二值化:根据一定规则将所有值转化为0或者1。
本发明提出了二值化的近似函数,称为可微分二值化(DB),当与分段网络一起训练时,它是完全可微分的,因此能够使用深度学习中的反向传播进行训练。
如图2所示,本发明基于可微分二值化的文本检测方法包括下述步骤:
(1)训练基于可微分二值化的文本检测网络模型,包括如下子步骤:
(1.1)准备具有文本位置标注的训练数据集,位置的表示方式可以是水平的矩形或者任意的多边形;
(1.2)定义场景文本检测网络模型,使用步骤(1.1)中适应于批量训练的带标注训练数据集,设计损失函数,选择参数优化器,利用反向传导方法训练该网络,得到场景文本检测网络模型;具体包括如下子步骤:
(1.2.1)如图2所示构建基于可微分二值化的场景文本检测网络模型,所述场景文本检测网络模型由基本特征提取模块、概率图预测模块、阈值图预测模块和二值化模块组成。其中,所述基本特征提取模块以ResNet-18或者ResNet-50深度卷积神经网络为基础网络,采用特征金字塔的形式,将不同尺寸的特征图进行融合,用于从输入图片中提取基本特征;将提取的基本特征分别输入概率图预测模块和阈值图预测模块;概率图预测模块和阈值图预测模块的组成结构是一致的,均由一个3*3的卷积层和两个stride为2的反卷积层组成;然后将概率图和阈值图输入二值化模块,得到二值图;最后对二值图找连通区域,得到文本包围盒。
(1.2.2)生成训练标签。如图3所示,对于一幅文字图片,每个标注的文字区域由多边形描述,其中n为多边形的端点数量。为了生成分割图和阈值图的训练标签,首先通过多边形内缩算法变换为内缩或外扩的多边形框。内缩或外扩的距离由框的面积和周长计算得到,表达式为:
其中L是多边形的周长,A表示多边形的面积。从内缩之后的多边形框可以得到分割图的标签:在多边形内的像素视为正样本而其他像素位置视为负样本。同样地,从原始多边形框到内缩和外扩多边形框之间的区域可以生成阈值图的渐进标签。
(1.2.3)以标准训练数据集Itr作为场景文本检测网络模型的输入,利用基本特征提取模块提取基本特征。将概率图和阈值图输入二值化模块,通过可微分二值化操作输出二值图。首先,将图片输入给一个特征金字塔结构的网络;然后,将这些不同尺度的特征图上采样到同一个尺度(W/4*H/4),其中W和H为输入图片的宽和高,并将它们串联起来形成融合特征图F;接下来,融合特征图F被用来预测概率图P和阈值图T,概率图预测模块和阈值图预测模块的组成结构是一致的,均由一个3*3的卷积层和两个stride为2的反卷积层组成;最后,通过P和T计算出二值图B,计算公式为
(1.2.4)分别计算概率图预测模块、阈值图预测模块和二值图的损失函数;对上述3个损失函数加权求和,得到总的损失函数,反向传播计算梯度,使用随机梯度下降优化器更新模型参数。模型的损失函数L计算如下:
L=Ls+α×Lb+β×Lt
其中Ls是概率图的损失函数;Lb和Lt分别是二值图和阈值图的损失函数。α和β分别设置为1.0和10.0。
对于Ls和Lb,我们采用了二分类的交叉熵损失函数:
其中Sl是一个采样的集合,xi和yi分别表示概率图和二值图的预测值和标签值。为了保持正负样本的数量的平衡,我们将采样的正负样本比例设置为1:3。
对于Lt我们采用了L1损失函数:
其中Rd是在文本包围盒内的像素的序号;x*和y*分别是是阈值图的预测值和标签值。
(2)利用上述训练好的模型进行场景文本检测,包括如下子步骤:
(2.1)将待检测的场景文本图片提取基本特征,输入概率图预测模块,得到概率图;
(2.2)将概率图根据一个固定阈值(比如0.5)进行二值化,得到二值图。
(2.3)对二值图寻找连通区域,并将对应连通区域内的平均概率值作为置信度进行过滤,得到文本的包围盒。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于可微分二值化的实时文本检测方法,其特征在于,所述方法包括下述步骤:
(1)训练基于可微分二值化的实时文本检测方法的网络模型,包括如下子步骤:
(1.1)准备具有文本位置标注的训练数据集,位置的表示方式是水平的矩形或者任意的多边形;
(1.2)定义场景文本检测网络模型,使用步骤(1.1)中适应于批量训练的带标注训练数据集,设计损失函数,选择参数优化器,利用反向传导方法训练该网络,得到场景文本检测网络模型;包括:
(1.2.1)构建基于可微分二值化的场景文本检测网络模型,所述网络模型由基本特征提取模块、概率图预测模块、阈值图预测模块和二值化模块组成;
(1.2.2)生成分割图和阈值图的训练标签,所述分割图的训练标签被用于概率图预测模块生成概率图,所述阈值图的训练标签被用于阈值图预测模块生成阈值图;
(1.2.3)以标准训练数据集Itr作为场景文本检测网络模型的输入,利用基本特征提取模块提取基本特征,将基本特征输入概率图预测模块得到概率图,将基本特征输入阈值图预测模块得到阈值图,分别将概率图和阈值图输入二值化模块,通过可微分二值化操作输出二值图;
(1.2.4)分别计算概率图预测模块、阈值图预测模块和二值图的损失函数,对上述3个损失函数加权求和,得到总的损失函数,反向传播计算梯度,使用随机梯度下降优化器更新模型参数,得到训练好的场景文本检测网络模型;
(2)利用上述训练好的场景文本检测网络模型进行场景文本检测,包括如下子步骤:
(2.1)将待检测的场景文本图片提取基本特征,输入概率图预测模块,得到概率图;
(2.2)将概率图根据一个预设阈值进行二值化,得到二值图;
(2.3)对二值图寻找连通区域,并将对应连通区域内的平均概率值作为置信度进行过滤,得到文本的包围盒。
2.根据权利要求1所述的基于可微分二值化的实时文本检测方法,其特征在于,所述步骤(1.2.1)中的场景文本检测网络模型具体为:
所述场景文本检测网络模型由基本特征提取模块、概率图预测模块、阈值图预测模块和二值化模块组成;其中,所述基本特征提取模块以ResNet-18或者ResNet-50深度卷积神经网络为基础网络,采用特征金字塔的形式,将不同尺寸的特征图进行融合,用于从输入图片中提取基本特征;将提取的基本特征分别输入概率图预测模块和阈值图预测模块,分别得到概率图和阈值图;概率图预测模块和阈值图预测模块的组成结构是一致的,均由一个3*3的卷积层和两个stride为2的反卷积层组成,对概率图预测模块应用分割图的训练标签,对阈值图预测模块应用阈值图的训练标签;然后将概率图和阈值图输入二值化模块,得到二值图;最后对二值图找连通区域,得到文本包围盒。
5.根据权利要求1或2所述的基于可微分二值化的实时文本检测方法,其特征在于,所述步骤(1.2.4)具体为:
模型的损失函数L定义为:L=Ls+α×Lb+β×Lt,其中Ls是概率图的损失函数;Lb和Lt分别是二值图和阈值图的损失函数,α和β分别是Lb和Lt的权重;
使用SGD算法对模型进行优化,学习率的衰减通过将初始学习率乘以一个衰减系数γ来完成:
其中初始学习率设置为0.007;power设置为0.9;max_iter表示最大迭代次数,iter表示当前迭代次数,SGD中的权重衰减系数和动量分别设置为0.0001和0.9。
6.根据权利要求1或2所述的基于可微分二值化的实时文本检测方法,其特征在于,所述步骤(2.1)具体为:
将待检测的场景文本图片输入文本检测网络模型,通过模型的前向传播得到概率图。
7.根据权利要求1或2所述的基于可微分二值化的实时文本检测方法,其特征在于,所述步骤(2.2)具体为:
对于步骤(2.1)中得到的概率图,取一个固定的阈值0.3,对其进行二值化,大于该阈值的值置为1,小于等于该阈值的值置为0,得到二值图。
9.根据权利要求4所述的基于可微分二值化的实时文本检测方法,其特征在于,所述k取值为0.5。
10.根据权利要求5所述的基于可微分二值化的实时文本检测方法,其特征在于,对于所述采样的集合Sl,为了保持正负样本的数量的平衡,将采样的正负样本比例设置为1:3。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911038562.4A CN110781967B (zh) | 2019-10-29 | 2019-10-29 | 一种基于可微分二值化的实时文本检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911038562.4A CN110781967B (zh) | 2019-10-29 | 2019-10-29 | 一种基于可微分二值化的实时文本检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110781967A CN110781967A (zh) | 2020-02-11 |
CN110781967B true CN110781967B (zh) | 2022-08-19 |
Family
ID=69387480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911038562.4A Active CN110781967B (zh) | 2019-10-29 | 2019-10-29 | 一种基于可微分二值化的实时文本检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110781967B (zh) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753839A (zh) * | 2020-05-18 | 2020-10-09 | 北京捷通华声科技股份有限公司 | 一种文本检测方法和装置 |
CN111652217B (zh) * | 2020-06-03 | 2022-05-03 | 北京易真学思教育科技有限公司 | 文本检测方法、装置、电子设备及计算机存储介质 |
CN111652218A (zh) * | 2020-06-03 | 2020-09-11 | 北京易真学思教育科技有限公司 | 文本检测方法、电子设备及计算机可读介质 |
CN111709420B (zh) * | 2020-06-18 | 2022-06-24 | 北京易真学思教育科技有限公司 | 文本检测方法、电子设备及计算机可读介质 |
CN111738250B (zh) * | 2020-08-26 | 2020-12-01 | 北京易真学思教育科技有限公司 | 文本检测方法、装置、电子设备及计算机存储介质 |
CN112101347B (zh) * | 2020-08-27 | 2021-04-30 | 北京易真学思教育科技有限公司 | 文本检测方法、装置、电子设备及计算机存储介质 |
CN113762259B (zh) * | 2020-09-02 | 2024-10-22 | 北京沃东天骏信息技术有限公司 | 文本定位方法、装置、计算机系统和可读存储介质 |
CN112183372A (zh) * | 2020-09-29 | 2021-01-05 | 深圳数联天下智能科技有限公司 | 文本识别方法、装置、设备及可读存储介质 |
CN112348028A (zh) * | 2020-11-30 | 2021-02-09 | 广东国粒教育技术有限公司 | 一种场景文本检测方法、批改方法、装置、电子设备及介质 |
CN112200191B (zh) * | 2020-12-01 | 2021-07-20 | 北京京东尚科信息技术有限公司 | 图像处理方法、装置、计算设备及介质 |
CN112287924B (zh) * | 2020-12-24 | 2021-03-16 | 北京易真学思教育科技有限公司 | 文本区域检测方法、装置、电子设备和计算机存储介质 |
CN112991168B (zh) * | 2021-02-08 | 2022-11-15 | 上海电力大学 | 一种基于目标检测和超分辨率的文本检测方法 |
CN112580656A (zh) * | 2021-02-23 | 2021-03-30 | 上海旻浦科技有限公司 | 一种端到端的文本检测方法、系统、终端及存储介质 |
CN112818949A (zh) * | 2021-03-09 | 2021-05-18 | 浙江天派科技有限公司 | 一种产证文字的识别方法及系统 |
CN112861794A (zh) * | 2021-03-11 | 2021-05-28 | 浙江康旭科技有限公司 | 一种光学印刷文本和场景文本的通用检测算法 |
CN113076816B (zh) * | 2021-03-17 | 2023-06-02 | 上海电力大学 | 基于红外与可见光图像的太阳能光伏组件热斑识别方法 |
CN112990204B (zh) * | 2021-05-11 | 2021-08-24 | 北京世纪好未来教育科技有限公司 | 目标检测方法、装置、电子设备及存储介质 |
CN113378838A (zh) * | 2021-06-30 | 2021-09-10 | 北京邮电大学 | 一种基于深度学习的互感器铭牌文本区域检测方法 |
CN113516126A (zh) * | 2021-07-02 | 2021-10-19 | 成都信息工程大学 | 一种基于注意力特征融合的自适应阈值场景文本检测方法 |
CN113569838A (zh) * | 2021-08-30 | 2021-10-29 | 平安医疗健康管理股份有限公司 | 基于文本检测算法的文本识别方法及装置 |
CN113780283A (zh) * | 2021-09-17 | 2021-12-10 | 湖北天天数链技术有限公司 | 模型训练方法、文本检测方法、装置及轻量级网络模型 |
CN113963149B (zh) * | 2021-10-29 | 2024-07-19 | 平安科技(深圳)有限公司 | 一种医疗票据图片的模糊判断方法、系统、设备及介质 |
CN114120333B (zh) * | 2021-11-29 | 2024-08-23 | 武汉大学 | 一种基于深度学习的自然场景古汉字识别方法及系统 |
CN114240968A (zh) * | 2021-12-17 | 2022-03-25 | 联通(上海)产业互联网有限公司 | 一种分割图像中异常区域的自监督深度学习算法 |
CN114387430B (zh) * | 2022-01-11 | 2024-05-28 | 平安科技(深圳)有限公司 | 基于人工智能的图像描述生成方法、装置、设备及介质 |
CN114462539A (zh) * | 2022-02-10 | 2022-05-10 | 腾讯科技(深圳)有限公司 | 一种内容分类模型的训练方法、内容分类的方法及装置 |
CN114283431B (zh) * | 2022-03-04 | 2022-06-28 | 南京安元科技有限公司 | 一种基于可微分二值化的文本检测方法 |
CN116912835A (zh) * | 2023-05-13 | 2023-10-20 | 西藏大学 | 一种面向社交媒体领域的藏文图文多字体识别方法 |
CN117523582A (zh) * | 2023-11-17 | 2024-02-06 | 国网江苏省电力有限公司南通供电分公司 | 可微分二值化文本检测模型的训练方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106446896A (zh) * | 2015-08-04 | 2017-02-22 | 阿里巴巴集团控股有限公司 | 一种字符分割方法、装置及电子设备 |
CN108549893A (zh) * | 2018-04-04 | 2018-09-18 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
-
2019
- 2019-10-29 CN CN201911038562.4A patent/CN110781967B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106446896A (zh) * | 2015-08-04 | 2017-02-22 | 阿里巴巴集团控股有限公司 | 一种字符分割方法、装置及电子设备 |
CN108549893A (zh) * | 2018-04-04 | 2018-09-18 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
Non-Patent Citations (3)
Title |
---|
Accurate Scene Text Detection Through Border Semantics Awareness and Bootstrapping;Chuhui Xue 等;《Computer Vision》;20181006;全文 * |
Total-Text:A Comprehensive Dataset for Scene Text Detection and Recognition;Chee Kheng Ch’ng 等;《2017 14th IAPR International Conference on Document Analysis and Recognition》;20171231;全文 * |
视频图像中文本的检测、定位与提取;孙李娜 等;《电子科技》;20091231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110781967A (zh) | 2020-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110781967B (zh) | 一种基于可微分二值化的实时文本检测方法 | |
CN111126472B (zh) | 一种基于ssd改进的目标检测方法 | |
CN110322495B (zh) | 一种基于弱监督深度学习的场景文本分割方法 | |
CN109299274B (zh) | 一种基于全卷积神经网络的自然场景文本检测方法 | |
CN109740465B (zh) | 一种基于实例分割神经网络框架的车道线检测算法 | |
CN107967695B (zh) | 一种基于深度光流和形态学方法的运动目标检测方法 | |
CN113408584B (zh) | Rgb-d多模态特征融合3d目标检测方法 | |
CN107977620A (zh) | 一种基于全卷积网络的多方向场景文本单次检测方法 | |
CN110210433B (zh) | 一种基于深度学习的集装箱箱号检测与识别方法 | |
CN113011338B (zh) | 一种车道线检测方法及系统 | |
WO2023212997A1 (zh) | 基于知识蒸馏的神经网络训练方法、设备及存储介质 | |
CN110097047A (zh) | 一种基于深度学习采用单线激光雷达的车辆检测方法 | |
CN107862702A (zh) | 一种结合边界连通性与局部对比性的显著性检测方法 | |
CN111709300A (zh) | 基于视频图像的人群计数方法 | |
CN113313668B (zh) | 一种地铁隧道表面病害特征提取方法 | |
CN114519819A (zh) | 一种基于全局上下文感知的遥感图像目标检测方法 | |
CN112446292B (zh) | 一种2d图像显著目标检测方法及系统 | |
CN114663665A (zh) | 基于梯度的对抗样本生成方法与系统 | |
CN116597270A (zh) | 基于注意力机制集成学习网络的道路损毁目标检测方法 | |
CN116343159B (zh) | 一种非结构化场景可通行区域检测方法、装置及存储介质 | |
CN113313108A (zh) | 一种基于超大感受野特征优化的显著性目标检测方法 | |
CN115761453B (zh) | 基于特征匹配的轻量化单样本目标检测方法 | |
CN116229228A (zh) | 基于中心环绕机制的小目标检测方法 | |
CN115082778B (zh) | 一种基于多分支学习的宅基地识别方法及系统 | |
CN117218345A (zh) | 一种电力巡检图像语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |