CN110163208A - 一种基于深度学习的场景文字检测方法和系统 - Google Patents
一种基于深度学习的场景文字检测方法和系统 Download PDFInfo
- Publication number
- CN110163208A CN110163208A CN201910426384.6A CN201910426384A CN110163208A CN 110163208 A CN110163208 A CN 110163208A CN 201910426384 A CN201910426384 A CN 201910426384A CN 110163208 A CN110163208 A CN 110163208A
- Authority
- CN
- China
- Prior art keywords
- pixel
- images
- convolutional neural
- neural networks
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1475—Inclination or skew detection or correction of characters or of image to be recognised
- G06V30/1478—Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Abstract
本发明公开了一种基于深度学习的场景文字检测方法,包括:获取主要数据集和补充数据集,并为主要数据集和补充数据集中的每幅图像生成训练标签,从补充数据集中选择N张图像,并将N张图像输入卷积神经网络模型,利用卷积神经网络中的卷积块对N张图像进行逐层特征融合,以得到N张图像中每个像素点的融合特征,计算N张图像中每个像素点的融合特征的分割损失值和回归损失值,使用Adam优化算法更新卷积神经网络的权重,并重复达到预定迭代次数,从而生成预训练好的卷积神经网络。本发明能解决现有场景文字检测方法中存在的无法检测倾斜文字、以及容易受到底层错误特征的干扰而导致检测准确率低的技术问题。
Description
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种基于深度学习的场景文字检测方法和系统。
背景技术
文字作为人类文明的标志和信息交流的载体、广泛的存在于自然场景图像中(例如:路牌、商品名称、车牌等),相较图像中的其他自然场景内容(例如:树木、行人、建筑物等),场景文字具有更强的逻辑性和更概括的表达性,能更加有效的提供高层语义信息,准确的检测识别图像中的文字将有助于场景内容的分析和理解。
相比印刷体文档中的光学字符检测这类经典问题,对场景文字检测的研究相对滞后。目前广泛使用的场景文字检测方法包括基于候选文字连接网络(Connectionist TextProposal Network,简称CTPN)的方法、以及基于全卷积网络(Fully convolutionalnetwork,简称FCN)的方法。其中基于CTPN的方法是从Faster R-CNN改进而来,能有效的检测出复杂场景的横向分布的文字;而基于FCN网络的方法是使用FCN网络对图像进行像素级的分类,从而解决了语义级别的图像分割问题。
然而,上述两种场景文字检测方法都存在一些不可忽略的技术问题:1、基于CTPN的方法只能够检测水平的文字,无法实现对倾斜文字的检测;2、基于FCN的方法在特征融合的过程中容易受到底层错误特征的干扰,从而导致检测过程的准确度偏低。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于深度学习的场景文字检测方法和系统,其目的在于,解决现有场景文字检测方法中存在的无法检测倾斜文字的技术问题、以及容易受到底层错误特征的干扰而导致检测准确率低的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于深度学习的场景文字检测方法,包括以下步骤:
(1)获取主要数据集和补充数据集,并为主要数据集和补充数据集中的每幅图像生成训练标签,训练标签包括像素类型标签、以及包围框坐标偏移标签;
(2)从步骤(1)中获取的补充数据集中选择N张图像,并将N张图像输入卷积神经网络模型,利用卷积神经网络中的卷积块ResStage4、ResStage3、ResStage2、ResStage1对N张图像进行逐层特征融合,以得到N张图像中每个像素点的融合特征;
(3)根据以下公式计算步骤(2)得到的N张图像中每个像素点的融合特征的分割损失值和回归损失值:
(4)使用Adam优化算法更新步骤(2)中卷积神经网络的权重,并重复上述步骤(2)和(3)达到预定迭代次数,从而生成预训练好的卷积神经网络。
(5)从步骤(1)中获取的主要数据集中选择N张图像,并将N张图像输入步骤(4)预训练好的卷积神经网络模型,利用该卷积神经网络中的卷积块ResStage4、ResStage3、ResStage2、ResStage1对N张图像进行特征融合,以得到N张图像中每个像素点的融合特征;
(6)计算步骤(5)得到的N张图像中每个像素点的融合特征的分割损失值和回归损失值:
(7)使用Adam优化算法更新步骤(4)中预训练好的卷积神经网络的权重,并重复上述步骤(5)和(6)达到预定迭代次数,从而生成训练好的卷积神经网络。
(8)获取场景文字图像,将获取的该场景文字图像输入步骤(7)中训练好的卷积神经网络中,从而得到该场景文字图像中每个像素点的类型(即文字像素和非文字像素)、以及属于文字类型的每个像素点与其所处包围框4个顶点坐标中每一个顶点坐标之间的偏移值。
优选地,主要数据集是公开的ICDAR2013数据集和ICDAR2015数据集的混合,补充数据集采用的是SynthText数据集中的10万张图像构成的集合,卷积神经网络是ResNet-50。
优选地,步骤(1)中生成训练标签的过程具体为,首先从每幅图像对应的文本文件中逐一取出四个顶点的坐标,从而形成多个包围框,将包围框向内压缩10%,然后在图像上标记出压缩后的包围框;随后将包围框内所有像素点的像素类型标签设置为1,用于表示像素点是文字像素,将包围框外的所有像素点的像素类型标签设置为0,用于表示像素点是非文字像素,将包围框之间重叠部分的所有像素点的像素类型标签也设置为0,最后计算每个包围框中像素点与其所处包围框4个顶点坐标中每一个顶点坐标之间的偏移值,即为包围框坐标偏移标签。
优选地,步骤(2)具体为,首先是利用卷积神经网络中的卷积块ResStage4和ResStage3对每张图像进行融合,以得到该图像中每个像素点的融合特征A,然后将融合特征A与卷积块ResStage2输出的特征进行融合,以得到融合特征B,最后将融合特征B与ResStage1输出的特征进行融合,从而得到最终的该图像中每个像素点的融合特征C。
优选地,每次的融合操作具体为,首先卷积块输出的特征经过1×1的卷积层进行特征通道数匹配,然后对匹配结果中分辨率低的特征进行2倍上采样操作,最后使用点积运算对采样操作的结果进行特征逐点融合。
优选地,分割损失函数为其中表示融合特征,αt表示平衡权重系数,且有:其中y表示每个像素点的像素类型标签,α为N张图像中像素类型标签为0的所有像素点占整个N张图像中全部像素点的比例,回归损失函数为其中smoothL1表示平滑损失函数,G表示像素点的包围框坐标偏移标签,P表示步骤(2)得到的融合特征经过Sigmod函数预测后的包围框坐标偏移标签,d(i,V)表示第i个像素点与其所处的包围框的4个顶点V之间的距离。
优选地,步骤(4)中的预定迭代次数是60000,步骤(7)中的预定迭代次数是20000。
按照本发明的另一方面,提供了一种基于深度学习的场景文字检测系统,包括:
第一模块,用于获取主要数据集和补充数据集,并为主要数据集和补充数据集中的每幅图像生成训练标签,训练标签包括像素类型标签、以及包围框坐标偏移标签;
第二模块,用于从第一模块中获取的补充数据集中选择N张图像,并将N张图像输入卷积神经网络模型,利用卷积神经网络中的卷积块ResStage4、ResStage3、ResStage2、ResStage1对N张图像进行逐层特征融合,以得到N张图像中每个像素点的融合特征;
第三模块,用于根据以下公式计算第二模块得到的N张图像中每个像素点的融合特征的分割损失值和回归损失值:
第四模块,用于使用Adam优化算法更新第二模块中卷积神经网络的权重,并重复上述第二模块和第三模块达到预定迭代次数,从而生成预训练好的卷积神经网络。
第五模块,用于从第一模块获取的主要数据集中选择N张图像,并将N张图像输入第四模块预训练好的卷积神经网络模型,利用该卷积神经网络中的卷积块ResStage4、ResStage3、ResStage2、ResStage1对N张图像进行特征融合,以得到N张图像中每个像素点的融合特征;
第六模块,用于计算第五模块得到的N张图像中每个像素点的融合特征的分割损失值和回归损失值:
第七模块,用于使用Adam优化算法更新第四模块中预训练好的卷积神经网络的权重,并重复上述第五模块和第六模块达到预定迭代次数,从而生成训练好的卷积神经网络。
第八模块,用于获取场景文字图像,将获取的该场景文字图像输入第七模块训练好的卷积神经网络中,从而得到该场景文字图像中每个像素点的类型(即文字像素和非文字像素)、以及属于文字类型的每个像素点与其所处包围框4个顶点坐标中每一个顶点坐标之间的偏移值。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)由于本发明首先通过位于包围框以内的文字像素点来确定其与其所处包围框4个顶点坐标中每一个顶点坐标之间的偏移值,再根据获取的偏移值最终得到检测结果,从而能够避免基于CTPN的方法中只能处理水平包围框所带来的限制,并使得本发明的方法可以用于处理水平或倾斜的文字检测;
(2)由于本发明步骤(2)中采用了不同的卷积块实现逐层特征融合过程,从而能够在避免受到底层的错误特征干扰的前提下,分割出同一场景图像中不同尺度的文字区域,进而提高了文本识别的精度。
附图说明
图1是本发明基于深度学习的场景文字检测方法的流程图。
图2是本发明中使用的卷积神经网络的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,本发明基于深度学习的场景文字检测方法包括以下步骤:
(1)获取主要数据集和补充数据集,并为主要数据集和补充数据集中的每幅图像生成训练标签,训练标签包括像素类型标签、以及包围框坐标偏移标签;
具体而言,本步骤中获取的主要数据集是公开的ICDAR2013数据集和ICDAR2015数据集的混合,补充数据集采用的是SynthText数据集中的10万张图像;
本步骤中生成训练标签的过程具体为,首先从每幅图像对应的文本文件中逐一取出四个顶点的坐标,从而形成多个包围框。考虑到ICDAR2015标注质量较低,包围框内含有过多背景像素,所以需要将包围框向内压缩10%,然后在图像上标记出压缩后的包围框;随后将包围框内所有像素点的像素类型标签设置为1,用于表示像素点是文字像素,将包围框外的所有像素点的像素类型标签设置为0,用于表示像素点是非文字像素,将包围框之间重叠部分的所有像素点的像素类型标签也设置为0,目的是避免实例之间的粘连,以上即获取了每幅图像的像素类型标签;然后计算每个包围框中像素点与其所处包围框4个顶点坐标中每一个顶点坐标之间的偏移值,即为包围框坐标偏移标签。
(2)从步骤(1)中获取的补充数据集中选择N张图像,并将N张图像输入卷积神经网络模型(如图2所示),利用卷积神经网络中的卷积块ResStage4、ResStage3、ResStage2、ResStage1对N张图像进行逐层特征融合,以得到N张图像中每个像素点的融合特征,其中N的取值是15;
具体而言,本步骤中使用的卷积神经网络是ResNet-50。
本步骤中首先是利用卷积神经网络中的卷积块ResStage4和ResStage3对每张图像进行融合,以得到该图像中每个像素点的融合特征A,然后将融合特征A与卷积块ResStage2输出的特征进行融合,以得到融合特征B,最后将融合特征B与ResStage1输出的特征进行融合,从而得到最终的该图像中每个像素点的融合特征C。
每次的融合操作均包括三步:首先卷积块输出的特征经过1×1的卷积层进行特征通道数匹配,然后对匹配结果中分辨率低的特征进行2倍上采样操作,其中上采样是使用双线性插值方法,最后使用点积运算对采样操作的结果进行特征逐点融合。
(3)根据以下公式计算步骤(2)得到的N张图像中每个像素点的融合特征的分割损失值和回归损失值:
分割损失函数为其中表示融合特征,αt表示平衡权重系数,且有:其中y表示每个像素点的像素类型标签,α为N张图像中像素类型标签为0的所有像素点占整个N张图像中全部像素点的比例;
回归损失函数为其中smoothL1表示平滑损失函数,G表示像素点的包围框坐标偏移标签,P表示步骤(2)得到的融合特征经过Sigmod函数预测后的包围框坐标偏移标签,d(i,V)表示第i个像素点与其所处的包围框的4个顶点V之间的距离(该距离为一个4维向量)。
(4)使用Adam优化算法更新步骤(2)中卷积神经网络的权重,并重复上述步骤(2)和(3)达到预定迭代次数,从而生成预训练好的卷积神经网络。
本步骤中,预定迭代次数是60000。
(5)从步骤(1)中获取的主要数据集中选择N张图像,并将N张图像输入步骤(4)预训练好的卷积神经网络模型,利用该卷积神经网络中的卷积块ResStage4、ResStage3、ResStage2、ResStage1对N张图像进行特征融合,以得到N张图像中每个像素点的融合特征;
本步骤中融合操作和上述步骤(2)完全相同,在此不再赘述。
(6)计算步骤(5)得到的N张图像中每个像素点的融合特征的分割损失值和回归损失值:
本步骤中计算分割损失值和回归损失值的操作和上述步骤(3)完全相同,在此不再赘述。
(7)使用Adam优化算法更新步骤(4)中预训练好的卷积神经网络的权重,并重复上述步骤(5)和(6)达到预定迭代次数,从而生成训练好的卷积神经网络。
本步骤中,预定迭代次数是20000。
(8)获取场景文字图像,将获取的该场景文字图像输入步骤(7)中训练好的卷积神经网络中,从而得到该场景文字图像中每个像素点的类型(即文字像素和非文字像素)、以及属于文字类型的每个像素点与其所处包围框4个顶点坐标中每一个顶点坐标之间的偏移值;
在本步骤中,是通过手机拍摄、相册选取的方式获取场景文字图像,也可以从ICDAR2013或ICDAR2015测试集中获取场景文字图像。
测试结果比较
以下将本发明的方法和几种现有的场景文字检测方法进行性能比较:
1、文字区域分割准确度
在本部分中,主要验证了本发明在文字区域分割上的效果。为了验证本发明可以解决场景文字尺度多样性的问题,在ICDAR2013上进行了实验,对比模型为ResNet-50和FCN-8s。表1为分割准确率以及平均绝对误差的指标对比。
表1
从表1中可以看出,本发明分割效果最好,在准确率和平均绝对误差指标上都占有明显优势。
2、文字实例定位准确度
在本部分中,主要验证本发明对多方向场景文字的定位效果,在ICDAR2015上进行实验,与其他算法指标对比如表2所示。
表2
从表2可以看出,本发明方法定位准确率较好,可用于实际应用。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于深度学习的场景文字检测方法,其特征在于,包括以下步骤:
(1)获取主要数据集和补充数据集,并为主要数据集和补充数据集中的每幅图像生成训练标签,训练标签包括像素类型标签、以及包围框坐标偏移标签;
(2)从步骤(1)中获取的补充数据集中选择N张图像,并将N张图像输入卷积神经网络模型,利用卷积神经网络中的卷积块ResStage4、ResStage3、ResStage2、ResStage1对N张图像进行逐层特征融合,以得到N张图像中每个像素点的融合特征;
(3)根据以下公式计算步骤(2)得到的N张图像中每个像素点的融合特征的分割损失值和回归损失值:
(4)使用Adam优化算法更新步骤(2)中卷积神经网络的权重,并重复上述步骤(2)和(3)达到预定迭代次数,从而生成预训练好的卷积神经网络。
(5)从步骤(1)中获取的主要数据集中选择N张图像,并将N张图像输入步骤(4)预训练好的卷积神经网络模型,利用该卷积神经网络中的卷积块ResStage4、ResStage3、ResStage2、ResStage1对N张图像进行特征融合,以得到N张图像中每个像素点的融合特征;
(6)计算步骤(5)得到的N张图像中每个像素点的融合特征的分割损失值和回归损失值:
(7)使用Adam优化算法更新步骤(4)中预训练好的卷积神经网络的权重,并重复上述步骤(5)和(6)达到预定迭代次数,从而生成训练好的卷积神经网络。
(8)获取场景文字图像,将获取的该场景文字图像输入步骤(7)中训练好的卷积神经网络中,从而得到该场景文字图像中每个像素点的类型(即文字像素和非文字像素)、以及属于文字类型的每个像素点与其所处包围框4个顶点坐标中每一个顶点坐标之间的偏移值。
2.根据权利要求1所述的场景文字检测方法,其特征在于,
主要数据集是公开的ICDAR2013数据集和ICDAR2015数据集的混合;
补充数据集采用的是SynthText数据集中的10万张图像构成的集合;
卷积神经网络是ResNet-50。
3.根据权利要求1所述的场景文字检测方法,其特征在于,步骤(1)中生成训练标签的过程具体为,首先从每幅图像对应的文本文件中逐一取出四个顶点的坐标,从而形成多个包围框,将包围框向内压缩10%,然后在图像上标记出压缩后的包围框;随后将包围框内所有像素点的像素类型标签设置为1,用于表示像素点是文字像素,将包围框外的所有像素点的像素类型标签设置为0,用于表示像素点是非文字像素,将包围框之间重叠部分的所有像素点的像素类型标签也设置为0,最后计算每个包围框中像素点与其所处包围框4个顶点坐标中每一个顶点坐标之间的偏移值,即为包围框坐标偏移标签。
4.根据权利要求1所述的场景文字检测方法,其特征在于,步骤(2)具体为,首先是利用卷积神经网络中的卷积块ResStage4和ResStage3对每张图像进行融合,以得到该图像中每个像素点的融合特征A,然后将融合特征A与卷积块ResStage2输出的特征进行融合,以得到融合特征B,最后将融合特征B与ResStage1输出的特征进行融合,从而得到最终的该图像中每个像素点的融合特征C。
5.根据权利要求4所述的场景文字检测方法,其特征在于,每次的融合操作具体为,首先卷积块输出的特征经过1×1的卷积层进行特征通道数匹配,然后对匹配结果中分辨率低的特征进行2倍上采样操作,最后使用点积运算对采样操作的结果进行特征逐点融合。
6.根据权利要求1所述的场景文字检测方法,其特征在于,
分割损失函数为其中表示融合特征,αt表示平衡权重系数,且有:其中y表示每个像素点的像素类型标签,α为N张图像中像素类型标签为0的所有像素点占整个N张图像中全部像素点的比例;
回归损失函数为其中smoothL1表示平滑损失函数,G表示像素点的包围框坐标偏移标签,P表示步骤(2)得到的融合特征经过Sigmod函数预测后的包围框坐标偏移标签,d(i,V)表示第i个像素点与其所处的包围框的4个顶点V之间的距离。
7.根据权利要求1所述的场景文字检测方法,其特征在于,步骤(4)中的预定迭代次数是60000,步骤(7)中的预定迭代次数是20000。
8.一种基于深度学习的场景文字检测系统,其特征在于,包括:
第一模块,用于获取主要数据集和补充数据集,并为主要数据集和补充数据集中的每幅图像生成训练标签,训练标签包括像素类型标签、以及包围框坐标偏移标签;
第二模块,用于从第一模块中获取的补充数据集中选择N张图像,并将N张图像输入卷积神经网络模型,利用卷积神经网络中的卷积块ResStage4、ResStage3、ResStage2、ResStage1对N张图像进行逐层特征融合,以得到N张图像中每个像素点的融合特征;
第三模块,用于根据以下公式计算第二模块得到的N张图像中每个像素点的融合特征的分割损失值和回归损失值:
第四模块,用于使用Adam优化算法更新第二模块中卷积神经网络的权重,并重复上述第二模块和第三模块达到预定迭代次数,从而生成预训练好的卷积神经网络。
第五模块,用于从第一模块获取的主要数据集中选择N张图像,并将N张图像输入第四模块预训练好的卷积神经网络模型,利用该卷积神经网络中的卷积块ResStage4、ResStage3、ResStage2、ResStage1对N张图像进行特征融合,以得到N张图像中每个像素点的融合特征;
第六模块,用于计算第五模块得到的N张图像中每个像素点的融合特征的分割损失值和回归损失值:
第七模块,用于使用Adam优化算法更新第四模块中预训练好的卷积神经网络的权重,并重复上述第五模块和第六模块达到预定迭代次数,从而生成训练好的卷积神经网络。
第八模块,用于获取场景文字图像,将获取的该场景文字图像输入第七模块训练好的卷积神经网络中,从而得到该场景文字图像中每个像素点的类型(即文字像素和非文字像素)、以及属于文字类型的每个像素点与其所处包围框4个顶点坐标中每一个顶点坐标之间的偏移值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910426384.6A CN110163208B (zh) | 2019-05-22 | 2019-05-22 | 一种基于深度学习的场景文字检测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910426384.6A CN110163208B (zh) | 2019-05-22 | 2019-05-22 | 一种基于深度学习的场景文字检测方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110163208A true CN110163208A (zh) | 2019-08-23 |
CN110163208B CN110163208B (zh) | 2021-06-29 |
Family
ID=67631714
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910426384.6A Active CN110163208B (zh) | 2019-05-22 | 2019-05-22 | 一种基于深度学习的场景文字检测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110163208B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111760261A (zh) * | 2020-07-23 | 2020-10-13 | 重庆邮电大学 | 一种基于虚拟现实技术的体育优化训练系统及方法 |
CN112541491A (zh) * | 2020-12-07 | 2021-03-23 | 沈阳雅译网络技术有限公司 | 基于图像字符区域感知的端到端文本检测及识别方法 |
CN112580624A (zh) * | 2020-11-18 | 2021-03-30 | 中国科学院信息工程研究所 | 基于边界预测的多方向文本区域检测方法和装置 |
CN113033593A (zh) * | 2019-12-25 | 2021-06-25 | 上海智臻智能网络科技股份有限公司 | 基于深度学习的文本检测训练方法及装置 |
CN113095319A (zh) * | 2021-03-03 | 2021-07-09 | 中国科学院信息工程研究所 | 基于全卷积角点修正网络的多向场景文字检测方法及装置 |
CN113257409A (zh) * | 2021-06-04 | 2021-08-13 | 杭州云呼医疗科技有限公司 | 一种基于患者病症症状与医学检验报告的临床决策支持系统 |
CN116229336A (zh) * | 2023-05-10 | 2023-06-06 | 江西云眼视界科技股份有限公司 | 视频移动目标识别方法、系统、存储介质及计算机 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105631479A (zh) * | 2015-12-30 | 2016-06-01 | 中国科学院自动化研究所 | 基于非平衡学习的深度卷积网络图像标注方法及装置 |
CN107341811A (zh) * | 2017-06-20 | 2017-11-10 | 上海数迹智能科技有限公司 | 基于深度图像的利用MeanShift算法进行手部区域分割的方法 |
CN107977620A (zh) * | 2017-11-29 | 2018-05-01 | 华中科技大学 | 一种基于全卷积网络的多方向场景文本单次检测方法 |
CN108154145A (zh) * | 2018-01-24 | 2018-06-12 | 北京地平线机器人技术研发有限公司 | 检测自然场景图像中的文本的位置的方法和装置 |
CN108288088A (zh) * | 2018-01-17 | 2018-07-17 | 浙江大学 | 一种基于端到端全卷积神经网络的场景文本检测方法 |
CN108304835A (zh) * | 2018-01-30 | 2018-07-20 | 百度在线网络技术(北京)有限公司 | 文字检测方法和装置 |
CN108427924A (zh) * | 2018-03-09 | 2018-08-21 | 华中科技大学 | 一种基于旋转敏感特征的文本回归检测方法 |
CN108460089A (zh) * | 2018-01-23 | 2018-08-28 | 哈尔滨理工大学 | 基于Attention神经网络的多元特征融合中文文本分类方法 |
CN108509978A (zh) * | 2018-02-28 | 2018-09-07 | 中南大学 | 基于cnn的多级特征融合的多类目标检测方法及模型 |
CN108734169A (zh) * | 2018-05-21 | 2018-11-02 | 南京邮电大学 | 一种基于全卷积网络改进的场景文本提取方法 |
CN108805131A (zh) * | 2018-05-22 | 2018-11-13 | 北京旷视科技有限公司 | 文本行检测方法、装置及系统 |
CN109299274A (zh) * | 2018-11-07 | 2019-02-01 | 南京大学 | 一种基于全卷积神经网络的自然场景文本检测方法 |
-
2019
- 2019-05-22 CN CN201910426384.6A patent/CN110163208B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105631479A (zh) * | 2015-12-30 | 2016-06-01 | 中国科学院自动化研究所 | 基于非平衡学习的深度卷积网络图像标注方法及装置 |
CN107341811A (zh) * | 2017-06-20 | 2017-11-10 | 上海数迹智能科技有限公司 | 基于深度图像的利用MeanShift算法进行手部区域分割的方法 |
CN107977620A (zh) * | 2017-11-29 | 2018-05-01 | 华中科技大学 | 一种基于全卷积网络的多方向场景文本单次检测方法 |
CN108288088A (zh) * | 2018-01-17 | 2018-07-17 | 浙江大学 | 一种基于端到端全卷积神经网络的场景文本检测方法 |
CN108460089A (zh) * | 2018-01-23 | 2018-08-28 | 哈尔滨理工大学 | 基于Attention神经网络的多元特征融合中文文本分类方法 |
CN108154145A (zh) * | 2018-01-24 | 2018-06-12 | 北京地平线机器人技术研发有限公司 | 检测自然场景图像中的文本的位置的方法和装置 |
CN108304835A (zh) * | 2018-01-30 | 2018-07-20 | 百度在线网络技术(北京)有限公司 | 文字检测方法和装置 |
CN108509978A (zh) * | 2018-02-28 | 2018-09-07 | 中南大学 | 基于cnn的多级特征融合的多类目标检测方法及模型 |
CN108427924A (zh) * | 2018-03-09 | 2018-08-21 | 华中科技大学 | 一种基于旋转敏感特征的文本回归检测方法 |
CN108734169A (zh) * | 2018-05-21 | 2018-11-02 | 南京邮电大学 | 一种基于全卷积网络改进的场景文本提取方法 |
CN108805131A (zh) * | 2018-05-22 | 2018-11-13 | 北京旷视科技有限公司 | 文本行检测方法、装置及系统 |
CN109299274A (zh) * | 2018-11-07 | 2019-02-01 | 南京大学 | 一种基于全卷积神经网络的自然场景文本检测方法 |
Non-Patent Citations (1)
Title |
---|
TSUNG-YI LIN ET AL.: "Focal Loss for Dense Object Detection", 《ARXIV》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033593A (zh) * | 2019-12-25 | 2021-06-25 | 上海智臻智能网络科技股份有限公司 | 基于深度学习的文本检测训练方法及装置 |
CN113033593B (zh) * | 2019-12-25 | 2023-09-01 | 上海智臻智能网络科技股份有限公司 | 基于深度学习的文本检测训练方法及装置 |
CN111760261B (zh) * | 2020-07-23 | 2021-11-09 | 重庆邮电大学 | 一种基于虚拟现实技术的体育优化训练系统及方法 |
CN111760261A (zh) * | 2020-07-23 | 2020-10-13 | 重庆邮电大学 | 一种基于虚拟现实技术的体育优化训练系统及方法 |
CN112580624A (zh) * | 2020-11-18 | 2021-03-30 | 中国科学院信息工程研究所 | 基于边界预测的多方向文本区域检测方法和装置 |
CN112541491A (zh) * | 2020-12-07 | 2021-03-23 | 沈阳雅译网络技术有限公司 | 基于图像字符区域感知的端到端文本检测及识别方法 |
CN112541491B (zh) * | 2020-12-07 | 2024-02-02 | 沈阳雅译网络技术有限公司 | 基于图像字符区域感知的端到端文本检测及识别方法 |
CN113095319A (zh) * | 2021-03-03 | 2021-07-09 | 中国科学院信息工程研究所 | 基于全卷积角点修正网络的多向场景文字检测方法及装置 |
CN113095319B (zh) * | 2021-03-03 | 2022-11-15 | 中国科学院信息工程研究所 | 基于全卷积角点修正网络的多向场景文字检测方法及装置 |
CN113257409A (zh) * | 2021-06-04 | 2021-08-13 | 杭州云呼医疗科技有限公司 | 一种基于患者病症症状与医学检验报告的临床决策支持系统 |
CN113257409B (zh) * | 2021-06-04 | 2023-05-19 | 杭州云呼医疗科技有限公司 | 一种基于患者病症症状与医学检验报告的临床决策支持系统 |
CN116229336A (zh) * | 2023-05-10 | 2023-06-06 | 江西云眼视界科技股份有限公司 | 视频移动目标识别方法、系统、存储介质及计算机 |
CN116229336B (zh) * | 2023-05-10 | 2023-08-18 | 江西云眼视界科技股份有限公司 | 视频移动目标识别方法、系统、存储介质及计算机 |
Also Published As
Publication number | Publication date |
---|---|
CN110163208B (zh) | 2021-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110163208A (zh) | 一种基于深度学习的场景文字检测方法和系统 | |
CN106897732B (zh) | 一种基于连接文字段的自然图片中多方向文本检测方法 | |
US20190361972A1 (en) | Method, apparatus, device for table extraction based on a richly formatted document and medium | |
CN110287960A (zh) | 自然场景图像中曲线文字的检测识别方法 | |
CN110796031A (zh) | 基于人工智能的表格识别方法、装置及电子设备 | |
CN109711288A (zh) | 基于特征金字塔和距离约束fcn的遥感船舶检测方法 | |
CN106874868A (zh) | 一种基于三级卷积神经网络的人脸检测方法及系统 | |
CN112016605B (zh) | 一种基于边界框角点对齐和边界匹配的目标检测方法 | |
CN110490256A (zh) | 一种基于关键点热图的车辆检测方法 | |
CN111488873B (zh) | 一种基于弱监督学习的字符级场景文字检测方法和装置 | |
CN109815955A (zh) | 题目辅助方法及系统 | |
CN106548169A (zh) | 基于深度神经网络的模糊文字增强方法及装置 | |
CN105930836A (zh) | 一种视频文字的识别方法和装置 | |
CN110443805A (zh) | 一种基于像素密切度的语义分割方法 | |
CN112149547A (zh) | 基于图像金字塔引导和像素对匹配的遥感影像水体识别 | |
JP2022025008A (ja) | テキスト行識別に基づくナンバープレート識別方法 | |
CN106650660A (zh) | 一种车型识别方法及终端 | |
CN112883926B (zh) | 表格类医疗影像的识别方法及装置 | |
CN110287952A (zh) | 一种维语图片字符的识别方法及系统 | |
CN106874913A (zh) | 一种菜品检测方法 | |
CN110223310A (zh) | 一种基于深度学习的线结构光中心线和箱体边缘检测方法 | |
CN111310746A (zh) | 文本行检测方法、模型训练方法、装置、服务器及介质 | |
He et al. | Context-aware mathematical expression recognition: An end-to-end framework and a benchmark | |
CN115131797A (zh) | 一种基于特征增强金字塔网络的场景文本检测方法 | |
CN110516676A (zh) | 一种基于图像处理的银行卡号识别系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220301 Address after: 410000 401, 4th floor, complex building, 1318 Kaiyuan East Road, Xingsha industrial base, Changsha Economic and Technological Development Zone, Changsha City, Hunan Province Patentee after: HUNAN CLOUD ARCHIVE INFORMATION TECHNOLOGY Co.,Ltd. Address before: 410003 science and Technology Office of Changsha University, 98 Hongshan Road, Kaifu District, Changsha City, Hunan Province Patentee before: CHANGSHA University |
|
TR01 | Transfer of patent right |