CN113762476A - 一种用于文字检测的神经网络模型及其文字检测方法 - Google Patents

一种用于文字检测的神经网络模型及其文字检测方法 Download PDF

Info

Publication number
CN113762476A
CN113762476A CN202111050408.6A CN202111050408A CN113762476A CN 113762476 A CN113762476 A CN 113762476A CN 202111050408 A CN202111050408 A CN 202111050408A CN 113762476 A CN113762476 A CN 113762476A
Authority
CN
China
Prior art keywords
feature map
fusion
feature
characteristic diagram
fused
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111050408.6A
Other languages
English (en)
Other versions
CN113762476B (zh
Inventor
周冲浩
曾山华
巫浩
薛利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Information Technology Co Ltd of CAS
Original Assignee
Chengdu Information Technology Co Ltd of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Information Technology Co Ltd of CAS filed Critical Chengdu Information Technology Co Ltd of CAS
Priority to CN202111050408.6A priority Critical patent/CN113762476B/zh
Publication of CN113762476A publication Critical patent/CN113762476A/zh
Application granted granted Critical
Publication of CN113762476B publication Critical patent/CN113762476B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Abstract

本发明适用计算机文字检测识别技术领域,提供了一种用于文字检测的神经网络模型及其文字检测方法,该神经网络结构中,残差网络结构对特征提取阶段的最后一个特征图即第五提取特征图采用空洞卷积获取更大的感受野。并进一步加入密集连接型金字塔池化模块进行计算,获取更加稠密的感受野,特征经由不同扩张率的空洞卷积采样,获取不同尺度的文字图像特征,然后通过密集连接的方式进行结合,得到输出第五融合特征图。这种结合方式比普通卷积和单一的空洞卷积金字塔具有更大的感受野,且不同尺度的特征图的密集连接和相互合并也可获取更加稠密的感受野,特征经由不同扩张率的空洞卷积采样,获取不同尺度的文字图像特征。其文字检测方法也具有同样的技术效果。

Description

一种用于文字检测的神经网络模型及其文字检测方法
技术领域
本发明属于计算机文字检测识别技术领域,尤其涉及一种用于文字检测的神经网络模型及其文字检测方法。
背景技术
自然场景中的文字检测能够传递重要的视觉信息,并且在很大程度上辅助计算机理解和识别。由于自然场景文字较为特殊,背景复杂多变,文字的排列、字体、尺度、长度等属性具有多样性的特点,图像的质量也受拍摄角度、分辨率和光照条件等因素的影响。基于传统计算机视觉的文字检测方法已经不能很好地应对复杂场景。
现有基于传统卷积神经网络堆叠结构的文字检测方式缺乏提取多尺度、多层次特征的能力,而自然场景中的文字目标具有字体多样,尺度大小和宽高比多变的特点,导致现有方法的文字检测准确率欠佳。而基于分割的文字检测方法受限于模型的特征表达能力,在多尺度文字和密集文字上的表现仍有不足,存在分割边界粗糙,多尺度文本漏检问题。现有技术存在不足。
发明内容
本发明的目的在于提供一种用于文字检测的神经网络模型及其文字检测方法,旨在解决由于现有技术中计算机在进行文字检测时感受野太小,特征表征能力欠缺的技术问题。
一方面,本发明提供了一种用于文字检测的神经网络模型,包括输入原图的特征提取网络和输出预测结果的特征融合网络;所述特征提取网络采用卷积层为5个阶段的残差网络结构;
所述残差网络结构的阶段1以原图作为输入,输出二分之一原图大小的第一提取特征图;阶段2至5依次以前一阶段输出的特征图为输入,并依次按照原图大小的四分之一、八分之一、十六分之一和十六分之一输出第二至第五提取特征图:
所述残差网络结构的阶段5采用空洞卷积进行特征提取;还包括一个密集连接型金字塔池化模块,对所述第五提取特征图进行由不同扩张率的空洞卷积采样处理,输出第五融合特征图。
另一方面,本发明还提供一种文字检测方法,包括针对输入原图的特征提取步骤和输出预测结果的特征融合步骤;所述特征提取步骤采用卷积层为5个阶段的残差网络;阶段1以原图作为输入,输出二分之一原图大小的第一提取特征图;阶段2至5依次以前一阶段输出的特征图为输入,并依次按照原图大小的四分之一、八分之一、十六分之一和十六分之一输出第二至第五提取特征图:
所述特征提取步骤的阶段5采用空洞卷积进行特征提取,并对输出的第五提取特征图采用密集连接型金字塔池化模块进行由不同扩张率的空洞卷积采样处理,输出第五融合特征图。
本发明在神经网络结构中,采用残差网络结构分5个阶段提取输入图像(原图)的文字特征,并对特征提取的最后阶段的特征图即第五提取特征图采用空洞卷积获取更大的感受野。并进一步加入密集连接型金字塔池化模块进行计算,获取更加稠密的感受野。密集连接型金字塔池化模块中的空洞卷积特征经由不同扩张率的空洞卷积采样,既扩张率为1-5序列叠加,获取不同尺度的文字图像特征,然后通过密集连接的方式进行结合,得到第五融合特征图。这种结合方式比普通卷积和单一的空洞卷积金字塔具有更大的感受野,且不同尺度的特征图的密集连接和相互合并也可获取更加稠密的感受野。
附图说明
图1是本发明实施例一提供的可穿戴式设备的身份识别方法的实现流程图。
附图标记说明
C1、第一提取特征图;C2、第二提取特征图;C3、第三提取特征图;C4、第四提取特征图;C5、第五提取特征图;P2、第二融合特征图;P3、第三融合特征图;P4、第四融合特征图;P5、第五融合特征图;DC、空洞卷积。图中,空白的立方体为处理后的特征图,箭头、加号即加入标记的方框为神经网络模型的处理框架。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
图1示出了本发明实施例一提供的一种用于文字检测的神经网络模型的网络结构,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
本发明提供了一种用于文字检测的神经网络模型,包括输入原图的特征提取网络和输出预测结果的特征融合网络;所述特征提取网络采用卷积层为5个阶段的残差网络结构;
所述残差网络结构的阶段1以原图作为输入,输出二分之一原图大小的第一提取特征图C1;阶段2至5依次以前一阶段输出的特征图为输入,并依次按照原图大小的四分之一、八分之一、十六分之一和十六分之一输出第二至第五提取特征图C5:
所述残差网络结构的阶段5采用空洞卷积DC进行特征提取;还包括一个密集连接型金字塔池化模块,对所述第五提取特征图C5采用进行由不同扩张率的空洞卷积采样处理,输出第五融合特征图P5。
具体的,残差网络结构对特征提取的最后一个阶段的特征图,即第五提取特征图C5采用空洞卷积获取更大的感受野。并进一步加入密集连接型金字塔池化模块进行计算,获取更加稠密的感受野,特征经由不同扩张率的空洞卷积DC采样,获取不同尺度的文字图像特征,然后通过密集连接的方式进行由不同扩张率的空洞卷积采样,得到第五融合特征图P5。这种结合方式比普通卷积和单一的空洞卷积金字塔具有更大的感受野,且不同尺度的特征图的密集连接和相互合并也可以弥补扩张率较大的空洞卷积核产生的空隙较大无法采样的问题。
进一步的,所述特征融合网络采用特征金字塔网络结构;所述特征金字塔网络结构包括:
1×1的卷积层,设置为四层连续的上采样结构;分别将输入的融合特征图与上一阶段的提取特征图都归一(降维)为256个通道的特征图进行融合,输出上一个阶段的融合特征图;
所述1×1的卷积层基于第五融合特征图P5与第四提取特征图C4进行融合,得到第四融合特征图P4;
在具体实施时,融合操作采用的是将两个待融合特征图的对应位置相加来实现的。
具体的,融合过程中由于第五融合特征图P5和第四提取特征图C4的尺寸一样,所以无需上采样,可以直接进行融合,其余尺寸不一的需融合图片则需分别上采样调整(降维)成相同尺寸。
所述1×1的卷积层基于第四融合特征图P4通过双线性插值的方式进行上采样之后与第三提取特征图C3进行融合,得到第三融合特征图P3;
在具体实施时,本申请的双线性插值是用来扩张待融合的融合特征图的尺寸,使其于待融合的上一阶提取特征图的尺寸保持一致,以便于进行对应位置相加来完成融合。
所述1×1的卷积层基于第三融合特征图P3通过双线性插值的方式进行上采样之后与第二提取特征图C2进行融合,得到第二融合特征图P2。
进一步的,所述特征金字塔网络结构还包括依次连接的Concat层、两个卷积层和上采样输出层;
所述Concat层将所述第五融合特征图P5、所述第四融合特征图P4、所述第三融合特征图P3和所述第二融合特征图P2进行Concat操作,合并后得到最终融合特征图;所述两个卷积层再对所述最终融合特征图进行两次卷积得到7个原图1/4大小的特征图;最后所述上采样输出层基于所述原图1/4大小的特征图输出7个原图大小的预测结果。
其中,最终融合的特征图的尺寸为1024×1/4H×1/4W。H指的是图像的高,W指的是图像宽。
具体的,两个卷积层中,第一次卷积1×1将融合后的特征图通道数从1024降维为256,第二次卷积3×3将融合后的特征图通道数从256降维为7,通过两次卷积之后输出7×1/4H×1/4W的特征图。
进一步的,所述阶段5采用的空洞卷积DC,其扩张率设置为2,特征提取过程中保持输出的特征尺寸与阶段4相同。
进一步的,所述1×1的卷积层与所述Concat层之间还设置有注意力机制模块;所述注意力机制模块的数量与融合特征图的数量对应。
具体的,在多尺度文本检测中所提取的特征既要包含全面的空间分辨率信息,用来定位小尺度文本,也要包含丰富的语义信息用来区分文本区域和其他无关信息。为了有效融合高层语义信息和低层空间分辨率信息,分别对第二融合特征图P2、第三融合特征图P3、第四融合特征图P4和第五融合特征图P5以注意力机制模块进行处理。
注意力机制模块可以作为前向传播中的特征选择器,关注重要特征,抑制不必要的信号,且其在不增加计算开销的情况下,有效获得更大的感受野。
作为一种优选的方式,本申请将密集连接型金字塔池化模块中单个卷积初始参数设置为正态分布,既空洞卷积采样率逐层增加。每个分支的输入都是之前分支输出的拼接,每个分支的输出都有更加密集的感受野信息。具体的,空洞卷积采样率按照1~5的扩张序列叠加。
在具体实施中,空洞卷积(Dilated Convolution,DC)可以优化卷积结构的方法,能够通过增大感受野来提升网络的特征表征性能。
密集连接型金字塔池化模块(Densely connected Atrous Spatial PyramidPooling,DenseASPP)可以将多个不同扩张核的空洞卷积层进行串行组合,充分保留各尺度上的原始特征,采样更加密集,对于多尺度目标有较好效果。在特征融合过程中加入注意力机制也可以有效地突出重要特征。
注意力机制模块(Convolutional Block Attention Module,CBAM)是一种简单有效的注意力模块,分别在通道和空间两个维度上引入注意力机制,通过二者的结合有效地获取目标的显著特征,减少背景等无关特征对结果的影响。
特征金字塔网络(FPN)和残差网络ResNet50共同构成实施例一的神经网络模型。应用于文字检测,能够有效提升网络模型的检测性能。
实施例二:
本发明实施例二提供了文字检测方法的实现流程,具体为,包括针对输入原图的特征提取步骤和输出预测结果的特征融合步骤;所述特征提取步骤采用卷积层为5个阶段的残差网络;阶段1以原图作为输入,输出二分之一原图大小的第一提取特征图C1;阶段2至5依次以前一阶段输出的特征图为输入,并依次按照原图大小的四分之一、八分之一、十六分之一和十六分之一输出第二至第五提取特征图C5:
所述特征提取步骤的阶段5采用空洞卷积DC进行特征提取,并对输出的第五提取特征图C5采用密集连接型金字塔池化模块进行由不同扩张率的空洞卷积采样处理,输出第五融合特征图P5。
进一步的,所述特征融合步骤采用1×1的卷积层将输入的融合特征图与上一阶段的提取特征图都归一为256个通道的特征图进行融合,输出上一个阶段的融合特征图;
其中,基于第五融合特征图P5与第四提取特征图C4进行融合,得到第四融合特征图P4;
基于第四融合特征图P4通过双线性插值的方式进行上采样之后与第三提取特征图C3进行融合,得到第三融合特征图P3;
基于第三融合特征图P3通过双线性插值的方式进行上采样之后与第二提取特征图C2进行融合,得到第二融合特征图P2。
进一步的,所述特征融合步骤将所述第五融合特征图P5、所述第四融合特征图P4、所述第三融合特征图P3和所述第二融合特征图P2进行Concat操作,合并后得到最终融合特征图;再对所述最终融合特征图进行两次卷积降维得到7个原图1/4大小的特征图,最后通过一次x4的上采样输出7个原图大小的预测结果。
其中,最终融合的特征图的尺寸为1024×1/4H×1/4W。H指的是图像的高,W指的是图像的宽。
具体的,第一次卷积1×1将融合后的最终特征图通道数从1024降维为256,第二次卷积3×3将融合后的最终特征图通道数从256降维为7,通过两次卷积之后,输出7×1/4H×1/4W的特征图。
进一步的,所述特征提取步骤的阶段5采用的空洞卷积DC,该空洞卷积DC的扩张率设置为2;特征提取过程中保持输出的特征尺寸与阶段4相同。
进一步的,所述特征提取步骤还包括对所述1×1的卷积层输出的第五融合特征图P5、第四融合特征图P4、第三融合特征图P3和第二融合特征图P2进行注意力机制计算,突出重要特征。
通过上述改进有效提升了模型的表征能力,增强了模型的特征提取能力,获得了更好的文本检测效果。
本方法效果提升在ICDAR2015和ICDAR2017-MLT数据集中的表现为:
Figure BDA0003252542590000071
Figure BDA0003252542590000081
可见,本申请所采用的文字检测方法具有较准确的检测效果。提高了计算机对图像中的文字的检测效率。
本发明实施例的文字检测的神经网络模型及其文字检测方法结合空洞卷积、Dense ASPP模块和CBAM模块对现有神经网络模型进行了改进,增强了模型的特征提取能力,有效提升了模型的表征能力,获得了更好的文本检测效果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种用于文字检测的神经网络模型,包括输入原图的特征提取网络和输出预测结果的特征融合网络;其特征在于,所述特征提取网络采用卷积层为5个阶段的残差网络结构;
所述残差网络结构的阶段1以原图作为输入,输出二分之一原图大小的第一提取特征图;阶段2至5依次以前一阶段输出的特征图为输入,并依次按照原图大小的四分之一、八分之一、十六分之一和十六分之一输出第二至第五提取特征图:
所述残差网络结构的阶段5采用空洞卷积进行特征提取;还包括一个密集连接型金字塔池化模块,对所述第五提取特征图采用进行由不同扩张率的空洞卷积采样处理,输出第五融合特征图。
2.如权利要求1所述的神经网络模型,其特征在于,所述特征融合网络采用特征金字塔网络结构;所述特征金字塔网络结构包括:
1×1的卷积层,设置为四层连续的上采样结构;分别将输入的融合特征图与上一阶段的提取特征图都归一为256个通道的特征图进行融合,输出上一个阶段的融合特征图;
所述1×1的卷积层基于第五融合特征图与第四提取特征图进行融合,得到第四融合特征图;
所述1×1的卷积层基于第四融合特征图通过双线性插值的方式进行上采样之后与第三提取特征图进行融合,得到第三融合特征图;
所述1×1的卷积层基于第三融合特征图通过双线性插值的方式进行上采样之后与第二提取特征图进行融合,得到第二融合特征图。
3.如权利要求2所述的神经网络模型,其特征在于,所述特征金字塔网络结构还包括依次连接的Concat层、两个卷积层和上采样输出层;
所述Concat层将所述第五融合特征图、所述第四融合特征图、所述第三融合特征图和所述第二融合特征图进行Concat操作,合并后得到最终融合特征图;所述两个卷积层再对所述最终融合特征图进行两次卷积得到7个原图1/4大小的特征图;最后所述上采样输出层基于所述原图1/4大小的特征图输出7个原图大小的预测结果。
4.如权利要求1所述的神经网络模型,其特征在于,所述阶段5采用的空洞卷积,其扩张率设置为2,特征提取过程中保持输出的特征尺寸与阶段4相同。
5.如权利要求3所述的神经网络模型,其特征在于,所述1×1的卷积层与所述Concat层之间还设置有注意力机制模块;所述注意力机制模块的数量与融合特征图的数量对应。
6.一种文字检测方法,包括针对输入原图的特征提取步骤和输出预测结果的特征融合步骤;其特征在于,所述特征提取步骤采用卷积层为5个阶段的残差网络;阶段1以原图作为输入,输出二分之一原图大小的第一提取特征图;阶段2至5依次以前一阶段输出的特征图为输入,并依次按照原图大小的四分之一、八分之一、十六分之一和十六分之一输出第二至第五提取特征图:
所述特征提取步骤的阶段5采用空洞卷积进行特征提取,并对输出的第五提取特征图采用密集连接型金字塔池化模块进行由不同扩张率的空洞卷积采样处理,输出第五融合特征图。
7.如权利要求6所述的文字检测方法,其特征在于,所述特征融合步骤采用1×1的卷积层将输入的融合特征图与上一阶段的提取特征图都归一为256个通道的特征图进行融合,输出上一个阶段的融合特征图;
其中,基于第五融合特征图与第四提取特征图进行融合,得到第四融合特征图;
基于第四融合特征图通过双线性插值的方式进行上采样之后与第三提取特征图进行融合,得到第三融合特征图;
基于第三融合特征图通过双线性插值的方式进行上采样之后与第二提取特征图进行融合,得到第二融合特征图。
8.如权利要求7所述的文字检测方法,其特征在于,所述特征融合步骤将所述第五融合特征图、所述第四融合特征图、所述第三融合特征图和所述第二融合特征图进行Concat操作,合并后得到最终融合特征图;再对所述最终融合特征图进行两次卷积得到7个原图1/4大小的特征图,最后通过上采样输出7个原图大小的预测结果。
9.如权利要求6所述的文字检测方法,其特征在于,所述特征提取步骤的阶段5采用的空洞卷积,该空洞卷积的扩张率设置为2;特征提取过程中保持输出的特征尺寸与阶段4相同。
10.如权利要求7所述的文字检测方法,其特征在于,所述特征提取步骤还包括对所述1×1的卷积层输出的第五融合特征图、第四融合特征图、第三融合特征图和第二融合特征图进行注意力机制计算,突出重要特征。
CN202111050408.6A 2021-09-08 2021-09-08 一种用于文字检测的神经网络模型及其文字检测方法 Active CN113762476B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111050408.6A CN113762476B (zh) 2021-09-08 2021-09-08 一种用于文字检测的神经网络模型及其文字检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111050408.6A CN113762476B (zh) 2021-09-08 2021-09-08 一种用于文字检测的神经网络模型及其文字检测方法

Publications (2)

Publication Number Publication Date
CN113762476A true CN113762476A (zh) 2021-12-07
CN113762476B CN113762476B (zh) 2023-12-19

Family

ID=78794013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111050408.6A Active CN113762476B (zh) 2021-09-08 2021-09-08 一种用于文字检测的神经网络模型及其文字检测方法

Country Status (1)

Country Link
CN (1) CN113762476B (zh)

Citations (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170235721A1 (en) * 2016-02-17 2017-08-17 The King Abdulaziz City For Science And Technology Method and system for detecting semantic errors in a text using artificial neural networks
CN107169974A (zh) * 2017-05-26 2017-09-15 中国科学技术大学 一种基于多监督全卷积神经网络的图像分割方法
CN107862695A (zh) * 2017-12-06 2018-03-30 电子科技大学 一种基于全卷积神经网络的改进型图像分割训练方法
WO2018072102A1 (zh) * 2016-10-18 2018-04-26 华为技术有限公司 一种人脸图像中眼镜去除方法及装置
CN108717569A (zh) * 2018-05-16 2018-10-30 中国人民解放军陆军工程大学 一种膨胀全卷积神经网络及其构建方法
CN108764244A (zh) * 2018-04-02 2018-11-06 华南理工大学 基于卷积神经网络和条件随机场的潜在目标区域检测方法
CN108985250A (zh) * 2018-07-27 2018-12-11 大连理工大学 一种基于多任务网络的交通场景解析方法
CN109829920A (zh) * 2019-02-25 2019-05-31 上海商汤智能科技有限公司 图像处理方法及装置、电子设备和存储介质
CN110020606A (zh) * 2019-03-13 2019-07-16 北京工业大学 一种基于多尺度卷积神经网络的人群密度估计方法
CN110110775A (zh) * 2019-04-28 2019-08-09 北京理工大学 一种基于超连接网络的匹配代价计算方法
CN110176006A (zh) * 2019-05-15 2019-08-27 北京航空航天大学 图像前景物体分割方法及装置
CN110287960A (zh) * 2019-07-02 2019-09-27 中国科学院信息工程研究所 自然场景图像中曲线文字的检测识别方法
CN110348445A (zh) * 2019-06-06 2019-10-18 华中科技大学 一种融合空洞卷积和边缘信息的实例分割方法
CN110443258A (zh) * 2019-07-08 2019-11-12 北京三快在线科技有限公司 文字检测方法、装置、电子设备及存储介质
CN110717527A (zh) * 2019-09-24 2020-01-21 东南大学 结合空洞空间金字塔结构的目标检测模型确定方法
CN110852980A (zh) * 2019-11-13 2020-02-28 北京京东方专用显示科技有限公司 交互式图像填充方法及系统、服务器、设备及介质
CN110910405A (zh) * 2019-11-20 2020-03-24 湖南师范大学 基于多尺度空洞卷积神经网络的脑肿瘤分割方法及系统
CN111291759A (zh) * 2020-01-17 2020-06-16 北京三快在线科技有限公司 文字检测方法、装置、电子设备及存储介质
CN111695430A (zh) * 2020-05-18 2020-09-22 电子科技大学 一种基于特征融合和视觉感受野网络的多尺度人脸检测方法
CN112801117A (zh) * 2021-02-03 2021-05-14 四川中烟工业有限责任公司 多路感受野引导的特征金字塔小目标检测网络及检测方法
CN113033570A (zh) * 2021-03-29 2021-06-25 同济大学 一种改进空洞卷积和多层次特征信息融合的图像语义分割方法
CN113205152A (zh) * 2021-05-24 2021-08-03 西安邮电大学 一种环视融合的特征融合方法

Patent Citations (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170235721A1 (en) * 2016-02-17 2017-08-17 The King Abdulaziz City For Science And Technology Method and system for detecting semantic errors in a text using artificial neural networks
WO2018072102A1 (zh) * 2016-10-18 2018-04-26 华为技术有限公司 一种人脸图像中眼镜去除方法及装置
CN107169974A (zh) * 2017-05-26 2017-09-15 中国科学技术大学 一种基于多监督全卷积神经网络的图像分割方法
CN107862695A (zh) * 2017-12-06 2018-03-30 电子科技大学 一种基于全卷积神经网络的改进型图像分割训练方法
CN108764244A (zh) * 2018-04-02 2018-11-06 华南理工大学 基于卷积神经网络和条件随机场的潜在目标区域检测方法
CN108717569A (zh) * 2018-05-16 2018-10-30 中国人民解放军陆军工程大学 一种膨胀全卷积神经网络及其构建方法
CN108985250A (zh) * 2018-07-27 2018-12-11 大连理工大学 一种基于多任务网络的交通场景解析方法
CN109829920A (zh) * 2019-02-25 2019-05-31 上海商汤智能科技有限公司 图像处理方法及装置、电子设备和存储介质
CN110020606A (zh) * 2019-03-13 2019-07-16 北京工业大学 一种基于多尺度卷积神经网络的人群密度估计方法
CN110110775A (zh) * 2019-04-28 2019-08-09 北京理工大学 一种基于超连接网络的匹配代价计算方法
CN110176006A (zh) * 2019-05-15 2019-08-27 北京航空航天大学 图像前景物体分割方法及装置
CN110348445A (zh) * 2019-06-06 2019-10-18 华中科技大学 一种融合空洞卷积和边缘信息的实例分割方法
CN110287960A (zh) * 2019-07-02 2019-09-27 中国科学院信息工程研究所 自然场景图像中曲线文字的检测识别方法
CN110443258A (zh) * 2019-07-08 2019-11-12 北京三快在线科技有限公司 文字检测方法、装置、电子设备及存储介质
CN110717527A (zh) * 2019-09-24 2020-01-21 东南大学 结合空洞空间金字塔结构的目标检测模型确定方法
CN110852980A (zh) * 2019-11-13 2020-02-28 北京京东方专用显示科技有限公司 交互式图像填充方法及系统、服务器、设备及介质
CN110910405A (zh) * 2019-11-20 2020-03-24 湖南师范大学 基于多尺度空洞卷积神经网络的脑肿瘤分割方法及系统
CN111291759A (zh) * 2020-01-17 2020-06-16 北京三快在线科技有限公司 文字检测方法、装置、电子设备及存储介质
CN111695430A (zh) * 2020-05-18 2020-09-22 电子科技大学 一种基于特征融合和视觉感受野网络的多尺度人脸检测方法
CN112801117A (zh) * 2021-02-03 2021-05-14 四川中烟工业有限责任公司 多路感受野引导的特征金字塔小目标检测网络及检测方法
CN113033570A (zh) * 2021-03-29 2021-06-25 同济大学 一种改进空洞卷积和多层次特征信息融合的图像语义分割方法
CN113205152A (zh) * 2021-05-24 2021-08-03 西安邮电大学 一种环视融合的特征融合方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
余春艳;徐小丹;钟诗俊;: "融合去卷积与跳跃嵌套结构的显著性区域检测", 计算机辅助设计与图形学学报, no. 11, pages 64 - 71 *
姜世浩;齐苏敏;王来花;贾惠;: "基于Mask R-CNN和多特征融合的实例分割", 计算机技术与发展, no. 09, pages 71 - 76 *
徐胜军;欧阳朴衍;郭学源;TAHA MUTHAR KHAN;段中兴;: "多尺度特征融合空洞卷积 ResNet遥感图像建筑物分割", 光学精密工程, no. 07, pages 179 - 190 *
潘峰;安启超;刁奇;王瑞;冯肖雪;: "基于粒子群算法的多尺度反卷积特征融合的道路提取", 北京理工大学学报, no. 06, pages 175 - 183 *

Also Published As

Publication number Publication date
CN113762476B (zh) 2023-12-19

Similar Documents

Publication Publication Date Title
CN110033410B (zh) 图像重建模型训练方法、图像超分辨率重建方法及装置
CN111858954B (zh) 面向任务的文本生成图像网络模型
CN108717569A (zh) 一种膨胀全卷积神经网络及其构建方法
CN111325751A (zh) 基于注意力卷积神经网络的ct图像分割系统
CN113033570B (zh) 一种改进空洞卷积和多层次特征信息融合的图像语义分割方法
CN112396607A (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN108596330A (zh) 一种并行特征全卷积神经网络及其构建方法
CN111524135A (zh) 基于图像增强的输电线路细小金具缺陷检测方法及系统
CN111340814A (zh) 一种基于多模态自适应卷积的rgb-d图像语义分割方法
CN113743269B (zh) 一种轻量化识别视频人体姿态的方法
CN112465801B (zh) 一种分尺度提取掩码特征的实例分割方法
CN113642445B (zh) 一种基于全卷积神经网络的高光谱影像分类方法
CN114119975A (zh) 一种语言引导的跨模态实例分割方法
CN111881743A (zh) 一种基于语义分割的人脸特征点定位方法
CN112785626A (zh) 一种基于多尺度特征融合的孪生网络小目标跟踪方法
CN111783862A (zh) 多注意力导向神经网络的立体显著性物体检测技术
CN116129111A (zh) 改进DeepLabv3+模型的电力线语义分割方法
CN110751271A (zh) 一种基于深度神经网络的图像溯源特征表征方法
CN113902753A (zh) 基于双通道和自注意力机制的图像语义分割方法及系统
CN115511705A (zh) 一种基于可变形残差卷积神经网络的图像超分辨率重建方法
CN113762476B (zh) 一种用于文字检测的神经网络模型及其文字检测方法
CN116977822A (zh) 一种融合CNN与Transformer模型的图像识别网络
CN115331261A (zh) 基于YOLOv6的移动端实时人体检测方法及系统
CN113344110B (zh) 一种基于超分辨率重建的模糊图像分类方法
CN115187777A (zh) 一种数据集制作困难下的图像语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant