CN111898608B - 一种基于边界预测的自然场景多语言文字检测方法 - Google Patents

一种基于边界预测的自然场景多语言文字检测方法 Download PDF

Info

Publication number
CN111898608B
CN111898608B CN202010636379.0A CN202010636379A CN111898608B CN 111898608 B CN111898608 B CN 111898608B CN 202010636379 A CN202010636379 A CN 202010636379A CN 111898608 B CN111898608 B CN 111898608B
Authority
CN
China
Prior art keywords
feature
output
layer
layers
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010636379.0A
Other languages
English (en)
Other versions
CN111898608A (zh
Inventor
冯晓毅
宋真东
蒋晓悦
夏召强
李会方
谢红梅
何贵青
彭进业
王西汉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202010636379.0A priority Critical patent/CN111898608B/zh
Publication of CN111898608A publication Critical patent/CN111898608A/zh
Application granted granted Critical
Publication of CN111898608B publication Critical patent/CN111898608B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于边界预测的自然场景多语言文字检测方法,首先构建了一个多语言文字检测网络模型,该模型包括特征提取主干网络、残差卷积模块(RCM)、残差池化模块(RPM)和特征融合层,对输入图像逐像素预测文字区域与其外接边界,并将其转化为置信图输出,通过广度优先搜索算法将边界相连的文字区域分离进而得到最终的检测结果。本方法能够检测任意方向、形状的多语言文字区域,降低了算法复杂度,节省计算时间,显著提升了检测精度。

Description

一种基于边界预测的自然场景多语言文字检测方法
技术领域
本发明涉及计算机视觉领域,具体涉及自然场景中多语言文字检测方法。
背景技术
受到全球化加速的影响,不同国家的人们生活在同一个城市中,彼此间文化交流越来越密切,这种趋势带来的最直接的改变是人们生活环境中经常会看到来自不同国家的文字。对基于自然场景内容理解的众多应用而言,如无人驾驶系统、盲人辅助系统、旅行翻译、自动机器人等,以往针对单一或者混合语言而开发的文字检测方法已然无法满足当今多元化的语言环境。而为每一种语言分别开发其对应检测器的策略并不能受到人们的认可。因此,需要克服多语言文字检测中所面临的特有挑战,设计鲁棒的自然场景中多语言文字检测方法。
近年来,卷积神经网络(Convolutional Neural Network,CNN)发展迅速,CNN网络能够自动学习图像视觉特征的能力十分适合用于自然场景中文字检测。多数基于卷积神经网络研发的文字检测算法仅针对一到两种语言设计,无法满足多语言文字检测的需求。并且其方法大多使用四边形目标框定位文字区域,难以适应曲线或不规则文字区域。同时,与拉丁语文字采用空格分隔单词不同,许多非拉丁语文字(如汉语、日语等)因单个字符包含更高的语义信息而不用通过空格分隔单词,因此这类语言通常会具有极大长宽比的文字行,导致了检测算法精度下降。
利用卷积神经网络对文字区域进行像素级的预测能够有效地检测任意形状的多语言文字。然而,当小的文字区域相互靠近时,这种预测方式无法准确分离文字区域,因此直接应用于文字检测时性能有限。
发明内容
为了克服现有技术的不足,本发明提供了一种基于边界预测的自然场景多语言文字检测方法,首先构建了一个多语言文字检测网络模型,该模型包括特征提取主干网络、残差卷积模块(RCM)、残差池化模块(RPM)和特征融合层,对输入图像逐像素预测文字区域与其外接边界,并将其转化为置信图输出,通过广度优先搜索算法将边界相连的文字区域分离进而得到最终的检测结果。
为达到上述目的,本发明提供了一种基于边界预测的自然场景多语言文字检测方法,主要包含以下几个步骤:
步骤1:构建多语言文字检测网络模型
步骤1-1:首先采用若干卷积层对输入图像进行卷积操作,输出图像的特征层通道数变为64,分辨率降低至原始图像的1/4,输出特征层记为[W/4,H/4,64],其中W和H分别表示输入图像的宽和高;
步骤1-2:步骤1-1输出图像输入到RCM,输出图像的特征层通道数增加到256同时分辨率保持不变,记为[W/4,H/4,256];
步骤1-3:步骤1-2的输出图像产生两个分支,一个分支通过卷积模块降低特征层通道数但保持分辨率不变,输出特征层记为[W/4,H/4,32];另一个分支经过降维卷积模块产生一个降低分辨率的特征层,记为[W/8,H/8,64];
步骤1-4:步骤1-3输出的两个特征层再次分别经过RCM后进入特征融合阶段用以同时提高特征细节与语义信息,融合后的两个特征层分别为([W/4,H/4,32],[W/8,H/8,64]);融合后的两个特征层中分辨率较低者再通过降维卷积操作产生更低分辨率的特征层,记为[W/16,H/16,128];
步骤1-5:将步骤1-4产生的三个特征层再分别输入RCM并进行特征融合,融合后的特征层分别为([W/4,H/4,32],[W/8,H/8,64],[W/16,H/16,128]);三个特征层中分辨率最低的特征层进一步通过降维卷积模块产生一个更低分辨率的特征层,记为[W/32,H/32,256];
步骤1-6:步骤1-5输出的四个特征层分别接入四个RCM后输出四个特征层,记为([W/4,H/4,32]1,[W/8,H/8,64]1,[W/16,H/16,128]1,[W/32,H/32,256]1);
步骤1-7:再将步骤1-6输出的四个特征层分别依次进入四个RPM和四个RCM,用以进一步捕捉上下文信息,并保持输出通道数为256;
步骤1-8:步骤1-7输出的四个特征层分别经过一个1×1卷积层将通道数降低为3,并进行上采样操作保证分辨率与标签图像一致,经过特征拼接层后再接入一个1×1卷积层输出最终提取特征;
步骤2:设计训练标签
将标签图像中的对象分为三类,多语言文字区域归为一类,非文字背景区域归为一类,多语言文字区域与非文字背景区域的边界曲线归为一类;
对于标注多语言文字区域的选取框的短边长度α,计算偏移量d=r×α,其中r为偏移参数;对于短边小于A个像素的小文字区域,当d<A*r时,将d设置为A*r;按照偏移量调整标注多语言文字区域的选取框位置,选取框的四个新顶点坐标被定义为{([x1+d],[y1+d]),([x2-d],[y2+d]),([x3-d],[y3-d]),([x4+d],[y4-d])},其中,{(x1,y1),(x2,y2),(x3,y3),(x4,y4)}表示选取框的四个原始顶点坐标;
最后将多语言文字区域内的像素标注为“1”,边界曲线上的像素标注为“2”,非文字背景区域标注为“0”;
步骤3:设计代价函数
多语言文字检测网络的代价函数采用Softmax函数,定义为:
Figure GDA0003505972570000031
式中,T=3表示图像中的对象类别数,a表示图像中每一个像素在特征层的输出向量,aj表示向量a第j个节点的值,am表示向量a第m个节点的值;
步骤4:训练多语言文字检测网络模型
针对训练样本,使用具有动量的随机梯度下降算法对多语言文字检测网络进行训练,当代价函数最小时,此时网络模型参数即为最终参数;
步骤5:文字提取
将待检测图像输入训练完成的多语言文字检测网络模型,先得到预测图,在预测图中待检测图像中每个像素被预测为文字、边界、非文字三类;再对预测图采用基于广度优先搜索算法将边界像素与文字区域像素融合,最终得到提取的文字区域。
进一步地,所述RCM模块包含两个3×3卷积层和两个ReLU层以及两个批量归一化层,通过残差连接的方式将卷积前的输入特征与卷积后的输出特征进行融合。
进一步地,所述RPM模块由一个ReLU激活函数层和两个串联的5×5最大池化层组成,每个池化层后面连接一个3×3的卷积层为后续融合提供加权信息,通过最大池化操作捕捉窗口的背景信息并用残差连接的方式与输入特征进行融合。
进一步地,所述特征融合用于融合不同分辨率特征,给定输入特征层为X1,X2,…,Xn,融合后输出特征层为Y1,Y2,…,Yn,n表示特征层总数,同一特征层的输入与输出保持相同的分辨率和通道数,特征融合后的输出为:
Figure GDA0003505972570000041
Figure GDA0003505972570000042
其中i表示特征层序号,k表示融合后输出的特征层序号,k=1,2,...,n,DownSample(Xi)和UpSample(Xi)分别为对特征进行下采样和上采样;上采样采用最近邻插值法,下采样根据特征层分辨率相差的倍数使用|i-k|次步长为2的3×3卷积操作。
进一步地,步骤2中的r设置为0.1,A设置为20。
本发明的有益效果是:由于采用了本发明的一种基于边界预测的多语言文字检测方法,相比直接对像素进行文字与非文字预测,能够准确的区分相近的小文字区域;基于像素的预测方式能够检测任意方向、形状的多语言文字区域,降低了算法复杂度,节省计算时间,显著提升了检测精度。
附图说明
图1是本发明的多语言文字检测流程图。
图2为本发明多语言文字检测网络框架图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
如图1和图2所示,本发明提供了一种基于边界预测的自然场景多语言文字检测方法,主要包含以下几个步骤:
步骤1:构建多语言文字检测网络模型
步骤1-1:首先采用若干卷积层对输入图像进行卷积操作,输出图像的特征层通道数变为64,分辨率降低至原始图像的1/4,输出特征层记为[W/4,H/4,64],其中W和H分别表示输入图像的宽和高;
步骤1-2:步骤1-1输出图像输入到RCM,输出图像的特征层通道数增加到256同时分辨率保持不变,记为[W/4,H/4,256];
步骤1-3:步骤1-2的输出图像产生两个分支,一个分支通过卷积模块降低特征层通道数但保持分辨率不变,输出特征层记为[W/4,H/4,32];另一个分支经过降维卷积模块产生一个降低分辨率的特征层,记为[W/8,H/8,64];
步骤1-4:步骤1-3输出的两个特征层再次分别经过RCM后进入特征融合阶段用以同时提高特征细节与语义信息,融合后的两个特征层分别为([W/4,H/4,32],[W/8,H/8,64]);融合后的两个特征层中分辨率较低者再通过降维卷积操作产生更低分辨率的特征层,记为[W/16,H/16,128];
步骤1-5:将步骤1-4产生的三个特征层再分别输入RCM并进行特征融合,融合后的特征层分别为([W/4,H/4,32],[W/8,H/8,64],[W/16,H/16,128]);三个特征层中分辨率最低的特征层进一步通过降维卷积模块产生一个更低分辨率的特征层,记为[W/32,H/32,256];
步骤1-6:步骤1-5输出的四个特征层分别接入四个RCM后输出四个特征层,记为([W/4,H/4,32]1,[W/8,H/8,64]1,[W/16,H/16,128]1,[W/32,H/32,256]1);
步骤1-7:再将步骤1-6输出的四个特征层分别依次进入四个RPM和四个RCM,用以进一步捕捉上下文信息,并保持输出通道数为256;
步骤1-8:步骤1-7输出的四个特征层分别经过一个1×1卷积层将通道数降低为3,并进行上采样操作保证分辨率与标签图像一致,经过特征拼接层后再接入一个1×1卷积层输出最终提取特征;
步骤2:设计训练标签
将标签图像中的对象分为三类,多语言文字区域归为一类,非文字背景区域归为一类,多语言文字区域与非文字背景区域的边界曲线归为一类;
对于标注多语言文字区域的选取框的短边长度α,计算偏移量d=r×α,其中r为偏移参数;对于短边小于A个像素的小文字区域,当d<A*r时,将d设置为A*r;按照偏移量调整标注多语言文字区域的选取框位置,选取框的四个新顶点坐标被定义为{([x1+d],[y1+d]),([x2-d],[y2+d]),([x3-d],[y3-d]),([x4+d],[y4-d])},其中,{(x1,y1),(x2,y2),(x3,y3),(x4,y4)}表示选取框的四个原始顶点坐标;
最后将多语言文字区域内的像素标注为“1”,边界曲线上的像素标注为“2”,非文字背景区域标注为“0”;
步骤3:设计代价函数
多语言文字检测网络的代价函数采用Softmax函数,定义为:
Figure GDA0003505972570000061
式中,T=3表示图像中的对象类别数,a表示图像中每一个像素在特征层的输出向量,aj表示向量a第j个节点的值,am表示向量a第m个节点的值;
步骤4:训练多语言文字检测网络模型
针对训练样本,使用具有动量的随机梯度下降算法对多语言文字检测网络进行训练,当代价函数最小时,此时网络模型参数即为最终参数;
步骤5:文字提取
将待检测图像输入训练完成的多语言文字检测网络模型,先得到预测图,在预测图中待检测图像中每个像素被预测为文字、边界、非文字三类;再对预测图采用基于广度优先搜索算法将边界像素与文字区域像素融合,最终得到提取的文字区域。
进一步地,所述RCM模块包含两个3×3卷积层和两个ReLU层以及两个批量归一化层,通过残差连接的方式将卷积前的输入特征与卷积后的输出特征进行融合。
进一步地,所述RPM模块由一个ReLU激活函数层和两个串联的5×5最大池化层组成,每个池化层后面连接一个3×3的卷积层为后续融合提供加权信息,通过最大池化操作捕捉窗口的背景信息并用残差连接的方式与输入特征进行融合。
进一步地,所述特征融合用于融合不同分辨率特征,给定输入特征层为X1,X2,…,Xn,融合后输出特征层为Y1,Y2,…,Yn,n表示特征层总数,同一特征层的输入与输出保持相同的分辨率和通道数,特征融合后的输出为:
Figure GDA0003505972570000062
Figure GDA0003505972570000063
其中i表示特征层序号,k表示融合后输出的特征层序号,k=1,2,...,n,DownSample(Xi)和UpSample(Xi)分别为对特征进行下采样和上采样;上采样采用最近邻插值法,下采样根据特征层分辨率相差的倍数使用|i-k|次步长为2的3×3卷积操作。
进一步地,步骤2中的r设置为0.1,A设置为20。
实施例:
根据步骤1构建多语言文字检测网络模型,在训练模型时,针对训练样本,使用具有动量的随机梯度下降算法(SGD)对网络进行训练,该算法具有较快的训练速度。在训练中,所有训练数据被迭代100次,初始的学习率和动量分别设置为1×10-3和0.99并在最后的40次将学习率设置为1×10-4
在数据增广方面,图像和对应生成的训练标签按照短边被缩放至512、1024、2048三个尺度并保持长宽比不变,之后图像和标签进行随机的翻转和在[-10°,10°]之间旋转。一个512×512的窗口用以随机裁剪。
经过上述过程,使代价函数最小化;当代价函数最小时,此时网络模型参数即为最终参数。
将待检测图像输入训练完成的多语言文字检测网络模型,先得到预测图,在预测图中待检测图像中每个像素被预测为文字、边界、非文字三类;再对预测图采用基于广度优先搜索算法将边界像素与文字区域像素融合,融合算法如下:
首先对文字区域像素进行连通区域分析,初始化文字区域像素集合T、边界区域像素R和队列Q。其次将所有文字区域像素与其索引送入T中,像素进入队列Q并将边界像素送入R中。接下来从Q中出队一像素,判断其临近像素是否属于边界,如果是则加入T,入队Q并从R中删除,循环判断直到Q为空。最后得到T即属于各自文字区域的像素集合,采用最小外接包围框可得到检测结果,最终得到提取的文字区域。

Claims (3)

1.一种基于边界预测的自然场景多语言文字检测方法,其特征在于,包括以下步骤:
步骤1:构建多语言文字检测网络模型
步骤1-1:首先采用若干卷积层对输入图像进行卷积操作,输出图像的特征层通道数变为64,分辨率降低至原始图像的1/4,输出特征层记为[W/4,H/4,64],其中W和H分别表示输入图像的宽和高;
步骤1-2:步骤1-1输出图像输入到RCM,输出图像的特征层通道数增加到256同时分辨率保持不变,记为[W/4,H/4,256];所述RCM包含两个3×3卷积层和两个ReLU层以及两个批量归一化层,通过残差连接的方式将卷积前的输入特征与卷积后的输出特征进行融合;
步骤1-3:步骤1-2的输出图像产生两个分支,一个分支通过卷积模块降低特征层通道数但保持分辨率不变,输出特征层记为[W/4,H/4,32];另一个分支经过降维卷积模块产生一个降低分辨率的特征层,记为[W/8,H/8,64];
步骤1-4:步骤1-3输出的两个特征层再次分别经过RCM后进入特征融合阶段用以同时提高特征细节与语义信息,融合后的两个特征层分别为([W/4,H/4,32],[W/8,H/8,64]);融合后的两个特征层中分辨率较低者再通过降维卷积操作产生更低分辨率的特征层,记为[W/16,H/16,128];
步骤1-5:将步骤1-4产生的三个特征层再分别输入RCM并进行特征融合,融合后的特征层分别为([W/4,H/4,32],[W/8,H/8,64],[W/16,H/16,128]);三个特征层中分辨率最低的特征层进一步通过降维卷积模块产生一个更低分辨率的特征层,记为[W/32,H/32,256];
步骤1-6:步骤1-5输出的四个特征层分别接入四个RCM后输出四个特征层,记为([W/4,H/4,32]1,[W/8,H/8,64]1,[W/16,H/16,128]1,[W/32,H/32,256]1);
步骤1-7:再将步骤1-6输出的四个特征层分别依次进入四个RPM和四个RCM,用以进一步捕捉上下文信息,并保持输出通道数为256;所述RPM模块由一个ReLU激活函数层和两个串联的5×5最大池化层组成,每个池化层后面连接一个3×3的卷积层为后续融合提供加权信息,通过最大池化操作捕捉窗口的背景信息并用残差连接的方式与输入特征进行融合;
步骤1-8:步骤1-7输出的四个特征层分别经过一个1×1卷积层将通道数降低为3,并进行上采样操作保证分辨率与标签图像一致,经过特征拼接层后再接入一个1×1卷积层输出最终提取特征;
步骤2:设计训练标签
将标签图像中的对象分为三类,多语言文字区域归为一类,非文字背景区域归为一类,多语言文字区域与非文字背景区域的边界曲线归为一类;
对于标注多语言文字区域的选取框的短边长度α,计算偏移量d=r×α,其中r为偏移参数;对于短边小于A个像素的小文字区域,当d<A*r时,将d设置为A*r;按照偏移量调整标注多语言文字区域的选取框位置,选取框的四个新顶点坐标被定义为{([x1+d],[y1+d]),([x2-d],[y2+d]),([x3-d],[y3-d]),([x4+d],[y4-d])},其中,{(x1,y1),(x2,y2),(x3,y3),(x4,y4)}表示选取框的四个原始顶点坐标;
最后将多语言文字区域内的像素标注为“1”,边界曲线上的像素标注为“2”,非文字背景区域标注为“0”;
步骤3:设计代价函数
多语言文字检测网络的代价函数采用Softmax函数,定义为:
Figure FDA0003505972560000021
式中,T=3表示图像中的对象类别数,a表示图像中每一个像素在特征层的输出向量,aj表示向量a第j个节点的值,am表示向量a第m个节点的值;
步骤4:训练多语言文字检测网络模型
针对训练样本,使用具有动量的随机梯度下降算法对多语言文字检测网络进行训练,当代价函数最小时,此时网络模型参数即为最终参数;
步骤5:文字提取
将待检测图像输入训练完成的多语言文字检测网络模型,先得到预测图,在预测图中待检测图像中每个像素被预测为文字、边界、非文字三类;再对预测图采用基于广度优先搜索算法将边界像素与文字区域像素融合,最终得到提取的文字区域。
2.如权利要求1所述的一种基于边界预测的自然场景多语言文字检测方法,其特征在于,所述特征融合用于融合不同分辨率特征,给定输入特征层为X1,X2,…,Xn,融合后输出特征层为Y1,Y2,…,Yn,n表示特征层总数,同一特征层的输入与输出保持相同的分辨率和通道数,特征融合后的输出为:
Figure FDA0003505972560000031
Figure FDA0003505972560000032
其中i表示特征层序号,k表示融合后输出的特征层序号,k=1,2,...,n,DownSample(Xi)和UpSample(Xi)分别为对特征进行下采样和上采样;上采样采用最近邻插值法,下采样根据特征层分辨率相差的倍数使用|i-k|次步长为2的3×3卷积操作。
3.如权利要求1所述的一种基于边界预测的自然场景多语言文字检测方法,其特征在于,步骤2中的r设置为0.1,A设置为20。
CN202010636379.0A 2020-07-04 2020-07-04 一种基于边界预测的自然场景多语言文字检测方法 Active CN111898608B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010636379.0A CN111898608B (zh) 2020-07-04 2020-07-04 一种基于边界预测的自然场景多语言文字检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010636379.0A CN111898608B (zh) 2020-07-04 2020-07-04 一种基于边界预测的自然场景多语言文字检测方法

Publications (2)

Publication Number Publication Date
CN111898608A CN111898608A (zh) 2020-11-06
CN111898608B true CN111898608B (zh) 2022-04-26

Family

ID=73192945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010636379.0A Active CN111898608B (zh) 2020-07-04 2020-07-04 一种基于边界预测的自然场景多语言文字检测方法

Country Status (1)

Country Link
CN (1) CN111898608B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861860B (zh) * 2021-03-11 2024-04-19 南京大学 一种基于上下边界提取的自然场景下文字检测方法
CN113128614B (zh) * 2021-04-29 2023-06-16 西安微电子技术研究所 基于图像梯度的卷积方法、基于方向卷积的神经网络及分类方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101719144B (zh) * 2009-11-04 2013-04-24 中国科学院声学研究所 一种联合字幕和视频图像信息进行场景分割和索引的方法
US10210418B2 (en) * 2016-07-25 2019-02-19 Mitsubishi Electric Research Laboratories, Inc. Object detection system and object detection method
CN109003282B (zh) * 2018-07-27 2022-04-29 京东方科技集团股份有限公司 一种图像处理的方法、装置及计算机存储介质
CN109165697B (zh) * 2018-10-12 2021-11-30 福州大学 一种基于注意力机制卷积神经网络的自然场景文字检测方法
CN109447254B (zh) * 2018-11-01 2021-03-16 浪潮集团有限公司 一种卷积神经网络推理硬件加速方法及其装置
CN109299274B (zh) * 2018-11-07 2021-12-17 南京大学 一种基于全卷积神经网络的自然场景文本检测方法
CN109685055B (zh) * 2018-12-26 2021-11-12 北京金山数字娱乐科技有限公司 一种图像中文本区域的检测方法及装置
CN109919025A (zh) * 2019-01-30 2019-06-21 华南理工大学 基于深度学习的视频场景文本检测方法、系统、设备及介质
CN109977942B (zh) * 2019-02-02 2021-07-23 浙江工业大学 一种基于场景分类和超分辨率的场景文字识别方法
CN109902693A (zh) * 2019-02-16 2019-06-18 太原理工大学 一种基于多注意力空间金字塔特征图像识别方法
CN109903228B (zh) * 2019-02-28 2023-03-24 合肥工业大学 一种基于卷积神经网络的图像超分辨率重建方法
CN110032998B (zh) * 2019-03-18 2021-03-23 华南师范大学 自然场景图片的文字检测方法、系统、装置和存储介质
CN110399798B (zh) * 2019-06-25 2021-07-20 朱跃飞 一种基于深度学习的离散图片文件信息提取系统及方法
CN110322495B (zh) * 2019-06-27 2021-11-02 电子科技大学 一种基于弱监督深度学习的场景文本分割方法
CN110287960B (zh) * 2019-07-02 2021-12-10 中国科学院信息工程研究所 自然场景图像中曲线文字的检测识别方法
CN110349164A (zh) * 2019-07-19 2019-10-18 北京华捷艾米科技有限公司 一种图像语义分割方法、装置及终端设备
CN110633709B (zh) * 2019-08-12 2023-04-07 特斯联(北京)科技有限公司 一种基于残差网络的特征图处理方法
CN111046964B (zh) * 2019-12-18 2021-01-26 电子科技大学 一种基于卷积神经网络的人和车辆红外热图像识别方法
CN111178510A (zh) * 2019-12-30 2020-05-19 杭州电子科技大学 基于卷积神经网络的自适应分组卷积模块设计方法

Also Published As

Publication number Publication date
CN111898608A (zh) 2020-11-06

Similar Documents

Publication Publication Date Title
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
WO2019192397A1 (zh) 一种任意形状的场景文本端到端识别方法
CN109741331B (zh) 一种图像前景物体分割方法
CN111612008B (zh) 基于卷积网络的图像分割方法
CN107133622B (zh) 一种单词的分割方法和装置
CN110852368A (zh) 全局与局部特征嵌入及图文融合的情感分析方法与系统
CN111488826A (zh) 一种文本识别方法、装置、电子设备和存储介质
CN110263786B (zh) 一种基于特征维度融合的道路多目标识别系统及方法
CN111950453A (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN110766020A (zh) 一种面向多语种自然场景文本检测与识别的系统及方法
CN115131797B (zh) 一种基于特征增强金字塔网络的场景文本检测方法
CN111860683B (zh) 一种基于特征融合的目标检测方法
CN111898608B (zh) 一种基于边界预测的自然场景多语言文字检测方法
CN111353544A (zh) 一种基于改进的Mixed Pooling-YOLOV3目标检测方法
CN114048822A (zh) 一种图像的注意力机制特征融合分割方法
CN113850324B (zh) 一种基于Yolov4的多光谱目标检测方法
CN111553351A (zh) 一种基于语义分割的场景任意形状的文本检测方法
CN112541491A (zh) 基于图像字符区域感知的端到端文本检测及识别方法
Arya et al. Object detection using deep learning: a review
CN111476133A (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
CN112070040A (zh) 一种用于视频字幕的文本行检测方法
CN111401368B (zh) 一种基于深度学习的新闻视频标题提取方法
CN113903022A (zh) 基于特征金字塔与注意力融合的文本检测方法及系统
CN113591719A (zh) 一种自然场景任意形状文本检测方法、装置和训练方法
CN116129291A (zh) 一种面向无人机畜牧的图像目标识别方法及其装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant