CN110738207B - 一种融合文字图像中文字区域边缘信息的文字检测方法 - Google Patents

一种融合文字图像中文字区域边缘信息的文字检测方法 Download PDF

Info

Publication number
CN110738207B
CN110738207B CN201910855189.5A CN201910855189A CN110738207B CN 110738207 B CN110738207 B CN 110738207B CN 201910855189 A CN201910855189 A CN 201910855189A CN 110738207 B CN110738207 B CN 110738207B
Authority
CN
China
Prior art keywords
character
semantic
region
text
ftes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910855189.5A
Other languages
English (en)
Other versions
CN110738207A (zh
Inventor
彭博
高子平
李天瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Original Assignee
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University filed Critical Southwest Jiaotong University
Priority to CN201910855189.5A priority Critical patent/CN110738207B/zh
Publication of CN110738207A publication Critical patent/CN110738207A/zh
Application granted granted Critical
Publication of CN110738207B publication Critical patent/CN110738207B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image

Abstract

本发明公开了一种融合文字图像中文字区域边缘信息的文字检测方法(Fusing Text Edge Semantics,FTES)。该方法将一幅图像划分成文字区域、边缘区域和背景区域。FTES使用FTES‑Net语义分割网络对包含文字的图像多次进行迭代学习,学习完成的FTES‑Net语义分割网络把一幅输入图像映射到包含文字语义区域、边缘语义区域和背景语义区域的语义分割图。从语义分割图中提取文字语义区域分割图,通过连通区域分析和孔洞分析,删除文字语义区域分割图中面积较小的连通区域和孔洞区域,在对文字语义区域分割图进行图像扩张运算和轮廓检测,获取到文字边缘轮廓。与现有技术相比,提出了一种新图像文字检测方法可以检测图像中任意形状的文字区域。

Description

一种融合文字图像中文字区域边缘信息的文字检测方法
技术领域
本发明涉及自然场景图像文字检测技术领域,特别涉及一种融合文字图像中文字区域边缘信息的文字检测方法。
背景技术
图像文字可以反映出一幅图像的含义和内容。场景文本检测对于图像理解和检索具有重要价值。场景文本过程主要分为两部分:文本检测和文本识别。文本检测为定位文字区域在图像中的详细位置,文本识别为识别区域中为何种字符或文字。文本检测是场景文本处理的第一步,对文本识别的准确性至关重要。近年来,由于自然场景文本检测在互联网行业的成功应用,场景文本检测成为自动驾驶,场景理解和产品搜索的研究热点。
自然场景文本检测与传统的OCR不同,场景文本检测面临多张字体,字体大小不一和背景复杂等各种挑战。传统的文本检测方法通常需要结合候选区域生成和过滤,区域合并等一系列处理,这导致需要多个模块来协调工作,运行时间变长和优化困难。随着神经网络和语义分割的发展,大量优秀模型被应用到文本检测的领域。
场景文本检测可以分为两个分支。第一个分支是基于边框回归的方法。CTPN是一种使用Faster r-cnn改进后的文本检测方法,可以检测多个小型文本框然后合成文本区域,但仅可用于检测垂直和水平文本。RRPN在CTPN的基础上将文字区域旋转角度添加到标签信息中,可以检测旋转的四边形文字区域。Textboxes++删除了Textboxes的全连接层,整个网络结构只有卷积和池化操作,可以实现多尺度输入,检测不同大小的文字区域。Seglink使用SSD模型并整合了CTPN小型候选框方法,提出whthin-layer和cross-layer用于检测任意角度的四边形文本区域。EAST通过直接回归四边形文本框顶点在图像中的位置,消除了不必要的中间步骤(获得候选区域和文本分割),其精度更高、速度更快。CTPN、RRPN、Textboxes++和Seglink等方法都采用回归线性文本坐标点来定位文本区域。然而,对于任意形状的非线性文本区域,这些方法难以获得较好的性能。
文本检测另一个分支是语义分割,这是近年来流行的一种方案。文字/非文字区域被分成不同类别的语义区域。但对于一些文字区域密集的文字图像,通过对文字区域、背景区域进行二分类语义处理会出现文字区域非常靠近、乃至重叠的情况。在这种情况下,文字/非文字区域分割将非常困难,有时甚至不可能执行语义分割。因此,解决文字区域邻近或重叠问题对文字检测非常重要。Mask textspotter是一个基于Mask r-cnn的文本字符实例分割方法,但在一幅图像中文本区域的数量是不确定的,并且难以表示具有不同实例的不同区域。PSENet预测了多个不同大小的分割结果,然后使用小分割语义图扩展与大分割语义图合并,最终产生与真实文本区域相同大小的分割语义图。
为更好地解决文本检测中文本区域的邻近和重叠问题,本发明采用一种融合文本边缘语义方法(Fusing Text Edge Semantics,FTES),将图像中所有文字区域添加了轮廓框,把一幅图像划分为文本,边缘和背景三个语义区域,将文字区域检测转化为三分类的语义分割问题。首先使用FTES-Net语义分割网络提取语义分割图,然后从语义分割图中提取文字语义区域分割图,通过连通区域分析和孔洞分析,删除文字语义区域分割图中面积较小的连通区域和孔洞区域,在对文字语义区域分割图进行图像扩张运算和轮廓检测,提取文字边缘轮廓实现检测图像中任意形状的文字区域。
发明内容
为解决上述现有技术存在的问题,本发明的目的在于提供一种融合文字图像中文字区域边缘信息的文字检测方法(Fusing Text Edge Semantics);
本发明的技术方案是:一种融合文字图像中文字区域边缘信息的文字检测方法(Fusing Text Edge Semantics,FTES),使用FTES-Net语义分割网络对包含文字的图像多次进行迭代学习,学习完成的FTES-Net语义分割网络把一幅输入图像映射到包含文字语义区域、边缘语义区域和背景语义区域的语义分割图,从语义分割图中提取文字语义区域分割图,通过连通区域分析和孔洞分析,删除文字语义区域中面积小于正常文字区域面积的连通区域和孔洞区域,在对文字语义区域分割图进行图像扩张运算和轮廓检测,提取文字边缘轮廓实现检测图像中任意形状的文字区域;包含以下主要步骤:
步骤1:数据标注与数据增强;
步骤2:训练FTES-Net语义分割网络;
步骤3:获取文字轮廓;
优选的,所述步骤1包括:
步骤1.1建立模型数据集:将采集到的文字图像构成原始数据集,对原始数据集图像中文字区域进行坐标点标注,通过逐次连接标注的坐标点构成文字区域轮廓框,轮廓框宽度根据文字区域面积动态设置,轮廓框内部区域标注为文字区域,轮廓框外部区域标注为背景区域,重新标注后的数据构成目标数据;
步骤1.2图像数据增强(Image data augmentation):对步骤1.1中原始数据集和目标数据集进行相同的随机翻转变换、随机裁剪、和随机缩放变换,分别获得模型训练数据集和模型目标数据集;
所述步骤2包括:
步骤2.1模型参数配置:在步骤1.2中获得模型训练数据集的总量为S;模型过程设置N个epochs,即模型迭代训练N次,设置每一个epoch的batch-size值为1,即在每次迭代训练过程中需要进行训练S次,每次1幅图像参与训练,模型训练使用Adam损失函数作为损失优化函数;
步骤2.2训练FTES-Net网络:将步骤1.2中模型训练数据集逐次输入给FTES-Net语义分割网络,FTES-Net网络经过前向传播生成包含文字语义区域、边缘语义区域和背景语义区域的语义分割图,计算语义分割图与步骤1.2中模型目标数据集中对应标注图像的损失,损失函数采用多分类交叉熵损失函数和Dice损失函数按重要性进行权重分配后相加,以最小化损失函数为目的采用梯度下降方法进行反向传播更新FTES-Net网络参数;
步骤2.3迭代训练:重复步骤2.2,当所有的epochs迭代训练完后保存FTES-Net模型和模型参数信息;
所述步骤3包括:
步骤3.1获取语义分割图:加载步骤2.3保存的FTES-Net模型和模型参数信息,将需要检测的文字图像输入到FTES-Net模型,生成对应的语义分割图;
步骤3.2噪声去除:提取步骤3.1语义分割图中的文字语义区域,通过连通区域分析和孔洞分析,删除文字语义区域中面积小于正常文字区域面积的连通区域和孔洞区域,生成新的文字语义区域分割图;
步骤3.3提取文字轮廓框:对步骤3.2中的文字语义区域分割图进行图像扩张操作,然后通过轮廓检测生成文字轮廓曲线框,对文字轮廓曲线框进行平滑处理生成最终文字轮廓框。
优选的,所述步骤2中步骤2.2多分类交叉熵损失函数为:
Figure GDA0002303895850000041
其中,lc为交叉熵损失,N为语义区域类别数量,C为像素总数,Xi为像素类别预测概率值。所述Dice损失函数为:
Figure GDA0002303895850000042
其中,ltext,ledge,lbackground分别为文字、边缘和背景语义区域的损失,R为真实文字区域,
Figure GDA0002303895850000043
为FTES-Net预测输出的文字区域。yt和yp真实概率和预测概率。
优选的,融合多分类交叉熵损失函数和Dice损失函数后为:
l=lc+λltext+μledge+vlbackground
λ,μ,ν为权重系数,分别为2,5,1。以最小化损失函数l为目的采用梯度下降方法进行反向传播更新FTES-Net网络参数。
优选的,所述步骤1.2中原始数据集和目标数据集随机裁剪的裁剪面积比例不超过原始图片大小10%,所述随机缩放后图像的长和宽为16的整倍数。
相对于现有技术,本发明的有益效果为:
1、本发明的方法将一幅自然图像划分为文字区域、边缘区域和背景区域,通过边缘区域将文字区域和背景区域分割开,避免了直接分割文字区域和背景区域产生区域邻近和区域重叠问题。
2、FTES-Net网络为语义分割网络,可以检测弯曲、垂直和定向等任意形状的文字。
3、本发明提出的FTES文字检测方法可以扩展到PDF文字检测、车牌文字检测、广告牌文字检测等领域,其方法具有较好的泛化能力和鲁棒性。
附图说明
图1是图片文字区域检测工作流程图。
图2是FTES-Net语义分割网络结构图。FTES-Net语义分割网络由三个输入图像(Input image)编码层和预测图像(Predict image)解码层组成,在编码层与解码层路径采用了跨层连接(Cross-layer concatenate)组合成特征融合层。编码层与解码层路径各个模块中通过卷积操作(Convolution operation)提取图像信息,池化操作(Pooloperation)进行特征降维。
图3是FTES方法提出的文字图像标注方法。其中图(a)为标注好的语义分割图,白色为文字区域、黑色为背景区域、灰色为边缘区域。图(b)为文字区域被灰色轮廓框标记过的结果图像。
图4是一幅文字图像的中间过程处理结果图。其中(a)为由FTES-Net语义分割网络生成语义分割图。(b)为去除噪声以后的文字区域语义分割图。(c)为标注出检测轮廓的文字图像。
图5是FTES方法在Total-Text数据集测试图像中随机抽出的三幅测试图像。其中(a)列是由FTES-Net语义分割网络得到的语义分割图。(b)列是由经过去噪、提取文字区域轮廓框得到的文字区域轮廓图。(c)列是标准的文字区域轮廓图。
图6是FTES方法在CTW1500数据集测试图像中随机抽出的二幅测试图像。其中(a)列是由FTES-Net语义分割网络得到的语义分割图。(b)列是由经过去噪、提取文字区域轮廓框得到的文字区域轮廓图。(c)列是标准的文字区域轮廓图。
具体实施方式
下面结合附图和具体实施方式对本发明技术方案做进一步详细描述:
实施步骤如下所示:如图1-6所示,
步骤1、数据集预处理
步骤1.1建立模型数据集:将采集到的文字图像构成原始数据集,对原始数据集图像中文字区域进行坐标点标注,通过逐次连接标注的坐标点构成文字区域轮廓框,轮廓框宽度根据文字区域面积动态设置。轮廓框内部区域为标注为文字区域,轮廓框外部区域标注为背景区域,重新标注后的数据构成目标数据;
步骤1.2图像数据增强(Image data augmentation):对步骤1.1中原始数据集和目标数据集进行相同的随机翻转变换、随机裁剪(裁剪面积比例不超过原始图片大小10%)、和随机缩放变换(缩放后图像的长和宽为16的整倍数),分别获得模型训练数据集和模型目标数据集。
步骤2、训练FTES-Net语义分割网络
步骤2.1模型参数配置:在步骤1.2中获得模型训练数据集的总量为1255张;模型过程设置120个epochs,即模型迭代训练120次,设置每一个epoch的batch-size值为1,即在每次迭代训练过程中需要进行训练120次,每次1幅图像参与训练,模型训练使用Adam(学习率为10-4)损失函数作为损失优化函数;
步骤2.2训练FTES-Net网络:将步骤1.2中模型训练数据集逐次输入给FTES-Net语义分割网络,FTES-Net网络经过前向传播生成包含文字语义区域、边缘语义区域和背景语义区域的语义分割图,计算语义分割图与步骤1.2中模型目标数据集中的对应标注图像的损失,损失函数采用多分类交叉熵损失函数和Dice损失函数按重要性进行权重分配后相加。多分类交叉熵损失函数为:
Figure GDA0002303895850000061
其中,lc为交叉熵损失,N为语义区域类别数量,C为像素总数,Xi为像素类别预测概率值。
Dice损失函数为:
Figure GDA0002303895850000062
其中,ltext,ledge,lbackground分别为文字、边缘和背景语义区域的损失,R为真实文字区域,
Figure GDA0002303895850000063
为FTES-Net预测输出的文字区域。yt和yp真实概率和预测概率。
融合多分类交叉熵损失函数和Dice损失函数后为:
l=lc+λltext+μledge+vlbackground
λ,μ,ν为权重系数,分别为2,5,1,以最小化损失函数l为目的采用梯度下降方法进行反向传播更新FTES-Net网络参数。
步骤2.3迭代训练:重复步骤2.2,当所有的epochs迭代训练完后保存FTES-Net模型和模型参数信息;
步骤3、获取文字轮廓
步骤3.1获取语义分割图:加载步骤2.3保存的FTES-Net模型和模型参数信息,将需要检测的文字图像输入到FTES-Net模型,生成对应的语义分割图;
步骤3.2噪声去除:提取步骤3.1语义分割图中的文字语义区域,通过连通区域分析和孔洞分析,删除文字语义区域中面积小于300的连通区域和面积小于150的孔洞区域,生成新的文字语义区域分割图。
步骤3.3提取文字轮廓框:对步骤3.2中的文字语义区域分割图用3*3的卷积核(全部值为1)进行图像扩张操作,然后通过轮廓检测生成文字轮廓曲线框,对文字轮廓曲线框进行平滑处理生成最终文字轮廓框。
为验证本发明的有效性,本发明在两个不同的数据集上进行了测试评价,评价指标为查准率P(Precision)、查全率R(Recall)、F1-score,三个评价指标的取值范围为[0,1],计算公式如公式(6-8)。
Figure GDA0002303895850000071
Figure GDA0002303895850000072
Figure GDA0002303895850000073
其中TP、FN、FP分别对应为正确检测的文字区域、错误检测为背景的文字区域、错误检测为文字的区域。对于使用的两个数据集的详细信息如下表1。
表1两个文字图像数据集详细信息
Figure GDA0002303895850000074
A.Total-Text数据集
在Total-Text数据集上,本发明方法与Seglink、EAST、Textboxes、CENet、Masktextspotter、TextNet、Textsnake、PSENet八种方法做了测试比较,其实验的结果如表2所示:
表2不同方法下Total-Text数据集300幅测试图像的的P、R、F1-Score平均值PF1-score
Figure GDA0002303895850000075
Figure GDA0002303895850000081
表2是三个评价指标在Total-Text数据集300张测试集图片上的平均值,可以看出FTES相比于Seglink、EAST、Textboxes、CENet、Mask textspotter、TextNet获得了更高的查准率P和查全率R,在综合指标F1-score上取得了最好的结果。
B、CTW1500数据集
在CTW1500数据集上,本发明方法与Seglink、CTPN、EAST、DMPNet、CTD、
Textsnake、PSENet七种方法做了测试比较,其实验的结果如表3所示:
表3不同方法下CTW1500数据集500幅测试图像的P、R、F1-Score平均值PRF1-score
Figure GDA0002303895850000082
表3是三个评价指标在CTW1500数据集500张测试集图片上的平均值,FTES相比于Seglink、CTPN获得了更高的查准率P,相比于Seglink、CTPN、EAST、DMPNet、CTD获得了更高的查全率R,相比于Seglink、CTPN、EAST、DMPNet在综合指标F1-score上取得了最好的结果。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何不经过创造性劳动想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书所限定的保护范围为准。

Claims (4)

1.一种融合文字图像中文字区域边缘信息的文字检测方法(Fusing Text EdgeSemantics,FTES),其特征在于:使用FTES-Net语义分割网络对包含文字的图像多次进行迭代学习,学习完成的FTES-Net语义分割网络把一幅输入图像映射到包含文字语义区域、边缘语义区域和背景语义区域的语义分割图,从语义分割图中提取文字语义区域分割图,通过连通区域分析和孔洞分析,删除文字语义区域中面积小于正常文字区域面积的连通区域和孔洞区域,生成新的文字语义区域分割图,提取文字边缘轮廓实现检测图像中任意形状的文字区域;包含以下主要步骤:
步骤1:数据标注与数据增强;
步骤1包括:
步骤1.1建立模型数据集:将采集到的文字图像构成原始数据集,对原始数据集图像中文字区域进行坐标点标注,通过逐次连接标注的坐标点构成文字区域轮廓框,轮廓框宽度根据文字区域面积动态设置,轮廓框内部区域标注为文字区域,轮廓框外部区域标注为背景区域,重新标注后的数据构成目标数据;
步骤1.2图像数据增强(Image data augmentation):对步骤1.1中原始数据集和目标数据集进行相同的随机翻转变换、随机裁剪、和随机缩放变换,分别获得模型训练数据集和模型目标数据集;
步骤2:训练FTES-Net语义分割网络;
步骤2包括:
步骤2.1模型参数配置:在步骤1.2中获得模型训练数据集的总量为S;模型过程设置N个epochs,即模型迭代训练N次,设置每一个epoch的batch-size值为1,即在每次迭代训练过程中需要进行训练S次,每次1幅图像参与训练,模型训练使用Adam损失函数作为损失优化函数;
步骤2.2训练FTES-Net网络:将步骤1.2中模型训练数据集逐次输入给FTES-Net语义分割网络,FTES-Net网络经过前向传播生成包含文字语义区域、边缘语义区域和背景语义区域的语义分割图,计算语义分割图与步骤1.2中模型目标数据集中对应标注图像的损失,损失函数采用多分类交叉熵损失函数和Dice损失函数按重要性进行权重分配后相加,以最小化损失函数为目的采用梯度下降方法进行反向传播更新FTES-Net网络参数;
步骤2.3迭代训练:重复步骤2.2,当所有的epochs迭代训练完后保存FTES-Net模型和模型参数信息;
步骤3:获取文字轮廓;
步骤3包括:
步骤3.1获取语义分割图:加载步骤2.3保存的FTES-Net模型和模型参数信息,将需要检测的文字图像输入到FTES-Net模型,生成对应的语义分割图;
步骤3.2噪声去除:提取步骤3.1语义分割图中的文字语义区域,通过连通区域分析和孔洞分析,删除文字语义区域中面积小于正常文字区域面积的连通区域和孔洞区域,生成新的文字语义区域分割图;
步骤3.3提取文字轮廓框:对步骤3.2中的文字语义区域分割图进行图像扩张操作,然后通过轮廓检测生成文字轮廓曲线框,对文字轮廓曲线框进行平滑处理生成最终文字轮廓框。
2.根据权利里要求1所述的一种融合文字图像中文字区域边缘信息的文字检测方法(Fusing Text Edge Semantics,FTES),其特征在于:所述步骤2中步骤2.2多分类交叉熵损失函数为:
Figure FDA0002429272130000021
其中,lc为交叉熵损失,N为语义区域类别数量,C为像素总数,Xi为像素类别预测概率值,所述Dice损失函数为:
Figure FDA0002429272130000022
其中,ltext,ledge,lbackground分别为文字、边缘和背景语义区域的损失,R为真实文字区域,
Figure FDA0002429272130000023
为FTES-Net预测输出的文字区域,yt和yp真实概率和预测概率。
3.根据权利里要求1所述的一种融合文字图像中文字区域边缘信息的文字检测方法(Fusing Text Edge Semantics,FTES),其特征在于:融合多分类交叉熵损失函数和Dice损失函数后为:
Figure FDA0002429272130000024
λ,μ,ν为权重系数,分别为2,5,1,以最小化损失函数
Figure FDA0002429272130000031
为目的采用梯度下降方法进行反向传播更新FTES-Net网络参数。
4.根据权利里要求1所述的一种融合文字图像中文字区域边缘信息的文字检测方法(Fusing Text Edge Semantics,FTES),其特征在于:所述步骤1.2中原始数据集和目标数据集随机裁剪的裁剪面积比例不超过原始图片大小10%,所述随机缩放后图像的长和宽为16的整倍数。
CN201910855189.5A 2019-09-10 2019-09-10 一种融合文字图像中文字区域边缘信息的文字检测方法 Active CN110738207B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910855189.5A CN110738207B (zh) 2019-09-10 2019-09-10 一种融合文字图像中文字区域边缘信息的文字检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910855189.5A CN110738207B (zh) 2019-09-10 2019-09-10 一种融合文字图像中文字区域边缘信息的文字检测方法

Publications (2)

Publication Number Publication Date
CN110738207A CN110738207A (zh) 2020-01-31
CN110738207B true CN110738207B (zh) 2020-06-19

Family

ID=69267854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910855189.5A Active CN110738207B (zh) 2019-09-10 2019-09-10 一种融合文字图像中文字区域边缘信息的文字检测方法

Country Status (1)

Country Link
CN (1) CN110738207B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111275020A (zh) * 2020-03-12 2020-06-12 青梧桐有限责任公司 一种房间状态识别方法
CN111444903B (zh) * 2020-03-23 2022-12-09 西安交通大学 漫画气泡内文字定位方法、装置、设备及可读存储介质
CN112749690B (zh) * 2020-03-27 2023-09-12 腾讯科技(深圳)有限公司 一种文本检测方法、装置、电子设备和存储介质
CN111415364B (zh) * 2020-03-29 2024-01-23 中国科学院空天信息创新研究院 一种计算机视觉中图像分割样本的转换方法、系统及存储介质
CN111522951A (zh) * 2020-04-26 2020-08-11 成都思维世纪科技有限责任公司 一种基于图像识别的敏感数据识别与分类的技术方法
CN111626283B (zh) * 2020-05-20 2022-12-13 北京字节跳动网络技术有限公司 文字提取方法、装置和电子设备
CN111368848B (zh) * 2020-05-28 2020-08-21 北京同方软件有限公司 一种复杂场景下的文字检测方法
CN111680706B (zh) * 2020-06-17 2023-06-23 南开大学 一种基于编码和解码结构的双通道输出轮廓检测方法
CN112052853B (zh) * 2020-09-09 2024-02-02 国家气象信息中心 一种基于深度学习的手写气象档案资料的文本定位方法
CN112132884B (zh) * 2020-09-29 2023-05-05 中国海洋大学 基于平行激光和语义分割的海参长度测量方法及系统
CN112184585B (zh) * 2020-09-29 2024-03-29 中科方寸知微(南京)科技有限公司 一种基于语义边缘融合的图像补全方法及系统
CN112528997B (zh) * 2020-12-24 2022-04-19 西北民族大学 一种基于文本中心区域扩增的藏汉双语场景文本检测方法
CN112862089B (zh) * 2021-01-20 2023-05-23 清华大学深圳国际研究生院 一种具有可解释性的医学图像深度学习方法
CN112801911B (zh) * 2021-02-08 2024-03-26 苏州长嘴鱼软件有限公司 一种去除自然图像中文字类噪声的方法及装置、存储介质
CN113159020B (zh) * 2021-03-10 2023-06-06 国网河北省电力有限公司 基于核尺度扩张的文本检测方法
CN112861860B (zh) * 2021-03-11 2024-04-19 南京大学 一种基于上下边界提取的自然场景下文字检测方法
CN113033431B (zh) * 2021-03-30 2023-08-08 北京百度网讯科技有限公司 光学字符识别模型训练和识别方法、装置、设备及介质
CN113610764A (zh) * 2021-07-12 2021-11-05 深圳市银星智能科技股份有限公司 地毯识别方法、装置、智能设备及存储介质
CN113807351B (zh) * 2021-09-18 2024-01-16 京东鲲鹏(江苏)科技有限公司 一种场景文字检测方法和装置
TWI786946B (zh) * 2021-11-15 2022-12-11 國立雲林科技大學 金屬製品表面之文字辨識方法
CN114973248B (zh) * 2022-05-18 2023-03-24 慧之安信息技术股份有限公司 基于ocr识别的pdf识别方法
CN115482248B (zh) * 2022-09-22 2023-12-08 推想医疗科技股份有限公司 图像分割方法、装置、电子设备及存储介质
CN115564778B (zh) * 2022-12-06 2023-03-14 深圳思谋信息科技有限公司 缺陷的检测方法、装置、电子设备及计算机可读存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9082189B2 (en) * 2011-08-12 2015-07-14 Oracle International Corporation Automated bounding box generation within the boundaries of arbitrary shapes
CN103077388B (zh) * 2012-10-31 2016-01-20 浙江大学 面向便携式计算设备的快速文本扫读方法
CN105205488B (zh) * 2015-07-13 2018-07-24 西北工业大学 基于Harris角点和笔画宽度的文字区域检测方法
CN108549893B (zh) * 2018-04-04 2020-03-31 华中科技大学 一种任意形状的场景文本端到端识别方法
CN109165697B (zh) * 2018-10-12 2021-11-30 福州大学 一种基于注意力机制卷积神经网络的自然场景文字检测方法
CN110008950A (zh) * 2019-03-13 2019-07-12 南京大学 一种对形状鲁棒的自然场景中文本检测的方法

Also Published As

Publication number Publication date
CN110738207A (zh) 2020-01-31

Similar Documents

Publication Publication Date Title
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
Dvornik et al. On the importance of visual context for data augmentation in scene understanding
CN109190752B (zh) 基于深度学习的全局特征和局部特征的图像语义分割方法
CN110322495B (zh) 一种基于弱监督深度学习的场景文本分割方法
CN109960742B (zh) 局部信息的搜索方法及装置
KR101896357B1 (ko) 객체를 검출하는 방법, 디바이스 및 프로그램
RU2697649C1 (ru) Способы и системы сегментации документа
US20210209395A1 (en) Method, electronic device, and storage medium for recognizing license plate
CN107784288A (zh) 一种基于深度神经网络的迭代定位式人脸检测方法
CN109948533B (zh) 一种文本检测方法、装置、设备及可读存储介质
CN111523463B (zh) 基于匹配-回归网络的目标跟踪方法及训练方法
Zhu et al. Deep residual text detection network for scene text
US20190266443A1 (en) Text image processing using stroke-aware max-min pooling for ocr system employing artificial neural network
CN113239818B (zh) 基于分割和图卷积神经网络的表格跨模态信息提取方法
CN112101386B (zh) 文本检测方法、装置、计算机设备和存储介质
CN111507337A (zh) 基于混合神经网络的车牌识别方法
CN116311310A (zh) 一种结合语义分割和序列预测的通用表格识别方法和装置
CN114581710A (zh) 图像识别方法、装置、设备、可读存储介质及程序产品
CN116189162A (zh) 一种船牌检测与识别方法、装置、电子设备和储存介质
CN111951283A (zh) 一种基于深度学习的医学图像识别方法及系统
CN113537187A (zh) 文本识别方法、装置、电子设备及可读存储介质
CN112364709A (zh) 基于编码识别的机柜智能资产盘点方法
Zhu et al. Scene text relocation with guidance
CN109583584B (zh) 可使具有全连接层的cnn接受不定形状输入的方法及系统
CN117115824A (zh) 一种基于笔划区域分割策略的视觉文本检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant