CN113159020A - 基于核尺度扩张的文本检测方法 - Google Patents

基于核尺度扩张的文本检测方法 Download PDF

Info

Publication number
CN113159020A
CN113159020A CN202110262362.8A CN202110262362A CN113159020A CN 113159020 A CN113159020 A CN 113159020A CN 202110262362 A CN202110262362 A CN 202110262362A CN 113159020 A CN113159020 A CN 113159020A
Authority
CN
China
Prior art keywords
text
features
kernel
size
central
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110262362.8A
Other languages
English (en)
Other versions
CN113159020B (zh
Inventor
刘义江
陈蕾
侯栋梁
池建昆
范辉
阎鹏飞
魏明磊
李云超
姜琳琳
辛锐
陈曦
杨青
沈静文
吴彦巧
姜敬
檀小亚
师孜晗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiongan New Area Power Supply Company State Grid Hebei Electric Power Co
State Grid Hebei Electric Power Co Ltd
Original Assignee
Xiongan New Area Power Supply Company State Grid Hebei Electric Power Co
State Grid Hebei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiongan New Area Power Supply Company State Grid Hebei Electric Power Co, State Grid Hebei Electric Power Co Ltd filed Critical Xiongan New Area Power Supply Company State Grid Hebei Electric Power Co
Priority to CN202110262362.8A priority Critical patent/CN113159020B/zh
Publication of CN113159020A publication Critical patent/CN113159020A/zh
Application granted granted Critical
Publication of CN113159020B publication Critical patent/CN113159020B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于核尺度扩张的文本检测方法,涉及文本检测技术领域,尤其是一种文本检测方法,包括如下步骤:通过ResNet18网络对图片提取特征;通过FPN网络对所述ResNet18网络提取的所述特征提取深层语义信息并将提取的所述深层语义信息以及提取的所述特征进行融合产生融合特征;对所述融合特征提取不同尺度的文本中心核以及提取全局特征;利用区域权重算法对所述不同尺度的文本中心核以及所述全局特征进行区域融合得到最终的检测结果。本发明主要针对自然场景下中的复杂文本内容进行检测。通过基于分割的思想对文本预测多种核来避免常见的粘连问题,同时全局特征的使用进一步修正来生成的区域。该方法能够有效的解决复杂环境下的文本检测问题。

Description

基于核尺度扩张的文本检测方法
技术领域
本发明涉及文本检测技术领域,尤其是一种基于核尺度扩张的文本检测方法。
背景技术
文本检测作为计算机视觉的一个子任务,在自动驾驶、古籍恢复、图片检索等领域均有着广泛的应用场景,近年来也吸引了大量研究人员的兴趣。随着深度学习的发展,文本检测领域已经取得了极大的进展,在传统的印刷/扫描字体上达到了较好的效果。然而发展至今,文本检测面临的更多的是自然场景下的文本检测问题。其检测环境更加复杂,如低光照、反射光、背景多变,检测的内容也多变,如透视字体、艺术字体、弯曲文本等。
现有的文本检测方法主要分为传统方法以及基于深度学习等方法。传统方法主要是借助笔画信息、直方图等方法提取特征,或利用手工设计的特征输入到系统中进行检测,传统的方法处理过程复杂且精度不高。基于深度学习的方法直接将图片输入到神经网络得到最终检测结果。基于深度学习的方法可以进一步分为基于回归的方法和基于分割的方法。基于回归的方法处理速度较快,通过边界点可以快速得到检测结果,但是对于弯曲文本等较为复杂的文本效果较差,无法很好的回归边界。基于分割的方法能够检测任意形状的文本,但是无法很好的分离边界很接近的文本,且后处理操作通常比较花费时间。本专利主要用于解决自然场景下的文本检测问题。
发明内容:
本发明提供了一种基于核尺度扩张的文本检测方法,用于解决现有技术中自然场景下文本检测变形字体效果差或后处理操作比较花费时间的问题。
本发明采用如下技术方案:
本发明的技术方案主要模块包括如下:该系统包括三个部分,第一部分是基于resnet18的图片特征提取模块;第二部分采用FPN进行不同尺度的信息融合;第三部分包含两个分支,基于融合的特征产生分别产生三种文本中心核并提取全局特征,最后利用本文提出区域权重算法优化边界,得到最终检测结果。在第一部分中,基于对速度的考量,我们使用了ResNet18作为骨干网络进行特征提取,并去掉了最后的池化层和全连接层。第二部分中,我们借助于特征金字塔模块的思想构建了类似FPN的结构来进行语义信息增强,对第一部分中ResNet18得到的多种不同尺度特征进行融合。在第三部分中,利用两个分支产生不同的输出:第一个分支利用卷积网络生成待预测文本内容的三种尺度的中心核,用以生成检测内容;第二个分支提取文本全局特征,用来修正文本边界,最后利用区域权重算法将由多种中心核得到的检测区域合成最终的检测结果。
一种基于核尺度扩张的文本检测方法,包括如下步骤:
S100:通过ResNet18网络对图片提取特征;
S200:通过FPN网络对所述ResNet18网络提取的所述特征提取深层语义信息,并将提取的所述深层语义信息以及提取的所述特征进行融合产生融合特征;
S300:对所述融合特征提取不同尺度的文本中心核以及提取全局特征;
S400:利用区域权重算法对所述不同尺度的文本中心核以及所述全局特征进行区域融合,得到最终的检测结果。
进一步地,所述ResNet18网络为去掉最后的池化层和全连接层的神经网络。
进一步地,还包括如下步骤:S210:对于所述融合特征,利用1x1的卷积核对所述融合特征进行降维处理。
进一步地,所述不同尺度的文本中心核部分包括三种尺寸的核。
进一步地,利用Vatti算法对所述融合特征计算出文本区域缩小后的中心区域作为最大尺寸的文本中心核,所述最大尺寸的文本中心核主要用来定位文本。
进一步地,利用Vatti算法对所述最大尺寸的文本中心核进一步缩小文本区域,获得中等尺寸的文本核,所述中等尺寸的文本核主要用于剔除待检测文本内容中冗余背景信息。
进一步地,最小尺寸的文本核计算方式为:先找到文本区域标注的左上、右上、右下以及左下四个点;之后分别对上边界和下边界做七等分采样得到六个采样点;再利用上下边界的八对边界点分别计算出对应的中心点坐标;最后将中心点坐标沿竖直方向分别上下移动一个像素得到扩展后的的坐标,该十六个坐标的表示的区域即为所述最小尺寸的中心核区域,所述最小尺寸的文本核为文本的中心像素点所构成的区域,用于避免粘连问题以及区分开文本内部的文本。
进一步地,区域权重算法如下:首先生成一张与原图大小相同的像素值全0的空白图F;其次利用Vatti算法对所述最大尺寸的文本中心核进行外扩,在图F的对应位置标记为1;之后对所述中等尺寸的文本中心核外扩,若存在像素值为0的像素点则设置为第一权重值;再对所述最小尺寸中心核区域向周围遍历像素点,若进入另外一个所述最小尺寸中心核区域内,则证明出现了粘连问题,计算两个中心核的中心区域设置为0以区分不同文本;之后利用提取的全局特征遍历整张图,若在所述全局特征区域外存在像素值不为0的像素点则标记第二权重值;最后对该图做二值化,并利用opencv获取最终检测区域。
进一步地,所述第一权重值为0.7。
进一步地,所述第二权重值为0.3。
该文本检测方法包含以下主要步骤:
(1)输入图片后先经过ResNet18提取特征。其中,ResNet18最后的池化层和全连接层被去掉,只使用前五个block。
(2)由于ResNet18只能提取到图片的空间特征,而仅使用空间特征来进行检测是不够的,因此需要将ResNet18提取的特征进一步输入到FPN网络中,FPN网络可以用来提取深层语义信息,将FPN提取的语义信息与ResNet18提取的空间特征信息融合后得到不同图片不同尺度下的特征,能够使得在预测不同尺度的文字时更加的更具有鲁棒性。对于融合后的特征,利用1x1的卷积核进行卷积操作,对特征进行降维处理来减少运算时的参数。
(3)经过FPN得到的融合特征被用来产生不同尺度的文本中心核以及提取全局特征。文本中心核部分包含了三种尺寸的核。最大的文本中心核是依据Vatti算法,根据文本区域的面积核周长缩小后的核,主要用来定位文本;中等尺寸的文本核,是在最大文本核的基础上缩小为二分之一,主要用来剔除待检测文本内容中冗余背景信息;最小尺寸的文本核为文本的中心像素点所构成的区域,用来避免粘连问题以及区分开文本内部的文本。生成的文本核最终外扩形成检测区域,然而在实践过程中发现,直接外扩形成的边界区域是存在缺陷的,因此本方法中还利用全局特征来修正边缘区域。
(4)得到全局特征以及三种尺度的文本中心核后,利用本文提出的区域权重算法进行区域融合,得到最终的检测结果。区域权重算法如下:首先生成一张与原图大小相同的像素值全0的空白图F;其次利用Vatti算法对最大的文本中心核进行外扩,在图F的对应位置标记为1;之后对中等尺寸的文本中心核外扩,若存在像素值为0的像素点则设置为0.7;再对最小中心核区域向周围遍历像素点,若进入另外一个最小中心核区域内,则证明出现了粘连问题,计算两个中心核的中心区域设置为0以区分不同文本;之后利用提取的全局特征遍历整张图,若在全局特征区域外存在像素值不为0的像素点则标记0.3;最后对该图做二值化,并利用opencv获取最终检测区域。
本发明的积极效果如下:
一种基于核尺度扩张的文本检测方法,包括如下步骤:
S100:通过ResNet18网络对图片提取特征;
S200:通过FPN网络对所述ResNet18网络提取的所述特征提取深层语义信息,并将提取的所述深层语义信息以及提取的所述特征进行融合产生融合特征;
S300:对所述融合特征提取不同尺度的文本中心核以及提取全局特征;
S400:利用区域权重算法对所述不同尺度的文本中心核以及所述全局特征进行区域融合,得到最终的检测结果。
本发明主要针对自然场景下中的复杂文本内容进行检测。通过基于分割的思想对文本预测多种核来避免常见的粘连问题,同时全局特征的使用进一步修正来生成的区域。该方法能够有效的解决复杂环境下的文本检测问题。
附图说明
图1为本发明实施方式神经网络模型结构图;
图2为本发明实施方式中心核预测分支及全局特征提取分支图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅用以解释本发明,并不用于限定本发明。
如图1-2所示,本发明提供了一种基于核尺度扩张的文本检测方法,用于解决现有技术中自然场景下文本检测变形字体效果差或后处理操作比较花费时间的问题。
本发明采用如下技术方案:
本发明的技术方案主要模块包括如下:该系统包括三个部分,第一部分是基于resnet18的图片特征提取模块;第二部分采用FPN进行不同尺度的信息融合;第三部分包含两个分支,基于融合的特征产生分别产生三种文本中心核并提取全局特征,最后利用本文提出区域权重算法优化边界,得到最终检测结果。在第一部分中,基于对速度的考量,我们使用了ResNet18作为骨干网络进行特征提取,并去掉了最后的池化层和全连接层。第二部分中,我们借助于特征金字塔模块的思想构建了类似FPN的结构来进行语义信息增强,对第一部分中ResNet18得到的多种不同尺度特征进行融合。在第三部分中,利用两个分支产生不同的输出:第一个分支利用卷积网络生成待预测文本内容的三种尺度的中心核,用以生成检测内容;第二个分支提取文本全局特征,用来修正文本边界,最后利用区域权重算法将由多种中心核得到的检测区域合成最终的检测结果。
一种基于核尺度扩张的文本检测方法,包括如下步骤:
S100:通过ResNet18网络对图片提取特征;
S200:通过FPN网络对所述ResNet18网络提取的所述特征提取深层语义信息,并将提取的所述深层语义信息以及提取的所述特征进行融合产生融合特征;
S300:对所述融合特征提取不同尺度的文本中心核以及提取全局特征;
S400:利用区域权重算法对所述不同尺度的文本中心核以及所述全局特征进行区域融合,得到最终的检测结果。
进一步地,所述ResNet18网络为去掉最后的池化层和全连接层的神经网络。
进一步地,还包括如下步骤:S210:对于所述融合特征,利用1x1的卷积核对所述融合特征进行降维处理。
进一步地,所述不同尺度的文本中心核部分包括三种尺寸的核。
进一步地,利用Vatti算法对所述融合特征计算出文本区域缩小后的中心区域作为最大尺寸的文本中心核,所述最大尺寸的文本中心核主要用来定位文本。
进一步地,利用Vatti算法对所述最大尺寸的文本中心核进一步缩小文本区域,获得中等尺寸的文本核,所述中等尺寸的文本核主要用于剔除待检测文本内容中冗余背景信息。
进一步地,最小尺寸的文本核计算方式为:先找到文本区域标注的左上、右上、右下以及左下四个点;之后分别对上边界和下边界做七等分采样得到六个采样点;再利用上下边界的八对边界点分别计算出对应的中心点坐标;最后将中心点坐标沿竖直方向分别上下移动一个像素得到扩展后的的坐标,该十六个坐标的表示的区域即为所述最小尺寸的中心核区域,所述最小尺寸的文本核为文本的中心像素点所构成的区域,用于避免粘连问题以及区分开文本内部的文本。
进一步地,区域权重算法如下:首先生成一张与原图大小相同的像素值全0的空白图F;其次利用Vatti算法对所述最大尺寸的文本中心核进行外扩,在图F的对应位置标记为1;之后对所述中等尺寸的文本中心核外扩,若存在像素值为0的像素点则设置为第一权重值;再对所述最小尺寸中心核区域向周围遍历像素点,若进入另外一个所述最小尺寸中心核区域内,则证明出现了粘连问题,计算两个中心核的中心区域设置为0以区分不同文本;之后利用提取的全局特征遍历整张图,若在所述全局特征区域外存在像素值不为0的像素点则标记第二权重值;最后对该图做二值化,并利用opencv获取最终检测区域。
进一步地,所述第一权重值为0.7。
进一步地,所述第二权重值为0.3。
该文本检测方法包含以下主要步骤:
(1)输入图片后先经过ResNet18提取特征。其中,ResNet18最后的池化层和全连接层被去掉,只使用前五个block。
(2)由于ResNet18只能提取到图片的空间特征,而仅使用空间特征来进行检测是不够的,因此需要将ResNet18提取的特征进一步输入到FPN网络中,FPN网络可以用来提取深层语义信息,将FPN提取的语义信息与ResNet18提取的空间特征信息融合后得到不同图片不同尺度下的特征,能够使得在预测不同尺度的文字时更加的更具有鲁棒性。对于融合后的特征,利用1x1的卷积核进行卷积操作,对特征进行降维处理来减少运算时的参数。
(3)经过FPN得到的融合特征被用来产生不同尺度的文本中心核以及提取全局特征。文本中心核部分包含了三种尺寸的核。最大的文本中心核是依据Vatti算法,根据文本区域的面积核周长缩小后的核,主要用来定位文本;中等尺寸的文本核,是在最大文本核的基础上缩小为二分之一,主要用来剔除待检测文本内容中冗余背景信息;最小尺寸的文本核为文本的中心像素点所构成的区域,用来避免粘连问题以及区分开文本内部的文本。生成的文本核最终外扩形成检测区域,然而在实践过程中发现,直接外扩形成的边界区域是存在缺陷的,因此本方法中还利用全局特征来修正边缘区域。
(4)得到全局特征以及三种尺度的文本中心核后,利用本文提出的区域权重算法进行区域融合,得到最终的检测结果。区域权重算法如下:首先生成一张与原图大小相同的像素值全0的空白图F;其次利用Vatti算法对最大的文本中心核进行外扩,在图F的对应位置标记为1;之后对中等尺寸的文本中心核外扩,若存在像素值为0的像素点则设置为0.7;再对最小中心核区域向周围遍历像素点,若进入另外一个最小中心核区域内,则证明出现了粘连问题,计算两个中心核的中心区域设置为0以区分不同文本;之后利用提取的全局特征遍历整张图,若在全局特征区域外存在像素值不为0的像素点则标记0.3;最后对该图做二值化,并利用opencv获取最终检测区域。
下面是本发明的一个具体实施案例:
本发明提供了一个基于文本核尺度扩张的全局特征修正边缘的文本检测方法,具体过程如下:
(1)标签制作
文本中心核标签制作:
现有图片的标注只提供了文本边界的坐标点,一般为四个顶点(水平或垂直文本)或者十四个点(弯曲文本),因此需要先进行转换生成对应的标签。首先利用Vatti算法生成最大尺寸的文本中心核对应的标签,Vatti算法的公式如下:
Figure BDA0002969311770000061
其中A'表示所标注的文本区域的面积,L'为该文本区域的周长,r'是根据需求所设定的值,在本方法中设置为0.4。利用该公式可计算出文本区域缩小后的中心区域,可以作为最大尺寸的文本中心核的对应标签来定位文本。在此基础上继续利用Vatti算法缩小文本区域,本次r'设置为0.5,得到中等尺寸文本中心核对应的标签。最小尺寸的文本中心核的标签对应文本区域中心宽度为3的像素集合,其计算方式为:先找到文本区域标注的左上、右上、右下以及左下四个点;之后分别对上边界和下边界做七等分采样得到六个采样点;再利用上下边界的八对边界点分别计算出对应的中心点坐标;最后将中心点坐标沿竖直方向分别上下移动一个像素得到扩展后的的坐标,该十六个坐标的表示的区域即为最小尺寸的中心核区域。
全局特征标签制作:
全局特征用来描述整个文本的信息。先使用Vatti算法对标注区域进行缩放,r'设置为0.4,之后再利用Vatti算法对该区域扩大,r'设置为2,能够得到较为平整的文本区域信息。
(2)基于文本核尺度扩张的全局特征修正边缘的文本区域预测
图片被送入ResNet18后先进行特征提取,依次得到原图大小1/4,1/8,1/16和1/32大小的特征图,之后对每个特征图进行上采样,得到大小为1/16、1/8、1/4的包含语义信息的特征图,并与ResNet18的结果进行逐元素相加,之后,对不同层级的特征图做上采样操作到原图的1/4并进行拼接融合,最后利用1x1的卷积操作对不同通道上的特征的融合和降维。
融合后的特征先送入文本中心核分支预测三种尺寸的文本中心核,同时送入全局特征提取分支过去全局特征信息。该分支均由三层卷积层、池化层构成。其详细设置如图2所示。
得到文本中心核并提取到全局特征后即可按照本方法中提出的区域权重算法修正边缘得到最终的检测结果。
(3)模型训练
文本图片输入后先经过预处理,本方法采用的预处理操作有:随机旋转角度,将原图按比例缩小(扩大)至原图的0.5~2倍,统一随机裁剪为360×360大小,调整饱和度、对比度核色相。
预处理的图片随后送入网络经过特征提取、特征融合后在预测出对应的检测区域优化的目标函数为:
L=Lmax+Lmid+Lmin+λ×Lg (2)
L表示loss总和,其中Lmax表示最大尺寸文本中心核上的loss,Lmid表示中等尺寸文本中心核上的loss,Lmin表示最小尺寸文本中心核上的loss,Lg表示全局特征的损失。其中Lmax、Lmid和Lmin采用BCE损失函数,公式如下:
Figure BDA0002969311770000071
其中,Sl表示文本区域,本方法使用了OHEM来避免负样本过多。此外,yi表示真实值,xi表示预测值。
Lg采用来L1损失函数,公式如下:
Figure BDA0002969311770000081
本方法的优化器选用SGD来计算梯度并进行反向传播。训练的batch size设置为12,总共训练600个epoch。
(4)模型应用
在完成600个epoch的训练后选取其中损失函数值最小用于实际应用。在应用过程中不再需要对图片进行数据增强。将图片输入到模型后,最终可得到对应文本区域的边界预测坐标点。
本发明主要针对自然场景下中的复杂文本内容进行检测。通过基于分割的思想对文本预测多种核来避免常见的粘连问题,同时全局特征的使用进一步修正来生成的区域。该方法能够有效的解决复杂环境下的文本检测问题。
以上实施方式仅为本发明的优选实施例,而并非本发明可行实施的穷举。对于本领域一般技术人员而言,在不背离本发明原理和精神的前提下对其所做出的任何显而易见的改动,都应当被认为包含在本发明的权利要求保护范围之内。

Claims (10)

1.一种基于核尺度扩张的文本检测方法,其特征在于,包括如下步骤:
S100:通过ResNet18网络对图片提取特征;
S200:通过FPN网络对所述ResNet18网络提取的所述特征提取深层语义信息,并将提取的所述深层语义信息以及提取的所述特征进行融合产生融合特征;
S300:对所述融合特征提取不同尺度的文本中心核以及提取全局特征;
S400:利用区域权重算法对所述不同尺度的文本中心核以及所述全局特征进行区域融合,得到最终的检测结果。
2.根据权利要求1所述的基于核尺度扩张的文本检测方法,其特征在于,所述ResNet18网络为去掉最后的池化层和全连接层的神经网络。
3.根据权利要求2所述的基于核尺度扩张的文本检测方法,其特征在于,还包括如下步骤:S210:对于所述融合特征,利用1x1的卷积核对所述融合特征进行降维处理。
4.根据权利要求3所述的基于核尺度扩张的文本检测方法,其特征在于,所述不同尺度的文本中心核部分包括三种尺寸的核。
5.根据权利要求4所述的基于核尺度扩张的文本检测方法,其特征在于,利用Vatti算法对所述融合特征计算出文本区域缩小后的中心区域作为最大尺寸的文本中心核,所述最大尺寸的文本中心核用来定位文本。
6.根据权利要求5所述的基于核尺度扩张的文本检测方法,其特征在于,利用Vatti算法对所述最大尺寸的文本中心核进一步缩小文本区域,获得中等尺寸的文本核,所述中等尺寸的文本核用于剔除待检测文本内容中冗余背景信息。
7.根据权利要求6所述的基于核尺度扩张的文本检测方法,其特征在于,最小尺寸的文本核计算方式为:先找到文本区域标注的左上、右上、右下以及左下四个点;之后分别对上边界和下边界做七等分采样得到六个采样点;再利用上下边界的八对边界点分别计算出对应的中心点坐标;最后将中心点坐标沿竖直方向分别上下移动一个像素得到扩展后的的坐标,该十六个坐标的表示的区域即为所述最小尺寸的中心核区域,所述最小尺寸的文本核为文本的中心像素点所构成的区域,用于避免粘连问题以及区分开文本内部的文本。
8.根据权利要求7所述的基于核尺度扩张的文本检测方法,其特征在于,区域权重算法如下:首先生成一张与原图大小相同的像素值全0的空白图F;其次利用Vatti算法对所述最大尺寸的文本中心核进行外扩,在图F的对应位置标记为1;之后对所述中等尺寸的文本中心核外扩,若存在像素值为0的像素点则设置为第一权重值;再对所述最小尺寸中心核区域向周围遍历像素点,若进入另外一个所述最小尺寸中心核区域内,则证明出现了粘连问题,计算两个中心核的中心区域设置为0以区分不同文本;之后利用提取的全局特征遍历整张图,若在所述全局特征区域外存在像素值不为0的像素点则标记第二权重值;最后对该图做二值化,并利用opencv获取最终检测区域。
9.根据权利要求8所述的基于核尺度扩张的文本检测方法,其特征在于,所述第一权重值为0.7。
10.根据权利要求9所述的基于核尺度扩张的文本检测方法,其特征在于,所述第二权重值为0.3。
CN202110262362.8A 2021-03-10 2021-03-10 基于核尺度扩张的文本检测方法 Active CN113159020B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110262362.8A CN113159020B (zh) 2021-03-10 2021-03-10 基于核尺度扩张的文本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110262362.8A CN113159020B (zh) 2021-03-10 2021-03-10 基于核尺度扩张的文本检测方法

Publications (2)

Publication Number Publication Date
CN113159020A true CN113159020A (zh) 2021-07-23
CN113159020B CN113159020B (zh) 2023-06-06

Family

ID=76886727

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110262362.8A Active CN113159020B (zh) 2021-03-10 2021-03-10 基于核尺度扩张的文本检测方法

Country Status (1)

Country Link
CN (1) CN113159020B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008950A (zh) * 2019-03-13 2019-07-12 南京大学 一种对形状鲁棒的自然场景中文本检测的方法
CN110738207A (zh) * 2019-09-10 2020-01-31 西南交通大学 一种融合文字图像中文字区域边缘信息的文字检测方法
CN111461114A (zh) * 2020-03-03 2020-07-28 华南理工大学 一种基于分割的多尺度特征金字塔文本检测方法
CN111488826A (zh) * 2020-04-10 2020-08-04 腾讯科技(深圳)有限公司 一种文本识别方法、装置、电子设备和存储介质
CN111553351A (zh) * 2020-04-26 2020-08-18 佛山市南海区广工大数控装备协同创新研究院 一种基于语义分割的场景任意形状的文本检测方法
CN112016551A (zh) * 2020-10-23 2020-12-01 北京易真学思教育科技有限公司 文本检测方法、装置、电子设备及计算机存储介质
CN112183322A (zh) * 2020-09-27 2021-01-05 成都数之联科技有限公司 一种任意形状的文本检测和矫正方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008950A (zh) * 2019-03-13 2019-07-12 南京大学 一种对形状鲁棒的自然场景中文本检测的方法
CN110738207A (zh) * 2019-09-10 2020-01-31 西南交通大学 一种融合文字图像中文字区域边缘信息的文字检测方法
CN111461114A (zh) * 2020-03-03 2020-07-28 华南理工大学 一种基于分割的多尺度特征金字塔文本检测方法
CN111488826A (zh) * 2020-04-10 2020-08-04 腾讯科技(深圳)有限公司 一种文本识别方法、装置、电子设备和存储介质
CN111553351A (zh) * 2020-04-26 2020-08-18 佛山市南海区广工大数控装备协同创新研究院 一种基于语义分割的场景任意形状的文本检测方法
CN112183322A (zh) * 2020-09-27 2021-01-05 成都数之联科技有限公司 一种任意形状的文本检测和矫正方法
CN112016551A (zh) * 2020-10-23 2020-12-01 北京易真学思教育科技有限公司 文本检测方法、装置、电子设备及计算机存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MINGHUI LIAO等: ""Real-time Scene Text Detection with Differentiable Binarization"", 《ARXIV》 *
XIANG LI等: ""Shape robust text detection with progressive scale expansion network"", 《ARXIV》 *

Also Published As

Publication number Publication date
CN113159020B (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
CN111325203B (zh) 一种基于图像校正的美式车牌识别方法及系统
CN111640125B (zh) 基于Mask R-CNN的航拍图建筑物检测和分割方法及装置
CN110807422A (zh) 一种基于深度学习的自然场景文本检测方法
CN111950453A (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN110751154B (zh) 一种基于像素级分割的复杂环境多形状文本检测方法
CN113076871A (zh) 一种基于目标遮挡补偿的鱼群自动检测方法
CN115131797B (zh) 一种基于特征增强金字塔网络的场景文本检测方法
CN113486894B (zh) 一种卫星图像特征部件语义分割方法
CN115424017B (zh) 一种建筑物内外轮廓分割方法、装置及存储介质
CN113591719A (zh) 一种自然场景任意形状文本检测方法、装置和训练方法
CN116091946A (zh) 一种基于YOLOv5的无人机航拍图像目标检测方法
CN116342536A (zh) 基于轻量化模型的铝带材表面缺陷检测方法、系统及设备
CN116385374A (zh) 基于卷积神经网络的细胞计数方法
CN114882204A (zh) 船名自动识别方法
CN112257810B (zh) 一种基于改进FasterR-CNN的海底生物目标检测方法
Qin et al. Summary of scene text detection and recognition
CN116740572A (zh) 一种基于改进yolox的海上船舰目标检测方法和系统
CN116543391A (zh) 一种结合图像校正的文本数据采集系统及方法
CN110889418A (zh) 一种气体轮廓识别方法
CN113159020B (zh) 基于核尺度扩张的文本检测方法
Goud et al. Text localization and recognition from natural scene images using ai
CN114708591A (zh) 基于单字连接的文档图像中文字符检测方法
CN112926694A (zh) 基于改进的神经网络对图像中的猪只进行自动识别的方法
CN111666939B (zh) 基于边距约束的任意形状的场景文本检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant