CN112287931B - 一种场景文本检测方法及系统 - Google Patents
一种场景文本检测方法及系统 Download PDFInfo
- Publication number
- CN112287931B CN112287931B CN202011599888.7A CN202011599888A CN112287931B CN 112287931 B CN112287931 B CN 112287931B CN 202011599888 A CN202011599888 A CN 202011599888A CN 112287931 B CN112287931 B CN 112287931B
- Authority
- CN
- China
- Prior art keywords
- scene text
- pooling
- picture
- feature
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
- G06V30/18019—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
- G06V30/18038—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
- G06V30/18048—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
- G06V30/18057—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明属于机器视觉技术领域,提供了一种场景文本检测方法,包括步骤:S1、通过预设方式获取场景文本图片;S2、将获取的场景文本图片进行预处理;S3、将预处理后的场景文本图片通过场景文本检测的训练模型进行检测,并获得检测结果。本发明还提供了一种场景文本检测系统,本发明的优点在于采用富特征结构网络Res2NeXt代替原PSENet主干网络ResNet以提高网络特征提取能力,从而提高网络的文本检测精度;在主干网路中合适位置添加混合池化,利用其不同内核形状的池化操作来收集有用的上下文信息,同时捕获不同位置之间的长短距离之间的依赖关系从而进一步提高网络文本检测精度。
Description
技术领域
本发明涉及机器视觉技术领域,尤其涉及一种场景文本检测方法及系统。
背景技术
自然场景文本检测技术作为场景文本识别任务中的关键一环,其在计算机视觉应用场景中得到广泛的应用,如自动驾驶技术、无人超市和交通标志识别等。场景文本检测方法在各种文本系统中也发挥着重要的作用。然而,与一般目标检测相比,自然场景文本的检测更加复杂:(1)存在着字体、颜色、形状、方向和比例等各种文本变化的内部情况,使得算法无法进行精确的文本定位检测;(2)在自然场景中还存在光线照明程度不一和场景文本遮挡等外部实际情况,同样会使得自然场景文本检测具有很大的挑战性。
发明内容
本发明要解决的技术问题目的在于提供一种场景文本检测的模型训练方法及检测方法,用以解决原有网络结构检测不全面不精确的问题。
为了实现上述目的,本发明采用的技术方案为:
一种场景文本检测方法,包括步骤:
S1、通过预设方式获取场景文本图片;
S2、将获取的场景文本图片进行预处理;
S3、将预处理后的场景文本图片通过场景文本检测的的训练模型进行检测,并获得检测结果。
进一步的,步骤S3中获得训练模型的具体步骤为:
S31、通过预设方式获取场景文本图片,并建立数据集;
S32、将数据集中的场景文本图片进行处理;
S33、将预处理后的场景文本图片通过富特征结构网络Res2NeXt和混合池化进行训练,并得到训练模型。
进一步的,步骤S33的具体步骤为:
S331、从场景文本图片中获取多个单一层次的特征图;
S332、将多个单一层次的特征图分别通过混合池化获取特征图中不同类型的上下文信息以及不同位置之间的距离依赖关系;
S333、将混合池化后的特征图进行预设方式的融合得到不同层次的特征图;
S334、将不同层次的特征图合并得到融合特征图;
S335、将融合特征图通过渐进式尺度扩展算法得到预测场景文本图片;
S336、对得到的预测场景文本图片进行训练并得到训练模型。
进一步的,步骤S331具体过程为:
将场景文本图片按顺序通过第一卷积层和第二卷积层进行卷积后再进行相加,然后将其相加后的结果再通过第三卷积层卷积,将通过第三卷积层输出的结果与输入的图像进行相加得到第一层次特征图,将第一层次特征图重复经过上述过程,得到多个单一层次的特征图;
进一步的,步骤S332包括步骤:
S3321、将不同层次的特征图输入到混合池化模块中;
S3322、将输入的特征图分别进行带状池化和金字塔池化;
S3323、将分别经过带状池化和金字塔池化的特征图融合得到包含有不同类型的上下文信息以及不同位置之间的距离依赖关系的特征图。
一种场景文本检测系统,包括:
图片采集模块,通过预设方式获取场景文本图片;
图片预处理模块,将获取的场景文本图片进行预处理;
图片检测模块,将预处理后的场景文本图片通过场景文本检测的训练模型进行检测,并获得检测结果。
进一步的,图片检测模块包括:
图片获取与存储单元,通过预设方式获取场景文本图片,并建立数据集;
图片处理单元,将数据集中的场景文本图片进行处理;
训练单元,将处理后的场景文本图片通过富特征结构网络Res2NeXt和混合池化进行训练,并得到训练模型。
进一步的,图片训练单元包括:
特征图获取单元,用于从场景文本图片中获取多个单一层次的特征图;
混合池化单元,用于将多个单一层次的特征图分别通过混合池化单元获取特征图中不同类型的上下文信息以及不同位置之间的距离依赖关系;
融合单元,用于将混合池化后的特征图进行预设方式的融合得到不同层次的特征图;
特征图合并单元,将不同层次的特征图合并得到融合特征图;
图片文本预测单元,用于将融合特征图通过渐进式尺度扩展算法得到预测场景文本图片;
特征训练单元,用于通过对得到的预测场景文本图片进行训练并得到训练模型;
进一步的,混合池化单元包括:
特征图输入子单元,用于将不同层次的特征图输入到混合池化单元中;
池化子单元,用于将输入的特征图分别进行带状池化和金字塔池化;
池化融合子单元,用于将分别经过带状池化和金字塔池化的特征图融合得到包含有不同类型的上下文信息以及不同位置之间的距离依赖关系的特征图。
本发明与现有技术相比,至少包含以下有益效果:
(1)采用富特征结构网络Res2NeXt代替原PSENet主干网络ResNet以提高网络特征提取能力,从而提高网络的文本检测精度;
(2)在主干网路中合适位置添加混合池化,利用其不同内核形状的池化操作来收集有用的上下文信息,同时捕获不同位置之间的长短距离之间的依赖关系从而进一步提高网络文本检测精度。
附图说明
图1是本发明实施例一的总体流程图;
图2是本发明实施例一中步骤S3的流程图富;
图3是本发明实施例一中特征结构网络的架构示意图;
图4是本发明实施例一中步骤S331的示意图;
图5是本发明实施例一中步骤S332的流程图;
图6是本发明实施例一混合池化模块组成结构示意图;
图7是本发明实施例一混合池化模块的实验结果示意图;
图8 是本发明实施例二的总体流程图;
图9是本发明实施例二的实验结果示意图。
具体实施方式
以下是本发明的具体实施例,并结合附图对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
实施例一
如图1所示,本发明一种场景文本检测方法,包括步骤:
一种场景文本检测方法,其特征在于,包括步骤:
S1、通过预设方式获取场景文本图片;
S2、将获取的场景文本图片进行预处理;
S3、将预处理后的场景文本图片通过场景文本检测的的训练模型进行检测,并获得检测结果。
其中,如图2所示,步骤S3中获得训练模型的具体步骤为:
S31、通过预设方式获取场景文本图片,并建立数据集;
S32、将数据集中的场景文本图片进行处理;
S33、将预处理后的场景文本图片通过富特征结构网络Res2NeXt和混合池化进行训练,并得到训练模型。
进一步的,如图3所示,步骤S33的具体步骤为:
S331、从场景文本图片中获取多个单一层次的特征图;
S332、将多个单一层次的特征图分别通过混合池化模块获取特征图中不同类型的上下文信息以及不同位置之间的距离依赖关系;
S333、将混合池化后的特征图进行预设方式的融合得到不同层次的特征图;
S334、将不同层次的特征图合并得到融合特征图;
S335、将融合特征图通过渐进式尺度扩展算法得到预测场景文本图片;
S336、对得到的预测场景文本图片进行训练并得到训练模型。
如图4所示,步骤S331具体过程为将场景文本图片按顺序通过第一卷积层和第二卷积层进行卷积后再进行相加,然后将其相加后的结果再通过第三卷积层卷积,将通过第三卷积层输出的结果与输入的图像进行相加得到第一层次特征图,将第一层次特征图重复经过上述过程,得到多个单一层次的特征图;
ResNeXt是ResNet和Inception的结合体,它的本质是分组卷积,通过变量基数c来控制组的数量,即每个分支产生的特征图的通道数为n(我们令输入通道数为m,变量基数表示为c,则有m=n×c,n>1)。
在ResNeXt网络中的每一个残差模块中添加一个小的残差块,具体为采用更小的滤波器组替换ResNeXt网络中m个信道的滤波器,每个滤波器组都有n个信道(在不考虑损失通用性的情况下,我们令m=n×s)。同时将不同的滤波器组以残差的分层方式进行连接以获得更多的不同尺度特征信息,有效提高模型性能。
具体为经过卷积后,我们将特征映射平均分为s个特征映射子集,表示为xi,其中。每个特征子集的通道数等于输入特征映射的1/s,并且它们的空间大小相同。除x1外,每个都有一个对应的3×3卷积,用Ki()表示,我们令yi表示Ki()的输出。其中Ki()的输入为特征子集与Ki-1()的输出相加。省略处的3×3卷积是为了在增加s的同时减少参数。因此,yi可以写成:
在Res2Net module中,可以看到其进行了多尺度处理并将不同尺度信息通过卷积进行了融合,有效处理了特征信息,将Res2Net module运用在ResNeXt网络上,有利于全局和局部信息的提取,有效提高了网络的特征提取能力,从而提高了模型的文本检测精度。
进一步的,如图5所示,步骤S332包括步骤:
S3321、将不同层次的特征图输入到混合池化中;
S3322、将输入的特征图分别进行带状池化和金字塔池化;
S3323、将分别经过带状池化和金字塔池化的特征图融合得到包含有不同类型的上下文信息以及不同位置之间的距离依赖关系的特征图。
其中,如图6所示,带状池化的具体过程为输入一个大小C×H×W的特征图,然后将输入的特征图经过水平和竖直的带状池化后变为C×H×1和C×1×W的特征图,随后经过卷积核大小为3的1×1卷积并进行扩展后再进行对应相同位置求和,经过ReLu函数和卷积核大小为3的3×3卷积得到C×H×W的特征图。
金字塔池化的具体过程为输入一个大小C×H×W的特征图,经过金字塔池化后变为C×H×W、C×20×20以及C×12×12的特征图,随后经过卷积核大小为3的3×3卷积并进行扩展后再进行对应相同位置求和,经过ReLu函数和卷积核大小为3的3×3卷积得到C×H×W的特征图。
将通过带状池化得到的C×H×W的特征图和通过金字塔池化得到的C×H×W的特征图进行融合,并将融合后的特征图通过卷积核大小为1的1×1卷积后和输入的特征图通过ReLu函数融合后的到经过混合池化模块后包含有不同类型的上下文信息以及不同位置之间的距离依赖关系的特征图。
混合池化模块在带状池化的基础上组合了金字塔池化,其中图5下半部分为带状池化,它不同于全局平均池化,不需要考虑整个特征图范围,只需考虑长而窄的范围,避免了除远距离位置之间的其它连接。
因此,带状池化主要负责长距离依赖关系,而在图5的上半部分为金字塔池化,金字塔池化负责短依赖关系。
最终,混合池化通过使用不同的池化操作得到不同类型的上下文信息,同时捕捉不同位置之间的短距离和长距离依赖关系,使特征表示更具区分性,增强场景分析能力,进一步提高了网络的检测精度。
步骤S33中将混合池化后的特征图融合得到不同层次的特征图的具体过程为:如图2所示,首先对特征图P5进行上采样,使其能够与混合池化后的特征图Stage3进行融合,就能够得到特征图P4,然后按上述相同操作依次能够得到特征图P3和P2,因为特征图P2~P5之间的通道数不同,特征图P2~P5就是所需的不同层次的特征图。
将特征图P2~P5扩展到相同尺度进行合并就能得到融合后的特征图。
图7为混合池化和带状池化分别在主干网络上的性能比较,其中“SP”表示在Res2NeXt网络上添加带状池化,“MPM”表示在Res2NeXt网路上添加混合池化,从图中可以看出在主干网络中添加混合池化后各项网络性能指标都有所改进,表明了在主干网络中添加混合池化能够进一步提高网络的模型性能。
本发明采用富特征结构网络Res2NeXt代替原PSENet主干网络ResNet以提高网络特征提取能力,从而提高网络的文本检测精度。
并且在主干网路中合适位置添加混合池化,利用其不同内核形状的池化操作来收集有用的上下文信息,同时捕获不同位置之间的长短距离之间的依赖关系从而进一步提高网络文本检测精度。
实施例二
如图8所示,本发明一种场景文本检测系统,包括:
图片采集模块,通过预设方式获取场景文本图片;
图片预处理模块,将获取的场景文本图片进行预处理;
图片检测模块,将预处理后的场景文本图片通过场景文本检测的训练模型进行检测,并获得检测结果。
进一步的,图片检测模块包括:
图片获取与存储单元,通过预设方式获取场景文本图片,并建立数据集;
图片处理单元,将数据集中的场景文本图片进行处理;
训练单元,将处理后的场景文本图片通过富特征结构网络Res2NeXt和混合池化进行训练,并得到训练模型。
进一步的,图片训练单元包括:
特征图获取单元,用于从场景文本图片中获取多个单一层次的特征图;
混合池化单元,用于将多个单一层次的特征图分别通过混合池化单元获取特征图中不同类型的上下文信息以及不同位置之间的距离依赖关系;
融合单元,用于将混合池化后的特征图进行预设方式的融合得到不同层次的特征图;
特征图合并单元,将不同层次的特征图合并得到融合特征图;
图片文本预测单元,用于将融合特征图通过渐进式尺度扩展算法得到预测场景文本图片;
特征训练单元,用于通过对得到的预测场景文本图片进行训练并得到训练模型;
进一步的,混合池化单元包括:
特征图输入子单元,用于将不同层次的特征图输入到混合池化单元中;
池化子单元,用于将输入的特征图分别进行带状池化和金字塔池化;
池化融合子单元,用于将分别经过带状池化和金字塔池化的特征图融合得到包含有不同类型的上下文信息以及不同位置之间的距离依赖关系的特征图。
如图9所示,其中左侧一列展示的是图像原图,中间一列为原PSENet网络进行检测的结果,最右侧为本发明的检测结果。从图中可以看到,本发明相比于现有的PSENet网络的检测结果,在文本检测的精确度上更高。
本发明采用富特征结构网络Res2NeXt代替原PSENet主干网络ResNet以提高网络特征提取能力,从而提高网络的文本检测精度。
本发明在主干网路中合适位置添加混合池化,利用其不同内核形状的池化操作来收集有用的上下文信息,同时捕获不同位置之间的长短距离之间的依赖关系从而进一步提高网络文本检测精度。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (3)
1.一种场景文本检测方法,其特征在于,包括步骤:
S1、通过预设方式获取场景文本图片;
S2、将获取的场景文本图片进行预处理;
S3、将预处理后的场景文本图片通过场景文本检测的训练模型进行检测,并获得检测结果;
其中,步骤S3中获得训练模型的具体步骤为:
S31、通过预设方式获取场景文本图片,并建立数据集;
S32、将数据集中的场景文本图片进行预处理;
S33、将预处理后的场景文本图片通过富特征结构网络Res2NeXt和混合池化进行训练,并得到训练模型;
步骤S33的具体步骤为:
S331、从场景文本图片中获取多个单一层次的特征图;
S332、将多个单一层次的特征图分别通过混合池化获取特征图中不同类型的上下文信息以及不同位置之间的距离依赖关系;
S333、将混合池化后的特征图进行预设方式的融合得到不同层次的特征图;
S334、将不同层次的特征图合并得到融合特征图;
S335、将融合特征图通过渐进式尺度扩展算法得到预测场景文本图片;
S336、对得到的预测场景文本图片进行训练并得到训练模型;
步骤S332包括步骤:
S3321、将不同层次的特征图输入到混合池化中;
S3322、将输入的特征图分别进行带状池化和金字塔池化;
S3323、将分别经过带状池化和金字塔池化的特征图融合得到包含有不同类型的上下文信息以及不同位置之间的距离依赖关系的特征图。
2.根据权利要求1所述的一种场景文本检测方法,其特征在于,步骤S331具体过程为:
将场景文本图片按顺序通过第一卷积层和第二卷积层进行卷积后再进行相加,然后将其相加后的结果再通过第三卷积层卷积,将通过第三卷积层输出的结果与输入的场景文本图片进行相加得到第一层次特征图,将第一层次特征图重复经过上述过程,得到多个单一层次的特征图。
3.一种场景文本检测系统,其特征在于,包括:
图片采集模块,通过预设方式获取场景文本图片;
图片预处理模块,将获取的场景文本图片进行预处理;
图片检测模块,将预处理后的场景文本图片通过场景文本检测的训练模型进行检测,并获得检测结果;
其中,图片检测模块包括:
图片获取与存储单元,通过预设方式获取场景文本图片,并建立数据集;
图片处理单元,将数据集中的场景文本图片进行预处理;
训练单元,通过预处理后的场景文本图片对富特征结构网络Res2NeXt和混合池化进行训练,并得到训练模型;
具体的,图片训练单元包括:
特征图获取单元,用于从场景文本图片中获取多个单一层次的特征图;
混合池化单元,用于将多个单一层次的特征图分别通过混合池化单元获取特征图中不同类型的上下文信息以及不同位置之间的距离依赖关系;
融合单元,用于将混合池化后的特征图进行预设方式的融合得到不同层次的特征图;
特征图合并单元,将不同层次的特征图合并得到融合特征图;
图片文本预测单元,用于将融合特征图通过渐进式尺度扩展算法得到预测场景文本图片;
特征训练单元,用于通过对得到的预测场景文本图片进行训练并得到训练模型;
混合池化单元包括:
特征图输入子单元,用于将不同层次的特征图输入到混合池化单元中;
池化子单元,用于将输入的特征图分别进行带状池化和金字塔池化;
池化融合子单元,用于将分别经过带状池化和金字塔池化的特征图融合得到包含有不同类型的上下文信息以及不同位置之间的距离依赖关系的特征图。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011599888.7A CN112287931B (zh) | 2020-12-30 | 2020-12-30 | 一种场景文本检测方法及系统 |
US17/565,405 US11995901B2 (en) | 2020-12-30 | 2021-12-29 | Method and system for detecting scene text |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011599888.7A CN112287931B (zh) | 2020-12-30 | 2020-12-30 | 一种场景文本检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112287931A CN112287931A (zh) | 2021-01-29 |
CN112287931B true CN112287931B (zh) | 2021-03-19 |
Family
ID=74426642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011599888.7A Active CN112287931B (zh) | 2020-12-30 | 2020-12-30 | 一种场景文本检测方法及系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11995901B2 (zh) |
CN (1) | CN112287931B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113205131A (zh) * | 2021-04-28 | 2021-08-03 | 阿波罗智联(北京)科技有限公司 | 图像数据的处理方法、装置、路侧设备和云控平台 |
CN113784147B (zh) * | 2021-08-10 | 2023-06-09 | 浙江万里学院 | 一种基于卷积神经网络的高效视频编码方法及系统 |
CN114972947B (zh) * | 2022-07-26 | 2022-12-06 | 之江实验室 | 一种基于模糊语义建模的深度场景文本检测方法和装置 |
CN115242544B (zh) * | 2022-08-05 | 2023-05-30 | 河北师范大学 | 基于改进Res2net的网络安全态势感知方法及系统 |
CN115995002B (zh) * | 2023-03-24 | 2023-06-16 | 南京信息工程大学 | 一种网络构建方法及城市场景实时语义分割方法 |
CN116935394B (zh) * | 2023-07-27 | 2024-01-02 | 南京邮电大学 | 一种基于PSENet区域分割的列车车厢号定位方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9245191B2 (en) * | 2013-09-05 | 2016-01-26 | Ebay, Inc. | System and method for scene text recognition |
CN109919025A (zh) * | 2019-01-30 | 2019-06-21 | 华南理工大学 | 基于深度学习的视频场景文本检测方法、系统、设备及介质 |
CN111046179A (zh) * | 2019-12-03 | 2020-04-21 | 哈尔滨工程大学 | 一种面向特定领域开放网络问句的文本分类方法 |
CN111598892A (zh) * | 2020-04-16 | 2020-08-28 | 浙江工业大学 | 一种基于Res2-UNeXt网络结构的细胞图像分割方法 |
CN111814794A (zh) * | 2020-09-15 | 2020-10-23 | 北京易真学思教育科技有限公司 | 文本检测方法、装置、电子设备及存储介质 |
CN112036395A (zh) * | 2020-09-04 | 2020-12-04 | 联想(北京)有限公司 | 基于目标检测的文本分类识别方法及装置 |
CN112101165A (zh) * | 2020-09-07 | 2020-12-18 | 腾讯科技(深圳)有限公司 | 兴趣点识别方法、装置、计算机设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112001931A (zh) * | 2020-08-24 | 2020-11-27 | 上海眼控科技股份有限公司 | 图像分割方法、装置、设备及存储介质 |
-
2020
- 2020-12-30 CN CN202011599888.7A patent/CN112287931B/zh active Active
-
2021
- 2021-12-29 US US17/565,405 patent/US11995901B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9245191B2 (en) * | 2013-09-05 | 2016-01-26 | Ebay, Inc. | System and method for scene text recognition |
CN109919025A (zh) * | 2019-01-30 | 2019-06-21 | 华南理工大学 | 基于深度学习的视频场景文本检测方法、系统、设备及介质 |
CN111046179A (zh) * | 2019-12-03 | 2020-04-21 | 哈尔滨工程大学 | 一种面向特定领域开放网络问句的文本分类方法 |
CN111598892A (zh) * | 2020-04-16 | 2020-08-28 | 浙江工业大学 | 一种基于Res2-UNeXt网络结构的细胞图像分割方法 |
CN112036395A (zh) * | 2020-09-04 | 2020-12-04 | 联想(北京)有限公司 | 基于目标检测的文本分类识别方法及装置 |
CN112101165A (zh) * | 2020-09-07 | 2020-12-18 | 腾讯科技(深圳)有限公司 | 兴趣点识别方法、装置、计算机设备和存储介质 |
CN111814794A (zh) * | 2020-09-15 | 2020-10-23 | 北京易真学思教育科技有限公司 | 文本检测方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US11995901B2 (en) | 2024-05-28 |
US20220207890A1 (en) | 2022-06-30 |
CN112287931A (zh) | 2021-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112287931B (zh) | 一种场景文本检测方法及系统 | |
Zhang et al. | Polarnet: An improved grid representation for online lidar point clouds semantic segmentation | |
CN110378222A (zh) | 一种输电线路防震锤目标检测与缺陷识别方法及装置 | |
CN114495029B (zh) | 一种基于改进YOLOv4的交通目标检测方法及系统 | |
CN109919084B (zh) | 一种基于深度多索引哈希的行人重识别方法 | |
CN113066089A (zh) | 一种基于注意力引导机制的实时图像语义分割网络 | |
CN117830788B (zh) | 一种多源信息融合的图像目标检测方法 | |
CN115713529A (zh) | 基于高效注意力的轻量级光学遥感图像变化检测方法 | |
CN115457043A (zh) | 基于重叠自注意力变形器架构u型网络的图像分割网络 | |
CN115346068A (zh) | 一种铁路货运列车螺栓丢失故障图像自动生成方法 | |
CN114693966A (zh) | 一种基于深度学习的目标检测方法 | |
CN114119627B (zh) | 基于深度学习的高温合金微观组织图像分割方法及装置 | |
CN116778346B (zh) | 一种基于改进自注意力机制的管线识别方法及系统 | |
CN115578260B (zh) | 针对图像超分辨率的方向解耦的注意力方法和系统 | |
CN112418229A (zh) | 一种基于深度学习的无人船海上场景图像实时分割方法 | |
CN112164065A (zh) | 一种基于轻量化卷积神经网络的实时图像语义分割方法 | |
CN114494893B (zh) | 基于语义重用上下文特征金字塔的遥感图像特征提取方法 | |
CN113255675B (zh) | 基于扩张卷积和残差路径的图像语义分割网络结构及方法 | |
CN113191367B (zh) | 基于密集尺度动态网络的语义分割方法 | |
CN111553921B (zh) | 一种基于通道信息共享残差模块的实时语义分割方法 | |
CN114998866A (zh) | 一种基于改进YOLOv4的交通标志识别方法 | |
CN113837080B (zh) | 一种基于信息增强与感受野增强的小目标检测方法 | |
CN117541587B (zh) | 太阳能电池板缺陷检测方法、系统、电子设备及存储介质 | |
CN112950481B (zh) | 一种基于图像拼接网络的水花遮挡图像数据集采集方法 | |
CN114612675A (zh) | 一种基于多层非局部网络的视觉显著性检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |