CN110751232A - 一种中文复杂场景文本检测与识别方法 - Google Patents

一种中文复杂场景文本检测与识别方法 Download PDF

Info

Publication number
CN110751232A
CN110751232A CN201911063953.1A CN201911063953A CN110751232A CN 110751232 A CN110751232 A CN 110751232A CN 201911063953 A CN201911063953 A CN 201911063953A CN 110751232 A CN110751232 A CN 110751232A
Authority
CN
China
Prior art keywords
sample
text
layers
training
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911063953.1A
Other languages
English (en)
Inventor
刘杰
朱旋
田明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN201911063953.1A priority Critical patent/CN110751232A/zh
Publication of CN110751232A publication Critical patent/CN110751232A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

该发明公开了一种中文复杂场景文本检测与识别方法,涉及计算机视觉领域,本发明实现了复杂场景下中文文本的快速检测与识别;包括以下步骤,S0:获取中文复杂场景样本数据,以8:2的比例划分为训练集和测试集的样本图像;S1:对训练集样本进行图像预处理操作,使其作为训练模型的输入;S2:将训练集样本通过改进的darknet‑19网络进行文字区域特征向量的提取;S3:将训练样本输入到预设的YOLOv2模型中进行训练,得到文本检测与识别的模型;S4:将测试样本输入到训练好的模型中进行测试,得到最终识别的检测框以及字符实例的分类结果。该方法将检测和识别任务整合到统一的网络框架中,具有较高的文本检测与识别性能,适用于中文复杂场景下文本检测与识别。

Description

一种中文复杂场景文本检测与识别方法
技术领域
本发明涉及计算机视觉领域,具体涉及一种中文复杂场景文本检测与识别方法。
背景技术
一直以来,文本都在人们生活中发挥着重要的作用。文本中包含丰富而精确的信息对基于视觉的应用来说非常重要,比如:图像检索、目标定位、人机交互、机器人导航以及工业自动化等等。自动的文本检测提供了一种获取、利用图片与视频中文本信息的方法,因而成为计算机视觉和文档分析领域的热门研究课题。
自然场景文本检测是一项既重要又极其富有挑战的任务。由于自然场景文本检测通常是在开放场景下对场景中的文本进行识别,因此光照、角度和畸变等因素对文本检测造成很大的干扰,严重影响文本检测的准确性。传统的文本检测普遍使用基于连通部件的技术,但是该技术只能提取较为明显的文本区域,难以将图像中全局信息考虑在内,因此该技术性能较为有限。目前基于深度学习的自然场景文本检测由于大多采用了基于候选框的技术,其性能相比传统方法有较大提升。
基于深度学习的通用目标检测方法可以分为两大类:基于区域的方法和基于回归的方法。前者比如:Fast-RCNN、Faster-RCNN和R-FCN,这些方法能够获得很高的准确率,但运行速度较慢。后者比如:SSD和YOLO,这些方法追求算法的实时性也能获得较好的检测结果。在这些方法中,YOLO因其速度快、精度高而成为一种广泛应用的高效算法。
发明内容
本发明提供了一种中文复杂场景文本检测与识别方法,实现了基于深度学习的中文复杂场景文本检测与识别,具有较高的文本检测与识别性能。
本发明技术方案为一种中文复杂场景文本检测与识别方法,该方法以下步骤:
S0:获取中文复杂场景样本数据,将其以8:2的比例划分为训练集和测试集的样本图像;
S1:对训练集样本进行图像预处理操作,使其作为训练模型的输入;
S2:将训练集样本通过改进的darknet-19网络进行文字区域特征向量的提取;
S3:将训练样本输入到预设的YOLOv2网络模型中进行训练,得到文本检测与识别的模型;
S4:将测试样本输入到训练好的模型中进行测试,得到最终识别的检测框以及字符实例的分类结果。
所述步骤S0的操作过程如下:
S00:获取自然场景文本检测与识别的图像数据;
S01:将其以8:2的比例划分为训练集和测试集;
S02:对获取的图像数据样本进行类别标注,将待检测的目标种类分为1001个类别,即前1000类频繁观察到的字符种类和“其他”类别;
S03:对获取的图像数据样本进行位置标注,记录目标字符的位置坐标;
S04:将上述的类别标注和相应的位置标注信息转换为XML的文件格式。
所述步骤S1的操作过程如下:
S10:对所获得的自然场景文本检测与识别的图像数据样本进行角度旋转、放大、缩小、裁剪、调整饱和度和亮度等操作增大样本容量。
所述步骤S2的操作过程如下:
S20:将特征提取网络分为27层,包括22个卷积层和5个池化层,具体网络结构及设置如下:
(1) 第1、3、5、6、7、9、10、11、13、14、15、16、17、19、20、21、22、23、24、25、26、27层为卷积层,第2、4、8、12、18层为池化层;
(2) 卷积层中第1、3、5、7、9、11、13、15、17、19、21、23、24、25、26层卷积核的大小设置为3×3,卷积核深度设置分别为32、64、128、128、256、256、512、512、512、1024、1024、1024、1024、1024、1024,第6、10、14、16、20、22、27层卷积核的大小设置为1×1,卷积核深度设置分别为64、128、256、256、512、256、5030;
(3) 池化层中第2、4、8、12、18层进行池化操作的方式为最大池化方式,卷积核的大小设置为2×2,步长设置为2;
S21:使用上述特征提取网络在1000分类的ImageNet图片数据集进行200轮训练,将模型的网络输入设置416×416,采用梯度下降算法,将decay设置为0.0005,momentum设置为0.9,learning rate设置为0.001;
S22:再使用自然场景文本图像数据样本集,对特征提取网络继续进行微调,训练15轮,此时将learning rate设置为0.0001,进而生成特征提取网络的预训练模型。
所述步骤S3的操作过程如下:
S30:使用672×672×3大小的样本图像作为模型的输入;
S31:获得步骤S20中特征提取网络第7层输出的168×168×128维特征图;
S32:将步骤S31中输出的168×168×128维特征图经卷积核大小为3×3,深度为128和卷积核大小为1×1,深度为16两个卷积层,并进行Reorg/8的下采样,输出21×21×1024维特征图;
S33:获得步骤S20中特征提取网络第11层输出的84×84×256维特征图;
S34:将步骤S33中输出的84×84×256维特征图经卷积核大小为3×3,深度为256和卷积核大小为1×1,深度为32两个卷积层,并进行Reorg/4的下采样,输出21×21×512维特征图;
S35:获得步骤S20中特征提取网络第17层输出的42×42×512维特征图;
S36:将步骤S35中输出的42×42×512维特征图经卷积核大小为3×3,深度为512和卷积核大小为1×1,深度为64两个卷积层,并进行Reorg/2的下采样,输出21×21×256维特征图;
S37:获得步骤S20中特征提取网络第25层输出的21×21×1024维特征图;
S38:将步骤S32、S34、S36、S37中所得到的特征图进行拼接整合最终得到21×21×2816维特征图;
S39:将步骤S38中输出的21×21×2816维特征图经卷积核大小为3×3,深度为1024和卷积核大小为1×1,深度为5030两个卷积层,输出21×21×5030维特征图。
所述步骤S4的操作过程如下:
S41:将目标图像划分为S×S个网格,对每个网格划分为B个先验框;每个先验框包含有4个参数,分别为该框的中心点坐标、高、宽以及置信度;
S42:对每个先验框中心点坐标、高和宽进行归一化处理;
S43:计算每个先验框的置信度得分,根据预先设置的分数阈值,删除低于阈值的先验框;
S44:根据非极大值抑制操作保留置信度得分最大的先验框,即得到最终识别的检测框以及检测框内字符实例的分类结果。
与现有技术相比,本发明提供的技术方案的有益效果是:
1.本发明实现了端到端的复杂场景的文本检测与识别,相较于传统的方法,具有更强的准确性和鲁棒性,能够一次识别图像样本中的多个字符实例目标;
2.针对小字符识别效果不理想的问题,本发明将不同深度网络得到的特征图进行拼接,在不损失大字符检测性能的情况下,提高了小字符检测性能;
3. 针对yolov2网络初始的先验框参数不适用于文本图像检测的问题,本发明采用了K-means++聚类方法对复杂场景图像中的文本标签重新进行聚类分析,解决了K-Means算法对初始簇心比较敏感的问题。
附图说明
图1为本发明的方法流程图。
图2为本发明的网络结构图。
图3为本发明的检测结果图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1。
本发明示例提供了一种中文复杂场景文本检测与识别方法,该方法包括以下步骤:
S0:获取中文复杂场景样本数据,将其以8:2的比例划分为训练集和测试集的样本图像;
S1:对训练集样本进行图像预处理操作,使其作为训练模型的输入;
S2:将训练集样本通过改进的darknet-19网络进行文字区域特征向量的提取;
S3:将训练样本输入到预设的YOLOv2网络模型中进行训练,得到文本检测与识别的模型;
S4:将测试样本输入到训练好的模型中进行测试,得到最终识别的检测框以及字符实例的分类结果。
所述步骤S0的操作过程如下:
S00:获取自然场景文本检测与识别的图像数据;
S01:将其以8:2的比例划分为训练集和测试集;
S02:对获取的图像数据样本进行类别标注,将待检测的目标种类分为1001个类别,即前1000类频繁观察到的字符种类和“其他”类别;
S03:对获取的图像数据样本进行位置标注,记录目标字符的位置坐标;
S04:将上述的类别标注和相应的位置标注信息转换为XML的文件格式。
所述步骤S1的操作过程如下:
S10:对所获得的自然场景文本检测与识别的图像数据样本进行角度旋转、放大、缩小、裁剪、调整饱和度和亮度等操作增大样本容量。
所述步骤S2的操作过程如下:
S20:将特征提取网络分为27层,包括22个卷积层和5个池化层,具体网络结构及设置如下:
(1) 第1、3、5、6、7、9、10、11、13、14、15、16、17、19、20、21、22、23、24、25、26、27层为卷积层,第2、4、8、12、18层为池化层;
(2) 卷积层中第1、3、5、7、9、11、13、15、17、19、21、23、24、25、26层卷积核的大小设置为3×3,卷积核深度设置分别为32、64、128、128、256、256、512、512、512、1024、1024、1024、1024、1024、1024,第6、10、14、16、20、22、27层卷积核的大小设置为1×1,卷积核深度设置分别为64、128、256、256、512、256、5030;
(3) 池化层中第2、4、8、12、18层进行池化操作的方式为最大池化方式,卷积核的大小设置为2×2,步长设置为2;
S21:使用上述特征提取网络在1000分类的ImageNet图片数据集进行200轮训练,将模型的网络输入设置416×416,采用梯度下降算法,将decay设置为0.0005,momentum设置为0.9,learning rate设置为0.001;
S22:再使用自然场景文本图像数据样本集,对特征提取网络继续进行微调,训练15轮,此时将learning rate设置为0.0001,进而生成特征提取网络的预训练模型。
所述步骤S3的操作过程如下:
S30:使用672×672×3大小的样本图像作为模型的输入;
S31:获得步骤S20中特征提取网络第7层输出的168×168×128维特征图;
S32:将步骤S31中输出的168×168×128维特征图经卷积核大小为3×3,深度为128和卷积核大小为1×1,深度为16两个卷积层,并进行Reorg/8的下采样,输出21×21×1024维特征图;
S33:获得步骤S20中特征提取网络第11层输出的84×84×256维特征图;
S34:将步骤S33中输出的84×84×256维特征图经卷积核大小为3×3,深度为256和卷积核大小为1×1,深度为32两个卷积层,并进行Reorg/4的下采样,输出21×21×512维特征图;
S35:获得步骤S20中特征提取网络第17层输出的42×42×512维特征图;
S36:将步骤S35中输出的42×42×512维特征图经卷积核大小为3×3,深度为512和卷积核大小为1×1,深度为64两个卷积层,并进行Reorg/2的下采样,输出21×21×256维特征图;
S37:获得步骤S20中特征提取网络第25层输出的21×21×1024维特征图;
S38:将步骤S32、S34、S36、S37中所得到的特征图进行拼接整合最终得到21×21×2816维特征图;
S39:将步骤S38中输出的21×21×2816维特征图经卷积核大小为3×3,深度为1024和卷积核大小为1×1,深度为5030两个卷积层,输出21×21×5030维特征图。
所述步骤S4的操作过程如下:
S41:将目标图像划分为S×S个网格,对每个网格划分为B个先验框;每个先验框包含有4个参数,分别为该框的中心点坐标、高、宽以及置信度;
S42:对每个先验框中心点坐标、高和宽进行归一化处理;
S43:计算每个先验框的置信度得分,根据预先设置的分数阈值,删除低于阈值的先验框;
S44:根据非极大值抑制操作保留置信度得分最大的先验框,即得到最终识别的检测框以及检测框内字符实例的分类结果。
综上所述,本实施例的一种中文复杂场景文本检测与识别方法,采用改进的YOLOv2算法,能够实现端到端的复杂场景的文本检测与识别,较好地解决了小字符检测性能差以及初始的先验框参数不适用于文本图像检测的问题,提高了检测与识别的准确率和鲁棒性。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种中文复杂场景文本检测与识别方法,其特征在于,所述的方法包括以下步骤:
S0:获取中文复杂场景样本数据,将其以8:2的比例划分为训练集和测试集的样本图像;S1:对训练集样本进行图像预处理操作,使其作为训练模型的输入;
S2:将训练集样本通过改进的darknet-19网络进行文字区域特征向量的提取;
S3:将训练样本输入到预设的YOLOv2网络模型中进行训练,得到文本检测与识别的模型;
S4:将测试样本输入到训练好的模型中进行测试,得到最终识别的检测框以及字符实例的分类结果。
2.根据权利要求1所述的一种中文复杂场景文本检测与识别方法,其特征在于,所述步骤S0的操作过程如下:
S00:获取自然场景文本检测与识别的图像数据;
S01:将其以8:2的比例划分为训练集和测试集;
S02:对获取的图像数据样本进行类别标注,将待检测的目标种类分为1001个类别,即前1000类频繁观察到的字符种类和“其他”类别;
S03:对获取的图像数据样本进行位置标注,记录目标字符的位置坐标;
S04:将上述的类别标注和相应的位置标注信息转换为XML的文件格式。
3.根据权利要求1所述的一种中文复杂场景文本检测与识别方法,其特征在于,所述步骤S1的操作过程如下:
S10:对所获得的自然场景文本检测与识别的图像数据样本进行角度旋转、放大、缩小、裁剪、调整饱和度和亮度等操作增大样本容量。
4.根据权利要求1所述的一种中文复杂场景文本检测与识别方法,其特征在于,所述步骤S2的操作过程如下:
S20:将特征提取网络分为27层,包括22个卷积层和5个池化层,具体网络结构及设置如下:
(1)第1、3、5、6、7、9、10、11、13、14、15、16、17、19、20、21、22、23、24、25、26、27层为卷积层,第2、4、8、12、18层为池化层;
(2)卷积层中第1、3、5、7、9、11、13、15、17、19、21、23、24、25、26层卷积核的大小设置为3×3,卷积核深度设置分别为32、64、128、128、256、256、512、512、512、1024、1024、1024、1024、1024、1024,第6、10、14、16、20、22、27层卷积核的大小设置为1×1,卷积核深度设置分别为64、128、256、256、512、256、5030;
(3)池化层中第2、4、8、12、18层进行池化操作的方式为最大池化方式,卷积核的大小设置为2×2,步长设置为2;
S21:使用上述特征提取网络在1000分类的ImageNet图片数据集进行200轮训练,将模型的网络输入设置416×416,采用梯度下降算法,将decay设置为0.0005,momentum设置为0.9,learningrate设置为0.001;
S22:再使用自然场景文本图像数据样本集,对特征提取网络继续进行微调,训练15轮,此时将learningrate设置为0.0001,进而生成特征提取网络的预训练模型。
5.根据权利要求1所述的一种中文复杂场景文本检测与识别方法,其特征在于,所述步骤S3的操作过程如下:
S30:使用672×672×3大小的样本图像作为模型的输入;
S31:获得步骤S20中特征提取网络第7层输出的168×168×128维特征图;
S32:将步骤S31中输出的168×168×128维特征图经卷积核大小为3×3,深度为128和卷积核大小为1×1,深度为16两个卷积层,并进行Reorg/8的下采样,输出21×21×1024维特征图;
S33:获得步骤S20中特征提取网络第11层输出的84×84×256维特征图;
S34:将步骤S33中输出的84×84×256维特征图经卷积核大小为3×3,深度为256和卷积核大小为1×1,深度为32两个卷积层,并进行Reorg/4的下采样,输出21×21×512维特征图;
S35:获得步骤S20中特征提取网络第17层输出的42×42×512维特征图;
S36:将步骤S35中输出的42×42×512维特征图经卷积核大小为3×3,深度为512和卷积核大小为1×1,深度为64两个卷积层,并进行Reorg/2的下采样,输出21×21×256维特征图;
S37:获得步骤S20中特征提取网络第25层输出的21×21×1024维特征图;
S38:将步骤S32、S34、S36、S37中所得到的特征图进行拼接整合最终得到21×21×2816维特征图;
S39:将步骤S38中输出的21×21×2816维特征图经卷积核大小为3×3,深度为1024和卷积核大小为1×1,深度为5030两个卷积层,输出21×21×5030维特征图。
6.根据权利要求1所述的一种中文复杂场景文本检测与识别方法,其特征在于,所述步骤S4的操作过程如下:
S41:将目标图像划分为S×S个网格,对每个网格划分为B个先验框;每个先验框包含有4个参数,分别为该框的中心点坐标、高、宽以及置信度;
S42:对每个先验框中心点坐标、高和宽进行归一化处理;
S43:计算每个先验框的置信度得分,根据预先设置的分数阈值,删除低于阈值的先验框;
S44:根据非极大值抑制操作保留置信度得分最大的先验框,即得到最终识别的检测框以及检测框内字符实例的分类结果。
7.根据权利要求1所述的一种中文复杂场景文本检测与识别方法,其特征在于,为了提高文本检测与识别的精度,采用K-means++聚类方法对复杂场景图像中的文本标签重新进行聚类分析,使用复杂场景图像标签的样本框与先验框的交并比为目标函数:
Figure RE-FDA0002294957080000031
式中,box为复杂场景图像标签的样本框,cen为聚类中心,n为样本的总数,k为类别数,IOU为目标框之间的交并比。
8.根据权利要求1所述的一种中文复杂场景文本检测与识别方法,其特征在于,步骤S39得到的通道数为5030维特征图,共5×(1001+5)=5030个参数,即聚类得到先验框的个数×(目标检测类别+每个先验框的中心点坐标、宽、高、置信度)=5030。
CN201911063953.1A 2019-11-04 2019-11-04 一种中文复杂场景文本检测与识别方法 Pending CN110751232A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911063953.1A CN110751232A (zh) 2019-11-04 2019-11-04 一种中文复杂场景文本检测与识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911063953.1A CN110751232A (zh) 2019-11-04 2019-11-04 一种中文复杂场景文本检测与识别方法

Publications (1)

Publication Number Publication Date
CN110751232A true CN110751232A (zh) 2020-02-04

Family

ID=69281950

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911063953.1A Pending CN110751232A (zh) 2019-11-04 2019-11-04 一种中文复杂场景文本检测与识别方法

Country Status (1)

Country Link
CN (1) CN110751232A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111461133A (zh) * 2020-04-20 2020-07-28 上海东普信息科技有限公司 快递面单品名识别方法、装置、设备及存储介质
CN111914712A (zh) * 2020-07-24 2020-11-10 合肥工业大学 一种铁路地面轨道场景目标检测方法及系统
CN112270252A (zh) * 2020-10-26 2021-01-26 西安工程大学 一种改进YOLOv2模型的多车辆目标识别方法
CN112507866A (zh) * 2020-12-03 2021-03-16 润联软件系统(深圳)有限公司 一种汉字字向量生成方法、装置、计算机设备及存储介质
CN112529106A (zh) * 2020-12-28 2021-03-19 平安普惠企业管理有限公司 视觉设计原稿的生成方法、装置、设备及存储介质
CN112966678A (zh) * 2021-03-11 2021-06-15 南昌航空大学 一种文本检测方法及系统
CN113076900A (zh) * 2021-04-12 2021-07-06 华南理工大学 基于深度学习的试卷卷头学生信息自动检测方法
CN115346206A (zh) * 2022-10-20 2022-11-15 松立控股集团股份有限公司 基于改进超分辨的深度卷积特征识别的车牌检测方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688808A (zh) * 2017-08-07 2018-02-13 电子科技大学 一种快速的自然场景文本检测方法
CN108427950A (zh) * 2018-02-01 2018-08-21 北京捷通华声科技股份有限公司 一种文字行检测方法及装置
CN109063594A (zh) * 2018-07-13 2018-12-21 吉林大学 基于YOLOv2的遥感图像快速目标检测方法
CN109165585A (zh) * 2018-06-15 2019-01-08 沈阳理工大学 一种改进的基于yolo v2的船舶目标检测方法
CN109447078A (zh) * 2018-10-23 2019-03-08 四川大学 一种自然场景图像敏感文字的检测识别方法
CN109635808A (zh) * 2018-11-01 2019-04-16 中国科学院信息工程研究所 一种在自然场景图像中对中文关键词及上下文的提取方法
JP2019139733A (ja) * 2018-08-24 2019-08-22 株式会社ビコー 情報処理システム、情報処理装置、情報処理方法およびプログラム
CN110276253A (zh) * 2019-05-15 2019-09-24 中国科学院信息工程研究所 一种基于深度学习的模糊文字检测识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688808A (zh) * 2017-08-07 2018-02-13 电子科技大学 一种快速的自然场景文本检测方法
CN108427950A (zh) * 2018-02-01 2018-08-21 北京捷通华声科技股份有限公司 一种文字行检测方法及装置
CN109165585A (zh) * 2018-06-15 2019-01-08 沈阳理工大学 一种改进的基于yolo v2的船舶目标检测方法
CN109063594A (zh) * 2018-07-13 2018-12-21 吉林大学 基于YOLOv2的遥感图像快速目标检测方法
JP2019139733A (ja) * 2018-08-24 2019-08-22 株式会社ビコー 情報処理システム、情報処理装置、情報処理方法およびプログラム
CN109447078A (zh) * 2018-10-23 2019-03-08 四川大学 一种自然场景图像敏感文字的检测识别方法
CN109635808A (zh) * 2018-11-01 2019-04-16 中国科学院信息工程研究所 一种在自然场景图像中对中文关键词及上下文的提取方法
CN110276253A (zh) * 2019-05-15 2019-09-24 中国科学院信息工程研究所 一种基于深度学习的模糊文字检测识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
_从前从前_: "目标检测之YOLOv2,最详细的代码解析", 《HTTPS://WWW.JIANSHU.COM/P/032B1EECB335》 *
JOSEPH REDMON: "You Only Look Once:Unified, Real-Time Object Detection", 《COMPUTER VISION FOUNDATION》 *
REDMON J: "YOLO9000:Better,faster,stronger", 《COMPUTER VISION AND PATTERN RECOGNITION.HAWAII: IEEE 2017》 *
YUAN TL: "A Large Chinese Text Dataset in the Wild", 《JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111461133A (zh) * 2020-04-20 2020-07-28 上海东普信息科技有限公司 快递面单品名识别方法、装置、设备及存储介质
CN111461133B (zh) * 2020-04-20 2023-04-18 上海东普信息科技有限公司 快递面单品名识别方法、装置、设备及存储介质
CN111914712A (zh) * 2020-07-24 2020-11-10 合肥工业大学 一种铁路地面轨道场景目标检测方法及系统
CN111914712B (zh) * 2020-07-24 2024-02-13 合肥工业大学 一种铁路地面轨道场景目标检测方法及系统
CN112270252A (zh) * 2020-10-26 2021-01-26 西安工程大学 一种改进YOLOv2模型的多车辆目标识别方法
CN112507866A (zh) * 2020-12-03 2021-03-16 润联软件系统(深圳)有限公司 一种汉字字向量生成方法、装置、计算机设备及存储介质
CN112507866B (zh) * 2020-12-03 2021-07-13 润联软件系统(深圳)有限公司 一种汉字字向量生成方法、装置、计算机设备及存储介质
CN112529106A (zh) * 2020-12-28 2021-03-19 平安普惠企业管理有限公司 视觉设计原稿的生成方法、装置、设备及存储介质
CN112966678A (zh) * 2021-03-11 2021-06-15 南昌航空大学 一种文本检测方法及系统
CN113076900A (zh) * 2021-04-12 2021-07-06 华南理工大学 基于深度学习的试卷卷头学生信息自动检测方法
CN115346206A (zh) * 2022-10-20 2022-11-15 松立控股集团股份有限公司 基于改进超分辨的深度卷积特征识别的车牌检测方法
CN115346206B (zh) * 2022-10-20 2023-01-31 松立控股集团股份有限公司 基于改进超分辨的深度卷积特征识别的车牌检测方法

Similar Documents

Publication Publication Date Title
CN110751232A (zh) 一种中文复杂场景文本检测与识别方法
CN109344701B (zh) 一种基于Kinect的动态手势识别方法
CN109558832B (zh) 一种人体姿态检测方法、装置、设备及存储介质
CN107688808B (zh) 一种快速的自然场景文本检测方法
CN108334848B (zh) 一种基于生成对抗网络的微小人脸识别方法
CN111460968B (zh) 基于视频的无人机识别与跟踪方法及装置
CN107833213B (zh) 一种基于伪真值自适应法的弱监督物体检测方法
CN109447979B (zh) 基于深度学习和图像处理算法的目标检测方法
CN108090906B (zh) 一种基于区域提名的宫颈图像处理方法及装置
CN109615016A (zh) 一种基于金字塔输入增益的卷积神经网络的目标检测方法
Wang et al. Tree leaves detection based on deep learning
CN107292318B (zh) 基于中心暗通道先验信息的图像显著性物体检测方法
CN112784756B (zh) 人体识别跟踪方法
AU2018202767A1 (en) Data structure and algorithm for tag less search and svg retrieval
CN114781514A (zh) 一种融合注意力机制的漂浮物目标检测方法及系统
Beg et al. Text writing in the air
CN111563550A (zh) 基于图像技术的精子形态检测方法和装置
Zhong et al. Improved localization accuracy by locnet for faster r-cnn based text detection
CN103268494B (zh) 基于稀疏表示的寄生虫虫卵识别方法
CN109492702A (zh) 基于排序度量函数的行人重识别方法、系统、装置
CN113723558A (zh) 基于注意力机制的遥感图像小样本舰船检测方法
Zhu et al. Scene text relocation with guidance
CN112364687A (zh) 一种基于改进的Faster R-CNN加油站静电标志识别方法及系统
CN108122011B (zh) 基于多种不变性混合的目标跟踪方法和系统
CN110728316A (zh) 一种课堂行为检测方法、系统、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200204