CN111428718A - 一种基于图像增强的自然场景文本识别方法 - Google Patents

一种基于图像增强的自然场景文本识别方法 Download PDF

Info

Publication number
CN111428718A
CN111428718A CN202010240272.4A CN202010240272A CN111428718A CN 111428718 A CN111428718 A CN 111428718A CN 202010240272 A CN202010240272 A CN 202010240272A CN 111428718 A CN111428718 A CN 111428718A
Authority
CN
China
Prior art keywords
image
network
recognition
enhancement
natural scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010240272.4A
Other languages
English (en)
Other versions
CN111428718B (zh
Inventor
钱烨
王雨阳
苏丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202010240272.4A priority Critical patent/CN111428718B/zh
Publication of CN111428718A publication Critical patent/CN111428718A/zh
Application granted granted Critical
Publication of CN111428718B publication Critical patent/CN111428718B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于图像增强的自然场景文本识别方法,包括以下步骤:(1)构建包含增强网络和识别网络的自然场景文本识别模型;(2)训练基于图像增强的自然场景文本识别模型;(3)对一幅待识别的自然场景文本图像,将其输入到训练完成的识别模型,依次通过模型中的增强网络和识别网络后,模型的输出即为从该图像中识别获得的文字字符序列。本发明通过在文本识别模型中的识别网络模块前引入专门的图像增强模块,并端到端地对整个识别模型进行训练,使得所引入图像增强模块能够自适应地对输入图像进行调整和增强,例如抑制复杂背景、突出文本区域等,从而改善图像的质量,有效提高后继文本识别网络模块的准确率。

Description

一种基于图像增强的自然场景文本识别方法
技术领域
本发明属于计算机视觉领域,涉及自然场景文本识别方法。
背景技术
自然场景图像中出现的文本对象为场景理解、图像分析、分类和标注等应用提供了重要的可供利用的信息。然而,自然场景的复杂性、文字外观的多样性以及图像中经常存在退化、干扰等诸多因素,使得对自然场景图像中文字的识别具有较高的难度。
近年来出现的场景文本识别方法大致分为字符级和单词级两类。字符级方法通常采用一个自底向上的识别流程,即首先使用支持向量机、神经网络等分类器在滑动窗口中定位并识别每个字符,再将候选字符聚合成词。单词级方法通常采用自上而下的方式,利用语言、词法等知识在词级别进行整体识别,例如采用循环神经网络等序列化识别模型,在使用卷积神经网络获得的图像特征表示的基础上,直接识别出整个字符序列。此类方法避免了字符级方法易受前导字符检测与识别步骤中错误影响的不足,并且一般采用端到端的识别模型训练学习方式,取得了往往优于字符级方法的识别性能。
上述方法虽然在自然场景图像文字的识别上取得了相当大的进展,但大多针对识别条件较好的图像中的文字对象特点来设计相应方法,而并未针对图像自身设计专门的处理方法来改善其识别条件,因此往往难以进一步提高识别的性能。
发明内容
本发明的目的是提供一种基于图像增强的自然场景文本识别方法,该方法不同于聚焦于文本对象特点的现有场景文本识别方法,而是从改善自然场景图像中经常存在的低对比度、不均匀光照、嘈杂背景等不利条件出发,通过有效的神经网络模型和算法对图像进行增强,使其更易于文字识别,从而达到提高方法识别性能的目标。该方法在一般基于循环神经网络的编解码识别网络的前面,设计引入了有效的采用端到端学习的图像增强神经网络模块,来对原输入图像进行自适应的增强,可有效提高整体识别模型对自然场景文字的识别能力。
本发明具体采用如下技术方案:
一种基于图像增强的自然场景文本识别方法,包括以下步骤:
(1)构建包含增强网络和识别网络的自然场景文本识别模型,包括以下子步骤:
(1.1)构建增强网络;
(1.2)构建识别网络;
(1.3)设计识别模型的损失函数;
(2)训练基于图像增强的自然场景文本识别模型,包括以下子步骤:
(2.1)将一训练文本图像作为增强网络的输入,将其输出的增强后的图像输入到识别网络中,获得预测的文字标签序列,另一方面将该训练文本图像附带的文本标签作为识别网络预期输出的真实文字标签序列,使用反向传播(back propagation,BP)算法端到端地训练整个识别模型;
(2.2)重复步骤(2.1),使得包括增强网络和识别网络在内的整个识别模型在训练过程中逐步学习到文本标签的样本分布;
(3)对一幅待识别的自然场景文本图像,将其输入到训练完成的识别模型,依次通过模型中的增强网络和识别网络后,模型的输出即为从该图像中识别获得的文字字符序列。
本发明公开的一种基于图像增强的自然场景文本识别方法具有以下优点:
1.通过在文本识别模型中的识别网络模块前引入专门的图像增强模块,并端到端地对整个识别模型进行训练,使得所引入图像增强模块能够自适应地对输入图像进行调整和增强,例如抑制复杂背景、突出文本区域等,从而改善图像的质量,有效提高后继文本识别网络模块的准确率。
2.文本增强网络在设计上采用了基于残差的处理框架,避免直接预测增强后的输出图像,而是预测一个残差图像,并将其与原输入图像相加来获得增强后的输出图像,该处理方式在可以取得与直接预测增强图像相当效果的同时,更有利于训练误差的反向传播,从而实现对增强网络的更有效训练。
3.文本识别网络引入了多尺度特征提取模块,有效地结合了密集连接网络和注意力机制,可自适应地使用多个不同尺寸的窗口对不同大小的字符进行特征提取,在有效描述大字符的同时保留小字符的特征。
附图说明
图1为基于图像增强的自然场景文本识别模型总体结构图;
图2为增强网络结构图;
图3为下采样卷积块结构图;
图4为上采样卷积块结构图;
图5为全局特征提取模块结构图;
图6为识别网络结构图;
图7为多尺度特征提取模块结构图。
具体实施方式
下面结合附图和具体实施例对本发明基于图像增强的自然场景文本识别方法进行详细描述,包括以下步骤:
(数据预处理)构建训练图像样本数据集。将RGB(Red红色,Green绿色,Blue蓝色)三通道图像转化成单通道的灰度图像;将训练图像样本的尺寸统一调整为100×32像素大小;将训练图像样本的标签中的特殊字符剔除。
(1)构建基于图像增强的自然场景文本识别模型,识别模型总体流程如图1所示,包括以下子步骤:
(1.1)构建增强网络,其组成结构如图2所示。网络以原始自然场景文本图像作为输入,先通过由卷积核为3×3的卷积层(Conv)、BN(Batch Normalization)层以及ReLU激活层组成的输入层,再依次通过4个下采样卷积块。然后,将得到的特征图输入到4个上采样卷积块,再通过由一个卷积核为3×3的卷积层(Conv)组成的输出层,得到包含1个通道且与原输入图像相同大小的残差图。其中,为保留不同尺度特征图的重要特征,网络对每个下采样卷积块产生的特征图,使用全局特征提取模块提取得到一个全局特征向量,然后将它与对应的上采样卷积块的输出特征图相加,以弥补在多次下采样过程中丢失的全局信息,然后输入下一个上采样卷积块或输出层。最后,增强网络将残差图与原输入图像相加,得到增强后的图像。
下采样卷积块的结构如图3所示。输入特征图依次通过2×2最大池化层(MaxPooling)、3×3卷积层(Conv)、BN(Batch Normalization)层以及ReLU激活层。
上采样卷积块的结构如图4所示。输入特征图依次通过上采样层、3×3卷积层(Conv)、BN(Batch Normalization)层以及ReLU激活层。
全局特征提取模块的结构如图5所示。输入特征图首先通过1×1卷积层和Softmax激活层得到一个权重图,然后利用这个权重图对输入特征图加权求和,得到一个全局特征向量。
(1.2)构建识别网络,其组成如图6所示。网络以增强网络生成的增强后的图像作为输入,先通过由卷积核为3×3的卷积层(Conv)和BN(Batch Normalizatio)层组成的输入层;再依次通过13个残差块;然后通过一个卷积层将特征图的高度压缩为1,得到一个固定维度的特征序列;随后这个特征序列依次通过多尺度特征提取模块、双向LSTM网络进行编码;最后通过基于注意力机制的解码器,得到预测的字符序列。
多尺度特征提取模块的结构如图7所示,主要由密集连接网络和基于注意力的融合模块两部分组成。密集连接网络包括5个相似的模块,每个模块都由一个卷积块和一个拼接层(Concatenation)组成。其中,卷积块由卷积核为3×1的卷积层、BN(BatchNormalization)层和ReLU激活层构成。从密集连接网络得到5个相同大小的特征序列后,融合模块对这5个特征序列中的每个序列分别求和得到对应的初始权重,然后通过一个2层感知机和一个Softmax激活函数得到对应各特征序列的权重,进而使用这些权重对5个特征序列进行加权求和,生成一个最终的特征序列。
基于注意力机制的解码器的核心是一个门限循环单元(GRU)。该单元首先对输入的特征序列、GRU的隐状态进行线性变换,然后将两者相加再通过一个Tanh激活函数和一个Softmax激活函数得到注意力向量,接着用注意力向量对特征序列加权求和得到特征向量,随后将前一个字符的embedding向量、特征向量和隐状态作为GRU的输入更新GRU的隐状态,再对其做一次线性变换得到字符预测的概率分布。
(1.3)自然场景文本识别模型的损失函数计算为:
Figure BDA0002430640070000051
其中,L表示预测的字符序列的长度,N为模型能够识别的不同字符的个数,
Figure BDA0002430640070000052
表示训练数据中包含的真实标签序列,y则代表预测的标签序列的概率分布,
Figure BDA0002430640070000053
表示一个二值函数,当括号中的条件满足时返回1,否则返回0。
(2)训练基于图像增强的自然场景文本识别模型,包括以下子步骤:
(2.1)将一训练文本图像作为增强网络的输入,将其输出的增强后的图像输入到识别网络中,获得预测的文字标签序列,另一方面将该训练文本图像附带的文本标签作为识别网络预期输出的真实文字标签序列。按照(2.1.3)计算损失函数,并使用反向传播(back propagation,BP)算法端到端地训练整个识别模型。
(2.2)重复步骤(2.1),使包括增强网络和识别网络在内的整个识别模型在训练过程中逐步学习到文本标签的样本分布。
(3)对一幅待识别的自然场景文本图像,将其输入到训练完成的识别模型,依次通过模型中的增强网络和识别网络后,模型的输出即为从该图像中识别出的文字字符序列。
本实施例在64位Ubuntu 16.04.4操作系统平台上,基于PyTorch 0.4.0深度学习框架并使用Python 3.5.2语言构建自然场景文本识别模型,使用一块NVIDIA GTX 1070TiGPU完成模型的训练。训练过程使用Adadelta优化器并将学习率设置为1,训练迭代总次数为240000次,总训练时间约为48小时。

Claims (9)

1.一种基于图像增强的自然场景文本识别方法,其特征在于包括以下步骤:
(1)构建包含增强网络和识别网络的自然场景文本识别模型,包括以下子步骤:
(1.1)构建增强网络;
(1.2)构建识别网络;
(1.3)设计识别模型的损失函数;
(2)训练基于图像增强的自然场景文本识别模型,包括以下子步骤:
(2.1)将一训练文本图像作为增强网络的输入,将其输出的增强后的图像输入到识别网络中,获得预测的文字标签序列;另一方面将该训练文本图像附带的文本标签作为识别网络预期输出的真实文字标签序列,使用反向传播算法端到端地训练整个识别模型;
(2.2)重复步骤(2.1),使得包括增强网络和识别网络在内的整个识别模型在训练过程中逐步学习到文本标签的样本分布;
(3)对一幅待识别的自然场景文本图像,将其输入到训练完成的识别模型,依次通过模型中的增强网络和识别网络后,模型的输出即为从该图像中识别获得的文字字符序列。
2.如权利要求1所述的基于图像增强的自然场景文本识别方法,其特征在于所述增强网络采用了基于残差的处理框架,通过预测残差图像,并将残差图像与原输入图像相加来获得增强后的输出图像。
3.如权利要求1所述的基于图像增强的自然场景文本识别方法,其特征在于所述识别网络引入了多尺度特征提取模块,可自适应地使用多个不同尺寸的窗口对不同大小的字符进行特征提取,在有效描述大字符的同时保留小字符的特征。
4.如权利要求1所述的基于图像增强的自然场景文本识别方法,其特征在于还包括图像数据预处理步骤,将RGB三通道图像转化成单通道的灰度图像,将训练图像样本的尺寸调整为统一像素大小,将训练图像样本的标签中的特殊字符剔除,构建训练图像样本数据集。
5.如权利要求1所述的基于图像增强的自然场景文本识别方法,其特征在于所述增强网络以原始自然场景文本图像作为输入,先通过由卷积核为3×3的卷积层、BN层以及ReLU激活层组成的输入层;再依次通过4个下采样卷积块,然后将得到的特征图输入到4个上采样卷积块;再通过由一个卷积核为3×3的卷积层组成的输出层,得到包含1个通道且与原输入图像相同大小的残差图;最后,增强网络将残差图与原输入图像相加,得到增强后的图像。
6.如权利要求1或2或5所述的基于图像增强的自然场景文本识别方法,其特征在于所述增强网络对每个下采样卷积块产生的特征图,使用全局特征提取模块提取得到一个全局特征向量,然后将它与对应的上采样卷积块的输出特征图相加,输入下一个上采样卷积块或输出层。
7.如权利要求1所述的基于图像增强的自然场景文本识别方法,其特征在于所述识别网络以增强网络生成的增强后的图像作为输入,先通过由卷积核为3×3的卷积层和BN层组成的输入层;再依次通过13个残差块;然后通过一个卷积层将特征图的高度压缩为1,得到一个固定维度的特征序列;随后这个特征序列依次通过多尺度特征提取模块、双向LSTM网络进行编码;最后通过基于注意力机制的解码器,得到预测的字符序列。
8.如权利要求3或7所述的基于图像增强的自然场景文本识别方法,其特征在于所述多尺度特征提取模块主要由密集连接网络和基于注意力的融合模块两部分组成,密集连接网络得到5个相同大小的特征序列后,融合模块对这5个特征序列中的每个序列分别求和得到对应的初始权重,然后通过一个2层感知机和一个Softmax激活函数得到对应各特征序列的权重,进而使用这些权重对5个特征序列进行加权求和,生成一个最终的特征序列。
9.如权利要求1所述的基于图像增强的自然场景文本识别方法,其特征在于所述损失函数为:
Figure FDA0002430640060000021
其中,L表示预测的字符序列的长度,N为模型能够识别的不同字符的个数,
Figure FDA0002430640060000022
表示训练数据中包含的真实标签序列,y则代表预测的标签序列的概率分布,
Figure FDA0002430640060000023
表示一个二值函数,当括号中的条件满足时返回1,否则返回0。
CN202010240272.4A 2020-03-30 2020-03-30 一种基于图像增强的自然场景文本识别方法 Active CN111428718B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010240272.4A CN111428718B (zh) 2020-03-30 2020-03-30 一种基于图像增强的自然场景文本识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010240272.4A CN111428718B (zh) 2020-03-30 2020-03-30 一种基于图像增强的自然场景文本识别方法

Publications (2)

Publication Number Publication Date
CN111428718A true CN111428718A (zh) 2020-07-17
CN111428718B CN111428718B (zh) 2023-05-09

Family

ID=71551733

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010240272.4A Active CN111428718B (zh) 2020-03-30 2020-03-30 一种基于图像增强的自然场景文本识别方法

Country Status (1)

Country Link
CN (1) CN111428718B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832564A (zh) * 2020-07-20 2020-10-27 浙江诺诺网络科技有限公司 一种图像文字识别方法、系统及电子设备和存储介质
CN111967471A (zh) * 2020-08-20 2020-11-20 华南理工大学 一种基于多尺度特征的场景文本识别方法
CN112036290A (zh) * 2020-08-27 2020-12-04 哈尔滨工业大学(深圳) 一种基于类标编码表示的复杂场景文字识别方法及系统
CN112036292A (zh) * 2020-08-27 2020-12-04 平安科技(深圳)有限公司 基于神经网络的文字识别方法、装置及可读存储介质
CN112149644A (zh) * 2020-11-09 2020-12-29 西北工业大学 基于全局特征指导的二维注意力机制文本识别方法
CN112183525A (zh) * 2020-09-15 2021-01-05 中保车服科技服务股份有限公司 一种文本识别模型的构建及文本识别方法和装置
CN112348007A (zh) * 2020-10-21 2021-02-09 杭州师范大学 一种基于神经网络的光学字符识别方法
CN112580656A (zh) * 2021-02-23 2021-03-30 上海旻浦科技有限公司 一种端到端的文本检测方法、系统、终端及存储介质
CN112836702A (zh) * 2021-01-04 2021-05-25 浙江大学 一种基于多尺度特征提取的文本识别方法
CN113361521A (zh) * 2021-06-10 2021-09-07 京东数科海益信息科技有限公司 场景图像的检测方法及其装置
CN113642445A (zh) * 2021-08-06 2021-11-12 中国人民解放军战略支援部队信息工程大学 一种基于全卷积神经网络的高光谱影像分类方法
CN113963358A (zh) * 2021-12-20 2022-01-21 北京易真学思教育科技有限公司 文本识别模型训练方法、文本识别方法、装置及电子设备
CN114120305A (zh) * 2021-11-26 2022-03-01 北京百度网讯科技有限公司 文本分类模型的训练方法、文本内容的识别方法及装置
CN116740688A (zh) * 2023-08-11 2023-09-12 武汉市中西医结合医院(武汉市第一医院) 一种药品识别方法和系统
CN117934820A (zh) * 2024-03-22 2024-04-26 中国人民解放军海军航空大学 基于困难样本增强损失的红外目标识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688808A (zh) * 2017-08-07 2018-02-13 电子科技大学 一种快速的自然场景文本检测方法
CN109409314A (zh) * 2018-11-07 2019-03-01 济南浪潮高新科技投资发展有限公司 一种基于增强网络的手指静脉识别方法及系统
CN109977950A (zh) * 2019-03-22 2019-07-05 上海电力学院 一种基于混合cnn-lstm网络的文字识别方法
CN109993109A (zh) * 2019-03-29 2019-07-09 成都信息工程大学 图像文字识别方法
CN109993164A (zh) * 2019-03-20 2019-07-09 上海电力学院 一种基于rcrnn神经网络的自然场景文字识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688808A (zh) * 2017-08-07 2018-02-13 电子科技大学 一种快速的自然场景文本检测方法
CN109409314A (zh) * 2018-11-07 2019-03-01 济南浪潮高新科技投资发展有限公司 一种基于增强网络的手指静脉识别方法及系统
CN109993164A (zh) * 2019-03-20 2019-07-09 上海电力学院 一种基于rcrnn神经网络的自然场景文字识别方法
CN109977950A (zh) * 2019-03-22 2019-07-05 上海电力学院 一种基于混合cnn-lstm网络的文字识别方法
CN109993109A (zh) * 2019-03-29 2019-07-09 成都信息工程大学 图像文字识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
余峥等: "《基于特征融合网络的自然场景文本检测》" *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832564A (zh) * 2020-07-20 2020-10-27 浙江诺诺网络科技有限公司 一种图像文字识别方法、系统及电子设备和存储介质
CN111967471A (zh) * 2020-08-20 2020-11-20 华南理工大学 一种基于多尺度特征的场景文本识别方法
CN112036290B (zh) * 2020-08-27 2023-11-03 哈尔滨工业大学(深圳) 一种基于类标编码表示的复杂场景文字识别方法及系统
CN112036290A (zh) * 2020-08-27 2020-12-04 哈尔滨工业大学(深圳) 一种基于类标编码表示的复杂场景文字识别方法及系统
CN112036292A (zh) * 2020-08-27 2020-12-04 平安科技(深圳)有限公司 基于神经网络的文字识别方法、装置及可读存储介质
CN112036292B (zh) * 2020-08-27 2024-06-04 平安科技(深圳)有限公司 基于神经网络的文字识别方法、装置及可读存储介质
CN112183525A (zh) * 2020-09-15 2021-01-05 中保车服科技服务股份有限公司 一种文本识别模型的构建及文本识别方法和装置
CN112183525B (zh) * 2020-09-15 2023-11-24 中保车服科技服务股份有限公司 一种文本识别模型的构建及文本识别方法和装置
CN112348007A (zh) * 2020-10-21 2021-02-09 杭州师范大学 一种基于神经网络的光学字符识别方法
CN112348007B (zh) * 2020-10-21 2023-12-19 杭州师范大学 一种基于神经网络的光学字符识别方法
CN112149644A (zh) * 2020-11-09 2020-12-29 西北工业大学 基于全局特征指导的二维注意力机制文本识别方法
CN112836702A (zh) * 2021-01-04 2021-05-25 浙江大学 一种基于多尺度特征提取的文本识别方法
CN112580656A (zh) * 2021-02-23 2021-03-30 上海旻浦科技有限公司 一种端到端的文本检测方法、系统、终端及存储介质
CN113361521A (zh) * 2021-06-10 2021-09-07 京东数科海益信息科技有限公司 场景图像的检测方法及其装置
CN113361521B (zh) * 2021-06-10 2024-04-09 京东科技信息技术有限公司 场景图像的检测方法及其装置
CN113642445A (zh) * 2021-08-06 2021-11-12 中国人民解放军战略支援部队信息工程大学 一种基于全卷积神经网络的高光谱影像分类方法
CN114120305A (zh) * 2021-11-26 2022-03-01 北京百度网讯科技有限公司 文本分类模型的训练方法、文本内容的识别方法及装置
CN113963358B (zh) * 2021-12-20 2022-03-04 北京易真学思教育科技有限公司 文本识别模型训练方法、文本识别方法、装置及电子设备
CN113963358A (zh) * 2021-12-20 2022-01-21 北京易真学思教育科技有限公司 文本识别模型训练方法、文本识别方法、装置及电子设备
CN116740688B (zh) * 2023-08-11 2023-11-07 武汉市中西医结合医院(武汉市第一医院) 一种药品识别方法和系统
CN116740688A (zh) * 2023-08-11 2023-09-12 武汉市中西医结合医院(武汉市第一医院) 一种药品识别方法和系统
CN117934820A (zh) * 2024-03-22 2024-04-26 中国人民解放军海军航空大学 基于困难样本增强损失的红外目标识别方法

Also Published As

Publication number Publication date
CN111428718B (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN111428718B (zh) 一种基于图像增强的自然场景文本识别方法
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN110399850B (zh) 一种基于深度神经网络的连续手语识别方法
CN111916067A (zh) 语音识别模型的训练方法、装置、电子设备及存储介质
CN112329760B (zh) 基于空间变换网络端到端印刷体蒙古文识别翻译的方法
CN111950453A (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
CN110188827B (zh) 一种基于卷积神经网络和递归自动编码器模型的场景识别方法
CN111079683A (zh) 基于卷积神经网络的遥感图像云雪检测方法
CN114495129B (zh) 文字检测模型预训练方法以及装置
CN113449801B (zh) 一种基于多级图像上下文编解码的图像人物行为描述生成方法
CN111310766A (zh) 基于编解码和二维注意力机制的车牌识别方法
CN114973222B (zh) 基于显式监督注意力机制的场景文本识别方法
US11568140B2 (en) Optical character recognition using a combination of neural network models
CN117475038B (zh) 一种图像生成方法、装置、设备及计算机可读存储介质
CN116304984A (zh) 基于对比学习的多模态意图识别方法及系统
CN116229482A (zh) 网络舆情分析中视觉多模态文字检测识别及纠错方法
CN116486419A (zh) 一种基于孪生卷积神经网络的书法字识别方法
CN115116074A (zh) 一种手写体文字识别、及模型训练方法和装置
CN114694255B (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
XinSheng et al. Industrial character recognition based on improved CRNN in complex environments
CN114299326A (zh) 一种基于转换网络与自监督的小样本分类方法
CN110910388A (zh) 一种基于U-Net和密度估计的癌细胞图像分割方法
CN111242114A (zh) 文字识别方法及装置
CN116110047A (zh) 基于ocr-ner的结构化电子病历构建方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant