CN113221884B - 一种基于低频字存储记忆的文本识别方法及系统 - Google Patents

一种基于低频字存储记忆的文本识别方法及系统 Download PDF

Info

Publication number
CN113221884B
CN113221884B CN202110522161.7A CN202110522161A CN113221884B CN 113221884 B CN113221884 B CN 113221884B CN 202110522161 A CN202110522161 A CN 202110522161A CN 113221884 B CN113221884 B CN 113221884B
Authority
CN
China
Prior art keywords
low
frequency
sequence
context information
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110522161.7A
Other languages
English (en)
Other versions
CN113221884A (zh
Inventor
杨争艳
吴嘉嘉
张为泰
宋彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202110522161.7A priority Critical patent/CN113221884B/zh
Publication of CN113221884A publication Critical patent/CN113221884A/zh
Application granted granted Critical
Publication of CN113221884B publication Critical patent/CN113221884B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及一种基于低频字存储记忆的文本识别方法及系统,其方法包括:S1:统计训练集中低频字;S2:将待识别的文本行图像进行预处理后,将其输入卷积神经网络以及循环神经网络,获得序列特征;S3:根据序列特征和低频字,利用带注意力机制的解码器,分别获得序列特征的上下文信息和低频字的关联特征;S4:将序列特征的上下文信息与低频字关联特征分别经过一个门控机制,获得各自的置信度;将二者的置信度进行融合,得到文本行图像的识别结果。本发明提供的方法,在识别过程中不仅使用了文本图像的上下文信息,还利用注意力机制将低频字的关联特征引入到每一帧的文字识别中,引入门控机制以防止低频字的关联特征对非低频字的识别造成干扰。

Description

一种基于低频字存储记忆的文本识别方法及系统
技术领域
本发明涉及电子信息技术领域,具体涉及一种基于低频字存储记忆的文本识别方法及系统。
背景技术
随着深度学习的提出和发展,OCR(Optical Character Recognition,光学字符识别)的效果也获得了极大的提升。但是作为一种数据驱动的算法,深度学习需要大量且丰富的训练集才能达到令人满意的效果。然而在中、日、韩等多文字语种的识别任务中,无法针对每一个字符都采集到足够多的训练数据,这就导致低频字的识别效果较差。
现有的针对低频字识别的方案目前主要基于两个方面,一是通过合成文本图像的方式,即合成大量含有低频字的文本图像加入到训练集使得模型能够更好地学习这些低频字的特征;二是引入语言模型,使用大量的语料训练一个语言模型对识别结果进行纠错。
对于合成文本图像的方案,存在两个问题,一是含有低频字的语料难以获得,二是合成的数据与真实数据之间存在差异,加入的合成数据会扩大训练集的类内方差,使得模型学习更加困难,造成其他字符识别效果降低;对于引入语言模型的方案,不同场景下语言模型有所不同,无法针对每一个场景都训练一个语言模型,语言模型的好坏严重影响整体的识别效果。
发明内容
为了解决上述技术问题,本发明提供一种基于低频字存储记忆的文本识别方法及系统。
本发明技术解决方案为:一种基于低频字存储记忆的文本识别方法,包括:
步骤S1:根据训练集中字符出现的频率,得到低频字;
步骤S2:将待识别的文本行图像进行预处理,得到处理后的图像;将所述处理后的图像输入卷积神经网络以及循环神经网络,获得序列特征;
步骤S3:根据所述序列特征,利用带注意力机制的解码器,获得所述序列特征的上下文信息,并利用所述低频字,获取所述低频字的关联特征;
步骤S4:将所述序列特征的上下文信息与所述低频字的关联特征分别经过一个门控机制,获得各自的置信度;将所述序列特征的上下文信息与所述低频字的关联特征的置信度进行融合,得到所述文本行图像的识别结果。
本发明与现有技术相比,具有以下优点:
本发明提出一种基于低频字存储记忆的文本识别方法,在识别过程中不仅使用了文本图像的上下文信息,还利用注意力机制将低频字的关联特征引入到每一帧的文字识别中,同时引入门控机制以防止低频字的关联特征对非低频字的识别造成干扰。
附图说明
图1为本发明实施例中一种基于低频字存储记忆的文本识别方法的流程图;
图2为本发明实施例中一种基于低频字存储记忆的文本识别方法中步骤S2:将待识别的文本行图像进行预处理,得到处理后的图像;将处理后的图像输入卷积神经网络以及循环神经网络,获得序列特征的流程图;
图3为本发明实施例中一种基于低频字存储记忆的文本识别方法中步骤S3:根据序列特征,利用带注意力机制的解码器,获得序列特征的上下文信息,并利用低频字,获取低频字的关联特征的流程图;
图4为本发明实施例中一种基于低频字存储记忆的文本识别方法中步骤S4:将序列特征的上下文信息与低频字的关联特征分别经过一个门控机制,获得各自的置信度;将序列特征的上下文信息与低频字的关联特征的置信度进行融合,得到文本行图像的识别结果的流程图;
图5为本发明实施例中一种基于低频字存储记忆的文本识别方法的流程示意图;
图6为本发明实施例中一种基于低频字存储记忆的文本识别系统的结构框图。
具体实施方式
本发明提供了一种基于低频字存储记忆的文本识别方法,在识别过程中不仅使用了文本图像的上下文信息,还利用注意力机制将低频字的关联特征引入到每一帧的文字识别中,同时引入门控机制以防止低频字的关联特征对非低频字的识别造成干扰。
为了使本发明的目的、技术方案及优点更加清楚,以下通过具体实施,并结合附图,对本发明进一步详细说明。
实施例一
如图1所示,本发明实施例提供的一种基于低频字存储记忆的文本识别方法,包括下述步骤:
步骤S1:根据训练集中字符出现的频率,得到低频字;
步骤S2:将待识别的文本行图像进行预处理,得到处理后的图像;将处理后的图像输入卷积神经网络以及循环神经网络,获得序列特征;
步骤S3:根据序列特征,利用带注意力机制的解码器,获得序列特征的上下文信息,并利用低频字,获取低频字的关联特征;
步骤S4:将序列特征的上下文信息与低频字的关联特征分别经过一个门控机制,获得各自的置信度;将序列特征的上下文信息与低频字的关联特征的置信度进行融合,得到文本行图像的识别结果。
在一个实施例中,上述步骤S1:根据训练集中字符出现的频率,得到低频字,具体包括:
统计训练集中每个字符出现的频率,将字符按照出现的频率大小进行排序,当一个字符在整个训练集中出现频率小于预设阈值时,本发明实施例阈值设为500次,将该字符定义为低频字,从而获取整个训练集的低频字列表。
如图2所示,在一个实施例中,上述步骤S2:将待处理的文本行图像进行预处理,得到处理后的图像;将处理后的图像输入卷积神经网络以及循环神经网络,获得序列特征,具体包括:
步骤S21:将待处理的文本行图像进行预处理,得到处理后的图像;
对待处理的文本行图像进行预处理,对于每个的文本行图像,假设其尺寸为[H,W,C],将其高度H规整到64像素,宽度W按照同比例缩放为W’,C表示通道数,将预处理后的文本行图像的像素值规整到[-1,1]之间。
步骤S22:将处理后的图像输入卷积神经网络,获得文本行图像的特征向量;
在本步骤中,将经过预处理后的文本行图像输入卷积神经网络中进行特征提取,得到尺寸大小为[h,l,d]的特征图。本发明实施例中,卷积神经网络在图像高度方向上进行6次下采样,故得到h=64/26=1,在宽度方向上进行3次下采样,所以l=W’/8;d表示特征图的通道数;将得到的特征图在宽度上进行切片操作,从而得到l个维度是d的特征向量。
步骤S23:将特征向量输入循环神经网络,获得文本行图像的序列特征;
将步骤S22得到的l个维度的特征向量作为输入,经过循环神经网络,本发明实施例采用一层双向LSTM作为循环神经网络,可得到文本行图像的序列特征hi,其序列长度为l。
如图3所示,在一个实施例中,上述步骤S3:根据序列特征,利用带注意力机制的解码器,获得序列特征的上下文信息,并根据低频字,获取低频字的关联特征,具体包括:
步骤S31:将所述序列特征,输入如下述公式(1)~(3)所示的带注意力机制的解码器,获得序列特征的上下文信息ct
eti=o(st-1,hi) (1)
Figure BDA0003064398380000041
Figure BDA0003064398380000042
其中,本发明实施例采用一层单向LSTM作为解码器,st-1为解码器在上一刻隐状态,hi表示序列特征的第i帧,o表示点乘操作;αti为注意力机制的权重,l为特征向量个数;ct为低频字的上下文信息。
步骤S32:低频字用xi∈N(1×M)表示,其中M为低频字个数;xi经过全连接层将其映射为与每个序列特征的维度相同的序列特征h’i
本步骤中,以one-hot向量的形式表示每一个低频字,低频字用xi∈N(1×M)表示。
步骤S33:将h’i输入如下述公式(4)~(6)所示的带注意力机制的解码器,获取低频字的关联特征c′t
e′ti=o(st-1,h′i) (4)
Figure BDA0003064398380000043
Figure BDA0003064398380000044
其中,M为低频字个数。
如图4所示,在一个实施例中,上述步骤S4:将序列特征的上下文信息与低频字的关联特征分别经过一个门控机制,获得各自的置信度;将序列特征的上下文信息与低频字的关联特征的置信度进行融合,得到文本行图像的识别结果,具体包括:
步骤S41:利用下述公式(7)~(9)所示的门控机制,计算序列特征的上下文信息与关联特征的置信度,并进行融合;
Ct=β*ct+γ*c′t (7)
β=sigmoid(WG1*ct) (8)
γ=sigmoid(WG2*c′t) (9)
其中,WG1和WG2门控机制待学习的参数,β和γ为序列特征的上下文信息与低频字的关联特征分别经过门控机制得到的置信度。
步骤S42:利用上一时刻的输出识别结果yt-1和融合后的Ct,将yt-1和Ct经过级联操作,再经过Softmax分类层,输出当前时刻的文本行图像的识别结果yt
图5示出了本发明提供的基于低频字存储记忆的文本识别方法的流程示意图。
本发明提出一种基于低频字存储记忆的文本识别方法,在识别过程中不仅使用了文本图像的上下文信息,还利用注意力机制将低频字的关联特征引入到每一帧的文字识别中,同时引入门控机制以防止低频字的关联特征对非低频字的识别造成干扰。
实施例二
如图6所示,本发明实施例提供了一种基于低频字存储记忆的文本识别系统,包括下述模块:
获取低频字模块51,用于根据训练集中字符出现的频率,得到低频字;
获取文本行图像序列特征模块52,用于将待识别的文本行图像进行预处理,得到处理后的图像;将处理后的图像输入卷积神经网络以及循环神经网络,获得序列特征;
获取序列特征上下文信息以及低频字关联特征模块53,用于根据序列特征,利用带注意力机制的解码器获得序列特征的上下文信息,并利用低频字,获取低频字的关联特征;
文本识别结果模块54,用于将序列特征的上下文信息与低频字的关联特征分别经过一个门控机制,获得各自的置信度;将序列特征的上下文信息与低频字的关联特征的置信度进行融合,得到文本行图像的识别结果。
提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。

Claims (3)

1.一种基于低频字存储记忆的文本识别方法,其特征在于,包括:
步骤S1:根据训练集中字符出现的频率,得到低频字;
步骤S2:将待识别的文本行图像进行预处理,得到处理后的图像;将所述处理后的图像输入卷积神经网络以及循环神经网络,获得序列特征;
步骤S3:根据所述序列特征,利用带注意力机制的解码器,获得所述序列特征的上下文信息,并利用所述低频字,获取所述低频字的关联特征,具体包括如下步骤:
步骤S31:将所述序列特征,输入如下述公式(1)~(3)所示的带注意力机制的解码器,获得所述序列特征的上下文信息ct
eti=o(st-1,hi) (1)
Figure FDA0003689312990000011
Figure FDA0003689312990000012
其中,st-1为所述解码器在上一刻隐状态,hi表示所述序列特征的第i帧,o表示点乘操作;αti为注意力机制的权重,l为特征向量个数;ct为所述低频字的上下文信息;
步骤S32:所述低频字用xi∈N(1×M)表示,其中M为所述低频字个数;xi经过全连接层将其映射为与每个所述序列特征的维度相同的序列h’i
步骤S33:将h’i输入如下述公式(4)~(6)所示的带注意力机制的解码器,获取所述低频字的关联特征c′t
e′ti=o(st-1,h′i) (4)
Figure FDA0003689312990000013
Figure FDA0003689312990000014
其中,M为所述低频字个数;
步骤S4:将所述序列特征的上下文信息与所述低频字的关联特征分别经过一个门控机制,获得各自的置信度;将所述序列特征的上下文信息与所述低频字的关联特征的置信度进行融合,得到所述文本行图像的识别结果,具体包括如下步骤:
步骤S41:利用下述公式(7)~(9)所示的门控机制,计算所述序列特征的上下文信息与所述低频字的关联特征的置信度,并进行融合;
Ct=β*ct+γ*c′t (7)
β=sigmoid(WG1*ct) (8)
γ=sigmoid(WG2*c′t) (9)
其中,WG1和WG2门控机制待学习的参数,β和γ为所述序列特征的上下文信息与所述低频字的关联特征分别经过门控机制得到的置信度;
步骤S42:利用上一时刻的输出识别结果yt-1和融合后的Ct,将yt-1和Ct经过级联操作,再经过Softmax分类层,输出当前时刻的所述文本行图像的识别结果yt
2.根据权利要求1所述的基于低频字存储记忆的文本识别方法,其特征在于,所述步骤S2:将待处理的文本行图像进行预处理,得到处理后的图像;将所述处理后的图像输入卷积神经网络以及循环神经网络,获得序列特征,具体包括:
步骤S21:将待处理的文本行图像进行预处理,得到处理后的图像;
步骤S22:将所述处理后的图像输入所述卷积神经网络,获得所述文本行图像的特征向量;
步骤S23:将所述特征向量输入所述循环神经网络,获得所述文本行图像的序列特征。
3.一种基于低频字存储记忆的文本识别系统,其特征在于,包括下述模块:
获取低频字模块,用于根据训练集中字符出现的频率,得到低频字;
获取文本行图像序列特征模块,用于将待识别的文本行图像进行预处理,得到处理后的图像;将所述处理后的图像输入卷积神经网络以及循环神经网络,获得序列特征;
获取序列特征上下文信息以及低频字关联特征模块,用于根据所述序列特征,利用带注意力机制的解码器获得所述序列特征的上下文信息,并利用所述低频字,获取所述低频字的关联特征,具体包括:
步骤S31:将所述序列特征,输入如下述公式(1)~(3)所示的带注意力机制的解码器,获得所述序列特征的上下文信息ct
eti=o(st-1,hi) (1)
Figure FDA0003689312990000021
Figure FDA0003689312990000022
其中,st-1为所述解码器在上一刻隐状态,hi表示所述序列特征的第i帧,o表示点乘操作;αti为注意力机制的权重,l为特征向量个数;ct为所述低频字的上下文信息;
步骤S32:所述低频字用xi∈N(1×M)表示,其中M为所述低频字个数;xi经过全连接层将其映射为与每个所述序列特征的维度相同的序列h’i
步骤S33:将h’i输入如下述公式(4)~(6)所示的带注意力机制的解码器,获取所述低频字的关联特征c′t
e′ti=o(st-1,h′i) (4)
Figure FDA0003689312990000031
Figure FDA0003689312990000032
其中,M为所述低频字个数;
文本识别结果模块,用于将所述序列特征的上下文信息与所述低频字的关联特征分别经过一个门控机制,获得各自的置信度;将所述序列特征的上下文信息与所述低频字的关联特征的置信度进行融合,得到所述文本行图像的识别结果,具体包括:
步骤S41:利用下述公式(7)~(9)所示的门控机制,计算所述序列特征的上下文信息与所述低频字的关联特征的置信度,并进行融合;
Ct=β*ct+γ*c′t (7)
β=sigmoid(WG1*ct) (8)
γ=sigmoid(WG2*c′t) (9)
其中,WG1和WG2门控机制待学习的参数,β和γ为所述序列特征的上下文信息与所述低频字的关联特征分别经过门控机制得到的置信度;
步骤S42:利用上一时刻的输出识别结果yt-1和融合后的Ct,将yt-1和Ct经过级联操作,再经过Softmax分类层,输出当前时刻的所述文本行图像的识别结果yt
CN202110522161.7A 2021-05-13 2021-05-13 一种基于低频字存储记忆的文本识别方法及系统 Active CN113221884B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110522161.7A CN113221884B (zh) 2021-05-13 2021-05-13 一种基于低频字存储记忆的文本识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110522161.7A CN113221884B (zh) 2021-05-13 2021-05-13 一种基于低频字存储记忆的文本识别方法及系统

Publications (2)

Publication Number Publication Date
CN113221884A CN113221884A (zh) 2021-08-06
CN113221884B true CN113221884B (zh) 2022-09-06

Family

ID=77095400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110522161.7A Active CN113221884B (zh) 2021-05-13 2021-05-13 一种基于低频字存储记忆的文本识别方法及系统

Country Status (1)

Country Link
CN (1) CN113221884B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107305630A (zh) * 2016-04-25 2017-10-31 腾讯科技(深圳)有限公司 文本序列识别方法和装置
CN107797992A (zh) * 2017-11-10 2018-03-13 北京百分点信息科技有限公司 命名实体识别方法及装置
CN110097049A (zh) * 2019-04-03 2019-08-06 中国科学院计算技术研究所 一种自然场景文本检测方法及系统
CN111126410A (zh) * 2019-12-31 2020-05-08 讯飞智元信息科技有限公司 字符识别方法、装置、设备及可读存储介质
CN111199727A (zh) * 2020-01-09 2020-05-26 厦门快商通科技股份有限公司 语音识别模型训练方法、系统、移动终端及存储介质
CN111553349A (zh) * 2020-04-26 2020-08-18 佛山市南海区广工大数控装备协同创新研究院 一种基于全卷积网络的场景文本定位与识别方法
CN112446233A (zh) * 2019-08-28 2021-03-05 北京大学深圳研究生院 一种基于多时间尺度推理的动作识别方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107305630A (zh) * 2016-04-25 2017-10-31 腾讯科技(深圳)有限公司 文本序列识别方法和装置
CN107797992A (zh) * 2017-11-10 2018-03-13 北京百分点信息科技有限公司 命名实体识别方法及装置
CN110097049A (zh) * 2019-04-03 2019-08-06 中国科学院计算技术研究所 一种自然场景文本检测方法及系统
CN112446233A (zh) * 2019-08-28 2021-03-05 北京大学深圳研究生院 一种基于多时间尺度推理的动作识别方法及装置
CN111126410A (zh) * 2019-12-31 2020-05-08 讯飞智元信息科技有限公司 字符识别方法、装置、设备及可读存储介质
CN111199727A (zh) * 2020-01-09 2020-05-26 厦门快商通科技股份有限公司 语音识别模型训练方法、系统、移动终端及存储介质
CN111553349A (zh) * 2020-04-26 2020-08-18 佛山市南海区广工大数控装备协同创新研究院 一种基于全卷积网络的场景文本定位与识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Fused Confidence for Scene Text Detection via Intersection-over-Union;Guo-lin Zhang等;《2019 IEEE 19th International Conference on Communication Technology (ICCT)》;20200102;第1540-1543页 *
基于部首嵌入和注意力机制的病虫害命名实体识别;郭旭超等;《农业机械学报》;20201231;第51卷;第335-343页 *

Also Published As

Publication number Publication date
CN113221884A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN108460356B (zh) 一种基于监控系统的人脸图像自动处理系统
CN109815826B (zh) 人脸属性模型的生成方法及装置
CN107239801B (zh) 视频属性表示学习方法及视频文字描述自动生成方法
CN112733822B (zh) 一种端到端文本检测和识别方法
CN110399821B (zh) 基于人脸表情识别的顾客满意度获取方法
CN111414906A (zh) 纸质票据图片的数据合成与文本识别方法
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN113343937B (zh) 一种基于深度卷积和注意力机制的唇语识别方法
CN112686345B (zh) 一种基于注意力机制的脱机英文手写识别方法
CN112287941B (zh) 一种基于自动字符区域感知的车牌识别方法
CN112307995A (zh) 一种基于特征解耦学习的半监督行人重识别方法
CN113255659A (zh) 一种基于MSAFF-Yolov3的车牌校正检测识别方法
CN115393396B (zh) 一种基于掩码预训练的无人机目标跟踪方法
CN114220154A (zh) 一种基于深度学习的微表情特征提取与识别方法
CN115937254B (zh) 一种基于半监督学习的多空中飞行目标跟踪方法和系统
CN112418225A (zh) 一种面向地址场景识别的离线文字识别方法
CN115718815A (zh) 一种跨模态检索方法和系统
CN113807214B (zh) 基于deit附属网络知识蒸馏的小目标人脸识别方法
CN113052017B (zh) 一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法
Hoxha et al. Remote sensing image captioning with SVM-based decoding
CN113221884B (zh) 一种基于低频字存储记忆的文本识别方法及系统
US20230262293A1 (en) Video synthesis via multimodal conditioning
CN113221885B (zh) 一种基于整字和偏旁部首的层次化建模方法及系统
CN108460406B (zh) 基于最小单纯形融合特征学习的场景图像属性识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant