CN112288018A - 文字识别网络的训练方法、文字识别方法和装置 - Google Patents

文字识别网络的训练方法、文字识别方法和装置 Download PDF

Info

Publication number
CN112288018A
CN112288018A CN202011192939.4A CN202011192939A CN112288018A CN 112288018 A CN112288018 A CN 112288018A CN 202011192939 A CN202011192939 A CN 202011192939A CN 112288018 A CN112288018 A CN 112288018A
Authority
CN
China
Prior art keywords
character
picture
text
type
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011192939.4A
Other languages
English (en)
Other versions
CN112288018B (zh
Inventor
蔡晓聪
侯军
伊帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Priority to CN202011192939.4A priority Critical patent/CN112288018B/zh
Publication of CN112288018A publication Critical patent/CN112288018A/zh
Application granted granted Critical
Publication of CN112288018B publication Critical patent/CN112288018B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)

Abstract

本公开实施例提供一种文字识别网络的训练方法、文字识别方法和装置,其中,文字识别网络的训练方法可以包括:对输入所述文字识别网络的文字图片样本进行特征提取,得到图片特征,所述文字图片样本中包括待识别的目标文字;基于所述图片特征,分别得到所述文字识别网络输出的所述目标文字的字符预测结果和类型预测结果;根据目标文字的字符预测结果和对应的字符标签值得到字符损失,并根据所述目标文字的类型预测结果和对应的类型标签值得到类型损失;基于所述字符损失和所述类型损失,调整所述文字识别网络的网络参数。本公开实施例提升了网络的鲁棒性和多语言文字识别的识别精度。

Description

文字识别网络的训练方法、文字识别方法和装置
技术领域
本公开涉及光学字符识别技术,具体涉及一种文字识别网络的训练方法、文字识别方法和装置。
背景技术
真实场景下的文字识别是计算机视觉以及智能视频分析的一大研究方向。文字识别可以在多种场景中应用,例如,招牌文字识别、车牌识别、票据识别等。对于多语言文字(例如,中文、英文、泰文等)的识别,可以使用多个单语言识别模型来实现,每个单语言识别模型负责识别一种类型的语言。但是这种方式在实际部署使用时,若需要识别的语言类型比较多,部署的模型数量也较多,导致占用的硬件资源比较多。另一种比较高效的实现方式是通过一个多语言识别模型同时识别多种类型的语言,所占用的资源也只是单个模型的量级。
发明内容
有鉴于此,本公开实施例至少提供一种文字识别网络的训练方法、文字识别方法和装置。
第一方面,提供一种文字识别网络的训练方法,所述方法包括:
对输入所述文字识别网络的文字图片样本进行特征提取,得到图片特征,所述文字图片样本中包括待识别的目标文字;
基于所述图片特征,分别得到所述文字识别网络输出的所述目标文字的字符预测结果和类型预测结果;
根据所述目标文字的字符预测结果和对应的字符标签值得到字符损失,并根据所述目标文字的类型预测结果和对应的类型标签值得到类型损失;
基于所述字符损失和所述类型损失,调整所述文字识别网络的网络参数。
第二方面,提供一种文字识别方法,所述方法包括:
通过文字识别网络对获取的文字图片进行特征提取,得到图片特征,所述文字图片中包括待识别的目标文字;
基于所述图片特征,对所述目标文字进行字符分类预测,得到所述目标文字的字符预测结果;其中,所述文字识别网络采用本公开任一实施例所述的训练方法训练得到。
第三方面,提供一种文字识别网络的训练装置,所述装置包括:
特征提取模块,用于对输入所述文字识别网络的文字图片样本进行特征提取,得到图片特征,所述文字图片样本中包括待识别的目标文字;
分类预测模块,用于基于所述图片特征,分别得到所述文字识别网络输出的所述目标文字的字符预测结果和类型预测结果;
参数调整模块,用于根据所述目标文字的字符预测结果和对应的字符标签值得到字符损失,并根据所述目标文字的类型预测结果和对应的类型标签值得到类型损失;基于所述字符损失和所述类型损失,调整所述文字识别网络的网络参数。
第四方面,提供一种文字识别装置,所述装置包括:
特征提取模块,用于对获取的文字图片进行特征提取,得到图片特征,所述文字图片中包括待识别的目标文字;
分类预测模块,用于基于所述图片特征,对所述目标文字进行字符分类预测,得到所述目标文字的字符预测结果;其中,所述特征提取模块和分类预测模块通过本公开任一实施例所述的训练方法训练得到。
第五方面,提供一种电子设备,所述设备包括存储器、处理器,所述存储器用于存储可在处理器上运行的计算机指令,所述处理器用于在执行所述计算机指令时实现本公开任一实施例所述的方法。
第六方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本公开任一实施例所述的方法。
本公开实施例提供的文字识别网络的训练方法、文字识别方法和装置,通过采用文字字符分类的训练任务结合文字类型分类的训练任务的多任务训练方式,由于在网络训练过程中,同时对文字字符和类型的识别进行监督训练,由于网络参数的调整也依据了类别识别分支对应的LOSS,使得训练完的网络对文字类型的识别能力得到提升,那么,字符识别分支在识别字符时,由于对文字类型识别的能力较好,就辅助加强了对字符的识别效果,比如,即使两个不同类型的字符在形态上相似,但是由于类型识别能力较好,就可以很好的区分出不同的类型,从而避免这两个形态形式的字符产生识别混淆,因此,该方案实现了通过类型的识别来辅助训练字符识别的效果,在对文字字符识别时能够同时兼顾类型的分类,从而增强了文字识别网络对于不同语言类型的文字的区分能力,减少了不同语言类型的文字在预测中相互混淆的情况,提升了网络的鲁棒性和多语言文字识别的识别精度。
附图说明
为了更清楚地说明本公开一个或多个实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开一个或多个实施例中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了本公开至少一个实施例提供的一种文字识别网络的训练方法;
图2示出了本公开至少一个实施例提供的一种文字识别网络的训练框架;
图3示出了本公开至少一个实施例提供的一种文字识别方法的流程图;
图4示出了本公开至少一个实施例提供的一种文字识别网络的训练装置;
图5示出了本公开至少一个实施例提供的一种文字识别装置的结构示意图;
图6示出了本公开至少一个实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本公开一个或多个实施例中的技术方案,下面将结合本公开一个或多个实施例中的附图,对本公开一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。
相关技术中,在使用多语言识别模型进行多种类型语言的识别时,发现存在如下问题:尽管不同语言类型的文字形态有所差异,同时也存在不同语言类型的文字形态有所相似的情况,上述多语言识别模型在进行多语言文字的识别时,存在多种语言的文字相互混淆的情况。例如,该模型将一个中文的文字识别为一个泰文的文字,因此,多语言文字的文字识别效果有待提高。
有鉴于此,本公开实施例提供了一种文字识别网络,该文字识别网络可以用于识别多语言类型的文字,例如,可以用于识别中文文字、英文文字、泰文文字、日文文字等。鉴于不同语言类型的文字之间可能存在文字形态相似的情况,为了避免出现相似文字间识别混淆的情况,本公开实施例采用了多任务学习的方式来训练该文字识别网络,以增强文字识别网络对于不同语言类型的区分能力。
图1示例了一种文字识别网络的训练方法,如图1所示,该方法可以包括:
在步骤100中,对输入所述文字识别网络的文字图片样本进行特征提取,得到图片特征,所述文字图片样本中包括待识别的目标文字。
本步骤中,可以通过文字图片样本的集合来训练文字识别网络,该文字图片样本集合中包括的文字图片样本中,可以包括至少一种语言类型的目标文字。例如,当文字图片样本中包括一种语言类型的目标文字时,可以将该文字图片样本称为第一文字图片样本;当文字图片样本中包括至少两种语言类型的目标文字时,可以将该文字图片样本称为第二文字图片样本。
上述的文字图片样本集合中可以包括第一文字图片样本和第二文字图片样本的至少一种,而不论包括哪种类型的文字图片样本,该集合整体中包括待训练的文字识别网络能够识别的所有语言类型的目标文字。例如,假设该待训练的文字识别网络的目标是能够识别中/英/泰三种类型的文字,那么,文字图片样本集合中的每个样本只包括中/英/泰其中一种语言类型的目标文字,但集合整体中包括了所有类型的文字;或者,至少部分样本上包括中/英/泰中的至少两种。
以其中一个文字图片样本为例,本步骤在对该文字图片样本进行特征提取时,可以采用卷积神经网络(Convolutional Neural Networks,CNN)进行特征序列的提取,可以采用一般的图像分类中使用的卷积神经网络,如VGG、ResNet等。具体的,实际实施中,在提取文字图片样本的图片特征时,可以先通过卷积层由文字图片样本中提取到多个特征图,然后根据这多个特征图去提取特征序列。其中,在由上述多个特征图提取特征序列时,可以是将所有特征图中处于同一列的像素连接,得到一个特征切片。例如,假设提取得到了512个特征图,那么第i个特征切片是所有的特征图中第i列像素的连接,每个特征切片包括512维特征。所有的特征切片组合得到一个特征序列。此外,直观来看,每一个特征切片对应于文字图片样本的一个局部感受野,例如,可以将文字图片样本从左到右分割成一列一列的,每一列可以对应图片样本的一个宽度(比如,一个像素的宽度),上面所述的一个特征切片就相当于对应该图片样本一列提取得到,这一列就是上述的一个局部感受野。该步骤得到的特征序列即可以称为对文字图片样本进行特征提取得到的图片特征。
在步骤102中,基于所述图片特征,分别得到所述文字识别网络输出的所述目标文字的字符预测结果和类型预测结果。
本步骤中,对文字图片样本进行特征提取得到的图片特征,可以并行进行两个分支的处理。其中第一种处理是根据该图片特征进行文字字符的分类预测,得到字符预测结果,该字符预测结果用于表示具体是什么内容的字符。第二种处理是根据该图片特征进行文字类型的分类预测,得到类型预测结果,该类型预测结果用于表示目标文字属于多种语言类型中的哪一种,比如,属于泰文。上述的两个方面的处理,第二种处理相当于是从字符的整体形态上去学习不同语言类型的字符形态上的差异,而第一种处理相当于是从字符的细节结构上去学习该字符的具体结构来识别字符。
如上还可以看到,文字字符的分类预测和文字类型的分类预测,都是基于相同的图片特征,均是步骤100中提取得到的图片特征。
示例性的,当输入文字识别网络的文字图片样本是第二文字图片样本时,例如,该第二文字图片样本中同时包括中/英/泰三种类型的文字,那么经过分类预测后,得到的字符预测结果中包括上述中文、英文、泰文的每个文字的字符,以及类型预测结果中包括该每个文字字符对应所属的语言类型。
在步骤104中,根据目标文字的字符预测结果和对应的字符标签值得到字符损失,并根据目标文字的类型预测结果和对应的类型标签值得到类型损失;并基于所述字符损失和类型损失,调整所述文字识别网络的网络参数。
本步骤中,待识别的目标文字可以有两种标签,一种标签是字符标签值(Label1),步骤102中得到的字符预测结果可以与该字符标签值比较,得到字符损失。另一种标签是类型标签值(Label 2),步骤102中得到的类型预测结果可以与该类型标签值比较,得到类型损失。该字符损失和类型损失例如可以使用CTC loss计算得到。
在基于该字符损失和类型损失来调整文字识别网络的网络参数时,可以根据字符损失和类型损失得到总损失,再基于该总损失调整文字识别网络的网络参数。例如,可以将字符损失和类型损失的损失值进行加权求和(示例性的,字符损失的权重可以高于类型损失的权重),得到总损失,并基于该总损失进行梯度反传和参数更新。此外,在进行参数更新时,上述的字符损失对应的分支训练以及类型损失对应的分支训练都会对该文字识别网络中的共享网络部分(即用于提取图片特征的网络)的参数产生影响,从而使得该网络对文字字符和类型的识别能力都得到提高。
经过上述的多次迭代训练,最终可以得到训练完成的文字识别网络。此外,在该文字识别网络的训练过程中,对文字图片样本的格式、样本集合的规模等都没有限制。
本实施例的文字识别网络的训练方法,通过采用文字字符分类的训练任务结合文字类型分类的训练任务的多任务训练方式,使得能够通过文字类型分类的训练提高网络对文字类型识别的能力,从而结合文字类型的区分来识别文字字符,就可以增强文字识别网络对于不同语言类型的文字字符的区分能力,减少了不同语言类型的文字在预测中相互混淆的情况,提升了网络的鲁棒性和多语言文字识别的识别精度。
图2示例了一种文字识别网络的训练框架,如图2所示,在网络训练阶段,该文字识别网络可以包括:特征提取子网络21、第一分类子网络22和第二分类子网络23。其中,第一分类子网络22和第二分类子网络23并行,且分别与特征提取子网络21连接。其中,第一分类子网络22用于预测文字字符,第二分类子网络23用于预测文字对应的语言类型。
需要说明的是,第二分类子网络23在文字识别网络的训练阶段存在,但是在训练完成之后的网络应用阶段将不存在,在网络应用阶段,文字识别网络包括特征提取子网络21和第一分类子网络22。
如下将以一个酒店订单的文字图片样本为例,描述本实施例的文字识别网络的训练过程,但是可以理解的是,该文字识别网络也可以采用其他类型的文字图片样本来训练。同样的,在后续训练完成该文字图片样本之后,既可以用该文字识别网络识别酒店订单上的文字,也可以应用于识别其他场景中的文字,即该文字识别网络可以用于识别各种场景下的多语言类型的文字。
例如,假设该文字识别网络的训练目标是用于识别中文、英文、泰文三种语言类型的文字,并且,假设英文有70类,中文有3000类,泰文有1000类,那么用于识别文字字符(character level)的第一分类子网络22可以是一个1+70+3000+1000=4071类的一个分类器,其中,“1”个类别是占位符的类别,占位符的使用是CTC训练方式所需要的,主要是用于学习文字图像中的空白部分(即没有文字的部分)。用于识别文字类型(language level)的第二分类子网络23可以是一个4分类的分类器,其中,该4分类的分类器用于识别的四个类别中,三个类别是语言类型,例如,一种类别是英文,另一种类别是中文,再一种类别是泰文,除了这三种语言类型外,还有1个类别是占位符。
如下以其中一个文字图片样本为例,描述在网络训练阶段通过图2所示的网络对该文字图片样本的处理过程。假设有一个酒店订单,可以先通过订单分行处理,获取到该订单中的部分文本行,例如,该文本行中包括所订酒店的酒店名称“Social Hotel(社会酒店)”,并且该酒店名称中同时包括了英文和中文。可以将包括该“Social Hotel(社会酒店)”的图片作为文字图片样本输入训练中的文字识别网络。
首先,文字识别网络中的特征提取子网络21,可以是卷积神经网络,通过对文字图片样本进行特征提取,可以得到图片特征,该图片特征可以是特征序列的形式。
其次,在提取到图片特征后,可以将该图片特征分别输入第一分类子网络22和第二分类子网络23。该第一分类子网络22和第二分类子网络23是两个并行的任务分支,其中,第一分类子网络22可以是负责字符级别识别的分类器,用于所有语言类型的字符集合的类别分类,得到字符预测结果,比如,文字图片样本中包括的上述“Social Hotel(社会酒店)”,在识别时,可以是逐个字符的识别,例如,识别其中的“H”时,可以根据分类器输出的各个类别的置信度,每一类别对应一个单个字符,确定该“H”对应的置信度高于阈值,因此识别结果是“H”。从而可以逐个的将“S”、“o”、“c”、“i”、“a”、“l”…“社”、“会”等字符都识别得到。第二分类子网络23可以是负责语言类型级别识别的分类器,用于识别字符所属的语言类型(例如,属于中文或者泰文),比如,字符“S”对应的识别类型是“英”,“社”对应的识别类型是“中”。
接着,本实施例是采用多任务学习的方式进行训练,所以文字图片样本具有对应两种任务的标签:字符级别的字符标签值(Label 1)以及语言类型级别的类型标签值(Label 2)。可以根据所述字符预测结果以及所述目标文字的字符标签值,得到字符损失;并根据所述类型预测结果以及所述目标文字的类型标签值,得到类型损失。根据所述字符损失和类型损失,得到总损失。
例如,可以根据第一分类子网络22输出的字符预测结果与对应的字符标签值计算CTC Loss,得到的结果即字符损失。还可以根据第二分类子网络23输出的类型预测结果与对应的类型标签值,计算CTC Loss,得到的结果即类型损失。再将上述的字符损失和类型损失加权求和,得到总损失。本实施例并不限制字符损失和类型损失各自的权重数值,两者的权重数值可以相同也可以不同。
最后,基于所述总损失进行梯度反传和参数更新,调整文字识别网络中的特征提取子网络、第一分类子网络和第二分类子网络中至少一个子网络的网络参数。例如,当特征提取子网络是卷积神经网络时,可以调整该卷积神经网络中的网络参数,还可以调整第一分类子网络和第二分类子网络中的全连接层的网络参数,等。经过多次的迭代训练,最终得到训练完成的文字识别网络。
本实施例的文字识别网络的训练方法,通过第一分类子网络和第二分类子网络两个分支同时进行监督训练,使得第二分类子网络可以辅助第一分类子网络进行训练,从而使得能够通过文字类型分类的训练提高网络对文字类型识别的能力,从而结合文字类型的区分来识别文字字符,第一分类子网络能够学习的更加鲁棒,减少了不同语言类型的文字在预测中相互混淆的情况。
在训练完成文字识别网络后,可以应用该文字识别网络进行文字识别。其中,在网络应用阶段,该文字识别网络中不再包括第二分类子网络,可以包括特征提取子网络和第一分类子网络。
图3示例了一种文字识别方法,该方法可以用于识别多语言文字,比如,使用同一个文字识别网络,既能识别中文文字,也能识别泰文文字,还能识别出英文。如图3所示,该方法可以包括:
在步骤300中,通过文字识别网络对获取的文字图片进行特征提取,得到图片特征,所述文字图片中包括待识别的目标文字。
本步骤中,可以获取待识别的文字图片,所述文字图片中包括待识别的目标文字。例如,该目标文字可以是多语言文字中的其中一种。比如,该文字图片可以包括酒店订单中的至少部分文字,并且该至少部分文字中包括至少两种语言类型的文字。例如可以包括用英文和中文写明的酒店名称“Social Hotel(社会酒店)”或酒店地址。
在步骤302中,利用文字识别网络基于所述图片特征进行字符分类预测,得到所述目标文字的字符预测结果,其中,该文字识别网络是采用本公开任一实施例的训练方法训练获得。
其中,在利用前述的本公开任一实施例所述的训练方法训练好该文字识别网络之后,应用该网络进行文字识别时,该文字识别网络可以只包括第一分类子网络,即用于识别文字字符的子网络,而训练阶段使用的第二分类子网络则可以没有。利用上述第一分类子网络进行识别的过程与训练阶段的识别过程一致,不再详述。比如,可以利用卷积神经网络对输入的文字图片提取特征序列,并根据该特征序列通过第一分类子网络的处理得到字符级别的字符预测结果。例如,可以识别到“Social Hotel(社会酒店)”中包括的“S”、“o”、“c”、…“社”、“会”等字符,这些字符包括了不同语言类型的字符。再根据CTC的解析规则,去除占位符和去除重复字符后,得到最终的预测结果。例如,在得到字符预测结果后,可以将重复的字符去除掉,比如,识别结果中有两个c,那就去掉一个c;接着,可以将占位符对应的识别结果去除,如果识别出一个字符是占位符,通常表示这个字符位置是空白,该空白字符例如通常是字符间距,再将重复字符和空白字符去掉后,剩余的字符即最终识别结果,获得了识别到的“Social Hotel(社会酒店)”。
本实施例的文字识别方法,由于在识别时使用的文字识别网络是采用字符识别任务和类型识别任务的多任务学习方式进行训练,使得该文字识别网络增强了对于文字类型的区分能力,具有更好的鲁棒性,从而识别得到的文字更加准确;并且,该文字识别网络在应用阶段去掉了第二分类子网络,也就是说,训练完成的该文字识别网络与现有技术相比,都是通过训练好的第一分类子网络进行识别,所以相比于现有技术来说,并没有增加利用该网络进行文字识别的时间,而识别的精度却有了提升。
实际实施中,使用本公开实施例训练得到的文字识别网络来进行多语言类型的文字识别,可以在云端执行,例如,可以将待识别的文字图片上传到云端,并接收云端返回的识别结果。在其他的实施例中,考虑到云端处理可能导致一定的处理延时,还可以在移动终端侧执行通过文字识别网络识别多语言类型文字的处理,这样可以减少移动终端与云端的交互,即移动终端可以不需要将图片上传云端,并等待云端反馈图片的识别、处理结果,从而降低延时。比如,可以通过移动终端侧的应用程序、或者通过应用程序内部接口调用小程序执行识别处理。本公开实施例训练得到文字识别网络在提升了网络识别精度的同时,并没有增加网络处理时间,该网络是一种结构简单的高精度识别网络,计算资源消耗较少,能够适用于上述的移动终端侧处理;并且,该文字识别网络功能强大,能够通过同一个网络识别多种语言类型的文字,而占用的资源也仅是单个网络的量级。上述的移动终端可以包括但不限于智能手机、平板电脑、笔记本等便携式终端。
示例一种使用该文字识别网络进行文字识别的应用场景:例如,用户在自己的手机使用一款用于办理签证的小程序,用户可以在该小程序直接上传办理签证所需的相关文字图片、pdf文档等,比如,酒店订单、护照信息、往返行程信息等。以图片为例,这些图片上通常会包括多种语言类型的待识别的文字,该办理签证的小程序可以通过本公开实施例训练得到的文字识别网络对用户上传的文字图片进行文字识别,该网络可以同时识别多种语言类型的文字,不论酒店订单或往返行程信息上包括何种语言类型的文字,该文字识别网络都可以识别出来。如此,用户使用该手机侧的小程序,在利用手机的计算资源的基础上就高效且高精度的处理了用户上传的图片,辅助用户快速办理了签证手续。
图4提供了本公开一示例性实施例的文字识别网络的训练装置的结构示意图,该装置可以应用于本公开任一实施例的文字识别网络的训练方法。如图4所示,该装置可以包括:特征提取模块41、分类预测模块42和参数调整模块43。
特征提取模块41,用于对输入所述文字识别网络的文字图片样本进行特征提取,得到图片特征,所述文字图片样本中包括待识别的目标文字;
分类预测模块42,用于基于所述图片特征,分别得到所述文字识别网络输出的所述目标文字的字符预测结果和类型预测结果;
参数调整模块43,用于根据所述目标文字的字符预测结果和对应的字符标签值得到字符损失,并根据所述目标文字的类型预测结果和对应的类型标签值得到类型损失;基于所述字符损失和所述类型损失,调整所述文字识别网络的网络参数。
在一些例子中,所述特征提取模块是所述文字识别网络中的特征提取子网络。分类预测模块42可以包括第一分类子网络和第二分类子网络。其中,第一分类子网络,用于基于所述图片特征对目标文字进行字符分类预测,得到所述字符预测结果。第二分类子网络,用于基于所述图片特征对目标文字进行类型分类预测,得到类型预测结果。参数调整模块43具体用于调整所述特征提取子网络、第一分类子网络和第二分类子网络中至少一个子网络的网络参数。
在一些例子中,特征提取模块41,具体用于对输入所述文字识别网络的第一文字图片样本或者第二文字图片样本进行特征提取得到图片特征,其中,所述第一文字图片样本中包括一种语言类型的目标文字,所述第二文字图片样本中包括至少两种语言类型的目标文字。
在一些例子中,参数调整模块43,具体用于根据所述字符损失和所述类型损失,得到总损失;并基于所述总损失,调整所述文字识别网络的网络参数。
图5提供了本公开一示例性实施例的文字识别装置的结构示意图,该装置可以应用于本公开任一实施例的文字识别方法。如图5所示,该装置可以包括:特征提取模块51和分类预测模块52。
特征提取模块51,用于对获取的文字图片进行特征提取,得到图片特征,所述文字图片中包括待识别的目标文字;
分类预测模块52,用于基于所述图片特征,对所述目标文字进行字符分类预测,得到所述目标文字的字符预测结果;其中,所述特征提取模块和分类预测模块通过本公开任一实施例的训练方法训练得到。
在一些例子中,所述特征提取模块获取的所述文字图片中包括至少两种语言类型的目标文字。所述分类预测模块52,具体用于基于所述图片特征,对所述目标文字进行字符分类预测,得到所述目标文字中包括的至少两种语言类型的文字中每个字符的字符预测结果。
在一些例子中,所述文字图片包括酒店订单;所述目标文字的字符预测结果包括所述酒店订单中至少两种语言类型的文字。
在一些实施例中,上述装置可以用于执行上文所述的对应任意方法,为了简洁,这里不再赘述。
如图6所示,本公开实施例还提供了一种电子设备,所述设备包括存储器61、处理器62和内部总线63,存储器61和处理器62通过内部总线63连接,所述存储器61用于存储计算机可读指令,所述处理器62用于调用所述计算机指令,实现本说明书任一实施例的文字识别网络的训练方法或者文字识别方法。
本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本说明书任一实施例的文字识别网络的训练方法或者文字识别方法。
本领域技术人员应明白,本公开一个或多个实施例可提供为方法、系统或计算机程序产品。因此,本公开一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本公开一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开实施例还提供一种计算机可读存储介质,该存储介质上可以存储有计算机程序,所述程序被处理器执行时实现本公开任一实施例描述的用于文字识别的神经网络的训练方法的步骤,和/或,实现本公开任一实施例描述的文字识别方法的步骤。
其中,本公开实施例所述的“和/或”表示至少具有两者中的其中一个,例如,“多和/或B”包括三种方案:多、B、以及“多和B”。
本公开中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于数据处理设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本公开特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本公开中描述的主题及功能操作的实施例可以在以下中实现:数字电子电路、有形体现的计算机软件或固件、包括本公开中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本公开中描述的主题的实施例可以实现为一个或多个计算机程序,即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地,程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。
本公开中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行,以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPG多(现场可编程门阵列)或多SIC(专用集成电路)来执行,并且装置也可以实现为专用逻辑电路。
适合用于执行计算机程序的计算机包括,例如通用和/或专用微处理器,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘等,或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据,抑或两种情况兼而有之。然而,计算机不是必须具有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PD多)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备,仅举几例。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备,例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。
虽然本公开包含许多具体实施细节,但是这些不应被解释为限制任何公开的范围或所要求保护的范围,而是主要用于描述特定公开的具体实施例的特征。本公开内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
以上所述仅为本公开一个或多个实施例的较佳实施例而已,并不用以限制本公开一个或多个实施例,凡在本公开一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开一个或多个实施例保护的范围之内。

Claims (12)

1.一种文字识别网络的训练方法,其特征在于,所述方法包括:
对输入所述文字识别网络的文字图片样本进行特征提取,得到图片特征,所述文字图片样本中包括待识别的目标文字;
基于所述图片特征,分别得到所述文字识别网络输出的所述目标文字的字符预测结果和类型预测结果;
根据所述目标文字的字符预测结果和对应的字符标签值得到字符损失,并根据所述目标文字的类型预测结果和对应的类型标签值得到类型损失;
基于所述字符损失和所述类型损失,调整所述文字识别网络的网络参数。
2.根据权利要求1所述的方法,其特征在于,所述文字识别网络包括:特征提取子网络、第一分类子网络和第二分类子网络;其中,并行的所述第一分类子网络和第二分类子网络分别与所述特征提取子网络连接;
所述对输入所述文字识别网络的文字图片样本进行特征提取,得到图片特征,包括:通过所述特征提取子网络对所述文字图片样本进行特征提取,得到图片特征;
所述基于所述图片特征,分别得到所述文字识别网络输出的所述目标文字的字符预测结果和类型预测结果,包括:
通过所述第一分类子网络进行字符分类预测,得到所述字符预测结果;
通过所述第二分类子网络进行类型分类预测,得到所述类型预测结果;
所述基于所述字符损失和所述类型损失,调整所述文字识别网络的网络参数,包括:调整所述特征提取子网络、第一分类子网络和第二分类子网络中至少一个子网络的网络参数。
3.根据权利要求1所述的方法,其特征在于,用于训练所述文字识别网络的文字图片样本集合中,包括如下至少一种文字图片样本:
第一文字图片样本,所述第一文字图片样本中包括一种语言类型的目标文字;
第二文字图片样本,所述第二文字图片样本中包括至少两种语言类型的目标文字。
4.根据权利要求3所述的方法,其特征在于,在输入所述文字识别网络的文字图片样本包括所述第二文字图片样本的情况下,所述基于所述图片特征,分别得到所述文字识别网络输出的所述目标文字的字符预测结果和类型预测结果,包括:
基于所述图片特征进行字符分类预测,得到所述第二文字图片样本中的至少两种类型的目标文字中每个文字对应的字符预测结果;
基于所述图片特征进行类型分类预测,得到所述第二文字图片样本中的至少两种类型的目标文字中每个文字对应的类型预测结果。
5.根据权利要求1~4任一所述的方法,其特征在于,所述基于所述字符损失和所述类型损失,调整所述文字识别网络的网络参数,包括:
根据所述字符损失和所述类型损失,得到总损失;
基于所述总损失,调整所述文字识别网络的网络参数。
6.一种文字识别方法,其特征在于,所述方法包括:
通过文字识别网络对获取的文字图片进行特征提取,得到图片特征,所述文字图片中包括待识别的目标文字;
基于所述图片特征,对所述目标文字进行字符分类预测,得到所述目标文字的字符预测结果;其中,所述文字识别网络采用权利要求1~5任一所述的训练方法训练得到。
7.根据权利要求6所述的方法,其特征在于,所述文字图片中,包括至少两种语言类型的目标文字;
所述基于所述图片特征,对所述目标文字进行字符分类预测,得到所述目标文字的字符预测结果,包括:
基于所述图片特征,对所述目标文字进行字符分类预测,得到所述目标文字中包括的至少两种语言类型的文字中每个字符的字符预测结果。
8.根据权利要求6或7所述的方法,其特征在于,
所述文字图片包括酒店订单;所述目标文字的字符预测结果包括所述酒店订单中至少两种语言类型的文字。
9.一种文字识别网络的训练装置,其特征在于,所述装置包括:
特征提取模块,用于对输入所述文字识别网络的文字图片样本进行特征提取,得到图片特征,所述文字图片样本中包括待识别的目标文字;
分类预测模块,用于基于所述图片特征,分别得到所述文字识别网络输出的所述目标文字的字符预测结果和类型预测结果;
参数调整模块,用于根据所述目标文字的字符预测结果和对应的字符标签值得到字符损失,并根据所述目标文字的类型预测结果和对应的类型标签值得到类型损失;基于所述字符损失和所述类型损失,调整所述文字识别网络的网络参数。
10.一种文字识别装置,其特征在于,所述装置包括:
特征提取模块,用于对获取的文字图片进行特征提取,得到图片特征,所述文字图片中包括待识别的目标文字;
分类预测模块,用于基于所述图片特征,对所述目标文字进行字符分类预测,得到所述目标文字的字符预测结果;其中,所述特征提取模块和分类预测模块通过权利要求1~5任一所述的训练方法训练得到。
11.一种电子设备,其特征在于,所述设备包括存储器、处理器,所述存储器用于存储可在处理器上运行的计算机指令,所述处理器用于在执行所述计算机指令时实现权利要求1至5任一所述的方法,或者实现权利要求6至8任一所述的方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至5任一所述的方法,或者实现权利要求6至8任一所述的方法。
CN202011192939.4A 2020-10-30 2020-10-30 文字识别网络的训练方法、文字识别方法和装置 Active CN112288018B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011192939.4A CN112288018B (zh) 2020-10-30 2020-10-30 文字识别网络的训练方法、文字识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011192939.4A CN112288018B (zh) 2020-10-30 2020-10-30 文字识别网络的训练方法、文字识别方法和装置

Publications (2)

Publication Number Publication Date
CN112288018A true CN112288018A (zh) 2021-01-29
CN112288018B CN112288018B (zh) 2023-06-30

Family

ID=74352994

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011192939.4A Active CN112288018B (zh) 2020-10-30 2020-10-30 文字识别网络的训练方法、文字识别方法和装置

Country Status (1)

Country Link
CN (1) CN112288018B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112991850A (zh) * 2021-03-05 2021-06-18 江苏电子信息职业学院 一种双向选择式英语辅助教学系统
CN113255757A (zh) * 2021-05-20 2021-08-13 西华大学 基于激活值分布差异的对抗样本检测方法及系统
CN113298188A (zh) * 2021-06-28 2021-08-24 深圳市商汤科技有限公司 字符识别及神经网络训练方法和装置
CN113627262A (zh) * 2021-07-13 2021-11-09 深圳力维智联技术有限公司 文字识别方法、装置及设备
CN113657399A (zh) * 2021-08-18 2021-11-16 北京百度网讯科技有限公司 文字识别模型的训练方法、文字识别方法及装置
CN113657391A (zh) * 2021-08-13 2021-11-16 北京百度网讯科技有限公司 文字识别模型的训练方法、识别文字的方法和装置
CN114724168A (zh) * 2022-05-10 2022-07-08 北京百度网讯科技有限公司 深度学习模型的训练方法、文本识别方法、装置和设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948696A (zh) * 2019-03-19 2019-06-28 上海七牛信息技术有限公司 一种多语言场景字符识别方法及系统
CN110569830A (zh) * 2019-08-01 2019-12-13 平安科技(深圳)有限公司 多语言文本识别方法、装置、计算机设备及存储介质
US20200210773A1 (en) * 2019-01-02 2020-07-02 Boe Technology Group Co., Ltd. Neural network for image multi-label identification, related method, medium and device
CN111401374A (zh) * 2020-03-06 2020-07-10 湖南快乐阳光互动娱乐传媒有限公司 基于多任务的模型训练方法、字符识别方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200210773A1 (en) * 2019-01-02 2020-07-02 Boe Technology Group Co., Ltd. Neural network for image multi-label identification, related method, medium and device
CN109948696A (zh) * 2019-03-19 2019-06-28 上海七牛信息技术有限公司 一种多语言场景字符识别方法及系统
CN110569830A (zh) * 2019-08-01 2019-12-13 平安科技(深圳)有限公司 多语言文本识别方法、装置、计算机设备及存储介质
CN111401374A (zh) * 2020-03-06 2020-07-10 湖南快乐阳光互动娱乐传媒有限公司 基于多任务的模型训练方法、字符识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WENYANG HU ET AL.: "GTC: Guided Training of CTC Towards Efficient and Accurate Scene Text Recognition", 《ARXIV》 *
何鎏一;杨国为;: "基于深度学习的光照不均匀文本图像的识别系统", 计算机应用与软件, no. 06 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112991850A (zh) * 2021-03-05 2021-06-18 江苏电子信息职业学院 一种双向选择式英语辅助教学系统
CN113255757A (zh) * 2021-05-20 2021-08-13 西华大学 基于激活值分布差异的对抗样本检测方法及系统
CN113255757B (zh) * 2021-05-20 2022-10-11 西华大学 基于激活值分布差异的对抗样本检测方法及系统
CN113298188A (zh) * 2021-06-28 2021-08-24 深圳市商汤科技有限公司 字符识别及神经网络训练方法和装置
WO2023273516A1 (zh) * 2021-06-28 2023-01-05 上海商汤智能科技有限公司 字符识别及神经网络训练方法和装置、神经网络、存储介质及电子设备
CN113627262A (zh) * 2021-07-13 2021-11-09 深圳力维智联技术有限公司 文字识别方法、装置及设备
CN113657391A (zh) * 2021-08-13 2021-11-16 北京百度网讯科技有限公司 文字识别模型的训练方法、识别文字的方法和装置
WO2023016163A1 (zh) * 2021-08-13 2023-02-16 北京百度网讯科技有限公司 文字识别模型的训练方法、识别文字的方法和装置
CN113657399A (zh) * 2021-08-18 2021-11-16 北京百度网讯科技有限公司 文字识别模型的训练方法、文字识别方法及装置
CN114724168A (zh) * 2022-05-10 2022-07-08 北京百度网讯科技有限公司 深度学习模型的训练方法、文本识别方法、装置和设备

Also Published As

Publication number Publication date
CN112288018B (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
CN112288018B (zh) 文字识别网络的训练方法、文字识别方法和装置
CN112685565B (zh) 基于多模态信息融合的文本分类方法、及其相关设备
CN109117777B (zh) 生成信息的方法和装置
CN111488826B (zh) 一种文本识别方法、装置、电子设备和存储介质
CN111160350B (zh) 人像分割方法、模型训练方法、装置、介质及电子设备
CN110111334B (zh) 一种裂缝分割方法、装置、电子设备及存储介质
CN110196982B (zh) 上下位关系抽取方法、装置及计算机设备
CN111062964B (zh) 图像分割方法及相关装置
US20170116521A1 (en) Tag processing method and device
CN114596566B (zh) 文本识别方法及相关装置
CN111046971A (zh) 图像识别方法、装置、设备及计算机可读存储介质
CN112507704A (zh) 多意图识别方法、装置、设备及存储介质
CN116343190B (zh) 自然场景文字识别方法、系统、设备及存储介质
CN114528912A (zh) 基于渐进式多模态融合网络的虚假新闻检测方法及系统
CN114581710A (zh) 图像识别方法、装置、设备、可读存储介质及程序产品
CN113222022A (zh) 一种网页分类识别方法及装置
Shekar et al. Optical character recognition and neural machine translation using deep learning techniques
CN111507250B (zh) 图像识别方法、设备及存储介质
CN115700845B (zh) 人脸识别模型训练方法、人脸识别方法、装置及相关设备
CN111242114A (zh) 文字识别方法及装置
CN112801960B (zh) 图像处理方法及装置、存储介质、电子设备
CN112785601B (zh) 一种图像分割方法、系统、介质及电子终端
CN113516148A (zh) 基于人工智能的图像处理方法、装置、设备及存储介质
CN113313720B (zh) 对象分割方法和装置
CN113989597B (zh) 车辆重识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant