CN114139729B - 机器学习模型训练方法和装置、文本识别方法和装置 - Google Patents

机器学习模型训练方法和装置、文本识别方法和装置 Download PDF

Info

Publication number
CN114139729B
CN114139729B CN202210110721.2A CN202210110721A CN114139729B CN 114139729 B CN114139729 B CN 114139729B CN 202210110721 A CN202210110721 A CN 202210110721A CN 114139729 B CN114139729 B CN 114139729B
Authority
CN
China
Prior art keywords
machine learning
learning model
feature map
processed
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210110721.2A
Other languages
English (en)
Other versions
CN114139729A (zh
Inventor
刘军
秦勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Xingtong Technology Co ltd
Original Assignee
Beijing Yizhen Xuesi Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yizhen Xuesi Education Technology Co Ltd filed Critical Beijing Yizhen Xuesi Education Technology Co Ltd
Priority to CN202210110721.2A priority Critical patent/CN114139729B/zh
Publication of CN114139729A publication Critical patent/CN114139729A/zh
Application granted granted Critical
Publication of CN114139729B publication Critical patent/CN114139729B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供一种机器学习模型训练方法和装置、文本识别方法和装置。机器学习模型训练方法包括:对样本图像进行预设变换处理,以生成待处理图像;将待处理图像输入第一机器学习模型,以得到n个特征图,其中n个特征图的尺寸互不相同、且均小于待处理图像的尺寸,n为大于2的自然数;将n个特征图中除尺寸最大的特征图之外的其它n‑1个特征图输入第二机器学习模型,以得到识别概率矩阵;根据识别概率矩阵对第一机器学习模型和第二机器学习模型进行训练;在n个特征图中,选择一个特征图作为待处理特征图;将待处理特征图输入增广模型,以得到增广样本;将增广样本输入第一机器学习模型,以便利用增广样本训练第一机器学习模型和第二机器学习模型。

Description

机器学习模型训练方法和装置、文本识别方法和装置
技术领域
本公开涉及人工智能领域,特别涉及一种机器学习模型训练方法和装置、文本识别方法和装置。
背景技术
自然场景文字识别是从带文字的图片中识别出字符序列的过程(对于中文,一个字符便是一个汉字,对于英文,一个字符便是一个字母)。它是一项具有极大挑战性的课题,除了图片背景复杂,光照变化等因素外,识别输出空间的复杂性也是一大困难,由于文字由数量不固定的字母组成,因此,自然场景文字识别需要从图片中识别长度不固定的序列。目前有两种解决思路,一种是将识别问题拆分为字符检测、字符识别和字符组合,逐个解决;另一种是基于整体分析的策略,即先将图像编码,然后进行序列解码直接得出整个字符串。
发明内容
发明人通过研究发现,上述第一种方法虽然有效,但是却需要字符级别的标注,即每个字符在输入图像上的位置、由于标注信息量大,这需要耗费大量的人工。上述第二种方法虽然标注简单,只需转录字符串即可,但是存在识别精度不高的情况。
此外,由于不同的文本图像上所表示的文本包括直文本、倾斜文本和弯曲文本,为了提高识别精度需要使用大量的训练样本,从而存在训练周期过长的问题。
据此,本公开提供一种机器学习模型训练方案,通过结合数据增广模型以增加训练样本数量,从而有效减小训练周期,并提高文本识别的精度。
根据本公开实施例的第一方面,提供一种机器学习模型训练方法,包括:对样本图像进行预设变换处理,以生成待处理图像;将所述待处理图像输入第一机器学习模型,以得到n个特征图,其中所述n个特征图的尺寸互不相同、且均小于所述待处理图像的尺寸,n为大于2的自然数;将所述n个特征图中除尺寸最大的特征图之外的其它n-1个特征图输入第二机器学习模型,以得到识别概率矩阵;根据所述识别概率矩阵对所述第一机器学习模型和第二机器学习模型进行训练;在所述n个特征图中,选择一个特征图作为待处理特征图;将所述待处理特征图输入增广模型,以得到增广样本;将所述增广样本输入所述第一机器学习模型,以便利用所述增广样本对所述第一机器学习模型和第二机器学习模型进行训练。
在一些实施例中,所述第一机器学习模型包括n个变换模型;所述将所述待处理图像输入第一机器学习模型,以得到n个特征图包括:将所述待处理图像输入第一变换模型,以得到第1个特征图;将第i个变换模型输出的第i个特征图输入第i+1个变换模型,以得到第i+1个特征图,其中第i个特征图的尺寸大于第i+1个特征图的尺寸,1≤i<n。
在一些实施例中,所述第二机器学习模型包括n-1个分支模型;所述将所述n个特征图中除尺寸最大的特征图之外的其它n-1个特征图输入第二机器学习模型,以得到识别概率矩阵包括:将第n个特征图输入第1个分支模型,以得到第1个概率矩阵;将第j个特征图和第n个特征图输入第j个分支模型,以得到第j个概率矩阵,1<j<n;将n-1个概率矩阵进行拼接,以得到所述识别概率矩阵。
在一些实施例中,所述将第j个特征图和第n个特征图输入第j个分支模型,以得到第j个概率矩阵包括:将所述第j个特征图进行变换,以便所述第j个特征图的变换结果的尺寸与所述第n个特征图的尺寸相同;将所述第j个特征图的变换结果和所述第n个特征图输入第j个分支模型,以得到第j个概率矩阵。
在一些实施例中,所述n-1个分支模型均为双向长短期记忆LSTM模型。
在一些实施例中,所述根据所述识别概率矩阵对所述第一机器学习模型和第二机器学习模型进行训练包括:根据所述识别概率矩阵生成联结时序分类CTC损失函数;利用所述CTC损失函数对所述第一机器学习模型和第二机器学习模型进行训练。
在一些实施例中,所述将所述待处理特征图输入增广模型,以得到增广样本包括:将所述待处理特征图输入所述增广模型,以得到所述待处理特征图的识别结果;根据所述待处理特征图的识别结果,确定所述待处理特征图的识别损失函数值;根据所述识别损失函数值更新所述增广模型的损失值,其中若所述识别损失函数值大于预设门限,则减小所述增广模型的损失值,若所述识别损失函数值不大于所述预设门限,则增大所述增广模型的损失值;利用更新后的所述增广模型的损失值进行增广处理,以得到输出图像;根据所述输出图像和所述待处理特征图生成变换矩阵,并利用所述变换矩阵对所述样本图像进行变换处理以生成增广样本。
在一些实施例中,所述待处理特征图为所述n个特征图中除尺寸最大的特征图和尺寸最小的特征图之外的其它n-2个特征图中的任一个特征图。
在一些实施例中,在n为奇数的情况下,所述待处理特征图为第(n+1)/2个特征图;在n为偶数的情况下,所述待处理特征图为第n/2个特征图或者第(n+2)/2个特征图。
根据本公开实施例的第二方面,提供一种机器学习模型训练装置,包括:第一训练处理模块,被配置为对样本图像进行预设变换处理,以生成待处理图像;第二训练处理模块,被配置为将所述待处理图像输入第一机器学习模型,以得到n个特征图,其中所述n个特征图的尺寸互不相同、且均小于所述待处理图像的尺寸,n为大于2的自然数;第三训练处理模块,被配置为将所述n个特征图中除尺寸最大的特征图之外的其它n-1个特征图输入第二机器学习模型,以得到识别概率矩阵,根据所述识别概率矩阵对所述第一机器学习模型和第二机器学习模型进行训练;第四训练处理模块,被配置为在所述n个特征图中,选择一个特征图作为待处理特征图,将所述待处理特征图输入增广模型,以得到增广样本,将所述增广样本输入所述第一机器学习模型,以便利用所述增广样本对所述第一机器学习模型和第二机器学习模型进行训练。
根据本公开实施例的第三方面,提供一种机器学习模型训练装置,包括:存储器,被配置为存储指令;处理器,耦合到存储器,处理器被配置为基于存储器存储的指令执行实现如上述任一实施例所述的机器学习模型训练方法。
根据本公开实施例的第四方面,提供一种文本识别方法,包括:将待识别图像输入第一机器学习模型,以得到n个特征图,其中所述n个特征图的尺寸互不相同、且均小于所述待识别图像的尺寸,n为大于2的自然数,其中所述第一机器学习模型利用上述任一实施例所述的训练方法进行训练;将所述n个特征图中除尺寸最大的特征图之外的其它n-1个特征图输入第二机器学习模型,以得到识别概率矩阵,其中所述第二机器学习模型利用上述任一实施例所述的训练方法进行训练;根据所述识别概率矩阵确定所述待识别图像的文本识别结果。
根据本公开实施例的第五方面,提供一种文本识别装置,包括:第一识别处理模块,被配置为将待识别图像输入第一机器学习模型,以得到n个特征图,其中所述n个特征图的尺寸互不相同、且均小于所述待识别图像的尺寸,n为大于2的自然数,其中所述第一机器学习模型利用上述任一实施例所述的训练方法进行训练;第二识别处理模块,被配置为将所述n个特征图中除尺寸最大的特征图之外的其它n-1个特征图输入第二机器学习模型,以得到识别概率矩阵,其中所述第二机器学习模型利用上述任一实施例所述的训练方法进行训练;第三识别处理模块,被配置为根据所述识别概率矩阵确定所述待识别图像的文本识别结果。
根据本公开实施例的第六方面,提供一种文本识别,包括:存储器,被配置为存储指令;处理器,耦合到存储器,处理器被配置为基于存储器存储的指令执行实现如上述任一实施例所述的训练方法。
根据本公开实施例的第七方面,提供一种计算机可读存储介质,其中,计算机可读存储介质存储有计算机指令,指令被处理器执行时实现如上述任一实施例涉及的方法。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开一个实施例的机器学习模型训练方法的流程示意图;
图2为本公开一个实施例的第一机器学习模型示意图;
图3为本公开一个实施例的第二机器学习模型示意图;
图4为本公开一个实施例的机器学习模型训练装置的结构示意图;
图5为本公开另一个实施例的机器学习模型训练装置的结构示意图;
图6为本公开一个实施例的文本识别方法的流程示意图;
图7为本公开一个实施例的文本识别装置的结构示意图;
图8为本公开另一个实施例的文本识别装置的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1为本公开一个实施例的机器学习模型训练方法的流程示意图。在一些实施例中,下列的机器学习模型训练方法步骤由机器学习模型训练装置执行。
在步骤101,对样本图像进行预设变换处理,以生成待处理图像。
在步骤102,将待处理图像输入第一机器学习模型,以得到n个特征图,其中n个特征图的尺寸互不相同、且均小于待处理图像的尺寸,n为大于2的自然数。
在一些实施例中,第一机器学习模型包括n个变换模型。例如,n个变换模型均为残差网络Resnet模型。
在一些实施例中,将待处理图像输入第一变换模型,以得到第1个特征图。接下来,将第i个变换模型输出的第i个特征图输入第i+1个变换模型,以得到第i+1个特征图,其中第i个特征图的尺寸大于第i+1个特征图的尺寸,1≤i<n。
例如,如图2所示,第一机器学习模型包括4个变换模型。将待处理图像输入第一变换模型,以得到第1个特征图,第1个特征图的尺寸为待处理图像的尺寸的1/2。接下来,将第1个变换模型输出的第1个特征图输入第2个变换模型,以得到第2个特征图,第2个特征图的尺寸为待处理图像的尺寸的1/4。然后,将第2个变换模型输出的第2个特征图输入第3个变换模型,以得到第3个特征图,第3个特征图的尺寸为待处理图像的尺寸的1/8。最后,将第3个变换模型输出的第3个特征图输入第4个变换模型,以得到第4个特征图,第4个特征图的尺寸为待处理图像的尺寸的1/16。
返回图1。在步骤103,将n个特征图中除尺寸最大的特征图之外的其它n-1个特征图输入第二机器学习模型,以得到识别概率矩阵。
在一些实施例中,第二机器学习模型包括n-1个分支模型。例如,n-1个分支模型均为双向LSTM(Long Short-Term Memory,长短期记忆)模型。
在一些实施例中,将待处理图像输入第一机器学习模型,以得到n个特征图,其中第1个特征图的尺寸最大,第n个特征图的尺寸最小,第i个特征图的尺寸大于第j个特征图的尺寸,其中i>j。在这种情况下,将第n个特征图输入第1个分支模型,以得到第1个概率矩阵。将第j个特征图和第n个特征图输入第j个分支模型,以得到第j个概率矩阵,1<j<n。接下来,将n-1个概率矩阵进行拼接,以得到识别概率矩阵。
在一些实施例中,在将第j个特征图和第n个特征图输入第j个分支模型的过程中,将第j个特征图进行变换,以便第j个特征图的变换结果的尺寸与第n个特征图的尺寸相同。接下来,将第j个特征图的变换结果和第n个特征图输入第j个分支模型,以得到第j个概率矩阵。
例如,将第j个特征图的变换结果和第n个特征图进行逐点相加并求平均后,再利用两层双向LSTM识别得到第j个概率矩阵。输入第j个分支模型,以得到第j个概率矩阵。
例如,如图3所示,在图2所示实施例的基础上,将第4个特征图T4输入第1个分支模型,以得到第1个概率矩阵。
接下来,将第2个特征图T2和第4个特征图T4输入第2个分支模型,以得到第2个概率矩阵。在这个过程中,将第2个特征图T2进行变换,以便第2个特征图T2的变换结果的尺寸与第4个特征图T4的尺寸相同。接下来,将第2个特征图T2的变换结果和第4个特征图T4进行逐点相加并求平均后,输入第2个分支模型,以得到第2个概率矩阵。
接下来,将第3个特征图T3和第4个特征图T4输入第3个分支模型,以得到第3个概率矩阵。在这个过程中,将第3个特征图T3进行变换,以便第3个特征图T3的变换结果的尺寸与第4个特征图T4的尺寸相同。接下来,将第3个特征图T3的变换结果和第4个特征图T4进行逐点相加并求平均后,输入第3个分支模型,以得到第3个概率矩阵。
然后,将第1个概率矩阵、第2个概率矩阵和第3个概率矩阵进行拼接,以得到识别概率矩阵。例如,每个概率矩阵为N,则通过拼接得到的识别概率矩阵为3×N。
返回图1。在步骤104,根据识别概率矩阵对第一机器学习模型和第二机器学习模型进行训练。
在一些实施例中,根据识别概率矩阵生成CTC(Connectionist TemporalClassification联结时序分类)损失函数,进而利用CTC损失函数对第一机器学习模型和第二机器学习模型进行训练。
需要说明的是,通过利用CTC损失函数,能够有利于从多个概率矩阵拼接得到的识别概率矩阵中选择可能的概率路径,从而更好地解决倾斜完全文本的识别问题。
在步骤105,在n个特征图中,选择一个特征图作为待处理特征图。
在一些实施例中,待处理特征图为n个特征图中除尺寸最大的特征图和尺寸最小的特征图之外的其它n-2个特征图中的任一个特征图。
例如,在n为奇数的情况下,待处理特征图为第(n+1)/2个特征图。在n为偶数的情况下,待处理特征图为第n/2个特征图或者第(n+2)/2个特征图。
在一些实施例中,待处理特征图为n个特征图中居于中间位置的特征图。例如,若n=4,则待处理特征图为第2个特征图或者第3个特征图。若n=5,则待处理特征图为第3个特征图。
在步骤106,将待处理特征图输入增广模型,以得到增广样本。
在一些实施例中,将待处理特征图输入增广模型,以得到待处理特征图的识别结果。根据待处理特征图的识别结果,确定待处理特征图的识别损失函数值。
例如,在待处理特征图的上下边界上选择10个点,并将这10个点的坐标作为标签。在待处理特征图进行识别处理后,根据这10个点的坐标偏移量确定识别损失函数值。
接下来,根据识别损失函数值更新增广模型的损失值,其中若识别损失函数值大于预设门限,则减小增广模型的损失值,若识别损失函数值不大于预设门限,则增大增广模型的损失值。
例如,若识别损失函数值大于预设门限(例如,预设门限为0.3),则减小增广模型的损失值,否则增大增广模型的损失值。优选地,可设置两个大小不同的增广模型损失值。若识别损失函数值大于预设门限,则选择较小的增广模型损失值,否则选择较大的增广模型损失值。
需要说明的是,通过上述处理,若待处理特征图的识别损失函数值较小,则表明待处理特征图较容易识别,在这种情况下增大增广模型的损失值,以便生成更难识别的图像。相反,若待处理特征图不容易识别,在这种情况下减小增广模型的损失值,以便生成容易识别的图像,以便有效减小训练周期。
接下来,利用更新后的增广模型的损失值进行增广处理,以得到输出图像,并根据输出图像和待处理特征图生成变换矩阵,并利用变换矩阵对样本图像进行变换处理以生成增广样本。
例如,根据输出图像和待处理特征图的指定的10个点的坐标偏移量生成变换矩阵,从而利用该变换矩阵对样本图像进行变换处理以生成增广样本。
在步骤107,将增广样本输入第一机器学习模型,以便利用增广样本对第一机器学习模型和第二机器学习模型进行训练。
在本公开上述实施例提供的机器学习模型训练方法中,通过结合数据增广模型以增加训练样本数量,从而有效减小训练周期,并提高文本识别的精度。
图4为本公开一个实施例的机器学习模型训练装置的结构示意图。如图4所示,机器学习模型训练装置包括第一训练处理模块41、第二训练处理模块42、第三训练处理模块43和第四训练处理模块44。
第一训练处理模块41被配置为对样本图像进行预设变换处理,以生成待处理图像。
第二训练处理模块42被配置为将待处理图像输入第一机器学习模型,以得到n个特征图,其中n个特征图的尺寸互不相同、且均小于待处理图像的尺寸,n为大于2的自然数。
在一些实施例中,第一机器学习模型包括n个变换模型。例如,n个变换模型均为残差网络Resnet模型。
在一些实施例中,将待处理图像输入第一变换模型,以得到第1个特征图。接下来,将第i个变换模型输出的第i个特征图输入第i+1个变换模型,以得到第i+1个特征图,其中第i个特征图的尺寸大于第i+1个特征图的尺寸,1≤i<n。
第三训练处理模块43被配置为将n个特征图中除尺寸最大的特征图之外的其它n-1个特征图输入第二机器学习模型,以得到识别概率矩阵,根据识别概率矩阵对第一机器学习模型和第二机器学习模型进行训练。
在一些实施例中,第二机器学习模型包括n-1个分支模型。例如,n-1个分支模型均为双向LSTM模型。
在一些实施例中,将待处理图像输入第一机器学习模型,以得到n个特征图,其中第1个特征图的尺寸最大,第n个特征图的尺寸最小,第i个特征图的尺寸大于第j个特征图的尺寸,其中i>j。在这种情况下,将第n个特征图输入第1个分支模型,以得到第1个概率矩阵。将第j个特征图和第n个特征图输入第j个分支模型,以得到第j个概率矩阵,1<j<n。接下来,将n-1个概率矩阵进行拼接,以得到识别概率矩阵。
在一些实施例中,在将第j个特征图和第n个特征图输入第j个分支模型的过程中,将第j个特征图进行变换,以便第j个特征图的变换结果的尺寸与第n个特征图的尺寸相同。接下来,将第j个特征图的变换结果和第n个特征图输入第j个分支模型,以得到第j个概率矩阵。
例如,将第j个特征图的变换结果和第n个特征图进行逐点相加并求平均后,再利用两层双向LSTM识别得到第j个概率矩阵。输入第j个分支模型,以得到第j个概率矩阵。
在一些实施例中,根据识别概率矩阵生成CTC损失函数,进而利用CTC损失函数对第一机器学习模型和第二机器学习模型进行训练。
需要说明的是,通过利用CTC损失函数,能够有利于从多个概率矩阵拼接得到的识别概率矩阵中选择可能的概率路径,从而更好地解决倾斜完全文本的识别问题。
第四训练处理模块44被配置为在n个特征图中,选择一个特征图作为待处理特征图,将待处理特征图输入增广模型,以得到增广样本,将增广样本输入第一机器学习模型,以便利用增广样本对第一机器学习模型和第二机器学习模型进行训练。
在一些实施例中,待处理特征图为n个特征图中除尺寸最大的特征图和尺寸最小的特征图之外的其它n-2个特征图中的任一个特征图。
例如,在n为奇数的情况下,待处理特征图为第(n+1)/2个特征图。在n为偶数的情况下,待处理特征图为第n/2个特征图或者第(n+2)/2个特征图。
在一些实施例中,将待处理特征图输入增广模型,以得到待处理特征图的识别结果。根据待处理特征图的识别结果,确定待处理特征图的识别损失函数值。
接下来,根据识别损失函数值更新增广模型的损失值,其中若识别损失函数值大于预设门限,则减小增广模型的损失值,若识别损失函数值不大于预设门限,则增大增广模型的损失值。
例如,若识别损失函数值大于预设门限(例如,预设门限为0.3),则减小增广模型的损失值,否则增大增广模型的损失值。优选地,可设置两个大小不同的增广模型损失值。若识别损失函数值大于预设门限,则选择较小的增广模型损失值,否则选择较大的增广模型损失值。
需要说明的是,通过上述处理,若待处理特征图的识别损失函数值较小,则表明待处理特征图较容易识别,在这种情况下增大增广模型的损失值,以便生成更难识别的图像。相反,若待处理特征图不容易识别,在这种情况下减小增广模型的损失值,以便生成容易识别的图像,以便有效减小训练周期。
接下来,利用更新后的增广模型的损失值进行增广处理,以得到输出图像,并根据输出图像和待处理特征图生成变换矩阵,并利用变换矩阵对样本图像进行变换处理以生成增广样本。
图5为本公开另一个实施例的机器学习模型训练装置的结构示意图。如图5所示,机器学习模型训练装置包括存储器51和处理器52。
存储器51用于存储指令,处理器52耦合到存储器51,处理器52被配置为基于存储器存储的指令执行实现如图1中任一实施例涉及的方法。
如图5所示,该机器学习模型训练装置还包括通信接口53,用于与其它设备进行信息交互。同时,该机器学习模型训练装置还包括总线54,处理器52、通信接口53、以及存储器51通过总线54完成相互间的通信。
存储器51可以包含高速RAM存储器,也可还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。存储器51也可以是存储器阵列。存储器51还可能被分块,并且块可按一定的规则组合成虚拟卷。
此外,处理器52可以是一个中央处理器CPU,或者可以是专用集成电路ASIC,或是被配置成实施本公开实施例的一个或多个集成电路。
本公开同时还涉及一种计算机可读存储介质,其中计算机可读存储介质存储有计算机指令,指令被处理器执行时实现如图1中任一实施例涉及的方法。
图6为本公开一个实施例的文本识别方法的流程示意图。在一些实施例中,下列的文本识别方法由文本识别装置执行。
在步骤601,将待识别图像输入第一机器学习模型,以得到n个特征图,其中n个特征图的尺寸互不相同、且均小于待识别图像的尺寸,n为大于2的自然数。
需要说明的是,第一机器学习模型利用图1中任一实施例所述的训练方法进行训练。
在步骤602,将n个特征图中除尺寸最大的特征图之外的其它n-1个特征图输入第二机器学习模型,以得到识别概率矩阵。
需要说明的是,第二机器学习模型利用图1中任一实施例所述的训练方法进行训练。
在步骤603,根据识别概率矩阵确定待识别图像的文本识别结果。
例如,将待识别图像输入如图2所示的第一机器学习模型中的第一变换模型,以得到第1个特征图,第1个特征图的尺寸为待识别图像的尺寸的1/2。接下来,将第1个变换模型输出的第1个特征图输入第2个变换模型,以得到第2个特征图,第2个特征图的尺寸为待识别图像的尺寸的1/4。然后,将第2个变换模型输出的第2个特征图输入第3个变换模型,以得到第3个特征图,第3个特征图的尺寸为待识别图像的尺寸的1/8。最后,将第3个变换模型输出的第3个特征图输入第4个变换模型,以得到第4个特征图,第4个特征图的尺寸为待识别图像的尺寸的1/16。
接下来,将第2至第4个特征图输入如图3所示的第二机器学习模型。例如,将第4个特征图输入第1个分支模型,以得到第1个概率矩阵。
将第2个特征图进行变换,以便第2个特征图的变换结果的尺寸与第4个特征图的尺寸相同。接下来,将第2个特征图的变换结果和第4个特征图进行逐点相加并求平均后,输入第2个分支模型,以得到第2个概率矩阵。
将第3个特征图进行变换,以便第3个特征图的变换结果的尺寸与第4个特征图的尺寸相同。接下来,将第3个特征图的变换结果和第4个特征图进行逐点相加并求平均后,输入第3个分支模型,以得到第3个概率矩阵。
然后,将第1个概率矩阵、第2个概率矩阵和第3个概率矩阵进行拼接,以得到识别概率矩阵。进而根据识别概率矩阵确定待识别图像的文本识别结果。
图7为本公开一个实施例的文本识别装置的结构示意图。如图7所示,文本识别装置包括第一识别处理模块71、第二识别处理模块72和第三识别处理模块73。
第一识别处理模块71被配置为将待识别图像输入第一机器学习模型,以得到n个特征图,其中n个特征图的尺寸互不相同、且均小于待识别图像的尺寸,n为大于2的自然数。
需要说明的是,第一机器学习模型利用利用图1中任一实施例所述的训练方法进行训练。
第二识别处理模块72被配置为将n个特征图中除尺寸最大的特征图之外的其它n-1个特征图输入第二机器学习模型,以得到识别概率矩阵。
需要说明的是,第二机器学习模型利用利用图1中任一实施例所述的训练方法进行训练。
第三识别处理模块73被配置为根据识别概率矩阵确定待识别图像的文本识别结果。
图8为本公开另一个实施例的文本识别装置的结构示意图。如图8所示,文本识别装置包括存储器81、处理器82、通信接口83和总线84。图8与图5的不同之处在于,在图8所示实施例中,处理器82被配置为基于存储器存储的指令执行实现如图6中任一实施例涉及的方法。
本公开同时还涉及一种计算机可读存储介质,其中计算机可读存储介质存储有计算机指令,指令被处理器执行时实现如图6中任一实施例涉及的方法。
在一些实施例中,在上面所描述的功能单元模块可以实现为用于执行本公开所描述功能的通用处理器、可编程逻辑控制器(Programmable Logic Controller,简称:PLC)、数字信号处理器(Digital Signal Processor,简称:DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,简称:ASIC)、现场可编程门阵列(Field-ProgrammableGate Array,简称:FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件或者其任意适当组合。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
本公开的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用,并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

Claims (15)

1.一种机器学习模型训练方法,包括:
对样本图像进行预设变换处理,以生成待处理图像;
将所述待处理图像输入第一机器学习模型,以得到n个特征图,其中所述n个特征图的尺寸互不相同、且均小于所述待处理图像的尺寸,n为大于2的自然数;
将所述n个特征图中除尺寸最大的特征图之外的其它n-1个特征图输入第二机器学习模型,以得到识别概率矩阵;
根据所述识别概率矩阵对所述第一机器学习模型和第二机器学习模型进行训练;
在所述n个特征图中,选择一个特征图作为待处理特征图;
将所述待处理特征图输入增广模型,以得到增广样本;
将所述增广样本输入所述第一机器学习模型,以便利用所述增广样本对所述第一机器学习模型和第二机器学习模型进行训练。
2.根据权利要求1所述的方法,其中,所述第一机器学习模型包括n个变换模型;
所述将所述待处理图像输入第一机器学习模型,以得到n个特征图包括:
将所述待处理图像输入第一变换模型,以得到第1个特征图;
将第i个变换模型输出的第i个特征图输入第i+1个变换模型,以得到第i+1个特征图,其中第i个特征图的尺寸大于第i+1个特征图的尺寸,1≤i<n。
3.根据权利要求2所述的方法,其中,所述第二机器学习模型包括n-1个分支模型;
所述将所述n个特征图中除尺寸最大的特征图之外的其它n-1个特征图输入第二机器学习模型,以得到识别概率矩阵包括:
将第n个特征图输入第1个分支模型,以得到第1个概率矩阵;
将第j个特征图和第n个特征图输入第j个分支模型,以得到第j个概率矩阵,1<j<n;
将n-1个概率矩阵进行拼接,以得到所述识别概率矩阵。
4.根据权利要求3所述的方法,其中,所述将第j个特征图和第n个特征图输入第j个分支模型,以得到第j个概率矩阵包括:
将所述第j个特征图进行变换,以便所述第j个特征图的变换结果的尺寸与所述第n个特征图的尺寸相同;
将所述第j个特征图的变换结果和所述第n个特征图输入第j个分支模型,以得到第j个概率矩阵。
5.根据权利要求3所述的方法,其中,
所述n-1个分支模型均为双向长短期记忆LSTM模型。
6.根据权利要求1所述的方法,其中,所述根据所述识别概率矩阵对所述第一机器学习模型和第二机器学习模型进行训练包括:
根据所述识别概率矩阵生成联结时序分类CTC损失函数;
利用所述CTC损失函数对所述第一机器学习模型和第二机器学习模型进行训练。
7.根据权利要求1所述的方法,其中,所述将所述待处理特征图输入增广模型,以得到增广样本包括:
将所述待处理特征图输入所述增广模型,以得到所述待处理特征图的识别结果;
根据所述待处理特征图的识别结果,确定所述待处理特征图的识别损失函数值;
根据所述识别损失函数值更新所述增广模型的损失值,其中若所述识别损失函数值大于预设门限,则减小所述增广模型的损失值,若所述识别损失函数值不大于所述预设门限,则增大所述增广模型的损失值;
利用更新后的所述增广模型的损失值进行增广处理,以得到输出图像;
根据所述输出图像和所述待处理特征图生成变换矩阵,并利用所述变换矩阵对所述样本图像进行变换处理以生成增广样本。
8.根据权利要求1所述的方法,其中,
所述待处理特征图为所述n个特征图中除尺寸最大的特征图和尺寸最小的特征图之外的其它n-2个特征图中的任一个特征图。
9.根据权利要求8所述的方法,其中,
在n为奇数的情况下,所述待处理特征图为第(n+1)/2个特征图;
在n为偶数的情况下,所述待处理特征图为第n/2个特征图或者第(n+2)/2个特征图。
10.一种机器学习模型训练装置,包括:
第一训练处理模块,被配置为对样本图像进行预设变换处理,以生成待处理图像;
第二训练处理模块,被配置为将所述待处理图像输入第一机器学习模型,以得到n个特征图,其中所述n个特征图的尺寸互不相同、且均小于所述待处理图像的尺寸,n为大于2的自然数;
第三训练处理模块,被配置为将所述n个特征图中除尺寸最大的特征图之外的其它n-1个特征图输入第二机器学习模型,以得到识别概率矩阵,根据所述识别概率矩阵对所述第一机器学习模型和第二机器学习模型进行训练;
第四训练处理模块,被配置为在所述n个特征图中,选择一个特征图作为待处理特征图,将所述待处理特征图输入增广模型,以得到增广样本,将所述增广样本输入所述第一机器学习模型,以便利用所述增广样本对所述第一机器学习模型和第二机器学习模型进行训练。
11.一种机器学习模型训练装置,包括:
存储器,被配置为存储指令;
处理器,耦合到存储器,处理器被配置为基于存储器存储的指令执行实现如权利要求1-9中任一项所述的方法。
12.一种文本识别方法,包括:
将待识别图像输入第一机器学习模型,以得到n个特征图,其中所述n个特征图的尺寸互不相同、且均小于所述待识别图像的尺寸,n为大于2的自然数,其中所述第一机器学习模型利用权利要求1-9中任一项所述的训练方法进行训练;
将所述n个特征图中除尺寸最大的特征图之外的其它n-1个特征图输入第二机器学习模型,以得到识别概率矩阵,其中所述第二机器学习模型利用权利要求1-9中任一项所述的训练方法进行训练;
根据所述识别概率矩阵确定所述待识别图像的文本识别结果。
13.一种文本识别装置,包括:
第一识别处理模块,被配置为将待识别图像输入第一机器学习模型,以得到n个特征图,其中所述n个特征图的尺寸互不相同、且均小于所述待识别图像的尺寸,n为大于2的自然数,其中所述第一机器学习模型利用权利要求1-9中任一项所述的训练方法进行训练;
第二识别处理模块,被配置为将所述n个特征图中除尺寸最大的特征图之外的其它n-1个特征图输入第二机器学习模型,以得到识别概率矩阵,其中所述第二机器学习模型利用权利要求1-9中任一项所述的训练方法进行训练;
第三识别处理模块,被配置为根据所述识别概率矩阵确定所述待识别图像的文本识别结果。
14.一种文本识别装置,包括:
存储器,被配置为存储指令;
处理器,耦合到存储器,处理器被配置为基于存储器存储的指令执行实现如权利要求12所述的方法。
15.一种计算机可读存储介质,其中,计算机可读存储介质存储有计算机指令,指令被处理器执行时实现如权利要求1-9、12中任一项所述的方法。
CN202210110721.2A 2022-01-29 2022-01-29 机器学习模型训练方法和装置、文本识别方法和装置 Active CN114139729B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210110721.2A CN114139729B (zh) 2022-01-29 2022-01-29 机器学习模型训练方法和装置、文本识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210110721.2A CN114139729B (zh) 2022-01-29 2022-01-29 机器学习模型训练方法和装置、文本识别方法和装置

Publications (2)

Publication Number Publication Date
CN114139729A CN114139729A (zh) 2022-03-04
CN114139729B true CN114139729B (zh) 2022-05-10

Family

ID=80381895

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210110721.2A Active CN114139729B (zh) 2022-01-29 2022-01-29 机器学习模型训练方法和装置、文本识别方法和装置

Country Status (1)

Country Link
CN (1) CN114139729B (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304936B (zh) * 2017-07-12 2021-11-16 腾讯科技(深圳)有限公司 机器学习模型训练方法和装置、表情图像分类方法和装置
US11710033B2 (en) * 2018-06-12 2023-07-25 Bank Of America Corporation Unsupervised machine learning system to automate functions on a graph structure
CN109214386B (zh) * 2018-09-14 2020-11-24 京东数字科技控股有限公司 用于生成图像识别模型的方法和装置
CN113657390B (zh) * 2021-08-13 2022-08-12 北京百度网讯科技有限公司 文本检测模型的训练方法和检测文本方法、装置和设备

Also Published As

Publication number Publication date
CN114139729A (zh) 2022-03-04

Similar Documents

Publication Publication Date Title
CN108710613B (zh) 文本相似度的获取方法、终端设备及介质
CN110705294A (zh) 命名实体识别模型训练方法、命名实体识别方法及装置
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
CN112528637A (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN115438650B (zh) 融合多源特征的合同文本纠错方法、系统、设备及介质
CN115344699A (zh) 文本分类模型的训练方法、装置、计算机设备及介质
CN114139729B (zh) 机器学习模型训练方法和装置、文本识别方法和装置
US20230130662A1 (en) Method and apparatus for analyzing multimodal data
CN112183513B (zh) 一种图像中文字的识别方法、装置、电子设备及存储介质
KR20220016402A (ko) 복수의 배율에 따라 크기 변환된 영상으로 학습된 병렬 심층 신경망 장치 및 방법
CN111291754A (zh) 一种文本级联检测方法、装置及存储介质
CN114970666B (zh) 一种口语处理方法、装置、电子设备及存储介质
CN113886578B (zh) 一种表单分类方法及装置
CN115759293A (zh) 模型训练方法、图像检索方法、装置及电子设备
CN116263784A (zh) 面向图片文本的粗粒度情感分析方法及装置
US20220318230A1 (en) Text to question-answer model system
CN114298054A (zh) 一种文本识别方法、装置、电子设备及可读存储介质
CN113239693A (zh) 意图识别模型的训练方法、装置、设备及存储介质
Bajpai et al. Custom dataset creation with tensorflow framework and image processing for google t-rex
CN111783811A (zh) 伪标签生成方法和装置
CN114065768B (zh) 特征融合模型的训练、文本处理方法及装置
CN112990181B (zh) 文本识别的方法、装置、设备和存储介质
CN112989801B (zh) 一种序列标注方法、装置及设备
CN114792423B (zh) 文档图像的处理方法、装置和存储介质
CN114155420B (zh) 一种场景识别模型训练方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20231121

Address after: 518028 Garden East Community, Yuanling Street, Futian District, Shenzhen City, Guangdong Province 297, Garden East Garden Podium Building, No. 1, 3, and 5, Yuanling Fifth Street

Patentee after: Shenzhen Xingtong Technology Co.,Ltd.

Address before: 102200 Room 401, building 16, courtyard 16, Yingcai North Third Street, future science city, Changping District, Beijing

Patentee before: BEIJING YIZHEN XUESI EDUCATION TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right