CN113326833A - 一种基于中心损失的文字识别改进训练方法 - Google Patents

一种基于中心损失的文字识别改进训练方法 Download PDF

Info

Publication number
CN113326833A
CN113326833A CN202110888819.6A CN202110888819A CN113326833A CN 113326833 A CN113326833 A CN 113326833A CN 202110888819 A CN202110888819 A CN 202110888819A CN 113326833 A CN113326833 A CN 113326833A
Authority
CN
China
Prior art keywords
feature
character
training
dictionary
center
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110888819.6A
Other languages
English (en)
Other versions
CN113326833B (zh
Inventor
廖翔宇
张翊
吴名朝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Whale Cloud Technology Co Ltd
Original Assignee
Whale Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Whale Cloud Technology Co Ltd filed Critical Whale Cloud Technology Co Ltd
Priority to CN202110888819.6A priority Critical patent/CN113326833B/zh
Publication of CN113326833A publication Critical patent/CN113326833A/zh
Application granted granted Critical
Publication of CN113326833B publication Critical patent/CN113326833B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于中心损失的文字识别改进训练方法,该方法包括以下步骤:S1、在文字识别数据集上进行训练至收敛,得到预训练模型;S2、通过提取卷积循环网络最后一层连接层的特征来获取单字的特征中心,将所获取的单字的特征中心来构建一个字典的特征中心;S3、对预训练模型继续训练至收敛。有益效果:本发明采用的中心损失训练模型模块,可以使得同一个字的特征空间更为紧凑,对于形近字来说,可以让它们离各自的特征中心更加接近,使得形近字更容易被区分,可以在不改变模型大小以及推理速度的情况下,提升模型在识别文字时的准确率。

Description

一种基于中心损失的文字识别改进训练方法
技术领域
本发明涉及光学文字识别领域,具体来说,涉及一种基于中心损失的文字识别改进训练方法。
背景技术
文字识别技术是非常广泛使用的一种从图像中识别出文字的方法,主要通过图像处理和模式识别等技术来识别图片中的光学字符,并将其翻译成计算机文字。其被广泛用于生产生活中,如身份证、驾驶证、护照、表格、发票等包含文字信息的图片识别。
目前使用最广泛的文字识别技术是以卷积循环神经网络为主干网络,配以连接时域分类损失函数或基于注意力机制的损失函数进行训练的方法。这种方法在大部分情况下都可以取得较为理想的识别结果,但是对于形近字的识别结果通常较差。形近字问题是文字识别领域的一个难题,由于形近字在特征空间中分布比较相似,因此网络通常比较难将其区分开来,如何将形近字的特征区分开来是解决形近字识别问题的一个重点方向。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出一种基于中心损失的文字识别改进训练方法,以克服现有相关技术所存在的上述技术问题。
为此,本发明采用的具体技术方案如下:
一种基于中心损失的文字识别改进训练方法,包括以下步骤:
S1、利用卷积循环网络在文字识别数据集上进行训练至收敛,得到预训练模型;
S2、对字典里的所有字生成单独的图片并获得一个单字数据集,而后使用预训练模型对所有单字数据集进行预测,通过提取卷积循环网络最后一层连接层的特征来获取单字的特征中心,将所获取的单字的特征中心来构建一个字典的特征中心;
S3、利用所获取的字典的特征中心来构建中心损失函数,将构建后的中心损失函数与原损失函数一起训练预训练模型至再次收敛。
进一步的,所述S1中利用卷积循环网络在文字识别数据集上进行训练至收敛,得到预训练模型包括以下步骤:
S11、将文字图片输入到卷积循环神经网络中,并提取语义特征F1;
S12、将提取到的语义特征F1输入到连接层FC中得到分类特征z;
S13、将分类特征z输入到连接时域分类损失函数中进行损失函数的计算,对网络的模型权重参数进行更新。
进一步的,所述S2中对字典里的所有字生成单独的图片并获得一个单字数据集,而后使用预训练模型对所有单字数据集进行预测,通过提取卷积循环网络最后一层连接层的特征来获取单字的特征中心,将所获取的单字的特征中心来构建一个字典的特征中心包括以下步骤:
S21、对于字符数为D的字典,构建一个大小为D×S维的中心特征矩阵C;
S22、将单字图片输入卷积循环神经网络中,并取得语义特征F1;
S23、将语义特征F1输入到连接层FC获得一个大小为L×D维的分类特征z。
进一步的,所述S3中利用所获取的字典的特征中心来构建中心损失函数,将构建后的中心损失函数与原损失函数一起训练预训练模型至再次收敛包括以下步骤:
S31、将字段图片输入到加载了预训练模型的卷积循环网络中得到语义特征F1;
S32、将语义特征F1输入到全连接层FC中获得分类特征Z。
进一步的,所述S23中将语义特征F1输入到连接层FC获得一个大小为L×D维的分类特征z的步骤包括:
使用SoftMax函数将其归一化,得出每个位置上对应字典中每个字的概率值;
其中,概率值公式为:
Figure 375876DEST_PATH_IMAGE001
Zki表示分类特征z中位置为第k行第i列对应的值,yki为分类特征z中位置为第k行第i列对应的属于字典中对应字符的概率,D为字符数,ykj为分类特征z中位置为第k行第j列对应的属于字典中对应字符的概率。
进一步的,所述S32中将语义特征F1输入到全连接层FC中获得分类特征Z的步骤包括:
将分类特征Z输入到CTC损失函数进行损失函数的计算与模型的权重参数更新;
对分类特征Z进行处理得到分类特征Z中每个位置的概率y,并找出其对应的字符串S;
对字符串S进行去重处理,获得去重后的字符串s。
进一步的,所述对字符串S进行去重处理,获得去重后的字符串s的步骤包括:
比较去重后的字符串s与输入图片字符的长度;
若去重后的字符串s与输入图片字符长度相等,先找出去重后的字符串s中对应字符的位置,并将F1中对应位置的特征提取出来,将输入图片字符对应位置的中心特征提取出来;
若去重后的字符串s与输出图片字符长度不等,则不计算中心损失也不更新中心特征矩阵。
进一步的,所述先找出去重后的字符串s中对应字符的位置,并将F1中对应位置的特征提取出来的步骤包括:
计算平方损失函数并更新模型参数;
其中,平方损失函数为
Figure 369240DEST_PATH_IMAGE002
Loss为平方损失量,m为输入图片字符的长度,F1k为语义特征F1中对应位置的特征值,Cn为输入图片字符对应位置的中心特征值。
进一步的,所述将输入图片字符对应位置的中心特征提取出来的步骤包括:
使用现阶段的特征F1k来更新中心特征C中对应位置的特征Cn
计算对应位置的特征Cn与现阶段的特征F1k的距离,然后将对应位置的特征Cn与其加权相加,获得新的中心特征。
进一步的,所述将对应位置的特征Cn与其加权相加,获得新的中心特征的步骤包括:
根据加权公式获取新的中心特征值:
其中,加权公式为:
Figure 310520DEST_PATH_IMAGE003
Cn为新的中心特征值,F1k为语义特征F1中对应位置的特征值,为权重且大小为0.05。
本发明的有益效果为:本发明采用的中心特征初始化模块,可以对中心特征进行快速地初始化一个相对准确地特征中心,防止网络在训练初期出现较大的梯度波动使得网络无法正确训练的问题,其建立了一种基于中心损失函数的训练方法,通过中心损失函数来缩短特征空间中单字特征类内的距离,使得形近字的特征更易可分,提升形近字的识别效果。
本发明采用的中心损失训练模型模块,可以使得同一个字的特征空间更为紧凑,对于形近字来说,可以让它们离各自的特征中心更加接近,使得形近字更容易被区分,从而提升网络对于形近字的识别率,通过这种方法,可以在不改变模型大小以及推理速度的情况下,提升模型在识别文字时的准确率,相比于之前的技术,本发明具有更加精确的识别率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种基于中心损失的文字识别改进训练方法的流程图;
图2是根据本发明实施例的一种基于中心损失的文字识别改进训练方法的获取训练模型的流程图;
图3是根据本发明实施例的一种基于中心损失的文字识别改进训练方法获取中心点初始模块的流程图;
图4是根据本发明实施例的一种基于中心损失的文字识别改进训练方法的构建中心损失函数的流程图。
具体实施方式
为进一步说明各实施例,本发明提供有附图,这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理,配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点,图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
根据本发明的实施例,提供了一种基于中心损失的文字识别改进训练方法。
现结合附图和具体实施方式对本发明进一步说明,如图1-4所示,根据本发明实施例的基于中心损失的文字识别改进训练方法,包括以下步骤:
S1、利用卷积循环网络在文字识别数据集上进行训练至收敛,得到预训练模型;
其中,所述利用卷积循环网络在文字识别数据集上进行训练至收敛,得到预训练模型包括以下步骤:
S11、将文字图片输入到卷积循环神经网络中,并提取语义特征F1;
其中,语义特征F1包括输入图片中各文字的单字特征与句子的语义信息;
其中,单字特征包括字符在图片中的纹理信息、形态学信息;
其中,纹理信息可以包括但不限于灰度分布的均匀性、梯度分布的均匀性、梯度方差、灰度均方差、梯度均方差、模糊度等特征;
其中,形态学信息可以包括但不限于旋转角度、纵横比、周长、面积等特征;
其中,句子的语义信息包括但不限于前一字符的词性、后一字符的词性、前后字符的语义相关性、序列的语义相关性等信息。
S12、将提取到的语义特征F1输入到连接层FC中得到分类特征z;
其中,分类特征是对语义特征F1的加权线性求和,其主要表示图片横轴各位置属于字典中每一个字符的概率大小。
S13、将分类特征z输入到连接时域分类损失函数中进行损失函数的计算,对网络的模型权重参数进行更新;
按照模型训练的一般方法,在经过大量不同的文字图片多次重复这一步骤将网络训练至收敛之后,此时的网络模型即为预训练模型;
需注意,所提到的语义特征F1,其大小为L×S,根据输入图片的大小与卷积循环神经网络结构来决定;
需注意,这里的训练网络至收敛指的是使用此模型在同分布的验证集上进行验证,其字段准确率可以达到95%以上。
S2、对字典里的所有字生成单独的图片并获得一个单字数据集,而后使用预训练模型对所有单字数据集进行预测,通过提取卷积循环网络最后一层连接层的特征来获取单字的特征中心,将所获取的单字的特征中心来构建一个字典的特征中心;
其中,所述S2中对字典里的所有字生成单独的图片并获得一个单字数据集,而后使用预训练模型对所有单字数据集进行预测,通过提取卷积循环网络最后一层连接层的特征来获取单字的特征中心,将所获取的单字的特征中心来构建一个字典的特征中心包括以下步骤:
S21、对于字符数为D的字典,构建一个大小为D×S维的中心特征矩阵C;
S22、将单字图片输入卷积循环神经网络中,并取得语义特征F1;
S23、将语义特征F1输入到连接层FC获得一个大小为L×D维的分类特征z。
S3、利用所获取的字典的特征中心来构建中心损失函数,将构建后的中心损失函数与原损失函数一起训练预训练模型至再次收敛。
其中,所述S3中利用所获取的字典的特征中心来构建中心损失函数,将构建后的中心损失函数与原损失函数一起训练预训练模型至再次收敛包括以下步骤:
S31、将字段图片输入到加载了预训练模型的卷积循环网络中得到语义特征F1;
S32、将语义特征F1输入到全连接层FC中获得分类特征Z;
其中,语义特征F1包括输入图片中各文字的单字特征与句子的语义信息;
其中,单字特征包括字符在图片中的纹理信息、形态学信息;
其中,纹理信息可以包括但不限于灰度分布的均匀性、梯度分布的均匀性、梯度方差、灰度均方差、梯度均方差、模糊度等特征;
其中,形态学信息可以包括但不限于旋转角度、纵横比、周长、面积等特征;
其中,句子的语义信息包括但不限于前一字符的词性、后一字符的词性、前后字符的语义相关性、序列的语义相关性等信息;
其中,分类特征是对语义特征F1的加权线性求和,其主要表示图片横轴各位置属于字典中每一个字符的概率大小。
其中,所述将语义特征F1输入到连接层FC获得一个大小为L×D维的分类特征z的步骤包括:
使用SoftMax函数将其归一化,得出每个位置上对应字典中每个字的概率值;
其中,概率值公式为:
Figure 47532DEST_PATH_IMAGE001
Zki表示分类特征z中位置为第k行第i列对应的值,yki为分类特征z中位置为第k行第i列对应的属于字典中对应字符的概率,D为字符数,ykj为分类特征z中位置为第k行第j列对应的属于字典中对应字符的概率;
在y中第一行特征的长度为D,其中概率最大的位置在第2列,则字典中第2个字符就是这一行特征所对应的单字字符;
在找出所有位置的单字字符后,得到了一个长为L的字符串S,若字符串S中存在连续的重复字符,则将重复字符去掉,只保留首个字符;
例如:若获得的字符串为aaabbcc,则去重后的字符串为a_ _b_c;
其中,_代表被去掉的字符;
去重后的字符串用s表示,这时会有两种情况:
第一种情况:这时的去重后的字符串s只剩单个字符,则将特征F1中对应位置的特征提取出来,并将其更新到特征矩阵C对应字符位置;
例如,输入一张字符位置在字典的第n行的一张单字图片至网络中,获取了字符串s,在去重后发现此时单字符的位置在y的第k行,则提取F1中第k行的特征F1k,并将特征矩阵C中第n行的值使用F1k来替换。
其中,所述S32中将语义特征F1输入到全连接层FC中获得分类特征Z的步骤包括:
将分类特征Z输入到连接时域分类损失函数进行损失函数的计算与模型的权重参数更新;
对分类特征Z进行处理得到分类特征z中每个位置的概率y,并找出其对应的字符串S;
对字符串S进行去重处理,获得去重后的字符串s。
其中,所述对字符串S进行去重处理,获得去重后的字符串s的步骤包括:
比较去重后的字符串s与输入图片字符的长度;
先找出去重后的字符串s中对应字符的位置,并将F1中对应位置的特征提取出来;
将输入图片字符对应位置的中心特征提取出来;
计算平方损失函数并更新模型参数;
其中,平方损失函数为
Figure 570917DEST_PATH_IMAGE002
Loss为平方损失量,m为输入图片字符的长度,F1k为语义特征F1中对应位置的特征值,Cn为输入图片字符对应位置的中心特征值。
其中,所述将输入图片字符对应位置的中心特征提取出来的步骤包括:
使用现阶段的特征F1k来更新中心特征C中对应位置的特征Cn
计算对应位置的特征Cn与现阶段的特征F1k的距离,然后将对应位置的特征Cn与其加权相加,获得新的中心特征。
其中,所述将对应位置的特征Cn与其加权相加,获得新的中心特征的步骤包括:
根据加权公式获取新的中心特征值:
其中,加权公式为:
Figure 938444DEST_PATH_IMAGE003
Cn为新的中心特征值,F1k为语义特征F1中对应位置的特征值,为权重且大小为0.05;
例如:输入的图片中的字符串为abc,去重后的字符串s为a_ _b_c_,他们的长度都为3,满足情况一,则三个首字符的位置为1,4,6。那就将F1中对应位置的特征抽取出来,分别为F11,F14,F16;之后提取中心特征矩阵中字符abc所对应位置的中心特征,假设字符串abc在字典中对应的位置分别为第1、2、3位,那么就将中心特征矩阵的第1、2、3行提取出来,分别用C1,C2,C3表示;而后使用公式来计算损失函数并更新模型参数:
Figure 180070DEST_PATH_IMAGE004
之后则是中心特征的更新,
Figure 455194DEST_PATH_IMAGE005
若s与输出图片字符长度不等,则表示模型此时对图片中的一个或多个字符的预测存在较大的不确定性,所以此时无法准确地找出每个字符所对应特征的位置。因此跳过此步骤,不计算中心损失也不更新中心特征矩阵;
例如:输入的图片中字符串为abc,而去重后的字符串s为a_b_c_d,这时s的长度与输入图片字符串的长度不相等,则跳过此次中心损失的计算与中心特征矩阵的更新;之后则重复步骤S3,在训练模型至再次收敛后此时的网络模型即为最后的模型。
综上所述,借助于本发明的上述技术方案,本发明采用的中心特征初始化模块,可以对中心特征进行快速地初始化一个相对准确地特征中心,防止网络在训练初期出现较大的梯度波动使得网络无法正确训练的问题,其建立了一种基于中心损失函数的训练方法,通过中心损失函数来缩短特征空间中单字特征类内的距离,使得形近字的特征更易可分,提升形近字的识别效果。
本发明采用的中心损失训练模型模块,可以使得同一个字的特征空间更为紧凑,对于形近字来说,可以让它们离各自的特征中心更加接近,使得形近字更容易被区分,从而提升网络对于形近字的识别率,通过这种方法,可以在不改变模型大小以及推理速度的情况下,提升模型在识别文字时的准确率,相比于之前的技术,本发明具有更加精确的识别率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于中心损失的文字识别改进训练方法,其特征在于,该方法包括以下步骤:
S1、利用卷积循环网络在文字识别数据集上进行训练至收敛,得到预训练模型;
S2、对字典里的所有字生成单独的图片并获得一个单字数据集,而后使用预训练模型对所有单字数据集进行预测,通过提取卷积循环网络最后一层连接层的特征来获取单字的特征中心,将所获取的单字的特征中心来构建一个字典的特征中心;
S3、利用所获取的字典的特征中心来构建中心损失函数,将构建后的中心损失函数与原损失函数一起训练预训练模型至再次收敛。
2.根据权利要求1所述的一种基于中心损失的文字识别改进训练方法,其特征在于,所述S1中利用卷积循环网络在文字识别数据集上进行训练至收敛,得到预训练模型包括以下步骤:
S11、将文字图片输入到卷积循环神经网络中,并提取语义特征F1;
S12、将提取到的语义特征F1输入到连接层FC中得到分类特征z;
S13、将分类特征z输入到连接时域分类损失函数中进行损失函数的计算,对网络的模型权重参数进行更新。
3.根据权利要求1所述的一种基于中心损失的文字识别改进训练方法,其特征在于,所述S2中对字典里的所有字生成单独的图片并获得一个单字数据集,而后使用预训练模型对所有单字数据集进行预测,通过提取卷积循环网络最后一层连接层的特征来获取单字的特征中心,将所获取的单字的特征中心来构建一个字典的特征中心包括以下步骤:
S21、对于字符数为D的字典,构建一个大小为D×S维的中心特征矩阵C;
S22、将单字图片输入卷积循环神经网络中,并取得语义特征F1;
S23、将语义特征F1输入到连接层FC获得一个大小为L×D维的分类特征z。
4.根据权利要求1所述的一种基于中心损失的文字识别改进训练方法,其特征在于,所述S3中利用所获取的字典的特征中心来构建中心损失函数,将构建后的中心损失函数与原损失函数一起训练预训练模型至再次收敛包括以下步骤:
S31、将字段图片输入到加载了预训练模型的卷积循环网络中得到语义特征F1;
S32、将语义特征F1输入到全连接层FC中获得分类特征Z。
5.根据权利要求3所述的一种基于中心损失的文字识别改进训练方法,其特征在于,所述S23中将语义特征F1输入到连接层FC获得一个大小为L×D维的分类特征z的步骤包括:
使用SoftMax函数将其归一化,得出每个位置上对应字典中每个字的概率值;
其中,概率值公式为:
Figure DEST_PATH_IMAGE001
Zki表示分类特征z中位置为第k行第i列对应的值,yki为分类特征z中位置为第k行第i列对应的属于字典中对应字符的概率,D为字符数,ykj为分类特征z中位置为第k行第j列对应的属于字典中对应字符的概率。
6.根据权利要求4所述的一种基于中心损失的文字识别改进训练方法,其特征在于,所述S32中将语义特征F1输入到全连接层FC中获得分类特征Z的步骤包括:
将分类特征Z输入到CTC损失函数进行损失函数的计算与模型的权重参数更新;
对分类特征Z进行处理得到分类特征Z中每个位置的概率y,并找出其对应的字符串S;
对字符串S进行去重处理,获得去重后的字符串s。
7.根据权利要求6所述的一种基于中心损失的文字识别改进训练方法,其特征在于,所述对字符串S进行去重处理,获得去重后的字符串s的步骤包括:
比较去重后的字符串s与输入图片字符的长度;
若去重后的字符串s与输入图片字符长度相等,先找出去重后的字符串s中对应字符的位置,并将F1中对应位置的特征提取出来,将输入图片字符对应位置的中心特征提取出来;
若去重后的字符串s与输出图片字符长度不等,则不计算中心损失也不更新中心特征矩阵。
8.根据权利要求7所述的一种基于中心损失的文字识别改进训练方法,其特征在于,所述先找出去重后的字符串s中对应字符的位置,并将F1中对应位置的特征提取出来的步骤包括:
计算平方损失函数并更新模型参数;
其中,平方损失函数为
Figure 805503DEST_PATH_IMAGE002
Loss为平方损失量,m为输入图片字符的长度,F1k为语义特征F1中对应位置的特征值,Cn为输入图片字符对应位置的中心特征值。
9.根据权利要求7所述的一种基于中心损失的文字识别改进训练方法,其特征在于,所述将输入图片字符对应位置的中心特征提取出来的步骤包括:
使用现阶段的特征F1k来更新中心特征C中对应位置的特征Cn
计算对应位置的特征Cn与现阶段的特征F1k的距离,然后将对应位置的特征Cn与其加权相加,获得新的中心特征。
10.根据权利要求9所述的一种基于中心损失的文字识别改进训练方法,其特征在于,所述将对应位置的特征Cn与其加权相加,获得新的中心特征的步骤包括:
根据加权公式获取新的中心特征值:
其中,加权公式为:
Figure DEST_PATH_IMAGE003
Cn为新的中心特征值,F1k为语义特征F1中对应位置的特征值,为权重且大小为0.05。
CN202110888819.6A 2021-08-04 2021-08-04 一种基于中心损失的文字识别改进训练方法 Active CN113326833B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110888819.6A CN113326833B (zh) 2021-08-04 2021-08-04 一种基于中心损失的文字识别改进训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110888819.6A CN113326833B (zh) 2021-08-04 2021-08-04 一种基于中心损失的文字识别改进训练方法

Publications (2)

Publication Number Publication Date
CN113326833A true CN113326833A (zh) 2021-08-31
CN113326833B CN113326833B (zh) 2021-11-16

Family

ID=77426843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110888819.6A Active CN113326833B (zh) 2021-08-04 2021-08-04 一种基于中心损失的文字识别改进训练方法

Country Status (1)

Country Link
CN (1) CN113326833B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114743196A (zh) * 2022-05-18 2022-07-12 北京百度网讯科技有限公司 用于文本识别的神经网络及其训练方法、文本识别的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902678A (zh) * 2019-02-12 2019-06-18 北京奇艺世纪科技有限公司 模型训练方法、文字识别方法、装置、电子设备及计算机可读介质
CN111062237A (zh) * 2019-09-05 2020-04-24 商汤国际私人有限公司 识别图像中的序列的方法及装置、电子设备和存储介质
CN111325104A (zh) * 2020-01-22 2020-06-23 平安科技(深圳)有限公司 文本识别方法、装置及存储介质
CN112836748A (zh) * 2021-02-02 2021-05-25 太原科技大学 一种基于crnn-ctc的铸件标识字符识别方法
CN113033249A (zh) * 2019-12-09 2021-06-25 中兴通讯股份有限公司 文字识别方法、装置、终端及其计算机存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902678A (zh) * 2019-02-12 2019-06-18 北京奇艺世纪科技有限公司 模型训练方法、文字识别方法、装置、电子设备及计算机可读介质
CN111062237A (zh) * 2019-09-05 2020-04-24 商汤国际私人有限公司 识别图像中的序列的方法及装置、电子设备和存储介质
US20210073578A1 (en) * 2019-09-05 2021-03-11 Sensetime International Pte. Ltd. Method and apparatus for recognizing sequence in image, electronic device, and storage medium
CN113033249A (zh) * 2019-12-09 2021-06-25 中兴通讯股份有限公司 文字识别方法、装置、终端及其计算机存储介质
CN111325104A (zh) * 2020-01-22 2020-06-23 平安科技(深圳)有限公司 文本识别方法、装置及存储介质
CN112836748A (zh) * 2021-02-02 2021-05-25 太原科技大学 一种基于crnn-ctc的铸件标识字符识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
AWNI HANNUN: "《Sequence Modeling With CTC》", 《HTTPS://DISTILL.PUB/2017/CTC/》 *
徐清泉: "基于注意力机制的中文识别算法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *
焦李成: "《人工智能前沿技术丛书简明人工智能》", 30 September 2019 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114743196A (zh) * 2022-05-18 2022-07-12 北京百度网讯科技有限公司 用于文本识别的神经网络及其训练方法、文本识别的方法

Also Published As

Publication number Publication date
CN113326833B (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
Shen et al. Deep asymmetric pairwise hashing
Chowdhury et al. Bangla handwritten character recognition using convolutional neural network with data augmentation
CN109948149B (zh) 一种文本分类方法及装置
CN111753081A (zh) 基于深度skip-gram网络的文本分类的系统和方法
KR102305568B1 (ko) 일정한 처리 시간 내에 k개의 극값을 찾는 방법
JPH07296117A (ja) 減少された要素特徴部分集合を用いたパターン認識システム用の分類重みマトリックスを構成する方法
CN107832458A (zh) 一种字符级的基于嵌套深度网络的文本分类方法
US20200104635A1 (en) Invertible text embedding for lexicon-free offline handwriting recognition
CN107004140A (zh) 文本识别方法和计算机程序产品
Toledo et al. Handwriting recognition by attribute embedding and recurrent neural networks
CN110188827B (zh) 一种基于卷积神经网络和递归自动编码器模型的场景识别方法
CN110580458A (zh) 结合多尺度残差式cnn和sru的乐谱图像识别方法
Chen et al. A compact cnn-dblstm based character model for online handwritten chinese text recognition
CN111400494A (zh) 一种基于GCN-Attention的情感分析方法
Awni et al. Deep-learning ensemble for offline Arabic handwritten words recognition
CN109299246A (zh) 一种文本分类方法及装置
CN113326833B (zh) 一种基于中心损失的文字识别改进训练方法
Xu et al. Idhashgan: deep hashing with generative adversarial nets for incomplete data retrieval
Hung Vietnamese diacritics restoration using deep learning approach
Elaraby et al. A Novel Siamese Network for Few/Zero-Shot Handwritten Character Recognition Tasks.
CN112149388A (zh) 一种识别口令中词汇变形并产生猜测规则的方法
Roy AKHCRNet: Bengali handwritten character recognition using deep learning
Ali et al. High Accuracy Arabic Handwritten Characters Recognition Using Error Back Propagation Artificial Neural Networks
Alzrrog et al. Deep learning application for handwritten arabic word recognition
Sun et al. Chinese microblog sentiment classification based on convolution neural network with content extension method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant