CN112926684B - 一种基于半监督学习的文字识别方法 - Google Patents
一种基于半监督学习的文字识别方法 Download PDFInfo
- Publication number
- CN112926684B CN112926684B CN202110335240.7A CN202110335240A CN112926684B CN 112926684 B CN112926684 B CN 112926684B CN 202110335240 A CN202110335240 A CN 202110335240A CN 112926684 B CN112926684 B CN 112926684B
- Authority
- CN
- China
- Prior art keywords
- picture
- module
- character recognition
- semi
- supervised
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于半监督学习的文字识别方法,其步骤包括:1收集文本图片,建立文本识别数据集;2构建半监督文字识别网络;3运行半监督文字识别网络;4计算每一张输入图片对应的损失函数并训练半监督文字识别网络;5利用训练后的文字识别网络对任意输入的待识别图片进行识别。本发明无需标注大量数据即可得到较高的识别效果,从而提高识别效率和准确率。
Description
技术领域
本发明涉及字符识别领域的相关问题,具体涉及一种基于半监督学习的文字识别方法。
背景技术
目前针对字符识别主要有两种方法:基于传统算法的文本识别方法与基于深度学习的文本识别方法。基于深度学习的文本识别方法无论是准确率还是鲁棒性都大大优于基于传统算法的文本识别方法。但目前基于深度学习的文本识别的准确率非常依赖于大批量的训练样本,但是人为标注数据费时费力,导致基于深度学习的文本识别方法难以直接应用,需要花费大量精力去标注数据之后才有可能得到较好的识别结果。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于半监督学习的文字识别方法,以期通过无标注的真实数据即可得到较高的识别效果,从而提高识别效率和准确率。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于半监督学习的文字识别方法的特点在于,包括以下步骤:
步骤2:构建半监督文字识别网络,包括四个模块,分别是编码模块Encoder,自注意力融合模块SA,解码模块Decoder,字频空间对齐模块FA;
所述编码模块Encoder,包含:3a+1个卷积层,n个最大池化层,1个高度方向的自适应池化层;
所述自注意力融合模块SA,包括:包含3个卷积层的特征变换模块、相关度计算模块、融合模块;
所述解码模块Decoder,包括:一层1×1的卷积层,一个softmax激活函数;
步骤3、运行半监督文字识别网络:
步骤3.1、运行编码模块:
将未标注的真实文本图片集合Xu和另一标注后的文本图片集合Xl中的每一张图片输入所述编码模块Encoder中,每经过a个卷积层后再经过一个池化层的下采样处理,从而在经过3a个卷积层以及下采样处理后,得到尺寸为的特征图F,其中,H和W是所输入的每一张图片的高与宽;所述特征图F通过高度方向的自适应池化层与一层卷积层处理后,得到形状为的二维特征序列S,其中,C为最后一层卷积层的卷积核数目;
步骤3.2、运行自注意力融合模块:
将所述二维特征序列S输入所述自注意力融合模块SA中,经过所述特征变换模块的3次卷积处理,得到3个变换之后的特征,记为Q、K、V;
所述相关度计算模块计算特征Q与特征K之间的相关度sim=Q·KT;
所述融合模块根据所述相关度sim进行特征融合,得到输出特征Fout=softmax(sim)·V;
步骤3.3、运行解码模块:
将所述输出特征Fout输入所述解码模块Decoder中进行卷积处理并经过softmax激活函数后,将输出特征Fout映射到类别空间中,得到长度L为的二维预测概率矩阵y={y1,y2,...,yi,...,yL};yi是长度为M的向量,表示第i个位置预测的概率,M表示字符类别的数量;
步骤3.4、运行字频空间对齐模块:
步骤4:分别计算未标注的真实文本图片集合Xu与另一标注后的文本图片集合Xl的损失函数,训练半监督文字识别网络;
步骤4.1、计算标注后的文本图片集合Xl的损失函数:
步骤4.2、计算未标注的真实文本图片集合Xu的损失函数:
将所述未标注的真实文本图片集合Xu中任意一张输入图片记为xu,对输入图片xu进行两次不同的数据增强处理,得到两张增强后的图片,记为xu1与xu2;
步骤4.3、训练半监督文字识别网络:
首先计算总体损失函数:losstotal=lossl+δ×lossu,然后利用反向传播算法训练所述半监督文字识别网络,从而得到训练后的文字识别网络;其中,δ表示权重;
步骤5:利用训练后的文字识别网络对任意输入的待识别图片进行识别,得到待识别图片的二维预测概率矩阵y*,再选择二维预测概率矩阵y*中最大概率所对应的类别,作为待识别图片的预测结果。
与现有技术相比,本发明的有益效果在于:
1、本发明通过半监督学习方法来训练文字识别网络,相比一般的文字识别方法,无需花费大量精力标注海量数据就能取得较好的识别效果,省时省力。
2、本发明通过编码模块与自注意力融合模块提取富含上下文的特征,并有效滤除了背景的干扰,从而有效提高了文字识别的准确率。
3、本发明利用字频空间对齐模块来处理无标签数据,可以有效学习到此数据的分布,并通过计算无标签数据的损失函数来大幅提高文字识别网络的鲁棒性与准确性。
附图说明
图1是本发明基于半监督学习的文字识别方法的使用流程图;
图2是本发明基于半监督学习的文字识别方法的网络结构图。
具体实施方式
本实施例中,如图1所示,一种基于半监督学习的文字识别方法,包括以下步骤:
步骤1:收集未标注的真实文本图片集合,并将其缩放为宽度为W高度为H的固定大小图片集合,然后对缩放后的图片集合做归一化处理,即将图片上每一个像素值除以255,这样图片的像素值被归一化到0~1之间,便于网络进行学习,从而得到归一化后的真实文本图片集合,记为Xu,收集另一标注后的文本图片集合,将其缩放为宽度为W高度为H的固定大小图片集合,然后对缩放后的图片集合也做归一化处理,从而得到归一化后的标注后的文本图片集合记为Xl,并将对应的标签集合记为
步骤2:构建半监督文字识别网络,包括四个模块,分别是编码模块Encoder,自注意力融合模块SA,解码模块Decoder,字频空间对齐模块FA;
编码模块Encoder,包含:3a+1个卷积层,n个最大池化层,1个高度方向的自适应池化层;
自注意力融合模块SA,包括:包含3个卷积层的特征变换模块、相关度计算模块、融合模块;
解码模块Decoder,包括:一层1×1的卷积层,一个softmax激活函数;
步骤3、运行半监督文字识别网络,如图2所示:
步骤3.1、运行编码模块:
将未标注的真实文本图片集合Xu和另一标注后的文本图片集合Xl中的每一张图片输入编码模块Encoder中,每经过a个卷积层后再经过一个池化层的下采样处理,从而在经过3a个卷积层以及下采样处理后,得到尺寸为的特征图F,其中,H和W是所输入的每一张图片的高与宽;特征图F通过高度方向的自适应池化层与一层卷积层处理后,得到形状为的二维特征序列S,其中,C为最后一层卷积层的卷积核数目;
其中高度方向自适应池化层计算特征图F在高度方向上的最大数值,即只保留F在高度方向的最大值,如此便将特征图转换成了特征序列,便于最终的文字识别。考虑到高度方向自适应池化后会丢失部分空间信息,因此最终再对池化后的特征做一次卷积,得到平滑后的特征序列S。
步骤3.2、运行自注意力融合模块:
将二维特征序列S输入自注意力融合模块SA中,经过特征变换模块的3次卷积处理,得到3个变换之后的特征,记为Q、K、V;
由于三次卷积的参数各不相同,因此变换后的特征Q、K、V所处的特征空间不同,即可以在不同特征空间来度量其相关度,计算出的相关度更准确。
融合模块根据相关度sim进行特征融合,得到输出特征Fout=softmax(sim)·V;其中softmax激活函数对相关度矩阵进行归一化,将其归一化到0~1之间,然后与V做矩阵相乘,得到融合后的特征。
步骤3.3、运行解码模块:
将输出特征Fout输入解码模块Decoder中进行卷积处理并经过softmax激活函数后,将输出特征Fout映射到类别空间中,得到长度L为的二维预测概率矩阵y={y1,y2,...,yi,...,yL};yi是长度为M的向量,表示第i个位置预测的概率,M表示字符类别的数量;例如对于数字识别而言,M等于10,表示0~9的阿拉伯数字;对于英文识别而言,M等于52,表示大小写的26个英文字母。
步骤3.4、运行字频空间对齐模块:
步骤4:分别计算未标注的真实文本图片集合Xu与另一标注后的文本图片集合Xl的损失函数,训练半监督文字识别网络;
步骤4.1、计算标注后的文本图片集合Xl的损失函数:
将标注后的文本图片集合Xl中任意一张输入图片记为xl,对应的标签记为输入图片xl经过半监督文字识别网络的运行后,得到对应的预测字符频率则输入图片xl的损失函数为即计算预测出的字符频率分布与真实的字符频率分布之间的交叉熵损失,通过此损失来让预测到的分布来逼近真实的分布。
步骤4.2、计算未标注的真实文本图片集合Xu的损失函数:
将未标注的真实文本图片集合Xu中任意一张输入图片记为xu,对输入图片xu进行两次不同的数据增强处理,得到两张增强后的图片,记为xu1与xu2;
将增强后的图片xu1与xu2分别经过半监督文字识别网络的运行后,得到对应的预测字符频率与则输入图片xu的损失函数为此项损失的物理含义表示即使对一张图像进行数据增强,但图片上的文字是没有改变的,因此网络预测出的两个频率分布应该是相同的,通过此损失来学习无标签数据的分布,并让网络更加鲁棒。
步骤4.3、训练半监督文字识别网络:
首先计算总体损失函数:losstotal=lossl+δ×lossu,然后利用反向传播算法训练半监督文字识别网络,从而得到训练后的文字识别网络;其中,δ表示权重;
步骤5:利用训练后的文字识别网络对任意输入的待识别图片进行识别,得到待识别图片的二维预测概率矩阵y*,再选择二维预测概率矩阵y*中最大概率所对应的类别,作为待识别图片的预测结果。
Claims (1)
1.一种基于半监督学习的文字识别方法,其特征在于,包括以下步骤:
步骤2:构建半监督文字识别网络,包括四个模块,分别是编码模块Encoder,自注意力融合模块SA,解码模块Decoder,字频空间对齐模块FA;
所述编码模块Encoder,包含:3a+1个卷积层,n个最大池化层,1个高度方向的自适应池化层;
所述自注意力融合模块SA,包括:包含3个卷积层的特征变换模块、相关度计算模块、融合模块;
所述解码模块Decoder,包括:一层1×1的卷积层,一个softmax激活函数;
步骤3、运行半监督文字识别网络:
步骤3.1、运行编码模块:
将未标注的真实文本图片集合Xu和另一标注后的文本图片集合Xl中的每一张图片输入所述编码模块Encoder中,每经过a个卷积层后再经过一个池化层的下采样处理,从而在经过3a个卷积层以及下采样处理后,得到尺寸为的特征图F,其中,H和W是所输入的每一张图片的高与宽;所述特征图F通过高度方向的自适应池化层与一层卷积层处理后,得到形状为的二维特征序列S,其中,C为最后一层卷积层的卷积核数目;
步骤3.2、运行自注意力融合模块:
将所述二维特征序列S输入所述自注意力融合模块SA中,经过所述特征变换模块的3次卷积处理,得到3个变换之后的特征,记为Q、K、V;
所述相关度计算模块计算特征Q与特征K之间的相关度sim=Q·KT;
所述融合模块根据所述相关度sim进行特征融合,得到输出特征Fout=softmax(sim)·V;
步骤3.3、运行解码模块:
将所述输出特征Fout输入所述解码模块Decoder中进行卷积处理并经过softmax激活函数后,将输出特征Fout映射到类别空间中,得到长度L为的二维预测概率矩阵y={y1,y2,...,yi,...,yL};yi是长度为M的向量,表示第i个位置预测的概率,M表示字符类别的数量;
步骤3.4、运行字频空间对齐模块:
步骤4:分别计算未标注的真实文本图片集合Xu与另一标注后的文本图片集合Xl的损失函数,训练半监督文字识别网络;
步骤4.1、计算标注后的文本图片集合Xl的损失函数:
步骤4.2、计算未标注的真实文本图片集合Xu的损失函数:
将所述未标注的真实文本图片集合Xu中任意一张输入图片记为xu,对输入图片xu进行两次不同的数据增强处理,得到两张增强后的图片,记为xu1与xu2;
步骤4.3、训练半监督文字识别网络:
首先计算总体损失函数:losstotal=lossl+δ×lossu,然后利用反向传播算法训练所述半监督文字识别网络,从而得到训练后的文字识别网络;其中,δ表示权重;
步骤5:利用训练后的文字识别网络对任意输入的待识别图片进行识别,得到待识别图片的二维预测概率矩阵y*,再选择二维预测概率矩阵y*中最大概率所对应的类别,作为待识别图片的预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110335240.7A CN112926684B (zh) | 2021-03-29 | 2021-03-29 | 一种基于半监督学习的文字识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110335240.7A CN112926684B (zh) | 2021-03-29 | 2021-03-29 | 一种基于半监督学习的文字识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112926684A CN112926684A (zh) | 2021-06-08 |
CN112926684B true CN112926684B (zh) | 2022-11-29 |
Family
ID=76176408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110335240.7A Active CN112926684B (zh) | 2021-03-29 | 2021-03-29 | 一种基于半监督学习的文字识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112926684B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114596566B (zh) * | 2022-04-18 | 2022-08-02 | 腾讯科技(深圳)有限公司 | 文本识别方法及相关装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111507328A (zh) * | 2020-04-13 | 2020-08-07 | 北京爱咔咔信息技术有限公司 | 文本识别及模型训练方法、系统、设备及可读存储介质 |
CN111899292A (zh) * | 2020-06-15 | 2020-11-06 | 北京三快在线科技有限公司 | 文字识别方法、装置、电子设备及存储介质 |
CN112149644A (zh) * | 2020-11-09 | 2020-12-29 | 西北工业大学 | 基于全局特征指导的二维注意力机制文本识别方法 |
CN112269872A (zh) * | 2020-10-19 | 2021-01-26 | 北京希瑞亚斯科技有限公司 | 简历解析方法、装置、电子设备及计算机存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11763098B2 (en) * | 2019-08-07 | 2023-09-19 | 7299362 Canada Inc. | System and method for language translation |
CN111611985A (zh) * | 2020-04-23 | 2020-09-01 | 中南大学 | 一种基于模型融合的ocr识别方法 |
-
2021
- 2021-03-29 CN CN202110335240.7A patent/CN112926684B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111507328A (zh) * | 2020-04-13 | 2020-08-07 | 北京爱咔咔信息技术有限公司 | 文本识别及模型训练方法、系统、设备及可读存储介质 |
CN111899292A (zh) * | 2020-06-15 | 2020-11-06 | 北京三快在线科技有限公司 | 文字识别方法、装置、电子设备及存储介质 |
CN112269872A (zh) * | 2020-10-19 | 2021-01-26 | 北京希瑞亚斯科技有限公司 | 简历解析方法、装置、电子设备及计算机存储介质 |
CN112149644A (zh) * | 2020-11-09 | 2020-12-29 | 西北工业大学 | 基于全局特征指导的二维注意力机制文本识别方法 |
Non-Patent Citations (2)
Title |
---|
《Attention Augmented Convolutional Recurrent Network for Handwritten Japanese Text Recognition》;Nam TL et al;《IEEE》;20201125;全文 * |
《基于有限语料的文言文神经网络机器翻译研究》;王晓坡;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200215;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112926684A (zh) | 2021-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111723585B (zh) | 一种风格可控的图像文本实时翻译与转换方法 | |
CN110334705B (zh) | 一种结合全局和局部信息的场景文本图像的语种识别方法 | |
CN113343707A (zh) | 一种基于鲁棒性表征学习的场景文本识别方法 | |
CN115471851B (zh) | 融合双重注意力机制的缅甸语图像文本识别方法及装置 | |
CN112800876A (zh) | 一种用于重识别的超球面特征嵌入方法及系统 | |
CN111310766A (zh) | 基于编解码和二维注意力机制的车牌识别方法 | |
CN110598733A (zh) | 一种基于交互建模的多标记距离度量学习方法 | |
CN114140786B (zh) | 基于HRNet编码与双分支解码的场景文本识别方法 | |
CN110188827A (zh) | 一种基于卷积神经网络和递归自动编码器模型的场景识别方法 | |
CN115761764A (zh) | 一种基于视觉语言联合推理的中文手写文本行识别方法 | |
CN114067300A (zh) | 一种端到端的车牌矫正及识别方法 | |
CN112488128A (zh) | 一种基于贝塞尔曲线的任意畸变图像线段检测方法 | |
CN110991374B (zh) | 一种基于rcnn的指纹奇异点检测方法 | |
CN112926684B (zh) | 一种基于半监督学习的文字识别方法 | |
CN117152416A (zh) | 一种基于detr改进模型的稀疏注意力目标检测方法 | |
CN115116074A (zh) | 一种手写体文字识别、及模型训练方法和装置 | |
CN116258874A (zh) | 基于深度条件扩散网络的sar识别数据库样本姿态扩充方法 | |
CN114581905A (zh) | 一种基于语义增强机制的场景文本识别方法及系统 | |
CN117197727B (zh) | 一种基于全局时空特征学习的行为检测方法与系统 | |
CN114581918A (zh) | 一种文本识别模型训练方法及装置 | |
CN115862015A (zh) | 文字识别系统的训练方法及装置、文字识别方法及装置 | |
Wang et al. | Scene uyghur recognition with embedded coordinate attention | |
CN114529908A (zh) | 一种离线手写化学反应式图像识别技术 | |
CN114187569A (zh) | 一种皮尔森系数矩阵与注意力融合的实时目标检测方法 | |
Zhou et al. | SRRNet: A Transformer Structure with Adaptive 2D Spatial Attention Mechanism for Cell Phone-Captured Shopping Receipt Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |