CN117877043A - 模型训练方法、文本的识别方法、装置、设备及介质 - Google Patents
模型训练方法、文本的识别方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN117877043A CN117877043A CN202410274081.8A CN202410274081A CN117877043A CN 117877043 A CN117877043 A CN 117877043A CN 202410274081 A CN202410274081 A CN 202410274081A CN 117877043 A CN117877043 A CN 117877043A
- Authority
- CN
- China
- Prior art keywords
- image
- text
- training
- recognition model
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 90
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 33
- 238000013528 artificial neural network Methods 0.000 claims abstract description 21
- 230000000306 recurrent effect Effects 0.000 claims abstract description 19
- 238000003860 storage Methods 0.000 claims abstract description 15
- 230000015654 memory Effects 0.000 claims description 24
- 238000007781 pre-processing Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 18
- 230000008859 change Effects 0.000 claims description 12
- 235000012431 wafers Nutrition 0.000 description 88
- 238000004422 calculation algorithm Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 8
- 238000013461 design Methods 0.000 description 7
- 238000004519 manufacturing process Methods 0.000 description 6
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000000750 progressive effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000003706 image smoothing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种识别模型的训练方法、晶圆中文本的识别方法、装置、计算机设备及存储介质,以解决无法准确地识别晶圆中的文本的问题。该训练方法包括:将训练文本图像输入基于卷积循环神经网络的文本识别模型中,进行迭代训练,直至训练出的模型满足预期性能,得出目标文本识别模型;其中,基于卷积循环神经网络的文本识别模型,包括:多个卷积神经网络结构;每个卷积神经网络结构由大到小依次具有不同的感受野。
Description
技术领域
本发明涉及晶圆生产领域,尤其涉及一种识别模型的训练方法、晶圆中文本的识别方法、装置、计算机设备及存储介质。
背景技术
晶圆(Wafer)是最常用的半导体器件,其主要直径包括但不仅限于150mm、200mm和300mm等较小的尺寸。在晶圆的生产过程中,需要对晶圆中的文本进行识别,这些文本包括但不仅限于晶圆编号、批次号、生产日期和测试结果等。由于本身晶圆尺寸较小,因此晶圆上的文本不仅字体过小,且通常存在模糊不清、字符粘连、背景复杂等问题。
现有技术中,通常采用两种方法对文本进行识别:一种是基于图像分割技术对文本中的字符进行识别,另一种是基于不同的深度学习对文本进行识别。而这两种方法应用在晶圆中的文本处理上都存在着无法忽视的问题:前者需要大量的人工设计,并且对晶圆文本这种内容复杂的字符的处理准确度不高;后者在识别晶圆中的文本这种复杂多变的长文本时,也容易出现识别错误。因此,上述两种方法在应用于晶圆中的文本识别时,都难以准确地识别出文本内容。
发明内容
本发明实施例提供一种识别模型的训练方法、晶圆中文本的识别方法、装置、计算机设备及存储介质,以解决无法准确地识别晶圆中的文本的问题。
本发明第一方面,提供了一种识别模型的训练方法,包括:
将训练文本图像输入基于卷积循环神经网络和ViT网络的文本识别模型中,进行迭代训练,直至训练出的模型满足预期性能,得出目标文本识别模型;
其中,所述基于卷积循环神经网络和ViT网络的文本识别模型,包括:
多个卷积神经网络结构;每个所述卷积神经网络结构由大到小依次具有不同的感受野。
在一种可能的设计中,所述卷积神经网络结构用于:
将获取到的所述训练文本图像分割为多个一维图像块;
将每个所述一维图像块分别进行线性投影,得出不同所述一维图像块的嵌入图像块;
获取不同所述嵌入图像块之间的关联关系,得到所述训练文本图像的图像特征。
在一种可能的设计中,所述获取不同所述嵌入图像块之间的关联关系,得到所述训练文本图像的图像特征,包括:
分别获取每个所述嵌入图像块的嵌入位置;
分别计算每个所述嵌入位置的注意力权重;
分别将每个所注意力权重应用于对应的所述嵌入图像块中,得出多个权重图像块;
将每个所述权重图像块的上下文信息相连,作为所述二维图像的图像特征。
在一种可能的设计中,所述训练文本图像的获取包括如下方式:
对待处理图像进行图像变化,得到扩充样本图像;
将文本图像和所述扩充样本图像,作为所述训练文本图像。
在一种可能的设计中,所述图像变化包括图像缩放,所述对待处理图像进行图像变化,得到扩充样本图像,包括:
随机设定缩放因子,其中,所述缩放因子在所述文本识别模型的每轮迭代中都会被更新;
依据所述待处理图像的尺寸和所述缩放因子,计算出缩放完成后的图像尺寸;
若所述图像尺寸在预期范围内,则将所述待处理图像缩放至所述图像尺寸,得出所述扩充样本图像;
若所述图像尺寸不在预期范围内,则将所述待处理图像缩放为所述预期范围的阈值,得出所述扩充样本图像。
第二方面,提供了一种晶圆中文本的识别方法,包括:
获取所述晶圆中文本的文本图像;
对所述文本图像进行预处理,得出预处理图像;
将所述预处理图像输入目标文本识别模型,得出所述预处理图像中的文本内容,其中,所述目标文本识别模型采用如上述的训练方法训练得到。
在一种可能的设计中,所述对所述文本图像进行预处理,得出预处理图像,包括:
在所述文本图像中,划分多个局部区域;
分别计算每个所述局部区域中所有像素点的平均灰度和标准差;
分别判断每个局部区域内,所述平均灰度是否大于所述标准差;
若大于,则将所述局部区域内所有像素点的像素值加上所述标准差,得到所述预处理图像;
第三方面,提供了一种识别模型的训练装置,包括:
输出模块,用于将训练文本图像输入基于卷积循环神经网络和ViT网络的文本识别模型中,进行迭代训练,直至训练出的模型满足预期性能,得出目标文本识别模型;
其中,所述基于卷积循环神经网络和ViT网络的文本识别模型,包括:
多个卷积神经网络结构;每个所述卷积神经网络结构由大到小依次具有不同的感受野。
第四方面,提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述识别模型的训练方法的步骤和晶圆中文本的识别方法的步骤。
第五方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述识别模型的训练方法的步骤和晶圆中文本的识别方法的步骤。
上述识别模型的训练方法、晶圆中文本的识别方法、装置、计算机设备及存储介质,首先将训练文本图像输入基于卷积循环神经网络和ViT网络的文本识别模型中,进行迭代训练,直至训练出的模型满足预期性能,得出目标文本识别模型;其中,基于卷积循环神经网络和ViT网络的文本识别模型,包括:多个卷积神经网络结构;每个卷积神经网络结构由大到小依次具有不同的感受野。第一方面,相较于现有技术中的识别算法,ViT网络能够更好地捕获晶圆文本的局部特征,从而提升了晶圆文本识别的准确度;第二方面,相较于现有技术中其他深度学习模型,文本识别模型更改了卷积循环神经网络结构,通过渐进收缩感受野来控制特征图的尺寸,逐级减小文本图像的分辨率,从而提升晶圆文本的识别效率与准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中识别模型的训练方法或晶圆中文本的识别方法的一应用环境示意图;
图2是本发明一实施例中晶圆中文本的识别方法的一流程示意图;
图3是本发明一实施例中识别模型的训练方法的一文字识别模型的结构示意图;
图4是本发明一实施例中识别模型的训练方法的一注意力模块的示意图;
图5是本发明一实施例中晶圆中文本的识别装置的一原理框图;
图6是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有的晶圆生产领域需要对晶圆上的文本进行识别,其中,晶圆上的文本包括但不仅限于晶圆编号、批次号、制造日期和测试结果等。传统方案中,由于晶圆上的文本通常黏连严重,且字迹模糊,这种晶圆文本相较于普通文本的情况更为复杂、干扰更多,因此对其进行识别时通常采用人工对晶圆上的文本进行识别,但这种人工识别的效率低下,且容易出错。
而现有技术中,对普通文本进行识别的方式一般有两种,一种是基于传统图像处理方式,对文本图像进行分割识别,另一种是基于不同的深度学习算法,对文本上的内容进行识别。前者需要通过人工设计对文本字符进行分割,由于晶圆文本的字迹黏连严重,若采用这种方法来识别晶圆文本,将由于文本分割难度太大,将耗费大量人力成本。另外由于晶圆文本的图像背景复杂、噪音干扰多,因此这种方法无法准确地识别出文本中的字符。而后者则由于现有的深度学习算法的缺陷导致无法准确地识别出晶圆文本:
(1)对晶圆图像的特征提取能力弱。例如基于VGG(全称为Visual GeometryGroup)网络的CRNN(全称为Convolutional Recurrent Neural Network)模型,由于VGG网络的特征提取能力不足,因此在应对晶圆图文本这种复杂多变的字符识别任务时,无法准确地提取出字符的特征,进而导致最终晶圆文本识别的准确率低下。
(2)有效编码不足。例如,基于CTC(全称为Connectionist temporalclassification)算法的CRNN模型,CTC算法的有效编码不足,导致其无法准确地识别出字符,进而导致最终晶圆文本的识别准确率低。
(3)无法准确地识别长短不一的晶圆文本。例如,基于双向LSTM(Long Short-TermMemory)的CRNN模型,在识别长短不一的晶圆文本时,虽然双向LSTM能够有效地识别出长短不一的晶圆文本,但由于双向LSTM是基于梯度下降法和反向传播进行文本识别的,因此在每次迭代训练中,会使得CRNN的网络权重的更新值与误差函数的偏导数成比例。而这种方式会不定时出现梯度值几近消失的问题。这使得网络权重无法有效地更新,从而影响双向LSTM学习晶圆文本的长短期依赖,导致模型无法准确识别晶圆文本的长度。这降低了模型在识别文本较长的晶圆文本时的准确率。
鉴于上述问题,本发明参考对普通文本进行识别的方式,结合晶圆文本严重黏连,且字迹模糊、字迹过小等特点,本发明实施例提供的识别模型的训练方法和晶圆中文本的识别方法,可应用在如图1应用环境中,旨在由机器对晶圆上的文本进行自动识别,从而提高晶圆文本的识别效率和准确性,其中,测量设备通过网络与服务器进行通信。测量设备用于测量所述晶圆中文本的文本图像,并将文本图像发送给服务器,由服务器可以将文本图像作为训练文本图像,也可以将文本图像进行预处理后,输入训练好的目标文本识别模型,从而得出文本内容。其中,测量设备可以但不限于各种工业相机、工业传感器、激光测量仪、扫描式测量仪等。服务器可以用工业计算机、独立的服务器、多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种识别模型的训练方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S10:将训练文本图像输入基于卷积循环神经网络和ViT网络的文本识别模型中,进行迭代训练,直至训练出的模型满足预期性能,得出目标文本识别模型。
其中,卷积循环神经网络(Convolutional Recurrent Neural Network,简称为CRNN)通常用于解决基于图像的序列识别问题,特别是场景文字识别问题。ViT网络是指Vision Transformer网络,是一种基于Transformer的图片分类网络。ViT网络包括但不限于原生的ViT网络、ViT-Ti网络、ViT-S网络等。本实施例在训练过程中,会根据验证集来评估模型性能。当模型的性能满足要求时,训练完成。
文本识别模型中包括但不仅限于SE-ResNet (全称为Squeeze-and-ExcitationResidual Network)网络、BiLSTM (全称为Bi-directional Long Short-Term Memory)网络和注意力机制层。其中,SE-ResNet网络用于提取训练文本图像的特征,BiLSTM网络用于捕捉训练文本图像的上下文信息,注意力机制层用于提高文字识别模型对训练文本图像重要区域的关注。
值得注意的是,步骤S10中的ViT网络相比于其他神经网络能够更好地捕获晶圆文本的局部特征。由于晶圆文本的尺寸过小,因此ViT网络能够更好地帮助文字识别模型准确地对晶圆文本进行识别。另外步骤S10从多种ViT网络中选用了ViT-S网络来构建文字识别模型,ViT-S网络是简化版的原生ViT网络,其体积更小,因此占用资源更少,这使得模型运行速度更快、模型性能更高。
S20:所述基于卷积循环神经网络和ViT网络的文本识别模型,包括:多个卷积神经网络结构;每个所述卷积神经网络结构由大到小依次具有不同的感受野。
其中,感受野(Receptive Field)是输入空间中影响网络特定单元的区域。该输入区域可以是网络的输入,还可以是网络中其他单元的输出,此处不做限定。
例如,文本识别模型包含四个卷积神经网络结构F1、F2、F3、F4。首先,将训练文本图像输入F1中,F1中的Transformer编码器将图像输出并转换成大小为H/4×W/4×C的特征图。然后分别在F2、F3、F4中进行相同的操作,最终得出F2的步长幅度为8,F3的步长幅度为16,F4的步长幅度为32,步长幅度是指在训练文本图像上进行采样的范围。最后将得出如图3所示的模型。
值得注意的是,步骤S20实质上是采用了一种渐进收缩策略来控制特征图的尺度。比如F1层的通道数是64,那么F2层的通道数为128,以此类推,保证低计算量的同时提升模型整体的感受野,从而提升模型的计算效率和准确率。
需要说明的是,本实施例第一方面,相较于现有技术中的识别算法,ViT网络能够更好地捕获晶圆文本的局部特征,从而提升了晶圆文本识别的准确度;第二方面,相较于现有技术中其他深度学习模型,文本识别模型更改了卷积循环神经网络结构,通过渐进收缩感受野来控制特征图的尺寸,逐级减小文本图像的分辨率,从而提升晶圆文本的识别效率与准确率。
在一实施例中,步骤S20中的卷积神经网络结构用于:
S31:将获取到的所述训练文本图像分割为多个一维图像块。
S32:将每个所述一维图像块分别进行线性投影,得出不同所述一维图像块的嵌入图像块。
S33:获取不同所述嵌入图像块之间的关联关系,得到所述训练文本图像的图像特征。
其中,一维图像块是指patch。
例如,训练文本图像的大小为H×W×3,其中H为高度、W为宽度、3为通道数或行数。划分为个一维图像块,其中,每个一维图像块大小为4×4×3(高度×宽度×通道数或行数)。接着,将一维图像块输入线性投影层中,得出大小为/>的嵌入图像块。Ci是指特征通道数。将这些嵌入图像块及其位置(关联关系)输入Transformer编码器,得到该训练文本图像的特征。
需要说明的是,步骤S31本实施例优选利用卷积嵌入层来实现,卷积嵌入层可以将图像中的每个像素映射成向量,这些向量被分割成一维图像块,有效防止了由于晶圆图像分辨率过大而导致资源受限,从而影响目标文本识别模型的计算效率和准确率。其中,资源包括但不仅限于显存资源、算力资源等。
在一实施例中,步骤S33中,即获取不同所述嵌入图像块之间的关联关系,得到所述训练文本图像的图像特征,具体包括如下步骤:
S331:分别获取每个所述嵌入图像块的嵌入位置。
S332:分别计算每个所述嵌入位置的注意力权重。
S333:分别将每个所注意力权重应用于对应的所述嵌入图像块中,得出多个权重图像块。
S334:将每个所述权重图像块的上下文信息相连,作为所述二维图像的图像特征。
本实施例实质上是对ViT-S网络中的多头注意力模块(Multi-Head Attention,MHA)进行改进。如图4所示,图中左侧为ViT-S网络中多头注意力模块,图中右侧则为改进后的结构。
需要说明的是,本实施例将空间通道缩减注意力模块(Spatial-ReductionAttention,SRA)缩小,并替换了多头注意力模块中的部分方法,这使得本实施例能更精确地捕获图像中的局部信息,并且由于空间通道缩减注意力模块主要线性投影来对通道数进行减少,这有效减少了模型内部的计算次数,进而提升了模型识别晶圆文本的效率。
在一实施例中,对步骤S10中的文本识别模型进行了进一步改进,具体步骤如下:
S71:将ViT-S网络中的AdamW算法替换为AdaBelief算法。
其中,AdamW指的是Adam (Adaptive Moment Estimation)和 Weight Decay(权重衰减),而AdaBelief则是在Adam的基础上,根据梯度方向上的“信念”(Belief)来调整训练的步长。
需要说明的是,AdaBelief结合了SGD(随机梯度下降)和 Adam的优点,既具有 SGD算法良好的泛化性(Generalization),又具有与Adam 算法一样的快速收敛性(Convergence ability)和稳定性(Stability)。另外,由于 AdaBelief 能够优化出性能更好的模型,因此,步骤S71使得文本识别模型能够应对模型训练过程中,由于学习率设置不合理而导致过拟合这一问题,进而使得最终得出的目标文本识别模型能够更为准确地对晶圆文本进行识别。
在一实施例中,步骤S10中训练文本图像的获取包括如下步骤:
S41:对待处理图像进行图像变化,得到扩充样本图像。
S42:将文本图像和所述扩充样本图像,作为所述训练文本图像。
其中,图像变化包括但不仅限于对待处理图像进行翻转、平移、缩放、旋转和调整图像RGB各通道权重。本实施例在平移图像时,优选采用仿射变换的方法。仿射变换是一种几何变换,主要是将图像中的所有像素按照一个仿射变换矩阵进行平移,进而得到新图像分布。
示例一,生成随机数 r,r 的范围是 [0, 1],若r小于0.5,则将待处理图像水平翻转;若r大于或等于0.5,则将待处理图像垂直翻转。
示例二,创建一个与待处理图像大小相同的控图想,然后使用OpenCV库创建仿射变换矩阵。接着将待处理图像中的每个像素坐标 (x, y) 乘以仿射变换矩阵 A,得到新的像素坐标 (x', y');将新的像素坐标 (x', y') 四舍五入为整数,得到新的像素位置(x'', y'');将待处理图像中 (x, y) 处的像素复制到新图像中 (x'', y'') 处的相应位置,以完成对待处理图像的平移。
示例三,随机生成三个偏移量r_shift、g_shift和b_shift,范围分别为[-r_shift_limit, r_shift_limit]、[-g_shift_limit, g_shift_limit]和[-b_shift_limit,b_shift_limit]。然后,将待处理图像的每个像素点的RGB值,分别加上对应的偏移量,得到新的RGB值,以完成对待处理图像RGB各通道权重的调整。其中,得到新的RGB值是,需要判断其是否在[0, 255]的范围内,以防止溢出。
示例四,对待处理图像进行旋转,主要使用OpenCV库提供的图像旋转方法。将其主参数设为逆时针或顺时针旋转,并默认填充为白色,以防止旋转后图像出现黑边。其中,将旋转/>是在多次工程实践后确定出的最佳结果。
需要说明的是,本实施例中,对待处理图像进行了图像变化,其中,调整RGB各通道权重是为了防止在复杂环境下所生成的晶圆文本对比度过低,进而导致目标文本识别模型的识别准确率下降。对待处理图像进行旋转在是为了防止晶圆文本中的字符歪斜,影响目标文本识别模型对字符的识别,从而导致晶圆文本识别的准确率下降,例如数字7和1。综上,由于训练文本图像中包含了扩充样本图像,有效提高目标文本识别模型的泛化能力,使目标文本识别模型能够更好地适应不同类型的晶圆图像,进而使得最终训练出的目标文本识别模型能够更准确地对晶圆文本进行识别。
在一实施例中,步骤S41中,即述图像变化包括图像缩放,所述将所述待处理图像进行图像变化,得到扩充样本图像,具体包括如下步骤:
S411:随机设定缩放因子,其中,所述缩放因子在所述文本识别模型的每轮迭代中都会被更新。
S412:依据所述待处理图像的尺寸和所述缩放因子,计算出缩放完成后的图像尺寸。
S413若所述图像尺寸不在预期范围内,则将所述待处理图像缩放为所述预期范围的阈值,得出所述扩充样本图像。
S414:将所述待处理图像缩放至所述尺寸,得出所述扩充样本图像。
例如,待处理图像尺寸为是1000(宽)x200(高),预期范围为[700,1400],那么该图像在文本识别模型的第一轮迭代过程中,若缩小后图像小于700pix,则保持图像为700pix;若放大后图像大于1400pix,则保持图像为1400pix;若缩小/放大后图像尺寸处于[700,1400]这个范围内,则将图像缩放至符合随机因子的尺寸。文本识别模型的第二至第N轮迭代中,每轮都会更新一次缩放因子。
需要说明的是,本实施例在文字识别模型训练过程中,每次迭代时都让图像呈现出不同的大小,这有利于文字识别模型对每次识别的结果与测试集进行对照,防止训练过程中的误差,使得训练出的目标文本识别模型对晶圆文本的识别更为准确。
在一实施例中,步骤S41中,所述图像变化还包括合成文本图像,即所述将所述待处理图像进行图像变化,得到扩充样本图像,包括如下具体步骤:
S81:使用图形库中的图像模拟生成带文本标签的合成文本图像。
需要说明的是,由于合成文本图像可以包括不同字体、字符尺寸、字符位置和背景图像,因此可以有效提升目标文字识别模型的鲁棒性。
在一实施例中,如图2所示,提供一种晶圆中文本的识别方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S50:获取所述晶圆中文本的文本图像。
S60:对所述文本图像进行预处理,得出预处理图像。
S70:将所述预处理图像输入目标文本识别模型,得出所述预处理图像中的文本内容,其中,所述目标文本识别模型采用如上述的训练方法训练得到。
其中,预处理包括但不仅限于图像二值化、图像平滑和图像增强等。图像二值化本实施例优选采用OTSU(大津)二值化算法。
示例一,计算文本图像的灰度直方图,然后计算文本图像的类间方差,接着找到最大类间方差对应的阈值。最后根据阈值将文本图像中的像素值分为两类,从而完成对文本图像的二值化。
示例二,在滤波器窗口内,找出文本图像中的每个像素点的像素值。接着,对滤波器窗口内的所有像素值进行高斯加权平均,以得出新的像素值,从而完成对文本图像的平滑处理。
需要说明的是,本实施例中对图像进行预处理,以去除噪声、增强图像对比度等,提高图像质量,从而提升了晶圆文本的清晰度,进而有效提升识别晶圆文本的准确率和效率。
在一实施例中,步骤S60中,即对所述文本图像进行预处理,得出预处理图像,具体包括如下步骤:
S61:在所述文本图像中,划分多个局部区域。
S62:分别计算每个所述局部区域中所有像素点的平均灰度和标准差。
S63:分别判断每个局部区域内,所述平均灰度是否大于所述标准差。
S64:若大于,则将所述局部区域内所有像素点的像素值加上所述标准差,得到所述预处理图像。
S65:若小于,则将所述局部区域内所有像素点的像素值减去所述标准差,得到所述预处理图像。
例如,首先,定义局部区域的尺寸,然后遍历文本图像中每个像素点,分别计算每个像素点所在的局部区域的平均灰度和标准差。接着,将局部区域的每个像素值与平均灰度进行比较,如果像素值小于平均灰度,则将像素值与标准差相加;如果像素值大于平均灰度,则将像素值与标准差相减,以对文本图像进行增强。
需要说明的是,本实施例实质上通过对文本图像进行增强,进而提升了文本图像的对比度,从而进一步提升了晶圆文本的清晰度,并进一步有效提升识别晶圆文本的准确率和效率。
本发明对现有技术中的两种文本的识别方式(图像分割技术和深度学习技术)进行了改进,有效克服了传统方案的局限性,使得晶圆文本的识别更为准确高效。另外,大量减少人工干预,极大程度上降低了晶圆产线中文本信息时产生的误差。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种识别模型的训练装置,该识别模型的训练装置与上述实施例中识别模型的训练方法一一对应。该识别模型的训练装置包括输出模块10。模块详细说明如下:
输出模块10,用于将训练文本图像输入基于卷积循环神经网络和ViT网络的文本识别模型中,进行迭代训练,直至训练出的模型满足预期性能,得出目标文本识别模型;
其中,所述基于卷积循环神经网络和ViT网络的文本识别模型,包括:
多个卷积神经网络结构;每个所述卷积神经网络结构由大到小依次具有不同的感受野。
关于识别模型的训练装置的具体限定可以参见上文中对于识别模型的训练方法的限定,在此不再赘述。上述识别模型的训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。
在一实施例中,提供一种晶圆中文本的识别装置,该晶圆中文本的识别装置与上述实施例中晶圆中文本的识别方法一一对应。如图5所示,该晶圆中文本的识别装置包括获取模块20、预处理模块30和输入模块40。各功能模块详细说明如下:
获取模块20,获取所述晶圆中文本的文本图像;
预处理模块30,对所述文本图像进行预处理,得出预处理图像;
输入模块40,将所述预处理图像输入目标文本识别模型,得出所述预处理图像中的文本内容,其中,所述目标文本识别模型采用上述的训练装置得到。
关于晶圆中文本的识别装置的具体限定可以参见上文中对于晶圆中文本的识别方法的限定,在此不再赘述。上述晶圆中文本的识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。
上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于保存上述晶圆中文本的识别方法和识别模型的训练方法实现过程中产生的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述晶圆中文本的识别方法和识别模型的训练方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
将训练文本图像输入基于卷积循环神经网络和ViT网络的文本识别模型中,进行迭代训练,直至训练出的模型满足预期性能,得出目标文本识别模型;
其中,所述基于卷积循环神经网络和ViT网络的文本识别模型,包括:
多个卷积神经网络结构;每个所述卷积神经网络结构由大到小依次具有不同的感受野。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取所述晶圆中文本的文本图像;
对所述文本图像进行预处理,得出预处理图像;
将所述预处理图像输入目标文本识别模型,得出所述预处理图像中的文本内容,其中,所述目标文本识别模型采用上述的训练方法训练得到。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
将训练文本图像输入基于卷积循环神经网络和ViT网络的文本识别模型中,进行迭代训练,直至训练出的模型满足预期性能,得出目标文本识别模型;
其中,所述基于卷积循环神经网络和ViT网络的文本识别模型,包括:
多个卷积神经网络结构;每个所述卷积神经网络结构由大到小依次具有不同的感受野。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取所述晶圆中文本的文本图像;
对所述文本图像进行预处理,得出预处理图像;
将所述预处理图像输入目标文本识别模型,得出所述预处理图像中的文本内容,其中,所述目标文本识别模型采用上述的训练方法训练得到。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
将训练文本图像输入基于卷积循环神经网络和ViT网络的文本识别模型中,进行迭代训练,直至训练出的模型满足预期性能,得出目标文本识别模型;
其中,所述基于卷积循环神经网络和ViT网络的文本识别模型,包括:
多个卷积神经网络结构;每个所述卷积神经网络结构由大到小依次具有不同的感受野。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种识别模型的训练方法,其特征在于,包括:
将训练文本图像输入基于卷积循环神经网络和ViT网络的文本识别模型中,进行迭代训练,直至训练出的模型满足预期性能,得出目标文本识别模型;
其中,所述基于卷积循环神经网络和ViT网络的文本识别模型,包括:
多个卷积神经网络结构;每个所述卷积神经网络结构由大到小依次具有不同的感受野。
2.如权利要求1所述的训练方法,其特征在于,所述卷积神经网络结构用于:
将获取到的所述训练文本图像分割为多个一维图像块;
将每个所述一维图像块分别进行线性投影,得出不同所述一维图像块的嵌入图像块;
获取不同所述嵌入图像块之间的关联关系,得到所述训练文本图像的图像特征。
3.如权利要求2所述的训练方法,其特征在于,所述获取不同所述嵌入图像块之间的关联关系,得到所述训练文本图像的图像特征,包括:
分别获取每个所述嵌入图像块的嵌入位置;
分别计算每个所述嵌入位置的注意力权重;
分别将每个所注意力权重应用于对应的所述嵌入图像块中,得出多个权重图像块;
将每个所述权重图像块的上下文信息相连,作为所述二维图像的图像特征。
4.如权利要求1所述的训练方法,其特征在于,所述训练文本图像的获取包括如下方式:
对待处理图像进行图像变化,得到扩充样本图像;
将文本图像和所述扩充样本图像,作为所述训练文本图像。
5.如权利要求4所述的训练方法,其特征在于,所述图像变化包括图像缩放,所述对待处理图像进行图像变化,得到扩充样本图像,包括:
随机设定缩放因子,其中,所述缩放因子在所述文本识别模型的每轮迭代中都会被更新;
依据所述待处理图像的尺寸和所述缩放因子,计算出缩放完成后的图像尺寸;
若所述图像尺寸在预期范围内,则将所述待处理图像缩放至所述图像尺寸,得出所述扩充样本图像;
若所述图像尺寸不在预期范围内,则将所述待处理图像缩放为所述预期范围的阈值,得出所述扩充样本图像。
6.一种晶圆中文本的识别方法,其特征在于,包括:
获取所述晶圆中文本的文本图像;
对所述文本图像进行预处理,得出预处理图像;
将所述预处理图像输入目标文本识别模型,得出所述预处理图像中的文本内容,其中,所述目标文本识别模型采用如权利要求1-5任一项所述的训练方法训练得到。
7.如权利要求6所述的识别方法,其特征在于,所述对所述文本图像进行预处理,得出预处理图像,包括:
在所述文本图像中,划分多个局部区域;
分别计算每个所述局部区域中所有像素点的平均灰度和标准差;
分别判断每个局部区域内,所述平均灰度是否大于所述标准差;
若大于,则将所述局部区域内所有像素点的像素值加上所述标准差,得到所述预处理图像;
若小于,则将所述局部区域内所有像素点的像素值减去所述标准差,得到所述预处理图像。
8.一种识别模型的训练装置,其特征在于,包括:
输出模块,用于将训练文本图像输入基于卷积循环神经网络和ViT网络的文本识别模型中,进行迭代训练,直至训练出的模型满足预期性能,得出目标文本识别模型;
其中,所述基于卷积循环神经网络和ViT网络的文本识别模型,包括:
多个卷积神经网络结构;每个所述卷积神经网络结构由大到小依次具有不同的感受野。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410274081.8A CN117877043B (zh) | 2024-03-11 | 2024-03-11 | 模型训练方法、文本的识别方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410274081.8A CN117877043B (zh) | 2024-03-11 | 2024-03-11 | 模型训练方法、文本的识别方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117877043A true CN117877043A (zh) | 2024-04-12 |
CN117877043B CN117877043B (zh) | 2024-07-09 |
Family
ID=90597043
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410274081.8A Active CN117877043B (zh) | 2024-03-11 | 2024-03-11 | 模型训练方法、文本的识别方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117877043B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109117848A (zh) * | 2018-09-07 | 2019-01-01 | 泰康保险集团股份有限公司 | 一种文本行字符识别方法、装置、介质和电子设备 |
US20210005183A1 (en) * | 2019-07-03 | 2021-01-07 | Qualcomm Incorporated | Orthogonally constrained multi-head attention for speech tasks |
CN112668473A (zh) * | 2020-12-28 | 2021-04-16 | 东南大学 | 基于多特征深度融合神经网络的车辆状态准确感知方法 |
CN113486175A (zh) * | 2021-07-08 | 2021-10-08 | 平安国际智慧城市科技股份有限公司 | 文本分类方法、文本分类装置、计算机设备及存储介质 |
-
2024
- 2024-03-11 CN CN202410274081.8A patent/CN117877043B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109117848A (zh) * | 2018-09-07 | 2019-01-01 | 泰康保险集团股份有限公司 | 一种文本行字符识别方法、装置、介质和电子设备 |
US20210005183A1 (en) * | 2019-07-03 | 2021-01-07 | Qualcomm Incorporated | Orthogonally constrained multi-head attention for speech tasks |
CN112668473A (zh) * | 2020-12-28 | 2021-04-16 | 东南大学 | 基于多特征深度融合神经网络的车辆状态准确感知方法 |
CN113486175A (zh) * | 2021-07-08 | 2021-10-08 | 平安国际智慧城市科技股份有限公司 | 文本分类方法、文本分类装置、计算机设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
LAKE TAHOE ET AL: "Image Net classification with deep convolutional neural networks", PROCEEDINGS OF THE 25TH INTERNATIONAL CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS, 31 December 2012 (2012-12-31), pages 1097 - 1105 * |
曲昭伟 等: "基于迁移学习的分层注意力网络情感分析算法", 计算机应用, no. 11, 19 July 2018 (2018-07-19), pages 7 - 10 * |
郑传锟: "基于时空特征融合的语音情感识别研究", 中国优秀硕士学位论文全文数据库信息科技辑, 15 January 2023 (2023-01-15), pages 136 - 509 * |
Also Published As
Publication number | Publication date |
---|---|
CN117877043B (zh) | 2024-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110414507B (zh) | 车牌识别方法、装置、计算机设备和存储介质 | |
CN109753971B (zh) | 扭曲文字行的矫正方法及装置、字符识别方法及装置 | |
CN114529459B (zh) | 一种对图像边缘进行增强处理的方法和系统及介质 | |
CN110969627B (zh) | 图像分割模型训练方法、图像处理方法及装置 | |
CN110647795A (zh) | 一种表格识别方法 | |
CN113838138B (zh) | 一种优化特征提取的系统标定方法、系统、装置和介质 | |
CN114529837A (zh) | 建筑物轮廓提取方法、系统、计算机设备及存储介质 | |
CN110415280B (zh) | 多任务cnn模型下的遥感影像与建筑物矢量配准方法及系统 | |
CN115713487A (zh) | 用于x射线焊缝图像的缺陷识别方法、设备和存储介质 | |
CN114418869B (zh) | 一种文档图像几何校正方法、系统、装置及介质 | |
CN113723399A (zh) | 一种车牌图像矫正方法、车牌图像矫正装置和存储介质 | |
CN115457254A (zh) | 一种基于深度学习的二维码定位正畸方法、介质及处理器 | |
CN114155285B (zh) | 基于灰度直方图的图像配准方法 | |
CN116612280A (zh) | 车辆分割方法、装置、计算机设备和计算机可读存储介质 | |
CN111340025A (zh) | 字符识别方法、装置、计算机设备和计算机可读存储介质 | |
CN117557565A (zh) | 一种锂电池极片的检测方法及其装置 | |
CN117877043B (zh) | 模型训练方法、文本的识别方法、装置、设备及介质 | |
CN117710703A (zh) | 图像处理方法、装置、计算机设备及可读存储介质 | |
CN111754521B (zh) | 图像处理方法和装置、电子设备及存储介质 | |
CN113012132A (zh) | 一种图像相似度确定方法、装置及计算设备、存储介质 | |
CN116844058B (zh) | 一种指针式仪表示数的识别方法、装置、设备及存储介质 | |
CN113688840B (zh) | 图像处理模型的生成方法、处理方法、存储介质及终端 | |
CN112652004B (zh) | 一种图像处理方法、装置、设备及介质 | |
CN118037610B (zh) | 一种针对复杂环境的水尺图像畸变校正方法和系统 | |
CN116958954B (zh) | 基于关键点与旁路矫正的车牌识别方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |