CN116959003A - 一种文字识别方法、装置、电子设备及存储介质 - Google Patents
一种文字识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116959003A CN116959003A CN202310720892.1A CN202310720892A CN116959003A CN 116959003 A CN116959003 A CN 116959003A CN 202310720892 A CN202310720892 A CN 202310720892A CN 116959003 A CN116959003 A CN 116959003A
- Authority
- CN
- China
- Prior art keywords
- target image
- matrix
- diffusion model
- model
- diffusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000009792 diffusion process Methods 0.000 claims abstract description 145
- 238000012545 processing Methods 0.000 claims abstract description 35
- 230000008569 process Effects 0.000 claims abstract description 17
- 239000011159 matrix material Substances 0.000 claims description 81
- 238000012549 training Methods 0.000 claims description 52
- 230000006870 function Effects 0.000 claims description 29
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 13
- 238000000354 decomposition reaction Methods 0.000 claims description 11
- 238000011156 evaluation Methods 0.000 claims description 10
- 238000005457 optimization Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000011478 gradient descent method Methods 0.000 claims description 5
- 238000005452 bending Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 9
- 239000002245 particle Substances 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 238000009499 grossing Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/22—Character recognition characterised by the type of writing
- G06V30/226—Character recognition characterised by the type of writing of cursive writing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Character Discrimination (AREA)
Abstract
本申请的实施例公开了一种文字识别方法、装置、电子设备及存储介质,涉及图像识别技术领域,有效提高文字识别准确率。所述方法包括:获取目标图像,所述目标图像含有畸变文字;基于扩散模型对目标图像进行处理,降低所述目标图像的文字畸变程度,所述扩散模型是对文字畸变过程的建模;对处理后的目标图像的文字进行识别。本发明适用于对畸变文字的识别场景。
Description
技术领域
本申请涉及图像识别技术领域,具体涉及一种文字识别方法、装置、电子设备及存储介质。
背景技术
在现实场景中,例如手写文字、旧书籍、图像扫描等情况下,经常遇到弯曲、重叠等畸变的文字,这种情况下,对弯曲、重叠文字的处理过程中,难以实现对相应字符的准确识别。
传统的文字识别技术通常基于字符之间的空间关系进行识别,但是在文字弯曲、重叠的情况下,字符之间的空间关系变得非常复杂,难以准确识别。
发明内容
为了解决现有的弯曲、重叠文字的识别准确性差的问题,本申请提供一种文字识别方法、装置、电子设备及存储介质。
第一方面,本发明实施例提供一种文字识别方法,包括:
获取目标图像,所述目标图像含有畸变文字;
基于扩散模型对目标图像进行处理,降低所述目标图像的文字畸变程度,所述扩散模型是对文字畸变过程的建模;
对处理后的目标图像的文字进行识别。
在一种具体的实施方案中,所述基于扩散模型对目标图像进行处理,包括:
将所述目标图像构建为矩阵M;
对矩阵M进行奇异值分解:M=USVT;其中U为左奇异向量矩阵,S为奇异值矩阵,V为右奇异向量矩阵;
基于所述扩散模型分别对矩阵U、S、V进行处理,得到对应的处理后的矩阵U0、S0、V0;
根据矩阵U0、S0、V0,得到处理后的目标图像。
在一种具体的实施方案中,所述扩散模型为:其中,X为待处理的矩阵,t为时间,D为扩散系数,/>为拉普拉斯算子。
在一种具体的实施方案中,所述根据矩阵U0、S0、V0,得到处理后的目标图像,包括:计算得到矩阵基于矩阵M0进行图像重构,得到处理后的目标图像。
在一种具体的实施方案中,所述基于扩散模型对目标图像进行处理之前,所述方法还包括:
获取含有畸变文字的图像训练集;
利用所述训练集进行学习训练,得到所述扩散模型。
在一种具体的实施方案中,所述利用所述训练集进行学习训练,得到所述扩散模型,包括:
初始化扩散模型的模型参数,所述模型参数包括时间t、扩散系数D;
基于所述扩散模型对训练集样本的预测结果和实际结果的差异,更新模型参数,得到所述扩散模型。
在一种具体的实施方案中,所述基于所述扩散模型对训练集样本的预测结果和实际结果的差异,更新模型参数,得到所述扩散模型,包括:构建损失函数,以通过所述损失函数确定所述预测结果与所述实际结果的差异;基于随机梯度下降法进行迭代计算,在每次迭代中根据从所述训练集中随机选取的样本,由式更新模型参数,其中θ表示模型参数,α表示学习率,/>表示所述损失函数对θ的梯度,θi+1、θi分别表示第i+1次、第i次迭代时的模型参数值,i为正整数。
在一种具体的实施方案中,所述利用所述训练集进行学习训练,得到所述扩散模型之后,所述方法还包括:利用含有畸变文字的图像的测试集对所述扩散模型进行性能评估和优化。
在一种具体的实施方案中,所述获取目标图像,包括获取所述目标图像并对所述目标图像进行预处理,所述预处理包括如下至少一种:去噪、灰度化、二值化、数据清洗。
在一种具体的实施方案中,所述对处理后的目标图像的文字进行识别,包括:基于文本识别算法,对所述目标图像的文字进行特征提取,实现文字识别,并输出识别结果。
第二方面,本发明的实施例还提供一种文字识别装置,所述文字识别装置,包括:
图像获取单元,用于获取目标图像,所述目标图像含有畸变文字;
图像处理单元,用于基于扩散模型对目标图像进行处理,降低所述目标图像的文字畸变程度,所述扩散模型是对文字畸变过程的建模;
文字识别单元,用于对处理后的目标图像的文字进行识别。
在一种具体的实施方案中,所述图像处理单元包括:
矩阵构建模块,用于将所述目标图像构建为矩阵M;
矩阵分解模块,用于对矩阵M进行奇异值分解:M=USVT;其中U为左奇异向量矩阵,S为奇异值矩阵,V为右奇异向量矩阵;
矩阵处理模块,用于基于所述扩散模型分别对矩阵U、S、V进行处理,得到对应的处理后的矩阵U0、S0、V0;
图像重构模块,用于根据矩阵U0、S0、V0,得到处理后的目标图像。
在一种具体的实施方案中,所述图像处理单元的扩散模型为:其中,X为待处理的矩阵,t为时间,D为扩散系数,/>为拉普拉斯算子。
在一种具体的实施方案中,所述图像重构模块包括逆算子块,所述逆算子块用于计算得到矩阵基于矩阵M0进行图像重构,得到处理后的目标图像。
在一种具体的实施方案中,所述装置还包括:
训练集获取单元,用于在所述基于扩散模型对目标图像进行处理之前,获取含有畸变文字的图像训练集;
模型训练单元,用于利用所述训练集进行学习训练,得到所述扩散模型。
在一种具体的实施方案中,所述模型训练单元包括:
初始化模块,用于初始化扩散模型的模型参数,所述模型参数包括时间t、扩散系数D;
计算模块,用于基于所述扩散模型对训练集样本的预测结果和实际结果的差异,更新模型参数,得到所述扩散模型。
在一种具体的实施方案中,所述计算模块包括迭代子块,所述迭代子块用于构建损失函数,以通过所述损失函数确定所述预测结果与所述实际结果的差异;基于随机梯度下降法进行迭代计算,在每次迭代中根据从所述训练集中随机选取的样本,由式更新模型参数,其中θ表示模型参数,α表示学习率,/>表示所述损失函数对θ的梯度,θi+1、θi分别表示第i+1次、第i次迭代时的模型参数值,i为正整数。
在一种具体的实施方案中,所述装置还包括评估优化模块,所述评估优化模块用于在利用所述训练集进行学习训练,得到所述扩散模型之后,利用含有畸变文字的图像的测试集对所述扩散模型进行性能评估和优化。
在一种具体的实施方案中,所述图像获取单元包括预处理模块,所述预处理模块用于对所述目标图像进行预处理,所述预处理包括如下至少一种:去噪、灰度化、二值化、数据清洗。
在一种具体的实施方案中,所述文字识别单元包括识别模块和输出模块,所述识别模块基于文本识别算法,对所述目标图像的文字进行特征提取,实现文字识别;所述输出模块用于输出识别结果。
第三方面,本发明的实施例还提供一种电子设备,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行本发明的实施例提供的任一种文字识别方法。
第四方面,本发明的实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现本发明的实施例提供的任一种文字识别方法。
本发明的实施例提供的文字识别方法、装置、电子设备及存储介质,文通过使用扩散模型,降低图像中文字弯曲和重叠等畸变因素的影响,提高对文字识别的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请的一种文字识别方法流程图;
图2为本申请实施例提供的文字识别装置的一种结构示意图;
图3为本申请实施例提供的电子设备的一种结构示意图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
第一方面,如图1所示,本发明的实施例提供一种文字识别方法,该方法可以包括:
S11、获取目标图像,所述目标图像含有畸变文字;
本发明的实施例中,获取的目标图像可以是手写文字、旧书籍等扫描或拍摄图像,该类图像中含有待识别的畸变文字,如弯曲、重叠情形、或兼具弯曲、重叠情形等,例如,在平面体上印制的文字因平面体扭曲而造成文字弯曲的情况,或圆形印章因尺寸布局而造成文字弯曲的情况;或因打印机故障而使得文字发生重叠情况;或在某些特殊情况下文字兼有弯曲、重叠的畸变情况等。
S12、基于扩散模型对目标图像进行处理,降低所述目标图像的文字畸变程度,所述扩散模型是对文字畸变过程的建模;
具体的,扩散模型可以用于对文字畸变过程进行建模分析,以减小畸变对文字识别的影响;扩散模型可以用于降低目标图像的文字畸变,该模型通过描述文字畸变的扩散过程,逐步添加相关信息,例如外部影响因素、外部扰动因子等,实现消除畸变部分的效果。具体来说,扩散模型可以对目标图像进行处理,使得文字的边缘变得更加平滑,减少文字的畸变程度,该方法可以有效提高文字识别的准确率,特别是对于低质量图像或者光照不均匀的图像。
本步骤中,可以通过扩散模型对目标图像的像素扩散过程进行模拟和演化,建立相应扩散方程并进行求解,从而对目标图像中的像素值进行平滑化和去噪,降低目标图像中文字弯曲和重叠的影响,提高对文字识别的准确率和效率。
S13、对处理后的目标图像的文字进行识别。
在通过扩散模型对目标图像去除噪声和重叠部分后,可以获得清晰的文本图像,即可通过各种已知的或未来的文本识别算法对文本图像进行有效识别。
本发明的实施例提供的文字识别方法,能够获取目标图像,基于扩散模型对目标图像进行处理,以降低所述目标图像的文字畸变程度,并对处理后的目标图像的文字进行识别。由于扩散模型可以描述文字畸变引起的像素扩散过程,也就是描述了文字的像素由规定位置向其他位置扩散,形成畸变文字的过程,利用扩散模型对目标图像处理后,畸变文字也能够被还原成扩散前的样子,从而有效减少或消除畸变,大大提高了文字识别的准确率。具体地,扩散模型可以将矩阵中对应的每个像素点看作是一个物质粒子,通过扩散方程对些粒子进行模拟和演化。在扩散过程中,物质粒子会向周围的空间扩散。通过对扩散方程进行求解,得到相应矩阵及对应的重构图像,其中的像素值已经被平滑化和去噪,从而减少了弯曲和重叠部分的影响。
相比于现有的平滑函数和去噪算法,扩散模型具有以下优势:扩散模型可以更好地处理图像中的非线性畸变,而现有的平滑函数和去噪算法通常只能线性畸变;扩散模型可以自适应地调整平滑程度,从而更好地适应不同的图像和畸变程度,而现有的平滑函数和去噪算法通常需要手动调整参数,不够灵活;扩散模型可以在保留图像细节的同时,降低图像畸变的影响,而现有的平滑函数和去噪算法通常需要在保留图细节和降低噪声之间做出权衡。总之,扩散模型在处理图像畸变方面具有更好的效果和更高的灵活性,可以更好地适应不同的图像和畸变程度,而现有的平滑函数和去噪算法虽然也可以降低图像畸变的影响,但是在处理非线性畸变和自适应调整方面不如扩散模型。
本例中,在获取含有畸变文字的目标图像时,可以对所述目标图像进行预处理,所述预处理包括如下至少一种:去噪、灰度化、二值化、数据清洗。通过预处理,可以对目标图像实现更好的计算处理,降低数据干扰和噪声。
具体的,在本发明的一个实施例中,步骤S12基于扩散模型对目标图像进行处理,可以包括:
S21、将所述目标图像构建为矩阵M。
将目标图像构建为矩阵,有利于将目标信息和噪声在数字化处理过程中进行分离,并实现目标信息的模拟和演化。
S22、对矩阵M进行奇异值分解:M=USVT;其中U为左奇异向量矩阵,S为奇异值矩阵,V为右奇异向量矩阵;VT表示对矩阵V的转置。
分解后的矩阵可以用于对文本图像进行降噪和去除重叠部分。通过奇异值分解,可实现对目标图像中关键信息的提取,并进行相应数值化分析计算。
S23、基于所述扩散模型分别对矩阵U、S、V进行处理,得到对应的处理后的矩阵U0、S0、V0。
通过扩散模型对奇异值分解亦即SVD分解后的矩阵进行处理,可以将原始的矩阵进行平滑化和去噪,从而减少弯曲和重叠部分的影响,提高文本识别的准确率和鲁性。具体来说,扩散模型可以将矩阵中的每个像素点看作是一个物质粒子,通过扩散方程对这些粒子进行模拟和演化。在扩散过程中,物质粒子会向周围的空间扩散,从而对矩阵中的像素值进行平滑化和去噪。通过建立相应扩散方程并进行求解,可以获得扩散后的矩阵,其中的像素值已经被滑化和去噪,从而减少了弯曲和重叠部分的影响。
S24、根据矩阵U0、S0、V0,得到处理后的目标图像。
在得到处理后的矩阵U0、S0、V0后,可将扩散模型处理后的文本像素值重新组合成一个矩阵,将其还原为原始文本图像,从而得到处理后的目标图像,例如,根据矩阵U0、S0、V0,得到处理后的目标图像,具体可以包括:计算得到矩阵基于矩阵M0进行图像重构,得到处理后的目标图像。
在本发明的一个实施例中,步骤S23基于所述扩散模型分别对矩阵U、S、V进行处理时,扩散模型可以为:其中,X为待处理的矩阵,亦即对奇异值分解得到的矩阵U、S、V分别通过该扩散模型进行处理,其中t为时间,D为扩散系数,/>为拉普拉斯算子。扩散模型可以是基于微分方程的数学模型,可以用于描述物质扩散过程,在本发明的实施例中,扩散模型可以被用于描述文本像素的扩散过程。通过建立相应的扩散方程进行求解,可以获得扩散后的文本像素值,在扩散后的文本像素值中,畸变部分已经被扩散效应稀释和平滑,从而便于对弯曲和重叠部分的文本进行识别。
为了能够利用扩散模型对目标图像进行处理,在本发明的一个实施例中,在基于扩散模型对目标图像进行处理之前,还可以包括步骤:获取含有畸变文字的图像训练集;利用所述训练集进行学习训练,得到所述扩散模型。
在利用所述训练集进行学习训练,得到所述扩散模型的过程中,可以包括如下步骤:
S31、初始化扩散模型的模型参数,所述模型参数包括时间t、扩散系数D;
扩散模型中可以含有一些尚未确定的模型参数,这些模型参数的取值会影响模型对图像的处理效果。为了获得对图像的最佳处理效果,可以利用标记的样本对扩散模型进行训练。训练之初,可以初始化模型参数,即令模型参数等于预设值,随着对模型的训练,再更新模型参数的值,直到扩散模型取得较理想的图像处理效果,从而获得较佳的模型。
S32、基于所述扩散模型对训练集样本的预测结果和实际结果的差异,更新模型参数,得到所述扩散模型。
进一步地,在步骤S32中,可以基于所述扩散模型对训练集样本的预测结果和实际结果的差异,更新模型参数,得到所述扩散模型,包括:构建损失函数,以通过所述损失函数确定所述预测结果与所述实际结果的差异;基于随机梯度下降法进行迭代计算,在每次迭代中根据从所述训练集中随机选取的样本,由式更新模型参数,其中θ表示模型参数,α表示学习率,/>表示所述损失函数对θ的梯度,θi+1、θi分别表示第i+1次、第i次迭代时的模型参数值,i为正整数。具体地,构建的损失函数用于衡量扩散模型的预测结果与实际结果的差异;在扩散模型中,可以使用均方误差(mean-square error,MSE)作为损失函数。举例而言,在本发明的一个实施例中,可以根据选择的样本,确定扩散模型对该样本的预测结果,根据预测结果与该样本标记的实际结果的差异,确定损失函数,再计算损失函数对模型参数的梯度,根据该梯度及扩散模型当前的模型参数,计算该扩散模型更新的模型参数。可选的,在扩散模型中,可以使用数值方法或解析方法计算梯度,根据梯度的方向和大小,更新模型参数,循环迭代,直到达到预设的迭代次数或损失函数收敛,得到训练好的扩散模型。
进一步地,得到训练好的扩散模型之后,还可以利用含有畸变文字的图像的测试集对所述扩散模型进行性能评估和优化。具体而言,可以将测试集中的样本输入到训练好的扩散模型中,计算扩散模型的预测结果与实际结果之间的差异,以评估模型的性能。使用测试集来评估扩散模型的性能和准确率时,可以使用常见的评估指标,如准确率、召回率、F1分数等;进一步地,还可根据评估结果对扩散模型进行优化,例如调整模型参数、增加训练集数据等。
本发明的实施例中,通过准备训练集、测试集、初始化模型参数、定义损失函数、随机选择样本、计算梯度、更新模型参数、重复迭代、评估模型性能等步骤,通过不断地迭代和调整模型参数,可以获得最佳的扩散模型,从而便于借助该扩散模型对含有畸变文字的图像进行处理,得到较清晰规范的文字图像,以实现对文字图像的识别。
可选的,在本发明的一个实施例中,还可将训练好的扩散模型导出为可执行的代码或二进制文件,以便在实际应用中使用。
步骤S12基于扩散模型对目标图像进行处理之后,即可在步骤S13中对处理后的目标图像的文字进行识别,可以包括:基于文本识别算法,对处理后的目标图像的文字进行特征提取,实现文字识别并输出识别结果。在实现特征提取时,可以使用各种文本识别算法对其进行处理,以实现对弯曲和重叠部分的文本进行识别。例如,可以使用基于卷积神经网络(Convolutional Neural Networks,CNN)的文本识别算法,对扩散后的矩阵进行卷积和池化操作,从而提取出文本的特征信息;然后,可以使用支持向量机(Support VectorMachine,SVM)等分类器对这些特征进行分类,以实现文本识别的目的。
通过上述技术方案,使得本实施例的文字识别方法具有简单易用、实时性强、稳定可靠等优点,适用于对畸变文字的识别场景。
第二方面,本发明的实施例还提供一种文字识别装置,能够有效提高文字识别的准确率。
如图2所示,本申请实施例提供的文字识别装置可以包括:
图像获取单元31,用于获取目标图像,所述目标图像含有畸变文字;
图像处理单元32,用于基于扩散模型对目标图像进行处理,降低所述目标图像的文字畸变程度,所述扩散模型是对文字畸变过程的建模;
文字识别单元33,用于对处理后的目标图像的文字进行识别。
本发明的实施例提供的文字识别装置,能够获取目标图像,基于扩散模型对目标图像进行处理,以降低所述目标图像的文字畸变程度,并对处理后的目标图像的文字进行识别。由于扩散模型可以描述文字畸变引起的像素扩散过程,也就是描述了文字的像素由规定位置向其他位置扩散,形成畸变文字的过程,利用扩散模型对目标图像处理后,畸变文字也能够被还原成扩散前的样子,从而有效减少或消除畸变,大大提高了文字识别的准确率。具体地,扩散模型可以将矩阵中对应的每个像素点看作是一个物质粒子,通过扩散方程对些粒子进行模拟和演化。在扩散过程中,物质粒子会向周围的空间扩散。通过对扩散方程进行求解,得到相应矩阵及对应的重构图像,其中的像素值已经被平滑化和去噪,从而减少了弯曲和重叠部分的影响。
可选的,图像处理单元32包括:
矩阵构建模块,用于将所述目标图像构建为矩阵M;
矩阵分解模块,用于对矩阵M进行奇异值分解:M=USVT;其中U为左奇异向量矩阵,S为奇异值矩阵,V为右奇异向量矩阵;
矩阵处理模块,用于基于所述扩散模型分别对矩阵U、S、V进行处理,得到对应的处理后的矩阵U0、S0、V0;
图像重构模块,用于根据矩阵U0、S0、V0,得到处理后的目标图像。
可选的,图像处理单元的扩散模型为:其中,X为待处理的矩阵,t为时间,D为扩散系数,/>为拉普拉斯算子。
可选的,图像重构模块包括逆算子块,所述逆算子块用于计算得到矩阵基于矩阵M0进行图像重构,得到处理后的目标图像。
可选的,本例的装置还包括:
训练集获取单元,用于在所述基于扩散模型对目标图像进行处理之前,获取含有畸变文字的图像训练集;
模型训练单元,用于利用所述训练集进行学习训练,得到所述扩散模型。
可选的,所述模型训练单元包括:
初始化模块,用于初始化扩散模型的模型参数,所述模型参数包括时间t、扩散系数D;
计算模块,用于基于所述扩散模型对训练集样本的预测结果和实际结果的差异,更新模型参数,得到所述扩散模型。
可选的,计算模块包括迭代子块,所述迭代子块用于构建损失函数,以通过所述损失函数确定所述预测结果与所述实际结果的差异;基于随机梯度下降法进行迭代计算,在每次迭代中根据从所述训练集中随机选取的样本,由式更新模型参数,其中θ表示模型参数,α表示学习率,/>表示所述损失函数对θ的梯度,θi+1、θi分别表示第i+1次、第i次迭代时的模型参数值,i为正整数。
可选的,该装置还包括评估优化模块,所述评估优化模块用于在利用所述训练集进行学习训练,得到所述扩散模型之后,利用含有畸变文字的图像的测试集对所述扩散模型进行性能评估和优化。
可选的,所述图像获取单元31包括预处理模块,所述预处理模块用于对所述目标图像进行预处理,所述预处理包括如下至少一种:去噪、灰度化、二值化、数据清洗。
可选的,所述文字识别单元33包括识别模块和输出模块,所述识别模块基于文本识别算法,对所述目标图像的文字进行特征提取,实现文字识别;所述输出模块用于输出识别结果。
第三方面,本发明的实施例还提供一种电子设备。
如图3所示,本申请实施例提供的电子设备包括:壳体51、处理器52、存储器53、电路板54和电源电路55,其中,电路板54安置在壳体51围成的空间内部,处理器52和存储器53设置在电路板54上;电源电路55,用于为上述电子设备的各个电路或器件供电;存储器53用于存储可执行程序代码;处理器52通过读取存储器53中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行本发明的实施例提供的任一种文字识别方法。
处理器52对上述步骤的具体执行过程以及处理器52通过运行可执行程序代码来进一步执行的步骤,可以参见前述实施例的描述,在此不再赘述。
上述电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子设备。
相应的,本申请的实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现本发明的实施例提供的任一种文字识别方法,因此也能实现相应的技术效果,前文已经进行了详细说明,此处不再赘述。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
为了描述的方便,描述以上装置是以功能分为各种单元/模块分别描述。当然,在实施本发明时可以把各单元/模块的功能在同一个或多个软件和/或硬件中实现。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种文字识别方法,其特征在于,包括:
获取目标图像,所述目标图像含有畸变文字;
基于扩散模型对目标图像进行处理,降低所述目标图像的文字畸变程度,所述扩散模型是对文字畸变过程的建模;
对处理后的目标图像的文字进行识别。
2.如权利要求1所述的文字识别方法,其特征在于,所述基于扩散模型对目标图像进行处理,包括:
将所述目标图像构建为矩阵M;
对矩阵M进行奇异值分解:M=USVT;其中U为左奇异向量矩阵,S为奇异值矩阵,V为右奇异向量矩阵;
基于所述扩散模型分别对矩阵U、S、V进行处理,得到对应的处理后的矩阵U0、S0、V0;
根据矩阵U0、S0、V0,得到处理后的目标图像。
3.如权利要求2所述的文字识别方法,其特征在于,所述扩散模型为:其中,X为待处理的矩阵,t为时间,D为扩散系数,/>为拉普拉斯算子。
4.如权利要求3所述的文字识别方法,其特征在于,所述根据矩阵U0、S0、V0,得到处理后的目标图像,包括:计算得到矩阵基于矩阵M0进行图像重构,得到处理后的目标图像。
5.如权利要求4所述的文字识别方法,其特征在于,所述基于扩散模型对目标图像进行处理之前,所述方法还包括:
获取含有畸变文字的图像训练集;
利用所述训练集进行学习训练,得到所述扩散模型。
6.如权利要求5所述的文字识别方法,其特征在于,所述利用所述训练集进行学习训练,得到所述扩散模型,包括:
初始化扩散模型的模型参数,所述模型参数包括时间t、扩散系数D;
基于所述扩散模型对训练集样本的预测结果和实际结果的差异,更新模型参数,得到所述扩散模型。
7.如权利要求6所述的文字识别方法,其特征在于,所述基于所述扩散模型对训练集样本的预测结果和实际结果的差异,更新模型参数,得到所述扩散模型,包括:构建损失函数,以通过所述损失函数确定所述预测结果与所述实际结果的差异;基于随机梯度下降法进行迭代计算,在每次迭代中根据从所述训练集中随机选取的样本,由式更新模型参数,其中θ表示模型参数,α表示学习率,/>表示所述损失函数对θ的梯度,θi+1、θi分别表示第i+1次、第i次迭代时的模型参数值,i为正整数。
8.如权利要求7所述的文字识别方法,其特征在于,所述利用所述训练集进行学习训练,得到所述扩散模型之后,所述方法还包括:利用含有畸变文字的图像的测试集对所述扩散模型进行性能评估和优化。
9.如权利要求1所述的文字识别方法,其特征在于,所述获取目标图像,包括获取所述目标图像并对所述目标图像进行预处理,所述预处理包括如下至少一种:去噪、灰度化、二值化、数据清洗。
10.如权利要求1所述的文字识别方法,其特征在于,所述对处理后的目标图像的文字进行识别,包括:基于文本识别算法,对所述目标图像的文字进行特征提取,实现文字识别,并输出识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310720892.1A CN116959003A (zh) | 2023-06-16 | 2023-06-16 | 一种文字识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310720892.1A CN116959003A (zh) | 2023-06-16 | 2023-06-16 | 一种文字识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116959003A true CN116959003A (zh) | 2023-10-27 |
Family
ID=88457325
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310720892.1A Pending CN116959003A (zh) | 2023-06-16 | 2023-06-16 | 一种文字识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116959003A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117934339A (zh) * | 2024-03-22 | 2024-04-26 | 摩尔线程智能科技(北京)有限责任公司 | 一种图像修复方法、装置、电子设备和存储介质 |
-
2023
- 2023-06-16 CN CN202310720892.1A patent/CN116959003A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117934339A (zh) * | 2024-03-22 | 2024-04-26 | 摩尔线程智能科技(北京)有限责任公司 | 一种图像修复方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109902767B (zh) | 模型训练方法、图像处理方法及装置、设备和介质 | |
CN108229679A (zh) | 卷积神经网络去冗余方法及装置、电子设备和存储介质 | |
CN111695421B (zh) | 图像识别方法、装置及电子设备 | |
CN108334945B (zh) | 深度神经网络的加速与压缩方法及装置 | |
CN110929836B (zh) | 神经网络训练及图像处理方法和装置、电子设备、介质 | |
CN108228700B (zh) | 图像描述模型的训练方法、装置、电子设备及存储介质 | |
CN112991493B (zh) | 基于vae-gan和混合密度网络的灰度图像着色方法 | |
Kim et al. | Fast 2D complex Gabor filter with kernel decomposition | |
CN116959003A (zh) | 一种文字识别方法、装置、电子设备及存储介质 | |
CN117495714B (zh) | 基于扩散生成先验的人脸图像复原方法、装置及可读介质 | |
CN110765843A (zh) | 人脸验证方法、装置、计算机设备及存储介质 | |
CN109697442B (zh) | 一种字符识别模型的训练方法和装置 | |
CN112801889A (zh) | 图像去噪方法、系统、设备及存储介质 | |
CN111488810A (zh) | 人脸识别方法、装置、终端设备及计算机可读介质 | |
CN110348025A (zh) | 一种基于字形的翻译方法、装置、存储介质及电子设备 | |
Yang et al. | Random subspace supervised descent method for regression problems in computer vision | |
CN117788629B (zh) | 一种具有风格个性化的图像生成方法、装置及存储介质 | |
CN117173609A (zh) | 基于多尺度特征和通道注意力的无参考屏幕视频质量评价方法及装置 | |
CN114897884A (zh) | 基于多尺度边缘特征融合的无参考屏幕内容图像质量评估方法 | |
Colak et al. | On the fly image denoising using patch ordering | |
CN114299555A (zh) | 指纹识别方法、指纹模组及电子设备 | |
CN117894038A (zh) | 一种图像中对象姿态生成方法和装置 | |
CN112001865A (zh) | 一种人脸识别方法、装置和设备 | |
Xu et al. | Weighted lp norm sparse error constraint based ADMM for image denoising | |
CN112950501B (zh) | 基于噪声场的图像降噪方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |