CN116030454B - 一种基于胶囊网络和多语言模型的文字识别方法及系统 - Google Patents

一种基于胶囊网络和多语言模型的文字识别方法及系统 Download PDF

Info

Publication number
CN116030454B
CN116030454B CN202310309066.8A CN202310309066A CN116030454B CN 116030454 B CN116030454 B CN 116030454B CN 202310309066 A CN202310309066 A CN 202310309066A CN 116030454 B CN116030454 B CN 116030454B
Authority
CN
China
Prior art keywords
language model
picture
capsule
capsule network
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310309066.8A
Other languages
English (en)
Other versions
CN116030454A (zh
Inventor
王德军
于龙洋
孟博
胡宗华
余泽
段伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Lilosoft Co ltd
South Central Minzu University
Original Assignee
Wuhan Lilosoft Co ltd
South Central University for Nationalities
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Lilosoft Co ltd, South Central University for Nationalities filed Critical Wuhan Lilosoft Co ltd
Priority to CN202310309066.8A priority Critical patent/CN116030454B/zh
Publication of CN116030454A publication Critical patent/CN116030454A/zh
Application granted granted Critical
Publication of CN116030454B publication Critical patent/CN116030454B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于胶囊网络和多语言模型的文字识别方法及系统,该方法在进行文字识别时具有更高的准确率。本发明涉及到的内容包括:(1)收集需要进行文字识别的图片;(2)图像预处理,并对图片进行分割;(3)将所述图片输入到基于胶囊网络和多语言模型的文字识别网络中,得到图片当中包含的文字序列信息。其中,所述胶囊网络包含卷积层、主胶囊层、数字胶囊层和CTC损失函数。将图片分割后依次输入到所述胶囊网络中,实现胶囊网络对文字序列的识别;所述多语言模型依据胶囊网络生成的文字序列识别结果,识别其中的语言特征并生成多语言模型的识别结果,以供所述文字识别方法对胶囊网络的识别结果进行优化。

Description

一种基于胶囊网络和多语言模型的文字识别方法及系统
技术领域
本发明涉及计算机视觉技术领域,一种基于胶囊网络和多语言模型的文字识别方法及系统。
背景技术
在一个信息爆炸的时代,每天有大量的数据产生,其中有大量的视频和图片。如何高效、自动地从视频或图片中识别有用或者关键的信息,例如识别出文字、商标等,变得越来越重要。在数字化时代,存储、编辑、索引和查找数字文档中的信息比花费数小时滚动浏览书籍、手写或打印文档要方便快捷得多。上述操作对于结构化的数据比较容易识别,但当面对大量非结构化数据,如在图片中搜索内容等操作,不仅耗时,还可能因手动滚动文档错
过信息。
随着深度学习的不断深入研究出现了很多优秀的深度学习框架,这些框架作为搭建深度学习模型的工具,里面包含很多算法,开发者利用这些算法可以轻松地搭建符合自己的深度学习模型。如在2012年应用两种方法(AlexNet, Dropout)处理ImageNet,在2013年对Atari的应用,2014年的Adam优化器,2015年的残差网络,2017年的Tansformer模型,2017年的阿尔法狗,2018年在深度学习的驾驶系统,2020年的自监督学习等,深度学习的产物已经在我们的生活中扮演重要得多角色。
目前有大量应用支持从图像中提取文本,例如护照识别、自动车牌识别、将手写文本转换为数字文本等。与印刷文本相比,人与人之间手写风格的巨大差异、手写文本的质量差异构成了将其转换为机器可读文本的困难所在。现有的文字识别方法在提取图片特征时往往会使用池化操作,丢失了大量空间信息,造成特殊字体的汉字、手写汉字等的识别准确率较低。现有工作大多使用单一语言模型进行后处理,对语言特征的提取较为单一,且忽略了文字识别模型的输出和语言模型输入的关联性,影响了语言模型预测的准确率。
发明内容
针对现有方法存在的问题,本发明公开了一种基于胶囊网络和多语言模型的文字识别方法及系统。
本发明提供的一种基于胶囊网络和多语言模型的文字识别方法,包括如下步骤:
步骤S1,收集需要进行文字识别的含有文字序列的图片;
步骤S2,图片预处理,并对预处理后的图片进行分割;
步骤S3,将分割后的图片输入到基于胶囊网络和多语言模型的文字识别模型中,得到图片当中包含的文字序列信息;
所述胶囊网络包括卷积层、主胶囊层、数字胶囊层和CTC损失函数,将分割后的图片依次输入到所述胶囊网络中,实现胶囊网络对文字序列信息的识别;所述多语言模型依据胶囊网络生成的文字序列信息,识别其中的语言特征并生成多语言模型的识别结果,然后对多语言模型的识别结果进行融合,判断融合结果的置信度,若没有达到预设置信度,将融合结果重新输入到多语言模型中进行预测,并重复上述过程,直至融合结果达到预设置信度,得到最终的文字序列信息。
进一步的,步骤S2中所述预处理包括灰度变换、高斯滤波和图像锐化,采用分段线性变换函数实现灰度变换,分段线性变换函数具体公式如下:
其中,f(x,y)代表原图片,g(x,y)代表灰度变换后的图片,[a,b]代表原图片的灰度范围,[c,d]代表经过预先设定的灰度变换后的图片灰度范围,L代表图片的总灰度级数。
进一步的,高斯滤波是对整个图片中的像素点进行加权平均操作的一个过程,每一个像素点的值都由其本身和邻域内的其他像素值经过加权平均后得到,高斯滤波的具体操作是用一个模板扫描图片中的每一个像素,用模板确定的邻域内像素的加权平均灰度值去替代模板中心像素点的值,从而剔除图片中的噪声信息。
进一步的,步骤S2中图片分割是指将图片高度缩放到28像素,随后将图片分割为28×28像素的多个图片并依次输入到胶囊网络中进行识别。
进一步的,步骤S3中卷积层的用于提取待识别图片的基本特征,由256个步幅为1的9×9×1的卷积核组成,最后使用ReLU函数进行激活;主胶囊层中包含32个主胶囊,主胶囊的任务是将卷积层提取到的图片特征组合起来,主胶囊层中的每个主胶囊均采用9×9×256的卷积核,最终得到6×6×8×32的输出张量;数字胶囊层包含N个数字胶囊,N代表字符总个数,每个数字胶囊接收一个6×6×8×32的张量,即1152×8个输入向量,随后使用squash函数得到待识别图片所对应字符的概率向量,最后将概率向量输入到CTC损失函数中得到胶囊网络对待识别图片的识别结果,即输出文字序列,CTC函数的目的是从输入X中找到可能性最大的输出序列Y*,公式如下:
其中,P(Y|X)表示文字序列的概率,Y代表所有可能的文字序列。
进一步的,所述多语言模型包含有n-gram语言模型、bert语言模型和seq2seq语言模型Seq2Seq模型。
进一步的,首先将胶囊网络识别到的文字序列信息分别输入到n-gram语言模型和bert语言模型中,分别得到n-gram语言模型和bert语言模型的输出结果,判断输出结果的置信度是否达到预设阈值,将达到阈值且置信度更高的输出结果设为R1,随后,R1输入到seq2seq语言模型中,得到seq2seq语言模型的输出结果R2,seq2seq语言模型用于对缺少的字符进行填补,将seq2seq语言模型填补的字符加入到R1中得到结果R3,对R1、R2和R3的置信度进行判断,选取置信度最高的结果作为多语言模型的输出结果。
本发明还提供一种基于胶囊网络和多语言模型的文字识别系统,包括如下模块:
图片收集模块,用于收集需要识别的含有文字序列的图片;
文字序列识别模块,用于对图片预处理,并对预处理后的图片进行分割,将分割后的图片进行输入到基于胶囊网络识别和多语言模型的文字识别模型中,识别出图片中的文字序列信息;
其中,所述胶囊网络包括卷积层、主胶囊层、数字胶囊层和CTC损失函数,将分割后的图片依次输入到所述胶囊网络中,实现胶囊网络对文字序列信息的识别;所述多语言模型依据胶囊网络生成的文字序列信息,识别其中的语言特征并生成多语言模型的识别结果,然后对多语言模型的识别结果进行融合,判断融合结果的置信度,若没有达到预设置信度,将融合结果重新输入到多语言模型中进行预测,并重复上述过程,直至融合结果达到预设置信度,得到最终的文字序列信息;
可视化模块,用于展示识别到的文字序列信息,同时将胶囊网络和多语言模型的识别结果分别展示。
进一步的,文字序列识别模块中卷积层的用于提取待识别图片的基本特征,由256个步幅为1的9×9×1的卷积核组成,最后使用ReLU函数进行激活;主胶囊层中包含32个主胶囊,主胶囊的任务是将卷积层提取到的图片特征组合起来,主胶囊层中的每个主胶囊均采用9×9×256的卷积核,最终得到6×6×8×32的输出张量;数字胶囊层包含N个数字胶囊,N代表字符总个数,每个数字胶囊接收一个6×6×8×32的张量,即1152×8个输入向量,随后使用squash函数得到待识别图片所对应字符的概率向量,最后将概率向量输入到CTC损失函数中得到胶囊网络对待识别图片的识别结果,即输出文字序列,CTC函数的目的是从输入X中找到可能性最大的输出序列Y*,公式如下:
其中,P(Y|X)表示文字序列的概率,Y代表所有可能的文字序列。
进一步的,所述多语言模型包含有n-gram语言模型、bert语言模型和seq2seq语言模型Seq2Seq模型;
首先将胶囊网络识别到的文字序列信息分别输入到n-gram语言模型和bert语言模型中,分别得到n-gram语言模型和bert语言模型的输出结果,判断输出结果的置信度是否达到预设阈值,将达到阈值且置信度更高的输出结果设为R1,随后,R1输入到seq2seq语言模型中,得到seq2seq语言模型的输出结果R2,seq2seq语言模型用于对缺少的字符进行填补,将seq2seq语言模型填补的字符加入到R1中得到结果R3,对R1、R2和R3的置信度进行判断,选取置信度最高的结果作为多语言模型的输出结果。
本发明提供的一种基于胶囊网络和多语言模型的文字识别方法及系统,通过胶囊网络和多语言模型相结合进行联合训练,更好的对图片的空间特征进行提取,并获取了图片中文文字序列的语言特征,将不同语言模型提取到的语言模型识别结果相结合,从而逐步获取准确率更高的识别结果,提高了文字识别的正确率。
附图说明
此处所说明的附图是用来提供对本发明的进一步理解,构成本申请的一部分,但并不构成对本发明的不当限定,在附图中:
图1为本发明提供的文字识别方法的流程示意图;
图2为本发明提供的文字识别过程的整体流程示意图;
图3为本发明提供的胶囊网络的结构示意图;
图4为本发明提供的seq2seq语言模型的结构示意图;
图5为本发明提供的bert语言模型的结构示意图;
图6为本发明提供的文字识别系统的结构示意图。
具体实施方式
为使本发明的技术方案和特点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。其中的示意性实施例以及说明仅用来解释本发明,但并不作为本发明的限定。
目前主流的文字识别方法,在对收集到的需要进行文字识别的图片进行特征提取时往往会进行池化等操作,这样做的目的是极大的减少模型的参数量,提高整体网络的性能。但是这种方式会造成部分图片特征的丢失,对最终文字识别的正确率产生不利影响。因此,现有方法在文字识别后加上语言模型对文字识别的结果进行后处理,以此来对文字识别的结果进行纠正。但语言模型训练的数据与文字识别模型输出的数据可能会存在较大的差异,导致语言模型提取到的语言特征产生偏差。因此,本发明针对以上问题将胶囊网络代替传统网络进行特征提取,通过对图片进行分割并依次输入胶囊网络进行识别实现对文字序列的识别,同时将胶囊网络和多语言模型进行联合训练,有效的提高了整体文字识别模型的准确率。
图1为本发明提供的文字识别方法的流程示意图,如图1所示,本发明提供了一种基于胶囊网络和多语言模型的文字识别方法,包括:
步骤101,收集需要进行文字识别的图片。
在本发明中,日常生活中所产生的各种包含文字信息的图片均可以作为待识别的图片。这些图片具有以下特征:字体种类繁多、背景复杂、部分文字可能被各种物体遮挡等。
步骤102,图像预处理,并对图片进行分割。
其中,所述图片预处理方法包含灰度变换、高斯滤波和图像锐化等,目的是为了尽可能的消除待识别图片中的噪声,突出待识别图片中的文字信息,提高输入到文字识别模型中的图片的质量,从而提升模型的整体准确率。
步骤103,将分割后的图片输入到基于胶囊网络和多语言模型的文字识别网络中,得到图片当中包含的文字序列信息。
其中,所述胶囊网络采用的优化调整后的胶囊网络,包含卷积层、主胶囊层、数字胶囊层和CTC损失函数。将图片分割后依次输入到所述胶囊网络中,实现胶囊网络对文字序列的识别;所述多语言模型依据胶囊网络生成的文字序列识别结果,识别其中的语言特征并生成多语言模型的识别结果,以供所述文字识别网络对胶囊网络的识别结果进行优化。
日常生活场景中出现的文字信息(如广告语、霓虹灯、手写字体等)复杂多样,字体、字号各不相同,在进行训练的时候数据集中往往无法将所有的字体包含其中。现有文字识别方法为了提高模型的速度,使用池化等操作减少模型参数量,导致部分图片特征的丢失,在识别训练模型时使用的数据集当中没有的字体时准确率较低。而使用语言模型进行后处理时将文字识别模型和语言模型视为两个独立的部分,没有考虑两者之间的内在联系。更进一步的是,不同的语言模型对语言特征的提取侧重点不同,使用单一的语言模型无法对识别结果中出现的各种错误都进行有效的纠正。
为了解决现有文字识别方法存在的以上相关问题,本发明构建了一种全新的基于胶囊网络和多语言模型的文字识别网络。该文字识别网络中包含胶囊网络、CTC损失函数和多语言模型。首先通过胶囊网络对待识别图片的特征进行提取,相比于传统特征提取模型,胶囊网络可以提取到图片中蕴含的空间信息,随后通过数字胶囊层得到图片对应汉字的概率向量,并将概率向量输入到CTC损失函数中得到文字序列信息。随后将胶囊网络预测出的文字序列信息输入到多语言模型中,对n-gram语言模型、bert语言模型和seq2seq语言模型的输出进行融合,判断融合结果的置信度。若没有达到预设置信度,将融合结果重新输入到多语言模型中进行预测,并重复上述过程,直至融合结果达到预设置信度,得到最终的文字序列信息。
本发明提供的一种基于胶囊网络和多语言模型的文字识别方法,通过使用胶囊网络和多语言模型相融合,可以提取到更多的待识别图片中的特征,并通过图片分割和CTC函数使胶囊网络具备了对文字序列信息进行识别的能力。随后将胶囊网络得到的识别结果输入到多语言模型中进行语言特征提取,将三种语言模型的输出结果进行融合,并对融合经过不断迭代,从而逐步获取准确率更高的识别结果,有效提高了文字识别的可靠性。所述文字识别网络结构图如图2所示。
在上述实施例的基础上,将所述含有文字序列的待图片输入到所述文字识别方法中得到所述待识别图片中的文字信息,包括:
步骤S1,对收集到的图片进行灰度变换、高斯滤波和图像锐化等预处理,尽可能的消除图片中的噪声,突出图片中的文字信息,提高模型的整体准确率。
在本发明中,通过对包含文字序列的待识别图片进行预处理,最大程度消除待识别图片中包含的噪声信息,将文字序列信息突出,提高待识别图片的质量,随后将图片进行分割后输入到胶囊网络中进行识别。
具体的,灰度变换是指依据某种变换关系改变待识别图片中每个像素灰度值的方法,灰度变换的主要目的是改善图片质量,提高图片清晰度,使图片能够显示更多文字细节信息,抑制图片中的背景信息,从而提高文字识别的准确率。灰度变换的主要方法包括对数变换、伽马变换等,本发明采用分段线性变换函数实现灰度变换,该方法相比于上述两种方法来说更加复杂,但是可以实现更多的需求,在文字识别图片的复杂背景中表现相对较好。分段线性变换函数具体公式如下:
其中,f(x,y)代表原图片,g(x,y)代表灰度变换后的图片,[a,b]代表原图片的灰度范围,[c,d]代表经过预先设定的灰度变换后的图片灰度范围,L代表图片的总灰度级数。
具体的,高斯滤波是指一种线性平滑滤波,主要目的是消除图片中的高斯噪声,去除图片中的噪声信息。高斯滤波是对整个图片中的像素点进行加权平均操作的一个过程,每一个像素点的值都由其本身和邻域内的其他像素值经过加权平均后得到。高斯滤波的具体操作是用一个模板(或称卷积、掩模)扫描图片中的每一个像素,用模板确定的邻域内像素的加权平均灰度值去替代模板中心像素点的值,从而剔除图片中的噪声信息。图像锐化是补偿图像的轮廓,增强图像的边缘及灰度跳变的部分,使图像变得清晰的方法。本发明中的图片分割是指将图片高度缩放到28像素,随后将图片分割为28×28像素的多个图片并依次输入到胶囊网络中进行识别的方法。
步骤S2,将预处理后的图片输入到胶囊网络中提取图片的特征,并对图片中的文字序列进行初步识别,得到胶囊网络的识别结果。
具体的,胶囊网络的输入是经过图片预处理和图片分割后的28×28像素的图片。卷积层的主要任务是提取待识别图片的基本特征,由256个步幅为1的9×9×1的卷积核组成,最后使用ReLU函数进行激活。主胶囊层中包含32个主胶囊,这些胶囊的主要任务是将卷积层提取到的图片特征组合起来。主胶囊层中的每个胶囊均采用9×9×256的卷积核,最终得到6×6×8×32的输出张量。数字胶囊层包含N个数字胶囊,N代表字符总个数,每个胶囊接收一个6×6×8×32的张量,即1152×8个输入向量,随后使用squash函数得到待识别图片所对应字符的概率向量。最后将概率向量输入到CTC函数中得到胶囊网络对待识别图片的识别结果,即输出文字序列,CTC函数的主要目的是从输入X中找到可能性最大的输出序列Y*,公式如下:
其中,P(Y|X)表示文字序列的概率,Y代表所有可能的文字序列。
图3为本发明提供的胶囊网络网络结构图。本发明构建的胶囊网络模型,与现有的胶囊网络不同,通过对待识别图片的分割实现了对文字序列识别,而不是对单一字符的识别。同时使用了CTC损失函数对文字序列的识别结果进行优化,使输出结果具有更高的可靠性,从而提高了整体文字识别方法的准确率。
步骤S3,将胶囊网络中识别到的文字序列信息,输入到多语言模型中,对文字序列信息进行纠错,得到多语言模型优化后的识别结果。
具体的,所述多语言模型包含有n-gram语言模型、bert语言模型和seq2seq语言模型Seq2Seq模型,其中,n-gram语言模型和bert语言模型是用来对文字序列中某个字符或词语的错误进行纠正,seq2seq语言模型用来填补因被遮挡导致胶囊网络无法识别出来的文字。n-gram语言模型、bert语言模型和seq2seq语言模型的参数更新是同时进行的。
首先将胶囊网络识别到的文字序列信息分别输入到n-gram语言模型和bert语言模型中,分别得到n-gram语言模型和bert语言模型的输出结果,判断输出结果的置信度是否达到预设阈值,将达到阈值且置信度更高的输出结果设为R1。随后,R1输入到seq2seq语言模型中,得到seq2seq语言模型的输出结果R2,seq2seq语言模型可以对缺少的字符进行填补,将seq2seq语言模型填补的字符加入到R1中得到结果R3。对R1、R2和R3的置信度进行判断,选取置信度最高的结果作为多语言模型的输出结果。本发明提供的多语言模型方法可以充分发挥不同语言模型的优势,可解释性强,且根据实际使用场景可以更换不同的语言模型,更好的提高识别结果的准确率。
在本发明中,训练数据集中图片的高度普遍为28像素左右,因此在训练时经过灰度变换、高斯滤波和图像锐化等预处理后将图片的高度统一缩放为28像素,为后续的训练提供便利。训练数据集中的图片大多为表格、单据、证件等,数据集中图片包含的字体达二十几种,其中还掺杂着手写文字,在这种复杂场景下胶囊网络相比传统文字识别模型可以提取到更多图片特征,从而提高整体文字识别模型的准确率。多语言模型由已有的结构化数据进行预训练,其中包含公开数据集、网络热点新闻、表格单据中的文字信息等,使多语言模型可以学习到更多的语言特征。
图4为本发明提供的seq2seq语言模型网络结构图,图5为本发明提供的bert语言模型网络结构图。本发明提供的胶囊网络和多语言模型在训练阶段进行联合训练,将胶囊网络的输出作为多语言模型的输入,使多语言模型对胶囊网络产生的错误进行纠正,减少推理阶段胶囊网络模型的误差对多语言模型的影响,从而使两个模型之间的联系更为紧密,在推理阶段的准确率更高。
步骤S4,将胶囊网络与多语言模型的识别结果进行融合,并重复步骤S3,直至识别结果达到预设条件,得到所述文字识别方法识别出的文字序列信息。
具体的,本发明提供的文字识别方法中,为了使多语言模型的融合结果具有更高的可信度,首先将胶囊网络的识别结果输入到多语言模型中,随后将三种语言模型的输出结果进行融合。本发明会对每次的融合结果进行判断,若其置信度没有达到预设的值,则将本轮融合结果重新输入多语言模型中再次预测,以此使融合结果的可信度慢慢升高,直到融合结果达到预设置信度为止。
下面对本发明提供的文字识别系统进行描述,下文描述的文字识别系统与上文描述的文字识别方法可相互对照。
图6为本发明提供的文字识别系统的结构示意图。如图6所示,本发明提供了一种文字识别系统,
在本发明中,通过图片收集模块,获取到用户需要进行识别的图片信息,将所述图片进行预处理和图片分割后作为待识别图片输入到文字序列识别模块,以供文字序列识别模块进行文字序列识别,随后将识别结果输入到可视化模块,以供文字信息展示模块将所述图片和对应的识别结果展示给用户,其中,由文字信息识别模块填补的字符将被特别注明。
本发明提供的系统是用于执行上述各方法实施例的,具体流程和详细内容请参照上述实施例,此处不再赘述。
需要说明的是,以上实施例仅用于说明本发明的技术方案而非限制,尽管通过参照本发明的优选实施例已经对本发明进行了相关描述,但本领域的普通技术人员应当可以理解,并可以在形式上和细节上对其做出各种改变,而不偏离所附权利要求书所限定的本发明的精神和范围。同时,实施例中公知的具体结构及特性等常识在此未作过多描述。最后,本发明要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims (10)

1.一种基于胶囊网络和多语言模型的文字识别方法,其特征在于,包括如下步骤:
步骤S1,收集需要进行文字识别的含有文字序列的图片;
步骤S2,图片预处理,并对预处理后的图片进行分割;
步骤S3,将分割后的图片输入到基于胶囊网络和多语言模型的文字识别模型中,得到图片当中包含的文字序列信息;
所述胶囊网络包括卷积层、主胶囊层、数字胶囊层和CTC损失函数,将分割后的图片依次输入到所述胶囊网络中,实现胶囊网络对文字序列信息的识别;所述多语言模型依据胶囊网络生成的文字序列信息,识别其中的语言特征并生成多语言模型的识别结果,然后对多语言模型的识别结果进行融合,判断融合结果的置信度,若没有达到预设置信度,将融合结果重新输入到多语言模型中进行预测,并重复上述过程,直至融合结果达到预设置信度,得到最终的文字序列信息。
2.如权利要求1所述的一种基于胶囊网络和多语言模型的文字识别方法,其特征在于:步骤S2中所述预处理包括灰度变换、高斯滤波和图像锐化,采用分段线性变换函数实现灰度变换,分段线性变换函数具体公式如下:
其中,f(x,y)代表原图片,g(x,y)代表灰度变换后的图片,[a , b]代表原图片的灰度范围,[c , d]代表经过预先设定的灰度变换后的图片灰度范围,L代表图片的总灰度级数。
3.如权利要求2所述的一种基于胶囊网络和多语言模型的文字识别方法,其特征在于:高斯滤波是对整个图片中的像素点进行加权平均操作的一个过程,每一个像素点的值都由其本身和邻域内的其他像素值经过加权平均后得到,高斯滤波的具体操作是用一个模板扫描图片中的每一个像素,用模板确定的邻域内像素的加权平均灰度值去替代模板中心像素点的值,从而剔除图片中的噪声信息。
4.如权利要求1所述的一种基于胶囊网络和多语言模型的文字识别方法,其特征在于:步骤S2中图片分割是指将图片高度缩放到28像素,随后将图片分割为28×28像素的多个图片并依次输入到胶囊网络中进行识别。
5.如权利要求1所述的一种基于胶囊网络和多语言模型的文字识别方法,其特征在于:步骤S3中卷积层用于提取待识别图片的基本特征,由256个步幅为1的9×9×1的卷积核组成,最后使用ReLU函数进行激活;主胶囊层中包含32个主胶囊,主胶囊的任务是将卷积层提取到的图片特征组合起来,主胶囊层中的每个主胶囊均采用9×9×256的卷积核,最终得到6×6×8×32的输出张量;数字胶囊层包含N个数字胶囊,N代表字符总个数,每个数字胶囊接收一个6×6×8×32的张量,即1152×8个输入向量,随后使用squash函数得到待识别图片所对应字符的概率向量,最后将概率向量输入到CTC损失函数中得到胶囊网络对待识别图片的识别结果,即输出文字序列,CTC函数的目的是从输入X中找到可能性最大的输出序列Y*,公式如下:
其中,P(Y|X)表示文字序列的概率,Y代表所有可能的文字序列。
6.如权利要求1所述的一种基于胶囊网络和多语言模型的文字识别方法,其特征在于:所述多语言模型包含有n-gram语言模型、bert语言模型和seq2seq语言模型。
7.如权利要求6所述的一种基于胶囊网络和多语言模型的文字识别方法,其特征在于:首先将胶囊网络识别到的文字序列信息分别输入到n-gram语言模型和bert语言模型中,分别得到n-gram语言模型和bert语言模型的输出结果,判断输出结果的置信度是否达到预设阈值,将达到阈值且置信度更高的输出结果设为R1,随后,R1输入到seq2seq语言模型中,得到seq2seq语言模型的输出结果R2,seq2seq语言模型用于对缺少的字符进行填补,将seq2seq语言模型填补的字符加入到R1中得到结果R3,对R1、R2和R3的置信度进行判断,选取置信度最高的结果作为多语言模型的输出结果。
8.一种基于胶囊网络和多语言模型的文字识别系统,其特征在于,包括如下模块:
图片收集模块,用于收集需要识别的含有文字序列的图片;
文字序列识别模块,用于对图片预处理,并对预处理后的图片进行分割,将分割后的图片进行输入到基于胶囊网络识别和多语言模型的文字识别模型中,识别出图片中的文字序列信息;
其中,所述胶囊网络包括卷积层、主胶囊层、数字胶囊层和CTC损失函数,将分割后的图片依次输入到所述胶囊网络中,实现胶囊网络对文字序列信息的识别;所述多语言模型依据胶囊网络生成的文字序列信息,识别其中的语言特征并生成多语言模型的识别结果,然后对多语言模型的识别结果进行融合,判断融合结果的置信度,若没有达到预设置信度,将融合结果重新输入到多语言模型中进行预测,并重复上述过程,直至融合结果达到预设置信度,得到最终的文字序列信息;
可视化模块,用于展示识别到的文字序列信息,同时将胶囊网络和多语言模型的识别结果分别展示。
9.如权利要求8所述的一种基于胶囊网络和多语言模型的文字识别系统,其特征在于:
文字序列识别模块中卷积层用于提取待识别图片的基本特征,由256个步幅为1的9×9×1的卷积核组成,最后使用ReLU函数进行激活;主胶囊层中包含32个主胶囊,主胶囊的任务是将卷积层提取到的图片特征组合起来,主胶囊层中的每个主胶囊均采用9×9×256的卷积核,最终得到6×6×8×32的输出张量;数字胶囊层包含N个数字胶囊,N代表字符总个数,每个数字胶囊接收一个6×6×8×32的张量,即1152×8个输入向量,随后使用squash函数得到待识别图片所对应字符的概率向量,最后将概率向量输入到CTC损失函数中得到胶囊网络对待识别图片的识别结果,即输出文字序列,CTC函数的目的是从输入X中找到可能性最大的输出序列Y*,公式如下:
其中,P(Y|X)表示文字序列的概率,Y代表所有可能的文字序列。
10.如权利要求8所述的一种基于胶囊网络和多语言模型的文字识别系统,其特征在于:所述多语言模型包含有n-gram语言模型、bert语言模型和seq2seq语言模型;
首先将胶囊网络识别到的文字序列信息分别输入到n-gram语言模型和bert语言模型中,分别得到n-gram语言模型和bert语言模型的输出结果,判断输出结果的置信度是否达到预设阈值,将达到阈值且置信度更高的输出结果设为R1,随后,R1输入到seq2seq语言模型中,得到seq2seq语言模型的输出结果R2,seq2seq语言模型用于对缺少的字符进行填补,将seq2seq语言模型填补的字符加入到R1中得到结果R3,对R1、R2和R3的置信度进行判断,选取置信度最高的结果作为多语言模型的输出结果。
CN202310309066.8A 2023-03-28 2023-03-28 一种基于胶囊网络和多语言模型的文字识别方法及系统 Active CN116030454B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310309066.8A CN116030454B (zh) 2023-03-28 2023-03-28 一种基于胶囊网络和多语言模型的文字识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310309066.8A CN116030454B (zh) 2023-03-28 2023-03-28 一种基于胶囊网络和多语言模型的文字识别方法及系统

Publications (2)

Publication Number Publication Date
CN116030454A CN116030454A (zh) 2023-04-28
CN116030454B true CN116030454B (zh) 2023-07-18

Family

ID=86089605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310309066.8A Active CN116030454B (zh) 2023-03-28 2023-03-28 一种基于胶囊网络和多语言模型的文字识别方法及系统

Country Status (1)

Country Link
CN (1) CN116030454B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116912839A (zh) * 2023-09-13 2023-10-20 中移(苏州)软件技术有限公司 文字识别方法、装置及电子设备
CN117573810B (zh) * 2024-01-15 2024-04-09 腾讯烟台新工科研究院 一种多语言产品包装说明书文字识别查询方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241958A (zh) * 2020-01-06 2020-06-05 电子科技大学 一种基于残差-胶囊网络的视频图像鉴别方法
US11348269B1 (en) * 2017-07-27 2022-05-31 AI Incorporated Method and apparatus for combining data to construct a floor plan

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114375477A (zh) * 2019-06-07 2022-04-19 徕卡显微系统Cms有限公司 用于处理生物学相关数据的系统和方法、用于控制显微镜的系统和方法及显微镜
KR102583103B1 (ko) * 2020-01-28 2023-09-27 페이지.에이아이, 인크. 계산 검출 방법들을 위해 전자 이미지들을 처리하기 위한 시스템들 및 방법들
CN111985525B (zh) * 2020-06-30 2023-09-22 上海海事大学 基于多模态信息融合处理的文本识别方法
CN114153974A (zh) * 2021-12-08 2022-03-08 上海杉达学院 一种基于胶囊网络的字符级文本分类方法
CN114863244A (zh) * 2022-04-28 2022-08-05 中南大学 一种基于复数胶囊网络的海上目标识别方法及系统
CN114819999A (zh) * 2022-05-10 2022-07-29 中国计量大学 一种bert融合胶囊网络的电梯故障投诉文本分类方法
CN115565168A (zh) * 2022-10-20 2023-01-03 中国热带农业科学院热带生物技术研究所 一种基于注意力机制残差胶囊网络的甘蔗病害识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11348269B1 (en) * 2017-07-27 2022-05-31 AI Incorporated Method and apparatus for combining data to construct a floor plan
CN111241958A (zh) * 2020-01-06 2020-06-05 电子科技大学 一种基于残差-胶囊网络的视频图像鉴别方法

Also Published As

Publication number Publication date
CN116030454A (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
EP3660733B1 (en) Method and system for information extraction from document images using conversational interface and database querying
CN116030454B (zh) 一种基于胶囊网络和多语言模型的文字识别方法及系统
CN109933756B (zh) 基于ocr的图像转档方法、装置、设备及可读存储介质
CN113111871B (zh) 文本识别模型的训练方法及装置、文本识别方法及装置
US8965126B2 (en) Character recognition device, character recognition method, character recognition system, and character recognition program
CN110032998B (zh) 自然场景图片的文字检测方法、系统、装置和存储介质
JP7132654B2 (ja) レイアウト解析方法、読取り支援デバイス、回路および媒体
RU2643465C2 (ru) Устройства и способы, которые используют иерархически упорядоченную структуру данных, содержащую непараметризованные символы, для преобразования изображений документов в электронные документы
US11915465B2 (en) Apparatus and methods for converting lineless tables into lined tables using generative adversarial networks
CN112418216A (zh) 一种复杂自然场景图像中的文字检测方法
CN105701489A (zh) 一种新型的数字提取和识别的方法及系统
CN111401099A (zh) 文本识别方法、装置以及存储介质
CN114596566A (zh) 文本识别方法及相关装置
CN114972847A (zh) 图像处理方法及装置
CN113743318A (zh) 基于行列分割的表格结构识别方法、存储介质和电子装置
CN117152768A (zh) 用于扫读笔的离线识别方法及系统
CN116030472A (zh) 文字坐标确定方法及装置
CN115187839A (zh) 图文语义对齐模型训练方法及装置
CN115512378A (zh) 一种基于Transformer的中文环境数学公式提取及识别方法
CN112132150B (zh) 文本串识别方法、装置及电子设备
CN116311275B (zh) 一种基于seq2seq语言模型的文字识别方法及系统
CN118015644B (zh) 基于图片和文字的社交媒体关键词数据分析方法及装置
CN113033531B (zh) 一种图像中文本识别方法、装置及电子设备
CN112560866B (zh) 一种基于背景抑制的ocr识别方法
CN115861663B (zh) 一种基于自监督学习模型的文档图像内容比对方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant