CN115187456A - 基于图像强化处理的文本识别方法、装置、设备及介质 - Google Patents

基于图像强化处理的文本识别方法、装置、设备及介质 Download PDF

Info

Publication number
CN115187456A
CN115187456A CN202210692831.4A CN202210692831A CN115187456A CN 115187456 A CN115187456 A CN 115187456A CN 202210692831 A CN202210692831 A CN 202210692831A CN 115187456 A CN115187456 A CN 115187456A
Authority
CN
China
Prior art keywords
text
image
resolution
text image
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210692831.4A
Other languages
English (en)
Inventor
柳阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Bank Co Ltd
Original Assignee
Ping An Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Bank Co Ltd filed Critical Ping An Bank Co Ltd
Priority to CN202210692831.4A priority Critical patent/CN115187456A/zh
Publication of CN115187456A publication Critical patent/CN115187456A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种基于图像强化处理的文本识别方法、装置、设备及介质,应用于人工智能技术领域。其中,本申请实施例方法包括:获取需要进行文本识别的第一文本图像,并确定所述第一文本图像的分辨率;通过预设超分辨模型对第一文本图像进行图像强化处理,得到第二文本图像,第二文本图像的分辨率大于第一文本图像的分辨率;通过预设文本识别模型对第二文本图像进行文本识别处理,得到第一文本图像中包含的文本内容。通过将低分辨率的第一文本图像转换成高分辨率的第二文本图像,使得在通过预设文本识别模型对第二文本图像进行文本识别处理时,能够准确地识别出第一文本图像中包含的文本内容,提高了文本识别的准确率。

Description

基于图像强化处理的文本识别方法、装置、设备及介质
技术领域
本申请涉及人工智能技术领域,具体涉及一种基于图像强化处理的文本识别方法、装置、设备及介质。
背景技术
在图像处理领域,用户经常使用的文本图像识别技术能够为用户提供诸多便利,因此,提高文本识别的有效性具有重要意义。
目前来说,对于高质量的文本图像能够得到很好的识别效果,但低质量的文本图像往往难以识别,比如,由于拍摄光线暗、图像模糊、图像光照不均等原因得到的低质量文本图像,在识别时会存在难以识别文本或文本识别错误等情况。
发明内容
本申请实施例提供一种基于图像强化处理的文本识别方法、装置、设备及介质,能够提高文本识别的准确率。
第一方面,本申请实施例提供一种基于图像强化处理的文本识别方法,包括:
获取需要进行文本识别的第一文本图像,并确定第一文本图像的分辨率;
确定第一文本图像的分辨率是否小于预设分辨率;
若第一文本图像的分辨率小于预设分辨率,则通过预设超分辨模型对第一文本图像进行图像强化处理,得到第二文本图像,第二文本图像的分辨率大于第一文本图像的分辨率;
通过预设文本识别模型对第二文本图像进行文本识别处理,得到第一文本图像中包含的文本内容。
第二方面,本申请实施例还提供一种基于图像强化处理的文本识别装置,包括:
图像获取模块,用于获取需要进行文本识别的第一文本图像,并确定所述第一文本图像的分辨率;
图像处理模块,用于通过预设超分辨模型对第一文本图像进行图像强化处理,得到第二文本图像,第二文本图像的分辨率大于第一文本图像的分辨率;
文本识别模块,用于通过预设文本识别模型对第二文本图像进行文本识别处理,得到第一文本图像中包含的文本内容。
第三方面,本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,当计算机程序在计算机上运行时,使得计算机执行如本申请任一实施例提供的基于图像强化处理的文本识别方法。
第四方面,本申请实施例还提供一种电子设备,包括处理器和存储器,存储器有计算机程序,处理器通过调用计算机程序,用于执行如本申请任一实施例提供的基于图像强化处理的文本识别方法。
本申请实施例提供的技术方案,通过将低分辨率的第一文本图像输入预设超分辨率模型中进行图像加强处理,得到高分辨率的第二文本图像,使得在通过预设文本识别模型对第二文本图像进行文本识别时,能够准确地识别出第一文本图像中包含的文本内容,提高了文本识别的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的基于图像强化处理的文本识别方法的流程示意图。
图2为本申请实施例提供的基于图像强化处理的文本识别方法中预设超分辨率模型的结构示意图。
图3为本申请实施例提供的第一残差网络中序列残差块的结构示意图。
图4为本申请实施例提供的预设文本识别模型的结构示意图。
图5为本申请实施例提供的基于图像强化处理的文本识别装置的结构示意图。
图6为本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本申请的保护范围。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例提供一种基于图像强化处理的文本识别方法,该基于图像强化处理的文本识别方法的执行主体可以是本申请实施例提供的基于图像强化处理的文本识别装置,或者集成了该基于图像强化处理的文本识别装置的电子设备,其中该基于图像强化处理的文本识别装置可以采用硬件或者软件的方式实现。其中,电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等设备。
本申请实施例提供的基于图像强化处理的文本识别方法可应用于银行业务场景中,而当在银行业务场景中处理第一文本图像时,第一文本图像可为银行账单、交易记录、信函、银行卡、合同文件、协议文件等各类文本图像,此类文本图像可通过扫描或拍摄得到,因原文本可能存在文本内容不清晰或在拍摄原文本时拍摄条件较差等原因,会造成得到的第一文本图像的文本内容不清晰,或第一文本图像的分辨率较低。当需要对拍摄的第一文本图像进行文本识别,以通过电子文档的形式存储文本内容时,会存在第一文本图像中的文本内容难以识别或文本内容识别错误的情况,从而导致将识别的文本内容应用到银行业务中执行数据统计、数据记录等各项工作时受到影响。比如,对于交易记录而言,由于拍摄交易账单时拍摄条件较差,导致得到的第一文本图像不清晰,在对第一文本图像进行文本识别得到识别出的数值后,该数值有可能存在残缺或错误的问题,在这种情况下,若使用识别出的数值则会对银行业务造成极大的经济损失。由此可见,提高对文本图像识别的准确率在银行业务中尤显重要。
请参阅图1,图1为本申请实施例提供的基于图像强化处理的文本识别方法的流程示意图。本申请实施例提供的基于图像强化处理的文本识别方法的具体流程可以如下:
101、获取需要进行文本识别的第一文本图像,并确定第一文本图像的分辨率。
其中,获取需要进行文本识别的第一文本图像的方式可为扫描或拍摄,或者还可接收从另一拍摄装置传输的第一文本图像等。
102、通过预设超分辨模型对第一文本图像进行图像强化处理,得到第二文本图像,第二文本图像的分辨率大于第一文本图像的分辨率。
其中,预设超分辨率模型通过训练集训练得到,训练集中包括多组低分辨图像和高分辨率图像,通过将该训练集输入预设超分辨率模型中学习低分辨率图像与高分辨率图像之间的映射关系,以得到训练好的预设超分辨率模型。
通过预设超分辨率模型对第一文本图像进行处理时,能够实现对第一文本图像进行强化处理,以提高第一文本图像的分辨率,得到第二文本图像,其中,第二文本图像的分辨率大于第一文本图像的分辨率。需要说明的是,此处的第一文本图像的分辨率和第二文本图像的分辨率是相对而言的,比如,第一文本图像的分辨率可为1024×768、1280×1024、100×100等,而第二文本图像的分辨率是高于第一文本图像的分辨率的。
在一示例中,第二文本图像的分辨率与第一文本图像的分辨率正相关,即第二文本图像的分辨率随第一文本图像的分辨率的增大而增大,随第一文本图像的分辨率的减小而减小。此种方式可通过设定训练集中低分辨率图像和高分辨率图像的分辨率实现,比如,设定每组高分辨率图像和低分辨率图像之间的分辨率差值相同,通过此类训练集训练的超分辨率模型,能够等比例地提高第一文本图像的分辨率。
当然地,类比此方式还可得到另一类型的超分辨率模型,以将任意第一文本图像的分辨率均提高至一个较高的分辨率,比如,在另一示例中,第二文本图像可具有一个预设分辨率。
103、通过预设文本识别模型对第二文本图像进行文本识别处理,得到第一文本图像中包含的文本内容。
其中,预设文本识别模型是通过训练集训练得到的,该训练集中具有多个文本图像,通过将多个文本图像输入预设识别模型中学习文本图像与文本内容之间的映射关系,以得到训练好的预设文本识别模型。
在通过预设文本识别模型对第二文本图像进行文本识别处理时,预设文本识别模型能够定位第二文本图像中文本内容所在位置,以识别文字特征,进而将文字特征转换成文本内容。
具体实施时,本申请不受所描述的各个步骤的执行顺序的限制,在不产生冲突的情况下,某些步骤还可以采用其它顺序进行或者同时进行。
由上可知,本申请实施例提供的基于图像强化处理的文本识别方法,在进行文本识别处理之前,先通过预设超分辨模型对第一文本图像进行图像增强处理,以提高第一文本图像的分辨率得到第二文本图像,之后再通过预设文本识别模型对第二文本图像进行文本识别处理,能够在提高了第一文本图像的分辨率的前提下识别文本内容,使得预设文本识别模型更易识别出第一文本图像中的文本内容,且降低了识别错误率,以此,提高了对第一文本图像识别的准确率。
根据前面实施例所描述的方法,以下将举例作进一步详细说明。
在一些实施例中,在执行步骤102之前,该方法还包括:
104、确定第一文本图像的分辨率是否小于预设分辨率;
若是,则执行步骤102;
若否,则通过预设文本识别模型对第一文本图像进行文本识别处理,得到第一文本图像中包含的文本内容。
示例性地,本实施例中的预设分辨率可与上述实施例中提及的第二文本图像的分辨率相同,当然地,预设分辨率还可由用户根据实际需求设定,此处并不进行限定。
在执行对第一文本图像进行图像强化处理的步骤之前,通过先识别第一文本图像的分辨率,以当分辨率较低时才通过预设超分辨率模型对第一文本图像进行图像强化处理,以得到具有高分辨率的第二文本图像。
而当分辨率较高时,可直接通过预设文本识别模型识别第一文本图像中的文本内容,以此能够简化对第一文本图像的处理过程,提高识别文本的效率。
请参阅图2,图2为本申请实施例提供的基于图像强化处理的文本识别方法中预设超分辨率模型的结构示意图,预设超分辨模型包括第一卷积神经网络、第一残差网络、子像素卷积层和第二卷积神经网络,其中,第一卷积神经网络的输出分别作为第一残差网络和子像素卷积层的输入,第一残差网络的输出作为子像素卷积层的输入,子像素卷积层的输出作为第二卷积神经网络的输入。
通过预设超分辨模型对第一文本图像进行图像强化处理,得到第二文本图像,包括:
通过第一卷积神经网络提取第一文本图像的浅层特征,得到第一特征图;
通过第一残差网络提取第一特征图的深层特征,得到第二特征图;
通过子像素卷积层对第一特征图和第二特征图进行拼接处理,得到第三特征图;
通过第二卷积神经网络对第三特征图进行上采样处理,得到第二文本图像。
在通过预设超分辨率模型对第一文本图像进行图像增强处理时,先通过将第一文本图像输入预设超分辨率模型的第一卷积神经网络(英文全称Convolutional NerulNetwork,英文简称CNN)中进行浅层特征的提取,输出第二特征图,其中,在通过第一卷积神经网络对第一文本图像进行处理时,通过提取第一文本图像在多个维度的浅层特征,能够得到第一文本图像中较多的细节信息。
将第二特征图输入预设超分辨率模型的第一残差网络中,通过第一残差网络提取第二特征图中的深层特征,输出第二特征图,其中,第一残差网络能够提取第二特征图中的语义信息,即文本内容之间的序列相关性和语义相关性等抽象的特征,以提高预设超分辨率模型的语义识别能力。
将第一特征图和第二特征图输入子像素卷积层进行拼接处理,输出第三特征图,其中,子像素卷积层(子像素卷积的英文全称为Sub-pixel Convolution)用于在通道尺度将同一像素位置的第一特征图和第二特征图中的像素点进行拼接,以得到尺寸增大的第三特征图,同时,通过在通道上进行像素点拼接也提高了第一特征图和第二特征图的分辨率,即第三特征图的分辨率大于第一特征图的分辨率,也大于第二特征图的分辨率。
将第三特征图输入第二卷积神经网络中进行上采样处理,以增大第三特征图的尺寸,进一步提高第三特征图的分辨率,得到第二文本图像。
本申请实施例中通过预设超分辨率模型提取第一文本图像的浅层特征以及深层特征,从而实现识别第一文本图像中文本内容的文字信息以及语义信息,提高对第一文本图像识别的准确率,另一方面能够通过子像素卷积层进行像素拼接处理以及通过第二卷积神经网络进行上采样处理,以极大地提高第一文本图像的分辨率,利于较为容易地识别出第一文本图像中的文本内容,从而提高识别出第一文本图像中文本内容的速率。
在一些实施例中,通过子像素卷积层对第一特征图和第二特征图进行拼接处理,得到第三特征图,包括:
通过子像素卷积层对第一特征图赋予预设权重,得到加权特征图;
通过子像素卷积层对加权特征图和第二特征图进行拼接处理,得到第三特征图。
其中,第一卷积神经网络输出的第一特征图,以及第一残差网络输出的第二特征图均作为子像素卷积层的输入,即第一卷积神经网络的输出端通过加权连接(也称shortcut连接)的方式连接至子像素卷积层的输入端。
在本实施例中,将通过第一卷积神经网络输出的浅层特征跨域传递到通过残差网络输出的具有深层特征的第二特征图,以实现对第一特征图和第二特征图拼接处理,得到第三特征图。此种方式能够缩小浅层特征与深层特征之间的差异,使得浅层特征和深层特征能够更好地融合,以此提高预设超分辨率模型的性能。
其中,通过第一卷积神经网络对第一特征图赋予预设权重,能够实现第一特征图和第二特征图之间的恒等映射,以便于将第一特征图中的浅层特征传递到第二特征图。
请参阅图3,图3为本申请实施例提供的第一残差网络中序列残差块的结构示意图,其中,第一残差网络包括依次连接的多个序列残差块(英文全称Sequential ResidualBlock,简称SRB),每一序列残差块包括第三卷积神经网络和双向长短期记忆网络(英文全称long short term memory,简称LSTM)。其中,每一序列残差块中的第三卷积神经网络和双向长短期记忆网络相连接,双向长短期记忆网络的输出与下一个序列残差块的第三卷积神经网络相连接,以此,实现多个序列残差块相连。其中,序列残差块可为6个,而具体的数量可视实际需求设置,此处并不进行限定。
在一些实施例中,通过第一残差网络提取第一特征图的深层特征,得到第二特征图,包括:
通过第一个序列残差块的第三卷积神经网络提取第一特征图的多个浅层特征;
通过第一个序列残差块的双向长短期记忆网络提取多个浅层特征之间的语义特征,得到具有深层特征的第一特征序列;
将第一特征序列作为下一个序列残差块的输入,逐级提取深层特征,直至遍历最后一个序列残差块,输出第二特征图。
通过第一残差网络对第一特征图进行深层特征提取时,先将第一特征图输入第一个序列残差块的第三卷积神经网络中提取浅层特征,其中,第三卷积神经网络用于提取第一特征图在多个维度的浅层特征,并基于文本内容的序列特征对多个浅层特征进行排列。
将排列后的多个浅层特征输入第一序列残差块的双向长短期记忆网络中进行语义特征的提取,以提取到更深层次的隐含特征,得到具有深层特征的第一特征序列。其中,通过双向长短期记忆网络能够以逆向序列对多个浅层特征进行特征提取,以及以正向序列对多个浅层特征进行特征提取,以得到多个浅层特征之间的语义特征,即语义相关性,此种方式利于识别上下文本内容之间的关联性。
以此类推,通过将每一序列残差块输出的特征序列作为下一个序列残差块的输入,直至遍历最后一个序列残差块,能够不断优化对语义特征的排序,以实现输出的第二特征图能够准确表征文本内容之间的语义相关性。
本申请实施例提供的基于图像强化处理的文本识别方法还包括对超分辨率模型的训练方法,如下:
在一些实施例中,该方法还包括:
获取训练集,训练集中包括多组低分辨率图像和高分辨率图像,每一组低分辨率图像和高分辨率图像是通过同一相机在相同场景中通过不同焦距采集得到的;
将训练集输入预设超分辨率模型中,输出预测图像;
通过均方差损失函数确定预测图像的分辨率与其对应的高分辨率图像的分辨率之间的第一损失值;
根据第一损失值调节模型参数,并返回执行将训练集输入预设超分辨率模型中,输出预测图像的步骤直至模型收敛,得到训练好的预设超分辨率模型。
在本实施例中,训练集中的低分辨率图像和高分辨率图像是通过拍摄得到的,以此训练集训练预设超分辨模型能够使得训练好的预设超分辨模型能够容易处理真实拍摄场景所拍摄的文本图像,提高将低分辨率文本图像转换为高分辨率文本图像的能力。
其中,训练集也可为TextZoom的数据集,该数据集中包括大量成对的高分辨率图像和低分辨率图像,且高分辨率图像和低分辨率图像是通过同一相机在同一场景中通过不同焦距拍摄得到的。
在对预设超分辨模型进行训练时,通过将低分辨率图像作为训练数据,将高分辨率图像作为验证数据,从而使得在训练预设超分辨模型的过程中,预设超分辨模型能够学习同一组低分辨率图像与高分辨率图像之间的映射关系,使得训练好的预设超分辨率模型能够对第一文本图像进行图像加强处理,以得到第一文本图像。
其中,在训练过程中,还通过均方差损失函数计算输出的预测图像与对应的高分辨率图像之间的第一损失值。具体地,每一低分辨率图像通过预设超分辨模型进行处理可输出具有高分辨率的预测图像,通过均方差损失函数计算预测图像的分辨率与对应的高分辨率图像的分辨率之间的第一损失值,并根据第一损失值调节模型参数,并设定训练次数,直至达到训练次数后得到训练好的预设超分辨率模型。
在一些实施例中,根据第一损失值调节模型参数,并返回执行将训练集输入预设超分辨率模型中,输出预测图像的步骤直至模型收敛,得到训练好的预设超分辨率模型,包括:
获取预测图像的第一梯度轮廓曲线,以及与预测图像对应的高分辨率图像的第二梯度轮廓曲线;
通过梯度轮廓先验损失函数确定第一梯度轮廓曲线和第二梯度轮廓曲线之间的第二损失值;
根据第一损失值和第二损失值调节模型参数,并返回执行将训练集输入预设超分辨率模型中,输出预测图像的步骤直至模型收敛,得到训练好的预设超分辨率模型。
在本实施例中,加入了梯度轮廓先验损失(Gradient Profile Prior,GPP)。其中,可通过获取预测图像的第一梯度轮廓曲线,以及与预测图像对应的高分辨率图像的第二梯度轮廓曲线。其中,通过提取图像在水平方向上每两个相邻像素点在灰度值上的变化,以及提取图像在垂直方向上每两个相邻像素点在灰度值上的变化,以结合两个方向上的像素点的灰度值的变化得到梯度轮廓曲线。
通过梯度轮廓曲线能够表征图像边缘的锐化程度,在通过预设超分辨率模型对低分辨率图像进行强化处理时,也会低分辨率图像的边缘进行了锐化处理,因此,通过梯度轮廓先验损失函数确定第一梯度轮廓曲线和第二梯度轮廓曲线之间的第二损失值,能够表征预测图像中图像边缘的锐化程度是否达到高分辨率图像中图像边缘的锐化程度。
当得到第二损失值之后,可结合第一损失值和第二损失值调节预设超分辨率模型的模型参数,直至模型收敛,得到训练好的超分辨率模型。
以上实施例提及了通过预设超分辨率模型对第一文本图像进行图像强化的内容,当得到经过图像强化处理后的第一文本图像后,也称第二文本图像,可通过预设文本识别模型对第二文本图像进行文本识别处理,以得到第一文本图像中包含的文本内容,实现对第一文本图像中的文本内容进行提取,具体内容如下:
请参阅图4,图4为本申请实施例提供的预设文本识别模型的结构示意图。其中,预设文本识别模型包括文本编码器和文本解码器。其中,文本编码器的输出作为文本解码器的输入。
在一些实施例中,通过预设文本识别模型对第二文本图像进行文本识别处理,得到第一文本图像中包含的文本内容,包括:
通过文本编码器提取第二文本图像在多个维度上的语义特征,得到第二特征序列;
通过文本解码器对第二特征序列进行文本转换处理,得到第一文本图像中包含的文本内容。
在本实施例中,将第二文本图像输入文本编码器中提取不同维度的语义特征,并对不同维度的语义特征进行融合处理,得到第二特征序列。之后将第二特征序列输入文本解码器中进行文本转换处理,其中,在通过文本解码器对第二文本特征序列进行转文本转换处理时,通过为第二文本特征序列中的每一特征向量匹配概率值最大的字符作为识别结果,以将每一特征向量转换为单个字符,得到最终的文本序列,文本序列即表示文本内容。
如图4所示,文本编码器包括第二残差网络(也称残差神经网络,英文全称Deepresidual network,简称ResNet)和特征图金字塔网络(英文全称Feature PyramidNetworks,简称FPN),其中,第二残差网络的输出与特征图金字塔网络的输入相连。
在一些实施例中,通过编码器提取第二文本图像在多个维度上的语义特征,得到第二特征序列,包括:
通过第二残差网络提取第二文本图像在多个维度上的语义特征,并对多个维度的语义特征进行特征融合处理,得到具有深层特征的中间特征序列;
通过特征图金字塔网络提取中间特征序列在多个尺度上的高级语义特征,得到第二特征序列。
在本实施例中,将第二文本图像输入编码器的第二残差网络,能够通过第二残差网络不断提取第二文本图像中由浅层至深层的特征,得到多个维度的语义特征,并对多个维度的语义特征进行融合,以得到具有深层特征的中间特征序列。
将中间特征序列输入特征图金字塔网络,通过特征图金字塔网络对中间特征序列进行处理时,先对中间特征序列进行多级自下而上的上采样处理,得到尺寸减小的多个特征图,并提取不同尺寸特征图中的语义特征,之后通过多级自上而下的下采样处理不断增大特征图的尺寸进行尺寸恢复,且同一尺寸的特征图之间横向连接,实现同一尺度上的语义特征的融合,得到具有高级语义特征的第二特征序列。此种方式既能够得到每一尺度特征图上的语义信息,又能得到不同尺寸上的空间信息,实现语义信息和空间信息的融合,进而实现提取到中间特征序列的高级语义信息。
本申请实施例在通过文本编码器对第二文本图像进行处理时,一方面可通过第二残差网络提取第二文本图像的深层特征,另一方面可通过特征图金字塔网络提取第二文本图像的高级语义特征,实现了所提取的特征的丰富度,更利于表达特征之间的语义关联。
如图4所示,文本解码器包括多头注意力模块(英文全称Multi-head AttentionModule)和前馈网络(也称前馈神经网络,英文全称feedforward neural network,英文简称FNN),其中,多头注意力模块的输出与前馈网络的输入相连。
在一些实施例中,通过文本解码器对第二特征序列进行文本转换处理,得到第一文本图像中包含的文本内容,包括:
通过多头注意力模块对第二特征序列在多个维度上进行加强处理,得到第三特征序列;
通过前馈网络对第三特征序列进行梯度下降处理,得到第一文本图像中包含的文本内容。
在本实施例中,将第二特征序列输入多头注意力模型中,多头注意力模型通过多个子空间分别关注不同维度的特征,以对每一维度上关注的特征赋予相应的权重,实现对不同维度上的特征进行加强处理,之后将所有子空间输出的经加强处理后的特征进行合并,得到第三特征序列。
通过前馈网络对第三特征序列进行处理,其中,前馈网络包括单向连接的输入层、中间层和输出层,通过单向连接的输入层、中间层对第三特征序列进行逐层非线性映射,以实现对第三特征序列进行梯度下降处理,得到第三特征序列中的单个字符,进而通过输出层对单个字符进行分类处理,得到最终的文本序列,文本序列即表示文本内容,以此实现识别出第一文本图像中包含的文本内容。
在一些实施例中,该方法还包括对预设文本识别模型的训练方法,如下:
获取训练集,该训练集中包括多个文本图像,且每一文本图像具有对应的真实序列;
将多个文本图像输入预设文本识别模型中进行文本识别处理,输出预测序列;
通过相对熵计算预测序列与真实序列之间的第三损失值;
通过第三损失值调节模型参数,直至模型收敛,得到训练好的预设文本识别模型。
在本实施例中,通过相对熵(也称CL散度)计算预测序列和真实序列之间在分布上的差异,从而通过调节模型参数以缩小该分布差异,直至模型收敛,以得到训练好的预设文本识别模型。
由上可知,本发明实施例提出的基于图像强化处理的文本识别方法,通过第一卷积神经网络、第一残差网络、子像素卷积层和第二卷积神经网络构建的预设超分辨率模型对第一文本图像进行图像增强处理,能够更好地识别第一文本图像中特征之间的语义相关性,且极大地提高第一文本图像的分辨率,利于较为容易地识别出第一文本图像中的文本内容,从而提高识别出第一文本图像中文本内容的速率。然后通过具有第二残差网络和特征图金字塔网络的文本编码器提取第二文本图像中的深层特征和高级语义特征,丰富了所提取的特征,更利于表达特征之间的语义关联,并将通过文本编码器得到第二特征序列输入具有多头注意力模块和前馈网络文本解码器进行文本转换处理,以提高文本转换的效率。以此,既提高了对文本图像的识别效率,又提高了对文本图像的识别准确率。
在一实施例中还提供一种基于图像强化处理的文本识别装置200。请参阅图5,图5为本申请实施例提供的基于图像强化处理的文本识别装置200的结构示意图。其中该基于图像强化处理的文本识别装置200应用于电子设备,该基于图像强化处理的文本识别装置200包括:
图像获取模块201,用于获取需要进行文本识别的第一文本图像,并确定第一文本图像的分辨率;
分辨率识别模块204,用于确定第一文本图像的分辨率是否小于预设分辨率;
图像处理模块202,用于通过预设超分辨模型对第一文本图像进行图像强化处理,得到第二文本图像,第二文本图像的分辨率大于第一文本图像的分辨率;
文本识别模块203,用于通过预设文本识别模型对第二文本图像进行文本识别处理,得到第一文本图像中包含的文本内容。
在一些实施例中,预设超分辨模型包括第一卷积神经网络、第一残差网络、子像素卷积层和第二卷积神经网络;
图像处理模块202还用于:
通过第一卷积神经网络提取第一文本图像的浅层特征,得到第一特征图;
通过第一残差网络提取第一特征图的深层特征,得到第二特征图;
通过子像素卷积层对第一特征图和第二特征图进行拼接处理,得到第三特征图;
通过第二卷积神经网络对第三特征图进行上采样处理,得到第二文本图像。
在一些实施例中,图像处理模块202还用于:
通过子像素卷积层对第一特征图赋予预设权重,得到加权特征图;
通过子像素卷积层对加权特征图和第二特征图进行拼接处理,得到第三特征图。
在一些实施例中,第一残差网络包括依次连接的多个序列残差块,每一序列残差块包括第三卷积神经网络和双向长短期记忆网络;
图像处理模块202还用于:
通过第一个序列残差块的第三卷积神经网络提取第一特征图的多个浅层特征;
通过第一个序列残差块的双向长短期记忆网络提取多个浅层特征之间的语义特征,得到具有深层特征的第一特征序列;
将第一特征序列作为下一个序列残差块的输入,逐级提取深层特征,直至遍历最后一个序列残差块,输出第二特征图。
在一些实施例中,预设文本识别模型包括文本编码器和文本解码器;
文本识别模块203还用于:
通过文本编码器提取第二文本图像在多个维度上的语义特征,得到第二特征序列;
通过文本解码器对第二特征序列进行文本转换处理,得到第一文本图像中包含的文本内容。
在一些实施例中,文本编码器包括第二残差网络和特征图金字塔网络;
文本识别模块203还用于:
通过第二残差网络提取第二文本图像在多个维度上的语义特征,并对多个维度的语义特征进行特征融合处理,得到具有深层特征的中间特征序列;
通过特征图金字塔网络提取中间特征序列在多个尺度上的高级语义特征,得到第二特征序列。
在一些实施例中,解码器包括多头注意力模块和前馈网络;
文本识别模块203还用于:
通过多头注意力模块对第二特征序列在多个维度上进行加强处理,得到第三特征序列;
通过前馈网络对第三特征序列进行梯度下降处理,得到第一文本图像中包含的文本内容。
在一些实施例中,图像处理模块202还用于:
获取训练集,训练集中包括多组低分辨率图像和高分辨率图像,每一组低分辨率图像和高分辨率图像是通过同一相机在相同场景中通过不同焦距采集得到的;
将训练集输入预设超分辨率模型中,输出预测图像;
通过均方差损失函数确定预测图像的分辨率与其对应的高分辨率图像的分辨率之间的第一损失值;
根据第一损失值调节模型参数,并返回执行将训练集输入预设超分辨率模型中,输出预测图像的步骤直至模型收敛,得到训练好的预设超分辨率模型。
在一些实施例中,图像处理模块202还用于:
获取预测图像的第一梯度轮廓曲线,以及与预测图像对应的高分辨率图像的第二梯度轮廓曲线;
通过梯度轮廓先验损失函数确定第一梯度轮廓曲线和第二梯度轮廓曲线之间的第二损失值;
根据第一损失值和第二损失值调节模型参数,并返回执行将训练集输入预设超分辨率模型中,输出预测图像的步骤直至模型收敛,得到训练好的预设超分辨率模型。
应当说明的是,本申请实施例提供的基于图像强化处理的文本识别装置200与上文实施例中的基于图像强化处理的文本识别方法属于同一构思,通过该基于图像强化处理的文本识别装置200可以实现基于图像强化处理的文本识别方法实施例中提供的任一方法,其具体实现过程详见基于图像强化处理的文本识别方法实施例,此处不再赘述。
由上可知,本申请实施例提出的基于图像强化处理的文本识别装置200,通过第一卷积神经网络、第一残差网络、子像素卷积层和第二卷积神经网络构建的预设超分辨率模型对第一文本图像进行图像增强处理,能够更好地识别第一文本图像中特征之间的语义相关性,且极大地提高第一文本图像的分辨率,利于较为容易地识别出第一文本图像中的文本内容,从而提高识别出第一文本图像中文本内容的速率。然后通过具有第二残差网络和特征图金字塔网络的文本编码器提取第二文本图像中的深层特征和高级语义特征,丰富了所提取的特征,更利于表达特征之间的语义关联,并将通过文本编码器得到第二特征序列输入具有多头注意力模块和前馈网络文本解码器进行文本转换处理,以提高文本转换的效率。以此,既提高了对文本图像的识别效率,又提高了对文本图像的识别准确率。
本申请实施例还提供一种电子设备,该电子设备可以为终端,该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机(PC,Personal Computer)、个人数字助理(Personal Digital Assistant,PDA)等终端设备。如图6所示,图6为本申请实施例提供的电子设备的结构示意图。该电子设备300包括有一个或者一个以上处理核心的处理器301、有一个或一个以上计算机可读存储介质的存储器302及存储在存储器302上并可在处理器上运行的计算机程序。其中,处理器301与存储器302电性连接。本领域技术人员可以理解,图中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
处理器301是电子设备300的控制中心,利用各种接口和线路连接整个电子设备300的各个部分,通过运行或加载存储在存储器302内的软件程序和/或模块,以及调用存储在存储器302内的数据,执行电子设备300的各种功能和处理数据,从而对电子设备300进行整体监控。
在本申请实施例中,电子设备300中的处理器301会按照如下的步骤,将一个或一个以上的应用程序的进程对应的指令加载到存储器302中,并由处理器301来运行存储在存储器302中的应用程序,从而实现各种功能:
获取需要进行文本识别的第一文本图像,并确定第一文本图像的分辨率;
通过预设超分辨模型对第一文本图像进行图像强化处理,得到第二文本图像,第二文本图像的分辨率大于第一文本图像的分辨率;
通过预设文本识别模型对第二文本图像进行文本识别处理,得到第一文本图像中包含的文本内容。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
由上可知,本实施例提供的电子设备,通过第一卷积神经网络、第一残差网络、子像素卷积层和第二卷积神经网络构建的预设超分辨率模型对第一文本图像进行图像增强处理,能够更好地识别第一文本图像中特征之间的语义相关性,且极大地提高第一文本图像的分辨率,利于较为容易地识别出第一文本图像中的文本内容,从而提高识别出第一文本图像中文本内容的速率。然后通过具有第二残差网络和特征图金字塔网络的文本编码器提取第二文本图像中的深层特征和高级语义特征,丰富了所提取的特征,更利于表达特征之间的语义关联,并将通过文本编码器得到第二特征序列输入具有多头注意力模块和前馈网络文本解码器进行文本转换处理,以提高文本转换的效率。以此,既提高了对文本图像的识别效率,又提高了对文本图像的识别准确率。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条计算机程序,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种基于图像强化处理的文本识别方法中的步骤。例如,该计算机程序可以执行如下步骤:
获取需要进行文本识别的第一文本图像,并确定第一文本图像的分辨率;
通过预设超分辨模型对第一文本图像进行图像强化处理,得到第二文本图像,第二文本图像的分辨率大于第一文本图像的分辨率;
通过预设文本识别模型对第二文本图像进行文本识别处理,得到第一文本图像中包含的文本内容。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。由于该存储介质中所存储的计算机程序,可以执行本申请实施例所提供的任一种基于图像强化处理的文本识别方法中的步骤,因此,可以实现本申请实施例所提供的任一种基于图像强化处理的文本识别方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种基于图像强化处理的文本识别方法、装置、介质及电子设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。

Claims (12)

1.一种基于图像强化处理的文本识别方法,其特征在于,包括:
获取需要进行文本识别的第一文本图像,并确定所述第一文本图像的分辨率;
确定所述第一文本图像的分辨率是否小于预设分辨率;
若所述第一文本图像的分辨率小于预设分辨率,则通过预设超分辨模型对所述第一文本图像进行图像强化处理,得到第二文本图像,所述第二文本图像的分辨率大于所述第一文本图像的分辨率;
通过预设文本识别模型对所述第二文本图像进行文本识别处理,得到所述第一文本图像中包含的文本内容。
2.如权利要求1所述的方法,其特征在于,所述预设超分辨模型包括第一卷积神经网络、第一残差网络、子像素卷积层和第二卷积神经网络;
所述通过预设超分辨模型对所述第一文本图像进行图像强化处理,得到第二文本图像,包括:
通过所述第一卷积神经网络提取所述第一文本图像的浅层特征,得到第一特征图;
通过所述第一残差网络提取所述第一特征图的深层特征,得到第二特征图;
通过所述子像素卷积层对所述第一特征图和所述第二特征图进行拼接处理,得到第三特征图;
通过所述第二卷积神经网络对所述第三特征图进行上采样处理,得到第二文本图像。
3.如权利要求2所述的方法,其特征在于,所述通过所述子像素卷积层对所述第一特征图和所述第二特征图进行拼接处理,得到第三特征图,包括:
通过所述子像素卷积层对所述第一特征图赋予预设权重,得到加权特征图;
通过所述子像素卷积层对所述加权特征图和所述第二特征图进行拼接处理,得到第三特征图。
4.如权利要求2所述的方法,其特征在于,所述第一残差网络包括依次连接的多个序列残差块,每一所述序列残差块包括第三卷积神经网络和双向长短期记忆网络;
所述通过所述第一残差网络提取所述第一特征图的深层特征,得到第二特征图,包括:
通过第一个序列残差块的第三卷积神经网络提取所述第一特征图的多个浅层特征;
通过所述第一个序列残差块的双向长短期记忆网络提取多个所述浅层特征之间的语义特征,得到具有深层特征的第一特征序列;
将所述第一特征序列作为下一个序列残差块的输入,逐级提取深层特征,直至遍历最后一个序列残差块,输出第二特征图。
5.如权利要求1所述的方法,其特征在于,所述预设文本识别模型包括文本编码器和文本解码器;
所述通过预设文本识别模型对所述第二文本图像进行文本识别处理,得到所述第一文本图像中包含的文本内容,包括:
通过所述文本编码器提取所述第二文本图像在多个维度上的语义特征,得到第二特征序列;
通过所述文本解码器对所述第二特征序列进行文本转换处理,得到所述第一文本图像中包含的文本内容。
6.如权利要求5所述的方法,其特征在于,所述文本编码器包括第二残差网络和特征图金字塔网络;
所述通过所述编码器提取所述第二文本图像在多个维度上的语义特征,得到第二特征序列,包括:
通过所述第二残差网络提取所述第二文本图像在多个维度上的语义特征,并对多个维度的语义特征进行特征融合处理,得到具有深层特征的中间特征序列;
通过所述特征图金字塔网络提取所述中间特征序列在多个尺度上的高级语义特征,得到所述第二特征序列。
7.如权利要求5所述的方法,其特征在于,所述解码器包括多头注意力模块和前馈网络;
所述通过所述文本解码器对所述第二特征序列进行文本转换处理,得到所述第一文本图像中包含的文本内容,包括:
通过所述多头注意力模块对所述第二特征序列在多个维度上进行加强处理,得到第三特征序列;
通过所述前馈网络对所述第三特征序列进行梯度下降处理,得到所述第一文本图像中包含的文本内容。
8.如权利要求1至7任一项所述的方法,其特征在于,所述方法还包括:
获取训练集,所述训练集中包括多组低分辨率图像和高分辨率图像,每一组低分辨率图像和高分辨率图像是通过同一相机在相同场景中通过不同焦距采集得到的;
将所述训练集输入预设超分辨率模型中,输出预测图像;
通过均方差损失函数确定所述预测图像的分辨率与其对应的高分辨率图像的分辨率之间的第一损失值;
根据所述第一损失值调节模型参数,并返回执行将所述训练集输入预设超分辨率模型中,输出预测图像的步骤直至模型收敛,得到训练好的预设超分辨率模型。
9.如权利要求8所述的方法,其特征在于,所述根据所述第一损失值调节模型参数,并返回执行将所述训练集输入预设超分辨率模型中,输出预测图像的步骤直至模型收敛,得到训练好的预设超分辨率模型,包括:
获取所述预测图像的第一梯度轮廓曲线,以及与所述预测图像对应的高分辨率图像的第二梯度轮廓曲线;
通过梯度轮廓先验损失函数确定所述第一梯度轮廓曲线和所述第二梯度轮廓曲线之间的第二损失值;
根据所述第一损失值和所述第二损失值调节模型参数,并返回执行将所述训练集输入预设超分辨率模型中,输出预测图像的步骤直至模型收敛,得到训练好的预设超分辨率模型。
10.一种基于图像强化处理的文本识别装置,其特征在于,包括:
图像获取模块,用于获取需要进行文本识别的第一文本图像,并确定所述第一文本图像的分辨率;
分辨率识别模块,用于确定所述第一文本图像的分辨率是否小于预设分辨率;
图像处理模块,用于若是,则通过预设超分辨模型对所述第一文本图像进行图像强化处理,得到第二文本图像,所述第二文本图像的分辨率大于所述第一文本图像的分辨率;
文本识别模块,用于通过预设文本识别模型对所述第二文本图像进行文本识别处理,得到所述第一文本图像中包含的文本内容。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1至9任一项所述的基于图像强化处理的文本识别方法。
12.一种电子设备,包括处理器和存储器,所述存储器存储有计算机程序,其特征在于,所述处理器通过调用所述计算机程序,用于执行如权利要求1至9任一项所述的基于图像强化处理的文本识别方法。
CN202210692831.4A 2022-06-17 2022-06-17 基于图像强化处理的文本识别方法、装置、设备及介质 Pending CN115187456A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210692831.4A CN115187456A (zh) 2022-06-17 2022-06-17 基于图像强化处理的文本识别方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210692831.4A CN115187456A (zh) 2022-06-17 2022-06-17 基于图像强化处理的文本识别方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN115187456A true CN115187456A (zh) 2022-10-14

Family

ID=83512580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210692831.4A Pending CN115187456A (zh) 2022-06-17 2022-06-17 基于图像强化处理的文本识别方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN115187456A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210042567A1 (en) * 2019-04-03 2021-02-11 Beijing Sensetime Technology Development Co., Ltd. Text recognition
CN115829837A (zh) * 2022-11-15 2023-03-21 深圳市新良田科技股份有限公司 一种文本图像超分重建的方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210042567A1 (en) * 2019-04-03 2021-02-11 Beijing Sensetime Technology Development Co., Ltd. Text recognition
CN115829837A (zh) * 2022-11-15 2023-03-21 深圳市新良田科技股份有限公司 一种文本图像超分重建的方法及系统

Similar Documents

Publication Publication Date Title
CN107330127B (zh) 一种基于文本图片检索的相似文本检测方法
CN111950453B (zh) 一种基于选择性注意力机制的任意形状文本识别方法
US20190180154A1 (en) Text recognition using artificial intelligence
CN110223292B (zh) 图像评估方法、装置及计算机可读存储介质
CN108288075A (zh) 一种改进ssd的轻量化小目标检测方法
CN112699937B (zh) 基于特征引导网络的图像分类与分割的装置、方法、设备及介质
CN110136062B (zh) 一种联合语义分割的超分辨率重建方法
CN110781923B (zh) 特征提取方法及装置
CN115187456A (zh) 基于图像强化处理的文本识别方法、装置、设备及介质
JP2008537198A (ja) 人工知能を使用した外来のアプリケーションユーザインタフェースからの情報のインテリジェントインポート
WO2021042505A1 (zh) 基于文字识别技术的笔记生成方法、装置和计算机设备
CN111401374A (zh) 基于多任务的模型训练方法、字符识别方法及装置
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
US11568140B2 (en) Optical character recognition using a combination of neural network models
Krishnan et al. Detection of alphabets for machine translation of sign language using deep neural net
CN113011253B (zh) 基于ResNeXt网络的人脸表情识别方法、装置、设备及存储介质
CN112614110B (zh) 评估图像质量的方法、装置及终端设备
CN113469238A (zh) 一种基于crnn解决拼图任务的自监督学习方法
CN114707017B (zh) 视觉问答方法、装置、电子设备和存储介质
CN116168394A (zh) 图像文本识别方法和装置
CN111242114A (zh) 文字识别方法及装置
CN115862015A (zh) 文字识别系统的训练方法及装置、文字识别方法及装置
CN116129417A (zh) 一种基于低质量图像的数字仪表读数检测方法
CN116128998A (zh) 一种多路并行的文本到图像生成方法和系统
CN109933969B (zh) 验证码识别方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination