CN114581646A - 文本识别方法、装置、电子设备及存储介质 - Google Patents
文本识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114581646A CN114581646A CN202111485442.6A CN202111485442A CN114581646A CN 114581646 A CN114581646 A CN 114581646A CN 202111485442 A CN202111485442 A CN 202111485442A CN 114581646 A CN114581646 A CN 114581646A
- Authority
- CN
- China
- Prior art keywords
- watermark
- image
- text
- feature map
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Editing Of Facsimile Originals (AREA)
Abstract
本说明书实施例提供一种文本识别方法、装置、电子设备及存储介质。方法包括:利用水印检测网络对待识别图像进行检测,得到水印类型以及水印检测框,并选择水印去除模型,利用水印去除模型对水印检测框中的水印进行去除,得到无水印图像;利用文本检测网络对无水印图像进行文本检测,得到无水印图像中文本框的位置,基于文本框的位置对文本框进行裁剪,得到文本框;将文本框作为文本识别网络的输入,利用卷积神经网络层对文本框进行特征提取得到第一特征图,并利用循环神经网络层对第一特征图进行处理得到第二特征图,利用转录层对第二特征图进行转录,得到待识别图像中的文本。本公开提升了文本识别的准确率和精度,同时具有较高的文本识别效率。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种文本识别方法、装置、电子设备及存储介质。
背景技术
随着计算机技术的发展,利用文本识别技术来识别图像中的文字的方法已被广泛使用。但是在一些应用场景中,图像中除了文字之外还会存在一些水印,图像中的水印容易对文字产生遮挡,另外有些图像中的文字比较密集且图像中的文本内容比较复杂,这些情况都将对图像中文本识别的结果产生不利影响。
在传统的文本识别算法中,以工程证书中的文本识别为例,为了避免以上情况对识别结果的影响,需要通过人工手动进行提取和校验,因此增加了工作人员的时间成本,并且当证书文字比较密集且内容比较复杂时,很容易出现识别错误。而应用现有的OCR识别算法来进行文本识别时,也无法解决水印遮挡和文本模糊的问题,因此,现有的文本识别算法在对水印图像中的文字进行识别时,存在识别效果差,识别错误率高,识别精度和效率较低的问题。
鉴于以上现有技术中的问题,需要提供一种具有较高的识别准确率和识别效率,且人工成本较低的水印图像的文本识别方法。
发明内容
有鉴于此,本公开实施例提供了一种文本识别方法、装置、电子设备及存储介质,以解决现有技术存在的水印图像的文本识别错误率高,识别精度差,效率较低的问题。
本公开实施例的第一方面,提供了一种文本识别方法,包括:获取待识别图像,利用水印检测网络对待识别图像进行检测,得到水印类型以及水印检测框,并确定与水印类型相匹配的水印去除模型,利用水印去除模型对水印检测框中的水印进行去除,得到无水印图像;利用文本检测网络对无水印图像执行文本检测操作,得到无水印图像中文本框的位置,基于文本框的位置对文本框进行裁剪,得到文本框;将文本框作为文本识别网络的输入,利用卷积神经网络层对文本框进行特征提取得到第一特征图,并利用循环神经网络层对第一特征图进行处理得到第二特征图,利用转录层对第二特征图进行转录,得到待识别图像中的文本。
本公开实施例的第二方面,提供了一种表格结构提取装置,包括:水印检测模块,被配置为获取待识别图像,利用水印检测网络对待识别图像进行检测,得到水印类型以及水印检测框,并确定与水印类型相匹配的水印去除模型,利用水印去除模型对水印检测框中的水印进行去除,得到无水印图像;文本检测模块,被配置为利用文本检测网络对无水印图像执行文本检测操作,得到无水印图像中文本框的位置,基于文本框的位置对文本框进行裁剪,得到文本框;文本识别模块,被配置为将文本框作为文本识别网络的输入,利用卷积神经网络层对文本框进行特征提取得到第一特征图,并利用循环神经网络层对第一特征图进行处理得到第二特征图,利用转录层对第二特征图进行转录,得到待识别图像中的文本。
本公开实施例的第三方面,提供了一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述方法的步骤。
本公开实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本公开实施例采用的上述至少一个技术方案能够达到以下有益效果:
通过获取待识别图像,利用水印检测网络对待识别图像进行检测,得到水印类型以及水印检测框,并确定与水印类型相匹配的水印去除模型,利用水印去除模型对水印检测框中的水印进行去除,得到无水印图像;利用文本检测网络对无水印图像执行文本检测操作,得到无水印图像中文本框的位置,基于文本框的位置对文本框进行裁剪,得到文本框;将文本框作为文本识别网络的输入,利用卷积神经网络层对文本框进行特征提取得到第一特征图,并利用循环神经网络层对第一特征图进行处理得到第二特征图,利用转录层对第二特征图进行转录,得到待识别图像中的文本。本公开不仅针对普通无水印图像具有较高的识别精度和效率,针对有水印图像同样具有较高的识别准确率和识别精度,并且提高了水印图像的文本识别的效率,降低人员时间成本。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本公开实施例提供的文本识别方法的流程示意图;
图2是本公开实施例提供的双重去水印算法的处理流程示意图;
图3是本公开实施例提供的文本识别装置的结构示意图;
图4是本公开实施例提供的电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本公开实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本公开的描述。
如前文所述,在现实场景中,待识别图像中除了需要识别的文字以外,还会存在一些水印,比如印章和透明水印等,而图像中的水印容易对文字产生遮挡,在对被水印遮挡的文字进行识别时,将极大增加文本的识别难度。另外,有些待识别图像中的文字比较密集,并且待识别图像中的文本内容也比较复杂,这些情况对待识别图像中的文本识别的结果产生不利影响。下面以商业证书和工程证书领域中的文本识别为例,对现有的文本识别算法的问题以及本公开的改进点进行详细说明,具体可以包括以下内容:
在对工程证书中的商品名称以及商家信息进行识别时,由于工程证书文件中往往存在大量的印章和水印,这将对文本识别的结果产生影响。传统的文本识别算法主要包括以下两个方面:第一方面,需要通过人工手动进行提取和校验,这不仅增加了工作人员的时间成本,并且当证书文字比较密集且内容比较复杂时,很容易导致识别错误;第二方面,应用现有的OCR识别算法来进行文本识别,但是现有的OCR识别算法也无法很好地解决水印遮挡和文本模糊的问题,因此直接应用现有的OCR识别算法往往难以取得理想的效果。
鉴于对以上现有技术问题的考虑,本公开提出了一种双重去水印算法来精准且高效的去除图片中存在的印章和透明水印,通过这种处理可以显著提升模型识别精度,此外,为了保证在密集场景下的识别速度,提出了一种轻量级的识别网络,其具有更小的模型尺寸和更高的识别效率。
图1是本公开实施例提供的文本识别方法的流程示意图。图1的文本识别方法可以由服务器执行。如图1所示,该文本识别方法具体可以包括:
S101,获取待识别图像,利用水印检测网络对待识别图像进行检测,得到水印类型以及水印检测框,并确定与水印类型相匹配的水印去除模型,利用水印去除模型对水印检测框中的水印进行去除,得到无水印图像;
S102,利用文本检测网络对无水印图像执行文本检测操作,得到无水印图像中文本框的位置,基于文本框的位置对文本框进行裁剪,得到文本框;
S103,将文本框作为文本识别网络的输入,利用卷积神经网络层对文本框进行特征提取得到第一特征图,并利用循环神经网络层对第一特征图进行处理得到第二特征图,利用转录层对第二特征图进行转录,得到待识别图像中的文本。
具体地,待识别图像可以是根据商业证书或工程证书等生成的图片形式的对象。待识别图像既可以是包含印章和/或水印的图像,也可以是不包含水印的图像,对于不包含水印的图像则可以直接利用传统的OCR识别算法进行文本识别。对于包含印章和/或水印的图像,需要先利用水印检测网络判断待识别图像中的水印类型,再基于水印类型选择合适的水印去除算法进行水印去除。
进一步地,本公开提出了两种水印去除算法,因此可以理解为双重去水印算法,即印章去除算法和透明水印去除算法。利用水印检测网络不仅可以识别水印的具体位置,还可以检测出水印类型,如果检测结果中只包含印章,则通过印章去除算法处理,如果检测结果中只包含透明水印,则通过透明水印去除算法进行处理,如果检测结果显示待识别图像中同时存在印章和透明水印,则依次经过印章去除算法和透明水印去除算法处理,经过这些处理可以显著提升文本识别精度。
根据本公开实施例提供的技术方案,本公开通过获取待识别图像,利用水印检测网络对待识别图像进行检测,得到水印类型以及水印检测框,并确定与水印类型相匹配的水印去除模型,利用水印去除模型对水印检测框中的水印进行去除,得到无水印图像;利用文本检测网络对无水印图像执行文本检测操作,得到无水印图像中文本框的位置,基于文本框的位置对文本框进行裁剪,得到文本框;将文本框作为文本识别网络的输入,利用卷积神经网络层对文本框进行特征提取得到第一特征图,并利用循环神经网络层对第一特征图进行处理得到第二特征图,利用转录层对第二特征图进行转录,得到待识别图像中的文本。本公开不仅针对普通无水印图像具有较高的识别精度和效率,针对有水印图像同样具有较高的识别准确率和识别精度,并且提高了水印图像的文本识别的效率,降低人员时间成本。
在一些实施例中,利用水印检测网络对待识别图像进行检测,得到水印类型以及水印检测框,包括:将待识别图像作为水印检测网络的输入,利用水印检测网络对待识别图像进行检测,以便基于水印检测网络中的卷积层判断待识别图像中的水印类型,并生成水印的水印检测框;其中,水印检测网络为采用归一化网络和激活函数的卷积层所组成的神经网络模型,水印类型包括印章和透明水印。
具体地,本公开通过构建出一个水印检测网络模型,利用水印检测网络模型不仅可以检测出待识别图像中的水印类型(即属于印章或者透明水印),还可以获得水印的具体位置(即水印检测框)。水印检测网络模型是一种卷积神经网络,例如可以是采用归一化网络和激活函数的卷积层所组成的神经网络模型。水印检测网络模型的输入是待识别图像,经过一系列卷积运算,得到的输出结果为水印类型以及水印检测框,即待识别图像中是否包含水印,水印属于哪一类,以及水印位置的判断结果。将水印检测网络模型的输出作为水印去除模型的输入,利用水印去除模型进行水印去除。
在一些实施例中,确定与水印类型相匹配的水印去除模型,包括:当待识别图像中的水印为印章时,利用预设的印章去除模型,对待识别图像中的印章进行去除;当待识别图像中的水印为透明水印时,利用预设的透明水印去除模型,对待识别图像中的印章进行去除;当待识别图像中的水印为印章和透明水印时,依次利用预设的印章去除模型和透明水印去除模型,对待识别图像中的印章以及透明水印进行去除。
具体地,水印去除模型包括两类,即印章去除模型和透明水印去除模型,其中,印章去除模型用于去除待识别图像中的印章,透明水印去除模型用于去除待识别图像中的透明水印。本公开提出的这两类水印去除模型共同构成了双重去水印算法,下面结合附图,对双重去水印算法的处理流程进行详细说明,图2是本公开实施例提供的双重去水印算法的处理流程示意图。图2的双重去水印算法的处理流程中具体可以包括以下内容:
输入待识别图像,利用水印检测网络进行水印检测,获得待识别图像中的水印类型以及水印检测框,之后产生了三个处理分支。第一处理分支的内容为,当水印检测结果中只包含透明水印时,则采用透明水印去除算法对透明水印进行去除,得到无水印图像;第二处理分支的内容为,当水印检测结果中只包含印章时,则采用印章去除算法对印章进行去除,得到无水印图像;第三处理分支的内容为,当水印检测结果中同时包含透明水印和印章时,则依次经过印章去除算法和透明水印去除算法对印章和水印依次进行去除,得到无水印图像。
需要说明的是,本公开之所以选择多分支处理的原因是,印章去除算法的处理耗时短,而透明水印去除算法需要进行编码和解码阶段,会带来较高的时间消耗。通过对数据的分析,发现实际场景中待识别图像中往往含有大量的印章遮挡,只包含少量的透明水印遮挡,因此通过将处理逻辑设计成多分支,而非串行结构的方式,不仅提升了算法的识别精度,还提升了识别速度。
在一些实施例中,利用预设的印章去除模型,对待识别图像中的印章进行去除,包括:将待识别图像从RGB颜色空间转换至HSV颜色空间,并根据水印检测框中每个像素的色度值,判断印章的颜色,获取与印章的颜色相对应的颜色图层,将颜色图层扩展为三个通道,得到无水印图像。
具体地,印章去除模型采用的是基于颜色空间转换的印章去除算法,即通过将原始图片(即待识别图像)从RGB颜色空间转换至HSV颜色空间,然后根据印章区域内每个像素的H值判断是否在阈值范围内,即通过色度值判断当前印章的颜色,如蓝色印章、红色印章或绿色印章,之后获取当前印章颜色对应的图层,并将其扩展为三通道,此时可以得到去除印章后的图片。
在一些实施例中,利用预设的透明水印去除模型,对待识别图像中的印章进行去除,包括:依次利用透明水印去除模型中的编码器和解码器,对待识别图像执行编码操作和解码操作,其中编码操作用于对待识别图像中的图像特征信息进行编码计算,以去除待识别图像中的水印对应的像素点,得到无水印图像。
具体地,透明水印去除模型由编码器和解码器两部分组成,透明水印去除模型是基于预处理得到的水印图片训练集进行训练得到的神经网络模型。透明水印去除模型的工作原理是,利用编码器获取每个水印的图片特征信息,之后利用解码器基于图片特征信息将原始图片处理成无水印的图像。
进一步地,在利用解码器对水印检测框中的水印进行去除时,解码器通过解码计算特征图中的图像特征信息,根据图像特征信息,判断每个水印检测框中像素点与其它背景信息之间的相似性,基于相似性判断哪个像素点为水印像素点的概率值,根据概率值对像素点的数据进行去除。
进一步地,在训练透明水印去除模型之前,可以通过人工生成一批带水印图片和不带水印图片,在实际应用中,可以通过先获取无水印图片,再在无水印图片上添加水印的方式获取源数据集。考虑到现实场景下的水印可能以各种形式存在于图片中的任何一个位置,所以在生成训练数据时也模拟了这种分布变化,例如在无水印图片中随机生成水印的位置和水印尺寸,最终通过模型在训练过程中不断学习这种映射,使其具备水印去除能力。
在一些实施例中,利用文本检测网络对无水印图像执行文本检测操作,得到无水印图像中文本框的位置,包括:利用文本检测网络中的特征提取网络对无水印图像进行处理,得到特征图,对特征图对应的概率值进行预测得到概率图,将概率图与阈值图进行叠加得到新的特征图,新的特征图中包含文本框的位置,将文本框的位置以及置信度评分作为文本检测网络的输出。
具体地,在去除待识别图像中的水印之后,利用文本检测网络对无水印图片进行文本检测,获取无水印图片中的文本框;文本检测网络中的特征提取网络对无水印图片进行卷积和上采样操作,之后利用两个分支对卷积特征图分别处理,分别得到概率图与阈值图,将概率图与阈值图叠加在一起,得到新的特征图,基于新的特征图中文本框的位置,从特征图中提取出若干个文本框。
进一步地,在基于文本框的位置将文本框裁剪出来之后,将裁剪出来的文本框作为文本识别网络的输入,也就是说,文本识别网络的输入是将无水印图像经过文本检测后得到的文本框,在实际应用中,文本检测网络可以采用DBnet网络。
在一些实施例中,利用卷积神经网络层对文本框进行特征提取得到第一特征图,并利用循环神经网络层对第一特征图进行处理得到第二特征图,利用转录层对第二特征图进行转录,得到待识别图像中的文本,包括:利用卷积神经网络层中的主干网络对文本框执行卷积操作,并将主干网络输出的特征图输入到连续的深度混合卷积块中,利用深度混合卷积块中具有不同卷积核的通道对主干网络输出的特征图进行卷积,并将卷积得到的第一特征图作为循环神经网络层的输入;将循环神经网络层利用第一特征图进行处理得到的第二特征图作为转录层的输入,以使转录层对第二特征图执行转录操作,得到待识别图像中的文本。
具体地,在对密集文本情况下的证书识别过程中,需要保证识别速度,因此本公开构建了一种轻量级识别网络,作为识别阶段的Backbone(特征提取)。下面结合具体实施例对轻量级识别网络的具体结构及处理过程进行详细说明,具体可以包括以下内容:
轻量级识别网络结构主要由三个部分组成,即卷积神经网络层、循环神经网络层和转录层。其中,卷积神经网络层中包含Stem主干网络,主干网络中采用3个3x3的卷积核来代替传统的7x7卷积核,这样在保证了感受野的同时,还减小了网络参数量和计算量。在经过Stem阶段处理之后,将特征图输入到网络中间层,网络中间层包含了四个连续的stage,每个stage由2个深度混合卷积块MixConvblock堆叠而成,深度混合卷积MixConv是在逐层深度可分离卷积和分组卷积上改进的一种卷积方式,深度混合卷积MixConv将输入的特征图按照通道进行分组,然后在每一组上面应用不同尺寸的卷积核,例如可以采用以下三种卷积核:3x3卷积核,5x5卷积核,7x7卷积核,其中5x5卷积核和7x7卷积核是由不同空洞率的3x3卷积核卷积实现,这样可以减小网络参数量,利用深度混合卷积MixConv可以在卷积核内部捕获不同尺度的信息,有利于提取更加丰富的特征。
进一步地,在利用卷积神经网络层处理得到第一特征图之后,将第一特征图输入到循环神经网络层中进行处理得到第二特征图,并最终利用转录层将循环神经网络输出的第二特征图转录为文字,从而得到最终的待识别图像中的文本。
需要说明的是,本公开通过将网络中的激活函数ReLU换成H-Swish,Swish激活函数相比于ReLU,可以显著提升网络精度,但是因为其计算过程中包括指数运算,因此计算效率不高,所以本公开采用H-Swish来代替Swish,其函数公式如下所示;
另外,本公开在网络中引入了SE注意力模块,同时将原始SE模块中的Sigmoid激活函数换为H-Sigmoid,与Swish相似的是,Sigmoid激活函数中同样包含指数运算,因此本公开采用其加速版本H-Sigmoid来代替。SE注意力模块通过对通道进行加权,强调有效信息,抑制无效信息,在带来很小计算代价的同时,显著提升了网络精度。
根据本公开实施例提供的技术方案,本公开提出了一种对商业证书和工程证书中的文本进行识别的算法,其可以用AI模型自动的提取证书中的关键字段,在降本提效的同时,可以避免密集场景下人工造成的误识别现象。另外,针对水印对识别精度影响较大的问题,在进行文本识别之前,先采用水印检测模块得到文本中的水印,然后利用提出的双重去水印算法去除图片中的印章和透明水印,从而避免了水印对识别的影响。最后基于对MobileNet V3的研究结果,构建出一种轻量级识别网络,其采用深度混合卷积在卷积核内部提取多尺度特征,同时更改了网络中的激活函数,使得提取的特征更加丰富,从而提高了识别精度。基于以上这些处理,不仅降低了文本识别的错误率,还提升了文本识别精度和效率,本公开技术方案对带水印图像具有很好的识别结果。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图3是本公开实施例提供的文本识别装置的结构示意图。如图3所示,该文本识别装置包括:
水印检测模块301,被配置为获取待识别图像,利用水印检测网络对待识别图像进行检测,得到水印类型以及水印检测框,并确定与水印类型相匹配的水印去除模型,利用水印去除模型对水印检测框中的水印进行去除,得到无水印图像;
文本检测模块302,被配置为利用文本检测网络对无水印图像执行文本检测操作,得到无水印图像中文本框的位置,基于文本框的位置对文本框进行裁剪,得到文本框;
文本识别模块303,被配置为将文本框作为文本识别网络的输入,利用卷积神经网络层对文本框进行特征提取得到第一特征图,并利用循环神经网络层对第一特征图进行处理得到第二特征图,利用转录层对第二特征图进行转录,得到待识别图像中的文本。
在一些实施例中,图3的水印检测模块301将待识别图像作为水印检测网络的输入,利用水印检测网络对待识别图像进行检测,以便基于水印检测网络中的卷积层判断待识别图像中的水印类型,并生成水印的水印检测框;其中,水印检测网络为采用归一化网络和激活函数的卷积层所组成的神经网络模型,水印类型包括印章和透明水印。
在一些实施例中,图3的水印去除模块304当待识别图像中的水印为印章时,利用预设的印章去除模型,对待识别图像中的印章进行去除;当待识别图像中的水印为透明水印时,利用预设的透明水印去除模型,对待识别图像中的印章进行去除;当待识别图像中的水印为印章和透明水印时,依次利用预设的印章去除模型和透明水印去除模型,对待识别图像中的印章以及透明水印进行去除。
在一些实施例中,图3的水印去除模块304将待识别图像从RGB颜色空间转换至HSV颜色空间,并根据水印检测框中每个像素的色度值,判断印章的颜色,获取与印章的颜色相对应的颜色图层,将颜色图层扩展为三个通道,得到无水印图像。
在一些实施例中,图3的水印去除模块304依次利用透明水印去除模型中的编码器和解码器,对待识别图像执行编码操作和解码操作,其中编码操作用于对待识别图像中的图像特征信息进行编码计算,以去除待识别图像中的水印对应的像素点,得到无水印图像。
在一些实施例中,图3的文本检测模块302利用文本检测网络中的特征提取网络对无水印图像进行处理,得到特征图,对特征图对应的概率值进行预测得到概率图,将概率图与阈值图进行叠加得到新的特征图,新的特征图中包含文本框的位置,将文本框的位置以及置信度评分作为文本检测网络的输出。
在一些实施例中,图3的文本识别模块303利用卷积神经网络层中的主干网络对文本框执行卷积操作,并将主干网络输出的特征图输入到连续的深度混合卷积块中,利用深度混合卷积块中具有不同卷积核的通道对主干网络输出的特征图进行卷积,并将卷积得到的第一特征图作为循环神经网络层的输入;将循环神经网络层利用第一特征图进行处理得到的第二特征图作为转录层的输入,以使转录层对第二特征图执行转录操作,得到待识别图像中的文本。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。
图4是本公开实施例提供的电子设备4的结构示意图。如图4所示,该实施例的电子设备4包括:处理器401、存储器402以及存储在该存储器402中并且可以在处理器401上运行的计算机程序403。处理器401执行计算机程序403时实现上述各个方法实施例中的步骤。或者,处理器401执行计算机程序403时实现上述各装置实施例中各模块/单元的功能。
示例性地,计算机程序403可以被分割成一个或多个模块/单元,一个或多个模块/单元被存储在存储器402中,并由处理器401执行,以完成本公开。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序403在电子设备4中的执行过程。
电子设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备4可以包括但不仅限于处理器401和存储器402。本领域技术人员可以理解,图4仅仅是电子设备4的示例,并不构成对电子设备4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如,电子设备还可以包括输入输出设备、网络接入设备、总线等。
处理器401可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器402可以是电子设备4的内部存储单元,例如,电子设备4的硬盘或内存。存储器402也可以是电子设备4的外部存储设备,例如,电子设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器302还可以既包括电子设备3的内部存储单元也包括外部存储设备。存储器302用于存储计算机程序以及电子设备所需的其它程序和数据。存储器302还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
在本公开所提供的实施例中,应该理解到,所揭露的装置/计算机设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/计算机设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本公开实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围,均应包含在本公开的保护范围之内。
Claims (10)
1.一种文本识别方法,其特征在于,包括:
获取待识别图像,利用水印检测网络对所述待识别图像进行检测,得到水印类型以及水印检测框,并确定与所述水印类型相匹配的水印去除模型,利用所述水印去除模型对所述水印检测框中的水印进行去除,得到无水印图像;
利用文本检测网络对所述无水印图像执行文本检测操作,得到所述无水印图像中文本框的位置,基于所述文本框的位置对所述文本框进行裁剪,得到所述文本框;
将所述文本框作为文本识别网络的输入,利用卷积神经网络层对所述文本框进行特征提取得到第一特征图,并利用循环神经网络层对所述第一特征图进行处理得到第二特征图,利用转录层对所述第二特征图进行转录,得到所述待识别图像中的文本。
2.根据权利要求1所述的方法,其特征在于,所述利用水印检测网络对所述待识别图像进行检测,得到水印类型以及水印检测框,包括:
将所述待识别图像作为所述水印检测网络的输入,利用所述水印检测网络对所述待识别图像进行检测,以便基于所述水印检测网络中的卷积层判断所述待识别图像中的水印类型,并生成所述水印的水印检测框;
其中,所述水印检测网络为采用归一化网络和激活函数的卷积层所组成的神经网络模型,所述水印类型包括印章和透明水印。
3.根据权利要求2所述的方法,其特征在于,所述确定与所述水印类型相匹配的水印去除模型,包括:
当所述待识别图像中的水印为印章时,利用预设的印章去除模型,对所述待识别图像中的印章进行去除;
当所述待识别图像中的水印为透明水印时,利用预设的透明水印去除模型,对所述待识别图像中的印章进行去除;
当所述待识别图像中的水印为印章和透明水印时,依次利用预设的印章去除模型和透明水印去除模型,对所述待识别图像中的印章以及透明水印进行去除。
4.根据权利要求3所述的方法,其特征在于,所述利用预设的印章去除模型,对所述待识别图像中的印章进行去除,包括:
将所述待识别图像从RGB颜色空间转换至HSV颜色空间,并根据所述水印检测框中每个像素的色度值,判断所述印章的颜色,获取与所述印章的颜色相对应的颜色图层,将所述颜色图层扩展为三个通道,得到无水印图像。
5.根据权利要求3所述的方法,其特征在于,所述利用预设的透明水印去除模型,对所述待识别图像中的印章进行去除,包括:
依次利用所述透明水印去除模型中的编码器和解码器,对所述待识别图像执行编码操作和解码操作,其中所述编码操作用于对所述待识别图像中的图像特征信息进行编码计算,以去除所述待识别图像中的所述水印对应的像素点,得到无水印图像。
6.根据权利要求1所述的方法,其特征在于,所述利用文本检测网络对所述无水印图像执行文本检测操作,得到所述无水印图像中文本框的位置,包括:
利用所述文本检测网络中的特征提取网络对所述无水印图像进行处理,得到特征图,对所述特征图对应的概率值进行预测得到概率图,将所述概率图与阈值图进行叠加得到新的特征图,所述新的特征图中包含所述文本框的位置,将所述文本框的位置以及置信度评分作为文本检测网络的输出。
7.根据权利要求1所述的方法,其特征在于,所述利用卷积神经网络层对所述文本框进行特征提取得到第一特征图,并利用循环神经网络层对所述第一特征图进行处理得到第二特征图,利用转录层对所述第二特征图进行转录,得到所述待识别图像中的文本,包括:
利用所述卷积神经网络层中的主干网络对所述文本框执行卷积操作,并将主干网络输出的特征图输入到连续的深度混合卷积块中,利用所述深度混合卷积块中具有不同卷积核的通道对所述主干网络输出的特征图进行卷积,并将卷积得到的所述第一特征图作为循环神经网络层的输入;
将所述循环神经网络层利用所述第一特征图进行处理得到的所述第二特征图作为所述转录层的输入,以使所述转录层对所述第二特征图执行转录操作,得到所述待识别图像中的文本。
8.一种文本识别装置,其特征在于,包括:
水印检测模块,被配置为获取待识别图像,利用水印检测网络对所述待识别图像进行检测,得到水印类型以及水印检测框,并确定与所述水印类型相匹配的水印去除模型,利用所述水印去除模型对所述水印检测框中的水印进行去除,得到无水印图像;
文本检测模块,被配置为利用文本检测网络对所述无水印图像执行文本检测操作,得到所述无水印图像中文本框的位置,基于所述文本框的位置对所述文本框进行裁剪,得到所述文本框;
文本识别模块,被配置为将所述文本框作为文本识别网络的输入,利用卷积神经网络层对所述文本框进行特征提取得到第一特征图,并利用循环神经网络层对所述第一特征图进行处理得到第二特征图,利用转录层对所述第二特征图进行转录,得到所述待识别图像中的文本。
9.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111485442.6A CN114581646A (zh) | 2021-12-07 | 2021-12-07 | 文本识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111485442.6A CN114581646A (zh) | 2021-12-07 | 2021-12-07 | 文本识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114581646A true CN114581646A (zh) | 2022-06-03 |
Family
ID=81769309
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111485442.6A Pending CN114581646A (zh) | 2021-12-07 | 2021-12-07 | 文本识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114581646A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114708138A (zh) * | 2022-06-06 | 2022-07-05 | 天津联想协同科技有限公司 | 网盘图像水印添加方法、装置、网盘及存储介质 |
CN116092087A (zh) * | 2023-04-10 | 2023-05-09 | 上海蜜度信息技术有限公司 | Ocr识别方法、系统、存储介质及电子设备 |
CN117095411A (zh) * | 2023-10-16 | 2023-11-21 | 青岛文达通科技股份有限公司 | 一种基于图像故障识别的检测方法及系统 |
-
2021
- 2021-12-07 CN CN202111485442.6A patent/CN114581646A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114708138A (zh) * | 2022-06-06 | 2022-07-05 | 天津联想协同科技有限公司 | 网盘图像水印添加方法、装置、网盘及存储介质 |
CN116092087A (zh) * | 2023-04-10 | 2023-05-09 | 上海蜜度信息技术有限公司 | Ocr识别方法、系统、存储介质及电子设备 |
CN116092087B (zh) * | 2023-04-10 | 2023-08-08 | 上海蜜度信息技术有限公司 | Ocr识别方法、系统、存储介质及电子设备 |
CN117095411A (zh) * | 2023-10-16 | 2023-11-21 | 青岛文达通科技股份有限公司 | 一种基于图像故障识别的检测方法及系统 |
CN117095411B (zh) * | 2023-10-16 | 2024-01-23 | 青岛文达通科技股份有限公司 | 一种基于图像故障识别的检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111160352B (zh) | 一种基于图像分割的工件金属表面文字识别方法及系统 | |
CN114581646A (zh) | 文本识别方法、装置、电子设备及存储介质 | |
CN113283446B (zh) | 图像中目标物识别方法、装置、电子设备及存储介质 | |
TW201732651A (zh) | 一種單詞的分割方法和裝置 | |
CN111860398B (zh) | 遥感图像目标检测方法、系统及终端设备 | |
CN110334709B (zh) | 基于端到端多任务深度学习的车牌检测方法 | |
CN112651953B (zh) | 图片相似度计算方法、装置、计算机设备及存储介质 | |
CN111680690A (zh) | 一种文字识别方法及装置 | |
CN112883926B (zh) | 表格类医疗影像的识别方法及装置 | |
CN110852327A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN114926734B (zh) | 基于特征聚合和注意融合的固体废弃物检测装置及方法 | |
CN115410081A (zh) | 一种多尺度聚合的云和云阴影辨识方法、系统、设备及存储介质 | |
CN116740528A (zh) | 一种基于阴影特征的侧扫声呐图像目标检测方法及系统 | |
CN116189162A (zh) | 一种船牌检测与识别方法、装置、电子设备和储存介质 | |
CN104463091B (zh) | 一种基于图像lgbp特征子向量的人脸图像识别方法 | |
CN117727046A (zh) | 新型山洪前端仪器仪表读数自动识别方法及系统 | |
WO2024174726A1 (zh) | 基于深度学习的手写及打印文本检测方法和装置 | |
CN111414823B (zh) | 人体特征点的检测方法、装置、电子设备以及存储介质 | |
CN116071625B (zh) | 深度学习模型的训练方法、目标检测方法及装置 | |
CN117197543A (zh) | 基于GMD图像化与改进ResNeXt的网络异常检测方法及装置 | |
CN112434581A (zh) | 一种室外目标颜色识别方法、系统、电子设备及存储介质 | |
CN115439850B (zh) | 基于审单的图文字符识别方法、装置、设备及存储介质 | |
CN117011168A (zh) | 一种联合DeeplabV3+和LaMa模型的透明光滑物体高光去除方法及系统 | |
CN112396638A (zh) | 一种图像处理方法、终端和计算机可读存储介质 | |
CN115345895A (zh) | 用于视觉检测的图像分割方法、装置、计算机设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20221230 Address after: 518054 cable information transmission building 25f2504, no.3369 Binhai Avenue, Haizhu community, Yuehai street, Nanshan District, Shenzhen City, Guangdong Province Applicant after: Shenzhen Xumi yuntu Space Technology Co.,Ltd. Address before: No.103, no.1003, Nanxin Road, Nanshan community, Nanshan street, Nanshan District, Shenzhen City, Guangdong Province Applicant before: Shenzhen Jizhi Digital Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right |