CN114359905B - 一种文本识别方法、装置、电子设备及存储介质 - Google Patents

一种文本识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114359905B
CN114359905B CN202210013631.1A CN202210013631A CN114359905B CN 114359905 B CN114359905 B CN 114359905B CN 202210013631 A CN202210013631 A CN 202210013631A CN 114359905 B CN114359905 B CN 114359905B
Authority
CN
China
Prior art keywords
dimension
feature
feature map
dimensional
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210013631.1A
Other languages
English (en)
Other versions
CN114359905A (zh
Inventor
吕鹏原
范森
王晓燕
庾悦晨
章成全
姚锟
韩钧宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202210013631.1A priority Critical patent/CN114359905B/zh
Publication of CN114359905A publication Critical patent/CN114359905A/zh
Priority to JP2022140728A priority patent/JP7418517B2/ja
Priority to US17/946,464 priority patent/US20230010031A1/en
Priority to KR1020220147012A priority patent/KR20220155948A/ko
Application granted granted Critical
Publication of CN114359905B publication Critical patent/CN114359905B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19093Proximity measures, i.e. similarity or distance measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19127Extracting features by transforming the feature space, e.g. multidimensional scaling; Mappings, e.g. subspace methods

Abstract

本公开提供了一种文本识别方法、装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及深度学习、计算机视觉技术领域。具体实现方案为:获得待识别图像的多维第一特征图;基于第一特征图中的各个特征值,对第一特征图中的每一特征值进行特征增强处理;基于增强处理后的第一特征图,对待识别图像进行文本识别。应用本公开实施例提供的文本识别方案,能够实现文本识别。

Description

一种文本识别方法、装置、电子设备及存储介质
技术领域
本公开涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域。
背景技术
在教育、医疗、金融等诸多领域涉及到的图像中存在文本,为了准确的基于上述图像进行信息处理,需要对上述图像进行文本识别,然后基于文本识别结果进行信息处理。
发明内容
本公开提供了一种文本识别方法、装置、设备以及存储介质。
根据本公开的一方面,提供了一种文本识别方法,包括:
获得待识别图像的多维第一特征图;
基于所述第一特征图中的各个特征值,对所述第一特征图中的每一特征值进行特征增强处理;
基于增强处理后的第一特征图,对所述待识别图像进行文本识别。
根据本公开的另一方面,提供了一种文本识别装置,包括:
特征获得模块,用于获得待识别图像的多维第一特征图;
特征增强模块,用于基于所述第一特征图中的各个特征值,对所述第一特征图中的每一特征值进行特征增强处理;
文本识别模块,用于基于增强处理后的第一特征图,对所述待识别图像进行文本识别。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述文本识别方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述文本识别方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述文本识别方法。
由以上可见,应用本公开实施例提供的方案进行文本识别时,首先获得待识别图像的多维第一特征图,然后基于第一特征图中的各个特征值,对第一特征图中的每一特征值进行特征增强处理,基于增强处理后的第一特征图进行文本识别,从而能够实现对待识别图像进行文本识别。
另外,在对第一特征图中的每一特征值进行特征增强处理时,是基于第一特征图中各个特征值,对每一特征值进行处理,这样增强处理后的第一特征图中每一特征值均考虑了图像的全局信息,因此,增强处理后的第一特征图能够表征上述待识别图像的全局信息,从而基于增强处理后的第一特征图对待识别图像进行文本识别,能够提高文本识别的准确性。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1为本公开实施例提供的第一种文本识别方法的流程示意图;
图2为本公开实施例提供的第二种文本识别方法的流程示意图;
图3为本公开实施例提供的第三种文本识别方法的流程示意图;
图4为本公开实施例提供的第四种文本识别方法的流程示意图;
图5为本公开实施例提供的第五种文本识别方法的流程示意图;
图6为本公开实施例提供的第一种文本识别装置的结构示意图;
图7为本公开实施例提供的第二种文本识别装置的结构示意图;
图8为本公开实施例提供的第三种文本识别装置的结构示意图;
图9为本公开实施例提供的第四种文本识别装置的结构示意图;
图10为本公开实施例提供的第五种文本识别装置的结构示意图;
图11是用来实现本公开实施例的文本识别方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
参见图1,图1为本公开实施例提供的第一种文本识别方法的流程示意图,上述方法包括以下步骤S101-S103。
步骤S101:获得待识别图像的多维第一特征图。
上述第一特征图为包含待识别图像的多个维度的特征值的图像。第一特征图的维度依据具体场景而定。例如,上述第一特征图可以是三维的特征图,这种情况下,三个维度可以分别是宽度维度、高度维度和深度维度,其中,深度维度的维度值可以由待识别图像的通道数决定。如,假设待识别图像为RGB格式的图像,则待识别图像具有三个通道,分别为R通道、G通道和B通道,待识别图像在深度维度的维度值分别为1、2、3。
具体的,可以通过以下两种不同的方式获得第一特征图。
一种实现方式中,可以首先获得待识别图像,对待识别图像进行特征提取,得到上述第一特征图。
另一种实现方式中,可以首先通过其他具有特征提取功能的设备对待识别图像进行特征提取,然后获得上述设备对待识别图像进行特征提取得到的特征图作为第一特征图。
对待识别图像进行特征提取可以基于现有技术中的特征提取网络模型或者特征提取算法实现。例如,上述特征提取网络模型可以是卷积神经网络模型,如,可以是卷积神经网络中的vgg网络模型、renset网络模型、mobilenet网络模型等,上述特征提取模型还可以是FPN(Feature Pyramid Networks,特征金字塔网络)、PAN(Pixel AggregationNetwork,像素聚合网络)等网络模型,上述特征提取算法可以是deformconv,se,dilationconv,inception等算子。
步骤S102:基于第一特征图中的各个特征值,对第一特征图中的每一特征值进行特征增强处理。
图像特征在图像中存在感受野,上述感受野可以理解为图像特征的来源,上述感受野可以是图像中的部分区域,图像特征对该部分区域具有表征性,不同图像特征的感受野可能不同,当图像特征的感受野发生变化时,该图像特征也会发生变化。上述对第一特征图中每一特征值进行特征增强处理,能够扩大第一特征图中各特征值的感受野,从而提高第一特征图对上述待识别图像的表征性。
由于对第一特征图中的每一特征值进行特征增强处理时,均会考虑第一特征图中的各个特征值,因此,可以认为上述特征增强处理是基于全局注意力机制实现的特征增强处理。
对第一特征图中的每一特征值进行特征增强处理的具体实现方式可参见后续图2所示实施例中步骤S202-S205以及图5所示实施例中步骤S502-S504,这里暂不详述。
步骤S103:基于增强处理后的第一特征图,对待识别图像进行文本识别。
一种实现方式中,在得到增强处理后的第一特征图后,可以基于该特征图预测待识别图像中的文本框,然后对文本框中的内容进行文本识别,得到待识别图像中包含的文本。
具体的,可以通过现有的各种解码技术实现文本识别,这里不再详述。
由以上可见,应用本公开实施例提供的方案进行文本识别时,首先获得待识别图像的多维第一特征图,然后基于第一特征图中的各个特征值,对第一特征图中的每一特征值进行特征增强处理,基于增强处理后的第一特征图进行文本识别,从而能够实现对待识别图像进行文本识别。
另外,在对第一特征图中的每一特征值进行特征增强处理时,是基于第一特征图中各个特征值,对每一特征值进行处理,这样增强处理后的第一特征图中每一特征值均考虑了图像的全局信息,因此,增强处理后的第一特征图能够表征上述待识别图像的全局信息,从而基于增强处理后的第一特征图对待识别图像进行文本识别,能够提高文本识别的准确性。
下面对上述实施例中第一维度、第二维度和第三维度的具体呈现形态进行说明。
本公开的一个实施例中,上述第一维度为深度维度,上述第二维度为宽度维度,上述第三维度为高度维度。
在对待识别图像进行特征提取时可能存在以下两种情况。
一种情况下,当上述待识别图像为RGB等格式的多通道图像时,对待识别图像进行特征提取需要对每一通道的图像分别进行特征提取,这样得到的特征图为由多张二维特征图形成的三维特征图,这种情况下,上述深度维度与图像的通道相对应,深度维度的最大维度值为图像的通道数。
另一种情况下,为了获得表征性较强的特征图,通常需要对待识别图像进行多次特征提取,每一次特征提取可以获得一张二维特征图,多次特征提取则可以获得多张二维特征图,该多张二维特征图可以形成三维特征图,这种情况下,上述深度维度与图像特征提取的次数相对应,深度维度的最大维度值为图像特征提取的次数。
基于上述两种情况,在第一维度为深度维度,第二维度为宽度维度,第三维度为高度维度的情况下,第一特征图中第一维度的一个维度值下第二维度和第三维度对应的特征值可以按照高度维度和宽度维度形成二维特征图,这样对第二维度和第三维度对应的特征值进行重构相当于对二维特征图中的特征值进行重构,针对单个二维特征图的特征值进行重构能够避免其他二维特征图造成的干扰,从而有利于获得上述一维特征数据。
下面对上述步骤S102中对第一特征图中每一特征值进行特征增强处理进行说明。
本公开的一个实施例中,参见图2,提供了第二种文本识别方法的流程示意图,本实施例中,上述第一特征图为三维特征图,上述文本识别方法包括以下步骤S201-S206。
步骤S201:获得待识别图像的多维第一特征图。
上述步骤S201与前述步骤S101相同,这里不再赘述。
步骤S202:针对三个维度中第一维度的每一维度值,对第一特征图中该维度值下第二维度和第三维度对应的特征值进行重构,得到该维度值对应的一维特征数据。
一种实现方式中,上述第一特征图的三个维度可以是深度维度、宽度维度、高度维度。
例如,上述第一特征图可以表示为C*H*W的特征图,其中,C表示第一特征图的深度维度,该维度的维度值可以是1至待识别图像的通道数,H表示第一特征图的高度维度,该维度的维度值可以是1至第一特征图的列最大像素数,W表示第一特征图的宽度维度,该维度的维度值可以是1至第一特征图的行最大像素数。
以第一特征图的高度维度H为例,若第一特征图的列最大像素数为20,则第一特征图的高度维度的维度值可以是1、2、3、4……18、19、20。
上述第一特征图中每一特征值在上述三个维度下均具有各自对应的维度值。
例如,一个特征值在三个维度下的坐标是(c1、h1、w1),表示该特征值在第一特征图的深度维度上的维度值为c1,在高度维度上的维度值为h1,在宽度维度上的维度值为w1。
针对第一维度的每一维度值,为便于表述将该维度值记为V,该维度值V下第二维度和第三维度对应的特征值,表示上述第一特征图包含的各个特征值中在第一维度上的维度值为上述维度值V的各个特征值。
具体的,在第一维度的一个维度值下,第二维度和第三维度对应的特征值属于二维数据,这些二维数据形成一张二维特征图,所以,针对第一维度的每一维度值,该维度值下第二维度和第三维度对应的特征值可以理解为:该维度值下的二维特征图中包含的特征值。基于此,对上述所对应的特征值进行重构得到一维特征数据可以理解为:对上述二维特征图进行维度变换,得到一维特征数据,上述一维特征数据中包含二维特征图中的各个特征值。
例如,可以将二维特征图中的特征值按照行首尾相接变换为一维特征数据,当然也可以将二维特征图中的特征值按照列首尾相接变换为一维特征数据,本公开实施例并不对此进行限定。
步骤S203:获得包含第一维度的各维度值对应的一维特征数据的二维第二特征图。
上述第二特征图为二维图像,具有两个维度,其中一个维度与第一维度相对应,其维度值与第一维度的维度值相同,为便于表述可以称为维度X;另一个维度与第二维度和第三维度相对应,其维度值为1-合并维度值,合并维度值等于第二维度的最大维度值与第三维度的最大维度值的乘积,为便于表述可以将该维度称为维度Y。
例如,上述维度X可以对应于第二特征图中像素行维度,维度Y可以对应于第二特征图中像素列维度,这样当X的取值固定时,像素行固定,该像素行中包括维度Y上各个Y的取值对应特征值,也就是,每一像素行对应第一维度的一个维度值,该像素行中各像素值分别为该像素行所对应维度值对应的一维特征数据中的特征值。
鉴于上述情况,本公开的一个实施例中,可以按照第一维度的各维度值的排列顺序,对第一维度的各维度值对应的一维特征数据进行排列,形成包含各一维特征数据的二维特征数据,作为二维第二特征图。
具体的,对一维特征数据进行排列时,可以以一维特征数据为行进行排列,也可以以一维特征数据为列进行排列。
例如,若第一维度的维度值1对应一维特征数据[m11,m12……m1n],第一维度的维度值2对应一维特征数据[m21,m22……m2n],第一维度的维度值3对应一维特征数据[m31,m32……m3n],则以一维特征数据为行,按照第一维度的各维度值从小到大的排列顺序,得到第二特征图包括的数据如下所示:
Figure BDA0003458849300000071
从上述第二特征图中可以看出,维度X的维度值1对应一维特征数据[m11,m12……m1n],维度X的维度值2对应一维特征数据[m21,m22……m2n],维度X的维度值3对应一维特征数据[m31,m32……m3n]。
步骤S204:对第二特征图中每一维度上的各一维特征数据包括的特征值进行归一化处理,得到第三特征图。
由于第二特征图是二维图像,所以,从一个维度来看,可以认为第二特征图包含多个一维特征数据。鉴于此,在不同维度上,第二特征图中的一维特征数据可以被划分为两类特征数据:
第一类特征数据是第二特征图在维度X上各维度值对应的一维特征数据,这种情况下,每个一维特征数据中包括该维度值下维度Y的各个维度值对应的特征值,所包括特征值的数量等于维度Y的维度值数量;
第二类特征数据是第二特征图在维度Y上各维度值对应的一维特征数据,这种情况下,每个一维特征数据中包括该维度值下维度X的各个维度值对应的特征值,所包括特征值的数量等于维度X的维度值数量。
由以上可以看出,第二特征图中每一一维特征数据中均包含多个特征值,在进行归一化处理时,以各一维特征数据为单位,对各一维特征数据中的各个特征值进行归一化处理。
下面针对归一化处理进行说明。
本公开的一个实施例中,第二特征图是二维图像,包含维度X和维度Y两个维度,这样进行归一化处理时,可以先对上述两个维度中一个维度对应的各一维特征数据包含的特征值进行归一化处理,在所得归一化处理结果的基础上,再对另一维度对应的各一维特征数据包含的特征值进行归一化处理,得到第三特征图。
一种实现方式中,可以先对维度X对应的各一维特征数据包含的特征值进行归一化处理,在所得归一化处理结果的基础上,再对维度Y对应的各一维特征数据包含的特征值进行归一化处理。也就是,先对各第一类特征数据进行归一化处理,然后在所得处理结果的基础上,再对各第二类特征数据进行归一化处理。
另一种实现方式中,可以先对维度Y对应的各一维特征数据包含的特征值进行归一化处理,在所得归一化处理结果的基础上,再对维度X对应的各一维特征数据包含的特征值进行归一化处理。也就是,先对各第二类特征数据进行归一化处理,然后在所得处理结果的基础上,再对各第一类特征数据进行归一化处理。
实现归一化处理的具体实施方式可参见后续图3所示实施例中步骤S304-S305,这里暂不详述。
由于归一化处理只是改变特征值的取值,并不会改变图像的大小,所以,归一化处理后得到的第三特征图与上述第二特征图的维度相同,尺寸也相同。若第二特征图为C*(H*W)的特征图,则第三特征图同样为C*(H*W)的特征图。
步骤S205:基于第三特征图,对第一特征图中的每一特征值进行特征增强处理。
第三特征图是二维图像,第一特征图是三维图像。例如,第三特征图可以表示为C*(H*W)的二维图像,第一特征图可以表示为C*H*W的三维图像。这样对于第三特征图而言,其两个维度分别对应于C和H*W,对于第一特征图而言,其三个维度分别对应于C、H和W,因此,可以首先将这两个特征图的维度进行统一,然后在第一特征图和第三特征图维度统一的基础上对第一特征图中的每一特征值进行特征增强处理。
统一第一特征图和第三特征图的维度,并对第一特征图中的每一特征值进行特征增强处理的具体实施方式,可参见后续图4所示实施例中步骤S405-S406的描述,这里暂不详述。
步骤S206:基于增强处理后的第一特征图,对待识别图像进行文本识别。
上述步骤S206与前述步骤S103相同,这里不再赘述。
由以上可见,应用本公开实施例提供的方案进行文本识别时,由于对一维特征数据包括的特征值进行归一化处理需要利用该一维特征数据包括的所有特征值实现,因此,归一化处理后的一维特征数据中每一特征值受到了该一维特征数据中所有特征值的影响。在此基础上对第二特征图中每一维度上的各一维特征数据包括的特征值均进行归一化处理,使得第三特征图中的每一特征值均受到了第一特征图中所有特征值的影响,因此,第三特征图能够从全局特征的角度表征待识别图像。这样基于第三特征图,对第一特征图中每一特征值进行特征增强处理后,能够获得感受野为整个待识别图像的特征图,增大了用于进行文本识别的特征图的感受野,因此,能够提高对待识别图像进行文本识别的准确性。
下面对上述步骤S204中对第二特征图中每一维度上的各一维特征数据包括的特征值进行归一化处理得到第三特征图进行说明。
本公开的一个实施例中,参见图3,提供了第三种文本识别方法的流程示意图,本实施例中,上述文本识别方法包括以下步骤S301-S307。
步骤S301:获得待识别图像的多维第一特征图。
步骤S302:针对三个维度中第一维度的每一维度值,对第一特征图中该维度值下第二维度和第三维度对应的特征值进行重构,得到该维度值对应的一维特征数据。
步骤S303:获得包含第一维度的各维度值对应的一维特征数据的二维第二特征图。
上述步骤S301与前述步骤S101相同,上述步骤S302-S303与前述步骤S202-S203分别相同,这里不再赘述。
步骤S304:对第二特征图中各第一特征数据包括的特征值进行归一化处理。
其中,第一特征数据为:第一维度的各维度值对应的一维特征数据。
由前面的描述可以得知,上述第二特征图具有维度X和纬度Y这两个维度,维度X与第一维度相对应,维度Y与第二维度和第三维度相对应。鉴于此,上述第一特征数据为:第二特征图在维度X上各维度值对应的一维特征数据,也就是,前面步骤S204处提及的第一类特征数据。
在对各第一特征数据包括的特征值进行归一化处理时,以第一特征数据为单位进行归一化处理。这样对于一个第一特征数据而言,使用该第一特征数据中包括的特征值,对该第一特征数据包括的各个特征值进行归一化处理。
本公开的一个实施例中,可以通过softmax算法实现对第一特征数据包括的特征值进行归一化处理。本公开的另一个实施例中,还可以通过L1Normalize算法、L2Normalize算法等归一化算法实现归一化处理,这里不再详述。
步骤S305:对归一化处理后的第二特征图中各第二特征数据包括的特征值进行归一化处理。
其中,第二特征数据为:合并维度的各维度值对应的一维特征数据,合并维度为:第二特征图中与第二维度以及第三维度相对应的维度。结合前面的描述可以得知,上述合并维度即为上述维度Y,这样上述第二特征数据为第二特征图在维度Y上各维度值对应的一维特征数据,也就是,前面步骤S204处提及的第二类特征数据。
在对各第二特征数据包括的特征值进行归一化处理时,以第二特征数据为单位进行归一化处理。这样对于一个第二特征数据而言,使用该第二特征数据中包括的特征值,对该第二特征数据包括的各个特征值进行归一化处理。
对第二特征数据包括的特征值进行归一化处理同样可以基于softmax算法、L1Normalize算法、L2Normalize算法等归一化算法实现。
步骤S306:基于第三特征图,对第一特征图中的每一特征值进行特征增强处理。
步骤S307:基于增强处理后的第一特征图,对待识别图像进行文本识别。
上述步骤S306与前述步骤S205相同,上述步骤S307与前述步骤S103相同,这里不再赘述。
由以上可见,本公开实施例提供的方案中,对各一维特征数据包括的特征值进行归一化处理得到第三特征图时,首先对与第一维度的各维度值相对应的第一特征数据进行归一化处理,再在归一化处理的基础上,对与合并维度的各维度值相对应的第二特征数据进行归一化处理。由于第一特征数据中包括的特征值的数量与合并维度的维度值数量相等,合并维度的维度值数量又往往大于第一维度的维度值数量,所以,先对第一特征数据进行归一化处理能够为后续进行归一化处理提供更加丰富的参考数据,有利于提高所获得第三特征图的准确性。
本公开的另一个实施例中,与上述图3所示的实施例相类似,在执行完上述步骤S303之后,可以首先执行上述步骤S305对各第二特征数据包括的特征值进行归一化处理,然后在归一化结果的基础上执行上述步骤S304对各第一特征数据包括的特征值进行归一化处理。
下面对上述步骤S205对第一特征图中的每一特征值进行特征增强处理进行说明。
本公开的一个实施例中,参见图4,提供了第四种文本识别方法的流程示意图,本实施例中,上述文本识别方法包括以下步骤S401-S407。
步骤S401:获得待识别图像的多维第一特征图。
步骤S402:针对三个维度中第一维度的每一维度值,对第一特征图中该维度值下第二维度和第三维度对应的特征值进行重构,得到该维度值对应的一维特征数据。
步骤S403:获得包含第一维度的各维度值对应的一维特征数据的二维第二特征图。
步骤S404:对第二特征图中每一维度上的各一维特征数据包括的特征值进行归一化处理,得到第三特征图。
上述步骤S401与前述步骤S101相同,上述步骤S402-S404与前述步骤S202-S204相同,这里不再赘述。
步骤S405:对第一待处理图进行维度变换,得到与第二待处理图维度相同的第三待处理图。
其中,第一待处理图为:第三特征图或第一特征图,第二待处理图为:第三特征图和第一特征图中除第一待处理图外的图像。
本公开的一个实施例中,上述第一待处理图为第三特征图,上述第二待处理图为第一特征图。
由于上述第三特征图为二维图像,上述第一特征图为三维图像,因此,可以将二维的第三特征图变换为三维的特征图,变换后得到的三维的特征图作为上述第三待处理图。
将第三特征图变换为三维的特征图的具体实现方式,在后续实施例中说明,这里暂不详述。
本公开的另一个实施例中,上述第一待处理图为第一特征图,上述第二待处理图为第三特征图。
这种情况下,可以将三维的第一特征图变换为二维的特征图,变换后得到的二维的特征图作为上述第三待处理图。
将三维的第一特征图变换为二维的特征图可以通过执行上述步骤S202-S203实现,因此,可以直接将上述二维的第二特征图作为上述第三待处理图。
步骤S406:对第二待处理图和第三待处理图中相同位置的特征值进行加和运算,得到运算后图像,作为增强处理后的第一特征图。
由于第二待处理图的维度与第三待处理图的维度相同,并且第二待处理图的尺寸可以与第三待处理图的尺寸相同,因此,可以在第二待处理图和第三待处理图中确定多组同一位置的两个特征值,将每一组中的两个特征值相加,可以得到运算后图像。
下面结合第一待处理图和第二待处理图的具体情况分别进行说明。
情况一,在上述第一待处理图为第三特征图,上述第二待处理图为第一特征图的情况下,上述第三待处理图为三维图像,对第二待处理图和第三待处理图中相同位置的特征值进行加和运算,可以得到三维的运算后图像,作为增强处理后的第一特征图。
情况二,在上述第一待处理图为第一特征图,上述第二待处理图为第三特征图的情况下,上述第三待处理图为二维图像,对第二待处理图和第三待处理图中相同位置的特征值进行加和运算,可以得到二维的运算后图像,作为增强处理后的第一特征图。
步骤S407:基于增强处理后的第一特征图,对待识别图像进行文本识别。
上述步骤S407与前述步骤S103相同,这里不再赘述。
由以上可见,应用本公开实施例提供的方案进行文本识别时,通过对第一特征图和第三特征图中的一个特征图进行维度变换,得到维度相同的两个特征图,再将这两个特征图中相同位置的特征值进行加和运算,将运算后的图像作为增强处理后的第一特征图。由于第三特征图包含了全局图像信息,因此,将上述两个维度相同的特征图中相同位置的特征值进行加和运算,能够准确的实现对第一特征图进行特征增强处理,进而实现文本识别。
下面对上述图4所示实施例中步骤S405处,将第三特征图变换为三维的特征图的实现过程进行说明。
本公开的一个实施例中,可以通过以下步骤一和步骤二将二维的第三特征图变换为三维的特征图。
步骤一:按照第二维度和第三维度的维度值,对第三特征图中与第一维度的各维度值对应的一维特征数据进行重构,得到第一维度的各维度值对应的二维特征图。
从上述图2所示实施例的步骤S202的描述中可以得知,第一特征图中第一维度的每一维度值下第二维度和第三维度对应的特征值可以看做为一个二维特征图包含的特征值,对上述特征值进行重构得到一维特征数据可以理解为对上述二维特征图进行维度变换,得到一维特征数据,因此,上述步骤S202可以看做是将二维特征图变换为一维特征数据的步骤。本步骤中恰恰与上述过程相反,是希望将一维特征数据重构为二维特征图,因此,本步骤可以看做是上述步骤S202的逆过程。
具体的,由于要重构出的二维特征图是一个二维图像,所以,可以按照第二维度的最大维度值和第三维度的最大维度值,确定二维特征图在列方向的像素点个数和在行方向的像素点个数,分别记为第一个数和第二个数,然后基于上述第一个数和第二个数对一维特征数据进行拆分,从而重构出二维特征图。
一种实现方式中,对一维特征数据进行拆分时,可以从一维特征数据中依次读取第二个数个特征值,作为待构建的二维特征图中一行像素点的像素值,重复上述过程直至读取第一个数次。
例如,若上述一维特征数据中包含600个特征值,第二维度的最大维度值为20,第三维度的最大维度值为30,则上述第一个数可以为20,第二个数可以为30,待构建的二维特征图为20x30的特征图。这样在构建二维特征图过程中,可以每次从一维特征数据中读取30个特征值作为二维特征图中一行像素点的像素值,重复20次,完成二维特征图构建。
步骤二:获得包含第一维度的各维度值对应的二维特征图的三维图像,作为第三待处理图。
具体的,在三维图像中,各个二维特征图可以按照第一维度的各维度值排列。例如,按照维度值由小到大的顺序排列。
由以上可见,本实施例提供的方案中,在构建三维图像时,首先基于两个维度构建出二维图像,再依据第三个维度整合所构建的图像得到三维图像,这样在构建三维图像过程中充分考虑三个维度的信息,提高了所构建三维图像的准确度。
本公开的一个实施例中,在执行上述步骤S205基于第三特征图,对第一特征图中的每一特征值进行特征增强处理之前,还可以对第一特征图进行非线性变换。
由于非线性变换能够增大数据之间的差异程度,对第一特征图进行非线性变换,能够增大第一特征图中表征性较强的特征值和表征性较弱的特征值之间的差异,又由于表征性较强的特征值对后续特征增强处理的影响较大,因此,对第一特征图进行非线性变换,增大特征值之间的差异程度,这样在后续特征增强处理过程中能够准确确定出表征性较强的特征值,从而有利于对第一特征图中的每一特征值进行特征增强处理,提高文本识别的准确性。
具体的,对第一特征图进行非线性变换可以通过现有的非线性变换技术实现,这里不再详述。
同理,在执行上述步骤S205基于第三特征图,对第一特征图中的每一特征值进行特征增强处理之前,还可以对第三特征图进行非线性变换。
由以上可见,应用本公开实施例提供的方案进行文本识别时,对第一特征图进行非线性变换,能够增大第一特征图中特征值之间的差异程度,对第三特征图进行非线性变换,能够增大第三特征图中特征值之间的差异程度,通过对第一特征图和/或第三特征图进行非线性变换,有利于后续特征增强处理过程中确定出表征性较强的特征值,从而有利于特征增强处理,提高文本识别的准确性。
另外,在执行上述步骤S205之前,可以对第一特征图和第三特征图均进行非线性变换,也可以对第一特征图和第三特征图中一个特征图进行非线性变换,这样能够根据实际需求判断是否需要对第一特征图和第三特征图进行非线性变换,提高本公开实施例提供的文本识别方案的灵活度。
本公开的一个实施例中,在执行上述步骤S101获得待识别图像的多维第一特征图之后,还可以对第一特征图进行非线性变换,然后再执行上述步骤S102。
与上述对第一特征图进行非线性变换的公开实施例相类似,对第一特征图进行非线性变换有利于后续对第一特征图中的每一特征值进行特征增强处理,提高文本识别的准确性。
另外,在进行文本识别的过程中,上述实施例中提及的三次非线性变换可以全部应用在本公开实施例提供的文本识别方案中,也可以应用三次非线性变换中的中一次或两次,还可以三次非线性变换均不使用。
在执行上述步骤S102对第一特征图中的每一特征值进行特征增强处理时,除了应用上述实施例中提及的实现方式之外,还可以通过以下实施例中步骤S502-S504实现特征增强处理。
本公开的一个实施例中,参见图5,提供了第五种文本识别方法的流程示意图,本实施例中,第一特征图为三维特征图,上述文本识别方法包括以下步骤S501-S505。
步骤S501:获得待识别图像的多维第一特征图。
上述步骤S501与前述步骤S101相同,这里不再赘述。
步骤S502:计算第一特征图中各第三特征数据之间的相似度。
其中,第三特征数据包括:三个维度中第二维度和第三维度的各维度值组合在第一维度对应的特征值。
由第二维度的一个维度值和第三维度的一个维度值可以组成一个维度值组合,这样由第二维度的各个维度值和第三维度各个维度值可以组成多个维度值组合。
对于每个维度值组合而言,在第二维度和第三维度上的维度值是已经确定的,该维度值组合可以与第一维度的每一维度值相结合,确定出第一特征图中与结合后信息相对应的特征值。鉴于上述情况,每一第三特征数据中包括多个特征值,所包括特征值的数量与第一维度的最大维度值相等。
一种实现方式中,在计算上述相似度时,可以将第三特征数据转换为预设向量空间中的特征向量,通过计算各个特征向量之间的相似度,从而得到与特征向量相对应的第三特征数据之间的相似度。
步骤S503:基于计算得到的所有相似度,对计算得到的每一相似度进行归一化处理。
对相似度进行归一化处理可以通过softmax算法、L1Normalize算法、L2Normalize算法等归一化算法实现。
步骤S504:基于归一化处理后的相似度,对第一特征图中的每一特征值进行特征增强处理。
具体的,可以使用归一化处理后的相似度,对第一特征图中的每一特征值进行线性加权,实现特征增强。其中,归一化处理后的相似度作为线性加权的加权系数。
步骤S505:基于增强处理后的第一特征图,对待识别图像进行文本识别。
上述步骤S505与前述步骤S103相同,这里不再赘述。
由以上可见,应用本公开实施例提供的方案进行文本识别时,计算第一特征图中各第三特征数据之间的相似度,然后使用计算得到的所有相似度对计算得到的每一个相似度进行归一化处理,这样归一化处理后的相似度可以反映综合了全局特征后各第三特征数据之间的相似度,因此,归一化处理后的相似度包含全局图像信息,这样基于归一化处理后的相似度,对第一特征图中的每一特征值进行特征增强处理考虑了全局图像信息,使得特征增强后的第一特征图具有全局感受野,基于具有全局感受野的第一特征图对待识别图像进行文本能够提高文本识别的准确性。
与上述文本识别方法相对应,本公开实施例还提供了一种文本识别装置。
参见图6,图6为本公开实施例提供了第一种文本识别装置的结构示意图,包括:
特征获得模块601,用于获得待识别图像的多维第一特征图;
特征增强模块602,用于基于所述第一特征图中的各个特征值,对所述第一特征图中的每一特征值进行特征增强处理;
文本识别模块603,用于基于增强处理后的第一特征图,对所述待识别图像进行文本识别。
由以上可见,应用本公开实施例提供的方案进行文本识别时,首先获得待识别图像的多维第一特征图,然后基于第一特征图中的各个特征值,对第一特征图中的每一特征值进行特征增强处理,基于增强处理后的第一特征图进行文本识别,从而能够实现对待识别图像进行文本识别。
另外,在对第一特征图中的每一特征值进行特征增强处理时,是基于第一特征图中各个特征值,对每一特征值进行处理,这样增强处理后的第一特征图中每一特征值均考虑了图像的全局信息,因此,增强处理后的第一特征图能够表征上述待识别图像的全局信息,从而基于增强处理后的第一特征图对待识别图像进行文本识别,能够提高文本识别的准确性。
本公开的一个实施例中,参见图7,提供了第二种文本识别装置的结构示意图,本实施例中,所述文本识别装置包括:
特征获得模块701,用于获得待识别图像的多维第一特征图;
特征重构子模块702,用于针对三个维度中第一维度的每一维度值,对所述第一特征图中该维度值下第二维度和第三维度对应的特征值进行重构,得到该维度值对应的一维特征数据;
特征获得子模块703,用于获得包含所述第一维度的各维度值对应的一维特征数据的二维第二特征图;
归一化处理子模块704,用于对所述第二特征图中每一维度上的各一维特征数据包括的特征值进行归一化处理,得到第三特征图;
特征增强子模块705,用于基于所述第三特征图,对所述第一特征图中的每一特征值进行特征增强处理。
文本识别模块706,用于基于增强处理后的第一特征图,对所述待识别图像进行文本识别。
由以上可见,应用本公开实施例提供的方案进行文本识别时,由于对一维特征数据包括的特征值进行归一化处理需要利用该一维特征数据包括的所有特征值实现,因此,归一化处理后的一维特征数据中每一特征值受到了该一维特征数据中所有特征值的影响。在此基础上对第二特征图中每一维度上的各一维特征数据包括的特征值均进行归一化处理,使得第三特征图中的每一特征值均受到了第一特征图中所有特征值的影响,因此,第三特征图能够从全局特征的角度表征待识别图像。这样基于第三特征图,对第一特征图中每一特征值进行特征增强处理后,能够获得感受野为整个待识别图像的特征图,增大了用于进行文本识别的特征图的感受野,因此,能够提高对待识别图像进行文本识别的准确性。
本公开的一个实施例中,参见图8,提供了第三种文本识别装置的结构示意图,本实施例中,所述文本识别装置包括:
特征获得模块801,用于获得待识别图像的多维第一特征图;
特征重构子模块802,用于针对三个维度中第一维度的每一维度值,对所述第一特征图中该维度值下第二维度和第三维度对应的特征值进行重构,得到该维度值对应的一维特征数据;
特征获得子模块803,用于获得包含所述第一维度的各维度值对应的一维特征数据的二维第二特征图;
归一化处理子模块804,用于对所述第二特征图中每一维度上的各一维特征数据包括的特征值进行归一化处理,得到第三特征图;
维度变换单元805,用于对第一待处理图进行维度变换,得到与第二待处理图维度相同的第三待处理图,其中,所述第一待处理图为:所述第三特征图或所述第一特征图,所述第二待处理图为:所述第三特征图和所述第一特征图中除所述第一待处理图外的图像;
特征运算单元806,用于对所述第二待处理图和第三待处理图中相同位置的特征值进行加和运算,得到运算后图像,作为增强处理后的第一特征图。
文本识别模块807,用于基于增强处理后的第一特征图,对所述待识别图像进行文本识别。
由以上可见,应用本公开实施例提供的方案进行文本识别时,通过对第一特征图和第三特征图中的一个特征图进行维度变换,得到维度相同的两个特征图,再将这两个特征图中相同位置的特征值进行加和运算,将运算后的图像作为增强处理后的第一特征图。由于第三特征图包含了全局图像信息,因此,将上述两个维度相同的特征图中相同位置的特征值进行加和运算,能够准确的实现对第一特征图进行特征增强处理,进而实现文本识别。
本公开的一个实施例中,所述第一待处理图为:所述第三特征图,所述第二待处理图为:所述第一特征图;
所述维度变换单元805,具体用于:
按照所述第二维度和第三维度的维度值,对所述第三特征图中与所述第一维度的各维度值对应的一维特征数据进行重构,得到所述第一维度的各维度值对应的二维特征图;
获得包含所述第一维度的各维度值对应的二维特征图的三维图像,作为第三待处理图。
由以上可见,应用本公开实施例提供的方案进行文本识别时,在构建三维图像时,首先基于两个维度构建出二维图像,再依据第三个维度整合所构建的图像得到三维图像,这样在构建三维图像过程中充分考虑三个维度的信息,提高了所构建三维图像的准确度。
本公开的一个实施例中,所述归一化处理子模块704,具体用于:
对所述第二特征图中各第一特征数据包括的特征值进行归一化处理,其中,所述第一特征数据为:所述第一维度的各维度值对应的一维特征数据;
对归一化处理后的第二特征图中各第二特征数据包括的特征值进行归一化处理,其中,所述第二特征数据为:合并维度的各维度值对应的一维特征数据,所述合并维度为:所述第二特征图中与所述第二维度以及第三维度相对应的维度。
由以上可见,本公开实施例提供的方案中,对各一维特征数据包括的特征值进行归一化处理得到第三特征图时,首先对与第一维度的各维度值相对应的第一特征数据进行归一化处理,再在归一化处理的基础上,对与合并维度的各维度值相对应的第二特征数据进行归一化处理。由于第一特征数据中包括的特征值的数量与合并维度的维度值数量相等,合并维度的维度值数量又往往大于第一维度的维度值数量,所以,先对第一特征数据进行归一化处理能够为后续进行归一化处理提供更加丰富的参考数据,有利于提高所获得第三特征图的准确性。
本公开的一个实施例中,所述第一维度为深度维度,所述第二维度为宽度维度,所述第三维度为高度维度。
由以上可见,应用本公开实施例提供的方案进行文本识别时,第一特征图中第一维度的一个维度值下第二维度和第三维度对应的特征值可以按照高度维度和宽度维度形成二维特征图,这样对第二维度和第三维度对应的特征值进行重构相当于对二维特征图中的特征值进行重构,针对单个二维特征图的特征值进行重构能够避免其他二维特征图造成的干扰,从而有利于获得上述一维特征数据。
本公开的一个实施例中,参见图9,提供了第四种文本识别装置的结构示意图,本实施例中,所述文本识别装置包括:
特征获得模块901,用于获得待识别图像的多维第一特征图;
特征重构子模块902,用于针对三个维度中第一维度的每一维度值,对所述第一特征图中该维度值下第二维度和第三维度对应的特征值进行重构,得到该维度值对应的一维特征数据;
特征获得子模块903,用于获得包含所述第一维度的各维度值对应的一维特征数据的二维第二特征图;
归一化处理子模块904,用于对所述第二特征图中每一维度上的各一维特征数据包括的特征值进行归一化处理,得到第三特征图;
非线性变换子模块905,用于在基于所述第三特征图,对所述第一特征图中的每一特征值进行特征增强处理之前,对所述第一特征图和/或第三特征图进行非线性变换。
特征增强子模块906,用于基于所述第三特征图,对所述第一特征图中的每一特征值进行特征增强处理。
文本识别模块907,用于基于增强处理后的第一特征图,对所述待识别图像进行文本识别。
由以上可见,应用本公开实施例提供的方案进行文本识别时,对第一特征图进行非线性变换,能够增大第一特征图中特征值之间的差异程度,对第三特征图进行非线性变换,能够增大第三特征图中特征值之间的差异程度,通过对第一特征图和/或第三特征图进行非线性变换,有利于后续特征增强处理过程中确定出表征性较强的特征值,从而有利于特征增强处理,提高文本识别的准确性。
本公开的一个实施例中,参见图10,提供了第五种文本识别装置的结构示意图,本实施例中,所述装置包括:
特征获得模块1001,用于获得待识别图像的多维第一特征图;
非线性变换模块1002,用于在获得待识别图像的多维第一特征图之后,对所述第一特征图进行非线性变换。
特征增强模块1003,用于针对所述第一特征图中的每一特征值,基于所述第一特征图中的各个特征值,对该特征值进行特征增强处理;
文本识别模块1004,用于基于增强处理后的第一特征图,对所述待识别图像进行文本识别。
由以上可见,应用本公开实施例提供的方案进行文本识别时,对第一特征图进行非线性变换有利于后续对第一特征图中的每一特征值进行特征增强处理,提高文本识别的准确性。
本公开的一个实施例中,所述第一特征图为三维特征图,所述特征增强模块602,具体用于:
计算所述第一特征图中各第三特征数据之间的相似度,其中,所述第三特征数据包括:三个维度中第二维度和第三维度的各维度值组合在第一维度对应的特征值;
基于计算得到的所有相似度,对计算得到的每一相似度进行归一化处理;
基于归一化处理后的相似度,对所述第一特征图中的每一特征值进行特征增强处理。
由以上可见,应用本公开实施例提供的方案进行文本识别时,计算第一特征图中各第三特征数据之间的相似度,然后使用计算得到的所有相似度对计算得到的每一个相似度进行归一化处理,这样归一化处理后的相似度可以反映综合了全局特征后各第三特征数据之间的相似度,因此,归一化处理后的相似度包含全局图像信息,这样基于归一化处理后的相似度,对第一特征图中的每一特征值进行特征增强处理考虑了全局图像信息,使得特征增强后的第一特征图具有全局感受野,基于具有全局感受野的第一特征图对待识别图像进行文本能够提高文本识别的准确性。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
本公开的一个实施例中,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述方法实施例中任一文本识别方法。
本公开的一个实施例中,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行前述方法实施例中任一文本识别方法。
本公开的一个实施例中,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现前述方法实施例中任一文本识别方法。
图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图11所示,设备1100包括计算单元1101,其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序,来执行各种适当的动作和处理。在RAM 1103中,还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
设备1100中的多个部件连接至I/O接口1105,包括:输入单元1106,例如键盘、鼠标等;输出单元1107,例如各种类型的显示器、扬声器等;存储单元1108,例如磁盘、光盘等;以及通信单元1109,例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理,例如文本识别方法。例如,在一些实施例中,文本识别方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1108。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时,可以执行上文描述的文本识别方法的一个或多个步骤。备选地,在其他实施例中,计算单元1101可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本识别方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (12)

1.一种文本识别方法,包括:
获得待识别图像的多维第一特征图,所述第一特征图为三维特征图;
基于所述第一特征图中的各个特征值,对所述第一特征图中的每一特征值进行特征增强处理;
基于增强处理后的第一特征图,对所述待识别图像进行文本识别;
所述基于所述第一特征图中的各个特征值,对所述第一特征图中的每一特征值进行特征增强处理,包括:
针对三个维度中第一维度的每一维度值,对所述第一特征图中该维度值下第二维度和第三维度对应的特征值进行重构,得到该维度值对应的一维特征数据;
获得包含所述第一维度的各维度值对应的一维特征数据的二维第二特征图;
对所述第二特征图中每一维度上的各一维特征数据包括的特征值进行归一化处理,得到第三特征图;
基于所述第三特征图,对所述第一特征图中的每一特征值进行特征增强处理;
所述基于所述第三特征图,对所述第一特征图中的每一特征值进行特征增强处理,包括:
对第一待处理图进行维度变换,得到与第二待处理图维度相同的第三待处理图,其中,所述第一待处理图为:所述第三特征图或所述第一特征图,所述第二待处理图为:所述第三特征图和所述第一特征图中除所述第一待处理图外的图像;
对所述第二待处理图和第三待处理图中相同位置的特征值进行加和运算,得到运算后图像,作为增强处理后的第一特征图;
所述基于增强处理后的第一特征图,对所述待识别图像进行文本识别,包括:
基于增强处理后的第一特征图,对所述待识别图像进行文本识别,得到所述待识别图像中包含的文本;
所述对所述第二特征图中每一维度上的各一维特征数据包括的特征值进行归一化处理,得到第三特征图,包括:
对所述第二特征图中各第一特征数据包括的特征值进行归一化处理,其中,所述第一特征数据为:所述第一维度的各维度值对应的一维特征数据;
对归一化处理后的第二特征图中各第二特征数据包括的特征值进行归一化处理,其中,所述第二特征数据为:合并维度的各维度值对应的一维特征数据,所述合并维度为:所述第二特征图中与所述第二维度以及第三维度相对应的维度。
2.根据权利要求1所述的方法,其中,所述第一待处理图为:所述第三特征图,所述第二待处理图为:所述第一特征图;
所述对第一待处理图进行维度变换,得到与第二待处理图维度相同的第三待处理图,包括:
按照所述第二维度和第三维度的维度值,对所述第三特征图中与所述第一维度的各维度值对应的一维特征数据进行重构,得到所述第一维度的各维度值对应的二维特征图;
获得包含所述第一维度的各维度值对应的二维特征图的三维图像,作为第三待处理图。
3.根据权利要求1或2所述的方法,其中,所述第一维度为深度维度,所述第二维度为宽度维度,所述第三维度为高度维度。
4.根据权利要求1或2所述的方法,在基于所述第三特征图,对所述第一特征图中的每一特征值进行特征增强处理之前,还包括:
对所述第一特征图和/或第三特征图进行非线性变换。
5.根据权利要求1或2所述的方法,在获得待识别图像的多维第一特征图之后,还包括:
对所述第一特征图进行非线性变换。
6.一种文本识别装置,包括:
特征获得模块,用于获得待识别图像的多维第一特征图,所述第一特征图为三维特征图;
特征增强模块,用于基于所述第一特征图中的各个特征值,对所述第一特征图中的每一特征值进行特征增强处理;
文本识别模块,用于基于增强处理后的第一特征图,对所述待识别图像进行文本识别;
所述特征增强模块,包括:
特征重构子模块,用于针对三个维度中第一维度的每一维度值,对所述第一特征图中该维度值下第二维度和第三维度对应的特征值进行重构,得到该维度值对应的一维特征数据;
特征获得子模块,用于获得包含所述第一维度的各维度值对应的一维特征数据的二维第二特征图;
归一化处理子模块,用于对所述第二特征图中每一维度上的各一维特征数据包括的特征值进行归一化处理,得到第三特征图;
特征增强子模块,用于基于所述第三特征图,对所述第一特征图中的每一特征值进行特征增强处理;
所述特征增强子模块,包括:
维度变换单元,用于对第一待处理图进行维度变换,得到与第二待处理图维度相同的第三待处理图,其中,所述第一待处理图为:所述第三特征图或所述第一特征图,所述第二待处理图为:所述第三特征图和所述第一特征图中除所述第一待处理图外的图像;
特征运算单元,用于对所述第二待处理图和第三待处理图中相同位置的特征值进行加和运算,得到运算后图像,作为增强处理后的第一特征图;
所述文本识别模块,具体用于基于增强处理后的第一特征图,对所述待识别图像进行文本识别,得到所述待识别图像中包含的文本;
所述归一化处理子模块,具体用于:
对所述第二特征图中各第一特征数据包括的特征值进行归一化处理,其中,所述第一特征数据为:所述第一维度的各维度值对应的一维特征数据;
对归一化处理后的第二特征图中各第二特征数据包括的特征值进行归一化处理,其中,所述第二特征数据为:合并维度的各维度值对应的一维特征数据,所述合并维度为:所述第二特征图中与所述第二维度以及第三维度相对应的维度。
7.根据权利要求6所述的装置,其中,所述第一待处理图为:所述第三特征图,所述第二待处理图为:所述第一特征图;
所述维度变换单元,具体用于:
按照所述第二维度和第三维度的维度值,对所述第三特征图中与所述第一维度的各维度值对应的一维特征数据进行重构,得到所述第一维度的各维度值对应的二维特征图;
获得包含所述第一维度的各维度值对应的二维特征图的三维图像,作为第三待处理图。
8.根据权利要求6或7所述的装置,其中,所述第一维度为深度维度,所述第二维度为宽度维度,所述第三维度为高度维度。
9.根据权利要求6或7所述的装置,其中,所述特征增强模块,还包括:
非线性变换子模块,用于在基于所述第三特征图,对所述第一特征图中的每一特征值进行特征增强处理之前,对所述第一特征图和/或第三特征图进行非线性变换。
10.根据权利要求6或7所述的装置,还包括:
非线性变换模块,用于在获得待识别图像的多维第一特征图之后,对所述第一特征图进行非线性变换。
11.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的文本识别方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-5中任一项所述的文本识别方法。
CN202210013631.1A 2022-01-06 2022-01-06 一种文本识别方法、装置、电子设备及存储介质 Active CN114359905B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202210013631.1A CN114359905B (zh) 2022-01-06 2022-01-06 一种文本识别方法、装置、电子设备及存储介质
JP2022140728A JP7418517B2 (ja) 2022-01-06 2022-09-05 テキスト認識の方法、装置、電子機器、記憶媒体およびコンピュータプログラム
US17/946,464 US20230010031A1 (en) 2022-01-06 2022-09-16 Method for recognizing text, electronic device and storage medium
KR1020220147012A KR20220155948A (ko) 2022-01-06 2022-11-07 텍스트 인식 방법, 장치, 전자 기기 및 저장 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210013631.1A CN114359905B (zh) 2022-01-06 2022-01-06 一种文本识别方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114359905A CN114359905A (zh) 2022-04-15
CN114359905B true CN114359905B (zh) 2023-05-26

Family

ID=81107773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210013631.1A Active CN114359905B (zh) 2022-01-06 2022-01-06 一种文本识别方法、装置、电子设备及存储介质

Country Status (4)

Country Link
US (1) US20230010031A1 (zh)
JP (1) JP7418517B2 (zh)
KR (1) KR20220155948A (zh)
CN (1) CN114359905B (zh)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081731B (zh) * 2009-11-26 2013-01-23 中国移动通信集团广东有限公司 一种从图像中提取文本的方法和装置
CN106599773B (zh) * 2016-10-31 2019-12-24 清华大学 用于智能驾驶的深度学习图像识别方法、系统及终端设备
CN111126410B (zh) 2019-12-31 2022-11-18 讯飞智元信息科技有限公司 字符识别方法、装置、设备及可读存储介质
JP7479925B2 (ja) 2020-05-14 2024-05-09 キヤノン株式会社 画像処理システム、画像処理方法、及びプログラム
CN111914843B (zh) 2020-08-20 2021-04-16 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 文字检测方法、系统、设备及存储介质
CN112801103B (zh) * 2021-01-19 2024-02-27 网易(杭州)网络有限公司 文本方向识别及文本方向识别模型训练方法、装置
CN113435210A (zh) * 2021-06-30 2021-09-24 平安科技(深圳)有限公司 社交图片文本识别方法、装置、计算机设备及存储介质
CN113591862A (zh) 2021-07-09 2021-11-02 上海智臻智能网络科技股份有限公司 文本识别的方法及装置

Also Published As

Publication number Publication date
US20230010031A1 (en) 2023-01-12
JP7418517B2 (ja) 2024-01-19
KR20220155948A (ko) 2022-11-24
JP2022172292A (ja) 2022-11-15
CN114359905A (zh) 2022-04-15

Similar Documents

Publication Publication Date Title
CN114186632B (zh) 关键点检测模型的训练方法、装置、设备、存储介质
CN113343982B (zh) 多模态特征融合的实体关系提取方法、装置和设备
CN113657397B (zh) 循环生成网络模型的训练方法、建立字库的方法和装置
US20020150298A1 (en) System and method for signal matching and characterization
CN113888410A (zh) 图像超分辨率方法、装置、设备、存储介质以及程序产品
CN113393468A (zh) 图像处理方法、模型训练方法、装置和电子设备
CN114792355A (zh) 虚拟形象生成方法、装置、电子设备和存储介质
CN114092708A (zh) 特征图像的处理方法、装置和存储介质
CN114049491A (zh) 指纹分割模型训练、指纹分割方法、装置、设备及介质
CN114359905B (zh) 一种文本识别方法、装置、电子设备及存储介质
US20230005171A1 (en) Visual positioning method, related apparatus and computer program product
US20220351495A1 (en) Method for matching image feature point, electronic device and storage medium
US20220318950A1 (en) Video enhancement method and apparatus, and electronic device and storage medium
CN113436292B (zh) 图像处理方法、图像处理模型的训练方法、装置及设备
CN112784967B (zh) 信息处理方法、装置以及电子设备
CN112929689B (zh) 视频插帧方法、装置、设备以及存储介质
CN113344213A (zh) 知识蒸馏方法、装置、电子设备及计算机可读存储介质
CN114359903B (zh) 一种文本识别方法、装置、设备及存储介质
CN114842489A (zh) 表格解析方法及装置
CN113903071A (zh) 人脸识别方法、装置、电子设备和存储介质
CN114282664A (zh) 自反馈模型训练方法、装置、路侧设备及云控平台
CN114581676B (zh) 特征图像的处理方法、装置和存储介质
CN114998600B (zh) 图像处理方法、模型的训练方法、装置、设备及介质
CN115147850B (zh) 文字生成模型的训练方法、文字生成方法及其装置
CN113052771B (zh) 图像处理方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant