CN112541438A - 文本识别方法及装置 - Google Patents
文本识别方法及装置 Download PDFInfo
- Publication number
- CN112541438A CN112541438A CN202011480943.0A CN202011480943A CN112541438A CN 112541438 A CN112541438 A CN 112541438A CN 202011480943 A CN202011480943 A CN 202011480943A CN 112541438 A CN112541438 A CN 112541438A
- Authority
- CN
- China
- Prior art keywords
- input data
- text recognition
- text
- preset
- splicing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 48
- 238000013139 quantization Methods 0.000 claims description 72
- 238000004364 calculation method Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 12
- 238000003062 neural network model Methods 0.000 description 14
- 238000007667 floating Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000006073 displacement reaction Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Abstract
本申请实施例涉及信息识别技术领域,提供了一种文本识别方法及装置,所述文本识别方法包括:首先获取待识别文本图像;然后将所述待识别文本图像输入至文本识别模型,得到由所述文本识别模型输出的所述待识别文本图像中的文本信息。文本识别模型基于卷积神经网络构建,所述卷积神经网络包括拼接层,所述拼接层用于对所述拼接层的至少两项输入数据进行拼接;所述输入数据以及所述输出数据均为定点型数据。所述拼接层的输出数据对应有预先确定的第一类定点系数,所述拼接层的每项输入数据均对应有预先确定的第二类定点系数,且所述第一类定点系数与所述第二类定点系数相等。可以直接对拼接层的至少两项输入数据进行拼接,简化了拼接操作。
Description
技术领域
本申请涉及信息识别技术领域,尤其涉及一种文本识别方法及装置。
背景技术
近年来,文本识别吸引了大量研究人员的兴趣,得益于深度学习以及序列问题的研究,很多文本识别技术取得了显著的成功。
目前,文本识别主要是针对于图像中的文本进行识别。在对图像中的文本进行识别时,通常采用神经网络模型实现。但采用的神经网络模型进行文本识别的过程中,存在着大量复杂的数据运算,如各个网络层的浮点型模型参数与可能为小数形式的图像数据之间的运算,导致文本识别时占用的计算机资源多、消耗时间长。而且,在利用神经网络模型处理任务时,经常需要重新构建神经网络模型,此时对各个网络层的参数处理的复杂度会导致构建模型效率低下,进而极大地降低了神经网络模型进行文本识别的效率。
综上所述,在利用神经网络模型进行文本识别时,利用复杂数据类型的参数构建神经网络模型的过程复杂且占用资源较多,且构建的神经网络模型处理任务时占用计算资源多,消耗时间长,处理任务效率低下。
发明内容
本申请提供一种文本识别方法及装置,以占用较少的计算机资源即可实现文本识别,而且消耗时间短,可以提高文本识别速度。
本申请提供一种文本识别方法,包括:
获取待识别文本图像;
将所述待识别文本图像输入至文本识别模型,得到由所述文本识别模型输出的所述待识别文本图像中的文本信息;
其中,所述文本识别模型基于卷积神经网络构建,所述卷积神经网络包括拼接层,所述拼接层用于对所述拼接层的至少两项输入数据进行拼接;所述输入数据以及所述输出数据均为定点型数据,所述文本识别模型基于携带有文本标签的样本图像训练得到;
所述拼接层的输出数据对应有预先确定的第一类定点系数,所述拼接层的每项输入数据均对应有预先确定的第二类定点系数,且所述第一类定点系数与所述第二类定点系数相等。
根据本申请提供的一种文本识别方法,所述拼接层具体用于:
基于预设量化系数以及预设移位信息,对所述拼接层的至少两项输入数据进行拼接;
所述预设量化系数用于与所述输入数据进行相乘,所述预设移位信息用于对所述预设量化系数与所述输入数据的相乘结果进行移位。
根据本申请提供的一种文本识别方法,所述输入数据的项数与所述预设量化系数的个数相等,且所述输入数据与所述预设量化系数一一对应。
根据本申请提供的一种文本识别方法,所述拼接层具体用于:
计算每项输入数据与每项输入数据对应的预设量化系数的乘积;
基于所述预设移位信息,对所述乘积进行移位处理;
将所有输入数据对应的移位处理结果进行拼接。
根据本申请提供的一种文本识别方法,所述拼接层的每项输入数据均分别对应一预设移位信息,所述预设移位信息包括移位方向和移位位数,所述移位方向为右移;相应地,
所述预设量化系数基于如下方法离线确定:
计算2的指数次幂,得到计算结果;所述指数为每项输入数据对应的移位位数;
将所述计算结果进行取整操作,得到每项输入数据对应的预设量化系数。
根据本申请提供的一种文本识别方法,所述移位位数为8~16位。
本申请还提供一种文本识别装置,包括:图像获取模块和文本识别模块。其中,
图像获取模块用于获取待识别文本图像;
文本识别模块用于将所述待识别文本图像输入至文本识别模型,得到由所述文本识别模型输出的所述待识别文本图像中的文本信息;
其中,所述文本识别模型基于卷积神经网络构建,所述卷积神经网络包括拼接层,所述拼接层用于对所述拼接层的至少两项输入数据进行拼接;所述输入数据以及所述输出数据均为定点型数据,所述文本识别模型基于携带有文本标签的样本图像训练得到;
所述拼接层的输出数据对应有预先确定的第一类定点系数,所述拼接层的每项输入数据均对应有预先确定的第二类定点系数,且所述第一类定点系数与所述第二类定点系数相等。
根据本申请提供的一种文本识别装置,所述拼接层具体用于:
基于预设量化系数以及预设移位信息,对所述拼接层的至少两项输入数据进行拼接;
所述预设量化系数用于与所述输入数据进行相乘,所述预设移位信息用于对所述预设量化系数与所述输入数据的相乘结果进行移位。
根据本申请提供的一种文本识别装置,所述输入数据的项数与所述预设量化系数的个数相等,且所述输入数据与所述预设量化系数一一对应。
根据本申请提供的一种文本识别装置,所述拼接层具体用于:
计算每项输入数据与每项输入数据对应的预设量化系数的乘积;
基于所述预设移位信息,对所述乘积进行移位处理;
将所有输入数据对应的移位处理结果进行拼接。
根据本申请提供的一种文本识别装置,所述拼接层的每项输入数据均分别对应一预设移位信息,所述预设移位信息包括移位方向和移位位数,所述移位方向为右移;相应地,
所述文本识别装置还包括预设量化系数离线确定模块,用于:
计算2的指数次幂,得到计算结果;所述指数为每项输入数据对应的移位位数;
将所述计算结果进行取整操作,得到每项输入数据对应的预设量化系数。
本申请还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述文本识别方法的步骤。
本申请还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述文本识别方法的步骤。
本申请提供的文本识别方法及装置,首先获取待识别文本图像;然后将所述待识别文本图像输入至文本识别模型,得到由所述文本识别模型输出的所述待识别文本图像中的文本信息。文本识别模型基于卷积神经网络构建,所述卷积神经网络包括拼接层,所述拼接层用于对所述拼接层的至少两项输入数据进行拼接;所述输入数据以及所述输出数据均为定点型数据,所述文本识别模型基于携带有文本标签的样本图像训练得到。所述拼接层的输出数据对应有预先确定的第一类定点系数,所述拼接层的每项输入数据均对应有预先确定的第二类定点系数,且所述第一类定点系数与所述第二类定点系数相等。通过文本识别模型,可以占用较少的计算机资源即可实现文本识别,而且消耗时间短,可以提高文本识别速度。而且,卷积神经网络中包含拼接层,在第一类定点系数与第二类定点系数相等时,可以直接对拼接层的至少两项输入数据进行拼接,简化了拼接操作,进一步降低了计算量。拼接得到的数据也为定点型数据,保证了卷积神经网络中拼接层后面的其它层的输入数据也为定点型数据。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的文本识别方法的流程示意图;
图2是本申请提供的文本识别方法中文本识别模型的拼接层的操作流程示意图;
图3是本申请提供的文本识别方法中确定预设量化系数的实施方式的流程示意图;
图4是本申请提供的文本识别装置的结构示意图;
图5是本申请提供的文本识别装置的结构示意图;
图6是本申请提供的电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,在对图像中的文本进行识别时,通常采用的神经网络模型均为浮点型神经网络模型,即其中的模型参数以及处理的数据均为浮点型数据,这将导致在利用神经网络模型进行文本识别的过程中,存在着大量复杂的数据运算,如各个网络层的浮点型模型参数与可能为小数形式的图像数据之间的运算,导致文本识别时占用的计算机资源多、消耗时间长。而且,在利用神经网络模型处理任务时,经常需要重新构建神经网络模型,此时对各个网络层的参数处理的复杂度会导致构建模型效率低下,进而极大地降低了神经网络模型进行文本识别的效率。为此,本发明实施例中提供了一种文本识别方法,以解决现有技术中存在的问题。
图1为本发明实施例中提供的一种文本识别方法的流程示意图,如图1所示,该方法包括:
S11,获取待识别文本图像;
S12,将所述待识别文本图像输入至文本识别模型,得到由所述文本识别模型输出的所述待识别文本图像中的文本信息;
其中,所述文本识别模型基于卷积神经网络构建,所述卷积神经网络包括拼接层,所述拼接层用于对所述拼接层的至少两项输入数据进行拼接;所述输入数据以及所述输出数据均为定点型数据,所述文本识别模型基于携带有文本标签的样本图像训练得到;
所述拼接层的输出数据对应有预先确定的第一类定点系数,所述拼接层的每项输入数据均对应有预先确定的第二类定点系数,且所述第一类定点系数与所述第二类定点系数相等。
具体地,本发明实施例中提供的文本识别方法,其执行主体为服务器,具体可以是服务器,例如即可以是云端服务器也可以是本地服务器,本地服务器具体可以是计算机、平板电脑以及智能手机等,本发明实施例中对此不作具体限定。
在进行文本识别时,首先执行步骤S11,获取待识别文本图像,待识别文本图像是指需要对其中的文本进行识别的图像,以便于后续使用。待识别文本图像可以通过平面上的二维像素点和RGB通道构成的三维矩阵进行表示,该矩阵中各元素的取值均为整数,取值范围可以是[0,255]。
然后执行步骤S12,将所述待识别文本图像输入至文本识别模型,得到由所述文本识别模型输出的所述待识别文本图像中的文本信息。文本识别模型具体是基于卷积神经网络构建,卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deeplearning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能力,能够按其阶层结构对输入信息进行平移不变分类(shift-invariantclassification),因此也被称为“平移不变人工神经网络(Shift-Invariant ArtificialNeural Networks,SIANN)”。
卷积神经网络可以包括输入层、隐藏层和输出层,输入层用于接收目标图像,隐藏层用于对目标图像进行分割出来,输出层用于将分割结果进行输出。隐藏层可以包括卷积层、池化层和全连接层,卷积层用于进行特征提取,得到特征图,并将得到的特征图输入至池化层进行特征选择和信息过滤,全连接层位于隐含层的最后部分,用于对特征进行非线性组合。特征图在全连接层中会失去空间拓扑结构,被展开为向量。卷积层中包含有拼接层,即Concat层,以实现特征拼接,即拼接层的输入数据均为特征矩阵,输出数据为拼接后得到的特征矩阵。
本申请实施例中采用的卷积神经网络中的模型参数以及处理的数据均为定点型数据,因此拼接层的输入数据以及所述输出数据均为定点型数据,但是现有的拼接层均是针对于输入数据是浮点型数据实现的拼接作用,并没有针对于输入数据是定点型数据实现拼接的作用,因此本发明实施例中在数据类型为浮点型数据的情况下,对拼接层的至少两项输入数据进行拼接。拼接的方式可以是直接拼接,即直接将至少两项定点型的输入数据进行拼接。
拼接层的输出数据对应有预先确定的第一类定点系数,拼接层的每项输入数据均对应有预先确定的第二类定点系数,且第一类定点系数与第二类定点系数相等。输出数据对应的第一类定点系数是输出数据的定点型数据与浮点型数据之间的转换系数,每项输入数据对应的第二类定点系数是每项输入数据的定点型数据与浮点型数据之间的转换系数。第一类定点系数和第二类定点系数均可以通过统计得到,本申请实施例中对其确定方式在此不作具体限定。
例如,拼接层包含两项输入数据,均为定点型数据,分别为y1和y2,对应的浮点型数据分别为y1′和y2′。其中,y1对应的第二类定点系数为q1,y2对应的第二类定点系数为q2,拼接层的输出数据为y3,y3对应的第一类定点系数为q3。由统计发现,q3/q1与q3/q2的值均接近于1,因此将第一类定点系数与第二类定点系数设置为相等,即有q1=q3,q2=q3,是合理的,且能够保证准确性的。
由于拼接层可以直接对y1′和y2′进行拼接,得到的拼接结果为浮点型数据y3′,即有:
y3′=y1′||y2′
对上式进行变换可以得到:
即说明此时拼接层可以直接对定点型的输入数据进行拼接,得到定点型的输出数据。
本发明实施例中,文本识别模型由卷积神经网络构建,并基于携带有文本标签的样本图像,对卷积神经网络进行训练得到文本识别模型。文本标签是指样本图像中的各字段的内容信息。在对卷积神经网络进行训练时,将样本图像作为输入,得到卷积神经网络输出的预测区域,然后通过该预测区域与文本标签计算损失函数,若损失函数最小则训练结束。将样本图像输入至卷积神经网络之前,还可以对样本图像进行预处理。
在通过文本识别模型对待识别文本图像进行文本识别时,由于文本识别模型基于卷积神经网络构建,进行运算的数据均为定点型数据,可以占用较少的计算机资源即可实现文本识别,而且消耗时间短,可以提高文本识别速度。而且,卷积神经网络中包含拼接层,通过预设量化系数以及预设移位信息,可以实现对拼接层的至少两项输入数据进行拼接,拼接得到的数据也为定点型数据,保证了卷积神经网络中拼接层后面的其它层的输入数据也为定点型数据。
本发明实施例中提供的文本识别方法,首先获取待识别文本图像;然后将所述待识别文本图像输入至文本识别模型,得到由所述文本识别模型输出的所述待识别文本图像中的文本信息。文本识别模型基于卷积神经网络构建,所述卷积神经网络包括拼接层,所述拼接层用于对所述拼接层的至少两项输入数据进行拼接;所述输入数据以及所述输出数据均为定点型数据,所述文本识别模型基于携带有文本标签的样本图像训练得到。所述拼接层的输出数据对应有预先确定的第一类定点系数,所述拼接层的每项输入数据均对应有预先确定的第二类定点系数,且所述第一类定点系数与所述第二类定点系数相等。通过文本识别模型,可以占用较少的计算机资源即可实现文本识别,而且消耗时间短,可以提高文本识别速度。而且,卷积神经网络中包含拼接层,在第一类定点系数与第二类定点系数相等时,可以直接对拼接层的至少两项输入数据进行拼接,简化了拼接操作,进一步降低了计算量。拼接得到的数据也为定点型数据,保证了卷积神经网络中拼接层后面的其它层的输入数据也为定点型数据。
在上述实施例的基础上,本发明实施例中提供的文本识别方法,所述拼接层具体用于:
基于预设量化系数以及预设移位信息,对所述拼接层的至少两项输入数据进行拼接;
所述预设量化系数用于与所述输入数据进行相乘,所述预设移位信息用于对所述预设量化系数与所述输入数据的相乘结果进行移位。
具体地,本发明实施例中拼接层实现拼接作用时,还可以引入预设量化系数以及预设移位信息,通过将预设量化系数与定点型的输入数据进行相乘,然后通过预设移位信息对预设量化系数与定点型的输入数据的相乘结果进行移位,使得输入数据经过与预设量化系数以及移位操作后,可以直接进行拼接,拼接得到的输出数据也为定点型数据。需要说明的是,本申请实施例中提及的拼接层基于预设量化系数以及预设移位信息,对所述拼接层的至少两项输入数据进行拼接的过程,可以理解为是对拼接层进行定点计算的过程。通过预设量化系数以及预设移位信息,可以共同实现对每项输入数据进行大小调整。
其中,对于不同项输入数据,预设量化系数可以相同也可以不同,预设量化系数可以为定值,也可以根据输入数据的定点型数据与浮点型数据转换时采用的定点系数计算得到。当预设量化系数是通过计算得到时,既可以在线计算也可以离线计算后传输至卷积神经网络,本发明实施例中对此不作具体限定。需要说明的是,预设量化系数为大于0的正整数,即预设量化系数为大于等于1的整数,以保证卷积神经网络中的拼接层正常工作。
预设移位信息可以包括移位方向以及移位位数,移位方向可以包括向左移动和向右移动,移动位数可以根据需要进行设定,本发明实施例中对此不作具体限定。其中,对于不同项输入数据,预设移位信息可以相同也可以不同,移位方向既可以固定为向左移动或者向右移动,也可以根据输入数据的真实值进行确定,移动位数既可以为定值,也可以根据输入数据的绝对值进行确定,本发明实施例中对此不作具体限定。需要说明的是,移动位数为大于0的正整数。通过预设移位信息实现对预设量化系数与定点型的输入数据的相乘结果进行移位时,移位的操作可以通过相乘结果与2的指数次幂的乘积或者比值表示,其中的指数表示移位位数,乘积表示左移,比值表示右移。
本发明实施例中,通过预设量化系数以及预设移位信息,可以实现对拼接层的至少两项输入数据进行拼接,拼接得到的数据也为定点型数据,保证了卷积神经网络中拼接层后面的其它层的输入数据也为定点型数据。
在上述实施例的基础上,本申请实施例中提供的文本识别方法,所述输入数据的项数与所述预设量化系数的个数相等,且所述输入数据与所述预设量化系数一一对应。
具体地,本申请实施例中,拼接层的输入数据可以有多项,即至少两项,输入数据的项数与预设量化系数的个数相等,每项输入数据都对应有一预设量化系数,如此可以保证每项输入数据相互独立的分别与对应的预设量化系数进行相乘,以体现不同项输入数据的差异性,提高输入数据调整的准确性,进而提高拼接层的输出数据的准确性,保证了文本识别结果的准确性。
如图2所示,在上述实施例的基础上,本申请实施例中提供的文本识别方法,所述拼接层具体用于:
S21,计算每项输入数据与每项输入数据对应的预设量化系数的乘积;
S22,基于所述预设移位信息,对所述乘积进行移位处理;
S23,将所有输入数据对应的移位处理结果进行拼接。
具体地,拼接层在对各项输入数据进行拼接时,首先可以计算出每项输入数据与每项输入数据对应的预设量化系数的乘积。然后根据预设移位信息,对乘积进行移位处理,最后则将所有的移位处理结果进行拼接。例如,拼接层具有两项输入数据,均为定点型数据,分别为y1和y2,y1对应的预设量化系数为s1,y2对应的预设量化系数为s2,y1的移动位数为n1,移位方向为右移,y2的移动位数为n2,移位方向为右移。
y1的移位处理结果可以表示为:
y2的移位处理结果可以表示为:
将所有的移位处理结果进行拼接得到的输出数据y3可以表示为:
其中,||表示拼接运算符。
本申请实施例中,拼接层通过计算每项输入数据与每项输入数据对应的预设量化系数的乘积,并根据预设移位信息对得到乘积进行移位处理,可以实现对所有输入数据对应的移位处理结果进行拼接。而且,整个过程均是针对定点型数据的处理,提高了拼接效率。
如图3所示,在上述实施例的基础上,本申请实施例中提供的文本识别方法,所述拼接层的每项输入数据均分别对应一预设移位信息,所述预设移位信息包括移位方向和移位位数,所述移位方向为右移;
相应地,
所述预设量化系数基于如下方法离线确定:
S31,计算2的指数次幂,得到计算结果;所述指数为每项输入数据对应的移位位数;
S32,将所述计算结果进行取整操作,得到每项输入数据对应的预设量化系数。
具体地,本申请实施例中的预设量化系数可以是离线确定后供拼接层使用的。由于每项输入数据均分别对应一预设移位信息,可实现每项输入数据的移位操作相互独立,移位操作更具有个性化以及针对性。预设移位信息包括移位方向和移位位数,移位方向为右移,移位位数可以根据需要进行设定,本申请实施例中对此不作具体限定。
取整操作可以是向下取整、向上取整或者四舍五入取整,本申请实施例中对此不作具体限定。例如,y1对应的移位位数为n1,y2对应的移位位数为n2,则y1对应的预设量化系数s1可以先通过如下公式确定s1′,并对s1′进行取整操作得到:
s1′=2n1
y2对应的预设量化系数s2可以先通过如下公式确定s2′,并对s2′进行取整操作得到:
s2′=2n2
本申请实施例中,给出了离线确定预设量化系数的具体方法,简单易行,可以节约文本识别的计算资源,并且可以提高拼接速度,进而提高文本识别的效率。
由于有:
令:s1′=(q3/q1)*2n1,s2′=(q3/q2)*2n2,由于q1=q2=q3,则s1′=2n1,s2′=2n2。对s1′进行取整操作得到s1,对s2′进行取整操作得到s2。
则有:
与上述输出数据y3的计算公式一致,证明了本申请中的拼接层的功能的可实现性。
在上述实施例的基础上,本申请实施例中提供的文本识别方法,所述移位位数为8~16位。移位位数越大精度损失越小,移动位数越小存储空间占用越小,因此可以根据精度损失需求以及存储空间需求选取合适的移位位数取值,本申请实施例中对此不作具体限定。
在上述实施例的基础上,本申请实施例中提供的文本识别方法,所述预设移位信息中的移位方向基于对应的数据的真实值确定,所述预设移位信息中的移位位数基于对应的数据的绝对值确定。
具体地,本申请实施例中在确定预设移位信息中的移位方向时,可以将对应的数据的真实值与预设数值进行比较,若真实值大于等于预设数值,则移位方向可以是向右,否则移位方向可以是向左。其中,预设数值可以根据需要进行设定,本申请实施例中对此不作具体限定。
在确定预设移位信息中的移位位数时,可以确定与对应的数据的绝对值最接近的2的指数次幂中指数的取值,然后将该取值作为移位位数。
本申请实施例中,给出了确定预设移位信息中的移位方向以及移位位数的具体方法,简单易行,可以节约文本识别的计算资源,并且可以提高拼接速度,进而提高文本识别的效率。
如图4所示,在上述实施例的基础上,本申请实施例中提供了一种文本识别装置,包括:图像获取模块41和文本识别模块42。其中,
图像获取模块41用于获取待识别文本图像;
文本识别模块42用于将所述待识别文本图像输入至文本识别模型,得到由所述文本识别模型输出的所述待识别文本图像中的文本信息;
其中,所述文本识别模型基于卷积神经网络构建,所述卷积神经网络包括拼接层,所述拼接层用于对所述拼接层的至少两项输入数据进行拼接;所述输入数据以及所述输出数据均为定点型数据,所述文本识别模型基于携带有文本标签的样本图像训练得到;
所述拼接层的输出数据对应有预先确定的第一类定点系数,所述拼接层的每项输入数据均对应有预先确定的第二类定点系数,且所述第一类定点系数与所述第二类定点系数相等。
在上述实施例的基础上,本申请实施例中提供了一种文本识别装置,所述拼接层具体用于:
基于预设量化系数以及预设移位信息,对所述拼接层的至少两项输入数据进行拼接;
所述预设量化系数用于与所述输入数据进行相乘,所述预设移位信息用于对所述预设量化系数与所述输入数据的相乘结果进行移位。
在上述实施例的基础上,本申请实施例中提供了一种文本识别装置,所述输入数据的项数与所述预设量化系数的个数相等,且所述输入数据与所述预设量化系数一一对应。
在上述实施例的基础上,本申请实施例中提供了一种文本识别装置,所述拼接层具体用于:
计算每项输入数据与每项输入数据对应的预设量化系数的乘积;
基于所述预设移位信息,对所述乘积进行移位处理;
将所有输入数据对应的移位处理结果进行拼接。
如图5所示,在上述实施例的基础上,本申请实施例中提供了一种文本识别装置,所述拼接层的每项输入数据均分别对应一预设移位信息,所述预设移位信息包括移位方向和移位位数,所述移位方向为右移;相应地,
所述文本识别装置还包括预设量化系数离线确定模块43,用于:
计算2的指数次幂,得到计算结果;所述指数为每项输入数据对应的移位位数;
将所述计算结果进行取整操作,得到每项输入数据对应的预设量化系数。
在上述实施例的基础上,本申请实施例中提供了一种文本识别装置,所述移位位数为8~16位。
本申请实施例提供的文本识别装置用于执行上述文本识别方法,其具体的实施方式与本申请实施例提供的文本识别方法的实施方式一致,且可以达到相同的有益效果,此处不再赘述。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行文本识别方法,该方法包括:获取待识别文本图像;将所述待识别文本图像输入至文本识别模型,得到由所述文本识别模型输出的所述待识别文本图像中的文本信息;其中,所述文本识别模型基于卷积神经网络构建,所述卷积神经网络包括拼接层,所述拼接层用于对所述拼接层的至少两项输入数据进行拼接;所述输入数据以及所述输出数据均为定点型数据,所述文本识别模型基于携带有文本标签的样本图像训练得到;所述拼接层的输出数据对应有预先确定的第一类定点系数,所述拼接层的每项输入数据均对应有预先确定的第二类定点系数,且所述第一类定点系数与所述第二类定点系数相等。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施例提供的电子设备中的处理器610可以调用存储器630中的逻辑指令,实现上述文本识别方法,其具体的实施方式与本申请实施例提供的文本识别方法的实施方式一致,且可以达到相同的有益效果,此处不再赘述。
另一方面,本申请还提供一种计算机程序产品,下面对本申请提供的计算机程序产品进行描述,下文描述的计算机程序产品与上文描述的文本识别方法可相互对应参照。
所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的文本识别方法,该方法包括:获取待识别文本图像;将所述待识别文本图像输入至文本识别模型,得到由所述文本识别模型输出的所述待识别文本图像中的文本信息;其中,所述文本识别模型基于卷积神经网络构建,所述卷积神经网络包括拼接层,所述拼接层用于对所述拼接层的至少两项输入数据进行拼接;所述输入数据以及所述输出数据均为定点型数据,所述文本识别模型基于携带有文本标签的样本图像训练得到;所述拼接层的输出数据对应有预先确定的第一类定点系数,所述拼接层的每项输入数据均对应有预先确定的第二类定点系数,且所述第一类定点系数与所述第二类定点系数相等。
本申请实施例提供的计算机程序产品被执行时,实现上述文本识别方法,其具体的实施方式与本申请实施例提供的文本识别方法的实施方式一致,且可以达到相同的有益效果,此处不再赘述。
又一方面,本申请还提供一种非暂态计算机可读存储介质,下面对本申请提供的非暂态计算机可读存储介质进行描述,下文描述的非暂态计算机可读存储介质与上文描述的文本识别方法可相互对应参照。
本申请还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的文本识别方法,该方法包括:获取待识别文本图像;将所述待识别文本图像输入至文本识别模型,得到由所述文本识别模型输出的所述待识别文本图像中的文本信息;其中,所述文本识别模型基于卷积神经网络构建,所述卷积神经网络包括拼接层,所述拼接层用于对所述拼接层的至少两项输入数据进行拼接;所述输入数据以及所述输出数据均为定点型数据,所述文本识别模型基于携带有文本标签的样本图像训练得到;所述拼接层的输出数据对应有预先确定的第一类定点系数,所述拼接层的每项输入数据均对应有预先确定的第二类定点系数,且所述第一类定点系数与所述第二类定点系数相等。
本申请实施例提供的非暂态计算机可读存储介质上存储的计算机程序被执行时,实现上述文本识别方法,其具体的实施方式与本申请实施例提供的文本识别方法的实施方式一致,且可以达到相同的有益效果,此处不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (13)
1.一种文本识别方法,其特征在于,包括:
获取待识别文本图像;
将所述待识别文本图像输入至文本识别模型,得到由所述文本识别模型输出的所述待识别文本图像中的文本信息;
其中,所述文本识别模型基于卷积神经网络构建,所述卷积神经网络包括拼接层,所述拼接层用于对所述拼接层的至少两项输入数据进行拼接;所述输入数据以及所述输出数据均为定点型数据,所述文本识别模型基于携带有文本标签的样本图像训练得到;
所述拼接层的输出数据对应有预先确定的第一类定点系数,所述拼接层的每项输入数据均对应有预先确定的第二类定点系数,且所述第一类定点系数与所述第二类定点系数相等。
2.根据权利要求1所述的文本识别方法,其特征在于,所述拼接层具体用于:
基于预设量化系数以及预设移位信息,对所述拼接层的至少两项输入数据进行拼接;
所述预设量化系数用于与所述输入数据进行相乘,所述预设移位信息用于对所述预设量化系数与所述输入数据的相乘结果进行移位。
3.根据权利要求2所述的文本识别方法,其特征在于,所述输入数据的项数与所述预设量化系数的个数相等,且所述输入数据与所述预设量化系数一一对应。
4.根据权利要求3所述的文本识别方法,其特征在于,所述拼接层具体用于:
计算每项输入数据与每项输入数据对应的预设量化系数的乘积;
基于所述预设移位信息,对所述乘积进行移位处理;
将所有输入数据对应的移位处理结果进行拼接。
5.根据权利要求3所述的文本识别方法,其特征在于,所述拼接层的每项输入数据均分别对应一预设移位信息,所述预设移位信息包括移位方向和移位位数,所述移位方向为右移;相应地,
所述预设量化系数基于如下方法离线确定:
计算2的指数次幂,得到计算结果;所述指数为每项输入数据对应的移位位数;
将所述计算结果进行取整操作,得到每项输入数据对应的预设量化系数。
6.根据权利要求5所述的文本识别方法,其特征在于,所述移位位数为8~16位。
7.一种文本识别装置,其特征在于,包括:
图像获取模块,用于获取待识别文本图像;
文本识别模块,用于将所述待识别文本图像输入至文本识别模型,得到由所述文本识别模型输出的所述待识别文本图像中的文本信息;
其中,所述文本识别模型基于卷积神经网络构建,所述卷积神经网络包括拼接层,所述拼接层用于对所述拼接层的至少两项输入数据进行拼接;所述输入数据以及所述输出数据均为定点型数据,所述文本识别模型基于携带有文本标签的样本图像训练得到;
所述拼接层的输出数据对应有预先确定的第一类定点系数,所述拼接层的每项输入数据均对应有预先确定的第二类定点系数,且所述第一类定点系数与所述第二类定点系数相等。
8.根据权利要求7所述的文本识别装置,其特征在于,所述拼接层具体用于:
基于预设量化系数以及预设移位信息,对所述拼接层的至少两项输入数据进行拼接;
所述预设量化系数用于与所述输入数据进行相乘,所述预设移位信息用于对所述预设量化系数与所述输入数据的相乘结果进行移位。
9.根据权利要求8所述的文本识别装置,其特征在于,所述输入数据的项数与所述预设量化系数的个数相等,且所述输入数据与所述预设量化系数一一对应。
10.根据权利要求9所述的文本识别装置,其特征在于,所述拼接层具体用于:
计算每项输入数据与每项输入数据对应的预设量化系数的乘积;
基于所述预设移位信息,对所述乘积进行移位处理;
将所有输入数据对应的移位处理结果进行拼接。
11.根据权利要求9所述的文本识别装置,其特征在于,所述拼接层的每项输入数据均分别对应一预设移位信息,所述预设移位信息包括移位方向和移位位数,所述移位方向为右移;相应地,
所述文本识别装置还包括预设量化系数离线确定模块,用于:
计算2的指数次幂,得到计算结果;所述指数为每项输入数据对应的移位位数;
将所述计算结果进行取整操作,得到每项输入数据对应的预设量化系数。
12.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述文本识别方法的步骤。
13.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述文本识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011480943.0A CN112541438A (zh) | 2020-12-15 | 2020-12-15 | 文本识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011480943.0A CN112541438A (zh) | 2020-12-15 | 2020-12-15 | 文本识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112541438A true CN112541438A (zh) | 2021-03-23 |
Family
ID=75018838
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011480943.0A Pending CN112541438A (zh) | 2020-12-15 | 2020-12-15 | 文本识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112541438A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113779997A (zh) * | 2021-09-03 | 2021-12-10 | 珠海格力电器股份有限公司 | 实体识别方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009625A (zh) * | 2016-11-01 | 2018-05-08 | 北京深鉴科技有限公司 | 人工神经网络定点化后的微调方法和装置 |
CN109919037A (zh) * | 2019-02-01 | 2019-06-21 | 汉王科技股份有限公司 | 一种文本定位方法及装置、文本识别方法及装置 |
CN109983504A (zh) * | 2016-09-07 | 2019-07-05 | 诺基亚技术有限公司 | 通过使用多层移动来促进立体视觉的方法和装置 |
CN110751259A (zh) * | 2018-07-23 | 2020-02-04 | 杭州海康威视数字技术股份有限公司 | 深度神经网络中的网络层运算方法及装置 |
US20200251100A1 (en) * | 2019-02-01 | 2020-08-06 | International Business Machines Corporation | Cross-domain multi-task learning for text classification |
CN111612696A (zh) * | 2020-05-21 | 2020-09-01 | 网易有道信息技术(北京)有限公司 | 图像拼接方法、装置、介质及电子设备 |
-
2020
- 2020-12-15 CN CN202011480943.0A patent/CN112541438A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109983504A (zh) * | 2016-09-07 | 2019-07-05 | 诺基亚技术有限公司 | 通过使用多层移动来促进立体视觉的方法和装置 |
CN108009625A (zh) * | 2016-11-01 | 2018-05-08 | 北京深鉴科技有限公司 | 人工神经网络定点化后的微调方法和装置 |
CN110751259A (zh) * | 2018-07-23 | 2020-02-04 | 杭州海康威视数字技术股份有限公司 | 深度神经网络中的网络层运算方法及装置 |
CN109919037A (zh) * | 2019-02-01 | 2019-06-21 | 汉王科技股份有限公司 | 一种文本定位方法及装置、文本识别方法及装置 |
US20200251100A1 (en) * | 2019-02-01 | 2020-08-06 | International Business Machines Corporation | Cross-domain multi-task learning for text classification |
CN111612696A (zh) * | 2020-05-21 | 2020-09-01 | 网易有道信息技术(北京)有限公司 | 图像拼接方法、装置、介质及电子设备 |
Non-Patent Citations (5)
Title |
---|
BENOIT JACOB ET.AL: "Quantizing deep convolutional networks for efficient inference", 《ARXIV:1712.05877V1 [CS.LG]》, pages 1 - 14 * |
HK GRIFFITH, ET AL: "Assessment of shift CNN for movement sensors", 《ARXIV》, pages 1 - 6 * |
JERMMY: "神经网络量化入门--Add 和Concat", pages 1 - 6, Retrieved from the Internet <URL:https://mp.weixin.qq.com/s/Qt3Su8M9ntHoY_DzK78I6g> * |
RAGHURAMAN KRISHNAMOORTHI: "Quantizing deep convolutional networks for efficient inference: A whitepaper", 《ARXIV:1806.08342V1 [CS.LG]》, pages 1 - 36 * |
孟林虎: "脉冲卷积神经网络实现方法", 《计算机工程》, pages 623 - 627 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113779997A (zh) * | 2021-09-03 | 2021-12-10 | 珠海格力电器股份有限公司 | 实体识别方法、装置、电子设备及存储介质 |
CN113779997B (zh) * | 2021-09-03 | 2023-10-10 | 珠海格力电器股份有限公司 | 实体识别方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109086683B (zh) | 一种基于点云语义增强的人手姿态回归方法和系统 | |
CN107944545B (zh) | 应用于神经网络的计算方法及计算装置 | |
CN110610526B (zh) | 一种基于wnet对单目人像进行分割和景深渲染的方法 | |
CN110889416A (zh) | 一种基于级联改良网络的显著性物体检测方法 | |
CN113298728B (zh) | 一种视频优化方法、装置、终端设备及存储介质 | |
CN111833360B (zh) | 一种图像处理方法、装置、设备以及计算机可读存储介质 | |
CN113066018A (zh) | 一种图像增强方法及相关装置 | |
CN114792355A (zh) | 虚拟形象生成方法、装置、电子设备和存储介质 | |
CN112541438A (zh) | 文本识别方法及装置 | |
CN110110775A (zh) | 一种基于超连接网络的匹配代价计算方法 | |
CN112561933A (zh) | 图像分割方法及装置 | |
CN112580492A (zh) | 车辆检测方法及装置 | |
US20230143985A1 (en) | Data feature extraction method and related apparatus | |
CN111967478A (zh) | 一种基于权重翻转的特征图重构方法、系统、存储介质及终端 | |
CN116309158A (zh) | 网络模型的训练方法、三维重建方法、装置、设备和介质 | |
CN112949504B (zh) | 立体匹配方法、装置、设备及存储介质 | |
CN115409159A (zh) | 对象操作方法、装置、计算机设备以及计算机存储介质 | |
CN115688917A (zh) | 神经网络模型的训练方法、装置、电子设备及存储介质 | |
CN115578561A (zh) | 一种基于多尺度上下文聚合网络的实时语义分割方法及装置 | |
CN115147283A (zh) | 一种图像重建方法、装置、设备及介质 | |
CN115082306A (zh) | 一种基于蓝图可分离残差网络的图像超分辨率方法 | |
CN115375909A (zh) | 一种图像处理方法及装置 | |
CN112541549B (zh) | 商品分类识别方法及装置 | |
CN114444688A (zh) | 神经网络的量化方法、装置、设备、存储介质及程序产品 | |
CN113313253A (zh) | 神经网络压缩方法、数据处理方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |