CN114627464A - 文本识别方法、装置、电子设备和存储介质 - Google Patents
文本识别方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN114627464A CN114627464A CN202210375788.9A CN202210375788A CN114627464A CN 114627464 A CN114627464 A CN 114627464A CN 202210375788 A CN202210375788 A CN 202210375788A CN 114627464 A CN114627464 A CN 114627464A
- Authority
- CN
- China
- Prior art keywords
- text
- sub
- image
- feature
- recognition model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 53
- 238000013507 mapping Methods 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 19
- 238000000605 extraction Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 14
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 2
- 238000012512 characterization method Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 13
- 238000004590 computer program Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 9
- 230000003287 optical effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Character Discrimination (AREA)
Abstract
本公开提供了一种文本识别的方法、装置、电子设备和存储介质,包括:获取文本图像;进行裁剪,获得至少两个子图像;将每个子图像输入文本识别模型;提取每个第一特征映射;对每个第一特征映射进行编码,得到每个子图像的第二特征映射;对每个第二特征映射进行处理,得到每个子图像的子文本行;对每个子图像对应的子文本行进行拼接,得到文本图像对应的文本行。本公开能够对长文本进行裁剪,对裁剪成的短文本进行识别,得到短文本的识别结果,再将识别结果拼接成长文本,因而得到识别结果使用的文本识别模型为短文本识别模型,文本识别模型的训练时间更短,识别的准确度更高,并且能够将短文本的识别结果拼接成长文本,兼顾了长文本识别的准确度。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及文本识别方法、装置、电子设备和存储介质。
背景技术
自然场景文本识别是带文本的图片中识别出字符序列的过程(对于中文,一个字符便是一个汉字,对于英文,一个字符便是一个字母)。它是一项具有很大挑战性的课题,除了图片背景复杂,光照变化等因素外,识别输出空间的复杂性也是一大困难。
自然场景文本识别的难度与被识别的文本图像中的文本长度,关系密切。随着文本长度增加,识别文本的难度会增长很快,识别文本的模型的训练时间会大大增加,识别文本的准确度也会大幅度下降。如何提高自然场景长文本识别的准确度,降低长文本识别模型的训练时间是本领域的技术问题之一。
发明内容
根据本公开的一方面,提供了一种文本识别的方法,包括:
获取待识别的文本图像;
对文本图像进行裁剪,获得至少两个子图像;每个子图像中包含的字符数量小于文本识别模型能够识别的字符数量;
将每个子图像输入文本识别模型;其中,文本识别模型包括:特征提取模块、编码器、特征解码模块;
通过特征提取模块提取每个子图像的第一特征映射;
通过编码器对每个第一特征映射进行编码,得到每个子图像的第二特征映射;
通过特征解码模块对每个第二特征映射进行处理,得到每个子图像对应的子文本行;
对每个子图像对应的子文本行进行拼接,得到文本图像对应的文本行。
根据本公开的另一方面,提供了一种文本识别的装置,包括:
获取模块,用于获取待识别的文本图像;
裁剪模块,用于对文本图像进行裁剪,获得至少两个子图像;每个子图像中包含的字符数量小于文本识别模型能够识别的字符数量;
输入模块,用于将每个子图像输入文本识别模型;其中,文本识别模型包括:特征提取模块、编码器、特征解码模块;
特征提取模块,用于提取每个子图像的文本识别模型第一特征映射;
编码器,用于对每个第一特征映射进行编码,得到每个子图像的第二特征映射;
特征解码模块,用于对每个第二特征映射进行处理,得到每个子图像对应的子文本行;
拼接模块,用于对每个子图像对应的子文本行进行拼接,得到文本图像对应的文本行。
根据本公开的另一方面,提供了一种电子设备,包括:
处理器;以及
存储程序的存储器,
其中,程序包括指令,指令在由处理器执行时使处理器执行根据上述任一项的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行根据上述任一项的方法。
本公开实施例中提供的一个或多个技术方案,能够对长文本进行裁剪,对裁剪成的短文本进行识别,得到短文本的识别结果,再将识别结果拼接成长文本,因而得到识别结果使用的文本识别模型为短文本识别模型,文本识别模型的训练时间更短,识别的准确度更高,并且能够将短文本的识别结果拼接成长文本,兼顾了长文本识别的准确度。
附图说明
在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
图1示出了根据本公开示例性实施例的一种文本识别的方法流程图;
图2示出了现有技术中Transformer模型的编码器中基础模块一的结构框图;
图3示出了根据本公开示例性实施例的一种确定最大池化窗口的原理示意图;
图4示出了根据本公开示例性实施例的一种文本识别的装置400的原理框图;
图5示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
图1示出了根据本公开示例性实施例的一种文本识别的方法流程图,包括:
步骤S101,获取待识别的文本图像;
步骤S102,对文本图像进行裁剪,获得至少两个子图像;每个子图像中包含的字符数量小于文本识别模型能够识别的字符数量;
步骤S103,将每个子图像输入文本识别模型;其中,文本识别模型包括:特征提取模块、编码器、特征解码模块;
步骤S104,通过特征提取模块提取每个子图像的第一特征映射;
步骤S105,通过编码器对每个第一特征映射进行编码,得到每个子图像的第二特征映射;
步骤S106,通过特征解码模块对每个第二特征映射进行处理,得到每个子图像对应的子文本行;
步骤S107,对每个子图像对应的子文本行进行拼接,得到文本图像对应的文本行。
执行本公开的方法的执行主体可以是台式电脑、平板电脑或其他具有较强计算能力的终端。本公开的方法的应用场景是自然场景文本识别,对应CNN(ConvolutionalNeural Networks,卷积神经网络)。待识别的文本图像可以是纸质的或是电子的。若为纸质的,获取文本图像可以通过扫描或者拍照的方式获取。本公开处于提高文本识别模型识别速度和精度的目的对待识别的文本图像进行裁剪,将长文本的文本图像裁剪为短文本的子图像。子图像包含的字符的数量小于文本识别模型的最大识别能力。例如,子图像的像素不可以超过文本识别模型最多能识别像素,子图像中文本行数量可以为一行,子图像中单个文本行包括的字数,不能超过文本识别模型支持的单行最大字符数(例如10个字符)。文本行可以是直的,也可以是弯曲的。若初始文本图像上的字符数超过10个,可以进行裁剪。
由于本公开实施例能够将包含长文本的文本图像裁剪成较短文本的文本图像,能够降低文本识别模型的识别难度,加快识别速度并增加识别精度,并且能够对文本识别模型识别得到的短文本进行拼接,因而能够实现更快且更精确地识别长文本。
本公开实施例主要分为以下几个部分:
(一)文本图像裁剪和拼接识别结果
本公开实施例,对文本图像的裁剪方式与拼接的方式是相对应的。
作为一些实施例,对文本图像进行裁剪,获得至少两个子图像,包括:将文本图像裁剪为至少两个无重叠部分的子图像;对每个子图像对应的子文本行进行拼接,得到文本图像对应的文本行,包括:按照每个子图像输入文本识别模型的顺序对每个子图像对应的子文本行进行拼接,得到文本图像对应的文本行。
实际应用中,利用文本模型依次识别每个子图像后,可以按照识别的顺序依次将识别结果(子文本行)进行排布,按照排布顺序对识别结果进行拼接。
作为一些实施例,对文本图像进行裁剪,获得至少两个子图像,包括:将文本图像裁剪为至少两个无重叠部分的子图像,并对每个子图像添加相同的标签;对每个子图像对应的子文本行进行拼接,得到文本图像对应的文本行,包括:对包含相同的标签的每个子图像对应的子文本行进行拼接,得到文本图像对应的文本行。
作为一些实施例,对文本图像进行裁剪,获得至少两个子图像,包括:将文本图像裁剪为至少两个有重叠部分的子图像;对每个子图像对应的子文本行进行拼接,得到文本图像对应的文本行,包括:针对所有子文本行中的任意两个,若一个子文本行的左端的预定个数的字符与另一个子文本行的预定个数的字符相同,则对这两个子文本行进行拼接,得到文本行;或按照每个子图像输入文本识别模型的顺序对每个子图像对应的子文本行进行拼接,得到文本图像对应的文本行。
实际应用中,裁剪时相邻的两个部分留有预定区域的重叠部分,能够识别出来一定数量的相同字符。当完成文本识别,得到文本行之后,通过这些字符判断两个或更多的文本行是否应该拼接在一起。因此,拼接的方式可以是判断文本行左端和右端的预定数量字符(例如2个字符),如果发现某个文本行的右端(结束端)的预定数量的字符与另一个文本行左端的预定数量的字符相同,这两个文本行应该拼接在一起。拼接的方式可以是重复字符位于右端的在前,重复字符位于左端的在后,并且删除一份中间重复的部分。例如,“今天天气不错”,被裁剪成“今天天气”,和“天气不错”,拼接的时候删除其中一份重复的“天气”,得到结果“今天天气不错”。
(二)通过文本识别模型进行识别
具体地,文本识别模型的多个模块之间的关系可以是串联的。
(1)特征提取模块
作为一些实施例,第一特征提取模块包括一个或多个残差块;特征解码模块包括全连接层。第一特征提取模块可以使用一个Resnet18网络,Resnet18由4个Block块(残差块)组成,每个block块又由若干卷积操作组成,每一个block的输出是后一个block块的输入,经过第一特征提取模块后得到第一特征映射,第一特征映射的大小为原始输入的文本图像的1/4。
具体地,第一特征映射可以包括如下内容高度、通道数、数量、宽度。第一特征映射的大小为高度×宽度,高度可以为1(对应识别直文本),也可以大于1(对应识别弯曲文本)。通道数表示用于文本识别的特征值的种类数量,数量表示识别的子图像的数量。本公开实施例中,第一特征映射的特征图的长度可以为10,特征图上每个像素点能够用于解码一个字,对应一行能够最多识别最多10个字的预测能力,而用于识别的子图像高度一般可以设定为32,则经过特征提取模块后高度为8,可以用于识别一行弯曲的文本。
(2)编码器
步骤S104中的编码器可以基于Transformer模型中的编码器。Transformer模型的模型通常采用6个基础模块一,而本公开实施例中为了防止过拟合,可以采用4个基础模块一。
作为一些实施例,基础模块一还包括:按照串联方式连接的多头注意力层、逐点操作和归一化操作和等宽卷积。
本公开实施例的编码器中的基础模块一的部分结构可以与Transformer模型常用的基础模块一不同。图2示出了现有技术中Transformer模型的编码器中基础模块一的结构框图。本公开实施例中基础模块一中的全连接层可以改成3*3的等宽卷积层。
3x3等宽卷积层是一个较小的窗口,将全连接层更改为3x3等宽卷积层是因为需要获取局部区域的上下文信息:长文本之间的关系不紧密,获取长文本的上下文信息的作用不如获取局部区域的上下文信息。
另外,编码器的位置编码(Positional Encoding)部分可以改为自适应的二维位置编码。
作为一些实施例,编码器包括一个或多个相互串联的基础模块一以及位置编码操作;位置编码操作包括:根据第一特征映射获得第四特征映射;根据自适应的窗口对第四特征映射进行最大化池化;根据第一特征映射获得第四特征映射,包括:根据第一特征映射获得第一特征映射对应特征图的每个像素点的二维编码值;将每个像素点的二维位置值一一对应地添加到第一特征映射中,得到第四特征映射;其中,获得任意一个像素点的二维编码值,包括:以列为单位,得到该像素点的第一正余弦编码,以行为单位,得到该像素点的第二正余弦编码;第一正余弦编码和第二正余弦编码是该像素点的二维编码值;
根据自适应的窗口对第四特征映射进行最大化池化,包括:确定该像素点对应的窗口;确定针对特征图中任意一个像素点,该像素点对应的窗口对应的行的范围为特征图的最下底部一行到该像素点所在行,列的范围为特征图的最右一列到该像素点所在列;利用窗口对第四特征映射执行最大池化操作。最大池化的作用是由于因为每次提取到的特征映射(第四特征映射)不同,所以针对每个文本图像,最大池化操作之后,得到的数值是不同的,能够调节水平和竖直位置的编码权重,更好的表征字符位置信息。
具体地,本发明实施例获取二维编码值的正余弦函数可以是:
其中,pos表示像素点在第一特征编码对应的特征图中的位置,i表示维度。
第四特征映射即在第一特征映射基础上进行了添加了二维特征值的二维特征编码。之后采用自适应的窗口对第四特征映射进行最大池化的好处是,每个像素点对应不同的池化窗口,能够调节水平和竖直位置的编码权重,更好的表征字符位置信息。
具体地,最大池化的方式是,对于列,采取从下往上,对于行采取从右往左的方式做最大池化操作(取最大值,这里对于不同的位置,最大池化的窗口大小不同,图3示出了根据本公开示例性实施例的一种确定最大池化窗口的原理示意图。按列来说,对于第四特征映射的大小为8x8特征图(与第一特征映射的特征图相同)上的(0,0)位置的像素点,池化窗口为8x8,对于(1,1),则池化窗口为7x7大小,这是利用特征图的每个像素点之后的特征数据进行最大池化。
(3)特征增强
作为一些实施例,文本识别模型还包括列表征获取模块,通过编码器对每个第一特征映射进行编码之后,通过特征解码模块对每个第二特征映射进行处理之前,还包括:通过列表征获取模块获取每个第二特征映射的列表征向量,进而得到每个子图像的第三特征映射;其中,通过特征解码模块对每个第二特征映射进行处理,得到每个子图像对应的子文本行,包括:通过特征解码模块对每个第二特征映射进行处理,得到每个子图像对应的子文本行。
列表征获取模块的作用是对特征进行选择和强化,以提高文本识别的准确度。
作为一些实施例,列表征获取模块包括至少一层多对一的双向长短期记忆网络LSTM。
LSTM(Long short-term memory,长短期记忆)LSTM能够将每一列包含的多个向量依次输入,最后得到这一列的一个特征向量。
(4)特征解码模块
如上文所述,特征解码模块包括全连接层。本实施例的全连接层,能够解码得到经过裁剪的短文本图像(子图像)的识别结果。
(三)文本识别模型训练
作为一些实施例,文本识别模型通过以下方式训练获得:获取包括多个经过标注的训练样本的训练数据;其中,多个训练样本由对一个或多个训练文本图像进行裁剪得到;进行裁剪的方式为将每个训练文本图像分别裁剪为至少两个有重叠或无重叠部分的训练样本;每份训练样本中包含的字符数小于文本识别模型能够处理的最多字数;标注的内容包括每个训练样本的字符;利用训练数据和连接时间分类CTC损失函数对文本识别模型进行第一次训练。
具体地,可以通过CTC损失函数根据经过裁剪的子文本的识别结果与标注的子文本的实际字符进行比较,得到损失值。根据损失值,对文本识别模型中的参数进行调节。改善对裁剪后的短文本的识别能力。
作为一些实施例,利用训练数据和连接时间分类CTC损失函数对文本识别模型进行第一次训练,包括:通过文本识别模型得到识别到每个训练样本对应的第一识别结果;根据每个第一识别结果、每个训练样本的标注字符和连接时间分类CTC损失函数对文本识别模型进行补偿。
上述实施例给出了训练结果的具体使用方法,可以更有效地进行训练。
作为一些实施例,标注的内容还包括标签;由同一个训练文本图像裁剪得到的所有训练样本具有相同的标签;利用训练数据和连接时间分类CTC损失函数对文本识别模型进行第一次训练之后,还包括:对具有相同标签的所有第一识别结果进行拼接,得到一个或多个第二识别结果;利用每个第二识别结果、每个训练文本图像对应的字符和CTC损失函数对文本识别模型进行第二次训练。
文本识别模型共有两个方面需要进行训练,一个是短文本识别能力,另外一个是准确拼接成长文本的能力。本实施例给出了准确拼接成长文本的具体的训练方法。实际应用中,可以进行一次识别能力训练,再进行一次拼接能力的训练,两种训练方式的训练交叉进行。
图4示出了根据本公开示例性实施例的一种文本识别的装置400的原理框图;
获取模块401,用于获取待识别的文本图像;
裁剪模块402,用于对文本图像进行裁剪,获得至少两个子图像;每个子图像中包含的字符数量小于文本识别模型能够识别的字符数量;
输入模块403,用于将每个子图像输入文本识别模型;其中,文本识别模型包括:特征提取模块、编码器、特征解码模块;
特征提取模块404,用于提取每个子图像的文本识别模型第一特征映射;
编码器405,用于对每个第一特征映射进行编码,得到每个子图像的第二特征映射;
特征解码模块406,用于对每个第二特征映射进行处理,得到每个子图像对应的子文本行;
拼接模块407,用于对每个子图像对应的子文本行进行拼接,得到文本图像对应的文本行。
本公开示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。
本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
参考图5,现将描述可以作为本公开的服务器或客户端的电子设备500的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
图5示出了能够用于实现本公开的实施例的示例性电子设备的结构框图,如图5所示,电子设备500包括计算单元501,其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序,来执行各种适当的动作和处理。在RAM 503中,还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
电子设备500中的多个部件连接至I/O接口505,包括:输入单元506、输出单元507、存储单元508以及通信单元509。输入单元506可以是能向电子设备500输入信息的任何类型的设备,输入单元506可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元507可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元504可以包括但不限于磁盘、光盘。通信单元509允许电子设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理。例如,在一些实施例中,上述所有方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM502和/或通信单元509而被载入和/或安装到电子设备500上。在一些实施例中,计算单元501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述所有方法。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
Claims (15)
1.一种文本识别的方法,其特征在于,包括:
获取待识别的文本图像;
对所述文本图像进行裁剪,获得至少两个子图像;每个所述子图像中包含的字符数量小于文本识别模型能够识别的字符数量;
将每个所述子图像输入所述文本识别模型;其中,所述文本识别模型包括:特征提取模块、编码器、特征解码模块;
通过所述特征提取模块提取每个所述子图像的第一特征映射;
通过所述编码器对每个所述第一特征映射进行编码,得到每个所述子图像的第二特征映射;
通过所述特征解码模块对每个所述第二特征映射进行处理,得到每个所述子图像对应的子文本行;
对每个所述子图像对应的子文本行进行拼接,得到所述文本图像对应的文本行。
2.如权利要求1所述的方法,其特征在于,所述文本识别模型还包括列表征获取模块,通过所述编码器对每个所述第一特征映射进行编码之后,所述通过所述特征解码模块对每个所述第二特征映射进行处理之前,还包括:
通过所述列表征获取模块获取每个所述第二特征映射的列表征向量,进而得到每个所述子图像的第三特征映射;
其中,所述通过所述特征解码模块对每个所述第二特征映射进行处理,得到每个所述子图像对应的子文本行,包括:
通过所述特征解码模块对每个所述第三特征映射进行处理,得到每个所述子图像对应的子文本行。
3.如权利要求1所述的方法,其特征在于,所述对所述文本图像进行裁剪,获得至少两个子图像,包括:
将所述文本图像裁剪为至少两个无重叠部分的子图像;
所述对每个所述子图像对应的子文本行进行拼接,得到所述文本图像对应的文本行,包括:
按照每个所述子图像输入文本识别模型的顺序对每个所述子图像对应的子文本行进行拼接,得到所述文本图像对应的文本行。
4.如权利要求1所述的方法,其特征在于,所述对所述文本图像进行裁剪,获得至少两个子图像,包括:
将所述文本图像裁剪为至少两个无重叠部分的子图像,并对每个所述子图像添加相同的标签;
所述对每个所述子图像对应的子文本行进行拼接,得到所述文本图像对应的文本行,包括:
对包含所述相同的标签的每个所述子图像对应的子文本行进行拼接,得到所述文本图像对应的文本行。
5.如权利要求1所述的方法,其特征在于,所述对所述文本图像进行裁剪,获得至少两个子图像,包括:
将所述文本图像裁剪为至少两个有重叠部分的子图像;
所述对每个所述子图像对应的子文本行进行拼接,得到所述文本图像对应的文本行,包括:
针对所有所述子文本行中的任意两个,若一个所述子文本行的左端的预定个数的字符与另一个所述子文本行的预定个数的字符相同,则对这两个所述子文本行进行拼接,得到所述文本行;或
按照每个所述子图像输入文本识别模型的顺序对每个所述子图像对应的子文本行进行拼接,得到所述文本图像对应的文本行。
6.如权利要求1所述的方法,其特征在于,
所述编码器包括一个或多个相互串联的基础模块一以及位置编码操作;所述位置编码操作包括:根据第一特征映射获得第四特征映射;根据自适应的窗口对所述第四特征映射进行最大化池化;
所述根据第一特征映射获得第四特征映射,包括:根据所述第一特征映射获得所述第一特征映射对应特征图的每个像素点的二维编码值;将每个像素点的所述二维编码值一一对应地添加到所述第一特征映射中,得到第四特征映射;其中,获得任意一个所述像素点的二维编码值,包括:以列为单位,得到该像素点的第一正余弦编码,以行为单位,得到该像素点的第二正余弦编码;所述第一正余弦编码和所述第二正余弦编码是该像素点的二维编码值;
所述根据自适应的窗口对所述第四特征映射进行最大化池化,包括:确定该像素点对应的窗口;确定针对所述特征图中任意一个像素点,该像素点对应的窗口对应的行的范围为所述特征图的最下底部一行到该像素点所在行,列的范围为所述特征图的最右一列到该像素点所在列;利用所述窗口对所述第四特征映射执行最大池化操作。
7.如权利要求6所述的方法,其特征在于,所述基础模块一还包括:
按照串联方式连接的多头注意力子层、逐点操作子层、归一化操作子层和等宽卷积子层。
8.如权利要求1所述的方法,其特征在于,所述特征提取模块包括一个或多个残差块;所述特征解码模块包括全连接层。
9.如权利要求2所述的方法,其特征在于,所述列表征获取模块包括至少一层多对一的双向长短期记忆网络LSTM。
10.如权利要求1所述的方法,其特征在于,所述文本识别模型通过以下方式训练获得:
获取包括多个经过标注的训练样本的训练数据;其中,多个所述训练样本由对一个或多个所述训练文本图像进行裁剪得到;进行裁剪的方式为将每个所述训练文本图像分别裁剪为至少两个有重叠或无重叠部分的训练样本;所述每份训练样本中包含的字符数小于所述文本识别模型能够处理的最多字数;所述标注的内容包括每个所述训练样本的字符;
利用所述训练数据和连接时间分类CTC损失函数对所述文本识别模型进行第一次训练。
11.如权利要求10所述的方法,其特征在于,所述利用所述训练数据和连接时间分类CTC损失函数对所述文本识别模型进行第一次训练,包括:
通过所述文本识别模型得到识别到每个所述训练样本对应的第一识别结果;
根据每个所述第一识别结果、每个训练样本的标注字符和所述连接时间分类CTC损失函数对所述文本识别模型进行补偿。
12.如权利要求11所述的方法,其特征在于,所述标注的内容还包括标签;由同一个所述训练文本图像裁剪得到的所有所述训练样本具有相同的所述标签;所述利用所述训练数据和连接时间分类CTC损失函数对所述文本识别模型进行第一次训练之后,还包括:
对具有相同所述标签的所有所述第一识别结果进行拼接,得到一个或多个第二识别结果;利用每个所述第二识别结果、每个所述训练文本图像对应的字符和所述CTC损失函数对所述文本识别模型进行第二次训练。
13.一种文本识别的装置,其特征在于,包括:
获取模块,用于获取待识别的文本图像;
裁剪模块,用于对所述文本图像进行裁剪,获得至少两个子图像;每个所述子图像中包含的字符数量小于文本识别模型能够识别的字符数量;
输入模块,用于将每个所述子图像输入文本识别模型;其中,所述文本识别模型包括:特征提取模块、编码器、特征解码模块;
特征提取模块,用于提取每个所述子图像的文本识别模型第一特征映射;
编码器,用于对每个所述第一特征映射进行编码,得到每个所述子图像的第二特征映射;其中,所述编码器包括一个或多个相互串联的基础模块一以及位置编码操作;所述编码器的位置编码操作包括:二维位置编码操作和最大池化操作;
特征解码模块,用于对每个所述第三特征映射进行处理,得到每个所述子图像对应的子文本行;
拼接模块,用于对每个所述子图像对应的子文本行进行拼接,得到所述文本图像对应的文本行。
14.一种电子设备,其特征在于,包括:
处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-12中任一项所述的方法。
15.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,其中,所述计算机指令用于使所述计算机执行根据权利要求1-12中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210375788.9A CN114627464A (zh) | 2022-04-11 | 2022-04-11 | 文本识别方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210375788.9A CN114627464A (zh) | 2022-04-11 | 2022-04-11 | 文本识别方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114627464A true CN114627464A (zh) | 2022-06-14 |
Family
ID=81906562
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210375788.9A Pending CN114627464A (zh) | 2022-04-11 | 2022-04-11 | 文本识别方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114627464A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115393872A (zh) * | 2022-10-27 | 2022-11-25 | 腾讯科技(深圳)有限公司 | 一种训练文本分类模型的方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111695385A (zh) * | 2019-03-15 | 2020-09-22 | 杭州海康威视数字技术股份有限公司 | 文本识别方法、装置及设备 |
CN113283427A (zh) * | 2021-07-20 | 2021-08-20 | 北京世纪好未来教育科技有限公司 | 文本识别方法、装置、设备及介质 |
-
2022
- 2022-04-11 CN CN202210375788.9A patent/CN114627464A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111695385A (zh) * | 2019-03-15 | 2020-09-22 | 杭州海康威视数字技术股份有限公司 | 文本识别方法、装置及设备 |
CN113283427A (zh) * | 2021-07-20 | 2021-08-20 | 北京世纪好未来教育科技有限公司 | 文本识别方法、装置、设备及介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115393872A (zh) * | 2022-10-27 | 2022-11-25 | 腾讯科技(深圳)有限公司 | 一种训练文本分类模型的方法、装置、设备及存储介质 |
CN115393872B (zh) * | 2022-10-27 | 2023-01-17 | 腾讯科技(深圳)有限公司 | 一种训练文本分类模型的方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113344014B (zh) | 文本识别方法和装置 | |
CN114821622A (zh) | 文本抽取方法、文本抽取模型训练方法、装置及设备 | |
CN113343958B (zh) | 一种文本识别方法、装置、设备及介质 | |
CN113254654B (zh) | 模型训练、文本识别方法、装置、设备和介质 | |
CN115063875B (zh) | 模型训练方法、图像处理方法、装置和电子设备 | |
CN113255652B (zh) | 文本修正方法、装置、设备及介质 | |
CN114022887B (zh) | 文本识别模型训练及文本识别方法、装置、电子设备 | |
CN109977762B (zh) | 一种文本定位方法及装置、文本识别方法及装置 | |
CN113221718A (zh) | 公式识别方法、装置、存储介质和电子设备 | |
CN114429637A (zh) | 一种文档分类方法、装置、设备及存储介质 | |
CN114581926B (zh) | 多行文本识别方法、装置、设备及介质 | |
CN114005019B (zh) | 一种翻拍图像识别方法及其相关设备 | |
CN111767889A (zh) | 公式识别方法、电子设备及计算机可读介质 | |
CN114627464A (zh) | 文本识别方法、装置、电子设备和存储介质 | |
CN113837965A (zh) | 图像清晰度识别方法、装置、电子设备及存储介质 | |
CN113516697A (zh) | 图像配准的方法、装置、电子设备及计算机可读存储介质 | |
CN113255629B (zh) | 文档处理方法、装置、电子设备及计算机可读存储介质 | |
CN113486171B (zh) | 一种图像处理方法及装置、电子设备 | |
CN113723367B (zh) | 一种答案确定方法、判题方法及装置和电子设备 | |
CN115273057A (zh) | 文本识别方法、装置和听写批改方法、装置及电子设备 | |
CN114758331A (zh) | 文本识别方法、装置、电子设备和存储介质 | |
CN114708580A (zh) | 文本识别、模型训练方法、装置、设备、存储介质及程序 | |
CN114494678A (zh) | 文字识别方法和电子设备 | |
CN113326815B (zh) | 一种文档处理方法、装置、电子设备及可读存储介质 | |
CN114118075B (zh) | 文本识别方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |