CN115984876A

CN115984876A - 文本识别方法、装置、电子设备、车辆及存储介质

Info

Publication number: CN115984876A
Application number: CN202211616844.XA
Authority: CN
Inventors: 陆强
Original assignee: International Network Technology Shanghai Co Ltd
Current assignee: International Network Technology Shanghai Co Ltd
Priority date: 2022-12-15
Filing date: 2022-12-15
Publication date: 2023-04-18

Abstract

本发明提供一种文本识别方法、装置、电子设备、车辆及存储介质，该文本识别方法通过获取待识别的目标图像；将待识别的目标图像输入文本识别模型，以根据文本识别模型输出文本识别结果；该文本识别模型包括特征提取模块、非序列式文本识别模块和序列式文本识别模块，特征提取模块用于提取待识别的目标图像中的图像特征，非序列式文本识别模块用于根据图像特征得到字符位置预测概率图，序列式文本识别模块用于根据图像特征和字符位置预测概率图得到文本识别结果，由于非序列式识别模块对单个字符不容易识别错；序列式识别模块对待识别字符串的各字符语义关系预测的更好，因此，将非序列式识别模块和序列式识别模块结合可以提高文本识别准确率。

Description

文本识别方法、装置、电子设备、车辆及存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种文本识别方法、装置、电子设备、车辆及存储介质。

背景技术

目前，利用光学字符识别(Optical Character Recognition，OCR)等字符识别技术可以将图像中的文本识别为计算机可以理解的文本数据。OCR技术是指对文本资料、卡片等的图像文件进行分析识别处理，获取文字及版面信息的过程，在图像处理领域有广泛应用。

在自动驾驶、自动泊车等场景中，往往也会采用字符识别技术对限速标志、车牌号码、车位号码等文本进行识别。现有的自动驾驶、自动泊车等场景文本识别模型为序列式识别模型或非序列式识别模型，序列式识别模型有利于提取文本之间的字符关联信息，但识别新的文本(未曾在训练集中出现过的文本)时，可能会预测错误的字符关联信息，造成文本字符串预测错误；非序列式识别模型是根据字符形状等特征来进行识别，适用于单个字符识别，但不利于提取整个文本字符串的字符关联信息。

发明内容

本发明提供一种文本识别方法、装置、电子设备、车辆及存储介质，用以解决现有文本识别模型对文本识别的准确率不高，不能满足自动驾驶、自动泊车等场景的使用需求的缺陷。

本发明提供一种文本识别方法，包括：

获取待识别的目标图像；

将所述待识别的目标图像输入文本识别模型，以根据所述文本识别模型输出文本识别结果；

所述文本识别模型包括特征提取模块、非序列式文本识别模块和序列式文本识别模块，所述特征提取模块用于提取所述待识别的目标图像中的图像特征，所述非序列式文本识别模块用于根据所述图像特征得到字符位置预测概率图，所述序列式文本识别模块用于根据所述图像特征和所述字符位置预测概率图得到所述文本识别结果。

根据本发明提供的一种文本识别方法，所述文本识别模型还包括：

特征注意力模块，所述特征注意力模块用于根据所述位置预测概率对所述图像特征进行权重增强，得到增强特征；

所述序列式文本识别模块还用于根据所述增强特征输出所述待识别的目标图像中的各个单一字符。

根据本发明提供的一种文本识别方法，所述序列式文本识别模块，包括：

压平单元，用于将多维的增强特征转换为一维特征向量；

LSTM单元，用于联系上下文的信息对所述一维特征向量进行组合；

CTC损失单元，用于根据组合后特征向量输出各个单一字符。

解码模块，与所述特征提取模块连接，用于对所述图像特征进行上采样和特征解码操作；

预测模块，分别与所述解码模块和所述非序列式文本识别模块连接，用于根据所述解码模块输出结果得到字符框的高度和宽度，以使所述非序列式文本识别模块根据所述字符框的高度和宽度得到字符位置预测概率图。

根据本发明提供的一种文本识别方法，所述非序列式文本识别模块，包括：

字符位置预测分支，用于根据所述字符框的高度和宽度预测图像中各像素点在字符框区域内的概率，得到字符位置预测概率图；

辅助训练分支，用于在所述字符位置预测分支进行训练时，输出每个像素点的字符类别预测概率，将所述字符类别作为附加监督信息对所述字符位置预测分支进行训练。

根据本发明提供的一种文本识别方法，所述图像中各像素点在字符框区域内的概率的计算方法，包括：

像素点p在字符框区域内的概率值为d/max(w,h)，其中d为p到字符中心点的距离，所述字符中心点根据模型训练集中字符标注框的标注信息获取，w为字符框的宽度，h为字符框的高度。

本发明还提供一种文本识别装置，包括：

获取模块，用于获取待识别的目标图像；

输出模块，用于将所述待识别的目标图像输入文本识别模型，以根据所述文本识别模型输出文本识别结果；所述文本识别模型包括特征提取模块、非序列式文本识别模块和序列式文本识别模块，所述特征提取模块用于提取所述待识别的目标图像中的图像特征，所述非序列式文本识别模块用于根据所述图像特征得到字符位置预测概率图，所述序列式文本识别模块用于根据所述图像特征和所述字符位置预测概率图得到所述文本识别结果。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一项所述的文本识别方法。

本发明还提供一种车辆，包括如上述所述的电子设备。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的文本识别方法。

本发明提供的一种文本识别方法、装置、电子设备、车辆及存储介质，通过获取待识别的目标图像；将待识别的目标图像输入文本识别模型，以根据文本识别模型输出文本识别结果；该文本识别模型包括特征提取模块、非序列式文本识别模块和序列式文本识别模块，特征提取模块用于提取待识别的目标图像中的图像特征，非序列式文本识别模块用于根据图像特征得到字符位置预测概率图，序列式文本识别模块用于根据图像特征和字符位置预测概率图得到文本识别结果，由于非序列式识别模块对单个字符不容易识别错；序列式识别模块对待识别字符串的各字符语义关系预测的更好，因此，将非序列式识别模块和序列式识别模块结合可以提高文本识别准确率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的文本识别方法的流程示意图之一；

图2是本发明提供的文本识别方法的流程示意图之二；

图3是本发明提供的文本识别装置的结构示意图；

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的文本识别方法的流程图，如图1所示，本发明实施例提供的文本识别方法包括：

步骤101、获取待识别的目标图像；

步骤102、将待识别的目标图像输入文本识别模型，以根据文本识别模型输出文本识别结果；该文本识别模型包括特征提取模块、非序列式文本识别模块和序列式文本识别模块，特征提取模块用于提取待识别的目标图像中的图像特征，非序列式文本识别模块用于根据图像特征得到字符位置预测概率图，序列式文本识别模块用于根据图像特征和字符位置预测概率图得到所述文本识别结果。

在本发明实施例中，特征提取模块用于对图像进行下采样和特征提取操作，特征提取模块为主干网络(backbone)模块，主干网络是提取特征的网络，其作用就是提取图片中的信息，供后面的网络使用。

在本发明实施例中，字符位置预测概率图中包括图像中每个位置上的像素点为字符的概率，从而可以根据字符位置预测概率图确定每个字符的具体位置。

传统的自动驾驶、自动泊车等场景文本识别模型为序列式识别模型或非序列式识别模型，序列式识别模型有利于提取文本之间的字符关联信息，但识别新的文本时，可能会预测错误的字符关联信息，造成文本字符串预测错误；非序列式识别模型是根据字符形状等特征来进行识别，适用于单个字符识别，但不利于提取整个文本字符串的字符关联信息。

本发明提供的一种文本识别方法，通过获取待识别的目标图像；将待识别的目标图像输入文本识别模型，以根据文本识别模型输出文本识别结果；该文本识别模型包括特征提取模块、非序列式文本识别模块和序列式文本识别模块，特征提取模块用于提取待识别的目标图像中的图像特征，非序列式文本识别模块用于根据图像特征得到字符位置预测概率图，序列式文本识别模块用于根据图像特征和字符位置预测概率图得到文本识别结果，结合非序列式识别模型的优点和序列式识别模型的优点，提高了文本识别准确率。

基于上述任一实施例，如图2所示，该文本识别模型还包括：

特征注意力模块，该特征注意力模块用于根据位置预测概率对图像特征进行权重增强，得到增强特征；

非序列式识别模块结构进行下采样后输入至特征注意力模块，特征注意力模块通过拼接层和卷积层对位置预测概率图进行下采样后和图像特征进行拼接和卷积操作，得到增强特征，从而提高后续序列式文本识别模块的预测效果。

在本发明实施例中，该序列式文本识别模块还用于：

根据增强特征输出待识别的目标图像中的各个单一字符。

在本发明实施例中，序列式文本识别模块，包括：

压平单元，用于将多维的增强特征转换为一维特征向量；

在本发明实施例中，压平单元用来将输入“压平”，即把多维的输入一维化，常用在从卷积层到全连接层的过渡。Flatten不影响批处理量的大小。把高纬度的数组按照x轴或者y轴进行拉伸，变成一维的数组。

LSTM(Long Short-Term Memory，长短期记忆网络)单元，用于联系上下文的信息对所述一维特征向量进行组合；

在本发明实施例中，LSTM是一种时间循环神经网络，是为了解决一般的循环神经网络存在的长期依赖问题而设计出来的，LSTM可以解决对于长距离的句子的学习效果不好的问题。

CTC(Connectionist Temporal Classification，基于神经网络的时序类分类)损失单元，用于根据组合后特征向量输出各个单一字符。

在本发明实施例中，CTC损失能够解决输入输出长度不等任务的原因在于两点：第一，CTC让模型可以在连续的时间片段中，输出相同的字符，并通过合并相同字符的方式，让连续时间片段的输出为单一字符；第二，在目标输出中存在重复字符的时候，比如hello的l，CTC引入了blank字符，在blank字符前后的相同字符不会被合并。因为有重复字符以及blank的存在，相同输出可能存在多条路径，因此CTC损失的目的就是最大化所有可能路径的概率。神经网络的训练将以CTC损失函数为指导，将神经网络的输出矩阵和相应的目标(ground-truth，GT)文本输入到CTC损失函数中，它尝试图像中GT文本的所有可能的对齐，并对所有的得分求和。如果对齐分数的求和值很高，则GT文本的分数就很高。

该文本识别模型还包括：

解码模块(decoder)，与特征提取模块连接，用于对图像特征进行上采样和特征解码操作；解码模块是将固定长度的向量转化为输出的目标序列。

预测模块(head)，与非序列式文本识别模块连接，用于根据解码模块输出结果得到字符框的高度和宽度，以使非序列式文本识别模块根据字符框的高度和宽度得到字符位置预测概率图。

预测模块是获取网络输出内容的网络，预测模块利用之前提取的特征，做出预测。

在本发明实施例中，非序列式文本识别模块，包括：

字符位置预测分支，用于根据字符框的高度和宽度预测图像中各像素点在字符框区域内的概率；

辅助训练分支，用于在字符位置预测分支进行训练时，输出每个像素点的字符类别预测概率，将字符类别作为附加监督信息对所述字符位置预测分支进行训练。

在本发明实施例中，字符类别包括但不限于数字、字母、特殊符号等。辅助训练，指的是训练时增加新的监督信息(例如增加了字符类别信息)，目的是为了提升数据多样性，提高训练鲁棒性和泛化性，使得模型的特征语义性和鲁棒性更强。

在本发明实施例中，还包括通过训练loss对字符位置预测分支进行训练，以使字符位置预测分支输出结果更准确。训练loss例如为中心损失(focal loss)，focal loss是为了解决one-stage目标检测中正负样本数量极不平衡问题，正负样本不平衡是指在一张图像中能够匹配到目标的候选框(正样本)个数一般只有十几个或几十个，而没有匹配到的候选框(负样本)则有10000～100000个。这么多的负样本不仅对训练网络起不到什么作用，反而会淹没掉少量但有助于训练的样本。Focal loss是基于二分类交叉熵CE的。它是一个动态缩放的交叉熵损失，通过一个动态缩放因子，可以动态降低训练过程中易区分样本的权重，从而将重心快速聚焦在那些难区分的样本，有可能是正样本，也有可能是负样本，但都是对训练网络有帮助的样本。

在本发明实施例中，图像中各像素点在字符框区域内的概率的计算方法，包括：

像素点p在字符框区域内的概率值为d/max(w,h)，其中d为p到字符中心点的距离，字符中心点根据模型训练集中字符标注框的标注信息获取，w为字符框的宽度，h为字符框的高度。

本发明实施例提供的文本识别方法，非序列式识别模块对单个字符不容易识别错；序列式识别模块对待识别字符串的各字符语义关系预测的更好，因此，将二者结合可以提高文本识别准确率。

下面对本发明提供的文本识别装置进行描述，下文描述的文本识别装置与上文描述的文本识别方法可相互对应参照。

图3为本发明实施例提供的文本识别装置的示意图，如图3所示，本发明实施例提供的文本识别装置包括：

获取模块301，用于获取待识别的目标图像；

输出模块302，用于将待识别的目标图像输入文本识别模型，以根据文本识别模型输出文本识别结果；该文本识别模型包括特征提取模块、非序列式文本识别模块和序列式文本识别模块，特征提取模块用于提取待识别的目标图像中的图像特征，非序列式文本识别模块用于根据图像特征得到字符位置预测概率图，所述序列式文本识别模块用于根据图像特征和所述字符位置预测概率图得到文本识别结果。

在本发明实施例中，序列式文本识别模块，包括：

压平单元，用于将多维的增强特征转换为一维特征向量；

CTC损失单元，用于根据组合后特征向量输出各个单一字符。

在本发明一些实施例中，序列式文本识别模块例如为CRNN(ConvolutionalRecurrent Neural Network，卷积循环神经网络结构)模型，用于端到端地对不定长的文本序列进行识别，不用先对单个文字进行切割，而是将文本识别转化为时序依赖的序列学习问题，就是基于图像的序列识别，可识别较长的文本序列，有效提升文本识别准确率，使得模型更加鲁棒。预测过程中，前端提取文本图像的特征，将特征向量进行融合以提取字符序列的上下文特征，然后得到每列特征的概率分布，最后通过转录层进行预测得到文本序列。

在本发明实施例中，非序列式文本识别模块，包括：

辅助训练分支，用于在字符位置预测分支进行训练时，输出每个字符框中心点，所述字符中心点用于对所述预测图像中各像素点在字符框区域内的概率进行监督。

本发明提供的一种文本识别装置，通过获取待识别的目标图像；将待识别的目标图像输入文本识别模型，以根据文本识别模型输出文本识别结果；该文本识别模型包括特征提取模块、非序列式文本识别模块和序列式文本识别模块，特征提取模块用于提取待识别的目标图像中的图像特征，非序列式文本识别模块用于根据图像特征得到字符位置预测概率图，序列式文本识别模块用于根据图像特征和字符位置预测概率图得到文本识别结果，结合非序列式识别模型的优点和序列式识别模型的优点，提高了文本识别准确率。

基于上述任一实施例，该文本识别模型还包括：

序列式文本识别模块还用于根据增强特征输出待识别的目标图像中的各个单一字符。

解码模块，与特征提取模块连接，用于对所述图像特征进行上采样和特征解码操作；

预测模块，分别与解码模块和非序列式文本识别模块连接，用于根据解码模块输出结果得到字符框的高度和宽度，以使非序列式文本识别模块根据字符框的高度和宽度得到字符位置预测概率图。

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(CommunicationsInterface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行文本识别方法，该方法包括：获取待识别的目标图像；将待识别的目标图像输入文本识别模型，以根据文本识别模型输出文本识别结果；该文本识别模型包括特征提取模块、非序列式文本识别模块和序列式文本识别模块，特征提取模块用于提取待识别的目标图像中的图像特征，非序列式文本识别模块用于根据图像特征得到字符位置预测概率图，序列式文本识别模块用于根据图像特征和字符位置预测概率图得到文本识别结果。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种车辆，包括如上述所述的电子设备。

再一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的文本识别方法，该方法包括：获取待识别的目标图像；将待识别的目标图像输入文本识别模型，以根据文本识别模型输出文本识别结果；该文本识别模型包括特征提取模块、非序列式文本识别模块和序列式文本识别模块，特征提取模块用于提取待识别的目标图像中的图像特征，非序列式文本识别模块用于根据图像特征得到字符位置预测概率图，序列式文本识别模块用于根据图像特征和字符位置预测概率图得到文本识别结果。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文本识别方法，其特征在于，包括：

获取待识别的目标图像；

2.根据权利要求1所述的一种文本识别方法，其特征在于，所述文本识别模型还包括：

3.根据权利要求2所述的一种文本识别方法，其特征在于，所述序列式文本识别模块，包括：

压平单元，用于将多维的增强特征转换为一维特征向量；

CTC损失单元，用于根据组合后特征向量输出各个单一字符。

4.根据权利要求1所述的一种文本识别方法，其特征在于，所述文本识别模型还包括：

5.根据权利要求4所述的一种文本识别方法，其特征在于，所述非序列式文本识别模块，包括：

6.根据权利要求5所述的一种文本识别方法，其特征在于，所述图像中各像素点在字符框区域内的概率的计算方法，包括：

7.一种文本识别装置，其特征在于，包括：

获取模块，用于获取待识别的目标图像；

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述的文本识别方法。

9.一种车辆，其特征在于，包括如权利要求8所述的电子设备。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的文本识别方法。