CN113903041A

CN113903041A - 文本识别方法、装置、车辆及存储介质

Info

Publication number: CN113903041A
Application number: CN202111080968.6A
Authority: CN
Inventors: 梁康正
Original assignee: Guangzhou Xiaopeng Autopilot Technology Co Ltd
Current assignee: Guangzhou Xiaopeng Autopilot Technology Co Ltd
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2022-01-07

Abstract

本申请实施例公开一种文本识别方法、装置、车辆及存储介质，该方法包括：将待识别的目标图像输入至识别模型，所述识别模型是利用样本数据进行训练得到的，所述样本数据包括多帧样本图像，所述样本图像包含样本文本对象，并标注有所述样本文本对象的字符识别参考信息和清晰度参考信息；通过所述识别模型对所述目标图像中的目标文本对象进行字符识别和清晰度计算，以得到所述目标文本对象的第一字符识别结果和第一清晰度预测结果；根据所述第一清晰度预测结果和所述第一字符识别结果生成所述目标文本对象的文本识别结果。实施本申请实施例，能够提高文本识别的准确率。

Description

文本识别方法、装置、车辆及存储介质

技术领域

本申请涉及图像处理技术领域，具体涉及一种文本识别方法、装置、车辆及存储介质。

背景技术

目前，利用光学字符识别(Optical Character Recognition，OCR)等字符识别技术可以图像中的文本识别为计算机可以理解的文本数据。在自动驾驶、自动泊车等场景中，往往也会采用字符识别技术对车牌号码、车位号码等文本进行识别。然而，在实践中发现，在自动驾驶、自动泊车等场景中，文本识别的准确率并不高。

发明内容

本申请实施例公开了一种文本识别方法、装置、车辆及存储介质，能够提高文本识别的准确率。

本申请实施例公开一种文本识别方法，所述方法包括：将待识别的目标图像输入至识别模型，所述识别模型是利用样本数据进行训练得到的，所述样本数据包括多帧样本图像，所述样本图像包含样本文本对象，并标注有所述样本文本对象的字符识别参考信息和清晰度参考信息；通过所述识别模型对所述目标图像中的目标文本对象进行字符识别和清晰度计算，以得到所述目标文本对象的第一字符识别结果和第一清晰度预测结果；根据所述第一清晰度预测结果和所述第一字符识别结果生成所述目标文本对象的文本识别结果。

在一个实施例中，所述清晰度参考信息包括：所述样本文本对象整体的清晰度；所述第一清晰度预测结果包括：所述目标文本对象整体的清晰度；以及，根据所述第一清晰度预测结果和所述第一字符识别结果生成所述目标文本对象的文本识别结果，包括：若所述目标文本对象整体的清晰度高于清晰度阈值，则将所述第一字符识别结果包括的所述目标文本对象中各个目标字符的字符类别，以及所述各个目标字符的图像位置生成所述目标文本对象的文本识别结果。

在一个实施例中，所述清晰度参考信息包括：所述样本文本对象中各个样本字符的清晰度；所述清晰度预测结果包括：所述目标文本对象中各个目标字符的清晰度；以及，根据所述第一清晰度预测结果和所述第一字符识别结果生成所述目标文本对象的文本识别结果，包括：根据所述目标文本对象中各个目标字符的清晰度计算所述目标文本对象整体的清晰度；若所述目标文本对象整体的清晰度高于清晰度阈值，则将所述第一字符识别结果包括的所述目标文本对象中各个目标字符的字符类别，以及所述各个目标字符的图像位置生成所述目标文本对象的文本识别结果。

在一个实施例中，所述目标文本对象包括：车位号码；所述通过所述识别模型对所述目标图像中的目标文本对象进行字符识别和清晰度计算，以得到所述目标文本对象的第一字符识别结果和第一清晰度预测结果，包括：通过所述识别模型对所述目标图像进行车位号检测，得到车位号检测结果；所述车位号检测结果包括一个或多个车位号检测框，每个所述车位号检测框用于指示每个车位号码在所述目标图像中的图像位置；通过所述识别模型对所述目标图像中的每个字符进行字符识别和清晰度计算，得到所述目标图像的第二字符识别结果和第二清晰度预测结果；所述第二字符识别结果包括所述目标图像中每个字符的字符类别和图像位置；所述第二清晰度预测结果包括所述目标图像中每个字符的清晰度；从各个所述车位号检测框中筛选出目标检测框，以及从所述目标图像包括的各个字符中筛选出待检测字符；根据所述目标图像中每个所述待检测字符的图像位置，从各个所述待检测字符中筛选出处于所述目标检测框内的字符，作为属于所述车位号码的目标字符；从所述第二字符识别结果中获取所述目标字符的字符类别以及图像位置，作为所述车位号码的第一字符识别结果，以及从所述第二清晰度预测结果中获取所述目标字符的清晰度，作为所述车位号码的第一清晰度预测结果。

在一个实施例中，所述车位号检测结果，还包括：每个车位号检测框的置信度；以及，所述从各个所述车位号检测框中筛选出目标检测框，包括：从各个所述车位号检测框中筛选出置信度高于第一置信度阈值的车位号检测框作为目标检测框。

在一个实施例中，所述第二字符识别结果还包括：所述目标图像中每个字符的置信度；以及，从所述目标图像包括的各个字符中筛选出待检测字符，包括：从所述目标图像包括的各个字符中筛选出置信度高于第二置信度阈值的字符作为待检测字符。

在一个实施例中，在所述将待识别的目标图像输入至识别模型之前，所述方法还包括：从样本数据中获取样本图像，以及所述样本图像标注有的字符识别参考信息和清晰度参考信息；通过待训练的识别模型对样本图像中的样本文本对象进行字符识别和清晰度计算，以得到所述样本文本对象的第三字符识别结果和第三清晰度预测结果；根据所述第三字符识别结果和所述字符识别参考信息之间的第一误差，以及所述第三清晰度预测结果和所述清晰度参考信息之间的第二误差，对所述待训练的识别模型中的参数进行调整。

本申请实施例公开一种文本识别装置，所述装置包括：输入模块，用于将待识别的目标图像输入至识别模型，所述识别模型是利用样本数据进行训练得到的，所述样本数据包括多帧样本图像，所述样本图像包含样本文本对象，并标注有所述样本文本对象的字符识别参考信息和清晰度参考信息；计算模块，用于通过所述识别模型对所述目标图像中的目标文本对象进行字符识别和清晰度计算，以得到所述目标文本对象的第一字符识别结果和第一清晰度预测结果；生成模块，用于根据所述第一清晰度预测结果和所述第一字符识别结果生成所述目标文本对象的文本识别结果。

本申请实施例公开一种车辆，包括存储器及处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器实现本申请实施例公开的任意一种文本识别方法。

本申请实施例公开一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请实施例公开的任意一种文本识别方法。

与相关技术相比，本申请实施例具有以下有益效果：

通过识别模型对待识别的目标图像中的目标文本对象进行字符识别和清晰度计算，并根据识别模型输出的第一字符识别结果和第一清晰度预测结果生成目标文本对象的文本识别结果，可以减少目标图像的模糊不清对文本识别准确率的影响，提高文本识别的准确率。

并且，区别于传统的基于人工设计的特征进行字符识别和清晰度计算的方法，通过训练得到的识别模型进行字符识别和清晰度计算的准确率更高，可以进一步提高最终的文本识别准确率。此外，识别模型是针对性地对目标文本对象的清晰度进行计算，而非对目标图像整体的清晰度进行计算，可以减少目标图像中除目标文本对象以外的背景区域的清晰度对文本识别的影响，进一步提高文本识别的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是一个实施例公开的一种文本识别方法的应用场景示例图；

图2是一个实施例公开的一种文本识别方法的方法流程示意图；

图3是一个实施例公开的一种别模型对目标文本对象进行字符识别和清晰度计算的方法流程示意图；

图4是一个实施例公开的一种识别模型对目标图像进行处理的示例图；

图5是一个实施例公开的一种识别模型的训练方法的流程示意图；

图6是一个实施例公开的一种文本识别装置的结构示意图；

图7是一个实施例公开的一种车辆的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例及附图中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在相关技术中，图像中文本识别准确率往往与图像的清晰度相关。若图像过于模糊，一般难以得到较为准确的文本识别结果。然而，在实际的工业应用场景中，影响图像拍摄的因素较多，要求拍摄到的图像十分清晰是不现实的。例如，在自动驾驶、自动泊车等场景中，停车场的设备老化导致车位号码的印刷不清晰、车辆的行驶速度过快，车辆的摄像装置无法及时对焦等原因都可能导致图像模糊，从而影响文本识别的准确率。

本申请实施例公开了一种文本识别方法、装置、车辆及存储介质，能够提高文本识别的准确率。以下分别进行详细说明。

请参阅图1，图1是一个实施例公开的一种文本识别方法的应用场景示例图。如图1所示，车辆10可设置有摄像装置，摄像装置可以设置在车辆的车头、两侧后视镜、车尾等一个或多个位置，具体不做限定。

车辆10可以在行驶的同时通过摄像装置拍摄停车位20的图像。车位20上可印刷有车位号码210，车位号码210可用于对车辆20进行标识。车辆的摄像装置拍摄到的图像中包括车位号码210的影像，需要对图像进行文本识别，以将图像包括的车位号码210识别为计算机可以理解的文本数据。

请参阅图2，图2是一个实施例公开的一种文本识别方法的方法流程示意图。该方法可应用于车辆的车载电脑、个人电脑、服务器等电子设备，具体不做限定。为了便于描述，以下内容以车辆为例进行说明。如图2所示，该方法可包括以下步骤：

210、将待识别的目标图像输入至识别模型。

目标图像可以是车辆的摄像装置拍摄到的图像；或者，也可以是车辆从智能手机、云端服务器等电子设备中获取到的图像，具体不做限定。目标图像中包括待识别的目标文本对象，例如包括待识别的车位号码、车牌号、交通标志、路牌文本等。

识别模型可以是任意一种人工神经网络模型或者分类器，具体不做限定。示例性的，识别模型可包括残差网络(Residual Network，Resnet)和特征金字塔网络(FeaturePyramid Networks，FPN)。

识别模型可以是经过训练的，能够提取图像中隐含的图像特征。识别模型的能力可与训练时使用的样本数据相关，样本数据可包括：多帧样本图像。每帧样本图像可包含样本文本对象，并标注有样本文本对象的字符识别参考信息和清晰度参考信息。

其中，样本文本对象可指样本图像中的待识别样本文本，例如车位号码、车牌号码、交通标志、路牌文本等。

样本文本对象的字符识别参考信息，可指与待识别样本文本对应的，计算机可以理解的文本数据，可包括样本文本对象中各个字符的字符类别。示例性的，在车位号码识别的应用场景中，字符分类可包括37个类别，分别为26个英文字母，10个数字和一个连接符“-”。识别模型对图像中的文本进行识别的过程实际上可理解为基于图像特征对文本中的字符进行分类的过程。

样本文本对象的清晰度参考信息，可指待识别样本文本对象的清晰度，可通过清晰度等级或者清晰度百分比等形式进行表示。其中，清晰度参考信息可包括以下两种信息中的任意一种：样本文本对象整体的清晰度；或者，样本文本对象中各个字符的清晰度。

样本文本对象的字符识别参考信息和清晰度参考信息，可以为正确的真值(Ground Truth)，可由人工标注，但不限于此。

在本申请实施例中，可预先利用样本数据对识别模型进行有监督、无监督或者半监督的训练，具体不做限定。此外，对识别模型进行训练的操作可以由车辆执行；或者，对识别模型进行训练的操作也可以由个人电脑、云端服务器等电子设备执行，车辆可以从上述的电子设备中获取训练好的识别模型，并将训练好的识别模型存储在车辆中，具体不做限定。

220、通过识别模型对目标图像中的目标文本对象进行字符识别和清晰度计算，以得到目标文本对象的第一字符识别结果和第一清晰度预测结果。

训练好的识别模型具有字符识别能力，可以对目标文本对象进行字符识别，得到第一字符识别结果；训练好的识别模型还可具有清晰度计算能力，可以对目标文本对象进行清晰度计算，得到第一清晰度预测结果。

第一字符识别结果，可至少包括识别模型预测的目标文本对象中各个目标字符的字符类别。可选的，还可进一步包括各个目标字符在目标图像中的图像位置以及置信度等信息。

第一清晰度预测结果，可包括以下两种信息中的任意一种：

目标文本对象整体的清晰度；示例性的，识别模型可预测图1所示的车牌号码210整体的清晰度为0.9。

目标文本对象中各个目标字符的清晰度；示例性的，图1所示的车牌号码210中的每个目标字符“B”、“1”，“-”，“2”，“3”，“5”，识别模型均可预测出对应的清晰度。

第一清晰度预测结果为哪一种信息可与识别模型训练时的清晰度参考信息相关。若清晰度参考信息为样本文本对象整体的清晰度，则第一清晰度预测结果可为目标文本对象整体的清晰度；若清晰度参考信息为样本文本对象中各个样本字符的清晰度，则第一清晰度预测结果可为目标文本对象中各个目标字符的清晰度。

当第一清晰度预测结果为目标文本对象整体的清晰度时，可以节省后续步骤230中的计算量，加快文本识别的响应速度。当第一清晰度预测结果为目标文本对象中各个目标字符的清晰度时，清晰度的粒度更细，对文本识别准确率的提升效果更好。

230、根据第一清晰度预测结果和第一字符识别结果生成目标文本对象的文本识别结果。

车辆可以根据第一清晰度预测结果判断是否使用第一字符识别结果，若第一清晰度预测结果指示目标文本对象的清晰度较高，则车辆可以使用第一字符识别结果生成目标文本对象；若第一清晰度预测结果指示目标文本对象的清晰度较低，则车辆可以抛弃第一字符识别结果，以避免生成错误的文本识别结果。

第一字符识别结果可包括识别模型预测的目标文本对象中各个目标字符的字符类别；若目标文本对象为字符排列顺序无要求的文本，例如单个数字的车位号，则车辆可以直接将各个目标字符的字符类别确定为目标文本对象的文本识别结果。

第一字符识别结果还可进一步包括各个目标字符在目标图像中的图像位置；若目标文本对象为字符按照一定顺序排列的文本，则车辆可以按照各个目标字符的图像位置将对各个目标字符的字符类别进行排序，将排序后得到的字符串确定为目标文本对象的文本识别结果。

例如，图1所示的车牌号码210对应的文本识别结果可为“B1-235”。

在一个实施例中，若第一清晰度预测结果包括目标文本对象整体的清晰度，则车辆可以在目标文本对象整体的清晰度高于清晰度阈值时，将第一字符识别结果包括的目标文本对象中各个目标字符的字符类别，以及各个目标字符的图像位置生成目标文本对象的文本识别结果。

在一个实施例中，若第一清晰度预测结果包括目标文本对象中各个目标字符的清晰度，则车辆可以先根据各个目标字符的清晰度计算目标文本对象整体的清晰度，再将目标文本对象整体的清晰度与清晰度阈值进行比较。

可选的，车辆可计算各个目标字符的清晰度的平均值，例如均值平均值、加权平均值等，并将计算得到的平均值作为目标文本对象整体的清晰度。

若目标文本对象整体的清晰度高于清晰度阈值，则车辆可以根据第一字符识别结果包括的目标文本对象中各个目标字符的字符类别，以及各个目标字符的图像位置生成目标文本对象的文本识别结果。

在一个实施例中，若第一清晰度预测结果包括目标文本对象中各个目标字符的清晰度，则车辆还可以统计目标文本对象中清晰度高于清晰度阈值的目标字符的数量；若清晰度高于清晰度阈值的目标字符的比例高于比例阈值，则车辆可以根据第一字符识别结果包括的目标文本对象中各个目标字符的字符类别，以及各个目标字符的图像位置生成目标文本对象的文本识别结果。

前述的清晰度阈值和比例阈值等阈值可根据实际业务需求设置，例如清晰度阈值可以设置为0.8，比例阈值可设置为0.95，但不限于此。

可见，在前述实施例中，车辆可以通过识别模型对目标图像中的目标文本对象进行字符识别和清晰度计算，并根据识别模型输出的第一清晰度预测结果和第一字符识别结果生成目标文本对象的文本识别结果，从而可以减少目标图像的模糊不清对文本识别准确率的影响，提高文本识别的准确率。

此外，车辆可以通过训练好的识别模型进行字符识别和清晰度计算，区别于传统的基于人工设计的特征进行字符识别和清晰度计算的方法，识别模型可以更好地提取目标图像中隐含地图像特征，识别模型的字符识别和清晰度计算的准确率更高，可以进一步提高最终的文本识别准确率。

更进一步地，车辆可以通过训练好的识别模型针对性地对目标文本对象的清晰度进行计算，而非对目标图像整体的清晰度进行计算，可以减少目标图像中除目标文本对象以外的背景区域的清晰度对文本识别的影响，并且无需对目标图像进行额外的裁剪。

为了更好地说明本申请实施例中对目标文本对象进行字符识别和清晰度计算的具体实施方式，以下内容以目标文本对象包括车位号码为例进行介绍。需要说明的是，下述针对车位号码进行字符识别和清晰度计算的方法，也适用于其它文本对象，例如车牌号码、道路交通标志等，具体不做限定。

请参阅图3，图3是一个实施例公开的一种别模型对目标文本对象进行字符识别和清晰度计算的方法流程示意图。该方法可应用于前述的车辆，如图3所示，该方法可包括以下步骤：

310、通过识别模型对目标图像进行车位号检测，得到车位号检测结果。

目标图像中可能包括多种不同类型的文本对象，例如可能同时包括车位号码、车牌号码、交通标志等。在一些应用场景中，车辆可能需要获取目标图像包括的其中一种类型的文本对象，并不关心其它类型的文本对象。

例如，在自动泊车的场景中，车辆可能需要获取目标图像包括的车位号码，不需要目标图像包括的车牌号码等其它类型的文本对象。

基于此，车辆可以通过识别模型对目标图像进行车位号检测，得到车位号检测结果。其中，车位号检测结果包括一个或多个车位号检测框(Bounding Box)，每个车位号检测框用于指示每个车位号码在目标图像中的图像位置。即，识别模型可以定位出车位号码在目标图像中的图像位置。

320、通过识别模型对目标图像中的每个字符进行字符识别和清晰度计算，得到目标图像的第二字符识别结果和第二清晰度预测结果。

如前所述，目标图像中可能包括多种不同类型的文本对象。在本申请实施例中，车辆可以先通过识别模型对目标图像中的每个字符进行字符识别和清晰度计算，以得到第二字符识别结果和第二清晰度预测结果。

第二字符识别结果可以包括目标图像中每个字符的字符类别和图像位置；第二清晰度预测结果可以包括目标图像中每个字符的清晰度。

也就是说，若目标图像包括目标文本对象，以及与目标文本对象类型不同的其它文本对象，则第二字符识别结果可以包括目标文本对象和其它文本对象中每个字符的字符类别和图像位置，第二清晰度预测结果可以包括目标文本对象和其它文本对象中每个字符的清晰度。

示例性的，目标图像包括车位号码和车牌号码两种不同类型的文本对象，识别模型可以分别对车位号码和车号号码进行字符识别和清晰度计算，得到的第二字符识别结果，可以包括车位号码中每个字符的字符类别和图像位置，以及车牌号码中每个字符的字符类别和图像位置；识别得到的第二清晰度预测结果，可以包括车位号码中每个字符的清晰度，以及车牌号码中每个字符的清晰度。

需要说明的是，前述的步骤310和步骤320在逻辑上没有必然的先后关系，在一些实施例中，步骤310和步骤320可以同时执行。

330、从各个车位号检测框中筛选出目标检测框，以及从目标图像包括的各个字符中筛选出待检测字符。

识别模型输出的车位号检测结果中可能包括一个或多个车位号检测框，多个车位号检测框实际上可能对应于同一个车位号码。也就是说，车位号检测框存在冗余。字符同理，识别模型输出的第二字符识别结果中，各个字符的图像位置也可以通过字符检测框进行表示，字符检测框或者说字符的图像位置也能存在冗余。

此外，识别模型对目标图像的车位号检测和字符识别可能存在误差，车位号检测结果包括的部分车位号检测框，以及第二字符识别结果中部分字符的字符位置和字符分类可能存在误差。

为了减少冗余的车位检测框和字符检测框造成的不必要的计算量的增加，车辆可以先从识别模型输出的各个车位号检测框中筛选出目标检测框，以及从目标图像包括的各个字符中筛选出待检测字符。

在一个实施例中，识别模型输出的车位号检测结果还可包括每个车位号检测框的置信度，车位号检测框的置信度可用于指示检测框内的文本为车位号码的概率。若车位号检测框的置信度较低，则该车位号检测框可能是误识别的。

因此，车辆可以从各个车位号检测框中筛选出置信度高于第一置信度阈值的车位号检测框作为目标检测框。其中，第一置信度阈值可以根据实际的业务需求设置，例如设置为0.5，0.6等，但不限于此。

在一个实施例中，识别模型输出的第二车位号检测结果还可包括目标图像中每个字符的置信度，字符的置信度可用于指示字符的分类类别与字符的实际含义相符的概率。若字符的置信度较低，则该字符可能被划分到了错误的字符类别。

因此，车辆可以从目标图像包括的各个字符中筛选出置信度高于第二置信度阈值的字符作为待检测字符。其中，第二置信度阈值可与第一置信度阈值相同或者不同，第二置信度阈值也可根据实际的业务需求设置，例如设置为0.5，0.6等，但不限于此。即，筛选出的待检测字符的置信度较高，有利于提高车位号识别的准确率。

在一个实施例中，车辆还可以根据各个车位号检测框的置信度以及图像位置，从各个车位号检测框中筛选出目标检测框；以及，根据目标图像中各个字符的置信度和图像位置，从各个字符中筛选出待检测字符。

示例性的，车辆可通过非极大值抑制(Non-Maximum Suppression，NMS)算法对各个车位号检测框和各个字符进行筛选。NMS算法既可以筛选出置信度较高的车位号检测框和字符，还可以减少车位号检测框和字符检测框的冗余，减少不必要的计算量。

340、根据目标图像中每个待检测字符的图像位置，从各个待检测字符中筛选出处于目标检测框内的待检测字符，作为属于车位号码的目标字符。

车辆筛选出的待检测字符可能是车位号码的目标字符，也可能是其它文本对象包括的字符，而其它文本对象的字符可能并不参与目标文本对象(车位号码)的文本识别结果生成。

因此，车辆根据目标图像中每个待检测字符的图像位置，从各个待检测字符中筛选出处于目标检测框内的待检测字符，作为属于车位号码的目标字符。

350、从第二字符识别结果中获取目标字符的字符类别以及图像位置，作为车位号码的第一字符识别结果，以及从第二清晰度预测结果中获取目标字符的清晰度，作为车位号码的第一清晰度预测结果。

车辆在执行步骤340之后，可以从目标图像包括的多个字符中确定出属于车位号码的目标字符，从而在第二字符识别结果中抽取出目标字符的字符类别以及图像位置作为第一字符识别结果；以及，在第二清晰度预测结果中抽取出目标字符的清晰度作为第一清晰度预测结果。

车辆执行步骤350之后，可以根据第一清晰度预测结果包括的各个目标字符的清晰度计算车位号码整体的清晰度，并且在车位号码整体的清晰度高于清晰度阈值时，根据各个目标字符的字符类别以及图像位置，生成车位号码的文本识别结果。

可见，在前述实施例中，识别模型可以针对目标图像包括各个字符进行字符识别和清晰度计算，再根据车位号检测框和各个字符的位置筛选出属于车位号码的目标字符，从而得到目标文本对象(车位号码)的第一字符识别结果和第一清晰度计算结果，无需对目标图像进行额外的裁剪，也能够在目标图像包括多种不同类型的文本对象时，准确得到目标文本对象的字符识别结果和清晰度计算结果。

示例性的，为了清楚地说明识别模型的工作原理，以及车辆对识别模型输出的车位检测结果、第二字符识别结果和第二清晰度预测结果进行的后处理，请参阅图4，图4是一个实施例公开的一种识别模型对目标图像进行处理的示例图。

假设目标图像410的高度为H，宽度为W，通道数为3，将目标图像410输入至识别模型之后，可先通过Resnet34网络对目标图像410(H，W，3)进行处理，得到多级特征420。

多级特征420可包括Resnet34不同的网络层输出的图像特征。例如，多级特征420可包括4个不同的图像特征，分别为第一图像特征(H/4，W/4，64)、第二图像特征(H/8，W/8，128)、第三图像特征(H/16，W/16，256)、第四图像特征(H/32，W/32，512)。

多级特征420可通过FPN网络继续处理，得到FPN输出特征430，FPN输出特征430的大小可以为(H/4，W/4，128)。

FPN输出特征430可以进入两路不同的分支，以分别进行车位号码特征提取和字符特征提取。

首先，先介绍对FPN输出特征430进行车位号码特征提取的分支。

通过第一卷积核对FPN输出特征430进行处理，例如利用第一卷积核与FPN输出特征430相乘，可以对FPN输出特征430进行车位号码特征提取，得到车位号码特征440；

通过第二卷积核对车位号码特征440进行处理，例如利用第二卷积核与车位号码特征440相乘，可以对车位号码440进行置信度计算，得到车位号检测框的置信度；

通过第三卷积核对车位号码特征440进行处理，例如利用第三卷积核与车位号码特征440相乘，可以对车位号码440进行车位号码检测，得到车位号检测框。

在一些实施例中，可对车位号码特征440进行清晰度计算，得到车位号码整体的清晰度。

也就是说，对目标图像进行车位号检测得到的车位号检测结果包括：车位号检测框以及车位号检测框的置信度。

下面介绍对FPN输出特征430进行字符特征提取的分支。

通过第五卷积核对FPN输出特征430进行处理，例如利用第五卷积核与FPN输出特征430相乘，可以对FPN输出特征430进行字符特征提取，得到字符特征450；

通过第六卷积核、第七卷积和第八卷积核分别对字符特征450进行处理，可以分别对字符特征450进行置信度计算、字符检测和字符分类，从而得到字符置信度、字符检测框以及字符类型。其中，字符检测框可用于指示字符在目标图像中的图像位置。

通过第九卷积核对字符特征450进行处理，可以对字符进行清晰度计算，得到字符的清晰度。

也就是说，对目标图像中的每个字符进行字符识别得到的第二字符识别结果可包括：字符置信度、字符检测框以及字符类型。

对目标图像中的每个字符进行清晰度计算得到的第二清晰度预测结果可包括：字符的清晰度。

在本申请实施例中，识别模型可包括前述的Restnet34网络、FPN网络、第一、第二、第三、第四、第五、第六、第七、第八和第九卷积核。识别模型的训练过程可调整Restnet34网络、FPN网络和前述各个卷积核中的参数，从而使得训练好的各个网络和卷积核可以执行相对应的功能。

车辆在得到识别模型输出的车位检测结果、第二字符识别结果和第二清晰度预测结果之后，可以执行以下后处理操作：

根据车位号检测框的置信度和车位号检测框指示的图像位置，基于NMS算法对车位检测结果中的多个车位号检测框进行筛选，得到目标检测框；

根据第二字符识别结果包括的，各个字符的置信度和字符检测框指示的图像位置，基于NMS算法对各个字符进行筛选，得到待检测字符；

将待检测字符中处于目标检测框内的字符确定为车位号码的目标字符；

根据各个目标字符的字符检测框指示的图像位置确定各个目标字符在目标图像中的排序；

计算各个目标字符的清晰度的平均值，作为车位号码整体的清晰度；

若车位号码整体的清晰度大于清晰度阈值，则按照各个目标字符在目标图像中的排序对各个目标字符进行串联，得到车位号码最终的文本识别结果。

基于前述实施例公开的识别模型，以下内容对识别模型的训练方法进行说明。请参阅图5，图5是一个实施例公开的一种识别模型的训练方法的流程示意图。该方法可应用于车辆、个人电脑、云端服务器等电子设备，可以在前述的任意一种文本识别方法之前执行。如图5所示，该方法可以包括以下步骤：

510、从样本数据中获取样本图像，以及样本图像标注有的字符识别参考信息和清晰度参考信息。

样本数据可包括多帧样本图像；字符参考识别信息，可包括样本图像中样本文本对象的字符类别、图像位置和置信度。清晰度参考信息可包括样本文本对象整体的清晰度；或者样本文本对象中各个字符的清晰度。

520、通过待训练的识别模型对样本图像中的样本文本对象进行字符识别和清晰度计算，以得到样本文本对象的第三字符识别结果和第三清晰度预测结果。

样本文本对象的第三字符识别结果可包括：样本文本对象中各个字符的字符类别、字符位置和字符置信度。

若样本文本对象的清晰度参考信息包括样本文本对象整体的清晰度，则第三清晰度预测结果可包括识别模型预测的样本文本对象整体的清晰度；

若样本文本对象的清晰度参考信息包括样本文本对象中各个字符的清晰度，则第三清晰度预测结果可包括识别模型预测的样本文本对象中各个字符的清晰度。

530、根据第三字符识别结果和字符识别参考信息之间的第一误差，以及第三清晰度预测结果和清晰度参考信息之间的第二误差，对待训练的识别模型中的参数进行调整。

可预先构造识别模型的损失函数，损失函数可包括上述的第一误差和第二误差。对待训练的识别模型中的参数进行调整的目标可包括：最小化损失函数，但不限于此。

在一个实施例中，可以固定损失函数最小时识别模型中的参数，从而得到训练好的识别模型。

综上，在本申请实施例中，可以通过监督学习的方式对识别模型进行训练，使得训练好的识别模型具有对目标图像进行字符识别和清晰度计算的能力。

请参阅图6，图6是一个实施例公开的一种文本识别装置的结构示意图。该装置可应用于车载电脑、个人电脑或者服务器等电子设备，具体不做限定。如图6所示，文本识别装置600可包括：输入模块610、计算模块620和生成模块630。

输入模块610，用于将待识别的目标图像输入至识别模型，识别模型是利用样本数据进行训练得到的，样本数据包括多帧样本图像，样本图像包含样本文本对象，并标注有样本文本对象的字符识别参考信息和清晰度参考信息；

计算模块620，用于通过识别模型对目标图像中的目标文本对象进行字符识别和清晰度计算，以得到目标文本对象的第一字符识别结果和第一清晰度预测结果；

生成模块630，用于根据第一清晰度预测结果和第一字符识别结果生成目标文本对象的文本识别结果。

在一个实施例中，清晰度参考信息包括：所述样本文本对象整体的清晰度；所述第一清晰度预测结果包括：所述目标文本对象整体的清晰度。

上述的生成模块630，还可用于在目标文本对象整体的清晰度高于清晰度阈值时，将所述第一字符识别结果包括的所述目标文本对象中各个目标字符的字符类别，以及所述各个目标字符的图像位置生成所述目标文本对象的文本识别结果。

在一个实施例中，所述清晰度参考信息包括：所述样本文本对象中各个样本字符的清晰度；所述清晰度预测结果包括：所述目标文本对象中各个目标字符的清晰度。

上述的上述的生成模块630，还可用于根据所述目标文本对象中各个目标字符的清晰度计算所述目标文本对象整体的清晰度；

以及，在目标文本对象整体的清晰度高于清晰度阈值时，将所述第一字符识别结果包括的所述目标文本对象中各个目标字符的字符类别，以及所述各个目标字符的图像位置生成所述目标文本对象的文本识别结果。

在一个实施例中，目标文本对象包括：车位号码；

计算模块620，还可包括：检测识别单元和筛选单元。

检测识别单元，可用于通过所述识别模型对所述目标图像进行车位号检测，得到车位号检测结果；所述车位号检测结果包括一个或多个车位号检测框，每个所述车位号检测框用于指示每个车位号码在所述目标图像中的图像位置；

检测识别单元，还可用于通过所述识别模型对所述目标图像中的每个字符进行字符识别和清晰度计算，得到所述目标图像的第二字符识别结果和第二清晰度预测结果；所述第二字符识别结果包括所述目标图像中每个字符的字符类别和图像位置；所述第二清晰度预测结果包括所述目标图像中每个字符的清晰度；

筛选单元，可用于从各个所述车位号检测框中筛选出目标检测框，以及从所述目标图像包括的各个字符中筛选出待检测字符；以及，根据所述目标图像中每个所述待检测字符的图像位置，从各个所述待检测字符中筛选出处于所述目标检测框内的字符，作为属于所述车位号码的目标字符；以及，从所述第二字符识别结果中获取所述目标字符的字符类别以及图像位置，作为所述车位号码的第一字符识别结果，以及从所述第二清晰度预测结果中获取所述目标字符的清晰度，作为所述车位号码的第一清晰度预测结果。

在一个实施例中，车位号检测结果，还包括：每个车位号检测框的置信度。

筛选单元，还可用于从各个所述车位号检测框中筛选出置信度高于第一置信度阈值的车位号检测框作为目标检测框。

在一个实施例中，第二字符识别结果还包括：所述目标图像中每个字符的置信度；

筛选单元，还可用于从所述目标图像包括的各个字符中筛选出置信度高于第二置信度阈值的字符作为待检测字符。

在一个实施例中，文本识别装置600还可包括：训练模块。

训练模块，可用于在输入模块将待识别的目标图像输入至识别模型之前，从样本数据中获取样本图像，以及所述样本图像标注有的字符识别参考信息和清晰度参考信息；以及，

通过待训练的识别模型对样本图像中的样本文本对象进行字符识别和清晰度计算，以得到所述样本文本对象的第三字符识别结果和第三清晰度预测结果；以及，

根据所述第三字符识别结果和所述字符识别参考信息之间的第一误差，以及所述第三清晰度预测结果和所述清晰度参考信息之间的第二误差，对所述待训练的识别模型中的参数进行调整。

可见，实施前述实施例公开的文本识别装置，可以通过识别模型对目标图像中的目标文本对象进行字符识别和清晰度计算，并根据识别模型输出的第一清晰度预测结果和第一字符识别结果生成目标文本对象的文本识别结果，从而可以减少目标图像的模糊不清对文本识别准确率的影响，提高文本识别的准确率。

此外，文本识别装置还可以通过训练好的识别模型进行字符识别和清晰度计算，区别于传统的基于人工设计的特征进行字符识别和清晰度计算的方法，识别模型可以更好地提取目标图像中隐含地图像特征，识别模型的字符识别和清晰度计算的准确率更高，可以进一步提高最终的文本识别准确率。

更进一步地，文本识别装置可以通过训练好的识别模型针对性地对目标文本对象的清晰度进行计算，而非对目标图像整体的清晰度进行计算，可以减少目标图像中除目标文本对象以外的背景区域的清晰度对文本识别的影响，无需对目标图像进行额外的裁剪。

请参阅图7，图7是一个实施例公开的一种车辆的结构示意图。如图7所示，该车辆700可以包括：

存储有可执行程序代码的存储器710；

与存储器710耦合的处理器720；

其中，处理器720调用存储器710中存储的可执行程序代码，执行本申请实施例公开的任意一种文本识别方法。

需要说明的是，图7所示的车辆700还可以包括电源、摄像头、扬声器、车载屏幕、RF电路、蓝牙模块、传感器等未显示的组件，本实施例不作赘述。

本申请实施例公开一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序使得计算机执行本申请实施例公开的任意一种文本识别方法。

本申请实施例公开一种计算机程序产品，该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，且该计算机程序可操作来使计算机执行本申请实施例公开的任意一种文本识别方法。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定特征、结构或特性可以以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在本申请的各种实施例中，应理解，上述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物单元，即可位于一个地方，或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可获取的存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分，可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等，具体可以是计算机设备中的处理器)执行本申请的各个实施例上述方法的部分或全部步骤。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

以上对本申请实施例公开的一种文本识别方法、装置、车辆及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种文本识别方法，其特征在于，所述方法包括：

将待识别的目标图像输入至识别模型，所述识别模型是利用样本数据进行训练得到的，所述样本数据包括多帧样本图像，所述样本图像包含样本文本对象，并标注有所述样本文本对象的字符识别参考信息和清晰度参考信息；

通过所述识别模型对所述目标图像中的目标文本对象进行字符识别和清晰度计算，以得到所述目标文本对象的第一字符识别结果和第一清晰度预测结果；

根据所述第一清晰度预测结果和所述第一字符识别结果生成所述目标文本对象的文本识别结果。

2.根据权利要求1所述的方法，其特征在于，所述清晰度参考信息包括：所述样本文本对象整体的清晰度；所述第一清晰度预测结果包括：所述目标文本对象整体的清晰度；以及，根据所述第一清晰度预测结果和所述第一字符识别结果生成所述目标文本对象的文本识别结果，包括：

若所述目标文本对象整体的清晰度高于清晰度阈值，则将所述第一字符识别结果包括的所述目标文本对象中各个目标字符的字符类别，以及所述各个目标字符的图像位置生成所述目标文本对象的文本识别结果。

3.根据权利要求1所述的方法，其特征在于，所述清晰度参考信息包括：所述样本文本对象中各个样本字符的清晰度；所述清晰度预测结果包括：所述目标文本对象中各个目标字符的清晰度；以及，根据所述第一清晰度预测结果和所述第一字符识别结果生成所述目标文本对象的文本识别结果，包括：

根据所述目标文本对象中各个目标字符的清晰度计算所述目标文本对象整体的清晰度；

4.根据权利要求3所述的方法，其特征在于，所述目标文本对象包括：车位号码；所述通过所述识别模型对所述目标图像中的目标文本对象进行字符识别和清晰度计算，以得到所述目标文本对象的第一字符识别结果和第一清晰度预测结果，包括：

通过所述识别模型对所述目标图像进行车位号检测，得到车位号检测结果；所述车位号检测结果包括一个或多个车位号检测框，每个所述车位号检测框用于指示每个车位号码在所述目标图像中的图像位置；

通过所述识别模型对所述目标图像中的每个字符进行字符识别和清晰度计算，得到所述目标图像的第二字符识别结果和第二清晰度预测结果；所述第二字符识别结果包括所述目标图像中每个字符的字符类别和图像位置；所述第二清晰度预测结果包括所述目标图像中每个字符的清晰度；

从各个所述车位号检测框中筛选出目标检测框，以及从所述目标图像包括的各个字符中筛选出待检测字符；

根据所述目标图像中每个所述待检测字符的图像位置，从各个所述待检测字符中筛选出处于所述目标检测框内的字符，作为属于所述车位号码的目标字符；

从所述第二字符识别结果中获取所述目标字符的字符类别以及图像位置，作为所述车位号码的第一字符识别结果，以及从所述第二清晰度预测结果中获取所述目标字符的清晰度，作为所述车位号码的第一清晰度预测结果。

5.根据权利要求4所述的方法，其特征在于，所述车位号检测结果，还包括：每个车位号检测框的置信度；以及，所述从各个所述车位号检测框中筛选出目标检测框，包括：

从各个所述车位号检测框中筛选出置信度高于第一置信度阈值的车位号检测框作为目标检测框。

6.根据权利要求4所述的方法，其特征在于，所述第二字符识别结果还包括：所述目标图像中每个字符的置信度；以及，从所述目标图像包括的各个字符中筛选出待检测字符，包括：

从所述目标图像包括的各个字符中筛选出置信度高于第二置信度阈值的字符作为待检测字符。

7.根据权利要求1-6任一项所述的方法，其特征在于，在所述将待识别的目标图像输入至识别模型之前，所述方法还包括：

从样本数据中获取样本图像，以及所述样本图像标注有的字符识别参考信息和清晰度参考信息；

通过待训练的识别模型对样本图像中的样本文本对象进行字符识别和清晰度计算，以得到所述样本文本对象的第三字符识别结果和第三清晰度预测结果；

8.一种文本识别装置，其特征在于，所述装置包括：

输入模块，用于将待识别的目标图像输入至识别模型，所述识别模型是利用样本数据进行训练得到的，所述样本数据包括多帧样本图像，所述样本图像包含样本文本对象，并标注有所述样本文本对象的字符识别参考信息和清晰度参考信息；

计算模块，用于通过所述识别模型对所述目标图像中的目标文本对象进行字符识别和清晰度计算，以得到所述目标文本对象的第一字符识别结果和第一清晰度预测结果；

生成模块，用于根据所述第一清晰度预测结果和所述第一字符识别结果生成所述目标文本对象的文本识别结果。

9.一种车辆，其特征在于，包括存储器及处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器实现如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的方法。