CN115512381A

CN115512381A - 文本识别方法、装置、设备、存储介质及作业机械

Info

Publication number: CN115512381A
Application number: CN202211218286.1A
Authority: CN
Inventors: 唐熹微; 何理; 周文君
Original assignee: Sany Automobile Hoisting Machinery Co Ltd
Current assignee: Sany Automobile Hoisting Machinery Co Ltd
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2022-12-23

Abstract

本发明涉及图像处理技术领域，尤其涉及一种文本识别方法、装置、设备、存储介质及作业机械。方法包括获取待识别图像，以及获取待识别图像对应的模板图像，其中，模板图像包括至少一个模板文本框；获取待识别图像中的至少一个检测框；融合模板文本框和检测框，在待识别图像中确定融合文本框；识别融合文本框中的文字信息，获得待识别图像对应的文本识别结果。本发明用以解决现有技术中文字识别时识别准确率较低且文字识别效果较差的缺陷，实现更准确的识别图像中的文字信息。

Description

文本识别方法、装置、设备、存储介质及作业机械

技术领域

本发明涉及图像处理技术领域，尤其涉及一种文本识别方法、装置、设备、存储介质及作业机械。

背景技术

目前，文字识别技术逐渐在人们的生活生产中占据重要位置。现有的实现文字识别的方案主要有两种，一种方案是对图像处理得到图中的文字信息。具体的，该方案通过二值化、连通域分析或分类器等方法直接对图像进行处理。但该方式流程复杂，识别耗时较长，识别准确率较低且文字识别效果较差。另一种方案是基于深度学习识别图像中特定文本框的文字信息。该方案需要预先训练深度学习模型，使该模型能够识别在图像中位置相对固定的文本框，然后才能对文本框中的文字进行识别。虽然基于深度学习的识别鲁棒性强、识别速度快，但是，对于多张图像，当各个图像中文本框的位置差异性较大时，该方案无法准确识别不同位置的文本框内容，降低识别准确率，进而导致文字识别效果较差。

发明内容

本发明提供一种文本识别方法、装置、设备、存储介质及作业机械，用以解决现有技术中文字识别时识别准确率较低且文字识别效果较差的缺陷，实现更准确的识别图像中的文字信息。

本发明提供一种文本识别方法，包括：获取待识别图像，以及获取所述待识别图像对应的模板图像，其中，所述模板图像包括至少一个模板文本框；获取所述待识别图像中的至少一个检测框；融合所述模板文本框和所述检测框，在所述待识别图像中确定融合文本框；识别所述融合文本框中的文字信息，获得所述待识别图像对应的文本识别结果。

根据本发明提供的一种文本识别方法，所述融合所述模板文本框和所述检测框，在所述待识别图像中确定融合文本框，包括：对于每一个所述模板文本框进行如下处理：在所述模板文本框与至少一个所述检测框存在重叠区域的情况下，分别计算所述检测框与每一个所述模板文本框的重叠度；确定所述检测框与所述重叠度最大的所述模板文本框的重叠区域；将所述重叠区域作为所述检测框对应的所述融合文本框。

根据本发明提供的一种文本识别方法，每一个所述模板文本框包括对应的文本框标识信息；所述识别所述融合文本框中的文字信息，获得所述待识别图像对应的文本识别结果，包括：分别识别每一个所述融合文本框中的文字信息，获得每一个所述融合文本框分别对应的子识别结果；通过与每一个所述融合文本框分别对应的模板文本框，获得每一个所述融合文本框分别对应的文本框标识信息；分别将每一个所述融合文本框对应的所述子识别结果和所述文本框标识信息进行融合，获得所述文本识别结果。

根据本发明提供的一种文本识别方法，所述获取待识别图像，以及获取所述待识别图像对应的模板图像，包括：获取待处理图像；根据预设对应关系，从模板集合中获取与所述待处理图像对应的所述模板图像；基于所述模板图像和所述待处理图像，获得图像转换矩阵；通过所述图像转换矩阵，对所述待处理图像进行校正，获得所述待识别图像，其中，所述待识别图像与所述模板图像对应。

根据本发明提供的一种文本识别方法，所述基于所述模板图像和所述待处理图像，获得图像转换矩阵，包括：对所述待处理图像进行特征点提取，获得至少四个待处理特征点，以及每一个所述待处理特征点分别对应的待处理特征向量；对所述模板图像进行特征点提取，获得至少四个模板特征点，以及每一个所述模板特征点分别对应的模板特征向量；基于所述待处理特征点、待处理特征向量、模板特征点和模板特征向量，对所述待处理特征点和所述模板特征点进行匹配，获得至少四对特征点匹配对；基于所述特征点匹配对，获取所述图像转换矩阵。

根据本发明提供的一种文本识别方法，所述获取待处理图像，包括：获取图像采集装置采集的原始图像，其中，所述图像采集装置预先进行棋盘格标定；通过所述图像采集装置标定得到的矫正映射矩阵，对所述原始图像进行映射，获得所述待处理图像。

本发明还提供一种文本识别装置，包括：第一获取模块，用于获取待识别图像，以及获取所述待识别图像对应的模板图像，其中，所述模板图像包括至少一个模板文本框；第二获取模块，用于获取所述待识别图像中的至少一个检测框；融合模块，用于融合所述模板文本框和所述检测框，在所述待识别图像中确定融合文本框；识别模块，用于识别所述融合文本框中的文字信息，获得所述待识别图像对应的文本识别结果。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述文本识别方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述文本识别方法。

本发明还提供一种作业机械，所述作业机械包括显示文本信息的显示屏；通过如上述任一种所述文本识别方法，识别所述显示屏中的文本信息。

本发明提供的文本识别方法、装置、设备、存储介质及作业机械，获取待识别图像同时，需要获取待识别图像对应的模板图像，该模板图像包括至少一个模板文本框。获取出待识别图像中的至少一个检测框之后，融合模板文本框和检测框，来确定待识别图像中的融合文本框，从而识别每一个融合文本框中的文字信息，获得文本识别结果。该过程中，相对于现有的从检测框中直接识别文字信息，本发明在识别之前通过模板文本框和检测框，来确定融合文本框，以融合文本框来识别文字信息。通过目标图像中的模板文本框，能够进一步精确定位需要识别的文本框位置，即通过模板文本框滤除检测框中不必要的识别噪音，使得到的融合文本框保留更加准确的文字信息。该过程既明确了文字信息识别的目标，提升识别速度，又减少了识别噪音，提升识别准确性，从而提升文字识别效果。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的文本识别方法的流程示意图；

图2是本发明提供的图像转换示例图；

图3是本发明提供的融合文本框确定过程示例图；

图4是本发明提供的作业机械显示屏图像文字识别流程示意图；

图5是本发明提供的特征点匹配流程示意图；

图6是本发明提供的文本识别装置的结构示意图

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的文本识别方法，通过对待识别图像进行处理，以识别待处理图像中的文字信息，得到文本识别结果。该过程可以通过预先配置的软件算法来完成，该软件算法能够在任意一种具有数据处理功能的设备中实现，例如，处理器、服务器或智能移动设备等。下面结合图1至图5描述本发明的文本识别方法。

一个实施例中，如图1所示，文本识别方法实现的流程步骤如下：

步骤101，获取待识别图像，以及获取待识别图像对应的模板图像，其中，模板图像包括至少一个模板文本框。

本实施例中，待识别图像为需要进行文字识别的图像，该待识别图像中包含文字信息，该文字信息可以为汉字、数字、英文字母或其他任意一种或几种的文字。待识别图像可以通过图像采集装置直接采集得到，也可以为采集后的图像进行一系列处理后得到的图像，还可以为互联网或数据集中直接得到的图像。本发明的保护范围不以待识别图像的来源方式为限制。

本实施例中，模板图像为预先设置的图像，该模板图像中包含预先设置的至少一个模板文本框，更具体的，模板图像中包括至少一个模板文本框的大小、形状和位置。模板图像的具体设置方式可以根据实际情况和需要进行设定。

一个具体的例子中，当采用本方法识别起重机显示屏上的工况数据时，通过起重机显示屏进行拍摄，获得待识别图像，从而通过待识别图像获得工况数据。而模板图像为根据显示屏预先设置的图像，例如，以显示屏的形状和/或轮廓预先设置的图像；而模板图像中的每一个模板文本框，可以根据显示屏中各个工况数据在显示屏上的实际显示位置来设置，具体的，针对每一个工况数据在显示屏的实际显示位置，在模板图像中设置相应的模板文本框。

进一步的，为了针对不同类型图像的文字识别，可以预先设置多个模板图像，通过多个模板图像构建一个模板集合，并将该模板集合进行存储。具体的，对于模板集合中的任意两个模板图像，两个模板图像是存在差异的，具体的，模板图像的整体形状、模板图像的整体轮廓、模板图像中模板文本框的数量、每一个模板文本框的大小、各个模板文本框的形状和/或各个模板文本框的具体位置是不同的。

获得待识别图像后，从模板集合的各个模板图像中，确定与该待识别图像对应的一个模板图像。具体的，可以预先对各个模板图像设置图像标识，根据待识别图像的采集特点与图像标识之间的对应关系来确定待识别图像对应的一个模板图像。例如，对某一种型号的起重机显示屏采集的待识别图像，通过该起重机型号与模板图像标识之间的对应关系，确定该待识别图像对应的一个模板图像。

通过与待识别图像对应的模板图像，可以更准确的识别待识别图像中的文字信息。

一个实施例中，待识别图像为已经经过校正处理的图像，具体的，获取待识别图像，以及获取待识别图像对应的模板图像，实现过程如下：获取待处理图像；根据预设对应关系，从模板集合中获取与待处理图像对应的模板图像；基于模板图像和待处理图像，获得图像转换矩阵；通过图像转换矩阵，对待处理图像进行校正，获得待识别图像。其中，待识别图像与模板图像对应。

本实施例中，待处理图像是校正前的图像。在实际实施过程中，由于图像获取的渠道不同，直接获得的待处理图像很可能存在形变，例如，图像形状不是方形等。若直接对存在形变的待处理图像进行本方法的文字识别过程，形变会对文字识别结果的准确性造成影响，导致准确性降低。因此，可以对待处理图像进行校正，以避免文字识别结果的准确性降低。

本实施例中，获得待处理图像后，根据预设对应关系，从模板集合中获取与待处理图像对应的模板图像。具体的，预设对应关系可以根据实际情况和需要进行设定，例如，根据待处理图像的图像类型，获取对应的模板图像；又例如，根据待处理图像的获取方式，确定对应的模板图像。然后基于模板图像和待处理图像，获得图像转换矩阵；通过图像转换矩阵，对待处理图像进行校正，获得待识别图像。

一个实施例中，基于模板图像和待处理图像，获得图像转换矩阵，具体实现过程如下：对待处理图像进行特征点提取，获得至少四个待处理特征点，以及每一个待处理特征点分别对应的待处理特征向量；对模板图像进行特征点提取，获得至少四个模板特征点，以及每一个模板特征点分别对应的模板特征向量；基于待处理特征点、待处理特征向量、模板特征点和模板特征向量，对待处理特征点和模板特征点进行匹配，获得至少四对特征点匹配对；基于特征点匹配对，获取图像转换矩阵。

本实施例中，首先对待处理图像和模板图像分别进行特征点提取，优选的，采用尺度不变特征转换(Scale Invariant Feature Transform，SIFT)算法实现特征点提取。SIFT算法具有较好的稳定性和不变形，能够适当旋转、尺度缩放、亮度的变化，能在一定程度上不受视角变化、仿射变换和噪声的干扰。通过SIFT算法分别对待处理图像和模板图像，获得模板图像对应的至少一个模板特征点，以及每一个模板特征点分别对应的模板特征向量；以及获得待处理图像对应的至少一个待处理特征点，以及每一个待处理特征点分别对应的待处理特征向量。

然后，基于待处理特征点、待处理特征向量、模板特征点和模板特征向量，对待处理特征点和模板特征点进行匹配，获得至少一对特征点匹配对。优选的，采用K最近邻(K-Nearest Neighbor，KNN)分类算法实现特征点匹配，其中，K为聚类重心的数量，K为正整数。通过特征点匹配，滤除错误匹配点对，计算出最优匹配的像素点坐标，即获得至少一对特征点匹配对。

接下来，基于特征点匹配对，获取图像转换矩阵。优选的，采用findHomography函数来求解图像转换矩阵。findHomography函数用于计算多个二维点对之间的最优单映射变换矩阵(即得到本发明需要的图像转换矩阵)，实现两个平面图像之间的转换。

最后，如图2所示的图像转换示例图，图2中，0、1、2和3表示不同的特征点，左侧图像表示一个待处理图像，通过上述得到的图像转换矩阵对待处理图像进行校正，具体的，通过图像转换矩阵进行透视变换，得到右侧校正后的待识别图像。校正前后的待处理图像和待识别图像的图像内容不发生改变，只是将校正前的待处理图像按照模板图像的样式进行了一个透视变换转换，并且校正前后的待处理图像和待识别图像在相同特征上一一对应，便于后续文本框的进一步处理。

本实施例中，通过图像转换矩阵，对待处理图像和模板图像进行配准，使最终得到的待识别图像和模板图像的大小和形状相匹配，便于后续对待识别图像中的检测框，以及模板图像中的模板文本框进行融合，提升融合过程的精准度。

一个实施例中，需要进行文字识别的图像可能是图像采集装置直接从生产现场采集的图像，对于图像采集装置造成的图像畸变需要进行矫正。具体的，获取待处理图像时，实现过程如下：获取图像采集装置采集的原始图像，其中，图像采集装置预先进行棋盘格标定；通过图像采集装置标定得到的矫正映射矩阵，对原始图像进行映射，获得待处理图像。

本实施例中，图像采集装置可以为任意一种能够采集原始图像的装置，例如起重机摄像头、照相机等，采集的原始图像可以为起重机上车显示屏的图像。图像采集装置会对原始图像造成一定程度的畸变，例如，鱼眼镜头会导致采集的原始图像产生畸变。为了避免畸变造成文字识别结果准确性下降，预先对图像采集装置进行棋盘格标定。具体的，预先对图像采集装置进行棋盘格标定，通过标定，获得图像采集装置的内部参数K和畸变参数D。然后根据内部参数和畸变参数求解矫正映射矩阵的两个矩阵变量，分别记为mapx和mapy。最后通过包含mapx和mapy的校正映射矩阵对原始图像进行映射处理，得到矫正后的待处理图像。

需要说明的是，该标定过程在该摄像头使用之前一次性完成即可，当摄像头开始采集图像时，直接采用相机内参K和畸变参数D对原始图像进行矫正即可，无需在每次采集图像时对摄像头进行标定。

此外，若生产厂家直接提供了图像采集装置的内部参数K和畸变参数D，则可以不进行标定的过程，直接采用厂家提供的内部参数K和畸变参数D对原始图像进行矫正。

步骤102，获取待识别图像中的至少一个检测框。

本实施例中，获得待识别图像后，需要初步检测待识别图像中的检测框。具体的，通过检测模型完成文本框的初步检测。将待识别图像输入检测模型，由检测模型输出检测框的信息，优选的，检测模型输出检测框在待识别图像中的像素坐标，即检测模型输出了待识别图形中包含文字信息的区域，其中，检测框即为检测模型输出的包含文字信息的区域。

需要说明的是，检测模型对待识别图像进行检测时，可能从待识别图像中检测出一个或一个以上的检测框，也可能检测出0个检测框。当检测模型输出0个检测框时，表明检测模型并未从待识别图像中检测出包含文字信息的区域，此时，可以直接舍弃该待识别图像，不再对该待识别图像进行文字识别；也可以为了避免数据遗漏，直接将模板图像中的模板文本框，融合进待识别图像中，直接通过模板文本框对待识别图像进行文字识别。

本实施例中，检测模型为预先通过文本框样本数据训练得到的模型，文本框样本数据包括至少一张样本图像，每一张样本图像设置了样本文本框的标签。该检测模型可以采用任意一种能够实现本方法的算法为基础实现上述逻辑，例如，检测模型基于一种光学字符识别(Optical Character Recognition，OCR)算法；或者，检测模型基于PaddleOCR中一种基于分割的文本检测算法，即可微分二值化处理(Differentiable Binarization，DB)算法，其中，PaddleOCR支持多种与OCR相关的前沿算法；又或者，检测模型基于一种基于回归的文本检测算法，即PaddleOCR-EAST算法；又或者，检测模型基于一种基于回归和分割文本检测算法，即PaddleOCR-SAST算法。

步骤103，融合模板文本框和检测框，在待识别图像中确定融合文本框。

本实施例中，获得模板图像中的模板文本框，以及待识别图像中的检测框之后，融合模板文本框和检测框，在待识别图像中确定融合文本框。

一个实施例中，融合模板文本框和检测框，在待识别图像中确定融合文本框时，对于每一个模板文本框进行如下处理：在模板文本框与至少一个检测框存在重叠区域的情况下，分别计算模板文本框与每一个检测框的重叠度；确定模板文本框与重叠度最大的检测框的重叠区域；将重叠区域作为模板文本框对应的融合文本框。

本实施例中，通过模板文本框和检测框确定融合文本框的过程，实质上是模板文本框和检测框的融合过程。模板图像中的每一个模板文本框，本质上代表着该模板图像形式下预先设置的需要进行文本识别的区域，也就是说，通过模板图像，确定了待识别图像中与各个模板文本框对应的、实际上需要进行文字识别的区域。如图3所示的融合文本框确定过程示例图，对于模板图像中的每一个模板文本框(即模板1、模板2、模板3、模板4和模板5所在的文本框)：首先确定该模板文本框与各个检测框是否存在重叠区域，若该模板文本框与至少一个检测框存在重叠区域，计算该模板文本框与待识别文本框中各个检测框(即a、b、c、d、e、f、h、i、j和k所在的文本框)的重叠度(Intersection over Union，IoU)；取最大的IoU值，确定最大的IoU值对应的检测框；将该模板文本框与最大的IoU值对应的检测框的重叠区域，作为该模板文本框对应的融合文本框(即融合1、融合2、融合3、融合4和融合5)。由图3可以看出，融合文本框的面积相对于模板文本框进一步减小，且滤除了待识别图像中的噪声区域(即与模板文本框无重叠部分的检测框所在区域)，确定出了更为精确的文本信息所在的位置。

本实施例中，确定某一个模板文本框与各个检测框是否存在重叠区域时，若该模板文本框与各个检测框不存在重叠区域，则可以直接舍弃该模板文本框的文字识别过程，也就是该模板文本框文字识别的子识别结果为空；也可以也可以为了避免数据遗漏，直接将该模板文本框融合进待识别图像中，确定与该模板文本框大小和位置相同的融合文本框，进而提取该模板文本框对应的子识别结果。

步骤104，识别融合文本框中的文字信息，获得待识别图像对应的文本识别结果。

本实施例中，确定出各个融合文本框后，将融合文本框截取出来，对各个融合文本框内的文字信息进行识别。具体的，通过识别模型完成融合文本框中文字信息的识别。该识别模型为预先通过识别样本数据训练得到的模型，识别样本数据包括至少一个样本图像，每一张样本图像设置了文字信息的标签。该识别模型可以采用任意一种能够实现本方法的算法为基础实现上述逻辑，例如，识别模型为基于卷积循环神经网络结构(ConvolutionalRecurrent Neural Network，CRNN)的PaddleOCR文字识别模型；又例如，识别模型为基于空间规整网络(spatial regulation network，SRN)的PaddleOCR识别模型；又例如，识别模型为基于具有自动校正功能的鲁棒性文本识别器(Robust text recognizer withAutomatic Rectification，RARE)的PaddleOCR识别模型；又例如，识别模型为基于罗塞塔(Rosetta)的PaddleOCR识别模型。

一个实施例中，为了便于文字识别结果的处理，每一个模板文本框包括对应的文本框标识信息。当识别融合文本框中的文字信息，获得待识别图像对应的文本识别结果时，分别识别每一个融合文本框中的文字信息，获得每一个融合文本框分别对应的子识别结果；通过与每一个融合文本框分别对应的模板文本框，获得每一个融合文本框分别对应的文本框标识信息；分别将每一个融合文本框对应的子识别结果和文本框标识信息进行融合，获得文本识别结果。

本实施例中，文本框标识信息为预先为各个模板文本框配置的信息，该文本框标识信息可以为工况数据名称、数据单位或数据类型等任意一种或几种信息。通过将每一个融合文本框对应的子识别结果和文本框标识信息进行融合，文字识别结果中除了从融合文本框中识别出的文字信息，还融合了预先配置的标识信息，便于后续对数据进行分类、筛选等处理。

一个具体的实施例中，随着工程机械行业的不断壮大，为了高效与便捷的管理作业机械，需统一读取作业机械中每台设备上显示屏的工况数据，一方面读屏数据可以与系统读取数据共同获取设备作业状态，另一方面也可以进行监控管理，从而保障作业机械作业安全。目前比较典型的方式是通过传感器或OCR字符识别来实现。

具体的，目前传统的OCR处理方法基本采用图像处理的方式，通过二值化、连通域分析、分类器等，此方式在印刷和扫描文档上都取得了不错的效果，但是整个流程过于复杂，识别准确率低且耗时长，很大程度影响整个识别效果。

而基于深度学习的OCR方法主要分为两步，文本检测和文本识别，先检测出文本框位置，再通过识别模型识别各个文本框的内容。基于深度学习的OCR方法鲁棒性强，识别速度快，能够较好的提取图像中的文字信息，是计算机视觉领域中一个非常重要的研究方向，目前也已经广泛应用于各大领域中。

但是，不论是传统的OCR方法还是基于深度学习的OCR方法，都没有一套完整的流程来实现对作业机械显示屏上的工况数据进行有效提取。首先，不同厂家生产的作业机械配备的显示屏并不相同，存在同一个工况数据显示位置各不相同的情况，OCR方法目前只能对文本框的内容进行识别，并不能准确地确定文本框所属标签；其次，作业机械上安装的摄像头采集的图像存在鱼眼畸变和不同视角等问题，导致无法精确定位和识别，极大地影响了OCR识别精度和速度。

本实施例中，以作业机械为例，通过摄像头采集作业机械配置的显示屏的原始图像，以提取原始图像中的文字信息。该作业机械可以为起重机、搅拌机、货物运输车等任意一种作业机械。

如图4所示的作业机械显示屏图像文字识别过程，通过摄像头采集的原始图像输入本方法所在的处理设备后，首先通过预先对摄像头进行棋盘格标定的矫正映射矩阵，对原始图像进行映射，获得待处理图像，完成图像预处理。具体的，当固定在显示屏上方的摄像头为鱼眼镜头，会使采集的图像产生畸变，严重影响到后续配准和融合操作，所以必须先进行图像畸变矫正。预先对摄像头进行棋盘格标定，通过标定图像获取相机内参K和畸变参数D，接着求出矫正映射矩阵的两个变量mapx和mapy，最后通过mapx和mapy对畸变图像进行映射，得到矫正后待处理图像。由此，消除摄像头对文字识别结果准确性的影响，进一步提升识别效果。

下一步，对待处理图像进行特征点提取。此时，获取待处理图像对应的模板图像，该模板图像在模板集合中，具体的，可以根据作业机械的类型，获得该作业机械对饮的模板图像。从模板图像中提取至少一个模板特征点，或得到模板图像的模板特征点集合。同时，从待处理图像中提取至少一个待处理特征点。

另一种方式，预先将模板集合中的每一个模板图像的模板特征点和模板特征向量预先提取并存储。在处理过程中，直接从模板集合中获取模板图像对应的特征点集合。

下一步，基于模板特征点和待处理特征点，进行特征点匹配，获得图像转换矩阵，完成配准过程。具体的，如图5所示，分别对待处理图像和模板图像进行SIFT特征点提取，提取完成后，通过KNN算法对待处理特征点和模板特征点分别对应的特征向量进行匹配，即对待处理特征点和模板特征点进行匹配。滤除错误匹配点对后，基于获得的特征点匹配对获取图像转换矩阵H。

下一步，通过图像转换矩阵H对待处理图像进行校正，获得待识别图像。

下一步，对待识别图像进行文本框检测，获得至少一个检测框。基于检测框和模板图像中的模板文本框，进行文本框融合，获取待识别图像中的融合文本框。然后对各个融合文本框中的文字信息进行识别。在此过程中，模板集合的文本框文件中含有模板图像中的各个模板文本框对应的文本框标识信息，即工况数据的矩形框信息，每个模板文本框对应一个工况数据名称标签。将每个模板文本框与检测框进行融合时，提取模板文本框与检测框的重叠区域作为融合文本框，并赋予融合文本框对应的工况数据名称标签。

最后将融合文本框作为识别模型的输入，其输出每一个融合文本框的子识别结果，即得到了每一个工况数据名称标签下的子识别结果。最后得到待识别图像的文字识别结果。

下一步，获得文字识别结果后，进行内容后处理过程，具体的，由于文字识别结果存在一定误差，预先制定一些规则对文字识别结果进行一定的处理，例如：将识别成冒号的替换成小数点、将识别出的工况数据超过其本身范围的进行过滤等。

最后，进行数据回传。将每个作业机械上显示屏对应的文字识别结果传输云端进行保存和分析，从而监控作业机械的工作状态，保证作业机械的作业安全。

上述过程有效地解决了作业机械显示屏上文字信息无法精确定位和识别的问题，一方面有助于设备管理，另一方面也保障了作业机械的作业安全。

一个实施例中，本方法还可以用于其他作业场景，例如，将车辆牌照的拍摄照片作为原始图像，来识别牌照中的文字信息。详细实现过程不再赘述。

本发明提供的文本识别方法，获取待识别图像同时，需要获取待识别图像对应的模板图像，该模板图像包括至少一个模板文本框。获取出待识别图像中的至少一个检测框之后，融合模板文本框和检测框，来确定待识别图像中的融合文本框，从而识别每一个融合文本框中的文字信息，获得文本识别结果。该过程中，相对于现有的从检测框中直接识别文字信息，本发明在识别之前通过模板文本框和检测框，来确定融合文本框，以融合文本框来识别文字信息。通过目标图像中的模板文本框，能够进一步精确定位需要识别的文本框位置，即通过模板文本框滤除检测框中不必要的识别噪音，使得到的融合文本框保留更加准确的文字信息。该过程既明确了文字信息识别的目标，提升识别速度，又减少了识别噪音，提升识别准确性，从而提升文字识别效果。

此外，待处理图像通过配准求出的图像转换矩阵得到校正后的待识别图像，校正前后图像内容不发生改变，即使对于不同角度拍摄的图像，也可以按照模板图像的样式将其摆正，并且在相同特征上一一对应，更有利于工况数据的定位和识别。通过计算模板文本框与各个检测框之间的IoU值，将每个模板文本框对应IoU值最大的两个框之间的重叠区域作为融合文本框，并赋予融合文本框对应的工况数据名称标签，解决了无法精确定位和识别的问题，同时指定了识别数据所对应的工况数据名称。

下面对本发明提供的文本识别装置进行描述，下文描述的文本识别装置与上文描述的文本识别方法可相互对应参照。如图6所示，文本识别装置包括：

第一获取模块601，用于获取待识别图像，以及获取待识别图像对应的模板图像，其中，模板图像包括至少一个模板文本框；

第二获取模块602，用于获取待识别图像中的至少一个检测框；

融合模块603，用于融合模板文本框和检测框，在待识别图像中确定融合文本框；

识别模块604，用于识别融合文本框中的文字信息，获得待识别图像对应的文本识别结果。

一个实施例中，确定模块603，用于对于每一个模板文本框进行如下处理：在模板文本框与至少一个检测框存在重叠区域的情况下，分别计算模板文本框与每一个检测框的重叠度；确定模板文本框与重叠度最大的检测框的重叠区域；将重叠区域作为模板文本框对应的融合文本框。

一个实施例中，识别模块604，用于识别融合文本框中的文字信息，获得待识别图像对应的文本识别结果，包括：分别识别每一个融合文本框中的文字信息，获得每一个融合文本框分别对应的子识别结果；通过与每一个融合文本框分别对应的模板文本框，获得每一个融合文本框分别对应的文本框标识信息；分别将每一个融合文本框对应的子识别结果和文本框标识信息进行融合，获得文本识别结果。其中，每一个模板文本框包括对应的文本框标识信息。

一个实施例中，第一获取模块601，用于根据预设对应关系，从模板集合中获取与待处理图像对应的模板图像；基于模板图像和待处理图像，获得图像转换矩阵；通过图像转换矩阵，对待处理图像进行校正，获得待识别图像，其中，待识别图像与模板图像对应。

一个实施例中，第一获取模块601，用于对待处理图像进行特征点提取，获得至少四个待处理特征点，以及每一个待处理特征点分别对应的待处理特征向量；对模板图像进行特征点提取，获得至少四个模板特征点，以及每一个模板特征点分别对应的模板特征向量；基于待处理特征点、待处理特征向量、模板特征点和模板特征向量，对待处理特征点和模板特征点进行匹配，获得至少四对特征点匹配对；基于特征点匹配对，获取图像转换矩阵。

一个实施例中，第一获取模块601，用于获取图像采集装置采集的原始图像，其中，图像采集装置预先进行棋盘格标定；通过图像采集装置标定得到的矫正映射矩阵，对原始图像进行映射，获得待处理图像。

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)701、通信接口(Communications Interface)702、存储器(memory)703和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信。处理器701可以调用存储器703中的逻辑指令，以执行文本识别方法，该方法包括：获取待识别图像，以及获取待识别图像对应的模板图像，其中，模板图像包括至少一个模板文本框；获取待识别图像中的至少一个检测框；融合模板文本框和检测框，在待识别图像中确定融合文本框；识别融合文本框中的文字信息，获得待识别图像对应的文本识别结果。

此外，上述的存储器703中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各实施例所提供的文本识别方法，该方法包括：获取待识别图像，以及获取待识别图像对应的模板图像，其中，模板图像包括至少一个模板文本框；获取待识别图像中的至少一个检测框；融合模板文本框和检测框，在待识别图像中确定融合文本框；识别融合文本框中的文字信息，获得待识别图像对应的文本识别结果。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各实施例提供的文本识别方法，该方法包括：获取待识别图像，以及获取待识别图像对应的模板图像，其中，模板图像包括至少一个模板文本框；获取待识别图像中的至少一个检测框；融合模板文本框和检测框，在待识别图像中确定融合文本框；识别融合文本框中的文字信息，获得待识别图像对应的文本识别结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文本识别方法，其特征在于，包括：

获取待识别图像，以及获取所述待识别图像对应的模板图像，其中，所述模板图像包括至少一个模板文本框；

获取所述待识别图像中的至少一个检测框；

融合所述模板文本框和所述检测框，在所述待识别图像中确定融合文本框；

识别所述融合文本框中的文字信息，获得所述待识别图像对应的文本识别结果。

2.根据权利要求1所述的文本识别方法，其特征在于，所述融合所述模板文本框和所述检测框，在所述待识别图像中确定融合文本框，包括：

对于每一个所述模板文本框进行如下处理：

在所述模板文本框与至少一个所述检测框存在重叠区域的情况下，分别计算所述模板文本框与每一个所述检测框的重叠度；

确定所述模板文本框与所述重叠度最大的所述检测框的重叠区域；

将所述重叠区域作为所述模板文本框对应的所述融合文本框。

3.根据权利要求1所述的文本识别方法，其特征在于，每一个所述模板文本框包括对应的文本框标识信息；

所述识别所述融合文本框中的文字信息，获得所述待识别图像对应的文本识别结果，包括：

分别识别每一个所述融合文本框中的文字信息，获得每一个所述融合文本框分别对应的子识别结果；

通过与每一个所述融合文本框分别对应的模板文本框，获得每一个所述融合文本框分别对应的文本框标识信息；

分别将每一个所述融合文本框对应的所述子识别结果和所述文本框标识信息进行融合，获得所述文本识别结果。

4.根据权利要求1所述的文本识别方法，其特征在于，所述获取待识别图像，以及获取所述待识别图像对应的模板图像，包括：

获取待处理图像；

根据预设对应关系，从模板集合中获取与所述待处理图像对应的所述模板图像；

基于所述模板图像和所述待处理图像，获得图像转换矩阵；

通过所述图像转换矩阵，对所述待处理图像进行校正，获得所述待识别图像，其中，所述待识别图像与所述模板图像对应。

5.根据权利要求4所述的文本识别方法，其特征在于，所述基于所述模板图像和所述待处理图像，获得图像转换矩阵，包括：

对所述待处理图像进行特征点提取，获得至少四个待处理特征点，以及每一个所述待处理特征点分别对应的待处理特征向量；

对所述模板图像进行特征点提取，获得至少四个模板特征点，以及每一个所述模板特征点分别对应的模板特征向量；

基于所述待处理特征点、待处理特征向量、模板特征点和模板特征向量，对所述待处理特征点和所述模板特征点进行匹配，获得至少四对特征点匹配对；

基于所述特征点匹配对，获取所述图像转换矩阵。

6.根据权利要求4所述的文本识别方法，其特征在于，所述获取待处理图像，包括：

获取图像采集装置采集的原始图像，其中，所述图像采集装置预先进行棋盘格标定；

通过所述图像采集装置标定得到的矫正映射矩阵，对所述原始图像进行映射，获得所述待处理图像。

7.一种文本识别装置，其特征在于，包括：

第一获取模块，用于获取待识别图像，以及获取所述待识别图像对应的模板图像，其中，所述模板图像包括至少一个模板文本框；

第二获取模块，用于获取所述待识别图像中的至少一个检测框；

融合模块，用于融合所述模板文本框和所述检测框，在所述待识别图像中确定融合文本框；

识别模块，用于识别所述融合文本框中的文字信息，获得所述待识别图像对应的文本识别结果。

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述的文本识别方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述文本识别的方法。

10.一种作业机械，其特征在于，所述作业机械包括显示文本信息的显示屏；通过如权利要求1至6任一项所述的文本识别方法，识别所述显示屏中的文本信息。