CN111476210A

CN111476210A - 基于图像的文本识别方法、系统、设备及存储介质

Info

Publication number: CN111476210A
Application number: CN202010392474.0A
Authority: CN
Inventors: 谭黎敏; 顾荣琦
Original assignee: Shanghai Westwell Information Technology Co Ltd
Current assignee: Shanghai Xijing Technology Co ltd
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2020-07-31
Anticipated expiration: 2040-05-11
Also published as: CN111476210B

Abstract

本发明提供了基于图像的文本识别方法、系统、设备及存储介质，该方法包括：根据第一训练集通过第一深度学习模型自图像中获得至少一包含局部图像的待检测框以及对应待检测框的第一标注，第一训练集包括多个第一类子训练集，每个第一类子训练集各自包括一种字符组的图像的第一标注；向每个待检测框单独使用对应的一个第二类子训练集通过第二深度学习模型获得待检测框中的字符标注和字符在图像中的第二位置信息，每个第二类子训练集各自对应一个第一类子训练集中字符组中的每个字符的第二标注；根据第二位置信息排列字符，获得字符串。本发明能够降低模型复杂度、计算量和存储空间，模型检测的整体速度和准确度都得到提升。

Description

基于图像的文本识别方法、系统、设备及存储介质

技术领域

本发明涉及闸口安检领域，具体地说，涉及基于图像的文本识别方法、系统、设备及存储介质。

背景技术

港口是对外贸易进出口货物的集散中心，是国际物流供应链的重要环节和物流通道的枢纽，现今我国的智慧港口建设将港口领域推入关键的数字化转型时期，基于人工、传统光学字符识别的方法，难以满足当下港口智能高效管理的需求，而基于深度学习的智能识别方案，可极大降低人工强度，同时相对传统光学字符识别，在速度、鲁棒性、精度等各方面均具有极大优势，特别是更不易光照、雨雪天气、风沙、相机镜头污损等各类导致图像清晰度降低的复杂工况影响。

传统的基于深度学习的图像识别需要对全图进行卷积处理，运算量巨大，成本很高，因为是全图卷积，所以输出的标注要包含汉字字符、英文字母字符、数字字符、标点符号等等多种标注，大大增加了运算量，也增加了标注发生错误的可能性。而且当在一些车辆高速通过的闸口时，拍摄到的照片质量不高，依然全图处理时，系统会导致无法及时处理数据，降低了识别的准确性。

因此，本发明提供了一种基于图像的文本识别方法、系统、设备及存储介质。

发明内容

针对现有技术中的问题，本发明的目的在于提供基于图像的文本识别方法、系统、设备及存储介质，克服了现有技术的困难，能够降低模型复杂度、计算量和存储空间，模型检测的整体速度和准确度都得到提升。

本发明的实施例提供一种基于图像的文本识别方法，包括以下步骤：

S101、根据第一训练集通过第一深度学习模型自所述图像中获得至少一包含局部图像的待检测框以及对应所述待检测框的第一标注，所述第一深度学习模型的第一训练集包括多个第一类子训练集，每个所述第一类子训练集各自包括一种字符组的图像的第一标注；

S102、向每个所述待检测框根据所述第一标注单独使用对应的一个第二类子训练集通过第二深度学习模型获得所述待检测框中的字符标注和所述字符在图像中的第二位置信息，所述第二深度学习模型的第二训练集包括多个第二类子训练集，每个所述第二类子训练集各自对应一个第一类子训练集中所述字符组中的每个字符的第二标注；以及

S103、根据每个所述待检测框中不同所述字符在图像中的第二位置信息排列所述字符，获得字符串作为每个所述待检测框的文本信息。

优选地，所述步骤S101之前还包括以下步骤：

S100、根据图像中的车辆的运动方向，将图像进行预处理，图像预处理方式包括裁剪、缩放、去畸变、仿射变换、透视变换中的至少一种，令所述待检测框的轮廓矩形化。

优选地，所述第一训练集包括三个第一类子训练集，每个第一类子训练集的第一标注分别是以下三种的任意一种：

仅包含数字字符的待检测框；

仅包含英文字母字符的待检测框；

包含数字字符与英文字母字符组合的待检测框；

所述第二训练集包括三个第二类子训练集，每个第二类子训练集的第二标注分别是以下三种的任意一种：

仅数字字符的集合；

仅英文字母字符的集合；

数字字符与英文字母字符的集合。

优选地，所述第一训练集包括还包括第四个第一类子训练集，所述第四个第一类子训练集的第一标注是包含汉字字符、数字字符与英文字母字符组合的待检测框；

所述第二训练集包括还包括第四个第二类子训练集，所述第四个第二类子训练集的第二标注是汉字字符、数字字符与英文字母字符的集合。

优选地，所述步骤S101中还包括获得所述待检测框在图像中的第一位置信息，所述第一位置信息为包含所述字符组的局部图像的最长对角线的两个端点在图像中的坐标信息。

优选地，根据所述端点的坐标信息建立待检测框，所述端点分别位于所述待检测框的对角位置。

优选地，所述步骤S102中，第二位置信息为包含所述字符的局部图像的最长对角线的两个端点在图像中的坐标信息。

优选地，所述步骤S103中，根据所述端点的坐标信息获得每个包含所述字符的所述局部图像的中心坐标，根据所述待检测框中每个所述字符的中心坐标的线性排列关系，对所述待检测框获得每个字符排序后获得字符串作为所述待检测框的文本信息。

优选地，所述步骤S101之后、步骤S102之间还包括以下步骤：

S1011、根据当前帧的图像中所有待检测框的位置与前一帧的图像中对应位置的所述待检测框进行相似度计算，获得相似度参考值，若所述相似度参考值大于等于预设阈值，则为同一待检测框，根据所述待检测框在当前帧的位置与前一帧的位置持续建立所述待检测框的运动轨迹。

优选地，所述步骤S103之后还包括：

步骤S104、将运动轨迹出现的时间跨度至少部分重叠且运动轨迹相似的所述待检测框的文本信息标注为同一运动目标对应的文本信息。

优选地，所述步骤S100包括：

在摄像头拍摄的原始图中选取相交的两条轮廓线的焦点以及每条轮廓线各取一点；

固定右上角的箱角坐标X₂＝(x₂,y₂)，修改左上角坐标X₁＝(x₁,y₁)，使得该坐标与X₂在同一水平线上，得X′₁＝(x′₁,y′₁)；

修改右下角坐标X₃＝(x₃,y₃)，使得该坐标与X₂在同一竖直线上，得X′₃＝(x′₃,y′₃)，两者可通过仿射变换转换，即

XF＝X′；

其中，X为

F为具有6个自由度的(a₁，a₂，a₃，a₄，a₅，a₆)仿射变换矩阵，即[a₁ a₂ a₃ a₄ a₅ a₆]^T；

X′为[x′₁ y′₁ x₂ y₂ x′₃ y′₃]^T；

则仿射变换矩阵F为F＝X^-1X′。

优选地，还包括：将计算得出的仿射变换矩阵用于图像的变换，图像坐标变换后为：

本发明的实施例还提供一种基于图像的文本识别系统，用于实现上述的基于图像的文本识别方法，基于图像的文本识别系统包括：

第一标注模块，根据第一训练集通过第一深度学习模型自所述图像中获得至少一包含局部图像的待检测框以及对应所述待检测框的第一标注，所述第一深度学习模型的第一训练集包括多个第一类子训练集，每个所述第一类子训练集各自包括一种字符组的图像的第一标注；

第二标注模块，向每个所述待检测框根据所述第一标注单独使用对应的一个第二类子训练集通过第二深度学习模型获得所述待检测框中的字符标注和所述字符在图像中的第二位置信息，所述第二深度学习模型的第二训练集包括多个第二类子训练集，每个所述第二类子训练集各自对应一个第一类子训练集中所述字符组中的每个字符的第二标注；以及

文本识别模块，根据每个所述待检测框中不同所述字符在图像中的第二位置信息排列所述字符，获得字符串作为每个所述待检测框的文本信息。

本发明的实施例还提供一种基于图像的文本识别设备，包括：

处理器；

存储器，其中存储有处理器的可执行指令；

其中，处理器配置为经由执行可执行指令来执行上述基于图像的文本识别方法的步骤。

本发明的实施例还提供一种计算机可读存储介质，用于存储程序，程序被执行时实现上述基于图像的文本识别方法的步骤。

本发明的基于图像的文本识别方法、系统、设备及存储介质，能够降低模型复杂度、计算量和存储空间，模型检测的整体速度和准确度都得到提升。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显。

图1是本发明的基于图像的文本识别方法的流程图；

图2至6是本发明的基于图像的文本识别方法的第一种实施状态示意图；

图7是本发明的基于图像的文本识别方法的第二种实施状态示意图；

图8是本发明的基于图像的文本识别系统的结构示意图；

图9是本发明的基于图像的文本识别设备的结构示意图；以及

图10是本发明一实施例的计算机可读存储介质的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式。相反，提供这些实施方式使得本发明将全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构，因而将省略对它们的重复描述。

图1是本发明的基于图像的文本识别方法的流程图。如图1所示，本发明的实施例提供一种基于图像的文本识别方法，包括以下步骤：

S100、根据图像中的车辆的运动方向，将图像进行预处理，图像预处理方式包括裁剪、缩放、去畸变、仿射变换、透视变换中的至少一种，令待检测框的轮廓矩形化，不以此为限。也可以采用现有的图形拉伸方法，不以此为限。本发明中通过对图像的预处理，使得图像包含了字符串的局部图片也能够在预处理以后，形成接近矩形的状态，便于后续识别和对比，提高识别的准确性。

步骤S100包括：

固定右上角的箱角坐标X₂＝(x₂，y₂)，修改左上角坐标X₁＝(x₁，y₁)，使得该坐标与X₂在同一水平线上，得X′₁＝(x′₁，y′₁)；

修改右下角坐标X₃＝(x₃，y₃)，使得该坐标与X₂在同一竖直线上，得X′₃＝(x′₃，y′₃)，两者可通过仿射变换转换，即

XF＝X′；

其中，X为

X′为[x′₁ y′₁ x₂ y₂ x′₃ y′₃]^T；

则仿射变换矩阵F为F＝X^-1X′。

将计算得出的仿射变换矩阵用于图像的变换，图像坐标变换后为：

通过上述方式转换图像中的每一个点。

S101、根据第一训练集通过第一深度学习模型自图像中获得至少一包含局部图像的待检测框以及对应待检测框的第一标注，第一深度学习模型的第一训练集包括多个第一类子训练集，每个第一类子训练集各自包括一种字符组的图像的第一标注。步骤S101中还包括获得待检测框在图像中的第一位置信息，第一位置信息为包含字符组的局部图像的最长对角线的两个端点在图像中的坐标信息。根据端点的坐标信息建立待检测框，端点分别位于待检测框的对角位置。

第一训练集包括三个共同使用的第一类子训练集，每个第一类子训练集的第一标注分别是以下三种的任意一种：仅包含数字字符(“1”、“2”、“3”、……“0”)的待检测框；仅包含英文字母字符(“A”、“B”、“C”、……“Z”)的待检测框；包含数字字符与英文字母字符组合(“1”、“2”、“3”、……“0”、“A”、“B”、“C”、……“Z”)的待检测框。通过上述分类识别，可以准确获知包含局部图像的待检测框中字符的类型和位置。需要注意的是第一标注并不是代表局部图像是具体哪些字符而是代表局部图像中的字符是哪些类型，以便后续通过更准确的训练集和深度学习模型来进行精确的高效识别。s

S102、向每个待检测框根据第一标注单独使用对应的一个第二类子训练集通过第二深度学习模型获得待检测框中的字符标注和字符在图像中的第二位置信息，第二深度学习模型的第二训练集包括多个第二类子训练集，每个第二类子训练集各自对应一个第一类子训练集中字符组中的每个字符的第二标注。其中，第二位置信息为包含字符的局部图像的最长对角线的两个端点在图像中的坐标信息。第二训练集包括三个第二类子训练集，每个第二类子训练集的第二标注分别是以下三种的任意一种：仅数字字符(“1”、“2”、“3”、……“0”)的集合；仅英文字母字符(“A”、“B”、“C”、……“Z”)的集合；数字字符与英文字母字符(“1”、“2”、“3”、……“0”、“A”、“B”、“C”、……“Z”)的集合。由于之前已经确定了待检测框中的字符的类型，则后续就可能选择经过对应的子训练集训练后的第二深度学习模型来独立地对待检测框进行识别，例如：其中一个待检测框的第一标注的结果是仅包含数字字符的待检测框，则后续通过仅数字字符的集合作为第二类子训练集训练以后的得到的第二深度学习模型来对这个区域进行识别，大大提高了准确性，而且由于在运算的过程中不再需要考虑英文字母等你情况，明显降低了运算量，也提高了整体运算速度。

S103、根据每个待检测框中不同字符在图像中的第二位置信息排列字符，获得字符串作为每个待检测框的文本信息。根据端点的坐标信息获得每个包含字符的局部图像的中心坐标，根据待检测框中每个字符的中心坐标的线性排列关系，对待检测框获得每个字符排序后获得字符串作为待检测框的文本信息。

在一个优选方案中，步骤S101之后、步骤S102之间还包括以下步骤：S1011、根据当前帧的图像中所有待检测框的位置与前一帧的图像中对应位置的待检测框进行相似度计算，获得相似度参考值，若相似度参考值大于等于预设阈值，则为同一待检测框，根据待检测框在当前帧的位置与前一帧的位置持续建立待检测框的运动轨迹。

步骤S103之后还包括步骤S104、将运动轨迹出现的时间跨度至少部分重叠且运动轨迹相似的待检测框的文本信息标注为同一运动目标对应的文本信息，以便在多车通过的场景中，能够准确识别哪些文本信息应该归属于同一运动目标，提升检测的准确性以及数据整合的效率。

在一个优选方案中，第一训练集包括还包括第四个第一类子训练集，第四个第一类子训练集的第一标注是包含汉字字符、数字字符与英文字母字符组合的待检测框；第二训练集包括还包括第四个第二类子训练集，第四个第二类子训练集的第二标注是汉字字符、数字字符与英文字母字符的集合，从而优化对于包含汉字的车牌的识别。

本发明中的第一阶段是通过大量基于字符组的图像的第一标注作为训练集得到的第一深度学习模型，根据摄像头拍摄到的运动物体表面的字符串的类型对局部图片进行分类，获得每个局部图片的类型和位置。由于第一深度学习模型中的输出结果很简单(例如，仅三种第一标注，所以准确性很高)，然后再第二阶段根据第一阶段得到的具体第一标注选择对应的第二深度学习模型来使用更有针对性的训练集训练得到的模型，从而提高识别的准确性。在码头集装箱车辆云集的场景(主要的识别对象就是车箱表面的字符或车牌的字符)或是闸道口车辆交错通行的场景中具有广泛的适用性和识别效率。

本发明针对港口场景，还进一步提出基于深度学习的两阶段港口智能识别方法及系统，使得模型复杂度、计算量、存储空间更低；模型检测任务拆分简化，鲁棒性更强、精度更高。

图2至6是本发明的基于图像的文本识别方法的第一种实施状态示意图。参考图2至6所示，摄像头1设置在闸口，用于拍摄往来车辆21表面的信息。通过摄像头1拍摄到上一时刻的原始图像30。在摄像头拍摄的原始图像30(参见图3)中选取相交的两条轮廓线的焦点以及每条轮廓线各取一点。本发明中使用现有图形处理的技术手段在图片中寻找到直线，但不以此为限。鉴于集装箱车辆上最明显的两条直线就是集装箱边沿的水平线和垂直线，所以，两条轮廓线的焦点就是集装箱的顶角。设两条轮廓线的焦点(右上的点)X₂为(x₂，y₂)，经过其中一条轮廓线的一点(左上的点)的坐标X₁为(x₁，y₁)，经过其中另一条轮廓线的一点(右下的点)的坐标X₃为(x₃，y₃)。

XF＝X′；

其中，X为

X′为[x′₁ y′₁ x₂ y₂ x′₃ y′₃]^T；

则仿射变换矩阵F为F＝X^-1X′。

通过上述方式转换原始图像30中的所有像素，获得图像31(参见图4)。

在图像31车辆21的表面设有四行字符串“SEGU”、“189898”、“22G1”以及“津港A1234”。首先，根据图像中的车辆的运动方向，将图像31进行预处理，图像预处理方式包括裁剪、缩放、去畸变、仿射变换、透视变换中的至少一种，令待检测框的轮廓矩形化，此处不再赘述。

然后，根据第一训练集通过第一深度学习模型自图像中获得至少一包含局部图像的待检测框以及对应待检测框的第一标注，第一深度学习模型的第一训练集包括四个第一类子训练集，每个第一类子训练集各自包括一种字符组的图像的第一标注。以字符串“SEGU”为例，通过第一训练集(第一训练集包括四个共同使用的第一类子训练集，每个第一类子训练集的第一标注分别是以下四种的任意一种：仅包含数字字符的待检测框；仅包含英文字母字符的待检测框；包含数字字符与英文字母字符组合的待检测框；包含汉字字符、数字字符与英文字母字符组合的待检测框)获得字符串“SEGU”所在的局部图像属于仅包含英文字母字符的待检测框41，并且获得待检测框在图像中的第一位置信息，第一位置信息为包含字符组的局部图像的最长对角线的两个端点411、412在图像坐标系中的坐标(X₁，Y₁)、(X₂，Y₂)。根据端点的坐标信息建立待检测框，端点分别位于待检测框的对角位置。同理，可以获得“189898”所在的局部图像属于仅包含数字字符的待检测框。“22G1”所在的局部图像属于包含数字字符与英文字母字符组合的待检测框。“津港A1234”所在的局部图像属于包含汉字字符、数字字符与英文字母字符组合的待检测框。

随后，向每个待检测框根据第一标注单独使用对应的一个第二类子训练集通过第二深度学习模型获得待检测框中的字符标注和字符在图像中的第二位置信息，第二深度学习模型的第二训练集包括多个第二类子训练集，每个第二类子训练集各自对应一个第一类子训练集中字符组中的每个字符的第二标注。其中，第二位置信息为包含字符的局部图像的最长对角线的两个端点在图像中的坐标信息。第二训练集包括三个第二类子训练集，每个第二类子训练集的第二标注分别是以下四种的任意一种：仅数字字符(“1”、“2”、“3”、……“0”)的集合；仅英文字母字符(“A”、“B”、“C”、……“Z”)的集合；数字字符与英文字母字符(“1”、“2”、“3”、……“0”、“A”、“B”、“C”、……“Z”)的集合。包括汉字字符、数字字符与英文字母字符(“沪”、“苏”、“京”……“1”、“2”、“3”、……“0”、“A”、“B”、“C”、……“Z”)的集合。

由于之前已经确定了待检测框中的字符的类型，则后续就可能选择经过对应的子训练集训练后的第二深度学习模型来独立地对待检测框进行识别。

其中，一个待检测框的第一标注的结果是仅包含数字字符的待检测框，则后续通过仅数字字符的集合作为第二类子训练集训练以后的得到的第二深度学习模型来对这个区域进行识别。字符串“SEGU”所在的局部图像属于仅包含英文字母字符的待检测框41，则后续在用仅英文字母字符(“A”、“B”、“C”、……“Z”)的集合训练后的第二深度学习模型来进行识别，大大提高对英文字母字符的识别率。通过上述过程本发明大大提高了对英文字符串准确性，而且由于在运算的过程中不再需要考虑英文字母的其他情况，明显降低了运算量，也提高了整体运算速度。

字符串“189898”所在的局部图像属于仅包含数字字符的待检测框42，则后续在用仅数字字符(“1”、“2”、“3”、……“0”)的集合训练后的第二深度学习模型来进行识别，大大提高对数字字符的识别率。

字符串“22G1”所在的局部图像属于包含数字字符与英文字母字符组合的待检测框43，则后续在用数字字上符与英文字母字符(“1”、“2”、“3”、……“0”、“A”、“B”、“C”、……“Z”)的集合训练后的第二深度学习模型来进行识别，大大提高对数字字符与英文字母的识别率。

字符串“津港A1234”所在的局部图像属于包含汉字字符、数字字符与英文字母字符组合的待检测框44，则后续在包括汉字字符、数字字符与英文字母字符(“沪”、“苏”、“京”……“1”、“2”、“3”、……“0”、“A”、“B”、“C”、……“Z”)的集合训练后的第二深度学习模型来进行识别，大大提高对汉字字符、数字字符与英文字母字符整体的识别率。

最后，根据每个待检测框中不同字符在图像中的第二位置信息排列字符，获得字符串作为每个待检测框的文本信息。根据端点的坐标信息获得每个包含字符的局部图像的中心坐标，例如，端点411、412在图像坐标系中的坐标(X₁，Y₁)、(X₂，Y₂)，基于坐标系中的运算可以获得中心坐标就是(0.5X₁+0.5X₂，0.5Y₁+0.5Y₂)，根据待检测框中每个字符的中心坐标的线性排列关系，对待检测框获得每个字符根据阅读习惯排序后获得字符串作为待检测框的文本信息，从而完整获得四行字符串“SEGU”、“189898”、“22G1”以及“津港A1234”。

参考图5和6所示，通过摄像头1拍摄到上一时刻的图像31车辆21的表面设有四行字符串“SEGU”的待检测框41、“189898”的待检测框42、“22G1”的待检测框43以及“津港A1234”44的待检测框。通过摄像头1拍摄到当前时刻的图像32车辆21的表面设有四行字符串“SEGU”的待检测框45、“189898”的待检测框46、“22G1”的待检测框47以及“津港A1234”的待检测框48。通过根据当前帧的图像中所有待检测框的位置与前一帧的图像中对应位置的待检测框进行相似度计算，获得相似度参考值，也就是将图像31中的待检测框41与图像32中的待检测框45进行相似度计算，获得相似度参考值，若相似度参考值大于等于预设阈值，则待检测框41与待检测框45为同一待检测框，根据待检测框在当前帧的位置与前一帧的位置持续建立待检测框的运动轨迹。同理可以获得待检测框42与待检测框46为同一待检测框，待检测框43与待检测框47为同一待检测框，待检测框44与待检测框48为同一待检测框，此处不再赘述。

在一个优选的实施例中，第一阶段模型框取的集装箱箱号区域可进一步划分为多个子类，以框取的集装箱箱号区域为例，则包括四位字母区域、7位数字区域和4位箱型区域。

在一个优选实施例中，无需另外安装传统触发装置触发识别，采用第一阶段深度学习模型框取的文本区域的时长、帧数，及文本区域的位置信息作为自动触发识别的信号；以文本区域丢失的时长、帧数，及文本区域的位置信息作为结束识别的信号。

在一个优选实施例中，所述深度学习模型是基于卷积神经网络的目标检测算法，其根据文本区域图像特征对模型结构进行调整，包括模型层数、特征图尺寸、anchor尺度及数量。

在一个优选实施例中，根据字符特征定制化第二阶段深度学习模型的训练集，以内集卡号“津港A1234”为例，汉字“津”、“港”笔画多、内集卡号印刷样式多样、内集卡号区域尺度多样、样本数量少，将“津”、“港”分别作为模型的一个输出类别，模型置信度低、准确率差，将“津港”二字合并作为模型的一个输出类别，单个省份字符差异更大，深度学习模型更易抽取图像特征，检测识别置信度高、鲁棒性强，图5所示为包含两个汉字的内集卡车牌，其上绘制了第二阶段深度学习模型框取的字符区域，其中“津港”合为模型的一个类别，模型框取了这二字区域后，系统即将该类别输出为“津港”。

在前述过程(图2至6所示内容)的基础上将运动轨迹出现的时间跨度至少部分重叠且运动轨迹相似的待检测框的文本信息标注为同一运动目标对应的文本信息，以便在多车通过的场景中，能够准确识别哪些文本信息应该归属于同一运动目标，提升检测的准确性以及数据整合的效率。图7是本发明的基于图像的文本识别方法的第二种实施状态示意图。如图7所示，通过摄像头1拍摄到当前时刻的图像33有两个车辆22、23，其中，车辆22的表面设有四行字符串“SEGU”的待检测框41、“189898”的待检测框42、“22G1”的待检测框43、“津港A1234”的待检测框44是车辆22。车辆23的表面设有四行字符“ABCD”的待检测框45、“134778”的待检测框46、“A4G1”的待检测框47、“沪A5678”的待检测框48。通过运动轨迹追踪，(8个待检测框呈现出明显的两个类型，其中四个自右向左，另外四个自左向右)可以获知“SEGU”的待检测框41、“189898”的待检测框42、“22G1”的待检测框43、“津港A1234”的待检测框44的运动轨与车辆22的运动轨迹一致，所以四行字符串“SEGU”、“189898”、“22G1”以及“津港A1234”，是车辆22表面的字符，与车辆22相关联。同理，“ABCD”的待检测框45、“134778”的待检测框46、“A4G1”的待检测框47、“沪A5678”的待检测框48的运动轨与车辆23的运动轨迹一致，所以四行字符串“ABCD”、“134778”、“A4G1”、“沪A5678”是车辆23表面的字符，与车辆23相关联。

图8是本发明的基于图像的文本识别系统的结构示意图。如图8所示，本发明的实施例还提供一种基于图像的文本识别系统50，用于实现上述的基于图像的文本识别方法，基于图像的文本识别系统包括：

第一标注模块51，根据第一训练集通过第一深度学习模型自所述图像中获得至少一包含局部图像的待检测框以及对应所述待检测框的第一标注，所述第一深度学习模型的第一训练集包括多个第一类子训练集，每个所述第一类子训练集各自包括一种字符组的图像的第一标注；

第二标注模块52，向每个所述待检测框根据所述第一标注单独使用对应的一个第二类子训练集通过第二深度学习模型获得所述待检测框中的字符标注和所述字符在图像中的第二位置信息，所述第二深度学习模型的第二训练集包括多个第二类子训练集，每个所述第二类子训练集各自对应一个第一类子训练集中所述字符组中的每个字符的第二标注；以及

文本识别模块53，根据每个所述待检测框中不同所述字符在图像中的第二位置信息排列所述字符，获得字符串作为每个所述待检测框的文本信息。

本发明的基于图像的文本识别系统能够降低模型复杂度、计算量和存储空间，模型检测的整体速度和准确度都得到提升。

本发明实施例还提供一种基于图像的文本识别设备，包括处理器。存储器，其中存储有处理器的可执行指令。其中，处理器配置为经由执行可执行指令来执行的基于图像的文本识别方法的步骤。

如上，本发明的基于图像的文本识别设备能够降低模型复杂度、计算量和存储空间，模型检测的整体速度和准确度都得到提升。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“平台”。

图9是本发明的基于图像的文本识别设备的结构示意图。下面参照图9来描述根据本发明的这种实施方式的电子设备600。图9显示的电子设备600仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于：至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。

其中，存储单元存储有程序代码，程序代码可以被处理单元610执行，使得处理单元610执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如，处理单元610可以执行如图1中所示的步骤。

存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202，还可以进一步包括只读存储单元(ROM)6203。

存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204，这样的程序模块6205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备600交互的设备通信，和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且，电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。

本发明实施例还提供一种计算机可读存储介质，用于存储程序，程序被执行时实现的基于图像的文本识别方法的步骤。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。

如上所示，该实施例的计算机可读存储介质的程序在执行时，能够降低模型复杂度、计算量和存储空间，模型检测的整体速度和准确度都得到提升。

图10是本发明的计算机可读存储介质的结构示意图。参考图10所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

综上，本发明的基于图像的文本识别方法、系统、设备及存储介质，能够降低模型复杂度、计算量和存储空间，模型检测的整体速度和准确度都得到提升。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于图像的文本识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于图像的文本识别方法，其特征在于，所述步骤S101之前还包括以下步骤：

3.根据权利要求1所述的基于图像的文本识别方法，其特征在于，所述第一训练集包括三个第一类子训练集，每个第一类子训练集的第一标注分别是以下三种的任意一种：

仅包含数字字符的待检测框；

仅包含英文字母字符的待检测框；

包含数字字符与英文字母字符组合的待检测框；

仅数字字符的集合；

仅英文字母字符的集合；

数字字符与英文字母字符的集合。

4.根据权利要求3所述的基于图像的文本识别方法，其特征在于，

所述第一训练集包括还包括第四个第一类子训练集，所述第四个第一类子训练集的第一标注是包含汉字字符、数字字符与英文字母字符组合的待检测框；

5.根据权利要求1所述的基于图像的文本识别方法，其特征在于，所述步骤S101中还包括获得所述待检测框在图像中的第一位置信息，所述第一位置信息为包含所述字符组的局部图像的最长对角线的两个端点在图像中的坐标信息。

6.根据权利要求5所述的基于图像的文本识别方法，其特征在于，根据所述端点的坐标信息建立待检测框，所述端点分别位于所述待检测框的对角位置。

7.根据权利要求1所述的基于图像的文本识别方法，其特征在于，所述步骤S102中，第二位置信息为包含所述字符的局部图像的最长对角线的两个端点在图像中的坐标信息。

8.根据权利要求7所述的基于图像的文本识别方法，其特征在于，所述步骤S103中，根据所述端点的坐标信息获得每个包含所述字符的所述局部图像的中心坐标，根据所述待检测框中每个所述字符的中心坐标的线性排列关系，对所述待检测框获得每个字符排序后获得字符串作为所述待检测框的文本信息。

9.根据权利要求1所述的基于图像的文本识别方法，其特征在于，所述步骤S101之后、步骤S102之间还包括以下步骤：

10.根据权利要求9所述的基于图像的文本识别方法，其特征在于，所述步骤S103之后还包括：

11.根据权利要求2所述的基于图像的文本识别方法，其特征在于，所述步骤S100包括：

XF＝X′；

其中，X为

X′为[x′₁ y′₁ x₂ y₂ x′₃ y′₃]^T；

则仿射变换矩阵F为F＝X^-1X′。

12.如权利要求11所述的基于图像的文本识别方法，其特征在于，还包括：将计算得出的仿射变换矩阵用于图像的变换，图像坐标变换后为：

13.一种基于图像的文本识别系统，其特征在于，用于实现如权利要求1所述的基于图像的文本识别方法，包括：

14.一种基于图像的文本识别设备，其特征在于，包括：

处理器；

存储器，其中存储有处理器的可执行指令；

其中，处理器配置为经由执行可执行指令来执行权利要求1至12中任意一项所述基于图像的文本识别方法的步骤。

15.一种计算机可读存储介质，用于存储程序，其特征在于，程序被执行时实现权利要求1至12中任意一项所述基于图像的文本识别方法的步骤。