CN116434234A

CN116434234A - 一种铸坯字符的检测与识别方法、装置、设备及存储介质

Info

Publication number: CN116434234A
Application number: CN202310593815.4A
Authority: CN
Inventors: 殷绪成; 胡中杰; 陈松路; 刘琦; 陈�峰
Original assignee: Zhuhai Eeasy Electronic Tech Co ltd
Current assignee: Zhuhai Eeasy Electronic Tech Co ltd
Priority date: 2023-05-25
Filing date: 2023-05-25
Publication date: 2023-07-14
Anticipated expiration: 2043-05-25
Also published as: CN116434234B

Abstract

本发明适用人工智能与计算机视觉领域，提供了一种铸坯字符的检测与识别方法、装置、设备及存储介质，该方法包括：当接收到铸坯字符识别请求时，获取待识别的铸坯图像，通过预先训练好的铸坯字符检测识别网络对铸坯图像进行处理，得到铸坯图像的矫正字符信息，其中，铸坯字符检测识别网络包括第一网络和第二网络，根据矫正字符信息和预设的矫正算法得到铸坯图像中的铸坯字符，从而有效降低了漏识和错识的概率，提高了任意方向且多行分布的铸坯字符的检测和识别性能，同时有效提高了识别准确度。

Description

一种铸坯字符的检测与识别方法、装置、设备及存储介质

技术领域

本发明属于人工智能与计算机视觉领域，尤其涉及一种铸坯字符的检测与识别方法、装置、设备及存储介质。

背景技术

钢铁铸坯编号检测和识别是钢厂生产钢铁铸坯环节中必不可少的一环，在实际的生产中，由于铸坯放置的方式随机以及拍摄角度不定，使得图片中字符编号的朝向不同且会出现任意朝向的字符，此外，铸坯编号为多行阅读顺序固定的分布，当字符朝向任意时（倾斜角度过大或者出现倒置)，多行之间的字符阅读顺序不能直接用一般的顺序（从左到右，从上到下）来对字符进行排列输出每一行的识别结果，给铸坯号检测和识别带来了一定的挑战。

传统的字符文本检测和识别方法基于字符文本的简单特征，例如边缘，纹理等等进行图像形态学操作，实现字符文本区域的行级或者字符级检测，但是这种方法只能处理场景简单且图像清晰的字符文本，非常容易受到其他因素如光照、干扰字符等影响，而且这种方法只能处理水平规则字符文本，对于任意朝向的字符文本非常容易出现检测错误导致后续的识别错误。此外，传统的识别方法需要在字符文本区域的基础上进行截取再进行字符文本的识别，这种方式同时要求检测识别两种独立的解决方法且对两个方法的精度要求都比较高，否则容易出现累积错误。近年来，深度学习的方法迅速发展，在铸坯编号检测识别领域展现出巨大的潜力，深度学习方法无需手动设置特征，通过模型对铸坯图像数据提取特征进行学习，抗干扰能力和泛化能力都强于传统方法，而铸坯编号识别属于场景文本识别的一种，能够使用场景文本识别的深度学习方法来进行处理，比如基于文本行的检测方法CTPN（Tian Z, Huang W, He T, et al. Detecting text in natural image withconnectionist text proposal network[C]//Computer Vision–ECCV 2016: 14thEuropean Conference, Amsterdam, The Netherlands, October 11-14, 2016,Proceedings, Part VIII 14. Springer International Publishing, 2016: 56-72.）通过将单行文本做为基准来实现文本的识别，但是，由于这类方法需要在检测到文本行区域之后再对单行的文本区域图像进行识别，过程较为繁琐，当需要检测识别的铸坯字符倾斜角度过大时，文本行检测得到文本行结果出现偏差，导致后续的文本行的识别出现字符的漏识和错识，此外，由于该任务处理的铸坯字符分布存在多行顺序这个规则，基于单独的文本行的检测识别方法无法获取文本行之间的顺序信息，导致在最终输出识别结果时出现行结果的输出顺序错误。还有基于通用的旋转目标检测的方法则是通过处理单个字符来实现文本的识别，但是由于这种方法检测框的定义缺陷，无法得到字符360°的朝向信息，当铸坯的字符旋转角度大于180°出现倒置，虽然旋转检测能够准确框出字符的位置，但是无法获取字符的朝向信息，使得字符间的排序方式出现错误，导致最终的识别错误。

发明内容

本发明的目的在于提供一种铸坯字符的检测与识别方法、装置、设备及存储介质，旨在解决由于现有技术无法提供一种有效的铸坯字符的检测与识别方法，导致铸坯字符的漏识和错识的概率高的问题。

一方面，本发明提供了一种铸坯字符的检测与识别方法，所述方法包括下述步骤：

当接收到铸坯字符识别请求时，获取待识别的铸坯图像；

通过预先训练好的铸坯字符检测识别网络对所述铸坯图像进行处理，得到所述铸坯图像的矫正字符信息，其中，所述铸坯字符检测识别网络包括第一网络和第二网络；

根据所述矫正字符信息和预设的矫正算法得到所述铸坯图像中的铸坯字符；

所述通过预先训练好的铸坯字符检测识别网络对所述铸坯图像进行处理的步骤，包括：

通过所述第一网络对所述铸坯图像进行特征提取，得到铸坯特征图；

通过所述第二网络对所述铸坯特征图进行特征重建，得到所述矫正字符信息。

优选地，所述第一网络和所述第二网络均包含字符类别分支、字符位置分支以及字符角点回归分支，所述矫正字符信息包括矫正字符集和与所述矫正字符集中每个矫正字符对应的字符位置信息和角信息。

优选地，所述根据所述矫正字符信息和预设的矫正算法得到所述铸坯图像中的铸坯字符的步骤，包括：

根据所述字符位置信息和所述角信息，使用预设的朝向角度公式对对应的矫正字符的矫正角度进行计算；

根据计算得到的所述矫正角度和所述字符位置信息，使用预设的坐标矫正公式对对应的所述矫正字符的中心点的矫正坐标进行计算；

根据计算得到的所述矫正坐标输出对应的所述矫正字符，得到所述铸坯字符。

优选地，所述通过所述第二网络对所述铸坯特征图进行特征重建的步骤，包括：

通过所述第二网络中的字符类别分支对所述铸坯特征图进行单个字符的识别，识别到的所有矫正字符构成所述矫正字符集；

通过所述第二网络中的字符位置分支对所述矫正字符集中的每个矫正字符进行定位，得到所述每个矫正字符对应的所述字符位置信息；

通过所述第二网络中的字符角点回归分支得到所述每个矫正字符的所述角信息，由所述矫正字符集和所述矫正字符集中的所述每个矫正字符对应的所述字符位置信息和所述角信息构成所述矫正字符信息。

另一方面，本发明提供了一种铸坯字符的检测与识别装置，所述装置包括：

铸坯图像获取单元，用于当接收到铸坯字符识别请求时，获取待识别的铸坯图像；

字符信息获得单元，用于通过预先训练好的铸坯字符检测识别网络对所述铸坯图像进行处理，得到所述铸坯图像的矫正字符信息，其中，所述铸坯字符检测识别网络包括第一网络和第二网络；以及

铸坯字符获得单元，用于根据所述矫正字符信息和预设的矫正算法得到所述铸坯图像中的铸坯字符；

所述字符信息获得单元包括：

特征提取单元，用于通过所述第一网络对所述铸坯图像进行特征提取，得到铸坯特征图；以及

特征重建单元，用于通过所述第二网络对所述铸坯特征图进行特征重建，得到所述矫正字符信息。

优选地，所述铸坯字符获得单元包括：

矫正角度计算单元，用于根据所述字符位置信息和所述角信息，使用预设的朝向角度公式对对应的矫正字符的矫正角度进行计算；

矫正坐标计算单元，用于根据计算得到的所述矫正角度和所述字符位置信息，使用预设的坐标矫正公式对对应的所述矫正字符的中心点的矫正坐标进行计算；以及

字符获得子单元，用于根据计算得到的所述矫正坐标输出对应的所述矫正字符，得到所述铸坯字符。

优选地，所述特征重建单元包括：

字符识别单元，用于通过所述第二网络中的字符类别分支对所述铸坯特征图进行单个字符的识别，识别到的所有矫正字符构成所述矫正字符集；

字符定位单元，用于通过所述第二网络中的字符位置分支对所述矫正字符集中的每个矫正字符进行定位，得到所述每个矫正字符对应的所述字符位置信息；以及

角信息获得单元，用于通过所述第二网络中的字符角点回归分支得到所述每个矫正字符的所述角信息，由所述矫正字符集和所述矫正字符集中的所述每个矫正字符对应的所述字符位置信息和所述角信息构成所述矫正字符信息。

另一方面，本发明还提供了一种计算设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述一种铸坯字符的检测与识别方法所述的步骤。

另一方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述一种铸坯字符的检测与识别方法所述的步骤。

本发明当接收到铸坯字符识别请求时，获取待识别的铸坯图像，通过预先训练好的铸坯字符检测识别网络对铸坯图像进行处理，得到铸坯图像的矫正字符信息，其中，铸坯字符检测识别网络包括第一网络和第二网络，根据矫正字符信息和预设的矫正算法得到铸坯图像中的铸坯字符，从而有效降低了漏识和错识的概率，提高了任意方向且多行分布的铸坯字符的检测和识别性能，同时有效提高了识别准确度。

附图说明

图1是本发明实施例一提供的铸坯字符的检测与识别方法的实现流程图；

图2是本发明实施例二提供的铸坯字符的检测与识别方法的实现流程图；

图3是本发明实施例二提供的铸坯字符的检测与识别方法中字符角度的示意图；

图4是本发明实施例三提供的铸坯字符的检测与识别装置的结构示意图；

图5是本发明实施例三提供的铸坯字符的检测与识别装置的优选结构示意图；

图6是本发明实施例四提供的计算设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

图1示出了本发明实施例一提供的铸坯字符的检测与识别方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S101中，当接收到铸坯字符识别请求时，获取待识别的铸坯图像。

本发明实施例适用于计算设备，例如，个人计算机、服务器等。在本发明实施例中，在铸坯生产中会对铸坯进行编号，以对铸坯进行管理和铸坯物料的跟踪，铸坯的编号可以是数字、也可以是字母、还可以是数字与字母的组合，铸坯的编号可以是单行分布，也可以是连续多行分布，铸坯图像即是包含铸坯的编号的图像。

在步骤S102中，通过预先训练好的铸坯字符检测识别网络对铸坯图像进行处理，得到铸坯图像的矫正字符信息，其中，铸坯字符检测识别网络包括第一网络和第二网络。

在本发明实施例中，铸坯字符检测识别网络是一个端到端深度神经网络，将铸坯图像输入到预先训练好的铸坯字符检测识别网络中，通过第一网络和第二网络的相应处理，最后，输出检测及识别到的铸坯图像中的矫正字符信息。

优选地，第一网络和第二网络均包含字符类别分支、字符位置分支以及字符角点回归分支，矫正字符信息包括矫正字符集和与矫正字符集中每个矫正字符对应的字符位置信息和角信息，其中，字符位置信息包括字符中心点坐标和字符角度，角信息包括第一角坐标和第二角坐标，从而实现字符360°范围的朝向检测，有效提高任意方向且多行分布的铸坯字符的检测和识别性能。

在本发明实施例中，对铸坯图像进行处理的过程详见下述方法实施例，在此不再赘述。

在步骤S103中，根据矫正字符信息和预设的矫正算法得到铸坯图像中的铸坯字符。

在本发明实施例中，在根据矫正字符信息和预设的矫正算法得到铸坯图像中的铸坯字符时，优选地，通过下述步骤实现铸坯字符的获得：

（1）根据字符位置信息和角信息，使用预设的朝向角度公式对对应的矫正字符的矫正角度进行计算。

在本发明实施例中，首先根据角信息中的第一角坐标（

，

）和第二角坐标（

，

），计算与字符位置信息和角信息对应的矫正字符的第一角和第二角这两个角的角点中点坐标（

，

），之后，将角点中点坐标（

，

）与字符位置信息中的字符中心点坐标（

，

）进行横坐标和纵坐标的比较，最后根据比较结果，使用朝向角度公式

计算该矫正字符的矫正角度

，以将范围为[- 90°，90°]的

转变为360°范围的

。

在本发明实施例中，具体地，第一角坐标为对应的矫正字符所属检测框的左上角的坐标，第二角坐标为该矫正字符所属检测框的右上角的坐标，角点中点坐标也即左上角的坐标和右上角的坐标的中点坐标。

（2）根据计算得到的矫正角度和字符位置信息，使用预设的坐标矫正公式对对应的矫正字符的中心点的矫正坐标进行计算。

在本发明实施例中，根据计算得到的360°范围的矫正角度

对与其对应的矫正字符所属的检测框进行顺时针旋转，以使矫正字符的朝向为垂直向上，获得旋转后的铸坯图像的中心点坐标

、

，再根据矫正角度

和字符位置信息中字符中心点坐标（

，

），使用预设的坐标矫正公式

计算对应矫正字符的中心点的矫正坐标（

，

），其中，cx、cy分别是铸坯图像的中心点坐标。

（3）根据计算得到的矫正坐标输出对应的矫正字符，得到铸坯字符。

在本发明实施例中，按照通用阅读顺序，从左到右、从上到下将矫正字符集中的所有矫正字符以计算得到的对应的矫正坐标进行有序输出，得到正确识别的、铸坯图像中的铸坯字符。

通过上述步骤（1）~（3）实现铸坯字符的获得，从而有效提高任意方向且多行分布的铸坯字符的检测和识别性能，提高了检测和识别的准确度。

在本发明实施例中，当接收到铸坯字符识别请求时，获取待识别的铸坯图像，通过预先训练好的铸坯字符检测识别网络对铸坯图像进行处理，得到铸坯图像的矫正字符信息，其中，铸坯字符检测识别网络包括第一网络和第二网络，根据矫正字符信息和预设的矫正算法得到铸坯图像中的铸坯字符，从而有效降低了漏识和错识的概率，提高了任意方向且多行分布的铸坯字符的检测和识别性能，同时有效提高了识别准确度。

实施例二：

图2示出了本发明实施例二提供的铸坯字符的检测与识别方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

通过下述步骤实现实施例一的步骤S102中对铸坯图像进行处理：

在步骤S201中，通过第一网络对铸坯图像进行特征提取，得到铸坯特征图。

在本发明实施例中，第一网络采用的是残差网络（Residual Network，ResNet）与特征金字塔（FPN，Feature Pyramid Network)结构，是铸坯字符检测识别网络的主干网络，通过第一网络对输入的铸坯图像进行特征提取，得到包含铸坯图像的多尺度特征信息的铸坯特征图。

在通过第一网络对铸坯图像进行特征提取时，具体地，通过第一网络中的字符类别分支对铸坯图像进行初始识别，得到初始字符集，通过第一网络中的字符位置分支对初始字符集中的每个字符进行定位，得到初始字符集中每个字符的字符位置信息，最后通过第一网络中的字符角点回归分支预测初始字符集中的每个字符的角信息，最终得到包含识别到的所有初始字符、以及每个初始字符分别对应的字符位置信息和角信息的这些特征信息的铸坯特征图。

在步骤S202中，通过第二网络对铸坯特征图进行特征重建，得到矫正字符信息。

在本发明实施例中，第二网络是基于旋转目标检测网络（Refined Single-StageDetector with Feature Refinement for Rotating Object，R3det），是铸坯字符检测识别网络的特征精炼网络，通过该网络将主干网络得到的铸坯特征图进行特征精炼重建，得到矫正字符信息。

在通过第二网络对铸坯特征图进行特征重建时，具体地，通过下述步骤实现对对铸坯特征图的特征重建：

（1）通过第二网络中的字符类别分支对铸坯特征图进行单个字符的识别，识别到的所有矫正字符构成矫正字符集；

（2）通过第二网络中的字符位置分支对矫正字符集中的每个矫正字符进行定位，得到每个矫正字符的字符位置信息；

在本发明实施例中，字符位置信息为矩形的检测框形式，其格式为（

，

，

，

），其中，（

，

）为矫正字符所属的检测框的中心点坐标，即该矫正字符的字符中心点坐标，

，

为检测框的宽、高，

为检测框的角度（即字符角度），其范围在[-90°，0°]或[0°， 90°]之间，该角度是根据水平x轴旋转时与检测框的第一条边相遇时之间的夹角，逆时针旋转角度为负，顺时针旋转角度为正，如图3示出了顺时针和逆时针两种情况的字符角度，该第一条边为检测框的长边或短边。

优选地，当与x轴相遇的检测框的第一条边为长边时，根据角度转换公式

对字符角度进行转换，从而实现字符角度都是以短边为第一条边，使得字符角度的范围统一在[-90°，90°]之间。

（3）通过第二网络中的字符角点回归分支得到每个矫正字符的角信息，由矫正字符集和矫正字符集中的每个矫正字符对应的字符位置信息和角信息构成矫正字符信息；

在本发明实施例中，通过字符角点回归分支预测每个矫正字符所属检测框的左上角和右上角的位置，得到左上角坐标和右上角坐标，左上角坐标和右上角坐标组成角信息。

在通过预先训练好的铸坯字符检测识别网络对铸坯图像进行处理之前，优选地，根据预设的目标损失函数对铸坯字符检测识别网络进行训练。

在本发明实施例中，铸坯字符检测识别网络的目标损失函数

由第一网络的第一损失函数

和第二网络的第二损失函数

构成，表示为

；

对于第一网络损失

，其主要由字符类别分支的类别损失

、字符位置分支的位置损失

以及字符角点回归分支的角点回归损失

构成，表示为

，其中，

表示与铸坯字符匹配的锚框正样本数量，

和

为平衡位置损失和角点回归损失的权重参数；

类别损失

用来判断字符的具体类别，根据需要的实际情况进行设置，可以为10 类（数字），26类（字母）和36类（数字+字母），通过Focal loss损失来进行计算，具体为

，其中，C表示字符设置的类别，

表示通过sigmoid函数计算得到的第n个预测值的类别概率分布，

表示第n 个锚框对应的类别，

表示类别为k时的概率，

是Focol loss损失的调节超参数，默认设置为2；

位置损失

用来回归字符的旋转检测框的位置（

，

，

，

），本发明使用KFLoss损失（Yang, X., Zhou, Y., Zhang, G., Yang, J., Wang, W., Yan, J., Zhang, X., Tian, Q.: The kfiou loss for rotated object detection. CoRR abs/ 2201.12558 (2022)）来计算

，以解决由于角度存在周期性且这五个参数的度量单位不一致，导致用损失直接回归这五个参数非常不稳定的问题，具体地，首先将旋转的检测框转换为高斯分布

，计算两个高斯分布

、

之间的中心点距离损失

，再使用卡尔曼滤波器计算两个高斯分布之间的重合分布，最后将该重合分布重新变换为旋转框形态，计算交并比值（Intersection over Union，IoU），公式表示为

，其中，

表示第n个预测的检测框值，

表示第n个目标的真实值，

表示高斯分布中心点的位置损失，

表示KFIoU的损失值，

表示两个检测框转换为高斯分布后的均值和方差，RIoU是通过卡尔曼滤波器计算两个高斯分布

、

之间的重合分布，从而避免直接回归旋转框方法可能带来的不稳定和旋转IoU难以计算以及不可导的问题；

角点回归损失

使用Smooth L1损失进行计算，表示为

，其中，

表示第n个目标的预测值，

为第n个目标的角点真实值；

对于第二网络损失

，根据公式

进行计算，其中，N 表示使用的第二网络组件的个数，

表示第n个第二网络组件的损失权重，

表示第n个第二网络组件的损失，每个第二网络组件的损失由字符类别分支的类别损失

、字符位置分支的位置损失

以及字符角点回归分支的角点回归损失

构成，

计算方式和

一致，在此不再赘述；

另外，对铸坯字符检测识别网络进行训练的数据集有两类，第一类数据集由实际采集的铸坯图像数据集和扩充数据集组成，扩充数据集是对铸坯图像数据集中的铸坯图像进行360°随机角度的旋转而得到的，第一类数据集中的每个铸坯图像包含朝向任意的铸坯字符，且呈连续多行分布，也可能存在个别字符的缺失，第二类数据集是随机生成的、包含多行顺序排列的字母和数字图像数据集，具体地，随机生成3-5行字符，每行字符为1-5个数字和字母的随机组合，并以360°随机角度对其进行旋转，得到最终的第二类数据集，第一类数据集和第二类数据集都包含铸坯字符四个顶点以及类别的标注信息，从而根据这两类数据集和目标损失函数实现对铸坯字符检测识别网络的训练，提高了网络模型的鲁棒性。

在本发明实施例中，通过第一网络对铸坯图像进行特征提取，得到铸坯特征图，通过第二网络对铸坯特征图进行特征重建，得到矫正字符信息，从而提高了字符检测和识别的准确度。

实施例三：

图4示出了本发明实施例三提供的铸坯字符的检测与识别装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

铸坯图像获取单元41，用于当接收到铸坯字符识别请求时，获取待识别的铸坯图像。

在本发明实施例中，在铸坯生产中会对铸坯进行编号，以对铸坯进行管理和铸坯物料的跟踪，铸坯的编号可以是数字、也可以是字母、还可以是数字与字母的组合，铸坯的编号可以是单行分布，也可以是连续多行分布，铸坯图像即是包含铸坯的编号的图像。

字符信息获得单元42，用于通过预先训练好的铸坯字符检测识别网络对铸坯图像进行处理，得到铸坯图像的矫正字符信息，其中，铸坯字符检测识别网络包括第一网络和第二网络。

铸坯字符获得单元43，用于根据矫正字符信息和预设的矫正算法得到铸坯图像中的铸坯字符。

如图5所示，优选地，字符信息获得单元42包括：

特征提取单元421，用于通过第一网络对铸坯图像进行特征提取，得到铸坯特征图。

特征重建单元422，用于通过第二网络对铸坯特征图进行特征重建，得到矫正字符信息。

铸坯字符获得单元43包括：

矫正角度计算单元431，用于根据字符位置信息和角信息，使用预设的朝向角度公式对对应的矫正字符的矫正角度进行计算。

在本发明实施例中，首先根据角信息中的第一角坐标（

，

）和第二角坐标（

，

，

），之后，将角点中点坐标（

，

）与字符位置信息中的字符中心点坐标（

，

计算该矫正字符的矫正角度

，以将范围为[- 90°，90°]的

转变为360°范围的

。

矫正坐标计算单元432，用于根据计算得到的矫正角度和字符位置信息，使用预设的坐标矫正公式对对应的矫正字符的中心点的矫正坐标进行计算。

在本发明实施例中，根据计算得到的360°范围的矫正角度

、

，再根据矫正角度

和字符位置信息中字符中心点坐标（

，

），使用预设的坐标矫正公式

计算对应矫正字符的中心点的矫正坐标（

，

），其中，cx、cy分别是铸坯图像的中心点坐标。

字符获得子单元433，用于根据计算得到的矫正坐标输出对应的矫正字符，得到铸坯字符。

特征重建单元422，包括：

字符识别单元，用于通过第二网络中的字符类别分支对铸坯特征图进行单个字符的识别，识别到的所有矫正字符构成矫正字符集；

字符定位单元，用于通过第二网络中的字符位置分支对矫正字符集中的每个矫正字符进行定位，得到每个矫正字符的字符位置信息；

，

，

，

），其中，（

，

，

为检测框的宽、高，

角信息获得单元，用于通过第二网络中的字符角点回归分支得到每个矫正字符的角信息，由矫正字符集和矫正字符集中的每个矫正字符对应的字符位置信息和角信息构成矫正字符信息；

优选地，铸坯字符的检测与识别装置还包括：

网络训练单元，用于根据预设的目标损失函数对铸坯字符检测识别网络进行训练。

在本发明实施例中，铸坯字符检测识别网络的目标损失函数

由第一网络的第一损失函数

和第二网络的第二损失函数

构成，表示为

；

对于第一网络损失

，其主要由字符类别分支的类别损失

、字符位置分支的位置损失

以及字符角点回归分支的角点回归损失

构成，表示为

，其中，

表示与铸坯字符匹配的锚框正样本数量，

和

为平衡位置损失和角点回归损失的权重参数；

类别损失

，其中，C表示字符设置的类别，

表示第n 个锚框对应的类别，

表示类别为k时的概率，

是Focol loss损失的调节超参数，默认设置为2；

位置损失

用来回归字符的旋转检测框的位置（

，

，

，

，计算两个高斯分布

、

之间的中心点距离损失

，其中，

表示第n个预测的检测框值，

表示第n个目标的真实值，

表示高斯分布中心点的位置损失，

表示KFIoU的损失值，

、

角点回归损失

使用Smooth L1损失进行计算，表示为

，其中，

表示第n个目标的预测值，

为第n个目标的角点真实值；

对于第二网络损失

，根据公式

进行计算，其中，N 表示使用的第二网络组件的个数，

表示第n个第二网络组件的损失权重，

、字符位置分支的位置损失

以及字符角点回归分支的角点回归损失

构成，

计算方式和

一致，在此不再赘述；

在本发明实施例中，铸坯字符的检测与识别装置的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为一个软、硬件单元，在此不用以限制本发明。

实施例四：

图6示出了本发明实施例四提供的计算设备的结构，为了便于说明，仅示出了与本发明实施例相关的部分。

本发明实施例的计算设备6包括处理器60、存储器61以及存储在存储器61中并可在处理器60上运行的计算机程序62。该处理器60执行计算机程序62时实现上述一种铸坯字符的检测与识别方法实施例中的步骤，例如图1所示的步骤S101至S103。或者，处理器60执行计算机程序62时实现上述各装置实施例中各单元的功能，例如图4所示单元41至43的功能。

本发明实施例的计算设备可以为个人计算机、服务器。该计算设备6中处理器60执行计算机程序62时实现一种铸坯字符的检测与识别方法时实现的步骤可参考前述方法实施例的描述，在此不再赘述。

实施例五：

在本发明实施例中，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述一种铸坯字符的检测与识别方法实施例中的步骤，例如，图1所示的步骤S101至S103。或者，该计算机程序被处理器执行时实现上述各装置实施例中各单元的功能，例如图4所示单元41至43的功能。

本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质，例如，ROM/RAM、磁盘、光盘、闪存等存储器。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种铸坯字符的检测与识别方法，其特征在于，所述方法包括下述步骤：

当接收到铸坯字符识别请求时，获取待识别的铸坯图像；

2.如权利要求1所述的方法，其特征在于，所述第一网络和所述第二网络均包含字符类别分支、字符位置分支以及字符角点回归分支，所述矫正字符信息包括矫正字符集和与所述矫正字符集中每个矫正字符对应的字符位置信息和角信息。

3.如权利要求2所述的方法，其特征在于，所述根据所述矫正字符信息和预设的矫正算法得到所述铸坯图像中的铸坯字符的步骤，包括：

4.如权利要求2所述的方法，其特征在于，所述通过所述第二网络对所述铸坯特征图进行特征重建的步骤，包括：

5.一种铸坯字符的检测与识别装置，其特征在于，所述装置包括：

字符信息获得单元，用于通过预先训练好的铸坯字符检测识别网络对所述铸坯图像进行处理，得到所述铸坯图像中的矫正字符信息，其中，所述铸坯字符检测识别网络包括第一网络和第二网络；以及

所述字符信息获得单元包括：

6.如权利要求5所述的装置，其特征在于，所述第一网络和所述第二网络均包含字符类别分支、字符位置分支以及字符角点回归分支，所述矫正字符信息包括矫正字符集和与所述矫正字符集中每个矫正字符对应的字符位置信息和角信息。

7.如权利要求6所述的装置，其特征在于，所述铸坯字符获得单元包括：

8.如权利要求6所述的装置，其特征在于，所述特征重建单元包括：

9.一种计算设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述方法的步骤。