CN111353511B

CN111353511B - 号码识别装置及方法

Info

Publication number: CN111353511B
Application number: CN201811561218.9A
Authority: CN
Inventors: 祝贤坦; 谭志明
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2024-03-08
Anticipated expiration: 2038-12-20
Also published as: JP7375497B2; JP2020102203A; CN111353511A

Abstract

本发明实施例提供一种号码识别装置及方法，首先检测出各个待检测物体，然后检测各个待检测物体所在区域内的一位数字，最后将这些一位数字合并从而得到对应于各个待检测物体的号码。由于只需要检测一位数字，因此仅需要收集0～9这10种类型的训练样本并对分类器进行训练，能够简单迅速的完成分类器的训练，并且，由于是对一位数字进行检测并合并，因此具有较高的识别精度。

Description

号码识别装置及方法

技术领域

本发明涉及信息技术领域，尤其涉及一种号码识别装置及方法。

背景技术

随着信息技术的不断发展，号码识别的应用也日益广泛。例如，对于标志牌、运动员、工作人员、考生等待检测物体上的号码进行识别，可以进行各种应用。

例如，在篮球比赛中，号码检测就有很多视频监控方面的应用。例如，通过对运动员的球服上的号码进行检测和识别，并根据识别结果确定相应的运动员。这样，能够通过整个比赛的视频来跟踪和描绘每个运动员的轨迹从而提供技术辅助。传统的号码识别方法通过使用分类器对所有可能的号码进行分类。例如，对于篮球运动员，其可能的号码为0～99号，那么该分类器的类别为100种。

应该注意，上面对技术背景的介绍只是为了方便对本发明的技术方案进行清楚、完整的说明，并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本发明的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

发明内容

发明人发现，使用分类器的传统方法需要针对每个分类收集大量的训练数据并进行训练，耗费时间和精力，并且，有些类别的训练数据难以收集。例如，对于篮球运动员的号码识别，需要收集100种类别的训练数据，但是，对于某些号码，使用该号码的运动员很少，导致很难收集这些号码的训练数据进行训练。

本发明实施例提供一种号码识别装置及方法，由于只需要检测一位数字，因此仅需要收集0～9这10种类型的训练样本并对分类器进行训练，能够简单迅速的完成分类器的训练，并且，由于是对一位数字进行检测并合并，因此具有较高的识别精度。

根据本发明实施例的第一方面，提供一种号码识别装置，所述装置包括：第一检测单元，其用于从输入图像中检测待检测物体；第二检测单元，其用于在检测出的所述待检测物体所在区域中检测一位数字；以及合并单元，其用于将所述待检测物体所在区域中检测出的一位数字进行合并，从而得到所述待检测物体所在区域中的号码。

根据本发明实施例的第二方面，提供一种电子设备，所述电子设备包括根据本发明实施例的第一方面所述的装置。

根据本发明实施例的第三方面，提供一种号码识别方法，所述方法包括：从输入图像中检测待检测物体；在检测出的所述待检测物体所在区域中检测一位数字；以及将所述待检测物体所在区域中检测出的一位数字进行合并，从而得到所述待检测物体所在区域中的号码。

本发明的有益效果在于：首先检测出各个待检测物体，然后检测各个待检测物体所在区域内的一位数字，最后将这些一位数字合并从而得到对应于各个待检测物体的号码。由于只需要检测一位数字，因此仅需要收集0～9这10种类型的训练样本并对分类器进行训练，能够简单迅速的完成分类器的训练，并且，由于是对一位数字进行检测并合并，因此具有较高的识别精度。

参照后文的说明和附图，详细公开了本发明的特定实施方式，指明了本发明的原理可以被采用的方式。应该理解，本发明的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内，本发明的实施方式包括许多改变、修改和等同。

针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在，但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。

附图说明

所包括的附图用来提供对本发明实施例的进一步的理解，其构成了说明书的一部分，用于例示本发明的实施方式，并与文字描述一起来阐释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本发明实施例1的号码识别装置的一示意图；

图2是本发明实施例1的输入图像的一示意图；

图3是图2中的待检测物体所在检测框及其一位数字检测结果的一示意图；

图4是本发明实施例1的在一个待检测物体所在区域检测到的一位数字的一示意图；

图5是本发明实施例1的在一个待检测物体所在区域检测到的一位数字的另一示意图；

图6是本发明实施例2的电子设备的一示意图；

图7是本发明实施例2的电子设备的系统构成的一示意框图；

图8是本发明实施例3的号码识别方法的一示意图。

具体实施方式

参照附图，通过下面的说明书，本发明的前述以及其它特征将变得明显。在说明书和附图中，具体公开了本发明的特定实施方式，其表明了其中可以采用本发明的原则的部分实施方式，应了解的是，本发明不限于所描述的实施方式，相反，本发明包括落入所附权利要求的范围内的全部修改、变型以及等同物。

实施例1

本发明实施例提供一种号码识别装置。图1是本发明实施例1的号码识别装置的一示意图。如图1所示，号码识别装置100包括：

第一检测单元101，其用于从输入图像中检测待检测物体；

第二检测单元102，其用于在检测出的待检测物体所在区域中检测一位数字；以及

合并单元103，其用于将该待检测物体所在区域中检测出的一位数字进行合并，从而得到该待检测物体所在区域中的号码。

由上述实施例可知，由于只需要检测一位数字，因此仅需要收集0～9这10种类型的训练样本并对分类器进行训练，能够简单迅速的完成分类器的训练，并且，由于是对一位数字进行检测并合并，因此具有较高的识别精度。

在本实施例中，该待检测物体可以是具有识别其号码的需求的任何物体。例如，该待检测物体是比赛中的运动员、包含号码的标示牌、参加活动的工作人员或者参加考试或竞赛的选手等。

例如，对于参加比赛的篮球或足球运动员，其可能的号码为0～99，对于参加比赛的田径运动员，其可能的号码为0000～9999。

在本实施例中，该输入图像是可能包含待检测物体的图像。例如，该待检测物体是篮球运动员，该输入图像是篮球比赛的视频中的至少一个图像。

在本实施例中，第一检测单元101检测待检测物体以及第二检测单元102检测一位数字可以基于各种检测方法，例如，该第一检测单元101和该第二检测单元102通过卷积神经网络(Convolutional Neural Network，CNN)分别对该输入图像中的待检测物体以及该待检测物体所在区域中的一位数字进行检测。

在本实施例中，该卷积神经网络的具体结构可以参照现有技术。例如，该卷积神经网络是Faster R-CNN、FPN(Feature Pyramid Networks for object Detection)或YOLO(You Only Look Once:Unified,Real-Time Object Detection)。

在本实施例中，对于卷积神经网络的训练的方法也可以参考现有技术，此处不再赘述。

由于卷积神经网络具有强大的目标识别能力，能够从现实环境中简化复杂的因素，从而进一步提高检测效率和检测精度。

在本实施例中，以识别篮球比赛中运动员的球衣号码为例进行示例性的说明。

图2是本发明实施例1的输入图像的一示意图。如图2所示，该输入图像为篮球比赛视频的一个图像，其包含多个作为待检测物体的运动员。第一检测单元101检测该输入图像中的各个运动员，并获得各个运动员所在的区域，以各个检测框表示。

图3是图2中的待检测物体所在检测框及其一位数字检测结果的一示意图。如图3所示，检测到的各个运动员所在区域以各个检测框表示，各个检测框中的一位数字的检测结果依次为“无结果”、“3和0”、“2”、“无结果”、“2和3”，“0”以及“8”。

在本实施例中，在各个待检测物体所在区域检测到一位数字之后，在对各个区域内的一位数字进行合并之前，也可以进行一些预处理。例如，

如图1所示，该装置100还可以包括：

第一去除单元104，其用于对于检测到的一位数字，当该卷积神经网络输出的得分低于第一阈值时，将该一位数字从检测结果中去除。

在本实施例中，当使用卷积神经网络对一位数字进行检测时，其输出的结果可以包括检测到的一位数字所在的坐标位置和该一位数字的得分，即检测到的一位数字属于该一位数字的类别的概率。

在本实施例中，该第一阈值可以根据实际需要而设置，例如，该第一阈值为0.5。

这样，通过去除得分较低的一位数字，能够有效去除一些误检测的结果，进一步提高号码识别的识别精度。

如图1所示，该装置100还可以包括：

第二去除单元105，其用于当在该待检测物体所在区域中检测出的至少两个相邻一位数字之间的距离大于第二阈值时，将该至少两个相邻一位数字中的该卷积神经网络输出的得分低于第三阈值的一位数字去除。

在本实施例中，该第二阈值和第三阈值可以根据实际需要而确定。例如，该第二阈值为相邻两个一位数字的检测框的宽度之和，该第三阈值为0.9。

图4是本发明实施例1的在一个待检测物体所在区域检测到的一位数字的一示意图。如图4所示，在一个待检测物体的所在区域内检测到两个相邻的一位数字，分别为2和3，这两个一位数字的中心的距离为d，对于这两个一位数字，卷积神经网络输出的得分分别为0.68和0.99。

例如，该距离d大于一位数字2和3的检测框的宽度之和，那么，将得分低于0.9的一位数字，即得分为0.68的一位数字2去除。

这样，通过将距离较大的相邻一位数字中得分较低的一位数字去除，能够保证合并的结果为同一待检测物体的号码，从而进一步提高号码识别的识别精度。

如图1所示，该装置100还可以包括：

确定单元106，其用于当在该待检测物体所在区域中重叠的至少两个检测区域内分别检测到一位数字时，将该卷积神经网络输出的得分最高的一位数字用于进行该合并。

图5是本发明实施例1的在一个待检测物体所在区域检测到的一位数字的另一示意图。如图5所示，对于一个待检测物体所在区域，检测到重叠的两个检测区域(检测框)，其检测结果分别为一位数字7和1，那么，将得分较低的一位数字1去除。

这样，能够进一步删除误检测的一位数字，进一步提高号码识别的识别精度。

在本实施例中，第一去除单元104、第二去除单元105以及确定单元106为可选部件。

在本实施例中，在本实施例中，在各个待检测物体所在区域检测到一位数字之后，可以进行以上的至少一种预处理，再进行一位数字的合并，也可以不进行这些预处理，直接进行一位数字的合并。

在本实施例中，合并单元103将该待检测物体所在区域中检测出的一位数字进行合并，从而得到该待检测物体所在区域中的号码。也就是说，当在输入图像中检测到多个待检测物体时，合并单元103针对各个待检测物体所在区域逐个进行一位数字的合并，从而得到对应于各个待检测物体的号码。而当一个待检测物体所在区域内只检测出一个一位数字时，则可以不需要进行合并。

以下对合并单元103进行一位数字合并的具体方法进行示例性的说明

在本实施例中，合并单元103可以根据该待检测物体所在区域中检测出的一位数字的中心位置，按照由左到右的顺序将各个一位数字合并。

如图3所示，合并单元103针对各个待检测物体所在区域逐个进行一位数字的合并，得到对应于各个待检测物体的号码识别结果，分别为“无结果”、“30”、“2”、“无结果”、“23”、“0”和“8”。

在本实施例中，当在该待检测物体所在区域中检测出的一位数字的个数大于该号码的最大位数时，可以根据该卷积神经网络输出的得分，从检测出的一位数字中选择与该最大位数相同的数量的一位数字进行合并。

例如，对于篮球运动员，其号码为两位数，当在一个待检测物体所在区域检测到3个或更多个一位数字时，可以根据对于各个一位数字的该卷积神经网络输出的得分，选择2个一位数字进行合并。例如，对3个或更多个一位数字按照其得分从高到低的顺序进行排序，选择前2个一位数字进行合并。

这样，能够防止错误的号码识别结果的输出。

由上述实施例可知，首先检测出各个待检测物体，然后检测各个待检测物体所在区域内的一位数字，最后将这些一位数字合并从而得到对应于各个待检测物体的号码。由于只需要检测一位数字，因此仅需要收集0～9这10种类型的训练样本并对分类器进行训练，能够简单迅速的完成分类器的训练，并且，由于是对一位数字进行检测并合并，因此具有较高的识别精度。

实施例2

本发明实施例还提供了一种电子设备，图6是本发明实施例2的电子设备的一示意图。如图6所示，电子设备600包括号码识别装置601，该号码识别装置601的结构和功能与实施例1中的记载相同，此处不再赘述。

图7是本发明实施例2的电子设备的系统构成的一示意框图。如图7所示，电子设备700可以包括中央处理器701和存储器702；该存储器702耦合到该中央处理器701。该图是示例性的；还可以使用其它类型的结构，来补充或代替该结构，以实现电信功能或其它功能。

如图7所示，该电子设备700还可以包括：输入单元703、显示器704、电源705。

在一个实施方式中，实施例1所述的号码识别装置的功能可以被集成到该中央处理器701中。其中，该中央处理器701可以被配置为：从输入图像中检测待检测物体；在检测出的该待检测物体所在区域中检测一位数字；以及将该待检测物体所在区域中检测出的一位数字进行合并，从而得到该待检测物体所在区域中的号码。

例如，通过卷积神经网络分别检测该待检测物体和该一位数字。

例如，对于检测到的一位数字，当该卷积神经网络输出的得分低于第一阈值时，将该一位数字从检测结果中去除。

例如，当在该待检测物体所在区域中检测出的至少两个相邻一位数字之间的距离大于第二阈值时，将该至少两个相邻一位数字中的该卷积神经网络输出的得分低于第三阈值的一位数字去除。

例如，当在该待检测物体所在区域中重叠的至少两个检测区域内分别检测到一位数字时，将该卷积神经网络输出的得分最高的一位数字用于进行该合并。

例如，该将该待检测物体所在区域中检测出的一位数字进行合并，包括：根据该待检测物体所在区域中检测出的一位数字的中心位置，按照由左到右的顺序将各个一位数字合并。

例如，该将该待检测物体所在区域中检测出的一位数字进行合并，包括：当在该待检测物体所在区域中检测出的一位数字的个数大于该号码的最大位数时，根据该卷积神经网络输出的得分，从检测出的一位数字中选择与该最大位数相同的数量的一位数字进行合并。

在另一个实施方式中，实施例1所述的号码识别装置可以与该中央处理器701分开配置，例如可以将该号码识别装置配置为与该中央处理器701连接的芯片，通过该中央处理器701的控制来实现该号码识别装置的功能。

在本实施例中该电子设备700也并不是必须要包括图7中所示的所有部件。

如图7所示，该中央处理器701有时也称为控制器或操作控件，可以包括微处理器或其它处理器装置和/或逻辑装置，该中央处理器701接收输入并控制该电子设备700的各个部件的操作。

该存储器702，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。并且该中央处理器701可执行该存储器702存储的该程序，以实现信息存储或处理等。其它部件的功能与现有类似，此处不再赘述。该电子设备700的各部件可以通过专用硬件、固件、软件或其结合来实现，而不偏离本发明的范围。

实施例3

本发明实施例还提供一种号码识别方法，该方法对应于实施例1的号码识别装置。图8是本发明实施例3的号码识别方法的一示意图。如图8所示，该方法包括：

步骤801：从输入图像中检测待检测物体；

步骤802：在检测出的该待检测物体所在区域中检测一位数字；以及

步骤803：将该待检测物体所在区域中检测出的一位数字进行合并，从而得到该待检测物体所在区域中的号码。

在本实施例中，上述各个步骤的具体实现方法可以参照实施例1中的记载，此处不再重复说明。

本发明实施例还提供一种计算机可读程序，其中当在号码识别装置或电子设备中执行所述程序时，所述程序使得计算机在所述号码识别装置或电子设备中执行实施例3所述的号码识别方法。

本发明实施例还提供一种存储有计算机可读程序的存储介质，其中所述计算机可读程序使得计算机在号码识别装置或电子设备中执行实施例3所述的号码识别方法。

结合本发明实施例描述的在所述号码识别装置或电子设备中执行号码识别方法可直接体现为硬件、由处理器执行的软件模块或二者组合。例如，图1中所示的功能框图中的一个或多个和/或功能框图的一个或多个组合，既可以对应于计算机程序流程的各个软件模块，亦可以对应于各个硬件模块。这些软件模块，可以分别对应于图8所示的各个步骤。这些硬件模块例如可利用现场可编程门阵列(FPGA)将这些软件模块固化而实现。

软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域已知的任何其它形式的存储介质。可以将一种存储介质耦接至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息；或者该存储介质可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该软件模块可以存储在移动终端的存储器中，也可以存储在可插入移动终端的存储卡中。例如，如果电子设备采用的是较大容量的MEGA-SIM卡或者大容量的闪存装置，则该软件模块可存储在该MEGA-SIM卡或者大容量的闪存装置中。

针对图1描述的功能框图中的一个或多个和/或功能框图的一个或多个组合，可以实现为用于执行本申请所描述功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑器件、分立硬件组件、或者其任意适当组合。针对图1描述的功能框图中的一个或多个和/或功能框图的一个或多个组合，还可以实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、与DSP通信结合的一个或多个微处理器或者任何其它这种配置。

以上结合具体的实施方式对本发明进行了描述，但本领域技术人员应该清楚，这些描述都是示例性的，并不是对本发明保护范围的限制。本领域技术人员可以根据本发明的精神和原理对本发明做出各种变型和修改，这些变型和修改也在本发明的范围内。

关于包括以上实施例的实施方式，还公开下述的附记：

附记1.一种号码识别方法，所述方法包括：

从输入图像中检测待检测物体；

在检测出的所述待检测物体所在区域中检测一位数字；以及

将所述待检测物体所在区域中检测出的一位数字进行合并，从而得到所述待检测物体所在区域中的号码。

附记2.根据附记1所述的方法，其中，

通过卷积神经网络分别检测所述待检测物体和所述一位数字。

附记3.根据附记2所述的方法，其中，所述方法还包括：

对于检测到的一位数字，当所述卷积神经网络输出的得分低于第一阈值时，将该一位数字从检测结果中去除。

附记4.根据附记2所述的方法，其中，所述方法还包括：

当在所述待检测物体所在区域中检测出的至少两个相邻一位数字之间的距离大于第二阈值时，将所述至少两个相邻一位数字中的所述卷积神经网络输出的得分低于第三阈值的一位数字去除。

附记5.根据附记2所述的方法，其中，所述方法还包括：

当在所述待检测物体所在区域中重叠的至少两个检测区域内分别检测到一位数字时，将所述卷积神经网络输出的得分最高的一位数字用于进行所述合并。

附记6.根据附记1所述的方法，其中，

所述将所述待检测物体所在区域中检测出的一位数字进行合并，包括：

根据所述待检测物体所在区域中检测出的一位数字的中心位置，按照由左到右的顺序将各个一位数字合并。

附记7.根据附记2所述的方法，其中，

当在所述待检测物体所在区域中检测出的一位数字的个数大于所述号码的最大位数时，根据所述卷积神经网络输出的得分，从检测出的一位数字中选择与所述最大位数相同的数量的一位数字进行合并。

Claims

1.一种号码识别装置，所述装置包括：

第一检测单元，其用于从输入图像中检测待检测物体；

第二检测单元，其用于在检测出的所述待检测物体所在区域中检测一位数字；以及

合并单元，其用于将所述待检测物体所在区域中检测出的一位数字进行合并，从而得到所述待检测物体所在区域中的号码，所述合并单元当在所述待检测物体所在区域中检测出的一位数字的个数大于所述号码的最大位数时，根据卷积神经网络输出的得分，从检测出的一位数字中按照所述得分从高到底的顺序进行排序，并选择排在前面的与所述最大位数相同的数量的一位数字进行合并，

所述第一检测单元和所述第二检测单元通过所述卷积神经网络分别检测所述待检测物体和所述一位数字；

所述装置还包括：

第二去除单元，其用于当在所述待检测物体所在区域中检测出的至少两个相邻一位数字之间的距离大于第二阈值时，将所述至少两个相邻一位数字中的所述卷积神经网络输出的得分低于第三阈值的一位数字去除。

2.根据权利要求1所述的装置，其中，所述装置还包括：

第一去除单元，其用于对于检测到的一位数字，当所述卷积神经网络输出的得分低于第一阈值时，将该一位数字从检测结果中去除。

3.根据权利要求1所述的装置，其中，所述装置还包括：

确定单元，其用于当在所述待检测物体所在区域中重叠的至少两个检测区域内分别检测到一位数字时，将所述卷积神经网络输出的得分最高的一位数字用于进行所述合并。

4.根据权利要求1所述的装置，其中，

所述合并单元根据所述待检测物体所在区域中检测出的一位数字的中心位置，按照由左到右的顺序将各个一位数字合并。

5.一种电子设备，所述电子设备包括根据权利要求1所述的装置。

6.一种号码识别方法，所述方法包括：

从输入图像中检测待检测物体；

在检测出的所述待检测物体所在区域中检测一位数字；以及

将所述待检测物体所在区域中检测出的一位数字进行合并，从而得到所述待检测物体所在区域中的号码，当在所述待检测物体所在区域中检测出的一位数字的个数大于所述号码的最大位数时，根据卷积神经网络输出的得分，从检测出的一位数字中按照所述得分从高到底的顺序进行排序，并选择排在前面的与所述最大位数相同的数量的一位数字进行合并，

其中，通过所述卷积神经网络分别检测所述待检测物体和所述一位数字；

所述方法还包括：