CN111738042A

CN111738042A - 识别方法、设备及存储介质

Info

Publication number: CN111738042A
Application number: CN201911026184.8A
Authority: CN
Inventors: 左鑫孟; 赖荣凤; 梅涛
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Huijun Technology Co.,Ltd.
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2020-10-02

Abstract

本申请实施例公开了一种识别方法、设备及存储介质，其中，所述方法包括：针对至少一帧图像中的各帧图像，获得各帧图像的置信度信息，所述置信度信息表征为相应帧图像出现有目标数据的概率或未出现有所述目标数据的概率；根据置信度信息，确定目标图像，其中目标图像为出现有所述目标数据的图像；获得在目标图像中所述目标数据的特征信息；基于目标数据的特征信息与预设的数据库记载的特征信息，确定在目标图像中出现的所述目标数据的类别。

Description

识别方法、设备及存储介质

技术领域

本申请涉及识别技术，具体涉及一种识别方法、设备及存储介质。

背景技术

图像、视频等多媒体数据中通常会出现商品、厂家等标识(logo)，用以实现对该商品、厂家的广告宣传。logo在多媒体数据中的识别至少可方便厂商计算为该商品进行宣传而产生的费用与多媒体数据中出现的针对该logo的宣传信息如时长、频繁度是否匹配。可见，如何识别多媒体数据中是否包含有logo以及所包含的logo的类别如为哪个商品或厂家的logo成为了亟待解决的技术问题。相关技术中，可采用如下方式进行logo的识别：针对多媒体数据中的一图像，利用多尺度的滑动窗口选定该图像的某一区域为候选区域，采用支持向量机(SVM)、Adaboost(属于一种迭代算法)等分类算法对候选区域进行是否包括有logo图像的分类，进而判断该图像中是否包括待检测的logo以及该待检测的logo是哪个商品或厂家的logo。其中，以多尺度的滑动窗口找到待检测logo，至少在logo的识别速度上存在不足、通常较慢，可能无法准确识别出快速播放的图像或视频流中含有的logo。

发明内容

为解决现有存在的技术问题，本申请实施例提供一种识别方法、设备及存储介质。

本申请实施例的技术方案是这样实现的：

本申请实施例提供了一种识别方法，包括：

针对至少一帧图像中的各帧图像，

获得各帧图像的置信度信息，所述置信度信息表征为相应帧图像出现有目标数据的概率或未出现有所述目标数据的概率；

根据置信度信息，确定目标图像，其中目标图像为出现有所述目标数据的图像；

获得在目标图像中所述目标数据的特征信息；

基于目标数据的特征信息与预设的数据库记载的特征信息，确定在目标图像中出现的所述目标数据的类别。

前述方案中，所述数据库记载有至少一种类别的目标数据的特征信息；

相应的，所述基于目标数据的特征信息与预设的数据库记载的特征信息，确定在目标图像中出现的所述目标数据的类别，包括：

将目标数据的特征信息与数据库记载的各个类别的目标数据的特征信息进行匹配；

根据匹配结果，确定在目标图像中出现的所述目标数据的类别。

前述方案中，所述将目标数据的特征信息与数据库记载的各个类别的目标数据的特征信息进行匹配；根据匹配结果，确定在目标图像中出现的所述目标数据的类别，包括：

根据目标数据的特征信息与数据库记载的各个类别的目标数据的特征信息，计算目标数据与各个类别的目标数据之间的特征度量值；

获得数据库中使特征度量值取最小值的目标数据的类别；

确定在目标图像中出现的目标数据与数据库中使得特征度量值取最小的目标数据为同一类别。

前述方案中，在获得数据库中使特征度量值取最小值的目标数据的类别之后，所述方法还包括：

判断取最小值的特征度量值是否小于或等于预设阈值；

判断为是的情况下，确定在目标图像中出现的目标数据与数据库中使得特征度量值取最小的目标数据为同一类别。

前述方案中，在至少两帧目标图像出现同一类别的目标数据的情况下，所述方法还包括：

对所述同一类别的目标数据在所述至少两帧目标图像中出现的时长进行计算。

前述方案中，所述至少两帧图像之间为相邻图像或至少部分图像为不相邻图像；

对于为不相邻图像的情况，

在图像为出现有所述同一类别的目标数据的图像的情况下，对时长进行计算；

在图像为未出现有所述同一类别的目标数据的图像的情况下，停止对所述时长进行计算。

对出现有同一类别的目标数据的目标图像进行集合，得到目标视频。

本申请实施例还提供一种识别设备，包括：

第一获得单元，用于针对至少一帧图像中的各帧图像，获得各帧图像的置信度信息，所述置信度信息表征为相应帧图像出现有目标数据的概率或未出现有所述目标数据的概率；

第一确定单元，用于根据置信度信息，确定目标图像，其中目标图像为出现有所述目标数据的图像；

第二获得单元，用于获得在目标图像中所述目标数据的特征信息；

第二确定单元，用于基于目标数据的特征信息与预设的数据库记载的特征信息，确定在目标图像中出现的所述目标数据的类别。

所述第二确定单元，用于将目标数据的特征信息与数据库记载的各个类别的目标数据的特征信息进行匹配；根据匹配结果，确定在目标图像中出现的所述目标数据的类别。

前述方案中，所述第二确定单元，用于根据目标数据的特征信息与数据库记载的各个类别的目标数据的特征信息，计算目标数据与各个类别的目标数据之间的特征度量值；获得数据库中使特征度量值取最小值的目标数据的类别；确定在目标图像中出现的目标数据与数据库中使得特征度量值取最小的目标数据为同一类别。

前述方案中，所述第二确定单元，用于在获得数据库中使特征度量值取最小值的目标数据的类别之后，判断取最小值的特征度量值是否小于或等于预设阈值；判断为是的情况下，确定在目标图像中出现的目标数据与数据库中使得特征度量值取最小的目标数据为同一类别。

前述方案中，所述识别设备还包括计时单元，用于在至少两帧目标图像出现同一类别的目标数据的情况下，对所述同一类别的目标数据在所述至少两帧目标图像中出现的时长进行计算。

前述方案中，所述至少两帧图像之间为相邻图像或至少部分图像为不相邻图像；对于为不相邻图像的情况，在图像为出现有所述同一类别的目标数据的图像的情况下，计时单元对时长进行计算；在图像为未出现有所述同一类别的目标数据的图像的情况下，计时单元停止对所述时长进行计算。

前述方案中，所述识别设备还包括集合单元，用于在至少两帧目标图像出现同一类别的目标数据的情况下，对出现有同一类别的目标数据的目标图像进行集合，得到目标视频。

本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现前述的识别方法的步骤。

本申请实施例提供一种识别设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现前述的识别方法的步骤。

本申请实施例提供的识别方法、设备及存储介质，其中，所述方法包括：针对至少一帧图像中的各帧图像，获得各帧图像的置信度信息，所述置信度信息表征为相应帧图像出现有目标数据的概率或未出现有所述目标数据的概率；根据置信度信息，确定目标图像，其中目标图像为出现有所述目标数据的图像；获得在目标图像中所述目标数据的特征信息；基于目标数据的特征信息与预设的数据库记载的特征信息，确定在目标图像中出现的所述目标数据的类别。

其中，基于目标数据的特征信息与预设的数据库记载的特征信息，确定在目标图像中出现的目标数据的类别。该方案在工程上易于实现，至少能够提高识别速度。此外，不同的目标数据具有不同的特征，基于特征信息进行目标数据的类别的识别，可保证识别准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的识别方法第一实施例的实现流程示意图；

图2为本申请提供的识别方法第二实施例的实现流程示意图；

图3为本申请提供的识别方法第三实施例的实现流程示意图；

图4(a)-图4(d)为本申请提供的一视频播放场景示意图；

图5为本申请提供的识别设备的组成结构示意图；

图6为本申请提供的识别设备的硬件构成示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请提供的识别方法的第一实施例，如图1所示，所述方法包括：

步骤(S101)：针对至少一帧图像中的各帧图像，获得各帧图像的置信度信息，所述置信度信息表征为相应帧图像出现有目标数据的概率或未出现有所述目标数据的概率；

目标数据可以是图像中出现的任何对象，如图像中出现的植物、人物、建筑等。特别的，目标数据可以为logo。可以具体为商品logo、厂家或厂商logo。目标数据的类别表征为logo是哪个商品的logo、哪个厂家或厂商的logo。在实际应用中，如果同一商品、厂家或厂商具有多个logo，则这些logo均用不同的类别进行表示。

S102：根据置信度信息，确定目标图像，其中目标图像为出现有所述目标数据的图像；

S103：获得在目标图像中所述目标数据的特征信息；

S104：基于目标数据的特征信息与预设的数据库记载的特征信息，确定在目标图像中出现的所述目标数据的类别。

可以理解，前述的方案可以认为是识别logo类别的方案。由于视频是由多幅图像组成的，本申请实施例，在于识别图像或视频中出现的logo的类别。具体的，针对至少一帧图像中的各帧图像，可能每帧图像均出现有logo，也可能都没有出现logo，还可能仅部分图像出现logo。先获得置信度信息，并针对置信度信息筛选出出现有目标数据的图像(作为目标图像)，获得在目标图像中目标数据的特征信息，基于目标数据的特征信息与预设的数据库记载的特征信息，确定在目标图像中出现的目标数据的类别。该方案在工程上易于实现，与相关技术中的以多尺度的滑动窗口识别待检测logo的类别的方案相比，由于易于实现，所以能够获得较快的识别速度，更适合对视频流中包含的logo的识别。另外，对于各帧图像，通过图像出现有目标数据的概率或未出现有目标数据的概率(置信度信息)，将包括有目标数据的图像筛选出来，可为后续准确识别出目标logo提供保障。考虑到在实际应用中，每个logo存在有自身的特征如在logo 的表示形式、形状、色彩、边缘情况(边缘大小或尖锐程度)等方面均存在不同，本申请实施例中从目标数据的特征信息这一角度入手，并基于目标数据的特征信息与预设的数据库记载的特征信息，进行在目标图像中出现的目标数据的类别的识别，可大大提高对logo的识别准确性。其中，logo的表示形式可以是以文字、数字、字母等字符形式进行表示的，可以是以图案的形式进行表示的，也可以是以二者混合的形式表示的，还可以是以其它任何合理的形式表示的。

本申请提供的识别方法的第二实施例，如图2所示，所述方法包括：

S201：针对至少一帧图像中的各帧图像，获得各帧图像的置信度信息，所述置信度信息表征为相应帧图像出现有目标数据的概率或未出现有所述目标数据的概率；

S202：根据置信度信息，确定目标图像，其中目标图像为出现有所述目标数据的图像；

S203：获得在目标图像中所述目标数据的特征信息；

S204：所述数据库记载有至少一种类别的目标数据的特征信息，将目标数据的特征信息与数据库记载的各个类别的目标数据的特征信息进行匹配；

S205：根据匹配结果，确定在目标图像中出现的所述目标数据的类别。

对S201～S203的说明请参见前述对S101～S103的说明，不再赘述。S204 和S205可作为对S104的进一步描述。

在前述方案中，数据库记载有不同类别的logo的特征信息，根据目标数据的特征信息与数据库记载的各个类别的目标数据的特征信息的匹配结果进行目标数据的类别的识别，工程上易于实现，可提高识别速度。另外基于目标数据的特征信息进行识别，从不同logo具有各自的特征的角度入手，可大大提高对 logo的识别准确性。

在一个可选的方案中，所述将目标数据的特征信息与数据库记载的各个类别的目标数据的特征信息进行匹配，根据匹配结果，确定在目标图像中出现的所述目标数据的类别的方案的实现，具体可通过如下至少一种方式实现：

方式一：根据目标数据的特征信息与数据库记载的各个类别的目标数据的特征信息，计算目标数据与各个类别的目标数据之间的特征度量值；获得数据库中使特征度量值取最小值的目标数据的类别；确定在目标图像中出现的目标数据与数据库中使得特征度量值取最小的目标数据为同一类别。

特征度量值可以为特征相似度值。在具体实现上可以是：计算目标数据的特征信息与数据库记载的各个类别的目标数据的特征信息之间的特征相似度值，得到多个特征相似度值。获得数据库中使特征相似度值取最小值的目标数据的类别，确定在目标图像中出现的目标数据与数据库中使得特征相似度值取最小的目标数据为同一类别。举个例子，如果经计算，得到图像中所出现的目标数据的特征信息与数据库记载的目标数据1的特征信息之间的特征相似度值在计算的多个特征相似度值中最小，则确定图像中所出现的目标数据为目标数据1。

特征度量值可以为欧氏距离值。在具体实现上可以是：计算目标数据的特征信息与数据库记载的各个类别的目标数据的特征信息之间的欧氏距离值，获得数据库中使欧氏距离值取最小值的目标数据的类别，确定在目标图像中出现的目标数据与数据库中使得欧氏距离值取最小的目标数据为同一类别。举个例子，如果经计算，得到图像中所出现的目标数据的特征信息与数据库记载的目标数据1的特征信息之间的欧氏距离值在计算的多个欧氏距离值中最小，则确定图像中所出现的目标数据为目标数据1。

在特征度量值为特征相似度值或欧氏距离的情况下，在具体实现上还可以是(以特征相似度值为例)：计算目标数据的特征信息与数据库记载的各个类别的目标数据的特征信息之间的特征相似度值，得到多个特征相似度值。判断在多个特征相似度值中是否存在有大于等于第一相似度阈值的数值，如果存在，则将存在的特征相似度值作为目标相似度值，确定使取得目标相似度值的数据库记载的目标数据的类别，确定在目标图像中出现的目标数据与使取得目标相似度值的数据库记载的目标数据的类别相同。举个例子，如果经计算，得到图像中所出现的目标数据的特征信息与数据库记载的目标数据1的特征信息之间的特征相似度值大于等于第一相似度阈值如80％，则确定图像中所出现的目标数据为目标数据1。其中，第一相似度阈值可以根据实际使用情况而灵活设置。通常为避免由于目标相似度值的数量过多而导致的识别出的目标数据的类别过多、不单一的情况，通常设置第一相似度阈值较大如90％或95％。

方式二：在前述方式一中，在获得数据库中使特征度量值取最小值的目标数据的类别之后，判断取最小值的特征度量值是否小于或等于预设阈值，判断为是的情况下，确定在目标图像中出现的目标数据与数据库中使得特征度量值取最小的目标数据为同一类别。

在特征度量值为欧氏距离的情况下，如果经计算，得到图像中所出现的目标数据的特征信息与数据库记载的目标数据1的特征信息之间的欧氏距离值在计算的多个欧氏距离值最小，则在判断为该最小的欧氏距离值小于预设的距离阈值(为预设阈值的一种)如5或10，则确定图像中所出现的目标数据为目标数据1。其中，距离阈值可根据实际情况而灵活设定。

前述的方式一和二中，均从logo特征的角度入手，可大大提高对logo的识别准确性。其中方式二相对于方式一而言，在判断取最小值的特征度量值小于或等于预设阈值的情况下，确定在目标图像中出现的目标数据与数据库中使得特征度量值取最小的目标数据为同一类别，可进一步提高对logo的识别准确性。

在一个可选的实施例中，在至少两帧目标图像出现同一类别的目标数据的情况下，所述方法还包括：对所述同一类别的目标数据在所述至少两帧目标图像中出现的时长进行计算。本可选实施例中，在各帧图像中，对于出现有同一 logo的多张图像，将该同一logo出现在各个图像中的时长进行计算。

可以理解，所述至少两帧图像之间为相邻图像或至少部分图像为不相邻图像；对于为不相邻图像的情况，在图像为出现有所述同一类别的目标数据的图像的情况下，对时长进行计算；在图像为未出现有所述同一类别的目标数据的图像的情况下，停止对所述时长进行计算。此处，对于出现有同一logo的多张图像，不论这多张图像是否为相邻的图像，只要包括有该logo的图像被播放/ 输出就对时长进行计时，如果包括有该logo的图像被播放/输出就对时长停止计时。相当于仅对该logo被播放的时长进行计时。这种计时方案可大大方便厂商、厂家计算自家logo被播放/输出的时长，判断被播放的时长是否为该商品进行宣传而产生的费用相匹配。

在一个可选的实施例中，在至少两帧目标图像出现同一类别的目标数据的情况下，所述方法还包括：对出现有同一类别的目标数据的目标图像进行集合，得到目标视频。本可选实施例中，将出现有同一logo的多张图像进行集合形成目标视频。可方便厂商、厂家的观看，计算自家logo被播放的频繁度、时长是否为该商品进行宣传而产生的费用相匹配。为厂商、厂家提供了方便。

下面结合附图3和图4(a)～(d)对本申请实施例的技术方案作进一步详细的说明。

本应用场景中，以视频播放为主，在视频播放的过程中，针对视频流中的各帧数据，可通过以下四个阶段：识别阶段、跟踪阶段、计时阶段和截取阶段来进行视频流中出现的logo类别的识别、跟踪、计时和对出现有logo视频的图像进行集合得到目标视频。

假定待识别logo为图4(b)、(d)所示的商品A的logo。通过识别阶段可从当前播放的视频流中识别出商品A的logo。可以理解，商品A的logo可能在整个视频流中均出现，也可能在整个视频流的部分图像中出现。本应用场景，以商品A的logo在整个视频流的部分图像中出现为例进行说明。本应用场景中的一张图像可视为图像的一帧。

在对本申请实施例中的识别阶段进行描述之前，需要先对识别阶段用到的 logo检测器的生成过程和特征提取器的生成过程做说明。其中，logo检测器用于对视频流中哪些图像出现有logo哪些图像未出现有logo进行检测。特征提取器用于对出现的logo的特征信息进行提取。

logo检测器的生成过程：采集一定数量包括有logo的图像，作为训练数据。其中，所采集的图像可以为任何包括有logo的图像。为了训练的准确性，可以认为至少部分被采集的图像中的logo为不同类别的logo。人工标注每个logo 的类别以及每个logo在其出现的图像中的位置。将作为训练数据的图像、每个 logo的类别及各个logo在其出现的图像中的位置等信息输入至神经网络、具体是目标检测(SSD)网络中以对SSD网络中的权重参数进行训练。本领域技术人员可以理解，SSD网络中的每层神经层均带有权重参数ω，通过将包括有logo 的图像、每个logo的类别及各个logo在其出现的图像中的位置等信息作为SSD网络的输入，意在对SSD网络中的权重参数ω进行至少两次的训练。对权重参数ω的训练在SSD网络的损失函数取得最小的情况下停止。其中，SSD网络的损失函数包括由于训练出的logo类别与其人工标注的类别之间的差异函数和训练出的logo在其出现的图像中的位置与其人工标注的位置之间的差异函数。可以认为：在SSD网络训练完成的情况下，训练出的logo类别与其人工标注的类别之间的差异和训练出的logo在其出现的图像中的位置与其人工标注的位置之间的差异为最小。SSD网络中的权重参数ω即为最优的权重参数，此时的SSD 网络可作为一种用于识别图像中是否出现有logo的检测器。具体的训练过程请参见相关说明。

特征提取器的生成过程：从前述采集的图像中，根据人工标注的logo在图像中的位置，将每张图像中的logo截取，将截取的logo的特征信息如表示形式、形状、色彩、边缘等特征信息进行数字量化，作为神经网络、具体是senet网络的输入，以对senet(squeeze-and-excitation networks)网络中的权重参数进行的训练。对于senet网络的训练在同类别的logo之间的特征信息趋向于一致或近似一致的情况下停止。可以认为：在senet网络训练完成的情况下，senet网络中的权重参数即为最优的权重参数，此时的senet网络可作为一种用于提取logo 特征信息的提取器。具体的训练过程请参见相关说明。

需要说明的是，前述的logo检测器及特征提取器的生成过程均基于神经网络而实现，神经网络由于具有较强的稳定性和健壮性，可大大保证后续对logo 识别的准确性。此外，本领域技术人员可以理解，本应用场景中使用的神经网络在训练完成后即可投入使用，不需要随着新logo的出现而重新进行训练。logo 检测器及特征提取器的这种获得方法可大大简化了流程、使得方案更加具有可行性。

数据库的形成过程：利用特征提取器对可能被识别的不同类别的logo进行特征信息的提取。为方便存储，需要将提取的特征信息进行数字量化，用n维特征向量的形式进行表示。以logo的特征信息包括该logo的表现形式、形状、大小、颜色、边缘大小、边缘颜色、边缘尖锐程度等。n维特征向量Y可以表示为Y＝[y₁,y₂...y_n]；其中，n为特征信息的数量，可根据实际使用情况而灵活设定。y₁、y₂、y₃...y_n依次表示为logo的表示形式、形状、大小、颜色、边缘大小、边缘颜色、边缘尖锐程度等。在数据库中，可能被识别的每个logo的特征信息均用一个n维的特征向量表示。可以理解的是，由于本应用场景中待识别的logo 为图4(b)、(d)所示的商品A的logo，所以，预先需要特征提取器对该logo 进行其n维特征向量的提取并存储，以备后续方案的使用。

识别阶段：

S301：对于输入至识别设备的一段视频流，判断该视频流是否播放结束；

判断为播放结束的情况下，流程结束；

否则，继续S302；

S302：对于播放的当前帧图像，利用logo检测器，检测该帧图像中是否有 logo的出现；

检测为有logo出现的情况下，执行S303；

否则，等待下一帧图像的到来；

在技术实现上，当前帧图像作为训练好的SSD网络的输入，SSD网络对输入的图像进行区域的划分，计算各个区域对应的图像是logo图像的概率或不是logo图像的概率(置信度)。如果某个区域对应的图像是logo图像的概率大于等于预定概率如0.8，则认为该区域对应的图像为logo图像，当前帧图像是出现有logo图像的图像(目标图像)。如果某个区域对应的图像不是logo图像的概率为0.1，相当于该区域对应的图像是logo图像的概率为0.9，大于等于预定概率，则也可认为该区域对应的图像为logo图像，当前帧图像是有logo的图像 (目标图像)。对于有logo出现的图像计算其logo在图像中的位置。

利用前述方案，可将视频流中有logo出现的图像和没有logo出现的图像进行区分开。

S303：利用特征提取器对当前帧图像中出现的logo进行特征向量的提取；

在技术实现上，利用训练好的senet网络对当前帧出现的logo的表示形式、形状、大小、颜色、边缘大小、边缘颜色、边缘尖锐程度等特征信息进行计算，得到针对当前帧出现的logo的n维特征向量。

S304：计算当前帧图像中出现的logo的特征向量与数据库中记载的各个类别的logo的特征向量之间的欧氏距离；当前帧图像中出现的logo是使取得欧氏距离最小的数据库中的logo；

在技术实现上，假定特征向量Y＝[y₁,y₂...y_n]表示为数据库中记载的logo的特征向量；X＝[x₁,x₂...x_n]表示为当前帧图像中出现的logo的特征向量。则这两个特征向量之间的欧氏距离为：

或者为：

当前帧图像中出现的logo与数据库中记载的使得欧氏距离为最小的logo 为相同的logo，也即当前帧图像中出现的logo与数据库中记载的使得欧氏距离为最小的logo为相同类别的logo。在实际应用中，假定当前播放的视频流中仅出现商品A的logo，没有其他logo的出现，那么理论上数据库中记载的使得欧氏距离最小的logo应该为预先记录的商品A的logo的特征向量。此外，还可以在取得最小值的欧氏距离在小于等于预设的距离阈值如5的情况下，确定当前帧图像中出现的logo与数据库中记载的使得欧氏距离为最小的logo为相同类别的logo。这种通过距离阈值比较的方案，可大大避免相近logo的识别出错的情况，保证对待识别的logo的识别准确性。

前述方案中，从logo的特征出发进行logo为何种类别的logo的识别，在工程上易于实现，可大大加快对logo识别的速度，也可保证logo识别的准确性。

可以理解，数据库的logo的类别可按需配置，对于新加入的logo，尤其是差异不大的logo诸如大写的“AA”和小写的“aa”这样的logo，可直接通过特征提取器得到特征向量并添加到数据库中，以实现对数据库的更新。本领域技术人员应该理解，数据库存储的logo越多，则本方案的适用性更广，可识别出各个类别的logo。数据库存储的logo的特征向量越丰富，则识别的准确性越高。

前述方案中，通过待识别logo的特征向量与数据库中记载的logo的特征向量之间的欧氏距离，即可确定待识别logo的类别，简单易行，可提高识别速度，更适合对视频流中包含的logo的识别。另外，基于logo的特征向量进行识别，可大大保证识别准确性。

跟踪阶段：

S305：对识别阶段识别出的出现有logo的图像进行跟踪；

本应用场景中，不需对视频的每帧图像均做跟踪，仅需要对视频流中出现有logo的图像进行跟踪。与对每帧图像进行跟踪的方案相比，本方案可提高跟踪响应速度，能够实现对出现有logo的图像的同步跟踪或近似同步的跟踪。由于商业化视频一般质量都很高、较少存在模糊失真等情况，本应用场景中可采用传统的视频跟踪算法(CAMSHIFT，Continuously Adaptive Mean-SHIFT)方法进行已经识别出的logo的跟踪。对出现有logo图像的跟踪可大大方便厂家或厂商对自家的logo的播放情况的查看，也可方便相关监管机关对logo播放情况的监督、如logo的播放是否合理。

计时阶段：

S306：对识别阶段识别出的出现有logo的图像其出现logo的时长进行计时；

在技术实现上，识别阶段识别到logo的情况下，开始进行跟踪，启动计时模块，计时开始时间设为

在跟踪过程中一旦发现跟踪的logo消失，停止跟踪，则关闭计时模块，关闭时间设为

则对这次跟踪的跟踪时间可以为

该跟踪时间也可以视为logo在跟踪图像中出现的时长。例如，视频按照图4(a)-(d)的顺序进行依次播放，而商品A的logo在图4(b) 和图4(d)中出现；在图4(a)和图4(c)中消失。如果视频流中频繁地出现同一logo，则其出现就对其进行跟踪和接续计时，其消失则停止跟踪和计时。在视频流结束的情况下，就可以将各次跟踪得到跟踪时长加起来

(M为正整数，为logo在视频流中出现的次数)作为该视频中logo出现的时长。这种计时方案可大大方便厂商、厂家计算自家logo被播放/输出的时长，判断被播放的时长是否为该商品进行宣传而产生的费用相匹配。

截取阶段：

S307：将出现有logo的图像进行截取，并集合视频流中所有出现同一logo 的图像，得到目标视频；

可以理解，在实际应用中，视频流中可以仅出现一种类别的logo，也可以出现多个类别的logo。对各个类别的logo的识别请参见前述的识别阶段涉及的方案。跟踪和计时阶段针对是对各个识别出的logo进行各自的跟踪和计时。对于某个视频流中出现的同一logo，根据其起始时间

和结束时间

对视频进行片段的(实时)截取，并在logo消失的情况下，停止片段的截取。如此，在视频流结束的情况下，将视频流中针对该同一logo的所有片段进行集合，得到该同一logo在该视频中出现的所有片段。这种将同一logo的片段的集合的方案，一方面可判断该logo被播放的时长、频繁度是否为该商品进行宣传而产生的费用相匹配。另一方面，可方便监管机关对该片段的监管如播放是否合理。

可以理解，前述的S305～S307无严格的先后顺序，还可以同时进行。

前述方案中，可精准识别视频出现的目标logo的时段，并通过截取(剪裁) 和统计广告植入时长，极大地降低相关技术中通过人力进行广告审核、验收及监控的成本，提高视频处理的效率。本方案还可与其他广告投放效果指标相结合，比如收视率时段和广告投放时段结合分析，使得视频广告的审核更加智能化。

前述方案中是以目标数据为logo为例，除此之外，目标数据还可以是图像中出现的任何对象，如图像中出现的植物、人物、建筑等。进而可实现对图像中出现的对象的识别、出现时长的统计及跟踪，以及对视频中同一对象的视频片段的截取，可满足不同的使用需求。

本申请实施例还提供一种识别设备，如图5所示，所述设备包括：第一获得单元11、第一确定单元12、第二获得单元13及第二确定单元14；其中，

第一获得单元11，用于针对至少一帧图像中的各帧图像，获得各帧图像的置信度信息，所述置信度信息表征为相应帧图像出现有目标数据的概率或未出现有所述目标数据的概率；

第一确定单元12，用于根据置信度信息，确定目标图像，其中目标图像为出现有所述目标数据的图像；

第二获得单元13，用于获得在目标图像中所述目标数据的特征信息；

第二确定单元14，用于基于目标数据的特征信息与预设的数据库记载的特征信息，确定在目标图像中出现的所述目标数据的类别。

在一个可选的方案中，所述数据库记载有至少一种类别的目标数据的特征信息；

所述第二确定单元14，用于将目标数据的特征信息与数据库记载的各个类别的目标数据的特征信息进行匹配；根据匹配结果，确定在目标图像中出现的所述目标数据的类别。

在一个可选的方案中，所述第二确定单元14，用于根据目标数据的特征信息与数据库记载的各个类别的目标数据的特征信息，计算目标数据与各个类别的目标数据之间的特征度量值；获得数据库中使特征度量值取最小值的目标数据的类别；确定在目标图像中出现的目标数据与数据库中使得特征度量值取最小的目标数据为同一类别。

在一个可选的方案中，所述第二确定单元14，用于在获得数据库中使特征度量值取最小值的目标数据的类别之后，判断取最小值的特征度量值是否小于或等于预设阈值；判断为是的情况下，确定在目标图像中出现的目标数据与数据库中使得特征度量值取最小的目标数据为同一类别。

在一个可选的方案中，所述识别设备还包括计时单元，用于在至少两帧目标图像出现同一类别的目标数据的情况下，对所述同一类别的目标数据在所述至少两帧目标图像中出现的时长进行计算。

在一个可选的方案中，所述至少两帧图像之间为相邻图像或至少部分图像为不相邻图像；对于为不相邻图像的情况，在图像为出现有所述同一类别的目标数据的图像的情况下，计时单元对时长进行计算；在图像为未出现有所述同一类别的目标数据的图像的情况下，计时单元停止对所述时长进行计算。

在一个可选的方案中，所述识别设备还包括集合单元，用于在至少两帧目标图像出现同一类别的目标数据的情况下，对出现有同一类别的目标数据的目标图像进行集合，得到目标视频。

可以理解，所述设备中的第一获得单元11、第一确定单元12、第二获得单元13及第二确定单元14在实际应用中均可由识别设备的中央处理器(CPU， Central ProcessingUnit)、数字信号处理器(DSP，Digital Signal Processor)、微控制单元(MCU，Microcontroller Unit)或可编程门阵列(FPGA，Field－ Programmable Gate Array)实现。

需要说明的是，本申请实施例的识别设备，由于该识别设备解决问题的原理与前述的识别方法相似，因此，识别设备的实施过程及实施原理均可以参见前述方法的实施过程及实施原理描述，重复之处不再赘述。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时至少用于执行图1至图4任一所示方法的步骤。所述计算机可读存储介质具体可以为存储器。所述存储器可以为如图6所示的存储器62。

本申请实施例还提供了一种识别设备。图6为本申请实施例的识别设备的硬件结构示意图。如图6所示，识别设备包括：用于进行数据传输的通信组件 63、至少一个处理器61和用于存储能够在处理器61上运行的计算机程序的存储器62。终端中的各个组件通过总线系统64耦合在一起。可理解，总线系统 64用于实现这些组件之间的连接通信。总线系统64除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图6中将各种总线都标为总线系统64。

其中，所述处理器61执行所述计算机程序时至少执行图1至图4任一所示方法的步骤。

可以理解，存储器62可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM， Read OnlyMemory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random AccessMemory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM， Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM， SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM， SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器 (DRRAM，Direct Rambus Random Access Memory)。本申请实施例描述的存储器62旨在包括但不限于这些和任意其它适合类型的存储器。

上述本申请实施例揭示的方法可以应用于处理器61中，或者由处理器61 实现。处理器61可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器61中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器61可以是通用处理器、DSP，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器61可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器62，处理器61读取存储器62中的信息，结合其硬件完成前述方法的步骤。

在示例性实施例中，识别设备可以被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD， ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、FPGA、通用处理器、控制器、MCU、微处理器 (Microprocessor)、或其他电子元件实现，用于执行前述的识别方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种识别方法，其特征在于，包括：

针对至少一帧图像中的各帧图像，

获得在目标图像中所述目标数据的特征信息；

2.根据权利要求1所述的方法，其特征在于，所述数据库记载有至少一种类别的目标数据的特征信息；

3.根据权利要求2所述的方法，其特征在于，所述将目标数据的特征信息与数据库记载的各个类别的目标数据的特征信息进行匹配；根据匹配结果，确定在目标图像中出现的所述目标数据的类别，包括：

获得数据库中使特征度量值取最小值的目标数据的类别；

4.根据权利要求3所述的方法，其特征在于，在获得数据库中使特征度量值取最小值的目标数据的类别之后，所述方法还包括：

判断取最小值的特征度量值是否小于或等于预设阈值；

5.根据权利要求1至4任一项所述的方法，其特征在于，在至少两帧目标图像出现同一类别的目标数据的情况下，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述至少两帧图像之间为相邻图像或至少部分图像为不相邻图像；

对于为不相邻图像的情况，

7.根据权利要求1至4任一项所述的方法，其特征在于，在至少两帧目标图像出现同一类别的目标数据的情况下，所述方法还包括：

8.一种识别设备，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至7任一所述方法的步骤。

10.一种识别设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7任一所述方法的步骤。