CN110462634A

CN110462634A - 标志检测视频分析法

Info

Publication number: CN110462634A
Application number: CN201880006621.7A
Authority: CN
Inventors: 杰森·波特; 麦克·麦克; 叶传浑; 任坚伟; 符永炎
Original assignee: Heinz Ltd
Current assignee: Heinz Ltd
Priority date: 2017-01-11
Filing date: 2018-01-09
Publication date: 2019-11-15
Also published as: CA3048813A1; IL267621B; US10438089B2; EP3568807A4; PH12019501567A1; US20180197042A1; EP3568807A1; AU2018207032B2; AU2018207032A1; IL267621A; WO2018132065A1

Abstract

该技术涉及使用预定图像的模板检测预定图像的技术。该方法包括检测颜色，将颜色减小到一定范围的颜色，转换成多个灰度图像，提取灰度图像的至少一个边缘，识别图像中的每个成分，对每个成分进行二值化，获得阈值，对模板进行标准化，以及将模板与预定图像匹配。

Description

标志检测视频分析法

背景技术

计算机视觉是当今市场研究和数据分析的重要且必要的方面。许多行业寻求市场研究人员在电视、互联网和其它地方获取用于商标和标志识别的相关数据。目标识别通常是一个重要的主题，但与行业的需求相比，缺乏该技术。

发明内容

在一个实施例中，提供一种使用预定图像的模板来检测多个图像内的所述预定图像的方法。该方法包括检测多个图像的颜色，将多个图像的颜色减小到一定范围的颜色，将多个图像的一定范围的颜色转换为多个灰度图像，提取所述多个灰度图像的至少一个边缘，识别所述多个灰度图像中的每个成分，对每个成分进行二值化，获得每个成分的阈值，根据每个连接成分的大小对模板进行标准化，并使用多个图像中的至少一个成分将模板与预定图像匹配。

在另一实施例中，提供了一种使用预定图像的模板来检测多个图像内的所述预定图像的设备。该方设备包括处理器和存储器。该设备还包括可由处理器执行的代理，所述代理被配置为：确定所述预定图像是否是基于文本的图像，检测多个图像的颜色，将多个图像的颜色减小到一定范围的颜色，将多个图像的一定范围的颜色转换为多个灰度图像，提取所述多个灰度图像的至少一个边缘，识别所述多个灰度图像中的每个成分，对每个成分进行二值化，获得每个成分的阈值，根据每个成分的大小对模板进行标准化，并使用多个图像中的至少一个成分将模板与预定图像匹配。

在又一实施例中，提供一种计算机存储装置，包括一个或多个处理器和存储器，所述存储器具有共同存储在其中的指令，当由处理器执行指令时，所述指令使所述处理器执行以下处理：确定所述预定图像是否是基于文本的图像，检测多个图像的颜色，将多个图像的颜色减小到一定范围的颜色，将多个图像的一定范围的颜色转换为多个灰度图像，提取所述多个灰度图像的至少一个边缘，识别所述多个灰度图像中的每个成分，对每个成分进行二值化，获得每个成分的阈值，根据每个成分的大小对模板进行标准化，并使用多个图像中的至少一个成分将模板与预定图像匹配。

提供本发明内容是为了以简化的形式介绍构思的选择，这些构思将在下面的具体实施方式中进一步描述。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。所要求保护的主题不限于解决背景技术中提到的任何或所有缺点的实施方式。

附图说明

通过示例的方式示出本技术的各方面，并且本发明的各方面不受附图的限制，附图中相同的附图标记表示相同的元件。

图1示出了查找预定图像(即，标志或商标)的处理的流程图。

图2A至图2E示出了作为贯穿查找预定图像(即，标志或商标)的处理的图像进展的样本图像。

图2F示出了具有连接成分的样本图像。

图3A和3B示出了在查找预定图像(即，标志或商标)的处理中使用Blob分析的样本图像。

图4示出了查找预定图像(即，标志或商标)的处理的另一流程图。

图5A至图5C示出了样本模板图像和样本预定图像(即，标志或商标)。

图6示出了用于查找预定图像(即，标志或商标)的设备的框图。

图7示出了样本图像周围的空闲空间区域。

图8示出了可用于实现查找预定图像(即，标志或商标)的处理的各种实施例的网络系统的框图。

具体实施方式

该技术涉及目标识别，更具体地涉及标志和图像识别。具体而言，标志识别是目标识别的子集，因为大多数标志可以被视为具有平面表面的目标。此外，标志旨在吸引观察者的注意力。通常，标志识别系统应该能够以快速且有效的方式确定未知图像是否包含指定的标志，同时保持高识别准确率。

在其他步骤中，使用通过使用各种特征(例如标志的形状和颜色)来检测或识别标志的算法来实现所公开的标志检测系统。与本领域中已知的标志检测算法相比，由于若干原因，本技术是有利的。本技术能够以高准确度检测标志。此外，本技术使用少的处理时间以及低的存储器消耗。另外，本技术使用可以检测不同尺寸、不同旋转、不同形成和不同照度的标志的标志检测系统。此外，本技术不限于仅识别标志。本技术还能够识别图像，而不管图像的形状、大小、颜色、形式或任何其他特征如何。

应理解，本主题可以以许多不同的形式体现，并且不应该被解释为限于本文阐述的实施例。相反，提供这些实施例是为了使该主题详尽和完整，并且将本技术完全传达给本领域技术人员。实际上，本主题旨在覆盖这些实施例的替代、修改和等同物，这些替代、修改和等同物包括在由所附权利要求限定的主题的范围和精神内。此外，在本主题的以下详细描述中，阐述了许多具体细节以便提供对本主题的透彻理解。然而，本领域普通技术人员将清楚，可以在没有这些具体细节的情况下实践本主题。

图1示出了从(但不限于)接收的图像中检测预定图像(即，标志图像)的方法的流程图。标志检测的处理100可以用于检测任何接收的图像流中的标志。接收的图像不限于视频。接收的图像可以来自电视或互联网上的流媒体，例如Netfl ix或Hulu。此外，图像可以来自谷歌眼镜(Google Glass)或其他可穿戴设备，以及可以是任何静止图像或单个帧等。在步骤105中，识别接收的图像内的待搜索的预定图像。在该示例中，预定图像是(但不限于)标志。包括多个图像的数据库包括预定图像。当预定图像正被存储在数据库中时，该预定图像已被预评估，这意味着确定了预定图像的所有颜色。例如，如果CNN标志是预定图像，则预评估需要将其红色记录、识别并存储在数据库中。该处理将尝试并行地查找存储在数据库中的任意数量的标志的预定图像。该算法将检测并识别一帧和/或图像中的多个标志。本文描述的步骤确定用于寻找至少一个标志的方法和设备。在步骤110中，通过首先检测和识别单个帧中的所有颜色来分析该单个帧。在步骤120，将减小该帧中识别的颜色范围以集中于这些颜色的减小的范围。每个预定图像具有特定颜色，该特定颜色可以用作用于从该帧中定位预定图像的特征之一。在步骤130，将颜色范围减小到灰度。可以通过使用(但不限于使用)以下算法来实现检测、识别和颜色到灰度的转换：

(x,y)＝0.299*R(x,y)+0.587*G(x,y)+0.114*B(x,y)，

其中，T(x,y)是是灰度图像坐标(x，y)处的灰度强度，R(x，y)、G(x，y)、B(x，y)分别是在彩色图像坐标(x，y)处的红色强度、绿色强度和蓝色强度。系数取自加权的R、G和B值，用于计算Y，即YUV彩色空间中一个图像的整体亮度的度量，其中Y＝0.299R+0.587G+0.114B。因此，T(x，y)恰好等于Y(x，y)。

根据各种因素，可以使用一个通道来获得灰度图像。公式是，

T(x,y)＝R(x,y)或T(x,y)＝G(x,y)或T(x,y)＝B(x,y)

将帧中的颜色转换为灰度提供了图像定义和图像识别中的增加的准确度。此外，灰度成像提供更精确的有限整形。上述算法的(x，y)成分根据图像在屏幕上的位置而变化，使得(x，y)成分用作网格成分。

根据在步骤130形成的灰度图像，在步骤140，使用诸如但不限于Sobel方法的方法提取灰度图像的至少一个边缘。这里将参照图2A至图2E来描述图1的步骤130至步骤150。

在图2A中，样本图像或来自视频的样本帧已被转换为灰度(灰度图像)。在图2B中，图像中的成分中的所有边缘都是白色的，表明已经从图像中提取出图像的边缘(边缘图像)，如步骤140中所概述的。在图2C中，图像的每个成分用红色框勾勒出轮廓。‘C'、‘N'和‘N'都是第一条线中的成分，并且被框在一起。这三个成分一起称为连接成分。当使用Blob分析时，每个成分(或候选)和连接成分都是斑点(blob)。图2D是部分二值化图像，其中仅包括字符成分(如果有的话)的矩形被二值化。图2E是(从图2D)完整的二值图像。连接成分/斑点是二值图像中的一组连接像素。各个连接像素的强度值彼此相同。例如，在图2F中，二值图像包含五个连接成分，其标记为1到5。

在步骤150中，在灰度图像内识别成分或斑点。在Blob分析的初始提取步骤中，应用图像阈值技术中的一个来获得与被检查的多个目标(或单个目标)相对应的区域。这用于获得成分(或候选)之间的间隔。提取的区域经常存在各种噪声的缺陷。例如，噪声可能是由于光线不一致或图像质量差造成的。在改善的同时，使用区域转换技术增强该区域。在分析中，对改善区域进行测量并计算结果。如果该区域表示多个目标，则将其分割为单独的斑点或成分，每个斑点或成分将分别进行检查。

为了准确地将每个斑点标记为一个候选，执行计算以下内容的算法：

·从上到下、从左到右迭代全部像素，直到找到第一目标像素，如图3B所示。

·标记该目标并检查周围像素或相邻像素是否等同于目标像素。如果是，则采取与第一目标像素相同的步骤，直到可以找到更多的相邻的目标像素。

·重复这些步骤并标记所有目标像素，直到扫描完所有像素。

·具有相同标签的目标像素属于同一个斑点。

·标记所有斑点后，执行分析以获得面积、大小、周长以及其他测量值。

基于斑点结果，如图3A所示，每个斑点是标志候选。为了获得更准确的性能和准确性，进行过滤和标准化。因此，基于斑点和模板的大小的参数，进行过滤以移除不满足大小要求的所有候选。除了对大小进行过滤外，还可以对所有斑点候选或标志候选进行标准化。图像的标准化将遵循模板的大小。这将有助于实现高精度并执行与该处理一起使用的任何模板匹配算法。

二值图像是对于每个像素仅具有两个可能值的图像。两个可能的值可以是1、0或255、0或任何其他不同的值。图像二值化是将灰度图像转换为具有阈值的二值图像。假设T(x，y)和B(x，y)分别是灰度图像和二值图像。TV是阈值。所使用的公式是：

V1、V2是上面提到的两个不同的值。

在步骤160中，使用图像二值化的方法将在步骤150中识别的每个成分分解为二进制数字。在图像二值化的方法中，每个成分被分解成其对应的二进制数。在图2C中，字母‘T’被分解成其相应的二进制数字。此外，字母“CNN”被一起(而不是单独地)分解为二进制数字。该二进制信息向处理器提供关于被搜索图像的细节的更详细信息。如前所述，在图2A中，一旦已经识别出成分，则在图2C中，用红色框的轮廓标识的成分示出样本图像的斑点图像(请参见上面的说明)的示例。此外，在步骤160，图像被进一步分解为多个层。每一帧最多有1200种颜色，每种颜色都成为一层。在一帧中检查各个层以查找标志图像或商标图像。此外，一旦视频被分成多个层，就检查单个帧以确定帧是高质量还是低质量。例如，确定每种颜色并为每种颜色分配数字。为了获得稳健的二值图像并自动调整对比度，将动态二进制算法应用于图像。

在步骤170，获得阈值并将其应用于图像的另一区域。每个帧或图像中的每个成分都有自己的阈值。阈值存储在处理该方法的计算机的RAM中。在一个示例中，在步骤170中使用Otsu算法来获得每个成分的阈值。Otsu算法假定图像包括两个不同类别的像素：一个是目标(前景像素)而另一个是背景(背景像素)。然后，在步骤170，使用平均方法搜索最佳阈值以将目标与背景分离。图2D中示出了子二进制图像。子二进制图像是部分二值化图像(请参见上面的二进制图像的定义)。在子二进制图像中，只有作为标志的候选的字符成分从斑点/连接成分被二进制化。并且在图2E中，示出了二进制图像，其中阈值被应用于图像中的其他区域作为最终阈值。

在步骤180中，根据成分和连接成分的大小来标准化预定图像(即，标志)的模板。根据成分和连接成分的大小，模板可以缩小或放大，以便可以更精确地找到匹配。此外，模板匹配是数字图像处理中的视觉技术，其识别图像内与预定义的训练模板匹配的目标。高级模板匹配算法具有发现模板的出现的能力，无论其取向、亮度或照度、缩放以及变形如何。模板匹配算法基于2D图像卷积。T(x，y)是标志模板图像。它表示每个像素坐标(x，y)强度。假定S(x，y)是搜索图像，则S(x，y)的大小大于T(x，y)。

并且在步骤190中，将标准化模板与搜索的预定图像匹配，在搜索的预定图像内具有成分和连接成分。该处理的进一步细节在下文中讨论。

现在转向图4，标志检测的处理400进一步详述处理100并从图1的步骤190继续。在步骤410中，模板与预定图像匹配，如图1的步骤190。

一旦模板的大小和成分或斑点的大小相似，则模板将与预定图像或标志匹配。出于本讨论的目的，术语标志将用作在视频和/或帧内被搜索的图像。在步骤460，使用检测模板与在视频和/或帧内找到的标志之间的匹配概率的算法来计算准确度得分。该算法基于2D图像卷积，并且将在下面参照图5A至图5C进一步讨论。假定T(x，y)是标志模板图像，如图5A所示。它表示每个像素坐标(x，y)强度。假定S(x，y)是搜索图像，如图5B所示。S(x，y)的大小应大于T(x，y)。通过滑动，图5A的模板标志每次移动一个像素(从上到下，从左到右)，如图5C所示。对于每个实例，通过卷积获得模板标志图像和搜索图像之间的一个匹配得分。

在完成滑动后，如下获得具有最大得分的标志位置：

1.得到相关图像

得到模板图像平均强度AT＝∑T(x，y)/(w_t*h_t)，其中w_t、h_t分别是模板图像宽度和高度。

得到搜索图像平均强度AS＝∑S(x，y)/(w_s*h_s)，其中w_s、h_s分别是搜索图像宽度和高度。

得到相对于它们的平均强度的相对模板图像和相对搜索图像

T′(x，y)＝T(x，y)-AT,S′(x，y)＝S(x，y)-AS

2.进行卷积并得到得分结果

|R(x，y)＝Σ_x′y′(T′(x′，y′)·S(x+x′，y+y′)

3.为了得到-1至1之间的匹配得分，我们将结果R(x,y)标准化。

4.搜索结果R'(x,y)并得到最大得分。

如果得分不在令人满意的预定水平(预定阈值)，则处理返回到步骤410以搜索另一个合适的标志候选。如果得分是令人满意的数字，则在步骤470验证标志。为了验证目的，基本上追踪标志的外部区域以确定找到的标志的有效性。时间戳也可以与标志相关联地放置。时间戳提供诸如标志在屏幕上的时间长度、标志在帧上的位置、标志在媒体流中出现多长时间等信息。在步骤480，与标志相关联地保存标志的位置和来自步骤460的准确度得分。每个商标或标志本身都是独一无二的。为了引起旁观者的注意，广告商经常在视频或数字帧中呈现标志，其周围具有空闲空间。为了实现标志识别的高精度，完成了标识候选的稳健性、细化和验证。在这样做时，基于预定义的参数执行从每个标志候选的外部区域检查空闲空间。

图6描绘了与图1和图4的处理相关联的设备。在图6中，将数字视频610发送到设备。可以以任何其他方式发送、传送、上载、流传输或传输数字视频610。服务器闪速存储器620获得数字视频610。数字视频610从源文件通过CPU处理器630中的服务器闪速存储器620直接移动以进行分析处理。数字视频610被分成多个帧层640。多个帧层允许在处理器630像素化数字视频610以进行显示之前处理数字视频610。将被搜索的信息等与帧中的层640进行比较。比较处理器650完成比较处理并发送被像素化的结果以供查看。视频卡660像素化视频以在屏幕或任何观看媒体上显示。

转到图7，可以看到CNN标志周围的空闲空间。L＝标志高度*d/100，其中可以设置d的值。空闲区域有助于最终确定匹配的标志，因为可以围绕外边缘追踪标志以验证匹配。

为了增加标志检测算法的能力和可扩展性，标志检测可以使用可训练的方法。此外，算法中的多线程可以改善处理时间。此外，可以添加能够计算和检测具有极端旋转标志候选的标志的算法。此外，可以添加能够处理变形标志候选的算法。而且，追踪确认的候选标志的能力还可以提高标志检测算法的能力。

图8是可用于实现各种实施例的网络系统的框图。特定装置可以利用所示的所有组件，或者仅利用组件的子集，并且集成度可以随装置而变化。此外，装置可以包含组件的多个实例，诸如，多个处理单元、处理器、存储器、发送器，接收器等。网络系统可以包括配备有一个或多个输入/输出装置(诸如，网络接口、存储接口等)的处理单元801。处理单元801可以包括连接到总线的中央处理单元(CPU)810、存储器820、大容量存储装置830和I/O接口860。总线可以是任何类型的若干总线架构中的一个或多个，包括存储器总线或存储器控制器总线、外围总线等。

CPU 810可包括任何类型的电子数据处理器。存储器820可以包括任何类型的系统存储器，诸如，静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、同步DRAM(SDRAM)、只读存储器(ROM)、它们的组合等。在实施例中，存储器820可以包括用于启动的ROM，以及用于在执行程序时使用的程序和数据存储的DRAM。在实施例中，存储器820是非暂时性的。大容量存储装置830可以包括任何类型的存储装置，其被配置为存储数据、程序和其他信息，并使数据、程序和其他信息可通过总线访问。大容量存储装置830可以包括例如固态驱动器、硬盘驱动器、磁盘驱动器、光盘驱动器等中的一个或多个。

处理单元801还包括一个或多个网络接口850，其可以包括有线链路(例如以太网电缆等)和/或无线链路，其用于访问节点或一个或多个网络880。网络接口850允许处理单元801经由网络880与远程单元通信。例如，网络接口850可以经由一个或多个发射器/发射天线和一个或多个接收器/接收天线提供无线通信。在实施例中，处理单元801耦接到局域网或广域网，用于与远程装置(诸如，其他处理单元、互联网、远程存储设施等)进行数据处理和通信。

根据本技术的各种实施例，可以使用执行软件程序的硬件计算机系统来实现本文描述的方法。此外，在示例性、非限制性实施例中，实施方式可以包括分布式处理、组件/目标分布式处理和并行处理。可以构造虚拟计算机系统处理以实现如本文所述的一个或多个方法或功能，并且本文描述的处理器可以用于支持虚拟处理环境。

本文参照根据本技术的实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图描述了本技术的各方面。将理解，流程图图示和/或框图的每个框以及流程图图示和/或框图中的框的组合可以由计算机程序指令实现。这些计算机程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理设备的处理器以产生机器，使得通过计算机的处理器或其他可编程指令执行设备的处理器执行的指令建一种机制，以实现流程图和/或程序框图块或块中指定的功能/动作。

本文使用的术语仅用于描述特定方面的目的，并不旨在限制本技术。如本文所使用的，除非上下文另有明确说明，否则单数形式“一”，“一个”和“该”旨在也包括复数形式。将进一步理解，当在本说明书中使用时，术语“包括”和/或“包含”指定所述特征、整数、步骤、操作、元素和/或组件的存在，但不排除存在或者添加其他特征、整数、步骤、操作、元素、组件和/或其组中的一个或多个。

已经出于说明和描述的目的呈现了对本技术的描述，但是对本技术的描述并不旨在穷举或限制于所公开形式的技术。在不脱离本技术的范围和精神的情况下，许多修改和变化对于本领域普通技术人员来说是显而易见的。选择和描述本文技术的各方面是为了最好地解释本技术的原理和实际应用，并且使本领域普通技术人员能够理解具有适合于预期的特定用途的各种修改的技术。

出于本文档的目的，与所公开的技术相关联的每个处理可以由一个或多个计算装置连续地执行。处理中的每个步骤可以由与其他步骤中使用的相同或不同的计算装置来执行，并且每个步骤不一定需要由单个计算装置来执行。

尽管用结构特征和/或方法动作专用的语言描述了本主题，但应理解，所附权利要求书中定义的主题不必限于上述具体特征或动作。而是，上述具体特征和动作作为实现权利要求的示例形式被公开。

Claims

1.一种使用预定图像的模板来检测多个图像内的所述预定图像的方法，所述方法包括：

检测所述多个图像的颜色；

将所述多个图像的颜色减小到一定范围的颜色；

将所述多个图像的一定范围的颜色转换为多个灰度图像；

提取所述多个灰度图像的至少一个边缘；

识别所述多个灰度图像中的每个成分；

对所述每个成分进行二值化；

获得所述每个成分的阈值；

根据所述每个成分的大小对所述模板进行标准化；以及

使用所述多个图像中的至少一个成分将所述模板与所述预定图像匹配。

2.根据权利要求1所述的方法，其中，所述每个成分是包含所述预定图像的至少一部分的斑点。

3.根据权利要求1所述的方法，还包括：

确定所述预定图像是否是基于文本的。

4.根据权利要求1所述的方法，还包括：

过滤出所述至少一个成分的至少一部分。

5.根据权利要求1所述的方法，还包括：

计算所述模板和所述预定图像之间的准确度值。

6.根据权利要求1所述的方法，其中，通过虚拟地追踪所述预定图像的轮廓来验证在所述多个图像内找到的所述预定图像。

7.根据权利要求1所述的方法，其中，所述多个图像包括但不限于：(a)单个帧、(b)静止图像、(c)视频、(d)电视节目、(e)互联网流、(f)媒体制作以及(g)多个屏幕截图。

8.根据权利要求1所述的方法，还包括：

将所述多个图像分成多个层。

9.根据权利要求8所述的方法，其中，所述多个层被分成高质量图像和低质量图像。

10.根据权利要求1所述的方法，其中，时间戳与在所述多个图像内找到的预定图像相关联。

11.根据权利要求10所述的方法，其中，所述时间戳包括所述预定图像出现的时间、所述预定图像从所述多个图像中消失的时间和所述预定图像出现的时间长度。

12.一种使用预定图像的模板来检测多个图像中的所述预定图像的设备，所述设备包括：

处理器和存储器；以及

代理，所述代理由所述处理器执行，并且被配置为：

确定所述预定图像是否是基于本文的图像；