CN108024142B

CN108024142B - 一种视频流检测方法及系统

Info

Publication number: CN108024142B
Application number: CN201711266118.9A
Authority: CN
Inventors: 徐佳宏; 韩涛
Original assignee: Shenzhen Ipanel TV Inc
Current assignee: Shenzhen Ipanel TV Inc
Priority date: 2017-12-05
Filing date: 2017-12-05
Publication date: 2020-10-30
Anticipated expiration: 2037-12-05
Also published as: CN108024142A

Abstract

本发明提供了一种视频流检测方法，对于每一个待播放的视频流，在所述视频流中提取多个预设时长的视频段作为检测样本，计算每个视频段对应的样本特征值；任取一个样本特征值与预设的样本库中的样本进行倒排索引，确定第一样本集，然后进一步的与所述第一样本集中的各个样本进行索引偏移的匹配，确定匹配样本；将每一个视频段的匹配结果进行合并，当合并的视频时长超过预设时长时，确定所述检测样本与所述匹配样本相对应，进而确定待播放视频已经播放，不再进行播放。本发明提供的方法，通过样本提取匹配的方式，对当前待播放的视频流进行检测，在检测到当前待播放的视频流，已经播放过的情况下，不再对其进行播放，从而节约用户的时间。

Description

一种视频流检测方法及系统

技术领域

本发明涉及视频检测技术领域，特别涉及一种视频流检测方法及系统。

背景技术

随着网络通信的日趋发展，电视及网络视频已经成为人们生活不可或缺的一部分。人们在闲暇时间会观看电视节目，或应用电脑、手持终端等设备观看网络视频，各种不同的电视或网络视频流，极大的丰富了人们的生活。

发明人对现有的视频流的播放过程进行研究发现，大量视频流在不断播放的过程中，一些视频流会重复播放，例如，电视节目在播放的过程中，中间穿插的一些广告视频流会重复播放。对于用户而言，重复播放的视频流，用户已经观看过，再次观看影响用户对电视节目的观感，也浪费了用户的时间。

发明内容

本发明所要解决的技术问题是提供一种视频流检测方法，对当前待播放的视频流进行样本检测，当检测到当前待播放的视频流已经播放过时，不再对其进行播放，从而提升了用户的观感，节约用户的时间。

本发明还提供一种视频流检测系统，用以保证上述方法在实际中的实现及应用。

一种视频流检测方法，包括：

按预设的提取规则，在当前待播放的视频流中，提取多个预设时长的视频段作为所述当前待播放的视频流的检测样本；

计算所述检测样本中每一个视频段对应的样本特征值；

任取一个视频段作为目标视频，将所述目标视频对应的样本特征值，按倒排索引的方式，与预设的样本库中的各个已存样本进行逐一匹配，确定所述目标视频对应的第一样本集；所述预设样本库中的各个已存样本为已播放的视频流的样本；

将所述目标视频与所述第一样本集中的各个样本进行索引偏移的匹配，确定与所述目标视频对应的匹配样本；

以所述目标视频为起始点，分别将所述目标视频左右两边的各个视频段逐一与所述匹配样本进行匹配，并进行匹配结果的合并，当合并的视频时长超过预设时长时，确定所述检测样本与所述匹配样本相对应，进而确定所述待播放视频已经播放。

上述的方法，优选的，所述提取多个预设时长的视频段作为所述当前待播放的视频流的检测样本包括：

按预设的时间间隔，对所述当前待播放的视频流进行切分；将所述当前待播放的视频流切分为多个固定时长的视频段；

从所述多个固定时长的视频段中选取至少两个视频段作为所述当前待播放的视频流的检测样本。

上述的方法，优选的，所述计算所述检测样本中每一个视频段对应的样本特征值包括：

对于任意一个视频段，按预设的时间间隔对其进行语音划分，确定所述视频段的多个语音帧；

将所述多个语音帧中，存在相邻关系的前后两个语音帧，依次组成语音帧对，确定所述视频段的语音向量；

对所述语音向量进行特征值量化，获得所述视频段对应的样本特征值。

上述的方法，优选的，所述将所述目标视频与所述第一样本集中的各个样本视频进行索引偏移的匹配，确定与所述目标视频对应的匹配样本包括：

将所述目标视频与所述第一样本集中的各个样本视频逐一进行索引偏移的匹配，分别计算匹配率；

将匹配率最高的样本作为与所述目标视频相对应的匹配样本。

上述的方法，优选的，所述以所述目标视频为起始点，分别将所述目标视频左右两边的各个视频段逐一与所述匹配样本进行匹配，并进行匹配结果的合并，当合并的视频时长超过预设时长时，确定所述检测样本与所述匹配样本相对应，包括：

以所述目标视频为起始点，分别将所述目标视频左右两边的各个视频段逐一与所述匹配样本进行匹配，计算加权相似性；

结合所述加权相似性，对各个匹配结果进行合并，当匹配的总的视频时长超过预设的时长阈值时，确定所述检测样本与所述匹配样本相对应。

上述的方法，优选的，还包括：

当所述目标视频对应的样本特征值在所述预设的样本库中未匹配上对应的已存样本时，直接对所述待播放视频进行播放。

一种视频流检测系统，包括：

提取单元，用于按预设的提取规则，在当前待播放的视频流中，提取多个预设时长的视频段作为所述当前待播放的视频流的检测样本；

计算单元，用于计算所述检测样本中每一个视频段对应的样本特征值；

第一确定单元，用于任取一个视频段作为目标视频，将所述目标视频对应的样本特征值，按倒排索引的方式，与预设的样本库中的各个已存样本进行逐一匹配，确定所述目标视频对应的第一样本集；所述预设样本库中的各个已存样本为已播放的视频流的样本；

第二确定单元，用于将所述目标视频与所述第一样本集中的各个样本进行索引偏移的匹配，确定与所述目标视频对应的匹配样本；

合并单元，用于以所述目标视频为起始点，分别将所述目标视频左右两边的各个视频段逐一与所述匹配样本进行匹配，并进行匹配结果的合并，当合并的视频时长超过预设时长时，确定所述检测样本与所述匹配样本相对应，进而确定所述待播放视频已经播放。

上述的系统，优选的，所述提取单元包括：

切分子单元，用于按预设的时间间隔，对所述当前待播放的视频流进行切分；将所述当前待播放的视频流切分为多个固定时长的视频段；

选取子单元，用于从所述多个固定时长的视频段中选取至少两个视频段作为所述当前待播放的视频流的检测样本。

上述的系统，优选的，所述计算单元包括：

划分子单元，用于对于任意一个视频段，按预设的时间间隔对其进行语音划分，确定所述视频段的多个语音帧；

确定子单元，用于将所述多个语音帧中，存在相邻关系的前后两个语音帧，依次组成语音帧对，确定所述视频段的语音向量；

量化子单元，用于对所述语音向量进行特征值量化，获得所述视频段对应的样本特征值。

上述的系统，优选的，还包括：

第三确定单元，用于当确定所述目标视频对应的样本特征值在所述预设的样本库中未匹配上对应的已存样本时，直接对所述待播放视频进行播放。

与现有技术相比，本发明包括以下优点：

本发明提供了一种视频流检测方法，对于当前待播放的视频流，提取所述当前待播放的视频流中的多个视频段作为所述当前待播放的视频流的检测样本；计算所述检测样本中每一个视频段对应的样本特征值；任取一个视频段作为目标视频，将所述目标视频对应的样本特征值，按倒排索引的方式，与预设的样本库中的各个已存样本进行逐一匹配，确定所述目标视频对应的第一样本集；所述预设样本库中的各个已存样本为已播放的视频流的样本；将所述目标视频与所述第一样本集中的各个样本进行索引偏移的匹配，确定与所述目标视频对应的匹配样本；以所述目标视频为起始点，分别将所述目标视频左右两边的各个视频段逐一与所述匹配样本进行匹配，并进行匹配结果的合并，当合并的视频时长超过预设时长时，确定所述检测样本与所述匹配样本相对应，进而确定所述待播放视频已经播放，不再对其进行播放。本发明提供的视频流检测方法，通过样本提取匹配的方式，对当前待播放的视频流进行检测，在检测到当前待播放的视频流，已经播放过的情况下，不再对其进行播放，从而提升了用户的观感，节约用户的时间。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种视频流检测方法的方法流程图；

图2为本发明提供的一种视频流检测方法的又一方法流程图；

图3为本发明提供的一种视频流检测方法的一示例图；

图4为本发明提供的一种视频流检测方法的又一示例图；

图5为本发明提供的一种视频流检测方法的又一方法流程图；

图6为本发明提供的一种视频流检测系统的结构示意图；

图7为本发明提供的一种视频流检测系统的又一结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明可用于众多通用或专用的计算装置环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。

本发明提供了一种视频流检测方法，其执行主体可以是一种处理器，该处理器可以设置在电视机，手持终端等多种能够播放视频流的设备中，所述方法的方法流程图如图1所示，包括步骤：

S101：按预设的提取规则，在当前待播放的视频流中，提取多个预设时长的视频段作为所述当前待播放的视频流的检测样本；

本发明中，对于每一个待播放的视频流，提取多个预设时长的视频段作为所述当前待播放的视频流的检测样本。

S102：计算所述检测样本中每一个视频段对应的样本特征值；

S103：任取一个视频段作为目标视频，将所述目标视频对应的样本特征值，按倒排索引的方式，与预设的样本库中的各个已存样本进行逐一匹配，确定所述目标视频对应的第一样本集；所述预设样本库中的各个已存样本为已播放的视频流的样本；

S104：将所述目标视频与所述第一样本集中的各个样本进行索引偏移的匹配，确定与所述目标视频对应的匹配样本；

S105：以所述目标视频为起始点，分别将所述目标视频左右两边的各个视频段逐一与所述匹配样本进行匹配，并进行匹配结果的合并，当合并的视频时长超过预设时长时，确定所述检测样本与所述匹配样本相对应，进而确定所述待播放视频已经播放。

本发明提供的视频流检测方法中，对于需要播放的每一段视频流，按同样的预设规则，提取预设时长的多个视频段，作为检测样本。计算所述检测样本中每一个视频段对应的样本特征值。将其中一个视频段作为目标视频，应用所述目标视频的样本特征值，在预设的样本库中进行倒排索引，确定与所述目标视频对应的第一样本集，所述第一样本集中的各个样本未包含所述目标视频的样本特征值的样本。

然后，进一步的，将所述目标视频与所述第一样本集中的各个样本进行索引偏移的匹配，确定所述目标视频与所述第一样本集中的各个样本是否具有相同的偏移位置，进而确定与之对应的匹配样本。

然后将每一个视频段的匹配结果进行合并，当合并结果超过一定时长时，确定匹配成功，即当前需要播放的视频流已经播放过，不再对其进行播放。从而提升了用户在观看视频流时的观感，节约了用户的时间。

本发明提供的视频流检测方法中，所述提取多个预设时长的视频段作为所述当前待播放的视频流的检测样本的过程包括：

本发明提供的方法中，对于当前待播放的视频流，例如当前需要播放的一段广告，提取该广告中的一段TS流作为该广告的广告样本，应用本发明提供的发明时，一般的按1秒间隔进提取，即提取的各个视频段为时长1秒的视频段。

如图2所示，示出了本发明提供的视频流检测方法中，所述计算所述检测样本中每一个视频段对应的样本特征值的过程包括：

本发明提供的方法中，对于任意一个视频段，对其进行语音划分，确定所述视频段的多个语音帧，进一步经过处理计算，获得视频段对应的音频样本特征值。

音频特征的提取应该突出相同音频特征的共性，突出不同音频特征的差异。音频特征主要为对MFCC特征的处理，本发明中将语音划分为10ms间隔的语音帧，每两个相邻的语音帧特征组合为语音特征对，如图3所示，示出了一段音频被划分之后的示意图，其中展示了组成的语音特征对。

由于声音的时序特性，连续两个音频帧组成点对，单帧音频匹配准确率为P，则连续两帧匹配上的准确率为1-(1-p)²，准确率极大提升。单帧音频特征为浮点型12维的向量C，则连续两帧组成的音频帧对的维度为24。组成的点对形成浮点型24维向量，本发明将向量的每个bin进行量化最后生成一个特征值，由于计算机的硬件特性，单个特征值最多位数为64bit，可能取值种类为2⁶⁴种，则每个bin量化为6份，每一个音频帧的可能取值为6²⁴种。

本发明中，以广告播放为例，一个台包含的广告样本较多，而且随着时间的累计广告会不断增多。实时监控当前播放的视频流，需要将当前需要播放的视频流与每个广告样本进行比对。倒排索引是检索系统中最常用的数据结构，通过倒排索引可以快速获取包含目标单词的文档列表，对应于本文的广告检索来说，给定一个音频特征值，可以快速检索出包含该音频特征的样本文档。与待匹配音频特征文档具有最多相同特征值的样本文档最有可能为匹配上的样本。本文通过倒排索引快速筛选出N个最有可能匹配上的广告样本，再通过精确匹配确定检测出的广告样本。

本发明中提供的视频流检测方法中，所述将所述目标视频与所述第一样本集中的各个样本视频进行索引偏移的匹配，确定与所述目标视频对应的匹配样本的过程包括：

本发明提供的视频流检测方法中，通过倒排索引的方式，可以检测出多个包含样本特征值的样本，然后还需要进一步的与上述多个样本进行样本精确匹配计算相似性。本发明中每一个待检测的视频段对应的音频是一段长度为1秒的音频。以广告样本为例，该音频可能处于广告样本的任一位置，统计具有相同音频特征值的索引偏移，电视播放广告的音频基本为固定的，播放速度固定，因此对应的特征值的相对位置也固定，则将待匹配音频偏移相应位置与样本进行匹配，计算匹配率。记录匹配率最高的样本ID作为该段音频的匹配结果。

本发明提供的视频流检测方法中，所述以所述目标视频为起始点，分别将所述目标视频左右两边的各个视频段逐一与所述匹配样本进行匹配，并进行匹配结果的合并，当合并的视频时长超过预设时长时，确定所述检测样本与所述匹配样本相对应，包括：

本发明实施例提供的方法中，对于一系列的视频段，A1，A2，A3，A4，A5，A6，假设确定A3为目标视频，则以A3为基准点，A3左右两边的各个视频段指，A3左侧的视频段A1，A2，及A3右侧的视频段A4，A5及A6。

如图4所示的实例，本发明中，对每段音频的匹配结果进行合并，有可能漏检、误检等，而连续几段音频漏检、误检率极低，当有一段音频匹配上时，以此音频为基准向前后合并匹配结果，若属于误检或者漏检的则采用宽松阈值与样本匹配，最后计算加权相似性。相似性与匹配的上的总时长超过一定值则认为匹配上某一广告。单段匹配准确率为p，那么多段合并后结果准确率为1-(1-p)ⁿ。p为70％，则对于一段时长为15s的广告综合准确率为1-10^-8，准确率几乎100％。

图5是本发明提供的视频流检测方法的一简图，在本发明中，对于将要播放的视频流，首先对视频流进行固定间隔切分，提取多个音频特征，进而生成所述音频特征的正排文档，通过倒排索引的检索，初步筛选多个样本文档，在经过精确匹配后，进行匹配结果的合并，从而生成最终结果。

本发明提供的视频流检测方法中，还包括：

本发明提供的视频流检测方法中，可以应用在各种视频检测领域，较多的可以应用在电视节目中检测广告的播放。

MFCC特征是12维的特征向量，1秒的音频帧有200多特征向量，将MFCC特征量化为一种可以方便查找的形式。两个相邻的MFCC特征向量组合为一个特征向量，将组合的向量量化为一个数值，每个音频的特征由特征向量转化为特征值，提升了查找效率。一段音频的特征转化为一组特征值，这种形式可以快速在倒排索引结构中查找对应广告样本。

一组音频特征值序列与广告样本特征值序列进行匹配，该音频可能处于广告样本的任一位置，可将问题转化为计算两段音频的相对偏移位置，再从偏移位置开始计算匹配率。统计具有相同音频特征值的偏移值，偏移值出现次数最多的那个值则认为是真实的音频段偏移值，从偏移位置开始计算匹配率。

将音频分段的检测结果再合并，提高检测的鲁棒性，最终广告检测的结果不依赖于单段音频的匹配结果。即使检索、匹配准确率低，整体准确率依然能达到极高的性能。

如图1所述视频流检测方法相对应，本发明提供了一种视频流检测系统，所述系统可以为处理器硬件设备，设置在电视机或其它可以播放视频流的设备中，其结构示意图如图6所示，包括：

提取单元301，用于按预设的提取规则，在当前待播放的视频流中，提取多个预设时长的视频段作为所述当前待播放的视频流的检测样本；

计算单元302，用于计算所述检测样本中每一个视频段对应的样本特征值；

第一确定单元303，用于任取一个视频段作为目标视频，将所述目标视频对应的样本特征值，按倒排索引的方式，与预设的样本库中的各个已存样本进行逐一匹配，确定所述目标视频对应的第一样本集；所述预设样本库中的各个已存样本为已播放的视频流的样本；

第二确定单元304，用于将所述目标视频与所述第一样本集中的各个样本进行索引偏移的匹配，确定与所述目标视频对应的匹配样本；

合并单元305，用于以所述目标视频为起始点，分别将所述目标视频左右两边的各个视频段逐一与所述匹配样本进行匹配，并进行匹配结果的合并，当合并的视频时长超过预设时长时，确定所述检测样本与所述匹配样本相对应，进而确定所述待播放视频已经播放，不再对其进行播放。

本发明提供的视频流检测系统，通过样本提取匹配的方式，对当前待播放的视频流进行检测，在检测到当前待播放的视频流，已经播放过的情况下，不再对其进行播放，从而提升了用户的观感，节约用户的时间。

在图6的基础上，本发明提供了视频流检测系统的又一详细结构示意图，所述提取单元301包括：

切分子单元306，用于按预设的时间间隔，对所述当前待播放的视频流进行切分；将所述当前待播放的视频流切分为多个固定时长的视频段；

选取子单元307，用于从所述多个固定时长的视频段中选取至少两个视频段作为所述当前待播放的视频流的检测样本。

所述计算单元302包括：

划分子单元308，用于对于任意一个视频段，按预设的时间间隔对其进行语音划分，确定所述视频段的多个语音帧；

确定子单元309，用于将所述多个语音帧中，存在相邻关系的前后两个语音帧，依次组成语音帧对，确定所述视频段的语音向量；

量化子单元310，用于对所述语音向量进行特征值量化，获得所述视频段对应的样本特征值。

本发明提供的视频流检测系统中，还包括：

第三确定单元311，用于当确定所述目标视频对应的样本特征值在所述预设的样本库中未匹配上对应的已存样本时，直接对所述待播放视频进行播放。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明所提供的一种视频流检测方法及系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频流检测方法，其特征在于，包括：

计算所述检测样本中每一个视频段对应的样本特征值；

以所述目标视频为起始点，分别将所述目标视频左右两边的各个视频段逐一与所述匹配样本进行匹配，并进行匹配结果的合并，当合并的视频时长超过预设时长时，确定所述检测样本与所述匹配样本相对应，进而确定所述待播放视频已经播放；

其中，所述计算所述检测样本中每一个视频段对应的样本特征值包括：

2.根据权利要求1所述的方法，其特征在于，所述提取多个预设时长的视频段作为所述当前待播放的视频流的检测样本包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述目标视频与所述第一样本集中的各个样本视频进行索引偏移的匹配，确定与所述目标视频对应的匹配样本包括：

4.根据权利要求1所述的方法，其特征在于，所述以所述目标视频为起始点，分别将所述目标视频左右两边的各个视频段逐一与所述匹配样本进行匹配，并进行匹配结果的合并，当合并的视频时长超过预设时长时，确定所述检测样本与所述匹配样本相对应，包括：

5.根据权利要求1所述的方法，其特征在于，还包括：

6.一种视频流检测系统，其特征在于，包括：

合并单元，用于以所述目标视频为起始点，分别将所述目标视频左右两边的各个视频段逐一与所述匹配样本进行匹配，并进行匹配结果的合并，当合并的视频时长超过预设时长时，确定所述检测样本与所述匹配样本相对应，进而确定所述待播放视频已经播放；

其中，所述计算单元包括：

7.根据权利要求6所述的系统，其特征在于，所述提取单元包括：

8.根据权利要求6所述的系统，其特征在于，还包括：