CN108353213A

CN108353213A - 视频内容概括和类选择

Info

Publication number: CN108353213A
Application number: CN201580084090.XA
Authority: CN
Inventors: S·J·辛斯克; T·张; M·达斯
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2015-10-30
Filing date: 2015-10-30
Publication date: 2018-07-31
Also published as: US10521670B2; US20190057258A1; EP3369252A4; EP3369252A1; EP3369252B1; WO2017074448A1

Abstract

一种系统包括多个概括引擎，每个概括引擎接收视频内容并且提供视频内容的概要，从而提供视频内容的多个概要。系统包括多个元算法模式，每个元算法模式应用于概要中的至少两个概要以使用所述至少两个概要来提供视频内容的元概要，从而提供视频内容的多个元概要。系统包括评估器，用来评估所述多个概要和所述多个元概要以及基于所确定的类似性度量来选择多个类中的类或新的类。

Description

视频内容概括和类选择

背景技术

概要(summary)提供对诸如视频内容之类的某个类型的内容的主要事实或特征的简要说明。存在用来概括内容的许多不同方法。概要可以用在多种多样的应用中以将内容减少成比原始内容更有益于用户的形式。

附图说明

图1是图示了用于执行视频内容的功能概括(summarization)和分类的系统的一个示例的功能框图。

图2是图示了用于实现图1中所示的用于执行视频内容的功能概括和分类的系统的处理系统的一个示例的框图。

图3是图示了用来基于元算法(meta-algorithmic)模式对视频内容进行分类的方法的一个示例的流程图。

具体实施方式

在以下详细描述中，参考附图，所述附图形成本文的一部分并且其中通过图示的方式示出可以实践本公开的具体示例。要理解，可以利用其它示例并且可以做出结构或逻辑改变而不脱离本公开的范围。因此不要在限制性意义上理解以下详细描述，并且本公开的范围由随附权利要求书限定。要理解，本文所描述的各种示例的特征可以与彼此部分或全部地组合，除非另外具体指出。

一个示例针对一种用于执行视频内容的功能概括和分类的系统。该系统接收视频内容并且对视频内容进行滤波。经滤波的视频内容然后由多个不同的概括引擎处理以提供多个概要。概要可以由多个不同的元算法模式进一步处理，其中每个元算法模式被应用于至少两个概要，以提供多个元概要(meta-summary)。元概要可以被视为新的概要。例如，可以以与来自概括引擎的输出相同的方式将元概要用作用于分类的输入。

元概要是由两个或更多个标准概要或初级概要的智能组合所创建的概括。将多个智能算法、系统或引擎的智能组合称作“元算法”，并且可以限定用于元算法的第一级、第二级和第三级模式。

可以评估概要和/或元概要以分别针对所选任务确定每个概要和/或元概要的值或相关性。然后推荐分别提供具有针对所选任务的显著值或相关性的概要和/或元概要的概括引擎和/或元算法模式以用于部署。以此方式，确定针对特定任务进行优化的概括器架构。

系统还可以标识针对视频内容的多个类中的每个给定类的类向量，其中类向量基于从给定类中的视频内容提取的信息。可以生成概括向量，其中概括向量基于从元概要提取的概括信息。确定所述多个类的视频内容的每个类上的给定视频文件的类似性度量，其中每个类似性度量指示概括向量与每个类向量之间的类似性。可以基于所确定的类似性度量来选择所述多个类中的类。给定视频文件可以与视频内容的所选类相关联。

一些示例针对基于功能概括的视频分类。提取视频的若干特征特性，诸如包括视频的各个帧、音频特性和与视频相关联的任何文本数据和/或视频特性。视频文件的特征是运动。相应地，可以生成特征的直方图，并且帧之间的这些直方图中的差异可以用于创建与每个视频文件相关联的标记化属性。此外，特征可以包括与给定视频文件相关联的元数据和由领域专家引入的专家系统规则。

针对给定视频文件由概括引擎所提取的特征允许针对视频文件的创建者、作者、流派、时间段等的肯定标识。可以对视频内容(例如影片、TV节目、家庭视频等)进行分类，并且分类可以用于(1)提供对类似于给定视频的附加视频(例如电影和/或TV节目)的观看推荐；以及(2)存储基于类似视频类型的针对家庭视频的推荐。

图1是图示了用于执行视频内容的功能概括和分类的系统100的一个示例的功能框图。系统100包括视频内容102、滤波器104、经滤波的视频内容106、概括引擎108、概要110(1)-110(x)、元算法模式112(1)-112(y)、元概要114(1)-114(z)、评估器116和选择器118，其中“x”、“y”和“z”分别为概要、元算法模式和元概要的任何合适的数目。滤波器104对视频内容102进行滤波以提供适合于由概括引擎108处理的经滤波的视频内容106。滤波器104可以移除图像、声音、视频段和/或视频内容102的其它部分以提供经滤波的视频内容106。在一个示例中，排除滤波器104，并且向概括引擎108直接提供视频内容102。在一个示例中，选择器118被包括为评估器116的部分。

概括引擎108概括经滤波的视频内容106以提供多个概要110(1)-110(x)。在一个示例中，概括引擎中的每个提供包括以下概括输出中的至少一个的概要：

(1)来自视频的每一帧的图像特征，诸如照明(例如亮度)、检测到的对象以及颜色(例如直方图、布局)。

(2)视频的音频特征，诸如音乐的音符和音阶特征、歌曲特性(如果适用的话)、乐谱特性(如果适用的话)、分贝、强度、检测到的语音/扬声器、检测到的音频事件(例如鼓掌、欢呼、尖叫、哭泣、爆炸、室外与室内环境噪声)。

(3)文本特征，诸如从音频的文本副本提取的特征(例如基于语音识别、自然语言处理(NLP)、词云、针对词/短语的术语频率-逆文档频率(TF-IDF)。这可以帮助确定成人语言、脏话、激烈的语言等的使用)。

(4)视频特性，诸如广告视频特性(例如工作室、演员、导演、制片人、年份、流派等)，或家庭视频特性(例如位置、时间戳、创建者、设备类型)。

(5)基于帧之间的改变(诸如照明、声音、对象移动等中的改变)而根据梯度向量场技术所确定的特征。

(6)上面提及的特征中的一些可以被另外提取和概括为针对帧的直方图。可以确定这些直方图之间的(从帧到帧的)差异，并且连同上面在(1)-(5)中描述的特征可以用于创建与每个视频文件相关联的标记化属性。

在其它示例中，概括引擎可以提供包括另一合适的概括输出的概要。

在一个示例中，概要110(1)-110(x)基于视频内容的标记化属性，诸如上面列出的(1)-(6)，连同与视频相关联的元数据(例如位置、时间、创建者、捕获视频的设备等)，加上由领域专家引入的专家规则。可以将这三个数据集合标准化成对应于类似文本的字段，使得每个数值转换成对应的文本描述。可以将所有数据字段值翻译成基于语言的描述符。对于诸如图像亮度之类的给定数据字段，确定数据字段的值范围，并且将该范围划分成多个子范围，其中每个子范围由基于语言的描述符表示并且与基于语言的描述符相关联。因此，当给定数据字段的特定数值由系统接收到时，包含该数值的子范围被标识，并且与所标识的子范围相关联的基于语言的描述符用于表示在后续处理中的数值。这允许概括在作为三元组{RANGE_DESCRIPTORS、元数据、专家规则}的词包的媒体表示上继续。例如，可以使得以下属性是“语言友好的”：

(1)音乐强度：找到范围，将范围划分成合适的子范围子集，并且给子范围中的一个指派INTENSITY_SUBRANGE_1、INTENSITY_SUBRANGE_2......INTENSITY_SUBRANGE_N作为属性。

(2)笔触(brush stroke)密度：找到{x，y，x+y，x-y}中的笔触密度的范围。将该范围划分成合适的子范围集合，并且给子范围中的一个指派BSD_X_1......BSD_X_J；BSD_Y_1......BSD_Y_K；BSD_X-Y_1......BSD_X-Y_L；BSD_X+Y_1......BSD_X+Y_M作为针对这四个分量中的每个的属性。

元算法模式112(1)-112(y)用于概括概要110(1)-110(x)以提供多个元概要114(1)-114(z)。将元算法模式中的每个应用于两个或更多个概要以提供元概要。在一个示例中，所述多个元算法模式基于以下方法：

(1)投票和加权投票；

(2)预测性选择；

(3)曲面细分(tessellation)和利用专家决策器(Expert Decisioner)的重组；以及

(4)利用次级引擎的预测性选择。

在其它示例中，元算法模式可以基于另一合适的方法。

在(1)投票和加权投票方法中，多个概括引擎的输出被组合并且基于每个概括引擎中的相对置信度和每个概括中的项目的相对加权而进行相对地加权。(2)预测性选择方法可以包括基于与特定主题或主题集合相关联的类内的成员身份而应用特定概括引擎或概括引擎的集合。在(3)曲面细分和利用专家决策器的重组方法中，曲面细分将输入空间减小到原子单位；重组牵涉合并步骤，所述合并步骤考虑经充分曲面细分的基元输出数据并且将基元输出合并成较大粒度的输出；并且专家决策器提供针对每个可能的重组输出的总体权重。在(4)利用次级引擎的预测性选择方法中，训练或统计学习与预测性选择相同，但是在运行时期间，如果所选第一引擎被示出提供具有不可接受的质量的输出，则迭代地选择最好的剩余引擎。

针对性能而比较这四个模式，并且选取在训练数据上具有最高准确度的一个模式作为部署候选。一旦视频内容的经分类的库可用，所部署的候选就可以对传入的视频数据文件进行快速分类。在一些示例中，这样的分类可以用于向用户提供观看建议(例如推荐类似的电影)。在一些示例中，这样的分类可以用于自动地存储/管理/布置用户的个人视频库(例如生日视频、海滩度假视频等)。

评估器116针对所选任务来确定每个概要110(1)-110(x)和每个元概要114(1)-114(z)的值或相关性。在一个示例中，所选任务可以包括视频分类和/或主题标识。

视频分类是向特定类指派视频文件。对于视频分类任务，评估概要和元概要以确定提供与训练集的地面真值(ground truth)显著匹配的视频分类的概括架构。一般地，训练集越大并且可用的概括引擎的数目越大，最终的系统性能将越好。然而，当训练集比概括引擎的数目大得多时，优化系统性能。然后选择概括架构并且推荐其用于部署。

主题标识与视频分类有关。主题标识是将视频元素填充或以其它方式指派到类的手段。一个或多个主题的标识一般与从列表或分类学(taxonomy)进行选择相关联。对于主题标识任务，评估概要和元概要以确定提供视频元素与列表、字典或分类学的最高准确关联的概括架构。然后选择概括架构并且推荐其用于部署。

在其它示例中，所选任务可以包括另一合适的应用。针对每个概要和元概要在所选任务中的相对值而对每个概要和元概要进行评估。基于训练集(例如地面真值集)、从用户接收的反馈或适用于所选任务的其它合适准则来评估所选任务中的相对值(即针对所选任务的相关性或实用性)。

选择器118基于对于所选任务的评定值(或实用性或相关性)来选择概要或元概要，以提供推荐的部署设置。在一个示例中，选择器118选择具有对于所选任务的最高评定值的概要或元概要，以提供推荐的部署设置。在其它示例中，选择器118选择具有超过针对所选任务的预定义阈值的评定值的概要或元概要，以提供推荐的部署设置。推荐的部署设置包括为所选任务提供最适宜的概括架构的概括引擎和/或元算法模式。可以实时地将最适宜的概括架构整合到系统中。可以按照偏好、计划表、需要或在完成任务的大量新实例时重新配置系统。

图2是图示了用于实现用于执行视频内容的功能概括和分类的系统100的处理系统200的一个示例的框图。处理系统200包括处理器202、存储器204、输入设备220和输出设备222。处理器202、存储器204、输入设备220和输出设备222通过通信链路220(例如总线)通信地耦合到彼此。

处理器202包括中央处理单元(CPU)或另一合适的处理器。在一个示例中，存储器204存储由处理器202执行以用于操作处理系统200的机器可读指令。存储器204包括易失性和/或非易失性存储器的任何合适组合，诸如随机存取存储器(RAM)、只读存储器(ROM)、闪速存储器和/或其它合适存储器的组合。这些是非暂时性计算机可读介质的示例。

存储器204存储视频内容206、多个视频内容类216，以及概括向量和类向量218，以用于由处理系统200处理。存储器204还存储要由处理器202执行的指令，所述指令包括用于滤波器208、概括引擎210、元算法模式212和评估器214的指令。在一个示例中，滤波器208、概括引擎210、元算法模式212和评估器214分别包括如之前参考图1所描述和图示的滤波器104、概括引擎108、元算法模式112(1)-112(y)和评估器116。

处理器202执行滤波器208的指令以对视频内容206进行滤波以提供经滤波的视频内容。处理器202执行概括引擎210的指令以概括经滤波的视频内容以提供概要。处理器202执行元算法模式212的指令以概括概要以提供元概要。处理器202执行评估器214的指令以评估概要和元概要以执行视频内容的功能概括和分类。

输入设备220包括键盘、鼠标、数据端口和/或用于向处理系统200中输入信息的其它合适设备。在一个示例中，输入设备220用于输入来自用户的反馈以用于针对所选任务评估概要和元概要。输出设备222包括监视器、扬声器、数据端口和/或用于从处理系统200输出信息的其它合适设备。在一个示例中，输出设备222用于向用户输出概要和元概要，为所选任务推荐最适宜的概括架构，以及输出针对给定视频文件的分类。在一个示例中，经由输入设备220接收针对特定视频文件的分类查询。处理器202检索与特定视频文件相关联的类，并且经由输出设备222向用户提供这样的分类。

向量218中的类向量基于所述多个视频内容类216，其中每个类向量与视频内容类216中的相应一个相关联，并且每个类向量基于从给定类中的视频提取的类信息。

概括引擎和/或元算法模式可以用于将给定视频文件减少到包括概括项的元概要。评估器214基于从给定视频文件的元概要提取的概括项而生成概括向量。概括向量然后可以由评估器214用于对给定视频文件进行分类。评估器214可以确定视频内容类216中的每个上的给定视频文件的类似性度量，其中每个类似性度量指示针对给定视频文件的概括向量与每个相应类向量之间的类似性。给定视频文件可以与对于其而言针对给定视频文件的概括向量与类向量之间的类似性最大化的类相关联。

在一个示例中，在两个步骤中使用功能概括。第一，功能概括用于对视频内容的语料库进行分类。根据一个示例，这样的分类为电影提供更细化的流派。代替在“恐怖”、“悬疑”、“儿童”等方面的粗略分类，本文所公开的示例基于较精细的特征来群集视频内容，所述特征包括声音和图像质量、动作类型(例如快节奏、枪支暴力、浪漫音乐)、家庭视频类型(例如“生日视频”、“高尔夫远足”、“海滩视频”等)。第二，功能概括可以用于通过将传入视频与预定类或集群相关联来对所述传入视频进行分类。这样的关联可以用于：(1)提供类似于电影和/或TV节目的观看推荐；以及(2)基于类似的视频类型为家庭视频提供存储推荐。

一个示例针对一种用于对视频内容进行分类的方法。图3是图示了用来基于元算法模式对视频内容进行分类的方法300的一个示例的流程图。在302处，经由处理系统接收视频内容。在304处，使用多个概括引擎概括视频内容以经由处理系统提供多个概要。在306处，将多个元算法模式应用于所述多个概要以提供多个元概要，其中将元算法模式中的每个应用于概要中的至少两个，以经由处理系统提供元概要中的至少一个。在308处，方法经由处理系统、基于所述多个概要和所述多个元概要而标识多个视频内容类中的每个给定类上的视频内容的类似性度量。在310处，方法经由处理系统、基于所标识的类似性度量而选择所述多个类中的类或新的类。可以从之前确定的多个类中选择用于视频内容的类，或者可以通过首先群集类似的视频并且然后将该集群手动或自动地标记为新的类来创建新的类。

在方法300的示例中，概要中的至少一个包括从视频内容提取的标记化属性、与视频内容相关联的元数据，以及针对视频内容的专家系统规则，并且方法进一步包括将标记化属性、元数据和专家系统规则中的数值转换成基于文本的描述符。

另一示例针对一种系统，所述系统包括多个概括引擎，每个概括引擎接收视频内容并且提供视频内容的概要，从而提供视频内容的多个概要。系统包括多个元算法模式，每个元算法模式应用于概要中的至少两个概要以使用所述至少两个概要来提供视频内容的元概要，从而提供视频内容的多个元概要。系统包括评估器，用来评估所述多个概要和所述多个元概要和基于类似性度量来选择多个类中的类或新的类。

所述多个概括引擎中的概括引擎可以输出针对视频内容的帧的直方图，以及直方图之间的帧到帧差异。所述多个概括引擎中的概括引擎可以输出基于视频内容的帧之间的改变而根据梯度向量场技术所确定的特征。所述多个概括引擎中的概括引擎可以基于视频内容而输出图像特征、音频特征和来自语音识别的文本特征中的一个。所述多个概括引擎中的概括引擎可以输出从视频内容提取的标记化属性、与视频内容相关联的元数据，以及针对视频内容的专家系统规则。所述多个概括引擎中的概括引擎可以将与视频内容相关联的数值转换成基于文本的描述符。将数值转换成基于文本的描述符可以包括确定与给定数值相关联的范围，将该范围划分成子范围，以及使基于文本的描述符与子范围中的每个相关联。所述多个元算法模式可以包括投票和加权投票、预测性选择、曲面细分和利用专家决策器的重组，以及利用次级引擎的预测性选择。评估器可以基于所选类而提供针对附加视频内容的观看推荐，其中经由远程订户显示设备来提供观看推荐，并且其中该选择激活推荐观众应用以引起对观看推荐的更新。评估器可以基于所选类而提供存储推荐。

在一些示例中，可以经由远程订户显示设备来提供观看推荐，并且该选择可能激活推荐观众应用以引起对观看推荐的更新。一般地，远程订户显示设备可以是能够显示数字媒体的任何设备。例如，远程订户显示设备可以是移动设备、电视等。一般地，推荐观众应用可以是能够访问视频内容的数据库以基于所选类而找到附加视频内容的计算机应用。推荐观众应用可以被另外配置成渲染附加视频内容的属性的图形显示，其中渲染可以被配置成与特定显示设备兼容。当选择与视频内容相关联的类时，评估器可以激活推荐观众应用以引起对观看推荐的更新。在一些示例中，当视频内容被流送到显示设备上时可以实时地提供这样的更新。在一些示例中，显示设备可以是能够从用户接收输入的交互式图形用户接口。在一些示例中，类的选择可以基于这样的用户输入。例如，可以基于用户输入而使用或不使用概括引擎和/或元算法模式。而且，例如，可以基于用户输入来调整与概括引擎和/或元算法模式相关联的相对权重。在一些示例中，用户输入可以包括从所选类对附加视频内容的选择，并且推荐观众应用可以响应于用户输入而调整观看推荐。

另一示例针对一种非暂时性计算机可读介质，其包括可执行指令以：接收视频内容；应用元算法模式和概括引擎的多个组合，其中：每个概括引擎提供视频内容的概要，并且每个元算法模式应用于至少两个概要以提供元概要；基于从元概要提取的概括项而生成概括向量；生成针对视频内容的多个类中的每个给定类的类向量，类向量基于从给定类中的视频提取的类项；确定所述多个类的视频内容的每个类上的视频内容的类似性度量，每个类似性度量指示概括向量与每个类向量之间的类似性；以及基于所确定的类似性度量而选择所述多个类中的类或新的类。

非暂时性计算机可读介质可以进一步包括可执行指令以：从概括引擎中的至少一个输出特征集合，其中特征集合包括以下中的至少一个：(1)基于视频内容的帧之间的改变而根据梯度向量场技术所确定的特征，以及(2)针对视频内容的帧的直方图，以及直方图之间的帧到帧差异。

尽管本文已经图示和描述了特定示例，但是多种替代的和/或等同的实现可以取代所示出和描述的特定示例而不脱离本公开的范围。意图本申请覆盖本文讨论的特定示例的任何改编或变化。因此，意图本公开仅由权利要求及其等同方案所限制。

Claims

1.一种系统，包括：

多个概括引擎，每个概括引擎接收视频内容并且提供视频内容的概要，从而提供视频内容的多个概要；

多个元算法模式，每个元算法模式应用于概要中的至少两个概要以使用所述至少两个概要来提供视频内容的元概要，从而提供视频内容的多个元概要；以及

评估器，所述评估器评估所述多个概要和所述多个元概要并且基于类似性度量来选择多个类中的类或新的类。

2.根据权利要求1所述的系统，其中所述多个概括引擎中的概括引擎输出针对视频内容的帧的直方图，以及直方图之间的帧到帧差异。

3.根据权利要求1所述的系统，其中所述多个概括引擎中的概括引擎输出基于视频内容的帧之间的改变而根据梯度向量场技术所确定的特征。

4.根据权利要求1所述的系统，其中所述多个概括引擎中的概括引擎基于视频内容而输出图像特征、音频特征和来自语音识别的文本特征中的一个。

5.根据权利要求1所述的系统，其中所述多个概括引擎中的概括引擎输出从视频内容提取的标记化属性、与视频内容相关联的元数据，以及针对视频内容的专家系统规则。

6.根据权利要求1所述的系统，其中所述多个概括引擎中的概括引擎将与视频内容相关联的数值转换成基于文本的描述符。

7.根据权利要求6所述的系统，其中将数值转换成基于文本的描述符包括确定与给定数值相关联的范围，将所述范围划分成子范围，以及使基于文本的描述符与子范围中的每个相关联。

8.根据权利要求1所述的系统，其中所述多个元算法模式包括投票和加权投票、预测性选择、曲面细分和利用专家决策器的重组，以及利用次级引擎的预测性选择。

9.根据权利要求1所述的系统，其中评估器基于所选类而提供针对附加视频内容的观看推荐，并且其中经由远程订户显示设备来提供观看推荐，并且其中所述选择激活推荐观众应用以引起对观看推荐的更新。

10.根据权利要求1所述的系统，其中评估器基于所选类而提供存储推荐。

11.一种用来基于元算法模式对视频内容进行分类的方法，所述方法包括：

经由处理系统接收视频内容；

使用多个概括引擎概括视频内容以经由处理系统提供多个概要；

将多个元算法模式应用于所述多个概要以提供多个元概要，其中将元算法模式中的每个应用于概要中的至少两个概要以经由处理系统提供元概要中的至少一个；

经由处理系统、基于所述多个概要和所述多个元概要而标识视频内容的多个类中的每个给定类上的视频内容的类似性度量；以及

经由处理系统、基于所标识的类似性度量而选择所述多个类中的类或新的类。

12.根据权利要求11所述的方法，其中概要中的至少一个包括从视频内容提取的标记化属性、与视频内容相关联的元数据，以及针对视频内容的专家系统规则。

13.根据权利要求12所述的系统，并且进一步包括：

将标记化属性、元数据和专家系统规则中的数值转换成基于文本的描述符。

14.一种非暂时性计算机可读介质，包括可执行指令以：

接收视频内容；

应用元算法模式和概括引擎的多个组合，其中：每个概括引擎提供视频内容的概要，并且每个元算法模式应用于至少两个概要以提供元概要；

基于从元概要提取的概括项而生成概括向量；

生成针对视频内容的多个类中的每个给定类的类向量，类向量基于从给定类中的视频提取的类项；

确定所述多个类的视频内容的每个类上的视频内容的类似性度量，每个类似性度量指示概括向量与每个类向量之间的类似性；以及

基于所确定的类似性度量而选择所述多个类中的类或新的类。

15.根据权利要求14所述的非暂时性计算机可读介质，并且进一步包括可执行指令以：

从概括引擎中的至少一个输出特征集合，其中特征集合包括以下中的至少一个：(1)基于视频内容的帧之间的改变而根据梯度向量场技术所确定的特征，以及(2)针对视频内容的帧的直方图以及直方图之间的帧到帧差异。