CN108353213A - 视频内容概括和类选择 - Google Patents

视频内容概括和类选择 Download PDF

Info

Publication number
CN108353213A
CN108353213A CN201580084090.XA CN201580084090A CN108353213A CN 108353213 A CN108353213 A CN 108353213A CN 201580084090 A CN201580084090 A CN 201580084090A CN 108353213 A CN108353213 A CN 108353213A
Authority
CN
China
Prior art keywords
video content
class
video
summarization engine
summaries
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201580084090.XA
Other languages
English (en)
Inventor
S·J·辛斯克
T·张
M·达斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Publication of CN108353213A publication Critical patent/CN108353213A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • H04N21/4665Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms involving classification methods, e.g. Decision trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

一种系统包括多个概括引擎,每个概括引擎接收视频内容并且提供视频内容的概要,从而提供视频内容的多个概要。系统包括多个元算法模式,每个元算法模式应用于概要中的至少两个概要以使用所述至少两个概要来提供视频内容的元概要,从而提供视频内容的多个元概要。系统包括评估器,用来评估所述多个概要和所述多个元概要以及基于所确定的类似性度量来选择多个类中的类或新的类。

Description

视频内容概括和类选择
背景技术
概要(summary)提供对诸如视频内容之类的某个类型的内容的主要事实或特征的简要说明。存在用来概括内容的许多不同方法。概要可以用在多种多样的应用中以将内容减少成比原始内容更有益于用户的形式。
附图说明
图1是图示了用于执行视频内容的功能概括(summarization)和分类的系统的一个示例的功能框图。
图2是图示了用于实现图1中所示的用于执行视频内容的功能概括和分类的系统的处理系统的一个示例的框图。
图3是图示了用来基于元算法(meta-algorithmic)模式对视频内容进行分类的方法的一个示例的流程图。
具体实施方式
在以下详细描述中,参考附图,所述附图形成本文的一部分并且其中通过图示的方式示出可以实践本公开的具体示例。要理解,可以利用其它示例并且可以做出结构或逻辑改变而不脱离本公开的范围。因此不要在限制性意义上理解以下详细描述,并且本公开的范围由随附权利要求书限定。要理解,本文所描述的各种示例的特征可以与彼此部分或全部地组合,除非另外具体指出。
一个示例针对一种用于执行视频内容的功能概括和分类的系统。该系统接收视频内容并且对视频内容进行滤波。经滤波的视频内容然后由多个不同的概括引擎处理以提供多个概要。概要可以由多个不同的元算法模式进一步处理,其中每个元算法模式被应用于至少两个概要,以提供多个元概要(meta-summary)。元概要可以被视为新的概要。例如,可以以与来自概括引擎的输出相同的方式将元概要用作用于分类的输入。
元概要是由两个或更多个标准概要或初级概要的智能组合所创建的概括。将多个智能算法、系统或引擎的智能组合称作“元算法”,并且可以限定用于元算法的第一级、第二级和第三级模式。
可以评估概要和/或元概要以分别针对所选任务确定每个概要和/或元概要的值或相关性。然后推荐分别提供具有针对所选任务的显著值或相关性的概要和/或元概要的概括引擎和/或元算法模式以用于部署。以此方式,确定针对特定任务进行优化的概括器架构。
系统还可以标识针对视频内容的多个类中的每个给定类的类向量,其中类向量基于从给定类中的视频内容提取的信息。可以生成概括向量,其中概括向量基于从元概要提取的概括信息。确定所述多个类的视频内容的每个类上的给定视频文件的类似性度量,其中每个类似性度量指示概括向量与每个类向量之间的类似性。可以基于所确定的类似性度量来选择所述多个类中的类。给定视频文件可以与视频内容的所选类相关联。
一些示例针对基于功能概括的视频分类。提取视频的若干特征特性,诸如包括视频的各个帧、音频特性和与视频相关联的任何文本数据和/或视频特性。视频文件的特征是运动。相应地,可以生成特征的直方图,并且帧之间的这些直方图中的差异可以用于创建与每个视频文件相关联的标记化属性。此外,特征可以包括与给定视频文件相关联的元数据和由领域专家引入的专家系统规则。
针对给定视频文件由概括引擎所提取的特征允许针对视频文件的创建者、作者、流派、时间段等的肯定标识。可以对视频内容(例如影片、TV节目、家庭视频等)进行分类,并且分类可以用于(1)提供对类似于给定视频的附加视频(例如电影和/或TV节目)的观看推荐;以及(2)存储基于类似视频类型的针对家庭视频的推荐。
图1是图示了用于执行视频内容的功能概括和分类的系统100的一个示例的功能框图。系统100包括视频内容102、滤波器104、经滤波的视频内容106、概括引擎108、概要110(1)-110(x)、元算法模式112(1)-112(y)、元概要114(1)-114(z)、评估器116和选择器118,其中“x”、“y”和“z”分别为概要、元算法模式和元概要的任何合适的数目。滤波器104对视频内容102进行滤波以提供适合于由概括引擎108处理的经滤波的视频内容106。滤波器104可以移除图像、声音、视频段和/或视频内容102的其它部分以提供经滤波的视频内容106。在一个示例中,排除滤波器104,并且向概括引擎108直接提供视频内容102。在一个示例中,选择器118被包括为评估器116的部分。
概括引擎108概括经滤波的视频内容106以提供多个概要110(1)-110(x)。在一个示例中,概括引擎中的每个提供包括以下概括输出中的至少一个的概要:
(1)来自视频的每一帧的图像特征,诸如照明(例如亮度)、检测到的对象以及颜色(例如直方图、布局)。
(2)视频的音频特征,诸如音乐的音符和音阶特征、歌曲特性(如果适用的话)、乐谱特性(如果适用的话)、分贝、强度、检测到的语音/扬声器、检测到的音频事件(例如鼓掌、欢呼、尖叫、哭泣、爆炸、室外与室内环境噪声)。
(3)文本特征,诸如从音频的文本副本提取的特征(例如基于语音识别、自然语言处理(NLP)、词云、针对词/短语的术语频率-逆文档频率(TF-IDF)。这可以帮助确定成人语言、脏话、激烈的语言等的使用)。
(4)视频特性,诸如广告视频特性(例如工作室、演员、导演、制片人、年份、流派等),或家庭视频特性(例如位置、时间戳、创建者、设备类型)。
(5)基于帧之间的改变(诸如照明、声音、对象移动等中的改变)而根据梯度向量场技术所确定的特征。
(6)上面提及的特征中的一些可以被另外提取和概括为针对帧的直方图。可以确定这些直方图之间的(从帧到帧的)差异,并且连同上面在(1)-(5)中描述的特征可以用于创建与每个视频文件相关联的标记化属性。
在其它示例中,概括引擎可以提供包括另一合适的概括输出的概要。
在一个示例中,概要110(1)-110(x)基于视频内容的标记化属性,诸如上面列出的(1)-(6),连同与视频相关联的元数据(例如位置、时间、创建者、捕获视频的设备等),加上由领域专家引入的专家规则。可以将这三个数据集合标准化成对应于类似文本的字段,使得每个数值转换成对应的文本描述。可以将所有数据字段值翻译成基于语言的描述符。对于诸如图像亮度之类的给定数据字段,确定数据字段的值范围,并且将该范围划分成多个子范围,其中每个子范围由基于语言的描述符表示并且与基于语言的描述符相关联。因此,当给定数据字段的特定数值由系统接收到时,包含该数值的子范围被标识,并且与所标识的子范围相关联的基于语言的描述符用于表示在后续处理中的数值。这允许概括在作为三元组{RANGE_DESCRIPTORS、元数据、专家规则}的词包的媒体表示上继续。例如,可以使得以下属性是“语言友好的”:
(1)音乐强度:找到范围,将范围划分成合适的子范围子集,并且给子范围中的一个指派INTENSITY_SUBRANGE_1、INTENSITY_SUBRANGE_2......INTENSITY_SUBRANGE_N作为属性。
(2)笔触(brush stroke)密度:找到{x,y,x+y,x-y}中的笔触密度的范围。将该范围划分成合适的子范围集合,并且给子范围中的一个指派BSD_X_1......BSD_X_J;BSD_Y_1......BSD_Y_K;BSD_X-Y_1......BSD_X-Y_L;BSD_X+Y_1......BSD_X+Y_M作为针对这四个分量中的每个的属性。
元算法模式112(1)-112(y)用于概括概要110(1)-110(x)以提供多个元概要114(1)-114(z)。将元算法模式中的每个应用于两个或更多个概要以提供元概要。在一个示例中,所述多个元算法模式基于以下方法:
(1)投票和加权投票;
(2)预测性选择;
(3)曲面细分(tessellation)和利用专家决策器(Expert Decisioner)的重组;以及
(4)利用次级引擎的预测性选择。
在其它示例中,元算法模式可以基于另一合适的方法。
在(1)投票和加权投票方法中,多个概括引擎的输出被组合并且基于每个概括引擎中的相对置信度和每个概括中的项目的相对加权而进行相对地加权。(2)预测性选择方法可以包括基于与特定主题或主题集合相关联的类内的成员身份而应用特定概括引擎或概括引擎的集合。在(3)曲面细分和利用专家决策器的重组方法中,曲面细分将输入空间减小到原子单位;重组牵涉合并步骤,所述合并步骤考虑经充分曲面细分的基元输出数据并且将基元输出合并成较大粒度的输出;并且专家决策器提供针对每个可能的重组输出的总体权重。在(4)利用次级引擎的预测性选择方法中,训练或统计学习与预测性选择相同,但是在运行时期间,如果所选第一引擎被示出提供具有不可接受的质量的输出,则迭代地选择最好的剩余引擎。
针对性能而比较这四个模式,并且选取在训练数据上具有最高准确度的一个模式作为部署候选。一旦视频内容的经分类的库可用,所部署的候选就可以对传入的视频数据文件进行快速分类。在一些示例中,这样的分类可以用于向用户提供观看建议(例如推荐类似的电影)。在一些示例中,这样的分类可以用于自动地存储/管理/布置用户的个人视频库(例如生日视频、海滩度假视频等)。
评估器116针对所选任务来确定每个概要110(1)-110(x)和每个元概要114(1)-114(z)的值或相关性。在一个示例中,所选任务可以包括视频分类和/或主题标识。
视频分类是向特定类指派视频文件。对于视频分类任务,评估概要和元概要以确定提供与训练集的地面真值(ground truth)显著匹配的视频分类的概括架构。一般地,训练集越大并且可用的概括引擎的数目越大,最终的系统性能将越好。然而,当训练集比概括引擎的数目大得多时,优化系统性能。然后选择概括架构并且推荐其用于部署。
主题标识与视频分类有关。主题标识是将视频元素填充或以其它方式指派到类的手段。一个或多个主题的标识一般与从列表或分类学(taxonomy)进行选择相关联。对于主题标识任务,评估概要和元概要以确定提供视频元素与列表、字典或分类学的最高准确关联的概括架构。然后选择概括架构并且推荐其用于部署。
在其它示例中,所选任务可以包括另一合适的应用。针对每个概要和元概要在所选任务中的相对值而对每个概要和元概要进行评估。基于训练集(例如地面真值集)、从用户接收的反馈或适用于所选任务的其它合适准则来评估所选任务中的相对值(即针对所选任务的相关性或实用性)。
选择器118基于对于所选任务的评定值(或实用性或相关性)来选择概要或元概要,以提供推荐的部署设置。在一个示例中,选择器118选择具有对于所选任务的最高评定值的概要或元概要,以提供推荐的部署设置。在其它示例中,选择器118选择具有超过针对所选任务的预定义阈值的评定值的概要或元概要,以提供推荐的部署设置。推荐的部署设置包括为所选任务提供最适宜的概括架构的概括引擎和/或元算法模式。可以实时地将最适宜的概括架构整合到系统中。可以按照偏好、计划表、需要或在完成任务的大量新实例时重新配置系统。
图2是图示了用于实现用于执行视频内容的功能概括和分类的系统100的处理系统200的一个示例的框图。处理系统200包括处理器202、存储器204、输入设备220和输出设备222。处理器202、存储器204、输入设备220和输出设备222通过通信链路220(例如总线)通信地耦合到彼此。
处理器202包括中央处理单元(CPU)或另一合适的处理器。在一个示例中,存储器204存储由处理器202执行以用于操作处理系统200的机器可读指令。存储器204包括易失性和/或非易失性存储器的任何合适组合,诸如随机存取存储器(RAM)、只读存储器(ROM)、闪速存储器和/或其它合适存储器的组合。这些是非暂时性计算机可读介质的示例。
存储器204存储视频内容206、多个视频内容类216,以及概括向量和类向量218,以用于由处理系统200处理。存储器204还存储要由处理器202执行的指令,所述指令包括用于滤波器208、概括引擎210、元算法模式212和评估器214的指令。在一个示例中,滤波器208、概括引擎210、元算法模式212和评估器214分别包括如之前参考图1所描述和图示的滤波器104、概括引擎108、元算法模式112(1)-112(y)和评估器116。
处理器202执行滤波器208的指令以对视频内容206进行滤波以提供经滤波的视频内容。处理器202执行概括引擎210的指令以概括经滤波的视频内容以提供概要。处理器202执行元算法模式212的指令以概括概要以提供元概要。处理器202执行评估器214的指令以评估概要和元概要以执行视频内容的功能概括和分类。
输入设备220包括键盘、鼠标、数据端口和/或用于向处理系统200中输入信息的其它合适设备。在一个示例中,输入设备220用于输入来自用户的反馈以用于针对所选任务评估概要和元概要。输出设备222包括监视器、扬声器、数据端口和/或用于从处理系统200输出信息的其它合适设备。在一个示例中,输出设备222用于向用户输出概要和元概要,为所选任务推荐最适宜的概括架构,以及输出针对给定视频文件的分类。在一个示例中,经由输入设备220接收针对特定视频文件的分类查询。处理器202检索与特定视频文件相关联的类,并且经由输出设备222向用户提供这样的分类。
向量218中的类向量基于所述多个视频内容类216,其中每个类向量与视频内容类216中的相应一个相关联,并且每个类向量基于从给定类中的视频提取的类信息。
概括引擎和/或元算法模式可以用于将给定视频文件减少到包括概括项的元概要。评估器214基于从给定视频文件的元概要提取的概括项而生成概括向量。概括向量然后可以由评估器214用于对给定视频文件进行分类。评估器214可以确定视频内容类216中的每个上的给定视频文件的类似性度量,其中每个类似性度量指示针对给定视频文件的概括向量与每个相应类向量之间的类似性。给定视频文件可以与对于其而言针对给定视频文件的概括向量与类向量之间的类似性最大化的类相关联。
在一个示例中,在两个步骤中使用功能概括。第一,功能概括用于对视频内容的语料库进行分类。根据一个示例,这样的分类为电影提供更细化的流派。代替在“恐怖”、“悬疑”、“儿童”等方面的粗略分类,本文所公开的示例基于较精细的特征来群集视频内容,所述特征包括声音和图像质量、动作类型(例如快节奏、枪支暴力、浪漫音乐)、家庭视频类型(例如“生日视频”、“高尔夫远足”、“海滩视频”等)。第二,功能概括可以用于通过将传入视频与预定类或集群相关联来对所述传入视频进行分类。这样的关联可以用于:(1)提供类似于电影和/或TV节目的观看推荐;以及(2)基于类似的视频类型为家庭视频提供存储推荐。
一个示例针对一种用于对视频内容进行分类的方法。图3是图示了用来基于元算法模式对视频内容进行分类的方法300的一个示例的流程图。在302处,经由处理系统接收视频内容。在304处,使用多个概括引擎概括视频内容以经由处理系统提供多个概要。在306处,将多个元算法模式应用于所述多个概要以提供多个元概要,其中将元算法模式中的每个应用于概要中的至少两个,以经由处理系统提供元概要中的至少一个。在308处,方法经由处理系统、基于所述多个概要和所述多个元概要而标识多个视频内容类中的每个给定类上的视频内容的类似性度量。在310处,方法经由处理系统、基于所标识的类似性度量而选择所述多个类中的类或新的类。可以从之前确定的多个类中选择用于视频内容的类,或者可以通过首先群集类似的视频并且然后将该集群手动或自动地标记为新的类来创建新的类。
在方法300的示例中,概要中的至少一个包括从视频内容提取的标记化属性、与视频内容相关联的元数据,以及针对视频内容的专家系统规则,并且方法进一步包括将标记化属性、元数据和专家系统规则中的数值转换成基于文本的描述符。
另一示例针对一种系统,所述系统包括多个概括引擎,每个概括引擎接收视频内容并且提供视频内容的概要,从而提供视频内容的多个概要。系统包括多个元算法模式,每个元算法模式应用于概要中的至少两个概要以使用所述至少两个概要来提供视频内容的元概要,从而提供视频内容的多个元概要。系统包括评估器,用来评估所述多个概要和所述多个元概要和基于类似性度量来选择多个类中的类或新的类。
所述多个概括引擎中的概括引擎可以输出针对视频内容的帧的直方图,以及直方图之间的帧到帧差异。所述多个概括引擎中的概括引擎可以输出基于视频内容的帧之间的改变而根据梯度向量场技术所确定的特征。所述多个概括引擎中的概括引擎可以基于视频内容而输出图像特征、音频特征和来自语音识别的文本特征中的一个。所述多个概括引擎中的概括引擎可以输出从视频内容提取的标记化属性、与视频内容相关联的元数据,以及针对视频内容的专家系统规则。所述多个概括引擎中的概括引擎可以将与视频内容相关联的数值转换成基于文本的描述符。将数值转换成基于文本的描述符可以包括确定与给定数值相关联的范围,将该范围划分成子范围,以及使基于文本的描述符与子范围中的每个相关联。所述多个元算法模式可以包括投票和加权投票、预测性选择、曲面细分和利用专家决策器的重组,以及利用次级引擎的预测性选择。评估器可以基于所选类而提供针对附加视频内容的观看推荐,其中经由远程订户显示设备来提供观看推荐,并且其中该选择激活推荐观众应用以引起对观看推荐的更新。评估器可以基于所选类而提供存储推荐。
在一些示例中,可以经由远程订户显示设备来提供观看推荐,并且该选择可能激活推荐观众应用以引起对观看推荐的更新。一般地,远程订户显示设备可以是能够显示数字媒体的任何设备。例如,远程订户显示设备可以是移动设备、电视等。一般地,推荐观众应用可以是能够访问视频内容的数据库以基于所选类而找到附加视频内容的计算机应用。推荐观众应用可以被另外配置成渲染附加视频内容的属性的图形显示,其中渲染可以被配置成与特定显示设备兼容。当选择与视频内容相关联的类时,评估器可以激活推荐观众应用以引起对观看推荐的更新。在一些示例中,当视频内容被流送到显示设备上时可以实时地提供这样的更新。在一些示例中,显示设备可以是能够从用户接收输入的交互式图形用户接口。在一些示例中,类的选择可以基于这样的用户输入。例如,可以基于用户输入而使用或不使用概括引擎和/或元算法模式。而且,例如,可以基于用户输入来调整与概括引擎和/或元算法模式相关联的相对权重。在一些示例中,用户输入可以包括从所选类对附加视频内容的选择,并且推荐观众应用可以响应于用户输入而调整观看推荐。
另一示例针对一种非暂时性计算机可读介质,其包括可执行指令以:接收视频内容;应用元算法模式和概括引擎的多个组合,其中:每个概括引擎提供视频内容的概要,并且每个元算法模式应用于至少两个概要以提供元概要;基于从元概要提取的概括项而生成概括向量;生成针对视频内容的多个类中的每个给定类的类向量,类向量基于从给定类中的视频提取的类项;确定所述多个类的视频内容的每个类上的视频内容的类似性度量,每个类似性度量指示概括向量与每个类向量之间的类似性;以及基于所确定的类似性度量而选择所述多个类中的类或新的类。
非暂时性计算机可读介质可以进一步包括可执行指令以:从概括引擎中的至少一个输出特征集合,其中特征集合包括以下中的至少一个:(1)基于视频内容的帧之间的改变而根据梯度向量场技术所确定的特征,以及(2)针对视频内容的帧的直方图,以及直方图之间的帧到帧差异。
尽管本文已经图示和描述了特定示例,但是多种替代的和/或等同的实现可以取代所示出和描述的特定示例而不脱离本公开的范围。意图本申请覆盖本文讨论的特定示例的任何改编或变化。因此,意图本公开仅由权利要求及其等同方案所限制。

Claims (15)

1.一种系统,包括:
多个概括引擎,每个概括引擎接收视频内容并且提供视频内容的概要,从而提供视频内容的多个概要;
多个元算法模式,每个元算法模式应用于概要中的至少两个概要以使用所述至少两个概要来提供视频内容的元概要,从而提供视频内容的多个元概要;以及
评估器,所述评估器评估所述多个概要和所述多个元概要并且基于类似性度量来选择多个类中的类或新的类。
2.根据权利要求1所述的系统,其中所述多个概括引擎中的概括引擎输出针对视频内容的帧的直方图,以及直方图之间的帧到帧差异。
3.根据权利要求1所述的系统,其中所述多个概括引擎中的概括引擎输出基于视频内容的帧之间的改变而根据梯度向量场技术所确定的特征。
4.根据权利要求1所述的系统,其中所述多个概括引擎中的概括引擎基于视频内容而输出图像特征、音频特征和来自语音识别的文本特征中的一个。
5.根据权利要求1所述的系统,其中所述多个概括引擎中的概括引擎输出从视频内容提取的标记化属性、与视频内容相关联的元数据,以及针对视频内容的专家系统规则。
6.根据权利要求1所述的系统,其中所述多个概括引擎中的概括引擎将与视频内容相关联的数值转换成基于文本的描述符。
7.根据权利要求6所述的系统,其中将数值转换成基于文本的描述符包括确定与给定数值相关联的范围,将所述范围划分成子范围,以及使基于文本的描述符与子范围中的每个相关联。
8.根据权利要求1所述的系统,其中所述多个元算法模式包括投票和加权投票、预测性选择、曲面细分和利用专家决策器的重组,以及利用次级引擎的预测性选择。
9.根据权利要求1所述的系统,其中评估器基于所选类而提供针对附加视频内容的观看推荐,并且其中经由远程订户显示设备来提供观看推荐,并且其中所述选择激活推荐观众应用以引起对观看推荐的更新。
10.根据权利要求1所述的系统,其中评估器基于所选类而提供存储推荐。
11.一种用来基于元算法模式对视频内容进行分类的方法,所述方法包括:
经由处理系统接收视频内容;
使用多个概括引擎概括视频内容以经由处理系统提供多个概要;
将多个元算法模式应用于所述多个概要以提供多个元概要,其中将元算法模式中的每个应用于概要中的至少两个概要以经由处理系统提供元概要中的至少一个;
经由处理系统、基于所述多个概要和所述多个元概要而标识视频内容的多个类中的每个给定类上的视频内容的类似性度量;以及
经由处理系统、基于所标识的类似性度量而选择所述多个类中的类或新的类。
12.根据权利要求11所述的方法,其中概要中的至少一个包括从视频内容提取的标记化属性、与视频内容相关联的元数据,以及针对视频内容的专家系统规则。
13.根据权利要求12所述的系统,并且进一步包括:
将标记化属性、元数据和专家系统规则中的数值转换成基于文本的描述符。
14.一种非暂时性计算机可读介质,包括可执行指令以:
接收视频内容;
应用元算法模式和概括引擎的多个组合,其中:每个概括引擎提供视频内容的概要,并且每个元算法模式应用于至少两个概要以提供元概要;
基于从元概要提取的概括项而生成概括向量;
生成针对视频内容的多个类中的每个给定类的类向量,类向量基于从给定类中的视频提取的类项;
确定所述多个类的视频内容的每个类上的视频内容的类似性度量,每个类似性度量指示概括向量与每个类向量之间的类似性;以及
基于所确定的类似性度量而选择所述多个类中的类或新的类。
15.根据权利要求14所述的非暂时性计算机可读介质,并且进一步包括可执行指令以:
从概括引擎中的至少一个输出特征集合,其中特征集合包括以下中的至少一个:(1)基于视频内容的帧之间的改变而根据梯度向量场技术所确定的特征,以及(2)针对视频内容的帧的直方图以及直方图之间的帧到帧差异。
CN201580084090.XA 2015-10-30 2015-10-30 视频内容概括和类选择 Pending CN108353213A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2015/058438 WO2017074448A1 (en) 2015-10-30 2015-10-30 Video content summarization and class selection

Publications (1)

Publication Number Publication Date
CN108353213A true CN108353213A (zh) 2018-07-31

Family

ID=58630901

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580084090.XA Pending CN108353213A (zh) 2015-10-30 2015-10-30 视频内容概括和类选择

Country Status (4)

Country Link
US (1) US10521670B2 (zh)
EP (1) EP3369252B1 (zh)
CN (1) CN108353213A (zh)
WO (1) WO2017074448A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11501176B2 (en) 2018-12-14 2022-11-15 International Business Machines Corporation Video processing for troubleshooting assistance

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9852337B1 (en) 2015-09-30 2017-12-26 Open Text Corporation Method and system for assessing similarity of documents
CN108307240B (zh) * 2018-02-12 2019-10-22 北京百度网讯科技有限公司 视频推荐方法和装置
CN111401100B (zh) 2018-12-28 2021-02-09 广州市百果园信息技术有限公司 视频质量评估方法、装置、设备及存储介质
US11343545B2 (en) * 2019-03-27 2022-05-24 International Business Machines Corporation Computer-implemented event detection using sonification
CN112052357B (zh) * 2020-04-15 2022-04-01 上海摩象网络科技有限公司 一种视频片段标记方法、设备及手持相机
US11457288B1 (en) * 2021-07-15 2022-09-27 Rovi Guides, Inc. Rewind and fast forward of content
CN117251595A (zh) * 2022-06-10 2023-12-19 微软技术许可有限责任公司 视频录像处理

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004025496A1 (en) * 2002-09-16 2004-03-25 The Trustees Of Columbia University In The City Of New York System and method for document collection, grouping and summarization
CN1748213A (zh) * 2002-12-13 2006-03-15 国际商业机器公司 概念模型空间中的内容表示和检索的方法和设备
CN1969552A (zh) * 2004-06-17 2007-05-23 皇家飞利浦电子股份有限公司 使用个性属性的个性化概要
CN101198955A (zh) * 2005-06-15 2008-06-11 皇家飞利浦电子股份有限公司 使得能通过元概要数据代表内容项的设备及其方法
CN101877060A (zh) * 2009-04-30 2010-11-03 索尼公司 信息处理设备和方法以及程序
CN102184235A (zh) * 2011-05-13 2011-09-14 广州星海传媒有限公司 一种基于机顶盒的数字电视节目推荐方法及系统
CN103200463A (zh) * 2013-03-27 2013-07-10 天脉聚源(北京)传媒科技有限公司 一种视频摘要生成方法和装置
CN103299324A (zh) * 2010-11-11 2013-09-11 谷歌公司 使用潜在子标记来学习用于视频注释的标记
WO2013137908A1 (en) * 2012-03-16 2013-09-19 Hewlett-Packard Development Company, L. P. Classifying images
CN104639993A (zh) * 2013-11-06 2015-05-20 株式会社Ntt都科摩 视频节目推荐方法及其服务器
CN104679779A (zh) * 2013-11-29 2015-06-03 华为技术有限公司 视频分类的方法和装置
WO2015163857A1 (en) * 2014-04-22 2015-10-29 Hewlett-Packard Development Company, L.P. Determining an optimized summarizer architecture for a selected task

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7016540B1 (en) 1999-11-24 2006-03-21 Nec Corporation Method and system for segmentation, classification, and summarization of video images
US7137065B1 (en) * 2000-02-24 2006-11-14 International Business Machines Corporation System and method for classifying electronically posted documents
US6775677B1 (en) * 2000-03-02 2004-08-10 International Business Machines Corporation System, method, and program product for identifying and describing topics in a collection of electronic documents
JP2006525537A (ja) * 2003-04-14 2006-11-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ コンテンツ解析を用いて音楽ビデオを要約する方法及び装置
JP2005277445A (ja) 2004-03-22 2005-10-06 Fuji Xerox Co Ltd 会議映像処理装置、会議映像処理方法およびプログラム
US20100031142A1 (en) 2006-10-23 2010-02-04 Nec Corporation Content summarizing system, method, and program
US20100002137A1 (en) * 2006-11-14 2010-01-07 Koninklijke Philips Electronics N.V. Method and apparatus for generating a summary of a video data stream
US8189905B2 (en) 2007-07-11 2012-05-29 Behavioral Recognition Systems, Inc. Cognitive model for a machine-learning engine in a video analysis system
US8713007B1 (en) * 2009-03-13 2014-04-29 Google Inc. Classifying documents using multiple classifiers
US8370288B2 (en) * 2009-07-20 2013-02-05 Sony Computer Entertainment America Llc Summarizing a body of media by assembling selected summaries
US9171578B2 (en) 2010-08-06 2015-10-27 Futurewei Technologies, Inc. Video skimming methods and systems
JP5259670B2 (ja) 2010-09-27 2013-08-07 株式会社東芝 コンテンツ要約装置およびコンテンツ要約表示装置
US8467610B2 (en) * 2010-10-20 2013-06-18 Eastman Kodak Company Video summarization using sparse basis function combination
US8989503B2 (en) 2012-08-03 2015-03-24 Kodak Alaris Inc. Identifying scene boundaries using group sparsity analysis
EP2870543A4 (en) 2012-10-12 2016-04-06 Hewlett Packard Development Co COMBINATORY SUMMARY
WO2016048321A1 (en) * 2014-09-25 2016-03-31 Hewlett-Packard Development Company, L.P. Personalized learning based on functional summarization
WO2016175786A1 (en) * 2015-04-29 2016-11-03 Hewlett-Packard Development Company, L.P. Author identification based on functional summarization
EP3230892A4 (en) * 2015-04-29 2018-05-23 Hewlett-Packard Development Company, L.P. Topic identification based on functional summarization

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004025496A1 (en) * 2002-09-16 2004-03-25 The Trustees Of Columbia University In The City Of New York System and method for document collection, grouping and summarization
CN1748213A (zh) * 2002-12-13 2006-03-15 国际商业机器公司 概念模型空间中的内容表示和检索的方法和设备
CN1969552A (zh) * 2004-06-17 2007-05-23 皇家飞利浦电子股份有限公司 使用个性属性的个性化概要
CN101198955A (zh) * 2005-06-15 2008-06-11 皇家飞利浦电子股份有限公司 使得能通过元概要数据代表内容项的设备及其方法
CN101877060A (zh) * 2009-04-30 2010-11-03 索尼公司 信息处理设备和方法以及程序
CN103299324A (zh) * 2010-11-11 2013-09-11 谷歌公司 使用潜在子标记来学习用于视频注释的标记
CN102184235A (zh) * 2011-05-13 2011-09-14 广州星海传媒有限公司 一种基于机顶盒的数字电视节目推荐方法及系统
WO2013137908A1 (en) * 2012-03-16 2013-09-19 Hewlett-Packard Development Company, L. P. Classifying images
CN103200463A (zh) * 2013-03-27 2013-07-10 天脉聚源(北京)传媒科技有限公司 一种视频摘要生成方法和装置
CN104639993A (zh) * 2013-11-06 2015-05-20 株式会社Ntt都科摩 视频节目推荐方法及其服务器
CN104679779A (zh) * 2013-11-29 2015-06-03 华为技术有限公司 视频分类的方法和装置
WO2015163857A1 (en) * 2014-04-22 2015-10-29 Hewlett-Packard Development Company, L.P. Determining an optimized summarizer architecture for a selected task

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHENG LU,MARK S. DREW,AND JAMES AU: "An Automatic Video Classification System Based on a Combination of HMM and Video Summarization", 《INTERNATIONAL JOURNAL OF SMART ENGINEERING SYSTEM DESIGN》 *
STEVEN J. SIMSKE: "《Meta-Algorithmics:Patterns for robust,low cost,high quality systems》", 29 July 2013 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11501176B2 (en) 2018-12-14 2022-11-15 International Business Machines Corporation Video processing for troubleshooting assistance

Also Published As

Publication number Publication date
US10521670B2 (en) 2019-12-31
US20190057258A1 (en) 2019-02-21
EP3369252A4 (en) 2019-06-12
EP3369252A1 (en) 2018-09-05
EP3369252B1 (en) 2021-03-03
WO2017074448A1 (en) 2017-05-04

Similar Documents

Publication Publication Date Title
CN108353213A (zh) 视频内容概括和类选择
US10025950B1 (en) Systems and methods for image recognition
CN108509465B (zh) 一种视频数据的推荐方法、装置和服务器
CN109376603A (zh) 一种视频识别方法、装置、计算机设备及存储介质
CN103299324B (zh) 使用潜在子标记来学习用于视频注释的标记
KR101289085B1 (ko) 객체 기반 영상 검색시스템 및 검색방법
EP2568429A1 (en) Method and system for pushing individual advertisement based on user interest learning
CN111258995B (zh) 数据处理方法、装置、存储介质及设备
CN113748439B (zh) 电影的成功商数的预测
KR20120053211A (ko) 멀티미디어 데이터 검색 방법, 장치 및 패턴인식 방법
KR101617649B1 (ko) 영상의 관심 구간 추천 시스템 및 방법
KR20200075114A (ko) 이미지와 텍스트간 유사도 매칭 시스템 및 방법
Dorado et al. A rule-based video annotation system
CN107423396A (zh) 一种基于功能隐含关系及聚类的Mashup推荐方法
CN110351597A (zh) 一种视频剪辑的方法、装置及电子设备
CN110019777A (zh) 一种信息分类的方法及设备
US20180151178A1 (en) Interactive question-answering apparatus and method thereof
US20130325865A1 (en) Method and Server for Media Classification
Soltanian et al. Hierarchical concept score postprocessing and concept-wise normalization in CNN-based video event recognition
Yamasaki et al. Prediction of user ratings of oral presentations using label relations
US11636282B2 (en) Machine learned historically accurate temporal classification of objects
CN105324787A (zh) 用户的基于手势的广告简档
US11354894B2 (en) Automated content validation and inferential content annotation
Sung et al. Classification of movie posters to movie genres
WO2020236249A1 (en) Generative image acquisition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180731

RJ01 Rejection of invention patent application after publication