CN107533638A

CN107533638A - 利用标签正确性概率来注释视频

Info

Publication number: CN107533638A
Application number: CN201680023743.8A
Authority: CN
Inventors: 巴拉科利什南·瓦瑞德瑞简; 乔治·托代里奇; 阿波斯托尔·纳特塞夫; 尼汀·坎德沃尔; 苏达赫恩德拉·维娅亚纳拉辛汉; 杨玮龙; 桑凯希·谢帝
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2015-08-11
Filing date: 2016-08-02
Publication date: 2018-01-02
Anticipated expiration: 2036-08-02
Also published as: US20170046573A1; CN107533638B; US20180025228A1; US20220207873A1; US20200082173A1; WO2017025860A1; US10482328B2; US9779304B2; US11200423B2; EP3274872A1

Abstract

一种利用实体以及实体在视频帧内的关联的存在概率来注释视频的系统和方法。一种计算机实现的方法从识别视频项的特性的多个实体中识别实体。所述计算机实现的方法基于多个特征中的特征的值来选择与实体相关的特征集合，使用所述特征集合来确定实体的分类器，并且基于所述特征集合来确定实体的聚合校准函数。所述计算机实现的方法从视频项选择视频帧，其中所述视频帧具有关联的特征，并且使用所述分类器和所述聚合校准函数基于关联的特征来确定实体的存在概率。

Description

利用标签正确性概率来注释视频

技术领域

本申请涉及视频处理，更具体地，涉及对视频帧进行标记。

背景技术

媒体托管服务可以托管诸如音乐、电影、电子书、新闻文章、用户生成的内容等的数百万的媒体内容项(也称为“媒体项”，或简称为“项”)。通常，媒体托管服务的用户可以通过提供关键字或搜索词项以搜索描述媒体内容项的诸如标题、媒体内容项的总数、感兴趣的对象等的信息来浏览或搜索媒体内容项。由于由媒体托管服务托管的大量媒体内容项，可能响应于用户搜索而返回许多媒体内容项。因此，用户会难以评估搜索结果集合中的数百或数千个媒体内容项中的哪一个与他们最相关。此外，精准定位最相关的媒体内容项的部分对用户而言可能极其困难。

可以向用户提供附加信息以帮助用户评估搜索结果的相关性。例如，与视频内容关联的元数据可以允许用户评估视频内容项的相关性，例如来自视频内容项的图像、视频内容项的作者、视频内容项的长度或者指示视频内容项的流行度的信息。然而，即使使用描述视频内容项的附加信息，用户也难以确定视频内容项是否包含与其搜索查询相关的内容。

发明内容

本文所描述的实施例提供了利用实体以及关联的所述实体在视频帧内的存在概率来注释视频的方法、计算机程序产品和系统。在一个实施例中，一种计算机实现的方法从识别视频项的特性的多个实体中识别实体。该计算机实现的方法基于多个特征中的特征的值来选择与实体相关的特征集合，使用该特征集合来确定实体的分类器，并且基于该特征集合来确定实体的聚合校准函数。该计算机实现的方法从视频项中选择具有关联的特征的视频帧，并且使用分类器和聚合校准函数基于所述关联的特征来确定实体存在概率。

在一个实施例中，一种包括可由处理器执行的计算机程序指令的非暂时性计算机可读介质。所述计算机程序指令包括用于从识别视频项的特性的多个实体中识别实体的指令。所述计算机程序指令包括用于基于多个特征中的特征的值来选择与实体相关的特征集合的指令。所述计算机程序指令包括用于使用该特征集合来确定实体的分类器的指令。所述计算机程序指令包括用于基于该特征集合来确定实体的聚合校准函数的指令。所述计算机程序指令包括用于从视频项中选择具有关联的特征的视频帧的指令。所述计算机程序指令包括用于使用分类器和聚合校准函数基于所述关联的特征来确定实体存在概率的指令。

在一个实施例中，一种系统包括用于执行计算机程序指令的处理器以及包括可由所述处理器执行的计算机程序指令的非暂时性计算机可读存储介质。所述计算机程序指令包括用于从识别视频项的特性的多个实体中识别实体的指令。所述计算机程序指令包括用于基于多个特征中的特征的值来选择与实体相关的特征集合的指令。所述计算机程序指令包括用于使用该特征集合来确定实体的分类器的指令。所述计算机程序指令包括用于基于该特征集合来确定实体的聚合校准函数的指令。所述计算机程序指令包括用于从视频项中选择具有关联的特征的视频帧的指令。所述计算机程序指令包括用于使用分类器和聚合校准函数基于所述关联的特征来确定实体存在概率的指令。

本发明内容和以下详细描述中描述的特征和优点不是全部包括的。对于本领域普通技术人员而言鉴于附图、说明书及其权利要求书，许多附加特征和优点将显而易见。

附图说明

图1是根据一个实施例的提供视频注释的视频托管系统服务器的高级框图。

图2是根据一个实施例的视频注释引擎的框图。

图3是示出根据一个实施例的利用实体存在概率来注释视频的过程的流程图。

附图仅仅为了例示的目的而描绘了本发明的各种实施例。本领域技术人员将从以下讨论容易地认识到，在不脱离本文所描述的本发明的原理的情况下，可以采用本文所示的结构和方法的替选实施例。

具体实施方式

系统架构

图1是根据一个实施例的利用在每个视频帧处的实体存在概率来提供视频注释的系统的高级框图。图1示出了由网络124连接的视频托管系统102和用户120。用户120表示可以访问包含在视频托管系统102内的视频的实体。用户120可以通过浏览视频的目录、使用关键字进行搜索、查阅来自其他用户或系统管理员的播放列表(例如，形成频道的视频合集)、或者查看与特定用户组(例如，社区)关联的视频，来访问来自视频托管系统102的视频。另外，在一些实施例中，视频托管系统102适于接收视频以进行存储，以使得能够与其他用户共享视频。

在一个实施例中，用户120使用计算机系统经由网络124与视频托管系统102通信。在一个实施例中，计算机系统是执行允许用户查看由视频托管系统102提供的网页和视频的诸如MICROSOFT INTERNET EXPLORER或MOZILLA FIREFOX的web浏览器122的个人计算机。在一个实施例中，web浏览器122包括视频播放器(例如，来自Adobe Systems公司的Flash^TM)。用户120可以利用除计算机系统以外的具有网络能力的装置，例如智能电话、平板、汽车、电视“机顶盒”等。尽管图1仅示出了单个用户，应当理解，许多用户(例如，数百万)可以随时与网站通信。示出单个用户120以使本说明书简化和清晰。

网络124表示用户与视频托管系统102之间的通信路径。在一个实施例中，网络124是互联网，但是也可以是任何网络，包括但不限于LAN、MAN、WAN、移动、有线或无线网络、云计算网络、专用网络或虚拟专用网络及其任何组合。此外，所有或一些链路可以使用诸如安全套接字层(SSL)、安全HTTP和/或虚拟专用网络(VPN)的传统加密技术来加密。在另一实施例中，代替上述那些或者除了上述那些之外，实体可以使用定制和/或专用数据通信技术。

视频托管系统102表示允许用户经由搜索和/或浏览界面来访问视频内容的任何系统。视频的来源可以来自视频的用户上传、在其它网站或数据库对视频的搜索或爬取等或其任何组合。例如，在一个实施例中，视频托管系统102可以被配置成允许用户上传内容；在另一实施例中，视频托管系统102可以被配置成仅通过实时地对其它来源进行爬取或者搜索这样的来源来从这样的来源获得视频。

用于实现该系统的合适的视频托管系统102是YOUTUBE^TM网站；其它视频托管网站也是已知的，并且可适于根据本文所公开的教导来操作。将理解，术语“网站”表示适于使用任何互联网协议来服务内容的任何计算机系统，并且不旨在限于经由互联网或HTTP协议上传或下载的内容。通常，如果适当，在一个实施例中被描述为在服务器侧执行的功能在其它实施例中也可以在客户端侧执行。此外，归因于特定组件的功能可以由不同组件或者一起操作的多个组件来执行。

视频托管系统102包括前端服务器104、摄取服务器106、视频搜索服务器108、视频注释引擎110、视频访问服务器112、视频数据存储114、特征数据存储116和实体数据存储118。诸如防火墙、负载均衡器、应用服务器、故障转移服务器、站点管理工具等的许多传统特征没有显示，以免使系统的特征模糊。

前端服务器104经由网络124处理与用户的所有通信。前端服务器从用户接收请求并与视频托管系统102的其它服务器通信以便处理请求。前端服务器104还被配置成监视与视频托管系统102的用户交互。例如，如果用户点击web页面、观看视频、进行购买、打开文档、填充基于web的表单，则前端服务器104监视这些交互。前端服务器104还可以被配置成在网页上向用户发送并呈现所请求的视频和相关视频链接。所请求的视频由前端服务器104流传输给用户。一个或更多个相关视频链接出现在正在播放所请求的视频的网页上，使得用户120可以选择相关视频链接以便观看相关视频。

经由网络124从用户接收的用于发布到视频托管系统102的任何内容被传递到摄取服务器106以进行处理。视频文件的处理包括向新接收的视频文件指派识别号码。处理视频文件的其它步骤可以包括格式化(例如，转码)、压缩、元数据加标签、内容分析和/或其它数据处理方法。用户将表单连同发送到视频托管系统102的视频文件一起发送。用户可以将描述视频的信息(例如，标题、描述和标签信息)包括在表单中。表单信息还可以包括媒体类型的指示(对于上传的视频，将始终是“视频”类型)。摄取服务器106将处理的视频文件存储在视频数据存储114中，并将包括在表单中的信息作为视频文件的元数据存储。视频数据存储114是存储发送到视频托管系统102的视频文件的存储系统。视频可伴随有图标或缩略图视图、关联的元数据，诸如标题、作者、标签和评级。

摄取服务器106可以生成用于表征存储在视频数据存储114中的媒体内容项的特征。特征可以作为元数据随媒体内容项存储在例如视频数据存储114中。摄取服务器106还可以将特征存储在特征数据存储116中。可以在视频数据存储114中维护将存储在视频数据存储中的每个视频文件与存储在特征数据存储116中的与该视频文件关联的特征关联的索引。在一个实施例中，对于视频文件的每个视频帧，摄取服务器106生成表征视频文件的每个视频帧的特征。例如，特征可以是来自视频的标题或描述的二元模型。

此外，摄取服务器106可以识别与存储在视频数据存储114中的视频文件关联的实体，并将所述实体存储在实体数据存储118中。实体是识别媒体内容项的特性的文本描述符，例如实际的东西、想法或者具有含义的概念。例如，“pugs(哈巴狗)”、“Machu Picchu(马丘比丘)”、“philosophy(哲学)”和“sleepy(困倦)”都是实体的示例。实体可以作为元数据随媒体内容项存储在例如视频数据存储114中。在一个实施例中，对于每个视频文件，摄取服务器106识别与视频文件的每个视频帧关联的实体。每个视频文件的每个视频帧可以具有与其关联的一个或更多个实体。例如，如果视频剪辑描绘了在金门公园中盯着牛角面包的哈巴狗，则作为元数据存储的实体可包括“dog(狗)”、“food(食物)”、“San Francisco(旧金山)”、“pugs(哈巴狗)”、“croissant(牛角面包)”、“hungry(饥饿)”和“Golden Gate Park(金门公园)”等。

当摄取服务器106摄取媒体内容项时，实体可以与媒体内容项关联。可以从用户所提供的标签或其它描述性信息来推导可与媒体内容项关联的可能实体的集合。对于视频，可以从伴随视频的文本描述和元数据以及存在于视频中的隐藏字幕文本，或者通过将音频转换为文本然后从文本提取实体来推导实体。对于文本文档(例如，web页面、电子邮件等)，可以使用词频分析、语义分析、自然语言处理或其它方法来确定实体。在视频数据存储114中维护将每个实体与识别实体的内容项的集合关联的索引。此外，对于每个内容项，维护与内容项关联的实体的列表。

视频搜索服务器108处理由前端服务器104从用户接收的任何搜索查询。由用户发送到前端服务器104的搜索查询包括搜索准则，例如可以识别用户有兴趣观看的视频的关键字。例如，搜索查询可能是文本串“Machu Picchu”。视频搜索服务器108可以使用该搜索准则来例如查询存储在视频数据存储114中的所有视频文件的元数据和/或与之关联的实体，或者查询实体数据存储118。查询的搜索结果被发送到前端服务器104，以使得可以向用户呈现搜索结果。

视频访问服务器112从前端服务器接收来自希望观看(或回放)特定视频的用户的请求。从用户的角度来看，用户可以通过浏览视频托管系统102的不同类别或者通过点击来自搜索结果网页的视频的链接来提交对视频的请求。用户所发送的请求可以包括用户希望观看的视频的识别号码(一旦用户点击了视频的链接，它可被自动地包括)。视频访问服务器112使用识别号码来搜索并定位视频存储在视频数据存储114中的位置。视频访问服务器112将所请求的视频提供给前端服务器104。

视频注释引擎110注释存储在视频数据存储114中的视频文件。对于视频文件，视频注释引擎110可以根据存储与在特征数据存储116和实体数据存储118中的视频文件关联的特征来注释每个视频文件。对于存储在视频数据存储114中的每个视频文件，视频注释引擎110利用存在于视频文件的每个视频帧中的实体来注释该帧。视频注释引擎110可以基于与视频帧关联的特征来确定视频帧中的实体存在概率。例如，视频注释引擎110确定受与视频帧(即，对于视频，在时间t)关联的一个或更多个特征影响的实体e的存在概率p(e)。确定在可能特征F的空间上定义的实体e的概率分布。即，视频注释引擎110可以确定存储在特征数据存储116中的特征与实体数据存储118中的实体之间的相关性。可以通过从与视频帧关联的特征中识别与实体相关的特征，基于每个相关特征确定实体存在概率，并且组合对所有相关特征确定的实体存在概率来确定视频帧中的实体存在概率。

视频注释引擎110可以基于存储在特征数据存储116中的特征的值来确定存储在实体数据存储118中的实体的存在概率。例如，概率p_f(e|x_f)表示响应于具有置信度得分x_f的特征f的视频帧处的实体存在概率。基于每个特征的实体存在概率被校准，使得通过各种特征确定的视频帧处的实体存在概率被归一化并且可被组合。这是因为，对于视频帧，被检测为与视频帧关联的不同特征可以对应于具有不同含义的不同值。对于实体e，视频注释引擎110可以识别与该实体相关的特征并且识别与该实体不相关的特征。当特征的检测指示实体的存在或不存在时，特征与实体相关。视频注释引擎110还可以评价实体与特征之间的相关性的强度。即，每个特征对于实体的存在的重要性由与特征关联的重要性权重来表示。对于实体e，可以针对被识别为与实体相关的每个特征确定分类器。

利用标记的实体和关联的概率，视频注释引擎110可以采取许多不同的动作。例如，视频注释引擎110可以识别视频内容项内与包含一个或更多个关键字的搜索查询最相关的视频帧，例如，将搜索结果中的那些帧示出为视频内容项的表示。视频注释引擎110还可以根据针对每个视频内容项的视频帧标记的实体存在概率，对响应于搜索查询检索到的视频内容项的集合进行排序。视频注释引擎110还可以使用标记的实体和关联的存在概率来识别视频内容项内与诸如视频的标题的描述视频内容项的信息相关的视频帧。

识别实体存在概率允许诸如媒体主机的视频的提供者基于所识别的实体和关联的存在概率来提供与用户的搜索查询最相关的视频内容项。该识别还允许媒体主机针对响应于搜索查询检索到的视频集合显示与搜索查询最相关的实体以及与搜索查询最相关的视频帧所关联的信息，因此向用户提供他们可用来评估视频与他们的搜索的相关性并识别他们希望观看的视频的附加信息。

应该理解，如本文所述，视频注释引擎110的数据处理操作固有地需要编程的计算机系统以用于其实际实现。为了使本说明书简化和清晰，由视频托管系统102接收和共享的内容将被称为视频、视频文件或视频项，但是应该理解，视频托管系统102可以接收和共享任何媒体类型的内容。该内容可以被称为媒体内容项、媒体项或项。因此，本文所描述的用于注释视频文件的视频注释引擎110的操作可被应用于任何类型的媒体内容项，而不仅是视频；其它合适类型的内容项包括音频文件(例如，音乐、播客、有声书等)、文档、多媒体呈现、商品和服务的数字购买等等。

视频注释

图2是示出根据一个实施例的视频注释引擎110的详细视图的高级框图。如图2所示，视频注释引擎110包括多个模块。本领域技术人员将认识到，其它实施例可以具有与这里所描述的模块不同的模块，并且功能可以按照不同的方式在模块之间分布。此外，归于视频注释引擎110的功能可以由多个引擎执行。如图所示，视频注释引擎110包括相关性数据存储202、机器学习引擎204、特征选择模块206和实体概率确定模块208。

机器学习引擎204测量实体(例如，“Machu Picchu”)与特征(例如，“Peru”、“Inca”或“Cusco”)之间的相关性，并将这样的关联存储在实体-特征相关性数据存储202中。机器学习引擎204可以使用半监督学习方法或难负(hard-negative)学习方法来确定实体与特征之间的相关性。难负学习下调导致实体的错误分类的特征的权重。

对于存储在实体数据存储118中的每个实体e，机器学习引擎204可以使用由特征选择模块206提供的训练数据(例如，包括被识别为与实体e相关的特征F的视频项)来确定分类器。分类器可以是基于特征的实体的线性融合模型。分类器可以测量特征与实体之间的相关性。对于每个实体e，机器学习引擎204确定每对实体e与相关特征的权重矩阵{w_ef}。权重矩阵{w_ef}包括由特征选择模块206选择的与实体e相关的每个特征F的权重向量w_e。权重向量w_e指示实体e与特征之间的相关性。存储在实体-特征相关性数据存储202中的实体-特征相关性和矩阵{w_ef}可以为实体概率确定模块208确定实体存在概率提供基础。向量w_e的值至少为零(即，w_e≥0)。

对于实体，给定与视频帧关联的特征集合，则融合模型可以输出至少为0的得分。得分越大，实体存在于该帧上的概率越大。对于实体e，机器学习模块可以应用线性聚合器模型以在给定水平的召回率(Recall)(R)下使概率的精确度(P)最大化。线性融合模型可以由权重向量w_e和阈值τ_e来限定。例如，对于第i样本和特征x(i)，有地面真值(ground truth)得分0≤g(i)≤1的N个训练样本。特征f的值给定x_f(i)。对给定权重向量w_e和阈值τ_e的召回率(R)和精确度(P)根据式(1)和(2)示出：

召回率(R)和精确度(P)二者均是介于零和一之间的数。机器学习引擎204可以在将召回率R维持在至少某个给定阈值水平(例如，70％)的同时使精确度P最大化。

机器学习引擎204还可以确定聚合校准函数q(e|y)。实体概率确定模块可以使用校准函数q(e|y)将融合得分映射到实体是视频帧的中心的概率。如果实体是视频的主要概念，则该实体是视频的中心。例如，对于Lady Gaga音乐会的视频，实体“Lady Gaga”和“音乐会”是中心，而实体“人群”不是中心。这允许将查询与视频帧匹配，因为与查询对应的实体的得分被解释为概率。

特征选择模块206向机器学习引擎204提供训练数据。特征选择模块206选择用于训练机器学习引擎204的特征，并且提供具有所选特征的视频项或视频帧作为训练数据。由于视频帧的所有可能特征的集合F可能相当大(例如，240000个特征)，所以使用针对视频识别的所有特征可能会使机器学习引擎204负担过重。对于实体e，特征选择模块206选择与实体e相关的特征F。针对帧识别的特征可具有不同的值x_f，因此使用其绝对值无法指示特征与实体有多么相关。特征选择模块206可以确定将特征的值校准到实体的概率的函数。特征选择模块206可以将存储在特征数据存储116中的所有特征校准到实体存在概率，并且基于所校准的实体存在概率来选择与实体相关的特征。此外，特征选择模块206识别在正相关与负相关之间提供最佳分离的特征。与实体正相关的特征指示响应于特征的检测可能存在实体。与实体负相关的特征指示响应于特征的检测不太可能存在实体。

帧可以与地面真值标记g(例如，中心概率)关联。中心概率是实体是视频帧的中心的概率。中心概率可以是介于0和1之间的数。在一些实施例中，被标记为中心的所有实体具有至少0.6的中心概率。特征选择模块206可以确定特征至实体校准器p_f(e|x_f)。该特征至实体校准器是将特征的值校准到实体存在概率的函数。在校准特征时，特征选择模块206可以使与每个特征关联的地面真值平滑。结果，特征可以在被校准后根据其得分进行排序。与实体不相关的特征将不被选择用于训练机器学习引擎204。在一个实施例中，

特征选择模块206使用保序回归(isotonic regression)来选择特征。保序回归是由m+1个线性段组成的分段线性增加函数。例如，{x_f(k)，g(k)，w(k)}_k＝1...N是按照特征x_f(k)的值排序的训练数据集合，g(k)是x_f(k)处的平均地面真值，w(k)是具有x_f(k)作为特征值的训练样本的数量。估计保序回归的函数类可以由根据式(3)和(4)的索引I和赋值O的集合定义，使得p_f(e|x_f(i_k))＝y(i_k)：

I＝{0＝i0＜i₁...＜i_m≤N} (3),

0＝y(i₀)≤y(i₁)≤...≤y(i_m)≤1 (4)。

特征选择模块206确定对于任何x使得x_f(ik)≤x≤x_f(i_k+1)，如式(5)所示，特征至实体校准器p_f(e|x)是线性内插的：

其中x和y是特征(例如，y是“大峡谷”，x是“峡谷”)。

特征选择模块206还确定对于x使得x≥x_f(i_m)，如式(6)所示，特征至实体校准器p_f(e|x)是线性内插的：

p_f(e|x)＝y(i_m) (6)。

特征选择模块206通过使如式(7)所示的以下目标函数最小化，使得来训练保序回归器：

当训练保序回归器时，特征选择模块206限定其目标，包括使最终函数尽可能地接近地面真值，并且使导数正规化并避免特征至实体校准器p_f(e|xf)的突然变化。在校准所有特征之后，可以根据由p_f(e|∞)给出的每个特征的特征至实体校准器p_f(e|xf)的最大值来对特征的重要性进行排序。

特征选择模块206选择特征，使得最大值pf(e|∞)至少为阈值(例如，0.05)。特征选择模块206根据决策函数来选择实体e的特征F_e的集合。即，对于实体e，根据特征选择模块206选择的特征F_e的集合中的任何特征的实体e的最大存在概率至少为τ。如上所述，特征选择模块206可以限制要选择的特征的数量，以避免使机器学习引擎204负担过重。

给定针对视频帧识别的特征x，实体概率确定模块208针对存储在实体数据存储118中的每个实体e确定实体e的存在概率。实体概率确定模块208根据基于所测量的实体e与特征x之间的相关性针对视频帧识别的特征x、权重向量矩阵{w_ef}和聚合校准函数q(e|y)，来确定实体e的存在概率。实体概率确定模块208可以根据式(8)确定在相关特征F的空间上限定的每个实体e的概率分布p_e(x)：

其中p_f(e|x_f)是将独立特征的值X_f校准到实体e的存在概率的函数，w_ef是特征f的权重向量，q_e是将融合得分校准到实体e的存在概率的函数。实体概率确定模块208可以利用存储在实体数据存储118中的实体和所确定的存在概率来对每个视频帧进行注释。

图3是示出根据一个实施例的利用实体存在概率来注释视频的过程的流程图。对于实体，该方法选择(302)与实体相关的特征以用于训练机器学习模型。与实体相关的特征是可以确定实体是否存在于视频帧内的那些特征。该方法识别导致实体的错误分类的特征并下调其权重。该方法可以确定特征至实体校准器，其是将特征的值校准到实体存在概率的函数。对于实体，该方法选择实体的最大概率至少为给定阈值的那些特征。对于实体，该方法选择具有至少一个所选特征的视频帧的视频项作为训练数据并为机器学习模型提供所述训练数据。

机器学习模型使用包括所选特征的训练数据来确定(304)实体的分类器。对于实体，分类器可以是基于权重向量矩阵和阈值的线性融合模型。机器学习模型评价每个所选特征与实体的相关性，并且将基于每个所选特征的实体的个体存在概率组合以确定融合得分。对于实体，机器学习模型可以通过在给定水平的召回率下使分类器的精确度最大化来选择分类器。

机器学习模型基于所选特征来确定(306)实体的聚合校准函数。聚合校准函数将融合得分校准到实体是视频帧的中心的概率。该方法接收(308)视频项以及与视频项的每个视频帧关联的特征。该方法使用特征至实体校准器、分类器和聚合校准函数，基于关联的特征来确定实体存在概率。该方法可以针对视频项的每个视频帧确定存储在实体数据存储118中的所有实体的存在概率。该方法利用实体以及所确定的实体的存在概率来标记(312)视频帧。该方法可以利用实体以及针对每个实体确定的概率来标记视频项的每个视频帧。

该方法还可以从用户接收搜索查询，并根据搜索查询确定并提供那些视频文件或视频帧。该方法可以通过查询实体的标记以及视频帧上的实体的存在概率来确定视频文件或视频帧。该方法可以识别视频内容项内与包含一个或更多个关键字的搜索查询最相关的视频帧，例如，将搜索结果中的那些帧示出为视频内容项的表示。该方法还可以根据针对每个视频内容项的视频帧标记的实体存在概率来对响应于搜索查询检索到的视频内容项的集合进行排序。该方法还可以使用标记的实体和关联的存在概率来识别视频内容项内与诸如视频的标题的描述视频内容项的信息相关的视频帧。

附加考虑

已关于各种实施例具体地详细描述了本发明，并且本领域技术人员将理解，本发明可以在其它实施例中实践。此外，本领域技术人员将理解本公开的以下方面。首先，组件的特定命名、术语的大小写、属性、数据结构或任何其它编程或结构方面不是强制性的或重要的，并且实现本发明或其特征的机制可以具有不同的名称、格式或协议。其次，系统可以如所描述的经由硬件和软件的组合来实现或者完全在硬件元件中实现。第三，本文所描述的各种系统组件之间的功能的特定划分仅仅是示例性的，而不是强制性的；由单个系统组件执行的功能可相反由多个组件来执行，并且由多个组件执行的功能可相反由单个组件来执行。

以上描述的一些部分在关于信息的操作的算法和符号表示方面描述了本发明。这些算法描述和表示由数据处理领域的技术人员使用以最有效地将其工作的实质传达给本领域技术人员。在功能上、计算上或逻辑上描述的这些操作被理解为通过计算机程序或等效的电路、微代码等实现。另外，在不失一般性的情况下，将这些操作安排称为模块有时也被证明是方便的。所描述的操作及其关联的模块可以在软件、固件或硬件中具体实现。

此外，用于描述各种量、数据值和计算的术语被理解为与适当的物理量关联，并且仅仅是应用于这些量的方便标记。除非另外明确地说明，否则从以下讨论显而易见，应当理解，贯穿说明书，使用诸如“处理”或“计算”或“确定”等的术语的讨论是指计算机系统或相似电子计算装置的动作和处理，其操纵和变换计算机系统存储器或寄存器或者其它此类信息存储、传输或显示装置内表示为物理(电子)量的数据。

本发明还涉及一种用于执行本文操作的设备。该设备可以为所需目的而特别构造，或者可以包括由存储在计算机中的计算机程序选择性地激活或重新配置的通用计算机。这样的计算机程序可被存储在计算机可读存储介质中，例如但不限于包括软盘、光盘、CD-ROM、磁光盘的任何类型的盘、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、磁卡或光卡、专用集成电路(ASIC)、或者适用于存储电子指令的任何类型的介质，并且每个耦合到计算机系统总线。另外，本说明书中所指的计算机可以包括单个处理器，或者可以是采用多处理器设计以提高计算能力的架构。

本文所呈现的算法和显示并不固有地与任何特定计算机或其它设备有关。各种通用系统也可以与根据本文教导的程序一起使用，或者可以证明构造更专用的设备来执行所需的方法步骤是方便的。各种这些系统所需的结构将从上面的描述出现。此外，本发明没有参考任何特定编程语言来描述。应当理解，可以使用各种编程语言来实现如本文所描述的本发明的教导，并且对特定语言的任何引用被提供用于公开本发明的实现和最佳模式。

本发明非常适合于众多拓扑的各种计算机网络系统。在该领域内，大型网络的配置和管理包括经由诸如互联网的网络在通信上耦合到不同的计算机和存储装置的存储装置和计算机。

最后，应该注意，本说明书中所使用的语言主要是为了可读性和教导目的而选择，并且可能不是被选择来界定或限定本发明的主题。因此，本发明的公开旨在是例示性的，而非限制所附权利要求书中所阐述的本发明的范围。

Claims

1.一种利用实体以及所述实体在视频帧内的关联的存在概率来注释视频的计算机实现的方法，所述方法包括：

从识别视频项的特性的多个实体中识别实体；

基于多个特征中的特征的值来选择与所述实体相关的特征集合；

使用所述特征集合来确定所述实体的分类器；

基于所述特征集合来确定所述实体的聚合校准函数；

从视频项选择视频帧，所述视频帧具有关联的特征；以及

使用所述分类器和所述聚合校准函数基于所述关联的特征来确定所述实体的存在概率。

2.根据权利要求1所述的方法，还包括利用所述实体和所述实体的所述存在概率来标记所述视频帧。

3.根据权利要求1所述的方法，其中，选择与所述实体相关的特征集合的步骤包括：确定将所述多个特征中的特征的值校准到所述实体的个体存在概率的校准函数。

4.根据权利要求3所述的方法，其中，选择与所述实体相关的特征集合的步骤包括：基于多个特征中的每个特征的值来确定所述实体的个体存在概率，并且针对所述多个特征的所述实体的所述个体存在概率被归一化。

5.根据权利要求4所述的方法，其中，选择与所述实体相关的特征集合的步骤还包括：选择所述特征集合，使得与每个所选特征对应的所述实体的最大个体存在概率至少为给定阈值。

6.根据权利要求1所述的方法，其中，所述分类器是基于所述特征集合的所述实体的线性融合模型，并且其中，确定所述实体的分类器的步骤包括：确定所述特征集合中的每个特征的权重向量。

7.根据权利要求6所述的方法，其中，确定所述实体的分类器的步骤包括：使线性融合模型的精确度最大化并将召回率维持在至少给定阈值。

8.根据权利要求3所述的方法，其中，基于所述关联的特征来确定所述实体的存在概率的步骤包括：

使用所述校准函数，以基于与所述实体关联的每个特征来确定所述实体的个体存在概率；

通过使用所述分类器基于所述关联的特征将所述实体的所述个体存在概率组合，以确定融合得分；以及

使用所述聚合校准函数将所述融合得分校准到所述实体的所述存在概率。

9.根据权利要求1所述的方法，其中，所述分类器和聚合校准函数由机器学习模型确定，所述方法还包括：选择包括视频项的集合的训练数据，每个视频项至少具有所述特征集合中的特征，并将所述训练数据提供给所述机器学习模型。

10.根据权利要求1所述的方法，还包括基于所述视频帧的所述关联的特征来确定所述多个实体中的每个实体的存在概率。

11.根据权利要求10所述的方法，还包括：基于所述视频项的每个视频帧的所述关联的特征集合来确定所述多个实体中的每个实体的所述存在概率。

12.根据权利要求1所述的方法，还包括：

从用户接收搜索查询；以及

响应于确定所述搜索查询与所述实体匹配，将包括所述视频帧的所述视频项提供给所述用户。

13.一种系统，包括：

处理器，所述处理器用于执行计算机程序指令；以及

非暂时性计算机可读存储介质，所述非暂时性计算机可读存储介质包括可由所述处理器执行的计算机程序指令，所述计算机程序指令包括：

用于从识别视频项的特性的多个实体中识别实体的指令；

用于基于多个特征中的特征的值来选择与所述实体相关的特征集合的指令；

用于使用所述特征集合来确定所述实体的分类器的指令；

用于基于所述特征集合来确定所述实体的聚合校准函数的指令；

用于从视频项选择视频帧的指令，所述视频帧具有关联的特征；以及

用于使用所述分类器和所述聚合校准函数基于所述关联的特征来确定所述实体的存在概率的指令。

14.根据权利要求13所述的系统，其中，所述计算机程序指令还包括：用于利用所述实体和所述实体的所述存在概率来标记所述视频帧的指令。

15.根据权利要求13所述的系统，其中，用于选择与所述实体相关的特征集合的所述计算机程序指令包括：用于确定将所述多个特征中的特征的值校准到所述实体的个体存在概率的校准函数的指令。

16.根据权利要求15所述的系统，其中，用于选择与所述实体相关的特征集合的所述计算机指令包括：基于多个特征中的每个特征的值来确定所述实体的个体存在概率，并且针对所述多个特征的所述实体的所述个体存在概率被归一化。

17.根据权利要求13所述的系统，其中，所述分类器是基于所述特征集合的所述实体的线性融合模型，并且其中，用于确定所述实体的分类器的所述计算机指令包括：确定所述特征集合中的每个特征的权重向量。

18.根据权利要求13所述的系统，其中，所述计算机程序指令还包括：用于基于所述视频帧的所述关联的特征来确定所述多个实体中的每个实体的存在概率的指令。

19.根据权利要求13所述的系统，其中，所述计算机程序指令还包括：

用于从用户接收搜索查询的指令；以及

用于响应于确定所述搜索查询与所述实体匹配，将包括所述视频帧的所述视频项提供给所述用户的指令。

20.一种非暂时性计算机可读存储介质，包括可由处理器执行的计算机程序指令，所述计算机程序指令包括：

用于从识别视频项的特性的多个实体中识别实体的指令；

用于使用所述特征集合来确定所述实体的分类器的指令；