CN107870959B - 响应于视频搜索查询提供相关视频场景 - Google Patents

响应于视频搜索查询提供相关视频场景 Download PDF

Info

Publication number
CN107870959B
CN107870959B CN201710417832.7A CN201710417832A CN107870959B CN 107870959 B CN107870959 B CN 107870959B CN 201710417832 A CN201710417832 A CN 201710417832A CN 107870959 B CN107870959 B CN 107870959B
Authority
CN
China
Prior art keywords
preview image
media
key frame
confidence value
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710417832.7A
Other languages
English (en)
Other versions
CN107870959A (zh
Inventor
S·索尼
A·达加尔
A·德哈万
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Adobe Inc
Original Assignee
Adobe Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Adobe Systems Inc filed Critical Adobe Systems Inc
Priority to CN202310853571.9A priority Critical patent/CN116881501A/zh
Publication of CN107870959A publication Critical patent/CN107870959A/zh
Application granted granted Critical
Publication of CN107870959B publication Critical patent/CN107870959B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content

Abstract

本公开涉及用于响应于视频搜索查询而提供相关视频场景的方法和系统。系统和方法标识媒体对象的多个关键帧并检测多个关键帧中所表示的一个或多个内容特征。基于一个或多个所检测出的内容特征,系统和方法将指示所检测出的内容特征的标记与媒体对象的多个关键帧相关联。响应于接收到包括搜索项的搜索查询,系统和方法比较搜索项与所选择的关键帧的标记,标识描绘了与搜索项有关的至少一个内容特征的所选择的关键帧,并提供描绘了该至少一个内容特征的媒体项的预览图像。

Description

响应于视频搜索查询提供相关视频场景
背景技术
通信技术的发展已导致媒体托管技术的显著进步,特别是已导致用户能够自由地向媒体托管系统上传内容、在媒体托管系统上搜索媒体内容以及从媒体托管系统下载内容的出现。为了说明,用户可以使用搜索引擎来搜索由媒体托管系统所托管的视频。基于搜索查询,许多常规媒体托管系统搜索视频标题或与视频相关联的类别,以标识一个或多个搜索结果。响应于处理用户的搜索,媒体托管系统可以返回用户可能将感兴趣的搜索结果列表(例如,视频标题列表)(即,指向所标识的视频的视频标题的链接)。因此,用户可以选择结果(例如,选择链接)以访问视频。
尽管媒体托管技术的进步,但常规媒体托管系统存在多种问题。许多常规媒体托管系统的一个问题是,当用户搜索与特定内容(例如,视频内的主题)有关的媒体对象(例如,视频)时,常规媒体托管系统返回的结果经常不指示在可能与用户的搜索相关的特定结果内的内容。例如,如上文所讨论的,返回视频标题列表经常未指示关于视频内的特定内容的很多信息。
此外,一些常规媒体托管系统响应于搜索而返回表示所标识的视频的图像,但是该图像几乎总是与用户涉及特定内容的搜索不相关。例如,许多常规媒体托管系统从视频中分配一个帧图像来表示该视频。例如,一些常规媒体托管系统分配视频的第一帧(例如,以缩略图的形式)来表示视频的内容,而其他常规媒体托管系统允许用户手动地选择视频的帧。作为结果,所选择的帧图像很少示出或指示与由用户发起的搜索查询有关的特定内容特征。
因此,常规媒体托管系统经常返回与用户的搜索似乎不相关的结果,因为帧图像不允许用户容易地辨别视频是否与搜索查询有关。有鉴于此,常规媒体托管系统经常导致用户略过(例如,不选择、考虑或查看)与其搜索查询有关的视频,因为预览图像与用户的搜索查询似乎不相关。因此,大部分常规媒体托管系统提供低效耗时的搜索过程。例如,由于常规媒体托管系统的上述问题,用户经常不得不花费大量时间来执行多个搜索并查看大部分的结果视频,以便最终找到具有用户所寻求的内容的视频。
因此,这些及其他缺点相对于常规媒体托管系统而存在。
发明内容
下文所描述的各种实施例,利用用于响应于搜索查询而标识并向用户提供视频内容的相关预览图像的系统和方法,提供益处和/或解决本领域中的前述或其他问题中的一个或多个。例如,本文所公开的系统和方法标识针对包括特定内容特征(例如,在视频帧内所描绘的项)的媒体对象(例如,视频)的潜在预览图像(例如,视频场景、海报帧等)。基于接收到的搜索查询,系统和方法从潜在预览图像选择与该搜索查询最相关的特定预览图像。此外,系统和方法将所选择的预览图像提供给用户(即,经由客户端设备至用户),使得用户可以容易地查看与搜索查询相关的媒体对象的最相关部分的图像。
在一个或多个实施例中,系统和方法进一步确定指示视频内容的特定关键帧包括特定内容特征(例如,对狗的描绘)的概率的置信度值。基于确定针对在每个关键帧内的每个标识的内容特征的置信度值,系统和方法可以标识哪一关键帧最有可能包括特定内容特征。因此,系统和方法可以基于所确定的置信度值来排序、标识、或者以其他方式组织与特定内容特征对应的(一个或多个)关键帧。如此,基于针对在关键帧内的内容特征所确定的置信度值,系统和方法可以选择与搜索查询最相关的关键帧用作视频内容的预览图像。例如,在接收到针对“狗”的搜索查询之后,系统和方法可以标识描绘狗的特定关键帧,并提供关键帧的图像作为响应于搜索查询的预览图像。
此外,如上文简要陈述的,系统和方法生成潜在预览图像集,这些潜在预览图像可能潜在地被用作预览图像以表示在视频内容内找到的特定内容特征。例如,潜在预览图像集基于关键帧的图像(例如,关键帧的缩略图)。此外,系统和方法生成并向每个潜在预览图像分配指示每个潜在预览图像中所描绘的内容特征的标记。基于接收到搜索查询,系统和方法可以搜索潜在预览图像的标记,以确定与搜索查询有关的媒体对象,另外可以搜索标记以从潜在预览图像集标识出与搜索查询最接近一致的预览图像。因此,因为系统和方法提供与搜索请求有关的媒体对象的(一个或多个)相关部分作为预览图像,用户可以容易高效地标识用户感兴趣的视频内容,而不需要用户手动地查看视频以定位相关内容。
实施例的附加特征和优点将在以下的描述中陈述,并且部分地通过描述将是显而易见的,或者可以通过实践这样的示例实施例来了解。这样的实施例的特征和优点可以借助于在所附权利要求中特别地指出的手段及组合来实现和获取。这些及其他特征将通过以下描述和所附权利要求而变得完全明显,或者可以通过实践如下文所陈述的这样的示例实施例来了解。
附图说明
将通过使用随附的附图来更加具体和详细地描述和说明各种实施例,其中:
图1图示了根据一个或多个实施例的通信系统的示意图;
图2A-图2C图示了根据一个或多个实施例响应于搜索查询而分析媒体对象以标识并提供该媒体对象的相关预览图像的序列-流程图;
图3图示了根据一个或多个实施例的媒体对象数据库的示例数据表格;
图4图示了根据一个或多个实施例的媒体对象数据库的另一示例数据表格;
图5示出了根据一个或多个实施例的媒体系统的示意性表示;
图6示出了根据一个或多个实施例的用于响应于搜索查询而提供相关预览图像的示例方法的流程图;
图7示出了根据一个或多个实施例的用于响应于搜索查询而提供相关预览图像的另一示例方法的流程图;
图8图示了根据一个或多个实施例的示例计算设备的框图。
具体实施方式
下文所述实施例提供了用于标识和提供针对媒体对象(例如,例如,视频内容)的预览图像(例如,海报帧)的媒体系统,预览图像与接收自该媒体系统的用户的搜索查询相关。在一个或多个实施例中,媒体系统标识来自视频内容的一组关键帧中所描绘的内容特征(例如,物体、活动、情绪、动物、风景、地点、颜色)。另外,基于所标识的内容特征,媒体系统选择一个或多个关键帧来生成潜在预览图像集(例如,潜在海报帧),其可以作为响应于搜索查询的搜索结果被用来表示视频内容。此外,在一个或多个实施例中,在接收到搜索查询之后,媒体系统标识与该搜索查询有关的特定视频,另外,媒体系统从针对特定视频的潜在预览图像集中选择与该搜索查询最接近一致的预览图像。
因此,响应于针对视频内容的搜索查询,媒体系统标识并提供针对视频内容的搜索查询具体预览图像,其指示与搜索查询有关的具体内容特征。例如,特定的数字视频可以具有包括两个不同内容特征的两个视频部分。媒体系统可以确定第一内容特征与第一搜索查询有关,并且因此,响应于第一搜索查询而提供从第一视频部分的关键帧提取的第一预览图像。此外,媒体系统可以确定第二内容特征与第二搜索查询有关,并且因此,提供从第二视频部分的关键帧提取的第二预览图像。换言之,媒体系统可以为视频内容的单个实例提供不同的、定制的预览图像,以提供与给定的搜索查询有关的预览图像。
在一个或多个实施例中,如上文所简要陈述的,媒体系统基于从视频内容所选择的关键帧而生成潜在预览图像集(例如,缩略图),并将每个潜在预览图像与指示每个所选择的关键帧中所标识的(一个或多个)内容特征的标记相关联。因此,基于接收到搜索查询,媒体系统使用与每个媒体对象相关联(例如,与媒体对象的潜在预览图像相关联)的标记来标识媒体对象,另外,来标识针对与搜索查询有关的媒体对象的关键帧和/或预览图像。
如上文所指出的,媒体系统标识媒体对象内的视频内容的关键帧。例如,媒体系统可以利用基于内容及非基于内容方法来标识视频内容的关键帧(例如,场景检测分析)。另外,如上文还提到的,在标识出关键帧之后,媒体系统采用内容特征识别技术来标识关键帧内的内容特征。例如,在一个或多个实施例中,媒体系统使用机器学习技术来训练神经网络模型,其可以准确地标识每个关键帧内所描绘的内容特征。
此外,在检测出每个所标识的关键帧的内容特征之后,媒体系统可以确定用于关键帧中的每个所检测出的内容特征的置信度值。在一个或多个实施例中,使用置信度值,媒体系统过滤或丢弃一个或多个关键帧,以产生最有可能实际包括任何所标识的内容特征的关键帧集。特别地,媒体系统可以基于分配给所标识的关键帧的内容特征的置信度值来选择关键帧。换言之,媒体系统可以选择关于内容特征具有最高置信度值的关键帧,以用作潜在预览图像。
在一个或多个实施例中,基于所确定的置信度值,针对媒体对象的每个检测出的内容特征,媒体系统选择单个关键帧被包括作为媒体对象的潜在预览图像。换言之,在特定内容特征在两个关键帧中被识别的情况下,媒体系统选择具有最高置信度值的关键帧,以针对特定内容特征来表示媒体对象。在其他实施例中,只要与相应关键帧相关联的置信度值大于限定的置信度值阈值,媒体系统可以生成与单个搜索查询有关的多个预览图像。例如,基于接收到查询,媒体系统可以选择两个预览图像来表示单个媒体对象(例如,系统可以提供两个预览图像作为两个分离结果,或备选地,如下文进一步讨论的,可以提供包括两个预览图像组合的单个结果)。
因此,如下文将进一步详细说明的,在一个或多个实施例中,媒体系统接收搜索查询,并响应于该搜索查询可以查询与媒体对象相关联的标记,以标识与该搜索查询相关的媒体对象的关键帧和/或预览图像。例如,媒体系统可以比较搜索查询的项与分配给媒体对象的标记,以标识与查询的搜索项相关的(一个或多个)预览图像。在选择媒体对象的相关预览图像之后,媒体系统可以在系统用于向用户的客户端设备显示而提供的结果集内提供媒体对象的该预览图像。
因此,本文所描述的媒体系统的各种实施例提供了优于常规媒体托管系统的优点。例如,与常规媒体托管系统不同,媒体系统可以基于与搜索查询相关的视频内容内的视频场景来提供用于视频内容搜索结果的预览图像。特别地,替代仅仅提供视频的第一帧(例如,按照常规方法),媒体系统可以提供表示描绘了与搜索查询特别有关的内容特征的媒体对象的预览图像。此外,与常规媒体托管系统不同,媒体系统可以提供针对单个媒体对象的包括与搜索查询有关的内容特征的多个预览图像,以指示媒体对象内与搜索查询有关的内容特征的各种示例。
因此,基于媒体系统基于具体搜索查询提供定制选择的预览图像,用户可以容易地辨别用户是否对媒体对象感兴趣,而不需要手动地查看整个视频以在视频搜索结果内尝试并定位相关内容。这提供了优于常规媒体系统的显著优点,常规媒体系统经常提供随机的、并且因此不相关的帧样本。因此,作为媒体系统响应于搜索查询而提供视频内容的相关预览图像的结果,用户具有与常规媒体系统相比更愉快、更高效且不那么沮丧的体验。特别地,接收到响应于搜索查询的相关预览图像可以节省用户找到用户所感兴趣的内容的时间和精力。
媒体系统的各种实施例还向媒体对象的作者提供了优点。例如,本公开的媒体系统消除了作者手动地选择该作者的媒体对象的帧来表示该媒体对象的任何需要,这节省了作者的时间和精力。此外,作者可以放心的是,当用户提供与作者的媒体对象中所包括的内容特征有关的搜索时,媒体系统将提供描绘了用户可能最感兴趣的媒体对象内的内容特征的相关预览图像。作为结果,用户可能最有可能下载和购买该作者的媒体对象。
此外,本文所描述的媒体系统提供了计算机系统的性能的改进。例如,因为媒体系统提供媒体对象的相关预览图像,媒体系统可以导致搜索查询的更快处理。此外,因为媒体系统提供响应于搜索查询的相关预览图像,媒体系统可以优化接收自用户的搜索的数目,因为用户可以更容易地确定其搜索是否产生了与用户兴趣相关的媒体对象。此外,媒体系统导致用户最终认为与用户兴趣不相关的视频内容的更少的下载,从而导致计算机系统的更少的数据传输和更少的数据带宽使用。换言之,媒体系统导致与常规媒体托管系统相比更少的所要求的处理功率和通信带宽。此外,因为预览图像可以在搜索查询之前(例如,预期到搜索查询)被生成,本公开的媒体系统可以导致与常规媒体系统相比更快的搜索查询处理。
如本文所使用的,术语“媒体对象”指代包括至少一些视频内容的数字媒体数据。例如,媒体对象可以包括数字视频。另外,媒体对象可以既包括数字视频又包括其他类型的数字媒体(例如,数字照片、数字音频、幻灯片演示、文本和/或任何其他类型的数字媒体数据)。
另外,如本文所使用的,术语“数字视频”、“视频内容”或简单地“视频”指代包括一个或多个视觉图像的表示的编码的数字数据。例如,视频内容可以包括一个或多个帧(例如,数字图像),正如通常情况,视频内容还包括伴随视觉图像的音频数据。
如本文所使用的,术语“内容特征”指代视频内容的一个或多个帧中所包括和/或所描绘的数字元素。例如,数字元素可以包括但不限于:物体(例如,自行车、汽车、树)、人、活动(例如,跑步、跳伞、徒步)、图像类型(例如,微距、肖像、全景)、情绪(例如,微笑、哭泣)、动物(例如,狗、猫)、风景(例如,沙滩、森林、山岳)、地理位置、结构(例如,房屋、桥梁)、颜色、和/或视频内容内所描绘的任何其他项或元素。
图1图示了根据一个或多个实施例的示例通信系统100的示意图,媒体系统在示例通信系统100中操作。如所图示的,通信系统100包括客户端设备102、媒体托管服务器设备104以及网络106。客户端设备102和媒体托管服务器设备104可以经由网络106通信。网络106可以包括诸如因特网的一个或多个网络,并且可以使用适用于传输数据和/或通信信号的一个或多个通信平台或技术。虽然图1图示了客户端设备102、媒体托管服务器设备104及网络106的特定布置,但是各种附加的布置是可以的。例如,媒体托管服务器设备104可以绕过网络106直接与客户端设备102通信。
如图1中所图示的,用户110与客户端设备102对接,例如,以访问存储在媒体托管服务器设备104上的媒体对象。用户110可以是个人(即,人类用户)、企业、群组或任何其他实体。另外,用户110可以是经由客户端设备102将媒体对象上传至媒体托管服务器设备104的媒体对象作者。另外,或备选地,用户110可以是针对各种目的而搜索及下载媒体对象的媒体对象消费者。虽然图1仅图示了与客户端设备102相关联的一个用户110,通信系统100可以包括任何数目的多个用户,其各自使用对应的客户端设备与通信系统100交互。
另外,以及如图1中所示出的,客户端设备102可以包括搜索引擎112。特别地,客户端设备102可以包括用于向媒体托管服务器设备104提供搜索查询以定位存储在媒体托管服务器设备104上的用户110感兴趣的媒体对象的搜索引擎112。在附加的实施例中,搜索引擎112可以位于由客户端设备102经由网络106访问的第三方设备(例如,分离的服务器)上。不管怎样,响应于搜索查询,媒体托管服务器设备104可以将媒体对象搜索结果(例如,与搜索查询有关的视频内容)传送至客户端设备102。特别地,媒体托管服务器设备104可以将搜索结果列表经由网络106提供给客户端设备102,搜索结果列表包括与搜索查询有关的媒体对象的链接。
客户端设备102和媒体托管服务器设备104两者都可以表示用户及媒体托管管理员可以与之交互的各种类型的计算设备。例如,客户端设备102和/或媒体托管服务器设备104可以是移动设备(例如,蜂窝电话、智能电话、PDA、平板、膝上型计算机、手表、可穿戴设备等)。然而,在一些实施例中,客户端设备102和/或媒体托管服务器设备104可以是非移动设备(例如,台式机或服务器)。关于客户端设备102和媒体托管服务器设备104的附加细节在下文相对于图8进行了讨论。
如图1中所示出的,媒体托管服务器设备104包括媒体系统108。如下文关于图2A-图5所进一步详细描述的,媒体系统109,与媒体托管服务器设备104相组合,标识在视频内容的帧内所描绘的内容特征,并且作为结果,可以生成表示视频内容的预览图像作为搜索结果。特别地,预览图像被生成及被提供为包括与搜索查询对应的内容特征(例如,响应于接收到包括项“狗”的搜索查询,媒体系统生成并提供来自在包括狗的视频内容内的视频帧的预览图像)。
图2A-图2C经由各种序列-流程图图示了媒体系统108的示例实施例。例如,图2A-图2C图示了序列-流程的一个或多个实施例,媒体系统108使用该序列-流程来标识媒体对象中所包括的内容特征、基于所标识的内容特征生成针对媒体对象的潜在预览图像以及选择具有与搜索查询有关的内容特征的预览图像。特别地,图2A-图2C中示出的媒体托管服务器设备104可以是关于图1所描述的媒体托管服务器设备104的示例实施例,以及图2C中示出的客户端设备102可以是关于图1所描述的客户端设备102的示例实施例。
如图2A中所示出的,如步骤202所示,媒体托管服务器设备104可以(例如,从客户端设备)接收媒体对象。特别地,媒体托管服务器设备104可以接收媒体对象并将媒体对象存储在媒体对象数据库中。在一些实施例中,客户端设备(例如,客户端设备102)将媒体对象提供给媒体托管服务器设备104。例如,客户端设备102可以经由网络106将媒体对象上传到媒体托管服务器设备104。换句话说,客户端设备102的用户110可以与客户端设备102交互,使得客户端设备102将媒体对象提供给媒体托管服务器设备104。备选地,在一个或多个实施例中,媒体对象已经被存储在媒体托管服务器设备104上。换言之,媒体对象可能已经存在于媒体托管服务器设备104上,并且因此,接收媒体对象的步骤202可能并不出现在每个实施例中。
如图2A的步骤204所示,响应于接收媒体对象,在一个或多个实施例中,媒体系统108确定媒体对象中所包括的视频内容的一个或多个规格。例如,媒体系统108检测视频内容的类型(例如,.mp4、.avi、.mov、.flv等)、视频内容的帧速率、视频内容的帧的总数目和/或视频内容的视频质量(例如,分辨率)中的一项或多项。取决于特定的实施例,媒体系统108确定视频内容的其他规格。
另外,如图2A的步骤206所示,在标识媒体对象内的视频内容的关键帧的过程中,媒体系统108可以使用视频内容的一个或多个规格。如本文所使用的,术语“关键帧”及任何派生术语指代媒体对象的视频内容的帧,其代表视频内容的一部分(例如,多个依次的帧)。例如,视频内容的一部分可以与视频内容内的场景有关,并且可以包括相对地描绘相同内容特征的限定数目的帧。因此,关键帧将是包括表示包括该场景的视频的一部分的内容特征的单个帧。因此,与使用视频内容内的所有帧相比,视频内容的关键帧的集合可以提供对媒体对象的视频内容的紧凑概要。
媒体系统108可以使用各种方法中的任何一种来标识视频内容的关键帧。例如,媒体系统108可以利用非基于内容方法、基于内容方法或它们的组合,以确定(例如,标识)视频内容的关键帧。每个前述方法将在下文详细描述。
如上文所指出的,媒体系统108可以使用用于标识视频内容的关键帧的非基于内容方法。例如,当利用非基于内容方法来标识视频内容的关键帧时,媒体系统108可以使用视频内容的多个帧中的每个帧的空间分割来检测视频内容的限定部分(例如,帧的集群)。视频内容的限定部分可以基于从一帧到下一依次帧或从一个帧集群(例如,连续帧的序列)到下一个帧集群的图像的改变来检测。基于检测出视频内容的限定部分,媒体系统108可以将视频内容的每个限定部分内的一个或多个帧标识为关键帧(例如,表示视频内容的限定部分的帧)。
另外,在一个或多个实施例中,媒体系统108可以以视频内容的预定定义的间隔来标识关键帧(例如,选择关键帧)。例如,媒体系统108可以针对视频内容的每个给定的时间间隔(例如,3秒)将视频内容的帧标识为关键帧。在附加的实施例中,媒体系统108可以针对视频内容的每个给定数目的帧(例如,每30帧)将视频内容的帧标识为关键帧。换言之,针对视频内容的每个给定数目的连续帧,媒体系统108选择这些帧中的一个作为关键帧。
除了非基于内容方法之外,以及如上文简要提到的,媒体系统108的一个或多个实施例可以使用基于内容方法来标识视频内容的关键帧。例如,媒体系统108使用机器学习来确定视频内容的帧中所包括(例如,所描绘)的内容特征(例如,物体、活动、颜色等)。此外,基于帧的内容特征,媒体系统108可以将媒体对象的帧分成同构的集群(例如,帧集群共享至少实质上相同的内容特征)。因此,媒体系统108可以从每个同构的帧集群中选择至少一个关键帧作为关键帧。
媒体内容系统108可以基于每个帧的一个或多个特性来确定要包括在特定的帧集群中的帧。例如,媒体系统108可以基于帧是否共享一个或多个内容特征(例如,每个帧内所描绘的项)来确定使一个或多个帧形成集群。另外,媒体系统108可以通过以下方式来标识媒体对象的关键帧:比较不相邻的帧,使用帧间熵、直方图相似度或小波,选择具有最大的对象对背景比例(当与视频内容的其他帧比较时)的帧,和/或它们的任何组合。
另外,在一个或多个实施例中,媒体系统108可以仅对视频内容内的帧的子集(例如,与所有帧相反)执行关键帧分析。例如,取决于媒体对象内的视频内容的一个或多个规格,媒体系统108可以确定对每个第四帧执行关键帧分析。例如,基于确定视频内容具有低的帧速率,媒体系统108可以对较高百分比的视频帧执行关键帧分析,另一方面,基于确定视频内容具有高的帧速率,媒体系统108可以对较低百分比的视频帧执行关键帧分析。
基于标识出媒体对象的关键帧,媒体系统108生成并在媒体托管服务器设备104的媒体对象数据库内存储数据包,该数据包包括与媒体对象相关联的关键帧的编译(例如,集合)。例如,媒体系统108可以在媒体托管服务器设备104的媒体对象数据库内(例如,在存储在媒体对象数据库中的表格内)将关键帧标识号(“关键帧ID编号”)(例如,1、2、3、4、5等)分配给的媒体对象的每个帧。此外,媒体系统108可以在媒体对象数据库内,存储通过相应的关键帧ID编号来表示媒体对象的关键帧的序列(例如,列表)的数据。此外,媒体系统108在媒体对象数据库内存储表示时间戳(例如,时间戳指示关键帧相对于视频内容的其他帧的位置)的数据。同样地,媒体系统108使时间戳与相应的关键帧相互关联。以下关于图3-图5对媒体对象数据库进行更详细讨论。
除针对特定的媒体对象标识视频内容的关键帧之外,图2A图示了媒体系统108检测关键帧中所包括的和/或所描绘的内容特征,如图2A的步骤208所示的。在一些实施例中,媒体系统108可以在标识媒体对象的关键帧的同时(例如,与之相结合),检测关键帧的内容特征。备选地,在媒体系统108标识媒体对象的关键帧之后,媒体系统108可以检测关键帧中所描绘的内容特征。特别地,媒体系统108在媒体对象内检测视频内容的关键帧中所描绘的物体、活动(例如,跑步、跳伞、徒步)、照片类型(例如,微距、肖像等)、情绪(例如,微笑、哭泣等)、动物、风景(例如,沙滩、森林、山岳)、位置、颜色等。
在一个或多个实施例中,媒体系统108通过利用媒体系统108的内容特征识别技术(例如,对象识别技术)分析关键帧来检测关键帧的内容特征。例如,内容特征识别技术可以使用机器学习(例如,深度学习)来识别(例如,检测)关键帧中所描绘的内容特征。更特别地,内容特征识别技术可以使用机器学习算法来检测和标识媒体对象的关键帧中所表示的内容特征。
取决于特定的实施例,例如,媒体系统108可以使用各种机器学习技术来检测在关键帧内的内容特征。例如,媒体系统108可以使用神经网络来分析关键帧,以检测在该关键帧内的内容特征。特别地,在一个或多个实施例中,媒体系统108是基于区域的卷积神经网络(即,RCNN)或快速基于区域的神经网络(即,F-RCNN)。取决于特定的实施例,媒体系统108可以使用其他形式的内容特征检测。虽然媒体系统108在本文中特别地被描述为使用机器学习以用于检测关键帧内所描绘的内容特征,媒体系统108可以使用能够检测和标识在视频的帧内的内容特征的任何内容特征识别技术。
另外,除在媒体对象内检测和标识视频内容的帧内的内容特征之外,媒体系统108可以确定内容特征的特性。例如,媒体系统108可以确定由一个或多个内容特征所占据的关键帧的空间百分比(例如,内容特征对背景的比例)。此外,媒体系统108可以确定与特定内容特征相关联的取向。例如,在内容特征包括人的情况下,媒体系统108可以确定该人是否取向为面向前、面向侧边、面向后等。此外,媒体系统108可以确定内容特征在关键帧内的相对位置。例如,媒体系统108可以确定内容特征在关键帧内是否居中。
除检测和标识在关键帧内的内容特征的特性之外,并且基于检测和标识在关键帧内的内容特征的特性,媒体系统108可以针对关键帧内所描绘的内容特征标识名称、类型或类别。例如,基于已训练的机器学习模型,媒体系统108可以标识关键帧内所检测出的内容特征为巴比·鲁斯(例如,名称)、人(例如,类型)和/或男人(例如,类别)。另外,在一个或多个实施例中,媒体系统108可以进一步将特性与所标识的内容特征相关联。例如,媒体系统108可以将取向、帧内的位置和/或其他特性与所标识的内容特征相关联。例如,[巴比·鲁斯,面向前,居中]、[人,面向前,居中]和/或[男人,面向前,居中]指示与内容项的一个或多个特性相组合的名称、类型和/或类别。如下文参考步骤210将进一步详细讨论的,媒体系统108将针对内容特征的标识和特性数据与包括该内容特征的关键帧相关联。
除标识在视频内容的关键帧内的内容特征之外,如图2A的步骤209中所图示的,媒体系统108还可以确定针对每个所标识的内容特征的置信度值。如本文所使用的,“置信度值”表示媒体系统所标识的关键帧内的内容特征实际上是该内容特征的概率。例如,媒体系统108可以分配媒体系统108对特定内容特征在关键帧中被包括和/或被描绘的确信程度的百分比数值。另外,各种因素可以影响置信度值,诸如,图像质量、关键帧内所包括的内容特征的部分(例如,人头部的一半对比头部的全部)、内容特征与背景之间的对比度、一个内容特征与另一不同内容特征的特性的相似度(例如,玩具汽车对比实际汽车)和/或其他因素。
在一个或多个实施例中,上文所述的机器学习模型提供置信度值作为输出。例如,基于已训练的卷积神经网络模型,模型可以基于内容特征与已训练的内容特征的一个或多个训练示例一致的程度来预测针对特定内容特征的置信度值。例如,卷积神经网络模型可以使用狗图像的大量训练集而被训练为识别狗。因此,本质上,卷积神经网络模型可以将关键帧内所标识的内容特征的特性与训练集中的一个或多个狗图像的特性做比较,以计算关键帧中所标识的狗实际上是狗的概率。
在一些实施例中,如果与关键帧中的特定内容特征相关联的置信度值小于所限定的阈值置信度值(例如,小于30%),那么媒体系统108可以决定不标识该内容特征。换言之,基于置信度值小于阈值,媒体系统108确定该内容特征准确的概率不足以被用在预览图像中以表示特定内容特征。媒体系统108可以将阈值置信度值限定在或小于任何概率值,例如,在或小于10%、20%、30%、40%等。
除标识关键帧、标识关键帧中所描绘的内容特征以及确定与所检测出的内容特征相关联的置信度值之外,如图2A的步骤210所示,媒体系统108将所检测出的内容特征及其相应的置信度值与所标识的关键帧相关联。特别地,媒体系统108生成并在媒体系统108的媒体对象数据库内存储与在每个相应的关键帧内所标识的内容特征及其相关联的置信度值相对应的数据。图2A的步骤210在关于图3的附加细节中进行说明。
特别地,图3图示了示例数据表格300,其被用来将所标识的内容特征及对应的置信度值与每个相应的关键帧相关联。特别地,数据表格300可以包括关键帧列302,其包括由关键帧ID编号(例如,关键帧1、关键帧2、关键帧3等)指示的多个所标识的关键帧。例如,关键帧列302中所列出的关键帧包括由媒体托管服务器设备104的媒体系统108标识的关键帧。特别地,如上文关于步骤206所讨论的,响应于媒体系统108标识出关键帧,媒体系统108可以用关键帧ID编号来填充关键帧列302。
另外,如图3所图示的,数据表格300可以包括各自由内容特征ID(例如,内容特征A、内容特征B、内容特征C等)标识的多个内容特征列304(例如,304a、304b、304c等)。如上文所描述的,多个内容特征列304中的每个内容特征列304表示由媒体系统108标识的相应的内容特征。换言之,每个所检测出的内容特征具有其自身相应的内容特征列304。作为非限制性示例,如上文关于图2A的步骤208所描述的,媒体系统108可以基于媒体系统标识出关键帧内的内容特征来生成数据表格300。此外,媒体系统108可以基于在媒体对象的视频内容内的所检测出的内容特征来生成多个内容特征列304。
此外,每个所检测出的内容特征通过指示符(例如,记号、复选记号、X或其他记号)与关键帧列302中的至少一个关键帧相关联。如图3所图示的,媒体系统108可以通过在与内容特征被标识的关键帧302相关联的内容特征列304的行中生成指示符而将多个内容特征列中的内容特征与关键帧相关联。换言之,每个内容特征可以通过具有数据表格300的行中的指示符而与关键帧相关联。虽然本公开的媒体系统108被描述为利用数据库内的数据表格将所检测出的内容特征与所标识的关键帧相关联,但是本公开并不限于此,以及媒体系统108可以利用本领域已知的任何方法来关联数据。
回到参考图2A,除将所检测出的内容特征与所确定的关键帧相关联之外,在一个或多个实施例中,如图2A的步骤212所示,媒体系统108选择(例如,指定)所标识的关键帧中的至少一个关键帧,以生成媒体对象的潜在预览图像(例如,海报帧)。特别地,如下文关于图2B更详细地讨论的,媒体系统108选择关键帧以生成媒体对象的潜在预览图像,潜在预览图像与媒体对象内的视频内容的与搜索查询有关的所标识的内容特征相对应。换言之,响应于搜索查询,媒体托管服务器设备104基于描绘与搜索查询有关的内容特征的预览图像,提供从媒体对象的一个或多个潜在预览图像中选择的预览图像。
在一些实施例中,通过使用来自媒体托管服务器设备104的媒体对象数据库的、关于关键帧的数据(例如,置信度值、时间戳及关键帧的所标识的内容特征),媒体系统108选择所标识的关键帧中的关键帧以包括作为媒体对象的预览图像。例如,媒体系统可以使用上述数据表格300来选择用于生成潜在预览图像的关键帧。另外,图4图示了媒体系统数据库内的示例数据表格400。媒体系统108可以使用数据表格400来选择所标识的关键帧中的至少一个关键帧,以生成媒体对象的潜在预览图像。
与上文参考数据表格300的讨论类似,数据表格400可以包括内容特征列402。特别地,内容特征列402可以包括媒体对象的由内容特征ID(例如,A、B、C、D等)标识的多个内容特征。例如,数据表格400的内容特征列402中所列出的多个内容特征包括上文所讨论的关键帧的所检测出的内容特征。
另外,数据表格400包括多个关键帧列404(例如,404a、404b、404c等),并且该多个关键帧列404中的每个关键帧列404表示所标识的关键帧。每个关键帧列404可以指示,相应的关键帧描绘内容特征列402中所列出的多个内容特征中的一个或多个内容特征。例如,如图4所示,数据表格400可以通过在与特定内容特征402对应的特定关键帧的关键帧列404中包括置信度值,来指示特定关键帧包括内容特征。如果关键帧未被检测出包括内容特征,那么该关键帧的关键帧列404包括指示该内容特征未在该关键帧中被检测出(或者内容特征不具有大于所限定的置信度值阈值的置信度值)的指示符或空白空间。
作为非限制性示例,如图4中所图示的,数据表格400可以指示:第一关键帧404a包括具有98%置信度值的内容特征A和具有70%置信度值的内容特征B。另外,如也在图4中所图示的,第二关键帧404b包括具有60%置信度值的内容特征A和具有90%置信度值的内容特征B。
回到参考图2A和步骤212,在选择关键帧以针对媒体对象中的每个内容特征生成媒体对象的潜在预览图像中,媒体系统108可以执行各种附加的步骤。特别地,如图2A的步骤214所示,对于媒体对象的每个所检测的内容特征,媒体系统108确定有多少关键帧描绘特定内容特征。例如,媒体系统108查询数据表格400(或数据表格300)以确定有多少关键帧包括该特定内容特征。例如,取决于内容特征,媒体系统108可以确定仅有一个关键帧与内容特征相关联(例如,在数据表格400中,关键帧6是与内容特征F相关联的唯一的关键帧),同时数个关键帧可以与另一内容特征相关联(例如,在数据表格400中,关键帧1和关键帧2两者都与内容特征A和内容特征B相关联)。
一方面,如图2A的步骤216所示,如果媒体系统108确定单个关键帧包括特定内容特征,那么媒体系统108选择该单个关键帧以用作媒体对象针对该特定内容特征的预览图像。换言之,如下文关于图2B更详细地描述的,响应于与该单个关键帧内所描绘的特定内容特征有关的搜索查询,媒体系统108确定所选择的关键帧将被用来生成针对媒体对象的预览图像。
另一方面,如图2A的步骤218所示,如果媒体系统108确定多个关键帧包括内容特征,那么媒体系统108可以执行一个或多个附加的步骤,以选择关键帧来生成潜在预览图像。例如,如图2A的步骤220和步骤222所示,在一个或多个实施例中,媒体系统108确定多个帧是否出现在媒体对象的一个或多个关键帧集群(例如,组)中。换言之,媒体系统108确定包括特定内容特征或与特定内容特征相关联的多个关键帧是否出现在单个依次的关键帧集群(例如,关键帧2、3、4)中或者是否出现在分离的关键帧集群(例如,关键帧2和3及关键帧7和8)中。例如,媒体系统108查询数据表格400,以确定关键帧的多个关键帧集群(例如,分离的集群)是否包括该内容特征或者单个关键帧集群是否包括该内容特征。
如图2A的步骤220所示,如果媒体系统108确定多个关键帧出现在媒体对象的单个关键帧集群中,那么媒体系统108可以从该集群选择一个关键帧,以在生成潜在预览图像中使用。例如,因为多个关键帧出现在单个集群中,媒体系统可以确定在多个关键帧中的每个关键帧内的内容特征是实质上相同的内容特征。为从该集群选择该一个关键特征,媒体系统108可以比较单个关键帧集群中的每个关键帧的置信度值,并可以选择单个关键帧集群中关于所检测出的内容特征具有最高置信度值的关键帧。例如,媒体系统108可以比较数据表格400中所包括的单个关键帧集群中的关键帧置信度值。
在备选实施例中,媒体系统108不比较单个关键帧集群中的关键帧的置信度值。相反地,媒体系统108可以随机地选择单个关键帧集群中的关键帧来生成媒体对象的潜在预览图像。例如,媒体系统108可以包括随机数生成器,并可以使用该随机数生成器随机地选择单个关键帧集群中的关键帧。
在其他实施例中,媒体系统108可以对多个关键帧进行附加的分析,以确定多个关键帧反映或者不反映相同的内容特征实例(例如,相同的狗对比两个不同的狗)的可能性。基于该附加的分析,如果确定该多个关键帧有可能描绘相同的内容特征实例(例如,相同的狗),那么媒体系统可以选择一个关键帧。备选地,基于该附加的分析,如果确定该多个关键帧描绘不同的内容实例(例如,不同的狗),那么媒体系统可以从该多个关键帧中选择两个或更多关键帧。例如,与每个内容实例相关联的关键帧可以被选择,以生成潜在预览图像。
在一些实例中,单个关键帧集群中的两个或更多关键帧可以关于特定内容特征具有相同的置信度值。在这样的实例中,媒体系统108可以选择具有相同的置信度值的两个或更多关键帧中的第一关键帧(例如,当基于时间戳信息依次考虑两个或更多关键帧时的第一个关键帧)。换言之,媒体系统108选择时间相关序列中的两个或更多关键帧中的排序第一的关键帧。
备选地,基于前述段落中所描述的实例,媒体系统108可以比较由一个或多个内容特征所占据的关键帧的空间百分比。在这样的实施例中,具有较高的内容特征对背景比例的关键帧可以被给予偏好,并且媒体系统108可以选择具有较高比例的关键帧。在又一附加实施例中,在选择关键帧中,内容特征的其他特性可以被考虑。例如,媒体系统108可以确定内容特征是否是面向前、面向侧面或面向后的,并且具有特定取向的内容特征可以被给予偏好。备选地,媒体系统108随机地选择具有相同置信度值的两个或更多关键帧中的关键帧,以包括在媒体对象的预览图像中。如上文所指出的,媒体系统108可以包括随机数生成器,并且在选择具有相同的置信度值的两个或更多关键帧中的关键帧时,媒体系统108可以使用该随机数生成器。
如上文所简要提到的,如图2A的步骤222所示,在一些实施例中,媒体系统108确定包括内容特征的多个关键帧出现在媒体对象的多个分离(例如,非连接的)的关键帧集群中。在这样的实例中,基于每个集群有可能具有不同的内容特征实例的假设,媒体系统108可以确定来自每个关键帧集群的关键帧。如下文将更详细地描述的,各种方法可以被用来从每个分离的内容集群选择关键帧。
例如,在一些实施例中,响应于确定包括特定内容特征的多个关键帧出现在分离的关键帧集群中,媒体系统108可以比较在每个分离的关键帧集群内的每个关键帧的置信度值。如果在特定的关键帧集群内一个关键帧具有比其余关键帧更高的置信度值,那么媒体系统108选择具有最高置信度值的关键帧,以在生成媒体对象的潜在预览图像中使用。因此,媒体系统108可以从每个分离的关键帧集群中选择最高等级的关键帧(例如,两个分离的关键帧集群产生两个所选择的关键帧)。
如上文所简要讨论的,如果媒体系统108确定分离的关键帧集群中的多个关键帧具有相同的最高置信度值,那么在上文关于图2A的步骤220所述的任何方法中,媒体系统108可以选择具有相同的最高置信度值的该多个关键帧中的单个关键帧,以包括在媒体对象的预览图像中。在附加的实施例中,在上文所描述的任何方法中,媒体系统108可以标识每个关键帧集群中具有最高置信度值的关键帧,然后可以比较每个最高置信度关键帧中所包括的若干内容特征,以便选择至少一个关键帧来生成媒体对象的潜在预览图像。
例如,在确定分离的关键帧集群的最高置信度关键帧之后,媒体系统108查询媒体对象数据库的数据表格400,以比较分离的关键帧集群的每个最高置信度关键帧中所包括的内容特征的数目。通过比较分离的关键帧集群的每个最高置信度关键帧中所包括的内容特征的数目,媒体系统108可以从最高置信度关键帧中选择其中包括最高数目的内容特征的关键帧,以包括在媒体对象的预览图像中。如果最高置信度关键帧中的两个或更多包括相同的最高数目的内容特征,那么媒体系统108可以根据上文关于步骤220或图2A所描述的任何方法来选择最高置信度关键帧中的一个。
再次一起参考图2A的步骤212-步骤222,在选择要使用的至少一个关键帧以针对媒体对象的每个所标识的内容特征生成媒体对象的潜在预览图像时,媒体系统108可以选择包括媒体对象的多个内容特征的一个或多个关键帧。换言之,媒体系统108可以选择用于生成针对媒体对象的、与两个或更多内容特征相对应的预览图像的单个关键帧。例如,所选择的单个关键帧可以包括两个或更多内容特征,并且对于这两个或更多内容特征中的每一个,媒体系统108选择该单个关键帧以包括在媒体对象的预览图像中。
除选择要在媒体对象的潜在预览图像的生成中使用的关键帧之外,如图2A的步骤224所示,媒体系统108丢弃未被选择的关键帧。例如,媒体系统108丢弃媒体系统108没有选择用作针对媒体对象的潜在预览图像的关键帧。如本文所使用的,术语“丢弃”及任何派生术语指代媒体系统108去除未被选择的关键帧作为关键帧的标识。例如,媒体系统108可以将未被选择的关键帧从上文关于图3和图4所讨论的媒体对象数据库的数据表格300和数据表格400中去除。在其他的实施例中,术语“丢弃”及任何派生术语可以指代媒体系统108将未被选择的关键帧标记为不能用作媒体对象的预览图像。例如,媒体系统108可以将数据表格300和数据表格400内的未被选择的关键帧标识(例如,标记)为不能用作预览图像。在又一实施例中,术语“丢弃”及任何衍生术语可以指代媒体系统108将未被选择的关键帧从上文关于图2A的步骤206所讨论的、关键帧的数据包中去除(例如,删除)。
在选择了用于生成与特定内容特征有关的潜在预览图像的一个或多个关键帧之后,在一个或多个实施例中,如图2B的步骤226所示,媒体系统108生成标记以分配给每个所选择的关键帧。如本文所使用的,术语“标记”或任何派生术语指代将标志数据与媒体对象和/或媒体对象的一部分相关联。例如,标记可以指示内容特征与来自媒体对象的所选择的关键帧相关联。
如上文简要指出的,媒体系统108生成标记以分配给媒体对象的所选择的关键帧,标记指示所选择的关键帧的所检测出的内容特征。每个标记可以指示该标记所关联的所选择的关键帧的内容特征。换言之,每个标记可以包括指示相关联的关键帧的一个或多个内容特征的数据(例如,文本)。作为非限制性示例,标记可以包括文本“狗”,以指示该标记被分配到的所选择的关键帧描绘了狗。作为前述事项的结果,取决于所选择的关键帧中所描绘的(一个或多个)内容特征,媒体系统108可以将单个标记关联到所选择的关键帧,或者备选地,媒体系统108可以将多个标记关联到所选择的关键帧。
为生成标记和/或将其分配给所选择的关键帧,媒体系统108可以查询媒体对象数据库的第一数据表格和/或第二数据表格,以确定针对每个所选择的关键帧的所标识的内容特征。在确定了针对每个所选择的关键帧的所标识的(一个或多个)内容特征之后,媒体系统108生成并关联指示所选择的关键帧的内容特征的标记。例如,媒体系统108可以在媒体对象数据库中存储表示每个标记的数据,并且可以将每个标记与其在媒体对象数据库内(例如,在数据表格300或数据表格400内)的相应的关键帧相互关联。
除生成标记之外,如图2A的步骤228所示,媒体系统108基于每个所选择的关键帧生成针对媒体对象的潜在预览图像。特别地,媒体系统108生成媒体对象的潜在预览图像以包括每个关键帧的图像。在一些实施例中,媒体系统108生成潜在预览图像以包括特定的所选择的关键帧内的整个图像(例如,预览图像是所选择的关键帧的图像)。在其他实施例中,媒体系统108生成潜在预览图像以仅包括所选择的关键帧的部分图像(例如,包括内容特征的部分图像)。此外,媒体系统108将表示所生成的潜在预览图像中的每一个的数据存储在媒体对象数据库内。
仍然参考图2B,如步骤230所示,媒体系统108可以将表示媒体对象的所选择的关键帧、所分配的标记及潜在预览图像的数据与媒体对象本身相互关联。特别地,媒体系统108可以将元数据与媒体对象相互关联,并且元数据可以表示(例如,指示和/或包括)所选择的关键帧、所分配的标记及潜在预览图像。例如,媒体系统108可以存储元数据,并可以将元数据与媒体托管服务器设备104的媒体对象数据库内的媒体对象相互关联。
如上文简要讨论的,媒体系统108生成媒体对象的潜在预览图像,以便能够响应于搜索查询而提供媒体对象的相关预览图像。图2C图示了响应于搜索查询而提供媒体对象的视频内容的相关预览图像的序列流程图250。例如,如步骤252所示,图2C图示了媒体系统108接收来自客户端设备102的搜索查询。例如,媒体系统108可以接收来自客户端设备102的搜索引擎112的搜索查询。搜索查询可以包括用户试图定位用户所感兴趣的视频内容而提供的一个或多个搜索项。
响应于接收到来自客户端设备102的搜索查询,如图2B的步骤254所示,媒体系统108可以查询媒体系统108的媒体对象数据库,以及特别地,存储在媒体对象数据库中的媒体对象的所选择的关键帧的标记。如由图2C所示的步骤255所图示的,基于查询,媒体系统108可以将媒体对象标识为搜索查询的搜索结果。例如,媒体系统108可以查询与媒体对象相关联的标记,以标识要作为响应于搜索查询的搜索结果而提供的媒体对象。
虽然媒体系统108在本文中被描述为查询媒体对象数据库同时在媒体对象的标记内寻找搜索查询的搜索项,但是本公开并不限于此。例如,当寻找与搜索查询的搜索项匹配的、媒体对象的标记时,媒体系统108可以寻找搜索项的派生项、搜索项的同义词和/或搜索项的有关项。作为结果,即使用户110在用户110的搜索查询中没有使用媒体对象的标记的精确语言,媒体系统108也可以标识媒体对象以及媒体对象的预览图像。
除标识要作为搜索结果提供的媒体对象之外,如图2C的步骤256所示,媒体系统108可以选择至少一个预览图像,作为所标识的媒体对象的表示提供给客户端设备102。例如,基于标识了特定媒体对象,媒体系统108可以确定与该媒体对象相关联的一个或多个潜在预览图像中的哪个潜在预览图像与搜索查询最相关。特别地,基于与所选择的关键帧相关联的标记和/或对应的潜在预览图像,媒体系统108可以选择包括与搜索查询有关的内容特征的预览图像。
在一些实施例中,选择要提供给客户端设备102的预览图像,媒体系统108可以选择媒体对象的第一预览图像,其包括与搜索查询的搜索项相互关联的所有内容特征。另一方面,如果媒体对象的预览图像都不包括与搜索查询的搜索项相互关联的所有内容特征,则媒体系统108可以选择包括最高数目的与搜索查询的搜寻项相互关联的内容特征的媒体对象的预览图像。换言之,媒体系统108选择描绘了与搜索查询的最多搜索项有关的最多内容特征的、媒体对象的预览图像。
例如,如果搜索查询包括四个搜索项,并且第一预览图像包括与四个搜索项中的两项有关的两个内容特征,而第二预览图像包括与四个搜索项中的三项有关的三个内容特征,那么媒体系统108响应于该搜索查询选择第二预览图像来提供给客户端设备102。作为结果,媒体系统108将在视频内容内的最相关的预览图像(例如,视频场景)作为搜索结果提供给生成搜索查询的用户。
在一个或多个附加的实施例中,媒体系统108可以选择与单个媒体对象相关联的两个或更多预览图像,以响应于搜索查询提供给客户端设备102。例如,基于第一预览图像和第二预览图像两者都与搜索查询充分有关(例如,满足对搜索查询中的一个或多个搜索项的关联性阈值),媒体系统108可以选择媒体对象的第一预览图像和第二预览图像。换言之,在一些实施例中,基于搜索查询内所描绘的内容特征,媒体对象可以包括与搜索查询有关的多个预览图像。作为非限制性示例,媒体对象的第一预览图像可以与搜索查询的第一搜索项(例如,狗)有关,以及媒体对象的第二预览图像可以与搜索查询的第二搜索项(例如,猫)有关。在这样的实例中,响应于搜索查询,媒体系统108可以选择第一预览图像和第二预览图像两者以提供给客户端设备。例如,媒体系统108可以提供第一预览图像和第二预览图像作为分离的结果,其中每个预览图像链接到相同媒体对象的对应关键帧。
除选择单个媒体对象的一个或多个预览图像提供给客户端设备之外,如图2B的步骤258所示,媒体系统108可以可选地生成组合预览图像提供给客户端设备。特别地,当媒体系统108选择单个媒体对象的两个或更多预览图像提供给客户端设备时,媒体系统108可以组合该两个或更多预览图像以形成组合预览图像。例如,在一些实例中,媒体系统108可以生成单个媒体对象的两个或更多预览图像的拼贴。在这样的实施例中,媒体系统108生成组合预览图像,以确保尽可能多的与搜索查询有关的内容特征被示出在组合预览图像中。作为结果,经由客户端设备(例如,客户端设备102),用户(例如,用户110)可以更容易地识别具有基于用户的搜索查询可能使用户感兴趣的多个内容特征的媒体对象。
在一个或多个实施例中,组合预览图像可以包括缩略图“幻灯片放映”布置,其中所选择的预览图像被显示一段时间,然后被下一所选择的预览图像代替。另外,另一示例组合预览图像可以连同指示一个或多个附加预览图像的图形元素一起来呈现最相关的预览图像。用户可以与该图形元素交互(例如,通过点击该图形元素或向该图形元素提供触摸手势),以访问针对特定媒体对象的、与用户所提供的搜索查询有关的一个或多个附加预览图像。
一旦相关媒体对象的预览图像已经被选择和/或生成,如图2C的步骤260所示,媒体系统108可以将该预览图像提供给客户端设备以用于向用户呈现。例如,媒体系统108可以在结果页面内提供媒体对象的预览图像,使得搜索引擎使客户端设备经由客户端设备102的显示器将预览图像呈现给用户110。此外,预览图像可以包括媒体对象的超链接,使得通过选择该预览图像,客户端设备102请求并下载该媒体对象的副本至客户端设备102以用于向用户110呈现。
虽然媒体托管设备在上文被描述为执行步骤204-步骤230,但是在一些实施例中,媒体托管设备可以将媒体对象提供给第三方服务器,并且该第三方服务器可以执行步骤204-步骤230。此外,在一些实施例中,第三方服务器可以响应于搜索查询将预览图像提供给客户端设备。
图5图示了根据一个或多个实施例的具有媒体系统108的媒体托管服务器设备104的示意图。媒体系统108可以是结合图1-图4中所参考的媒体系统108所描述的媒体系统108的一个示例实施例。媒体系统108可以包括用于执行本文所描述的过程和特征的各种部件。例如,如图5中所图示的,媒体系统108包括关键帧标识器502、内容特征检测器504、标记分配器506、预览图像生成器508、查询管理器510以及媒体对象数据库512。另外,媒体系统108可以包括诸如那些如下文所述的、未图示的附加部件。媒体系统108的各种部件可以使用任何适当的通信协议来互相通信。
媒体系统108的每个部件可以使用包括至少一个处理器的计算设备(例如,媒体托管服务器设备104)而被实施,该至少一个处理器执行使得媒体系统108执行本文所述的过程的指令。如上文所述,媒体系统108的部件可以通过单个媒体托管服务器设备104或跨多个媒体托管服务器设备104而被实施。虽然特定数目的部件被示出在图5中,但是媒体系统108可以包括更多部件,或者可以将这些部件组合成更少的部件(诸如单个部件),如对特定实施方式来说可能是期望的。
如上文所简要提到的,媒体系统108包括关键帧标识器502。如上文关于图2A的步骤206所描述的,关键帧标识器502可以管理媒体对象的关键帧的标识。特别地,关键帧标识器可以利用用于标识媒体对象的关键帧的非基于内容方法和基于内容方法。此外,如上文关于图2A的步骤212所描述的,关键帧标识器可以管理选择关键帧,以便生成针对媒体项的潜在预览图像。
如上文所讨论的,媒体系统108进一步包括内容特征检测器504。内容特征检测器504可以管理由关键帧标识器502所标识的关键帧内的特征内容的检测。特别地,内容特征检测器504可以使用特征内容识别技术(例如,机器学习)来检测关键帧内的内容特征。在一些示例实施例中,在检测出内容特征之后,内容特征检测器504可以存储表示所检测出的内容特征的数据。例如,内容特征检测器504可以以上文关于图2A的步骤208所讨论的任何方式来检测媒体对象的内容特征并存储与内容特征有关的数据。
如上文所提到的,媒体系统108包括标记分配器506。标记分配器506可以生成标记并将标记分配给所选择的关键帧。特别地,标记分配器506可以生成指示关键帧的内容特征(如由内容特征检测器504所检测出的)的标记并将其分配给关键帧。在一些示例实施例中,标记分配器506可以将表示标记的数据存储在媒体对象数据库512中,并且可以将标记与媒体对象的其相应的关键帧相互关联。此外,标记分配器506可以以上文关于图2B的步骤226所描述的任何方法来将标记分配给所选择的关键帧。
如上文所简要提到的,媒体系统108包括预览图像生成器508。预览图像生成器508可以基于所选择的关键帧管理媒体对象的预览图像的生成。例如,在关键帧标识器502已经选择了要用作针对媒体对象的潜在预览图像的基础的关键帧之后,如上文关于图2A的步骤212所描述的,预览图像生成器508可以生成包括所选择的关键帧图像的预览图像。此外,如上文所指出的,预览图像生成器508可以组合来自两个或更多所选择的关键帧的两个或更多图像,以包括在媒体对象的预览图像内(例如,预览图像生成器508可以将两个或更多关键帧组合成拼贴以包括在预览图像中)。预览图像生成器508可以以上文关于图2B的步骤228或图2C的步骤258所描述的任何方法来生成预览图像。
另外,如上文所讨论的,媒体系统108可以进一步包括查询管理器510。查询管理器510可以管理:接收来自(例如)客户端设备102的搜索查询以及查询媒体系统108的媒体对象数据库512以标识与搜索查询相关的媒体对象。例如,在接收到具有搜索项的搜索查询之后,查询管理器510可以查询媒体对象数据库512,以将搜索查询的搜索项与媒体对象的所选择的帧的标记作比较。在找到匹配项之后,在预览图像需要被生成的情况下,查询管理器510可以将相互关联的所选择的(一个或多个)关键帧提供给预览图像生成器508。否则,在找到匹配项之后,如上文关于图2C的步骤260所描述的,媒体系统108可以将相互关联的预览图像提供给客户端设备。
如上文所提到的,媒体系统108包括媒体对象数据库512。媒体对象数据库512可以包括单个数据库或多个数据库。另外,媒体对象数据库512可以位于媒体系统108内。备选地,媒体对象数据库512可以在媒体系统108的外部,诸如在云或远程存储装置中。另外,如下文所进一步讨论的以及如上文关于图2A-图4所描述的,媒体对象数据库512可以存储数据和信息,并将数据和信息提供给媒体系统108。
媒体对象数据库512可以包括被提供给媒体托管服务器设备104的媒体对象514。每个媒体对象514可以具有媒体对象标识符编号(或简单地“媒体对象ID编号”)以提供唯一的标识。在一些情况下,媒体对象514可以根据媒体对象ID编号而被组织。备选地,媒体对象数据库512中的媒体对象514可以根据诸如创建日期、时间戳、最后修改日期、最新结果等的其他标准而被组织。
如图5所示,媒体对象数据库512的媒体对象514可以包括关键帧516、标记518、预览图像520以及元数据522。媒体系统108可以存储根据相应的媒体对象514而被分组的关键帧516。另外,每个关键帧516可以具有唯一的问题标识符编号(或简单地“关键帧ID编号”)。在一些情况下,关键帧ID编号还可以标识关键帧516所属的媒体对象514。例如,来自特定媒体对象514的所有关键帧516在关键帧ID编号内可以包括媒体对象ID编号。
另外,媒体对象514的每个标记518可以与媒体对象514的关键帧516相关联。当媒体系统108检测出关键帧516的内容特征并将标记518分配给关键帧516时,如上文关于图2A所讨论的,媒体系统108可以添加标记518作为(多个)标记518的一部分。如此,标记518可以包括针对媒体对象514的标记518累积的集合。另外,每个标记518可以具有唯一的标记标识符(或简单地“标记ID”)。在一些实例中,标记ID可以标识与标记518相互关联的媒体对象514和/或所选择的关键帧516。例如,基于标记ID,媒体系统108能够标识对应的媒体对象514和/或媒体对象514的所选择的关键帧516。
如上文所指出的,媒体对象数据库512的媒体对象514可以与一个或多个潜在预览图像520相关联。另外,针对媒体对象514的每个预览图像520可以与媒体对象514的至少一个所选择的关键帧516及相关联的标记518相关联。当媒体系统108基于媒体对象514的所检测出的内容特征和所选择的关键帧516生成预览图像520时,如上文关于图2A所讨论的,媒体系统108可以添加预览图像520作为潜在预览图像520的一部分。如此,预览图像520可以包括针对给定媒体对象514的预览图像520的累积的集合。另外,每个预览图像520可以具有唯一的标记标识符(或简单地“预览图像ID”)。在一些实例中,预览图像ID可以标识与预览图像ID相互关联的媒体对象514和/或所选择的关键帧516。例如,基于预览图像ID,媒体系统108能够标识对应的媒体对象514和/或媒体对象514的所选择的关键帧516。
如上文所简要提到的,媒体对象514可以进一步包括与媒体对象514相关联的元数据522。例如,媒体对象可以包括诸如上文关于图2B所述的元数据522的元数据522。特别地,元数据可以将关键帧516、标记518及预览图像520与媒体对象514相关联。
图6图示了用于响应于视频搜索查询而提供相关视频场景(例如,预览图像)的示例方法600的流程图。方法600可以由上文所述的媒体系统108实施。方法600涉及分析媒体对象514内的视频内容以确定多个关键帧的动作610。例如,动作610可以包括:通过至少一个处理器来分析包括视频内容的多个帧的媒体对象,以确定视频内容内的多个关键帧。
另外,方法600涉及标识多个关键帧中的每个关键帧中所描绘的内容特征的动作620。例如,动作620可以包括:通过至少一个处理器,标识多个关键帧中的每个关键帧中所描绘的内容特征。例如,媒体系统108可以利用机器学习和/或深度学习来检测及标识每个关键帧内的一个或多个内容特征。特别地,动作620可以包括:检测媒体对象514的关键帧516中所描绘的物体、活动(例如,跑步、跳伞、徒步)、照片类型(例如,微距、肖像等)、情绪(例如,微笑、哭泣等)、动物、风景(例如,沙滩、森林、山岳)、位置、颜色等。此外,动作620可以包括:使用机器学习来检测关键帧516中所描绘的内容特征。另外,动作620可以包括上文关于图2A的步骤208所描述的任何动作。
此外,方法600涉及关联与每个关键帧内所标识的内容特征相对应的标记的动作630。例如,动作630可以包括:通过至少一个处理器,将标记与多个关键帧中的每个关键帧相关联,其中给定标记与多个关键帧中的给定关键帧中所描绘的给定内容特征相对应。例如,动作630可以包括:在媒体对象数据库512内(例如,在媒体对象数据库512的第一或第二数据表格内),将一个或多个标记518与媒体对象514的多个关键帧516中的一个或多个关键帧516相关联。另外,动作630可以包括上文关于图2B的步骤226所描述的任何动作。
方法600还涉及确定提供媒体对象作为搜索查询的搜索结果的动作640。例如,动作640可以包括:确定提供媒体对象作为接收自客户端设备的搜索查询的搜索结果。例如,与用户相关联的客户端设备可以向媒体系统108发送包括一个或多个搜索项的搜索查询,并且媒体系统108确定要在搜索结果列表内提供的一个或多个媒体对象。
此外,方法600可以进一步包括基于与标记相对应的搜索查询从多个关键帧中选择关键帧作为预览图像的动作650。例如,动作650可以包括:从多个关键帧中选择关键帧作为针对媒体对象的预览图像,这基于搜索查询与如由与所选择的关键帧相关联的特定标记所指示的、所选择的关键帧中所描绘的特定内容特征有关。
此外,方法600涉及响应于搜索查询而提供预览图像的动作660。例如,动作660可以包括:响应于搜索查询,将针对媒体对象的预览图像提供给客户端设备。另外,方法600可以包括:基于与多个关键帧516中的每个关键帧516的每个所检测出的内容特征相关联的置信度值,选择媒体对象514的多个关键帧516中的至少一个关键帧516(例如,选择多个关键帧516中的、对于每个所检测出的内容特征具有最高置信度值的至少一个关键帧516,以包括在媒体项的预览图像520中)。此外,方法600还可以包括丢弃媒体对象514的多个关键帧516中的未被选择的关键帧516。此外,方法600可以包括生成媒体对象514的多个预览图像。另外,方法600可以包括上文关于图2A-图4所描述的任何动作。
图7图示了用于响应于视频搜索查询而提供相关视频场景(例如,预览图像520)的另一示例方法700的流程图。方法700可以由上文所描述的媒体系统108实施。方法700涉及标识视频内容内的关键帧的动作710。例如,动作710可以包括:通过媒体托管服务器设备的至少一个处理器,从维持在媒体托管服务器设备上的视频内容内的多个帧中标识关键帧。此外,动作710可以包括利用标识媒体对象514的关键帧516的基于内容方法和非基于内容方法。
方法700可以进一步包括标识每个关键帧中所描绘的至少一个内容特征的动作720。特别地,动作720可以包括:通过该至少一个处理器,标识每个关键帧中所描绘的至少一个内容特征。例如,动作720可以进一步包括:检测媒体对象514的关键帧516中所描绘的物体、活动(例如,跑步、跳伞、徒步)、照片类型(例如,微距、肖像等)、情绪(例如,微笑、哭泣等)、动物、风景(例如,沙滩、森林、山岳)、位置、颜色等。此外,动作720可以包括:使用机器学习来检测关键帧516中所描绘的内容特征。
另外,方法700包括确定针对该至少一个内容特征的置信度值的动作730。特别地,动作730可以包括:通过至少一个处理器,确定针对每个关键帧516中所描绘的该至少一个内容特征的置信度值。例如,动作730可以包括:将置信度值分配给通过内容特征识别技术(诸如,例如上文所述的机器学习)所确定的一个或多个内容特征中的每个所检测出的内容特征。
方法700还涉及基于置信度值将指示给定的内容特征的标记与每个关键帧相关联的动作740。例如,动作740可以包括:基于针对每个关键帧中所描绘的该至少一个内容特征的置信度值,将标记与关键帧相关联,给定的标记指示给定的关键帧中所描绘的给定的内容特征。例如,动作740可以包括:在媒体对象数据库512内(例如,在媒体对象数据库512的第一或第二数据表格300、400内),将一个或多个标记518与媒体对象514的关键帧516中的一个或多个相关联。
此外,方法700涉及动作750:基于接收到搜索查询,基于该搜索查询与关键帧的特定内容特征有关(如由相关联的标记所指示的),选择关键帧以用作针对视频内容的预览图像。例如,动作750可以包括:基于接收到搜索查询,选择关键帧以用作针对视频内容的预览图像,这通过确定搜索查询与如由与所选择的关键帧相关联的特定标记所指示的、所选择的关键帧中所描绘的特定内容特征有关。
除所图示的步骤之外,方法700可以还包括:将数据存储在将一个或多个标记518与媒体对象514的关键帧516相关联的媒体对象数据库512中。另外,方法700可以还包括:确定帧规格,包括确定媒体对象514的帧速率及帧数目。此外,方法700可以包括:针对每个所检测出的内容特征,选择媒体对象514的至少一个关键帧516以包括在媒体对象514的预览图像520中。另外,方法700可以包括上文关于图2A和图2B所描述的任何动作。
图8图示了可以被配置为执行上文所描述的过程中的一个或多个的示例计算设备800的框图。将理解,诸如计算设备800的一个或多个计算设备可以实施媒体系统108和/或客户端设备102。如由图8所示的,计算设备800可以包括:可以通过通信基础设施812的方式通信耦合的处理器802、存储器804、存储设备806、I/O接口808及通信接口810。尽管示例计算设备800在图8中被示出,但图8中所图示的部件并不旨在作为限制。附加的或备选的部件可以被使用在其他实施例中。此外,在某些实施例中,计算设备800可以包括比图8中所示的更少的部件。现在将更详细地描述图8中所示的计算设备800的部件。
在一个或多个实施例中,处理器802包括用于执行诸如那些构成计算机程序的指令的硬件。作为示例而不是以限制的方式,为执行指令,处理器802可以从内部寄存器、内部缓存、存储器804或存储设备806取回(或提取)指令,并解码及执行指令。在一个或多个实施例中,处理器802可以包括用于数据、指令或地址的一个或多个内部缓存。作为示例而不是以限制的方式,处理器802可以包括一个或多个指令缓存、一个或多个数据缓存以及一个或多个转换后备缓冲器(TLB)。指令缓存中的指令可以是存储器804或存储设备806中的指令的副本。
计算设备800包括耦合到(一个或多个)处理器802的存储器804。存储器804可以用来存储数据、元数据及用于由(一个或多个)处理器执行的程序。存储器804可以包括诸如随机存取存储器(“RAM”)、只读存储器(“ROM”)、固态盘(“SSD”)、闪存、相变存储器(“PCM”)或其他类型的数据存储装置之类的易失和非易失存储器中的一种或多种。存储器804可以是内部存储器或分布式存储器。
计算设备800包括存储设备806,其包括用于存储数据或指令的存储装置。作为示例而非以限制的方式,存储设备806可以包括上文所述的非暂态的存储介质。存储设备806可以包括硬盘驱动器(HDD)、软盘驱动器、闪存、光碟、磁光碟、磁带或通用串行总线(USB)驱动器或这些中的两个或更多的组合。在合适的情况下,存储设备806可以包括可移除的或不可移除的(或固定的)介质。存储设备806可以在计算设备800的内部或外部。在一个或多个实施例中,存储设备806是非易失的、固态存储器。在其他实施例中,存储设备806包括只读存储器(ROM)。在合适的情况下,这一ROM可以是掩模编程ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或这些中的两个或更多的组合。
计算设备800还包括一个或多个输入或输出(“I/O”)设备/接口808,其被提供为允许用户将输入提供给计算设备800、接收来自计算设备800的输出,以及以其他方式将数据传送到计算设备800及接收来自计算设备800的数据。I/O设备/接口808可以包括鼠标、小键盘或键盘、触摸屏、相机、光学扫描仪、网络接口、调制解调器、其他已知的I/O设备或这样的I/O设备/接口的组合。触摸屏可以通过触笔或手指而被激活。
I/O设备/接口808可以包括用于将输出呈现给用户的一种或多种设备,包括但不限于:图形引擎、显示器(例如,显示屏)、一个或多个输出驱动器(例如,显示驱动器)、一个或多个扬声器及一个或多个音频驱动器。在某些实施例中,I/O接口808被配置为将图形数据提供给显示器以用于向用户呈现。图形数据可以表示一个或多个图形用户界面和/或可以用于特定实现的任何其他图形内容。
计算设备800可以进一步包括通信接口810。通信接口810可以包括硬件、软件或两者。通信接口810可以提供用于计算设备800与一个或多个其他计算设备或网络之间的通信(诸如,例如基于包的通信)的一个或多个接口。作为示例而非以限制的方式,通信接口810可以包括:用于与以太网或其他有线网络通信的网络接口控制器(NIC)或网络适配器,或者用于与无线网络(诸如WIFI)通信的无线NIC(WNIC)或无线适配器。计算设备800可以进一步包括总线812。总线812可以包括使计算设备800的部件互相耦合的硬件、软件或两者。
参考具体示例实施例描述了前述说明。参考本文所讨论的细节描述了本公开的各种实施例和方面,并且随附的附图图示了各种实施例。上文的描述及附图是说明性的,并不应被解释为限制。描述了大量具体细节,以提供对各种实施例的深入理解。
附加或备选的实施例可以以其他的具体形式被实施,而不脱离其精神或本质特性。所描述的实施例在各方面将被认为仅是说明性的,而不是限制性的。因此,本发明的范围由所附的权利要求指示,而不是由前述说明书指示。在权利要求的等价物的含义和范围内的所有改变将被包括在其范围内。
本公开上文所描述的及随附的附图中所图示的实施例不限制本发明的范围,因为这些实施例仅仅是本发明的实施例的示例,本发明由所附的权利要求及其等价物限定。任何等价实施例旨在在本发明的范围内。事实上,除本文所示出及所描述的那些修改(诸如所描述的内容特征的备选的有用组合)之外,对本领域的技术人员来说,本公开的各种修改可以从说明书变得明显。这样的修改和实施例也旨在落入所附的权利要求及法律等价物的范围内。

Claims (20)

1.一种标识表示数字视频内的相关内容特征的图像的方法,所述方法包括:
通过至少一个处理器,分析包括视频内容的多个帧的媒体对象,以确定所述视频内容内的多个关键帧;
通过所述至少一个处理器,标识所述多个关键帧中的每个关键帧中所描绘的内容特征以及指示所述内容特征在所述多个关键帧中的每个关键帧中出现的可能性的置信度值;
基于与针对所述多个关键帧中的每个关键帧的所述内容特征相对应的所述置信度值,从所述多个关键帧中选择潜在预览图像;
通过所述至少一个处理器,将标记与所述潜在预览图像中的每个潜在预览图像相关联,其中给定标记与所述潜在预览图像中的给定潜在预览图像中所描绘的给定内容特征相对应;
确定提供所述媒体对象作为搜索查询的搜索结果,所述搜索查询接收自客户端设备;
从所述潜在预览图像中选择针对所述媒体对象的预览图像,所述选择基于所述搜索查询与如由与所述预览图像相关联的特定标记所指示的、所述预览图像中所描绘的特定内容特征有关;以及
响应于所述搜索查询,将针对所述媒体对象的所述预览图像提供给所述客户端设备。
2.根据权利要求1所述的方法,其中:
所述搜索查询包括搜索项;以及
从所述潜在预览图像中选择针对所述媒体对象的所述预览图像进一步包括:比较所述搜索项与对应于所述潜在预览图像中的每个潜在预览图像中所描绘的所述内容特征的每个标记。
3.根据权利要求2所述的方法,进一步包括:基于所述搜索项和与所述预览图像相关联的所述特定标记的比较,确定所述预览图像与所述搜索项相关。
4.根据权利要求1所述的方法,其中所述预览图像被提供在针对所述搜索查询的搜索结果的列表内。
5.根据权利要求1所述的方法,其中从所述多个关键帧中选择所述潜在预览图像包括:
基于确定来自所述多个关键帧中的第一关键帧和第二关键帧与特定内容特征相关联:
比较针对所述第一关键帧的第一置信度值与针对所述第二关键帧的第二置信度值;以及
基于比较所述第一置信度值与所述第二置信度值,选择所述第一关键帧以包括在所述潜在预览图像中。
6.根据权利要求5所述的方法,进一步包括:基于比较针对所述第一关键帧的所述第一置信度值与针对所述第二关键帧的所述第二置信度值,从所述潜在预览图像中排除所述第二关键帧。
7.根据权利要求1所述的方法,其中选择所述潜在预览图像进一步包括:
比较针对第一关键帧的第一置信度值与阈值置信度值;以及
基于确定针对所述第一关键帧的所述第一置信度值满足所述阈值置信度值,选择所述第一关键帧以包括在所述潜在预览图像中。
8.根据权利要求7所述的方法,其中选择所述潜在预览图像进一步包括:
比较针对第二关键帧的第二置信度值与所述阈值置信度值;以及
基于确定所述第二置信度值不满足所述阈值置信度值,从所述潜在预览图像中排除所述第二关键帧。
9.一种标识表示数字视频内的相关内容特征的图像的方法,所述方法包括:
通过媒体托管服务器设备的至少一个处理器,从视频内容内的多个帧中标识关键帧,所述视频内容维持在所述媒体托管服务器设备上;
通过所述至少一个处理器,标识每个所述关键帧中所描绘的至少一个内容特征;
通过所述至少一个处理器,确定针对每个所述关键帧中所描绘的所述至少一个内容特征的置信度值,其中所述置信度值指示所述至少一个内容特征在所述关键帧中的每个关键帧中出现的可能性;
基于针对所述关键帧中的每个关键帧中所描绘的所述至少一个内容特征的所述置信度值,从所述关键帧中选择潜在预览图像;
基于每个所述关键帧中所描绘的所述至少一个内容特征,将标记与所述潜在预览图像相关联,给定的标记指示给定的潜在预览图像中所描绘的给定的内容特征;以及
基于接收到搜索查询,从所述潜在预览图像选择针对所述视频内容的预览图像,所述选择通过确定所述搜索查询与如由与所述预览图像相关联的特定标记所指示的、所述预览图像中所描绘的特定内容特征有关。
10.根据权利要求9所述的方法,进一步包括:将针对所述视频内容的所述预览图像提供给对应于所述搜索查询的客户端设备。
11.根据权利要求10所述的方法,其中所述预览图像被提供在针对所述搜索查询的搜索结果的列表内。
12.根据权利要求9所述的方法,其中:
选择所述潜在预览图像包括从所述关键帧中标识具有超过阈值置信度值的对应置信度值的关键帧集合;并且
将所述标记与所述潜在预览图像相关联包括将所述标记与来自所述关键帧中的、具有超过所述阈值置信度值的对应置信度值的所述关键帧集合相关联。
13.根据权利要求12所述的方法,其中选择所述潜在预览图像进一步包括:
确定来自所述多个关键帧中的第一关键帧和第二关键帧与特定内容特征相关联;以及
基于确定所述第一关键帧和所述第二关键帧与所述特定内容特征相关联,选择所述第一关键帧以包括在所述潜在预览图像中。
14.根据权利要求13所述的方法,其中选择所述潜在预览图像进一步包括:
基于确定所述第一关键帧和所述第二关键帧与所述特定内容特征相关联:
比较针对所述第一关键帧的第一置信度值与所述第二关键帧的第二置信度值;以及
基于确定所述第一置信度值超过所述第二置信度值,选择所述第一关键帧以包括在所述潜在预览图像中。
15.根据权利要求14所述的方法,其中选择所述潜在预览图像进一步包括:
比较针对第一关键帧的第一置信度值与阈值置信度值;以及
基于确定针对所述第一关键帧的所述第一置信度值满足所述阈值置信度值,选择所述第一关键帧以包括在所述潜在预览图像中。
16.一种系统,包括:
至少一个处理器;以及
至少一个非暂态计算机可读存储介质,其上存储指令,所述指令在由所述至少一个处理器执行时,使得所述系统:
分析包括视频内容的多个帧的媒体对象,以确定所述视频内容内的多个关键帧;
标识所述多个关键帧中的每个关键帧中所描绘的内容特征征以及指示所述内容特征在所述多个关键帧中的每个关键帧中出现的可能性的置信度值;
基于与针对所述多个关键帧中的每个关键帧的所述内容特征相对应的所述置信度值,从所述多个关键帧中选择潜在预览图像;
将标记与所述潜在预览图像中的每个潜在预览图像相关联,其中给定的标记与所述潜在预览图像中的给定的潜在预览图像中所描绘的给定的内容特征相对应;
确定提供所述媒体对象的指示作为搜索查询的搜索结果,所述搜索查询接收自客户端设备;以及
从所述潜在预览图像中选择针对所述媒体对象的预览图像,所述选择基于所述搜索查询与如由与所述预览图像相关联的特定的标记所指示的、所述预览图像中所描绘的特定的内容特征有关。
17.根据权利要求16所述的系统,进一步包括指令,所述指令在由所述至少一个处理器执行时,使得所述系统:基于所述搜索查询内的搜索项和与所所述潜在预览图像相关联的所述特定的标记的比较,确定所述潜在预览图像与所述搜索项有关。
18.根据权利要求17所述的系统,进一步包括指令,所述指令在由所述至少一个处理器执行时,使得所述系统:响应于所述搜索查询,将针对所述媒体对象的所述预览图像提供给所述客户端设备。
19.根据权利要求17所述的系统,进一步包括指令,所述指令在由所述至少一个处理器执行时,使得所述系统:将指向所述媒体对象的超链接附接到所述预览图像。
20.根据权利要求17所述的系统,进一步包括指令,所述指令在由所述至少一个处理器执行时,使得所述系统通过以下选择所述潜在预览图像:
确定第一关键帧和第二关键帧与所述特定内容特征相关联;
比较针对所述第一关键帧的第一置信度值与所述第二关键帧的第二置信度值;以及
基于确定所述第一置信度值超过所述第二置信度值,选择所述第一关键帧以包括在所述潜在预览图像中。
CN201710417832.7A 2016-09-23 2017-06-06 响应于视频搜索查询提供相关视频场景 Active CN107870959B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310853571.9A CN116881501A (zh) 2016-09-23 2017-06-06 响应于视频搜索查询提供相关视频场景

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/274,679 US10606887B2 (en) 2016-09-23 2016-09-23 Providing relevant video scenes in response to a video search query
US15/274,679 2016-09-23

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202310853571.9A Division CN116881501A (zh) 2016-09-23 2017-06-06 响应于视频搜索查询提供相关视频场景

Publications (2)

Publication Number Publication Date
CN107870959A CN107870959A (zh) 2018-04-03
CN107870959B true CN107870959B (zh) 2023-08-04

Family

ID=59771602

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202310853571.9A Pending CN116881501A (zh) 2016-09-23 2017-06-06 响应于视频搜索查询提供相关视频场景
CN201710417832.7A Active CN107870959B (zh) 2016-09-23 2017-06-06 响应于视频搜索查询提供相关视频场景

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202310853571.9A Pending CN116881501A (zh) 2016-09-23 2017-06-06 响应于视频搜索查询提供相关视频场景

Country Status (5)

Country Link
US (2) US10606887B2 (zh)
CN (2) CN116881501A (zh)
AU (1) AU2017204338B2 (zh)
DE (1) DE102017005963A1 (zh)
GB (1) GB2554515A (zh)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10606887B2 (en) 2016-09-23 2020-03-31 Adobe Inc. Providing relevant video scenes in response to a video search query
CN108509436B (zh) 2017-02-24 2022-02-18 阿里巴巴集团控股有限公司 一种确定推荐对象的方法、装置及计算机存储介质
US10572767B2 (en) * 2017-04-12 2020-02-25 Netflix, Inc. Scene and shot detection and characterization
US11109111B2 (en) 2017-12-20 2021-08-31 Flickray, Inc. Event-driven streaming media interactivity
US11252477B2 (en) 2017-12-20 2022-02-15 Videokawa, Inc. Event-driven streaming media interactivity
US11507619B2 (en) * 2018-05-21 2022-11-22 Hisense Visual Technology Co., Ltd. Display apparatus with intelligent user interface
US10965985B2 (en) 2018-05-21 2021-03-30 Hisense Visual Technology Co., Ltd. Display apparatus with intelligent user interface
CN110741652A (zh) * 2018-05-21 2020-01-31 青岛海信电器股份有限公司 具有智能用户界面的显示设备
CN110516517B (zh) * 2018-05-22 2022-05-06 杭州海康威视数字技术股份有限公司 一种基于多帧图像的目标识别方法、装置及设备
CN109165574B (zh) * 2018-08-03 2022-09-16 百度在线网络技术(北京)有限公司 视频检测方法和装置
US11200424B2 (en) * 2018-10-12 2021-12-14 Adobe Inc. Space-time memory network for locating target object in video content
US10657729B2 (en) * 2018-10-18 2020-05-19 Trimble Inc. Virtual video projection system to synch animation sequences
CN111246240A (zh) * 2018-11-29 2020-06-05 杭州海康威视系统技术有限公司 存储媒体数据的方法和装置
CN109522450B (zh) 2018-11-29 2023-04-07 腾讯科技(深圳)有限公司 一种视频分类的方法以及服务器
KR102604937B1 (ko) * 2018-12-05 2023-11-23 삼성전자주식회사 캐릭터를 포함하는 동영상을 생성하기 위한 전자 장치 및 그에 관한 방법
CN109635004B (zh) * 2018-12-13 2023-05-05 广东工业大学 一种数据库的对象描述提供方法、装置及设备
CN109688429A (zh) * 2018-12-18 2019-04-26 广州励丰文化科技股份有限公司 一种基于非关键视频帧的预览方法及服务设备
US11531701B2 (en) * 2019-04-03 2022-12-20 Samsung Electronics Co., Ltd. Electronic device and control method thereof
US11604818B2 (en) * 2019-05-06 2023-03-14 Apple Inc. Behavioral curation of media assets
US11800206B2 (en) * 2019-07-08 2023-10-24 Calumino Pty Ltd. Hybrid cameras
US11468550B2 (en) 2019-07-22 2022-10-11 Adobe Inc. Utilizing object attribute detection models to automatically select instances of detected objects in images
US11631234B2 (en) 2019-07-22 2023-04-18 Adobe, Inc. Automatically detecting user-requested objects in images
US11107219B2 (en) 2019-07-22 2021-08-31 Adobe Inc. Utilizing object attribute detection models to automatically select instances of detected objects in images
US11500927B2 (en) 2019-10-03 2022-11-15 Adobe Inc. Adaptive search results for multimedia search queries
CN110825891B (zh) * 2019-10-31 2023-11-14 北京小米移动软件有限公司 多媒体信息的识别方法及装置、存储介质
US11468110B2 (en) 2020-02-25 2022-10-11 Adobe Inc. Utilizing natural language processing and multiple object detection models to automatically select objects in images
US11055566B1 (en) 2020-03-12 2021-07-06 Adobe Inc. Utilizing a large-scale object detector to automatically select objects in digital images
CN112770167A (zh) * 2020-12-21 2021-05-07 深圳Tcl新技术有限公司 视频展示方法、装置、智能显示终端及存储介质
US11587234B2 (en) 2021-01-15 2023-02-21 Adobe Inc. Generating class-agnostic object masks in digital images
US20220230421A1 (en) * 2021-01-20 2022-07-21 Nec Laboratories America, Inc. Dynamic, contextualized ai models
US20230259779A1 (en) * 2022-02-15 2023-08-17 Samsung Electronics Co., Ltd. Method of processing multimodal tasks, and an apparatus for the same

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1312643A (zh) * 2000-03-08 2001-09-12 Lg电子株式会社 产生合成关键帧的方法和使用该方法的视频浏览系统
CN1851710A (zh) * 2006-05-25 2006-10-25 浙江大学 嵌入式多媒体基于关键帧的视频检索的实现方法
CN101021855A (zh) * 2006-10-11 2007-08-22 鲍东山 基于内容的视频检索系统
CN101021857A (zh) * 2006-10-20 2007-08-22 鲍东山 基于内容分析的视频搜索系统
CN102549603A (zh) * 2009-08-24 2012-07-04 谷歌公司 基于相关性的图像选择
CN103827856A (zh) * 2011-09-27 2014-05-28 惠普发展公司,有限责任合伙企业 检索视觉媒体
CN105474207A (zh) * 2013-05-28 2016-04-06 三星电子株式会社 用于搜索多媒体内容的用户界面方法和设备

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000045600A1 (en) * 1999-01-29 2000-08-03 Mitsubishi Denki Kabushiki Kaisha Method of image feature encoding and method of image search
US6909745B1 (en) * 2001-06-05 2005-06-21 At&T Corp. Content adaptive video encoder
US8239359B2 (en) * 2008-09-23 2012-08-07 Disney Enterprises, Inc. System and method for visual search in a video media player
US8959071B2 (en) * 2010-11-08 2015-02-17 Sony Corporation Videolens media system for feature selection
US9443011B2 (en) * 2011-05-18 2016-09-13 Microsoft Technology Licensing, Llc Searching for images by video
US8924413B2 (en) * 2011-12-07 2014-12-30 Verizon Patent And Licensing Inc. Media content searching
US9113128B1 (en) * 2012-08-31 2015-08-18 Amazon Technologies, Inc. Timeline interface for video content
US9165072B1 (en) * 2012-10-09 2015-10-20 Amazon Technologies, Inc. Analyzing user searches of verbal media content
US9146990B2 (en) * 2013-01-07 2015-09-29 Gracenote, Inc. Search and identification of video content
US8763023B1 (en) * 2013-03-08 2014-06-24 Amazon Technologies, Inc. Determining importance of scenes based upon closed captioning data
US20160259494A1 (en) * 2015-03-02 2016-09-08 InfiniGraph, Inc. System and method for controlling video thumbnail images
US9786327B2 (en) 2015-08-31 2017-10-10 Adobe Systems Incorporated Utilizing audio digital impact to create digital media presentations
US10299017B2 (en) * 2015-09-14 2019-05-21 Logitech Europe S.A. Video searching for filtered and tagged motion
US9805269B2 (en) * 2015-11-20 2017-10-31 Adobe Systems Incorporated Techniques for enhancing content memorability of user generated video content
US10606887B2 (en) 2016-09-23 2020-03-31 Adobe Inc. Providing relevant video scenes in response to a video search query

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1312643A (zh) * 2000-03-08 2001-09-12 Lg电子株式会社 产生合成关键帧的方法和使用该方法的视频浏览系统
CN1851710A (zh) * 2006-05-25 2006-10-25 浙江大学 嵌入式多媒体基于关键帧的视频检索的实现方法
CN101021855A (zh) * 2006-10-11 2007-08-22 鲍东山 基于内容的视频检索系统
CN101021857A (zh) * 2006-10-20 2007-08-22 鲍东山 基于内容分析的视频搜索系统
CN102549603A (zh) * 2009-08-24 2012-07-04 谷歌公司 基于相关性的图像选择
CN103827856A (zh) * 2011-09-27 2014-05-28 惠普发展公司,有限责任合伙企业 检索视觉媒体
CN105474207A (zh) * 2013-05-28 2016-04-06 三星电子株式会社 用于搜索多媒体内容的用户界面方法和设备

Also Published As

Publication number Publication date
US20180089203A1 (en) 2018-03-29
CN107870959A (zh) 2018-04-03
DE102017005963A1 (de) 2018-03-29
GB2554515A (en) 2018-04-04
US11461392B2 (en) 2022-10-04
CN116881501A (zh) 2023-10-13
AU2017204338B2 (en) 2021-05-13
US20200183977A1 (en) 2020-06-11
US10606887B2 (en) 2020-03-31
AU2017204338A1 (en) 2018-04-12
GB201711692D0 (en) 2017-09-06

Similar Documents

Publication Publication Date Title
CN107870959B (zh) 响应于视频搜索查询提供相关视频场景
US10929671B2 (en) Systems and methods for image-feature-based recognition
US8181197B2 (en) System and method for voting on popular video intervals
KR101435738B1 (ko) 비디오 콘텐츠를 관리하기 위한 방법 및 장치
US9229958B2 (en) Retrieving visual media
US9633015B2 (en) Apparatus and methods for user generated content indexing
US9652534B1 (en) Video-based search engine
CN108881947B (zh) 一种直播流的侵权检测方法及装置
CN101930444A (zh) 影像搜寻系统及方法
JP2017535860A (ja) マルチメディア内容の提供方法および装置
CN104899306A (zh) 信息处理方法、信息显示方法及装置
KR20090013828A (ko) 콘텐트 아이템 주석을 위한 장치 및 방법
CN106899879B (zh) 一种多媒体数据的处理方法和装置
JP2007164633A (ja) コンテンツ検索方法及び装置及びプログラム
CN111008304B (zh) 关键词的生成方法和装置、存储介质及电子装置
KR102023687B1 (ko) 서버의 이미지 공유 방법, 그리고 이를 구현한 시스템 및 어플리케이션
Liu et al. On the automatic online collection of training data for visual event modeling
Tešić et al. IBM multimodal interactive video threading

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant