CN108701144A

CN108701144A - 自动从视频中检测表达情感的内容以及丰富图像索引

Info

Publication number: CN108701144A
Application number: CN201680082647.0A
Authority: CN
Inventors: 唐奕龙; 韩博
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-11-28
Filing date: 2016-11-28
Publication date: 2018-10-23
Anticipated expiration: 2036-11-28
Also published as: EP3545428A1; US11328159B2; EP3545428A4; CN108701144B; US20190266406A1; WO2018094723A1

Abstract

本公开提供了一种用于从视频中检测表达情感的内容的方法、装置、和系统。所述方法包括：将所述视频划分成多个片段；从所述多个片段中的第一片段和至少一个第二片段提取与所述第一片段相关联的特征；基于与所述第一片段相关联的特征来确定所述第一片段是否表达情感；以及如果所述第一片段表达情感，则基于与所述第一片段相关联的特征来建立包含所述第一片段的索引。

Description

自动从视频中检测表达情感的内容以及丰富图像索引

背景技术

最近，越来越多的人搜索诸如GIF图像以及表情包(meme)之类的有表现力的或有趣的图像以在短消息服务(SMS)、电子邮件、社交网络服务(SNS)等中表达自己。这些有表现力的图像传统上是由人创作的。这种手动生成的方法导致了数量非常受限的好的候选。此外，为了找到这些由人创作的图像，传统的搜索引擎需要爬取所有网页。这样的图像是否能够被搜索引擎找到依赖于其在网络上的传播规模。

发明内容

提供了该发明内容以用简化形式引入在以下的具体实施方式中进一步描述的概念的选择。该发明内容不旨在标识所要求保护主题的关键特征或必要特征，也不旨在用于限制所要求保护的主题的范围。

在一个方面中，本公开提供了一种用于从视频中检测表达情感的内容的方法。所述方法可以包括：将视频划分成多个片段；从所述多个片段中的第一片段和至少一个第二片段提取与所述第一片段相关联的特征；基于与所述第一片段相关联的特征来确定所述第一片段是否表达情感；以及如果所述第一片段表达情感，则基于与所述第一片段相关联的特征来建立包含所述第一片段的索引。

在另一个方面中，本公开提供了一种用于从视频中检测表达情感的内容的装置。所述装置可以包括：划分模块，其被配置为将所述视频划分成多个片段；提取模块，其被配置为从所述多个片段中的第一片段和至少一个第二片段提取与所述第一片段相关联的特征；确定模块，其被配置为基于与所述第一片段相关联的特征来确定所述第一片段是否表达情感；以及建立模块，其被配置为如果所述第一片段表达情感，则基于与所述第一片段相关联的特征来建立包含所述第一片段的索引。

在另一个方面中，本公开提供了一种用于丰富图像索引的方法。所述方法可以包括：将视频划分成多个片段；从所述多个片段中的第一片段提取特征；基于从所述第一片段提取的特征来确定是否存在来自网页的类似于所述第一片段的至少一个图像；以及如果存在所述至少一个图像，则基于从所述第一片段提取的特征以及从所述多个片段中的至少一个第二片段提取的特征来丰富包含所述至少一个图像的图像索引。

在另一个方面中，本公开提供了一种用于丰富图像索引的装置。所述装置可以包括：划分模块，其被配置为将视频划分成多个片段；提取模块，其被配置为从所述多个片段中的第一片段提取特征；确定模块，其被配置为基于从所述第一片段提取的特征来确定是否存在来自网页的类似于所述第一片段的至少一个图像；以及丰富模块，其被配置为如果存在所述至少一个图像，则基于从所述第一片段提取的特征以及从所述多个片段中的至少一个第二片段提取的特征来丰富包含所述至少一个图像的图像索引。

在另一个方面中，本公开提供了一种用于从视频中检测表达情感的内容的系统。所述系统可以包括一个或多个处理器和存储器。所述存储器可以存储计算机可执行指令，所述计算机可执行指令当被执行时，使得所述一个或多个处理器执行根据本公开的各种方面的用于从视频中检测表达情感的内容的方法的任何步骤。

在另一个方面中，本公开提供了一种用于丰富图像索引的系统。所述系统可以包括一个或多个处理器和存储器。所述存储器可以存储计算机可执行指令，所述计算机可执行指令当被执行时，使得所述一个或多个处理器执行根据本公开各种方面的用于丰富图像索引的方法的任何步骤。

应当注意的是，以上的一个或多个方面包括在下文中充分描述的并且在权利要求中特别指出的特征。以下的描述和附图详细地阐述了一个或多个方面的某些说明性特征。这些特征仅仅指示可以采用各种方面的原理的各种方式中的几种方式，并且该公开旨在包括所有这样的方面及其等同物。

附图说明

在下文中将结合附图来描述所公开的方面，提供这些附图以进行说明而不限制所公开的方面。

图1示出了可以采用在本文中公开的技术的示例性环境。

图2示出用于从视频中检测表达情感的内容的方法的流程图。

图3示出了用于丰富图像索引的方法的流程图。

图4示出了用于从视频中检测表达情感的内容的示例性装置。

图5示出了用于丰富图像索引的示例性装置。

图6示出了用于从视频中检测表达情感的内容的示例性系统。

具体实施方式

现在将参考几个示例实现来讨论本公开。应当理解的是，讨论这些实现仅仅是为了使得本领域技术人员能够更好地理解并且因此实现本公开的实施例，而不是暗示对本公开的范围的任何限制。

越来越多的人搜索诸如GIF图像和表情包之类的能够用于表达他们情感的图像以发送给其他人或与其他人共享。这给图像搜索带来了巨大的技术挑战。传统的搜索引擎需要爬取所有的网页来找到这些由人创作的内容。这样的图像是否能够被搜索引擎找到依赖于其在网络上的传播规模。某人首先必须创作并共享该内容，并且该内容必须在网络上以某一规模传播，否则搜索引擎将无法理解其重要性。此外，与该内容所源自的原始视频有关的信息在二次创作的内容中已经丢失，并且难以利用与视频有关的搜索来取回这些媒体。

在本公开中，可以将视频划分成多个片段。针对多个片段中的每个片段，可以从该片段提取特征。接着，可以基于与多个片段中的一个片段相关联的特征来确定该片段是否表达情感，与该片段相关联的特征包括从该片断提取的特征以及从多个片段中的至少一个其他片段(例如，与该片段紧挨着的至少一个片段)提取的特征。在本公开中，针对每个片段，从该片断提取的特征可以被称为与该片段相关联的内容特征，并且从紧挨着该片段的片段提取的特征可以被称为与该片段相关联的上下文特征。如果在多个片段中存在表达情感的一个或多个片段，则可以基于与所述一个或多个片段相关联的特征来建立包含所述一个或多个片段的索引，例如反向索引。通过该方式，可以从视频主动地发现表达情感的内容，并且所建立的索引可以包含丰富的信息以帮助取回这些内容。

在以下的讨论中，首先描述其中可以实现在本文中所描述的技术的示例性环境。接着描述可以在示例性环境中以及在其他环境中采用的各种实施例的示例性说明。由此，该示例性环境不限于执行所描述的实施例，并且所描述的实施例不限于在该示例性环境中实现。

图1示出了可以实现在本公开中描述的技术的示例性环境100。应当理解的是，在本文中描述的这种以及其他布置仅仅是作为示例阐述的。除了或者替代所示出的这些，还可以使用其他布置和元件(例如，机器、接口、功能、以及功能分组等)，并且可以一同省略某些元件。此外，在本文中所描述的元件中的许多元件是功能实体，其可以被实现成离散或分布式组件，或者结合其他组件被实现。在本文中被描述成由一个或多个实体执行的各种功能可以由硬件、固件、和/或软件来实行。例如，各种功能可以通过处理器执行存储在存储器中的指令来实行。

所示出的示例性环境100可以包括用户设备110、内容创建服务器120、以及搜索引擎服务器140。图1中所示出的组件中的每个可以是任何类型的计算设备。所述组件可以经由网络130与彼此通信，网络130可以包括但不限于一个或多个局域网(LAN)和/或广域网(WAN)。这样的联网环境在办公室、企业范围的计算机网络、内部网、和互联网中是很常见的。应当理解的是，在本公开的范围内，可以在环境100内采用任意数量的用户设备、内容创建服务器、以及搜索引擎服务器。每一个可以包括单个设备或者以分布的方式协作的多个设备。例如，内容创建服务器120可以包括以分布的方式布置的多个设备，它们共同提供在本文中所描述的内容创建服务器120的功能。

用户设备110可以以多种方式被配置。例如，用户设备110可以被配置成传统计算机(例如，台式个人计算机、膝上型个人计算机等)、娱乐家电、智能电话、上网本、平板设备等。因此，用户设备110的范围可以从具有大量存储器和处理器资源的全资源设备(例如，个人计算机)到具有有限存储器和/或处理资源的低资源设备(例如，手持游戏控制)。

内容创建服务器120可以被配置为创建各种类型的内容，并为这些内容建立索引。在本公开中，内容创建服务器120可以被配置为从一个或多个视频中检测表达情感的内容。内容创建服务器120可以包括视频分析组件122和索引建立组件124。可选地，内容创建服务器120还可以包括索引丰富组件126。

视频分析组件122可以被配置为将视频(例如，热点视频)划分成多个片段，并且分析所述多个片段以从所述多个片段中检测表达情感的一个或多个片段。所述分析可以包括对所述多个片段中的每个片段执行语音识别，以得知该片段中的人正在说什么。所述分析还可以包括对该片段执行面部识别以得知谁是视频中最重要的人并且识别该人是否是名人。所述分析还可以包括对该片段执行面部情感分类和语音情感分类以得知人的情感。所述分析还可以包括对该片段执行动作检测以得知在该片段中人正在做什么。所述分析还可以包括对该片段执行人类姿势分类以得知人的姿势。所述分析还可以包括对该片段执行场景分类，以得知整个场景看上去什么样。所述分析还可以包括对该片段执行声音(例如，音乐)分类以获得声音类别，以便从音频确定场景类型。所述分析还可以包括对该片段执行弹幕(bullet-curtain)检测和分类，以得知关于该片段的评论计数和类别。本领域技术人员将理解的是，所述分析不限于所描述的那些。

视频分析组件122可以被配置为基于对多个片段中的每个片段进行分析，从该片段提取特征。接着，视频分析组件122可以被配置为针对多个片段中的每个片段、基于与该片段相关联的特征来确定该片段是否表达情感，其中所述特征可以包括从该片段提取的特征以及从多个片段中紧挨着该片段的至少一个片段提取的特征。此后，视频分析组件122可以确定在多个片段当中是否存在表达情感的一个或多个片段。如果存在一个或多个片段，则视频分析组件122可以将所述一个或多个片段以及与它们相关联的特征提供给索引建立组件124。

索引建立组件124可以被配置为基于与由视频分析组件122所提供的、表达人类情感的片段相关联的特征来建立包含这些片段的索引。

索引丰富组件126可以被配置为丰富现有的图像索引和/或由索引建立组件124所建立的索引。针对每个片段，索引丰富组件126可以基于从该片段提取的特征来对网页或者包含从网页预先取回的图像的数据库进行搜索以获得与该片段类似的图像。如果存在至少一个类似的图像，则索引丰富组件126可以被配置为使用从该片段提取的特征以及从紧挨着该片段的至少一个片段提取的特征来丰富包含所述至少一个类似图像的图像索引。此外，索引丰富组件126可以被配置为使用与视频相关联的元数据来丰富图像索引。此外，索引丰富组件126还可以被配置为使用包含来自网页的、与包含在所建立的索引中的至少一个片段类似的图像的图像索引来丰富由索引建立组件124所建立的索引。

搜索引擎服务器140通常可以用于从用户设备(例如，用户设备110)接收搜索查询，并且响应于所述搜索查询而提供搜索结果。搜索引擎服务器140可以包括用户界面组件142、匹配组件144、以及排序组件146。

用户界面组件142可以提供至用户设备110的界面，其允许用户将搜索查询提交给搜索引擎服务器140，并从搜索引擎服务器140接收搜索结果。用户设备110可以是用户用来提交搜索查询以及接收搜索结果的任何类型的计算设备。例如而非限制，用户设备110可以是台式计算机、膝上型计算机、平板计算机、移动设备、或者任何其他类型的计算设备。用户设备110可以包括允许用户输入搜索查询以及将搜索查询提交给搜索引擎服务器140以取回搜索结果的应用。例如，用户设备110可以包括网络浏览器，其包括搜索输入框或者允许用户访问搜索页面以提交搜索查询。用于将搜索查询提交给搜索引擎的其他机制被预期为落入本公开的范围内。

当经由用户界面组件142接收到搜索查询时，匹配组件144可以理解查询意图并将查询分割成不同的项和/或实体，并且采用这些项/实体来查询由索引建立组件124所建立且由索引丰富组件126丰富的索引，并且识别一组匹配的片段。

所述一组匹配的片段可以由排序组件146评估，以提供一组经排序的片段。排序组件146可以向用户界面组件142指示所述一组经排序的片段。用户界面组件142接着可以将包括所述一组经排序的片段的至少一部分的搜索结果传送至用户设备110。例如，用户界面组件142可以基于所述一组经排序的片段来生成或者以其他方式提供列出了搜索结果的搜索引擎结果页面。

在图1中，描述了其中搜索引擎服务器140可以针对用户想要的内容来搜索内容创建服务器120的环境。然而，本公开可以不限于所述环境。例如，用户可以将所建立的索引下载至用户设备110。当用户将具有潜在情感表达的任何内容键入到用户设备110中时，相关片段将被填充以供用户选择。这可以通过在SMS、电子邮件、SNS等中示出代表性的GIF而不是文本来帮助用户表达他们的情感。

在描述了可以采用在本文中所描述的技术的示例性操作环境之后，现在考虑对各个实施例的讨论。

现在参考图2-3，示出了可以被执行的根据在本文中所阐述的各种方面的方法。尽管出于解释简单的目的，所述方法被示出为一些列动作，但是应当理解和清楚的是，这些方法不受动作的顺序的限制，这是因为根据一个或多个方面，一些动作可以以与在本文中所示出和描述的顺序不同的顺序进行，和/或与其他动作同时进行。

图2示出了根据本公开实施例的用于从视频中检测表达情感的内容的方法200的流程图。

方法200可以在框202处开始。在框204中，可以将视频划分成多个片段。例如而非限制，每个片段可以是大约1-5秒的等级。每个片段的开始时间和结束时间可以通过镜头检测、子镜头检测、语音检测、语音识别、和物体运动检测中的至少一个来确定。通过镜头检测、子镜头检测、语音检测、语音识别、和物体运动检测的组合，可以获得清晰的片段边界。

在框206中，可以分析多个片段中的每个片段。例如，可以对多个片段中的每个片段执行语音识别，以便得知某人正在说什么。可以对多个片段中的每个片段执行面部识别/确认以便得知该片段中最重要的人是谁，并识别该人是否是名人。可以对多个片段中的每个片段执行面部情感分类和语音情感分类，以便得知该人的情感。可以对多个片段中的每个片段执行动作检测，以便得知该人在该片段中正在做什么。可以对多个片段中的每个片段执行人类姿势分类，以便得知该人的姿势。可以对多个片段中的每个片段执行场景分类，以便得知整个场景看起来什么样。可以对多个片段中的每个片段执行声音/音乐分类，以从音频获得场景类型。此外，可以对多个片段中的每个片段执行相机运动检测，以便得知相机运动，例如摇镜、倾斜、缩放等。还可以对多个片段中的每个片段执行弹幕检测和分类，以便得知关于该片段的评论计数和类别。

在框208中，可以基于对多个片段中的每个片段进行分析来从该片段提取特征。例如，可以基于对一个片段的语音识别而从该片段提取语音文字转录。可以基于对该片段的面部识别/确认来从该片段提取人类身份。可以基于对该片段的面部情感分类和语音情感分类来从该片段提取人类情感。可以基于对该片段的动作检测来从该片段提取动作或事件。可以基于对该片段的人类姿势识别来从该片段提取人类姿势。可以基于对该片段的场景分类来从该片段提取场景类别。可以基于对该片段的声音分类来从该片段提取声音类别。可以基于对该片段的相机运动检测来从该片段提取相机运动。可以基于对该片段的弹幕检测和分类来从该片段提取关于该片段的评论计数和类别。

在框210处，针对多个片段中的每个片段，可以基于与该片段相关联的特征来确定该片段是否表达情感，所述特征包括从该片段以及从多个片段中的至少一个其他片段提取的特征。该片段和至少一个其他片段可以彼此紧挨着。在本公开的实施例中，可以使用利用训练数据集训练的预先训练的模型来基于与该片段相关联的特征确定该片段是否表达情感。

在菱形212处，可以基于框210的结果来确定在多个片段中是否存在表达情感的一个或多个片段。

如果在菱形212处确定在多个片段中不存在表达情感的片段，则方法200可以去到框220以结束。

如果在菱形212处确定存在表达情感的一个或多个片段，则方法可以去到框214。在框214处，可以基于与所述一个或多个片段相关联的特征来建立包含所述一个或多个片段的索引。在本公开中，在建立索引时，不仅使用了从所述一个或多个片段提取的特征，还使用了从紧挨着所述一个或多个片段的片段提取的特征，这将有助于取回这些内容。

此外，也可以使用与视频相关联的元数据来建立索引。所述元数据可以包括标题、创作者、描述、演员、以及角色等。

在菱形216处，可以确定是否存在来自网页的与表达情感的所述一个或多个片段中的至少一个片段类似的至少一个图像。可以基于从所述至少一个片段提取的特征来对网页或者包含从网页预先取回的图像的数据库进行搜索以获得这样的类似图像。

如果在菱形216处确定不存在于所述一个或多个片段类似的图像，则方法200可以去到框220以结束。如果在菱形216处确定存在与所述一个或多个片段中的至少一个片段类似的至少一个图像，则方法200可以去到框218。在框218处，可以基于与所述至少一个片段相关联的特征来丰富包含所述至少一个图像的图像索引。接着，方法200可以去到框220以结束。

可以对多个视频执行在图2中所示的方法，以便在没有人为干预的情况下主动地找到表达情感的片段。接着，包含从多个视频中检测到的所有表达情感的片段的索引可以基于与这些片段相关联的特征来建立。此外，所建立的索引可以基于图像索引而被丰富。

图3示出了根据本公开实施例的用于丰富图像索引的方法300的流程图。

方法300可以在框302处开始。在框304处，可以将视频划分成多个片段。每个片段的开始时间和结束时间可以通过镜头检测、子镜头检测、语音检测、语音识别、和物体运动检测中的至少一个来确定。通过镜头检测、子镜头检测、语音检测、语音识别、和物体运动检测的组合，可以获得清晰的片段边界。

在框306处，可以从多个片段中的每个片段提取特征。从多个片段中的每个片段提取的特征可以包括从该片段提取的语音文字转录、人类身份、人类情感、动作或事件、人类姿势、场景类别、声音类别、相机运动、以及评论计数和类别等中的至少一个。

在框308处，可以选择多个片段中的一个片段作为要处理的当前片段。在第一次迭代中，可以将多个片段中的第一片段选择为当前片段。

在菱形310处，可以基于从当前片段提取的特征来确定是否存在来自网页的类似于当前片段的至少一个图像。例如，可以基于从当前片段提取的特征来对网页或者包含从网页预先取回的图像的数据库进行搜索以获得类似图像。

如果在菱形310处确定不存在来自网页的类似图像，则方法300可以去到框314。如果在菱形310处确定存在至少一个类似图像，则方法300可以去到框312。在框312处，可以基于从当前片段提取的特征以及从紧挨着当前片段的至少一个片段提取的特征来丰富包含所述至少一个类似图像的图像索引。此外，可以基于与视频相关联的元数据来进一步丰富图像索引。

在菱形314处，可以确定是否多个片段中的所有片段都已经被处理。如果所有片段都已经被处理，则方法300可以去到框316以结束。否则，方法可以去到框308，在此处可以将未经处理的片段中的一个选择为当前片段，并且可以重复菱形310、框312、和菱形314。

图4示出了用于从视频中检测表达情感的内容的示例性装置400。

装置400可以包括划分模块410，其被配置为将视频划分成多个片段。装置400还可以包括提取模块420，其被配置为从多个片段中的第一片段和至少一个第二片段提取与第一片段相关联的特征。第一片段和至少一个第二片段可以与彼此紧挨着。装置400还可以包括确定模块430，其被配置为基于与第一片段相关联的特征来确定第一片段是否表达情感。装置400还可以包括建立模块440，其被配置为如果第一片段表达情感，则基于与第一片段相关联的特征来建立包含所述第一片段的索引。

在本公开的实施例中，划分模块410还可以被配置为通过镜头检测、子镜头检测、语音检测、语音识别、和物体运动检测中的至少一个来将视频划分成多个片段。通过镜头检测、子镜头检测、语音检测、语音识别、和物体运动检测的组合，可以获得清晰的片段边界。

在本公开的实施例中，装置400还可以包括分析模块，其被配置为分析第一片段和至少一个第二片段。提取模块420还可以被配置为基于所述分析而从第一片段和至少一个第二片段提取与第一片段相关联的特征。分析模块还可以被配置为对第一片段和至少一个第二片段执行语音识别、面部识别、动作检测、人类姿势分类、面部情感分类、语音情感分类、场景分类、声音分类、相机运动检测、以及弹幕检测和分类中的至少一个。与第一片段相关联的特征可以包括从第一片段和至少一个第二片段提取的语音文字转录、动作或事件、人物姿势、人物身份、人物情感、场景类别、声音类别、相机运动、以及评论计数和类别中的至少一个。

在本公开的实施例中，确定模块430还可以被配置为通过经预先训练的模型基于与第一片段相关联的特征来确定第一片段是否表达情感。经预先训练的模型可以是利用训练数据集训练的用于识别表达情感的片段的分类器。

在本公开的实施例中，建立模块440还可以被配置为基于与第一片段相关联的特征以及与视频相关联的元数据来建立索引。所述元数据可以包括视频的标题、创作者、描述、演员、和角色中的至少一个。

在本公开的实施例中，装置400还可以包括丰富模块，其被配置为基于与第一片段相关联的特征来丰富包含来自网页的类似于第一片段的至少一个图像的图像索引。可以基于特征相似度而从图像索引中找到所述至少一个图像。

此外，装置400还可以包括被配置为实现与根据本公开的用于检测表达情感的内容的方法的任何步骤相对应的功能的任何其他模块。

图5示出了用于丰富图像索引的示例性装置500。

装置500可以包括划分模块510，其被配置为将视频划分成多个片段。装置500还可以包括提取模块520，其被配置为从多个片段中的第一片段提取特征。装置500还可以包括确定模块530，其被配置为基于从第一片段提取的特征来确定是否存在来自网页的类似于第一片段的至少一个图像。装置500还可以包括丰富模块540，其被配置为如果存在类似于第一片段的至少一个图像，则基于从第一片段提取的特征以及从多个片段中的第二片段提取的特征来丰富包含所述至少一个图像的图像索引。至少一个第二片段可以紧挨着第一片段。

在本公开的实施例中，装置500还可以包括分析模块，其被配置为对第一片段进行分析。提取模块520还可以被配置为基于所述分析而从第一片段提取特征。

在本公开的实施例中，分析模块可以被配置为对第一片段执行语音识别、面部识别、面目情感分类、语音情感分类、动作检测、人类姿势检测、场景分类、声音(例如，音乐)分类、相机运动检测、以及弹幕检测和分类中的至少一个。提取模块520还可以被配置为从第一片段提取语音文字转录、动作或事件、人物姿势、人物情感、人物身份、场景类别、声音类别、相机运动、评论计数和分类、以及其他特征中的至少一个。

在本公开的实施例中，装置500还可以包括获得模块，其被配置为获得与视频相关联的元数据。所述元数据可以包括视频的标题、创作者、描述、演员、和角色中的至少一个。丰富模块530还可以被配置为基于所述元数据来丰富包含至少一个类似图像的图像索引。

图6示出了用于检测表达情感的内容的示例性系统600。系统600可以包括一个或多个处理器610。系统600还可以包括与所述一个或多个处理器耦合的存储器620。存储器620可以存储计算机可执行指令，所述计算机可执行指令当被执行时，使得所述一个或多个处理器执行根据本公开的用于检测表达情感的内容的方法的任何步骤。

根据本公开，在图6中所示出的系统600还可以用于丰富图像索引。在该情况下，存储器620可以存储计算机可执行指令，所述计算机可执行指令当被执行时使得所述一个或多个处理器执行根据本公开的用于丰富图像索引的方法的任何步骤。

可以在非瞬时性计算机可读介质中实现本公开的方面。非瞬时性计算机可读介质可以包括指令，所述指令当被执行时，使得一个或多个处理器执行根据本公开的用于检测表达情感的内容的方法或用于丰富图像索引的方法的任何步骤。

已经结合各种装置和方法描述了处理器。这些处理器可以使用电子硬件、计算机软件或其任意组合来实现。这样的处理器被实现成硬件还是软件将取决于特定的应用以及施加在系统上的总体设计约束。作为示例，可以利用微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、状态机、门控逻辑、分立硬件电路、以及被配置用于执行本公开全文所描述的各种功能的其他合适的处理组件来实现在本公开中呈现的处理器、处理器的任何部分、或处理器的任何组合。可以利用被微处理器、微控制器、DSP、或其他合适的平台执行的软件来实现在本公开中呈现的处理器、处理器的任何部分、或者处理器的任何组合的功能。

应当将软件宽泛地解释为表示指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、执行线程、过程、功能等。软件可以驻留在计算机可读介质上。作为示例，计算机可读介质可以包括存储器，例如磁存储设备(例如，硬盘、软盘、磁带)、光盘、智能卡、闪速存储器设备、随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、寄存器、或可移动盘。尽管在本公开通篇中呈现的各种方面中，存储器被示出为与处理器是分离的，但存储器可以位于处理器内部(例如，高速缓存或寄存器)。

应当理解的是，所公开的方法中的步骤的顺序是示例性的过程的说明。基于设计偏好，可以理解的是可以重新安排这些方法中的步骤的顺序。

详细公开现在转到提供与另外的实施例有关的示例。以下提供的示例旨在是示例性的而非限制性的。

在一个示例中，一种用于从视频中检测表达情感的内容的方法可以包括：将所述视频划分成多个片段；从所述多个片段中的第一片段和至少一个第二片段提取与所述第一片段相关联的特征；基于与所述第一片段相关联的特征来确定所述第一片段是否表达情感；以及如果所述第一片段表达情感，则基于与所述第一片段相关联的特征来建立包含所述第一片段的索引。所述至少一个第二片段紧挨着所述第一片段。

在另一个示例中，所述划分可以包括：通过镜头检测、子镜头检测、语音检测、语音识别、和物体运动检测中的至少一个将所述视频划分成所述多个片段。

在另一个示例中，所述提取可以包括：分析所述第一片段和所述至少一个第二片段；以及基于所述分析来从所述第一片段和所述至少一个第二片段提取与所述第一片段相关联的特征。

在另一个示例中，所述分析可以包括：对所述第一片段和所述至少一个第二片段执行语音识别、面部识别、动作检测、人类姿势分类、面部情感分类、语音情感分类、场景分类、声音分类、相机运动检测、以及弹幕检测和分类中的至少一个。

在另一个示例中，与所述第一片段相关联的特征包括从所述第一片段和所述至少一个第二片段提取的语音文字转录、动作或事件、人物姿势、人物身份、人物情感、场景类别、声音类别、相机运动、以及评论计数和类别中的至少一个。

在另一个示例中，所述确定可以包括：通过经预先训练的模型基于与所述第一片段相关联的特征来确定所述第一片段是否表达情感。

在另一个示例中，所述建立还是基于与所述视频相关联的元数据的。所述元数据包括所述视频的标题、创作者、描述、演员、和角色中的至少一个。

在另一个示例中，所述方法还可以包括：基于与所述第一片段相关联的特征来丰富包含来自网页的类似于所述第一片段的至少一个图像的图像索引。

在另一个示例中，所述方法还可以包括：基于从所述第一片段提取的特征来搜索网页或包含从网页预先取回的图像的数据库以获得所述至少一个图像。

在另一个示例中，一种用于从视频中检测表达情感的内容的装置可以包括：划分模块，其被配置为将所述视频划分成多个片段；提取模块，其被配置为从所述多个片段中的第一片段和至少一个第二片段提取与所述第一片段相关联的特征；确定模块，其被配置为基于与所述第一片段相关联的特征来确定所述第一片段是否表达情感；以及建立模块，其被配置为如果所述第一片段表达情感，则基于与所述第一片段相关联的特征来建立包含所述第一片段的索引。

在另一个示例中，所述划分模块还可以被配置为：通过镜头检测、子镜头检测、语音检测、语音识别、和物体运动检测中的至少一个将所述视频划分成所述多个片段。

在另一个示例中，所述装置还可以包括分析模块，其被配置为分析所述第一片段和所述至少一个第二片段。所述提取模块还可以被配置为基于所述分析来从所述第一片段和所述至少一个第二片段提取与所述第一片段相关联的特征。

在另一个示例中，所述分析模块还可以被配置为：对所述第一片段和所述至少一个第二片段执行语音识别、面部识别、动作检测、人类姿势分类、面部情感分类、语音情感分类、场景分类、声音分类、相机运动检测、以及弹幕检测和分类中的至少一个。

在另一个示例中，与所述第一片段相关联的特征可以包括从所述第一片段和所述至少一个第二片段提取的语音文字转录、动作或事件、人物姿势、人物身份、人物情感、场景类别、声音类别、相机运动、以及评论计数和类别中的至少一个。

在另一个示例中，所述确定模块还可以被配置为通过经预先训练的模型基于与所述第一片段相关联的特征来确定所述第一片段是否表达情感。

在另一个示例中，所述建立模块还可以被配置为基于与所述第一片段相关联的特征以及与所述视频相关联的元数据来建立所述索引。所述元数据可以包括所述视频的标题、创作者、描述、演员、和角色中的至少一个。

在另一个示例中，所述装置还可以包括丰富模块，其被配置为基于与所述第一片段相关联的特征来丰富包含来自网页的类似于所述第一片段的至少一个图像的图像索引。

在另一个示例中，一种用于丰富图像索引的方法可以包括：将视频划分成多个片段；从所述多个片段中的第一片段提取特征；基于从所述第一片段提取的特征来确定是否存在来自网页的类似于所述第一片段的至少一个图像；以及如果存在所述至少一个图像，则基于从所述第一片段提取的特征以及从所述多个片段中的至少一个第二片段提取的特征来丰富包含所述至少一个图像的图像索引。所述第一片段和所述至少一个第二片段可以彼此紧挨着。

在另一个示例中，所述方法还可以包括分析所述第一片段。所述提取可以包括基于所述分析而从所述第一片段提取特征。

在另一个示例中，所述分析可以包括对所述第一片段执行语音识别、面部识别、动作检测、人类姿势分类、面部情感分类、语音情感分类、场景分类、声音分类、相机运动检测、以及弹幕检测和分类中的至少一个。

在另一个示例中，从所述第一片段提取的特征可以包括从所述第一片段提取的语音文字转录、动作或事件、人物姿势、人物身份、人物情感、场景类别、声音类别、相机运动、以及评论计数和类别中的至少一个。

在另一个示例中，所述方法还可以包括：获得与所述视频相关联的元数据。所述丰富可以包括基于所述元数据来丰富所述图像索引。所述元数据可以包括所述视频的标题、创作者、描述、演员、和角色中的至少一个。

在另一个示例中，一种用于丰富图像索引的装置可以包括：划分模块，其被配置为将视频划分成多个片段；提取模块，其被配置为从所述多个片段中的第一片段提取特征；确定模块，其被配置为基于从所述第一片段提取的特征来确定是否存在来自网页的类似于所述第一片段的至少一个图像；以及丰富模块，其被配置为如果存在所述至少一个图像，则基于从所述第一片段提取的特征以及从所述多个片段中的至少一个第二片段提取的特征来丰富包含所述至少一个图像的图像索引。所述第一片段和所述至少一个第二片段可以彼此紧挨着。

在另一个示例中，所述装置还可以包括：分析模块，其被配置为分析所述第一片段。所述提取模块还可以被配置为包括基于所述分析而从所述第一片段提取特征。

在另一个示例中，所述分析模块可以被配置为包括对所述第一片段执行语音识别、面部识别、动作检测、人类姿势分类、面部情感分类、语音情感分类、场景分类、声音分类、相机运动检测、以及弹幕检测和分类中的至少一个。

在另一个示例中，所述装置还可以包括：获得模块，其被配置为获得与所述视频相关联的元数据。所述丰富模块还可以被配置为基于所述元数据来丰富所述图像索引。所述元数据可以包括所述视频的标题、创作者、描述、演员、和角色中的至少一个。

在另一个示例中，一种系统可以包括：一个或多个处理器；以及存储计算机可执行指令的存储器，所述计算机可执行指令当被执行时，使得所述一个或多个处理器执行根据本公开的方法。

提供先前的描述以使得本领域技术人员能够实践在本文中所描述的各种方面。对本领域技术人员而言，对这些方面进行的各种修改都将是显而易见的，并且本文中定义的一般原理可以应用于其他方面。因此，权利要求不是要限于在本文中所示出的方面。本领域技术人员已知或者以后将知道的、在本公开通篇中所描述的各种方面的元素的所有结构和功能等同物通过引用明显地并入本文中，并且旨在由权利要求所涵盖。

Claims

1.一种用于从视频中检测表达情感的内容的方法，所述方法包括：

将所述视频划分成多个片段；

从所述多个片段中的第一片段和至少一个第二片段提取与所述第一片段相关联的特征；

基于与所述第一片段相关联的所述特征来确定所述第一片段是否表达情感；以及

如果所述第一片段表达情感，则基于与所述第一片段相关联的所述特征来建立包含所述第一片段的索引。

2.如权利要求1所述的方法，其中，所述至少一个第二片段紧挨着所述第一片段。

3.如权利要求1所述的方法，其中，所述划分包括：

通过镜头检测、子镜头检测、语音检测、语音识别、和物体运动检测中的至少一个将所述视频划分成所述多个片段。

4.如权利要求1所述的方法，其中，所述提取包括：

分析所述第一片段和所述至少一个第二片段；以及

基于所述分析来提取与所述第一片段相关联的所述特征。

5.如权利要求4所述的方法，其中，所述分析包括：

对所述第一片段和所述至少一个第二片段执行语音识别、面部识别、动作检测、人类姿势分类、面部情感分类、语音情感分类、场景分类、声音分类、相机运动检测、以及弹幕检测和分类中的至少一个。

6.如权利要求1所述的方法，其中，与所述第一片段相关联的所述特征包括从所述第一片段和所述至少一个第二片段提取的语音文字转录、动作或事件、人物姿势、人物身份、人物情感、场景类别、声音类别、相机运动、以及评论计数和类别中的至少一个。

7.如权利要求1所述的方法，其中，所述确定包括：

通过经预先训练的模型基于与所述第一片段相关联的所述特征来确定所述第一片段是否表达情感。

8.如权利要求1所述的方法，其中，所述建立还是基于与所述视频相关联的元数据的。

9.如权利要求8所述的方法，其中，所述元数据包括所述视频的标题、创作者、描述、演员、和角色中的至少一个。

10.如权利要求1所述的方法，还包括：

基于与所述第一片段相关联的所述特征来丰富包含来自网页的类似于所述第一片段的至少一个图像的图像索引。

11.如权利要求10所述的方法，还包括：

基于从所述第一片段提取的特征来搜索网页或包含从网页预先取回的图像的数据库以获得所述至少一个图像。

12.一种用于从视频中检测表达情感的内容的装置，所述装置包括：

划分模块，其被配置为将所述视频划分成多个片段；

提取模块，其被配置为从所述多个片段中的第一片段和至少一个第二片段提取与所述第一片段相关联的特征；

确定模块，其被配置为基于与所述第一片段相关联的所述特征来确定所述第一片段是否表达情感；以及

建立模块，其被配置为如果所述第一片段表达情感，则基于与所述第一片段相关联的所述特征来建立包含所述第一片段的索引。

13.如权利要求12所述的装置，其中，所述至少一个第二片段紧挨着所述第一片段。

14.如权利要求12所述的装置，其中，所述划分模块还被配置为：

15.如权利要求12所述的装置，还包括分析模块，其被配置为分析所述第一片段和所述至少一个第二片段，并且其中，所述提取模块还被配置为基于所述分析来提取与所述第一片段相关联的所述特征。

16.如权利要求15所述的装置，其中，所述分析模块还被配置为：

17.如权利要求12所述的装置，其中，与所述第一片段相关联的所述特征包括从所述第一片段和所述至少一个第二片段提取的语音文字转录、动作或事件、人物姿势、人物身份、人物情感、场景类别、声音类别、相机运动、以及评论计数和类别中的至少一个。

18.如权利要求12所述的装置，其中，所述建立模块还被配置为基于与所述第一片段相关联的所述特征以及与所述视频相关联的元数据来建立所述索引。

19.如权利要求12所述的装置，还包括：

丰富模块，其被配置为基于与所述第一片段相关联的所述特征来丰富包含来自网页的类似于所述第一片段的至少一个图像的图像索引。

20.一种系统，包括：

一个或多个处理器；以及

存储计算机可执行指令的存储器，所述计算机可执行指令当被执行时，使得所述一个或多个处理器执行根据权利要求1-11的方法。