CN116349234A

CN116349234A - 利用元数据的多模式游戏视频摘要

Info

Publication number: CN116349234A
Application number: CN202180070570.6A
Authority: CN
Inventors: L·考希克; S·库马尔; J·俞; K·张; S·霍拉姆; S·拉奥; R·桑达拉姆
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2020-09-03
Filing date: 2021-09-03
Publication date: 2023-06-27
Also published as: JP2023540537A; US20220067385A1; TWI797740B; WO2022051638A1; EP4208817A1; TW202223732A

Abstract

由机器学习引擎(202)处理来自计算机模拟的视频(416)和音频(414)以识别(204)所述模拟的候选片段以在所述模拟的视频摘要中使用。然后使用文本输入(410)来加强候选片段是否应当被包括在所述视频摘要中。可将元数据添加(1404)到所述摘要，从而显示游戏摘要信息。

Description

利用元数据的多模式游戏视频摘要

技术领域

本申请总体上涉及计算机模拟和其他应用中的多模式游戏视频摘要。

背景技术

计算机模拟视频或其他视频的视频摘要将生成用于快速查看例如观赛平台或在线游戏平台的精彩部分的简洁视频，以增强观赛体验。如本文所理解的，自动生成有效的摘要视频是困难的，并且手动生成摘要是耗时的。

发明内容

一种设备包括：至少一个处理器，所述至少一个处理器编程有用于以下的指令：接收音频视频(AV)数据；以及至少部分地通过向机器学习(ML)引擎输入第一模态数据来提供所述AV数据的比所述AV数据短的视频摘要。所述指令还能够执行以向所述ML引擎输入第二模态数据。另外，所述指令能够执行以响应于所述第一模态数据和所述第二模态数据的所述输入而从所述ML引擎接收所述AV数据的所述视频摘要，并且在视频数据中呈现时间上与所述第一模态数据和所述第二模态数据对齐的元数据，使得所述元数据在所述视频摘要中能感知到。

所述第一模态数据可包括来自所述AV数据的音频，并且所述第二模态数据可包括来自所述AV数据的计算机模拟视频。

在示例性实施方案中，所述元数据可表示游戏事件数据、情感、音频和从所述AV数据提取的视频特征以及对所述AV数据的某些部分的喜欢。

在非限制性示例中，所述指令可能够执行以突出视频的作为所述元数据的主题的部分。如果需要，所述指令可能够执行以作为文本在所述视频摘要中呈现所述元数据。

在另一方面，一种方法包括：识别音频视频(AV)实体；以及使用来自所述AV实体的音频，识别所述AV实体的多个第一候选片段以用于建立所述实体的摘要。所述方法还包括：使用来自所述AV实体的视频，识别所述AV实体的多个第二候选片段以用于建立所述实体的摘要。另外，所述方法包括：使用所述多个第一候选片段和所述多个第二候选片段中的至少一些，生成所述AV实体的比所述AV实体短的视频摘要；以及以人类可感知形式在所述视频摘要中呈现与所述视频摘要相关的元数据。

在另一方面，一种组件包括：至少一个显示设备，所述至少一个显示设备被配置来呈现音频视频(AV)计算机游戏；以及至少一个处理器，所述至少一个处理器与所述显示设备相关联并且配置有用于以下的指令：执行机器学习(ML)引擎以生成所述计算机游戏的比所述计算机游戏短的视频摘要。所述指令能够执行以在视频数据中呈现源自游戏玩法和/或所述ML引擎的元数据。

本申请的关于其结构和操作两者的细节可参考附图得到最好的理解，在附图中相同的附图标记指代相同的部分，并且在附图中：

附图说明

图1是示例性系统的框图，其示出计算机部件，所述计算机部件中的一些或全部可在各种实施方案中使用；

图2示出使用机器学习(ML)引擎生成完整视频的视频摘要；

图3以示例性流程图格式示出总体逻辑；

图4示出多模式摘要的示例性架构；

图5以示例性流程图格式示出用于声学事件检测的示例性逻辑；

图6以示例性流程图格式示出用于声学事件检测的附加示例性逻辑；

图7示出声学事件；

图8和图9以图形方式示出声学输入；

图10示出用于输出言语特征的示例性ML引擎或深度学习模型；

图11是用于处理情感检测的示例性系统的框图；

图12示出用于摘要的游戏音频处理；

图13示出用于摘要的文本情绪和主题提取；并且

图14示出元数据使用的各方面。

具体实施方式

本公开总体上涉及计算机生态系统，所述计算机生态系统包括消费型电子(CE)装置网络的各方面，诸如但不限于计算机游戏网络。本文中的系统可包括可通过网络连接的服务器部件和客户端部件，使得可在客户端部件与服务器部件之间交换数据。客户端部件可包括一个或多个计算装置，所述计算装置包括游戏控制台(诸如Sony

或由微软(Microsoft)或任天堂(Nintendo)或其他制造商制作的游戏控制台)、虚拟现实(VR)头戴式耳机、增强现实(AR)头戴式耳机、便携式电视机(例如智能TV、支持互联网的TV)、便携式计算机(诸如膝上型计算机和平板计算机)以及其他移动装置(包括智能电话和下文讨论的附加示例)。这些客户端装置可在多种操作环境中操作。例如，一些客户端计算机可采用例如Linux操作系统、来自微软的操作系统、或Unix操作系统、或由苹果公司(Apple,Inc.)或谷歌(Google)生产的操作系统。可使用这些操作环境来执行一个或多个浏览程序，诸如由微软或谷歌或摩斯拉(Mozilla)制作的浏览器或可访问由下文讨论的互联网服务器托管的网站的其他浏览器程序。此外，可使用根据本发明原理的操作环境来执行一个或多个计算机游戏程序。

服务器和/或网关可包括执行指令的一个或多个处理器，所述指令将服务器配置来通过诸如互联网的网络接收和传输数据。或者，客户端和服务器可经由本地内联网或虚拟专用网络连接。服务器或控制器可由游戏控制台(诸如Sony

)、个人计算机等实例化。

可通过网络在客户端与服务器之间交换信息。为此，并且出于安全起见，服务器和/或客户端可包括防火墙、负载平衡器、临时存储装置和代理以及用于可靠性和安全性的其他网络基础设施。一个或多个服务器可形成一种设备，所述设备实施向网络成员提供安全社区(诸如在线社交网站)的方法。

处理器可以是单芯片或多芯片处理器，所述单芯片或多芯片处理器可借助于各种线(诸如地址线、数据线和控制线)以及寄存器和移位寄存器来执行逻辑。

一个实施方案中包括的部件可以任何适当的组合用于其他实施方案中。例如，本文中所描述且/或图中所描绘的各种部件中的任一者可组合、互换或从其他实施方案排除。

“具有A、B和C中的至少一者的系统”(同样地，“具有A、B或C中的至少一者的系统”和“具有A、B、C中的至少一者的系统”)包括：仅具有A的系统；仅具有B的系统；仅具有C的系统；同时具有A和B的系统；同时具有A和C的系统；同时具有B和C的系统；和/或同时具有A、B和C的系统等。

现在具体地参考图1，示出了示例性系统10，所述示例性系统可包括根据本发明原理的上文所提及且下文进一步描述的示例性装置中的一者或多者。系统10中所包括的示例性装置中的第一装置是消费型电子(CE)装置，诸如音频视频装置(AVD)12，诸如但不限于带有TV调谐器(等效地，控制TV的机顶盒)的支持互联网的TV。替代地，AVD 12还可以是计算机化的支持互联网的(“智能”)电话、平板计算机、笔记本计算机、HMD、可穿戴计算机化装置、计算机化的支持互联网的音乐播放器、计算机化的支持互联网的头戴式耳机、计算机化的支持互联网的可植入装置(诸如可植入皮肤装置)等。无论如何，应当理解，AVD 12被配置来实施本发明原理(例如，与实施本发明原理的其他CE装置通信，执行本文所述的逻辑，并且执行本文所述的任何其他功能和/或操作)。

因此，为了实施此类原理，AVD 12可由图1所示的部件中的一些或全部建立。例如，AVD 12可包括一个或多个显示器14，所述一个或多个显示器可由高清晰度或超高清晰度“4K”或更高的平面屏幕实现，并且可以是支持触摸的以用于经由显示器上的触摸来接收用户输入信号。AVD 12可包括一个或多个扬声器16以用于根据本发明原理输出音频，并且包括至少一个附加输入装置18(诸如音频接收器/麦克风)以用于向AVD 12输入可听命令来控制AVD 12。示例性AVD 12还可包括一个或多个网络接口20以在一个或多个处理器24的控制下通过至少一个网络22(诸如互联网、WAN、LAN等)进行通信。还可包括图形处理器24A。因此，接口20可以是但不限于Wi-Fi收发器，所述Wi-Fi收发器是无线计算机网络接口的示例，诸如但不限于网状网络收发器。应当理解，处理器24控制AVD 12、包括AVD 12的本文所述的其他元件以实施本发明原理，诸如控制显示器14在其上呈现图像以及从所述显示器接收输入。此外，需注意，网络接口20可以是有线或无线调制解调器或路由器，或其他适当的接口，诸如无线电话收发器或如上文所提及的Wi-Fi收发器等。

除前述项之外，AVD 12还可包括一个或多个输入端口26，诸如物理连接到另一个CE装置的高清晰度多媒体接口(HDMI)端口或USB端口和/或将耳机连接到AVD 12以通过耳机将来自AVD 12的音频呈现给用户的耳机端口。例如，输入端口26可有线或无线地连接到音频视频内容的有线或卫星源26a。因此，源26a可以是分离的或集成的机顶盒，或卫星接收器。或者，源26a可以是包含内容的游戏控制台或磁盘播放器。源26a在实现为游戏控制台时可包括下文关于CE装置44描述的部件中的一些或全部。

AVD 12还可包括不是瞬态信号的一个或多个计算机存储器28，诸如基于磁盘的存储装置或固态存储装置，在一些情况下，所述一个或多个计算机存储器体现为AVD的机箱中的独立装置，或者体现为在AVD的机箱内部或外部的用于回放AV节目的个人视频记录装置(PVR)或视频磁盘播放器，或者体现为可移除存储器介质。此外，在一些实施方案中，AVD 12可包括位置或定位接收器，诸如但不限于蜂窝电话接收器、GPS接收器和/或测高仪30，其被配置来从卫星或蜂窝电话基站接收地理位置信息，并且将所述信息提供给处理器24和/或结合处理器24确定AVD 12被设置的高度。部件30还可由惯性测量单元(IMU)实现，所述IMU通常包括加速度计、陀螺仪和磁力计的组合以确定AVD 12在三维中的位置和取向。

继续对AVD 12的描述，在一些实施方案中，AVD 12可包括一个或多个相机32，所述一个或多个相机可以是热成像相机、数字相机(诸如网络摄像头)和/或集成到AVD 12中并且能够由处理器24控制以根据本发明原理采集图片/图像和/或视频的相机。AVD 12上还可包括蓝牙收发器34和其他近场通信(NFC)元件36，以分别使用蓝牙和/或NFC技术与其他装置进行通信。示例性NFC元件可以是射频识别(RFID)元件。

此外，AVD 12可包括向处理器24提供输入的一个或多个辅助传感器37(例如，运动传感器(诸如加速度计、陀螺仪、计程器或磁传感器)、红外(IR)传感器、光学传感器、速度和/或节奏传感器、手势传感器(例如，用于感测手势命令)。AVD 12可包括空中TV广播端口38，以用于接收向处理器24提供输入的OTA TV广播。除前述项之外，应注意，AVD 12还可包括红外(IR)发射器和/或IR接收器和/或IR收发器42，诸如IR数据关联(IRDA)装置。电池(未示出)可被提供用于给AVD 12供电，如可以是动能采集器，所述动能采集器可将动能转变为电力来给电池充电和/或给AVD 12供电。

仍参考图1，除AVD 12之外，系统10还可包括一个或多个其他CE装置类型。在一个示例中，第一CE装置44可以是计算机游戏控制台，所述计算机游戏控制台可用于经由直接发送到AVD 12的命令和/或通过下述服务器将计算机游戏的音频和视频发送到AVD 12，而第二CE装置46可包括与第一CE装置44类似的部件。在所示的示例中，第二CE装置46可配置为由玩家操纵的计算机游戏控制器或由玩家47穿戴的头戴式显示器(HMD)。在所示的示例中，仅示出了两个CE装置44、46，应理解，可使用更少或更多的装置。本文的装置可实现针对AVD 12所示的部件中的一些或全部。在随后的附图中示出的部件中的任一者都可结合在AVD 12的情况下示出的部件中的一些或全部。

现在参考前面提及的至少一个服务器50，所述至少一个服务器包括至少一个服务器处理器52、至少一个有形计算机可读存储介质54(诸如基于磁盘的存储装置或固态存储装置)，以及至少一个网络接口56，所述至少一个网络接口在服务器处理器52的控制下允许通过网络22与图1的其他装置进行通信，并且实际上可根据本发明原理促进服务器与客户端装置之间的通信。应注意，网络接口56可以是例如有线或无线调制解调器或路由器、Wi-Fi收发器或其他适当接口(诸如例如无线电话收发器)。

因此，在一些实施方案中，服务器50可以是互联网服务器或整个服务器“农场”，并且在用于例如网络游戏应用程序的示例性实施方案中，服务器可包括和执行“云”功能，使得系统10的装置可经由服务器50来访问“云”环境。或者，服务器50可由一个或多个游戏控制台或者与图1所示的其他装置在同一房间中或在附近的其他计算机来实现。

图2示出可由本文所述的任何适当处理器执行的总体逻辑。从框200处开始，识别音频视频(AV)实体诸如完整计算机模拟或计算机游戏记录或流并将其输入到机器学习(ML)引擎202。ML引擎202可包括如下文进一步描述的一个或多个单独ML模型，所述一个或多个单独ML模型在204处输出在框200处接收到的AV实体的视频摘要，其中视频摘要204比AV实体200短并且包含来自AV实体的ML引擎202已识别为令人感兴趣的精彩部分的一系列片段。

应当理解，首先从AV实体的视频中剥离音频，然后在时间上对齐音频和视频(例如，使用时间戳)并且由相应的ML模型以长度上可为例如五秒或其他周期的片段对其进行处理。所述片段彼此邻接并且一起构成AV实体。每个ML模型输出令人感兴趣的片段的概率，并且来自音频或视频处理的概率满足阈值的片段是用于包括在视频摘要204中的候选者，视频摘要包括所选择片段的音频和视频，如果需要，加上所选择片段两侧的X秒AV内容。如下文进一步讨论，虽然音频和视频两者都用于识别用于视频摘要的候选片段，但为了避免过度包括(以及因此过长的视频摘要)，可使用来自与AV实体相关联的聊天的文本来加强所识别的片段。这通过剔除来自聊天的相关联文本指示不如其他候选片段令人感兴趣的候选片段而将包括在视频摘要中的片段的总长度基本上限制为不超过完整AV实体的预定义的百分比。

ML模型可如图3所示通过输入数据训练集来训练，所述数据训练集将在AV实体中可接收到的数据的类型与关于此数据的期望决策关联。在示例中，可使用来自在线服务的游戏玩法视频，并且游戏玩法视频中的数据由专家加注释，以使ML模型能够学习什么数据是令人感兴趣的事件的良好指标，使得ML模型可指示AV实体的适合于并入摘要“精彩部分”视频中的片段。

从框300处开始，将数据训练集输入到ML引擎，诸如通过将训练集输入到将处理AV实体中的相应类型的数据的各种ML模型。如下文进一步讨论，在框302处，ML引擎组合两种或更多种数据类型模式的特征向量以在304处输出AV实体的视频摘要，视频摘要的预测的有效性可被加注释并馈送回ML引擎以细化其处理。

图4示出ML模型架构。事件相关性检测器(ERD)400接收来自声学事件检测器402、音高和力度检测器404以及言语情感辨识器406的输入。音高和力度检测器识别音频中的语音音高和语音力度。ERD 400可包括应用于从检测器402、404和辨识器406接收的输入概率(所述输入概率可由一个或多个ML模型实现)以生成视频摘要的一组启发式规则。或者，ERD400可包括被训练来基于其输入生成视频摘要的ML模型。

声学事件检测器402被训练来识别AV实体的音频片段中指示令人感兴趣的内容并且因此指示特定片段是用于包括在视频摘要中的候选者的事件。声学事件检测器402在下文进一步加以描述，并且可包括基于预定义为“令人感兴趣”的事件的训练集来将声学事件识别为令人感兴趣的一层或多层卷积神经网络(CNN)。

类似地，音高和力度检测器404是被训练来识别音频的言语中指示令人感兴趣的内容的音高和力度的ML模型。示例有：较高的语音音高表明比较低的音高更令人感兴趣，或者较宽的音高变化表明比较窄的变化更令人感兴趣，以及较响亮的语音表明比较轻的言语更令人感兴趣。在存在令人兴奋的事物的情况下以及当发生令人感兴趣的事件时，音高变化显著不同，并且这可在他们的语音/言语中检测到。因此，可将言语中具有高力度和突然变化的声音区域分类为候选区域中的一个以用于精彩部分生成。

言语情感ML模型406被训练来识别音频中的情感以识别令人感兴趣的情感。可使用类别情感检测和维度情感检测中的一种或两种。类别情感检测可检测多个(例如，十个)不同类别的情感，诸如但不限于快乐、悲伤、愤怒、期待、恐惧、孤独、嫉妒和厌恶。维度情感检测具有两个变量，即唤醒和效价。

图4还示出ERD 400接收来自文本主题提取器模型408的输入，所述文本主题提取器模型被训练来识别与跟AV实体相关的聊天诸如计算机游戏聊天相关联的文本的主题。观看者在游戏聊天中使用表情符号是很常见的；因此，表情符号也包含在检测主题方面至关重要的信息。所述信息可通过将表情符号转换为对应文本的方法来解决。所述信息可用作主题检测模块的附加信息。主题可从给定AV主题域的预定义词汇表或注释中识别。例如，对于战争游戏，可使用第一词汇表或第一组注释来识别令人感兴趣的主题，而对于电子竞技，可使用第二词汇表或第二组注释来识别令人感兴趣的主题，其中文本主题提取器被训练来基于词汇表或注释识别文本主题以及哪些主题指示感兴趣的片段。主题检测可使用统计方法诸如潜在狄利克雷分布(LDA)来实现，所述统计方法将聊天中的文本分类为特定主题。聊天可单独进行，也可分组在一起以提高性能。现代基于深度学习的自然语言处理(NLP)技术也可用于主题建模。基于变换器的双向编码器表示(BERT)可用于执行NLP中的下游任务，诸如主题检测、情绪分类。除了这些技术之外，还可采用使用BERT、LDA和聚类的混合模型来检测可被视为候选事件的文本片段。

ERD 400还可接收来自文本情绪分析器或检测器模型410的输入，所述文本情绪分析器或检测器模型被训练来识别参数，所述参数诸如但不限于与跟AV实体相关的聊天412相关联的文本中的情绪和情感。情绪不同于情感，因为情绪通常是积极的或消极的，而情感更具体，如下文进一步讨论。例如，积极情绪可与令人感兴趣的片段关联，并且消极情绪可与不太令人感兴趣的片段关联。

ERD 400接收来自本文所述的ML模型的概率以基于片段的满足阈值的基于音频或基于视频的概率来识别AV实体的多个候选片段。ERD 400基于基于聊天文本的概率来选择多个候选片段的子集，以建立视频摘要。

图4示出已经从正被概括的AV实体的视频416中分离出的音频414被输入到声学事件检测器402。音频还被输入到言语源分离模型418，所述言语源分离模型使用例如语音和/或言语辨识原理分离不同信道中的音频中的语音，将被分析的片段中的每个单独语音轨道输出到言语音高和力度检测器404。类似地，每个语音轨道被发送到言语情感检测器406，以用于对每个语音进行单独的情感分析。

此外，每个语音轨道可被输入到自动言语辨识(ASR)模型420，所述自动言语辨识模型将每个轨道的言语转换为字词并且将指示如由模型的训练集定义的感兴趣术语的字词的概率发送到ERD 400。自动言语辨识模型420还可基于无言语的长时段来将片段识别为不令人感兴趣的。

如图4所示，ML引擎还包括场景变化检测器ML模型422，所述场景变化检测器ML模型接收每个片段的AV实体视频416并且被训练来识别视频中的场景变化。视频还被输入到文本检测器424，所述文本检测器检测视频中的任何文本，诸如隐藏式字幕。基于视频的ML模型分别将令人感兴趣的场景变化/视频文本的概率发送到ERD 400。

现在转到ML引擎的聊天文本部分。聊天可用于加强基于视频和音频的摘要预测。如图4所示，聊天用户聚类426可与聊天转录412结合使用，作为到包括文本情绪检测器410和主题提取模型408的各种基于聊天的ML模型的输入。另外，文本情感检测器模型428可被训练来检测聊天文本中的情感，基于预定义的令人感兴趣情感的训练集和令人感兴趣情感关联的术语来将令人感兴趣情感的概率输出到ERD 400。

命名实体辨识(NER)和方面检测(NERAD)模型430可用于基于将字词与令人感兴趣和不令人感兴趣语法类型关联的训练集来输出在输入文本中检测到的令人感兴趣语法类型的概率。例如，NERAD模型430可输出术语是专有名词的概率，专有名词可被预定义为比形容词更令人感兴趣。NERAD模型430还可输出片段中的文本的简短摘要指示令人感兴趣或不令人感兴趣的片段的概率。

需注意，聊天文本可包括在一些情况下可能需要用户购买才能使用的“贴图”或表情符号，这意味着将这种贴图附加到聊天可表明对对应片段有更大的兴趣以加强源自其他模态的学习。

进一步需注意，除了接收来自聊天412的文本之外，基于聊天文本的模型还可接收来自自动言语辨识模型420的术语以连同聊天文本中的术语一起处理。

图4还示出来自游戏控制台引擎434的游戏事件数据432可被发送到ERD 400。此数据可包括元数据，诸如游戏状态、音频提示、视频提示和文本提示。也就是说，如果引擎434可访问游戏状态和其他元数据，则游戏状态和其他元数据可被提供给ERD。这种元数据在下文参考图14进一步加以讨论。

图5示出用于声学事件检测器402的附加逻辑。从框500处开始，将输入音频信号划分成训练/测试集，并且在框502处将音频信号压缩为特征向量。在框504处使用来自框502的特征来训练声学事件检测器402的NN。在框506处确定声学事件检测器402的准确度以用于训练过程中的反馈。

图6示出在训练之后，声学事件检测器402在框600处预测其针对要概括的AV实体分析的每个片段中的声音事件的概率分数。在框602处检测没有声音的区域。如604处所指示，随着音频被连续地馈送到声学事件检测器402中以将概率递送到ERD 400，这些结果被连续地生成。如先前所指示并且如图6所示，可将“N”秒紧邻的前后片段添加到视频摘要的候选的令人感兴趣片段。

图7示出声学事件检测器402可分析音频信号700以识别各种类型702的事件，诸如大笑、叹息、唱歌、咳嗽、欢呼、鼓掌、发出嘘声和喊叫。基于训练集，事件中的一些指示令人感兴趣的片段，并且一些可指示不令人感兴趣的片段。同样，表情符号704可伴随所识别的事件以用于进一步分类。

图8至图11示出言语情感检测器模型406的另外的方面。如图8和图9所示，来自AV实体的多个片段800的音频可分解成类别和维度902，包括暴怒、冷怒、无情感、惊讶、轻蔑、悲伤、快乐等。这些类别是基于它们在图9的图表中出现的位置，其中x轴表示效价并且y轴表示唤醒。

图10示出具有三个并行处理路径的示例性模型架构，第一路径1000用于效价(被动或消极)，第二路径1002用于唤醒(主动或不主动)，并且第三路径1004用于类别情感分类。每个路径接收言语特征1006作为输入，并且按顺序通过公共双向长短期记忆(BLSTM)1008、然后各自的路径BLSTM 1010、注意力层1012和深度神经网络(DNN)1014来处理所述输入。本文中的其他模型可采用类似的神经网络部件。

图11示出音频信号片段1102中体现的言语1100被输入到语音活动检测(VAD)框1104以检测言语的存在或不存在并且区分言语与非言语。VAD 1104的输出被发送到图10的情感检测架构，以用于将情感类别、效价和唤醒的概率输出到决策流水线1106。如本文其他地方所讨论，决策流水线1106确定任何给定情感的概率是否满足阈值，如果满足并且情感被训练集定义为令人感兴趣，则将从中获得待测试片段的AV内容的对应片段标记为用于包括在视频摘要中的候选者。

图12示出言语音高和力度检测器404的另外的方面。使用源自正被概括的AV实体的片段的音频片段1200来计算1202信号功率(即，振幅)，以识别片段中的令人感兴趣区域，如在模型的训练集中所定义。这些区域在1204处的功率图中示出，其中x轴表示时间并且y轴表示振幅。

另外，如1206处所指示，识别信号1200的基频变化(音高变化)。这些变化在1208处指示。模型被训练来从变化的形状中识别令人感兴趣的片段。如上文关于图4所讨论的ASR和NER可在此训练中使用。

图13示出两个示例性音频参数的决策流水线流程，在所示的示例中，文本主题提取器408输出聊天文本的主题1300的概率，并且文本情绪分析器410输出聊天文本的情绪1302的概率，应理解，类似的决策管线可用于示出其他参数和其他模式的概率。如果在状态1304处来自文本主题提取器408的识别为“令人感兴趣”的主题的概率满足第一阈值α，则将从中提取主题的片段发送到状态1306作为视频摘要的候选片段。否则，片段不会被标记为候选者。同样，如果在状态1308处来自文本情绪分析器410的识别为“令人感兴趣”的情绪的概率满足第二可能不同的阈值β，则将从中提取情绪的片段发送到状态1306作为视频摘要的候选片段。否则，片段不会被标记为候选者。如先前所讨论，假设同一片段被音频或视频模态模型识别为令人感兴趣、另外被聊天文本模态识别为令人感兴趣可确保将所述片段包括在视频摘要中，而同一片段不被聊天文本模态识别为令人感兴趣可导致在有必要将摘要的长度保持在最大允许长度内的情况下，仍然将所述片段从视频摘要中排除。

需注意，在ERD 400由ML模型实现的实施方案中，可使用一组音频、视频和聊天文本概率以及源自其的如由人类注释者生成的对应视频摘要来训练ERD模型。

图14示出用于结合上述原理使用的上文所述的元数据的各方面。元数据可源自文本和/或视频和/或音频以及如图4所描述的游戏元数据。应当理解，在不具有元数据的实现方式中，视频摘要ML引擎是平台无关的并且仅仅提供输入AV实体的视频摘要。图14示出在提供元数据时可使用的附加特征。元数据在时间上与视频摘要的音频、视频和聊天文本对齐。

如分别在1400处和1402处所指示，元数据可从图4中的游戏事件数据434以及本文所述的ML引擎两者接收。例如，与NER主题和方面检测主题相关的元数据，连同如本文所述提取的情感、音频和视频特征以及游戏事件数据一起可在框1404处用于生成要叠加到AV片段的音频上的特殊音频，从而建立视频摘要。音频可包括例如由元数据特征所指示的人群欢呼或嘘声。音频可包括由游戏元数据驱动的音频消息，诸如响应于指示“野兽在这里被杀死”这种事件的游戏元数据的口头消息“野兽在这里被杀死”。换句话讲，音频元数据可在元数据事件和信息到达时通告它们。

框1406指示视频的作为当前时间对齐的元数据的主题的部分可通过例如增加所述部分的亮度、在所述部分周围呈现一条线等来明显地突出。例如，如果元数据包括专有名词(角色的名称)，则此角色可在元数据涉及的时间期间在视频摘要中被突出。换句话讲，元数据中的任何或全部都可通过突出视频摘要的相关联部分来在视觉上指示。

元数据还可在框1408处用于生成可叠加在视频摘要上的文本。相应地，元数据中的任何或全部都可以文本方式呈现在视频摘要的一部分上。此元数据可包括对在视频摘要中概括的AV实体的某些部分表达了喜欢的人、如源自方面检测块的在视频摘要中呈现的主题、表示元数据中所指示的情感的表情符号等。

应了解，虽然已经参考一些示例性实施方案描述了本发明原理，但这些实施方案并不意图进行限制性，并且可使用各种替代布置来实现本文所要求保护的主题。

Claims

1.一种设备，其包括：

至少一个处理器，所述至少一个处理器编程有用于以下的指令：

接收音频视频(AV)数据；

至少部分地通过以下方式提供所述AV数据的比所述AV数据短的视频摘要：

向机器学习(ML)引擎输入第一模态数据；

向所述ML引擎输入第二模态数据；

响应于所述第一模态数据和所述第二模态数据的所述输入而从所述ML引擎接收所述AV数据的所述视频摘要；以及

在视频数据中呈现时间上与所述第一模态数据和所述第二模态数据对齐的元数据，使得所述元数据在所述视频摘要中能感知到。

2.如权利要求1所述的设备，其中所述第一模态数据包括来自所述AV数据的音频，并且所述第二模态数据包括来自所述AV数据的计算机模拟视频。

3.如权利要求1所述的设备，其中所述元数据表示游戏事件数据。

4.如权利要求1所述的设备，其中所述元数据表示情感。

5.如权利要求1所述的设备，其中所述元数据表示从所述AV数据提取的音频和视频特征。

6.如权利要求1所述的设备，其中所述指令能够执行以：

突出视频的作为所述元数据的主题的部分。

7.如权利要求1所述的设备，其中所述指令能够执行以：

作为文本在所述视频摘要中呈现所述元数据。

8.如权利要求1所述的设备，其中所述元数据指示对所述AV数据的某些部分的喜欢。

9.一种方法，其包括：

识别音频视频(AV)实体；

使用来自所述AV实体的音频，识别所述AV实体的多个第一候选片段以用于建立所述实体的摘要；

使用来自所述AV实体的视频，识别所述AV实体的多个第二候选片段以用于建立所述实体的摘要；

使用所述多个第一候选片段和所述多个第二候选片段中的至少一些，生成所述AV实体的比所述AV实体短的视频摘要；以及

以人类可感知形式在所述视频摘要中呈现与所述视频摘要相关的元数据。

10.如权利要求9所述的方法，其中所述元数据表示游戏事件数据。

11.如权利要求9所述的方法，其中所述元数据表示情感。

12.如权利要求9所述的方法，其中所述元数据表示从所述AV数据提取的音频和视频特征。

13.如权利要求9所述的方法，其包括：

突出视频的作为所述元数据的主题的部分。

14.如权利要求9所述的方法，其包括：

作为文本在所述视频摘要中呈现所述元数据。

15.如权利要求9所述的方法，其中所述元数据指示对所述AV数据的某些部分的喜欢。

16.一种组件，其包括：

至少一个显示设备，所述至少一个显示设备被配置来呈现音频视频(AV)计算机游戏；

至少一个处理器，所述至少一个处理器与所述显示设备相关联并且配置有用于以下的指令：执行机器学习(ML)引擎以生成所述计算机游戏的比所述计算机游戏短的视频摘要；以及

所述指令能够执行以在视频数据中呈现源自游戏玩法和/或所述ML引擎的元数据。

17.如权利要求16所述的组件，其中所述ML引擎包括：

声学事件ML模型，所述声学事件ML模型被训练来识别所述计算机游戏的音频中的事件；

言语音高和力度ML模型，所述言语音高和力度ML模型被训练来识别所述音频的言语中的音高和力度；

言语情感ML模型，所述言语情感ML模型被训练来识别所述音频中的情感；

场景变化检测器ML模型，所述场景变化检测器ML模型被训练来识别所述计算机游戏的视频中的场景变化；

文本情绪检测器模型，所述文本情绪检测器模型被训练来识别与跟所述计算机游戏相关的聊天相关联的文本中的情绪；

文本情感检测器模型，所述文本情感检测器模型被训练来识别与所述聊天相关联的文本中的情感；

文本主题检测器模型，所述文本主题检测器模型被训练来识别与所述聊天相关联的文本的至少一个主题；以及

事件相关性检测器(ERD)模块，所述ERD模块被配置来接收来自所述声学事件ML模型、所述言语音高和力度ML模型、所述言语情感ML模型和所述场景变化检测器ML模型的输入，以识别所述计算机游戏的多个候选片段，并且至少部分地基于来自所述文本情绪检测器模型、所述文本情感检测器模型和所述文本主题检测器模型中的一者或多者的输入来选择所述多个候选片段的子集，以建立所述视频摘要。

18.如权利要求16所述的组件，其中所述指令能够执行以在所述视频数据中呈现源自游戏玩法的元数据。

19.如权利要求16所述的组件，其中所述指令能够执行以在所述视频数据中呈现源自所述ML引擎的元数据。

20.如权利要求16所述的组件，其中所述指令能够执行以：

突出视频的作为所述元数据的主题的部分。