CN111265859A

CN111265859A - 用于生成视频游戏的游戏玩法的记录的方法和系统

Info

Publication number: CN111265859A
Application number: CN201911146636.6A
Authority: CN
Inventors: S.达雷迪; H.A.D.斯宾塞
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2018-12-05
Filing date: 2019-11-21
Publication date: 2020-06-12
Also published as: US11182616B2; GB201911284D0; JP2020121102A; EP3662982A3; GB2579693A; EP3662981A2; GB201819865D0; GB2579603A; US20200186897A1; EP3662981A3; EP3662982A2; US20200184225A1

Abstract

提供了一种生成视频游戏的游戏玩法的记录的方法。所述方法包括：接收在视频游戏的游戏期间生成的视频游戏数据，所述视频游戏数据包括至少视频和对应的音频信号。所述方法还包括：将接收到的视频游戏数据中的每个信号输入到各自的机器学习模型中，并且基于每个模型的输出，确定在视频游戏的游戏期间是否发生了突出事件。然后基于已发生突出事件的确定，选择视频和/或音频信号的帧中的至少一些，以包含在视频游戏的游戏玩法的记录中，并且生成包括所选择的视频和/或音频帧的记录。还提供了一种用于训练模型的方法，以及用于训练和执行训练模型的系统。

Description

用于生成视频游戏的游戏玩法的记录的方法和系统

技术领域

本公开涉及用于生成视频游戏的游戏玩法的记录的方法和系统。

背景技术

许多不同的视频游戏机允许玩家捕获他们的游戏玩法的记录。通常，这涉及在特定的时间间隔内连续记录游戏玩法，并将记录存储在临时缓冲区中。记录可能会被每个连续的间隔覆盖，使得缓冲区中只存储例如游戏玩法的最近的15分钟。如果玩家提供输入，诸如选择“共享按钮”，则生成与输入的定时相对应的剪辑并存储在永久存储器中。

通常，剪辑将包括在接收到输入之前和之后输出的一些视频帧，以补偿用户在意识到视频游戏中将要发生感兴趣的事件时的任何提早或延迟的反应。然后，玩家必须进入视频编辑软件，诸如“SHAREfactory^TM”，以便生成令人满意地覆盖他们打算捕获的事件的剪辑。应当理解的是，以这种方式捕获记录依赖于玩家预测感兴趣事件的能力。此外，以这种方式捕获游戏中的事件通常会导致沉浸感的中断，例如，其中用户必须中断他们正在做的事情以便与“共享按钮”交互。

最近，人工智能(AI)被用来自动地生成电子竞技比赛的突出卷。然而，这种AI的训练通常是昂贵和耗时的处理。例如，对于给定的视频游戏，数据科学家可能需要高达6个全职工作(FTE)日来获得用于训练AI的足够的标记数据。应当理解的是，以这种方式训练AI限制了更新AI以适应新的或不同的视频游戏功能的容易程度。

此外，在某些情况下，可能无法在用于玩视频游戏的设备上本地执行训练的AI。

本发明力图解决或缓解上述认定的问题。

发明内容

根据本文公开的一个方面，根据权利要求1提供了一种生成视频游戏的游戏玩法的记录的方法。

根据本文公开的另一方面，根据权利要求14提供了一种训练机器学习模型的集合的方法。

根据本文公开的另一方面，根据权利要求20提供了一种用于生成视频游戏的游戏玩法的记录的系统。

附图说明

为了帮助理解本发明并示出如何实施实施例，以示例的方式参考附图，其中：

图1示意性地示出了视频游戏的游戏设备的示例；

图2示出了用于生成视频游戏的游戏玩法的记录的方法的流程图；

图3示出了可由训练过的视频机器学习模型识别的不同场景类型的示例，并且突出了可由训练过的音频机器学习模型识别的事件；

图4示出了可被选择以包含在突出卷中的视频帧的示例；

图5示出了用于检测视频游戏的游戏玩法中突出事件的监听单元的示例；

图6示出了用于训练机器学习模型以检测视频游戏中突出事件的方法的示例；

图7示出了多个不同集群中的每个集群中的RGB帧的示例；

图8a示出了可为视频帧集群手动生成的不同描述性标签的示例；

图8b示出了可为音频帧集群手动生成的不同描述性标签的示例；以及

图9示意性地示出了用于训练机器学习模型以识别游戏中事件的系统的示例。

具体实施方式

公开了一种系统和方法。在下面的描述中，为了提供对本发明实施例的透彻理解，提出了许多具体细节。然而，对于本领域技术人员来说，显然不需要使用这些具体细节来实施本发明。相反地，为了清楚起见，在适当的情况下，省略了本领域技术人员已知的特定细节。

可采用本文所述方法的系统可包括服务器或类似物、或运行封装该方法的适当的软件指令的类似的通用计算机，并且该通用计算机由用户拥有的视频游戏的游戏设备可以连接(例如，通过诸如因特网的网络)的服务提供商操作。通常，服务器或通用计算机将负责从多个视频游戏的游戏设备收集数据，并使用该数据来训练人工智能(如下所述)。一般来说，将通过使用一个或多个图形处理单元(GPU)或张量处理单元(TPU)来实现人工智能的训练。

一旦经过训练，人工智能就可以被输出到电子游戏机上。例如，这可以作为软件更新而提供，其中训练过的人工智能作为软件更新的一部分被下载到视频游戏的游戏设备。另外或可选地，经训练的人工智能可由视频游戏的游戏设备通过例如因特网连接来访问。人工智能可以对应于训练模型，或者对应于可以访问训练模型的软件模块。

可选地或另外，该系统可以包括用户拥有的视频游戏的游戏设备。可选地或另外，视频游戏的游戏设备和服务器二者可以协同操作以实现该方法，或者视频游戏的游戏设备可以本地实现该方法。

由于使用在特定视频游戏的游戏期间生成的数据进行训练，训练过的AI可以是特定于游戏的。在这种情况下，只有当检测到玩家具有已经训练了AI的视频游戏时，才允许访问训练过的AI。

作为视频游戏的游戏设备的示例，图1示意性地示出了

PlayStation

娱乐设备的总体系统架构。应当理解的是，图1所示的设备只是说明性示例，并且在一些实施例中，娱乐设备可以包括下一代控制台，诸如

PlayStation

设备。

提供了系统单元10，其具有可连接到系统单元的各种外围设备。

系统单元10包括加速处理单元(APU)20，该加速处理单元20是一个单芯片，其转而包括中央处理单元(CPU)20A和图形处理单元(GPU)20B。APU 20可以访问随机存取存储器(RAM)单元22。

APU 20任选地通过I/O桥24与总线40进行通信，I/O桥24可以是独立部件或APU 20的一部分。

连接到总线40的是数据存储组件，例如硬盘驱动器37和蓝光驱动器36，可操作以访问兼容光盘36A上的数据。此外，RAM单元22可与总线40通信。

任选地，连接到总线40的还有辅助处理器38。可以提供辅助处理器38来运行或支持操作系统。

系统单元10通过音频/视频输入端口31、以太网端口32、蓝牙无线链路33、Wi-Fi无线链路34或一个或多个通用串行总线(USB)端口35与外围设备进行适当的通信。音频和视频可以通过AV输出39(例如HDMI端口)输出。

外围设备可以包括单视场或立体相机41，例如PlayStation眼；棒式视频游戏控制器42，例如PlayStation移动和传统的手持式视频游戏控制器43，例如DualShock4；便携式娱乐设备44，例如PlayStation Portable和PlayStationVita；键盘45和/或鼠标46；媒体控制器47，例如以远程控制的形式；以及耳机48。可以类似地考虑其他外围设备，例如麦克风、扬声器、移动电话、打印机、或3D打印机(未示出)。

GPU 20B任选地与CPU 20A结合，生成视频图像和音频以经由AV输出39输出。任选地，可以与音频处理器(未显示)相结合生成音频，或者由音频处理器生成音频。

视频和音频(任选地)可以呈现给电视51。在电视的支持下，视频可以是立体的。音频可以诸如立体声、5.1环绕声或7.1环绕声的多种格式中的一种呈现给家庭影院系统52。视频和音频也可以呈现给用户60穿戴的头戴式显示器单元53。

在操作中，娱乐设备默认为操作系统，诸如FreeBSD 9.0的变体。操作系统可以在CPU 20A、辅助处理器38或两者的混合上运行。操作系统为用户提供图形用户界面，诸如PlayStation动态菜单。该菜单允许用户访问操作系统功能25，并且选择游戏和任选的其他内容。

当玩诸如图1所示的视频游戏的游戏设备时，玩家可能希望捕获其游戏玩法的瞬间，其中例如，玩家正在视频游戏中进行特别令人印象深刻的壮举。这可能对应于例如击败特定敌人或多个敌人、执行复杂的战斗序列、进行困难的跳跃等。包括此类壮举的视频在视频共享平台(诸如YouTube^TM)上很流行。在某些情况下，玩家可能只是想要他们的游戏会话过程的纪念。

如前所述，捕获有趣的游戏玩法通常需要用户在玩视频游戏的同时与“共享按钮”进行交互。在某些情况下，这意味着仅保存玩家记住来手动捕获的那些瞬间。例如，视频游戏的游戏玩法的记录可以被周期性地覆盖，使得只有游戏玩法的最后15分钟被存储在临时缓冲区中。在某些情况下，缓冲区中的记录可能足够长以捕获到感兴趣的事件，但对于玩家来说，返回到记录中并将感兴趣的事件从其余记录移接出来可能有些麻烦。

此外，与共享按钮的交互可能会中断游戏本身，从而干扰玩家想要捕获的事件。例如，在快节奏视频游戏的游戏期间，按下共享按钮可能会不方便，这意味着感兴趣的事件不会以玩家预期的方式播放出。

在一些视频游戏中，可以生成遥测数据，并提供视频游戏中发生的游戏内事件的指示，诸如玩家死亡、进球、撞车等，并且该数据可用于生成对应的突出片段。例如，在使命

游戏中，通常会为玩家呈现来自另一个对其死亡负责的玩家(甚至是子弹)的视角的死亡的回放。然而，通常情况下，这种记录不会存储在永久存储器中。此外，可能存在许多视频游戏或视频游戏中的情境，其中没有生成遥测数据。因此，并不总是可以基于遥测数据来捕获游戏中有趣的瞬间。

因此，如果与玩家的游戏玩法相对应的有趣的游戏内事件可以在玩家的游戏会话结束时自动地被识别并包含在突出卷中，这将是期望的。此外，如果视频游戏的游戏设备能够在视频游戏正在被玩的同时监视或“监听”此类事件，则这将是更期望的。

生成游戏玩法的记录

现在参考图2，描述了根据本公开的用于生成视频游戏的游戏玩法的记录的方法的示例。在图2中，该方法对应于可以在正在玩视频游戏的同时或在视频游戏会话之后实现的方法。

在步骤S202处，接收视频游戏的游戏期间生成的视频游戏数据。视频游戏数据至少包括由视频游戏的游戏设备生成的视频信号和对应的音频信号。在优选示例中，在例如在视频游戏的游戏设备处实现的监视或监听模块处接收视频游戏数据。在其他示例中，视频游戏数据被发送到一个或多个服务器(对应于例如计算机云网络的一个或多个服务器)以在其中进行处理。

视频信号可以包括多个RGB或YUV视频帧，其表示在玩视频游戏期间输出的视频内容。音频信号可以包括多个音频帧，其对应于与视频内容同步输出的音频内容。在一些示例中，音频信号可以不划分为帧，并且可以存在将音频信号划分为多个帧的单独步骤。在一个示例中，音频信号可被划分为960ms间隔，使得每个音频帧的持续时间为960ms。例如，音频可以在44kHz的频率下输出，下采样至16kHz，并且然后划分成帧，使得每个帧包括15360个样本。

在一些示例中，视频信号可以包括视频文件，该视频文件包括RGB或YUV帧和对应的音频(例如，“.wav”文件)二者。在这种情况下，步骤S202可涉及将来自RGB或YUV帧的音频分离为单独的各个信号。在执行下面描述的分析之前，可以将每个信号中的各个视频和音频帧存储在临时缓冲器中。临时缓冲器可对应于用于在视频游戏的游戏设备中记录游戏玩法的环形缓冲器(诸如

或

设备的环形缓冲器)。

可以对在步骤S202接收到的视频游戏数据进行采样。例如，可以周期性地对接收信号中的RGB或YUV帧以及对应的音频帧进行采样，例如每秒5帧。在一些示例中，RGB或YUV帧也可以被缩小，例如，从1280(宽)x 720(高)个像素缩小到398(宽)x 224(高)个像素。

在一些实施例中，视频游戏数据还可以包括指示游戏中事件的遥测信号。例如，诸如获得奖杯、杀死对手、爆头、死亡、得分、在角落附近漂移等的游戏中的事件可以作为遥测数据存储，并且作为视频游戏数据的一部分被接收。遥测数据可以包括每个检测到的游戏内事件和指示在视频游戏中何时检测到事件发生的定时信息。遥测数据可由例如APU响应于在视频游戏的游戏设备处执行的视频游戏而生成。

可选地或另外，视频游戏数据可以包括触觉信号，触觉信号包括在玩视频游戏期间指示在一个或多个设备处输出的触觉反馈的触觉数据。触觉反馈可能已经在先前关于图1描述的一个或多个外围设备处输出。触觉数据可以包括指示在外围设备处输出振动的次数和/或这些振动的幅度。

可选地或另外，视频游戏数据还可以包括运动信号，运动信号包括指示在玩视频游戏期间玩家的运动的运动数据。可以使用连接到视频游戏的游戏设备或构成视频游戏的游戏设备的一部分的摄像机来记录玩家的运动。摄像机可以对应于例如前面提到的PlayStation

另外或可选地，运动信号可由外围设备处的运动检测器生成，诸如用户正持有的设备(诸如他们的DualShock

或

控制器)或佩戴的设备(诸如HMD)，并且该数据可包括在步骤S202处接收的视频游戏数据中。

可选地或另外，视频游戏数据可以包括语音信号，语音信号包括指示由玩家输出的语音(或更一般地，音频)的语音数据。语音信号可以由一个或多个外围设备捕获，外围设备包括麦克风并且与视频游戏的游戏设备通信。

视频游戏数据还可以包括玩家输入信号。玩家输入信号可以包括指示例如不同玩家输入的数据，诸如在玩视频游戏期间在控制器设备处接收到的按钮按下。输入信号可以提供不同玩家输入的指示以及接收这些玩家输入的定时。

视频游戏数据还可以包括摄像机信号，摄像机信号包括玩家的视频记录。视频记录在确定例如与可使用先前描述的运动数据识别的较大的身体运动相反的玩家的面部表情的变化时是有用的。玩家的视频记录可由与视频游戏的游戏设备通信的摄像机(诸如PlayStation Eye^TM)捕获。

在步骤S204处，至少将接收到的视频游戏数据中的视频信号和对应的音频信号输入到各自的机器学习模型中。这可能涉及将视频信号中的至少一些视频帧输入到视频机器学习模型中，以及将至少一些音频帧输入到音频机器学习模型中。

在其他示例中，对于遥测信号、触觉信号、运动信号、语音信号和视频记录信号中的一个或多个，可以存在各自的机器学习模型。为了清楚起见，本文描述的实施例将主要集中于视频和音频机器学习模型的训练和执行。

每一个机器学习模型都被训练成基于输入到机器学习模型的信号来识别视频游戏中发生的一个或多个事件。可以使用半监督深度学习训练机器学习模型，稍后将更详细地描述。应该注意的是，对于图2所述的方法，将模型称为“在训练”意味着它们已经训练过(即过去式)。

应当理解的是，对于视频游戏数据包括遥测、触觉、运动、语音、视频记录数据中的一个或多个的实施例，可能不需要将这些输入到各自的机器学习模型中。例如，在识别游戏中的事件时遥测数据可能是明确的，因此可能不需要使用机器学习来识别事件。然而，机器学习在确定例如不同按钮按下的定时或外围设备的运动是否对应于游戏中事件时可能更有用。一般来说，对于要应用机器学习的不同信号类型中的每一种，可以存在各自的机器学习模型。

在一些示例中，可以存在生成接收到的视频游戏数据中的每个信号的特征表示的先前步骤(即步骤S203)。特征表示可以对应于对应信号中的数据的数值表示。因此，步骤204可以包括将每个信号的特征表示输入到各自的机器学习模型中。

可以通过生成要输入到视频机器学习模型的每个视频帧的特征表示来生成视频信号的特征表示。可以通过将每个帧输入预先训练的模型(例如，深度残差网络(ResNet)、密集连接卷积网络(DenseNet)、移动网络(MobileNet)等)来生成视频帧的特征表示。更一般地，可以将特征表示输入到通用图像数据集(诸如图像网络(ImageNet)数据库中的图像)上训练的深度学习模型中。

在一个示例中，使用Densenet201预训练模型将输入RGB(或YUV)视频帧转换为具有1920个元素的数字矢量，每个元素对应于Densenet201结构中倒数第二层中的7x 12个特征映射的平均值。然后，可以将每个RGB(或YUV)帧的矢量保存在存储器中。

生成音频信号的特征表示可以包括：生成音频信号中每个音频帧的特征表示。如上所述，可以对原始音频信号进行下采样并将其划分成多个帧，其中每个帧包括期望持续时间的连续的、不重叠的音频部分。因此，可以为与帧相对应的音频信号中的音频的每个部分生成特征表示。在一些示例中，这可能涉及生成每个音频帧的谱图，诸如对数梅尔(log-mel)谱图。这里，对数梅尔谱图对应于对数坐标梅尔谱图。

在一个示例中，音频帧的持续时间为960ms，并且通过每10ms应用25ms窗口的短时傅里叶变换对每个帧进行分解来生成对数梅尔谱图。然后，将得到的谱图整合到64个梅尔间隔的频率框(bin)中，并对每个框的幅度进行对数变换。这给出了具有96x 64个框的对数梅尔谱图。然后，可以对每个帧(具有96×64个框)的对数梅尔谱图进行平均，以便形成音频帧的64维矢量表示。然后，可以将每个帧的矢量保存在存储器中。

应当理解的是，在一些实施例中，没有生成视频和音频帧的特征表示的步骤。特征表示的生成将取决于视频和音频机器学习模型的训练方式(稍后描述，参见“机器学习模型的训练”)。在一些实施例中，可以用视频和音频帧对机器学习模型进行训练，而不一定是其特征表示。

如前所述，基于输入到该模型的信号(可选地，视情况而定，输入到该模型的特征表示)，训练每个机器学习模型以识别在视频游戏中发生的一个或多个事件。

可以训练视频机器学习模型以识别每个视频帧(或其特征表示)对应的场景类型。例如，可以训练视频机器学习模型以确定给定视频帧是否对应于以下一个或多个：剪切场景、游戏玩法、加载屏幕、菜单、素色屏幕(例如，死亡)、其他等。机器学习模型能够确定不同场景类型的粒度将最终将取决于训练。在一些示例中，可以训练视频机器学习模型，以识别与不同类型的游戏玩法相对应的场景类型，例如战斗、行走、空闲等。

视频机器学习模型可以包括神经网络，诸如卷积或递归神经网络(RNN或CNN)。然而，可以考虑任何合适的机器学习系统。

音频机器学习模型可以被训练来识别输入到模型的每个音频帧(或对应的特征表示)所对应的音频事件。在一个示例中，音频机器学习模型被训练以确定音频帧是否对应于“突出”或“非突出”音频事件。音频事件是否被确定为对应于“突出”或“非突出”事件将取决于音频机器学习模型的训练方式，如下文所述。音频“突出”事件的示例可以包括正在使用的武器的声音，而“非突出”音频事件可以对应于视频游戏中可能出现的城市或自然声音。在一些示例中，音频机器学习模型可被训练以检测粒度更细的音频事件，例如，区分不同类型的突出音频事件。

在一些示例中，音频机器学习模型可以包括逻辑回归模型。在其他示例中，音频机器学习模型可以包括二元分类算法，诸如梯度提升树、随机森林、支持向量机等。然而，可以考虑任何合适的机器学习系统。

在优选示例中，在用于玩视频游戏的视频游戏的游戏设备上本地执行每个训练的机器学习模型。

在步骤S206，基于每个机器学习模型的输出来确定是否发生了突出事件。该确定可以例如基于由视频机器学习模型识别的场景类型和由音频机器学习模型识别的音频事件类型。在一些示例中，如果场景类型被标识为对应于“游戏玩法”，并且音频对应于“突出”音频事件，则可以确定发生了突出事件。以这种方式检测突出事件意味着，例如，在剪切场景中的枪的开火不被识别为与源于游戏玩法的突出事件相对应。

图3示意性地示出了这种情况的一个示例，图3示出了视频机器学习模型和音频机器学习模型在多个帧(在这种情况下，大约305个帧)上的输出。上两个图表示出了由视频机器学习确定的RGB帧对应于剪切场景和游戏玩法的概率(即玩家在虚拟环境中控制其角色)。概率“1”对应于事件的检测。如图3所示，在帧75-160和帧250-290之间检测到游戏玩法。视频机器学习模型还检测到在帧之间发生的剪切场景，例如20-60、65-70和290-305。在最下面的图表中，可以看到音频机器学习模型检测到帧85和155之间的突出音频事件。因此，可以确定在帧85和帧155之间发生了视频游戏中的突出事件。

图4示出了识别出与突出事件相对应的视频帧400的示例。在图4中，帧400是从视频游戏《地平线：零之曙光》拍摄的RGB帧，并且显示了主角Aloy向敌人开枪。在本例中，视频机器学习模型已将RGB帧识别为对应于“游戏玩法”，并且将正在开火(或准备开火)的枪的音频识别为对应于突出音频事件，如“场景分类”和“突出分类”所示。

在某些情况下，确定是否发生了突出事件可取决于由视频机器学习模型识别的游戏类型(例如战斗)和由音频机器学习模型检测的音频类型。这可以确保例如，尽管对应的音频指示可能发生突出事件，但其中玩家盲目地射击到空景物的视频帧不被识别为对应于突出事件。

回到图2，该方法包括另一步骤S208：选择视频和/或音频信号中的帧中的至少一些(在视频游戏数据中接收到的)，以包含在视频游戏的游戏玩法的记录中。在一些示例中，可以选择视频和音频帧以包括在记录中(即，记录可以是视频文件)。可以选择视频和/或音频帧，以便与检测到突出事件的帧相对应。在某些情况下，这可能涉及选择在检测到的突出事件之前和之后发生的帧中的至少一些，以确保在上下文中显示突出事件，并补偿突出事件检测中的任何帧。应当理解的是，可能有必要确定检测到发生突出事件的给定检测突出事件的时间段，以确保记录不包括在过长或较短时间段内发生的突出事件。

在一些示例中，可以选择遥测信号、运动信号、语音信号、玩家输入信号和摄像机信号中的一个或多个中的至少一些数据，与选择的视频和/或音频帧一起包括在记录中。例如，玩家的语音也可以与玩家在玩视频游戏时的玩家反应的视频记录一起包括在记录中。

在步骤S210，生成包括所选视频和/或音频帧的视频游戏的游戏玩法的记录。记录可以以视频文件的形式生成，并存储在例如视频游戏的游戏设备的电子存储器中，或者存储在远程服务器上。可选地，可以在一个或多个服务器上生成记录，并将记录发送到视频游戏的游戏设备(只要视频游戏的游戏设备和一个或多个服务器之间存在连接或已恢复连接)。

记录可以包括在游戏玩法期间检测到的多个不同的突出事件，以便形成突出卷。每个突出事件可以包括对应的突出剪辑，该突出剪辑包括被标识为对应于突出事件的视频和音频。通常，每个突出视频剪辑将包括多个连续的视频和音频帧。

该方法还可以包括：在显示设备上显示视频游戏的游戏玩法的记录。例如，视频游戏的游戏设备可以包括或连接到显示设备。可以响应于玩家终止游戏会话而自动显示记录，或者响应于用户已经从菜单中选择了记录而显示记录。例如，PS4^TM或PS5^TM可能有一个相关的主屏幕菜单，从中可以通过“捕获库”选项卡访问记录。

在一些示例中，该方法可包括：显示或输出与所选视频和/或音频帧相对应的遥测信号、运动信号、语音信号、玩家输入信号、摄像机信号中的一个或多个中的至少一些数据。例如，该方法可以包括：显示除了视频游戏的游戏玩法的视频外的真实玩家的视频。例如，该视频可以显示在叠加在视频游戏的游戏玩法的视频上的小窗口中。在附加或替代示例中，可以显示指示与所选视频帧对应的游戏中事件的遥测数据。例如，这可能涉及到在包含该事件的对应视频帧上叠加诸如“爆头！”的文本。

在一些示例中，可以将视频游戏的游戏玩法的记录从视频游戏的游戏设备发送到与视频游戏的游戏设备通信的移动设备。例如，视频游戏的游戏设备可以被配置为检测在视频游戏设备上运行的游戏应用已经关闭，并且响应于此，将记录发送到移动通信设备。

生成记录所用的时间将取决于检测到的突出事件的数量和要生成的记录的大小。因此，在某些情况下，可能无法在玩家刚完成其游戏会话时就向该玩家呈现记录(即，在记录相对较大的情况下)。因此，在一些实施例中，所述方法可以包括生成用于显示的消息的步骤，所述消息指示准备好回放记录。例如，如果记录是通过云生成的，则用户可以通过其手机上的应用程序(例如PS App^TM)接收消息，通知他们已准备好回放记录。该消息可以包括(即已嵌入)或提供到对应记录的链接。因此，在下一个视频游戏会话之前，可能不会向玩家显示录制的内容。

可选地，可以在玩家与其他内容交互时由视频游戏的游戏设备在后台生成记录。在这种情况下，消息可以作为通知呈现给玩家，以例如与软件更新可用类似的方式通知玩家。

在优选实施例中，在玩家的视频游戏的游戏会话结束时，将记录提供给玩家。

可以在每个视频游戏会话的基础上生成记录，即作为每个视频游戏会话中发生的突出事件的摘要。视频游戏会话可对应于视频游戏的连续游戏(即视频游戏应用程序未关闭的时间段)、或视频游戏中的特定事件，诸如比赛、赛跑或其他定时事件。玩家可以离线(例如在其中，不与其他在线玩家一起)或在线(即与其他在线玩家一起)玩视频游戏。

可选地，或者另外，可以在多个视频游戏会话上生成记录。例如，在单人游戏中，在玩家完成例如故事模式时，可能希望生成检测到的突出事件的记录。在这种情况下，记录可以对应于故事中不同点上玩家的突出事件的摘要。例如，可以在用户完成故事模式之后，与结束字幕一起向用户呈现该记录。在其他示例中，可能希望生成玩家在不同游戏(例如，竞争性锦标赛)中的突出事件的记录。

在一些实施例中，该方法包括：确定生成的记录的持续时间。例如，如果该记录大于或小于阈值持续时间，则可能不希望将该记录呈现给玩家。可响应于记录的持续时间被确定为在阈值持续时间的可接受范围内，通知玩家该记录已准备好回放。

如果记录与玩家长时间内的进度摘要相对应，则可能需要在向玩家呈现记录之前确定玩家的进度。例如，在将记录存储为最终版本之前，可能需要确定玩家是否完成了足够数量的使命、游戏、任务、比赛等。一旦生成了最终版本，就可以向玩家显示一条消息，指示记录已准备好回放。

在一些实施例中，可能存在基于每个机器学习模型的输出可以检测到的多个不同的突出事件。该方法还可以包括：基于每个所选帧对应于用于回放不同突出事件的预定顺序的突出事件，选择用于回放在步骤S208中选择的视频和/或音频帧的顺序。

预定顺序可以对应于叙述弧，该叙述弧定义了在记录中回放不同突出事件的顺序。预定顺序可能与突出事件发生的时间顺序相对应，但也可能遵循显示玩家在视频游戏中缓慢提高的结构。例如，预定顺序可以定义在记录中的相对位置，在该位置中，将定位例如玩家的角色死亡或失败的视频，以及玩家成功击败对手的视频。

在一些实施例中，该方法包括：接收由一个或多个其他玩家在玩视频游戏期间生成的历史数据。历史数据可以包括指示在玩同一个视频游戏时与其它玩家相比如何的统计数据。其他玩家可以包括例如当前玩家已知的玩家，诸如当前玩家的朋友列表中的朋友。

然后，可以确定所接收的历史数据中的至少一些与所选择的视频和/或音频帧之间的对应关系。也就是说，可以识别与所选择的视频和/或音频帧相关的历史数据，并且可以在回放视频游戏的记录时显示该相关信息。例如，如果视频帧是玩家的化身在视频游戏中战斗并击败特定的敌人或对手的视频帧，则玩家可以查看指示其他玩家如何对付同一对手的统计数据。例如，这可能包括“80％的玩家在面对这个敌人时至少死亡一次”或“你的朋友，JimBob86在面对这个对手时死亡8次”。在一些示例中，历史数据可以包括玩家的朋友在视频游戏中的同一点上的记录，并且玩家可以查看给定帧的记录，同时查看为当前玩家生成的记录。

图5示意性地示出了用于实现训练过的机器学习模型的高级系统的示例。高级系统包括监听单元500，其被配置为检测(即监视或“监听”)视频游戏的游戏玩法中发生的突出事件。监听单元500可以作为安装在诸如游戏机、个人计算机、移动设备等视频游戏的游戏设备上的软件在本地实现。可选地，监听单元500可以在一个或多个服务器(诸如云网络)上实现，其中视频、音频和任何其他视频游戏数据由视频游戏的游戏设备获得，并被传送到一个或多个服务器。在这种情况下，监听单元500可以被配置为将其输出发送到从中接收视频游戏数据的视频游戏的游戏设备。稍后将结合图6描述系统的具体示例。

监听单元500包括接收单元502，所述接收单元502被配置为接收在玩视频游戏的游戏期间生成的视频游戏数据。视频游戏数据包括至少视频信号和对应的音频信号。视频和音频信号可以是先前相对于图2描述的任何形式。

接收单元502可以包括视频缓冲器，诸如环形缓冲器，其使得能够对视频(例如，RGB、YUV)和对应的音频帧进行采样。

在一些实施例中，视频游戏数据还可以包括指示游戏中事件的遥测信号、指示在用于玩视频游戏的一个或多个设备上输出的触觉反馈的触觉信号、和指示玩家在玩视频游戏时接收到的输入的玩家输入信号中的一个或多个。玩家输入信号可以提供例如玩家做出的按钮按下、玩家的运动、玩家的语音输出、玩家的面部表情或姿势的改变等的指示。为简洁起见，图5示出了单个玩家输入信号，但应当理解的是，对于每个玩家，可以有的如图2所示的单独的各自的信号。

监听单元500还包括多个模块504a、504b、504c、504d、504e，每个模块被配置为接收视频游戏数据中的不同信号。也就是说，每个模块被配置为接收接收到的视频游戏数据中的不同类型的信号(例如，视频或音频等)。在图5中，视频和音频信号以及对应的模块以粗体显示，以表示这些模块不是可选的。接收到的视频游戏数据中的其他信号和对应模块用虚线显示，以表明这些是可选的。

每个模块被配置为基于输入到该模块的信号来确定在视频游戏中发生的事件。例如，第一模块504a可以被配置为基于输入到该模块504a的视频帧来检测视频游戏中发生的事件。第二模块504b可以被配置为基于输入到该学习模块504b的音频帧来检测视频游戏中发生的事件。第一模块504a可以被训练以将视频帧分类为不同的场景类型；第二模块504b可被训练以将音频帧分类为“突出”或“非突出”音频事件。可以使用先前相对于图2描述的任何方法来执行由第一和第二模块504a、504b执行的分类。

其他模块504c、504d、504e(如果存在)可被配置为基于例如接收到的遥测数据、触觉数据和玩家输入数据来识别游戏中的事件。如上所述，机器学习可能仅应用于其中一些数据。例如，确定性规则可用于遥测数据和/或触觉数据，但机器学习用于玩家输入数据。因此，并非所有模块504c、504d和/或504e都使用机器学习来基于输入信号识别游戏中的事件。然而，第一和第二模块504a、504b使用机器学习来执行分类。

使用半监督学习来训练第一和第二模块，以便确定输入到该模型的信号与对应事件之间的关系，稍后将更详细地描述。在一些示例中，以这种方式训练第三、第四和第五模块504c、504d、504e中的一个或多个。

在突出检测器506处接收每个模块的输出。突出检测器506被配置为基于每个模块检测到的事件来检测视频游戏中突出事件的发生。突出检测器506也可以被配置为检测突出事件的不存在。

在一些示例中，突出检测器506可被配置为基于由第一模块504a识别的场景类型和由第二模块504b检测的音频事件来检测突出事件。例如，如果场景类型被识别为对应于例如“战斗”，并且检测到音频对应于“突出事件”，则视频和对应的音频帧可以被识别为对应于视频游戏中的突出事件。

应当理解的是，通过包括其它模块，可以提高突出检测器506检测突出事件的准确度。例如，基于三个或多个模块的输出，事件可以被检测为对应于突出事件。这可以补偿单个模块中任何一个的输出中的任何不准确性。例如，如果视频、音频、触觉和/或遥测和/或玩家输入数据都指示发生了有趣的游戏中事件，则可以高度置信地确定突出事件确实发生。

应当理解的是，在一些示例中，可能不需要将遥测数据输入到模块504c中。例如，遥测数据在指示游戏中事件(例如，“爆头”、“玩家死亡”等)时可能有些明确，并且在确定突出事件是否在游戏期间发生时，突出检测器506也可以直接使用该数据。例如，如果视频、音频和遥测数据所有三个都指示，则可以高度置信地确定发生了突出事件。

监听单元500还包括记录单元508，该记录单元508被配置为基于突出检测器506的输出来生成视频游戏的游戏玩法的记录。例如，响应于接收到检测到的突出事件的指示，记录单元508可被配置为生成包括与检测到的突出事件相对应的视频和/或音频帧的记录。记录可以包括视频文件，该视频文件包括所选视频和对应音频。在经由输出单元510输出之前，记录可以存储在存储器(未示出)中。记录可以突出卷的形式输出，包括与在视频播放期间检测到的不同突出事件相对应的视频剪辑。例如，该系统可以包括将要输出所生成的记录的显示设备(未示出)。在一些实施例中，记录可以在例如与监听单元500通信的移动设备处输出，如先前关于图2所述。

在一些实施例中，监听单元500可被配置为在视频游戏的游戏玩法的记录中包括在遥测或玩家输入信号中的至少一个中接收到的至少一些数据。这可以包括例如玩家(而不是其化身)的视频、玩家的语音、玩家按下的按钮、通过遥测数据指示的游戏中事件等。如前所述，该数据也可以作为记录的一部分输出。

在一些实施例中，监听单元500包括多个特征提取器503，其中，每个特征提取器被配置为接收接收到的视频游戏数据中的不同信号，并生成该信号中的数据帧的特征表示。第一特征提取器可以被配置为接收视频帧，并且第二特征提取器可以被配置为接收音频帧。第一和第二特征提取器可被配置为以与图2相关的先前描述的方式生成特征表示。每个特征抽取器生成的特征表示可以输入到各自的机器学习模型中。例如，第一和第二特征提取器可以被配置为分别接收视频帧和音频帧的特征表示。图5所示的系统的具体实现的示例将在后面结合图9进行描述。

应当理解的是，在一些实施例中，可以没有特征提取器。例如，如下文将进一步描述的，如果已经使用视频和音频帧而不是其特征表示训练了第一和第二模块504a、504b，则可以是这种情况。

机器学习模型的训练

利用AI从视频游戏画面中生成突出卷轴是公知的。然而，在公知方法中，通常仅使用监督学习训练AI。以这种方式训练AI需要开发人员或数据科学家从数十小时的视频游戏画面中用指示这些帧是否对应于突出事件的对应的标签手动标记视频帧，以便生成足够数量的训练数据来训练AI。例如，发明人发现，为游戏《地平线：零之曙光》手动标记15小时的游戏视频(相当于大约300000帧)需要将近6个全职工作日才能完成。显然，以这种方式生成训练数据是不可取的，并且这意味着AI不容易移植到其他视频游戏中。

在本公开中，通过使用先前生成的视频游戏数据来训练每个机器学习模型来克服该问题，并且使用半监督深度学习来确定先前生成的视频游戏数据中的信号与一个或多个对应事件之间的关系。使用半监督学习训练机器学习模型的方法现在将在图6中描述。

在步骤S602，接收先前生成的视频游戏数据。先前生成的视频游戏数据可以包括在视频游戏的先前游戏期间生成的至少视频和音频信号。在一些示例中，该数据可从诸如YouTube^TM的视频共享平台获得。先前生成的视频游戏数据通常特定于特定的视频游戏。例如，可以针对特定的视频游戏训练机器学习模型，并且(一旦训练)对被检测到具有该视频游戏的玩家可用。应当理解的是，如果为该游戏或与该游戏相关发布了附加内容(诸如可下载内容(DLC)、前传、续集等)，则可能需要重新训练模型。

先前生成的视频游戏数据可以由多个不同的玩家生成，并且提供整个视频游戏或视频游戏内可能发生的不同事件的代表性范围。对于一些游戏来说，只要这些视频覆盖了可能的游戏玩法的足够的范围，就可能收集到2-5个视频。如果每个视频覆盖了主要故事的大部分，则例如可以将视频用于《地平线：零之曙光》。

先前生成的视频游戏数据还可以包括视频游戏的先前游戏期间生成的遥测信号、触觉信号、运动信号、语音信号、玩家输入信号、视频游戏摄像机信号中的一个或多个。在优选示例中，先前生成的音频信号不包括任何玩家旁白(即，这是在单独的语音信号中接收的，或者根本不接收)。如果音频信号包含游戏音频和玩家语音二者，则难以训练音频机器学习模型。在一些示例中，视频和音频可以作为视频文件一起接收，并且需要被分离成不同的各自信号。与之前一样，可能需要将音频信号划分为960ms段(即，帧)。

在步骤S604，该方法包括：生成先前生成的视频游戏数据中的信号的特征表示。

在一些示例中，生成先前生成的视频信号的特征表示可涉及将先前生成的视频信号中的RGB或YUV视频帧中的至少一些输入到预先训练的模型中，例如DenseNet、ResNet、MobileNet等。

生成先前生成的音频信号的特征表示可涉及生成先前生成的音频信号中的音频帧中的至少一些的对数梅尔谱图。每个谱图可以对应于960ms音频帧，并且该方法可以包括：通过取该谱图的64个频带(从125Hz到7000Hz)的平均来生成每个谱图的64维特征表示。这可对应于先前关于图2描述的特征表示生成。

在步骤S606，使用无监督学习将为每个信号生成的特征表示聚类到各自的集群。每个集群对应于(对于给定信号)已经识别为在某些方面与所述集群中的其他内容相似的内容。

在一些示例中，这涉及到使用k均值聚类或小批量k均值聚类来将为每个信号生成的特征表示分类到各自的集群中。发明人发现，k均值聚类或小批量k均值聚类都特别适合于视频游戏数据的聚类。在大多数电子游戏中，可能发生的不同类型的视听事件在本质上是结构化的和重复的，并且因此可以以相对较高的准确度来相互区分。例如，在射击游戏中，例如手榴弹或炸弹的爆炸在颜色、大小等方面看起来非常相似，并且因此可以很容易地将其与瞄准武器的玩家区分开来。即使在后一种情况下，尽管目标不同，但在瞄准武器时，玩家化身的外观看起来基本相似，因此这可以被识别为不同的集群。

在一些实施例中，小批量k均值聚类用于将视频帧的特征表示分类为64个不同组(即，其中k＝64)。在将小批量k均值聚类应用到视频数据之前，可以将RGB或YUV视频帧输入到RGB定标器模型中，以对视频数据进行标准化，使其具有零均值和单位标准差。在相同或不同实施例中，使用小批量k均值聚类将音频帧的特征表示分类为32个不同组(即，k＝32)。类似地，在将小批量k均值聚类应用到音频数据之前，可以将音频帧输入到音频定标器模型中，以对输入数据进行标准化，使其具有零均值和单位标准差。

应当理解的是，k均值或小批量k均值中可以使用不同的k值，这取决于在先前生成的视频游戏数据的信号中检测不同事件(对应于不同集群)所需的粒度级别。

图7示出了一些不同集群的示例，这些集群是使用小批量k均值聚类从游戏《地平线：零之曙光》的15小时的视频游戏画面(RGB帧)进行分类识别出的。第一集群702a对应于(例如，在战斗期间或为了狩猎的目的)瞄准目标的角色Aloy。第二集群702b对应于在菜单设置中打开“任务”选项卡的玩家。第三集群702c对应于剪切场景。应当理解的是，这些仅仅是RGB帧的一些示例，这些RGB帧可以被识别为属于不同的集群。在一些示例中，可能有多个集群与同一类型的事件相关。例如，可能有多个集群对应于“游戏玩法”(即，玩家在开放世界中导航)，每个集群对应于特定类型的环境，例如，冰冻/积雪覆盖的土地、沙漠、黑暗的“冷库”等。对于每种类型的菜单屏幕也可能有多个不同的集群。例如，每个“任务”、“库存”、“地图”等的集群。

在一些实施例中，训练方法包括从每个集群中过滤至少一些特征表示的步骤。这可能涉及从各个集群中移除距离所述集群的形心超过阈值距离的特征表示。

例如，可以选择最接近各个集群形心的RGB或YUV帧的前10％，作为所述集群中的数据所对应的视觉事件的代表。通常，最接近集群的形心的RGB帧被认为是集群所代表的游戏内事件的更优示例。可能有更多的RGB或YUV帧在到各自集群的距离方面超过前10％，因此在训练机器视频机器学习模型时不被使用。

可以类似的方式对每个不同类型音频事件的集群进行过滤。在某些示例中，每个集群中25％的音频帧被随机采样，并用于创建所述集群中所有采样音频帧的对应音频文件。例如，音频文件可以一次构建960ms块。

应当注意的是，以上10％和25％为非限制性示例。

对RGB或YUV视频帧和音频帧进行聚类的步骤还可涉及生成模型文件以使每个集群中的特征表示能够被标记。

回到图6，训练方法还包括步骤S608：用指示与所述集群相关联的事件的标签手动标记每个集群(对于给定信号)。这里，手动标记意味着，例如，数据科学家或开发人员必须提供输入，以指示将给每个集群的标签。这可能涉及审查每个集群中的帧中的至少一些，并确定所述集群中的帧所对应的事件。

对于视频帧，例如，在将该集群中的所有RGB帧识别为对应于特定游戏中事件之前，可能需要审查每个集群中的50个RGB帧。例如，可以基于对所述集群的视频内容的审查来确定集群对应于例如“游戏玩法”。通过将集群标记为对应于“游戏玩法”，所有帧(或帧的特征表示)都被标识为对应于“游戏玩法”。应当理解的是，以这种方式标记帧要比必须检查数千甚至数十万个帧并用对应的标签手动标记每个帧快得多。

对于音频帧，在确定音频集群的标签时，可能希望还显示对应的视频，以便开发人员或数据科学家能够看到(以及听到)每个集群中的音频表示什么。这可能涉及识别每个音频集群对应的视频的不同部分，并基于与所述集群相关联的视频剪辑确定每个音频集群的标签。例如，可以将例如给定视频的0到3分钟标识为与音频集群15相关、3到4分钟标识为与音频集群2相关、4到7分钟标识为与音频集群15相关(等等)。然后，可以通过查看0到3分钟、以及4到7分钟之间的视频输出的部分以及对应的音频来确定例如集群15的标签。

发明人发现，使用这种方法可以在1-2小时内获得足够数量的标记训练数据。例如，对于游戏《地平线：零之曙光》，我们发现，对于大约90小时的视频游戏画面，生成标记的场景类型集群大约需要1小时。还发现，对于大约10小时的音频(来自同一游戏)，标记为突出和非突出的集群的生成大约需要1小时。

图8a示出了被赋予为RGB视频帧识别的64个集群中的一些的描述性标签的示例。在图8a中，第一集群被标识为对应的“剪切场景”；第二和第三个集群被标识为对应的“菜单屏幕”；第64个集群被标识为对应的“游戏玩法”。

在某些情况下，可能需要将不同的集群合并为对应于相同的游戏内(即使仅在高级别)事件。例如，集群2可对应于“任务”菜单屏幕，并且集群3可对应于例如“工艺”屏幕。包含这些屏幕的任何一个的视频帧都不太可能被视为突出事件，因此，通过给它们相同的描述性标签，将这些集群合并为单个集群可能是可取的。在一些示例中，一些集群可能对应于不同类型的游戏玩法(例如，“战斗”、“探索”、“游泳”等)，并且可能希望将这些集群合并为对应于“游戏玩法”的单个集群。这可能是可取的，例如，可以从对应的音频确定是否发生了突出事件。

图8b示出了被赋予为音频帧识别的32个集群中的一些的描述性标签的示例。在图8b中，集群1和32被标识为对应于突出音频事件，而集群2和3被标识为不对应于突出事件。集群1和32可以对应于在不同类型的战斗期间生成的音频。集群2和集群3可以对应于例如剪切场景对话、或通常作为背景噪声出现的声音(例如，鸟儿唱歌、下雨等)。

如上相对于图8a所述，可能需要手动合并表示相同高级别集群的集群。例如，与其将不同的音频集群识别为与特定音频事件相对应，不如通过将它们标记为与“突出”相对应，将与动作/战斗相对应的所有音频事件合并在一起。通过以这种方式标记音频集群，为每个集群创建二进制标志(即，1＝突出，0＝非突出)。因此，利用这些数据训练音频机器学习模型变成了二值分类问题。发明人发现，以这种方式训练的音频模型计算效率高，并且不需要运行GPU(即，可以在CPU上完成)。

回到图6，该方法包括将每个信号的特征表示和对应标签输入到各自的机器学习模型中的步骤S610。利用有监督的深度学习对机器学习模型进行训练。这些模型被称为使用监督学习进行了训练，因为训练数据至少部分是使用非监督学习生成的。

可以将视频帧及其对应标签的特征表示输入到多类分类算法(对应于视频机器学习模型)。然后，可以训练视频机器学习模型以确定RGB或YUV帧的特征表示和与这些帧相关联的描述性标签之间的关系。视频机器学习模型可以包括神经网络，诸如卷积或递归神经网络。视频机器学习模型可以被配置为为每个视频帧(或者更确切地说，其表示)输出不同的对应标签中的每个的预测概率。可以基于与最高概率相关联的标签将视频帧识别为对应于特定事件。

例如，可以将音频帧的特征表示和对应标签输入到对应的音频机器学习模型中，或者诸如梯度提升树、随机森林、支持向量机算法的二元分类模型中。

可以迭代的方式训练每个模型。例如，在每个纪元(通过一个训练集)之后，如果确定模型的性能比前一次迭代的性能更好，则可以保存模型的最终版本。在某些情况下，当给定模型为不可见的训练数据输入集合生成足够精确的结果时，可以将其确定为准备好部署。

在一些实施例中，可以不使用先前生成的视频游戏数据中的不同信号的特征表示来训练机器学习模型。相反，一旦确定了给定集群中的视频和音频帧的标签(如上所述)，则可以将音频和视频帧与对应的标签一起输入到各自的机器学习模型中。

以这种方式训练模型是有利的，因为可以以更定制的方式训练机器学习模型。例如，使用预先训练的模型(例如，DenseNet)生成特征表示可能是低效的，因为预先训练的模型很可能是使用与特定视频游戏无关的数千个图像训练的。因此，就存储该模型所需的内存和执行该模型所需的时间(例如，需要使用GPU)而言，使用这种预先训练的模型可能是过度的。

因此，一旦对模型进行训练后，期望确保不需要DenseNet。例如，这可以通过将DenseNet用于聚类的目的来实现，但是随后用视频(RGB或YUV)和音频帧以及如上生成的对应标签来训练例如神经网络。这就意味着训练后的模型可以将视频和音频帧和对应的标签一起作为输入，而无需使输入的视频和音频帧首先通过例如DenseNet。

虽然以上主要关于视频和音频帧进行了描述，但是应当理解的是，生成特征表示、对特征表示进行聚类和手动标记集群的步骤可以同样地应用于包括在训练数据中的触觉、遥测、运动、玩家输入、语音、摄像机信号中的任何一个。一旦给定信号的集群被标记，就可以将数据(或其特征表示)输入到各自的机器学习模型中。

例如，对于玩家输入信号，这可能涉及将信号划分成多个帧，并检测每一帧按下的按钮以及按钮被按下的频率。然后，按钮按下和对应频率可被聚类(如上所述)，并与对应视频相关。然后，可以标记不同的集群(例如，“战斗”、“埋伏”等)，并用于训练机器学习模型。可以训练机器学习模型，以识别对于给定的按钮按下帧的该帧的对应标签。

还应当理解的是，具有计算机可执行指令的计算机可读介质可适于使计算机系统执行先前描述的任何训练方法步骤。

图9示意性地示出了用于训练先前描述的第一和第二模块504a、504b的系统900的示例。在图9中，系统仅显示视频帧和对应的音频。如前所述，还可以使用遥测数据、触觉数据、玩家输入数据等来训练系统。在这种情况下，对于每个不同的信号类型，系统中可以有并行分支，每个分支包括对应的单元。可以使用先前生成的视频游戏数据训练该系统，可以按照先前相对于图6描述的任何方式生成和收集该视频游戏数据。

在图9中，示出了包括RGB或YUV帧904a(对应于视频信号)和对应音频信号904b的视频文件902。如前所述，视频游戏的游戏设备可以生成游戏玩法的视频文件，并且可能需要将RGB或YUV帧和对应的音频分离成单独的文件(或信号)。可能还需要将音频信号划分为例如持续时间为960ms的音频帧。可为该功能提供单独的单元(未示出)。

在图9中，系统被示为包括多个特征提取器。每个特征提取器被配置为接收不同类型的信号并生成这些信号中的数据的特征表示。

在图9中，第一特征提取器906a被示为布置成接收视频帧。第一特征提取器906a被配置为使用先前描述的任何方法来生成所接收到的视频帧的特征表示。例如，第一特征提取器906a可以包括预先训练的模型(例如，DenseNet、ResNet、MobileNet等)，其接收RGB或YUV视频帧作为输入，并且预先训练以输出这些帧的特征表示。

第二特征提取器906b被示为接收音频帧。第二特征提取器906b被配置为使用先前描述的任何方法来生成音频帧的特征表示。例如，第二特征提取器906b可被配置为生成接收到的音频信号中的每个音频帧的对数梅尔谱图。

该系统还包括多个聚类单元。每个聚类单元被配置为接收由对应的特征提取器输出的特征表示，并使用无监督学习将接收到的特征表示分类为多个集群。

如图9所示，在特征提取器和聚类单元之间有一对一的映射，即每个聚类单元被配置为接收不同类型信号的特征表示。如前所述，可以使用先前所述的k均值或小批量k均值聚类对每个信号的特征表示进行聚类。在图9中，第一聚类单元908a被示为接收由第一特征提取器906a输出的特征表示；第二聚类单元908b被示为接收由第二特征提取器906b输出的特征表示。

该系统还包括标签单元，该标签单元可操作以生成由聚类单元输出的集群的标签。在图9中，系统被示为包含多个标签单元，每个聚类单元有一个标签单元。每个标签单元被配置为基于从用户接收的输入为每个集群生成标签。这些标签对应于指示与各自集群中的特征表示相关联的事件的描述性标签。对于给定信号的每一个集群，可以以先前相对于图6描述的任何方式来生成标签。

该系统还包括用于训练先前描述的第一和第二模块504a、504b的训练单元。系统可以包括多个训练单元，每个训练单元被配置为接收为特定信号类型生成的特征表示和对应标签。每个训练单元被配置为确定信号的特征表示和输入到该训练单元的对应描述性标签之间的关系。

在图9中，第一训练单元912a被配置为接收由第一特征提取器906a输出的特征表示和由第一标签单元910a输出的对应标签，并确定两者之间的关系。同样，第二训练单元912b被配置为接收由第二特征提取器906b输出的特征表示和由第二标签单元910b输出的对应标签，并确定两者之间的关系。如前所述，第一训练单元912a可以包括将用视频帧的特征表示和对应的描述性标签来训练的神经网络。如前所述，第二训练单元912b可包括逻辑回归学习模型或二元分类模型，该二元分类模型将使用音频帧的对数梅尔谱图图和对应的描述性标签来训练。然而，任何训练单元都可以采用合适的机器学习模型或系统。

第一和第二训练单元912a、912b可对应于在其上将训练第一和第二模块504a、504b的一个或多个服务器(形成“云”)。由特征提取器和标签单元生成的特征表示和对应的描述性标签可以被上传到这些一个或多个服务器，以便可以训练安装在其中的对应模块504a、504b。

一旦对应的训练单元对每个模块504a、504b进行了足够的训练，则可以将其导出到先前相对于图5描述的监听单元500。

应当理解的是，在先前生成的视频游戏数据包括触觉数据、遥测数据、玩家输入数据中的至少一个的实施例中，系统可以包括用于处理这些不同类型的数据中的每一个的特征提取器、聚类单元、标签单元和训练单元。如前所述，可能不需要用遥测数据训练机器学习模块，因为这通常会提供游戏中事件的明确指示。然而，一般情况下，玩家输入数据需要特征提取器、聚类单元、标签单元和训练单元。

应当理解的是，也如本文所述，参照多个机器学习模型生成本文所述的视频游戏的游戏玩法的记录的方法可以与机器学习模型的训练集合的方法相结合，例如在开发人员的训练期间监视系统的输出，或者定义机器学习模型的部分训练集合，以响应个人的游戏风格(例如，如果玩家是狙击手而不是近战风格的玩家，他们可能会累积不同的事件平衡，并且任选地，这可能会导致在训练方法中创建、修改或拆分一个或多个集群，以细化一个或多个模型)。类似地，任选地，当多个机器学习模型(例如，视频和音频)被训练使得其如本文所述操作时，一个或多个附加模型可以与为终端用户生成视频游戏的游戏玩法的记录的过程并行地被训练；例如，可以响应于特定输入和/或终端用户的响应，对基于用户输入和/或对游戏的响应的模型进行训练或重新训练/细化。

因此，两个或多个经过训练的机器学习模型和这些模型或附加模型的(重新)训练机制的任何适当组合可以作为组合方法来实现。

应当理解的是，本文描述的方法可在适当地通过软件指令或通过包含或替换专用硬件(如适用)进行适配的传统硬件上执行。因此，对传统等效设备的现有部分的所需的适配可以以计算机程序产品的形式实现，所述计算机程序产品包括存储在诸如软盘、光盘、硬盘、PROM、RAM、闪存等非暂时性机器可读介质或这些或其它存储介质的任何组合上的处理器可实现指令，或者以硬件实现为ASIC(专用集成电路)或FPGA(现场可编程门阵列)或其他适于在适配传统等效设备中使用的可配置电路。另外，这种计算机程序可以通过诸如以太网、无线网络、因特网或这些或其他网络的任何组合的网络上的数据信号来发送。

Claims

1.一种生成视频游戏的游戏玩法的记录的方法，所述方法包括：

接收在视频游戏的游戏期间生成的视频游戏数据，所述视频游戏数据包括至少视频信号和对应的音频信号，每个信号包括多个帧；

将接收到的视频游戏数据中的每个信号输入到各自的机器学习模型中，每个机器学习模型已被训练以基于输入到那个模型的所述信号识别所述视频游戏中发生的事件；

基于每个机器学习模型的输出，确定在所述视频游戏的所述游戏期间是否发生了突出事件；

基于已发生突出事件的确定，选择所述视频信号和/或音频信号的所述帧中的至少一些，以包含在所述视频游戏的所述游戏的记录中，并且生成包括选择的视频帧和/或音频帧的所述视频游戏的游戏玩法的记录。

2.根据权利要求1所述的方法，其中，使用先前在所述视频游戏的先前游戏期间生成的视频游戏数据来训练每个机器模型，使用半监督学习训练每个模型，以确定输入到那个模型的所述信号与对应事件之间的关系。

3.根据权利要求1所述的方法，其中，所述视频游戏数据还包括指示游戏中事件的遥测信号；并且

其中，所述方法还包括：基于每个机器学习模型的所述输出和接收到的遥测信号，确定是否发生了突出事件。

4.根据权利要求1所述的方法，其中，所述视频游戏数据还包括以下中的一个或多个：

i.触觉信号，其指示在用于玩所述视频游戏的一个或多个设备处的触觉反馈输出；

ii.运动信号，其指示玩家的运动；

iii.语音信号，其包括所述玩家的语音；

iv.玩家输入信号，其指示在用于玩所述视频游戏的一个或多个设备处接收到的玩家输入；以及

v.摄像机信号，其包括所述玩家的视频记录。

5.根据权利要求1所述的方法，包括：将所述视频信号的所述帧中的至少一些输入到视频机器学习模型中；并且

其中，训练所述视频机器学习模型，以识别每个输入视频帧所对应的场景类型。

6.根据权利要求1所述的方法，包括：将所述音频信号的所述音频帧中至少一些输入到音频机器学习模型中；并且

其中，训练所述音频机器学习模型，以识别每个输入音频帧所对应的音频事件。

7.根据权利要求5或6所述的方法，包括：

在每个各自的信号中生成所述帧中的至少一些的特征表示；并且

其中，将每个信号中的所述帧中的至少一些输入到各自的机器学习模型中，包括：将所述帧的所述特征表示输入到所述各自的机器学习模型中。

8.根据权利要求7所述的方法，其中，生成所述视频信号的特征表示包括：将所述视频信号的所述帧中的至少一些输入到预先训练的模型中。

9.根据权利要求7所述的方法，其中，生成所述音频信号的特征表示包括：生成所述音频信号的所述帧中的至少一些的梅尔谱图。

10.根据权利要求5所述的方法，其中，所述视频机器学习模型包括神经网络。

11.根据权利要求6所述的方法，其中，所述音频机器学习模型包括逻辑回归模型或二元分类模型。

12.根据权利要求1所述的方法，其中，在用于玩所述视频游戏的计算设备处本地执行每个训练过的机器学习模型。

13.根据权利要求1所述的方法，包括：

接收一个或多个其他玩家在所述视频游戏的所述游戏期间生成的历史数据；

确定所述历史数据中的至少一些与所述选择的视频和/或音频帧之间的对应关系；以及

在回放所述视频游戏的游戏玩法的记录时，显示与所述选择的视频和音频帧相对应的所述历史数据。

14.一种训练机器学习模型的集合的方法，包括以下步骤：

将所述接收到的视频游戏数据中的每个信号输入到各自的机器学习模型中，用于训练以基于所述输入到该模型的信号来识别所述视频游戏中发生的事件；

其中，使用半监督学习训练每个模型，以确定输入到所述模型的所述信号与对应事件之间的关系，所述半监督学习包括以下步骤：

生成所述视频游戏数据中的所述信号的特征表示；

对所述视频游戏数据中的所述信号的所述特征表示进行聚类；

使用无监督学习将每个信号的所述特征表示聚类到各自的集群中；

用指示与所述各自的集群相关联的事件的标签手动标记每个集群；

将所述信号或所述信号的特征表示和所述对应的标签输入到各自的机器学习模型中；以及

通过监督学习为每个模型确定输入到所述模型中的所述信号或特征表示与对应标签之间的关系。

15.根据权利要求14所述的方法，其中，使用k均值聚类或小批量k均值聚类，以将所述先前生成的输入特征表示聚类到集群中。

16.根据权利要求14所述的方法，其中，手动标记每个集群包括：审查与所述集群中的所述输入特征表示相对应的所述帧，并为所述集群确定标签。

17.根据权利要求14所述的方法，包括：在手动标记所述集群之前从每个集群过滤特征表示；

其中，所述过滤包括：从各自的集群中移除距离所述集群的形心超过阈值距离的特征表示。

18.一种计算机可读介质，其具有计算机可执行指令，所述计算机可执行指令适于使计算机系统执行权利要求1所述的方法。

19.一种计算机可读介质，其具有计算机可执行指令，所述计算机可执行指令适于使计算机系统执行权利要求14所述的方法。

20.一种用于生成视频游戏的游戏玩法的记录的系统，所述系统包括：

接收单元，其被配置为接收在视频游戏的游戏期间生成的视频游戏数据，所述视频游戏数据包括至少视频信号和对应的音频信号，每个信号包括多个帧；

第一模块和第二模块，每个模块被配置为接收所述视频游戏数据中的所述信号的不同信号，并且基于输入到所述模块的所述信号，使用训练过的模型来确定所述视频游戏中发生的事件；

突出检测器，其被配置为基于由每个模块检测到的所述事件，来检测在所述视频游戏的所述游戏中发生的一个或多个突出事件；以及

记录单元，其被配置为基于所述突出检测器的所述输出，来生成所述视频游戏的游戏玩法的记录，所述记录包括与所述一个或多个检测到的突出事件相对应的所述视频游戏数据中的所述视频和/或音频帧中的至少一些。

21.根据权利要求20所述的系统，其中，使用半监督学习训练至少所述第一模块和第二模块，以便确定输入到所述模型的所述信号与对应事件之间的关系。

22.根据权利要求20所述的系统，其中，所述视频游戏数据还包括指示游戏中事件的遥测信号；并且

其中，所述突出检测器被配置为基于所述第一模块和第二模块的所述输出和所述接收到的遥测信号，来确定在所述视频游戏中发生的事件。

23.根据权利要求20所述的系统，还包括：

多个特征提取器，每个特征提取器被配置为接收所述接收到的视频游戏数据中的不同的信号，并且生成所述信号中的所述帧的特征表示；并且

其中，至少所述第一模块和第二模块被配置为接收为所述各自信号的不同信号生成的所述特征表示。

24.根据权利要求23所述的系统，其中，第一特征提取器被配置为接收视频帧，并且第二特征提取器被配置为接收音频帧；并且

其中，所述第一模块被配置为接收视频帧的特征表示，并且所述第二模块被配置为接收音频帧的特征表示。

25.根据权利要求23所述的系统，包括：

多个特征提取器，其用于接收先前生成的视频游戏数据，每个特征提取器被配置为接收所述先前生成的视频游戏数据中的不同信号；

多个聚类单元，每个聚类单元被配置为接收由不同特征提取器输出的所述特征表示，并且使用无监督学习以将所述接收到的特征表示分类到多个集群中；

标签单元，其可操作以为由每个聚类单元输出的所述集群生成标签，所述标签单元被配置为基于来自用户的输入生成所述标签，每个标签指示与各自集群中的所述帧或对应特征表示相关联的事件；以及

训练单元，其被配置为训练至少所述第一和第二模块，所述训练单元被配置为确定输入到所述第一和第二模块的所述帧或特征表示与由所述标签单元生成的所述对应标签之间的关系。

26.根据权利要求25所述的系统，其中，每个聚类单元包括k均值或小批量k均值聚类算法，所述算法被配置为将所述特征表示分类到不同的各自集群中。