CN116564289A

CN116564289A - 利用生成性对抗学习的针对数字视频的可视化语音识别

Info

Publication number: CN116564289A
Application number: CN202211407981.2A
Authority: CN
Inventors: Y·库玛; B·克里希纳穆尔蒂
Original assignee: Adobe Systems Inc
Current assignee: Adobe Inc
Priority date: 2022-02-04
Filing date: 2022-11-10
Publication date: 2023-08-08
Also published as: DE102022131824A1; US20230252993A1

Abstract

一种利用生成性对抗学习的针对数字视频的可视化语音识别。本公开描述了利用诸如生成性对抗神经网络(GAN)模型的无监督机器学习模型来从数字视频中识别语音的系统、非瞬态计算机可读介质和方法的一个或多个实现。在一个或多个实现中，所公开的系统利用图像编码器来从无标签(或无注释)数字视频的帧中生成自我监督的深度可视化语音表示。

Description

利用生成性对抗学习的针对数字视频的可视化语音识别

背景技术

近年来，实现学习模型以执行可视化语音识别任务的计算机系统的实现越来越多。例如，当数字视频缺少音频分量(或具有不连贯的音频分量)时，传统系统可以使用机器学习模型来识别数字视频内的口述词。通常，识别口述词的任务包括标识表示来自数字视频的语音(例如，视位(“viseme”))的基本可分解单元。为了完成可视化语音识别任务，传统系统通常利用有监督机器学习模型，该有监督机器学习模型利用带标签的训练数据。尽管许多传统系统利用这种有监督机器学习模型，但是这些传统系统中的许多系统具有许多缺点，特别是在实现计算设备的灵活性、准确性和效率方面。

例如，许多传统系统利用需要带标签训练数据的有监督可视化语音识别模型。这些传统系统中的许多系统不能灵活地识别未由带标签训练数据表示的各种视频中的语音。实际上，这些传统系统通常限于通过可用的带标签训练数据而被学习的特定可视化语音识别任务。除了识别范围中的刚性之外，当语音识别模型没有对与特定数字视频相关的带注释的训练数据进行训练时，许多传统系统在特定数字视频上不准确地执行语音识别任务。因此，许多传统系统是不准确的，并且不能跨不同的数字视频域来完成语音识别任务。

此外，传统系统的计算效率往往很低。为了执行语音识别任务，许多传统系统需要大的带注释训练数据集。此外，许多传统系统还需要大量的训练时间来处理和训练具有大量带标签训练数据的稳健的机器学习结构。因此，许多传统系统利用数据存储库(例如，用于大的带注释训练数据集)和处理能力(例如，用于迭代训练过程)中过多的计算资源来执行语音识别任务。

发明内容

本公开描述了通过利用无监督机器学习模型来从数字视频中识别语音，来解决前述问题中的一个或多个问题的系统、非瞬态计算机可读介质和方法的一个或多个实现。具体地，在一个或多个实施例中，所公开的系统利用无监督生成性对抗神经网络(GAN)来执行可视化语音识别任务。为了说明，在一个或多个实现中，所公开的系统利用图像编码器来从无标签(或无注释)数字视频的帧中生成自监督深度可视化语音表示。在一个或多个实施例中，所公开的系统从深度可视化表示的聚类中确定分段视位语音表示，并且然后通过利用分段视位语音表示以及GAN模型来生成视位序列(或与音素(phoneme)组合的视位)。所公开的系统例如通过生成针对数字视频的电子转录和/或生成针对数字视频的数字音频，来对视位序列进行解码以提取数字视频中所示的口述语言。以这种方式，所公开的系统可以利用无监督机器学习来高效、准确并且灵活地从数字视频(具有或不具有伴随数字音频)中识别语音。

附图说明

详细说明参考附图进行描述，其中：

图1示出了根据一个或多个实现、可视化语音识别系统在其中操作的示例系统环境的示意图。

图2示出了根据一个或多个实现、通过利用基于GAN的框架来从数字视频中确定可视化语音的可视化语音识别系统的概览。

图3示出了根据一个或多个实现、从数字视频中生成可视化语音表示的可视化语音识别系统。

图4示出了根据一个或多个实现、利用分段视位语音表示以及GAN来生成视位序列的可视化语音识别系统。

图5示出了根据一个或多个实现、利用语言解码器来从视位序列中生成电子转录的可视化语音识别系统。

图6示出了根据一个或多个实现、训练鉴别器神经网络的可视化语音识别系统。

图7示出了根据一个或多个实现、训练GAN以生成视位序列的可视化语音识别系统。

图8示出了根据一个或多个实现的可视化语音识别系统的示意图。

图9示出了根据一个或多个实现、用于从数字视频中识别可视化语音的一系列动作的流程图。

图10示出了根据一个或多个实现的示例计算设备的框图。

具体实施方式

本公开描述了可视化语音识别系统的一个或多个实现，该可视化语音识别系统利用无监督机器学习模型来从数字视频(没有对应的音频)中确定可视化语音。具体地，可视化语音识别系统可以利用GAN以从数字视频的自监督语音表示中生成视位序列。例如，可视化语音识别系统利用表示学习模型以从数字视频的帧中生成深度可视化语音表示。然后，可视化语音识别系统对深度可视化语音表示进行聚类，并且从数字视频中确定反映分离的视位单位的分段视位语音表示。此外，可视化语音识别系统利用分段视位语音表示以及GAN来生成视位序列。此外，在一些实施例中，可视化语音识别系统将视位序列转换为针对数字视频的电子转录和/或数字音频。因此，可视化语音识别系统可以利用无监督机器学习模型来高效、准确并且灵活地从具有静音或无法理解的数字音频的数字视频中识别语音。

如上所述，在一些实现中，可视化语音识别系统从数字视频中生成深度可视化语音表示。具体地，在一个或多个实施例中，可视化语音识别系统利用图像编码器以及数字视频的各个帧来生成深度可视化语音表示集。在一个或多个实例中，可视化语音识别系统利用基于变换器的图像编码器来编码帧，并且使用帧的嵌入编码作为深度可视化语音表示。

此外，在一些情况下，可视化语音识别系统从深度可视化语音表示的聚类中确定分段视位语音表示。在一个或多个实现中，可视化语音识别系统利用聚类算法来从深度可视化语音表示中生成深度可视化语音表示的聚类。此外，在一个或多个实施例中，可视化语音识别系统将数字视频帧分组，以表示各个视位。例如，可视化语音识别系统从聚类中标识相似的数字视频帧和落入语音片段边界内的其他数字帧，以确定表示单个视位的语音片段。在一些实施例中，可视化语音识别系统生成数字视频帧组中每个帧的可视化语音表示(例如，使用主成分分析)，并且将可视化语音表示组合为分段视位语音表示。

此外，在一个或多个实施例中，可视化语音识别系统利用分段视位语音表示(其表示数字视频的每个片段的视位)以及GAN来生成针对分段视位语音表示的可能的视位序列。实际上，在一个或多个实现中，可视化语音识别系统利用GAN来为每个分段视位语音表示生成一个视位。在一些实现中，可视化语音识别系统还利用所生成的视位序列以及语言解码器来生成表示在数字视频内描绘的语音的电子转录。在某些实例中，可视化语音识别系统从分段视位语音表示中生成与音素(phoneme)组合的视位(作为视位序列)。此外，在一个或多个实施例中，可视化语音识别系统利用电子转录来生成针对数字视频的音频内容。

在一个或多个实施例中，可视化语音识别系统利用对抗过程来学习针对GAN的参数，而不利用有带标签(或带注释)训练数据。例如，可视化语音识别系统利用鉴别器神经网络来训练GAN以生成准确的视位序列。例如，可视化语音识别系统训练鉴别器神经网络以利用从GAN生成的视位序列和从文本语料库转换的视位序列来确定视位序列(例如，真实或虚假的视位序列)的真实性。实际上，可视化语音识别系统训练神经鉴别器来区分真实的和所生成的视位序列，并且训练GAN以生成更具真实感的视位序列。可视化语音识别系统还利用其他损失来学习针对GAN的参数，诸如分段平滑性损失、视位多样性损失和梯度惩罚。

如上所述，传统系统存在一些技术缺陷。与这些传统系统相比，可视化语音识别系统提供了多个优点。例如，与依赖于有监督语音识别模型的传统系统相比，可视化语音识别系统以更高的灵活性从数字视频中识别可视化语音。为了说明，可视化语音识别系统利用无监督机器学习方法来从数字视频中确定可视化语音(即，不利用转录语音数据)。因此，可视化语音识别系统可用于不受转录语音数据可用性限制的各种数字视频(例如，除了新词和词汇表外的词)。此外，在一些实现中，可视化语音识别系统也是语言不可知的，并且可以被训练以识别多种语言的数字视频中的可视化语音，即使转录语音数据在其他语言中并不广泛可用。

此外，与利用大的有注释训练数据集来覆盖各种数字视频的传统系统不同，可视化语音识别系统可以训练基于GAN的可视化语音识别模型以利用更少的训练数据来准确地识别可视化语音。具体地，在一个或多个实现中，可视化语音识别系统利用更少的(和未注释的)训练数据来从更广泛种类的数字视频准确地识别可视化语音。除了减少训练数据之外，与许多传统系统相比，可视化语音识别系统还可以利用更少的训练时间。因此，在一个或多个实例中，可视化语音识别系统训练基于GAN的可视化语音识别模型，以利用较少的计算资源(例如，数据存储和处理时间)准确并且高效地识别可视化语音。

此外，可视化语音识别系统还可以从数字视频中准确地确定可视化语音而不利用转录语音训练数据。具体地，如下文更详细地描述的，可视化语音识别系统可以利用更少的训练数据和更少的训练时间来执行与许多有监督方法可比的可视化语音识别。实际上，在一个或多个实施例中，可视化语音识别系统执行与许多有监督方法准确性可比的可视化语音识别，而不利用转录语音训练数据。

如前述讨论所建议的，本公开利用各种术语来描述可视化语音识别系统的特征和优点。下文提供关于本公开中使用的这些术语的含义的附加细节。例如，如本文所使用的，术语“图像编码器”指的是生成图像嵌入的计算机实现的模型。具体地，术语“图像编码器”可以包括计算机实现的模型，该模型从图像中生成深度可视化语音表示，该图像捕获图像内描绘的面部特征的特性(或属性)作为表示。例如，图像编码器包括基于变换器的图像编码器，其利用具有自注意力层的变换器编码器，该自注意力层生成针对输入图像的补丁嵌入作为深度可视化语音表示。在一些实例中，图像编码器包括基于神经网络的图像编码器，其从输入图像中生成深度可视化语音表示。

此外，如本文所使用的，术语“深度可视化语音表示”(有时称为可视化语音表示)指的是图像的嵌入或编码，其表示来自图像的面部特征的特性(或属性)。具体地，术语“深度可视化语音表示”指的是表示语音的面部特征的图像的嵌入编码。作为示例，深度可视化语音表示包括嵌入表示来自数字图像的(语音的)面部特征的潜在(或隐藏)特征的潜在向量。实际上，作为潜在向量的深度可视化语音表示可以包括表示来自数字图像的面部特征的像素的特性(或特征)的数据(例如，隐藏激活值)。在一些实现中，尽管(深度可视化语音表示的)这些特征值对于用户是不可识别的，但它们表征了数字图像内描述的面部特征。

如本文所使用的，术语“深度可视化语音表示聚类”指的是由深度可视化语音表示之间的关系表示的分组或聚类。具体地，术语“深度可视化语音表示聚类”可以包括共享共同特性或特征的深度可视化语音表示的分组。例如，深度可视化语音表示聚类包括在特征空间中语义相似(基于可视化语音表示的值)的深度可视化语音表示的分组。例如，深度可视化语音表示聚类包括深度可视化语音表示的组或集合，其利用k近邻算法被标识为邻居。

如本文进一步所使用的，术语“分段视位语音表示”指的是对应于来自数字视频的可视化语音片段的数字视频帧的集体表示。具体地，术语分段视位语音表示可以包括从多个数字视频帧中生成的表示，该多个数字视频帧使用深度可视化语音表示聚类而被选择以表示可视化语音片段(例如，其最终被映射到视位)。在一些实施例中，分段视位语音表示包括属于使用深度可视化语音表示聚类而被确定的来自数字视频的可视化语音片段的帧的组合表示。在一个或多个实例中，分段视位语音表示包括使用对属于来自数字视频的可视化语音片段的帧的主成分分析生成的表示的组合。

如本文进一步所使用的，术语“数字视频”指的是一系列可视化表示(例如，当按顺序呈现时描绘说话角色的一系列数字图像)。为了说明，在一个或多个实现中，数字视频包括但不限于具有以下文件扩展名的数字文件：FLV、SWF、AVI、WMV、MOV、QT、MKV、MP4或AVCHD。此外，如本文所使用的，术语“帧”(有时被称为“视频帧”或“数字视频帧”)指的是来自数字视频的单个部分或实例的可视化表示。具体地，在一些情况下，术语“帧”包括作为视频的片段(或实例)的静止图像的数字图像。为了说明，在某些情况下，帧包括数字图像。实际上，在一个或多个实现中，数字图像包括但不限于，具有以下扩展名的数字文件：JPG、TIFF、BMP、PNG、RAW或PDF。

此外，如本文所使用的，术语“生成性对抗神经网络”(GAN)指的是利用对抗学习过程来从输入嵌入中生成真实的数据的机器学习模型(例如，神经网络)。具体地，术语“生成性对抗神经网络”指的是生成针对输入嵌入(例如，分段视位语音表示)的可能的、真实的视位序列的机器学习模型。在一个或多个实施例中，GAN被训练以生成数据，该数据恶意地试图诱骗鉴别器神经网络将数据分类为真实数据。

此外，如本文所使用的，术语“鉴别器神经网络”指的是将GAN的输出分类为真实或不真实(例如，真实或虚假)的机器学习模型(例如，神经网络)。具体地，在一个或多个实施例中，鉴别器神经网络包括机器学习模型，其被训练(使用真实值真实性标签)以将数据分类为真实(例如，从真实世界日期得出的真实视位序列)或虚假(例如，从GAN生成的视位序列)。在一个或多个实现中，鉴别器神经网络包括机器学习模型，其使用来自文本语料库的真实视位序列进行训练以区分真实和/或非真实视位序列。此外，在一个或多个实现中，鉴别器神经网络将来自GAN的输出视位序列分类为真实或不真实。

此外，如本文所使用的，术语“神经网络”指的是机器学习模型，该模型基于输入被训练和/或调整以确定分类或近似未知函数。例如，神经网络包括互连的人工神经元的模型(例如，按层组织)，其通信并且学习近似复杂函数，并且基于提供给神经网络的多个输入来生成输出(例如，所生成的可视化语音表示和/或视位序列概率)。在某些情况下，神经网络指的是实现深度学习技术以对数据中的高级抽象进行建模的算法(或算法集)。例如，神经网络包括卷积神经网络(CNN)和/或递归神经网络(RNN)。

如本文所使用的，术语“视位”指的是可视化语音的可分解表示单位。具体地，在一个或多个实施例中，术语“视位”指的是表示来自对应于特定声音或声音组的不同嘴部运动的一个或多个可听音素的可分解单元。实际上，在一个或多个实施例中，视位包括表示一个或多个音素的可视化运动(例如，嘴形或运动)。在一些情况下，视位表示映射到一个或多个特定音素的不同嘴部运动(例如，映射到音素p、b、m的第一视位和映射到音素t、d的第二视位)。此外，如本文所使用的，术语“视位序列”指的是以特定顺序表示短语的一个或多个视位集。例如，短语“I love you”和“Elephant Juice”的视位序列是“rstfi”。在某些实例中，视位序列可以包括与表示一个或多个视位的一个或多个音素组合的一个或多个视位。

如本文所使用的，术语“语言解码器”指的是将视位序列转换成词或短语的模型(或算法)。具体地，在一个或多个实例中，语言解码器利用来自GAN的视位序列以确定针对该视位序列的可能文本序列。在一个或多个实施例中，语言解码器包括但不限于，基于加权有限状态换能器(transducer)的解码器和/或基于维特比(Viterbi)算法的解码器。

如本文进一步所使用的，术语“电子转录”指的是表示数字视频内的短语和/或语音的文本集。具体地，在一个或多个实施例中，术语“电子转录”指的是转录在数字视频内表示的语音(例如，转录语音和相对于数字视频的讲话时间)的电子布置(例如，文本文档或文件)。

现在转到附图，图1示出了根据一个或多个实现，可视化语音识别系统在其中进行操作的系统100(或环境)的一个或多个实现的示意图。如图1所示，系统100包括(多个)服务器设备102、网络108和客户端设备110a至110n。如图1进一步所示，(多个)服务器设备102和客户端设备110a至110n经由网络108通信。

如图1所示，(多个)服务器设备102包括数字图形系统104，数字图形系统104还包括可视化语音识别系统106。数字图形系统104可以生成、编辑、存储、取回和/或增强数字图形，诸如数字视频和其他数字内容。此外，如下所述，可视化语音识别系统106可以在从数字视频(例如，没有对应的音频)中提取口述语言时执行语音识别任务。例如，(多个)服务器设备102包括但不限于计算(或计算机)设备(如下面参考图10所解释的)。在一些实现中，可视化语音识别系统106利用GAN来从数字视频中确定语音。具体地，在一个或多个实施例中，可视化语音识别系统106从(客户端设备110a至110n中的)客户端设备接收数字视频，并且利用GAN模型来从数字视频中识别语音。

此外，如图1所示，系统100包括客户端设备110a至110n。在一个或多个实现中，客户端设备110a至110n包括但不限于移动设备(例如，智能电话、平板计算机)、膝上型计算机、台式机或任何其他类型的计算设备，包括以下参考图10解释的那些。在某些实现中，尽管未在图1中示出，但客户端设备110a至110n由用户操作以执行各种功能(例如，经由数字图形应用112a至112n)。例如，客户端设备110a至110n执行如下功能诸如但不限于捕获数字视频、编辑数字视频、播放数字视频和/或请求针对数字视频的语音识别。

为了访问可视化语音识别系统106的功能(如上所述)，在一个或多个实现中，用户与客户端设备110a至110n上的数字图形应用112a至112n中的一个数字图形应用交互。例如，数字图形应用112a至112n包括安装在客户端设备110a至110n上的一个或多个软件应用(例如，以根据本文的一个或多个实现来捕获、播放和/或修改数字视频)。在一些实例中，数字图形应用112a至112n被托管在(多个)服务器设备102上。此外，当托管在(多个)服务器设备上时，数字图形应用112a至112n由客户端设备110a至110n通过网络浏览器和/或另一在线交互平台和/或工具而被访问。

尽管图1示出了由系统100内的特定组件和/或设备(例如，(多个)服务器设备102)实现的可视化语音识别系统106，但在一些实现中，可视化语音识别系统106全部或部分由系统100中的其他计算设备和/或组件实现。例如，在一些实现中，可视化语音识别系统106在数字图形应用112a至112n内的客户端设备110a至110n上实现。具体地，在一个或多个实现中，当客户端设备110a至110n实现可视化语音识别系统106时，对可视化语音识别系统106的描述(以及由其执行的动作)由客户端可视化语音识别系统114a至114n实现(或由其执行)。更具体地，在某些实例中，根据一个或多个实现，客户端设备110a至110n(经由客户端可视化语音识别系统114a至114n上的可视化语音识别系统106的实现)从数字视频中识别可视化语音。

在一些实施例中，(多个)服务器设备102和客户端设备110a至110n两者实现可视化语音识别系统106的各种组件。例如，在一些实施例中，(多个)服务器设备102训练一个或多个神经网络(例如，用于生成视位的GAN)，然后将神经网络提供给客户端设备110a至110n以实现/应用神经网络(例如，生成针对客户端设备110a至110n上的数字图像的视位)。在一些实施例中，(多个)服务器设备102训练并且实现一个或多个神经网络(例如，用于生成视位的GAN)。为了说明，(多个)服务器设备102训练GAN，从客户端设备110a接收数字视频，从数字视频中生成视位(和/或转录)，并且将视位(和/或数字视频)提供给客户端设备110a。

此外，如图1所示，系统100包括网络108。如上所述，在一些实例中，网络108实现了系统100的组件之间的通信。在某些实现中，网络108包括适当的网络，并且可以使用适合于传输数据和/或通信信号的任何通信平台和技术进行通信，参考图10描述其示例。此外，尽管图1示出了经由网络108进行通信的(多个)服务器设备102和客户端设备110a至110n，但在某些实现中，系统100的各种组件经由其他方法进行通信和/或交互(例如，(多个)服务器设备102和客户端设备110a至110n直接通信)。

如前所述，在一个或多个实现中，可视化语音识别系统106利用数字视频的GAN和自监督语音表示来识别可视化语音。例如，图2示出了可视化语音识别系统106通过利用基于GAN的框架来从数字视频中确定可视化语音的概览。如图2所示，可视化语音识别系统106根据从数字视频中生成的深度可视化语音表示来生成深度可视化语音表示聚类。然后，如图2中进一步所示，可视化语音识别系统106使用深度可视化语音表示聚类来确定分段视位语音表示。此外，如图2所示，可视化语音识别系统106通过利用分段视位语音表示以及GAN(其利用鉴别器神经网络而被训练)来生成视位序列。

如图2的动作202所示，可视化语音识别系统106利用图像编码器来从数字视频200中生成深度可视化语音表示。具体地，可视化语音识别系统从数字视频200中提取数字视频帧，并且利用图像编码器来生成针对数字视频帧的深度可视化语音表示。下文(例如，参考图3)描述关于生成深度可视化语音表示的另外细节。

此外，如图2的动作204所示，可视化语音识别系统106还生成深度可视化语音表示聚类。具体地，可视化语音识别系统106利用聚类算法来聚类在动作202处生成的深度可视化语音表示。下文(例如，参考图3)描述关于使用各种聚类方法来生成深度可视化语音表示聚类的附加细节。

如图2的动作206所示，一经生成深度可视化语音表示聚类，则可视化语音识别系统106确定分段视位语音表示。具体地，在一些实例中，可视化语音识别系统106利用深度可视化语音表示聚类以标识语音片段边界。利用这些语音片段边界和深度可视化语音表示聚类，可视化语音识别系统可以从描绘特定视位的数字视频200中标识不同的数字视频帧组。然后，可视化语音识别系统可以从这些不同的组中生成分段视位语音表示。下文(例如，参考图3)描述关于确定分段视位语音表示的附加细节。

此外，如图2的动作208所示，可视化语音识别系统106利用GAN来生成视位序列。具体地，在一个或多个实施例中，可视化语音识别系统106利用分段视位语音表示(来自动作206)作为针对GAN的输入，以生成针对分段视位语音表示的视位序列。此外，在一个或多个实施例中，可视化语音识别系统106利用视位序列来生成针对数字视频200的电子转录。例如，下文(例如，参考图4和图5)描述关于利用GAN生成视位序列(以及生成电子转录)的附加细节。

此外，如图2的动作210所示，可视化语音识别系统106还可以学习GAN的参数。如图2的动作210所示，可视化语音识别系统106利用鉴别器神经网络以及所生成的视位序列来学习GAN的参数。此外，如图2所示，可视化语音识别系统106通过分析由GAN生成的视位序列(例如，虚假视位序列)和来自文本语料库的视位序列(例如，真实视位序列)来训练鉴别器神经网络。下文(例如，参考图6和图7)描述关于训练鉴别器神经网络和GAN的附加细节。

如前所述，在一些情况下，可视化语音识别系统106从数字视频中确定分段视位语音表示。例如，图3示出了从数字视频中生成可视化语音表示的可视化语音识别系统106。随后，图3还示出了可视化语音识别系统106从可视化语音表示的聚类中确定分段视位语音表示。

为了说明，如图3所示，可视化语音识别系统106利用图像编码器304来从(数字视频的)数字视频帧302中生成可视化语音表示306。例如，可视化语音识别系统106可以利用图像编码器304来生成可视化语音表示，该可视化语音表示是表示来自数字视频帧的面部特征的特性的嵌入式编码。在一个或多个实现中，可视化语音识别系统106生成针对数字视频的每个数字帧的可视化语音表示。

在一个或多个实施例中，可视化语音识别系统106利用图像编码器来从捕获图像中描绘的面部特征的数字视频帧(例如，图像)中生成深度嵌入(例如，深度可视化语音表示)。在一个或多个实例中，可视化语音识别系统106利用基于变换器的图像编码器，该图像编码器利用图像的补丁(例如，作为矢量或矩阵)以及变换器编码器来生成深度嵌入。例如，在一个或多个实施例中，可视化语音识别系统106利用由下文描述的基于变换器的图像编码器(例如，可视化变换器)：A.Dosovitskiy等人，An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale(一张图像拥有16x16个字：按比例进行图像识别的变换器),arXiv:2010.11929v2,(2021)，其内容通过引用整体并入本文。此外，在一些实施例中，可视化语音识别系统106还利用由下文描述的基于变换器的图像编码器：Z.Liu等人，Swin Transformer:Hierarchical Vision Transformer using ShiftedWindows(Swin变换器：使用移位窗口的层级可视化变换器),arXiv:2103.14030v2,(2021)，其内容通过引用整体并入本文。

尽管可视化语音识别系统106的一个或多个实施例利用基于变换器的图像编码器来生成深度可视化语音表示，但是可视化语音识别系统106可以将各种图像编码器用于图像编码器304。例如，可视化语音识别系统106利用基于神经网络的图像编码器来从数字视频帧中生成深度可视化语音表示。具体地，在一个或多个实施例中，可视化语音识别系统106利用卷积神经网络(CNN)，诸如但不限于ImageNet和/或AlexNet，来从数字视频帧中生成深度可视化语音表示。

此外，如图3所示，可视化语音识别系统106利用聚类模型308来从可视化语音表示306中生成可视化语音表示聚类310。具体地，在一些情况下，可视化语音识别系统106利用聚类模型308来标识来自数字视频的相似可视化语音表示并且将其分组为聚类。例如，可视化语音表示聚类310指示数字视频的各个语音片段(例如，包括指示相似的所描绘的视位的特性的帧聚类)。在一些情况下，可视化语音识别系统106还基于特定数字视频帧的可视化语音表示所属的聚类，利用聚类标识来标记每个数字视频帧。

在一个或多个实施例中，可视化语音识别系统106利用k-均值聚类算法来生成可视化语音表示聚类310。具体地，可视化语音识别系统106利用k-均值聚类算法以确定可视化语音表示306与特征空间中的所选择的类别(或属性)(例如，表示类别的聚类，诸如但不限于嘴唇运动和/或嘴部运动的面部特征)之间的距离，用于选择聚类的数目(例如，k个)。此外，在一些实施例中，可视化语音识别系统106利用距离值，该距离值包括表示可视化语音表示与特征空间内的聚类的中心之间的空间量的值。此外，在一些情况下，可视化语音识别系统106利用该距离值作为表示可视化语音表示的多个特征之间的相似性的量化的一个或多个值。例如，距离值包括表示聚类内相邻可视化语音表示之间的空间量的值(例如，基于聚类的特征空间)。在一个或多个实施例中，可视化语音识别系统106利用诸如但不限于K-均值聚类、递归K-均值聚类和/或差分聚类的聚类技术来生成可视化语音表示聚类。

此外，如图3所示，可视化语音识别系统106还从可视化语音表示聚类310中确定分段视位语音表示314。具体地，如图3所示，可视化语音识别系统106利用分段模型312来标识来自可视化语音表示聚类310的语音片段边界，以标识数字视频帧的分组。然后，参考图3，可视化语音识别系统106利用来自数字视频帧分组的数字视频帧的可视化表示来生成分段视位语音表示。

例如，可视化语音识别系统106利用可视化语音表示聚类来确定语音片段边界。在一个或多个实施例中，可视化语音识别系统106利用可视化语音表示聚类来用聚类标识符以标记每个数字视频帧。然后，在一些情况下，可视化语音识别系统106标识聚类标识符改变的数字视频帧(例如，指示后续视频帧属于表示数字视频内的单独的视位片段的另一聚类)。一经标识具有改变的聚类标识符的数字视频帧，在一些实例中，可视化语音识别系统106将视频帧标记为语音片段边界。

实际上，在一个或多个实施例中，可视化语音识别系统106继续标识来自数字视频帧的聚类标识符中的改变，以标记后续语音片段边界。在一个或多个实施例中，可视化语音识别系统106确定在每个片段中具有不同数目的数字视频帧的语音片段序列。作为说明性示例，可视化语音识别系统106确定前10个数字视频帧中的5个属于第一聚类。可视化语音系统106可以将全部10个数字视频帧(来自该聚类的5个和非来自该聚类的5个)分配给第一语音片段。此外，作为该示例的部分，可视化语音识别系统106确定接下来的12个数字视频帧中的7个属于第二聚类，并且由此属于第二语音片段。实际上，在一些情况下，可视化语音识别系统106标识具有各种数目的数字视频帧的各种数目的语音片段。

随后，在一个或多个实施例中，可视化语音识别系统106从各种语音片段(来自可视化语音表示聚类)生成分段视位语音表示。具体地，在一个或多个实施例中，可视化语音识别系统106生成属于语音片段的数字视频帧的可视化语音表示，并且组合可视化语音表示以确定分段视位语音表示。例如，可视化语音识别系统106使用机器学习变换技术来生成针对语音片段中的每个数字视频帧的可视化语音表示。

为了说明，在一些实施例中，可视化语音识别系统106利用作为机器学习变换技术的主成分分析来从属于语音片段的数字视频帧中生成可视化语音表示。具体地，在一些情况下，可视化语音识别系统106利用主成分分析来将数字视频帧的相关变量变换为减少数目的不相关变量，以生成可视化语音表示。实际上，在一个或多个实施例中，数字视频帧的可视化语音表示包括数字视频帧的减少的线性维度版本(例如，使用主成分分析)。尽管一个或多个实施例说明了利用主成分分析技术的可视化语音识别系统106，但在一些情况下，可视化语音识别系统106利用各种机器学习变换技术，诸如但不限于线性判别分析、自动编码器和/或局部线性嵌入方法。

此外，在一些实例中，可视化语音识别系统106利用语音片段中的可视化语音表示来确定分段视位语音表示。例如，可视化语音识别系统106组合对应于语音片段的数字视频帧的可视化语音表示，以生成针对语音片段的分段视位语音表示。在一个或多个实施例中，可视化语音识别系统106利用可视化语音表示的均值池化来组合可视化语音表示，以生成分段视位语音表示。实际上，在一个或多个实施例中，可视化语音识别系统106利用各种技术来组合可视化语音表示，诸如但不限于最大池化、全局均值池化、平均和/或乘法。

为了说明，在一些情况下，可视化语音识别系统106利用来自第一语音片段(具有第一组数字视频帧)的第一可视化语音表示集来生成第一分段视位语音表示。此外，在一个或多个实施例中，可视化语音识别系统106利用来自第二语音片段(具有第二组数字视频帧)的第二可视化语音表示集来生成第二分段视位语音表示。实际上，在一些情况下，可视化语音识别系统106使用可视化语音表示聚类来确定针对从数字视频中标识的每个语音片段的分段视位语音表示，以产生针对特定话语(utterance)S的分段视位语音表示序列S＝s₁，s₂，...，s_T(如数字视频中所描绘的)。

如前所述，在一些实施例中，可视化语音识别系统106利用GAN以及分段视位语音表示来生成视位序列。例如，图4示出了可视化语音识别系统106利用分段视位语音表示以及GAN来生成视位序列。如图4所示，可视化语音识别系统106向GAN 404提供分段视位语音表示402。实际上，如图4进一步所示，GAN 404将分段视位语音表示映射到视位以生成视位序列406。如图4进一步所示，可视化语音识别系统106利用视位序列406来生成针对对应于分段视位语音表示402的数字视频的电子转录408。

关于图4，GAN 404被训练以从输入可视化语音嵌入(例如，分段视位语音表示)中生成可能的视位序列。GAN 404(即，生成器G)将分段视位语音表示序列S＝s₁,s₂，...,s_T映射到视位表示V＝v，v₂，...，v_L。实际上，在一个或多个实施例中，生成器G为每个分段视位语音表示生成一个视位。在一些实例中，当生成器G背靠背地生成相同的视位时，可视化语音识别系统106进一步组合后续视位预测(例如，以确保L≤T)。

GAN 404可以包括各种架构。例如，GAN 404可以包括1维(1-D)层卷积神经网络。此外，在一个或多个实施例中，GAN 404具有对来自分段视位语音表示的视位进行分类的线性层。可视化语音识别系统106向GAN 404提供m个输入分段视位语音表示。输入分段视位语音表示可以包括各种大小(例如，256、512、1024)。此外，GAN 404经由1-D层卷积神经网络和线性层来输出视位分布(例如，具有分类概率的视位分布)。然后，在一些实施例中，可视化语音识别系统106从视位分布中确定针对输入分段视位语音表示的视位分类。

在一些情况下，可视化语音识别系统106利用softmax层来生成从GAN 404输出的视位分布。具体地，可视化语音识别系统106利用softmax技术来模仿真实的一热(one-hot)编码视位表示。在一些情况下，softmax层防止GAN 404学习尖锐的视位分布(例如，对于一个视位类别具有极高的置信度)。在一些实例中，可视化语音识别系统106利用gumbel-softmax层来生成从GAN 404输出的视位分布。

在一个或多个实施例中，可视化语音识别系统106生成针对整个数字视频的可视化语音的视位序列。在一些实例中，可视化语音识别系统106生成表示数字视频的多个片段的针对数字视频的多个视位序列。作为示例，可视化语音识别系统106确定针对数字视频中的各个短语或句子或针对数字视频的各个部分的视位序列。

此外，如前所述和如图4所示，可视化语音识别系统106利用GAN 404来生成针对分段视位语音表示的视位序列，并且随后生成表示在数字视频内描绘的语音的电子转录408。实际上，图5示出了可视化语音识别系统106利用语言解码器504来从为数字视频510生成的视位序列502中生成针对数字视频510的电子转录506。此外，如图5所示，在一些实施例中，可视化语音识别系统106还利用电子转录506来生成针对数字视频510内描绘的语音的数字音频内容508。

具体地，可视化语音识别系统106利用语言解码器504(例如，用于自动语音识别)来从由GAN生成的视位序列中确定可能的文本序列。可视化语音识别系统106将语言解码器504训练为视位级语言解码器(例如，6-gram视位语言模型)。例如，可视化语音识别系统106利用使用来自文本语料库的(从其生成的或准备的)视位语言模型训练(或建模)的语言解码器。在一个或多个实施例中，可视化语音识别系统106利用语言编码器来利用解码算法(例如，维特比算法)来确定视位的最佳路径(例如，在多项式时间内)。在一些实施例中，可视化语音识别系统106添加自循环以用标签来填充空白视位序列(例如，以区分空白和空格)。

在某些实施例中，可视化语音识别系统106将语言解码器504训练为词级语言解码器。例如，可视化语音识别系统106利用一个或多个文本语料库来训练语言模型，以使用波束搜索(例如，使用诸如4.0词、5.0词、6.0词的各种波束宽度)来解码文本。在一个或多个实施例中，可视化语音识别系统106利用具有可比结果的词级语言解码器，同时使用如下语言解码器来从生成视位序列中生成电子转录：使用大量经预处理的文本(例如，8或更多千兆字节的数据)进行训练的语言解码器，以及使用较少量的经预处理的文本(例如，2或更少千兆字节的数据)进行训练的语言解码器。

在一个或多个实施例中，可视化语音识别系统106利用基于加权有限状态换能器(WFST)的语言解码器作为语言解码器504。实际上，在一个或多个实施例中，可视化语音识别系统106利用如下WFST解码器：该WFST解码器利用换能器来对词序列的可能性进行建模(例如，从视位或视位的音素)。在一些实例中，可视化语音识别系统106利用如下WFST解码器：该WFST解码器还利用有限状态机来向用于视位序列的各种路径提供权重。实际上，在一些情况下，可视化语音识别系统106利用WFST解码器来将视位状态解码成语法上正确(grammatically-sound)的词序列(例如，以生成电子转录)。此外，在一个或多个实施例中，可视化语音识别系统106利用各种基于WFST的语言解码器，诸如但不限于，使用维特比解码的基于WFST的语言解码器、利用半环的基于WFST的语言解码器、利用各种运算符(例如，和、积、闭合、反转、求逆)的基于WFST的语言解码器。

在一个或多个实施例中，可视化语音识别系统106利用基于WFST的语言解码器的输出来确定与先前时期(epoch)相比，最近时期中的权重是否提高。实际上，可视化语音识别系统106利用该度量来确定输出句子以该语言出现的可能性。例如，可视化语音识别系统106利用维特比模型来输出基于WFST的语言解码器的基于词的输出/>以及语言模型的熵/>(例如，其指示句子出现在该语言中的可能性)以及可调整超参数μ来训练基于WFST的语言解码器。具体地，可视化语音识别系统106利用基于WFST的语言解码器的输出来最小化以下非监督度量：

在一些情况下，一经生成针对数字视频的电子转录，可视化语音识别系统106还生成针对数字视频的数字音频内容。在一些情况下，可视化语音识别系统106利用计算机化的语音模型(例如，人工智能、语音阅读算法)来创建针对电子转录的文本的音频内容。然后，在一些实现中，可视化语音识别系统106在由电子转录指示的目标回放时间中重叠数字视频内的音频内容。具体地，可视化语音识别系统106可以基于用于生成映射到电子转录的视位和对应词的分段视位语音表示的数字帧，确定对应于音频和电子转录的时间戳。可视化语音识别系统106可以将音频/电子转录的时间戳与数字视频的数字帧的时间对齐。因此，可视化语音识别系统106可以将所生成的数字音频与数字视频的数字帧对齐。

此外，在一个或多个实施例中，可视化语音识别系统106出于各种目的从数字视频中确定可视化语音。为了说明，一经生成针对缺少音频的数字视频的电子转录，在一些实例中，可视化语音识别系统106利用电子转录来引入来自数字视频的丢失语音。例如，可视化语音识别系统106通过识别说话角色的可视化语音(如上所述)并且生成可视化语音的电子转录来重构说话角色的丢失音频(如数字视频中所描绘的)。

此外，在一些实例中，可视化语音识别系统106还识别可视化语音(如上所述)以自动将音频内容添加到各种语言的动画电影。此外，在一个或多个实例中，可视化语音识别系统106利用可视化语音识别框架来生成针对具有噪声的、丢失的和/或损坏的音频的数字视频的音频内容。在一些情况下，可视化语音识别系统106利用可视化语音识别框架来修复(经由电子转录和音频内容)有噪声的、丢失的和/或损坏的视频会议呼叫的音频馈送。

此外，在一些实施例中，可视化语音识别系统106利用可视化语音识别GAN结合音频识别模型，来识别来自数字视频的可视化语音和可听语音两者。具体地，在一个或多个实施例中，可视化语音识别系统106利用音频编码器来从数字视频中生成音频表示。然后，在一些实现中，根据本文的一个或多个实施例，可视化语音识别系统106利用GAN对音频表示进行聚类，并且利用所聚类的音频表示来从音频表示中生成视位(或音素)序列和电子转录。在一些情况下，可视化语音识别系统106利用从可视化语音表示生成的视位序列和从音频表示生成的视位序列的组合，来生成针对数字视频的电子转录。

如前所述，可视化语音识别系统106利用鉴别器神经网络来学习GAN的参数。实际上，在一个或多个实施例中，可视化语音识别系统106训练鉴别器神经网络以区分真实和不真实/所生成的视位序列(例如，真实或虚假)。例如，图6示出了可视化语音识别系统106利用来自文本语料库的真实视位序列来训练鉴别器神经网络。

如图6所示，可视化语音识别系统106从文本语料库602中标识真实视位序列604。然后，如图6所示，可视化语音识别系统106将真实视位序列604输入到鉴别器神经网络606中以生成真实性预测608。实际上，真实性预测指示真实视位序列604被预测为真实还是虚假(例如，来自文本语料库的视位序列或来自GAN的视位序列)。

如图6进一步所示，可视化语音识别系统106将真实性预测608与真实视位序列604(作为真实值标签)进行比较，以使用损失函数610来确定损失。实际上，损失函数610指示鉴别器神经网络606的准确性(例如，生成损失值以指示真实性预测608与真实视位序列604的真实性相比是不正确和/或正确的)。此外，在一些实例中，可视化语音识别系统106利用从损失函数610确定的损失来学习鉴别器神经网络606的参数。例如，可视化语音识别系统106修改鉴别器神经网络606的参数以说明由损失函数610指示的不正确(或正确)行为(例如，使用反向传播)，并且学习以准确地区分真实和虚假的视位序列。

在一些实施例中，可视化语音识别系统106利用文本语料库来训练鉴别器神经网络。实际上，在一个或多个实现中，文本语料库包括数据源，诸如在线文章、百科全书、词典和/或新闻文章。实际上，在一些实例中，可视化语音识别系统106从文本语料库获得文本短语，并且将文本短语转换成视位序列(例如，作为真实的视位序列)。例如，可视化语音识别系统106使用各种视位转换技术(例如，Epitran、亚马逊Polly)将来自文本语料库的文本短语的音素转换成视位序列。在一些实例中，可视化语音识别系统106将整个文本语料库转换为视位序列语料库，并且利用视位序列语料库来训练鉴别器神经网络。

如上所述，在一些情况下，可视化语音识别系统106训练GAN以对抗地使用鉴别器神经网络从可视化语音表示生成视位序列预测。例如，图7示出了可视化语音识别系统106训练GAN(并且进一步训练鉴别器神经网络)。如图7所示，GAN 702生成视位序列704。然后，如图7进一步所示，可视化语音识别系统106将视位序列704提供给鉴别器神经网络706(例如，鉴别器神经网络606)以生成真实性预测708。具体地，真实性预测708指示所生成的视位序列704被预测为真实还是虚假。

可视化语音识别系统106将真实性预测708与视位序列704的真实值标签(例如，指示视位序列704为虚假的标签)进行比较。例如，如图所示，可视化语音识别系统106利用基于真实性预测708和真实值标签的鉴别器损失710来确定损失的量度。然后，可视化语音识别系统106利用损失量度来学习GAN 702的参数(例如，使用反向传播来减少损失量度)。以此方式，GAN 702学习以生成更具真实感的视位序列(例如，其更有可能骗过鉴别器神经网络705)。此外，尽管未示出，但可视化语音识别系统106还可以利用鉴别器损失710来进一步修改鉴别器神经网络706的参数(例如，使得鉴别器神经网络更准确地区分真实和虚假的视位序列)。

此外，如图7所示，可视化语音识别系统106还利用生成器损失712以及GAN 702来学习GAN 702的参数。实际上，如图7所示，生成器损失712被反向传播到GAN 702。然后，如图7所示，可视化语音识别系统106利用生成器损失712(以及鉴别器损失710)来修改GAN 702的参数，以训练GAN 702以从分段视位语音表示中生成准确的视位序列。如图7进一步所示，生成器损失712包括分段平滑性惩罚、视位多样性损失和/或梯度惩罚(如下所述)。尽管一个或多个实施例示出了包括分段平滑性惩罚、视位多样性损失和/或梯度惩罚的生成器损失，但是在一些实施例中，生成器损失包括这些损失的各种组合。

在一个或多个实施例中，可视化语音识别系统106通过最小-最大损失公式来利用生成器损失和鉴别器损失。具体地，在一些情况下，可视化语音识别系统106从所生成的视位序列和鉴别器神经网络中确定GAN最小-最大损失，并且利用该GAN最小-最大损失来修改GAN(例如，经由反向传播)。例如，对于具有个视位样本和语音片段表示S的鉴别器/>和生成器G，可视化语音识别系统106可以生成如下函数中描述的最小-最大损失：

在一些实例中，如图7所示，可视化语音识别系统106利用梯度惩罚损失作为生成器损失712的部分。例如，可视化语音识别系统106利用梯度惩罚损失来稳定GAN在随机数目的视位样本上的训练。实际上，在一些情况下，梯度惩罚损失包括相对于鉴别器神经网络的输入的鉴别器神经网络的梯度的范数惩罚。例如，对于鉴别器/>可视化语音识别系统106可以利用下面的梯度惩罚损失函数(作为最小-最大损失函数(2)的部分)来确定梯度惩罚损失/>

此外，在一些实现中，如图7所示，可视化语音识别系统106利用分段平滑性惩罚损失作为生成器损失712的部分。例如，可视化语音识别系统106利用分段平滑性惩罚损失，其避免随后分段视位语音表示中视位的突然改变。实际上，在一个或多个实施例中，可视化语音识别系统106利用分段平滑性惩罚损失来说明不允许视位突然改变的嘴巴、嘴唇和声带的结构中不太可能有突然改变，并且降低噪声(例如，来自后续时间步长(v_t，v_t+1))中的相关分段)。为了说明，对于后续时间步长处的视位v和生成器G，可视化语音识别系统106可以利用以下分段平滑性惩罚损失函数(作为最小-最大损失函数(2)的部分)来确定分段平滑性惩罚损失

另外，在一个或多个实施例中，如图7所示，可视化语音识别系统106利用视位多样性损失作为生成器损失712的部分。实际上，在一些情况下，可视化语音识别系统106利用视位多样性损失来促进GAN中的视位词汇多样性。在一个或多个实施例中，可视化语音识别系统106利用视位多样性损失来扩展(例如，最大化)视位词汇在话语批次(例如，数字视频中的语音的短语或片段)上的分布。在一些情况下，可视化语音识别系统106引入视位多样性损失以增加(例如，最大化)生成器/>(GAN)跨来自(多个)数字视频的B个话语批次的分段视位语音表示S的平均softmax分布的熵/>(如以下函数所示)。因此，当视位反映的视位词汇范围较窄时，视位多样性损失函数可能对这些视位的生成造成更严重的不利。换句话说，视位多样性损失可以鼓励利用来自视位词汇的更广泛的视位。实际上，在一个或多个实施例中，可视化语音识别系统106利用以下视位多样性损失函数(作为最小-最大损失函数(2)的部分)：

此外，如上所述，在某些情况下，可视化语音识别系统106通过利用梯度惩罚损失、分段平滑性惩罚损失和视位多样性损失来修改GAN的最小-最大损失。具体地，在一个或多个实施例中，可视化语音识别系统106利用函数(3)至(5)(例如，表示梯度惩罚损失、分段平滑性惩罚损失和视位多样性损失)来使用以下函数修改最小-最大损失函数(2)：

在一些情况下，可视化语音识别系统106利用超参数λ、γ和η来修改梯度惩罚损失分段平滑性惩罚损失/>和视位多样性损失/>

在一些实施例中，可视化语音识别系统106还反向传播来自生成器(和/或鉴别器)的损失，以在GAN之前学习可视化语音识别系统框架的一个或多个模型的参数。例如，可视化语音识别系统106将损失反向传播到聚类模型以学习聚类模型的参数(例如，经由对聚类方法的修改来改进最终生成的视位序列)。此外，在一些实现中，可视化语音识别系统106还将损失反向传播到分段模型(如上所述)以学习分段模型的参数(例如，经由对聚类方法的修改来改进最终生成的视位序列)。实际上，在一个或多个实施例中，可视化语音识别系统106利用完全受控的神经网络、RNN、长短期记忆(LSTM)模型和/或变换器来学习可视化语音识别系统框架内的各个步骤的参数。

如上所述，可视化语音识别系统106以改进的灵活性和效率从数字视频中准确地识别可视化语音。例如，实验者利用根据本文的一个或多个实现的语音识别模型来将结果与各种传统语音识别模型进行比较。实际上，实验者利用嘴唇阅读句子3(LR3)数据集的无标签版本，该数据集包含大约150,000个不同长度的话语(例如，大约440小时的语音)用于训练(如上所述)，并且用于比较根据本文的一个或多个实现的语音识别模型和各种传统语音识别模型的结果。在一个或多个实施例中，实验者对数据集进行分层，使得在测试集和训练集中不存在重叠。实验还利用了嘴唇阅读句子2(LRS2)数据集，该数据集包含大约150,000个不同长度的转录话语(例如，具有224.5小时的语音内容)。

具体地，实验者利用了LRS3和LRS2数据集的各种有监督的传统语音识别模型。作为示例，实验者利用了如下文描述的具有联结主义时间分类损失的变换器(TM-CTC)和具有序列到序列损失的变换器(TM-Seq2Seq)：Afouras,Deep Audio-Visual SpeechRecognition(深度视听语音识别),IEEE关于模式分析和机器智能的会刊(2018)。此外，实验者还利用了观察、出席和拼写(Was)模型(带有注意的CNN-LSTM模型)，如Chung，Lip ReadFules in the Wild，2017IEEE Conference on Computer Vision and PatternRecognition(计算机视觉与模式识别会议)(2017)中所述。此外，实验者还利用了如下文描述的观察、出席和拼写(WAS)模型(利用带有注意的CNN-LSTM模型)：Chung，Lip ReadingSentences in the Wild(自然环境下的嘴唇阅读句子)，2017IEEE计算机可视化和模式识别会议(2017)。此外，实验者还利用了如下文描述的具有因果卷积-RNN序列的基于时空融合的卷积序列模型(STFC)：Afouras，Deep Audio-Visual Speech Recognition(深度视听语音识别)，IEEE关于模式分析和机器智能的会刊(2018)。

实际上，实验者还利用了根据本文中具有LRS3和LRS2数据集的一个或多个实现的可视化语音识别系统。实验者根据本文的一个或多个实现记录传统有监督模型和可视化语音识别系统中的每个的训练集大小和训练时间，以及在LRS3和LRS2数据集的每个数据集上的性能结果。如下表所示，可视化语音识别系统的实验实施例在不使用带注释数据和仅使用一小部分无注释数据(具有更少的训练时间)的情况下，与有监督的传统方法(就词错误率(WER)而言)性能可比。

表1

此外，实验者还利用根据具有各种语言解码器的一个或多个实现的可视化语音识别系统。例如，实验者在数据集(LRS3和LRS2)和各种输入分段视位语音表示(例如，均值池PCA表示和PCA表示)的各种组合上利用具有WFST语言解码器、语言模型6-gram解码器和语言模型WFST语言解码器的可视化语音识别系统的各种实现。例如，下表示出了如上所述为可视化语音识别系统(根据一个或多个实现)实现的词错误率(WER)。

表2

此外，实验者利用了根据本文的一个或多个实现(具有gumbel softmax层)的可视化语音识别系统来更快地收敛模型，同时保持超参数相同。实际上，在一些实例中，可视化语音识别系统降低了WER，并且仅用100个时期就实现了可比WER(可比于其他传统系统，约为74)。此外，实验者还能够利用根据本文的一个或多个实现的可视化语音识别系统来实现与超过100小时的训练数据集大小的可比WER，以及与350小时的训练数据集大小的可比损失(如表1所示)。实际上，上面的实验结果表明，根据本文的一个或多个实现(没有带标签训练数据并且具有更少的训练数据)的可视化语音识别系统显示了与依赖860+小时的带标签数据的许多传统的有监督模型可比的基准性能。

现在转到图8，将提供关于可视化语音识别系统的一个或多个实施例的组件和能力的附加细节。具体地，图8示出了由计算设备800(例如，(多个)服务器设备102或客户端设备110a至110n)执行的示例可视化语音识别系统106。如图8的实施例所示，计算设备800包括或托管数字图形系统104和可视化语音识别系统106。此外，如图8所示，可视化语音识别系统106包括数字视频管理器802、可视化语音表示生成器804、视位序列生成器806、语音文本生成器808和数据存储管理器810。

如上所述，并且如图8的实施例所示，可视化语音识别系统106包括数字视频管理器802。例如，数字视频管理器802如上所述(例如，关于图1和图2)标识、存储和/或显示数字视频。在一些实例中，数字视频管理器802如上所述(例如，关于图1、2和5)将所生成的电子转录存储和映射到数字视频。

此外，如图8所示，可视化语音识别系统106包括可视化语音表示生成器804。例如，可视化语音表示生成器804如上所述(例如，关于图2和图3)利用图像编码器以及数字视频的帧来生成针对数字视频的可视化语音表示。此外，在一些情况下，可视化语音表示生成器804如上所述(例如，关于图2和图3)从可视化语音表示的聚类中确定分段视位语音表示。

此外，如图8所示，可视化语音识别系统106包括视位序列生成器806。例如，视位序列生成器806如上所述(例如，关于图2和图4)利用分段视位语音表示以及GAN来生成针对数字视频的视位序列。此外，在一些实现中，视位序列生成器806如上所述(例如，关于图6和图7)训练生成器和/或鉴别器以生成准确视位序列。

此外，如图8所示，可视化语音识别系统106包括语音文本生成器808。例如，语音文本生成器808如上所述(例如，关于图5)利用语言解码器以从所生成的视位序列中生成词序列(或电子转录)。此外，在一个或多个实施例中，语音文本生成器808还如上所述(例如，关于图5)利用电子转录来生成针对数字视频的数字音频内容。

如图8进一步所示，可视化语音识别系统106包括数据存储管理器810。在一些实例中，数据存储管理器810维护数据以执行可视化语音识别系统106的一个或多个功能。例如，数据存储管理器810包括数字视频、可视化语音表示、分段视位语音表示、视位序列、电子转录和/或GAN组件(例如，神经网络、神经网络参数、训练数据集)。

如图8所示，计算设备800(例如，实现可视化语音识别系统106的计算设备800)的组件中的每个组件802至810可以使用任何适当的技术彼此通信。计算设备800的组件802至810可以包括软件、硬件或两者。例如，组件802至810可以包括存储在计算机可读存储介质上并且可由一个或多个计算设备的处理器执行的一个或多个指令。当由一个或多个处理器执行时，可视化语音识别系统106的计算机可执行指令(例如，经由计算设备800)可以使客户端设备和/或服务器设备执行本文描述的方法。备选地，组件802至810及其对应的元素可以包括硬件，诸如用于执行特定功能或功能组的专用处理设备。此外，组件802至810可以包括计算机可执行指令和硬件的组合。

此外，可视化语音识别系统106的组件802至810例如可以被实现为一个或多个操作系统、一个或多个独立应用、应用的一个或多个模块、一个或多个插件、一个或多个库函数或可由其他应用调用的函数、和/或云计算模型。因此，组件802至810可以被实现为独立应用，诸如桌面或移动应用。此外，组件802至810可以被实现为在远程服务器上托管的一个或多个基于网络的应用。组件802至810还可以在一套移动设备应用或“app”中实现。为了说明，组件802至810可以在应用中实现，包括但不限于ADOBE PHOTOSHOP、ADOBE PREMIERE、ADOBE LIGHTROOM、ADOBE ILLUSTRATOR或ADOBE SUBSTANCE。“ADOBE”、“ADOBE PHOTOSHOP”、“ADOBE PREMIERE”、“ADOBE LIGHTROOM”、“ADOBE ILLUSTRATOR”或“ADOBE SUBSTANCE”是Adobe公司在美国和/或其他国家的注册商标或商标。

图1至图8、对应的文本和示例提供了可视化语音识别系统106的多种不同的方法、系统、设备和非瞬态计算机可读介质。除了前述内容之外，还可以在包括用于实现特定结果的动作的流程图的方面描述一个或多个实施例，如图9所示。图9所示的动作可以结合更多或更少的动作来执行。此外，可以以不同的顺序执行动作。此外，本文描述的动作可以重复或彼此并行地执行，或者与相同或相似动作的不同实例并行地执行。非瞬态计算机可读介质可以包括指令，该指令当由一个或多个处理器执行时，使计算设备执行图9的动作。在一些实施例中，系统可以被配置为执行图9的动作。备选地，图9的动作可以作为计算机实现的方法的部分来执行。

如上所述，图9示出了根据一个或多个实现用于从数字视频中识别可视化语音的一系列动作900的流程图。尽管图9示出了根据一个实施例的动作，但备选实施例可以省略、添加、重新排序和/或修改图9中所示的任何动作。

如图9所示，该系列动作900包括从数字视频中生成深度可视化语音表示的动作902。例如，动作902包括利用图像编码器来生成针对数字视频的数字视频帧集深度可视化语音表示集。此外，在一些实施例中，动作902包括利用基于变换器的图像编码器来生成深度可视化语音表示集。在一些情况下，动作902包括接收描绘说话角色的数字视频，并且利用图像编码器来生成针对数字视频的数字视频帧集的深度可视化语音表示集。

在一些情况下，动作902包括利用生成性对抗神经网络来从深度可视化语音表示集中生成视位序列。例如，动作902包括从深度可视化语音表示集中生成深度可视化语音表示聚类。此外，在一些实例中，动作902包括利用对深度可视化语音表示集的k-均值聚类来生成深度可视化语音表示聚类。

此外，在一个或多个实施例中，动作902包括从深度可视化语音表示聚类中确定分段视位语音表示。此外，在一个或多个实施例中，动作902包括通过利用来自基于深度可视化语音表示聚类中的深度可视化语音表示聚类标识的数字视频帧分组的数字视频帧的主成分分析表示，来确定分段视位语音表示中的分段视位语音表示。

例如，动作902包括通过基于深度可视化语音表示聚类中的第一深度可视化语音表示聚类来标识来自数字视频的第一数字视频帧分组，以及通过组合针对第一数字视频帧分组的数字视频帧的可视化表示来生成分段视位语音表示中的第一分段视位语音表示，从而确定分段视位语音表示。此外，在一些实施例中，动作902包括基于深度可视化语音表示聚类中的第二深度可视化语音表示聚类，标识来自数字视频的第二数字视频帧分组，以及通过组合针对第二数字视频帧分组的附加数字视频帧的附加可视化表示来生成分段视位语音表示中的第二分段视位语音表示。

此外，如图9所示，该系列动作900包括从深度语音表示生成视位序列的动作904。例如，动作904包括利用生成性对抗神经网络来从深度可视化语音表示集中生成视位序列。具体地，动作904包括利用生成性对抗神经网络来从分段视位语音表示中生成表示数字视频内描绘的语音的视位序列。在一些情况下，动作904包括利用生成性对抗神经网络来从深度可视化语音表示聚类中生成视位序列。此外，在某些实施例中，动作904包括利用生成性对抗神经网络来从根据深度可视化语音表示聚类确定的分段视位语音表示中生成视位序列。

在一个或多个实施例中，动作904包括利用鉴别器神经网络来学习生成性对抗神经网络的参数。此外，在一些实现中，动作904包括通过利用鉴别器神经网络来从由生成性对抗神经网络生成的附加视位序列中生成真实性预测，从真实性预测中确定鉴别器损失，以及利用鉴别器损失来学习生成性对抗神经网络的参数，从而利用鉴别器神经网络来学习生成性对抗神经网络的参数。在某些实施例中，动作904包括从文本语料库生成真实视位序列，利用鉴别器神经网络来从真实视位序列生成真实性预测，以及基于真实性预测来修改鉴别器神经网络的参数。在一些情况下，动作904包括利用视位多样性损失来学习生成性对抗神经网络的参数。

此外，如图9所示，该系列动作900包括从视位序列中生成电子转录的动作906。在一个或多个实施例中，动作906包括利用语言解码器来对视位序列进行解码，以生成表示在数字视频内描绘的语音的电子转录。此外，在某些实例中，动作906包括利用基于加权有限状态换能器(WFST)的语言解码器来解码视位序列。此外，在一个或多个实施例中，动作906包括从电子转录中生成表示数字视频内描绘的语音的数字音频内容。此外，在一个或多个实施例中，动作906包括向客户端设备提供来自数字视频的说话角色的电子转录。此外，在一些实例中，动作906包括从电子转录中生成说话角色的数字音频内容。

除了(或备选)上述动作，可视化语音识别系统106可以执行用于从深度可视化语音表示集中生成来自数字视频的说话角色的电子转录的步骤。例如，上面关于图3至图5描述的动作和算法可以包括用于执行用于从深度可视化语音表示集中生成来自数字视频的说话角色的电子转录的步骤的相应动作和算法。

本公开的实现可以包括或利用包括计算机硬件(诸如，一个或多个处理器和系统存储器)的专用或通用计算机，如下文更详细地讨论的。本公开范围内的实现还包括用于携带或存储计算机可执行指令和/或数据结构的物理和其他计算机可读介质。具体地，本文描述的过程中的一个或多个过程可以至少部分地实现为实施在非瞬态计算机可读介质中并且由一个或多个计算设备(例如，本文描述的任何媒体内容访问设备)可执行的指令。一般而言，处理器(例如，微处理器)从非瞬态计算机可读介质(例如，存储器)接收指令，并且执行那些指令，从而执行一个或多个过程，包括本文描述的一个或多个过程。

计算机可读介质可以是可以由通用或专用计算机系统访问的任何可用介质。存储计算机可执行指令的计算机可读介质是非瞬态计算机可读存储介质(设备)。携带计算机可执行指令的计算机可读介质是传输介质。因此，作为示例而非限制，本公开的实现可以包括至少两种截然不同的计算机可读介质：非瞬态计算机可读存储介质(设备)和传输介质。

非瞬态计算机可读存储介质(设备)包括RAM、ROM、EEPROM、CD-ROM、固态驱动器(“SSD”)(例如，基于RAM)、闪存、相变存储器(“PCM”)、其他类型的存储器、其他光盘存储、磁盘存储或其他磁存储设备、或可用于以计算机可执行指令或数据结构的形式存储所需程序代码部件并且可以由通用或专用计算机访问的任何其他介质。

“网络”被定义为能够在计算机系统和/或模块和/或其他电子设备之间传输电子数据的一个或多个数据链路。当信息通过网络或另一通信连接(硬连线、无线或硬连线或无线的组合)传输或提供给计算机时，计算机将该连接适当地视为传输介质。传输介质可以包括网络和/或数据链路，其可以用于携带计算机可执行指令或数据结构形式的所需程序代码部件，并且可以由通用或专用计算机访问。上述各项的组合也应当包括在计算机可读介质的范围内。

此外，在到达各种计算机系统组件时，计算机可执行指令或数据结构形式的程序代码部件可以自动地从传输介质传送到非瞬态计算机可读存储介质(设备)(反之亦然)。例如，可以将通过网络或数据链路接收的计算机可执行指令或数据结构缓存在网络接口模块(例如，“NIC”)内的RAM中，然后最终将其传送到计算机系统RAM和/或计算机系统处的较不易失性的计算机存储介质(设备)。因此，应当理解，非瞬态计算机可读存储介质(设备)可以包括在也(或甚至主要)利用传输介质的计算机系统组件中。

计算机可执行指令包括例如指令和数据，这些指令和数据当由处理器执行时，使通用计算机、专用计算机或专用处理设备执行特定功能或功能组。在一些实现中，由通用计算机执行计算机可执行指令，以将通用计算机转变为实现本公开的元素的专用计算机。计算机可执行指令可以是例如二进制、诸如汇编语言的中间格式指令、或者甚至是源代码。尽管已经以特定于结构特征和/或方法动作的语言描述了该主题，但是应当理解，在所附权利要求中限定的主题不一定限于上述特征或动作。相反，所描述的特征和动作被公开作为实现权利要求的示例形式。

本领域技术人员将理解，本公开可以在具有许多类型的计算机系统配置的网络计算环境中实施，包括个人计算机、台式计算机、膝上型计算机、消息处理器、手持设备、多处理器系统、基于微处理器的或可编程的消费电子产品、网络PC、小型机、大型计算机、移动电话、PDA、平板计算机、寻呼机、路由器、交换机等。本公开还可以在分布式系统环境中实施，其中通过网络链接(通过硬连线数据链路、无线数据链路或通过硬连线和无线数据链路的组合)的本地和远程计算机系统两者都执行任务。在分布式系统环境中，程序模块可以位于本地和远程存储器存储设备两者中。

本公开的实现还可以在云计算环境中实现。如本文所使用的，术语“云计算”指的是用于实现对可配置计算资源的共享池的按需网络访问的模型。例如，可以在市场中采用云计算来提供对可配置计算资源的共享池的无处不在并且方便的按需访问。可配置计算资源的共享池可以经由虚拟化快速提供，只需很少的管理工作或服务提供方交互即可释放，然后进行相应的缩放。

云计算模型可以由各种特性组成，诸如例如按需自助服务、广泛的网络接入、资源池化、快速弹性、所测量的服务等。云计算模型还可以展示各种服务模型，例如软件即服务(“SaaS”)、平台即服务(“PaaS”)和基础设施即服务(“IaaS”)。云计算模型也可以使用不同的部署模型进行部署，诸如私有云、社区云、公共云、混合云等。此外，如本文所使用的，术语“云计算环境”指的是在其中采用云计算的环境。

图10示出了示例计算设备1000的框图，该计算设备1100可以被配置为执行上述过程中的一个或多个过程。可以理解，诸如计算设备1000的一个或多个计算设备可以表示上述计算设备(例如，计算设备800、(多个)服务器设备102和/或客户端设备110a至110n)。在一个或多个实现中，计算设备1000可以是移动设备(例如，移动电话、智能电话、PDA、平板计算机、膝上型计算机、相机、追踪器、手表、可穿戴设备等)。在一些实现中，计算设备1000可以是非移动设备(例如，台式计算机或另一类型的客户端设备)。此外，计算设备1000可以是包括基于云的处理和存储能力的服务器设备。

如图10所示，计算设备1000可以包括一个或多个处理器1002、存储器1004、存储设备1006、输入/输出接口1008(或“I/O接口1008”)和通信接口1010，它们可以通过通信基础设施(例如，总线1012)通信地耦合。尽管图10中示出了计算设备1000，但图10中所示的组件并不旨在是限制性的。在其他实现中可以使用附加的或备选的组件。此外，在某些实现中，计算设备1000包括比图10中所示的组件更少的组件。现在将更详细地描述图10中所示的计算设备1000的组件。

在具体实现中，(多个)处理器1002包括用于执行指令(诸如，构成计算机程序的那些指令)的硬件。作为示例而非限制，为了执行指令，(多个)处理器1002可以从内部寄存器、内部高速缓存、存储器1004或存储设备1006取回(或获取)指令，并且对它们进行解码和执行。

计算设备1000包括耦合到(多个)处理器1002的存储器1004。存储器1104可以用于存储数据、元数据和程序以供(多个)处理器执行。存储器1004可以包括易失性存储器和非易失性存储器中的一个或多个存储器，诸如随机存取存储器(“RAM”)、只读存储器(“ROM”)、固态盘(“SSD”)、闪存、相变存储器(“PCM”)或其他类型的数据存储。存储器1004可以是内部存储器或分布式存储器。

计算设备1000包括存储设备1006，存储设备1006包括用于存储数据或指令的存储设备。作为示例而非限制，存储设备1006可以包括上述非瞬态存储介质。存储设备1006可以包括硬盘驱动器(“HDD”)、闪存、通用串行总线(“USB”)驱动器或这些或其他存储设备的组合。

如图所示，计算设备1000包括一个或多个I/O接口1008，其被提供以允许用户向计算设备1000提供输入(诸如，用户笔划)、从计算设备1000接收输出、以及以其他方式向和从计算设备1000传输数据。这些I/O接口1008可以包括鼠标、小键盘或键盘、触摸屏、相机、光学扫描仪、网络接口、调制解调器、其他已知的I/O设备或这种I/O接口1008的组合。触摸屏可以利用触笔或手指激活。

I/O接口1008可以包括用于向用户呈现输出的一个或多个设备，包括但不限于图形引擎、显示器(例如，显示屏)、一个或多个输出驱动器(例如，显示驱动器)、一个或多个音频扬声器、以及一个或多个音频驱动器。在某些实现中，I/O接口1008被配置为向显示器提供图形数据以供呈现给用户。图形数据可以表示一个或多个图形用户界面和/或可以服务于特定实现的任何其他图形内容。

计算设备1000还可以包括通信接口1010。通信接口1010可以包括硬件、软件或两者。通信接口1010提供用于计算设备与一个或多个其他计算设备或一个或多个网络之间的通信(诸如例如，基于分组的通信)的一个或多个接口。作为示例而非限制，通信接口1010可以包括用于与以太网或其他基于有线的网络进行通信的网络接口控制器(“NIC”)或网络适配器，或者用于与诸如WI-FI的无线网络进行通信的无线NIC(“WNIC”)或无线适配器。计算设备1000还可以包括总线1012。总线1012可以包括将计算设备1000的组件彼此连接的硬件、软件或两者。

在前述说明书中，参考其特定示例实现描述了本发明。参考本文讨论的细节描述了(多个)本发明的各种实现和方面，并且附图示出了各种实现。以上描述和附图是本发明的说明，并且不应被解释为限制本发明。描述了许多具体细节以提供对本发明的各种实现的透彻理解。

本发明可以在不背离其精神或必要特征的情况下以其他具体形式实施。所描述的实现在所有方面仅被认为是说明性的而不是限制性的。例如，可以用更少或更多的步骤/动作来执行本文描述的方法，或者可以以不同的顺序来执行步骤/动作。此外，本文描述的步骤/动作可以重复或彼此并行地执行，或者与相同或相似步骤/动作的不同实例并行地执行。因此，本发明的范围由所附权利要求指示，而不是由前述描述指示。权利要求的含义和等同范围内的所有变更均应包含在其范围内。

Claims

1.一种存储指令的非瞬态计算机可读介质，所述指令在由至少一个处理器执行时，使计算设备：

利用图像编码器来生成针对数字视频的数字视频帧集的深度可视化语音表示集；

利用生成性对抗神经网络从所述深度可视化语音表示集中生成视位序列；以及

利用语言解码器对所述视位序列进行解码，以生成表示在所述数字视频内描绘的语音的电子转录。

2.根据权利要求1所述的非瞬态计算机可读介质，还包括指令，所述指令在由所述至少一个处理器执行时，使所述计算设备利用基于变换器的图像编码器来生成所述深度可视化语音表示集。

3.根据权利要求1所述的非瞬态计算机可读介质，还包括指令，所述指令在由所述至少一个处理器执行时，使所述计算设备：

从所述深度可视化语音表示集中生成深度可视化语音表示聚类；以及

利用所述生成性对抗神经网络来从所述深度可视化语音表示聚类中生成所述视位序列。

4.根据权利要求3所述的非瞬态计算机可读介质，还包括指令，所述指令在由所述至少一个处理器执行时，使所述计算设备利用所述生成性对抗神经网络来从分段视位语音表示中生成所述视位序列，所述分段视位语音表示从所述深度可视化语音表示聚类中被确定。

5.根据权利要求4所述的非瞬态计算机可读介质，还包括指令，所述指令在由所述至少一个处理器执行时，使所述计算设备通过利用来自基于所述深度可视化语音表示聚类中的深度可视化语音表示聚类而被标识的数字视频帧分组的数字视频帧的主成分分析表示，来确定所述分段视位语音表示的分段视位语音表示。

6.根据权利要求1所述的非瞬态计算机可读介质，还包括指令，所述指令在由所述至少一个处理器执行时，使所述计算设备通过以下方式来利用鉴别器神经网络来学习所述生成性对抗神经网络的参数：

利用所述鉴别器神经网络来从由所述生成性对抗神经网络生成的附加视位序列中生成真实性预测；

从所述真实性预测中确定鉴别器损失；以及

利用所述鉴别器损失来学习所述生成性对抗神经网络的参数。

7.根据权利要求1所述的非瞬态计算机可读介质，还包括指令，所述指令在由所述至少一个处理器执行时，使所述计算设备利用视位多样性损失来学习所述生成性对抗神经网络的参数。

8.根据权利要求1所述的非瞬态计算机可读介质，还包括指令，所述指令在由所述至少一个处理器执行时，使所述计算设备利用基于加权有限状态换能器WFST的语言解码器来解码所述视位序列。

9.根据权利要求1所述的非瞬态计算机可读介质，还包括指令，所述指令在由所述至少一个处理器执行时，使所述计算设备从所述电子转录中生成数字音频内容，所述数字音频内容表示所述数字视频内描绘的语音。

10.一种系统，包括：

一个或多个存储器设备，包括数字视频、图像编码器和生成性对抗神经网络；以及

一个或多个处理器，被配置为使所述系统：

利用所述图像编码器来生成针对所述数字视频的数字视频帧集的深度可视化语音表示集；

从所述深度可视化语音表示集中生成深度可视化语音表示聚类；

从所述深度可视化语音表示聚类中确定分段视位语音表示；以及

利用所述生成性对抗神经网络来从所述分段视位语音表示中生成表示所述数字视频内描绘的语音的视位序列。

11.根据权利要求10所述的系统，其中所述一个或多个处理器还被配置为使所述系统在所述深度可视化语音表示集上利用k-均值聚类来生成所述深度可视化语音表示聚类。

12.根据权利要求10所述的系统，其中所述一个或多个处理器还被配置为使所述系统通过基于所述深度可视化语音表示聚类中的第一深度可视化语音表示聚类来标识来自所述数字视频的第一数字视频帧分组，来确定所述分段视位语音表示。

13.根据权利要求12所述的系统，其中所述一个或多个处理器还被配置为使所述系统通过组合针对所述第一数字视频帧分组的数字视频帧的可视化表示来生成所述分段视位语音表示的第一分段视位语音表示。

14.根据权利要求13所述的系统，其中所述一个或多个处理器还被配置为使所述系统通过以下方式来确定所述分段视位语音表示：

基于所述深度可视化语音表示聚类的第二深度可视化语音表示聚类，从所述数字视频中标识第二数字视频帧分组；以及

通过组合针对所述第二数字视频帧分组的附加数字视频帧的附加可视化表示来生成所述分段视位语音表示的第二分段视位语音表示。

15.根据权利要求10所述的系统，其中所述一个或多个处理器还被配置为利用语言解码器以将所述视位序列解码成电子转录。

16.根据权利要求10所述的系统，其中所述一个或多个处理器还被配置为利用鉴别器神经网络来学习所述生成性对抗神经网络的参数。

17.根据权利要求16所述的系统，其中所述一个或多个处理器还被配置为：

从文本语料库中生成真实视位序列；

利用所述鉴别器神经网络来从所述真实视位序列中生成真实性预测；以及

基于所述真实性预测来修改所述鉴别器神经网络的参数。

18.一种计算机实现的方法，包括：

接收描绘说话角色的数字视频；

利用图像编码器来生成针对所述数字视频的数字视频帧集的深度可视化语音表示集；

执行用于从所述深度可视化语音表示集中生成来自所述数字视频的所述说话角色的电子转录的步骤；以及

向客户端设备提供来自所述数字视频的所述说话角色的所述电子转录。

19.根据权利要求18所述的计算机实现的方法，还包括：利用基于变换器的图像编码器来生成所述深度可视化语音表示集。

20.根据权利要求18所述的计算机实现的方法，还包括：从所述电子转录中生成所述说话角色的数字音频内容。