CN117769739A

CN117769739A - 用于配音的辅助翻译和嘴唇匹配的系统和方法

Info

Publication number: CN117769739A
Application number: CN202180101289.4A
Authority: CN
Inventors: P·麦卡特尼
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2021-08-09
Filing date: 2021-08-09
Publication date: 2024-03-26
Also published as: EP4352727A1; WO2023018405A1; US20230039248A1

Abstract

用于生成用于在创建合成或人类扮演的配音中使用的候选翻译，帮助人类翻译者生成与对应视频匹配的翻译，自动对候选翻译与对应视频匹配的程度进行分级，建议对翻译文本的速度和/或定时的修改以改善候选翻译的分级，以及建议对配音和/或视频的修改以改善候选翻译的分级的系统和方法。在这方面，本技术可以用于完全自动化生成嘴唇匹配的翻译和相关联的配音的过程，或者作为可以减少或消除翻译者、改编者、语音演员和/或音频编辑者生成配音所需的时间和精力的人机循环过程的辅助。

Description

用于配音的辅助翻译和嘴唇匹配的系统和方法

背景技术

配音是将视频(例如，电影、电视节目)的语音从原始语言翻译和替换为目标语言的任务。由于将翻译的持续时间与原始语音匹配(在本文中称为“持续时间匹配”)以及将翻译的单词(word)与原始视频的嘴唇运动、面部表情、手势和身体语言匹配(在本文中统称为“嘴唇匹配”)的复杂性，专业配音目前是劳动密集型且昂贵的任务。通常，该过程至少需要：(1)翻译者，以创建翻译的对话；(2)改编者，其进行持续时间匹配，避免翻译与视频中的各种手势和其他声音之间的不匹配，并且可以建议其他改变以使翻译符合本地习语；(3)语音演员，其执行翻译并且可以进行进一步调整以便对某些音节进行定时以对应于屏幕上的动作和说话者的嘴唇位置；以及(4)音频编辑者，其可以进一步微调新记录的配音的定时，以进一步改善嘴唇匹配。在许多情况下，持续时间匹配和嘴唇匹配提出了使该过程复杂化和延长的竞争需求。因此，可能希望使用使这些步骤中的一些或全部自动化或辅助这些步骤中的一些或全部的系统和方法来减少与配音相关联的成本和时间。

发明内容

本技术涉及用于生成用于在创建合成或人类扮演的配音中使用的候选翻译，帮助人类翻译者生成与对应视频匹配的翻译，(基于对对应视频的分析)自动对候选翻译与对应视频匹配的程度进行分级，建议对翻译文本的速度和/或定时的修改以改善候选翻译的分级，以及建议对配音和/或视频的修改以改善候选翻译的分级的系统和方法。在这方面，本技术可以用于完全自动化生成嘴唇匹配的翻译和相关联的配音的过程(包括从文本输入合成语音输出)，或者作为可以减少(或消除)翻译者、改编者、语音演员和/或音频编辑者生成配音所花费的时间和精力量的人机循环(human-in-the-loop，“HITL”)过程的辅助。以这种方式，本技术可以提供一种更便宜且资源密集度更低的配音方法，该方法可以以更快和/或计算效率更高的方式生成配音的视频。

在一个方面，本公开描述了一种计算机实现的方法，包括：(i)使用处理系统的一个或多个处理器，使用文本到语音合成器基于文本序列生成合成音频剪辑，合成音频剪辑包括与文本序列相对应的合成语音；以及(ii)对于包括多个视频帧的视频剪辑的每个给定视频帧：(a)使用一个或多个处理器处理视频剪辑，以基于给定视频帧获得给定图像；(b)使用所述一个或多个处理器处理合成音频剪辑，以获得与给定视频帧相对应的的音频数据的给定片段；(c)使用所述一个或多个处理器处理音频数据的给定片段，以生成给定音频频谱图图像；以及(d)使用一个或多个处理器，使用语音-嘴部一致性模型，基于给定图像和给定音频频谱图图像生成给定视频帧的帧级语音-嘴部一致性分数。在一些方面，该方法还包括使用一个或多个处理器至少部分地基于生成的与多个视频帧中的每个给定视频帧相对应的帧级语音-嘴部一致性分数来生成总分数。在一些方面，该方法还包括：使用一个或多个处理器识别与文本序列的给定单词相对应的生成的帧级语音-嘴部一致性分数的集合；以及使用一个或多个处理器，基于识别的生成的帧级语音-嘴部一致性分数的集合来生成给定单词的单词级语音-嘴部一致性分数。在一些方面，该方法还包括使用一个或多个处理器至少部分地基于生成的与文本序列的每个给定单词相对应的单词级语音-嘴部一致性分数来生成总分数。在一些方面，该方法还包括使用一个或多个处理器基于合成音频剪辑的长度与视频剪辑的长度的比较来生成持续时间分数。在一些方面，该方法还包括：使用一个或多个处理器处理视频剪辑以识别来自视频剪辑中可见的说话者的一个或多个感兴趣的嘴部形状的集合；以及对于所述一个或多个感兴趣的嘴部形状的集合中的每个给定的感兴趣的嘴部形状，使用一个或多个处理器将给定的感兴趣的嘴部形状与多个视频帧中的一个或多个视频帧相关联。在一些方面，视频剪辑还包括原始音频数据，并且该方法还包括：使用一个或多个处理器处理原始音频数据以识别记录在原始音频数据中的由说话者说出的一个或多个单词或音素；使用所述一个或多个处理器，基于识别的一个或多个单词或音素生成一个或多个感兴趣的嘴部形状的集合；以及，对于所述一个或多个感兴趣的嘴部形状的集合中的每个给定的感兴趣的嘴部形状，使用一个或多个处理器将给定的感兴趣的嘴部形状与多个视频帧中的一个或多个视频帧相关联。在一些方面，该方法还包括：使用一个或多个处理器处理视频剪辑的转录以识别一个或多个单词或音素；使用所述一个或多个处理器，基于识别的一个或多个单词或音素生成一个或多个感兴趣的嘴部形状的集合；以及对于所述一个或多个感兴趣的嘴部形状的集合中的每个给定的感兴趣的嘴部形状，使用一个或多个处理器将给定的感兴趣的嘴部形状与多个视频帧中的一个或多个视频帧相关联。在一些方面，该方法还包括：使用一个或多个处理器处理合成音频剪辑以识别在合成音频剪辑的合成语音中说出的一个或多个单词或音素；使用所述一个或多个处理器，基于识别的一个或多个单词或音素生成一个或多个感兴趣的嘴部形状的集合；以及对于所述一个或多个感兴趣的嘴部形状的集合中的每个给定的感兴趣的嘴部形状，使用一个或多个处理器将给定的感兴趣的嘴部形状与多个视频帧中的一个或多个视频帧相关联。在一些方面，该方法还包括：使用一个或多个处理器处理文本序列以识别一个或多个单词或音素；使用所述一个或多个处理器，基于识别的一个或多个单词或音素生成一个或多个感兴趣的嘴部形状的集合；以及对于所述一个或多个感兴趣的嘴部形状的集合中的每个给定的感兴趣的嘴部形状，使用一个或多个处理器将给定的感兴趣的嘴部形状与多个视频帧中的一个或多个视频帧相关联。在一些方面，该方法还包括：基于总分数满足预定标准，使用一个或多个处理器选择合成音频剪辑；使用所述一个或多个处理器将所述合成音频剪辑与所述视频剪辑组合以生成修改的视频；以及使用一个或多个处理器输出修改的视频。

在另一方面，本公开描述了一种包括指令的非暂时性计算机可读介质，所述指令在被执行时使得一个或多个处理器执行前述段落中阐述的操作。

在另一方面，本发明描述了一种系统，其包括：(1)存储器；以及(2)一个或多个处理器，其耦合到所述存储器并且被配置为：(i)使用文本到语音合成器，基于文本序列生成合成音频剪辑，所述合成音频剪辑包括与所述文本序列相对应的合成语音；以及(ii)对于包括多个视频帧的视频剪辑的每个给定视频帧：(a)处理视频剪辑以基于给定视频帧获得给定图像；(b)处理所述合成音频剪辑以获得与所述给定视频帧相对应的音频数据的给定片段；(c)处理音频数据的给定片段以生成给定音频频谱图图像；以及(d)使用语音-嘴部一致性模型，基于给定图像和给定音频频谱图图像生成给定视频帧的帧级语音-嘴部一致性分数。在一些方面，一个或多个处理器还被配置为至少部分地基于生成的与多个视频帧中的每个给定视频帧相对应的帧级语音-嘴部一致性分数来生成总分数。在一些方面，一个或多个处理器还被配置为：识别与文本序列的给定单词相对应的生成的帧级语音-嘴部一致性分数的集合；以及基于识别的生成的帧级语音-嘴部一致性分数的集合来生成给定单词的单词级语音-嘴部一致性分数。在一些方面，一个或多个处理器还被配置为至少部分地基于与文本序列的每个给定单词相对应的生成的单词级语音-嘴部一致性分数来生成总分数。在一些方面，一个或多个处理器还被配置为基于合成音频剪辑的长度与视频剪辑的长度的比较来生成持续时间分数。在一些方面，一个或多个处理器还被配置为：处理视频剪辑以从视频剪辑中可见的说话者识别一个或多个感兴趣的嘴部形状的集合；以及对于所述一个或多个感兴趣的嘴部形状的集合中的每个给定的感兴趣的嘴部形状，将给定的感兴趣的嘴部形状与多个视频帧中的一个或多个视频帧相关联。在一些方面，视频剪辑还包括原始音频数据，并且其中一个或多个处理器还被配置为：处理原始音频数据以识别记录在原始音频数据中的由说话者说出的一个或多个单词或音素；基于识别的一个或多个单词或音素生成一个或多个感兴趣的嘴部形状的集合；以及对于所述一个或多个感兴趣的嘴部形状的集合中的每个给定的感兴趣的嘴部形状，将给定的感兴趣的嘴部形状与多个视频帧中的一个或多个视频帧相关联。在一些方面，一个或多个处理器还被配置为：处理视频剪辑的转录以识别一个或多个单词或音素；基于识别的一个或多个单词或音素生成一个或多个感兴趣的嘴部形状的集合；以及对于所述一个或多个感兴趣的嘴部形状的集合中的每个给定的感兴趣的嘴部形状，将给定的感兴趣的嘴部形状与多个视频帧中的一个或多个视频帧相关联。在一些方面，一个或多个处理器还被配置为：处理合成音频剪辑以识别在合成音频剪辑的合成语音中说出的一个或多个单词或音素；基于识别的一个或多个单词或音素生成一个或多个感兴趣的嘴部形状的集合；以及对于所述一个或多个感兴趣的嘴部形状的集合中的每个给定的感兴趣的嘴部形状，将给定的感兴趣的嘴部形状与多个视频帧中的一个或多个视频帧相关联。在一些方面，一个或多个处理器还被配置为：处理文本序列以识别一个或多个单词或音素；基于识别的一个或多个单词或音素生成一个或多个感兴趣的嘴部形状的集合；以及对于所述一个或多个感兴趣的嘴部形状的集合中的每个给定的感兴趣的嘴部形状，将给定的感兴趣的嘴部形状与多个视频帧中的一个或多个视频帧相关联。在一些方面，一个或多个处理器还被配置为：基于总分数满足预定标准来选择合成音频剪辑；将所述合成音频剪辑与所述视频剪辑组合以生成修改的视频；以及输出修改的视频。

附图说明

图1是根据本公开的方面的示例系统的功能图。

图2是根据本公开的方面的示例系统的功能图。

图3示出了根据本公开的方面的语音-嘴部一致性模型的示例架构。

图4A和图4B描绘了根据本公开的方面的用于在训练语音-嘴部一致性模型中使用的训练示例的自动生成的示例性方法。

图5描绘了根据本公开的方面的用于迭代地训练语音-嘴部一致性模型的示例性方法。

图6描绘了根据本公开的方面的用于使用针对每个负训练示例的预设标准来训练语音-嘴部一致性模型的示例性方法。

图7描绘了根据本公开的方面的用于显示来自语音-嘴部一致性模型针对视频的选择的帧的帧级分数的示例性布局。

图8从图7的示例性布局构建，并且描绘了根据本公开的各方面的用于表示原始视频中的句子中暂停的示例性布局。

图9从图7的示例性布局构建，并且描绘了根据本公开的各方面的用于附加地表示候选翻译太长而不能匹配原始视频的示例性布局。

图10从图7的示例性布局构建，并且描绘了根据本公开的各方面的用于附加地表示原始视频不提供说话者或说话者的嘴部的清楚视图的时段的示例性布局。

图11从图7的示例性布局构建，并且描绘了根据本公开的各方面的用于附加地显示候选翻译的示例性布局。

图12从图11的示例性布局构建，并且描绘了根据本公开的各方面的用于附加地显示从原始视频识别的嘴部形状的示例性布局。

图13从图12的示例性布局构建，并且描绘了根据本公开的各方面的用于附加地显示从候选翻译识别的嘴部形状的示例性布局。

图14描绘了根据本公开的各方面的示例性布局，其中图13的示例性布局被重新布置和修改以显示聚合的单词级分数。

图15描绘了根据本公开的各方面的用于呈现要翻译的句子、自动生成的翻译和相关联的分数的集合、以及用于接受翻译者的候选翻译的文本框的示例性布局。

图16从图15的示例性布局构建，并且描绘了根据本公开的各方面的附加地包括先前翻译历史的示例性布局。

图17A和图17B描绘了根据本公开的各方面的示例性布局，其示出了在图15的示例性布局内可以如何采用自动完成。

图18从图15的示例性布局构建，并且描绘了根据本公开的各方面的示例性布局，该示例性布局还包括基于文本输入框的内容以及翻译者的候选翻译的图形表示的附加自动生成的翻译。

图19从图18的示例性布局构建，并且描绘了根据本公开的各方面的示例性布局，该示例性布局还包括并入音频或视频修改的附加自动生成的翻译选项。

图20描绘了根据本公开的各方面的用于基于文本序列和视频剪辑生成帧级语音-嘴部一致性分数的示例性方法。

具体实施方式

现在将关于以下示例性系统和方法来描述本技术。

示例系统

图1示出了用于执行本文描述的方法的示例性处理系统102的高级系统图100。处理系统102可以包括一个或多个处理器104和存储指令108和数据110的存储器106。在图1的示例性处理系统102中，数据110包括下面进一步描述的翻译实用程序112、文本到语音合成器114和语音-嘴部一致性模型116。另外，数据110可以可选地包括用于添加帧或从选择的视频样本移除帧的帧编辑实用程序118，和/或用于更改说话者的嘴唇、面部和/或身体以更好地匹配候选翻译的重新动画(reanimation)实用程序120，如也在下面所讨论的。这些不同的实用程序112、114、116、118和120可以被认为是模块，这些模块可以适当地一起或单独实现。

在图1的示例中，假设文本到语音合成器114将被配置为不仅生成包括与输入文本(例如，单词、句子、文本序列)相对应的合成语音的合成音频剪辑，而且还生成合成音频剪辑的音频频谱图以及关于合成语音中的每个音素的定时(例如，开始和结束时间和/或持续时间)的数据。然而，在本技术的一些方面，处理系统102可以采用文本到语音合成器，该文本到语音合成器仅被配置为生成与输入文本相对应的合成语音，或者被配置为生成与输入文本相对应的合成语音和定时数据(但不是音频频谱图)。在这种情况下，处理系统102可以被配置为将得到的合成音频剪辑提供给一个或多个附加实用程序(图1中未示出)，该附加实用程序被配置为生成合成语音的音频频谱图，和/或生成关于合成语音中的每个音素的定时(例如，开始和结束时间和/或持续时间)的数据。

此外，在本技术的一些方面，文本到语音合成器114不仅可以被配置为生成与输入文本相对应的合成语音，而且还允许用户或处理系统指定将如何合成输入文本的一个或多个方面。例如，在本技术的一些方面，文本到语音合成器114可以被配置为允许用户或处理系统指定：(i)应该在来自输入文本的选择的单词或音素之间插入特定持续时间的暂停；(ii)在合成输入文本或输入文本的特定部分时应该使用什么语速；和/或(ii)合成器在读出来自输入文本的特定音素或单词时应该花费多长时间。

处理系统102可以驻留在单个计算设备上。例如，处理系统102可以是服务器、个人计算机或移动设备，并且本文描述的模型和实用程序因此可以是该单个计算设备本地的。类似地，处理系统102可以驻留在云计算系统或其他分布式系统上，使得本文描述的模型和/或实用程序中的一个或多个跨两个或更多个不同的物理计算设备分布。同样地，在一些方面中，模块112、114、116、118和120中的一个或多个可以在计算设备(诸如用户计算设备或个人计算机)上实现，并且模块中的其他模块可以在可从计算设备访问的服务器上实现。

在这方面，图2示出了附加的高级系统图200，其中用于执行本文描述的方法的示例性处理系统202被示出为n个服务器202a-202n的集合，每个服务器包括一个或多个处理器204以及存储指令208和数据210的存储器206。另外，在图2的示例中，处理系统202被示出为与一个或多个网络212通信，处理系统202可以通过一个或多个网络212与一个或多个其他计算设备通信。例如，一个或多个网络212可以允许用户使用个人计算设备214与处理系统202交互，个人计算设备214被示出为膝上型计算机，但是可以采取任何已知的形式，包括台式计算机、平板电脑、智能电话等。同样地，一个或多个网络212可以允许处理系统202与一个或多个远程存储系统(诸如远程存储系统216)通信。在本技术的一些方面，本文描述的翻译实用程序、文本到语音合成器、语音-嘴部一致性模型、可选的帧编辑实用程序和可选的重新动画实用程序中的一个或多个可以存储在服务器202a-202n中的一个或多个的存储器210中。同样，在一些方面，本文描述的翻译实用程序、文本到语音合成器、语音-嘴部一致性模型、可选的帧编辑实用程序和可选的重新动画实用程序中的一个或多个可以存储在远程存储系统216中，使得远程存储系统216和处理系统202形成用于实践下面描述的方法的分布式处理系统。

本文描述的处理系统可以在任何类型的(多个)计算设备(诸如任何类型的通用计算设备、服务器或其集合)上实现，并且还可以包括通常存在于通用计算设备或服务器中的其他组件。同样地，这种处理系统的存储器可以是能够存储可由处理系统的(多个)处理器访问的信息的任何非暂时性类型。例如，存储器可以包括非暂时性介质，诸如硬盘驱动器、存储卡、光盘、固态、磁带存储器等。适合于本文描述的角色的计算设备可以包括前述的不同组合，由此指令和数据的不同部分存储在不同类型的介质上。

在所有情况下，本文描述的计算设备还可以包括通常与计算设备结合使用的任何其他组件，诸如用户接口子系统。用户接口子系统可以包括一个或多个用户输入(例如，鼠标、键盘、触摸屏和/或麦克风)和一个或多个电子显示器(例如，具有屏幕的监视器或可操作以显示信息的任何其他电气设备)。除了电子显示器之外的输出设备，诸如扬声器、灯和振动、脉冲或触觉元件，也可以包括在本文描述的计算设备中。

包括在每个计算设备中的一个或多个处理器可以是任何常规处理器，诸如商业上可获得的中央处理单元(“CPU”)、图形处理单元(“GPU”)、张量处理单元(“TPU”)等。可替代地，一个或多个处理器可以是专用设备，诸如ASIC或其他基于硬件的处理器。每个处理器可以具有能够并行操作的多个核。单个计算设备的(多个)处理器、存储器和其他元件可以存储在单个物理外壳内，或者可以分布在两个或更多个外壳之间。类似地，计算设备的存储器可以包括位于与(多个)处理器的外壳不同的外壳中的硬盘驱动器或其他存储介质，诸如在外部数据库或联网存储设备中。因此，对处理器或计算设备的引用将被理解为包括对可以或可以不并行操作的处理器或计算设备或存储器的集合以及基于云的系统或负载平衡服务器群的一个或多个服务器的引用。

本文描述的计算设备可以存储能够由(多个)处理器直接执行(诸如机器代码)或间接执行(诸如脚本)的指令。计算设备还可以存储数据，该数据可以由一个或多个处理器根据指令来检索、存储或修改。指令可以作为计算设备代码存储在计算设备可读介质上。在这方面，术语“指令”和“程序”在本文中可以可互换地使用。指令还可以以目标代码格式存储以供(多个)处理器直接处理，或者以任何其他计算设备语言存储，包括按需解释或预先编译的独立源代码模块的集合或脚本。通过示例的方式，编程语言可以是C#、C++、JAVA或另一种计算机编程语言。类似地，指令或程序的任何组件可以以计算机脚本语言实现，诸如JavaScript、PHP、ASP或任何其他计算机脚本语言。此外，这些组件中的任何一个可以使用计算机编程语言和计算机脚本语言的组合来实现。

示例方法

图3示出了根据本公开的方面的用于语音-嘴部一致性模型306的示例架构300。在这方面，在图3的示例中，视频剪辑已经被处理以获得视频剪辑的给定视频帧的图像302，以及对应于给定视频帧的视频剪辑中的音频数据的音频频谱图图像304。在该示例中，图像302示出了从给定视频帧裁剪的说话者的嘴部。然而，在本技术的一些方面，图像302可以是给定视频帧的更大部分(例如，示出整个说话者的面部和/或身体)或完整帧。在这种情况下，图像302可以进一步被预标记以识别说话者和/或说话者的面部或嘴部，以帮助语音-嘴部一致性模型306学习音频频谱图图像304与嘴部在图像302中看起来如何之间的相关性。

音频频谱图图像304示出了对应于给定视频帧的一时间段内的频谱图。音频频谱图图像304可以表示对应于该时间段的音频数据的所有频率或其子集(例如，通常对应于人类语音的频率范围)。同样，在本技术的一些方面，音频频谱图图像304可以表示对应于给定视频帧的任何合适时间段的音频数据。例如，音频频谱图图像304可以表示在给定视频帧的显示之前的某个毫秒数的音频数据。同样地，在一些方面，音频频谱图图像304可以表示与要显示视频帧的时间段中的一些或全部相对应的音频数据。例如，对于每41.67ms显示新帧的具有24帧每秒(“fps”)的视频，音频频谱图可以表示对应于要显示帧的41.67ms、要显示图像的前20ms等的音频数据。此外，在一些方面，音频频谱图图像304可以表示在显示给定视频帧之前n毫秒开始到显示给定视频帧之后m毫秒的音频数据(其中n和m可以相同或不同)。例如，对于24fps视频，音频频谱图可跨越帧将被显示之前的20.83ms到帧将被显示之后的20.83ms。

同样地，尽管图3的示例使用音频频谱图图像，但是在本技术的一些方面，可以使用表示与给定视频帧相对应的音频的其他数据。例如，在本技术的一些方面，与给定视频帧相对应的原始音频数据可以被直接馈送到语音-嘴部一致性模型。在一些方面，可以对原始音频数据进行滤波以隔离各种频率(例如，通常对应于人类语音的那些频率)，并且可以将经滤波的音频数据馈送到语音-嘴部一致性模型。在一些方面，原始音频数据(或其经滤波或经处理的版本)可以由学习的嵌入函数预处理以生成向量，然后将该向量馈送到语音-嘴部一致性模型。在这种情况下，语音-嘴部一致性模型的架构可以与图3的示例中所示的架构不同，以便适应这些不同的输入类型。

如图3所示，图像302和音频频谱图图像304都被馈送到语音-嘴部一致性模型306。语音-嘴部一致性模型306可以是被配置为对图像302与音频频谱图图像304的一致性程度进行分级并输出对应的语音-嘴部一致性分数的任何合适类型的模型。然而，在图3的特定示例中，语音-嘴部一致性模型306包括两个卷积神经网络，CNN 308和CNN 310，其输出被馈送到聚合器312，聚合器312的输出然后被馈送到完全连接的网络314。如图3所示，图像302被馈送到CNN 308，并且音频频谱图图像304被馈送到不同的CNN 310。CNN 308和CNN 310各自基于它们相应的输入来产生中间分类，并且这些中间分类然后由聚合器312级联。聚合器312的输出被馈送到完全连接的网络314，其然后以语音-嘴部一致性分数316的形式输出最终分类。可以以任何合适的方式传达语音-嘴部一致性分数316。例如，如图3所示，语音-嘴部一致性模型306可以被配置为指派在-1.0和+1.0之间的范围内的值，其中-1.0的分数指示图像302中的说话者的嘴部与音频频谱图304中所示的音频特征不一致，并且+1.0的分数指示图像302中的说话者的嘴部与音频频谱图304中所示的音频特征一致。在本技术的一些方面，语音-嘴部一致性模型306可以被配置为发出在0和1.0之间的范围内的语音-嘴部一致性分数316，其中分数0指示不一致性，并且分数1.0指示一致性。同样地，在一些方面，语音-嘴部一致性模型306可以替代地被配置为发出不是数字的语音-嘴部一致性分数316，诸如字母等级(例如，A、B、C、…F)或单词标签(例如，一致、中性、不一致)。

图4A和图4B描绘了根据本公开的方面的用于在训练语音-嘴部一致性模型中使用的训练示例的自动生成的示例性方法400。在这方面，方法400可以应用于一个或多个视频以生成正训练示例、负训练示例、降级正训练示例和/或编辑的正和负训练示例的集合。这些训练集合可以由托管语音-嘴部一致性模型的相同处理系统生成，或者可以由另一处理系统生成。

在步骤402中，处理系统(例如，处理系统102或202)从给定视频提取视频帧的第一集合。这可以是给定视频的所有帧或其任何子集。

在步骤404中，处理系统从视频帧的第一集合内识别视频帧的第二集合，视频帧的第二集合中的每个帧至少示出说话者的嘴部。处理系统可以以任何合适的方式进行该识别。例如，处理系统可以使用被配置为识别给定视频样本中的说话者的第一学习模型和识别人的嘴部的第二学习模型来处理第一集合中的每个视频帧。同样地，在本技术的一些方面，处理系统可以基于预先指派的标签来识别视频帧的第二集合。在这种情况下，预先指派的标签可能已经以任何合适的方式应用于视频帧。例如，在一些方面，预先指派的标签可能已经由人类注释者添加到帧的第一集合中的每个帧。此外，在一些方面，预先指派的标签可以由另一个处理系统(例如，被配置为在帧的第一集合中的每个帧中或在原始视频中识别说话者及其嘴部的处理系统)添加。

在步骤406中，对于帧的第二集合中的每个给定帧，处理系统从给定帧提取图像。如上面所解释的，这些图像可以是整个给定帧或其一部分(例如，仅示出说话者、说话者的面部、说话者的嘴唇等的部分)。同样地，在本技术的一些方面，处理系统可以被配置为从给定帧提取多个图像(例如，一个表示整个给定帧，一个仅示出说话者，一个仅示出说话者的面部，一个仅示出说话者的嘴唇等)。

在步骤408中，对于帧的第二集合中的每个给定帧，处理系统生成表示给定视频的音频数据的时段的音频频谱图图像，该时段对应于给定帧。如上面所解释的，针对每个给定帧处理的音频数据可以来自对应于给定帧的任何合适的时间段(例如，给定帧的显示之前的时间段、给定帧将被显示的时间段、跨越帧将被显示之前和之后的时间段等)。

在步骤410中，对于帧的第二集合中的每个给定帧，处理系统生成包括从给定帧提取的图像、与给定帧相对应的音频频谱图图像和正训练分数的正训练示例。如上所述，正训练分数可以基于任何合适的评分范例(例如，-1.0至1.0、0至1.0、A至F、文本标签等)。还如上所述，在正训练示例中的图像未隔离到说话者的情况下，训练示例还将包括识别说话者和/或说话者的面部或嘴部的标签。

在步骤412中，处理系统生成负训练示例的集合，该负训练示例的集合中的每个负训练示例是通过将正训练示例中的一个的图像或音频频谱图图像替换为正训练示例中的另一个的图像或音频频谱图图像来生成的，并且每个负训练示例包括负训练分数。这可以以任何合适的方式完成。例如，在本技术的一些方面，可以通过随机选择一对正训练示例并且交换选择的正训练示例的音频频谱图图像以生成一对负训练示例来生成负训练示例。

同样，为了避免两个随机选择的正训练示例可能在视觉上太相似(例如，说话者的嘴唇形成相同的视位)的可能性，处理系统可以被配置为识别在每个正训练示例中说出的音素，并且避免交换具有倾向于与相似嘴唇形状相关的音素的音频频谱图。例如，在本技术的一些方面，处理系统可以被配置为从与由给定正训练示例的音频频谱图表示的相同时间段相对应的预先存在的转录识别该音频频谱图中表示的音素。另外，处理系统还可以被配置为使用自动语音识别(“ASR”)实用程序来处理音频频谱图以识别在每个正训练示例中说出的单词和/或音素，而不是从预先存在的转录识别音素。

类似地，处理系统可以被配置为分析每个正训练示例的图像中的嘴唇形状、面部特征和/或面部标志(facial landmark)，并且避免交换具有被认为太相似的嘴唇形状、面部特征和/或面部标志的示例的音频频谱图。在本技术的一些方面，处理系统可以被配置为通过使用一个或多个面部标志检测实用程序处理图像来识别嘴唇形状、面部特征和/或面部标志。同样地，在一些方面，处理系统可以被配置为基于预先存在的标签(例如，由人类注释者或由不同的处理系统指派)来识别嘴唇形状、面部特征和/或面部标志。

在可选的步骤414中，处理系统可以被配置为基于正训练示例的集合中的每个给定正训练示例生成一个或多个降级训练示例，每个降级训练示例包括来自给定正训练示例的图像、表示相对于由给定正训练示例的音频频谱图图像表示的时段移位预定时间量的给定视频的音频数据的时段的音频频谱图图像，以及小于给定正训练示例的训练分数的降级训练分数。例如，处理系统可以被配置为针对每个正训练示例生成降级训练示例的第一集合，其中每个降级训练示例的音频频谱图图像比正训练示例晚30ms开始(并且持续相同的持续时间)，并且每个降级训练示例的训练分数以折扣因子(例如，0.15/30ms)降低到+0.85。同样，处理系统可以被配置为针对每个正训练示例生成降级训练示例的第二集合，其中每个降级训练示例的音频频谱图图像比正训练示例晚60ms开始(并且持续相同的持续时间)，并且每个降级训练示例的训练分数降低到+0.70。可以创建具有90ms、120ms、150ms和180ms移位以及分别为+0.55、+0.40、+0.25和+0.10的对应训练分数的类似集合。当然，可以使用任何合适的折扣范例，包括非线性的折扣范例、基于预定评分表的折扣范例等。这样的时间移位降级训练示例对于教导语音-嘴部一致性模型以识别如下位置可能是有用的，在该位置配音可能不与说话者的嘴唇完美同步，但是仍然可以足够接近以使观看者仍然认为它是一致的。在这方面，基于视频的帧速率，在视频之前或之后小于一个帧的定时的语音对于人类观看者通常将是不可察觉的(例如，对于24fps视频为+/41.67ms的方差)。此外，在实践中，一些观看者可能直到他们接近200ms才开始注意到这种未对准。

在也是可选的步骤416中，处理系统可以被配置为基于正和负训练示例的集合中的每个给定训练示例来生成一个或多个修改的训练示例，每个修改的训练示例包括等于给定训练示例的训练分数的训练分数，以及以下中的一个或两个：(i)给定训练示例的图像的编辑版本；或者(ii)从生成给定训练示例的音频频谱图图像的音频数据的编辑版本生成的音频频谱图。处理系统可以被配置为以任何合适的方式编辑给定训练示例的图像。例如，处理系统可以通过改变给定训练示例的图像的亮度、颜色、对比度、锐度和/或分辨率，通过向图像添加像素噪声或阴影效果，和/或通过水平翻转图像以生成镜像副本来编辑给定训练示例的图像。同样地，处理系统可以被配置为以任何合适的方式编辑给定训练示例的音频数据。例如，处理系统可以通过改变给定训练示例的音频数据的音量或音高、通过添加回声或其他声学效果(例如，使语音听起来好像在洞穴或大型礼堂中递送)、通过添加其他背景噪声等来编辑给定训练示例的音频数据。使用这样的经修改的训练示例来训练语音-嘴部一致性模型可以帮助降低语音-嘴部一致性将被改变音频数据的声音而不是语音的内容的音频效果混淆的可能性。

在也是可选的步骤418中，处理系统可以被配置为基于正训练示例的集合中的每个给定正训练示例生成一个或多个合成正训练示例，每个合成正训练示例包括给定正训练示例的图像和正分数，以及基于合成配音的音频频谱图图像，该合成配音再现从其生成给定正训练示例的音频频谱图图像的音频数据中的语音。

处理系统可以被配置为从与由给定正训练示例的音频频谱图图像表示的相同时间段相对应的预先存在的转录生成合成配音。另外，在预先存在的转录不可用的情况下，处理系统还可以被配置为使用ASR实用程序处理给定的正训练示例的音频频谱图图像以识别正在说出的单词或音素，然后可以基于那些识别的单词或音素生成合成语音配音。

根据方法400生成的训练示例可以用于根据任何合适的训练协议训练语音-嘴部一致性模型。在这方面，在本技术的一些方面，可以使用包括正训练示例和负训练示例的批次来训练语音-嘴部一致性模型以生成聚合损失值，并且可以基于前一批次的聚合损失值在批次之间修改语音-嘴部一致性模型的一个或多个参数。同样地，在一些方面，批次(或选择的批次)可以另外包括关于图4B的步骤414-418描述的可选类型的训练示例中的一个或多个。另外，图5和图6阐述了训练语音-嘴部一致性模型的示例性方法，其可以帮助最小化最终包括实际上不是不一致的图像和音频频谱图图像的任何负训练示例的影响。

在这方面，图5描绘了根据本公开的方面的用于迭代地训练语音-嘴部一致性模型的示例性方法500。

在步骤502中，处理系统(例如，处理系统102或202)生成多个正训练示例。可以以任何合适的方式生成正训练示例，包括如上面关于图4A的步骤402-410所描述的。

在步骤504中，处理系统基于多个正训练示例的第一子集生成负训练示例的第一集合。可以以任何合适的方式生成负训练示例的第一集合。在这方面，可以根据关于图4A的步骤412描述的任何选项来生成负训练示例的第一集合，包括涉及进一步分析(例如，识别每个正训练示例中说出的音素，或者分析嘴唇形状、面部特征或面部标志)以避免两个随机选择的正训练示例可能在视觉上相似的可能性的那些选项。同样地，负训练示例的第一集合可以是由人类基于感知到的不一致性而选择的负训练示例。

在步骤506中，处理系统基于来自多个正训练示例的正训练示例的第一集合和负训练示例的第一集合来训练第一语音-嘴部一致性模型。该训练可以根据任何合适的训练协议来执行。例如，在本技术的一些方面，可以在具有单个反向传播步骤的单个批次中完成训练，以更新第一语音-嘴部一致性模型的参数。同样地，在一些方面，可以将正和负训练示例的第一集合分成多个批次，其中单独的损失值在每个批次期间聚合，并且在每个批次之间的单独的反向传播步骤中使用。此外，在所有情况下，可以采用任何合适的损失值和损失函数来将给定训练示例的训练分数与由第一语音-嘴部一致性模型针对该给定训练示例生成的语音-嘴部一致性分数进行比较。

在步骤508中，处理系统通过交换来自多个正训练示例的第二子集的随机选择的正训练示例对的图像或音频频谱图图像来生成负训练示例的第二集合。

在步骤510中，处理系统使用第一语音-嘴部一致性模型(如在步骤506中更新的)来生成负训练示例的第二集合中的每个负训练示例的语音-嘴部一致性分数。

在步骤512中，处理系统基于来自多个正训练示例的正训练示例的第二集合和负训练示例的第二集合中的每个负训练示例来训练第二语音-嘴部一致性模型，第一语音-嘴部一致性模型为每个负训练示例生成低于预定阈值的语音-嘴部一致性分数。以这种方式，步骤512将防止使用接收到指示其图像和音频频谱图图像实际上可能是一致的语音-嘴部一致性分数(来自第一语音-嘴部一致性模型)的任何负训练示例来训练第二语音-嘴部一致性模型。在这方面可以使用任何合适的阈值。例如，对于从-1.0到1.0的评分范例，处理系统可以被配置为仅使用接收到负语音-嘴部一致性分数的那些负训练示例，或者仅使用接收到低于0.1、0.2、0.5等的分数的那些负训练示例。

尽管为了简单起见，示例性方法500仅涉及第一和第二语音-嘴部一致性模型，但是将会理解，步骤508-512可以额外重复一次或多次。例如，可以重复步骤508的过程以生成负训练示例的第三集合，可以根据步骤510使用第二语音-嘴部一致性模型来对负训练示例的第三集合中的每个负训练示例进行评分，并且可以重复步骤512的过程以使用负训练示例的第三集合中评分低于预定阈值的那些训练示例来训练第三语音-嘴部一致性模型。

此外，在本技术的一些方面，处理系统可以被配置为在通过步骤508-512的一个或多个连续通过中使用不同的预定阈值。例如，为了考虑到第二语音-嘴部一致性模型可能对负训练示例的第三集合进行评分(与第一语音-嘴部一致性模型对负训练示例的第二集合进行评分相比)更好的工作的事实，处理系统可以被配置为应用较低的(即，不那么负的)预定阈值，使得第三语音-嘴部一致性模型将最终在更广泛且更细微的负训练示例的集合上被训练。

图6描绘了根据本公开的方面的用于使用针对每个负训练示例的预设标准来训练语音-嘴部一致性模型的示例性方法600。

在步骤602中，处理系统(例如，处理系统102或202)生成多个正训练示例和多个负训练示例。这些正和负训练示例可以以任何合适的方式生成，包括如上面关于图4A的步骤402-412所描述的。

在步骤604中，处理系统针对来自多个正训练示例的正训练示例和来自多个负训练示例的负训练示例的集合中的每个训练示例，使用语音-嘴部一致性模型来生成语音-嘴部一致性分数。

在步骤606中，处理系统基于以下项的生成的语音-嘴部一致性分数和训练分数来生成一个或多个损失值：(i)集合中的每个正训练示例；以及(ii)集合中生成的语音-嘴部一致性分数低于预定阈值的每个负训练示例。同样以这种方式，步骤606将防止使用接收到指示其图像和音频频谱图图像实际上可能是一致的语音-嘴部一致性分数的任何负训练示例来训练语音-嘴部一致性模型。这里再次，在这方面可以使用任何合适的阈值。例如，对于从-1.0到1.0的评分范例，处理系统可以被配置为仅为接收到负语音-嘴部一致性分数的那些负训练示例生成损失值，或者仅为接收到低于0.1、0.2、0.5等的分数的那些负训练示例生成损失值。此外，可以采用任何合适的损失值和损失函数来将给定训练示例的训练分数与由语音-嘴部一致性模型为该给定训练示例生成的语音-嘴部一致性分数进行比较。

在步骤608中，处理系统基于生成的一个或多个损失值来修改语音-嘴部一致性模型的一个或多个参数。如上所述，可以根据任何合适的训练协议执行步骤604-608中阐述的训练。例如，在本技术的一些方面，评分、损失值的生成和语音-嘴部一致性模型的修改都可以在具有单个反向传播步骤的单个批次中完成。同样地，在一些方面，可以将正和负训练示例的集合分成多个批次，其中单独的损失值在每个批次期间聚合，并且在每个批次之间的单独的反向传播步骤中使用。此外，在本技术的一些方面，可以针对连续批次的训练示例重复步骤604-608，其中随着训练继续使用不同的预定阈值。例如，为了考虑到语音-嘴部一致性模型的预测在被训练得越多预期改善的事实，处理系统可以被配置为将更低的预定阈值应用于连续批次。

如已经提到的，本技术的语音-嘴部一致性模型可以用于更有效地生成翻译和相关联的嘴唇匹配的配音。在这方面，如下面将进一步描述的，本文描述的语音-嘴部一致性模型可以被集成到用于下述的系统和方法中：自动生成用于在创建合成或人类扮演的配音中使用的候选翻译，帮助人类翻译者生成与对应视频匹配的翻译，自动对候选翻译与对应视频匹配的程度进行分级，建议对翻译文本的速度和/或定时的修改以改善候选翻译的分级，以及建议对配音和/或视频的修改以改善候选翻译的分级。此外，本技术可以用于使生成嘴唇匹配的翻译和相关联的配音的过程完全自动化，或者作为HITL过程的辅助，该HITL过程可以减少(或消除)因翻译者、改编者、语音演员和/或音频编辑者生成配音所需的时间和精力的量。

在这方面，图7描绘了根据本公开的方面的用于显示来自语音-嘴部一致性模型针对视频的选择的帧的帧级分数的示例性布局700。该示例假设处理系统(例如，处理系统102或202)已经接收到视频的原始对话的给定句子的候选翻译(例如，文本序列)的配音。在本技术的一些方面，该配音可以作为通过将候选翻译的文本馈送到文本到语音合成器(例如，文本到语音合成器114)而生成的合成音频剪辑被提供给语音-嘴部一致性模型。在这种情况下，合成音频剪辑可以由处理系统生成，或者可以在其他地方生成并提供给处理系统。同样地，在本技术的一些方面，配音可以是通过在人类演员说出候选翻译的文本时记录他或她而生成的音频剪辑。

该示例还假设处理系统已经接收到来自该视频(例如，电影、电视节目等)的视频剪辑，并且从视频剪辑中的多个视频帧中的每个给定视频帧获得图像。视频剪辑包括与在视频的原始对话中说出被翻译的给定句子的时间段相对应的多个视频帧。

此外，该示例假设处理系统处理配音(例如，合成音频剪辑、人类扮演的音频剪辑)以生成与每个给定视频帧相对应的音频数据的给定片段，并且进一步处理音频数据的每个给定片段以生成对应的音频频谱图图像。然而，在本技术的一些方面，单独的处理系统可以被配置为分割配音，和/或生成对应的音频频谱图图像，并将其提供给处理系统。如将理解的，正如音频数据的每个片段与视频剪辑中的给定视频帧具有对应性一样，每个给定的音频频谱图图像将同样对应于给定的视频帧。在这方面，处理系统可以以任何合适的方式将配音与视频剪辑相关联。例如，在本技术的一些方面，处理系统可以被配置为将配音和视频剪辑相关联，使得它们各自同时开始。同样地，在一些方面，处理系统可以被配置为将配音与视频剪辑相关联，使得配音在视频剪辑之前或之后的某个预定时间量(例如，20ms、视频帧的长度的一半、或者最大化配音的总分数或聚合语音-嘴部一致性分数的量)开始。在任一情况下，配音可以被分割，使得音频数据的每个给定片段具有与其对应的给定视频帧相同的长度(例如，对于24fps视频为40.167ms)。

最后，该示例假设处理系统已经使用语音-嘴部一致性模型来基于其对应的图像和音频频谱图图像生成与每个给定视频帧相对应的帧级语音-嘴部一致性分数。如上面所解释的，这些帧级语音-嘴部一致性分数表示语音-嘴部一致性模型对配音与原始视频的每个单独帧匹配的程度的确定。在这方面，图7阐述了可视化负帧级分数和正帧级分数的集合的示例性方式，该负帧级分数和正帧级分数将由语音-嘴部一致性模型输出。

具体地，示例性布局700将每个帧的语音-嘴部一致性分数显示为条形图上的单独条(例如，条702、704)。图7的条形图具有时间向右增加的水平轴706，以及用于指示可能的最大和最小分数(这里假设分别为+1.0和-1.0)的虚水平线708和710。此外，在图7的示例中，不同大小(magnitude)的条已经被赋予不同类型的填充以强调较高和较低值。类似地，也可以使用不同的颜色来区分不同大小的条。然而，在本技术的一些方面，每个条也可以使用相同的颜色和填充来显示，而不管其大小如何。

图8从图7的示例性布局构建，并且描绘了根据本公开的方面的用于表示原始视频中的句子中暂停的示例性布局800。在这方面，在图8中，与先前附图共同的所有附图标记旨在标识那些先前附图中描绘的和上面描述的相同特征。

示例性布局800示出了与图7的条形图类似的条形图，但是在中间具有部分，其中原始视频在其对话中具有暂停。该暂停用暂停框802可视地指示，使得人类翻译者可以清楚地看到他们在其候选翻译中将需要对应暂停的位置。在该示例中，已经假设候选翻译确实包含暂停，但是候选翻译太早三帧再次开始。归因于这三个帧的语音-嘴部一致性分数被示出为条804、806和808。在这种情况下，这三个帧中的每一个的语音-嘴部一致性分数被示出为-1.0。在该示例中，-1.0的分数意味着指示这三个帧的给定图像和给定音频频谱图图像之间的不良对应性，并且因此该帧的视觉内容与对应于该帧的音频数据的片段(来自合成或人类扮演的音频剪辑)不一致。在本技术的一些方面，处理系统可以被配置为自动地向在已知暂停期间包含语音的任何帧指派-1.0的分数，而不管语音-嘴部一致性模型是否赋予了更高的分数(例如，如果说话者正在做出与语音一致的表达，即使他们实际上保持沉默，例如噘起他们的嘴唇，则对于孤立的帧可能发生这种情况)。

图9从图7的示例性布局构建，并且描绘了根据本公开的各方面的用于附加地表示候选翻译太长而不能匹配原始视频的示例性布局900。在这方面，在图9中，与先前附图共同的所有附图标记旨在标识那些先前附图中描绘的和上面描述的相同特征。

示例性布局900示出了与图7的条形图类似的条形图，但是在结束处具有部分，其中原始对话已经结束并且候选翻译仍然继续。候选翻译的这种超限用超限框902可视地指示，使得人类翻译者可以清楚地看到他们的翻译将最终与原始话语结束之外的视频帧重叠。这里，处理系统也可以被配置为示出超限框902，尽管语音-嘴部一致性模型赋予了更高的分数。例如，在超限导致候选翻译与当前话语之后的对话重叠的情况下，语音-嘴部一致性模型可能最终肯定地评估那些帧。然而，由于可以假设翻译者也将需要翻译该下一话语，因此可能期望忽略那些分数，而是示出超限框902，以便向翻译者指示候选翻译太长。同样地，在本技术的一些方面，处理系统可以被配置为甚至不生成任何超限的语音-嘴部一致性分数，而是简单地示出超限框902。

图10从图7的示例性布局构建，并且描绘了根据本公开的各方面的示例性布局1000，该示例性布局1000用于附加地表示原始视频不能提供说话者或说话者嘴部的清楚视图的时段。在这方面，在图10中，与先前附图共同的所有附图标记旨在标识那些先前附图中描绘的和上面描述的相同特征。

示例性布局1000示出了与图7的条形图类似的条形图，但是在中间具有部分，其中说话者或说话者的嘴部在原始视频中不清楚可见(例如，说话者在屏幕外，说话者的头部被转动使得他们的嘴部不可见或仅从侧面可见，说话者的嘴部完全或部分地被手或前景中的对象覆盖等)。该时段在示例性条形图上用模糊的说话者框1002可视地指示，使得人类翻译者可以清楚地看到他们的候选翻译的这些帧不需要嘴唇匹配。处理系统可以以任何合适的方式(例如，根据不存在识别那些帧的说话者的预标记标签)识别具有模糊的说话者的时段。

这里，处理系统也可以被配置为示出模糊的说话者框1002，尽管语音-嘴部一致性模型将实际分数归因于这些帧。例如，语音-嘴部一致性模型同样可以被配置为识别这种模糊的说话者情况(例如，根据不存在识别那些帧的说话者的预标记标签)，并且还可以被配置为自动将中性(例如，0)或全正(例如，+1.0)分数归因于落入这样的时段中的任何帧。然而，为了避免混淆翻译者，处理系统可以被配置为忽略那些语音-嘴部一致性分数，而是显示模糊的说话者框1002，使得翻译者将理解可以简单地忽略那些帧的各个语音-嘴部一致性分数。另外，在本技术的一些方面，处理系统还可以被配置为简单地避免生成当说话者或其嘴部不清晰可见时任何帧的语音-嘴部一致性分数，而是示出模糊的说话者框1002。

图11从图7的示例性布局构建，并且描绘了根据本公开的各方面的用于附加地显示候选翻译的示例性布局1100。在这方面，在图11中，与先前附图共同的所有附图标记旨在标识那些先前附图中描绘的和上面描述的相同特征。

示例性布局1100示出了可以如何显示候选翻译并将其与图7的条形图相关联。可以看出，候选翻译“Conducjo hasta la biblioteca”的每个单词被表示为气泡(1102、1104、1106、1108)，其长度对应于配音内该单词的持续时间。可以以任何合适的方式导出每个单独单词的持续时间。例如，在合成地生成配音的情况下，文本到语音合成器可以被配置为为候选翻译的每个说出的单词或音素提供开始和结束时间和/或持续时间。同样，在由人类演员生成配音的情况下，开始和结束时间可以是手工编码的(例如，由人类改编者)，或者可以使用ASR实用程序来处理配音，该ASR实用程序被配置为提供配音的单词和/或音素及其开始和结束时间和/或持续时间。在由ASR实用程序处理配音的情况下，这种处理可以由人类用户发起，或者它可以自动执行，而无需人为干预(例如，由处理系统发起)。

图12从图11的示例性布局构建，并且描绘了根据本公开的各方面的用于另外显示从原始视频识别的嘴部形状的示例性布局1200。在这方面，在图12中，与先前附图共同的所有附图标记旨在标识那些先前附图中描绘的和上面描述的相同特征。

示例性布局1200示出了可以如何显示从原始视频识别的嘴部形状并将其与图11的条形图和候选翻译相关联。在该示例中，假设已经从原始视频中识别出三个嘴部形状1202、1204和1206。每个识别的嘴部形状用说明性图标表示，并且在条形图下方列出，与其在原始视频中出现的(多个)帧一致。然而，可以使用表示这些识别的嘴部形状的任何合适的方式和任何合适的放置。

在本技术的一些方面，识别的嘴部形状可以由人类(例如，改编者)或另一处理系统(例如，被配置为分析原始视频并识别嘴部形状的单独处理系统)识别，并且提供给处理系统以在布局1200中显示。

同样地，在一些方面，嘴部形状可以由处理系统本身使用一个或多个面部标志检测实用程序和/或专门训练以对来自图像的嘴唇形状进行分类的视觉分类器来识别。在这方面，处理系统可以使用面部标志检测实用程序和/或视觉分类器的输出以及感兴趣的嘴部形状的预定列表(例如，对应于如“p”、“b”和“m”的双唇辅音，如“f”和“v”的唇齿摩擦音等)来识别哪些视频帧示出识别的嘴部形状。

此外，在一些方面，可以基于对原始视频中说出的单词或音素的分析来识别所识别的嘴部形状。例如，处理系统可以从原始视频(或视频剪辑)的语音的预先存在的转录的单词和/或音素推断这些嘴部形状的存在。

作为另一示例，处理系统可以处理原始视频的音频数据以自动识别在原始视频中说出的单词或音素(例如，使用ASR)，然后可以从那些识别的单词和/或音素推断嘴部形状的存在。

图13从图12的示例性布局构建，并且描绘了根据本公开的各方面的用于附加地显示从候选翻译识别的嘴部形状的示例性布局1300。在这方面，在图13中，与先前附图共同的所有附图标记旨在标识那些先前附图中描绘的和上面描述的相同特征。

示例性布局1300示出了可以如何显示从候选翻译识别的嘴部形状并将其与图12的条形图和候选翻译相关联。在该示例中，假设已经从候选翻译的文本或其配音中识别出五个嘴部形状1302、1304、1306和1308，如下面进一步解释的。这些嘴部形状中的每一个也与说明性图标相关联，但是它们被列在条形图上方，与候选翻译的部分和它们在视频中相关联的(多个)帧一致。然而，可以使用表示这些识别的嘴部形状的任何合适的方式和任何合适的放置。

这里，候选翻译的这些识别的嘴部形状也可以由人类(例如，改编者)或另一处理系统识别，并且提供给处理系统以在布局1300中显示。在这种情况下，人类或其他处理系统可以进一步识别每个识别的嘴部形状与视频剪辑的哪些帧相关联。

同样地，在本技术的一些方面，处理系统可以从候选翻译的文本的单词和/或音素以及感兴趣的嘴部形状的列表(例如，对应于如“p”、“b”和“m”的双唇辅音、如“f”和“v”的唇齿摩擦音等的那些)推断这些嘴部形状的存在。

作为另一示例，处理系统可以处理配音(例如，合成音频剪辑、人类扮演的音频剪辑)以自动识别配音中说出的单词或音素(例如，使用ASR)，然后可以从那些识别的单词和/或音素推断嘴部形状的存在。

此外，在一些方面，在配音由人类执行的情况下，处理系统可以使用一个或多个面部标志检测实用程序从人类演员的视频记录中识别感兴趣的嘴部形状。

每个识别的嘴部形状可以以任何合适的方式与视频剪辑的一个或多个视频帧相关联。例如，在配音是合成音频剪辑并且处理系统从候选翻译的文本中的一个或多个单词或音素推断给定的感兴趣的嘴部形状的存在的情况下，处理系统可以被配置为识别其中说出那些一个或多个单词或音素的音频数据的(多个)片段，并且将给定的感兴趣的嘴部形状与识别的音频数据的(多个)片段已经相关联的任何(多个)视频帧相关联(如上面关于图7所讨论的)。同样地，在处理系统从在配音中说出的一个或多个单词或音素推断存在给定的感兴趣的嘴部形状的情况下(例如，使用ASR)，处理系统可以被配置为识别其中说出那些一个或多个单词或音素的音频数据的(多个)片段，并且将给定的感兴趣的嘴部形状与识别的音频数据的(多个)片段已经相关联的任何(多个)视频帧相关联(如上面关于图7所讨论的)。此外，在处理系统从执行配音的人类演员的视频记录推断存在给定的感兴趣的嘴部形状的情况下，处理系统可以被配置为识别给定的感兴趣的嘴部形状在人类演员的视频记录中可见的时间，识别与该时间相对应的音频数据的(多个)片段，并且识别已经与那些音频数据的(多个)片段相关联的视频帧(如上面关于图7所讨论的)。

从候选翻译或其配音识别感兴趣的嘴部形状在HITL应用以及全自动应用中可能都是有价值的。在这方面，在全自动应用中，从候选翻译的文本或从合成配音识别的感兴趣的嘴部形状可以与从视频剪辑识别的感兴趣的嘴部形状进行比较，并用于生成附加分数或影响“总分数”(如下面所讨论的)。处理系统可以使用这些附加或增强的总分数来挑选更好地匹配视频中的某些显著的感兴趣的嘴部形状的翻译，并且因此对人类观看者可能看起来更好，即使另一个翻译可能仅基于语音-嘴部一致性分数稍微更好地得分。

图14描绘了根据本公开的各方面的示例性布局1400，其中图13的示例性布局被重新布置和修改以显示聚合的单词级分数。在这方面，在图14中，与先前附图共同的所有附图标记旨在标识那些先前附图中描绘的和上面描述的相同特征。

示例性布局1400示出了显示图13的候选翻译、识别的嘴部形状和语音-嘴部一致性分数的替代方式。具体地，在图14中，没有单独显示每个帧的语音-嘴部一致性分数。相反，这些分数已经被聚合成单词级分数1402、1404、1406和1408，每个单词级分数对应于上述候选翻译的不同单词。可以使用聚合帧级分数的任何合适的方法来生成单词级分数1402、1404、1406和1408。例如，在本技术的一些方面，与候选翻译的给定单词相对应的每个帧级分数可以由处理系统识别并平均。

以这种方式聚合帧级分数可能是期望的，例如，以为翻译者提供在翻译时评估和比较各种替代单词的更好方式。此外，在本技术的一些方面，处理系统可以被配置为允许翻译者在帧级和聚合单词级上查看语音-嘴部一致性分数之间切换。单词级分数在自动化系统中也可能是有益的。例如，在本技术的一些方面，处理系统可以被配置为生成或请求附加的自动翻译，其中给定的单词级分数低于预定阈值。这可以帮助防止处理系统选择由于一个明显的不一致性而对人类观看者而言看起来可能比基于帧级语音-嘴部一致性分数可能得分略低但缺乏任何明显的单词级不一致性的另一翻译看起来更差的翻译。

另外，在示例性布局1400中，从原始视频识别的嘴部形状(1202、1204和1206)已经移动到条形图上方并且直接布置在从候选翻译识别的嘴部形状(1302、1304、1306和1308)下方。例如，这可能是期望的，使得翻译者可以更容易地看到这些嘴部形状彼此同步的紧密程度。此外，尽管图14中未示出，但是本文描述的示例性布局可以另外包括围绕候选翻译和原始视频的识别的嘴部形状或在候选翻译和原始视频的识别的嘴部形状下面的垂直线或条，以进一步突出它们彼此同步的紧密程度。

如下面将示出和描述的，本文描述的语音-嘴部一致性模型以及基于其的图7-图14的各种可视化和布局可以各自在系统内使用，该系统被配置为自动生成翻译和/或在人类翻译者开发翻译以匹配给定视频的对话时辅助他或她。在这方面，图15-图19的示例性布局阐述了如何使用语音-嘴部一致性模型的输出来帮助人类翻译者达到给定视频的最佳翻译的各种选项。尽管图15-图19各自引入了特定特征，但是与本技术一致的另外的布局可以采用这些特征的任何组合或子组合。

例如，图15描绘了根据本公开的方面的用于呈现要翻译的句子、一组自动生成的翻译和相关联的分数、以及用于接受翻译者的候选翻译的文本框的示例性布局1500。

示例性布局1500显示要翻译的原始句子1502以及直接在其下方的文本框1504，其中翻译者可以输入翻译。自动生成的翻译1510、1518和1526被显示在文本框1504下方作为可以被选择的选项，但是文本框1504保持空白，以便允许翻译者聚焦于原始句子1502并且具有选择如何对翻译进行框架化的自主性。这可以帮助减少“锚定效应”，如果替代地要求翻译者从自动生成的翻译开始并直接编辑它以得到最终的候选翻译，则可能发生“锚定效应”。

在图15的示例中，如果翻译者希望替代地从候选翻译中的一个工作，则他或她可以点击其对应的向上箭头按钮(1514、1522、1530)以将翻译向上移动到文本输入框1504。同样地，如果翻译者希望保存他们的候选翻译中的一个并且处理新的候选翻译，则他或她可以点击向下箭头按钮1508以使其从文本输入框1504中移除，并且在下面与自动生成的翻译一起列出。此外，可以通过点击翻译左侧的“x”(由箭头1516、1524和1532指示)来从视图中移除每个自动生成的翻译。

如图15所示，自动生成的翻译均由处理系统评分，如框1506、1512、1520和1528所示。例如，自动生成的翻译1510已经被评估为具有60％的总分数和使其比与其匹配的视频短23％的持续时间。这里，这些翻译也可以由任何合适的翻译模型生成。另外，翻译API可以被配置为生成多个翻译，但是仅显示其子集(例如，具有最高总分数、最高语音-嘴部一致性分数、最佳持续时间分数、其某种聚合等的预定数量的翻译)。此外，翻译API可以合并经批准的短语的翻译词汇表，以偏置模型以使用更自然和一致的表达。此外，翻译API可以被配置为使其建议部分地基于接受的先前翻译的日志，以便使其建议与翻译者已经使用的措辞更一致。

同样，文本输入框1504的内容也被评分，如框1506所示。在这种情况下，由于尚未将候选翻译输入到文本输入框1504中，因此总分数被示出为0％，并且候选翻译被评估为比其目标长度短100％。在本技术的一些方面，处理系统(例如，处理系统102或202)可以被配置为在翻译者工作时实时地更新框1506中的分数。同样地，在一些方面，处理系统可以被配置为周期性地和/或响应于来自翻译者的更新请求来更新框1506中的分数。

框1506、1512、1520和1528中所示的总分数是至少部分地基于每个自动生成的翻译的语音-嘴部一致性模型的帧级分数的聚合值。根据上面关于图3和图7以及下面关于图20描述的处理，可以由处理系统使用语音-嘴部一致性模型为每个自动生成的翻译生成这样的帧级语音-嘴部一致性分数。另外，处理系统可以被配置为以任何合适的方式生成总分数。例如，在本技术的一些方面，总分数可以全部或部分地基于整个翻译的帧级语音-嘴部一致性分数的平均值。同样地，在本技术的一些方面，处理系统可以被配置为针对每个自动生成的翻译生成单词级语音-嘴部一致性分数(如上面关于图14所讨论的)，并且全部或部分地基于针对给定翻译生成的帧级语音-嘴部一致性分数来生成每个给定翻译的总分数。

在本技术的一些方面，总分数还可以部分地基于在翻译中匹配了多少原始视频的识别的嘴部形状(例如，匹配了多少识别的嘴部形状的百分比，或者基于每个嘴部形状在屏幕上多长时间的其时间加权平均值)。同样，在本技术的一些方面，可以基于各种标准来惩罚总分数，诸如当语配音与视频中的暂停不匹配时，当配音相对于原始视频特别短或长时(例如，超过某个预定阈值，诸如10ms、20ms、30ms、40ms等)，和/或当语速相对太快或太慢时(例如，比“正常”语速的预定范围快或慢，比先前配音快或慢某个预定百分比等)。此外，总分数1506、1512、1520和1528可以基于刚刚描述的选项的任何组合或子组合。

在一些全自动系统中，处理系统可以被配置为至少部分地基于给定的自动生成的翻译的总分数满足某个预定标准来选择给定的自动生成的翻译。例如，在本技术的一些方面，处理系统可以被配置为基于给定的自动生成的翻译的总分数高于所有其他自动生成的翻译的总分数来选择给定的自动生成的翻译。同样地，在一些方面，处理系统可以被配置为基于给定的自动生成的翻译的总分数高于预定阈值来选择给定的自动生成的翻译。处理系统还可以被配置为然后将视频剪辑与对应于选择的自动生成的翻译的合成音频剪辑组合，以生成修改的视频。修改的视频(其可以被增强以包括合成配音以及原始音频数据，或者其可以被修改以用合成音频剪辑替换视频的原始音频数据的一部分)可以被存储在处理系统上，和/或被输出以用于存储、传输或显示。同样地，在本技术的一些方面，处理系统可以被配置为至少部分地基于给定的自动生成的翻译的总分数来选择给定的自动生成的翻译，并且然后将合成音频剪辑输出到另一处理系统以用于存储和/或用于生成修改的视频(例如，如刚刚描述的)。以这种方式，可以以资源高效的方式自动生成配音。

图16从图15的示例性布局构建，并且描绘了根据本公开的各方面的附加地包括先前翻译历史的示例性布局1600。在这方面，在图16中，与先前附图共同的所有附图标记旨在标识那些先前附图中描绘的和上面描述的相同特征。

示例性布局1600显示图15的布局1500的内容，包括附加的过去翻译框1602，其包括翻译者的先前翻译的至少一部分。这可能有助于翻译者生成既一致又在过去对话的上下文中有意义的翻译。该附加上下文还可以有助于防止翻译者变得过于专注在总分数和/或持续时间分数上。在这方面，虽然在图16中可能看起来基于它们相应的总分数和持续时间分数，自动生成的翻译1524和1532优选于自动生成的翻译1516，但是在过去翻译框1602中提供的上下文示出了自动生成的翻译1516的内容作为来自说话者Mark的进一步响应最有意义。因此，在查阅过去翻译框1602之后，翻译者可以最终专注于修改自动生成的翻译1516以试图保持其一般含义或意图，同时使其稍长并且与原始视频中的嘴部形状更一致。

图17A和图17B描绘了根据本公开的各方面的示例性布局1700-1和1700-2，其示出了在图15的示例性布局内可以如何采用自动完成。在这方面，在图17A和图17B中，与先前附图共同的所有附图标记旨在标识那些先前附图中描绘的和上面描述的相同特征。

图17A的示例性布局1700-1显示了图15的布局1500的内容，因为它可能在翻译者将候选翻译输入到文本输入框1504中的过程中出现。在这方面，在图17A的示例中，翻译者已经输入“The br”，如箭头1702所示。在该示例中，假设处理系统(例如，处理系统102或202)已经被配置有自动完成功能，并且已经建议“br”用后缀“own”(如箭头1704所示)完成以读成“brown”。另外，响应于该部分候选翻译到文本输入框1504中的输入，处理系统已经更新了其相关联的分数1706以反映2％的总分数并且指示候选翻译现在比原始视频短99％。如将理解的，可以基于音频剪辑的长度和与其被匹配的视频剪辑的长度的任何合适的比较来生成该持续时间分数(以及图15、图16、图17B、图18和图19中所示的以及上面和下面讨论的持续时间分数)。因此，在本技术的一些方面，处理系统可以通过将基于候选翻译生成的合成音频剪辑的长度与视频剪辑的长度进行比较来生成持续时间分数。同样地，在一些方面，持续时间分数可以替代地是表示合成音频剪辑相对于视频剪辑将有多长或多短(例如，“短0.156秒”)的值，并且因此可以通过从合成音频剪辑的长度中减去视频剪辑的长度来生成。

类似地，图17B的示例性布局1700-2显示布局1700-1的内容，因为它可能在翻译者已经接受第一自动完成建议(如图17A中的箭头1704所示)之后出现。这可以以任何合适的方式完成，诸如通过继续键入字母“own”，通过点击制表键以接受建议的后缀“own”等。在这种情况下，在已经接受该第一建议之后，处理系统现在建议单词“flying”将跟随“Thebrown”，如箭头1708和1710所示。另外，响应于将该附加内容输入到文本输入框1504中，处理系统已经进一步更新其相关联的分数1712以反映4％的总分数并且指示候选翻译现在比原始视频短97％。

处理系统的自动完成实用程序可以被配置为以任何合适的方式生成建议。例如，在本技术的一些方面，处理系统可以被配置为使其自动完成建议基于自动生成的翻译1516、1524和1532(以及可选地，生成但未选择用于显示的任何其他翻译)的内容。另外，处理系统还可以被配置为通过突出显示可以在文本输入框下方的自动生成的翻译中找到任何这样的自动完成建议的地方来指示该建议的基础。例如，在图17B中，处理系统可以被配置为在单词“brown”出现在自动生成的翻译1516和1524中的地方突出显示单词“brown”。同样地，在本技术的一些方面，处理系统可以被配置为使用自动完成模型，该自动完成模型独立于由翻译模型建议的翻译来操作，并且简单地基于词典、语法规则、学习的语音模式等来做出建议。

图18从图15的示例性布局构建，并且描绘了根据本公开的各方面的示例性布局1800，该示例性布局1800还包括基于文本输入框的内容的附加自动生成的翻译以及翻译者的候选翻译的图形表示(类似于图14中所示的图形表示)。在这方面，在图18中，与先前附图共同的所有附图标记旨在标识那些先前附图中描绘的和上面描述的相同特征。

示例性布局1800显示图15的布局1500的内容，包括附加自动生成的翻译1806，其基于文本输入框1504的内容，并且随着翻译者修改候选翻译而继续改变。在这方面，在该示例中，假设翻译模型已经被配置为使用给定前缀来生成翻译。同样地，假设处理系统(例如，处理系统102或202)已经被配置为将文本输入框1504的内容解析成每个可能的前缀，并且使用每个这样的前缀向翻译API提交单独的调用。

因此，在这种情况下，翻译者已经将“The brown bird that I”键入到文本输入框1504中(如箭头1802所示)，其比原始视频短60％，并且具有20％的更新后的总分数(如1804所示)。基于该输入，处理系统将向翻译API发出五个单独的调用以翻译原始句子1502，每个调用基于以下五个前缀之一：(1)“the brown bird that I”；(2)“the brown bird that”；(3)“the brown bird”；(4)“the brown”；以及(5)“the”。

处理系统可以被配置为显示响应于这些调用而从翻译API返回的翻译中的一些或全部。然而，在图18的示例中，假设处理系统被配置为评估由翻译API返回的每个翻译的长度，并且使用语音-嘴部一致性模型针对原始视频的帧对每个翻译进行评分，以生成总分数和持续时间(例如，如框1808所示)。进一步假设处理系统然后将基于其总分数、其持续时间或其总分数和持续时间在框1806中仅显示排名最高的翻译。在这种情况下，如框1806和1808所示，由翻译API返回的最高评级的翻译是基于前缀“the brown bird that”的翻译，其具有87％的总分数并且比原始视频短3％。

另外，随着人类翻译者继续键入，处理系统将基于框1504中的改变的文本进行附加的API调用。结果，如果这些连续调用中的任何一个导致翻译API返回分数甚至优于框1806中当前示出的翻译的翻译，则框1806的内容将继续随时间改变。

如可以看出的，示例性布局1800还包含示出翻译者的候选翻译(在文本框1504中输入)与原始视频匹配的程度的可视化。该可视化类似于上面关于图14示出和描述的可视化，示出了候选翻译的每个单词(1810-1820)，以及从与每个单词相对应的各个帧级分数聚合的该单词的相关联的单词级分数(1826-1834)(如上面所讨论的)。另外，因为候选翻译仍然太短，所以条形图示出了欠载(underrun)框1836。该欠载框用于与图9的超限框902类似的目的，使得人类翻译者容易看到他们的翻译将在说话者继续在原始视频帧中说话时结束。

此外，与图14类似，图18中的可视化还包括候选翻译的单词正下方的第一行中的从候选翻译识别的嘴部形状，以及第一行正下方的第二行中列出的从原始视频识别的嘴部形状。如上所述，这允许翻译者在视觉上评估候选翻译的识别的嘴部形状与原始视频的识别的嘴部形状的对应有多紧密。因此，在图18中，翻译者将能够看到候选翻译中的单词“bird”(1814)导致与原始视频中识别的相同嘴部形状1824紧密同步的嘴部形状1822，从而导致相当正的单词级分数1830。另一方面，翻译者还将能够看到单词“I”(1820)与描绘与双唇辅音相关联的非常不同的嘴部形状1838的帧匹配，从而导致负单词级分数1834。此外，因为可视化示出了针对原始视频剪辑识别的所有感兴趣的嘴部形状，包括在待决候选翻译结束之后发生的那些，所以翻译者可以使用剩余的识别的嘴部形状(例如，1840、1842和1844)来在他们完成候选翻译时引导他们的单词选择。

图19从图18的示例性布局构建，并且描绘了根据本公开的各方面的示例性布局1900，其进一步包括并入音频或视频修改的附加自动生成的翻译选项。在这方面，在图19中，与先前附图共同的所有附图标记旨在标识那些先前附图中描绘的和上面描述的相同特征。

示例性布局1900显示图18的示例性布局1800的内容，但是具有新的自动生成的翻译1902。在该示例中，自动生成的翻译1902使用与自动生成的翻译1510相同的单词，但是并入了配音和/或视频的修改版本，这导致仅短2％的改善的持续时间和90％的改善的总分数，如框1904所示。在本技术的一些方面中，处理系统(例如，处理系统102或202)可以被配置有回放特征，该回放特征允许翻译者观看和收听修改的样本以查看其看起来有多自然。同样地，处理系统可以被配置为当用户点击向上箭头1522以主动选择该选项时，示出这些改变在下面的条形图可视化中看起来如何。

处理系统可以被配置为使用以下方法中的一种或多种来自动修改视频以使其更好地符合翻译。例如，在视频必须被加长以更好地适应翻译的情况下，处理系统可以被配置为以合适的方式复制一个或多个视频帧。在这方面，在必须复制多个帧的情况下，处理系统可以被配置为以预定间隔选择用于复制的帧，以避免使视频看起来暂停。处理系统还可以被配置为识别帧几乎相同的任何序列(例如，在序列中在屏幕上发生非常少的移动)，并且复制那些序列内的一个或多个帧，因为这样做可能不太可能被观看者注意到。在这方面，在帧序列特别相同的情况下，可以将该组帧重复一次或多次(因此“循环”该组帧)而不会被大多数观看者注意到。此外，处理系统可以被配置为基于其复制将如何影响翻译和修改的视频之间的各种感兴趣的嘴部形状的同步来选择复制哪些帧。

同样，在视频必须被缩短的情况下，处理系统可以被配置为以任何合适的方式移除一个或多个帧。这里同样，在必须移除多个帧的情况下，处理系统可以被配置为以预定间隔或在帧几乎相同的序列中(例如，在序列中在屏幕上发生非常少的移动)这样做，因为这样做不太可能会被观看者注意到。处理系统还可以被配置为基于其移除将如何影响翻译和修改的视频之间的各种感兴趣的嘴部形状的同步来选择移除哪些帧。

此外，在本技术的一些方面，处理系统可以被配置为使用修改视频的平衡方法，其中视频的持续时间保持不变。在这种情况下，处理系统可以被配置为从视频的一个部分中移除一个或多个帧，并且在视频的不同部分中复制相等数量的帧，使得视频的修改版本具有与原始视频相同数量的帧。这里，处理系统也可以被配置为基于那些帧添加和减去将如何影响翻译和修改的视频之间的各种感兴趣的嘴部形状的同步来选择如何以及在何处移除和插入帧。

此外，在本技术的一些方面，处理系统可以被配置为使用重新动画实用程序(例如，重新动画实用程序120)来对各个帧进行修改，这些修改更改说话者的嘴唇、面部和/或身体的外观。在一些方面，处理系统可以被配置为基于它们将如何影响翻译和修改的视频之间的各种感兴趣的嘴部形状的同步来自动确定如何进行这样的改变。同样地，在一些方面，处理系统可以被配置为允许人类用户使用重新动画实用程序来进行这样的改变。在这种情况下，处理系统还可以被配置为向用户示出他们对一个或多个给定帧的改变将如何影响语音-嘴部一致性分数和/或配音的总分数。在所有情况下，处理系统可以被配置为单独使用重新动画实用程序，和/或与本文讨论的任何其他视频或音频修改选项组合使用重新动画实用程序。

另外，在本技术的一些方面，处理系统可以被配置为自动修改配音以使其更好地符合视频。例如，处理系统可以被配置为指示文本到语音合成器延长或缩短一个或多个单词，和/或在翻译中插入一个或多个暂停。处理系统可以被配置为这样做，以便优化配音的整体持续时间，和/或更好地使翻译的嘴部形状与原始视频的嘴部形状同步。这里同样，处理系统可以使翻译者能够收听得到的修改的配音，从而他或她可以评估最终结果的自然程度。在本技术的一些方面，修改的配音可以用作最终配音。然而，在本技术的一些方面，修改的配音可以简单地用作对人类演员的指导，然后人类演员将尝试使用相同的节奏、单词长度和暂停来表演候选翻译。

此外，在本技术的一些方面，处理系统可以被配置为使用上述方法中的一个或多个来对音频和视频两者进行修改。例如，处理系统可以被配置为修改合成音频的速度以使其符合视频的长度，并且然后可以采用平衡方法来修改视频，以便更好地同步配音和修改的视频的嘴部形状。另外，在本技术的一些方面，可以使用重新动画实用程序对修改的视频进行进一步的改变。

尽管图19示出了处理系统已经为自动生成的翻译之一生成修改的配音和/或(多个)视频帧的示例，但是处理系统同样可以被配置为允许人类用户编辑配音和/或视频帧，并且在图19底部的可视化中看到结果。同样地，在本技术的一些方面，在处理系统最初修改配音和/或(多个)视频帧的情况下，处理系统可以被配置为允许人类用户对修改的配音和/或视频帧进行进一步编辑(例如，以基于用户感觉看起来最真实的内容来微调它们的定时)。

图20描绘了根据本公开的方面的用于基于文本序列和视频剪辑生成帧级语音嘴部一致性分数的示例性方法2000。在这方面，图20阐述了生成上面关于图3-图19描绘和描述的各种帧级语音嘴部一致性分数的一种示例性方式。在该示例中，假设方法2000的步骤将各自使用处理系统(例如，处理系统102或202)的一个或多个处理器来执行。

在步骤2002中，处理系统接收视频剪辑和文本序列。在该示例中，假设视频剪辑表示视频的一部分，并且包括多个视频帧。在本技术的一些方面，视频剪辑还可以包括视频的原始音频数据的对应部分，尽管这对于示例性方法2000的目的不是必需的。文本序列可以是两个或更多个单词的任何组合，包括句子片段、完整句子、完整句子和附加句子片段、两个或更多个句子或句子片段等。在本技术的一些方面，文本序列可以由人类提供给处理系统。例如，人类翻译者可以通过键盘输入文本序列。同样地，人类翻译者或语音演员可以向麦克风说出文本序列，并且处理系统或另一处理系统可以被配置为将记录的语音输入转换为文本序列(例如，使用ASR)。此外，在本技术的一些方面，文本序列可以由处理系统使用翻译模型(例如，翻译实用程序112)来生成。例如，处理系统可以通过检测视频的原始音频数据中的语音(例如，使用ASR)并使用翻译模型生成其翻译来生成文本序列。同样，处理系统可以通过使用翻译模型翻译视频的原始对话的预先存在的转录(或其部分)来生成文本序列。此外，在本技术的一些方面，另一处理系统可以以刚刚描述的方式之一来生成文本序列，并且可以将文本序列提供给方法2000的处理系统。

在步骤2004中，处理系统基于文本序列生成合成音频剪辑。例如，处理系统可以通过将文本序列馈送到文本到语音合成器(例如，文本到语音合成器114)来这样做，如上面关于图1和图7所描述的。

接下来，对于多个视频帧中的每个给定视频帧，处理系统将执行步骤2006-2012。在这方面，在步骤2006中，处理系统基于给定视频帧获得图像。处理系统可以以任何合适的方式获得该图像。例如，在本技术的一些方面，图像可以简单地是直接从视频帧提取的图像。同样地，在一些方面，图像可为直接从视频帧提取的图像的经处理版本(例如，下取样、上取样或经滤波版本)。此外，在一些方面，图像可为直接从视频帧提取的图像的经裁剪版本，例如隔离说话者的面部或嘴部的部分。

在步骤2008中，处理系统处理合成音频剪辑以获得对应于给定视频帧的音频数据的给定片段。如上面关于图7所讨论的，处理系统可以分割合成音频剪辑的音频数据，并且以任何合适的方式将每个片段与给定的视频帧相关联。例如，在本技术的一些方面，处理系统可以基于以下假设来关联合成音频剪辑：两者同时开始、合成音频剪辑在视频剪辑之前的某个预定时间量开始、合成音频剪辑在视频剪辑之后的某个预定时间量开始等。然后，处理系统可以将合成音频剪辑分割成具有与每个视频帧相同长度的片段(例如，对于24fps视频为40.167ms)，并且可以将音频数据的第一片段与第一视频帧相关联，将音频数据的第二片段与第二视频帧相关联，等等。此外，音频数据的每个片段可以是直接从合成音频剪辑获得的音频数据的一部分，或者可以是直接从合成音频剪辑获得的音频数据的经处理版本(例如，下采样、上采样或经滤波版本)。

在步骤2010中，处理系统处理音频数据的给定片段以生成给定音频频谱图图像。该音频频谱图图像可以采用任何合适的形式，并且可以由处理系统以任何合适的方式生成，如上面关于图3和图7更详细地描述的。

在步骤2012中，处理系统使用语音-嘴部一致性模型基于给定图像和给定音频频谱图图像生成给定视频帧的帧级语音-嘴部一致性分数。处理系统和语音-嘴部一致性模型可以以任何合适的方式生成该帧级语音-嘴部一致性分数，如上面关于图3和图7更详细地描述的。

除非另有说明，否则前述替代示例不是相互排斥的，而是可以以各种组合来实现以实现独特的优点。由于可以在不脱离由权利要求限定的主题的情况下利用上面讨论的特征的这些和其他变型和组合，因此示例性系统和方法的前述描述应当通过说明的方式而不是通过限制由权利要求限定的主题的方式来进行。另外，本文描述的示例的提供以及措辞为“诸如”、“包括”、“包含”等的条款不应被解释为将权利要求的主题限制于具体示例；相反，这些示例仅旨在说明许多可能的实施例中的一些。此外，不同附图中的相同附图标记可以标识相同或相似的元件。

Claims

1.一种计算机实现的方法，包括：

使用处理系统的一个或多个处理器，使用文本到语音合成器基于文本序列生成合成音频剪辑，所述合成音频剪辑包括与文本序列相对应的合成语音；以及

对于包括多个视频帧的视频剪辑的每个给定视频帧：

使用所述一个或多个处理器处理视频剪辑，以基于给定视频帧获得给定图像；

使用所述一个或多个处理器处理合成音频剪辑，以获得与给定视频帧相对应的音频数据的给定片段；

使用所述一个或多个处理器处理音频数据的给定片段，以生成给定音频频谱图图像；以及

使用所述一个或多个处理器，使用语音-嘴部一致性模型，基于给定图像和给定音频频谱图图像生成给定视频帧的帧级语音-嘴部一致性分数。

2.根据权利要求1所述的方法，还包括：使用所述一个或多个处理器，至少部分地基于生成的与所述多个视频帧中的每个给定视频帧相对应的帧级语音-嘴部一致性分数来生成总分数。

3.根据权利要求1或2所述的方法，还包括：

使用所述一个或多个处理器识别与文本序列的给定单词相对应的生成的帧级语音-嘴部一致性分数的集合；以及

使用所述一个或多个处理器，基于识别的生成的帧级语音-嘴部一致性分数的集合来生成给定单词的单词级语音-嘴部一致性分数。

4.根据权利要求3所述的方法，还包括：使用所述一个或多个处理器，至少部分地基于生成的与所述文本序列中的每个给定单词相对应的单词级语音-嘴部一致性分数来生成总分数。

5.根据权利要求1至4中任一项所述的方法，还包括：使用所述一个或多个处理器，基于合成音频剪辑的长度与视频剪辑的长度的比较来生成持续时间分数。

6.根据权利要求1至5中任一项所述的方法，还包括：

使用所述一个或多个处理器处理所述视频剪辑以从所述视频剪辑中可见的说话者识别一个或多个感兴趣的嘴部形状的集合；以及

对于所述一个或多个感兴趣的嘴部形状的集合中的每个给定的感兴趣的嘴部形状，使用所述一个或多个处理器将给定的感兴趣的嘴部形状与所述多个视频帧中的一个或多个视频帧相关联。

7.根据权利要求1至6中任一项所述的方法，其中，所述视频剪辑还包括原始音频数据，并且所述方法还包括：

使用所述一个或多个处理器处理所述原始音频数据，以识别记录在所述原始音频数据中的由说话者说出的一个或多个单词或音素；

使用所述一个或多个处理器，基于识别的一个或多个单词或音素生成一个或多个感兴趣的嘴部形状的集合；以及

8.根据权利要求1至7中任一项所述的方法，还包括：

使用所述一个或多个处理器处理所述视频剪辑的转录以识别一个或多个单词或音素；

9.根据权利要求1至9中任一项所述的方法，还包括：

使用所述一个或多个处理器处理所述合成音频剪辑以识别在所述合成音频剪辑的合成语音中说出的一个或多个单词或音素；

10.根据权利要求1至9中任一项所述的方法，还包括：

使用所述一个或多个处理器处理所述文本序列以识别一个或多个单词或音素；

11.根据权利要求2或权利要求4所述的方法，还包括：

基于所述总分数满足预定标准，使用所述一个或多个处理器选择所述合成音频剪辑；

使用所述一个或多个处理器将所述合成音频剪辑与所述视频剪辑组合以生成修改的视频；以及

使用所述一个或多个处理器输出修改的视频。

12.一种系统，包括：

存储器；以及

一个或多个处理器，耦合到所述存储器并且被配置为：

使用文本到语音合成器，基于文本序列生成合成音频剪辑，所述合成音频剪辑包括与所述文本序列相对应的合成语音；以及

对于包括多个视频帧的视频剪辑的每个给定视频帧：

处理所述视频剪辑以基于所述给定视频帧获得给定图像；

处理所述合成音频剪辑以获得与所述给定视频帧相对应的音频数据的给定片段；

处理音频数据的所述给定片段以生成给定音频频谱图图像；以及

使用语音-嘴部一致性模型，基于所述给定图像和所述给定音频频谱图图像来生成所述给定视频帧的帧级语音-嘴部一致性分数。

13.根据权利要求12所述的系统，其中，所述一个或多个处理器还被配置为至少部分地基于生成的与所述多个视频帧中的每个给定视频帧相对应的帧级语音-嘴部一致性分数来生成总分数。

14.根据权利要求12或13所述的系统，其中，所述一个或多个处理器还被配置为：

识别与所述文本序列的给定单词相对应的生成的帧级语音-嘴部一致性分数的集合；以及

基于识别的生成的帧级语音-嘴部一致性分数的集合来生成给定单词的单词级语音-嘴部一致性分数。

15.根据权利要求14所述的系统，其中，所述一个或多个处理器还被配置为至少部分地基于与所述文本序列的每个给定单词相对应的生成的单词级语音-嘴部一致性分数来生成总分数。

16.根据权利要求12至15中任一项所述的系统，其中，所述一个或多个处理器还被配置为基于所述合成音频剪辑的长度与所述视频剪辑的长度的比较来生成持续时间分数。

17.根据权利要求12至16中任一项所述的系统，其中，所述一个或多个处理器还被配置为：

处理所述视频剪辑以从所述视频剪辑中可见的说话者识别一个或多个感兴趣的嘴部形状的集合；以及

对于所述一个或多个感兴趣的嘴部形状的集合中的每个给定的感兴趣的嘴部形状，将给定的感兴趣的嘴部形状与所述多个视频帧中的一个或多个视频帧相关联。

18.根据权利要求12至17中任一项所述的系统，其中，所述视频剪辑还包括原始音频数据，并且其中，所述一个或多个处理器还被配置为：

处理所述原始音频数据以识别记录在所述原始音频数据中的由说话者说出的一个或多个单词或音素；

基于识别的一个或多个单词或音素生成一个或多个感兴趣的嘴部形状的集合；以及

19.根据权利要求12至18中任一项所述的系统，其中，所述一个或多个处理器还被配置为：

处理所述视频剪辑的转录以识别一个或多个单词或音素；

20.根据权利要求12至19中任一项所述的系统，其中，所述一个或多个处理器还被配置为：

处理所述合成音频剪辑以识别在所述合成音频剪辑的合成语音中说出的一个或多个单词或音素；

21.根据权利要求12至20中任一项所述的系统，其中，所述一个或多个处理器还被配置为：

处理所述文本序列以识别一个或多个单词或音素；

22.根据权利要求13或权利要求15中任一项所述的系统，其中，所述一个或多个处理器还被配置为：

基于所述总分数满足预定标准来选择所述合成音频剪辑；

将所述合成音频剪辑与所述视频剪辑组合以生成修改的视频；以及

输出修改的视频。

23.一种包括指令的非暂时性计算机可读介质，所述指令在被执行时使得一个或多个处理器执行根据权利要求1至11中任一项所述的操作。