CN108780643A

CN108780643A - 自动配音方法和装置

Info

Publication number: CN108780643A
Application number: CN201680082098.7A
Authority: CN
Inventors: H·加布里耶尔斯基; 栾剑; 李大鹏
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-11-21
Filing date: 2016-11-21
Publication date: 2018-11-09
Anticipated expiration: 2036-11-21
Also published as: WO2018090356A1; US11514885B2; CN108780643B; EP3542360A4; US11887578B2; US20230076258A1; EP3542360A1; US20200058289A1

Abstract

公开了一种自动配音方法。该方法包括：从媒体内容的音频部分提取一声音的语音(504)；为所提取的所述声音的语音获得声纹模型(506)；通过使用所述声纹模型来处理所提取的语音以生成替代语音(508)；以及在所述媒体内容的所述音频部分中用所生成的替代语音来替换所提取的所述声音的语音(510)。

Description

自动配音方法和装置

背景技术

当前在各种类型的媒体中出现了巨量的媒体内容。例如，DVD或蓝光盘中保存的电影可以在特定的国家发行，内容提供商通过互联网提供巨量的视频/音频内容。为了在观看/聆听视频/音频内容时得到更好的体验，音频配音有时候是用户所希望的。

为了对于特定的媒体内容提供各种版本的音频，配音演员被雇佣来朗读不同版本的台词。这种传统的配音过程成本十分高并且非常耗时，因此只能适用于具有高预算的一些媒体内容，并且不可能为当今快速更新的大部分媒体内容提供配音。

发明内容

提供以下的发明内容是为了简单地介绍一些概念，在后面的详细说明部分中将做进一步的描述。发明内容不是为了标识要求保护主题的关键特征或必要特征，也不是为了限定要求保护主题的范围。

根据说明书描述的主题的一个实施例，一种自动配音方法包括：从媒体内容的音频部分提取一声音的语音；为所提取的所述声音的语音获得声纹模型；通过使用所述声纹模型来处理所提取的语音以生成替代语音；并且在所述媒体内容的所述音频部分中用所生成的替代语音来替换所提取的所述声音的语音。

根据该主题的一个实施例，一种自动配音装置包括：语音提取模块，配置为从媒体内容的音频部分提取一声音的语音；声纹模型获得模块，配置为针对所提取的所述声音的语音获得声纹模型；以及语音处理模块，配置为通过使用所述声纹模型来处理所提取的语音以生成替代语音，并且在所述媒体内容的所述音频部分中用所生成的替代语音来替换所提取的所述声音的语音。

根据该主题的一个实施例，一种计算机系统包括一个或多个处理器以及存储有计算机可执行指令的存储器，所述指令当被执行时使得所述一个或多个处理器：从媒体内容的音频部分提取一声音的语音；为所提取的所述声音的语音获得声纹模型；通过使用所述声纹模型来处理所提取的语音以生成替代语音；并且在所述媒体内容的所述音频部分中用所生成的替代语音来替换所提取的所述声音的语音。

根据该主题的一个实施例，一种非临时性计算机可读介质具有在其上的指令，所述指令包括：用于从媒体内容的音频部分提取一声音的语音的代码；用于为所提取的所述声音的语音获得声纹模型的代码；用于通过使用所述声纹模型来处理所提取的语音以生成替代语音的代码；以及用于在所述媒体内容的所述音频部分中用所生成的替代语音来替换所提取的所述声音的语音的代码。

附图说明

通过下面结合附图阐述的详细描述，该主题的各个方面、特征和优点将变得更加明显，其中，在不同的附图中使用相同的参考标号表示相似或相同的元素。

图1示出了可以实现本文所描述主题的实施例的示例性环境的框图；

图1A到1C示出了根据该主题的实施例的其中存储了预定义的声纹模型的示例性数据库；

图2示出了根据该主题的实施例的用于为媒体内容进行自动配音的装置的框图；

图3示出了根据该主题的实施例的用于为媒体内容进行自动配音的装置的框图；

图4示出了根据该主题的实施例的用于环绕立体声系统的参考扬声器配置的示意图；

图5示出了根据该主题的实施例的用于为媒体内容进行自动配音的过程的流程图；

图6示出了根据该主题的实施例的用于为媒体内容进行自动配音的装置的框图；以及

图7示出了根据该主题的实施例的用于为媒体内容进行自动配音的计算机系统的框图。

具体实施方式

现在将参考示例实施例讨论本文描述的主题。应该理解，讨论这些实施例只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题，而不是对本主题的范围加以任何限制。

如本文中使用的，术语“包括”及其变型表示开放的术语，含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实现”。术语“另一个实施例”表示“至少一个其他实施例”。术语“一”或“一个”表示“至少一个”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义，无论是明确的还是隐含的。除非上下文中明确地指明，否则一个术语的定义在整个说明书中是一致的。

图1示出了本文所描述主题的实施例能得以实现的示例性环境10。应该理解，描述环境10的结构和功能只是为了举例说明，而不是对本文所描述主题的范围加以任何限制。本文所描述主题能够以不同的结构或功能来实施。

所示的示例性环境10为媒体播放器10，其可以用于播放视频或音频内容。媒体播放器10可以实现在客户端设备、网站、DVD播放器等中。客户端设备可以是移动电话、个人数字助理(PDA)、笔记本电脑、台式计算机、平板电脑等。网站可以是视频/音频内容提供网站，在该网站上提供该媒体播放器。或者，媒体播放器可以由视频/音频内容提供者提供，并且可以安装在客户端设备上。媒体播放器10还可以是视频游戏应用，该视频游戏应用可以实现在客户端设备、游戏提供网站、游戏机等上。应该理解，本主题不限于媒体播放器的任何特定形式，也不限于媒体播放器。

媒体播放器10可以包括用于与用户交互的用户界面。例如，媒体播放器10可以包括用于显示所播放视频的显示窗口，可以包括用于调整所播放音频的音量的音量条，以及可以包括各种菜单项。为了简单，在图1中只示出了与配音有关的菜单项，而在图1中没有示出显示窗口、音量条以及其他可能的部件。

如图1所示，在媒体播放器10的界面中提供了名为“配音”的菜单项。在一个示例性的实现中，当用户要播放诸如电影、视频片段、音乐、游戏等的媒体内容时，用户能够使用在媒体播放器10中提供的配音功能。

如图1所示，该配音项可以扩展出名为“声音”、“翻译”、“存储”的项。“声音”项可以进一步扩展出名为“定制”、“原声音”的项。“定制”项可以进一步扩展出名为“创建声音”、“选择声音”的项。“翻译”项可以进一步扩展出名为“不翻译”、“译成语音1”、“译成语音2”……“译成语音n”的项，这里语音1、2……n指的是与用于制作媒体内容的音频部分的语言不同的语言。例如，原语言可以是英语，语言1、2……n可以是汉语、法语、日语等。虽然图1中示出了一定数量的菜单项，但是应该理解在媒体播放器中可以有更多或更少的菜单项，菜单项的名称可以是不同的，本主题不限于具体的菜单项数量或具体的菜单项名称。

用户可以在媒体播放器10上播放媒体内容。例如，用户可以在媒体播放器上观看电影或玩视频游戏。

在一个实现场景中，允许用户为电影或游戏中的诸如主角的一角色定制声音。当菜单项“定制”被选择或点击时，可以创建或选择一定制的声音来替代该角色的原声音。例如，当菜单项“创建声音”被点击时，可以出现一个对话框来为该用户创建声纹模型。例如，可以提示该用户朗读对话框中提供的一定数目的句子，并且诸如麦克风或麦克风阵列的声音传感器可以捕获该用户的语音。可以基于所捕获的该用户的语音来创建该用户的声纹模型。可以使用该用户的声纹模型来生成该用户的声音，使用该生成的声音来替换该角色的原声音。

当菜单项“选择语音”被点击时，可以允许用户从一个或多个预定义的声纹模型中选择声纹。所选择的声纹模型可以用于生成定制的声音，该定制的声音用于替换该角色的原声音。数据库中可以提供多个预定义的声纹模型。例如，如图1A所示，可以在数据库中提供如上所述的为用户创建的声纹模型。如图1B所述，多个演员(诸如那些著名演员)的声纹模型可以是预先定义的并且提供在数据库中。如图1C所示，不同的气质或情绪的声纹模型可以是预先定义的并且提供在数据库中。应该理解，其他类型的声纹模型可以提供在数据库中，并且不同类型的声纹模型可以提供在单个数据库中或者分别提供在分开的数据库中。

在一个实现场景中，当菜单项“原声音”被选择或点击时，不使用定制的声音来执行配音，换言之，使用原音频中的角色自己的声音来进行配音。

在一个实现场景中，当菜单项“不翻译”被选择时，在配音过程中不进行翻译。例如，当“创建声音”项和“不翻译”项都被选择时，角色的原语言的原声音可以被用户的原语言的声音替换。当“选择声音”项和“译成语言1”项被选择时，角色的原语言的原声音可以被不同于原语言的语言1的所选择的声音替换。当“原声音”项和“译成语言n”项被选择时，角色的原语言的原声音可以被不同于原语言的语言n的该角色自己的声音替换。

在一个实现中，当菜单项“存储”被选择时，该媒体内容的配音得到的音频部分可以被存储，因此当该媒体内容在以后被重复播放时，可以直接播放所存储的音频。

应该理解，不需要在一个设备或应用中实现菜单项所示出的所有功能，并且这些功能的任何部分的适当组合可以实现在设备或应用中。例如，定制功能可以单独实现在设备或应用中以用于提供定制的配音功能。又例如，利用演员自己的声音进行的翻译功能可以单独地实现来提供自动的跨语言配音。

图2示出了根据本主题实施例的用于对媒体内容进行自动配音的装置或应用。

配音装置20可以包括音频处理模块220，音频处理模块220处理媒体内容的音频部分以获得该媒体内容的经配音音频。在一个实现中，音频处理模块220可以从媒体内容的音频部分中提取一声音的语音，获得要用于所提取的该声音的语音的声纹模型，通过使用该声纹模型来处理所提取的语音以生成替代语音，并且在该媒体内容的该音频部分中用所生成的替代语音来替换所提取的该声音的语音。

配音装置20还可以包括视觉处理模块240、文本处理模块260和声音位置跟踪模块280。视觉处理模块240可以进行视觉分析，诸如说话者识别、场景转换检测等。文本处理模块260可以执行文本分析，诸如文本格式分析、文本内容分析等。声音位置跟踪模块280可以跟踪音频的声音位置。从视觉处理模块240、文本处理模块260和声音位置跟踪模块280获得的任何数据可以由音频处理模块220用来增强配音过程。应该理解，不需要在单个装置中实现所有的模块，模块的合理组合对于本领域技术人员来说是明显的。

图3示出了根据本主题实施例的用于对媒体内容进行自动配音的装置详细结构。

媒体内容的例子可以包括电影、电视节目、视频片段、视频游戏、或任何其他记录的媒体内容。媒体内容可以是数字格式的，并且通常包括音频部分、视觉部分和元数据。元数据可以提供音频部分和视觉部分的位置信息从而使这两者同步。元数据还可以包括编解码信息，诸如媒体内容的编码格式和相关的编码信息。元数据还可以提供媒体内容的一般描述信息。例如，元数据可以包括诸如标题、隐藏字幕、字幕、歌词、抄本、演员信息、评级信息、评论等的信息。

媒体内容通常是以标准格式编码的，标准格式诸如是运动图像专家组(MPEG)、音频视频交错(AVI)、高级流格式(ASF)、Windows Media Video(WMV)、H.26x等。媒体内容中编码的音频可以支持单声道和/或多声道。多声道音频可以提供环绕立体声，并且多声道音频格式的例子包括杜比实验室编解码(DOLBY LABORATORIES codecs)，诸如杜比数字(DolbyDigital，统称为AC-3)、杜比数字EX(Dolby Digital EX)、杜比数字环绕EX(Dolby DigitalSurround EX)、杜比数字现场(Dolby Digital Live)、杜比数字加(Dolby Digital Plus)以及杜比真高清(Dolby TrueHD)。多声道音频格式的其他例子包括DTS(致力于声音(DEDICATED TO SOUND)，其之前称为数字影院系统(DIGITAL THEATER SYSTEMS,INC))编解码，诸如有DTS清晰音效(DTS Coherent Acoustics，被消费者简单地统称为DTS)、DTS-ES、DTS 96/24、DTS-HD高清音频(High Resolution Audio)、以及DTS-HD大师音频(MasterAudio)。多声道音频格式的其他例子包括视窗专业媒体音频(Windows Media AudioProfessional)等。一些音频格式最近包括音频对象(audio object)的概念，音频对象可以被认为是音频信道的特殊例子。在一些情况中，音频对象提供额外的元数据，诸如音频对象的动态位置。例如，DTS:X和Dolby Atmos音频格式提供多声道音频和额外的音频对象。解码模块310可以对媒体内容的比特流进行解码以获得音频部分、视觉部分和元数据，也可以将其称为音频信号、视觉信号和元数据。应该理解，解码模块310输出的音频信号可以是单独解码的音频，其伴有可选的额外的元数据，诸如信道位置数据等，且解码模块310输出的音频信号也可以是原始编码的音频，其可以进一步被解码以获得解码的音频和可选的元数据。为了简单，我们假设，解码模块310可以一起执行视频解码和音频解码。

在语音分割模块3204处可以处理音频信号以从该音频信号获得语音。

在一个实现中，在语音分割模块3204处，可以使用语音活动检测(SAD)过程来检测音频信号。对于单声道音频，可以对该单声道的音频信号进行SAD处理以识别出人的语音。对于环绕立体音频，可以对多个声道中每个声道的音频信号进行SAD处理以识别出人的语音。有时所有的语音包含在环绕立体音频的一个声道(诸如中央声道)中，而其他声音包含在其他的声道中。如果可以从元数据中获得这个信息，则可以不处理其他声道而从这个声道中直接获得干净的语音。

在一个实现中，媒体内容可以包括不同语言的不同音频版本。在这种情况下，可以利用不同的音频版本来获得从背景声中分离出的更干净的语音。

例如，具有第一语言(诸如英语)的音频版本和第二语言(诸如法语)的音频版本。通常两个音频版本的背景音是基本相同的，而两个版本的语音是不同的且实际上它们在时域和/或频域中是几乎不相互重叠的。通过利用这个现象，这两个音频版本之间的相减操作可以有效地去除背景音。例如，如果英语语音是期望的，则对于一音频声道或声轨，可以从英语音频版本减去法语音频版本。通过这种方式，背景音可以被去除，并且法语语音可以是反转的，然后通过忽略该反转的信号可以获得英语语音。另一方面，通过从原音轨减去所检测的语音，可以获得背景音。

例如，可以将不同语言的不同音频版本进行平均来获得加强的分割结果。可以对不同语言版本的多个(N个)音轨进行平均以得到公共背景噪声(common backgroundnoise)，其中每个版本(包括相应语言的语音)在该平均音轨中保留1/N的能量。N的一个例子可以是3。可以从包含期望语音的目标音轨中减去该平均音轨。第一结果是来自目标音轨的具有(N-1)/N能量的语音和来自不同语言的其他N-1个音轨的N-1个具有1/N能量的反转的其他语音。然后可以分割出期望的语音。另一方面，可以对上述第一结果进行处理以得到“噪声剖面(noise profile)”。例如，现有的工具Audacity提供了一个功能获得噪声剖面，其可以用于得到第一结果的噪声剖面。然后，可以将第一结果的噪声剖面应用于目标音轨以去除语音并且获得具有更好质量的背景音。

在一个实现中，可以利用环绕立体音频的不同声道来提供增强的语音分割。以两个音频声道为例，通常两个声道可以包括相同的语音和不同的背景音。通过将第一声道的音频信号从第二声道的音频信号减去，在所得到的音频信号中可以基本上去除语音，而基本上保留第二声道的背景音，并且第一声道的背景音基本上被反转。通过这种方式，通过去除反转的信号，可以获得第二声道的背景音。通过去除正的信号并且反转该反转的信号，可以获得第一声道的背景音。另一方面，通过从音频信号中减去所分离出的背景信号可以获得语音。这种实现可以针对中央摇控(center-paned)的语音获得干净的分割，其中中央遥控的语音意味着语音位于两个声道之间的中央。

该摇控数据或位置数据可以预先编码在音频部分中，或者可以包含在元数据中。如果位置数据指示语音不是位于两个声道之间的中央的，则该位置数据可以用来调整音轨以获得位于中央的语音。例如，对于具有变化位置数据的音轨，可以相对于中央位置反转位置数据，即，如果中央位置值是0，则将正的位置值变成负值，且将负的位置值变成正值。通过使用反转的位置数据来调整音轨以获得镜像的音轨，然后将该音轨和该镜像的音轨混合，则所得到的音轨具有位于中央的语音。然后，可以通过上述相减的方法来利用所得到的音轨分割语音和背景音。

在一个实现中，可以在声音位置跟踪模块380处为环绕立体音频计算音频位置数据。使用麦克风阵列的方向感测是已知的技术，其中，可以使用麦克风的阵列来确定一个声音的方向。典型的环绕立体音频格式(诸如杜比和DTS)对于参考实现方式均具有针对每个声道的扬声器的预定义位置(角度、高度等)、用于反射的墙的位置、以及对于听众的主甜蜜点。图4示出了5.1音频的这种参考实现的例子40。在参考实现40中，相对于显示屏450布置扬声器410和低音箱420，并且在甜蜜点440附近的听众具有最好的音效体验。以上述格式编码的诸如电影的媒体内容中具有据此编码的音频，该音频将在准确的时间从那些扬声器410和低音箱420中被播出。利用环绕立体音频格式的预配置的参考实现以及扬声器阵列的方向感测，可以配置虚拟麦克风阵列430来模拟从该参考实现中的虚拟扬声器而来的声音的接收，从而通过使用麦克风阵列的方向检测算法(诸如波束成形算法)计算语音的位置数据。应该理解，低音箱420也是扬声器，因此扬声器410和低音箱420可以统称为扬声器。通常不会从低音箱420输出语音，因此虚拟麦克风阵列430可以配置成模拟仅来自虚拟扬声器410的声音的接收。或者，虚拟麦克风阵列430还可以配置成模拟来自包括虚拟扬声器410和虚拟低音箱420的所有扬声器的声音的接收。

对于特定的音频格式，诸如Dolby 5.1、Dolby 7.1、Dolby Atmos 5.1.4、DolbyAtmos 7.1.4、DTS Coherent Acoustics(DCA)w/5.1等，相应的参考扬声器布置位置是已知的。可以在甜蜜点440处或附近预先确定虚拟麦克风阵列430中的每个虚拟麦克风的位置。图4中所示的虚拟麦克风阵列包括四个麦克风，应该理解，可以有更多或更少的麦克风。确定了每个虚拟扬声器和每个虚拟麦克风的位置之后，可以预先确定每个虚拟扬声器的输出到达每个虚拟麦克风的延迟、反射等参数。因此基于延迟、反射等参数，对于从一个虚拟扬声器到一个虚拟麦克风的每个路径，可以确定一个变换或滤波器。然后，通过使用一个虚拟麦克风和一个虚拟扬声器之间路径对应的预定滤波器来变换该虚拟扬声器的输出音频信号，可以确定该虚拟麦克风从该虚拟扬声器接收的信号。然后，由任何一个虚拟麦克风从多个虚拟扬声器接收的信号可以被混合以形成由该虚拟麦克风接收的最终声音信号。最后，可以使用波束成形算法来处理由多个虚拟麦克风接收的最终声音信号，以从背景音分离出更干净的语音。在各种实现中，波束成形算法可以使用提供的位置数据来改进语音的检测，和/或作为波束成形算法(例如，使用自适应波束成形)的一部分来确定位置数据。在一个实现中，所确定的或提供的位置数据可以保留在元数据中，以在重新生成音轨时使用。在各种实现中，基于演员将位于先前位置处或附近这样一个前提，可以提供先前的位置数据作为后面的波束成形算法的输入。应该理解，虽然结合声音位置跟踪模块380进行了描述，但是也可以在语音分割模块3204中使用该基于预定义的参考扬声器配置和虚拟麦克风阵列来从背景音分割干净语音的过程。

在语音分组模块3206处，可以根据不同的讲话者或其声音来对语音进行分组。

在一个实现中，可以使用演员信息来帮助实现语音的分组，该演员信息可以从元数据获得。可以在数据库中存储一些演员(诸如著名演员)的声音特性数据。如果在演员信息和数据库之间具有匹配，则可以从该数据库获得演员的声音特性数据。与该演员的声音特性匹配的语音可以被分类为关联于该演员或其声音。例如，一个经分组的语音可以被给予讲话者ID或声音ID。

在一个实现中，即使在缺少讲话者声音特性的已有知识的情况下，可以使用声音聚类过程将语音聚类成关联于不同的讲话者或其声音。声音聚类过程可以使用各种参数，诸如频谱、音高、音调等。可以采用各种声音聚类技术来进行声音聚类。

在各种实现中，可以利用辅助信息来增强声音分组。可以基于以下中的至少一个来将所检测的语音分组成关联于各个声音：对语音的声音分析、对语音的音频位置的跟踪、视觉场景转换的检测、讲话者的视觉识别、字幕、隐藏字幕。

在一个实现中，可以利用文本信息来增强声音分组。在一些情况中，元数据中包含的字幕或隐藏字幕(CC)可以指示正在讲一行台词的讲话者的标识，在文本处理模块360处可以获得与台词相关联的讲话者的该标识。语音分组模块3206可以基于该标识信息来识别与所检测的语音相关联的讲话者，或者可以给出用于识别该讲话者的高概率。

字幕或隐藏字幕的文本格式对于画中音和画外音可以是不同的。例如，当讲话者在画面中时，字幕可以是正常字体，且当讲话者在画面外时，字幕可以是斜体的。在单个场景中，最有可能的是，演员将在画面中或在画面外讲话，而很少在从画面外向画面中转换时讲话。因此，即使在字幕中不存在讲话者改变的标识的情况下，从第一文本格式(诸如斜体)向第二文本格式(诸如非斜体)的转换或从第二文本格式(诸如非斜体)向第一文本格式(诸如斜体)的转换，可以指示讲话者变化的高概率。文本处理模块360可以检测文本格式之间的转换，并且语音分组模块3206可以利用所检测的转换来给出关于讲话者改变的准确估计，从而增强语音分组。

在一个实现中，可以利用视觉信息来增强语音分组。例如，在视觉处理模块340处，可以从视觉信号检测场景变化。语音分组模块3206通常可以基于所检测的场景变化来确定讲话者改变的更高概率。又例如，在视觉处理模块340处，可以通过使用面部识别过程来处理视觉信号。所识别的面部可以准确地识别讲话者，且语音分组模块3206可以利用所识别的讲话者ID来增强语音分组。另一方面，所识别的讲话者在画面上的位置也可以为声音位置跟踪模块380提供辅助信息来改进声音位置跟踪。

在一个实现中，可以使用上述声音位置数据来增强声音分组。当位置数据平滑地改变或保持不变时，这指示了正在讲话的人是同一个人的更高概率。类似地，当位置数据跳跃或突然地变化时，尤其是当这是物理上不可能的转变时，这趋向于指示讲话的人发生改变的高概率。语音分组模块3206可以利用从位置数据获得的上述信息来给出讲话者改变的适当概率。

上述类型的辅助信息可以由语音分组模块3206联合地使用来确定讲话者改变的概率。

在一个实现中，语音分组模块3206可以联合地使用所检测的场景变化和文本格式变化来确定讲话者改变的概率。有文本格式变化而无场景变化可以指示讲话者改变的更高概率，而同时有文本格式变化和场景变化或在合理地时间段内出现文本格式变化和场景变化，可以不指示讲话者改变的更高概率，因此语音分组模块3206可以例如保持讲话者改变的概率不变。

在一个实现中，语音分组模块3206可以联合地使用所检测的场景变化和声音位置跳跃来确定讲话者改变的概率。有声音位置跳跃而无场景变化可以指示讲话者改变的更高概率，而同时有声音位置跳跃和场景变化或在合理地时间段内出现声音位置跳跃和场景变化，可以不指示讲话者改变的更高概率。

在语音到文本(STT)模块3208处，可以将语音变换成文本。STT模块还可以称为语音识别(SR)模块，其可以将语音识别成文本。STT模块可以用于将语音变换成文本。例如，STT模块可以使用词语概率树来将语音转换成文本。可以在STT模块3208处采用各种SR技术。此外，在STT模块处可以从语音中检测语音的特性，诸如重音、音调、音速、音量、变音等。

在一个实现中，STT模块3208可以使用从元数据获得的诸如隐藏字幕、字幕、脚本、抄本和歌词的文本信息来增强STT变换的准确性。例如，STT模型可以包括声音模型和语言模型，声音模型将声音变换成发音序列，语言模型将发音序列变换成文本。隐藏字幕通常不完全相同于音频中的语音。STT模块3208可以使用隐藏字幕作为文本的初始版本，并且使用语音来核实和更正该文本。具体地，STT模块3208可以将隐藏字幕中的一行台词变换成第一发音序列，并且将相应的语音变换成第二发音序列。如果两个发音序列之间的匹配是完美的或满意的，则这指示了该行台词与该语音相同并且可以用作STT结果。如果两个发音序列是部分地匹配的，则可以保持该行台词中的匹配的部分，并且可以通过对相应的语音进行SR来矫正该行台词中的不匹配的部分。通过这种方式，可以获得增强的STT结果。

又例如，STT模块3208可以使用隐藏字幕来增强STT变换。对于可能具有相似发音因素的两个或更多个词，候选词的概率可以是接近相等的。STT模块3208可以确定候选词中的哪个词与隐藏字幕具有相似的含义，并且为该词的概率给予更高的权重。通过这种方式，更有可能将正确的词确定为STT结果。除了隐藏字幕外，还可以使用字幕、脚本、抄本和歌词来增强STT变换。

在机器翻译(MT)模块3210处，将由STT模块3208生成的第一语言的文本自动翻译成第二语言的文本。

MT模块3210可以使用语音的特性、媒体内容的种类信息和场景知识中的至少之一来改进翻译。

可以结合种类信息来理解音频发生的场景。可以结合文本实体(即，含义)分析和场景知识来使用重音和音调，以改进翻译。例如，到日语的翻译可以依赖于讲话者和听者的相关的社会阶层。英语没有这个概念。如果英语语音的重音和语调结合实体分析可以推断出讲话者在生气但讲话是清柔的以便不被听到，则可以暗示贬义的评论，可以将其以不同于逐字翻译的方式翻译。如果英语语音的重音和语调结合实体分析可以推断出第一讲话者是傲慢的并且正在向第二讲话者讲话，而第二讲话者谦卑地讲话，则日语翻译可以为第一讲话者分配更高的社会阶层，和/或为谦卑的讲话者分配更低的社会阶层，从而导致为该翻译选择不同的词。

在声纹创建模块3212处，可以基于一声音的语音来为该声音创建声纹模型。应该理解，虽然在图3中将STT模块3208示出为与声纹创建模块3212分开的模块，但是声纹创建模块3212可以包含其自己的STT模块且不需要接收来自STT模块3208的输出。并且STT模块3208、翻译模块3210和TTS模块3214可以构成语音到语音翻译模块。

在声纹创建模块3212处，可以使用讲话者的所提取和分组的语音的至少一部分作为训练数据来训练该讲话者的声纹模型。在模型3212处可以使用各种声纹创建模型或过程来创建声纹模型。例如，可以利用种子声纹模型和讲话者的语音来训练该讲话者的声纹模型，该种子声纹模型是基于大量的训练数据训练出来的。通过利用种子声纹模型，只需要有限数量的采样语音或语句来训练讲话者的声纹模型。讲话者的声纹模型可以包括与该讲话者的声音一致的音素，因此可以代表该讲话者的声音，而与语言无关。又例如，声纹创建模块3212可以使用自动的语音到文本过程来基于语音分配概率化的音素，从而生成声纹模型。

如果STT结果得到改进，那么可以增强声纹创建。由于如上结合STT模块3208所述的通过使用隐藏字幕、字幕、脚本、抄本、歌词等中的至少一个改进了STT，相应地可以增强声纹创建。

在文本到语音(TTS)模块3214处，可以基于由声纹创建模块3212输出的声纹模型对所翻译的第二语言的文本进行TTS变换，以生成原演员声音的第二语言的语音。此外，在TTS过程中可以应用诸如重音、音调、音速、音量、变音等的特性来生成第二语言的语音。如上所述，诸如重音、音调、音速、音量、变音等的特性可以是在STT处理过程中从语音检测出来的，或者可以是从元数据获得的。

在合并模块3216处，可以使用第二语言的替代语音来替换第一语言的相应语音，以获得配音音频。回到语音分割模块3204，在语音分割模块3204将音频中的语音静音或抑制，并且在合并模块3216，将替代语音与背景音混合以生成配音音频。已经结合语音分割模块3204描述了若干种用于消除语音的实现方式。在一个实现中，可以基于所创建的声纹模型和可选的该音频的上述位置数据来通过TTS将在STT模块3208处输出的文本变换成语音，以重新生成第一语言的语音。可以使用该重新生成的语音来静音或抑制该音频中的语音。例如，可以如上所述利用该重新生成的语音得到噪声剖面，可以将该噪声剖面应用于音轨以去除语音且获得具有更好质量的背景音。

在图3所示的实施例中，声纹创建模块3212可以基于演员自己的声音来生成该演员或该声音的声纹模型。如上面参考图1所描述的，当选择不同的配音功能时，可以不同的方式获得声纹模型。在一个实现中，通过使用语音捕获装置(诸如麦克风或麦克风阵列)可以采样用户的预定义的语音，可以基于该用户的所采样的语音来创建声纹模型。该用户的声纹模型可以包括与该用户的声音一致的音素，因此可以反映该用户的声音，而与语言无关。

在一个实现中，可以从声纹模型的预定集合中选择声纹模型。例如，如图1A所示，可以在数据库中存储用户的或者用户喜欢的演员的声纹模型，并且该用户可以从数据库选择声纹模型以用于上述定制配音。

在一个实现中，可以基于以下中的至少一个来从数据库自动选择声纹模型：一声音的所提取语音的特性、媒体内容的讲话者信息、媒体内容的种类信息、该声音的所提取语音的至少一部分的内容。例如，可以使用所提取的语音的特性来从数据库选择最匹配的声纹模型。一个简单的例子可以是，如果所检测的语音在一个声音音调(例如低，低音)范围内，则可以选择相同范围内的男性声纹模型。又例如，可以使用演员信息来从数据库选择准确的声纹模型(如果可用的话)，该演员信息可以包含在元数据中。在这个例子中，可以在如图1B所示的数据库中提供著名演员的声纹模型。又例如，可以使用种类信息来从数据库选择声纹模型，该种类信息可以包含在元数据中。如果媒体内容是体育视频，则可以从数据库中选择体育广播员的声纹模型。如果媒体内容是滑稽视频短片，则可以从数据库中选择喜剧演员的声纹模型。又例如，可以使用所提取语音的内容来从数据库选择声纹模型。可以使用一语音的内容来选择已知讲过该台词或该内容的声纹模型。例如，如果台词是“Theforce will be with you…always(军队将永远跟随您)”，且声纹模型数据库包括诸如Arnold Schwarzenegger(阿诺德.施瓦辛格)、Alec Guinness(亚利克·基尼斯)和Harrison Ford(哈里森·福特)的演员的声纹模型，则该语音的文本可以用于确定，诸如Alec Guinness的第一演员在一个十分流行的电影中讲过该台词，因此第一演员的声纹模型是很好的选择，诸如Harrison Ford的第二演员在一个非常流行的电影中讲过类似的台词，因此第二演员的声纹模型是好的选择，但是没有记录关于诸如Arnold的第三演员讲过该台词，因此第三演员的声纹模型是坏选择。应该理解，上述因素可以单独地使用，也可以利用上述因素的任意组合来确定从数据库的声纹模型的选择。

在图3所示的实施例中，MT模块3210用于从第一语言到第二语言的自动翻译。如上结合图1所描述的，翻译不是永远都需要的，尤其是在用户定制配音的情况下。在一些实现中，可以省略MT模块3210。在一些实现中，可以基于不同的配音需求来执行或忽略MT模块3210处的翻译，不同的配音需求可以是如图1所示由用户配置的。

图5示出了根据该主题的实施例的用于为媒体内容进行自动配音的过程。

从框502开始，在框504处，可以从媒体内容的音频部分提取一声音的语音。在框506处，可以获得要用于所提取的该声音的语音的声纹模型。在框508处，可以通过使用所获得的声纹模型来处理所提取的语音以生成替代语音。在框510处，可以在该媒体内容的音频部分中用所生成的替代语音来替换所提取的该声音的语音，从而自动地生成用于该媒体内容的配音音频。应该理解，可以在播放媒体内容的同时实时地进行该自动配音过程。还可以在例如内容提供者处使用该自动配音过程来高效地为大量的媒体内容进行配音。

可以不同的方式获得声纹模型。在一个实施例中，可以使用语音捕获设备来采样用户的语音，并且可以基于用户的所采样的语音来创建声纹模型。在另一个实施例中，可以从声纹模型的预定集合中选择该声纹模型。可以由用户从声纹模型的预定集合中选择该声纹模型。可以基于以下中的至少之一来从声纹模型的预定集合中选择该声纹模型：该声音的特性、该媒体内容的讲话者信息、该媒体内容的种类信息、该声音的所提取的语音的至少一部分的内容。在另一个实施例中，可以基于该声音的所提取的语音的至少一部分来创建该声纹模型。为了增强该声纹模型的创建，除了该声音的所提取的语音外，还可以进一步基于该媒体内容的隐藏字幕、字幕、脚本、抄本和歌词中的至少一者来创建该声音的声纹模型。

在一个实施例中，在所提取的语音的处理中，可以使用该声纹模型将第一语言的所提取的该声音的语音翻译成第二语言的替代语音。可以进一步使用所提取的该声音的语音的特性来生成所翻译的替代语音，其中，该特性包括该语音的重音、音调、音速、音量和变音中的至少一者，该特性可以包含在元数据中，或者可以是从该语音检测出的。

可以通过语音到文本变换、文本到文本翻译和文本到语音变换来进行从第一语言的语音到第二语言的替代语音的翻译。可以基于该媒体内容的隐藏字幕、字幕、脚本、抄本和歌词中的至少一者来对所提取的该声音的语音进行语音到文本变换。可以基于该语音的特性、该媒体内容的种类信息和场景知识中的至少一者来对所变换的文本进行从第一语言到第二语言的文本到文本翻译。可以通过基于该声纹模型和所提取的语音的特性对所翻译的文本进行文本到语音变换。

在一个实施例中，在语音的提取中，可以基于不同语言的多个音频版本从媒体内容的音频部分中检测语音。还可以基于扬声器位置的预定义参考配置和虚拟麦克风阵列从媒体内容的音频部分中检测语音。还可以基于从音频部分获得的多个音频对象和位置数据从媒体内容的音频部分中检测语音。可以在声音位置跟踪模块中计算位置数据。可以基于用于音频部分的预定义扬声器位置和虚拟麦克风阵列来确定音频部分中的语音的位置数据。可以将位置数据编码在一些音频格式的音频流中，因此通过解码音频流可以获得位置数据。在语音的提取中，可以基于以下中的至少一者将该语音分组为关联于该声音：该语音的声音特性、音频位置数据、视觉场景转换的检测、讲话者的视觉识别、字幕以及隐藏字幕。

在一个实施例中，可以通过从音频部分中静音该声音的语音并且在该音频部分中添加替代语音以替换被静音的语音，来进行语音的替换。换言之，可以将替代语音与已经静音了原语音的音频混合。可以通过使用来自音频部分的所提取的语音来静音该语音，例如，可以从音频中抑制所提取的语音。可以通过基于位置数据使用从音频部分获得的多个音频对象来静音该语音，例如，可以通过从具有位于中央的语音的两个音频声道中的一个音频声道减去另一个音频声道来抑制该语音。可以基于该声音的声纹模型和位置数据重新生成该声音的语音，并且基于该重新生成的语音静音该语音。

图6示出了根据本主题实施例的用于为媒体内容执行自动配音的装置60。装置60可以包括语音提取模块610、语音处理模块620和声纹模型获得模块630。

语音提取模块610可以配置为从媒体内容的音频部分提取一声音的语音。声纹模型获得模块630可以配置为为所提取的该声音的语音获得声纹模型。语音处理模块620可以配置为通过使用该声纹模型来处理所提取的语音以生成替代语音，以及在该媒体内容的音频部分中用所生成的替代语音来替换所提取的该声音的语音。

在示例性实现中，语音提取模块610可以包括图3所示的语音分割模块3204和语音分组模块3206，语音处理模块620可以包括STT模块3208、TTS模块3214、合并模块3216，并且可选地可以包括MT模块3210，声纹模型获得模块630可以包括声纹创建模块3212。应该理解，结合图2、3和6描述的模块和相应的功能是为了举例说明的目的而不是限制的目的，一个特定的功能可以在不同的模块中实现，例如，对语音的静音可以在语音分割模块3204中执行，而在一些实现中也可以在合并模块中执行。

应该理解，语音提取模块610、语音处理模块620和声纹模型获得模块630可以执行上面结合图2-5描述的在本主题的各种实施例中的各种操作或功能。

图2、3和6中所示的各个模块可以通过硬件、软件或其组合的各种形式来实现。在一个实施例中，这些模块可以通过一个或多个硬件逻辑组件来分别实现或作为整体实现。例如但不限于，可以使用的硬件逻辑组件的示例类型包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)等。在另一个实施例中，这些模块可以通过一个或多个软件模块实现，该软件模块可以由通用中央处理单元(CPU)、图形处理单元(GPU)、数字信号处理器(DSP)等执行。

图7示出了根据本主题实施例的用于执行自动配音的计算机系统70。根据一个实施例，计算机系统70可以包括一个或多个处理器710，处理器710执行在计算机可读存储介质(即，存储器)720中存储或编码的一个或多个计算机可读指令(即，上述以软件形式实现的元素)。

在一个实施例中，在存储器720中存储计算机可执行指令，其当执行时使得一个或多个处理器710：从媒体内容的音频部分提取一声音的语音；为所提取的该声音的语音获得声纹模型；通过使用该声纹模型来处理所提取的语音以生成替代语音；以及在该媒体内容的该音频部分中用所生成的替代语音来替换所提取的该声音的语音。

应该理解，在存储器720中存储的计算机可执行指令，其当执行时使得一个或多个处理器710进行本主题的各个实施例中以上结合图1-6描述的各种操作或功能。

根据一个实施例，提供了一种诸如机器可读介质的程序产品。机器可读介质可以具有指令(即，上述以软件形式实现的元素)，该指令当被机器执行时，使得机器执行本主题的各个实施例中以上结合图1-6描述的各种操作或功能。

应该注意，上面描述的技术方案是为了说明而不是限制该主题，并且本领域技术人员能够在不脱离所附权利要求范围的情况下设计出替换的技术方案。在权利要求中，括号中的任何参考符号不应被解释为限制权利要求。词语“包括”不排除权利要求中或说明书中没有列出的元素或步骤的存在。某个元素前的词语“一”或“一个”不排除多个这样的元素的存在。在包含若干单元的系统权利要求中，这些单元中的一些可以通过一个相同的软件和/或硬件实施。词语“第一”、“第二”、“第三”等的使用不表示任何排序。这些词语要被解释为名称。

Claims

1.一种自动配音方法，包括：

从媒体内容的音频部分提取一声音的语音；

为所提取的所述声音的语音获得声纹模型；

通过使用所述声纹模型来处理所提取的语音以生成替代语音；以及

在所述媒体内容的所述音频部分中用所生成的替代语音来替换所提取的所述声音的语音。

2.如权利要求1所述的方法，其中，所述获得声纹模型还包括：

使用语音捕获设备来采样用户的语音，并且基于所述用户的所采样的语音来创建所述声纹模型；或者

从声纹模型的预定集合中选择所述声纹模型；或者

基于所提取的所述声音的语音的至少一部分来创建所述声纹模型。

3.如权利要求2所述的方法，其中，所述基于所提取的所述声音的语音的至少一部分来创建所述声纹模型还包括：

进一步基于所述媒体内容的隐藏字幕、字幕、脚本、抄本和歌词中的至少一者来创建所述声音的所述声纹模型。

4.如权利要求2所述的方法，其中，所述从声纹模型的预定集合中选择所述声纹模型还包括：

基于以下中的至少之一来从所述声纹模型的预定集合中选择所述声纹模型：所述声音的特性、所述媒体内容的讲话者信息、所述媒体内容的种类信息、所提取的所述声音的语音的至少一部分的内容。

5.如权利要求1所述的方法，其中，所述处理所提取的语音还包括：

使用所述声纹模型将第一语言的所提取的所述声音的语音翻译成第二语言的所述替代语音。

6.如权利要求5所述的方法，其中，所述翻译还包括：

进一步使用所提取的所述声音的语音的特性来生成所翻译的替代语音，其中，所述特性包括所述语音的重音、音调、音速、音量和变音中的至少一者。

7.如权利要求6所述的方法，其中，所述翻译还包括：

基于所述媒体内容的隐藏字幕、字幕、脚本、抄本和歌词中的至少一者来对所提取的所述声音的语音进行语音到文本变换；以及/或者

基于所述语音的特性、所述媒体内容的种类信息、场景知识中的至少一者来对所变换的文本进行从所述第一语言到所述第二语言的文本到文本翻译；以及

通过基于所述声纹模型和所提取的语音的所述特性对所翻译的文本进行文本到语音变换，来生成所翻译的替代语音。

8.如权利要求1所述的方法，还包括：

基于用于所述音频部分的预定义的扬声器位置和虚拟麦克风阵列来确定所述音频部分中的语音的位置数据。

9.如权利要求1所述的方法，其中，所述提取语音包括：

基于不同语言的多个音频版本从所述媒体内容的所述音频部分中检测所述语音；或者

基于从所述音频部分获得的多个音频声道和位置数据从所述媒体内容的所述音频部分中检测所述语音；或者

基于预定义的扬声器位置和虚拟麦克风阵列从所述媒体内容的所述音频部分中检测所述语音。

10.如权利要求1所述的方法，其中，所述提取语音包括：

基于以下中的至少一者将所述语音分组为关联于所述声音：所述语音的声音特性、音频位置数据、视觉场景转换的检测、讲话者的视觉识别、字幕以及隐藏字幕。

11.如权利要求1所述的方法，其中，所述替换包括：

从所述音频部分中静音所述声音的所述语音；以及

在所述音频部分中添加所述替代语音以替换所静音的语音。

12.如权利要求1所述的方法，其中，所述静音包括：

通过使用来自所述音频部分的所提取的语音来静音所述声音的所述语音；或者

通过基于位置数据使用从所述音频部分获得的多个音频声道来静音所述声音的所述语音；或者

基于所述声音的所述声纹模型和位置数据重新生成所述声音的语音，并且基于所重新生成的语音静音所述语音。

13.一种自动配音装置，包括：

语音提取模块，配置为从媒体内容的音频部分提取一声音的语音；

声纹模型获得模块，配置为为所提取的所述声音的语音获得声纹模型；以及

语音处理模块，配置为通过使用所述声纹模型来处理所提取的语音以生成替代语音，以及在所述媒体内容的所述音频部分中用所生成的替代语音来替换所提取的所述声音的语音。

14.如权利要求13所述的装置，其中，所述声纹模型获得模块还配置为：

基于用户的语音来创建所述声纹模型，所述用户的语音是使用语音捕获设备采样的；或者

从声纹模型的预定集合中选择所述声纹模型；或者

15.如权利要求14所述的装置，其中，所述声纹模型获得模块还配置为：

基于所提取的所述声音的语音的所述至少一部分以及所述媒体内容的隐藏字幕、字幕、脚本、抄本和歌词中的至少一者来创建所述声音的所述声纹模型；或者

基于以下中的至少之一来从声纹模型的所述预定集合中选择所述声纹模型：所述声音的特性、所述媒体内容的讲话者信息、所述媒体内容的种类信息、所提取的所述声音的语音的至少一部分的内容。

16.如权利要求13所述的装置，其中，所述语音处理模块还配置为：

17.如权利要求16所述的装置，其中，所述语音处理模块还配置为：

18.如权利要求13所述的装置，其中，所述语音提取模块还配置为：

19.如权利要求13所述的装置，其中，所述语音提取模块还配置为：

20.一种计算机系统，包括：

一个或多个处理器；以及

存储有计算机可执行指令的存储器，所述指令当被执行时使得所述一个或多个处理器：

从媒体内容的音频部分提取一声音的语音；

为所提取的所述声音的语音获得声纹模型；