CN1774715A

CN1774715A - 用于对音频－视频流执行自动配音的系统和方法

Info

Publication number: CN1774715A
Application number: CNA2004800099007A
Authority: CN
Inventors: J·A·D·内斯瓦德巴; D·J·布里巴亚特; M·F·麦金奈
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2003-04-14
Filing date: 2004-04-02
Publication date: 2006-05-17
Also published as: JP2006524856A; WO2004090746A1; EP1616272A1; KR20050118733A; US20060285654A1

Abstract

本发明描述了一种用于对输入的音频－视频流(2)执行自动配音的系统(1)。该系统(1)包括：用于识别该音频－视频流(2)内的语音内容的装置(3，7)；一个用于将该语音内容转换成数字文本格式(14)的语音－文本转换器(13)；一个用于将该数字文本(14)翻译成另一种语言或方言的翻译系统(15)；一个用于将所翻译的文本(18)合成到一个语音输出(21)中的语音合成器(19)；以及一个用于将该语音输出(21)同步到一个输出的音频－视频流(28)的同步系统(9，12，22，23，26，31，33，34，35)。此外，本发明描述了一种用于对一个音频－视频流(2)进行自动配音的适当方法。

Description

用于对音频-视频流执行自动配音的系统和方法

本发明总体涉及一种用于对音频-视频流执行自动调试的系统和方法，尤其涉及一种用于在音频-视频设备中提供自动配音的系统和方法。

由观众看到的音频-视频流例如是以广播国家的母语广播的电视节目。此外，音频-视频流可以来自DVD、视频或者其它任何适当的源，并且可以包括视频、语音、音乐、音效或者其它内容。音频-视频设备例如可以是电视机、DVD播放器、VCR或者多媒体系统。在外语电影的情况下，可以将字幕(也称开路字幕(open captioning))集成到音频-视频流中，这是通过在广播前将字幕键入各视频帧中完成的。也可以在广播电视节目之前在配音室内将外语电影配音称母语。这里，首先将原始电影剧本翻译成目标语言，然后专业配音演员朗读所翻译的文本。然后将新的语音内容同步到该音频-视频流中。对于由知名演员表演的节目，配音室可以起用那些其语音简档与原始语音内容密切匹配的配音演员。在欧洲，通常只能获得一种语言的视频，其或者是原始的第一语言，或者是被配音成第二语言。用于欧洲市场的视频很少具有开路字幕。DVD上通常会有伴随原始语音内容的第二语言，并且偶尔会有超过两种语言。观众可以任意在两种语言之间进行切换，并且可以选择以一种或多种语言显示字幕。

由于所涉及的开销，请专业配音演员进行配音通常限于几种主要的语言。由于所涉及的工作量和开销，只有一少部分节目被配音。诸如新闻报道、脱口秀或现场广播之类的节目通常根本不配音。字幕也限于目标观众较多的较为流行的语言(比如英语)以及使用罗马字体的语言。像中文、日语、阿拉伯语、俄语之类使用不同字体的语言无法很容易地以字幕的形式呈现。这意味着其母语与所广播语言不同的观众对于他们自己语言的节目的选择很有限。希望通过收看和收听音频-视频节目来帮助其外语学习的其它母语观众也受限于对观看素材的选择。

因此，本发明的一个目的是提供一种可用来对音频-视频流进行简单、经济的配音的系统和方法。

本发明提供一种用于对音频-视频流执行自动配音的系统，其中该系统包括：用于识别输入的音频-视频流内的语音内容的装置；一个用于将该语音内容转换成数字文本格式的语音-文本转换器；一个用于将该数字文本翻译成另一种语言或方言的翻译系统；一个用于将所翻译的文本合成到语音输出中的语音合成器；以及一个用于将该语音输出同步到输出的音频-视频流的同步系统。

一种用于对音频-视频流进行自动配音的适当方法包括：识别输入的音频-视频流内的语音内容；将该语音内容转换成数字文本格式；将该数字文本翻译成另一种语言或方言；将所翻译的文本合成到语音输出中；以及将该语音输出同步到输出的音频-视频流。

以这种方式引入配音的语音内容的处理可以集中实施(例如在广播音频-视频流之前在电视工作室中实施)或者本地实施(例如在观众家中的多媒体设备中实施)。本发明的优点在于提供这样一种系统，该系统将以所选语言配音的音频-视频流提供给观众。

所述音频-视频流可以包括被编码在分开的轨道中的视频和音频内容，其中音频内容还可以包含语音内容。语音内容可以位于专用轨道中，或者可以从包含音乐、音效和语音的轨道中滤出。在利用现有技术的情况下，用于识别这种语音内容的适当装置可以包括专用滤波器和/或软件，并且可以复制所识别的语音内容或者从音频-视频流中提取所识别的语音内容。之后，可以通过使用现有的语音识别技术将该语音内容或语音流转换成数字文本格式。然后利用现有的翻译系统将该数字文本格式翻译成另一种语言或方言。然后对经翻译的数字文本进行合成以便产生语音音频输出，随后将该语音音频输出作为语音内容插入到该音频-视频流中，以便用配音的语音替换或覆盖原始语音内容，同时令其它音频内容(即音乐、音效等)保持不变。通过以这种方式组合现有技术，可以非常容易地实现本发明，并且提供了一种低成本的替换方案从而不必请昂贵的配音演员来进行配音。

各从属权利要求公开了本发明的特别有利的实施例和特征。

在本发明的一个特别有利的实施例中，由一个话音简档生成器分析语音内容，并为该语音生成一个话音简档。该语音内容可以包含顺序地或同时说出的一个或多个话音，对于所述话音生成一个话音简档。关于音调、共振峰、谐波、时间结构和其它品质的信息被用于创建该话音简档，该话音简档可以保持稳定或者随着语音流的进展而改变，并且该话音简档用来再现原始语音的品质。在后期将该话音简档用于经翻译的语音内容的真实话音合成。本发明的这一特别有利的实施例确保在配音的音频-视频流中再现知名演员的独特的话音特性。

在本发明的另一个优选实施例中，使用一个时间数据源来生成定时信息，该定时信息被分配给语音流和剩余的音频和/或视频流，以便表明两个流之间的时间关系。该时间数据源可以是一种时钟，或者可以是用来读取已经编码在该音频-视频流中的时间数据的设备。以这种方式标记该语音流以及剩余的音频和/或视频流，可以在后期容易地将配音的语音流同步回其它流中。例如在将语音转换成文字的过程中或者在创建话音简档的过程中，该定时信息还可以用于补偿在语音流上招致的延迟。可以将关于该语音流的定时信息传播到该语音流的所有衍生物，例如数字文本、经翻译的数字文本以及话音合成的输出。因此，该定时信息可以用于识别特定语句的开头、结尾以及持续时间，从而使得合成的话音输出的持续时间和位置可以匹配于该音频-视频流上的原始语句的位置。

在本发明的另一个安排中，可以例如通过在“普通”或“高质量”模式之间作选择来规定将要花费在翻译和配音上的最大努力。所述系统随后确定可用于对该语音内容进行翻译和配音的时间，以及相应地对所述语音-文本转换器和翻译系统进行配置。因此，可以以最小时滞观看该音频-视频流，这在现场新闻报道的情况下可能是理想的；或者可以以更大的时滞观看该音频-视频流，从而允许该自动配音系统获得最好的翻译质量和话音合成质量，这在电影、纪录片和类似产品的情况下可能是特别理想的。

此外，该系统还可以通过对于不同流使用预定的固定延迟而在不插入附加定时信息的情况下起作用。

本发明的另一个优选特征是一个用于将数字文本翻译成不同语言的翻译系统。因此，该翻译系统可以可以包括一个翻译程序以及一种或多种语言和/或方言数据库，观众可以从所述数据库中选择一种可用的语言或方言，所述语音随后被翻译成该种语言或方言。

本发明的另一个实施例包括一个开路字幕生成器，其用来将数字文本转换成适合于开路字幕的格式。该数字文本可以是对应于原始语音内容的原始数字文本，以及/或者可以是该翻译系统的输出。伴随该数字文本的定时信息可以被用来定位所述开路字幕，从而使得观众可以在该音频-视频流中的适当位置看到所述开路字幕。观众可以规定是否要显示开路字幕以及将以哪种语言(原始语言和/或所翻译的语言)显示开路字幕。对于希望通过收听外语的语音内容、同时阅读母语的伴随字幕(或者收听母语的语音内容、同时阅读外语的伴随字幕)来学习外语的观众而言，这一特征是特别有用的。

所述自动配音系统可以被集成到任何音频-视频设备(例如电视机、DVD播放器或者VCR)中，或者其可以是任何音频-视频设备的一种扩展，在这种情况下，观众具有通过用户界面来输入请求的装置。

同样地，该自动配音系统可以被集中实现在例如电视广播站中，其中，充足的带宽可以允许经济地广播具有多个配音语音内容和/或开路字幕的音频-视频流。

可以将所述语音-文本转换器、话音简档生成器、翻译程序、语言/方言数据库、语音合成器以及开路字幕生成器分布在若干智能处理器或IP块上，从而允许根据各IP块的能力来智能地分布任务。这样的智能任务分布将节省处理能力以及以尽可能短的时间执行任务。

通过阅读下面参照附图进行的详细描述，本发明的其它目的和特征将显而易见。然而应该理解，附图只是为了说明本发明而不是限制本发明，在所附权利要求书中对本发明进行限定。

在附图中，相同的附图标记表示相同的元件，其中：

图1是根据本发明第一实施例的用于自动配音的系统示意框图；

图2是根据本发明第二实施例的用于自动配音的系统示意框图。

下面对附图的描述不排除本发明的其它可能的实现方式，该系统被示为一个用户设备(例如电视)的一部分。为简明起见，在图中尚未包括观众(用户)和本发明之间的界面。然而应该理解，该系统包括用来以用户界面的一般方式解释由用户发出的命令的装置，并且还包括用于输出音频-视频流的装置(例如电视屏幕和扬声器)。

图1示出了一个自动配音系统1，其中音频/视频分离器3将输入的音频-视频流2的音频内容5与视频内容6分开。时间数据源4将定时信息分配给音频流5和视频流6

音频流5被导向语音提取器7，该语音提取器生成语音内容的一个拷贝，并将剩余的音频内容8转移到延迟元件9，延迟元件9存储该剩余的音频内容8并使其保持不变，直到后期需要该内容为止。语音内容被导向话音简档生成器10，该话音简档生成器10为该语音流生成一个话音简档11，并将该话音简档11与定时信息一起存储在延迟元件12中，直到后期需要为止。该语音流被传递到语音-文本转换器13，在那里将该语音流转换成数字格式的语音文本14。所述语音提取器7、话音简档生成器10以及语音-文本转换器13可以是分开的设备，但是它们通常被实现为单个设备，例如一个复杂的语音识别系统。

语音文本14然后被导向翻译器15，该翻译器15使用由语言数据库17提供的语言信息来产生经翻译的语音文本18。

经翻译的语音文本18被导向语音合成模块19，该语音合成模块19使用经延迟的话音简档20来把该经翻译的语音文本18合成到一个语音音频流21中。

延迟元件22、23被用于补偿视频流6和经翻译的语音音频流21上的定时差异。经延迟的视频流24、经延迟的已翻译语音音频流25和经延迟的音频内容27被输入到一个音频/视频组合器26中，该组合器26根据三个输入流24、25、27的伴随定时信息对它们进行同步，并且其中可以用经翻译的音频25来覆盖或替换音频流27中的原始语音内容，同时令原始语音流27中的非语音内容保持不变。该音频/视频组合器26的输出就是已配音的输出的音频-视频流28。

图2示出了一个自动配音系统1，其中在输入的音频-视频流2的音频内容5中识别到语音内容，并以类似于图1所示的方式处理该语音内容以便产生数字格式的语音文本14。然而在这种情况下，将该语音内容从剩余的音频流8中转移出来。

在本例中，生成开路字幕以将其包括在音频-视频输出流28中。如图1所示，语音文本被导向翻译器15，该翻译器15使用从语言数据库17获得的信息将该语音文本14翻译成第二种语言。可以根据需要经由适当的连接从因特网37下载最新的语言信息36，以便更新语言数据库17。

经翻译的语音文本18被传递到语音合成模块19以及开路字幕模块29，在那里，根据由观众所做的选择，将原始语音文本14和/或经翻译的语音文本18转换成适于呈现开路字幕的格式的输出30。语音合成模块19使用话音简档11和经翻译的语音文本18来生成语音音频21。

音频组合器31将所合成的语音输出21与剩余的音频流8进行组合，以便提供一个同步的音频输出32。通过使用缓冲器33、34、35将音频流32、视频流6和开路字幕30这三个输入延迟适当的时间长度，音频/视频组合器26对这三个输入进行同步，以便产生一个输出音频-视频流28。

尽管已经以优选实施例及其变型的形式公开了本发明，但是应该理解，在不背离本发明范围的情况下可以对本发明做出各种附加的修改和改变。

举例来说，可以通过从因特网上下载新的版本来按照需要更新或替代所述翻译工具和语言数据库。这样，该自动配音系统可以充分利用电子翻译领域的当前进展，并且保持最新的语言选择方面的进展(比如新的时髦用语及产品名称)。此外，可以将用于对知名演员进行自动语音识别的语音简档和/或说话者模型存储在一个存储器中，并且例如通过从因特网下载来按需要对其进行更新。如果将来的技术允许将关于电影演员的信息编码进音频-视频流中的话，则可以以所选择的语言将对应于各演员的各个说话者模型应用于自动语音识别并且将正确的语音简档分配给演员话音的合成过程。这样，所述自动配音系统将只需要为不太知名的演员生成简档。

此外，所述系统可以采用一种在音频-视频流的语音内容中的不同话音之间作选择的方法。这样，在包含超过一种语言的电影中，用户可以规定要对哪些语言进行翻译和配音，同时剩余语言的语音内容不受影响。

本发明还可以用作强大的学习工具。举例来说，可以将语音-文本转换器的输出导向多个翻译器，从而可以将所述文本翻译成从可用语言数据库中选择的超过一种语言。还可以将经翻译的文本流导向多个语音合成器，以便以几种语言输出该语音内容。例如通过耳机将经过同步的语音输出引导到几个音频输出端，从而可以允许几个观众在收看相同节目的同时各以不同的语言收听该节目。本实施例在向学生教授各种语言的语言学校中或者在向各个国家的观众呈现音频-视频信息的博物馆中将是特别有用的。

为了简明起见，在本申请中，“一个”不排除多个，“包括”不排除其它步骤或元件。

Claims

1、一种用于对输入的音频-视频流(2)执行自动配音的系统(1)，所述系统(1)包括：用于识别该音频-视频流(2)内的语音内容的装置(3，7)；一个用于将该语音内容转换成数字文本格式(14)的语音-文本转换器(13)；一个用于将该数字文本(14)翻译成另一种语言或方言的翻译系统(15)；一个用于将所翻译的文本(18)合成到一个语音输出(21)中的语音合成器(19)；以及一个用于将该语音输出(21)同步到一个输出的音频-视频流(28)的同步系统(9，12，22，23，26，31，33，34，35)。

2、如权利要求1所述的系统(1)，包含一个话音简档生成器(10)，以用于为该语音内容生成话音简档(11)，以及将适当的话音简档(11)分配给经翻译的文本(14)以用于语音输出合成。

3、如权利要求1或权利要求2所述的系统(1)，其中该系统(1)包含一个时间数据源(4)，以用于将定时信息分配给所述音频和视频内容(4，5)，以供随后对这些内容进行同步之用。

4、如前面任一权利要求所述的系统(1)，其中该翻译系统(15)包含一个具有多种不同语言和/或方言的语言数据库(17)以及用于从该数据库(17)中选择一种语言或方言的装置，以便将该数字文本(14)翻译成该种语言或方言。

5、如前面任一权利要求所述的系统(1)，其中该系统(1)包含一个用于使用该数字文本(14)和/或该经翻译的数字文本(18)来创建开路字幕(30)的开路字幕生成器(29)，以便将所述开路字幕包括在一个输出的音频-视频流(28)中。

6、一种包括如前面任一权利要求所述的系统(1)的音频-视频设备。

7、一种用于对输入的音频-视频流(2)进行自动配音的方法，该方法包括：识别该音频-视频流(2)内的语音内容；将该语音内容转换成数字文本格式(14)；将该数字文本(14)翻译成另一种语言或方言；将所翻译的文本(18)合成到一个语音输出(21)中；将该语音输出(21)同步到一个输出的音频-视频流(28)。

8、如权利要求7所述的方法，其中为该语音内容生成话音简档(11)，并且在语音输出(21)的合成过程中将所述话音简档(11)分配给适当的经翻译的文本(18)。

9、如权利要求7或8所述的方法，其中从该音频-视频流(2)中或者从该音频-视频流(2)的音频内容中转移出该音频内容的一个拷贝。

10、如权利要求7或8所述的方法，其中从剩余的音频-视频流中或者从该音频-视频流(2)的剩余音频内容中分离出该音频-视频流(2)中的语音内容。

11、如前面任一权利要求所述的方法，其中一个音频/视频组合器(26)将该语音输出(21)插入到该输出的音频-视频流(28)中以替代原始的音频内容。

12、如前面任一权利要求所述的方法，其中一个音频/视频组合器(26)将该语音输出(21)覆盖到该输出的音频-视频流(28)中。