CN1774715A - 用于对音频-视频流执行自动配音的系统和方法 - Google Patents

用于对音频-视频流执行自动配音的系统和方法 Download PDF

Info

Publication number
CN1774715A
CN1774715A CNA2004800099007A CN200480009900A CN1774715A CN 1774715 A CN1774715 A CN 1774715A CN A2004800099007 A CNA2004800099007 A CN A2004800099007A CN 200480009900 A CN200480009900 A CN 200480009900A CN 1774715 A CN1774715 A CN 1774715A
Authority
CN
China
Prior art keywords
audio
voice
visual stream
content
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2004800099007A
Other languages
English (en)
Inventor
J·A·D·内斯瓦德巴
D·J·布里巴亚特
M·F·麦金奈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1774715A publication Critical patent/CN1774715A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43074Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of additional data with content streams on the same device, e.g. of EPG data or interactive icon with a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • H04N21/4332Content storage operation, e.g. storage operation in response to a pause request, caching operations by placing content in organized collections, e.g. local EPG data repository
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4341Demultiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4856End-user interface for client configuration for language selection, e.g. for the menu or subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/445Receiver circuitry for the reception of television signals according to analogue transmission standards for displaying additional information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Machine Translation (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本发明描述了一种用于对输入的音频-视频流(2)执行自动配音的系统(1)。该系统(1)包括:用于识别该音频-视频流(2)内的语音内容的装置(3,7);一个用于将该语音内容转换成数字文本格式(14)的语音-文本转换器(13);一个用于将该数字文本(14)翻译成另一种语言或方言的翻译系统(15);一个用于将所翻译的文本(18)合成到一个语音输出(21)中的语音合成器(19);以及一个用于将该语音输出(21)同步到一个输出的音频-视频流(28)的同步系统(9,12,22,23,26,31,33,34,35)。此外,本发明描述了一种用于对一个音频-视频流(2)进行自动配音的适当方法。

Description

用于对音频-视频流执行自动配音的系统和方法
本发明总体涉及一种用于对音频-视频流执行自动调试的系统和方法,尤其涉及一种用于在音频-视频设备中提供自动配音的系统和方法。
由观众看到的音频-视频流例如是以广播国家的母语广播的电视节目。此外,音频-视频流可以来自DVD、视频或者其它任何适当的源,并且可以包括视频、语音、音乐、音效或者其它内容。音频-视频设备例如可以是电视机、DVD播放器、VCR或者多媒体系统。在外语电影的情况下,可以将字幕(也称开路字幕(open captioning))集成到音频-视频流中,这是通过在广播前将字幕键入各视频帧中完成的。也可以在广播电视节目之前在配音室内将外语电影配音称母语。这里,首先将原始电影剧本翻译成目标语言,然后专业配音演员朗读所翻译的文本。然后将新的语音内容同步到该音频-视频流中。对于由知名演员表演的节目,配音室可以起用那些其语音简档与原始语音内容密切匹配的配音演员。在欧洲,通常只能获得一种语言的视频,其或者是原始的第一语言,或者是被配音成第二语言。用于欧洲市场的视频很少具有开路字幕。DVD上通常会有伴随原始语音内容的第二语言,并且偶尔会有超过两种语言。观众可以任意在两种语言之间进行切换,并且可以选择以一种或多种语言显示字幕。
由于所涉及的开销,请专业配音演员进行配音通常限于几种主要的语言。由于所涉及的工作量和开销,只有一少部分节目被配音。诸如新闻报道、脱口秀或现场广播之类的节目通常根本不配音。字幕也限于目标观众较多的较为流行的语言(比如英语)以及使用罗马字体的语言。像中文、日语、阿拉伯语、俄语之类使用不同字体的语言无法很容易地以字幕的形式呈现。这意味着其母语与所广播语言不同的观众对于他们自己语言的节目的选择很有限。希望通过收看和收听音频-视频节目来帮助其外语学习的其它母语观众也受限于对观看素材的选择。
因此,本发明的一个目的是提供一种可用来对音频-视频流进行简单、经济的配音的系统和方法。
本发明提供一种用于对音频-视频流执行自动配音的系统,其中该系统包括:用于识别输入的音频-视频流内的语音内容的装置;一个用于将该语音内容转换成数字文本格式的语音-文本转换器;一个用于将该数字文本翻译成另一种语言或方言的翻译系统;一个用于将所翻译的文本合成到语音输出中的语音合成器;以及一个用于将该语音输出同步到输出的音频-视频流的同步系统。
一种用于对音频-视频流进行自动配音的适当方法包括:识别输入的音频-视频流内的语音内容;将该语音内容转换成数字文本格式;将该数字文本翻译成另一种语言或方言;将所翻译的文本合成到语音输出中;以及将该语音输出同步到输出的音频-视频流。
以这种方式引入配音的语音内容的处理可以集中实施(例如在广播音频-视频流之前在电视工作室中实施)或者本地实施(例如在观众家中的多媒体设备中实施)。本发明的优点在于提供这样一种系统,该系统将以所选语言配音的音频-视频流提供给观众。
所述音频-视频流可以包括被编码在分开的轨道中的视频和音频内容,其中音频内容还可以包含语音内容。语音内容可以位于专用轨道中,或者可以从包含音乐、音效和语音的轨道中滤出。在利用现有技术的情况下,用于识别这种语音内容的适当装置可以包括专用滤波器和/或软件,并且可以复制所识别的语音内容或者从音频-视频流中提取所识别的语音内容。之后,可以通过使用现有的语音识别技术将该语音内容或语音流转换成数字文本格式。然后利用现有的翻译系统将该数字文本格式翻译成另一种语言或方言。然后对经翻译的数字文本进行合成以便产生语音音频输出,随后将该语音音频输出作为语音内容插入到该音频-视频流中,以便用配音的语音替换或覆盖原始语音内容,同时令其它音频内容(即音乐、音效等)保持不变。通过以这种方式组合现有技术,可以非常容易地实现本发明,并且提供了一种低成本的替换方案从而不必请昂贵的配音演员来进行配音。
各从属权利要求公开了本发明的特别有利的实施例和特征。
在本发明的一个特别有利的实施例中,由一个话音简档生成器分析语音内容,并为该语音生成一个话音简档。该语音内容可以包含顺序地或同时说出的一个或多个话音,对于所述话音生成一个话音简档。关于音调、共振峰、谐波、时间结构和其它品质的信息被用于创建该话音简档,该话音简档可以保持稳定或者随着语音流的进展而改变,并且该话音简档用来再现原始语音的品质。在后期将该话音简档用于经翻译的语音内容的真实话音合成。本发明的这一特别有利的实施例确保在配音的音频-视频流中再现知名演员的独特的话音特性。
在本发明的另一个优选实施例中,使用一个时间数据源来生成定时信息,该定时信息被分配给语音流和剩余的音频和/或视频流,以便表明两个流之间的时间关系。该时间数据源可以是一种时钟,或者可以是用来读取已经编码在该音频-视频流中的时间数据的设备。以这种方式标记该语音流以及剩余的音频和/或视频流,可以在后期容易地将配音的语音流同步回其它流中。例如在将语音转换成文字的过程中或者在创建话音简档的过程中,该定时信息还可以用于补偿在语音流上招致的延迟。可以将关于该语音流的定时信息传播到该语音流的所有衍生物,例如数字文本、经翻译的数字文本以及话音合成的输出。因此,该定时信息可以用于识别特定语句的开头、结尾以及持续时间,从而使得合成的话音输出的持续时间和位置可以匹配于该音频-视频流上的原始语句的位置。
在本发明的另一个安排中,可以例如通过在“普通”或“高质量”模式之间作选择来规定将要花费在翻译和配音上的最大努力。所述系统随后确定可用于对该语音内容进行翻译和配音的时间,以及相应地对所述语音-文本转换器和翻译系统进行配置。因此,可以以最小时滞观看该音频-视频流,这在现场新闻报道的情况下可能是理想的;或者可以以更大的时滞观看该音频-视频流,从而允许该自动配音系统获得最好的翻译质量和话音合成质量,这在电影、纪录片和类似产品的情况下可能是特别理想的。
此外,该系统还可以通过对于不同流使用预定的固定延迟而在不插入附加定时信息的情况下起作用。
本发明的另一个优选特征是一个用于将数字文本翻译成不同语言的翻译系统。因此,该翻译系统可以可以包括一个翻译程序以及一种或多种语言和/或方言数据库,观众可以从所述数据库中选择一种可用的语言或方言,所述语音随后被翻译成该种语言或方言。
本发明的另一个实施例包括一个开路字幕生成器,其用来将数字文本转换成适合于开路字幕的格式。该数字文本可以是对应于原始语音内容的原始数字文本,以及/或者可以是该翻译系统的输出。伴随该数字文本的定时信息可以被用来定位所述开路字幕,从而使得观众可以在该音频-视频流中的适当位置看到所述开路字幕。观众可以规定是否要显示开路字幕以及将以哪种语言(原始语言和/或所翻译的语言)显示开路字幕。对于希望通过收听外语的语音内容、同时阅读母语的伴随字幕(或者收听母语的语音内容、同时阅读外语的伴随字幕)来学习外语的观众而言,这一特征是特别有用的。
所述自动配音系统可以被集成到任何音频-视频设备(例如电视机、DVD播放器或者VCR)中,或者其可以是任何音频-视频设备的一种扩展,在这种情况下,观众具有通过用户界面来输入请求的装置。
同样地,该自动配音系统可以被集中实现在例如电视广播站中,其中,充足的带宽可以允许经济地广播具有多个配音语音内容和/或开路字幕的音频-视频流。
可以将所述语音-文本转换器、话音简档生成器、翻译程序、语言/方言数据库、语音合成器以及开路字幕生成器分布在若干智能处理器或IP块上,从而允许根据各IP块的能力来智能地分布任务。这样的智能任务分布将节省处理能力以及以尽可能短的时间执行任务。
通过阅读下面参照附图进行的详细描述,本发明的其它目的和特征将显而易见。然而应该理解,附图只是为了说明本发明而不是限制本发明,在所附权利要求书中对本发明进行限定。
在附图中,相同的附图标记表示相同的元件,其中:
图1是根据本发明第一实施例的用于自动配音的系统示意框图;
图2是根据本发明第二实施例的用于自动配音的系统示意框图。
下面对附图的描述不排除本发明的其它可能的实现方式,该系统被示为一个用户设备(例如电视)的一部分。为简明起见,在图中尚未包括观众(用户)和本发明之间的界面。然而应该理解,该系统包括用来以用户界面的一般方式解释由用户发出的命令的装置,并且还包括用于输出音频-视频流的装置(例如电视屏幕和扬声器)。
图1示出了一个自动配音系统1,其中音频/视频分离器3将输入的音频-视频流2的音频内容5与视频内容6分开。时间数据源4将定时信息分配给音频流5和视频流6
音频流5被导向语音提取器7,该语音提取器生成语音内容的一个拷贝,并将剩余的音频内容8转移到延迟元件9,延迟元件9存储该剩余的音频内容8并使其保持不变,直到后期需要该内容为止。语音内容被导向话音简档生成器10,该话音简档生成器10为该语音流生成一个话音简档11,并将该话音简档11与定时信息一起存储在延迟元件12中,直到后期需要为止。该语音流被传递到语音-文本转换器13,在那里将该语音流转换成数字格式的语音文本14。所述语音提取器7、话音简档生成器10以及语音-文本转换器13可以是分开的设备,但是它们通常被实现为单个设备,例如一个复杂的语音识别系统。
语音文本14然后被导向翻译器15,该翻译器15使用由语言数据库17提供的语言信息来产生经翻译的语音文本18。
经翻译的语音文本18被导向语音合成模块19,该语音合成模块19使用经延迟的话音简档20来把该经翻译的语音文本18合成到一个语音音频流21中。
延迟元件22、23被用于补偿视频流6和经翻译的语音音频流21上的定时差异。经延迟的视频流24、经延迟的已翻译语音音频流25和经延迟的音频内容27被输入到一个音频/视频组合器26中,该组合器26根据三个输入流24、25、27的伴随定时信息对它们进行同步,并且其中可以用经翻译的音频25来覆盖或替换音频流27中的原始语音内容,同时令原始语音流27中的非语音内容保持不变。该音频/视频组合器26的输出就是已配音的输出的音频-视频流28。
图2示出了一个自动配音系统1,其中在输入的音频-视频流2的音频内容5中识别到语音内容,并以类似于图1所示的方式处理该语音内容以便产生数字格式的语音文本14。然而在这种情况下,将该语音内容从剩余的音频流8中转移出来。
在本例中,生成开路字幕以将其包括在音频-视频输出流28中。如图1所示,语音文本被导向翻译器15,该翻译器15使用从语言数据库17获得的信息将该语音文本14翻译成第二种语言。可以根据需要经由适当的连接从因特网37下载最新的语言信息36,以便更新语言数据库17。
经翻译的语音文本18被传递到语音合成模块19以及开路字幕模块29,在那里,根据由观众所做的选择,将原始语音文本14和/或经翻译的语音文本18转换成适于呈现开路字幕的格式的输出30。语音合成模块19使用话音简档11和经翻译的语音文本18来生成语音音频21。
音频组合器31将所合成的语音输出21与剩余的音频流8进行组合,以便提供一个同步的音频输出32。通过使用缓冲器33、34、35将音频流32、视频流6和开路字幕30这三个输入延迟适当的时间长度,音频/视频组合器26对这三个输入进行同步,以便产生一个输出音频-视频流28。
尽管已经以优选实施例及其变型的形式公开了本发明,但是应该理解,在不背离本发明范围的情况下可以对本发明做出各种附加的修改和改变。
举例来说,可以通过从因特网上下载新的版本来按照需要更新或替代所述翻译工具和语言数据库。这样,该自动配音系统可以充分利用电子翻译领域的当前进展,并且保持最新的语言选择方面的进展(比如新的时髦用语及产品名称)。此外,可以将用于对知名演员进行自动语音识别的语音简档和/或说话者模型存储在一个存储器中,并且例如通过从因特网下载来按需要对其进行更新。如果将来的技术允许将关于电影演员的信息编码进音频-视频流中的话,则可以以所选择的语言将对应于各演员的各个说话者模型应用于自动语音识别并且将正确的语音简档分配给演员话音的合成过程。这样,所述自动配音系统将只需要为不太知名的演员生成简档。
此外,所述系统可以采用一种在音频-视频流的语音内容中的不同话音之间作选择的方法。这样,在包含超过一种语言的电影中,用户可以规定要对哪些语言进行翻译和配音,同时剩余语言的语音内容不受影响。
本发明还可以用作强大的学习工具。举例来说,可以将语音-文本转换器的输出导向多个翻译器,从而可以将所述文本翻译成从可用语言数据库中选择的超过一种语言。还可以将经翻译的文本流导向多个语音合成器,以便以几种语言输出该语音内容。例如通过耳机将经过同步的语音输出引导到几个音频输出端,从而可以允许几个观众在收看相同节目的同时各以不同的语言收听该节目。本实施例在向学生教授各种语言的语言学校中或者在向各个国家的观众呈现音频-视频信息的博物馆中将是特别有用的。
为了简明起见,在本申请中,“一个”不排除多个,“包括”不排除其它步骤或元件。

Claims (12)

1、一种用于对输入的音频-视频流(2)执行自动配音的系统(1),所述系统(1)包括:用于识别该音频-视频流(2)内的语音内容的装置(3,7);一个用于将该语音内容转换成数字文本格式(14)的语音-文本转换器(13);一个用于将该数字文本(14)翻译成另一种语言或方言的翻译系统(15);一个用于将所翻译的文本(18)合成到一个语音输出(21)中的语音合成器(19);以及一个用于将该语音输出(21)同步到一个输出的音频-视频流(28)的同步系统(9,12,22,23,26,31,33,34,35)。
2、如权利要求1所述的系统(1),包含一个话音简档生成器(10),以用于为该语音内容生成话音简档(11),以及将适当的话音简档(11)分配给经翻译的文本(14)以用于语音输出合成。
3、如权利要求1或权利要求2所述的系统(1),其中该系统(1)包含一个时间数据源(4),以用于将定时信息分配给所述音频和视频内容(4,5),以供随后对这些内容进行同步之用。
4、如前面任一权利要求所述的系统(1),其中该翻译系统(15)包含一个具有多种不同语言和/或方言的语言数据库(17)以及用于从该数据库(17)中选择一种语言或方言的装置,以便将该数字文本(14)翻译成该种语言或方言。
5、如前面任一权利要求所述的系统(1),其中该系统(1)包含一个用于使用该数字文本(14)和/或该经翻译的数字文本(18)来创建开路字幕(30)的开路字幕生成器(29),以便将所述开路字幕包括在一个输出的音频-视频流(28)中。
6、一种包括如前面任一权利要求所述的系统(1)的音频-视频设备。
7、一种用于对输入的音频-视频流(2)进行自动配音的方法,该方法包括:识别该音频-视频流(2)内的语音内容;将该语音内容转换成数字文本格式(14);将该数字文本(14)翻译成另一种语言或方言;将所翻译的文本(18)合成到一个语音输出(21)中;将该语音输出(21)同步到一个输出的音频-视频流(28)。
8、如权利要求7所述的方法,其中为该语音内容生成话音简档(11),并且在语音输出(21)的合成过程中将所述话音简档(11)分配给适当的经翻译的文本(18)。
9、如权利要求7或8所述的方法,其中从该音频-视频流(2)中或者从该音频-视频流(2)的音频内容中转移出该音频内容的一个拷贝。
10、如权利要求7或8所述的方法,其中从剩余的音频-视频流中或者从该音频-视频流(2)的剩余音频内容中分离出该音频-视频流(2)中的语音内容。
11、如前面任一权利要求所述的方法,其中一个音频/视频组合器(26)将该语音输出(21)插入到该输出的音频-视频流(28)中以替代原始的音频内容。
12、如前面任一权利要求所述的方法,其中一个音频/视频组合器(26)将该语音输出(21)覆盖到该输出的音频-视频流(28)中。
CNA2004800099007A 2003-04-14 2004-04-02 用于对音频-视频流执行自动配音的系统和方法 Pending CN1774715A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP03101004.4 2003-04-14
EP03101004 2003-04-14

Publications (1)

Publication Number Publication Date
CN1774715A true CN1774715A (zh) 2006-05-17

Family

ID=33155247

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2004800099007A Pending CN1774715A (zh) 2003-04-14 2004-04-02 用于对音频-视频流执行自动配音的系统和方法

Country Status (6)

Country Link
US (1) US20060285654A1 (zh)
EP (1) EP1616272A1 (zh)
JP (1) JP2006524856A (zh)
KR (1) KR20050118733A (zh)
CN (1) CN1774715A (zh)
WO (1) WO2004090746A1 (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010066083A1 (zh) * 2008-12-12 2010-06-17 中兴通讯股份有限公司 实现多媒体广播节目语音合成的系统、方法及移动终端
CN1932976B (zh) * 2006-09-18 2010-06-23 北京北大方正电子有限公司 一种实现视音频处理中字幕与语音同步的方法和系统
CN103117825A (zh) * 2012-12-31 2013-05-22 广东欧珀移动通信有限公司 一种移动终端方言播报方法及装置
CN103853704A (zh) * 2012-11-28 2014-06-11 上海能感物联网有限公司 计算机外语有声影像资料自动加注中外文字幕的方法
CN104252861A (zh) * 2014-09-11 2014-12-31 百度在线网络技术(北京)有限公司 视频语音转换方法、装置和服务器
CN106356065A (zh) * 2016-10-31 2017-01-25 努比亚技术有限公司 一种移动终端及语音转换方法
WO2017054488A1 (zh) * 2015-09-29 2017-04-06 深圳Tcl新技术有限公司 电视播放控制方法、服务器及电视播放控制系统
CN106791913A (zh) * 2016-12-30 2017-05-31 深圳市九洲电器有限公司 数字电视节目同声翻译输出方法及系统
CN107172449A (zh) * 2017-06-19 2017-09-15 微鲸科技有限公司 多媒体播放方法、装置及多媒体存储方法
CN107333071A (zh) * 2017-06-30 2017-11-07 北京金山安全软件有限公司 视频处理方法、装置、电子设备及存储介质
WO2018090356A1 (en) * 2016-11-21 2018-05-24 Microsoft Technology Licensing, Llc Automatic dubbing method and apparatus
CN108566558A (zh) * 2018-04-24 2018-09-21 腾讯科技(深圳)有限公司 视频流处理方法、装置、计算机设备及存储介质
CN108744521A (zh) * 2018-06-28 2018-11-06 网易(杭州)网络有限公司 游戏语音生成的方法及装置、电子设备、存储介质
CN109119063A (zh) * 2018-08-31 2019-01-01 腾讯科技(深圳)有限公司 视频配音生成方法、装置、设备及存储介质
CN109688363A (zh) * 2018-12-31 2019-04-26 深圳爱为移动科技有限公司 多终端多语言实时视频群内私聊的方法及系统
CN109688367A (zh) * 2018-12-31 2019-04-26 深圳爱为移动科技有限公司 多终端多语言实时视频群聊的方法和系统
CN110769167A (zh) * 2019-10-30 2020-02-07 合肥名阳信息技术有限公司 一种基于文字转语音技术进行视频配音的方法
CN114245224A (zh) * 2021-11-19 2022-03-25 广州坚和网络科技有限公司 一种基于用户输入文本的配音视频生成方法及系统

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2565977C (en) * 2004-05-13 2013-06-11 Qualcomm Incorporated Delivery of information over a communication channel
CN100536532C (zh) * 2005-05-23 2009-09-02 北京大学 自动加配字幕的方法和系统
RU2007146365A (ru) * 2005-05-31 2009-07-20 Конинклейке Филипс Электроникс Н.В. (De) Способ и устройство для выполнения автоматического дублирования мультимедийного сигнала
KR20060127459A (ko) * 2005-06-07 2006-12-13 엘지전자 주식회사 디지털방송 콘텐츠 변환 기능을 갖는 디지털방송용 단말기및 그 방법
US20060293890A1 (en) * 2005-06-28 2006-12-28 Avaya Technology Corp. Speech recognition assisted autocompletion of composite characters
US8249873B2 (en) 2005-08-12 2012-08-21 Avaya Inc. Tonal correction of speech
US20070050188A1 (en) * 2005-08-26 2007-03-01 Avaya Technology Corp. Tone contour transformation of speech
CN100396091C (zh) * 2006-04-03 2008-06-18 北京和声创景音频技术有限公司 影视剧配音系统及其配音制作方法
JP4271224B2 (ja) * 2006-09-27 2009-06-03 株式会社東芝 音声翻訳装置、音声翻訳方法、音声翻訳プログラムおよびシステム
JP2009189797A (ja) * 2008-02-13 2009-08-27 Aruze Gaming America Inc ゲーミングマシン
US20110020774A1 (en) * 2009-07-24 2011-01-27 Echostar Technologies L.L.C. Systems and methods for facilitating foreign language instruction
US20110246172A1 (en) * 2010-03-30 2011-10-06 Polycom, Inc. Method and System for Adding Translation in a Videoconference
WO2011158010A1 (en) * 2010-06-15 2011-12-22 Jonathan Edward Bishop Assisting human interaction
US20120105719A1 (en) * 2010-10-29 2012-05-03 Lsi Corporation Speech substitution of a real-time multimedia presentation
CN102479178A (zh) * 2010-11-29 2012-05-30 英业达股份有限公司 地方方言翻译方法
US8874429B1 (en) * 2012-05-18 2014-10-28 Amazon Technologies, Inc. Delay in video for language translation
JP2014011676A (ja) * 2012-06-29 2014-01-20 Casio Comput Co Ltd コンテンツ再生制御装置、コンテンツ再生制御方法及びプログラム
US9596386B2 (en) 2012-07-24 2017-03-14 Oladas, Inc. Media synchronization
GB2529564A (en) * 2013-03-11 2016-02-24 Video Dubber Ltd Method, apparatus and system for regenerating voice intonation in automatically dubbed videos
KR101493006B1 (ko) * 2013-03-21 2015-02-13 디노플러스 (주) 멀티미디어 콘텐츠 편집장치 및 그 방법
CN104505091B (zh) * 2014-12-26 2018-08-21 湖南华凯文化创意股份有限公司 人机语音交互方法及系统
US11056104B2 (en) * 2017-05-26 2021-07-06 International Business Machines Corporation Closed captioning through language detection
WO2019074145A1 (ko) * 2017-10-11 2019-04-18 (주)아이디어 콘서트 단일 화면에서의 자막데이터 편집 시스템 및 그 방법
US10861463B2 (en) * 2018-01-09 2020-12-08 Sennheiser Electronic Gmbh & Co. Kg Method for speech processing and speech processing device
US10657972B2 (en) * 2018-02-02 2020-05-19 Max T. Hall Method of translating and synthesizing a foreign language
CN108401192B (zh) * 2018-04-25 2022-02-22 腾讯科技(深圳)有限公司 视频流处理方法、装置、计算机设备及存储介质
US11847425B2 (en) * 2018-08-01 2023-12-19 Disney Enterprises, Inc. Machine translation system for entertainment and media
US10783928B2 (en) 2018-09-20 2020-09-22 Autochartis Limited Automated video generation from financial market analysis
WO2020081872A1 (en) * 2018-10-18 2020-04-23 Warner Bros. Entertainment Inc. Characterizing content for audio-video dubbing and other transformations
US11159597B2 (en) * 2019-02-01 2021-10-26 Vidubly Ltd Systems and methods for artificial dubbing
US11942093B2 (en) * 2019-03-06 2024-03-26 Syncwords Llc System and method for simultaneous multilingual dubbing of video-audio programs
US11202131B2 (en) 2019-03-10 2021-12-14 Vidubly Ltd Maintaining original volume changes of a character in revoiced media stream
US11094311B2 (en) * 2019-05-14 2021-08-17 Sony Corporation Speech synthesizing devices and methods for mimicking voices of public figures
US11141669B2 (en) 2019-06-05 2021-10-12 Sony Corporation Speech synthesizing dolls for mimicking voices of parents and guardians of children
US11087738B2 (en) * 2019-06-11 2021-08-10 Lucasfilm Entertainment Company Ltd. LLC System and method for music and effects sound mix creation in audio soundtrack versioning
US11302323B2 (en) * 2019-11-21 2022-04-12 International Business Machines Corporation Voice response delivery with acceptable interference and attention
US11545134B1 (en) * 2019-12-10 2023-01-03 Amazon Technologies, Inc. Multilingual speech translation with adaptive speech synthesis and adaptive physiognomy
US11594226B2 (en) * 2020-12-22 2023-02-28 International Business Machines Corporation Automatic synthesis of translated speech using speaker-specific phonemes
KR102440890B1 (ko) * 2021-03-05 2022-09-06 주식회사 한글과컴퓨터 제1 언어의 음성으로 더빙된 동영상을 제2 언어의 음성으로 자동 더빙하는 동영상 자동 더빙 장치 및 그 동작 방법
KR102546559B1 (ko) * 2022-03-14 2023-06-26 주식회사 엘젠 영상 콘텐츠 자동 번역 더빙 시스템

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2713800B1 (fr) * 1993-12-15 1996-03-15 Jean Gachot Procédé et dispositif pour transformer un premier message vocal dans une première langue, en un second message vocal prononcé dans une seconde langue prédéterminée.
JPH10136327A (ja) * 1996-10-25 1998-05-22 Meidensha Corp ディスクトップ会議システム
JP2000358202A (ja) * 1999-06-16 2000-12-26 Toshiba Corp 映像音声記録再生装置および同装置の副音声データ生成記録方法
JP2002007396A (ja) * 2000-06-21 2002-01-11 Nippon Hoso Kyokai <Nhk> 音声多言語化装置および音声を多言語化するプログラムを記録した媒体
US6778252B2 (en) * 2000-12-22 2004-08-17 Film Language Film language
DE10117367B4 (de) * 2001-04-06 2005-08-18 Siemens Ag Verfahren und System zur automatischen Umsetzung von Text-Nachrichten in Sprach-Nachrichten
US20030065503A1 (en) * 2001-09-28 2003-04-03 Philips Electronics North America Corp. Multi-lingual transcription system

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1932976B (zh) * 2006-09-18 2010-06-23 北京北大方正电子有限公司 一种实现视音频处理中字幕与语音同步的方法和系统
WO2010066083A1 (zh) * 2008-12-12 2010-06-17 中兴通讯股份有限公司 实现多媒体广播节目语音合成的系统、方法及移动终端
CN103853704A (zh) * 2012-11-28 2014-06-11 上海能感物联网有限公司 计算机外语有声影像资料自动加注中外文字幕的方法
CN103117825A (zh) * 2012-12-31 2013-05-22 广东欧珀移动通信有限公司 一种移动终端方言播报方法及装置
CN104252861B (zh) * 2014-09-11 2018-04-13 百度在线网络技术(北京)有限公司 视频语音转换方法、装置和服务器
CN104252861A (zh) * 2014-09-11 2014-12-31 百度在线网络技术(北京)有限公司 视频语音转换方法、装置和服务器
WO2016037440A1 (zh) * 2014-09-11 2016-03-17 百度在线网络技术(北京)有限公司 视频语音转换方法、装置和服务器
WO2017054488A1 (zh) * 2015-09-29 2017-04-06 深圳Tcl新技术有限公司 电视播放控制方法、服务器及电视播放控制系统
CN106356065A (zh) * 2016-10-31 2017-01-25 努比亚技术有限公司 一种移动终端及语音转换方法
WO2018090356A1 (en) * 2016-11-21 2018-05-24 Microsoft Technology Licensing, Llc Automatic dubbing method and apparatus
US11514885B2 (en) 2016-11-21 2022-11-29 Microsoft Technology Licensing, Llc Automatic dubbing method and apparatus
CN106791913A (zh) * 2016-12-30 2017-05-31 深圳市九洲电器有限公司 数字电视节目同声翻译输出方法及系统
WO2018121001A1 (zh) * 2016-12-30 2018-07-05 深圳市九洲电器有限公司 数字电视节目同声翻译输出方法、系统及智能终端
CN107172449A (zh) * 2017-06-19 2017-09-15 微鲸科技有限公司 多媒体播放方法、装置及多媒体存储方法
CN107333071A (zh) * 2017-06-30 2017-11-07 北京金山安全软件有限公司 视频处理方法、装置、电子设备及存储介质
US11252444B2 (en) 2018-04-24 2022-02-15 Tencent Technology (Shenzhen) Company Limited Video stream processing method, computer device, and storage medium
WO2019205870A1 (zh) * 2018-04-24 2019-10-31 腾讯科技(深圳)有限公司 视频流处理方法、装置、计算机设备及存储介质
CN108566558A (zh) * 2018-04-24 2018-09-21 腾讯科技(深圳)有限公司 视频流处理方法、装置、计算机设备及存储介质
CN108566558B (zh) * 2018-04-24 2023-02-28 腾讯科技(深圳)有限公司 视频流处理方法、装置、计算机设备及存储介质
CN108744521A (zh) * 2018-06-28 2018-11-06 网易(杭州)网络有限公司 游戏语音生成的方法及装置、电子设备、存储介质
CN109119063A (zh) * 2018-08-31 2019-01-01 腾讯科技(深圳)有限公司 视频配音生成方法、装置、设备及存储介质
CN109119063B (zh) * 2018-08-31 2019-11-22 腾讯科技(深圳)有限公司 视频配音生成方法、装置、设备及存储介质
CN109688363A (zh) * 2018-12-31 2019-04-26 深圳爱为移动科技有限公司 多终端多语言实时视频群内私聊的方法及系统
CN109688367A (zh) * 2018-12-31 2019-04-26 深圳爱为移动科技有限公司 多终端多语言实时视频群聊的方法和系统
CN110769167A (zh) * 2019-10-30 2020-02-07 合肥名阳信息技术有限公司 一种基于文字转语音技术进行视频配音的方法
CN114245224A (zh) * 2021-11-19 2022-03-25 广州坚和网络科技有限公司 一种基于用户输入文本的配音视频生成方法及系统

Also Published As

Publication number Publication date
JP2006524856A (ja) 2006-11-02
WO2004090746A1 (en) 2004-10-21
EP1616272A1 (en) 2006-01-18
KR20050118733A (ko) 2005-12-19
US20060285654A1 (en) 2006-12-21

Similar Documents

Publication Publication Date Title
CN1774715A (zh) 用于对音频-视频流执行自动配音的系统和方法
EP2356654B1 (en) Method and process for text-based assistive program descriptions for television
US9552807B2 (en) Method, apparatus and system for regenerating voice intonation in automatically dubbed videos
US8768703B2 (en) Methods and apparatus to present a video program to a visually impaired person
CN1742492B (zh) 媒体内容的基于音频和视频的媒体服务的自动同步
US5900908A (en) System and method for providing described television services
US5677739A (en) System and method for providing described television services
CN111538851B (zh) 自动生成演示视频的方法、系统、设备及存储介质
US20080195386A1 (en) Method and a Device For Performing an Automatic Dubbing on a Multimedia Signal
CN100477727C (zh) 通过隐藏字幕数据创建备选音频的方法和装置
US20120105719A1 (en) Speech substitution of a real-time multimedia presentation
KR20040039432A (ko) 다중 언어 필사 시스템
US8781291B2 (en) Data processing device, data processing method, and program
US11729475B2 (en) System and method for providing descriptive video
KR101478918B1 (ko) 캡션 자막 보정 장치 및 캡션 자막 보정 방법
US7518656B2 (en) Signal processing apparatus, signal processing method, signal processing program, program reproducing apparatus, image display apparatus and image display method
Evans Speech recognition in assisted and live subtitling for television
CN110121097A (zh) 具有无障碍功能的多媒体播放装置及方法
CN100549987C (zh) 具有多文件同步播放功能的mp3播放设备及其方法
CN102088625A (zh) 媒体内容的基于音频和视频的媒体服务的自动同步
Youens Changing Media Accessibility Landscapes in New Zealand
JP2005341072A (ja) 翻訳テレビジョン装置
Han et al. Capturing into high quality subtitle files for multiple applications
Dosch Convergence of broadcasting and broadband Internet-a benefit for people with disabilities (and for us all)
Televisió de Catalunya et al. D6. 1–Pilot-D Progress report

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication