CN1271573C - 后期同步信息流 - Google Patents
后期同步信息流 Download PDFInfo
- Publication number
- CN1271573C CN1271573C CNB008017840A CN00801784A CN1271573C CN 1271573 C CN1271573 C CN 1271573C CN B008017840 A CNB008017840 A CN B008017840A CN 00801784 A CN00801784 A CN 00801784A CN 1271573 C CN1271573 C CN 1271573C
- Authority
- CN
- China
- Prior art keywords
- speaks
- mouth
- shape
- voice signal
- translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/24—Systems for the transmission of television signals using pulse code modulation
- H04N7/52—Systems for transmission of a pulse code modulated video signal with one or more other pulse code modulated signals, e.g. an audio signal or a synchronizing signal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/001—Model-based coding, e.g. wire frame
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Television Signal Processing For Recording (AREA)
- Television Systems (AREA)
Abstract
本发明提供一种对信息流后期同步的方法。根据图象信号(V)获得原来口型对象(1o)。这些原来口型对象(1o)被新口型对象(1o*)所替代,新口型对象对应翻译后语音信号(A*)。可以根据图象信号(V)通过利用面向对象的编码技术获得口型对象(1o),例如,MPEG-4。编码标准MPEG-4提供对操纵口型对象(1o)的帮助。出现几个设计。新口型对象(1o*)可以通过跟踪进一步图象信号或通过利用具有可视语义位或口型参数的数据库获得。本发明适合于通信网络,例如电视会议。多种语言信息流包括多个语音信号(A,A*)和每个连接到语音信号(A,A*)之一的多个口型对象(1o,1o*)。这给出了在接收机选择所希望语言的可能性。本发明的优点是口型运动更好地对应翻译后语音。
Description
技术领域
本发明涉及后期同步信息流的一种方法,该信息流包括一个语音信号和一个图象信号,该方法包括步骤:执行翻译处理以获得至少一种翻译的语音信号。
本发明进一步涉及一种发射机用于发射包含至少一种翻译语音信号和一个图象信号的信息流。
本发明进一步涉及一种接收机用于接收信息流。
本发明进一步涉及一种通信系统包括:多个包括发射和接收信息流的装置的站,该信息流包括一个语音和一个图象信号;和一种通信网络用于链接所述站。
本发明进一步涉及一种信息流,包括一个图象信号和多个有关不同语言的语音信号和存储媒介。
背景技术
后期同步信息流特别是在电影和电视节目领域中是公知的。后期同步意味着原有语音信号被通常是原有语音信号翻译的另一个语音信号所替代。这具有不懂原有语言的观众可以理解电影而不必读字幕的优点。可是口型不再对应语音信号使观众讨厌。
发明内容
本发明的目的特别是为克服上述问题。为此,本发明第一方面提供一种方法,特征在于该方法包括步骤:跟踪所述图象信号以获得原有口型对象;用新的口型对象替代所述原有口型对象,所述新的口型对象对应所述翻译后语音信号。
根据本发明的第一方面,提供了一种后期同步信息流的方法,该信息流包括语音信号和图象信号,该方法包括步骤:
执行翻译过程以获得至少一个翻译后语音信号,
跟踪所述图象信号以获得原来口型对象;
利用新口型对象替代所述原来口型对象,所述新口型对象对应所述翻译后语音信号,
特征在于其中所述翻译过程包括步骤:
将原来语音转换为翻译后文字;和
根据所述翻译后文字获得所述翻译后语音信号和所述新的口型对象。
根据本发明的第二方面,提供了一种发射包括至少一种语音信号和图象信号的信息流的发射机,
特征在于发射机包括:
翻译装置,翻译装置执行翻译过程以获得至少一个翻译后语音信号,所述的翻译装置包括:将原来语音信号转换为翻译后文字的部件和根据所述翻译后文字导出所述翻译后语音信号和所述新的口型对象的部件,
跟踪装置,用于跟踪所述图象信号以获得原来口型对象;
装置,用于将新口型对象加入到信息流中替代所述原来口型对象,新口型对象对应所述翻译后语音信号。
根据本发明的第三方面,提供了一种用于接收包括语音信号和图象信号的信息流的接收机,
特征在于接收机包括:
翻译装置,用于执行翻译过程以获得至少一个翻译后语音信号,所述的翻译装置包括:将原来语音信号转换为翻译后文字的部件和根据所述翻译后文字导出所述翻译后语音信号和所述新的口型对象的部件;
跟踪装置,用于跟踪所述图象信号以获得原来口型对象;
装置,用于将对应所述翻译后语音信号的新口型对象加入到信息流;和
输出装置,用于输出所述翻译后语音信号和所述图象信号,其中图象信号中的所述原来口型对象已经被所述新口型对象所替代。
根据本发明的第四方面,提供了一种通信系统,包括:
多个站,包括发射信息流的装置和接收信息流的装置,该信息流包括语音信号和图象信号;和
通信网络,用于连接所述站;
特征在于通信系统包括:
用于执行翻译过程以获得至少一个翻译后语音信号的翻译装置,所述的翻译装置包括:将原来语音信号转换为翻译后文字的部件和根据所述翻译后文字导出所述翻译后语音信号和所述新的口型对象的部件;
用于跟踪所述图象信号以获得原来口型对象的装置;和
用于利用对应所述翻译后语音信号的新口型对象替代所述原来口型对象的装置。
通过面向对象的编码技术提供对跟踪和操纵口型对象的附属装置,例如MPEG-4。因为这种编码技术面向对象的特点,口型对象被看作可以被分开处理和操纵的分开对象。在称为“MPEG-4标准”的ISO/IEc文件JTC1/SC29/WG11/N2459(1998年10月亚特兰大市)中给出了MPEG-4标准的概述。其它信息可以在ISO/IEC文件JTC1/SC29/WG11/N2195(1998年3月东京)中找到,该文件描述了MPGE-4应用。MPEG-4是由MPEG(活动图象专家组)开发的一种ISO/IEC标准。该标准提供了使数字电视、交互式图象应用(合成内容)和交互式多媒体三个领域的生产、销售和内容访问模式综合在一起的标准化技术要素。MPEG-4提供了再现称为“媒体”对象的声音、图象或音像内容单元的方法。这些媒体对象可以是自然或合成的原有对象,这意味着它们可以利用摄象机或麦克风记录,或利用计算机生成。音像画面由几个媒体对象组成,例如声音和图象对象。MPEG-4定义了对象的编码表达式,例如合成面部对象和合成声音。MPEG-4提供区别画面的不同对象的工具。具体地,通过口型跟踪有可能记录作为单独对象的个人口型,所谓口型对象。该口型对象可以操纵。根据口型对象有可能基于口型模型提取描述口型的口型-参数。这种口型模型可以在当地存储,这使得仅仅通过发送对照口型参数形成口型成为可能。
按照本发明,原有口型对象被对应翻译后语音信号的新口型对象替代。以此方式,获得口型活动更好对应翻译后信号的图象信号。使翻译变得更自然,而且在理想情况下观众不会注意到信息流实际上是原有信息流的翻译。口型对象包括口型以及面部有关部分。
按照MPEG-4标准,媒体对象可以在给定的坐标系统中的任何地方放置。变换可以应用于改变媒体对象的几何或声音外表。流动数据可以应用于媒体对象以便修改它们的属性。基本流的同步是通过基本流内各个访问单位时间标记实现的。通常,新口型对象与翻译后语音信号同步。
在MPEG-4图象标准中的再现自然图象的工具目的在于提供用于多媒体环境允许有效存储、传输和操作纹理、图象和视频数据的标准化核心技术。这些工具允许对称为图象对象的图象和视频内容的最极微的单位进行解码和再现。图象对象的例子可以是正谈话的人或仅仅是其口型。
面是一个能随时可以表演和活动的面部几何图形的对象。脸部的形状、纹理和表现通常由包含面部定义参数(FDP)组和/或面部动画参数(FAP)组样本的比特流控制。基于帧和瞬时DCT编码的FAP大量集合能够用于精确语言清晰度。
可视语义位(viseme)和表达参数用于编码特定语音设计口型和说话人的语气。可视语义位是对应一个音位的一系列一个或几个脸部特征位置。一个音位是代表最短表达语音的特殊的语音单元。可视语义位实现可见发音清晰的口型的基本单位。一个可视语义位包括指定口开放、高度、宽度和伸出的口型参数。该标准的脸部动画部分允许发送校正和动画合成脸部的参数。这些模型自身不由MPEG-4标准化,而仅仅参数标准化。新口型对象总能够被操作以最好地配合视频信号。
本发明的有利实施例定义在独立权利要求中。本发明的实施例提供一种方法,特征在于包括下列步骤:通过跟踪至少一个进一步图象信号获得所述新口型对象,所述进一步图象信号包括对应所述翻译后语音信号的口型运动。该实施例描述了获得新口型对象的一种方法。因为进一步图象信号包括对应翻译后语音信号的口型运动,根据进一步图象信号得出的口型对象对应翻译后语音信号,进一步图象信号最好通过记录翻译或原来演员的口型而获得。跟踪口型对象是根据进一步图象信号实现的以获得新口型对象。可以有效地组合口型运动记录和语音信号翻译。例如翻译器或原来演员可以同时提供翻译后语音信号以及口型对象。原来演员的优点在于口型对应更好,因为新口型对象来源于作为原有口型对象的相同口型。
本发明的另一个实施例提供一种方法,其中所述翻译过程包括下列步骤:将原有语音信号转换为翻译后文字;根据所述翻译后文字得出所述翻译后语音信号和所述新口型对象。在该实施例中,翻译过程的结果是翻译后文字。翻译后文字可以利用翻译器键盘输入或通过分析语音信号获得。计算机可以例如首先将语音信号转换为文字然后将文字翻译成为翻译后文字。翻译后文字在此情况下用于得出翻译后语音信号,例如通过使用文字/语音编码器。翻译后文字信号也用于获得新口型对象。翻译后文字中的一个字母或几个字母组合定义一个音位以及一个可视语义位。音位或可视语义位定义被例如存储在数据库中。这种TTS编码器根据MPEG-4标准是公知的。TTS编码器允许文字或具有韵律参数(音调轮廓、音位持续时间等)的文字作为输入以产生可理解的合成的语音。它支持参数的产生,该参数可以用于允许对有关脸部动画、文字的国际语言和音位国际字符同步。附加的置标被用于传输文字中的控制信息,该置标利用合成文字同步传递给其它成分。MPEG-4提供操作TTS编码器的标准化接口而非标准的TTS编码器自身。总之,编码器可用于根据构成的输入产生声音。
本发明的另一个实施例提供一种方法,特征在于包括下列步骤:将所述翻译后语音信号分成音位;从数据库中检索对应音位的可视语义位;和根据所述可视语义位形成所述新口型对象。所述翻译过程最好包括步骤:将所述音位转换为文字;将所述文字翻译成为翻译后文字;和根据所述翻译后文字获得所述翻译后语音信号。分析语音信号获得音位和可视语义位根据本领域是公知的。US-A-5608839公开了一种声音同步图象系统,该系统中通过对信号解码处理代表语音和说话人的图象信号的非同步语音信号流。对应语音信号中的音位存储多个可视语义位。对应语音信号中的音位推导出可视语义位,通过以与数据流中语音信号中对应的音位同步方式将推导出的可视语义位施加到不同步的图象信号流上实现图象信号和语音信号的同步。按照实施例,推导步骤包括推导口型运动的可视语义位。该系统适合于用在可视电话中。以此方式,出现在电视会议系统中两方向的延迟被缩短。
口型对象模拟是公知技术,其在压缩领域特别有利。口型对象可以利用口型模型和特定口型参数定义。这对于压缩非常有用,因为它满足传输口型参数定义口型对象。按照本发明利用口型参数也有用,因为仅仅需要改变对参数的选择。当口型模型在接收端可使用时,它满足传输修改的口型参数。如果需要也可以传输原来的口型参数。新口型对象最好根据原来口型对象修改口型参数构成。这导致与新口型对象的最好配合。在某些情况下,例如在原来和新口型对象之间差别小的场合,除了也用作基准的原来口型参数外可以有利地发送新口型参数作为差分信号给接收机。
按照本发明的发送方特征在于发射机包括:用于跟踪所述图象信号获得原来口型对象的跟踪装置;用于将新口型对象加入到信息流中替代所述原有口型对象的装置,新口型对象对应所述翻译后语音信号。如果图象信号中的原来口型对象在发射之前已经由新口型对象替代,可以由普通接收机接收和处理信息流。在另一个实施例中发射机包括:用于发送与语言差别有关的多个语音信号和多个口型对象的装置,每个口型对象至少连接所述多个语音信号之一。信息流使接收机有可能选择所需要的语音以及图形的语言。可是仅仅在语音中传送多个语言是本领域公知的。通过仅仅发射口型对象或多个语言的口型参数可以获得多个语言动画和其它音像节目的高有效传输和存储。
按照本发明的第一接收机特征在于接收机包括:用于执行翻译过程获得翻译后语音信号的翻译装置;用于将所述翻译后语音信号加入到信息流中的装置;用于跟踪所述图象信号获得原来口型对象的跟踪装置;用于将新口型对象加入到对应所述翻译后语音信号的信息流中的装置;和用于输出所述翻译后语音信号和所述图象信号的输出装置,其中图象信号所述原来口型对象已经被所述新口型对象替代。该第一接收机包括接收机中的翻译装置。所接收信息流包括原来语言的语音信号和图象信号。该实施例具有本地执行所需要语言(用户选择的)翻译的优点,即独立与任何发射机或广播机构。
按照本发明的第二接收机特征在于接收机包括用于跟踪所述图象信号获得原来口型对象的跟踪装置;用于将对应所述翻译后语音信号的新口型对象加入信息流的装置;和用于输出所述翻译后语音信号和所述图象信号的输出装置,其中图象信号所述原来口型对象已经被所述新口型对象替代。与US-A-5608839的公知接收机不同点在于按照本发明新口型对象对应翻译后语音信号。原来语音信号不与图象信号不同步,但原来口型对象的口型运动不对应翻译后语音信号,因为原来口型对象对应原来语音信号。按照本发明在接收机中的数据库包括所需要语言的音位和可视语义位。
按照本发明的第三接收机接收信息流,其包括:一个图象信号,多个有不同语言有关的语音信号和多个口型对象,该口型对象每个与所述多个语音信号的至少一个链接;该接收机包括:一个用于从多个所述语音信号中获得所选择语音信号的选择器;用于输出所述所选择语音信号和所述图象信号的的输出装置;所述图象信号包括所选择口型对象,该口型对象连接所述所选择语音信号。
按照本发明的一种通信网络包括用于执行翻译过程获得至少一个翻译后语音信号的装置;用于跟踪所述图象信号获得原来口型对象的装置;和用于利用新口型对象替代原来口型对象的装置,所述新口型对象与所述翻译后语音信号同步,这种通信网络包括例如上面讨论的发射机和接收机。
Cheung等人的“用于2-D半身镜头的利用MPEG-4合成/自然混合编码的文本驱动自动帧生成”Proc.Int.Conf.on Image Processing,vol.2.Santa Barbara,1997,pp69-72描述了根据MPEG-4的脸部模拟技术用于自动产生谈话头部的帧序列。利用通用脸部对象的定义和动画参数,通常通过转录简单文字的音位可以控制和同步调整后前脸的形状、纹理和表现。分段类型可以是音节、音调片段或音位。由于任何语言的人类语音可以拆分成为最短代表性的音位组,所以能够实现口型/面部同步。简单文字可以被录制成为正字法的音位符号,一种计算机可读音位字母表。通过利用高质量音位/语言合成器产生该语言,文字驱动口型同步应用可以容易地开发。口型张开量和每个画面的嘴形状代表音位发音对应的脸部运动。
上述文件没有讨论或使利用新口型对象替代原来口型对象清楚,该新口型对象对应翻译后的信号。可是该文件描述了工具,例如使用口型对象和根据文字同步语音的技术。根据语言序列提取音位的方式、存储对应音位的可视语义位的方式、提取正确面部特征并且将它们应用于图象信号的方式在本领域是公知的。
根据此后所描述的实施例,本发明的上述和其它方面将更清楚。
附图说明
在图中:
图1表示按照本发明的后期同步系统;
图2表示通过跟踪进一步图象信号获得新口型对象的实施例;
图3表示翻译器与按照本发明的口型对象修改者结合的实施例;
图4表示按照本发明的第一发射机;
图5表示按照本发明的第二发射机;
图6表示按照本发明的第一接收机;
图7表示按照本发明的第二接收机;
图8表示按照本发明的通信系统。
这些图仅仅表示理解本发明所必须的那些单元。
具体实施方式
图1所示的后期同步系统包括一个图象源1和一个语音源6,用于获得包括图象信号V(由图象源1获得)和语音信号A(通过语音源6获得)的信息流。图象源1可以是图象传感器,计算机等。语音源6可以是麦克风或计算机等。语音信号A在翻译器中被翻译成为翻译后语音信号A*。翻译后语音信号A*被输出给扬声器8。图象信号V在口型跟踪器2中被跟踪以获得原来口型对象Io。作为例子,跟踪在MPEG-4编码器中实现。如上所述,MPG-4标准提供了跟踪口型对象并且将它们定义成为图象信号的工具。口型跟踪处理的结果是包括原来口型对象1o和其余信号V′的图象信号。在后期同步系统的实施例中,图象源1和口型跟踪器2被组合在MPEG-4摄象机中。在此情况下口型对象按照MPEG-4标准被定义。在本发明的有效实施例中通过基于口型模型的口型参数定义口型对象。原来口型对象1o在口型对象修改器3中被修改。根据原来口型对象1o的特性,产生对应翻译后语音信号A*的新口型对象1o*。口型对象修改器3包括用于获得其它信号的输入,例如新口型对象1o*的信息。修改数量根据口型对象修改器3接收的信息而改变。在级个别情况下,仅仅保持原来口型对象1o的位置。翻译后语音信号A*被输入到口型对象修改器3并且用于将新口型对象1o*与翻译后语音信号A*同步。翻译后语音信号A*也可以用于构成新口型对象1o*。新口型对象1o*被送给口型对象相加器4。在口型对象相加器4中,新口型对象1o*被加入到其余信号V′中。此后在显示器5上显示包括新口型对象1o*替代原来口型对象的新图象信号V*。由此实现节目显示,其中口型运动更好对应翻译后语音信号A*。在理想条件下,新口型对象1o*好得可以配合到图象信号V*中以致观众不会注意到已经进行了后期同步。
在图1系统的另一个实施例中,图象信号V′仍然包括原来口型对象1o。在此情况下,相加器4设计得利用新口型对象1o*替代原来口型对象1o。
图1是按照本发明系统的总图。后期同步系统不必出现在一个位置上,而可以包括传输信道和通信网络等。所示的单元可以分布在不同位置。在实际实施例中使用MPEG-4编码和解码,以及其它类似信道编码的编码算法等。
图2表示通过跟踪进一步图象信号V2获得新口型对象1o*的实施例。在所示的实施例中,第二图象源11耦合到第二口型跟踪器12,该跟踪器耦合到口型对象修改器3,第二图象源11和第二口型跟踪器12类似于图象源1和口型跟踪器2。第二图象源11产生第二图象信号V2。重要的是图象信号V2以相同方式包括对应翻译后语音信号A*的口型运动。在口型跟踪器12中跟踪第二图象信号V2给出了能够用于构成新口型对象1o*替代原来口型对象1o的第二口型对象1o2。以及原来口型对象1o作为第二口型对象1o2送给口型对象修改器3。在修改器3中,修改第二口型对象1o2以配合原来口型对象1o的位置。为此,可能必须改变基准帧坐标和对第二口型对象1o2进行变换。最好图象源11包括记录原来演员口型运动的摄象机。在此情况下,必须进行最小修改以获得良好效果。也可能记录某人的其它的口型,例如翻译者的口型。在此情况下需要更多有关口型形状和色彩的修改。翻译后语音信号A*用于将新口型对象1o*同步。如果口型对象1o2已经充分同步,该步骤可以省略。进一步图象信号V2可以也是合成的、计算机生成信号。
图3表示了按照本发明翻译器7与口型对象修改器3合并的实施例。翻译器7包括语音分析器70,语音/文字转换器71,文字翻译器72和文字/语音转换器73。翻译器7和口型对象修改器3两个都耦合到数据库9。数据库9可以也分布在翻译器7和口型对象修改器3上。输入语音信号A在语音分析器70中分析。在本领域中公知的语音信号A成分可以分成可识别音位。在单个音位级上的语言识别用于本发明的一个实施例,本发明的另一个实施例中使用在音素组级上的语言识别。音位是计算机可读语音字母表的一部分并且在语音-文字转换器71中被录制成为文字。该单元的输出是文字信号T。文字信号T在文字翻译器72中翻译成为翻译后文字信号T*。文字翻译器72为此包括一些字典和语法工具,这些也可以从数据库9中获得。文字/语音转换器73将翻译后文字信号T*转换为翻译后语音信号A*。翻译后语音信号A*在该实施例中是合成信号。文字/语音转换器73可以包括上面讨论的TTS编码器。在该实施例中有构成新口型对象1o*的几种可能。第一种可能是根据翻译后文字信号T*得出新口型对象1o*。某些语言中字母的一定组合可以定义音位以形成语音信号并且同时定义可视语义位以构成口型对象1o*。音位和可视语义位和它们的相互关系例如在数据库9中定义。可视语义位也可以通过分析翻译后语音信号A*和利用音位/可视语义位关系获得。如果翻译后语音信号A*已经分成音位,该实施方法容易。利用音位/可视语义位关系是有用的,例如如果省略对文字的转换和用不同方法获得翻译后语音信号A*,例如通过利用麦克风对翻译者声音录音。文字信号T和翻译后文字信号T*能够进一步用作字幕信息和因此可以包含在传输的信息流中。在另一个实施例中,已经可以使用的字幕用于产生翻译后语音信号A*和新口型对象1o*。
图4表示了按照本发明的第一发射机。该发射机包括很大程度上与图1所示系统相同元件,但缺少显示器和扬声器。发射的信息流包括翻译后语音信号A*和包括新口型对象1o*的图象信号V*。语音信号A*和图象信号V*用通常方式信道编码。发射的信息流可以由普通接收机处理。普通接收机是不包括翻译语音信号和修改口型对象装置的接收机。正常地,是一个标准MPEG-4接收机。信息流也可以利用另一个编码技术编码,以便可能发送给其它的接收机。口型跟踪由任意口型跟踪电路实现。尽管这种编码器最好,而不一定使用MPEG-4编码器。有可能在演播室环境下使用MPEG-4编码器,以利用新口型对象1o*替代原来口型对象1o并且用另一个格式发射该信息流,例如MPEG-1/2、NTSC、PAL等。在此情况下,获得包括对应翻译后语音信号A*的口型运动的常规信息流。如上所述,翻译后文字信号T*可以作为字幕信息传输。翻译后文字信号T*由翻译器7或某些其它方式产生。
图5表示发射多种语言信息流的第二发射机。在本领域所公知的,多种语言信息流包括多个语音信号A、A*。多种语言信息流进一步包括与语音信号A、A*至少一个连接的多个口型对象1o、1o*。每个具有它们自己相应口型对象数据流的几个语音信号因此可使用。可选地,该信息流包括如上所述的文字信号T、T*。
在实施例中,发射机将图象其余信号V′与原来口型对象1o一起并且原来语音信号A与另外一个或几个翻译后语音信号A*和对应新口型对象1o*的数据流一起发射。通过某种识别器将口型对象1o、1o*的数据流与对应的语音信号A、A*连接。口型对象有可能连接到多于一个的语音数据流。这例如当口型对象用在几个语音数据流中时可能有用。正如前述,使用口型-参数定义口型对象是很方便的。发射机的有利实施例发射每个连接到至少一个语音信号的口型参数。一些口型参数对于任何语言可能相同。在此情况下,将这些参数连接到所有语言或发送是有用的。其它需要连接的参数可以是一种语言。当发送口型参数时,有可能只发送不同语言的口型参数之间的差别。以此方式,获得高效、低比特速率发射。语音以及图象中多种语言的出现可以在节目特定信息流中指示。节目特定信息流指定哪个节目可使用,以及每个节目包括多少和哪个基本数据流。
图6表示了按照本发明的第一接收机。该接收机从例如天线、网络等的一些传输信道上接收信息。当图象源1产生图象或在某种编码之后可以接收图象信号V。因为不在该信号上执行口型跟踪,原来口型对象还不能获得。在此情况下,口型跟踪器2是必须的。有可能已经获得口型对象或口型参数,例如当信息流被MPEG-编码时。在此情况下在接收机中可以省略口型跟踪器2。这意味着由接收机一起接收图象其余信号V′和原来口型对象1o。语音信号可以是翻译后语音信号A*或不翻译的语音信号A。在语音信号还没有翻译的情况下,翻译器7必须获得翻译后信号A*。根据输入信息流,翻译器7和口型跟踪器2是可选的。翻译后语音信号A*被输出给扬声器8。在图象信号V′中的口型对象1o用已经描述的方式被新口型对象1o*替代。文字信号T、T*可以可选地显示在显示器5上。
图7表示了按照本发明接收机的第二实施例。该实施例特别应用于与图5所示的发射机结合。具有图象其余信号V′的信息流和多个口型对象1o、1o*和多个语音信号A、A*被接收。接收机也可以接收一些文字信号T和用作字幕的翻译后文字信号T*。选择器10选择语音信号A、A*之一输出给扬声器8。选择器最好是用户选择。选择器进一步选择对应的口型对象1o、1o*。这些口型对象1o、1o*可以参数化。在此情况下只接收口型参数。所选择的口型对象1o、1o*被加入到图象其余信号V′以构成图象信号V、V*显示在显示器5上。如图1所讨论的,图象信号V′也可以仍然包括口型对象1o。如果选择原来语言,原来口型对象1o不被其它口型对象替代,和图象信号V′与原来口型对象一起显示。如果选择另一个语言,相加器4用所选择的口型对象1o*替代口型对象。
用户可以选择所希望的文字信号T、T*作为另外特征。
图8表示按照本发明的通信系统。该通信网络包括站ST1,ST2,...,STN和通信网络CN。通信网络的例子是互联网、内部网(intranet)、ISDN、DVB等。站ST1包括接收机R1和发射机T1。站ST2包括接收机R2和发射机T2,而站STN包括接收机RN和发射机TN。站有可能仅仅包括一个接收机或一个发射机。按照本发明,通信系统包括用于执行翻译过程的装置,用于跟踪图象信号的装置,和用于利用新口型对象替代原来口型对象的装置。这些装置可以出现在通信系统的任何位置上。站上的发射机和接收机例如可以类似于前面有关的图2-7所描述的发射机和接收机。尽管按照本发明有可能仅仅本地具有接收机,按照本发明也可以正常出现发射机。因此,在大多数情况下在通信网络CN传输的信息流将包括除了正常语音信号A和图象信号V、V′之外的翻译后语音信号A*和对应的口型对象1o*。在许多情况下,在信息流中也出现文字信号T和翻译后文字信号T*。如图2所示发射机出现在站ST1、ST2...STN之一上的实施例中,信号V*也包含在信息流中。站ST1,ST2...STN可以基本上相同或不同。通信系统的实际应用是电视会议。最好实时执行语音翻译和口型对象替代。当足够计算能力可利用时这是可行的。可以接受少量延迟。因为在电视会议情况下延迟出现在两个方向上,因此应当保持它尽可能小。
最后,任何可能的信息流可以存储在存储介质上。这可以是一种如图8所示存储来自网络的信息流并且向网络提供所存储的信息流的存储介质S,或者是任何其它存储介质。其它适当的存储介质的例子是磁带、DVD碟、CDROM等。
另一个适合的编码标准的例子是H.323。
应当注意,上述实施例仅仅说明本发明而非限制本发明,本领域技术人员将能够设计出许多修改的实施例而不脱离权利要求书的范围。在权利要求书中,括号内的任何参考符号都不构成对权利要求的限制。词语“包括”不排除权利要求中所列出其它元件或步骤出现。本发明通过包括几个区别性元件的硬件实现,和通过适当编程的计算机实现。在列举几个装置的设备权利要求中,通过一个和相同硬件项目实现几个这样装置。
总之,本发明提供一种后期同步信息流的方法。按照本发明,根据图象信号获得原来口型对象。这些原来口型对象被新口型对象所替代,新口型对象对应翻译后语音信号。可以通过利用面向对象的编码技术根据图象信号获得口型对象,例如MPEG-4。编码标准MPEG-4为操纵口型对象提供帮助。出现几个设计。新口型对象可以通过跟踪进一步图象信号或通过利用具有可视语义位或口型参数的数据库获得。本发明适合于通信网络,例如电视会议。多种语言信息流包括多个语音信号和多个口型对象,这些口型对象的每个与语音信号之一连接。这给出了在接收机上选择所希望语言的可能性。本发明的优点是口型运动更好地对应翻译后语音。
Claims (9)
1.一种后期同步信息流的方法,该信息流包括语音信号和图象信号,该方法包括步骤:
执行翻译过程以获得至少一个翻译后语音信号,
跟踪所述图象信号以获得原来口型对象;
利用新口型对象替代所述原来口型对象,所述新口型对象对应所述翻译后语音信号,
特征在于其中所述翻译过程包括步骤:
将原来语音转换为翻译后文字;和
根据所述翻译后文字获得所述翻译后语音信号和所述新的口型对象。
2.按照权利要求1的方法,
特征在于包括步骤:
通过跟踪至少一个进一步图象信号获得所述新口型对象,所述进一步图象信号包括对应所述翻译后语音信号的口型运动。
3.按照权利要求1的方法,
特征在于包括步骤:
将所述翻译后语音信号分成音位;
从数据库中检索对应所述音位的可视语义位;和
根据所述可视语义位构成所述新口型对象。
4.按照权利要求3的方法,
其中翻译过程包括步骤:
将所述音位转换为文字;
将所述文字翻译成为翻译后文字;和
根据所述翻译后文字推导出所述翻译后语音信号。
5.按照权利要求1的方法,
特征在于包括步骤:
根据所述原来口型对象推论口型参数;
修改所述口型参数以获得新口型参数构成所述新口型对象。
6.一种发射包括至少一种语音信号和图象信号的信息流的发射机,
特征在于发射机包括:
翻译装置,翻译装置执行翻译过程以获得至少一个翻译后语音信号,所述的翻译装置包括:将原来语音信号转换为翻译后文字的部件和根据所述翻译后文字导出所述翻译后语音信号和新的口型对象的部件,
跟踪装置,用于跟踪所述图象信号以获得原来口型对象;
装置,用于将新口型对象加入到信息流中替代所述原来口型对象,新口型对象对应所述翻译后语音信号。
7.按照权利要求6的一种发射机,
特征在于该发射机包括:
用于发射与不同语言有关的多个语音信号和多个口型对象的装置,这些口型对象的每个连接到至少一个所述多个语音信号。
8.一种用于接收包括语音信号和图象信号的信息流的接收机,
特征在于接收机包括:
翻译装置,用于执行翻译过程以获得至少一个翻译后语音信号,所述的翻译装置包括:将原来语音信号转换为翻译后文字的部件和根据所述翻译后文字导出所述翻译后语音信号和新的口型对象的部件;
跟踪装置,用于跟踪所述图象信号以获得原来口型对象;
装置,用于将对应所述翻译后语音信号的新口型对象加入到信息流;和
输出装置,用于输出所述翻译后语音信号和所述图象信号,其中图象信号中的所述原来口型对象已经被所述新口型对象所替代。
9.一种通信系统,包括:
多个站,包括发射信息流的装置和接收信息流的装置,该信息流包括语音信号和图象信号;和
通信网络,用于连接所述站;
特征在于通信系统包括:
用于执行翻译过程以获得至少一个翻译后语音信号的翻译装置,所述的翻译装置包括:将原来语音信号转换为翻译后文字的部件和根据所述翻译后文字导出所述翻译后语音信号和新的口型对象的部件;
用于跟踪所述图象信号以获得原来口型对象的装置;和
用于利用对应所述翻译后语音信号的新口型对象替代所述原来口型对象的装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP99202034 | 1999-06-24 | ||
EP99202034.7 | 1999-06-24 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1321287A CN1321287A (zh) | 2001-11-07 |
CN1271573C true CN1271573C (zh) | 2006-08-23 |
Family
ID=8240353
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB008017840A Expired - Fee Related CN1271573C (zh) | 1999-06-24 | 2000-06-21 | 后期同步信息流 |
Country Status (6)
Country | Link |
---|---|
US (2) | US6697120B1 (zh) |
EP (1) | EP1108246A1 (zh) |
JP (1) | JP2003503925A (zh) |
KR (1) | KR20010072936A (zh) |
CN (1) | CN1271573C (zh) |
WO (1) | WO2001001353A1 (zh) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070165022A1 (en) * | 1998-07-15 | 2007-07-19 | Shmuel Peleg | Method and system for the automatic computerized audio visual dubbing of movies |
US7149686B1 (en) * | 2000-06-23 | 2006-12-12 | International Business Machines Corporation | System and method for eliminating synchronization errors in electronic audiovisual transmissions and presentations |
US6975988B1 (en) * | 2000-11-10 | 2005-12-13 | Adam Roth | Electronic mail method and system using associated audio and visual techniques |
US6829018B2 (en) * | 2001-09-17 | 2004-12-07 | Koninklijke Philips Electronics N.V. | Three-dimensional sound creation assisted by visual information |
US20030058932A1 (en) * | 2001-09-24 | 2003-03-27 | Koninklijke Philips Electronics N.V. | Viseme based video coding |
US7315820B1 (en) * | 2001-11-30 | 2008-01-01 | Total Synch, Llc | Text-derived speech animation tool |
US20030122964A1 (en) * | 2002-01-02 | 2003-07-03 | Sony Electronics Inc. | Synchronization network, system and method for synchronizing audio |
US7212248B2 (en) * | 2002-09-09 | 2007-05-01 | The Directv Group, Inc. | Method and apparatus for lipsync measurement and correction |
US7257538B2 (en) * | 2002-10-07 | 2007-08-14 | Intel Corporation | Generating animation from visual and audio input |
US7154510B2 (en) | 2002-11-14 | 2006-12-26 | Eastman Kodak Company | System and method for modifying a portrait image in response to a stimulus |
US7827034B1 (en) | 2002-11-27 | 2010-11-02 | Totalsynch, Llc | Text-derived speech animation tool |
US20060136226A1 (en) * | 2004-10-06 | 2006-06-22 | Ossama Emam | System and method for creating artificial TV news programs |
JP4865324B2 (ja) * | 2005-12-26 | 2012-02-01 | キヤノン株式会社 | 情報処理装置及び情報処理装置の制御方法 |
US7948558B2 (en) * | 2006-09-29 | 2011-05-24 | The Directv Group, Inc. | Audio video timing measurement and synchronization |
US20080201369A1 (en) * | 2007-02-16 | 2008-08-21 | At&T Knowledge Ventures, Lp | System and method of modifying media content |
US8300667B2 (en) * | 2010-03-02 | 2012-10-30 | Cisco Technology, Inc. | Buffer expansion and contraction over successive intervals for network devices |
US8655156B2 (en) | 2010-03-02 | 2014-02-18 | Cisco Technology, Inc. | Auxiliary audio transmission for preserving synchronized playout with paced-down video |
US20110246172A1 (en) * | 2010-03-30 | 2011-10-06 | Polycom, Inc. | Method and System for Adding Translation in a Videoconference |
US20110311144A1 (en) * | 2010-06-17 | 2011-12-22 | Microsoft Corporation | Rgb/depth camera for improving speech recognition |
US8600732B2 (en) * | 2010-11-08 | 2013-12-03 | Sling Media Pvt Ltd | Translating programming content to match received voice command language |
TW201301148A (zh) * | 2011-06-21 | 2013-01-01 | Hon Hai Prec Ind Co Ltd | 網頁瀏覽控制系統及方法 |
US8655152B2 (en) | 2012-01-31 | 2014-02-18 | Golden Monkey Entertainment | Method and system of presenting foreign films in a native language |
US8874429B1 (en) * | 2012-05-18 | 2014-10-28 | Amazon Technologies, Inc. | Delay in video for language translation |
KR101378811B1 (ko) * | 2012-09-18 | 2014-03-28 | 김상철 | 단어 자동 번역에 기초한 입술 모양 변경 장치 및 방법 |
CN103873808B (zh) * | 2012-12-13 | 2017-11-07 | 联想(北京)有限公司 | 数据处理的方法和装置 |
GB201301981D0 (en) * | 2013-02-04 | 2013-03-20 | Headcast Ltd | Presenting audio/visual animations |
KR20140146965A (ko) * | 2013-06-18 | 2014-12-29 | 삼성전자주식회사 | 디스플레이 장치, 서버를 포함하는 변환 시스템 및 디스플레이 장치의 제어 방법 |
KR102127351B1 (ko) * | 2013-07-23 | 2020-06-26 | 삼성전자주식회사 | 사용자 단말 장치 및 그 제어 방법 |
US20160042766A1 (en) * | 2014-08-06 | 2016-02-11 | Echostar Technologies L.L.C. | Custom video content |
US10657972B2 (en) * | 2018-02-02 | 2020-05-19 | Max T. Hall | Method of translating and synthesizing a foreign language |
WO2019226964A1 (en) * | 2018-05-24 | 2019-11-28 | Warner Bros. Entertainment Inc. | Matching mouth shape and movement in digital video to alternative audio |
US11954561B2 (en) | 2020-11-16 | 2024-04-09 | Joseph Robert Escamilla | System and method of exchanging information through a wireless brain-computer interface |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4600281A (en) * | 1985-03-29 | 1986-07-15 | Bloomstein Richard W | Altering facial displays in cinematic works |
JP2795084B2 (ja) * | 1992-07-27 | 1998-09-10 | 国際電信電話株式会社 | 口形状画像合成方法及び装置 |
SE500277C2 (sv) * | 1993-05-10 | 1994-05-24 | Televerket | Anordning för att öka talförståelsen vid översätttning av tal från ett första språk till ett andra språk |
US5608839A (en) * | 1994-03-18 | 1997-03-04 | Lucent Technologies Inc. | Sound-synchronized video system |
FR2713800B1 (fr) * | 1993-12-15 | 1996-03-15 | Jean Gachot | Procédé et dispositif pour transformer un premier message vocal dans une première langue, en un second message vocal prononcé dans une seconde langue prédéterminée. |
US6330023B1 (en) * | 1994-03-18 | 2001-12-11 | American Telephone And Telegraph Corporation | Video signal processing systems and methods utilizing automated speech analysis |
CA2144795A1 (en) * | 1994-03-18 | 1995-09-19 | Homer H. Chen | Audio visual dubbing system and method |
US5657426A (en) * | 1994-06-10 | 1997-08-12 | Digital Equipment Corporation | Method and apparatus for producing audio-visual synthetic speech |
CA2162199A1 (en) * | 1994-11-07 | 1996-05-08 | Homer H. Chen | Acoustic-assisted image processing |
AU6998996A (en) * | 1995-10-08 | 1997-05-15 | Face Imaging Ltd. | A method for the automatic computerized audio visual dubbing of movies |
US5880788A (en) * | 1996-03-25 | 1999-03-09 | Interval Research Corporation | Automated synchronization of video image sequences to new soundtracks |
AU2167097A (en) * | 1996-03-26 | 1997-10-17 | British Telecommunications Public Limited Company | Image synthesis |
US5818463A (en) * | 1997-02-13 | 1998-10-06 | Rockwell Science Center, Inc. | Data compression for animated three dimensional objects |
US5870454A (en) * | 1997-04-01 | 1999-02-09 | Telefonaktiebolaget L M Ericsson | Telecommunications speech/text conversion and message delivery system |
US5995119A (en) * | 1997-06-06 | 1999-11-30 | At&T Corp. | Method for generating photo-realistic animated characters |
US6317716B1 (en) * | 1997-09-19 | 2001-11-13 | Massachusetts Institute Of Technology | Automatic cueing of speech |
US6112177A (en) * | 1997-11-07 | 2000-08-29 | At&T Corp. | Coarticulation method for audio-visual text-to-speech synthesis |
WO1999046734A1 (en) * | 1998-03-11 | 1999-09-16 | Entropic, Inc. | Face synthesis system and methodology |
US6250928B1 (en) * | 1998-06-22 | 2001-06-26 | Massachusetts Institute Of Technology | Talking facial display method and apparatus |
US6476802B1 (en) * | 1998-12-24 | 2002-11-05 | B3D, Inc. | Dynamic replacement of 3D objects in a 3D object library |
-
2000
- 2000-06-21 JP JP2001506502A patent/JP2003503925A/ja active Pending
- 2000-06-21 WO PCT/EP2000/005712 patent/WO2001001353A1/en not_active Application Discontinuation
- 2000-06-21 EP EP00942110A patent/EP1108246A1/en not_active Withdrawn
- 2000-06-21 KR KR1020017002363A patent/KR20010072936A/ko not_active Application Discontinuation
- 2000-06-21 CN CNB008017840A patent/CN1271573C/zh not_active Expired - Fee Related
- 2000-06-22 US US09/599,782 patent/US6697120B1/en not_active Expired - Fee Related
-
2004
- 2004-01-06 US US10/752,366 patent/US7145606B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP1108246A1 (en) | 2001-06-20 |
CN1321287A (zh) | 2001-11-07 |
US6697120B1 (en) | 2004-02-24 |
WO2001001353A1 (en) | 2001-01-04 |
JP2003503925A (ja) | 2003-01-28 |
KR20010072936A (ko) | 2001-07-31 |
US20040141093A1 (en) | 2004-07-22 |
US7145606B2 (en) | 2006-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1271573C (zh) | 后期同步信息流 | |
WO2022110354A1 (zh) | 一种视频翻译方法、系统、装置及存储介质 | |
Koenen | MPEG-4 multimedia for our time | |
USRE44743E1 (en) | Methods and apparatus for the composition and communication of digital composition coded multisensory messages (DCC MSMs) | |
JP3215823B2 (ja) | 人間の顔の合成モデルの音声信号駆動アニメーションの方法及び装置 | |
WO2022166709A1 (zh) | 虚拟视频直播处理方法及装置、存储介质、电子设备 | |
KR101899588B1 (ko) | 수어 애니메이션 데이터를 자동으로 생성하는 시스템과 이를 이용한 방송시스템 및 방송방법 | |
CN112562720A (zh) | 一种唇形同步的视频生成方法、装置、设备及存储介质 | |
USRE42647E1 (en) | Text-to speech conversion system for synchronizing between synthesized speech and a moving picture in a multimedia environment and a method of the same | |
Steinmetz et al. | Multimedia fundamentals, volume 1: media coding and content processing | |
JP2014519082A (ja) | 文字に基づく映像生成 | |
JP2014519082A5 (zh) | ||
US6014625A (en) | Method and apparatus for producing lip-movement parameters in a three-dimensional-lip-model | |
JP2011175598A (ja) | 手話アニメーション生成装置及び手話アニメーション生成プログラム | |
US11928767B2 (en) | Method for audio-driven character lip sync, model for audio-driven character lip sync and training method therefor | |
Correia et al. | The role of analysis in content-based video coding and indexing | |
JP2003069965A (ja) | Bifsテキストフォーマットをbifsバイナリフォーマットに変換するための装置 | |
Morris | Multimedia systems: Delivering, generating and interacting with multimedia | |
CN114793300A (zh) | 一种基于生成对抗网络的虚拟视频客服机器人合成方法和系统 | |
JP4343411B2 (ja) | 画像処理方法及び装置と再生方法とプログラム及び記憶媒体 | |
Yamada et al. | Visual text reader for virtual image communication on networks | |
JP2001223990A (ja) | 再生方法及び装置と表示装置 | |
Shahraray et al. | Multimedia Processing for Advanced Communications Services | |
JP2002300434A (ja) | 番組送出システム及びこれに用いる番組送出装置 | |
Bojkovic et al. | Audiovisual integration in multimedia communications based on MPEG-4 facial animation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C19 | Lapse of patent right due to non-payment of the annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |