CN101727904B - 语音翻译方法和装置 - Google Patents

语音翻译方法和装置 Download PDF

Info

Publication number
CN101727904B
CN101727904B CN2008101746288A CN200810174628A CN101727904B CN 101727904 B CN101727904 B CN 101727904B CN 2008101746288 A CN2008101746288 A CN 2008101746288A CN 200810174628 A CN200810174628 A CN 200810174628A CN 101727904 B CN101727904 B CN 101727904B
Authority
CN
China
Prior art keywords
voice
information
translation
unit
legible
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008101746288A
Other languages
English (en)
Other versions
CN101727904A (zh
Inventor
双志伟
孟繁平
张世磊
秦勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CN2008101746288A priority Critical patent/CN101727904B/zh
Priority to US12/609,647 priority patent/US9342509B2/en
Publication of CN101727904A publication Critical patent/CN101727904A/zh
Application granted granted Critical
Publication of CN101727904B publication Critical patent/CN101727904B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

提出了一种语音翻译方法,该方法包括:接收源语音;提取源语音中的非文字信息;将源语音翻译为目标语音;以及根据所述提取的非文字信息调整所述翻译的目标语音,从而使得最终的目标语音中保留所述源语音中的非文字信息。

Description

语音翻译方法和装置
技术领域
本发明涉及语音处理领域,具体涉及一种语音翻译方法和装置。
背景技术
目前语音到语音的机器翻译流程,是首先将语音识别成文字,然后将文字翻译成目标语音的文字,再使用语音合成技术将目标语音的文字合成为目标语音。
语音中包含了远远丰富于文字信息的诸多信息,比如,笑声,叹气声等语气音,以及每个词或音节等语音单元的时长、音高和能量等韵律信息。这些信息对于理解说话人的真正含意是非常有帮助的。然而,语音合成技术合成出来的语音仅仅是依赖于翻译后的文字信息,这样文字背后的很多信息便丢失掉了。
发明内容
考虑到如果能够在语音翻译过程中保留语气音和韵律信息等非文字信息,将会对理解原说话人的真正意图有很大的帮助,而提出了本发明的技术方案。
根据本发明的一个方面,提供了一种语音翻译方法,包括:接收源语音;提取源语音中的非文字信息;将源语音翻译为目标语音;以及根据所述提取的非文字信息调整所述翻译的目标语音,从而使得最终的目标语音中保留所述源语音中的非文字信息。
根据本发明的另一个方面,提供了一种语音翻译装置,包括:接收模块,用于接收源语音;提取模块,用于提取源语音中的非文字信息;翻译模块,用于将源语音翻译为目标语音;以及控制模块,用于根据所述提取的非文字信息调整所述翻译的目标语音,从而使得最终的目标语音中保留所述源语音中的非文字信息。
本发明的技术方案能够在语音翻译过程中保留源语音中除文字信息之外的更为丰富的信息,从而使得人们能够通过目标语音更充分和有效地理解原说话人的真实意图。
附图说明
所附权利要求中阐述了被认为是本发明的特点的创造性特征。但是,通过参照附图阅读下面对说明性实施例的详细说明可更好地理解发明本身以及其优选使用模式、目标、特征以及优点,在附图中:
图1示出了根据本发明的实施例的一种语音翻译方法;以及
图2示出了根据本发明的实施例的一种语音翻译装置。
具体实施方式
下面参照附图来说明本发明的实施例。在下面的说明中,阐述了许多具体细节以便更全面地了解本发明。但是,对于本技术领域内的技术人员明显的是,本发明的实现可不具有这些具体细节中的一些。此外,应当理解的是,本发明并不限于所介绍的特定实施例。相反,可以考虑用下面的特征和要素的任意组合来实施本发明,而无论它们是否涉及不同的实施例。因此,下面的方面、特征、实施例和优点仅作说明之用而不应被看作是所附权利要求的要素或限定,除非权利要求中明确提出。
本发明提出了一种在语音到语音翻译中保留源语音中非文字信息的方案。其中,首先抽取语音中的非文字信息,如语气音及韵律特征.接下去在对文字信息进行翻译合成的同时,对非文字信息进行利用,以达到更好的语音翻译的效果。
下面参照图1,其示出了根据本发明的实施例的一种语音翻译方法。如图所示,该方法包括如下步骤。
在步骤101,接收源语音。所述源语音可以是任何语言的语音,如英语、汉语等等;且可以是任何长度的,例如包含一个句子或任意多个句子。
在步骤102,提取源语音中的非文字信息。提取源语音中的非文字信息的具体方法可参见后文中的对本发明的实施例的相关描述。
在步骤103,将源语音翻译为目标语音。所述目标语音可以是与源语音不同或相同的另一个语言的语音,例如英语、汉语等。可以使用本领域中所知的任何方法将源语音翻译为目标语音,例如可以首先使用本领域中所知的任何语音识别方法(例如通过一语音识别引擎)对源语音进行语音识别,从而生成源语音的文字,然后使用本领域中所知的任何文字到文字翻译方法将源语音的文字翻译为目标语音的文字,最后使用本领域中所知的任何语音合成方法根据目标语音的文字合成出目标语音。当然,也可以使用本领域中已知的或未来开发的任何其他方法将源语音翻译为目标语音。
在步骤104,根据所述提取的非文字信息调整所述翻译的目标语音,从而使得最终的目标语音中保留所述源语音中的非文字信息。
根据本发明的一些实施例,所述非文字信息包括非文字声音信息,例如,笑声、叹气声等语气音。在这样的实施例中,所述步骤102包括提取源语音中的语气音等非文字声音信息。可以使用本领域中所知的任何方法来提取源语音中的非文字声音。例如,可以在进行语音识别时首先对非文字声音进行建模。这样,语音识别引擎就能够识别出这些非文字声音,并将其与文字语音切分开来。
根据本发明的进一步的实施例,该方法还包括:识别源语音中的非文字声音信息在源语音中的相对位置,并且上述根据所述提取的非文字信息调整翻译的目标语音的步骤104包括:在翻译的目标语音中相应的相对位置处添加相应的非文字声音信息。可以使用本领域中所知的任何方法来识别源语音中的非文字声音信息在源语音中的相对位置。例如,可以由语音识别引擎在对源语音中的文字声音和非文字声音进行语音识别的同时标定非文字声音和文字语音的起始结束位置,从而获得非文字声音和文字语音的相对位置关系,这样就可以根据该相对位置关系将所述非文字声音插入到目标语音中。
例如,语音识别引擎对于一段示例性源语音“我今天去北京”中的文字语音和非文字声音的识别和切分的结果如下:
0S(秒)-1S(秒):[笑声]
1S(秒)-2.3S(秒):我今天去北京
接着,对该源语音中的文字语音进行语音到语音翻译。然后,可以利用语音识别引擎识别出来的非文字声音,即根据它与文字语音的相对位置关系将其添加到翻译后的目标语音中,例如,可以直接将非文字声音按照源语音中原始的位置加入到翻译后的目标语音中。例如,将上述示例性中文语音片段翻译为英文,并插入原语音中的语气音后的结果如下:
0S-1S:[笑声]
1S-2.3S:I go to Beijing today!
在语音到语音的翻译中,合成的语音通常很难保持原始说话人的特征.在一种简单的语音到语音的翻译中,系统直接使用语音合成音库中的声音进行合成。这样原始的非文字声音和翻译之后的文字语音可能存在明显的不匹配。
为此,根据本发明的进一步的实施例,上述根据提取的非文字信息调整翻译的目标语音的步骤104包括:对提取的非文字声音信息或翻译的语音进行后处理,以使提取的非文字声音信息和翻译的目标语音的语音特征相匹配;以及将经后处理的非文字声音信息添加到翻译的目标语音中,或将提取的非文字声音信息添加到经后处理的目标语音中。
这就是说,可以使用如下两种方法来使非文字声音和翻译后的文字语音更匹配:
一种方法是通过信号处理对非文字声音进行修改,以使其更匹配翻译之后的语音信息。比如,可以用语音转换(voice morphing)的方法,如频率弯曲(Frequency Warping),以合成语音库的声音作为目标,对非文字声音进行转换,使其吻合翻译之后的语音信息。如果不要求保留原始说话者的特征,则这种方法是优选的,因为文字语音信息的可懂度不会受到语音转换带来的音质损伤的影响。
另一种方法是在语音到语音翻译中加入音色转换步骤,将合成的声音转换为接近原始说话人的声音。这样的缺点在于修改导致的音质损伤可能会损害文字语音的可懂度。相对而言,对非文字信息修改带来的音质损伤则一般不会降低其可懂度。
当然,在本发明的其他实施例中,也可以不包括对提取的非文字声音信息或目标语音进行后处理的步骤。
经过以上步骤,源语音中非文字声音例如笑声便被保留在目标语音中。由于实际上源语音中的文字信息本身例如“我今天去北京”可以有多种含义,例如可以是简单的陈述,也可以是兴奋,也可以是疑问,等等,单纯从字面上很难判断说话人真实意图。而在目标语音中加入了原始的非文字声音例如笑声,就可以帮助人们更好地判断说话人的真实意图。
根据本发明的另一些实施例,所述非文字信息包括源语音中的语音单元的韵律信息。
根据本发明的实施例,所述语音单元可以是句子、短语、词、字或音节、音素中的任何一个。
根据本发明的实施例,所述韵律信息可以包括每个语音单元的时长、基频和能量中的任何一个或多个。
这就是说,在对源语音进行语音识别的同时,实际上同时可以获得每个语音单元的起始和结束位置,即识别出每个语音单元。所述语音单元可以是字、音节或音素,也可以是词、短语或句子。对于汉语,所述单元可以是字。这样便可以使用本领域中所知的任何方法提取每个语音单元对应的韵律信息:如时长,基频以及能量等。这些韵律信息也包含了丰富的信息。事实上,对于同样的文字,可以使用不同的韵律来表达不同的意义。比如,对同样的文字,可以通过不同的韵律,来强调不同的重点。比如对于“我今天去北京”,可以通过加长“北京”的时长以及提高“北京”的基频,来强调我要去“北京”而不是其他地方。同样也可以通过加长“今天”的时长以及提高“今天”的基频,来强调我是“今天”去而不是“明天”。
如果源语音中的某些语音单元在目标语音中没有对应的语音单元,则源语音中的这些语音单元的信息可被舍弃.
下面是针对一具有特定时长的示例性源语音,所抽取的具有特定时长的各语音单元。
0S-1.85S:我今天去北京
0S-0.242S:我
0.242S-0.486S:今
0.486S-0.735S  天
0.735S-1.002S:去
1.002S-1.495S:北
1.495S-1.850S:京
可以利用从源语音中提取的韵律信息来控制翻译后的目标语音的韵律信息。如上所述,控制的单元(即所述语音单元)可以是以较大单元,如句子,也可以是较小的单元,如词。但通常而言,控制的最小单元要与语音翻译中的最小单元一致。比如,语音翻译中的最小单元为词,则控制的最小单元也应该为词。这样可以在源语音的单元和目标语音的单元之间建立对应关系,以便利用源语音单元的韵律信息对目标语音的单元进行控制.
使用从源语音中提取的韵律信息对目标语音中的韵律信息进行控制可以有两种方法:
第一种方法是使用韵律信息的绝对值,即使得目标语音中的语音单元具有与源语音中相应的语音单元相同的韵律信息。比如源语音“我今天去北京”的时长为1.85S,那么翻译之后的目标语音“I go to Beijing today”的时长也可以设定为1.85S。又比如源语音“我今天去北京”的平均基频为200HZ,翻译之后的语音“I go to Beijing today”的平均基频也可以设定为200HZ。再比如,对于目标语音“I go to Beijing today”中的每个语音单元“I”、“go to”、“Beijing”、“today”,可以将平均基频设定为与源语音“我今天去北京”中相应的语音单元“我”、“去”、“北京”、“今天”平均基频相一致。
第二种方法使用韵律信息的相对值,即使用源语音中语音单元的韵律信息的真实值与该语音单元的韵律信息的基准值之间的比率来控制目标语音中的相应语音单元的韵律信息,所述韵律信息的基准值反映了该语音单元在正常情况下的或平均的韵律信息。比如一个特定源语音“我今天去北京”的真实时长为1.85S。首先估计句子“我今天去北京”的基准时长,即该句子在正常情况下的时长或该句子的平均时长,例如为1.375S。这样就可以获得源语音的真实时长与基准时长的比率,比如,该比率为1.85S/1.375S=1.2,这说明该特定源语音比正常语音的速度要慢。然后,估计目标语音的“I go to Beijing”的基准时长,例如为1.3S,这样,就可以获得该目标语音的时长为1.3S*1.2=1.65S。同样的方法可以应用于比句子更小的语音单元,例如词。例如,可以使用上述示例性源语音“我今天去北京”中语音单元“我”、“去”、“北京”、“今天”的时长和/或基频的相对值来控制目标语音“I go to Beijing today”中相应的语音单元“I”、“go to”、“Beijing”、“today”的时长和/或基频的值,从而可以更精确地反映说话者所强调的重点。当使用的语音单元较小例如为词时,优选利用韵律信息的相对值进行控制,因为语音翻译后的语音单元的韵律信息的绝对值可能相差很大,而其相对值仍然是有用的。
某个语音单元的韵律信息的基准值既可以代表该语音单元的该韵律信息在所有说话者中的平均值或正常值,也可以代表该语音单元的该韵律信息在某一类别(例如,儿童、成人、老人等类别)的所有说话者中的平均值或正常值。可以使用本领域中所知的很多方法来估计韵律信息的基准值。例如,对于句子的基准时长,一种简单的方法是根据字数乘以字的正常平均时长;也可以为每个字分别统计平均时长,然后将这些字的时长进行累加,以估计句子的基准时长。
当拥有足够的训练数据时,还可以构建决策树以对基准韵律信息进行更精确的估计。所述决策树包含语音单元(例如字)的韵律环境信息与其基准韵律信息之间的对应关系,所述韵律环境信息包括该语音单元在句子中所处的位置、其前后的语音等信息。使用训练数据构建这样的决策树的方法在本领域中是已知的。在这种更精确的基准韵律信息估计方法中,首先分析一特定源语音(例如句子)中每个语音单元(例如字)的韵律环境信息,并根据每个语音单元的韵律环境信息并使用所构建的决策树来预测每个语音单元的基准韵律信息,例如每个字的基准时长和/或基频等。然后,获得该特定源语音中每个语音单元的真实韵律信息,例如每个字的时长和/或基频等,这样就可以获得该特定源语音中每个语音单元的真实韵律信息与基准韵律信息之间的相对值。最后,可以使用所述相对值以及目标语音中各相应语音单元的基准韵律信息(所述目标语音中的基准韵律信息可以通过与以上相同的方法利用决策树来获得)来获得目标语音中各相应语音单元的最终韵律信息。当然,也可以将通过决策树获得的句子中每个字的基准时长进行累加,以估计出整个句子的基准时长。然后,将句子的真实时长除以基准时长,得到句子时长信息的相对值,以便利用这一相对值对翻译后的目标语音进行句子时长控制。
因此,根据本发明的一个实施例,上述提取源语音中的非文字信息的步骤102包括:提取每个语音单元的韵律信息;通过将每个语音单元的韵律信息与每个语音单元的基准韵律信息进行比较获得每个单元的韵律信息的相对值;并且其中,所述根据提取的非文字信息调整翻译的目标语音的步骤104包括根据所述获得的每个单元的韵律信息的相对值调整翻译的目标语音中相应单元的韵律信息。
根据本发明的一个实施例,根据该单元的韵律环境信息以及包含语音单元的韵律环境信息与其基准韵律信息之间的对应关系的决策树,获得所述每个单元的基准韵律信息。
以上描述了根据本发明的实施例的语音翻译方法,应指出的是,以上描述仅为示例,而不是对本发明的限制。在本发明的其他实施例中,该方法可具有更多、更少或不同的步骤,各步骤之间的顺序可以与所描述的不同或者可以并行执行,且某些步骤可以合并为更大的步骤或拆分为更小的步骤。例如,上述步骤102、104均可以和步骤103并行执行,或者可以在执行步骤103的过程中执行步骤102和104。所有这些变化都处于本发明的范围之内。
现在参照图2,其示出了根据本发明的实施例的一种语音翻译装置。该语音翻译装置可用于执行上述根据本发明的实施例的语音翻译方法。为简明起见,在以上描述中省略了与以上重复的部分细节,因此,可参照以上描述获得对本发明的语音翻译装置的更详细的了解。
如图所示,该语音翻译装置包括:接收模块201,用于接收源语音;提取模块202,用于提取源语音中的非文字信息;翻译模块203,用于将源语音翻译为目标语音;以及调整模块204,用于根据所述提取的非文字信息调整所述翻译的目标语音,从而使得最终的目标语音保留所述源语音中的非文字信息。
根据本发明的实施例,其中,所述非文字信息包括非文字声音信息。
根据本发明的进一步实施例,该装置还包括:位置识别模块,用于识别所述源语音中的非文字声音信息在所述源语音中的相对位置;并且其中,所述调整模块204用于在翻译的目标语音中相应的相对位置处添加相应的非文字声音信息。
根据本发明的实施例,其中所述调整模块204包括:后处理装置,用于对提取的非文字声音信息或翻译的目标语音进行后处理,以使提取的非文字声音信息和翻译的目标语音的语音特征相匹配;以及用于将经后处理的非文字声音信息添加到翻译的目标语音中,或将提取的非文字声音信息添加到经后处理的目标语音中的装置。
根据本发明的实施例,所述非文字信息包括源语音中语音单元的韵律信息。
根据本发明的实施例,所述语音单元是句子、短语、词、字或音节、音素中的任何一个。
根据本发明的实施例,所述韵律信息包括时长、基频和能量中的任何一个或多个。
根据本发明的实施例,所述提取模块202包括;用于提取每个单元的韵律信息的装置;用于通过将每个单元的韵律信息与每个单元的基准韵律信息进行比较获得每个单元的韵律信息的相对值的装置;并且所述调整模块204用于根据所述获得的每个单元的韵律信息的相对值控制所述目标语音中相应单元的韵律信息。
根据本发明的实施例,所述基准韵律信息是根据该单元的韵律环境信息以及包含语音单元的韵律环境信息与其基准韵律信息之间的对应关系的决策树获得的。
以上描述了根据本发明的实施例的语音翻译装置,应指出的是,以上描述仅为示例,而不是对本发明的限制。在本发明的其他实施例中,该装置可具有更多、更少或不同的模块,各步骤之间的连接、包含和功能关系可以与所描述的不同,且某些模块可以合并为更大的模块或拆分为更小的模块。例如,接收模块201、提取模块202和控制模块204中的任何一个或多个可以位于所述翻译模块203之内。所述这些变化都处于本发明的范围之内。
本发明可以硬件、软件、或硬件与软件的结合的方式实现。本发明可以集中的方式在一个计算机系统中实现,或以分布方式实现,在这种分布方式中,不同的部件分布在若干互连的计算机系统中。适于执行本文中描述的方法的任何计算机系统或其它装置都是合适的。一种典型的硬件和软件的组合可以是带有计算机程序的通用计算机系统,当该计算机程序被加载和执行时,控制该计算机系统而使其执行本发明的方法,并构成本发明的装置。
本发明也可体现在计算机程序产品中,该程序产品包含使能实现本文中描述的方法的所有特征,并且当其被加载到计算机系统中时,能够执行所述方法。
尽管已参照优选实施例具体示出和说明了本发明,但是本领域内的那些技术人员应理解,可在形式和细节上对其进行各种改变而不会背离本发明的精神和范围。

Claims (14)

1.一种语音翻译方法,包括:
接收源语音;
提取源语音中的非文字信息;
将源语音翻译为目标语音;以及
根据所述提取的非文字信息调整所述翻译的目标语音,从而使得最终的目标语音中保留所述源语音中的非文字信息,
其中,所述非文字信息包括语气音,所述方法还包括:识别所述源语音中的语气音在所述源语音中的相对位置;并且
其中,根据提取的非文字信息调整翻译的目标语音包括:在翻译的目标语音中相应的相对位置处,添加相应的语气音。
2.根据权利要求1的方法,其中,根据提取的非文字信息调整翻译的目标语音包括:
对提取的语气音或翻译的目标语音进行后处理,以使提取的语气音和翻译的目标语音的语音特征相匹配;以及
将经后处理的语气音添加到翻译的目标语音中,或将提取的语气音添加到经后处理的目标语音中。
3.根据权利要求1的方法,其中,所述非文字信息进一步包括源语音中的语音单元的韵律信息。
4.根据权利要求3的方法,其中所述语音单元是句子、短语、词、字或音节、音素中的任何一个。
5.根据权利要求4的方法,其中所述韵律信息包括语音单元的时长、基频和能量中的任何一个或多个。
6.根据权利要求3的方法,其中,所述提取源语音中的非文字信息包括:
提取每个语音单元的韵律信息;
通过将每个语音单元的韵律信息与该语音单元的基准韵律信息进行比较获得该语音单元的韵律信息的相对值;并且
其中,所述根据提取的非文字信息调整翻译的目标语音包括根据所述获得的每个语音单元的韵律信息的相对值调整翻译的目标语音中相应语音单元的韵律信息。
7.根据权利要求6的方法,其中,所述每个语音单元的基准韵律信息是根据该语音单元的韵律环境信息以及包含语音单元的韵律环境信息与其基准韵律信息之间的对应关系的决策树获得的。
8.一种语音翻译装置,包括:
接收模块,用于接收源语音;
提取模块,用于提取源语音中的非文字信息;
翻译模块,用于将源语音翻译为目标语音;以及调整模块,用于根据所述提取的非文字信息调整所述翻译的目标语音,从而使得最终的目标语音中保留所述源语音中的非文字信息,
其中,所述非文字信息包括源语音中的语气音,所述装置还包括:位置识别模块,用于识别所述源语音中的语气音在所述源语音中的相对位置;并且
其中,所述调整模块用于在翻译的目标语音中相应的相对位置处添加相应的语气音。
9.根据权利要求8的装置,所述调整模块包括:
后处理装置,用于对提取的语气音或翻译的目标语音进行后处理,以使提取的语气音和翻译的目标语音的语音特征相匹配;以及
用于将经后处理的语气音添加到翻译的目标语音中,或将提取的语气音添加到经后处理的目标语音中的装置。
10.根据权利要求8的装置,其中,所述非文字信息进一步包括源语音中语音单元的韵律信息。
11.根据权利要求10的装置,其中所述语音单元是句子、短语、词、字或音节、音素中的任何一个。
12.根据权利要求11的装置,其中所述韵律信息包括语音单元的时长、基频和能量中的任何一个或多个。
13.根据权利要求10的装置,其中,所述提取模块包括;
用于提取语音单元的韵律信息的装置;
用于通过将语音单元的韵律信息与该语音单元的基准韵律信息进行比较获得该语音单元的韵律信息的相对值的装置;并且
其中,所述调整模块用于根据所述获得的语音单元的韵律信息的相对值控制翻译的目标语音中相应语音单元的韵律信息。
14.根据权利要求13的装置,其中,所述基准韵律信息是根据该语音单元的韵律环境信息以及包含语音单元的韵律环境信息与其基准韵律信息之间的对应关系的决策树获得的。
CN2008101746288A 2008-10-31 2008-10-31 语音翻译方法和装置 Expired - Fee Related CN101727904B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2008101746288A CN101727904B (zh) 2008-10-31 2008-10-31 语音翻译方法和装置
US12/609,647 US9342509B2 (en) 2008-10-31 2009-10-30 Speech translation method and apparatus utilizing prosodic information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008101746288A CN101727904B (zh) 2008-10-31 2008-10-31 语音翻译方法和装置

Publications (2)

Publication Number Publication Date
CN101727904A CN101727904A (zh) 2010-06-09
CN101727904B true CN101727904B (zh) 2013-04-24

Family

ID=42132508

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101746288A Expired - Fee Related CN101727904B (zh) 2008-10-31 2008-10-31 语音翻译方法和装置

Country Status (2)

Country Link
US (1) US9342509B2 (zh)
CN (1) CN101727904B (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727904B (zh) * 2008-10-31 2013-04-24 国际商业机器公司 语音翻译方法和装置
US9069757B2 (en) * 2010-10-31 2015-06-30 Speech Morphing, Inc. Speech morphing communication system
DE102011055672A1 (de) * 2011-11-24 2013-05-29 Ben Fredj Mehdi Verfahren zur Extraktion und Übersetzung eines Sprachinhalts, Vorrichtung auf dem das Verfahren durchführbar gespeichert ist und Verwendung eines dezentralen Netzwerks zur Durchführung des Verfahrens
CN104754536A (zh) * 2013-12-27 2015-07-01 中国移动通信集团公司 一种不同语言间实现通信的方法和系统
EP3232395A4 (en) * 2014-12-09 2018-07-11 Sony Corporation Information processing device, control method, and program
CN105786801A (zh) * 2014-12-22 2016-07-20 中兴通讯股份有限公司 一种语音翻译方法、通讯方法及相关装置
KR102251832B1 (ko) 2016-06-16 2021-05-13 삼성전자주식회사 번역 서비스를 제공하는 전자 장치 및 방법
EP3491642A4 (en) * 2016-08-01 2020-04-08 Speech Morphing Systems, Inc. METHOD FOR MODELING AND TRANSMITTING TAG PROSODY IN LANGUAGES
KR102580904B1 (ko) * 2016-09-26 2023-09-20 삼성전자주식회사 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스
US20180174577A1 (en) * 2016-12-19 2018-06-21 Microsoft Technology Licensing, Llc Linguistic modeling using sets of base phonetics
CN107315742A (zh) * 2017-07-03 2017-11-03 中国科学院自动化研究所 具有人机对话功能的拟人化口语翻译方法及系统
WO2019071541A1 (zh) * 2017-10-12 2019-04-18 深圳市沃特沃德股份有限公司 语音翻译方法、装置和终端设备
CN107992485A (zh) * 2017-11-27 2018-05-04 北京搜狗科技发展有限公司 一种同声传译方法及装置
CN108090051A (zh) * 2017-12-20 2018-05-29 深圳市沃特沃德股份有限公司 连续长语音文件的翻译方法与翻译机
KR102199067B1 (ko) * 2018-01-11 2021-01-06 네오사피엔스 주식회사 다중 언어 텍스트-음성 합성 방법
CN108231062B (zh) * 2018-01-12 2020-12-22 科大讯飞股份有限公司 一种语音翻译方法及装置
CN108447486B (zh) * 2018-02-28 2021-12-03 科大讯飞股份有限公司 一种语音翻译方法及装置
CN112037768A (zh) * 2019-05-14 2020-12-04 北京三星通信技术研究有限公司 语音翻译方法、装置、电子设备及计算机可读存储介质
EP3909045A4 (en) * 2019-05-14 2022-03-16 Samsung Electronics Co., Ltd. METHOD, APPARATUS, ELECTRONIC DEVICE AND COMPUTER READABLE MATERIAL FOR VOICE TRANSLATION
US11587561B2 (en) * 2019-10-25 2023-02-21 Mary Lee Weir Communication system and method of extracting emotion data during translations
CN111128116B (zh) * 2019-12-20 2021-07-23 珠海格力电器股份有限公司 一种语音处理方法、装置、计算设备及存储介质
CN113781997A (zh) * 2021-09-22 2021-12-10 联想(北京)有限公司 语音合成方法及电子设备
CN113921011A (zh) * 2021-10-14 2022-01-11 安徽听见科技有限公司 音频处理方法、装置及设备
CN114495977B (zh) * 2022-01-28 2024-01-30 北京百度网讯科技有限公司 语音翻译和模型训练方法、装置、电子设备以及存储介质
US20230245644A1 (en) * 2022-01-28 2023-08-03 Speech Morphing Systems, Inc. End-to-end modular speech synthesis systems and methods
US20230274100A1 (en) * 2022-02-28 2023-08-31 Google Llc Techniques and Models for Multilingual Text Rewriting

Family Cites Families (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5615380A (en) * 1969-11-24 1997-03-25 Hyatt; Gilbert P. Integrated circuit computer system having a keyboard input and a sound output
US5278943A (en) * 1990-03-23 1994-01-11 Bright Star Technology, Inc. Speech animation and inflection system
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
SE500277C2 (sv) * 1993-05-10 1994-05-24 Televerket Anordning för att öka talförståelsen vid översätttning av tal från ett första språk till ett andra språk
US5860064A (en) * 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
SE516526C2 (sv) * 1993-11-03 2002-01-22 Telia Ab Metod och anordning vid automatisk extrahering av prosodisk information
US5704007A (en) * 1994-03-11 1997-12-30 Apple Computer, Inc. Utilization of multiple voice sources in a speech synthesizer
US5734794A (en) * 1995-06-22 1998-03-31 White; Tom H. Method and system for voice-activated cell animation
US6006175A (en) * 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
US5850629A (en) * 1996-09-09 1998-12-15 Matsushita Electric Industrial Co., Ltd. User interface controller for text-to-speech synthesizer
US5884266A (en) 1997-04-02 1999-03-16 Motorola, Inc. Audio interface for document based information resource navigation and method therefor
US6226614B1 (en) * 1997-05-21 2001-05-01 Nippon Telegraph And Telephone Corporation Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon
JP4197195B2 (ja) * 1998-02-27 2008-12-17 ヒューレット・パッカード・カンパニー 音声情報の提供方法
US6236966B1 (en) * 1998-04-14 2001-05-22 Michael K. Fleming System and method for production of audio control parameters using a learning machine
US6631368B1 (en) 1998-11-13 2003-10-07 Nortel Networks Limited Methods and apparatus for operating on non-text messages
JP2000187435A (ja) * 1998-12-24 2000-07-04 Sony Corp 情報処理装置、携帯機器、電子ペット装置、情報処理手順を記録した記録媒体及び情報処理方法
US6356865B1 (en) * 1999-01-29 2002-03-12 Sony Corporation Method and apparatus for performing spoken language translation
US6442524B1 (en) * 1999-01-29 2002-08-27 Sony Corporation Analyzing inflectional morphology in a spoken language translation system
US6697780B1 (en) * 1999-04-30 2004-02-24 At&T Corp. Method and apparatus for rapid acoustic unit selection from a large speech corpus
JP2001034282A (ja) * 1999-07-21 2001-02-09 Konami Co Ltd 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体
US6535849B1 (en) * 2000-01-18 2003-03-18 Scansoft, Inc. Method and system for generating semi-literal transcripts for speech recognition systems
US20030028380A1 (en) * 2000-02-02 2003-02-06 Freeland Warwick Peter Speech system
US6847931B2 (en) * 2002-01-29 2005-01-25 Lessac Technology, Inc. Expressive parsing in computerized conversion of text to speech
US7254531B2 (en) * 2000-09-05 2007-08-07 Nir Einat H In-context analysis and automatic translation
US6731307B1 (en) * 2000-10-30 2004-05-04 Koninklije Philips Electronics N.V. User interface/entertainment device that simulates personal interaction and responds to user's mental state and/or personality
JP4687936B2 (ja) * 2001-03-22 2011-05-25 ソニー株式会社 音声出力装置および音声出力方法、並びにプログラムおよび記録媒体
US6895376B2 (en) * 2001-05-04 2005-05-17 Matsushita Electric Industrial Co., Ltd. Eigenvoice re-estimation technique of acoustic models for speech recognition, speaker identification and speaker verification
EP1256931A1 (en) * 2001-05-11 2002-11-13 Sony France S.A. Method and apparatus for voice synthesis and robot apparatus
GB0113583D0 (en) * 2001-06-04 2001-07-25 Hewlett Packard Co Speech system barge-in control
IL144818A (en) * 2001-08-09 2006-08-20 Voicesense Ltd Method and apparatus for speech analysis
US20080300856A1 (en) * 2001-09-21 2008-12-04 Talkflow Systems, Llc System and method for structuring information
US7401020B2 (en) * 2002-11-29 2008-07-15 International Business Machines Corporation Application of emotion-based intonation and prosody to speech in text-to-speech systems
JP2003295882A (ja) * 2002-04-02 2003-10-15 Canon Inc 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム
WO2003085914A2 (en) * 2002-04-02 2003-10-16 Worldcom, Inc. Billing system for services provided via instant communications
US8494859B2 (en) * 2002-10-15 2013-07-23 Gh, Llc Universal processing system and methods for production of outputs accessible by people with disabilities
JP3667332B2 (ja) * 2002-11-21 2005-07-06 松下電器産業株式会社 標準モデル作成装置及び標準モデル作成方法
US6961704B1 (en) * 2003-01-31 2005-11-01 Speechworks International, Inc. Linguistic prosodic model-based text to speech
JP3950802B2 (ja) * 2003-01-31 2007-08-01 株式会社エヌ・ティ・ティ・ドコモ 顔情報送信システム、顔情報送信方法、顔情報送信プログラム、及びコンピュータ読取可能な記録媒体
US7280968B2 (en) * 2003-03-25 2007-10-09 International Business Machines Corporation Synthetically generated speech responses including prosodic characteristics of speech inputs
JP2004349851A (ja) * 2003-05-20 2004-12-09 Ntt Docomo Inc 携帯端末、画像通信プログラム、及び画像通信方法
US20050144002A1 (en) * 2003-12-09 2005-06-30 Hewlett-Packard Development Company, L.P. Text-to-speech conversion with associated mood tag
US8433580B2 (en) * 2003-12-12 2013-04-30 Nec Corporation Information processing system, which adds information to translation and converts it to voice signal, and method of processing information for the same
KR100571831B1 (ko) * 2004-02-10 2006-04-17 삼성전자주식회사 음성 식별 장치 및 방법
US7472065B2 (en) * 2004-06-04 2008-12-30 International Business Machines Corporation Generating paralinguistic phenomena via markup in text-to-speech synthesis
GB2415518A (en) * 2004-06-24 2005-12-28 Sharp Kk Method and apparatus for translation based on a repository of existing translations
JP4328698B2 (ja) * 2004-09-15 2009-09-09 キヤノン株式会社 素片セット作成方法および装置
DE102004050785A1 (de) * 2004-10-14 2006-05-04 Deutsche Telekom Ag Verfahren und Anordnung zur Bearbeitung von Nachrichten im Rahmen eines Integrated Messaging Systems
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
TWI281145B (en) * 2004-12-10 2007-05-11 Delta Electronics Inc System and method for transforming text to speech
JP4125362B2 (ja) * 2005-05-18 2008-07-30 松下電器産業株式会社 音声合成装置
JP3910628B2 (ja) * 2005-06-16 2007-04-25 松下電器産業株式会社 音声合成装置、音声合成方法およびプログラム
JP4559950B2 (ja) * 2005-10-20 2010-10-13 株式会社東芝 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム
CA2536976A1 (en) * 2006-02-20 2007-08-20 Diaphonics, Inc. Method and apparatus for detecting speaker change in a voice transaction
US7983910B2 (en) * 2006-03-03 2011-07-19 International Business Machines Corporation Communicating across voice and text channels with emotion preservation
US8032356B2 (en) 2006-05-25 2011-10-04 University Of Southern California Spoken translation system using meta information strings
JP4175390B2 (ja) * 2006-06-09 2008-11-05 ソニー株式会社 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
WO2007148493A1 (ja) * 2006-06-23 2007-12-27 Panasonic Corporation 感情認識装置
US7860719B2 (en) * 2006-08-19 2010-12-28 International Business Machines Corporation Disfluency detection for a speech-to-speech translation system using phrase-level machine translation with weighted finite state transducers
US7860705B2 (en) * 2006-09-01 2010-12-28 International Business Machines Corporation Methods and apparatus for context adaptation of speech-to-speech translation systems
US8027837B2 (en) * 2006-09-15 2011-09-27 Apple Inc. Using non-speech sounds during text-to-speech synthesis
KR100859532B1 (ko) * 2006-11-06 2008-09-24 한국전자통신연구원 대응 문형 패턴 기반 자동통역 방법 및 장치
US8438032B2 (en) * 2007-01-09 2013-05-07 Nuance Communications, Inc. System for tuning synthesized speech
JP4213755B2 (ja) * 2007-03-28 2009-01-21 株式会社東芝 音声翻訳装置、方法およびプログラム
US20080300855A1 (en) * 2007-05-31 2008-12-04 Alibaig Mohammad Munwar Method for realtime spoken natural language translation and apparatus therefor
JP2009048003A (ja) * 2007-08-21 2009-03-05 Toshiba Corp 音声翻訳装置及び方法
CN101399044B (zh) * 2007-09-29 2013-09-04 纽奥斯通讯有限公司 语音转换方法和系统
US7996214B2 (en) * 2007-11-01 2011-08-09 At&T Intellectual Property I, L.P. System and method of exploiting prosodic features for dialog act tagging in a discriminative modeling framework
US8224652B2 (en) * 2008-09-26 2012-07-17 Microsoft Corporation Speech and text driven HMM-based body animation synthesis
US8571849B2 (en) * 2008-09-30 2013-10-29 At&T Intellectual Property I, L.P. System and method for enriching spoken language translation with prosodic information
CN101727904B (zh) * 2008-10-31 2013-04-24 国际商业机器公司 语音翻译方法和装置
CN102237081B (zh) * 2010-04-30 2013-04-24 国际商业机器公司 语音韵律评估方法与系统

Also Published As

Publication number Publication date
US20100114556A1 (en) 2010-05-06
CN101727904A (zh) 2010-06-09
US9342509B2 (en) 2016-05-17

Similar Documents

Publication Publication Date Title
CN101727904B (zh) 语音翻译方法和装置
CN101178896B (zh) 基于声学统计模型的单元挑选语音合成方法
CN1169115C (zh) 语音合成系统及方法
CA2351988C (en) Method and system for preselection of suitable units for concatenative speech
US7590540B2 (en) Method and system for statistic-based distance definition in text-to-speech conversion
US9865251B2 (en) Text-to-speech method and multi-lingual speech synthesizer using the method
CN104217713A (zh) 汉藏双语语音合成方法及装置
KR20170041105A (ko) 음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법
CN101872615A (zh) 用于分布式文本到话音合成以及可理解性的系统和方法
CN103632663B (zh) 一种基于hmm的蒙古语语音合成前端处理的方法
CN109326280B (zh) 一种歌唱合成方法及装置、电子设备
JP2024505076A (ja) 多様で自然なテキスト読み上げサンプルを生成する
TWI503813B (zh) 可控制語速的韻律訊息產生裝置及語速相依之階層式韻律模組
KR20100068965A (ko) 자동 통역 장치 및 그 방법
CN101178895A (zh) 基于生成参数听感误差最小化的模型自适应方法
KR100669241B1 (ko) 화행 정보를 이용한 대화체 음성합성 시스템 및 방법
EP1589524B1 (en) Method and device for speech synthesis
CN1979636B (zh) 一种音标到语音的转换方法
CN117636842B (zh) 基于韵律情感迁移的语音合成系统及方法
CN102752239B (zh) 一种提供音库混合训练模型的方法和系统
CN114420086B (zh) 语音合成方法和装置
CN115910033B (zh) 一种语音的合成方法、装置、电子设备及可读存储介质
US11335321B2 (en) Building a text-to-speech system from a small amount of speech data
CN114242108A (zh) 一种信息处理方法及相关设备
Nitisaroj et al. The Lessac Technologies system for Blizzard Challenge 2010

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: NUANCE COMMUNICATIONS, INC.

Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINES CORPORATION

Effective date: 20140108

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140108

Address after: Massachusetts, USA

Patentee after: Nuance Communications, Inc.

Address before: American New York

Patentee before: International Business Machines Corp.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130424