CN1159702C - 具有情感的语音-语音翻译系统和方法 - Google Patents

具有情感的语音-语音翻译系统和方法 Download PDF

Info

Publication number
CN1159702C
CN1159702C CNB011165243A CN01116524A CN1159702C CN 1159702 C CN1159702 C CN 1159702C CN B011165243 A CNB011165243 A CN B011165243A CN 01116524 A CN01116524 A CN 01116524A CN 1159702 C CN1159702 C CN 1159702C
Authority
CN
China
Prior art keywords
emotional expression
voice
parameter
expression parameter
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB011165243A
Other languages
English (en)
Other versions
CN1379392A (zh
Inventor
ƶ��׿�
唐道南
沈丽琴
施勤
张维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to CNB011165243A priority Critical patent/CN1159702C/zh
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to DE60216069T priority patent/DE60216069T2/de
Priority to KR10-2003-7012731A priority patent/KR20030085075A/ko
Priority to EP02708485A priority patent/EP1377964B1/en
Priority to PCT/GB2002/001277 priority patent/WO2002084643A1/en
Priority to JP2002581513A priority patent/JP4536323B2/ja
Priority to AT02708485T priority patent/ATE345561T1/de
Publication of CN1379392A publication Critical patent/CN1379392A/zh
Priority to US10/683,335 priority patent/US7461001B2/en
Application granted granted Critical
Publication of CN1159702C publication Critical patent/CN1159702C/zh
Priority to US12/197,243 priority patent/US7962345B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种具有情感的语音-语音翻译系统和方法。本发明的系统包括:语音识别装置、机器翻译装置、文本-语音生成装置、情感表述参数检测装置以及情感表述参数映射装置,其中,情感表述参数检测装置用于从原始语音信号中提取情感表述参数,而情感表述参数映射装置,用于将所述情感表述参数从一种语言(方言)映射到另一种语言(方言),并将映射结果作用于文本-语音生成装置,使其产生可以传达情感的语音输出。

Description

具有情感的语音-语音翻译系统和方法
技术领域
本发明一般涉及机器翻译,具体地说涉及具有情感的语音-语音翻译系统和方法。
背景技术
机器翻译是利用计算机使一种语言的文字或语音翻译为另一种语言的文字或语音的技术。即在语言学的关于语言形式和结构分析的理论基础上,依靠数学方法建立词典、语法并利用计算机巨大的存储容量和数据处理能力,在没有人工干预的情况下实现从一种语言到另一种语言的自动翻译。
目前的机器翻译系统通常是基于文本的翻译系统,即用于将一种语言文字翻译为另一种语言文字。但随着社会发展,需要基于的语音翻译系统,即能够进行语音-语音的翻译。可以利用现有的语音识别技术、基于文本的翻译技术以及TTS(文本-语音)技术实现语音-语音的翻译,即,首先利用语音识别技术对第一种语言的语音进行识别,形成第一种语言的文本表示;使用现有的翻译技术将第一种语言的文本表示翻译成第二种语言的文本表示;再利用成熟的TTS技术根据第二种语言的文本表示产生第二种语言的语音输出。
然而,现有的TTS(文本-语音)系统通常产生缺乏情感的单调的语音。在现有的TTS系统中,首先对所有字/词的标准发音按合成音记录并对此进行分析,然后在字/词级将用于标准“表述”的相关参数存储在字典中。通过字典中定义的标准控制参数和常用的平滑技术由各个合成分量产生合成的字/词。这种语音生成方式不能基于语句的含义和讲话者的情绪状态生成可以生动地表征情感的语音。
发明内容
为此,本发明提出了一种具有情感的语音-语音翻译系统和方法。
根据本发明的具有情感的语音-语音翻译系统和方法,利用从原始语音信号中获得的情感表述参数驱动标准TTS系统,产生可以带有情感的语音输出。
本发明的一个目标是提供一种具有情感的语音-语音翻译系统,包括:语音识别装置,用于对语言A的语音表示进行识别,形成语言A的文本表示;机器翻译装置,用于将语言A的文本表示翻译成语言B的文本表示;文本-语音生成装置,用于根据语言B的文本表示生成语言B的语音表示,所述具有情感的语音-语音翻译系统的特征在于还包括:情感表述参数检测装置,用于从语言A的语音表示中提取情感表述参数;以及情感表述参数映射装置,用于将情感表述参数检测装置提取的情感表述参数从语言A映射到语言B,然后再通过字词级变换映射和语句级变换映射将用于语言B的情感表述参数变换成用于调节文本-语音生成装置的参数,并将映射结果作用于文本-语音生成装置,使其产生可以传达情感的语音输出。
本发明的再一个目标是提供一种可以传达情感的语音-语音翻译方法,包括以下步骤:对语言A的语音表示进行识别,形成语言A的文本表示;将语言A的文本表示翻译成语言B的文本表示;根据语言B的文本表示生成语言B的语音表示,所述能够传达情感的语音-语音翻译方法的特征在于还包括以下步骤:从语言A的语音表示中提取情感表述参数;以及将在情感表述参数检测步骤提取的情感表述参数从语言A映射到语言B,然后再通过字词级变换映射和语句级变换映射将用于语言B的情感表述参数变换成用于调节TTS的参数,并将映射结果作用于文本-语音生成步骤,从而产生可以传达情感的语音输出。
此外,本发明还提供了可以在同种语言的不同方言之间进行语音-语音翻译的方法和系统。
所述具有情感的语音-语音翻译系统包括:语音识别装置,用于对一种方言A的语音进行识别,形成其文本表示;文本-语音生成装置,根据所述文本表示生成另一种方言B的语音表示;所述具有情感的语音-语音翻译系统的特征还在于包括:情感表述参数检测装置,用于从方言A的语音表示中提取情感表述参数;以及情感表述参数映射装置,用于将情感表述参数检测装置提取的情感表述参数从方言A映射到方言B,然后再通过字词级变换映射和语句级变换映射将用于方言B的情感表述参数变换成用于调节TTS的参数,并将映射结果作用于文本-语音生成装置,使其产生可以传达情感的语音输出。
所述能够传达情感的语音-语音翻译方法包括以下步骤:对一种方言A的语音进行识别,形成其文本表示;根据所述文本表示生成另一种方言B的语音表示;所述能够传达情感的语音-语音翻译方法的特征还在于包括以下步骤:从方言A的语音表示中提取情感表述参数;以及将情感表述参数检测步骤提取的情感表述参数从方言A映射到方言B并将映射结果作用于文本-语音生成步骤,从而产生可以传达情感的语音输出。
本发明的具有情感的语音-语音翻译系统和方法可以改善翻译系统或TTS系统的语音输出质量。
通过以下结合附图的说明,本发明的其它目标和优点将会更加清楚。详细的描述和具体的实施例只是为了进行说明而提供的,因为在本发明的精神范围内对于这些实施例的添加和改进对于本领域技术人员来说是显而易见的。
附图说明
图1是根据本发明一优选实施例的具有情感的语音-语音翻译系统的方框图;
图2是根据本发明一优选实施例的图1中的情感表述参数检测装置的方框图;
图3是根据本发明一优选实施例的图1中的情感表述参数映射装置的方框图;
图4是根据本发明另一优选实施例的具有情感的语音-语音翻译系统的方框图;
图5是一流程图,描述了根据本发明一优选实施例的可以传达情感的语音-语音翻译过程;
图6是一流程图,描述了根据本发明一优选实施例的情感表述参数检测过程;
图7是一流程图,描述了根据本发明一优选实施例的情感表述参数映射以及调节TTS参数的形成过程;以及
图8是一流程图,描述了根据本发明另一优选实施例的可以传达情感的语音-语音翻译过程。
具体实施方式
如图1所示,根据末发明一优选实施例的具有情感的语音-语音翻译系统包括:语音识别装置101、机器翻译装置102、文本-语音生成装置103、情感表述参数检测装置104以及情感表述参数映射装置105。其中,语音识别装置101用于对语言A的语音表示进行识别,形成语言A的文本表示;机器翻译装置102用于将语言A的本文表示翻译成语言B的文本表示;文本-语音生成装置103用于根据语言B的文本表示生成语言B的语音表示;情感表示参数检测装置104用于从语言A的语音表示中提取情感表述参数;并且,情感表述参数映象装置105用于将情感表述参数检测装置提取的情感表述参数从语言A映射到语言B,并将映射结果作用于文本-语音生成装置,使其产生可以传达情感的语音输出。
正如本领域技术人员所熟知的,语音识别装置、机器翻译装置以及TTS装置都是可以使用现有技术来实现的。因此,以下只结合图2和图3描述一下根据本发明优选实施例的情感表述参数检测装置和情感表述参数映射装置。
首先介绍一下可以反映语音情感的关键性参数。可以在不同层次上定义反映语音情感的关键性参数。
1.在字/词级,反映语音情感的关键性参数有:速度(持续时间)、响度(能量级)以及基频(包括范围和音调)。注意,由于一个词通常由几个语音合成单元(在汉语中大多数词由两个以上字/音节组成),所以还必须在语音合成单元级以向量或时间序列的形式定义语音的情感表述参数。例如,当人们很生气时,他/她所说的字/词的响度就非常高,字/词的基频也比通常高,并且其包络不平滑,而且许多基频消失,同时持续时间变短。另一例子是,当人们在正常情况下说话时,可能会强调语句中的一些字/词,这样这些字/词的基频、响度、持续时间就会发生变化。
2.在语句级,我们将焦点放在语调上。例如,疑问句的包络不同于陈述句。
以下就结合图2和图3描述一下根据本发明一优选实施例的情感表述参数检测装置以及情感表述参数映射装置是如何工作的。即如何提取情感表述参数以及如何利用提取的情感表述参数驱动现有的TTS装置产生能够传达情感的语音输出。
如图2所示,本发明情感表述参数检测装置包括以下模块:
模块A:分析说话者语音的基频、持续时间和响度。在模块A,我们利用语音识别的结果进行语音和字/词(或字符)之间的对准。并按如下结构记录对准结果:
句子内容
{
    字/词编号
    字/词内容
    {  文本;
        文本的语音;
        字/词位置;
        字/词属性;
        语音开始时间;
        语音结束时间;
       *语音的波形;
        语音参数内容;
            {*绝对参数;
               *相对参数;
            }
        }
    }
然后我们使用Short Time Analyze(短时分析)方法得到如下参数:
1.每个短时窗口的短时能量。
2.检测字/词的基频包络。
3.字/词的持续时间。
由以上参数进一步得出:
1.字/词中平均短时能量。
2.字/词中最大的N个短时能量。
3.基频范围、最大基频、最小基频以及一个字/词中的基频数。
4.字/词的持续时间。
模块B:该模块根据语音识别的结果(文本),使用标准语言A的TTS系统产生不表征情感的语言A的语音。然后分析无情感TTS的参数。以此参数作为基准。
模块C:分析有情感语音和标准语音之间以上参数的变化。其原因是不同人讲话的响度、基频以及速度可能不同,即使相同的人,在不同时间说相同的语句其参数也可能不同,所以在根据基准语音分析字/词在语句中的作用时,我们使用相对参数。
我们使用对参数进行归一化的方法从绝对参数中得到相对参数:
1.字/词中相对平均短时能量。
2.字/词中最大的N个相对短时能量。
3.字/词中相对基频范围、相对最大基频、相对最小基频。
4.字/词的相对持续时间。
模块D:根据来自标准语音参数的基准,在字/词级和语句级分析表述情感的参数。
1.在字/词级,我们比较有情感语音和标准语音之间的相对参数,以检测出哪些字/词的参数发生了大的变化。
2.在语句级,根据变化的等级以及字/词的特性对字/词排序,找出语句中关键的带有情感表述的字/词。
模块E:根据参数比较的结果和有关什么样的情感将引起哪参数变化的知识,得出句子的表征情感的参数,即检测出情感表述参数,并按以下结构记录:
情感表述信息
{
    语句的情感表述类型;
    字/词内容
        {  文本;
            情感表述类型;
            情感表述级;
           *情感表述参数;
        };
    }
例如,当用汉语生气地说“闭嘴!”时,很多基频消失,并且其绝对响度大于基准,同时相对响度非常尖锐,持续时间大大短于基准,于是可以在语句级得出该句子的情感为生气。情感表述关键词是“闭嘴”。
下面再结合图3A,3B描述一下根据本发明一优选实施例的情感表述参数映射装置是如何构成的。其包括:
模块A:用于根据机器翻译的结果把表征情感的参数结构从语言A映射到语言B。其关键是找出语言A中对于表述情感来说是关键的字/词对应于语言B中的哪些字/词。其映射结果如下:
            语言B的语句内容
            {
                语句情感表述类型;
                语言B的字/词内容;
                {   文本;
                    文本的语音;
                    在语句中的位置;
                    在语言A中的字/词情感表述信息;
                    在语言B中的字/词情感表述信息;
                }
            }
            语言A的字/词情感表述
            {   文本;
                情感表述类型;
                情感表述级;
               *情感表述参数;
            }
            语言B的字/词情感表述
            {
                情感表述类型;
                情感表述级;
               *情感表述参数;
            }
模块B:根据映射结果产生可以驱动语言B的TTS的调节参数,在此,我们使用语言B的情感表述参数表,其根据情感表述参数给出字/词的合成参数。表中参数是一相对调节参数。
具体过程如图3B所示,语言B的情感表述参数经过两级变换表(字/词级变换表和语句级变换表)变换之后形成用于调节TTS的参数。
两级变换表分别是:
1.字/词级变换表,用于将情感表述参数变换成调节TTS的参数,表的结构如下:
字/词TTS调节参数的结构
{
    情感表述参数类型;
    情感表述参数;
    TTS调节参数;
};
TTS调节参数的结构
{
    float Fsen_P_rate;
    float Fsen_am_rate;
    float Fph_t_rate;
    struct Equation Expressive_equat;(用于改变基频包络的曲线特性)
};
2.语句级变换表,用于根据语句的类型给出语句级上的韵律参数,该韵律参数可用于对上述字/词TTS调节参数做进一步调整。
语句级TTS调节参数的结构
{
        情感类型;
        字/词位置;
        字/词属性;
        TTS调节参数;
};
TTS调节参数的结构
{
        float Fsen_P_rate;
        float Fsen_am_rate;
        float Fph_t_rate;
        struct Equation Expressive_equat;(用于改变基频包络的曲线特性)
};
以上结合具体实施例描述了根据本发明的语音-语音翻译系统。正如本领域一般技术人员所认识别的,本发明还可以用于在同一种语言的不同方言之间进行语音-语音的翻译。如图4所示,该系统类似于图1所示的翻译系统,区别仅在于,在同种语言不同方言之间进行语音翻译就不再需要机器翻译装置。具体地说,语音识别装置101用于对一种方言A的语音进行识别,形成其文本表示;文本-语音生成装置103根据所述文本表示生成另一种方言B的语音表示;情感表述参数检测装置104用于从方言A的语音表示中提取情感表述参数;并且,情感表述参数映射装置105用于将情感表述参数检测装置104提取的情感表述参数从方言A映射到方言B,并将映射结果作用于文本-语音生成装置,使其产生可以传达情感的语音输出。
以上结合图1-图4介绍了根据本发明的具有情感的语音-语音翻译系统,其利用从原始语音信号等中获得的情感表述参数驱动标准TTS系统,产生可以传达情感的语音输出。
本发明还提供了一种可以传达情感的语音-语音翻译方法。下面就结合图5-图8描述一下根据本发明一个具体实施例的可以传达情感的语音-语音翻译过程。
如图5所示,根据末发明一优选实施例的可以传达情感的语音-语音翻译方法包括以下步骤:对语言A的语音表示进行识别,形成语言A的文本表示(501);将语言A的本文表示翻译成语言B的文本表示(502);根据语言B的文本表示生成语言B的语音表示(503);从语言A的语音表示中提取情感表述参数(504);以及,将情感表述参数检测步骤提取的情感表述参数从语言A映射到语言B,并将映射结果作用于文本-语音生成步骤,从而产生可以传达情感的语音输出(505)。
以下就结合图6和图7描述一下根据本发明一优选实施例的情感表述参数检测过程以及情感表述参数映射过程。即如何提取情感表述参数以及如何利用提取的情感表述参数驱动现有的TTS过程产生可以传达情感的语音输出。
如图6所示,本发明情感表述参数检测过程包括以下步骤:
步骤601:分析说话者语音的基频、持续时间和响度。在步骤601,我们利用语音识别的结果进行语音和字/词(或字符)之间的对准。然后我们使用Short Time Analyze(短时分析)方法得到如下参数:
1.每个短时窗口的短时能量。
2.检测字/词的基基频的包络。
3.字/词的持续时间。
由以上参数进一步得出:
1.字/词中平均短时能量。
2.字/词中最大的N个短时能量。
3.基频范围、最大基频、最小基频以及一个字/词中的基频数。
4.字/词的持续时间。
步骤602:根据语音识别的结果(文本),使用标准语言A的TTS过程产生不表征情感的语言A的语音。然后分析无情感TTS的参数。以此参数作为基准。
步骤603:分析有情感语音和标准语音之间以上参数的变化。其原因是不同人讲话的响度、基频以及速度可能不同,即使相同的人,在不同时间说相同的语句其参数也可能不同,所以在根据基准语音分析字/词在语句中的作用时,我们使用相对参数。
我们使用对参数进行归一化的方法从绝对参数中得到相对参数:
1.字/词中相对平均短时能量。
2.字/词中最大的N个相对短时能量。
3.字/词中相对基频范围、相对最大基频、相对最小基频。
4.字/词的相对持续时间。
步骤604:根据来自标准语音参数的基准,在字/词级和语句级分析表述情感的参数。
1.在字/词级,我们比较有情感语音和标准语音之间的相对参数,以检测出哪些字/词的参数发生了大的变化。
2.在语句级,根据变化的等级以及字/词的特性对字/词排序,找出语句中关键的带有情感表述的字/词。
步骤605:根据参数比较的结果和有关什么样的情感将引起哪参数变化的知识,得出句子的表征情感的参数,即检测出情感表述参数。
下面再结合图7描述一下根据本发明一优选实施例的情感表述参数映射过程。其包括:
步骤701:用于根据机器翻译的结果把表征情感的参数结构从语言A映射到语言B。其关键是找出语言A中对于表述情感来说是重要的字/词对应于语言B中的哪些字/词。
步骤702:根据映射结果产生可以驱动语言B的TTS的参数,以产生表征情感的语音输出。在此,我们使用语言B的情感表述参数表,其根据情感表述参数给出字/词的合成参数。
以上结合具体实施例描述了根据本发明的语音-语音翻译方法。正如本领域一般技术人员所认识别的,本发明还可以用于在同一种语言的不同方言之间进行语音-语音的翻译。如图8所示,该过程类似于图5所示的翻译过程,区别仅在于,在同种语言不同方言之间进行语音翻译就不再需要文本翻译过程。具体地说包括以下步骤:对一种方言A的语音进行识别,形成其文本表示(801);根据所述文本表示生成另一种方言B的语音表示(802);从方言A的语音表示中提取情感表述参数(803);以及,将情感表述参数检测步骤提取的情感表述参数从方言A映射到方言B,并将映射结果作用于文本-语音生成过程,从而产生可以传达情感的语音输出(804)。
以上结合附图描述了根据本发明优选实施例的具有情感的语音-语音翻译系统和方法。正如本领域技术人员所熟知的,在不背离本发明的精神实质和范围的情况下,本发明可以具有许多修改和变型,本发明将包括所有的这些修改和变型,本发明的保护范围应由所附权利要求书来限定。

Claims (20)

1.一种具有情感的语音-语音翻译系统,包括:
语音识别装置,用于对语言A的语音表示进行识别,形成语言A的文本表示;
机器翻译装置,用于将语言A的文本表示翻译成语言B的文本表示;
文本-语音生成装置,用于根据语言B的文本表示生成语言B的语音表示,
所述具有情感的语音-语音翻译系统的特征在于还包括:
情感表述参数检测装置,用于从语言A的语音表示中提取情感表述参数;以及
情感表述参数映射装置,用于将情感表述参数检测装置提取的情感表述参数从语言A映射到语言B,然后再通过字词级变换映射和语句级变换映射将用于语言B的情感表述参数变换成用于调节文本-语音生成装置的参数,并将映射结果作用于文本-语音生成装置,使其产生可以传达情感的语音输出。
2.根据权利要求1的系统,其特征在于所述情感表述参数检测装置从不同层次提取情感表述参数。
3.根据权利要求2的系统,其特征在于所述情感表述参数检测装置从字、词级提取情感表述参数。
4.根据权利要求2的系统,其特征在于所述情感表述参数检测装置在语句级上根据变化的等级以及字/词的特性对字/词排序,找出语句中关键的带有情感表述的字/词,从而提取情感表述参数。
5.根据权利要求1的系统,其特征在于所述情感表述参数检测装置通过比较有情感语音和标准语音之间的相对参数,以检测出哪些参数发生了大的变化,并且根据该比较结果和关于什么样的情感将引起哪些参数变化的知识,而提取情感表述参数。
6.一种具有情感的语音-语音翻译系统,包括:
语音识别装置,用于对一种方言A的语音进行识别,形成其文本表示;
文本-语音生成装置,根据所述文本表示生成另一种方言B的语音表示;
所述具有情感的语音-语音翻译系统的特征还在于包括:
情感表述参数检测装置,用于从方言A的语音表示中提取情感表述参数;以及
情感表述参数映射装置,用于将情感表述参数检测装置提取的情感表述参数从方言A映射到方言B,然后再通过字词级变换映射和语句级变换映射将用于方言B的情感表述参数变换成用于调节文本-语音的参数,并将映射结果作用于文本-语音生成装置,使其产生可以传达情感的语音输出。
7.根据权利要求6的系统,其特征在于所述情感表述参数检测装置从不同层次提取情感表述参数。
8.根据权利要求7的系统,其特征在于所述情感表述参数检测装置从字、词级提取情感表述参数。
9.根据权利要求7的系统,其特征在于所述情感表述参数检测装置在语句级上根据变化的等级以及字/词的特性对字/词排序,找出语句中关键的带有情感表述的字/词,从而提取情感表述参数。
10.根据权利要求6的系统,其特征在于所述情感表述参数检测装置通过比较有情感语音和标准语音之间的相对参数,以检测出哪些参数发生了大的变化,并且根据该比较结果和关于什么样的情感将引起哪些参数变化的知识,而提取情感表述参数。
11.一种能够传达情感的语音-语音翻译方法,包括以下步骤:
对语言A的语音表示进行识别,形成语言A的文本表示;
将语言A的文本表示翻译成语言B的文本表示;
根据语言B的文本表示生成语言B的语音表示,
所述能够传达情感的语音-语音翻译方法的特征在于还包括以下步骤:
从语言A的语音表示中提取情感表述参数;以及
将情感表述参数检测步骤提取的情感表述参数从语言A映射到语言B,然后再通过字词级变换映射和语句级变换映射将用于语言B的情感表述参数变换成用于调节文本-语音的参数,并将映射结果作用于文本-语音生成步骤,从而产生可以传达情感的语音输出。
12.根据权利要求11的方法,其特征在于所述情感表述参数检测步骤从不同层次提取情感表述参数。
13.根据权利要求12的方法,其特征在于所述情感表述参数检测步骤从字、词级提取情感表述参数。
14.根据权利要求12的方法,其特征在于所述情感表述参数检测步骤在语句级上根据变化的等级以及字/词的特性对字/词排序,找出语句中关键的带有情感表述的字/词,从而提取情感表述参数。
15.根据权利要求11的方法,其特征在于所述情感表述参数检测装置通过比较有情感语音和标准语音之间的相对参数,以检测出哪些参数发生了大的变化,并且根据该比较结果和关于什么样的情感将引起哪些参数变化的知识,而提取情感表述参数。
16.一种传达表征情感的语音-语音翻译方法,包括以下步骤:
对一种方言A的语音进行识别,形成其文本表示;
根据所述文本表示生成另一种方言B的语音表示;
所述能够传达情感的语音-语音翻译方法的特征还在于包括以下步骤:
从方言A的语音表示中提取情感表述参数;以及
将情感表述参数检测步骤提取的情感表述参数从方言A映射到方言B,然后再通过字词级变换映射和语句级变换映射将用于方言B的情感表述参数变换成用于调节文本-语音的参数,并将映射结果作用于文本-语音生成步骤,从而产生可以传达情感的语音输出。
17.根据权利要求16的方法,其特征在于所述情感表述参数检测步骤从不同层次提取情感表述参数。
18.根据权利要求17的方法,其特征在于所述情感表述参数检测步骤从字、词级提取情感表述参数。
19.根据权利要求17的方法,其特征在于所述情感表述参数检测步骤在语句级上根据变化的等级以及字/词的特性对字/词排序,找出语句中关键的带有情感表述的字/词,从而语句级提取情感表述参数。
20.根据权利要求16的方法,其特征在于所述情感表述参数检测装置通过比较有情感语音和标准语音之间的相对参数,以检测出哪些参数发生了大的变化,并且根据该比较结果和关于什么样的情感将引起哪些参数变化的知识,而提取情感表述参数。
CNB011165243A 2001-04-11 2001-04-11 具有情感的语音-语音翻译系统和方法 Expired - Lifetime CN1159702C (zh)

Priority Applications (9)

Application Number Priority Date Filing Date Title
CNB011165243A CN1159702C (zh) 2001-04-11 2001-04-11 具有情感的语音-语音翻译系统和方法
KR10-2003-7012731A KR20030085075A (ko) 2001-04-11 2002-03-15 음성-음성 변환 생성 시스템 및 방법
EP02708485A EP1377964B1 (en) 2001-04-11 2002-03-15 Speech-to-speech generation system and method
PCT/GB2002/001277 WO2002084643A1 (en) 2001-04-11 2002-03-15 Speech-to-speech generation system and method
DE60216069T DE60216069T2 (de) 2001-04-11 2002-03-15 Sprache-zu-sprache erzeugungssystem und verfahren
JP2002581513A JP4536323B2 (ja) 2001-04-11 2002-03-15 音声−音声生成システムおよび方法
AT02708485T ATE345561T1 (de) 2001-04-11 2002-03-15 Sprache-zu-sprache erzeugungssystem und verfahren
US10/683,335 US7461001B2 (en) 2001-04-11 2003-10-10 Speech-to-speech generation system and method
US12/197,243 US7962345B2 (en) 2001-04-11 2008-08-23 Speech-to-speech generation system and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB011165243A CN1159702C (zh) 2001-04-11 2001-04-11 具有情感的语音-语音翻译系统和方法

Publications (2)

Publication Number Publication Date
CN1379392A CN1379392A (zh) 2002-11-13
CN1159702C true CN1159702C (zh) 2004-07-28

Family

ID=4662524

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB011165243A Expired - Lifetime CN1159702C (zh) 2001-04-11 2001-04-11 具有情感的语音-语音翻译系统和方法

Country Status (8)

Country Link
US (2) US7461001B2 (zh)
EP (1) EP1377964B1 (zh)
JP (1) JP4536323B2 (zh)
KR (1) KR20030085075A (zh)
CN (1) CN1159702C (zh)
AT (1) ATE345561T1 (zh)
DE (1) DE60216069T2 (zh)
WO (1) WO2002084643A1 (zh)

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7805307B2 (en) 2003-09-30 2010-09-28 Sharp Laboratories Of America, Inc. Text to speech conversion system
JP4839838B2 (ja) 2003-12-12 2011-12-21 日本電気株式会社 情報処理システム、情報処理方法および情報処理用プログラム
US7865365B2 (en) * 2004-08-05 2011-01-04 Nuance Communications, Inc. Personalized voice playback for screen reader
US8024194B2 (en) * 2004-12-08 2011-09-20 Nuance Communications, Inc. Dynamic switching between local and remote speech rendering
TWI281145B (en) * 2004-12-10 2007-05-11 Delta Electronics Inc System and method for transforming text to speech
WO2005057424A2 (en) * 2005-03-07 2005-06-23 Linguatec Sprachtechnologien Gmbh Methods and arrangements for enhancing machine processable text information
US8224647B2 (en) 2005-10-03 2012-07-17 Nuance Communications, Inc. Text-to-speech user's voice cooperative server for instant messaging clients
US20070174326A1 (en) * 2006-01-24 2007-07-26 Microsoft Corporation Application of metadata to digital media
US7983910B2 (en) * 2006-03-03 2011-07-19 International Business Machines Corporation Communicating across voice and text channels with emotion preservation
US20080003551A1 (en) * 2006-05-16 2008-01-03 University Of Southern California Teaching Language Through Interactive Translation
US8706471B2 (en) * 2006-05-18 2014-04-22 University Of Southern California Communication system using mixed translating while in multilingual communication
US8032355B2 (en) * 2006-05-22 2011-10-04 University Of Southern California Socially cognizant translation by detecting and transforming elements of politeness and respect
US8032356B2 (en) * 2006-05-25 2011-10-04 University Of Southern California Spoken translation system using meta information strings
US9685190B1 (en) * 2006-06-15 2017-06-20 Google Inc. Content sharing
US8204747B2 (en) * 2006-06-23 2012-06-19 Panasonic Corporation Emotion recognition apparatus
US8510113B1 (en) * 2006-08-31 2013-08-13 At&T Intellectual Property Ii, L.P. Method and system for enhancing a speech database
US7860705B2 (en) * 2006-09-01 2010-12-28 International Business Machines Corporation Methods and apparatus for context adaptation of speech-to-speech translation systems
US20080147409A1 (en) * 2006-12-18 2008-06-19 Robert Taormina System, apparatus and method for providing global communications
JP4213755B2 (ja) * 2007-03-28 2009-01-21 株式会社東芝 音声翻訳装置、方法およびプログラム
US20080300855A1 (en) * 2007-05-31 2008-12-04 Alibaig Mohammad Munwar Method for realtime spoken natural language translation and apparatus therefor
JP2009048003A (ja) * 2007-08-21 2009-03-05 Toshiba Corp 音声翻訳装置及び方法
CN101226742B (zh) * 2007-12-05 2011-01-26 浙江大学 基于情感补偿的声纹识别方法
CN101178897B (zh) * 2007-12-05 2011-04-20 浙江大学 利用基频包络剔除情感语音的说话人识别方法
US20090157407A1 (en) * 2007-12-12 2009-06-18 Nokia Corporation Methods, Apparatuses, and Computer Program Products for Semantic Media Conversion From Source Files to Audio/Video Files
JP2009186820A (ja) * 2008-02-07 2009-08-20 Hitachi Ltd 音声処理システム、音声処理プログラム及び音声処理方法
JP2009189797A (ja) * 2008-02-13 2009-08-27 Aruze Gaming America Inc ゲーミングマシン
CN101685634B (zh) * 2008-09-27 2012-11-21 上海盛淘智能科技有限公司 一种儿童语音情感识别方法
KR101589433B1 (ko) * 2009-03-11 2016-01-28 삼성전자주식회사 동시 통역 시스템
US8515749B2 (en) * 2009-05-20 2013-08-20 Raytheon Bbn Technologies Corp. Speech-to-speech translation
US20100049497A1 (en) * 2009-09-19 2010-02-25 Manuel-Devadoss Smith Johnson Phonetic natural language translation system
CN102054116B (zh) * 2009-10-30 2013-11-06 财团法人资讯工业策进会 情绪分析方法、情绪分析系统及情绪分析装置
US8566078B2 (en) * 2010-01-29 2013-10-22 International Business Machines Corporation Game based method for translation data acquisition and evaluation
US8412530B2 (en) * 2010-02-21 2013-04-02 Nice Systems Ltd. Method and apparatus for detection of sentiment in automated transcriptions
US20120330643A1 (en) * 2010-06-04 2012-12-27 John Frei System and method for translation
KR101101233B1 (ko) * 2010-07-07 2012-01-05 선린전자 주식회사 교통카드 기능을 구비한 휴대폰 충전용 젠더
US8775156B2 (en) * 2010-08-05 2014-07-08 Google Inc. Translating languages in response to device motion
JP2012075039A (ja) * 2010-09-29 2012-04-12 Sony Corp 制御装置、および制御方法
JP5066242B2 (ja) * 2010-09-29 2012-11-07 株式会社東芝 音声翻訳装置、方法、及びプログラム
US8566100B2 (en) 2011-06-21 2013-10-22 Verna Ip Holdings, Llc Automated method and system for obtaining user-selected real-time information on a mobile communication device
US9213695B2 (en) * 2012-02-06 2015-12-15 Language Line Services, Inc. Bridge from machine language interpretation to human language interpretation
US9390085B2 (en) 2012-03-23 2016-07-12 Tata Consultancy Sevices Limited Speech processing system and method for recognizing speech samples from a speaker with an oriyan accent when speaking english
CN103543979A (zh) * 2012-07-17 2014-01-29 联想(北京)有限公司 一种输出语音的方法、语音交互的方法及电子设备
US20140058879A1 (en) * 2012-08-23 2014-02-27 Xerox Corporation Online marketplace for translation services
CN103714048B (zh) * 2012-09-29 2017-07-21 国际商业机器公司 用于校正文本的方法和系统
JP2015014665A (ja) * 2013-07-04 2015-01-22 セイコーエプソン株式会社 音声認識装置及び方法、並びに、半導体集積回路装置
JP6259804B2 (ja) * 2014-11-26 2018-01-10 ネイバー コーポレーションNAVER Corporation コンテンツ参加翻訳装置、及びそれを利用したコンテンツ参加翻訳方法
CN105139848B (zh) * 2015-07-23 2019-01-04 小米科技有限责任公司 数据转换方法和装置
CN105208194A (zh) * 2015-08-17 2015-12-30 努比亚技术有限公司 语音播报装置及方法
CN105551480B (zh) * 2015-12-18 2019-10-15 百度在线网络技术(北京)有限公司 方言转换方法及装置
CN105635452B (zh) * 2015-12-28 2019-05-10 努比亚技术有限公司 移动终端及其联系人标识方法
CN105931631A (zh) * 2016-04-15 2016-09-07 北京地平线机器人技术研发有限公司 语音合成系统和方法
US9747282B1 (en) 2016-09-27 2017-08-29 Doppler Labs, Inc. Translation with conversational overlap
CN106782521A (zh) * 2017-03-22 2017-05-31 海南职业技术学院 一种语音识别系统
CN106910514A (zh) * 2017-04-30 2017-06-30 上海爱优威软件开发有限公司 语音处理方法及系统
US11328130B2 (en) * 2017-11-06 2022-05-10 Orion Labs, Inc. Translational bot for group communication
US10565994B2 (en) * 2017-11-30 2020-02-18 General Electric Company Intelligent human-machine conversation framework with speech-to-text and text-to-speech
CN108363377A (zh) * 2017-12-31 2018-08-03 广州展讯信息科技有限公司 一种应用于驾考系统的数据采集装置及方法
WO2020076867A1 (en) 2018-10-09 2020-04-16 Magic Leap, Inc. Systems and methods for virtual and augmented reality
US11159597B2 (en) * 2019-02-01 2021-10-26 Vidubly Ltd Systems and methods for artificial dubbing
US11202131B2 (en) 2019-03-10 2021-12-14 Vidubly Ltd Maintaining original volume changes of a character in revoiced media stream
CN109949794B (zh) * 2019-03-14 2021-04-16 山东远联信息科技有限公司 一种基于互联网技术的智能语音转换系统
CN110956950A (zh) * 2019-12-02 2020-04-03 联想(北京)有限公司 一种数据处理方法、装置和电子设备
US11361780B2 (en) * 2021-12-24 2022-06-14 Sandeep Dhawan Real-time speech-to-speech generation (RSSG) apparatus, method and a system therefore

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4352634A (en) 1980-03-17 1982-10-05 United Technologies Corporation Wind turbine blade pitch control system
JPS56164474A (en) 1981-05-12 1981-12-17 Noriko Ikegami Electronic translating machine
GB2165969B (en) 1984-10-19 1988-07-06 British Telecomm Dialogue system
JPH01206463A (ja) 1988-02-14 1989-08-18 Kenzo Ikegami 電子翻訳装置
JPH02183371A (ja) 1989-01-10 1990-07-17 Nec Corp 自動通訳装置
JPH04141172A (ja) 1990-10-01 1992-05-14 Toto Ltd 蒸気及び冷気発生切換装置
JPH04355555A (ja) 1991-05-31 1992-12-09 Oki Electric Ind Co Ltd 音声伝送方法
JPH0772840B2 (ja) 1992-09-29 1995-08-02 日本アイ・ビー・エム株式会社 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
SE500277C2 (sv) 1993-05-10 1994-05-24 Televerket Anordning för att öka talförståelsen vid översätttning av tal från ett första språk till ett andra språk
SE516526C2 (sv) 1993-11-03 2002-01-22 Telia Ab Metod och anordning vid automatisk extrahering av prosodisk information
SE504177C2 (sv) 1994-06-29 1996-12-02 Telia Ab Metod och anordning att adaptera en taligenkänningsutrustning för dialektala variationer i ett språk
SE9600959L (sv) * 1996-03-13 1997-09-14 Telia Ab Metod och anordning vid tal-till-talöversättning
SE506003C2 (sv) * 1996-05-13 1997-11-03 Telia Ab Metod och system för tal-till-tal-omvandling med extrahering av prosodiinformation
JPH10187178A (ja) 1996-10-28 1998-07-14 Omron Corp 歌唱の感情分析装置並びに採点装置
US5933805A (en) * 1996-12-13 1999-08-03 Intel Corporation Retaining prosody during speech analysis for later playback
SE520065C2 (sv) 1997-03-25 2003-05-20 Telia Ab Anordning och metod för prosodigenerering vid visuell talsyntes
SE519679C2 (sv) 1997-03-25 2003-03-25 Telia Ab Metod vid talsyntes
JPH11265195A (ja) 1998-01-14 1999-09-28 Sony Corp 情報配信システム、情報送信装置、情報受信装置、情報配信方法
JP3884851B2 (ja) * 1998-01-28 2007-02-21 ユニデン株式会社 通信システムおよびこれに用いられる無線通信端末装置

Also Published As

Publication number Publication date
DE60216069D1 (de) 2006-12-28
US7461001B2 (en) 2008-12-02
DE60216069T2 (de) 2007-05-31
WO2002084643A1 (en) 2002-10-24
EP1377964A1 (en) 2004-01-07
US7962345B2 (en) 2011-06-14
KR20030085075A (ko) 2003-11-01
JP2005502102A (ja) 2005-01-20
EP1377964B1 (en) 2006-11-15
ATE345561T1 (de) 2006-12-15
CN1379392A (zh) 2002-11-13
JP4536323B2 (ja) 2010-09-01
US20080312920A1 (en) 2008-12-18
US20040172257A1 (en) 2004-09-02

Similar Documents

Publication Publication Date Title
CN1159702C (zh) 具有情感的语音-语音翻译系统和方法
CN1168068C (zh) 语音合成系统与语音合成方法
CN1183510C (zh) 根据基音信息识别声调语言的方法与设备
CN1057625C (zh) 使用神经网络变换文本为声频信号的方法
CN100347741C (zh) 移动语音合成方法
CN1160699C (zh) 语音识别系统
US8498857B2 (en) System and method for rapid prototyping of existing speech recognition solutions in different languages
CN1294555C (zh) 语音段制作方法
CN101042867A (zh) 语音识别设备和方法
CN1622195A (zh) 语音合成方法和语音合成系统
CN1461463A (zh) 语音合成设备
CN1932807A (zh) 用于翻译语音和进行翻译结果的语音合成的装置和方法
CN1920948A (zh) 语音识别系统及语音处理系统
CN1141698C (zh) 对输入语音进行语音识别的音程标准化装置
CN1681002A (zh) 语音合成系统及方法及程序产品
JP2009048003A (ja) 音声翻訳装置及び方法
CN1542735A (zh) 识别有调语言的系统和方法
CN1731510A (zh) 混合语言文语转换
CN1692405A (zh) 语音处理设备、语言处理方法、存储介质及程序
CN1967657A (zh) 节目制作中的说话人声音自动跟踪变调系统和方法
CN1315722A (zh) 用于汉语语音识别系统的连续语音处理方法和装置
CN1490786A (zh) 语音识别置信度评价方法和系统及应用该方法的听写装置
CN1956057A (zh) 一种基于决策树的语音时长预测装置及方法
CN1538384A (zh) 有效地实施普通话汉语语音识别字典的系统和方法
CN116894442A (zh) 一种纠正引导发音的语言翻译方法及系统

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20040728