JP2005502102A - 音声−音声生成システムおよび方法 - Google Patents

音声−音声生成システムおよび方法 Download PDF

Info

Publication number
JP2005502102A
JP2005502102A JP2002581513A JP2002581513A JP2005502102A JP 2005502102 A JP2005502102 A JP 2005502102A JP 2002581513 A JP2002581513 A JP 2002581513A JP 2002581513 A JP2002581513 A JP 2002581513A JP 2005502102 A JP2005502102 A JP 2005502102A
Authority
JP
Japan
Prior art keywords
speech
language
text
expression
expression parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002581513A
Other languages
English (en)
Other versions
JP4536323B2 (ja
Inventor
タング、ドナルド
シェン、リクイン
シ、クイン
ツアン、ウエイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2005502102A publication Critical patent/JP2005502102A/ja
Application granted granted Critical
Publication of JP4536323B2 publication Critical patent/JP4536323B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

【課題】表現力をもつ音声−音声生成システムと方法を提供する。
【解決手段】本発明に係るシステムと方法によれば、元の音声信号から抽出した表現パラメータを用いて標準のTTSシステムを駆動することにより、表現力をもつ音声出力を生成することができる。本発明に係るシステムは、音声認識手段101と、機械翻訳手段102と、テキスト−音声生成手段103と、言語Aの音声から表現パラメータを抽出する表現パラメータ検出手段104と、表現パラメータ検出手段104によって言語Aから抽出した表現パラメータを言語Bにマップし、マッピング結果によっテキスト−音声生成手段103を駆動して表現力をもつ音声を合成する表現パラメータ・マッピング手段105とを備えている。本発明に係るシステムと方法によれば、翻訳システムまたはTTSシステムの音声出力の品質を改善することができる。

Description

【技術分野】
【0001】
本発明は一般に機械翻訳の分野に関し、特に表現力をもつ(expressive)音声−音声生成システムおよび方法に関する。
【背景技術】
【0002】
機械翻訳はある言語のテキストまたは音声を別の言語のテキストまたは音声にコンピュータを用いて変換する手法である。換言すると、機械翻訳はコンピュータの大記憶容量とディジタル処理能力を用い、言語形成と構造解析の理論に基づく数学的方法によって辞書と構文規則を生成することにより、人手の関与なしにある言語を別の言語に自動的に変換することである。
【0003】
一般に、現在の機械翻訳システムはある言語のテキストを別の言語のテキストに翻訳するテキスト・ベースの翻訳システムである。しかし、社会の発展に伴い、音声ベースの翻訳システムが必要とされている。現在の機械翻訳システムでは、現在の音声認識手法、テキスト・ベースの翻訳手法、およびTTS(text-to-speech)手法を用いることにより、まず、第1言語の音声を音声認識手法で認識したのち第1言語のテキストに変換する。次いで、第1言語のテキストを第2言語のテキストに翻訳する。最後に、第2言語のテキストに基づきTTS手法を用いて第2言語の音声を生成する。
【0004】
しかしながら、既存のTTSシステムは普通、表現力に乏しく単調な音声を生成する。現在利用可能な典型的なTTSシステムの場合、まず(音節中の)すべての語の標準的な発音を記録して解析し、次いで標準的な「表現」と語レベルで等価なパラメータを辞書に格納する。次いで、辞書で定義されている標準的な制御パラメータにより、かつ通常の円滑化手法を用いて要素音節を互いに縫い合わせることにより、要素音節から音声合成語を生成する。しかし、このような音声生成方法では、文の意味と話者の感情に基づいた完全な表現としての音声を生成することはできない。
【発明の開示】
【発明が解決しようとする課題】
【0005】
本発明の目的は表現力をもつ音声−音声生成システムおよび方法を提供することである。
【課題を解決するための手段】
【0006】
本発明の一実例によると、表現力をもつ音声−音声システムでは、元の音声信号から取得した表現パラメータを用い標準のTTSシステムを駆動して表現力をもつ音声を生成する。
【0007】
本発明の第1の側面による音声−音声生成システムは次のように構成する。
音声−音声生成システムであって、
言語Aの音声を認識して対応する言語Aのテキストを生成する音声認識手段と、
前記テキストを言語Aから言語Bに翻訳する機械翻訳手段と、
言語Bのテキストに従って言語Bの音声を生成するテキスト−音声生成手段と
を備え、
前記音声−音声翻訳システムがさらに、
言語Aの音声から表現パラメータを抽出する表現パラメータ検出手段と、
前記表現パラメータ検出手段によって言語Aから抽出した前記表現パラメータを言語Bにマップし、マッピング結果によって前記テキスト−音声生成手段を駆動して表現力をもつ音声を合成する表現パラメータ・マッピング手段と
を備えた
システム。
【0008】
本発明の第2の側面による音声−音声生成システムは次のように構成する。
音声−音声生成システムであって、
方言Aの音声を認識して対応するテキストを生成する音声認識手段と、
前記テキストに従って別の方言Bの音声を生成するテキスト−音声生成手段と
を備え、
前記音声−音声生成システムがさらに、
方言Aの音声から表現パラメータを抽出する表現パラメータ検出手段と、
前記表現パラメータ検出手段によって方言Aから抽出した前記表現パラメータを方言Bにマップし、マッピング結果によって前記テキスト−音声生成手段を駆動して表現力をもつ音声を合成する表現パラメータ・マッピング手段と
を備えた
システム。
【0009】
本発明の第3の側面による音声−音声生成方法は次のように構成する。
音声−音声生成方法であって、
言語Aの音声を認識して対応する言語Aのテキストを生成するステップと、
前記テキストを言語Aから言語Bに翻訳するステップと、
言語Bのテキストに従って言語Bの音声を生成するステップと
を備え、
前記表現力をもつ音声−音声方法がさらに、
言語Aの音声から表現パラメータを抽出するステップと、
前記検出ステップによって言語Aから抽出した前記表現パラメータを言語Bにマップし、マッピング結果によってテキスト−音声生成プロセスを駆動して表現力をもつ音声を合成するステップと
を備えた
方法。
【0010】
本発明の第4の側面による音声−音声生成方法は次のように構成する。
音声−音声生成方法であって、
方言Aの音声を認識して対応するテキストを生成するステップと、
前記テキストに従って別の方言Bの音声を生成するステップと
を備え、
前記音声−音声生成方法がさらに、
方言Aの音声から表現パラメータを抽出するステップと、
前記検出するステップによって方言Aから抽出した前記表現パラメータを方言Bにマップし、マッピング結果によってテキスト−音声生成プロセスを駆動して表現力をもつ音声を合成するステップと
を備えた
方法。
【0011】
本発明に係る表現力をもつ音声−音声システムおよび方法によれば、翻訳システムまたはTTSシステムの音声品質を改善することができる。
【発明を実施するための最良の形態】
【0012】
図1に示すように、本発明の一実施形態による表現力をもつ音声−音声システムは音声認識手段101、機械翻訳手段102、テキスト−音声生成手段103、表現パラメータ検出手段104、および表現パラメータ・マッピング手段105を備えている。音声認識手段101は言語Aの音声を認識して対応する言語Aのテキストを生成するのに使用する。機械翻訳手段102は言語Aのテキストを言語Bのテキストに翻訳するのに使用する。テキスト−音声生成手段103は言語Bのテキストに従って言語Bの音声を生成するのに使用する。表現パラメータ検出手段104は言語Aの音声から表現パラメータを抽出するのに使用する。表現パラメータ・マッピング手段105は表現パラメータ検出手段によって言語Aから抽出した表現パラメータを言語Bにマッピングするとともに、マッピング結果でテキスト−音声生成手段を駆動して表現力をもつ音声を合成するのに使用する。
【0013】
当業者に知られているように、音声認識手段、機械翻訳手段、およびTTS手段を構築する従来技術は多数ある。したがって、ここでは本発明の一実施形態に係る表現パラメータ検出手段と表現パラメータ・マッピング手段のみを図2と図3を用いて説明する。
【0014】
はじめに、音声の表現を反映する主要なパラメータを導入する。
【0015】
表現を制御している、音声の主要パラメータは異なるレベルで定義することができる。
【0016】
(1)語レベルにおける主要表現パラメータは速度(持続時間)、音量(エネルギー・レベル)、およびピッチ(レンジ〔範囲〕とトーン〔音調〕を含む)である。一般に語はいくつかの文字/音節から成るから、このような表現パラメータは音節レベルでもベクトルすなわち時間化した順列の形で定義することができる。たとえば、人が怒って話すとき、語音量は大きく、語ピッチは普通の状態より高く、そのエンベロープは円滑ではなく、そしてピッチ・マーク点の多くは消失しさえする。同時に、持続時間は短くなる。別の例として次のものがある。すなわち、私達はある文を普通に話すとき、おそらくその文中の数語を強調している。その結果、その数語のピッチ、エネルギー、および持続時間を変化させている。
【0017】
(2)文レベルでは、イントネーション(抑揚)に焦点が当てられる。たとえば、感嘆文のエンベロープは宣言文のエンベロープとは異なる。
【0018】
以下、表現パラメータ検出手段と表現パラメータ・マッピング手段が本発明に従って機能する様子を図2と図3を参照して説明する。すなわち、表現パラメータを抽出し、抽出した表現パラメータを用いてテキスト−音声生成手段を駆動し表現力をもつ音声を合成する様子を説明する。
【0019】
図2に示すように、本発明の表現パラメータ検出手段は次に示すコンポーネントを備えている。
【0020】
パートA:話者のピッチ、持続時間、および音量を解析する。パートAでは、「音声認識」の結果を利用して音声と語(または文字)との間の一致結果を取得する。そして、それを次に示す構造体に記録する。
Figure 2005502102
【0021】
次いで、「短時間解析」法を用いて次に示すパラメータを取得する。
1.各「短時間ウインドウ」ごとの短時間エネルギー。
2.語のピッチ数を検出。
3.語の持続時間。
【0022】
これらのパラメータに従い、次のステップに進み次に示すパラメータを取得する。
1.語の平均短時間エネルギー。
2.語の上位N個の短時間エネルギー。
3.ピッチ範囲、最大ピッチ、最小ピッチ、および語のピッチ値。
4.語の持続時間。
【0023】
パートB:音声認識の結果のテキストに従い、言語Aの標準TTSシステムを用いて言語Aの表現なしの音声を生成したのち、表現なしTTSのパラメータを解析する。これらのパラメータは表現力をもつ音声の解析の基準になる。
【0024】
パートC:表現力をもつ標準の音声を形成している1つの文中のこれらの語についてパラメータの変動を解析する。その理由は話者が異なれば音量も異なり、ピッチも異なり、速度も異なるからである。また、一人の話者でさえ、同じ文章を異なったときに話せば、これらのパラメータは同じではなくなる。したがって、ある文の語の役割を基準音声に従って解析するには、相対パラメータを用いる必要がある。
【0025】
規格化パラメータ法を用いて絶対パラメータから相対パラメータを取得する。相対パラメータには次に示すものがある。
1.語の相対平均短時間エネルギー。
2.語の相対上位N個短時間エネルギー。
3.語の相対ピッチ範囲、相対最大ピッチ、相対最小ピッチ。
4.語の相対持続時間。
【0026】
パートD:標準音声パラメータに由来する基準に従って、語レベルおよび文レベルで表現力をもつ音声パラメータを解析する。
【0027】
(1)語レベルでは、表現力をもつ音声の相対パラメータと基準音声の相対パラメータとを比較して、語のどちらのパラメータが荒っぽく変動しているかを見極める。
【0028】
(2)文レベルでは、語をその変動レベルと語特性に従ってソートし、文中の主要な表現力をもつ語を取得する。
【0029】
パートE:パラメータ比較の結果と、どの表現がどのパラメータを変動させるのかを知ることとに従って、文の表現力をもつ情報を取得し(すなわち表現パラメータを検出し)、そのパラメータを次に示す構造体に従って記録する。
Figure 2005502102
【0030】
たとえば、中国語で怒って「i・!」と話すと、多くのピッチが消失し、絶対音量が基準値より大きくなるとの同時に相対音量がきわめて鋭利になり、持続時間が基準より短くなる。したがって、文レベルの表現は怒りであると結論することができる。主要な表現力をもつ語は「is{」である。
【0031】
以下、表現パラメータ・マッピング手段を本発明の一実施形態に従って構造化する方法を図3と図4を参照して説明する。表現パラメータ・マッピング手段は次に示すパート群から成る。
【0032】
パートA:表現パラメータの構造体を言語Aから言語Bに機械翻訳の結果に従ってマップする。主要な方法は表現を示すのに重要な言語A中の語に対応する言語B中の語を発見することである。このマッピングの結果を次に示す。
Figure 2005502102
【0033】
パートB:表現力をもつ情報のマッピング結果に基づいて、言語用のTTSを駆動しうる調整パラメータを生成する。これにより、言語Bの表現パラメータに従ってある組のパラメータを使用しているのはどの語であるかを、言語Bの表現パラメータ・テーブルを用いて判定することができる。テーブル中のパラメータは相対調整パラメータである。
【0034】
プロセスを図4に示す。表現パラメータは2レベルの変換テーブル(語レベルの変換テーブルと文レベルの変換テーブル)によって変換されて、テキスト−音声生成手段を調整するパラメータになる。
【0035】
2レベルの変換テーブルを次に示す。
【0036】
(1)表現パラメータをTTSを調整するパラメータに変換するための語レベルの変換テーブル。
このテーブルの構造体を次に示す。
Figure 2005502102
【0037】
(2)文レベルの韻律パラメータを語レベルの調整TTSで調整する、文の感情型に従って文レベルの韻律パラメータを提供する文レベル変換テーブル。
Figure 2005502102
【0038】
以上、本発明に係る音声−音声システムを実施形態を用いて説明した。当業者が理解しうるように、本発明は同じ言語の様々な方言を翻訳するのにも使用することができる。図5に示すように、システムは図1に示したものと同様である。唯一の相違点は同じ言語の異なる方言間の翻訳は機械翻訳手段を必要としないという点である。特に、音声認識手段101は言語Aの音声を認識して対応する言語Aのテキストを生成するのに使用する。テキスト−音声生成手段103は言語Bのテキストに従って言語Bの音声を生成するのに使用する。表現パラメータ検出手段104は方言Aの音声から表現パラメータを抽出するのに使用する。そして、表現パラメータ・マッピング手段105は表現パラメータ検出手段104が抽出した表現パラメータを方言Aから方言Bにマップするのに使用するとともに、マッピング結果を用いてテキスト−音声生成手段を駆動して表現力をもつ音声を合成するのに使用する。
【0039】
以上、本発明に係る表現力をもつ音声−音声システムを図1〜図5を用いて説明した。このシステムは元の音声信号から抽出した表現パラメータを用いて表現力をもつ音声出力を生成し、標準のTTSシステムを駆動する。
【0040】
本発明は表現力をもつ音声−音声方法も提供する。以下、図6〜図9を参照して本発明に係る音声−音声翻訳プロセスの一実施形態を説明する。
【0041】
図6に示すように、本発明の一実施形態に係る表現力をもつ音声−音声方法は次に示すステップ群を備えている。すなわち、言語Aの音声を認識して対応する言語Aのテキストを生成するステップ(501)と、そのテキストを言語Aから言語Bに翻訳するステップ(502)と、言語Bのテキストに従って言語Bの音声を生成するステップ(503)と、言語Aの音声から表現パラメータを抽出するステップ(504)と、検出するステップによって言語Aから抽出した表現パラメータを言語Bにマップしたのち、マッピング結果によってテキスト−音声生成プロセスを駆動して表現力をもつ音声を合成するステップ(505)とである。
【0042】
以下、本発明の一実施形態に係る表現力をもつ検出プロセスと表現力をもつマッピング・プロセスを図7と図8を参照して説明する。すなわち、表現パラメータを抽出し、抽出した表現パラメータを用いて既存のTTSプロセスを駆動し表現力をもつ音声を合成する様子を説明する。
【0043】
図7に示すように、表現パラメータ検出プロセスは次に示すステップ群を備えている。
【0044】
ステップ601:話者のピッチ、持続時間、および音量を解析する。ステップ601では、音声認識の結果を利用して音声と語(または文字)との間の一致結果を取得する。次いで、「短時間解析」法を用いて次に示すパラメータを取得する。
1.各「短時間ウインドウ」ごとの短時間エネルギー。
2.語のピッチ数を検出。
3.語の持続時間。
【0045】
これらのパラメータに従い、次のステップに進み次に示すパラメータを取得する。
1.語の平均短時間エネルギー。
2.語の上位N個の短時間エネルギー。
3.ピッチ範囲、最大ピッチ、最小ピッチ、および語のピッチ値。
4.語の持続時間。
【0046】
ステップ602:音声認識の結果のテキストに従い、言語Aの標準TTSシステムを用いて言語Aの表現なしの音声を生成したのち、表現なしTTSのパラメータを解析する。これらのパラメータは表現力をもつ音声の解析の基準になる。
【0047】
ステップ603:表現力をもつ標準の音声に由来する文中のこれらの語についてパラメータの変動を解析する。その理由は話者が異なれば音量も異なり、ピッチも異なり、速度も異なるからである。また、一人の話者でさえ、同じ文章を異なったときに話せば、これらのパラメータは同じではなくなる。したがって、ある文の語の役割を基準音声に従って解析するには、相対パラメータを用いる必要がある。
【0048】
規格化パラメータ法を用いて絶対パラメータから相対パラメータを取得する。相対パラメータには次に示すものがある。
1.語の相対平均短時間エネルギー。
2.語の相対上位N個短時間エネルギー。
3.語の相対ピッチ範囲、相対最大ピッチ、相対最小ピッチ。
4.語の相対持続時間。
【0049】
ステップ604:標準音声パラメータに由来する基準に従って、語レベルおよび文レベルで表現力をもつ音声パラメータを解析する。
【0050】
(1)語レベルでは、表現力をもつ音声の相対パラメータと基準音声の相対パラメータとを比較して、どの語のどのパラメータが荒っぽく変動しているかを見極める。
【0051】
(2)文レベルでは、語をその変動レベルと語特性に従ってソートし、文中の主要な表現力をもつ語を取得する。
【0052】
ステップ605:パラメータ比較の結果と、どの表現がどのパラメータを変動させるのかを知ることとに従って、文または別の語の表現力をもつ情報を取得し、表現パラメータを検出する。
【0053】
次に、本発明の一実施形態に係る表現力をもつマッピング・プロセスを図8を用いて説明する。このプロセスは次に示すステップ群を備えている。
【0054】
ステップ701:機械翻訳の結果に従って表現パラメータの構造体を言語Aから言語Bにマップする。主要な方法は表現力をもつ移転にとって重要な言語A中の語に対応する言語B中の語を発見することである。
【0055】
ステップ702:表現力をもつ情報のマッピング結果に従って、言語BのTTSを駆動しうる調整パラメータを生成する。これにより、言語Bの表現パラメータ・テーブルを用い、語または音節合成パラメータを生成することができる。
【0056】
以上、本発明に係る音声−音声方法を実施形態とともに説明した。当業者が理解しうるように、本発明は同じ言語の様々な方言を翻訳するのにも使用することができる。図9に示すように、このプロセスは図6のものと同様である。唯一の相違点は同じ言語の異なる方言間の翻訳ではテキスト翻訳プロセスを必要としないという点である。特に,このプロセスは次に示すステップ群を備えている。すなわち、方言Aの音声を認識し対応するテキストを生成するステップ(801)と、言語Bのテキストに従って言語Bの音声を生成するステップ(802)と、方言Aの音声から表現パラメータを抽出するステップ(803)と、検出ステップによって方言Aから抽出した表現パラメータを方言Bにマップし、マッピング結果をテキスト−音声生成プロセスに適用して表現力をもつ音声を合成するステップ(804)とである。
【0057】
以上、好適な実施形態に係る表現力をもつ音声−音声システムと方法を図面とともに説明した。当業者は本発明の本旨と範囲の内で別の実施形態を案出することができる。本発明はそのような変更した実施形態や別の実施形態をすべて包含する。本発明の範囲を限定するのは特許請求の範囲である。
【図面の簡単な説明】
【0058】
【図1】本発明に係る表現力をもつ音声−音声システムのブロック図である。
【図2】本発明の一実施形態に係る、図1の表現パラメータ検出手段のブロック図である。
【図3】本発明の一実施形態に係る、図1の表現パラメータ・マッピング手段のブロック図である。
【図4】本発明の一実施形態に係る、図1の表現パラメータ・マッピング手段のブロック図である。
【図5】本発明の別の実施形態に係る表現力をもつ音声−音声システムのブロック図である。
【図6】本発明の一実施形態に係る、表現力をもつ音声−音声翻訳の手順を示すフローチャートを示す図である。
【図7】本発明の一実施形態に係る、表現パラメータを検出する手順を示すフローチャートを示す図である。
【図8】本発明の一実施形態に係る、検出した表現パラメータをマップしTTSパラメータを調整する手順を示すフローチャートを示す図である。
【図9】本発明の別の実施形態に係る、表現力をもつ音声−音声翻訳の手順を示すフローチャートを示す図である。
【符号の説明】
【0059】
101 音声認識
102 機械翻訳
103 言語BのTTS
104 表現パラメータ検出
105 表現パラメータ・マッピング

Claims (20)

  1. 音声−音声生成システムであって、
    言語Aの音声を認識して対応する言語Aのテキストを生成する音声認識手段と、
    前記テキストを言語Aから言語Bに翻訳する機械翻訳手段と、
    言語Bのテキストに従って言語Bの音声を生成するテキスト−音声生成手段と
    を備え、
    前記音声−音声翻訳システムがさらに、
    言語Aの音声から表現パラメータを抽出する表現パラメータ検出手段と、
    前記表現パラメータ検出手段によって言語Aから抽出した前記表現パラメータを言語Bにマップし、マッピング結果によって前記テキスト−音声生成手段を駆動して表現力をもつ音声を合成する表現パラメータ・マッピング手段と
    を備えた
    システム。
  2. 前記表現パラメータ検出手段が様々なレベルで前記表現パラメータを抽出する、
    請求項1に記載のシステム。
  3. 前記表現パラメータ検出手段が語レベルで前記表現パラメータを抽出する、
    請求項2に記載のシステム。
  4. 前記表現パラメータ検出手段が文レベルで前記表現パラメータを抽出する、
    請求項2に記載のシステム。
  5. 前記表現パラメータ・マッピング手段が前記表現パラメータを言語Aから言語Bにマップし、前記言語Bの表現パラメータを語レベルの変換および文レベルの変換によって前記テキスト−音声生成手段を調整するパラメータに変換する、
    請求項1〜4のうちの1項に記載のシステム。
  6. 音声−音声生成システムであって、
    方言Aの音声を認識して対応するテキストを生成する音声認識手段と、
    前記テキストに従って別の方言Bの音声を生成するテキスト−音声生成手段と
    を備え、
    前記音声−音声生成システムがさらに、
    方言Aの音声から表現パラメータを抽出する表現パラメータ検出手段と、
    前記表現パラメータ検出手段によって方言Aから抽出した前記表現パラメータを方言Bにマップし、マッピング結果によって前記テキスト−音声生成手段を駆動して表現力をもつ音声を合成する表現パラメータ・マッピング手段と
    を備えた
    システム。
  7. 前記表現パラメータ検出手段が様々なレベルで前記表現パラメータを抽出する、
    請求項6に記載のシステム。
  8. 前記表現パラメータ検出手段が語レベルで前記表現パラメータを抽出する、
    請求項7に記載のシステム。
  9. 前記表現パラメータ検出手段が文レベルで前記表現パラメータを抽出する、
    請求項7に記載のシステム。
  10. 前記表現パラメータ・マッピング手段が前記表現パラメータを方言Aから方言Bにマップし、前記方言Bの表現パラメータを語レベルの変換および文レベルの変換によってテキスト−音声生成手段を調整するパラメータに変換する、
    請求項6〜9のうちの1項に記載のシステム。
  11. 音声−音声生成方法であって、
    言語Aの音声を認識して対応する言語Aのテキストを生成するステップと、
    前記テキストを言語Aから言語Bに翻訳するステップと、
    言語Bのテキストに従って言語Bの音声を生成するステップと
    を備え、
    前記表現力をもつ音声−音声方法がさらに、
    言語Aの音声から表現パラメータを抽出するステップと、
    前記検出ステップによって言語Aから抽出した前記表現パラメータを言語Bにマップし、マッピング結果によってテキスト−音声生成プロセスを駆動して表現力をもつ音声を合成するステップと
    を備えた
    方法。
  12. 前記表現パラメータを抽出するステップを様々なレベルで実行する、
    請求項11に記載の方法。
  13. 前記様々なレベルが語レベルを含んでいる、
    請求項12に記載の方法。
  14. 前記様々なレベルが文レベルを含んでいる、
    請求項12に記載の方法。
  15. 表現パラメータを言語Aから言語Bにマップする前記ステップが、
    前記言語Bの表現パラメータを語レベルの変換および文レベルの変換によってテキスト−音声生成手段を調整するパラメータに変換するステップ
    を備えている、
    請求項11〜14のうちの1項に記載の方法。
  16. 音声−音声生成方法であって、
    方言Aの音声を認識して対応するテキストを生成するステップと、
    前記テキストに従って別の方言Bの音声を生成するステップと
    を備え、
    前記音声−音声生成方法がさらに、
    方言Aの音声から表現パラメータを抽出するステップと、
    前記検出するステップによって方言Aから抽出した前記表現パラメータを方言Bにマップし、マッピング結果によってテキスト−音声生成プロセスを駆動して表現力をもつ音声を合成するステップと
    を備えた
    方法。
  17. 前記表現パラメータを抽出するステップを様々なレベルで実行する、
    請求項16に記載の方法。
  18. 前記様々なレベルが語レベルを含んでいる、
    請求項17に記載の方法。
  19. 前記様々なレベルが文レベルを含んでいる、
    請求項17に記載の方法。
  20. 表現パラメータを方言Aから方言Bにマップする前記ステップが、
    前記方言Bの表現パラメータを語レベルの変換および文レベルの変換によってテキスト−音声生成手段を調整するパラメータに変換するステップ
    を備えている、
    請求項16〜19のうちの1項に記載の方法。
JP2002581513A 2001-04-11 2002-03-15 音声−音声生成システムおよび方法 Expired - Lifetime JP4536323B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CNB011165243A CN1159702C (zh) 2001-04-11 2001-04-11 具有情感的语音-语音翻译系统和方法
PCT/GB2002/001277 WO2002084643A1 (en) 2001-04-11 2002-03-15 Speech-to-speech generation system and method

Publications (2)

Publication Number Publication Date
JP2005502102A true JP2005502102A (ja) 2005-01-20
JP4536323B2 JP4536323B2 (ja) 2010-09-01

Family

ID=4662524

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002581513A Expired - Lifetime JP4536323B2 (ja) 2001-04-11 2002-03-15 音声−音声生成システムおよび方法

Country Status (8)

Country Link
US (2) US7461001B2 (ja)
EP (1) EP1377964B1 (ja)
JP (1) JP4536323B2 (ja)
KR (1) KR20030085075A (ja)
CN (1) CN1159702C (ja)
AT (1) ATE345561T1 (ja)
DE (1) DE60216069T2 (ja)
WO (1) WO2002084643A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009048003A (ja) * 2007-08-21 2009-03-05 Toshiba Corp 音声翻訳装置及び方法

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7805307B2 (en) 2003-09-30 2010-09-28 Sharp Laboratories Of America, Inc. Text to speech conversion system
EP2267697A3 (en) 2003-12-12 2011-04-06 Nec Corporation Information processing system, method of processing information, and program for processing information
US7865365B2 (en) * 2004-08-05 2011-01-04 Nuance Communications, Inc. Personalized voice playback for screen reader
US8024194B2 (en) * 2004-12-08 2011-09-20 Nuance Communications, Inc. Dynamic switching between local and remote speech rendering
TWI281145B (en) * 2004-12-10 2007-05-11 Delta Electronics Inc System and method for transforming text to speech
US20080249776A1 (en) * 2005-03-07 2008-10-09 Linguatec Sprachtechnologien Gmbh Methods and Arrangements for Enhancing Machine Processable Text Information
US8224647B2 (en) 2005-10-03 2012-07-17 Nuance Communications, Inc. Text-to-speech user's voice cooperative server for instant messaging clients
US20070174326A1 (en) * 2006-01-24 2007-07-26 Microsoft Corporation Application of metadata to digital media
US7983910B2 (en) * 2006-03-03 2011-07-19 International Business Machines Corporation Communicating across voice and text channels with emotion preservation
US20080003551A1 (en) * 2006-05-16 2008-01-03 University Of Southern California Teaching Language Through Interactive Translation
US8706471B2 (en) * 2006-05-18 2014-04-22 University Of Southern California Communication system using mixed translating while in multilingual communication
US8032355B2 (en) * 2006-05-22 2011-10-04 University Of Southern California Socially cognizant translation by detecting and transforming elements of politeness and respect
US8032356B2 (en) * 2006-05-25 2011-10-04 University Of Southern California Spoken translation system using meta information strings
US9685190B1 (en) * 2006-06-15 2017-06-20 Google Inc. Content sharing
US8204747B2 (en) * 2006-06-23 2012-06-19 Panasonic Corporation Emotion recognition apparatus
US8510113B1 (en) * 2006-08-31 2013-08-13 At&T Intellectual Property Ii, L.P. Method and system for enhancing a speech database
US7860705B2 (en) * 2006-09-01 2010-12-28 International Business Machines Corporation Methods and apparatus for context adaptation of speech-to-speech translation systems
US20080147409A1 (en) * 2006-12-18 2008-06-19 Robert Taormina System, apparatus and method for providing global communications
JP4213755B2 (ja) * 2007-03-28 2009-01-21 株式会社東芝 音声翻訳装置、方法およびプログラム
US20080300855A1 (en) * 2007-05-31 2008-12-04 Alibaig Mohammad Munwar Method for realtime spoken natural language translation and apparatus therefor
CN101226742B (zh) * 2007-12-05 2011-01-26 浙江大学 基于情感补偿的声纹识别方法
CN101178897B (zh) * 2007-12-05 2011-04-20 浙江大学 利用基频包络剔除情感语音的说话人识别方法
US20090157407A1 (en) * 2007-12-12 2009-06-18 Nokia Corporation Methods, Apparatuses, and Computer Program Products for Semantic Media Conversion From Source Files to Audio/Video Files
JP2009186820A (ja) * 2008-02-07 2009-08-20 Hitachi Ltd 音声処理システム、音声処理プログラム及び音声処理方法
JP2009189797A (ja) * 2008-02-13 2009-08-27 Aruze Gaming America Inc ゲーミングマシン
CN101685634B (zh) * 2008-09-27 2012-11-21 上海盛淘智能科技有限公司 一种儿童语音情感识别方法
KR101589433B1 (ko) * 2009-03-11 2016-01-28 삼성전자주식회사 동시 통역 시스템
US8515749B2 (en) * 2009-05-20 2013-08-20 Raytheon Bbn Technologies Corp. Speech-to-speech translation
US20100049497A1 (en) * 2009-09-19 2010-02-25 Manuel-Devadoss Smith Johnson Phonetic natural language translation system
CN102054116B (zh) * 2009-10-30 2013-11-06 财团法人资讯工业策进会 情绪分析方法、情绪分析系统及情绪分析装置
US8566078B2 (en) * 2010-01-29 2013-10-22 International Business Machines Corporation Game based method for translation data acquisition and evaluation
US8412530B2 (en) * 2010-02-21 2013-04-02 Nice Systems Ltd. Method and apparatus for detection of sentiment in automated transcriptions
US20120330643A1 (en) * 2010-06-04 2012-12-27 John Frei System and method for translation
KR101101233B1 (ko) * 2010-07-07 2012-01-05 선린전자 주식회사 교통카드 기능을 구비한 휴대폰 충전용 젠더
US8775156B2 (en) * 2010-08-05 2014-07-08 Google Inc. Translating languages in response to device motion
JP5066242B2 (ja) * 2010-09-29 2012-11-07 株式会社東芝 音声翻訳装置、方法、及びプログラム
JP2012075039A (ja) * 2010-09-29 2012-04-12 Sony Corp 制御装置、および制御方法
US8566100B2 (en) 2011-06-21 2013-10-22 Verna Ip Holdings, Llc Automated method and system for obtaining user-selected real-time information on a mobile communication device
US9213695B2 (en) * 2012-02-06 2015-12-15 Language Line Services, Inc. Bridge from machine language interpretation to human language interpretation
US9390085B2 (en) 2012-03-23 2016-07-12 Tata Consultancy Sevices Limited Speech processing system and method for recognizing speech samples from a speaker with an oriyan accent when speaking english
CN103543979A (zh) * 2012-07-17 2014-01-29 联想(北京)有限公司 一种输出语音的方法、语音交互的方法及电子设备
US20140058879A1 (en) * 2012-08-23 2014-02-27 Xerox Corporation Online marketplace for translation services
CN103714048B (zh) * 2012-09-29 2017-07-21 国际商业机器公司 用于校正文本的方法和系统
JP2015014665A (ja) * 2013-07-04 2015-01-22 セイコーエプソン株式会社 音声認識装置及び方法、並びに、半導体集積回路装置
JP6259804B2 (ja) 2014-11-26 2018-01-10 ネイバー コーポレーションNAVER Corporation コンテンツ参加翻訳装置、及びそれを利用したコンテンツ参加翻訳方法
CN105139848B (zh) * 2015-07-23 2019-01-04 小米科技有限责任公司 数据转换方法和装置
CN105208194A (zh) * 2015-08-17 2015-12-30 努比亚技术有限公司 语音播报装置及方法
CN105551480B (zh) * 2015-12-18 2019-10-15 百度在线网络技术(北京)有限公司 方言转换方法及装置
CN105635452B (zh) * 2015-12-28 2019-05-10 努比亚技术有限公司 移动终端及其联系人标识方法
CN105931631A (zh) * 2016-04-15 2016-09-07 北京地平线机器人技术研发有限公司 语音合成系统和方法
US9747282B1 (en) * 2016-09-27 2017-08-29 Doppler Labs, Inc. Translation with conversational overlap
CN106782521A (zh) * 2017-03-22 2017-05-31 海南职业技术学院 一种语音识别系统
CN106910514A (zh) * 2017-04-30 2017-06-30 上海爱优威软件开发有限公司 语音处理方法及系统
US11328130B2 (en) * 2017-11-06 2022-05-10 Orion Labs, Inc. Translational bot for group communication
US10565994B2 (en) * 2017-11-30 2020-02-18 General Electric Company Intelligent human-machine conversation framework with speech-to-text and text-to-speech
CN108363377A (zh) * 2017-12-31 2018-08-03 广州展讯信息科技有限公司 一种应用于驾考系统的数据采集装置及方法
CN113168526A (zh) * 2018-10-09 2021-07-23 奇跃公司 用于虚拟和增强现实的系统和方法
US11159597B2 (en) * 2019-02-01 2021-10-26 Vidubly Ltd Systems and methods for artificial dubbing
US11202131B2 (en) 2019-03-10 2021-12-14 Vidubly Ltd Maintaining original volume changes of a character in revoiced media stream
CN109949794B (zh) * 2019-03-14 2021-04-16 山东远联信息科技有限公司 一种基于互联网技术的智能语音转换系统
CN110956950A (zh) * 2019-12-02 2020-04-03 联想(北京)有限公司 一种数据处理方法、装置和电子设备
US11361780B2 (en) * 2021-12-24 2022-06-14 Sandeep Dhawan Real-time speech-to-speech generation (RSSG) apparatus, method and a system therefore

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4352634A (en) 1980-03-17 1982-10-05 United Technologies Corporation Wind turbine blade pitch control system
JPS56164474A (en) 1981-05-12 1981-12-17 Noriko Ikegami Electronic translating machine
GB2165969B (en) 1984-10-19 1988-07-06 British Telecomm Dialogue system
JPH01206463A (ja) 1988-02-14 1989-08-18 Kenzo Ikegami 電子翻訳装置
JPH02183371A (ja) 1989-01-10 1990-07-17 Nec Corp 自動通訳装置
JPH04141172A (ja) 1990-10-01 1992-05-14 Toto Ltd 蒸気及び冷気発生切換装置
JPH04355555A (ja) 1991-05-31 1992-12-09 Oki Electric Ind Co Ltd 音声伝送方法
JPH0772840B2 (ja) 1992-09-29 1995-08-02 日本アイ・ビー・エム株式会社 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
SE500277C2 (sv) * 1993-05-10 1994-05-24 Televerket Anordning för att öka talförståelsen vid översätttning av tal från ett första språk till ett andra språk
SE516526C2 (sv) 1993-11-03 2002-01-22 Telia Ab Metod och anordning vid automatisk extrahering av prosodisk information
SE504177C2 (sv) 1994-06-29 1996-12-02 Telia Ab Metod och anordning att adaptera en taligenkänningsutrustning för dialektala variationer i ett språk
SE9600959L (sv) * 1996-03-13 1997-09-14 Telia Ab Metod och anordning vid tal-till-talöversättning
SE506003C2 (sv) * 1996-05-13 1997-11-03 Telia Ab Metod och system för tal-till-tal-omvandling med extrahering av prosodiinformation
JPH10187178A (ja) 1996-10-28 1998-07-14 Omron Corp 歌唱の感情分析装置並びに採点装置
US5933805A (en) * 1996-12-13 1999-08-03 Intel Corporation Retaining prosody during speech analysis for later playback
SE519679C2 (sv) 1997-03-25 2003-03-25 Telia Ab Metod vid talsyntes
SE520065C2 (sv) 1997-03-25 2003-05-20 Telia Ab Anordning och metod för prosodigenerering vid visuell talsyntes
JPH11265195A (ja) 1998-01-14 1999-09-28 Sony Corp 情報配信システム、情報送信装置、情報受信装置、情報配信方法
JP3884851B2 (ja) 1998-01-28 2007-02-21 ユニデン株式会社 通信システムおよびこれに用いられる無線通信端末装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009048003A (ja) * 2007-08-21 2009-03-05 Toshiba Corp 音声翻訳装置及び方法

Also Published As

Publication number Publication date
JP4536323B2 (ja) 2010-09-01
US7962345B2 (en) 2011-06-14
DE60216069T2 (de) 2007-05-31
US20080312920A1 (en) 2008-12-18
CN1379392A (zh) 2002-11-13
WO2002084643A1 (en) 2002-10-24
KR20030085075A (ko) 2003-11-01
US20040172257A1 (en) 2004-09-02
DE60216069D1 (de) 2006-12-28
CN1159702C (zh) 2004-07-28
EP1377964B1 (en) 2006-11-15
ATE345561T1 (de) 2006-12-15
US7461001B2 (en) 2008-12-02
EP1377964A1 (en) 2004-01-07

Similar Documents

Publication Publication Date Title
JP4536323B2 (ja) 音声−音声生成システムおよび方法
KR102581346B1 (ko) 다국어 음성 합성 및 언어간 음성 복제
CN108447486B (zh) 一种语音翻译方法及装置
US6751592B1 (en) Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically
Isewon et al. Design and implementation of text to speech conversion for visually impaired people
CN106486121B (zh) 应用于智能机器人的语音优化方法及装置
US20040073423A1 (en) Phonetic speech-to-text-to-speech system and method
US20070088547A1 (en) Phonetic speech-to-text-to-speech system and method
CN115485766A (zh) 使用bert模型的语音合成韵律
US11475874B2 (en) Generating diverse and natural text-to-speech samples
WO2022046526A1 (en) Synthesized data augmentation using voice conversion and speech recognition models
US11817079B1 (en) GAN-based speech synthesis model and training method
Reddy et al. Speech-to-Text and Text-to-Speech Recognition Using Deep Learning
JPH08335096A (ja) テキスト音声合成装置
Soman et al. Corpus driven malayalam text-to-speech synthesis for interactive voice response system
JP2021148942A (ja) 声質変換システムおよび声質変換方法
Iyanda et al. Development of a Yorúbà Textto-Speech System Using Festival
KR100806287B1 (ko) 문말 억양 예측 방법 및 이를 기반으로 하는 음성합성 방법및 시스템
Dessai et al. Development of Konkani TTS system using concatenative synthesis
Ibrahim et al. Graphic User Interface for Hausa Text-to-Speech System
Das Syllabic Speech Synthesis for Marathi Language
Davaatsagaan et al. Diphone-based concatenative speech synthesis system for mongolian
Zain et al. A review of CALL-based ASR and its potential application for Malay cued Speech learning tool application
Kaur et al. HMM-based phonetic engine for continuous speech of a regional language
JP2003108180A (ja) 音声合成方法および音声合成装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060725

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20061017

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20061024

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070124

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070612

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070703

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20070713

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100427

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100616

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130625

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4536323

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

EXPY Cancellation because of completion of term