JP2005502102A

JP2005502102A - 音声−音声生成システムおよび方法

Info

Publication number: JP2005502102A
Application number: JP2002581513A
Authority: JP
Inventors: タング、ドナルド; シェン、リクイン; シ、クイン; ツアン、ウエイ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2001-04-11
Filing date: 2002-03-15
Publication date: 2005-01-20
Anticipated expiration: 2022-03-15
Also published as: JP4536323B2; US7962345B2; DE60216069T2; US20080312920A1; CN1379392A; WO2002084643A1; KR20030085075A; US20040172257A1; DE60216069D1; CN1159702C; EP1377964B1; ATE345561T1; US7461001B2; EP1377964A1

Abstract

【課題】表現力をもつ音声−音声生成システムと方法を提供する。
【解決手段】本発明に係るシステムと方法によれば、元の音声信号から抽出した表現パラメータを用いて標準のＴＴＳシステムを駆動することにより、表現力をもつ音声出力を生成することができる。本発明に係るシステムは、音声認識手段１０１と、機械翻訳手段１０２と、テキスト−音声生成手段１０３と、言語Ａの音声から表現パラメータを抽出する表現パラメータ検出手段１０４と、表現パラメータ検出手段１０４によって言語Ａから抽出した表現パラメータを言語Ｂにマップし、マッピング結果によっテキスト−音声生成手段１０３を駆動して表現力をもつ音声を合成する表現パラメータ・マッピング手段１０５とを備えている。本発明に係るシステムと方法によれば、翻訳システムまたはＴＴＳシステムの音声出力の品質を改善することができる。

Description

【技術分野】
【０００１】
本発明は一般に機械翻訳の分野に関し、特に表現力をもつ（expressive）音声−音声生成システムおよび方法に関する。
【背景技術】
【０００２】
機械翻訳はある言語のテキストまたは音声を別の言語のテキストまたは音声にコンピュータを用いて変換する手法である。換言すると、機械翻訳はコンピュータの大記憶容量とディジタル処理能力を用い、言語形成と構造解析の理論に基づく数学的方法によって辞書と構文規則を生成することにより、人手の関与なしにある言語を別の言語に自動的に変換することである。
【０００３】
一般に、現在の機械翻訳システムはある言語のテキストを別の言語のテキストに翻訳するテキスト・ベースの翻訳システムである。しかし、社会の発展に伴い、音声ベースの翻訳システムが必要とされている。現在の機械翻訳システムでは、現在の音声認識手法、テキスト・ベースの翻訳手法、およびＴＴＳ（text-to-speech）手法を用いることにより、まず、第１言語の音声を音声認識手法で認識したのち第１言語のテキストに変換する。次いで、第１言語のテキストを第２言語のテキストに翻訳する。最後に、第２言語のテキストに基づきＴＴＳ手法を用いて第２言語の音声を生成する。
【０００４】
しかしながら、既存のＴＴＳシステムは普通、表現力に乏しく単調な音声を生成する。現在利用可能な典型的なＴＴＳシステムの場合、まず（音節中の）すべての語の標準的な発音を記録して解析し、次いで標準的な「表現」と語レベルで等価なパラメータを辞書に格納する。次いで、辞書で定義されている標準的な制御パラメータにより、かつ通常の円滑化手法を用いて要素音節を互いに縫い合わせることにより、要素音節から音声合成語を生成する。しかし、このような音声生成方法では、文の意味と話者の感情に基づいた完全な表現としての音声を生成することはできない。
【発明の開示】
【発明が解決しようとする課題】
【０００５】
本発明の目的は表現力をもつ音声−音声生成システムおよび方法を提供することである。
【課題を解決するための手段】
【０００６】
本発明の一実例によると、表現力をもつ音声−音声システムでは、元の音声信号から取得した表現パラメータを用い標準のＴＴＳシステムを駆動して表現力をもつ音声を生成する。
【０００７】
本発明の第１の側面による音声−音声生成システムは次のように構成する。
音声−音声生成システムであって、
言語Ａの音声を認識して対応する言語Ａのテキストを生成する音声認識手段と、
前記テキストを言語Ａから言語Ｂに翻訳する機械翻訳手段と、
言語Ｂのテキストに従って言語Ｂの音声を生成するテキスト−音声生成手段と
を備え、
前記音声−音声翻訳システムがさらに、
言語Ａの音声から表現パラメータを抽出する表現パラメータ検出手段と、
前記表現パラメータ検出手段によって言語Ａから抽出した前記表現パラメータを言語Ｂにマップし、マッピング結果によって前記テキスト−音声生成手段を駆動して表現力をもつ音声を合成する表現パラメータ・マッピング手段と
を備えた
システム。
【０００８】
本発明の第２の側面による音声−音声生成システムは次のように構成する。
音声−音声生成システムであって、
方言Ａの音声を認識して対応するテキストを生成する音声認識手段と、
前記テキストに従って別の方言Ｂの音声を生成するテキスト−音声生成手段と
を備え、
前記音声−音声生成システムがさらに、
方言Ａの音声から表現パラメータを抽出する表現パラメータ検出手段と、
前記表現パラメータ検出手段によって方言Ａから抽出した前記表現パラメータを方言Ｂにマップし、マッピング結果によって前記テキスト−音声生成手段を駆動して表現力をもつ音声を合成する表現パラメータ・マッピング手段と
を備えた
システム。
【０００９】
本発明の第３の側面による音声−音声生成方法は次のように構成する。
音声−音声生成方法であって、
言語Ａの音声を認識して対応する言語Ａのテキストを生成するステップと、
前記テキストを言語Ａから言語Ｂに翻訳するステップと、
言語Ｂのテキストに従って言語Ｂの音声を生成するステップと
を備え、
前記表現力をもつ音声−音声方法がさらに、
言語Ａの音声から表現パラメータを抽出するステップと、
前記検出ステップによって言語Ａから抽出した前記表現パラメータを言語Ｂにマップし、マッピング結果によってテキスト−音声生成プロセスを駆動して表現力をもつ音声を合成するステップと
を備えた
方法。
【００１０】
本発明の第４の側面による音声−音声生成方法は次のように構成する。
音声−音声生成方法であって、
方言Ａの音声を認識して対応するテキストを生成するステップと、
前記テキストに従って別の方言Ｂの音声を生成するステップと
を備え、
前記音声−音声生成方法がさらに、
方言Ａの音声から表現パラメータを抽出するステップと、
前記検出するステップによって方言Ａから抽出した前記表現パラメータを方言Ｂにマップし、マッピング結果によってテキスト−音声生成プロセスを駆動して表現力をもつ音声を合成するステップと
を備えた
方法。
【００１１】
本発明に係る表現力をもつ音声−音声システムおよび方法によれば、翻訳システムまたはＴＴＳシステムの音声品質を改善することができる。
【発明を実施するための最良の形態】
【００１２】
図１に示すように、本発明の一実施形態による表現力をもつ音声−音声システムは音声認識手段１０１、機械翻訳手段１０２、テキスト−音声生成手段１０３、表現パラメータ検出手段１０４、および表現パラメータ・マッピング手段１０５を備えている。音声認識手段１０１は言語Ａの音声を認識して対応する言語Ａのテキストを生成するのに使用する。機械翻訳手段１０２は言語Ａのテキストを言語Ｂのテキストに翻訳するのに使用する。テキスト−音声生成手段１０３は言語Ｂのテキストに従って言語Ｂの音声を生成するのに使用する。表現パラメータ検出手段１０４は言語Ａの音声から表現パラメータを抽出するのに使用する。表現パラメータ・マッピング手段１０５は表現パラメータ検出手段によって言語Ａから抽出した表現パラメータを言語Ｂにマッピングするとともに、マッピング結果でテキスト−音声生成手段を駆動して表現力をもつ音声を合成するのに使用する。
【００１３】
当業者に知られているように、音声認識手段、機械翻訳手段、およびＴＴＳ手段を構築する従来技術は多数ある。したがって、ここでは本発明の一実施形態に係る表現パラメータ検出手段と表現パラメータ・マッピング手段のみを図２と図３を用いて説明する。
【００１４】
はじめに、音声の表現を反映する主要なパラメータを導入する。
【００１５】
表現を制御している、音声の主要パラメータは異なるレベルで定義することができる。
【００１６】
（１）語レベルにおける主要表現パラメータは速度（持続時間）、音量（エネルギー・レベル）、およびピッチ（レンジ〔範囲〕とトーン〔音調〕を含む）である。一般に語はいくつかの文字／音節から成るから、このような表現パラメータは音節レベルでもベクトルすなわち時間化した順列の形で定義することができる。たとえば、人が怒って話すとき、語音量は大きく、語ピッチは普通の状態より高く、そのエンベロープは円滑ではなく、そしてピッチ・マーク点の多くは消失しさえする。同時に、持続時間は短くなる。別の例として次のものがある。すなわち、私達はある文を普通に話すとき、おそらくその文中の数語を強調している。その結果、その数語のピッチ、エネルギー、および持続時間を変化させている。
【００１７】
（２）文レベルでは、イントネーション（抑揚）に焦点が当てられる。たとえば、感嘆文のエンベロープは宣言文のエンベロープとは異なる。
【００１８】
以下、表現パラメータ検出手段と表現パラメータ・マッピング手段が本発明に従って機能する様子を図２と図３を参照して説明する。すなわち、表現パラメータを抽出し、抽出した表現パラメータを用いてテキスト−音声生成手段を駆動し表現力をもつ音声を合成する様子を説明する。
【００１９】
図２に示すように、本発明の表現パラメータ検出手段は次に示すコンポーネントを備えている。
【００２０】
パートＡ：話者のピッチ、持続時間、および音量を解析する。パートＡでは、「音声認識」の結果を利用して音声と語（または文字）との間の一致結果を取得する。そして、それを次に示す構造体に記録する。

【００２１】
次いで、「短時間解析」法を用いて次に示すパラメータを取得する。
１．各「短時間ウインドウ」ごとの短時間エネルギー。
２．語のピッチ数を検出。
３．語の持続時間。
【００２２】
これらのパラメータに従い、次のステップに進み次に示すパラメータを取得する。
１．語の平均短時間エネルギー。
２．語の上位Ｎ個の短時間エネルギー。
３．ピッチ範囲、最大ピッチ、最小ピッチ、および語のピッチ値。
４．語の持続時間。
【００２３】
パートＢ：音声認識の結果のテキストに従い、言語Ａの標準ＴＴＳシステムを用いて言語Ａの表現なしの音声を生成したのち、表現なしＴＴＳのパラメータを解析する。これらのパラメータは表現力をもつ音声の解析の基準になる。
【００２４】
パートＣ：表現力をもつ標準の音声を形成している１つの文中のこれらの語についてパラメータの変動を解析する。その理由は話者が異なれば音量も異なり、ピッチも異なり、速度も異なるからである。また、一人の話者でさえ、同じ文章を異なったときに話せば、これらのパラメータは同じではなくなる。したがって、ある文の語の役割を基準音声に従って解析するには、相対パラメータを用いる必要がある。
【００２５】
規格化パラメータ法を用いて絶対パラメータから相対パラメータを取得する。相対パラメータには次に示すものがある。
１．語の相対平均短時間エネルギー。
２．語の相対上位Ｎ個短時間エネルギー。
３．語の相対ピッチ範囲、相対最大ピッチ、相対最小ピッチ。
４．語の相対持続時間。
【００２６】
パートＤ：標準音声パラメータに由来する基準に従って、語レベルおよび文レベルで表現力をもつ音声パラメータを解析する。
【００２７】
（１）語レベルでは、表現力をもつ音声の相対パラメータと基準音声の相対パラメータとを比較して、語のどちらのパラメータが荒っぽく変動しているかを見極める。
【００２８】
（２）文レベルでは、語をその変動レベルと語特性に従ってソートし、文中の主要な表現力をもつ語を取得する。
【００２９】
パートＥ：パラメータ比較の結果と、どの表現がどのパラメータを変動させるのかを知ることとに従って、文の表現力をもつ情報を取得し（すなわち表現パラメータを検出し）、そのパラメータを次に示す構造体に従って記録する。

【００３０】
たとえば、中国語で怒って「ｉ・！」と話すと、多くのピッチが消失し、絶対音量が基準値より大きくなるとの同時に相対音量がきわめて鋭利になり、持続時間が基準より短くなる。したがって、文レベルの表現は怒りであると結論することができる。主要な表現力をもつ語は「ｉｓ｛」である。
【００３１】
以下、表現パラメータ・マッピング手段を本発明の一実施形態に従って構造化する方法を図３と図４を参照して説明する。表現パラメータ・マッピング手段は次に示すパート群から成る。
【００３２】
パートＡ：表現パラメータの構造体を言語Ａから言語Ｂに機械翻訳の結果に従ってマップする。主要な方法は表現を示すのに重要な言語Ａ中の語に対応する言語Ｂ中の語を発見することである。このマッピングの結果を次に示す。

【００３３】
パートＢ：表現力をもつ情報のマッピング結果に基づいて、言語用のＴＴＳを駆動しうる調整パラメータを生成する。これにより、言語Ｂの表現パラメータに従ってある組のパラメータを使用しているのはどの語であるかを、言語Ｂの表現パラメータ・テーブルを用いて判定することができる。テーブル中のパラメータは相対調整パラメータである。
【００３４】
プロセスを図４に示す。表現パラメータは２レベルの変換テーブル（語レベルの変換テーブルと文レベルの変換テーブル）によって変換されて、テキスト−音声生成手段を調整するパラメータになる。
【００３５】
２レベルの変換テーブルを次に示す。
【００３６】
（１）表現パラメータをＴＴＳを調整するパラメータに変換するための語レベルの変換テーブル。
このテーブルの構造体を次に示す。

【００３７】
（２）文レベルの韻律パラメータを語レベルの調整ＴＴＳで調整する、文の感情型に従って文レベルの韻律パラメータを提供する文レベル変換テーブル。

【００３８】
以上、本発明に係る音声−音声システムを実施形態を用いて説明した。当業者が理解しうるように、本発明は同じ言語の様々な方言を翻訳するのにも使用することができる。図５に示すように、システムは図１に示したものと同様である。唯一の相違点は同じ言語の異なる方言間の翻訳は機械翻訳手段を必要としないという点である。特に、音声認識手段１０１は言語Ａの音声を認識して対応する言語Ａのテキストを生成するのに使用する。テキスト−音声生成手段１０３は言語Ｂのテキストに従って言語Ｂの音声を生成するのに使用する。表現パラメータ検出手段１０４は方言Ａの音声から表現パラメータを抽出するのに使用する。そして、表現パラメータ・マッピング手段１０５は表現パラメータ検出手段１０４が抽出した表現パラメータを方言Ａから方言Ｂにマップするのに使用するとともに、マッピング結果を用いてテキスト−音声生成手段を駆動して表現力をもつ音声を合成するのに使用する。
【００３９】
以上、本発明に係る表現力をもつ音声−音声システムを図１〜図５を用いて説明した。このシステムは元の音声信号から抽出した表現パラメータを用いて表現力をもつ音声出力を生成し、標準のＴＴＳシステムを駆動する。
【００４０】
本発明は表現力をもつ音声−音声方法も提供する。以下、図６〜図９を参照して本発明に係る音声−音声翻訳プロセスの一実施形態を説明する。
【００４１】
図６に示すように、本発明の一実施形態に係る表現力をもつ音声−音声方法は次に示すステップ群を備えている。すなわち、言語Ａの音声を認識して対応する言語Ａのテキストを生成するステップ（５０１）と、そのテキストを言語Ａから言語Ｂに翻訳するステップ（５02）と、言語Ｂのテキストに従って言語Ｂの音声を生成するステップ（５０３）と、言語Ａの音声から表現パラメータを抽出するステップ（５０４）と、検出するステップによって言語Ａから抽出した表現パラメータを言語Ｂにマップしたのち、マッピング結果によってテキスト−音声生成プロセスを駆動して表現力をもつ音声を合成するステップ（５０５）とである。
【００４２】
以下、本発明の一実施形態に係る表現力をもつ検出プロセスと表現力をもつマッピング・プロセスを図７と図８を参照して説明する。すなわち、表現パラメータを抽出し、抽出した表現パラメータを用いて既存のＴＴＳプロセスを駆動し表現力をもつ音声を合成する様子を説明する。
【００４３】
図７に示すように、表現パラメータ検出プロセスは次に示すステップ群を備えている。
【００４４】
ステップ６０１：話者のピッチ、持続時間、および音量を解析する。ステップ６０１では、音声認識の結果を利用して音声と語（または文字）との間の一致結果を取得する。次いで、「短時間解析」法を用いて次に示すパラメータを取得する。
１．各「短時間ウインドウ」ごとの短時間エネルギー。
２．語のピッチ数を検出。
３．語の持続時間。
【００４５】
これらのパラメータに従い、次のステップに進み次に示すパラメータを取得する。
１．語の平均短時間エネルギー。
２．語の上位Ｎ個の短時間エネルギー。
３．ピッチ範囲、最大ピッチ、最小ピッチ、および語のピッチ値。
４．語の持続時間。
【００４６】
ステップ６０２：音声認識の結果のテキストに従い、言語Ａの標準ＴＴＳシステムを用いて言語Ａの表現なしの音声を生成したのち、表現なしＴＴＳのパラメータを解析する。これらのパラメータは表現力をもつ音声の解析の基準になる。
【００４７】
ステップ６０３：表現力をもつ標準の音声に由来する文中のこれらの語についてパラメータの変動を解析する。その理由は話者が異なれば音量も異なり、ピッチも異なり、速度も異なるからである。また、一人の話者でさえ、同じ文章を異なったときに話せば、これらのパラメータは同じではなくなる。したがって、ある文の語の役割を基準音声に従って解析するには、相対パラメータを用いる必要がある。
【００４８】
規格化パラメータ法を用いて絶対パラメータから相対パラメータを取得する。相対パラメータには次に示すものがある。
１．語の相対平均短時間エネルギー。
２．語の相対上位Ｎ個短時間エネルギー。
３．語の相対ピッチ範囲、相対最大ピッチ、相対最小ピッチ。
４．語の相対持続時間。
【００４９】
ステップ６０４：標準音声パラメータに由来する基準に従って、語レベルおよび文レベルで表現力をもつ音声パラメータを解析する。
【００５０】
（１）語レベルでは、表現力をもつ音声の相対パラメータと基準音声の相対パラメータとを比較して、どの語のどのパラメータが荒っぽく変動しているかを見極める。
【００５１】
（２）文レベルでは、語をその変動レベルと語特性に従ってソートし、文中の主要な表現力をもつ語を取得する。
【００５２】
ステップ６０５：パラメータ比較の結果と、どの表現がどのパラメータを変動させるのかを知ることとに従って、文または別の語の表現力をもつ情報を取得し、表現パラメータを検出する。
【００５３】
次に、本発明の一実施形態に係る表現力をもつマッピング・プロセスを図８を用いて説明する。このプロセスは次に示すステップ群を備えている。
【００５４】
ステップ７０１：機械翻訳の結果に従って表現パラメータの構造体を言語Ａから言語Ｂにマップする。主要な方法は表現力をもつ移転にとって重要な言語Ａ中の語に対応する言語Ｂ中の語を発見することである。
【００５５】
ステップ７０２：表現力をもつ情報のマッピング結果に従って、言語ＢのＴＴＳを駆動しうる調整パラメータを生成する。これにより、言語Ｂの表現パラメータ・テーブルを用い、語または音節合成パラメータを生成することができる。
【００５６】
以上、本発明に係る音声−音声方法を実施形態とともに説明した。当業者が理解しうるように、本発明は同じ言語の様々な方言を翻訳するのにも使用することができる。図９に示すように、このプロセスは図６のものと同様である。唯一の相違点は同じ言語の異なる方言間の翻訳ではテキスト翻訳プロセスを必要としないという点である。特に，このプロセスは次に示すステップ群を備えている。すなわち、方言Ａの音声を認識し対応するテキストを生成するステップ（８０１）と、言語Ｂのテキストに従って言語Ｂの音声を生成するステップ（８０２）と、方言Ａの音声から表現パラメータを抽出するステップ（８０３）と、検出ステップによって方言Ａから抽出した表現パラメータを方言Ｂにマップし、マッピング結果をテキスト−音声生成プロセスに適用して表現力をもつ音声を合成するステップ（８０４）とである。
【００５７】
以上、好適な実施形態に係る表現力をもつ音声−音声システムと方法を図面とともに説明した。当業者は本発明の本旨と範囲の内で別の実施形態を案出することができる。本発明はそのような変更した実施形態や別の実施形態をすべて包含する。本発明の範囲を限定するのは特許請求の範囲である。
【図面の簡単な説明】
【００５８】
【図１】本発明に係る表現力をもつ音声−音声システムのブロック図である。
【図２】本発明の一実施形態に係る、図１の表現パラメータ検出手段のブロック図である。
【図３】本発明の一実施形態に係る、図１の表現パラメータ・マッピング手段のブロック図である。
【図４】本発明の一実施形態に係る、図１の表現パラメータ・マッピング手段のブロック図である。
【図５】本発明の別の実施形態に係る表現力をもつ音声−音声システムのブロック図である。
【図６】本発明の一実施形態に係る、表現力をもつ音声−音声翻訳の手順を示すフローチャートを示す図である。
【図７】本発明の一実施形態に係る、表現パラメータを検出する手順を示すフローチャートを示す図である。
【図８】本発明の一実施形態に係る、検出した表現パラメータをマップしＴＴＳパラメータを調整する手順を示すフローチャートを示す図である。
【図９】本発明の別の実施形態に係る、表現力をもつ音声−音声翻訳の手順を示すフローチャートを示す図である。
【符号の説明】
【００５９】
１０１音声認識
１０２機械翻訳
１０３言語ＢのＴＴＳ
１０４表現パラメータ検出
１０５表現パラメータ・マッピング

Claims

音声−音声生成システムであって、
言語Ａの音声を認識して対応する言語Ａのテキストを生成する音声認識手段と、
前記テキストを言語Ａから言語Ｂに翻訳する機械翻訳手段と、
言語Ｂのテキストに従って言語Ｂの音声を生成するテキスト−音声生成手段と
を備え、
前記音声−音声翻訳システムがさらに、
言語Ａの音声から表現パラメータを抽出する表現パラメータ検出手段と、
前記表現パラメータ検出手段によって言語Ａから抽出した前記表現パラメータを言語Ｂにマップし、マッピング結果によって前記テキスト−音声生成手段を駆動して表現力をもつ音声を合成する表現パラメータ・マッピング手段と
を備えた
システム。
前記表現パラメータ検出手段が様々なレベルで前記表現パラメータを抽出する、
請求項１に記載のシステム。
前記表現パラメータ検出手段が語レベルで前記表現パラメータを抽出する、
請求項２に記載のシステム。
前記表現パラメータ検出手段が文レベルで前記表現パラメータを抽出する、
請求項２に記載のシステム。
前記表現パラメータ・マッピング手段が前記表現パラメータを言語Ａから言語Ｂにマップし、前記言語Ｂの表現パラメータを語レベルの変換および文レベルの変換によって前記テキスト−音声生成手段を調整するパラメータに変換する、
請求項１〜４のうちの１項に記載のシステム。
音声−音声生成システムであって、
方言Ａの音声を認識して対応するテキストを生成する音声認識手段と、
前記テキストに従って別の方言Ｂの音声を生成するテキスト−音声生成手段と
を備え、
前記音声−音声生成システムがさらに、
方言Ａの音声から表現パラメータを抽出する表現パラメータ検出手段と、
前記表現パラメータ検出手段によって方言Ａから抽出した前記表現パラメータを方言Ｂにマップし、マッピング結果によって前記テキスト−音声生成手段を駆動して表現力をもつ音声を合成する表現パラメータ・マッピング手段と
を備えた
システム。
前記表現パラメータ検出手段が様々なレベルで前記表現パラメータを抽出する、
請求項６に記載のシステム。
前記表現パラメータ検出手段が語レベルで前記表現パラメータを抽出する、
請求項７に記載のシステム。
前記表現パラメータ検出手段が文レベルで前記表現パラメータを抽出する、
請求項７に記載のシステム。
前記表現パラメータ・マッピング手段が前記表現パラメータを方言Ａから方言Ｂにマップし、前記方言Ｂの表現パラメータを語レベルの変換および文レベルの変換によってテキスト−音声生成手段を調整するパラメータに変換する、
請求項６〜９のうちの１項に記載のシステム。
音声−音声生成方法であって、
言語Ａの音声を認識して対応する言語Ａのテキストを生成するステップと、
前記テキストを言語Ａから言語Ｂに翻訳するステップと、
言語Ｂのテキストに従って言語Ｂの音声を生成するステップと
を備え、
前記表現力をもつ音声−音声方法がさらに、
言語Ａの音声から表現パラメータを抽出するステップと、
前記検出ステップによって言語Ａから抽出した前記表現パラメータを言語Ｂにマップし、マッピング結果によってテキスト−音声生成プロセスを駆動して表現力をもつ音声を合成するステップと
を備えた
方法。
前記表現パラメータを抽出するステップを様々なレベルで実行する、
請求項１１に記載の方法。
前記様々なレベルが語レベルを含んでいる、
請求項１２に記載の方法。
前記様々なレベルが文レベルを含んでいる、
請求項１２に記載の方法。
表現パラメータを言語Ａから言語Ｂにマップする前記ステップが、
前記言語Ｂの表現パラメータを語レベルの変換および文レベルの変換によってテキスト−音声生成手段を調整するパラメータに変換するステップ
を備えている、
請求項１１〜１４のうちの１項に記載の方法。
音声−音声生成方法であって、
方言Ａの音声を認識して対応するテキストを生成するステップと、
前記テキストに従って別の方言Ｂの音声を生成するステップと
を備え、
前記音声−音声生成方法がさらに、
方言Ａの音声から表現パラメータを抽出するステップと、
前記検出するステップによって方言Ａから抽出した前記表現パラメータを方言Ｂにマップし、マッピング結果によってテキスト−音声生成プロセスを駆動して表現力をもつ音声を合成するステップと
を備えた
方法。
前記表現パラメータを抽出するステップを様々なレベルで実行する、
請求項１６に記載の方法。
前記様々なレベルが語レベルを含んでいる、
請求項１７に記載の方法。
前記様々なレベルが文レベルを含んでいる、
請求項１７に記載の方法。
表現パラメータを方言Ａから方言Ｂにマップする前記ステップが、
前記方言Ｂの表現パラメータを語レベルの変換および文レベルの変換によってテキスト−音声生成手段を調整するパラメータに変換するステップ
を備えている、
請求項１６〜１９のうちの１項に記載の方法。