JP2005502102A - 音声−音声生成システムおよび方法 - Google Patents
音声−音声生成システムおよび方法 Download PDFInfo
- Publication number
- JP2005502102A JP2005502102A JP2002581513A JP2002581513A JP2005502102A JP 2005502102 A JP2005502102 A JP 2005502102A JP 2002581513 A JP2002581513 A JP 2002581513A JP 2002581513 A JP2002581513 A JP 2002581513A JP 2005502102 A JP2005502102 A JP 2005502102A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- language
- text
- expression
- expression parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 63
- 238000013507 mapping Methods 0.000 claims abstract description 48
- 238000013519 translation Methods 0.000 claims abstract description 27
- 238000001514 detection method Methods 0.000 claims abstract description 23
- 238000006243 chemical reaction Methods 0.000 claims description 14
- 239000000284 extract Substances 0.000 claims 6
- 239000011295 pitch Substances 0.000 description 25
- 238000010586 diagram Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000010420 art technique Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
【解決手段】本発明に係るシステムと方法によれば、元の音声信号から抽出した表現パラメータを用いて標準のTTSシステムを駆動することにより、表現力をもつ音声出力を生成することができる。本発明に係るシステムは、音声認識手段101と、機械翻訳手段102と、テキスト−音声生成手段103と、言語Aの音声から表現パラメータを抽出する表現パラメータ検出手段104と、表現パラメータ検出手段104によって言語Aから抽出した表現パラメータを言語Bにマップし、マッピング結果によっテキスト−音声生成手段103を駆動して表現力をもつ音声を合成する表現パラメータ・マッピング手段105とを備えている。本発明に係るシステムと方法によれば、翻訳システムまたはTTSシステムの音声出力の品質を改善することができる。
Description
【0001】
本発明は一般に機械翻訳の分野に関し、特に表現力をもつ(expressive)音声−音声生成システムおよび方法に関する。
【背景技術】
【0002】
機械翻訳はある言語のテキストまたは音声を別の言語のテキストまたは音声にコンピュータを用いて変換する手法である。換言すると、機械翻訳はコンピュータの大記憶容量とディジタル処理能力を用い、言語形成と構造解析の理論に基づく数学的方法によって辞書と構文規則を生成することにより、人手の関与なしにある言語を別の言語に自動的に変換することである。
【0003】
一般に、現在の機械翻訳システムはある言語のテキストを別の言語のテキストに翻訳するテキスト・ベースの翻訳システムである。しかし、社会の発展に伴い、音声ベースの翻訳システムが必要とされている。現在の機械翻訳システムでは、現在の音声認識手法、テキスト・ベースの翻訳手法、およびTTS(text-to-speech)手法を用いることにより、まず、第1言語の音声を音声認識手法で認識したのち第1言語のテキストに変換する。次いで、第1言語のテキストを第2言語のテキストに翻訳する。最後に、第2言語のテキストに基づきTTS手法を用いて第2言語の音声を生成する。
【0004】
しかしながら、既存のTTSシステムは普通、表現力に乏しく単調な音声を生成する。現在利用可能な典型的なTTSシステムの場合、まず(音節中の)すべての語の標準的な発音を記録して解析し、次いで標準的な「表現」と語レベルで等価なパラメータを辞書に格納する。次いで、辞書で定義されている標準的な制御パラメータにより、かつ通常の円滑化手法を用いて要素音節を互いに縫い合わせることにより、要素音節から音声合成語を生成する。しかし、このような音声生成方法では、文の意味と話者の感情に基づいた完全な表現としての音声を生成することはできない。
【発明の開示】
【発明が解決しようとする課題】
【0005】
本発明の目的は表現力をもつ音声−音声生成システムおよび方法を提供することである。
【課題を解決するための手段】
【0006】
本発明の一実例によると、表現力をもつ音声−音声システムでは、元の音声信号から取得した表現パラメータを用い標準のTTSシステムを駆動して表現力をもつ音声を生成する。
【0007】
本発明の第1の側面による音声−音声生成システムは次のように構成する。
音声−音声生成システムであって、
言語Aの音声を認識して対応する言語Aのテキストを生成する音声認識手段と、
前記テキストを言語Aから言語Bに翻訳する機械翻訳手段と、
言語Bのテキストに従って言語Bの音声を生成するテキスト−音声生成手段と
を備え、
前記音声−音声翻訳システムがさらに、
言語Aの音声から表現パラメータを抽出する表現パラメータ検出手段と、
前記表現パラメータ検出手段によって言語Aから抽出した前記表現パラメータを言語Bにマップし、マッピング結果によって前記テキスト−音声生成手段を駆動して表現力をもつ音声を合成する表現パラメータ・マッピング手段と
を備えた
システム。
【0008】
本発明の第2の側面による音声−音声生成システムは次のように構成する。
音声−音声生成システムであって、
方言Aの音声を認識して対応するテキストを生成する音声認識手段と、
前記テキストに従って別の方言Bの音声を生成するテキスト−音声生成手段と
を備え、
前記音声−音声生成システムがさらに、
方言Aの音声から表現パラメータを抽出する表現パラメータ検出手段と、
前記表現パラメータ検出手段によって方言Aから抽出した前記表現パラメータを方言Bにマップし、マッピング結果によって前記テキスト−音声生成手段を駆動して表現力をもつ音声を合成する表現パラメータ・マッピング手段と
を備えた
システム。
【0009】
本発明の第3の側面による音声−音声生成方法は次のように構成する。
音声−音声生成方法であって、
言語Aの音声を認識して対応する言語Aのテキストを生成するステップと、
前記テキストを言語Aから言語Bに翻訳するステップと、
言語Bのテキストに従って言語Bの音声を生成するステップと
を備え、
前記表現力をもつ音声−音声方法がさらに、
言語Aの音声から表現パラメータを抽出するステップと、
前記検出ステップによって言語Aから抽出した前記表現パラメータを言語Bにマップし、マッピング結果によってテキスト−音声生成プロセスを駆動して表現力をもつ音声を合成するステップと
を備えた
方法。
【0010】
本発明の第4の側面による音声−音声生成方法は次のように構成する。
音声−音声生成方法であって、
方言Aの音声を認識して対応するテキストを生成するステップと、
前記テキストに従って別の方言Bの音声を生成するステップと
を備え、
前記音声−音声生成方法がさらに、
方言Aの音声から表現パラメータを抽出するステップと、
前記検出するステップによって方言Aから抽出した前記表現パラメータを方言Bにマップし、マッピング結果によってテキスト−音声生成プロセスを駆動して表現力をもつ音声を合成するステップと
を備えた
方法。
【0011】
本発明に係る表現力をもつ音声−音声システムおよび方法によれば、翻訳システムまたはTTSシステムの音声品質を改善することができる。
【発明を実施するための最良の形態】
【0012】
図1に示すように、本発明の一実施形態による表現力をもつ音声−音声システムは音声認識手段101、機械翻訳手段102、テキスト−音声生成手段103、表現パラメータ検出手段104、および表現パラメータ・マッピング手段105を備えている。音声認識手段101は言語Aの音声を認識して対応する言語Aのテキストを生成するのに使用する。機械翻訳手段102は言語Aのテキストを言語Bのテキストに翻訳するのに使用する。テキスト−音声生成手段103は言語Bのテキストに従って言語Bの音声を生成するのに使用する。表現パラメータ検出手段104は言語Aの音声から表現パラメータを抽出するのに使用する。表現パラメータ・マッピング手段105は表現パラメータ検出手段によって言語Aから抽出した表現パラメータを言語Bにマッピングするとともに、マッピング結果でテキスト−音声生成手段を駆動して表現力をもつ音声を合成するのに使用する。
【0013】
当業者に知られているように、音声認識手段、機械翻訳手段、およびTTS手段を構築する従来技術は多数ある。したがって、ここでは本発明の一実施形態に係る表現パラメータ検出手段と表現パラメータ・マッピング手段のみを図2と図3を用いて説明する。
【0014】
はじめに、音声の表現を反映する主要なパラメータを導入する。
【0015】
表現を制御している、音声の主要パラメータは異なるレベルで定義することができる。
【0016】
(1)語レベルにおける主要表現パラメータは速度(持続時間)、音量(エネルギー・レベル)、およびピッチ(レンジ〔範囲〕とトーン〔音調〕を含む)である。一般に語はいくつかの文字/音節から成るから、このような表現パラメータは音節レベルでもベクトルすなわち時間化した順列の形で定義することができる。たとえば、人が怒って話すとき、語音量は大きく、語ピッチは普通の状態より高く、そのエンベロープは円滑ではなく、そしてピッチ・マーク点の多くは消失しさえする。同時に、持続時間は短くなる。別の例として次のものがある。すなわち、私達はある文を普通に話すとき、おそらくその文中の数語を強調している。その結果、その数語のピッチ、エネルギー、および持続時間を変化させている。
【0017】
(2)文レベルでは、イントネーション(抑揚)に焦点が当てられる。たとえば、感嘆文のエンベロープは宣言文のエンベロープとは異なる。
【0018】
以下、表現パラメータ検出手段と表現パラメータ・マッピング手段が本発明に従って機能する様子を図2と図3を参照して説明する。すなわち、表現パラメータを抽出し、抽出した表現パラメータを用いてテキスト−音声生成手段を駆動し表現力をもつ音声を合成する様子を説明する。
【0019】
図2に示すように、本発明の表現パラメータ検出手段は次に示すコンポーネントを備えている。
【0020】
パートA:話者のピッチ、持続時間、および音量を解析する。パートAでは、「音声認識」の結果を利用して音声と語(または文字)との間の一致結果を取得する。そして、それを次に示す構造体に記録する。
【0021】
次いで、「短時間解析」法を用いて次に示すパラメータを取得する。
1.各「短時間ウインドウ」ごとの短時間エネルギー。
2.語のピッチ数を検出。
3.語の持続時間。
【0022】
これらのパラメータに従い、次のステップに進み次に示すパラメータを取得する。
1.語の平均短時間エネルギー。
2.語の上位N個の短時間エネルギー。
3.ピッチ範囲、最大ピッチ、最小ピッチ、および語のピッチ値。
4.語の持続時間。
【0023】
パートB:音声認識の結果のテキストに従い、言語Aの標準TTSシステムを用いて言語Aの表現なしの音声を生成したのち、表現なしTTSのパラメータを解析する。これらのパラメータは表現力をもつ音声の解析の基準になる。
【0024】
パートC:表現力をもつ標準の音声を形成している1つの文中のこれらの語についてパラメータの変動を解析する。その理由は話者が異なれば音量も異なり、ピッチも異なり、速度も異なるからである。また、一人の話者でさえ、同じ文章を異なったときに話せば、これらのパラメータは同じではなくなる。したがって、ある文の語の役割を基準音声に従って解析するには、相対パラメータを用いる必要がある。
【0025】
規格化パラメータ法を用いて絶対パラメータから相対パラメータを取得する。相対パラメータには次に示すものがある。
1.語の相対平均短時間エネルギー。
2.語の相対上位N個短時間エネルギー。
3.語の相対ピッチ範囲、相対最大ピッチ、相対最小ピッチ。
4.語の相対持続時間。
【0026】
パートD:標準音声パラメータに由来する基準に従って、語レベルおよび文レベルで表現力をもつ音声パラメータを解析する。
【0027】
(1)語レベルでは、表現力をもつ音声の相対パラメータと基準音声の相対パラメータとを比較して、語のどちらのパラメータが荒っぽく変動しているかを見極める。
【0028】
(2)文レベルでは、語をその変動レベルと語特性に従ってソートし、文中の主要な表現力をもつ語を取得する。
【0029】
パートE:パラメータ比較の結果と、どの表現がどのパラメータを変動させるのかを知ることとに従って、文の表現力をもつ情報を取得し(すなわち表現パラメータを検出し)、そのパラメータを次に示す構造体に従って記録する。
【0030】
たとえば、中国語で怒って「i・!」と話すと、多くのピッチが消失し、絶対音量が基準値より大きくなるとの同時に相対音量がきわめて鋭利になり、持続時間が基準より短くなる。したがって、文レベルの表現は怒りであると結論することができる。主要な表現力をもつ語は「is{」である。
【0031】
以下、表現パラメータ・マッピング手段を本発明の一実施形態に従って構造化する方法を図3と図4を参照して説明する。表現パラメータ・マッピング手段は次に示すパート群から成る。
【0032】
パートA:表現パラメータの構造体を言語Aから言語Bに機械翻訳の結果に従ってマップする。主要な方法は表現を示すのに重要な言語A中の語に対応する言語B中の語を発見することである。このマッピングの結果を次に示す。
【0033】
パートB:表現力をもつ情報のマッピング結果に基づいて、言語用のTTSを駆動しうる調整パラメータを生成する。これにより、言語Bの表現パラメータに従ってある組のパラメータを使用しているのはどの語であるかを、言語Bの表現パラメータ・テーブルを用いて判定することができる。テーブル中のパラメータは相対調整パラメータである。
【0034】
プロセスを図4に示す。表現パラメータは2レベルの変換テーブル(語レベルの変換テーブルと文レベルの変換テーブル)によって変換されて、テキスト−音声生成手段を調整するパラメータになる。
【0035】
2レベルの変換テーブルを次に示す。
【0036】
(1)表現パラメータをTTSを調整するパラメータに変換するための語レベルの変換テーブル。
このテーブルの構造体を次に示す。
【0037】
(2)文レベルの韻律パラメータを語レベルの調整TTSで調整する、文の感情型に従って文レベルの韻律パラメータを提供する文レベル変換テーブル。
【0038】
以上、本発明に係る音声−音声システムを実施形態を用いて説明した。当業者が理解しうるように、本発明は同じ言語の様々な方言を翻訳するのにも使用することができる。図5に示すように、システムは図1に示したものと同様である。唯一の相違点は同じ言語の異なる方言間の翻訳は機械翻訳手段を必要としないという点である。特に、音声認識手段101は言語Aの音声を認識して対応する言語Aのテキストを生成するのに使用する。テキスト−音声生成手段103は言語Bのテキストに従って言語Bの音声を生成するのに使用する。表現パラメータ検出手段104は方言Aの音声から表現パラメータを抽出するのに使用する。そして、表現パラメータ・マッピング手段105は表現パラメータ検出手段104が抽出した表現パラメータを方言Aから方言Bにマップするのに使用するとともに、マッピング結果を用いてテキスト−音声生成手段を駆動して表現力をもつ音声を合成するのに使用する。
【0039】
以上、本発明に係る表現力をもつ音声−音声システムを図1〜図5を用いて説明した。このシステムは元の音声信号から抽出した表現パラメータを用いて表現力をもつ音声出力を生成し、標準のTTSシステムを駆動する。
【0040】
本発明は表現力をもつ音声−音声方法も提供する。以下、図6〜図9を参照して本発明に係る音声−音声翻訳プロセスの一実施形態を説明する。
【0041】
図6に示すように、本発明の一実施形態に係る表現力をもつ音声−音声方法は次に示すステップ群を備えている。すなわち、言語Aの音声を認識して対応する言語Aのテキストを生成するステップ(501)と、そのテキストを言語Aから言語Bに翻訳するステップ(502)と、言語Bのテキストに従って言語Bの音声を生成するステップ(503)と、言語Aの音声から表現パラメータを抽出するステップ(504)と、検出するステップによって言語Aから抽出した表現パラメータを言語Bにマップしたのち、マッピング結果によってテキスト−音声生成プロセスを駆動して表現力をもつ音声を合成するステップ(505)とである。
【0042】
以下、本発明の一実施形態に係る表現力をもつ検出プロセスと表現力をもつマッピング・プロセスを図7と図8を参照して説明する。すなわち、表現パラメータを抽出し、抽出した表現パラメータを用いて既存のTTSプロセスを駆動し表現力をもつ音声を合成する様子を説明する。
【0043】
図7に示すように、表現パラメータ検出プロセスは次に示すステップ群を備えている。
【0044】
ステップ601:話者のピッチ、持続時間、および音量を解析する。ステップ601では、音声認識の結果を利用して音声と語(または文字)との間の一致結果を取得する。次いで、「短時間解析」法を用いて次に示すパラメータを取得する。
1.各「短時間ウインドウ」ごとの短時間エネルギー。
2.語のピッチ数を検出。
3.語の持続時間。
【0045】
これらのパラメータに従い、次のステップに進み次に示すパラメータを取得する。
1.語の平均短時間エネルギー。
2.語の上位N個の短時間エネルギー。
3.ピッチ範囲、最大ピッチ、最小ピッチ、および語のピッチ値。
4.語の持続時間。
【0046】
ステップ602:音声認識の結果のテキストに従い、言語Aの標準TTSシステムを用いて言語Aの表現なしの音声を生成したのち、表現なしTTSのパラメータを解析する。これらのパラメータは表現力をもつ音声の解析の基準になる。
【0047】
ステップ603:表現力をもつ標準の音声に由来する文中のこれらの語についてパラメータの変動を解析する。その理由は話者が異なれば音量も異なり、ピッチも異なり、速度も異なるからである。また、一人の話者でさえ、同じ文章を異なったときに話せば、これらのパラメータは同じではなくなる。したがって、ある文の語の役割を基準音声に従って解析するには、相対パラメータを用いる必要がある。
【0048】
規格化パラメータ法を用いて絶対パラメータから相対パラメータを取得する。相対パラメータには次に示すものがある。
1.語の相対平均短時間エネルギー。
2.語の相対上位N個短時間エネルギー。
3.語の相対ピッチ範囲、相対最大ピッチ、相対最小ピッチ。
4.語の相対持続時間。
【0049】
ステップ604:標準音声パラメータに由来する基準に従って、語レベルおよび文レベルで表現力をもつ音声パラメータを解析する。
【0050】
(1)語レベルでは、表現力をもつ音声の相対パラメータと基準音声の相対パラメータとを比較して、どの語のどのパラメータが荒っぽく変動しているかを見極める。
【0051】
(2)文レベルでは、語をその変動レベルと語特性に従ってソートし、文中の主要な表現力をもつ語を取得する。
【0052】
ステップ605:パラメータ比較の結果と、どの表現がどのパラメータを変動させるのかを知ることとに従って、文または別の語の表現力をもつ情報を取得し、表現パラメータを検出する。
【0053】
次に、本発明の一実施形態に係る表現力をもつマッピング・プロセスを図8を用いて説明する。このプロセスは次に示すステップ群を備えている。
【0054】
ステップ701:機械翻訳の結果に従って表現パラメータの構造体を言語Aから言語Bにマップする。主要な方法は表現力をもつ移転にとって重要な言語A中の語に対応する言語B中の語を発見することである。
【0055】
ステップ702:表現力をもつ情報のマッピング結果に従って、言語BのTTSを駆動しうる調整パラメータを生成する。これにより、言語Bの表現パラメータ・テーブルを用い、語または音節合成パラメータを生成することができる。
【0056】
以上、本発明に係る音声−音声方法を実施形態とともに説明した。当業者が理解しうるように、本発明は同じ言語の様々な方言を翻訳するのにも使用することができる。図9に示すように、このプロセスは図6のものと同様である。唯一の相違点は同じ言語の異なる方言間の翻訳ではテキスト翻訳プロセスを必要としないという点である。特に,このプロセスは次に示すステップ群を備えている。すなわち、方言Aの音声を認識し対応するテキストを生成するステップ(801)と、言語Bのテキストに従って言語Bの音声を生成するステップ(802)と、方言Aの音声から表現パラメータを抽出するステップ(803)と、検出ステップによって方言Aから抽出した表現パラメータを方言Bにマップし、マッピング結果をテキスト−音声生成プロセスに適用して表現力をもつ音声を合成するステップ(804)とである。
【0057】
以上、好適な実施形態に係る表現力をもつ音声−音声システムと方法を図面とともに説明した。当業者は本発明の本旨と範囲の内で別の実施形態を案出することができる。本発明はそのような変更した実施形態や別の実施形態をすべて包含する。本発明の範囲を限定するのは特許請求の範囲である。
【図面の簡単な説明】
【0058】
【図1】本発明に係る表現力をもつ音声−音声システムのブロック図である。
【図2】本発明の一実施形態に係る、図1の表現パラメータ検出手段のブロック図である。
【図3】本発明の一実施形態に係る、図1の表現パラメータ・マッピング手段のブロック図である。
【図4】本発明の一実施形態に係る、図1の表現パラメータ・マッピング手段のブロック図である。
【図5】本発明の別の実施形態に係る表現力をもつ音声−音声システムのブロック図である。
【図6】本発明の一実施形態に係る、表現力をもつ音声−音声翻訳の手順を示すフローチャートを示す図である。
【図7】本発明の一実施形態に係る、表現パラメータを検出する手順を示すフローチャートを示す図である。
【図8】本発明の一実施形態に係る、検出した表現パラメータをマップしTTSパラメータを調整する手順を示すフローチャートを示す図である。
【図9】本発明の別の実施形態に係る、表現力をもつ音声−音声翻訳の手順を示すフローチャートを示す図である。
【符号の説明】
【0059】
101 音声認識
102 機械翻訳
103 言語BのTTS
104 表現パラメータ検出
105 表現パラメータ・マッピング
Claims (20)
- 音声−音声生成システムであって、
言語Aの音声を認識して対応する言語Aのテキストを生成する音声認識手段と、
前記テキストを言語Aから言語Bに翻訳する機械翻訳手段と、
言語Bのテキストに従って言語Bの音声を生成するテキスト−音声生成手段と
を備え、
前記音声−音声翻訳システムがさらに、
言語Aの音声から表現パラメータを抽出する表現パラメータ検出手段と、
前記表現パラメータ検出手段によって言語Aから抽出した前記表現パラメータを言語Bにマップし、マッピング結果によって前記テキスト−音声生成手段を駆動して表現力をもつ音声を合成する表現パラメータ・マッピング手段と
を備えた
システム。 - 前記表現パラメータ検出手段が様々なレベルで前記表現パラメータを抽出する、
請求項1に記載のシステム。 - 前記表現パラメータ検出手段が語レベルで前記表現パラメータを抽出する、
請求項2に記載のシステム。 - 前記表現パラメータ検出手段が文レベルで前記表現パラメータを抽出する、
請求項2に記載のシステム。 - 前記表現パラメータ・マッピング手段が前記表現パラメータを言語Aから言語Bにマップし、前記言語Bの表現パラメータを語レベルの変換および文レベルの変換によって前記テキスト−音声生成手段を調整するパラメータに変換する、
請求項1〜4のうちの1項に記載のシステム。 - 音声−音声生成システムであって、
方言Aの音声を認識して対応するテキストを生成する音声認識手段と、
前記テキストに従って別の方言Bの音声を生成するテキスト−音声生成手段と
を備え、
前記音声−音声生成システムがさらに、
方言Aの音声から表現パラメータを抽出する表現パラメータ検出手段と、
前記表現パラメータ検出手段によって方言Aから抽出した前記表現パラメータを方言Bにマップし、マッピング結果によって前記テキスト−音声生成手段を駆動して表現力をもつ音声を合成する表現パラメータ・マッピング手段と
を備えた
システム。 - 前記表現パラメータ検出手段が様々なレベルで前記表現パラメータを抽出する、
請求項6に記載のシステム。 - 前記表現パラメータ検出手段が語レベルで前記表現パラメータを抽出する、
請求項7に記載のシステム。 - 前記表現パラメータ検出手段が文レベルで前記表現パラメータを抽出する、
請求項7に記載のシステム。 - 前記表現パラメータ・マッピング手段が前記表現パラメータを方言Aから方言Bにマップし、前記方言Bの表現パラメータを語レベルの変換および文レベルの変換によってテキスト−音声生成手段を調整するパラメータに変換する、
請求項6〜9のうちの1項に記載のシステム。 - 音声−音声生成方法であって、
言語Aの音声を認識して対応する言語Aのテキストを生成するステップと、
前記テキストを言語Aから言語Bに翻訳するステップと、
言語Bのテキストに従って言語Bの音声を生成するステップと
を備え、
前記表現力をもつ音声−音声方法がさらに、
言語Aの音声から表現パラメータを抽出するステップと、
前記検出ステップによって言語Aから抽出した前記表現パラメータを言語Bにマップし、マッピング結果によってテキスト−音声生成プロセスを駆動して表現力をもつ音声を合成するステップと
を備えた
方法。 - 前記表現パラメータを抽出するステップを様々なレベルで実行する、
請求項11に記載の方法。 - 前記様々なレベルが語レベルを含んでいる、
請求項12に記載の方法。 - 前記様々なレベルが文レベルを含んでいる、
請求項12に記載の方法。 - 表現パラメータを言語Aから言語Bにマップする前記ステップが、
前記言語Bの表現パラメータを語レベルの変換および文レベルの変換によってテキスト−音声生成手段を調整するパラメータに変換するステップ
を備えている、
請求項11〜14のうちの1項に記載の方法。 - 音声−音声生成方法であって、
方言Aの音声を認識して対応するテキストを生成するステップと、
前記テキストに従って別の方言Bの音声を生成するステップと
を備え、
前記音声−音声生成方法がさらに、
方言Aの音声から表現パラメータを抽出するステップと、
前記検出するステップによって方言Aから抽出した前記表現パラメータを方言Bにマップし、マッピング結果によってテキスト−音声生成プロセスを駆動して表現力をもつ音声を合成するステップと
を備えた
方法。 - 前記表現パラメータを抽出するステップを様々なレベルで実行する、
請求項16に記載の方法。 - 前記様々なレベルが語レベルを含んでいる、
請求項17に記載の方法。 - 前記様々なレベルが文レベルを含んでいる、
請求項17に記載の方法。 - 表現パラメータを方言Aから方言Bにマップする前記ステップが、
前記方言Bの表現パラメータを語レベルの変換および文レベルの変換によってテキスト−音声生成手段を調整するパラメータに変換するステップ
を備えている、
請求項16〜19のうちの1項に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB011165243A CN1159702C (zh) | 2001-04-11 | 2001-04-11 | 具有情感的语音-语音翻译系统和方法 |
PCT/GB2002/001277 WO2002084643A1 (en) | 2001-04-11 | 2002-03-15 | Speech-to-speech generation system and method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005502102A true JP2005502102A (ja) | 2005-01-20 |
JP4536323B2 JP4536323B2 (ja) | 2010-09-01 |
Family
ID=4662524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002581513A Expired - Lifetime JP4536323B2 (ja) | 2001-04-11 | 2002-03-15 | 音声−音声生成システムおよび方法 |
Country Status (8)
Country | Link |
---|---|
US (2) | US7461001B2 (ja) |
EP (1) | EP1377964B1 (ja) |
JP (1) | JP4536323B2 (ja) |
KR (1) | KR20030085075A (ja) |
CN (1) | CN1159702C (ja) |
AT (1) | ATE345561T1 (ja) |
DE (1) | DE60216069T2 (ja) |
WO (1) | WO2002084643A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009048003A (ja) * | 2007-08-21 | 2009-03-05 | Toshiba Corp | 音声翻訳装置及び方法 |
Families Citing this family (62)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7805307B2 (en) | 2003-09-30 | 2010-09-28 | Sharp Laboratories Of America, Inc. | Text to speech conversion system |
EP2267697A3 (en) | 2003-12-12 | 2011-04-06 | Nec Corporation | Information processing system, method of processing information, and program for processing information |
US7865365B2 (en) * | 2004-08-05 | 2011-01-04 | Nuance Communications, Inc. | Personalized voice playback for screen reader |
US8024194B2 (en) * | 2004-12-08 | 2011-09-20 | Nuance Communications, Inc. | Dynamic switching between local and remote speech rendering |
TWI281145B (en) * | 2004-12-10 | 2007-05-11 | Delta Electronics Inc | System and method for transforming text to speech |
US20080249776A1 (en) * | 2005-03-07 | 2008-10-09 | Linguatec Sprachtechnologien Gmbh | Methods and Arrangements for Enhancing Machine Processable Text Information |
US8224647B2 (en) | 2005-10-03 | 2012-07-17 | Nuance Communications, Inc. | Text-to-speech user's voice cooperative server for instant messaging clients |
US20070174326A1 (en) * | 2006-01-24 | 2007-07-26 | Microsoft Corporation | Application of metadata to digital media |
US7983910B2 (en) * | 2006-03-03 | 2011-07-19 | International Business Machines Corporation | Communicating across voice and text channels with emotion preservation |
US20080003551A1 (en) * | 2006-05-16 | 2008-01-03 | University Of Southern California | Teaching Language Through Interactive Translation |
US8706471B2 (en) * | 2006-05-18 | 2014-04-22 | University Of Southern California | Communication system using mixed translating while in multilingual communication |
US8032355B2 (en) * | 2006-05-22 | 2011-10-04 | University Of Southern California | Socially cognizant translation by detecting and transforming elements of politeness and respect |
US8032356B2 (en) * | 2006-05-25 | 2011-10-04 | University Of Southern California | Spoken translation system using meta information strings |
US9685190B1 (en) * | 2006-06-15 | 2017-06-20 | Google Inc. | Content sharing |
US8204747B2 (en) * | 2006-06-23 | 2012-06-19 | Panasonic Corporation | Emotion recognition apparatus |
US8510113B1 (en) * | 2006-08-31 | 2013-08-13 | At&T Intellectual Property Ii, L.P. | Method and system for enhancing a speech database |
US7860705B2 (en) * | 2006-09-01 | 2010-12-28 | International Business Machines Corporation | Methods and apparatus for context adaptation of speech-to-speech translation systems |
US20080147409A1 (en) * | 2006-12-18 | 2008-06-19 | Robert Taormina | System, apparatus and method for providing global communications |
JP4213755B2 (ja) * | 2007-03-28 | 2009-01-21 | 株式会社東芝 | 音声翻訳装置、方法およびプログラム |
US20080300855A1 (en) * | 2007-05-31 | 2008-12-04 | Alibaig Mohammad Munwar | Method for realtime spoken natural language translation and apparatus therefor |
CN101226742B (zh) * | 2007-12-05 | 2011-01-26 | 浙江大学 | 基于情感补偿的声纹识别方法 |
CN101178897B (zh) * | 2007-12-05 | 2011-04-20 | 浙江大学 | 利用基频包络剔除情感语音的说话人识别方法 |
US20090157407A1 (en) * | 2007-12-12 | 2009-06-18 | Nokia Corporation | Methods, Apparatuses, and Computer Program Products for Semantic Media Conversion From Source Files to Audio/Video Files |
JP2009186820A (ja) * | 2008-02-07 | 2009-08-20 | Hitachi Ltd | 音声処理システム、音声処理プログラム及び音声処理方法 |
JP2009189797A (ja) * | 2008-02-13 | 2009-08-27 | Aruze Gaming America Inc | ゲーミングマシン |
CN101685634B (zh) * | 2008-09-27 | 2012-11-21 | 上海盛淘智能科技有限公司 | 一种儿童语音情感识别方法 |
KR101589433B1 (ko) * | 2009-03-11 | 2016-01-28 | 삼성전자주식회사 | 동시 통역 시스템 |
US8515749B2 (en) * | 2009-05-20 | 2013-08-20 | Raytheon Bbn Technologies Corp. | Speech-to-speech translation |
US20100049497A1 (en) * | 2009-09-19 | 2010-02-25 | Manuel-Devadoss Smith Johnson | Phonetic natural language translation system |
CN102054116B (zh) * | 2009-10-30 | 2013-11-06 | 财团法人资讯工业策进会 | 情绪分析方法、情绪分析系统及情绪分析装置 |
US8566078B2 (en) * | 2010-01-29 | 2013-10-22 | International Business Machines Corporation | Game based method for translation data acquisition and evaluation |
US8412530B2 (en) * | 2010-02-21 | 2013-04-02 | Nice Systems Ltd. | Method and apparatus for detection of sentiment in automated transcriptions |
US20120330643A1 (en) * | 2010-06-04 | 2012-12-27 | John Frei | System and method for translation |
KR101101233B1 (ko) * | 2010-07-07 | 2012-01-05 | 선린전자 주식회사 | 교통카드 기능을 구비한 휴대폰 충전용 젠더 |
US8775156B2 (en) * | 2010-08-05 | 2014-07-08 | Google Inc. | Translating languages in response to device motion |
JP5066242B2 (ja) * | 2010-09-29 | 2012-11-07 | 株式会社東芝 | 音声翻訳装置、方法、及びプログラム |
JP2012075039A (ja) * | 2010-09-29 | 2012-04-12 | Sony Corp | 制御装置、および制御方法 |
US8566100B2 (en) | 2011-06-21 | 2013-10-22 | Verna Ip Holdings, Llc | Automated method and system for obtaining user-selected real-time information on a mobile communication device |
US9213695B2 (en) * | 2012-02-06 | 2015-12-15 | Language Line Services, Inc. | Bridge from machine language interpretation to human language interpretation |
US9390085B2 (en) | 2012-03-23 | 2016-07-12 | Tata Consultancy Sevices Limited | Speech processing system and method for recognizing speech samples from a speaker with an oriyan accent when speaking english |
CN103543979A (zh) * | 2012-07-17 | 2014-01-29 | 联想(北京)有限公司 | 一种输出语音的方法、语音交互的方法及电子设备 |
US20140058879A1 (en) * | 2012-08-23 | 2014-02-27 | Xerox Corporation | Online marketplace for translation services |
CN103714048B (zh) * | 2012-09-29 | 2017-07-21 | 国际商业机器公司 | 用于校正文本的方法和系统 |
JP2015014665A (ja) * | 2013-07-04 | 2015-01-22 | セイコーエプソン株式会社 | 音声認識装置及び方法、並びに、半導体集積回路装置 |
JP6259804B2 (ja) | 2014-11-26 | 2018-01-10 | ネイバー コーポレーションNAVER Corporation | コンテンツ参加翻訳装置、及びそれを利用したコンテンツ参加翻訳方法 |
CN105139848B (zh) * | 2015-07-23 | 2019-01-04 | 小米科技有限责任公司 | 数据转换方法和装置 |
CN105208194A (zh) * | 2015-08-17 | 2015-12-30 | 努比亚技术有限公司 | 语音播报装置及方法 |
CN105551480B (zh) * | 2015-12-18 | 2019-10-15 | 百度在线网络技术(北京)有限公司 | 方言转换方法及装置 |
CN105635452B (zh) * | 2015-12-28 | 2019-05-10 | 努比亚技术有限公司 | 移动终端及其联系人标识方法 |
CN105931631A (zh) * | 2016-04-15 | 2016-09-07 | 北京地平线机器人技术研发有限公司 | 语音合成系统和方法 |
US9747282B1 (en) * | 2016-09-27 | 2017-08-29 | Doppler Labs, Inc. | Translation with conversational overlap |
CN106782521A (zh) * | 2017-03-22 | 2017-05-31 | 海南职业技术学院 | 一种语音识别系统 |
CN106910514A (zh) * | 2017-04-30 | 2017-06-30 | 上海爱优威软件开发有限公司 | 语音处理方法及系统 |
US11328130B2 (en) * | 2017-11-06 | 2022-05-10 | Orion Labs, Inc. | Translational bot for group communication |
US10565994B2 (en) * | 2017-11-30 | 2020-02-18 | General Electric Company | Intelligent human-machine conversation framework with speech-to-text and text-to-speech |
CN108363377A (zh) * | 2017-12-31 | 2018-08-03 | 广州展讯信息科技有限公司 | 一种应用于驾考系统的数据采集装置及方法 |
CN113168526A (zh) * | 2018-10-09 | 2021-07-23 | 奇跃公司 | 用于虚拟和增强现实的系统和方法 |
US11159597B2 (en) * | 2019-02-01 | 2021-10-26 | Vidubly Ltd | Systems and methods for artificial dubbing |
US11202131B2 (en) | 2019-03-10 | 2021-12-14 | Vidubly Ltd | Maintaining original volume changes of a character in revoiced media stream |
CN109949794B (zh) * | 2019-03-14 | 2021-04-16 | 山东远联信息科技有限公司 | 一种基于互联网技术的智能语音转换系统 |
CN110956950A (zh) * | 2019-12-02 | 2020-04-03 | 联想(北京)有限公司 | 一种数据处理方法、装置和电子设备 |
US11361780B2 (en) * | 2021-12-24 | 2022-06-14 | Sandeep Dhawan | Real-time speech-to-speech generation (RSSG) apparatus, method and a system therefore |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4352634A (en) | 1980-03-17 | 1982-10-05 | United Technologies Corporation | Wind turbine blade pitch control system |
JPS56164474A (en) | 1981-05-12 | 1981-12-17 | Noriko Ikegami | Electronic translating machine |
GB2165969B (en) | 1984-10-19 | 1988-07-06 | British Telecomm | Dialogue system |
JPH01206463A (ja) | 1988-02-14 | 1989-08-18 | Kenzo Ikegami | 電子翻訳装置 |
JPH02183371A (ja) | 1989-01-10 | 1990-07-17 | Nec Corp | 自動通訳装置 |
JPH04141172A (ja) | 1990-10-01 | 1992-05-14 | Toto Ltd | 蒸気及び冷気発生切換装置 |
JPH04355555A (ja) | 1991-05-31 | 1992-12-09 | Oki Electric Ind Co Ltd | 音声伝送方法 |
JPH0772840B2 (ja) | 1992-09-29 | 1995-08-02 | 日本アイ・ビー・エム株式会社 | 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法 |
SE500277C2 (sv) * | 1993-05-10 | 1994-05-24 | Televerket | Anordning för att öka talförståelsen vid översätttning av tal från ett första språk till ett andra språk |
SE516526C2 (sv) | 1993-11-03 | 2002-01-22 | Telia Ab | Metod och anordning vid automatisk extrahering av prosodisk information |
SE504177C2 (sv) | 1994-06-29 | 1996-12-02 | Telia Ab | Metod och anordning att adaptera en taligenkänningsutrustning för dialektala variationer i ett språk |
SE9600959L (sv) * | 1996-03-13 | 1997-09-14 | Telia Ab | Metod och anordning vid tal-till-talöversättning |
SE506003C2 (sv) * | 1996-05-13 | 1997-11-03 | Telia Ab | Metod och system för tal-till-tal-omvandling med extrahering av prosodiinformation |
JPH10187178A (ja) | 1996-10-28 | 1998-07-14 | Omron Corp | 歌唱の感情分析装置並びに採点装置 |
US5933805A (en) * | 1996-12-13 | 1999-08-03 | Intel Corporation | Retaining prosody during speech analysis for later playback |
SE519679C2 (sv) | 1997-03-25 | 2003-03-25 | Telia Ab | Metod vid talsyntes |
SE520065C2 (sv) | 1997-03-25 | 2003-05-20 | Telia Ab | Anordning och metod för prosodigenerering vid visuell talsyntes |
JPH11265195A (ja) | 1998-01-14 | 1999-09-28 | Sony Corp | 情報配信システム、情報送信装置、情報受信装置、情報配信方法 |
JP3884851B2 (ja) | 1998-01-28 | 2007-02-21 | ユニデン株式会社 | 通信システムおよびこれに用いられる無線通信端末装置 |
-
2001
- 2001-04-11 CN CNB011165243A patent/CN1159702C/zh not_active Expired - Lifetime
-
2002
- 2002-03-15 WO PCT/GB2002/001277 patent/WO2002084643A1/en active IP Right Grant
- 2002-03-15 AT AT02708485T patent/ATE345561T1/de not_active IP Right Cessation
- 2002-03-15 DE DE60216069T patent/DE60216069T2/de not_active Expired - Lifetime
- 2002-03-15 JP JP2002581513A patent/JP4536323B2/ja not_active Expired - Lifetime
- 2002-03-15 KR KR10-2003-7012731A patent/KR20030085075A/ko not_active Application Discontinuation
- 2002-03-15 EP EP02708485A patent/EP1377964B1/en not_active Expired - Lifetime
-
2003
- 2003-10-10 US US10/683,335 patent/US7461001B2/en not_active Expired - Fee Related
-
2008
- 2008-08-23 US US12/197,243 patent/US7962345B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009048003A (ja) * | 2007-08-21 | 2009-03-05 | Toshiba Corp | 音声翻訳装置及び方法 |
Also Published As
Publication number | Publication date |
---|---|
JP4536323B2 (ja) | 2010-09-01 |
US7962345B2 (en) | 2011-06-14 |
DE60216069T2 (de) | 2007-05-31 |
US20080312920A1 (en) | 2008-12-18 |
CN1379392A (zh) | 2002-11-13 |
WO2002084643A1 (en) | 2002-10-24 |
KR20030085075A (ko) | 2003-11-01 |
US20040172257A1 (en) | 2004-09-02 |
DE60216069D1 (de) | 2006-12-28 |
CN1159702C (zh) | 2004-07-28 |
EP1377964B1 (en) | 2006-11-15 |
ATE345561T1 (de) | 2006-12-15 |
US7461001B2 (en) | 2008-12-02 |
EP1377964A1 (en) | 2004-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4536323B2 (ja) | 音声−音声生成システムおよび方法 | |
KR102581346B1 (ko) | 다국어 음성 합성 및 언어간 음성 복제 | |
CN108447486B (zh) | 一种语音翻译方法及装置 | |
US6751592B1 (en) | Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically | |
Isewon et al. | Design and implementation of text to speech conversion for visually impaired people | |
CN106486121B (zh) | 应用于智能机器人的语音优化方法及装置 | |
US20040073423A1 (en) | Phonetic speech-to-text-to-speech system and method | |
US20070088547A1 (en) | Phonetic speech-to-text-to-speech system and method | |
CN115485766A (zh) | 使用bert模型的语音合成韵律 | |
US11475874B2 (en) | Generating diverse and natural text-to-speech samples | |
WO2022046526A1 (en) | Synthesized data augmentation using voice conversion and speech recognition models | |
US11817079B1 (en) | GAN-based speech synthesis model and training method | |
Reddy et al. | Speech-to-Text and Text-to-Speech Recognition Using Deep Learning | |
JPH08335096A (ja) | テキスト音声合成装置 | |
Soman et al. | Corpus driven malayalam text-to-speech synthesis for interactive voice response system | |
JP2021148942A (ja) | 声質変換システムおよび声質変換方法 | |
Iyanda et al. | Development of a Yorúbà Textto-Speech System Using Festival | |
KR100806287B1 (ko) | 문말 억양 예측 방법 및 이를 기반으로 하는 음성합성 방법및 시스템 | |
Dessai et al. | Development of Konkani TTS system using concatenative synthesis | |
Ibrahim et al. | Graphic User Interface for Hausa Text-to-Speech System | |
Das | Syllabic Speech Synthesis for Marathi Language | |
Davaatsagaan et al. | Diphone-based concatenative speech synthesis system for mongolian | |
Zain et al. | A review of CALL-based ASR and its potential application for Malay cued Speech learning tool application | |
Kaur et al. | HMM-based phonetic engine for continuous speech of a regional language | |
JP2003108180A (ja) | 音声合成方法および音声合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060725 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20061017 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20061024 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070124 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070612 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20070703 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20070713 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100427 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100616 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130625 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4536323 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
EXPY | Cancellation because of completion of term |