JP2004525412A - 合成された音声の了解度を改善するためのランタイム合成装置適合方法およびシステム - Google Patents

合成された音声の了解度を改善するためのランタイム合成装置適合方法およびシステム Download PDF

Info

Publication number
JP2004525412A
JP2004525412A JP2002572565A JP2002572565A JP2004525412A JP 2004525412 A JP2004525412 A JP 2004525412A JP 2002572565 A JP2002572565 A JP 2002572565A JP 2002572565 A JP2002572565 A JP 2002572565A JP 2004525412 A JP2004525412 A JP 2004525412A
Authority
JP
Japan
Prior art keywords
speech
background noise
time data
real
changing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002572565A
Other languages
English (en)
Inventor
ピーター・ヴェプレク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Publication of JP2004525412A publication Critical patent/JP2004525412A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Noise Elimination (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

合成された音声をランタイム修正するための方法およびシステムが提供される。前記方法は、テキスト入力(16)と複数のランタイム制御パラメータ値(42)とに基づいて、合成された音声を生成する段階(40)を含む。前記リアルタイムデータは、入力信号(46)に基づいて生成され(44)、この場合に、該入力信号は、聴取者に関する音声の了解度を特徴づける。前記方法は、音声の了解度が増加するように、リアルタイムデータ(20)に基づいて、ランタイム制御パラメータ値のうちの1つ以上を修正する段階(48)をさらに提供する。設計段階中とは対照的に、ランタイム時にパラメータ値を修正することは、従来型のアプローチによっては達成不可能な適合レベルを提供する。

Description

【技術分野】
【0001】
本発明は、概略的には、音声合成(speech synthesis)に関するものである。より詳細には、本発明は、リアルタイムデータに基づいて、合成された音声の了解度(intelligibility)をランタイム(run-time)時に改善するための方法およびシステムに関するものである。
【背景技術】
【0002】
自動車のキャビンや、航空機のキャビンおよび操縦室や、自宅および職場のような多くの環境内で、聴取者に提示される可聴音(audible sound)の了解度を改善するためのシステムが開発されている。例えば、自動車のオーディオシステムの出力を改善するための最近の成果が、該オーディオシステムのスペクトル出力を手動でまたは自動的に調整できる等化器(equalizer)という結果となっている。このことが聴取者による様々な制御操作に応じて従来的に行われている一方で、より最近の成果は、聴取者の環境のオーディオサンプリングを含む。オーディオシステム等化アプローチは、通常は、システムが用いられる場合の予想される環境に関する著しい量の知識を必要とする。したがって、この形式の適合は、オーディオシステム出力に制限され、かつ、自動車の場合には、特定の型およびモデルに通常は固定される。
【0003】
実際に、表音綴り字法(phonetic spelling)によるアルファベット(すなわち、アルファ(alpha)、ブラボー(bravo)、チャーリー(Charlie)、…)は、綴られた自体の曖昧さを厳格な条件下で除くために、航空交通および軍隊様式のコミュニケーションにおいて、長年にわたって用いられている。したがって、このアプローチは、ある音が、チャンネルおよび/または背景雑音が存在する場合の他の音よりも本質的に分かり易いという基本的な理論にさらに基づくものである。
【0004】
了解度の改善についての他の例は、アップリンク/ダウンリンクチャンネル内、および、基地局ネットワーク内の送信エラーにより引き起こされる可聴歪み(audible distortion)を低減させるためのセルラー電話内における信号処理を含む。このアプローチは、チャンネル(または、畳み込み)雑音に関係するものではあるが、聴取者の環境内に存在する背景(付加)雑音について考慮していないことに留意することは重要である。さらに他の例は、テレビ会議において通常用いられる従来型の反響消去(echo cancellation)システムである。
【発明の開示】
【発明が解決しようとする課題】
【0005】
前述の技術のいずれも、合成された音声をランタイム時に修正するための機構を提供していないことに留意することもまた重要である。このことは重要である。その理由は、音声合成装置(speech synthesizer)の出力の改善における最近の進歩に起因して、音声合成の人気が急速に高まっているためである。。これらの最近の業績にも拘わらず、音声合成に関する多数の問題点が依然として存在している。実際に、ある特定の問題点は、全ての従来型の音声合成装置が、設計時に様々な制御パラメータ値を設定するために、予想される環境についての事前知識を必要とする点である。このようなアプローチが非常に柔軟性に欠け、かつ、所定の音声合成装置を、該音声合成装置を最適に利用できる比較的狭い環境群に制限することを理解することは容易である。したがって、音声の了解度が増加するように、リアルタイムデータに基づいて、合成された音声を修正するための方法およびシステムを提供することが望ましい。
【課題を解決するための手段】
【0006】
前述のおよび他の目的は、本発明による、合成された音声を修正するための方法により提供される。前記方法は、テキスト入力と複数のランタイム制御パラメータ値とに基づいて、合成された音声を生成する段階を含む。前記リアルタイムデータは、入力信号に基づいて生成され、この場合に、該入力信号は、聴取者に関する音声の了解度を特徴づける。前記方法は、音声の了解度が増加するように、リアルタイムデータに基づいて、ランタイム制御パラメータ値のうちの1つ以上を修正する段階をさらに提供する。設計段階中とは対照的に、ランタイム時にパラメータ値を修正することは、従来型のアプローチによっては達成不可能な適合レベルを提供する。
【0007】
さらに、本発明によれば、1つ以上の音声合成装置ランタイム制御パラメータ値を修正するための方法が提供される。前記方法は、リアルタイムデータを受信する段階と、合成された音声の関連特徴を、リアルタイムデータに基づいて識別する段階とを含む。前記関連特徴は、対応するランタイム制御パラメータを有する。前記方法は、音声の関連特徴が望ましい様式で変化するように、調整値を制御パラメータのパラメータ値に適用する段階をさらに提供する。
【0008】
本発明の他の特徴において、音声合成装置の適合システムは、テキスト音声(TTS)合成装置と、オーディオ入力システムと、適合制御装置とを含む。前記合成装置は、テキスト入力と複数のランタイム制御パラメータ値とに基づいて、音声を生成する。前記オーディオ入力システムは、音声が再生される環境内に含まれる様々な形式の背景雑音に基づいて、リアルタイムデータを生成する。前記適合制御装置は、合成装置とオーディオ入力システムとに動作可能に連結される。前記適合制御装置は、背景雑音と音声との間の干渉が低減するように、リアルタイムデータに基づいて、ランタイム制御パラメータ値のうちの1つ以上を修正する。
【0009】
前述の概略的説明および以下の詳細な説明の両方が、本発明の例示に過ぎず、かつ、本発明の本質および特性をクレームされている通りに理解するための概観および枠組を提供するようには意図されていないことを理解すべきである。添付図面は、本発明のさらなる理解を提供するために含まれ、かつ、本明細書に組み込まれて本明細書の一部を構成する。これらの図面は、本発明の様々な特性および実施例を例示し、かつ、記載とともに、本発明の原理および作用を説明するのに役立つ。
【発明を実施するための最良の形態】
【0010】
本発明の様々な利点は、以下の説明および追加クレームを読みかつ図面を参照することにより、当業者には明らかとなるだろう。
【0011】
以下、図1を参照すると、好ましい音声合成装置の適合システム10が示される。概略的に、適合システム10は、テキスト入力16と複数のランタイム制御パラメータ値42とに基づいて、合成された音声14を生成するためのテキスト音声(text-to-speech)(TTS)合成装置12を有する。オーディオ入力システム18は、音声14が再生される環境24内に含まれる背景雑音22に基づいて、リアルタイムデータ(RTD)20を生成する。適合制御装置26は、合成装置12とオーディオ入力システム18とに動作可能に連結される。適合制御装置26は、背景雑音22と音声14との間の干渉が低減するように、リアルタイムデータ20に基づいて、ランタイム制御パラメータ値42のうちの1つ以上を修正する。オーディオ入力システム18は、マイクロフォンのような、音波を電気信号に変換するための音響−電気(acoustic-electric)信号変換器を含むことが好ましい。
【0012】
背景雑音22は、例示されるような多数の音源からの成分を含み得る。干渉音源は、音源の形式および特徴に応じて分類される。例えば、パトロールカーのサイレン28や通過する航空機(図示せず)のような音源は、急速に変化する特徴をしばしば有する瞬時の高レベルの干渉を生じさせる。運転中の機械装置30や空気調和ユニット(図示せず)のような他の音源は、通常は、変動のない連続的な低レベルの背景雑音を生じさせる。さらに、ラジオ32や様々な娯楽用ユニット(図示せず)のような他の音源は、合成された音声14と同様の特徴を備えた、音楽や歌のような継続的な干渉をしばしば生じさせる。さらに、環境24内に存在する競合する話者34は、合成された音声14の属性と事実上同一の属性を有する干渉音源であり得る。さらに、環境24自体が、合成された音声14の出力に影響を及ぼし得る。環境24は(したがって、その影響もまた)、時間とともに動的に変化し得る。
【0013】
例示された適合システム10は、音声14が再生される環境24内に含まれる背景雑音22に基づいてリアルタイムデータ20を生成するが、本発明はこのように制限されるものではないことに留意することは重要である。例えば、より詳細に後述するように、リアルタイムデータ20については、入力装置19を経ての聴取者36からの入力に基づいて生成することもできる。
【0014】
以下、図2を参照すると、合成された音声14を修正するための方法38が示される。段階40において、合成された音声が、テキスト入力16と複数のランタイム制御パラメータ値42とに基づいて生成されることが理解できる。リアルタイムデータ20は、段階44において、入力信号46に基づいて生成され、この場合に、該入力信号46は、聴取者に関する音声の了解度を特徴づける。既述したように、入力信号46は、環境内の背景雑音22から、または、聴取者(または、他のユーザー)から、直接的に生じ得る。それにも拘わらず、入力信号46は、音声の了解度に関するデータを含み、したがって、音声をランタイム時に適合させるための貴重な情報源を示す。段階48において、音声の了解度が増加するように、ランタイム制御パラメータ値42のうちの1つ以上が、リアルタイムデータ20に基づいて修正される。
【0015】
既述したように、一実施例は、音声が再生される環境内に含まれる背景雑音に基づいて、リアルタイムデータ20を生成することを含む。したがって、図3は、段階44においてリアルタイムデータ20を生成するための好ましいアプローチを示す。具体的には、段階52において、背景雑音22が電気信号50に変換されることが理解できる。段階54において、1つ以上の干渉モデル56がモデルデータベース(図示せず)から検索される。これにより、電気信号50と干渉モデル56とに基づいて、段階58において、背景雑音22をリアルタイムデータ20によって特徴づけることができる。
【0016】
図4は、段階58において背景雑音を特徴づけるための好ましいアプローチを例示する。具体的には、段階60において、時間領域解析が電気信号50について実行されることが理解できる。結果として生じる時間データ62は、本明細書において説明する工程において用いるべき多くの情報を提供する。同様に、段階64において、周波数領域解析が電気信号50について実行され、周波数データ66が得られる。段階60および段階64が実行される順序が全体的な結果にとって重要ではないことに留意することは重要である。
【0017】
特徴づけ段階58が背景雑音内の様々な形式の干渉を識別することを含むことに留意することもまた重要である。これらの例は、高レベルの干渉、低レベルの干渉、瞬時の干渉、連続的な干渉、変動する干渉、および、変動のない干渉を含むが、これらに制限されるものではない。特徴づけ段階58は、背景雑音の潜在的な音源を識別すること、背景雑音内の音声を識別すること、および、これら全ての音源の位置を判断することをさらに含むこともできる。
【0018】
以下、図5を参照すると、ランタイム制御パラメータ値42を修正するための好ましいアプローチが、より詳細に示される。具体的には、段階68において、リアルタイムデータ20が受信され、かつ、段階70において、音声の関連特徴(relevant characteristics)72がリアルタイムデータ20に基づいて識別されることが理解できる。関連特徴72は、対応するランタイム制御パラメータを有する。段階74において、音声の関連特徴72が望ましい様式で変化するように、調整値が制御パラメータのパラメータ値に適用される。
【0019】
以下、図6を参照すると、潜在的な関連特徴72が、より詳細に示される。概略的には、関連特徴72については、話者の特徴76、感情の特徴77、方言の特徴78、および、内容の特徴79に分類することができる。話者の特徴76については、発声(voice)の特徴80、および、発話様式(speaking style)の特徴82にさらに分類することができる。発声の特徴80に影響を及ぼすパラメータは、発話速度(speech rate)、ピッチ(基本周波数)、音量(volume)、パラメトリック等化(parametric equalization)、フォルマント(formants)(フォルマント周波数および帯域幅)、声門音源(glottal source)、音声パワースペクトル(speech power spectrum)の傾き(tilt)、性別、年齢、および、身元を含むが、これらに制限されるものではない。発話様式の特徴82に影響を及ぼすパラメータは、動的な韻律(prosody)(例えば、音律、強勢、および、イントネーション)、および、調音(articulation)を含むが、これらに制限されるものではない。したがって、破裂音(stop consonants)などを十分に調音させることにより過調音(over-articulation)が達成され、より良い了解度という結果となり得る。
【0020】
聴取者の注意を捉えるために、緊急度(urgency)のような感情の特徴77に関連するパラメータをさらに用いることができる。方言の特徴78は、発音(pronunciation)および調音(フォルマントなど)により影響を及ぼされ得る。冗長性(redundancy)、反復(repetition)、および、語彙(vocabulary)のようなパラメータが内容の特徴79に関連することが、さらに理解されるだろう。例えば、同義の(synonym)単語(words)および語句(phrases)を用いることにより(例えば、5PM=5pm(five pm)対午後5時(five o'clock in the afternoon))、音声内の冗長性を追加または除去することが挙げられる。反復は、重要な内容をより強調するために、合成された音声の一部を選択的に繰り返すことを含む。さらに、言葉の混乱を低減させるために、限られた語彙および限られた文の構造を許容することもまた、了解度を増加させ得る。
【0021】
以下、図1へ戻ると、リアルタイムデータ20に基づいて音声14を空間的に別の場所に移す(spatially reposition)ために、ポリフォニックオーディオ処理(polyphonic audio processing)を、オーディオ出力システム84と関連して利用できることが理解されるだろう。
【0022】
前述の説明から、当業者は、本発明の広い教示内容を様々な形式で実施できることを、今では理解することができる。したがって、本発明をその特定の例と関連して説明できる一方で、本発明の真の範囲はそのように制限されるべきではない。その理由は、図面、明細書、および、請求項の検討に基づいて、他の修正形態が当業者には明らかとなるためである。
【図面の簡単な説明】
【0023】
【図1】本発明の原理による、音声合成装置の適合システムのブロック図である。
【図2】本発明の原理による、合成された音声を修正するための方法のフローチャートである。
【図3】本発明の一実施例による、入力信号に基づいてリアルタイムデータを生成するためのプロセスのフローチャートである。
【図4】本発明の一実施例による、背景雑音をリアルタイムデータによって特徴づけるためのプロセスのフローチャートである。
【図5】本発明の一実施例による、1つ以上のランタイム制御パラメータ値を修正するためのプロセスのフローチャートである。
【図6】本発明の一実施例による、関連特徴と、対応するランタイム制御パラメータとを示す図である。
【符号の説明】
【0024】
10 音声合成装置の適合システム
12 テキスト音声合成装置
14 合成された音声
16 テキスト入力
18 オーディオ入力システム
19 入力装置
20 リアルタイムデータ
22 背景雑音
24 音声が再生される環境
26 適合制御装置
28 サイレン
30 機械装置
32 ラジオ
34 話者
36 聴取者
42 ランタイム制御パラメータ値
46 入力信号
50 電気信号
56 干渉モデル
62 時間データ
66 周波数データ
72 音声の関連特徴
84 オーディオ出力システム

Claims (30)

  1. 合成された音声を修正するための方法であって、
    テキスト入力と複数のランタイム制御パラメータ値とに基づいて、合成された音声を生成する段階と、
    聴取者に関する音声の了解度を特徴づける入力信号に基づいて、リアルタイムデータを生成する段階と、
    音声の了解度が増加するように、リアルタイムデータに基づいて、ランタイム制御パラメータ値のうちの1つ以上を修正する段階と
    を含むことを特徴とする方法。
  2. 前記音声が再生される環境内に含まれる背景雑音に基づいて、リアルタイムデータを生成する段階をさらに含むことを特徴とする請求項1に記載の方法。
  3. 前記背景雑音を電気信号に変換する段階と、
    1つ以上の干渉モデルをモデルデータベースから検索する段階と、
    電気信号と干渉モデルとに基づいて、背景雑音をリアルタイムデータによって特徴づける段階と
    を含むことを特徴とする請求項2に記載の方法。
  4. 前記電気信号について、時間領域解析を実行する段階をさらに含むことを特徴とする請求項3に記載の方法。
  5. 前記電気信号について、周波数領域解析を実行する段階をさらに含むことを特徴とする請求項3に記載の方法。
  6. 前記特徴づけ段階は、
    背景雑音内の高レベルの干渉を識別する段階と、
    背景雑音内の低レベルの干渉を識別する段階と、
    背景雑音内の瞬時の干渉を識別する段階と、
    背景雑音内の連続的な干渉を識別する段階と、
    背景雑音内の変動する干渉を識別する段階と、
    背景雑音内の変動のない干渉を識別する段階と、
    背景雑音の音源の空間的位置を識別する段階と、
    背景雑音の潜在的な音源を識別する段階と、
    背景雑音内の音声を識別する段階と
    から本質的になるグループから選択されることを特徴とする請求項3に記載の方法。
  7. 前記リアルタイムデータを受信する段階と、
    音声の関連特徴であって、対応するランタイム制御パラメータを有する関連特徴を、リアルタイムデータに基づいて識別する段階と、
    音声の関連特徴が望ましい様式で変化するように、調整値を制御パラメータのパラメータ値に適用する段階と
    をさらに含むことを特徴とする請求項1に記載の方法。
  8. 前記音声の話者の関連特徴を変化させる段階をさらに含むことを特徴とする請求項7に記載の方法。
  9. 前記音声の発声の関連特徴を変化させる段階をさらに含むことを特徴とする請求項8に記載の方法。
  10. 発話速度と、
    ピッチと、
    音量と、
    パラメトリック等化と、
    フォルマント周波数および帯域幅と、
    声門音源と、
    音声パワースペクトルの傾きと、
    性別と、
    年齢と、
    身元と
    から本質的になるグループから選択される特徴を変化させる段階をさらに含むことを特徴とする請求項9に記載の方法。
  11. 前記音声の発話様式の関連特徴を変化させる段階をさらに含むことを特徴とする請求項8に記載の方法。
  12. 動的な韻律と、
    調音と
    から本質的になるグループから選択される特徴を変化させる段階をさらに含むことを特徴とする請求項11に記載の方法。
  13. 前記音声の感情の関連特徴を変化させる段階をさらに含むことを特徴とする請求項7に記載の方法。
  14. 前記音声の緊急度の特徴を変化させる段階をさらに含むことを特徴とする請求項13に記載の方法。
  15. 前記音声の方言の関連特徴を変化させる段階をさらに含むことを特徴とする請求項7に記載の方法。
  16. 発音と、
    調音と
    から本質的になるグループから選択される特徴を変化させる段階をさらに含むことを特徴とする請求項15に記載の方法。
  17. 前記音声の内容の関連特徴を変化させる段階をさらに含むことを特徴とする請求項7に記載の方法。
  18. 冗長性と、
    反復と、
    語彙と
    から本質的になるグループから選択される特徴を変化させる段階をさらに含むことを特徴とする請求項17に記載の方法。
  19. 前記リアルタイムデータに基づいて音声を空間的に別の場所に移すために、ポリフォニックオーディオ処理を利用する段階をさらに含むことを特徴とする請求項1に記載の方法。
  20. 前記聴取者の入力に基づいて、リアルタイムデータを生成する段階をさらに含むことを特徴とする請求項1に記載の方法。
  21. 前記合成された音声を、自動車の用途において用いる段階をさらに含むことを特徴とする請求項1に記載の方法。
  22. 1つ以上の音声合成装置ランタイム制御パラメータを修正するための方法であって、
    リアルタイムデータを受信する段階と、
    合成された音声の関連特徴であって、対応するランタイム制御パラメータを有する関連特徴を、リアルタイムデータに基づいて識別する段階と、
    音声の関連特徴が望ましい様式で変化するように、調整値を制御パラメータのパラメータ値に適用する段階と
    を具備することを特徴とする方法。
  23. 前記音声の話者の関連特徴を変化させる段階をさらに含むことを特徴とする請求項22に記載の方法。
  24. 前記音声の発声の関連特徴を変化させる段階をさらに含むことを特徴とする請求項23に記載の方法。
  25. 前記音声の発話様式の関連特徴を変化させる段階をさらに含むことを特徴とする請求項23に記載の方法。
  26. 前記音声の感情の関連特徴を変化させる段階をさらに含むことを特徴とする請求項22に記載の方法。
  27. 前記音声の方言の関連特徴を変化させる段階をさらに含むことを特徴とする請求項22に記載の方法。
  28. 前記音声の内容の関連特徴を変化させる段階をさらに含むことを特徴とする請求項22に記載の方法。
  29. テキスト入力と複数のランタイム制御パラメータ値とに基づいて、音声を生成するためのテキスト音声合成装置と、
    音声が再生される環境内に含まれる背景雑音に基づいて、リアルタイムデータを生成するためのオーディオ入力システムと、
    合成装置とオーディオ入力システムとに動作可能に連結され、背景雑音と音声との間の干渉が低減するように、リアルタイムデータに基づいて、ランタイム制御パラメータ値のうちの1つ以上を修正する適合制御装置と
    を具備することを特徴とする音声合成装置の適合システム。
  30. 前記オーディオ入力システムは、音響−電気信号変換器を含むことを特徴とする請求項29に記載の適合システム。
JP2002572565A 2001-03-08 2002-03-07 合成された音声の了解度を改善するためのランタイム合成装置適合方法およびシステム Pending JP2004525412A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/800,925 US6876968B2 (en) 2001-03-08 2001-03-08 Run time synthesizer adaptation to improve intelligibility of synthesized speech
PCT/US2002/006956 WO2002073596A1 (en) 2001-03-08 2002-03-07 Run time synthesizer adaptation to improve intelligibility of synthesized speech

Publications (1)

Publication Number Publication Date
JP2004525412A true JP2004525412A (ja) 2004-08-19

Family

ID=25179723

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002572565A Pending JP2004525412A (ja) 2001-03-08 2002-03-07 合成された音声の了解度を改善するためのランタイム合成装置適合方法およびシステム

Country Status (6)

Country Link
US (1) US6876968B2 (ja)
EP (1) EP1374221A4 (ja)
JP (1) JP2004525412A (ja)
CN (1) CN1316448C (ja)
RU (1) RU2294565C2 (ja)
WO (1) WO2002073596A1 (ja)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030061049A1 (en) * 2001-08-30 2003-03-27 Clarity, Llc Synthesized speech intelligibility enhancement through environment awareness
US20030167167A1 (en) * 2002-02-26 2003-09-04 Li Gong Intelligent personal assistants
US20030163311A1 (en) * 2002-02-26 2003-08-28 Li Gong Intelligent social agents
US7305340B1 (en) * 2002-06-05 2007-12-04 At&T Corp. System and method for configuring voice synthesis
JP4209247B2 (ja) * 2003-05-02 2009-01-14 アルパイン株式会社 音声認識装置および方法
US7529674B2 (en) * 2003-08-18 2009-05-05 Sap Aktiengesellschaft Speech animation
US7745357B2 (en) * 2004-03-12 2010-06-29 Georgia-Pacific Gypsum Llc Use of pre-coated mat for preparing gypsum board
US8380484B2 (en) * 2004-08-10 2013-02-19 International Business Machines Corporation Method and system of dynamically changing a sentence structure of a message
US7599838B2 (en) 2004-09-01 2009-10-06 Sap Aktiengesellschaft Speech animation with behavioral contexts for application scenarios
US20070027691A1 (en) * 2005-08-01 2007-02-01 Brenner David S Spatialized audio enhanced text communication and methods
US8224647B2 (en) * 2005-10-03 2012-07-17 Nuance Communications, Inc. Text-to-speech user's voice cooperative server for instant messaging clients
US7872574B2 (en) 2006-02-01 2011-01-18 Innovation Specialists, Llc Sensory enhancement systems and methods in personal electronic devices
WO2008132533A1 (en) * 2007-04-26 2008-11-06 Nokia Corporation Text-to-speech conversion method, apparatus and system
RU2565008C2 (ru) * 2008-03-10 2015-10-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство и метод для обработки аудио сигнала, содержащего переходный сигнал
WO2009147927A1 (ja) * 2008-06-06 2009-12-10 株式会社レイトロン 音声認識装置、音声認識方法および電子機器
PL2304719T3 (pl) 2008-07-11 2017-12-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Koder audio, sposoby dostarczania strumienia audio oraz program komputerowy
RU2527735C2 (ru) 2010-04-16 2014-09-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство, способ и компьютерная программа для выработки широкополосного сигнала с использованием управляемого расширения ширины полосы и слепого расширения ширины полосы
CN101887719A (zh) * 2010-06-30 2010-11-17 北京捷通华声语音技术有限公司 语音合成方法、系统及具有语音合成功能的移动终端设备
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
GB2492753A (en) * 2011-07-06 2013-01-16 Tomtom Int Bv Reducing driver workload in relation to operation of a portable navigation device
US9082414B2 (en) 2011-09-27 2015-07-14 General Motors Llc Correcting unintelligible synthesized speech
US9269352B2 (en) * 2013-05-13 2016-02-23 GM Global Technology Operations LLC Speech recognition with a plurality of microphones
WO2015092943A1 (en) * 2013-12-17 2015-06-25 Sony Corporation Electronic devices and methods for compensating for environmental noise in text-to-speech applications
US9390725B2 (en) 2014-08-26 2016-07-12 ClearOne Inc. Systems and methods for noise reduction using speech recognition and speech synthesis
US10224022B2 (en) 2014-11-11 2019-03-05 Telefonaktiebolaget Lm Ericsson (Publ) Systems and methods for selecting a voice to use during a communication with a user
CN104485100B (zh) * 2014-12-18 2018-06-15 天津讯飞信息科技有限公司 语音合成发音人自适应方法及系统
CN104616660A (zh) * 2014-12-23 2015-05-13 上海语知义信息技术有限公司 基于环境噪音检测的智能语音播报系统及方法
RU2589298C1 (ru) * 2014-12-29 2016-07-10 Александр Юрьевич Бредихин Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке
US9830903B2 (en) * 2015-11-10 2017-11-28 Paul Wendell Mason Method and apparatus for using a vocal sample to customize text to speech applications
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
US10586079B2 (en) * 2016-12-23 2020-03-10 Soundhound, Inc. Parametric adaptation of voice synthesis
US10796686B2 (en) * 2017-10-19 2020-10-06 Baidu Usa Llc Systems and methods for neural text-to-speech using convolutional sequence learning
KR102429498B1 (ko) * 2017-11-01 2022-08-05 현대자동차주식회사 차량의 음성인식 장치 및 방법
US10726838B2 (en) 2018-06-14 2020-07-28 Disney Enterprises, Inc. System and method of generating effects during live recitations of stories
US11087778B2 (en) * 2019-02-15 2021-08-10 Qualcomm Incorporated Speech-to-text conversion based on quality metric
KR20210020656A (ko) * 2019-08-16 2021-02-24 엘지전자 주식회사 인공 지능을 이용한 음성 인식 방법 및 그 장치
US11501758B2 (en) 2019-09-27 2022-11-15 Apple Inc. Environment aware voice-assistant devices, and related systems and methods
US20220157300A1 (en) * 2020-06-09 2022-05-19 Google Llc Generation of interactive audio tracks from visual content

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02293900A (ja) * 1989-05-09 1990-12-05 Matsushita Electric Ind Co Ltd 音声合成装置
JPH0335296A (ja) * 1989-06-30 1991-02-15 Sharp Corp テキスト音声合成装置
JPH05307395A (ja) * 1992-04-30 1993-11-19 Sony Corp 音声合成装置
JPH09114499A (ja) * 1995-10-21 1997-05-02 Nippon Columbia Co Ltd 携帯型音響システム
JPH10105192A (ja) * 1996-10-03 1998-04-24 Toyota Motor Corp 車両用音声案内装置
JPH10228471A (ja) * 1996-12-10 1998-08-25 Fujitsu Ltd 音声合成システム,音声用テキスト生成システム及び記録媒体
JP2000172289A (ja) * 1998-12-02 2000-06-23 Matsushita Electric Ind Co Ltd 自然言語処理方法,自然言語処理用記録媒体および音声合成装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4375083A (en) * 1980-01-31 1983-02-22 Bell Telephone Laboratories, Incorporated Signal sequence editing method and apparatus with automatic time fitting of edited segments
IT1218995B (it) * 1988-02-05 1990-04-24 Olivetti & Co Spa Dispositivo di controllo dell'ampiezza di un segnale elettrico per un apparecchiatura elettronica digitale e relativo metodo di controllo
US5278943A (en) * 1990-03-23 1994-01-11 Bright Star Technology, Inc. Speech animation and inflection system
FI96247C (fi) * 1993-02-12 1996-05-27 Nokia Telecommunications Oy Menetelmä puheen muuntamiseksi
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
US5806035A (en) * 1995-05-17 1998-09-08 U.S. Philips Corporation Traffic information apparatus synthesizing voice messages by interpreting spoken element code type identifiers and codes in message representation
US5960395A (en) * 1996-02-09 1999-09-28 Canon Kabushiki Kaisha Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming
US5790671A (en) * 1996-04-04 1998-08-04 Ericsson Inc. Method for automatically adjusting audio response for improved intelligibility
US6035273A (en) * 1996-06-26 2000-03-07 Lucent Technologies, Inc. Speaker-specific speech-to-text/text-to-speech communication system with hypertext-indicated speech parameter changes
US6199076B1 (en) * 1996-10-02 2001-03-06 James Logan Audio program player including a dynamic program selection controller
US5818389A (en) * 1996-12-13 1998-10-06 The Aerospace Corporation Method for detecting and locating sources of communication signal interference employing both a directional and an omni antenna
US6226614B1 (en) * 1997-05-21 2001-05-01 Nippon Telegraph And Telephone Corporation Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon
GB2343822B (en) * 1997-07-02 2000-11-29 Simoco Int Ltd Method and apparatus for speech enhancement in a speech communication system
GB9714001D0 (en) * 1997-07-02 1997-09-10 Simoco Europ Limited Method and apparatus for speech enhancement in a speech communication system
US5970446A (en) * 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition
US6253182B1 (en) * 1998-11-24 2001-06-26 Microsoft Corporation Method and apparatus for speech synthesis with efficient spectral smoothing
US6370503B1 (en) * 1999-06-30 2002-04-09 International Business Machines Corp. Method and apparatus for improving speech recognition accuracy

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02293900A (ja) * 1989-05-09 1990-12-05 Matsushita Electric Ind Co Ltd 音声合成装置
JPH0335296A (ja) * 1989-06-30 1991-02-15 Sharp Corp テキスト音声合成装置
JPH05307395A (ja) * 1992-04-30 1993-11-19 Sony Corp 音声合成装置
JPH09114499A (ja) * 1995-10-21 1997-05-02 Nippon Columbia Co Ltd 携帯型音響システム
JPH10105192A (ja) * 1996-10-03 1998-04-24 Toyota Motor Corp 車両用音声案内装置
JPH10228471A (ja) * 1996-12-10 1998-08-25 Fujitsu Ltd 音声合成システム,音声用テキスト生成システム及び記録媒体
JP2000172289A (ja) * 1998-12-02 2000-06-23 Matsushita Electric Ind Co Ltd 自然言語処理方法,自然言語処理用記録媒体および音声合成装置

Also Published As

Publication number Publication date
EP1374221A1 (en) 2004-01-02
CN1316448C (zh) 2007-05-16
WO2002073596A1 (en) 2002-09-19
CN1549999A (zh) 2004-11-24
US6876968B2 (en) 2005-04-05
RU2003129075A (ru) 2005-04-10
RU2294565C2 (ru) 2007-02-27
US20020128838A1 (en) 2002-09-12
EP1374221A4 (en) 2005-03-16

Similar Documents

Publication Publication Date Title
US6876968B2 (en) Run time synthesizer adaptation to improve intelligibility of synthesized speech
Cooke et al. Evaluating the intelligibility benefit of speech modifications in known noise conditions
McLoughlin Applied speech and audio processing: with Matlab examples
US20090228271A1 (en) Method and System for Preventing Speech Comprehension by Interactive Voice Response Systems
Doi et al. Esophageal speech enhancement based on statistical voice conversion with Gaussian mixture models
US10176797B2 (en) Voice synthesis method, voice synthesis device, medium for storing voice synthesis program
Raitio et al. Analysis of HMM-Based Lombard Speech Synthesis.
US7562018B2 (en) Speech synthesis method and speech synthesizer
US8103505B1 (en) Method and apparatus for speech synthesis using paralinguistic variation
US20100217584A1 (en) Speech analysis device, speech analysis and synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program
CN116018638A (zh) 使用话音转换和语音识别模型的合成数据增强
CN110663080A (zh) 通过频谱包络共振峰的频移动态修改语音音色的方法和装置
JP2018004870A (ja) 音声合成装置および音声合成方法
Přibilová et al. Non-linear frequency scale mapping for voice conversion in text-to-speech system with cepstral description
JP2005070430A (ja) 音声出力装置および方法
JP2017167526A (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
CN115938340A (zh) 基于车载语音ai的语音数据处理方法及相关设备
Van Ngo et al. Mimicking lombard effect: An analysis and reconstruction
CN1647152A (zh) 合成语音的方法
AU2002248563A1 (en) Run time synthesizer adaptation to improve intelligibility of synthesized speech
JPH09179576A (ja) 音声合成方法
US11335321B2 (en) Building a text-to-speech system from a small amount of speech data
JP3241582B2 (ja) 韻律制御装置及び方法
JPH02293900A (ja) 音声合成装置
JP2809769B2 (ja) 音声合成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070119

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070327