JPH0713581A

JPH0713581A - 音声への空間情報提供方法及びシステム

Info

Publication number: JPH0713581A
Application number: JP6104157A
Authority: JP
Inventors: Daniel J Moore; ダニエル・ジョセフ・ムーア; Peter W Farrett; ピーター・ウイリアム・ファレット
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1993-06-04
Filing date: 1994-05-18
Publication date: 1995-01-17
Also published as: DE69425848T2; EP0627728A1; EP0627728B1; US5561736A; DE69425848D1

Abstract

(57)【要約】【目的】音声合成に空間情報を導入すること。【構成】本方法、プロダクト及びシステムは、合成音
声がスピーカ・システム上で生成される時に、それが空
間位置から発するように感じられるように、合成音声に
対するオーディオ・データを変更する。最初に、音声が
標準的技術により、テキスト・ストリングを表す記憶デ
ータのセットから音声波形に合成される。音声波形は左
右のチャネルに対応するアナログ信号に変換される。本
発明によれば、左右のチャネルへのアナログ信号は、テ
キスト・ストリングと共に記憶される位置データに従い
変更され、アナログ信号がスピーカ・システムに送信さ
れる時に、合成音声が見掛けの空間位置から発するよう
に感じられる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は一般にデータ処理システ
ムによる音響再生及び音声合成に関し、特に、空間情報
を合成音声に追加する音声合成のための方法、プログラ
ム及びシステムに関する。

【０００２】

【従来の技術】ＩＢＭにより製作されるパーソナル・コ
ンピュータと互換のパーソナル・コンピュータにより提
供される可視イメージは、度重なる改良の進化を経て来
ている。一方、こうしたコンピュータの典型的なスピー
カ・システムでは、単一の安価なスピーカをシステム・
ユニット内に組込んでいる。スピーカから発する音は低
品質であり、一方向性であり、不明瞭で、理解するのが
困難である。パーソナル・コンピュータは教育を含む社
会の多くの分野において、変化をもたらす重要な要因と
見なされている。それにも関わらず、語学練習などの反
復作業は最良の教室状況においてすら生徒側の関心を引
くことができず、典型的なコンピュータにより生成され
る音響的に貧弱な環境においては、一層関心が薄れてし
まう。

【０００３】パーソナル・コンピュータにおける高品質
音響再生は、最近になって、マルチメディアの台頭によ
り特に重要と見なされて来ている。安価なステレオ・シ
ステムにさえ未だ至っていないが、幾つかのマルチメデ
ィア・コンピュータ・システムでは、２チャネル"ステ
レオ"音響に対応して、２つの外部スピーカを使用す
る。ステレオ音響は感動と理解度をマルチメディア・ア
プリケーションに追加する支援をするが、マルチメディ
アの完全な潜在性を利用するためには、パーソナル・コ
ンピュータからの音響品質及びそのアプリケーション・
プログラミングの更なる改良が必要となる。

【０００４】ステレオ技術は幾つかのレッスンを教示
し、それらはコンピュータから高品質の音響を生成する
アプリケーションを有する。多くのマルチメディア・ア
プリケーションは、テープまたはＣＤ上のサウンド・ト
ラックなどの従来式に記録されたオーディオを記憶す
る。これは驚きに値しない。なぜなら、相当な努力が既
にステレオに対し費やされており、機構を再度考案する
必要はほとんどないからである。Alan Blumlein が１９
３０年に米国特許第２０９３５４０号において、ほとん
どのオーディオ技術の基礎となる基本規則を教示して以
来、研究者はステレオ技術を堅実に洗練してきた。立体
音響／技術における巨大な本体の改良にも関わらず、従
来の記録は元の音響空間の空間的音響範囲を忠実に再生
せず、ライブの実演に比較して満足度に劣るリスニング
効果を生成する傾向がある。

【０００５】適切にプログラムされたコンピュータは多
くの重要な点で異なり、ほとんどの精巧なステレオ・シ
ステムよりもたくさんの追加機能を有する。重要な差異
の１つは、コンピュータとユーザとの対話がステレオ・
システムよりも優れている点である。コンピュータによ
り取られるアクションは、ユーザのアクションにより大
きく依存する傾向がある。ユーザが取る全てのアクショ
ンを予想し、全ての適切な応答を記録することは困難で
ある。しかしながら、実際には幾つかの対話式ＣＤ技術
ではこの方法を採用していると思われる。更にユーザが
複雑な音響記録装置へのアクセスを有さない場合には、
彼はオリジナルと同じ忠実度のオーディオを含むよう
に、記憶されたプログラムを変更することができない。

【０００６】音声合成またはテキスト−音声変換プログ
ラミングはよく知られている。これは新たな情報をプロ
グラムに入力するための柔軟な手段を提供し、ユーザは
単にシステム・キーボードを介して、英数字のテキスト
をタイプすればよい。更に、英数字情報の記憶は、従来
のステレオ技術のオーディオ波形に比較して、大幅に少
ない記憶しか要求しない。しかしながら、最近では、音
声合成は生成されるオーディオ品質の点で完全には受入
れられておらず、この低品質のために、一般にはマルチ
メディア・プレゼンテーションに含めるのに好適と見な
されていない。再生される方向性及び空間情報の正確度
に関する従来のオーディオの欠点が何であれ、合成音声
は空間的属性を有さず、特に鈍くまた活気がない。今日
の音声合成により生成される低品質音響は、マルチメデ
ィア・プレゼンテーションにはほとんど相反する。従っ
て、音声合成が真にマルチメディアに統合される以前
に、音声合成における改良が必要となる。

【０００７】

【発明が解決しようとする課題】本発明の目的は、合成
音声に空間情報を導入することである。

【０００８】本発明の別の目的は、異なる空間的ロケー
ションから発生すると感じられる複数の合成音声を生成
することである。

【０００９】本発明の更に別の目的は、３次元空間の幻
想または錯覚的なものを生成することである。

【００１０】

【課題を解決するための手段】これらの目的が合成音声
に見掛けの空間位置を提供することにより達成される。
出願人は合成音声に２次元または３次元（３Ｄ）空間音
響指示（cue）を導入することを提案する。それにより
合成音声はより活気を帯び、理解が容易となり、単旋律
音響の単一のスピーカにより生成されるよりも、（空間
指示を介して）より多くの情報を含む。最初に、標準的
な技術によりテキスト・ストリングを表す記憶データの
セットから音声が音声波形に合成される。テキスト・ス
トリングに関連して、テキスト・ストリングからの合成
音声が発生するように感じられる見掛けの位置に関する
位置データのセットが記憶される。音声波形は左右のチ
ャネルに対応してアナログ信号に変換される。本発明に
よれば、左右のチャネルへのアナログ信号が位置データ
により変更され、それによりアナログ信号がスピーカ・
システムに送信される時に、合成音声が見掛けの空間位
置から発生するように感じられる。

【００１１】典型的には、各テキスト・ストリングは空
間データと一緒に記憶され、空間データはその特定のテ
キスト・ストリングの見掛けの空間位置を提供するため
の変更ステップにおいて使用される。その際、記憶され
るデフォルト位置が使用されてもよい。複数の音声がそ
れぞれのテキスト・ストリングと関連され、各音声はそ
の固有のそれぞれの空間位置から発生するように感じら
れる。更に方言がテキスト・ストリングに関連され、選
択された方言を生成するためにテキスト・ストリングに
対し記憶される音素の標準セット、例えばピッチ及びフ
ォルマントの概略が変更される。

【００１２】システムはコンピュータ・システムに対す
るユーザの位置を検出するためのセンサを装備され、合
成音声の見掛けの位置がユーザの位置に関係なく一定に
維持される。

【００１３】

【実施例】本発明は様々なコンピュータ・プラットフォ
ーム上で実施される。例えば、プロセッサ・ユニットは
複数のコンピュータ端末がランするパーソナル・コンピ
ュータ、ミニ・コンピュータ、またはメインフレーム・
コンピュータである。コンピュータはローカル・エリア
・ネットワーク（ＬＡＮ）または広域ネットワークまた
は大規模テレプロセシング・システムなどのネットワー
クの１部の独立型のシステムであってもよい。しかしな
がら、最も好適には、本発明はＩＢＭのＰＳ／２シリー
ズなどの独立型のマルチメディア・パーソナル・コンピ
ュータ上で実施される。しかし、コンピュータの特定の
選択はマルチメディア・プログラミングのメモリ及びデ
ィスク記憶要求によってのみ制限される。ＩＢＭのＰＳ
／２シリーズのコンピュータに関する情報については、
テクニカル・リファレンス・マニュアルSystem/2 Model
50、60 Systems（ＩＢＭ、部品番号68X2224、注文番号
S68X-2224）及びテクニカル・リファレンス・マニュア
ルPersonal System/2（Model 80）（ＩＢＭ、部品番号6
8X22256、注文番号S68X-2256 ）を参照されたい。

【００１４】図１において、パーソナル・コンピュータ
１０はシステム・ユニット１１、キーボード１２、マウ
ス１３及び表示装置１４を含む。図では更にスピーカ１
５ａ及び１５ｂがモニタ１４の左右に実装されるように
示される。これはA．D．Edgar による１９９２年１０月
３０日出願の係属中の米国特許出願番号第９６９６７７
号"Personal Multimedia Speaker System"で開示されて
おり、本願でも参照される。表示装置１４のスクリーン
１６はマルチメディア・プレゼンテーションのビジュア
ル要素を提供するために使用される。任意の対のステレ
オ・スピーカが本発明では使用されるが、上記出願で述
べられ本願でも後述されるステレオ・スピーカは特に魅
力的である。スピーカ・システム１５ａ及び１５ｂは、
近くにいる他人を煩わすことなく、１人の聴取者に対し
非常に良好なインパルス及びフェーズ応答、及び良好な
方向性を有する良質な音響を提供する。非常に薄型のス
ピーカ・システムは、表示装置１４自体により通常要求
される空間を越える最小の追加のデスク空間を要求す
る。

【００１５】図２は図１に示されるマルチメディア・パ
ーソナル・コンピュータの構成要素のブロック図を示
す。システム・ユニット１１はシステム・バス２１を含
み、これに様々な構成要素が接続され、またこれにより
様々な構成要素間の通信が達成される。マイクロプロセ
ッサ２２はシステム・バス２１に接続され、やはりシス
テム・バス２１に接続される読出し専用メモリ（ＲＯ
Ｍ）２３及びランダム・アクセス・メモリ（ＲＡＭ）２
４により支援される。ＩＢＭマルチメディアＰＳ／２シ
リーズのコンピュータで使用されるプロセッサは、８０
８８、２８６、３８６または４８６マイクロプロセッサ
を含むインテル社のマイクロプロセッサの１つである
が、６８０００、６８０２０または６８０３０マイクロ
プロセッサなどのモトローラ社のマイクロプロセッサ、
及びＩＢＭ社、ヒューレット・パッカード社、サン社、
インテル社、モトローラ社などにより製造される様々な
縮小命令セット・コンピュータ（ＲＩＳＣ）マイクロプ
ロセッサなどの他のマイクロプロセッサが特定のコンピ
ュータにおいて使用される。

【００１６】ＲＯＭ２３は他のコードと共に基本入出力
システム（ＢＩＯＳ）を含み、これは対話及びディスク
・ドライブ及びキーボードなどの基本ハードウェア・オ
ペレーションを制御する。ＲＡＭ２４は主メモリであ
り、これにはオペレーティング・システム及びマルチメ
ディア・アプリケーション・プログラムがロードされ
る。メモリ管理チップ２５はシステム・バス２１に接続
されて直接メモリ・アクセス・オペレーションを制御
し、こうしたオペレーションにはＲＡＭ２４及びハード
・ディスク・ドライブ２６及びフロッピー・ディスク・
ドライブ２７間のデータ転送が含まれる。ＣＤ−ＲＯＭ
２３もシステム・バス２１に接続され、マルチメディア
・プログラムまたはプレゼンテーションにおける大量の
データを記憶するために使用される。

【００１７】システム・バス２１には更に様々な入出力
制御装置が接続される。例えば、キーボード制御装置２
８、マウス制御装置２９、ビデオ制御装置３０、及びオ
ーディオ制御装置３１がある。キーボード制御装置２８
はキーボード１２のハードウェア・インタフェースを提
供し、マウス制御装置２９はマウス１３のハードウェア
・インタフェースを提供し、ビデオ制御装置３０は表示
装置１４用のハードウェア・インタフェースであり、オ
ーディオ制御装置３１はスピーカ１５ａ及び１５ｂ用の
ハードウェア・インタフェースである。最後に、システ
ム・バスには更にデジタル信号プロセッサ３３が接続さ
れ、これは小サイズのスピーカ要素を補正するために、
本発明のスピーカ・システムにより生成される音響を修
正し、好適にはオーディオ制御装置３１内に組込まれ
る。

【００１８】図は、上記参照特許出願から引用された左
右にスピーカ・システム１５ａ及び１５ｂを装備された
特定のマルチメディア・コンピュータ表示装置１４を示
す。特定のスピーカ・システムは、表示装置１４の前方
に座る１人のユーザに対し、良好なインパルス及びフェ
ーズ応答及び方向性を有するステレオ音響を提供する。
更にスピーカ・システムは音響範囲技術（sonic rangin
g technique）を使用する。これは少なくとも２つのス
ピーカを使用することにより、ユーザを表示装置に対し
て配置する技術であり、スピーカは音響エネルギを発
し、またユーザの頭部からの反響音を受取るためのマイ
クロフォンとして機能する。システムを支援する回路
は、表示装置からのユーザの距離を決定する時間遅延を
測定する。２つのエミッタまたはレシーバにもとづく少
なくとも２つのセットの距離により、トライアンギュレ
ーション（triangulation ）技術がＸＹ面内におけるユ
ーザの位置を突き止める。第３のスピーカ・マイクロフ
ォン対からの第３の入力は、必要に応じ、Ｚ次元におけ
るユーザ位置を突き止めるために使用される。音響マウ
スはステレオ・システムが部屋内でユーザを突き止める
ことを可能とする。音響ホログラフィ（sonic holograp
hy）及びスペクトル・キュー（spectral cues）などの
ステレオ技術が頼りとする"スイート・スポット（sweet
spot）"は、ユーザが部屋内のどこに居ようとユーザに
適合するように調整される。しかしながら、上述のよう
に、本発明の原理を達成するために任意の品質のスピー
カ・システムが使用可能である。

【００１９】図３は本発明を実施するために必要なラン
ダム・アクセス・メモリ２４内に在中するコード・モジ
ュールを示す。必要とされるまで、これらのモジュール
はフロッピー・ディスク・ドライブ用のフロッピー・デ
ィスク、またはＣＤ−ＲＯＭ用の光ディスクなどの別の
取外し可能なコンピュータ・メモリ、或いはハード・デ
ィスク記憶装置内に記憶されている。オペレーティング
・システム５０は、様々なソフトウェア・モジュールと
コンピュータ・システムを構成するハードウェアとの対
話を制御する。これはまたユーザが対話するためのユー
ザ・インタフェースを制御する。音声合成装置５２は１
つ以上の音声ファイル５４に従い、合成音声を生成す
る。音声合成装置は任意の現行の音声合成技術にもとづ
くが、本発明の原理により変更される。特に好適な音声
合成装置はP．Farrettによる１９９２年１１月１３日出
願の米国特許出願番号第９７６１５１号"Synthesis and
Analysis of Dialects" で述べられており、本願でも参
照される。この合成装置は複数の方言による音声を同時
に効率的に合成するのに適している。該構成装置は、特
定の方言に特徴的なインターバルのセットに依存して、
各々がテキスト内の音素に対応し連結される音声波形の
ストリングの基本ピッチの抑揚の調子を変更する。音声
ファイル５４のソースはローカル・エリア・ネットワー
ク上の入出力アダプタを介する、或いはシステム・キー
ボードからの入力である。音声ファイルは磁気ディスク
またはＣＤ−ＲＯＭ光ディスク記憶装置上に局所的に記
憶されることが好ましい。オーディオ・プロセッサ５６
は本発明のステレオ効果を提供するために使用される。

【００２０】本発明は、各々が音声ファイル内の１つ以
上のテキスト・ストリングに関連される複数の音声を想
定する。各音声は特定の空間ロケーションから発するよ
うに感じられる。各音声ストリングは音声に対応するデ
ータ及び所望の位置と共に、音声ファイル内に記憶され
る。オーディオ制御装置５６は位置情報を獲得し、通常
は合成音声から欠如される空間指示を追加する。

【００２１】表１及び図４では、本発明が使用される語
学レッスンが示される。このレッスンは本発明の多くの
特徴を表すように設計される。システム・ユニットの単
一のスピーカを使用する典型的な語学レッスンは極めて
退屈である。本発明では、各音声の位置が識別可能であ
り、会話が位置間で弾み、より感動的で面白いものとな
る。

【００２２】各々が音声、位置及び方言に対応する変数
を有する複数のテキスト・ストリング１００乃至１３８
が、表１のラインに対応する。括弧内の数字は図のライ
ンに対応する。例えば表１において、"System Atonal
（100）：Lesson 12：OrderingBreakfast" は図４のラ
イン１００に対応する。対話は５つの異なる音声に対応
する変数を含む。それらはシステムの機械的音声１４
０、Mr．Tanakaの音声１４１、通訳の音声１４２、Mr
s．Tanaka の音声１４３、及びウェイタの音声１４４で
ある。明らかに、より多くのまたは少ない音声が本発明
により支援され、これはコンピュータ・システムの記憶
及び処理能力によってのみ制限される。

【００２３】更に対話には、システムの中立位置及び右
から左へ６つの異なる位置に対応する値が存在し、位置
１はMr．Tanakaが話す位置であり、位置２はウェイタに
より手短に使用され、位置３は中央位置であり通訳によ
り使用され、位置４もまたウェイタがテーブルの回りを
移動する時に彼により使用され、位置５はMrs．Tanaka
が話す位置に相当する。

【００２４】各位置１乃至５は特定のＸ、Ｙ、Ｚ座標に
関連され、そこからシステムは関連する音声を発生す
る。複数のステレオ技術が従来技術として知られている
が、ほとんど全てがスピーカにより生成される音響の周
波数に依存し、左右のチャネルの位相及び強度値を変更
する。好適な実施例の詳細については後述される。３つ
の方言が使用され、第１の"方言（dialect）" はシステ
ム音声であり、未変更の音素ストリングから合成される
音声波形を使用する。方言の意味を付け加える抑揚間隔
はシステム音声には適用されない。この場合、第１の音
素ストリングに対応する方言変数１５１が０にセットさ
れる。最終結果は非常に機械的な音響的音声となり、対
話における生の特質と対照を成す。第２の"方言"はこの
場合言語に相当し、日本語であり、第２の音素ストリン
グに対する方言変数１５２は日本語にセットされる。第
３の方言は通訳における英語に関する中西部アクセント
１５３であり、第３のストリングに対する方言変数は、
例えば中西部とセットされる。日本語及び中西部方言に
対し、それぞれの方言に特定の抑揚間隔などの方言の特
徴が検索され、様々な方言がそこから抽出される基本記
憶音素ストリングに適用される。別のシステムでは、各
方言に対する音素の完全なセットが記憶される。更に、
本発明は特定の方言情報無しでも好適に作用することが
できる。

【００２５】テキスト・ストリング１００乃至１３８は
また、テキスト・ブロック１乃至Ｎ＋８を含み、各々は
表１のテキスト・ラインの１つに対応する必要なテキス
ト基本情報を含む。例えば図中１５５で指定されるテキ
スト・ブロック１は"Lesson12：Ordering Breakfast"
に対応し、図中１５７で指定されるテキスト・ブロック
３は"You must be hungry．"に対応する。対話は日本語
文字と英語翻訳の間を交互しながら継続され、これはテ
キスト・ブロックＮ＋８を含むテキスト・ストリング・
ライン１３８が"End of Lesson．Please press enter f
or next lesson．"を声明するまで続けられる。

【００２６】

【表１】 System[100]：Lesson Twelve：Ordering Breakfast Mr．Tanaka[102]：Onaka ga suitadaroo． English[104]：You must be hungry． Mrs．Tanaka[106]：Kono hoteru ni wa ii resutoran ga arusoodakara soko e itte mimashoo． E[108]：They say there is a good restaurant in this hotel．Let's have a breakfast there． Mr．Tanaka[110]：Sumimasen． E[112]：Excuse me． Waiter[114]：Oyobi de gozaimasu ka? E[116]：（Yes）You called sir? Mrs．Tanaka：Chooshoku wo tabetai no desu ga． Nani ga itadakemasu ka? E： We would like breakfast．What can we have? Waiter[118]：Roorupan ni toosuto、sorekara hotto keeki mo dekimasu．Onomimono wa koohii、koocha、hotto chokoreeto ga gozaimasu．Nani ni itashimashoo ka? E[120]：Rolls、toast and hot cakes too．As for drinks、coffee、tea or hot chocolate． What would you like to have? Mr．Tanaka[122]：Sumimasen．Okanjoo o onegai dekimasu ka? E[124]：Excuse me．May I have the check please? Waiter[126]：Kashikomarimashita． E[128]：（Yes）Certainly sir． Waiter[134]：Omatase itashimashita．Doo mo arigatoo gozaimashita． E[136]：Sorry to have kept you waiting．Thank you very much． System[138]：End of lesson．Please press enter for next lesson．

【００２７】音声システムのオペレーション方法が図５
に示される。ステップ２００で次のテキスト・ストリン
グが検索される。ステップ２０２で、テキスト・ストリ
ングに関連される音素または他の言語単位が検索され、
順次連結される。ステップ２０４で、対話に提供される
感嘆または疑問などの句読に関する語義情報が検索され
る。語義情報が提供されない場合、システムはステート
メントなどのデフォルトの語義コンテキストを仮定す
る。抑揚及び音素のタイミングが語義情報に従い適切に
変更される。次にステップ２０６で、このテキスト・ス
トリングが新たな音声に関連するかどうかが判断され
る。肯定の場合、ステップ２０８で、音声に関連する新
たな音声パラメータが検索される。例えば、女性の音声
のフォルマント（またはフォーマント）及びピッチ特性
は、男性の音声のそれらとは実質的に異なる。ステップ
２１０で、検索された音声パラメータが音素ストリング
に適用され、それを新たな音声に従い変更する。他のよ
り記憶集中型の音声システムでは、別々の音素のセット
が各音声に対応して記憶される。それが新たな音声でな
い場合には、ステップ２１２で、旧音声パラメータが音
素ストリングに適用される。

【００２８】次にステップ２１４で、新たな方言がこの
テキスト・ストリングに関連するかどうかが判断され
る。肯定の場合、１実施例では、新たな方言に関連する
方言の間隔がステップ２１６でテーブルから検索され
る。次にステップ２１８で、連結された音素の抑揚がこ
れらの方言間隔に従い変更される。それが新たな方言で
ない場合には、ステップ２２０で旧方言間隔が抑揚を変
更するために使用される。再度、より記憶集中型の音声
システムでは、別々の音素のセットが各方言に対応して
使用される。

【００２９】ステップ２２２で、このテキスト・ストリ
ングが新たな位置に関連するかどうかが判断される。肯
定の場合、新たな位置がステップ２２４で検索され、位
置に関連するオーディオ情報がステップ２２６で検索さ
れる。それが新たな位置ではない場合には、システムは
それが同一位置であると仮定し、ステップ２２８でそれ
を音声及びオーディオ合成装置に転送する。

【００３０】ステップ２３０で、音素、語義情報、音声
及び方言情報が合成音声波形を生成するために使用され
る。合成波形及び位置情報はオーディオ・プロセッサ・
モジュールに転送される。次にステップ２３２で、聴取
者角度が決定される。聴取者角度は上述のスピーカ・シ
ステムの音響マウス・モードにより決定されるか、また
はユーザにより音声システムに関連するユーザ・インタ
フェースを介してセットされる。デフォルトの聴取者角
度も使用される。次に、ステップ２３４で、その位置及
び聴取者角度に関連する位置及びオーディオ情報が、空
間情報を合成音声波形に追加するためにオーディオ・プ
ロセッサにより使用され、このテキスト・ストリングが
特定のロケーションから発生するように感じられる。レ
ッスン内の音声は順次的であるが、本発明は各々が同時
に固有のそれぞれの位置から発せられる同時生成音声を
生成するためにも使用される。

【００３１】図６を参照すると、位置テーブルが示さ
れ、図７ではコンピュータ・システムの前方に座ってい
るユーザ及び見掛けの位置が表される。各位置に対し、
Ｘ、Ｙ、Ｚ座標のセットが記憶される。オーディオ・プ
ロセッサは合成音声の見掛けの位置を生成するために
Ｘ、Ｙ、Ｚ座標を使用する。コメントがテーブル内に提
供され、ユーザまたは開発者は、座標の特定のセットの
見掛けの位置が表示画面のどこに関連するかを理解する
ことができる。図６及び図７において、位置は上述の会
話に対応する。しかしながら、はるかに多くの位置が本
発明により考慮される。また、本発明はＺ軸に沿って天
井または床から到来すると感じられる位置を含むことも
できる。

【００３２】上述の語学レッスンを参照すると、対話の
最初のラインは、図４のテキスト・ストリング１００で
あり、これはシステムの音声を使用する。システム音声
は機械的音声であり、これは空間的または方言情報を使
用しない。音声は非常に機械的にまた平坦に聞こえる。
しかしながら、これは対話の残りの部分において高度に
生気に満ち空間的に位置付けされる音声との間で、有用
な対照を提供する。次に、Mr．Tanakaが、画面から右に
５フィートの位置１で日本語を話す。次に中西部の英語
方言により、画面の中央位置３で英語翻訳が続く。Mr
s．Tanaka が画面から左に５フィートの位置５で日本語
で返答する。Mrs．Tanaka の音声は女性の話手にふさわ
しいように、フォルマントのピッチが高い。次に、スト
リング１０８に関連する英語翻訳が画面中央で継続され
る。

【００３３】テキスト・ストリング１１８に関連して、
本発明の別の特徴が示される。ウェイタが画面から左に
２フィートの位置４から、テーブル周辺を画面中央位置
３に移動し、最後に画面から右に２フィートの位置２に
移動するように感じられる。この動きは、システムが位
置４と位置２との間の位置を補間する時、連続的に感じ
られる。代わりに、音声が単に位置４から位置３に、次
に位置２へと切り替わってもよい。テキスト・ストリン
グ１３８では、システム音声は、再度、その中立位置に
おいて、中立方言すなわち機械的音声により、レッスン
の終了を発声する。

【００３４】ステレオまたは"３次元"音響効果を生成す
る既存の多くの技術が存在するが、最適なものの１つが
１９９１年９月３日出願のLoweらによる米国特許第５０
４６０９７号"Sound Imaging Process" で開示されてい
る。この特許は他の従来技術の優れた背景部分を有す
る。第５０４６０９７号特許で述べられる技術は、ユー
ザにより指定される位置を左右の複雑な周波数転送関数
に変換し、これが振幅を変化させ、左右のチャネルの位
相をシフトする。位相のシフトはチャネル間の特定の時
間遅延に概略等価である。振幅及び位相シフトの量は、
入力信号の周波数に従い、オーディオ・スペクトラムに
渡って変化する。一般的な技術はBlumleinによる米国特
許第２０９３５４０号で前もって知らせられるが、少な
くとも１つのチャネルが次に示す転送関数、すなわちＴ（Ｓ）＝（１−（１／Ｒ₁）（Ｒ₁−Ｒ₂）／（１−ＳＣＲ₃）により特徴化される周波数応答を有するフィルタを通過
する。ここでＳは置換複素周波数変数、Ｒ₁及びＲ₂はフ
ィルタの増幅器部分の反転入力に接続される入力及び帰
還インピーダンス、Ｃ及びＲ₃ は増幅器部分の非反転入
力に接続される入力及びグラウンド要素である。この特
許は、ユーザがスピーカの音響を聞きながら位置を選択
するシステムを想定する。位置データそのものは記憶さ
れず、左右のチャネルの変更されたオーディオ信号だけ
が記憶される。

【００３５】図８は模範的オーディオ制御装置カードを
示し、スピーカ応答の訂正用のデジタル信号プロセッサ
（ＤＳＰ）を含む。オーディオ制御装置は１９９０年９
月１８日にＩＢＭから発表され出荷されたM-Audio Capt
ure and Playback Adapterである。当業者には理解され
るように、たくさんの他の音響が使用される。図８を参
照すると、入出力バス２００はオーディオ制御装置を許
可するマイクロチャネルまたはＰＣ入出力バスである。
パーソナル・コンピュータはコマンド・レジスタ２０
２、ステータス・レジスタ２０４、及びアドレス・ハイ
・バイト・カウンタ２０６及びアドレス・ロウ・バイト
・カウンタ２０７、ハイ・データ・ハイ・バイト双方向
ラッチ２０８、及びデータ・ロウ双方向ラッチ２１０を
使用することにより、情報を入出力バス２００を介し
て、オーディオ制御装置に転送する。これらのレジスタ
はホストがコマンドを発行するために、またオーディオ
制御装置カードの状態を監視するために使用する。アド
レス及びデータ・ラッチはパーソナル・コンピュータが
共用メモリ２１２をアクセスするために使用する。共用
メモリはオーディオ制御装置カード上の８Ｋ×１６ビッ
トのスタティックＲＡＭである。共用メモリ２１２はま
た、パーソナル・コンピュータとデジタル信号プロセッ
サ３３との間の通信を提供する。

【００３６】メモリ・アービタは制御論理２１４の１部
に含まれ、パーソナル・コンピュータ及びＤＳＰ３３が
同時に共用メモリ２１２をアクセスすることを防止す
る。共用メモリ２１２は、情報の１部がデジタル信号プ
ロセッサ３３を制御するための論理となるように分割さ
れる。デジタル信号プロセッサはその固有の制御レジス
タ２１６及びステータス・レジスタ２１８を有し、これ
らはコマンドを発行し、オーディオ制御装置カードの他
のパーツの状態を監視するために使用される。オーディ
オ制御装置カードは、サンプル・メモリ２２０と呼ばれ
る別のブロックのＲＡＭを含む。サンプル・メモリ２２
０は２Ｋ×１６ビットのスタティックＲＡＭであり、こ
れはＤＳＰ３３により、これらのスピーカ・システムで
実演される出力オーディオ信号用に、或いはパーソナル
・コンピュータへ転送するデジタル化オーディオの入来
信号の記憶用に使用される。例えば、音響マウス・モー
ドは聴取者角度を決定するために、音を発しまた反響音
を受信する。更に、マイクロフォンまたはテープ・プレ
ーヤがカードには接続される。デジタル・アナログ変換
器（ＤＡＣ）２２２及びアナログ・デジタル変換器（Ａ
ＤＣ）２２４は、コンピュータのデジタル環境と、スピ
ーカにより生成されるまたはマイクロフォンにより受信
されるアナログ音との間でオーディオ信号を変換する。
ＤＡＣ２２２はサンプル・メモリ２２０からデジタル・
サンプルを受信し、そのサンプルをアナログ信号に変換
し、これらの信号をアナログ出力セクション２２６に送
信する。アナログ出力セクション２２６は信号を調節
し、スピーカ・システムを介する伝送のために出力コネ
クタに送信する。ＤＡＣ２２２が連続的にマルチプレク
スされるので、ステレオ・オペレーションが両方のスピ
ーカ構成要素に提供される。

【００３７】ＡＤＣはＤＡＣ２２２と逆の作用をする。
ＡＤＣ２２４はアナログ入力セクション２２８からアナ
ログ信号を受信する。アナログ入力セクション２２８
は、マイクロフォンまたはテープ・プレーヤなどの他の
オーディオ入力装置として機能するスピーカ・システム
から信号を受信する。ＡＤＣ２２４はアナログ信号をデ
ジタル・サンプルに変換し、それらをサンプル・メモリ
２２０に記憶する。制御論理２１４は、ＤＳＰ３３が割
込み要求を発行した後に、パーソナル・コンピュータに
割込みを発行する。

【００３８】ステレオ・オーディオ信号をスピーカ・シ
ステムに提供することは、次のように作用する。パーソ
ナル・コンピュータがＤＳＰ３３に、オーディオ制御装
置がデジタル化音響データの特定のサンプルを実演すべ
きことを通知する。本発明では、パーソナル・コンピュ
ータはＤＳＰ３３の制御用のコード及びデジタル・オー
ディオ・サンプルをそのメモリから獲得し、それらを入
出力バス２００を介して共用メモリ２１２に転送する。
ＤＳＰ３３はサンプルを取り出し、それらを対数混合基
準値の整数表現に変換し、それらをサンプル・メモリ２
２０に配置する。このステップは元の音声と同時に生成
されなければならない各合成音声に対し繰返される。サ
ンプル・メモリ２２０内の最終結果は全ての合成音声の
デジタル・オーディオ加算であり、各々はそれらの空間
配置に保持される。ＤＳＰ３３は次にＤＡＣ２２２を活
動化し、これがデジタル化サンプルをオーディオ信号に
変換し、オーディオ出力セクション２２６がオーディオ
信号を調整し、それらを出力コネクタに出力する。

【００３９】音響マウス・モードを動作するために、パ
ーソナル・コンピュータ・システムは次のように作用す
る。上述のように音を発した後、パーソナル・コンピュ
ータはデジタル信号プロセッサ３３に入出力バス２００
を介して、オーディオ制御装置カードが入来オーディオ
信号をデジタル化すべきことを通知する。ＤＳＰ３３は
その制御レジスタ２１６を使用し、ＡＤＣ２２４をイネ
ーブルする。ＡＤＣ２２４は入来オーディオ信号をデジ
タル化し、サンプルをサンプル・メモリ２２０に配置す
る。ＤＳＰ３３は信号をサンプル・メモリ２２０から受
信し、それらを共用メモリ２１２に転送する。ＤＳＰ３
３は次にパーソナル・コンピュータに入出力バス２００
を介して、デジタル・サンプルがパーソナル・コンピュ
ータ・プロセッサの読出しのために準備されていること
を通知する。パーソナル・コンピュータは入出力バス２
００を介してサンプルを獲得し、それらを解釈しホスト
ＲＡＭまたはディスク記憶に記憶する。

【００４０】本発明は特定の実施例について述べられて
きたが、当業者には本発明の精神及び範囲を逸脱するこ
となく、変更が可能であることが理解されよう。例え
ば、語学レッスンではなく、本発明がメッセージから異
なるオーディオ面内のメッセージを生成するために使用
され、ユーザが通常のオーディオと警告とを見分けるこ
とを容易にする。これらの実施例は例として取り上げた
だけであり、本発明の範囲を制限するものではない。

【００４１】まとめとして、本発明の構成に関して以下
の事項を開示する。

【００４２】（１）コンピュータ・システムにより合成
される音声に見掛けの空間位置を提供する方法であっ
て、テキスト・データ及び位置データを含む音声ファイ
ルをコンピュータ・メモリに記憶するステップと、音声
ファイル内のテキスト・データから音声波形を合成する
ステップと、音声波形を左右のチャネルに対応するアナ
ログ信号に変換するステップと、アナログ信号がスピー
カ・システムに送信される時に、合成音声が見掛けの空
間位置から発生するように感じられるように、アナログ
信号を音声ファイル内の位置データに従い変更するステ
ップと、を含む方法。（２）音声ファイルが各々がそれぞれの位置データのセ
ットに関連される複数のテキスト・ストリングを含み、
アナログ信号がスピーカ・システムに送信される時に、
複数の合成音声の各々がそれぞれの空間位置から発生す
るように感じられるように、合成、変換及び変更ステッ
プが各テキスト・ストリングに対し繰返される、上記
（１）記載の方法。（３）音声ファイルが方言データを含み、アナログ信号
がスピーカ・システムに送信される時に、合成音声が選
択された方言により発声されるようにするために、最初
にテキスト・データから合成された音声波形をアナログ
信号への変換以前に、方言データに従い変更するステッ
プを含む、上記（１）記載の方法。（４）音声ファイルが各々がそれぞれの位置データ及び
方言データのセットに関連される複数のテキスト・スト
リングを含み、合成、変換及び変更ステップが各テキス
ト・ストリングに対し繰返され、アナログ信号がスピー
カ・システムに送信される時に、複数の合成音声の各々
がそれぞれの方言によりそれぞれの空間位置から発生す
るように感じられるように、各テキスト・ストリングか
ら合成される各音声波形を、アナログ信号への変換以前
に、それぞれの方言データのセットに従い変更するステ
ップを含む、上記（１）記載の方法。（５）スピーカ・システムに対するユーザ位置を決定す
るステップを含み、変更ステップがユーザ位置に従い実
行される、上記（１）記載の方法。（６）決定ステップがユーザ位置をコンピュータ・シス
テムに結合されるセンサにより検出して実施される、上
記（５）記載の方法。（７）決定ステップがコンピュータ・システムにより提
供されるユーザ・インタフェースへのユーザ入力に従い
実施される、上記（５）記載の方法。（８）コンピュータ・システムにより合成される音声に
見掛けの空間位置を提供するシステムであって、テキス
ト及び位置データを含む音声ファイルをコンピュータ・
メモリに記憶する手段と、音声ファイル内のテキスト・
データから音声波形を合成する手段と、音声波形を左右
のチャネルに対応するアナログ信号に変換する手段と、
アナログ信号がスピーカ・システムに送信される時に、
合成音声が見掛けの空間位置から発生するように感じら
れるように、アナログ信号を音声ファイル内の位置デー
タに従い変更する手段と、を含むシステム。（９）音声ファイルが各々がそれぞれの位置データのセ
ットに関連される複数のテキスト・ストリングを含み、
アナログ信号がスピーカ・システムに送信される時に、
複数の合成音声の各々がそれぞれの空間位置から発生す
るように感じられるように、合成、変換及び変更手段が
各テキスト・ストリングに対して使用される、上記
（８）記載のシステム。（１０）音声ファイルが方言データを含み、アナログ信
号がスピーカ・システムに送信される時に、合成音声が
選択された方言により発声されるようにするために、テ
キスト・データから合成された音声波形をアナログ信号
への変換以前に、方言データに従い変更する手段を含
む、上記（８）記載のシステム。（１１）音声ファイルが各々がそれぞれの位置データ及
び方言データのセットに関連される複数のテキスト・ス
トリングを含み、合成、変換及び変更手段が各テキスト
・ストリングに対して使用され、アナログ信号がスピー
カ・システムに送信される時に、複数の合成音声の各々
がそれぞれの方言によりそれぞれの空間位置から発生す
るように感じられるように、各テキスト・ストリングか
ら合成される各音声波形を、アナログ信号への変換以前
に、それぞれの方言データのセットに従い変更する手段
を含む、上記（８）記載のシステム。（１２）スピーカ・システムに対するユーザ位置を決定
する手段を含み、変更手段がユーザ位置に従い実行され
る、上記（８）記載のシステム。（１３）決定手段がユーザ位置を検出するコンピュータ
・システムに結合されたセンサを含む、上記（１２）記
載のシステム。（１４）決定手段がユーザ位置が入力されるコンピュー
タ・システムにより提供されるユーザ・インタフェース
である、上記（１２）記載のシステム。（１５）コンピュータ・メモリ内に常駐し、コンピュー
タ・システムにより合成される音声に見掛けの空間位置
を提供するコンピュータ・プログラム・プロダクトであ
って、テキスト及び位置データを含む音声ファイルをコ
ンピュータ読出し可能媒体上に記憶する手段と、音声フ
ァイル内のテキスト・データから音声波形を合成する手
段と、音声波形を左右のチャネルに対応するアナログ信
号に変換する手段と、アナログ信号がスピーカ・システ
ムに送信される時に、合成音声が見掛けの空間位置から
発生するように感じられるように、アナログ信号を音声
ファイル内の位置データに従い変更する手段と、を含む
プロダクト。（１６）音声ファイルが各々がそれぞれの位置データの
セットに関連される複数のテキスト・ストリングを含
み、アナログ信号がスピーカ・システムに送信される時
に、複数の合成音声の各々がそれぞれの空間位置から発
生するように感じられるように、合成、変換及び変更手
段が各テキスト・ストリングに対して使用される、上記
（１５）記載のプロダクト。（１７）音声ファイルが方言データを含み、アナログ信
号がスピーカ・システムに送信される時に、合成音声が
選択された方言により発声されるようにするために、テ
キスト・データから合成された音声波形をアナログ信号
への変換以前に、方言データに従い変更する手段を含
む、上記（１５）記載のプロダクト。（１８）音声ファイルが各々がそれぞれの位置データ及
び方言データのセットに関連される複数のテキスト・ス
トリングを含み、合成、変換及び変更手段が各テキスト
・ストリングに対して使用され、アナログ信号がスピー
カ・システムに送信される時に、複数の合成音声の各々
がそれぞれの方言によりそれぞれの空間位置から発生す
るように感じられるように、各テキスト・ストリングか
ら合成される各音声波形を、アナログ信号への変換以前
に、それぞれの方言データのセットに従い変更する手段
を含む、上記（１５）記載のプロダクト。（１９）スピーカ・システムに対するユーザ位置を決定
する手段を含み、変更手段がユーザ位置に従い実行され
る、上記（１５）記載のプロダクト。

【００４３】

【発明の効果】以上説明したように、本発明によれば、
音声合成に空間情報が導入される。本発明は１つの改良
を提供するものであり、合成音声を使用する感動的なマ
ルチメディア・アプリケーションを生成する手段を提供
し、複数の音声の各々は３次元空間内の異なるロケーシ
ョンから発生するように感じられる。

【図面の簡単な説明】

【図１】システム・ユニット、キーボード、マウス及び
スピーカ・システムを有するマルチメディア装置を含む
マルチメディア・パーソナル・コンピュータ・システム
を表す図である。

【図２】マルチメディア・コンピュータ・システムの構
成要素のブロック図である。

【図３】本発明によりメモリ内で実行される複数のコー
ド・モジュールを表す図である。

【図４】本発明により合成されるメッセージのセットを
表す図である。

【図５】音声を空間情報と合成する流れ図である。

【図６】複数の合成音声が発生するように感じられる空
間座標を提供する位置テーブルを示す図である。

【図７】合成音声に対する見掛けの位置を生成するコン
ピュータ・システムの前に座っているユーザを示す図で
ある。

【図８】本発明によりスピーカを制御し、合成音声に空
間情報を提供する、コンピュータの主プロセスを支援す
るために使用されるオーディオ制御装置カードを示す図
である。

【符号の説明】

３３デジタル信号プロセッサ５２音声合成装置５４音声ファイル２００入出力バス２１２共用メモリ２１４制御論理２２０サンプル・メモリ２２２デジタル・アナログ変換器（ＤＡＣ）２２４アナログ・デジタル変換器（ＡＤＣ）

───────────────────────────────────────────────────── フロントページの続き (72)発明者ピーター・ウイリアム・ファレットアメリカ合衆国78759、テキサス州オースティン、シエラ・オークス 10929

Claims

【特許請求の範囲】

【請求項１】コンピュータ・システムにより合成される
音声に見掛けの空間位置を提供する方法であって、テキスト・データ及び位置データを含む音声ファイルを
コンピュータ・メモリに記憶するステップと、音声ファイル内のテキスト・データから音声波形を合成
するステップと、音声波形を左右のチャネルに対応するアナログ信号に変
換するステップと、アナログ信号がスピーカ・システムに送信される時に、
合成音声が見掛けの空間位置から発生するように感じら
れるように、アナログ信号を音声ファイル内の位置デー
タに従い変更するステップと、を含む方法。
【請求項２】音声ファイルが各々がそれぞれの位置デー
タのセットに関連される複数のテキスト・ストリングを
含み、アナログ信号がスピーカ・システムに送信される
時に、複数の合成音声の各々がそれぞれの空間位置から
発生するように感じられるように、合成、変換及び変更
ステップが各テキスト・ストリングに対し繰返される、
請求項１記載の方法。
【請求項３】音声ファイルが方言データを含み、アナロ
グ信号がスピーカ・システムに送信される時に、合成音
声が選択された方言により発声されるようにするため
に、最初にテキスト・データから合成された音声波形を
アナログ信号への変換以前に、方言データに従い変更す
るステップを含む、請求項１記載の方法。
【請求項４】音声ファイルが各々がそれぞれの位置デー
タ及び方言データのセットに関連される複数のテキスト
・ストリングを含み、合成、変換及び変更ステップが各
テキスト・ストリングに対し繰返され、アナログ信号が
スピーカ・システムに送信される時に、複数の合成音声
の各々がそれぞれの方言によりそれぞれの空間位置から
発生するように感じられるように、各テキスト・ストリ
ングから合成される各音声波形を、アナログ信号への変
換以前に、それぞれの方言データのセットに従い変更す
るステップを含む、請求項１記載の方法。
【請求項５】スピーカ・システムに対するユーザ位置を
決定するステップを含み、変更ステップがユーザ位置に
従い実行される、請求項１記載の方法。
【請求項６】決定ステップがユーザ位置をコンピュータ
・システムに結合されるセンサにより検出して実施され
る、請求項５記載の方法。
【請求項７】決定ステップがコンピュータ・システムに
より提供されるユーザ・インタフェースへのユーザ入力
に従い実施される、請求項５記載の方法。
【請求項８】コンピュータ・システムにより合成される
音声に見掛けの空間位置を提供するシステムであって、テキスト及び位置データを含む音声ファイルをコンピュ
ータ・メモリに記憶する手段と、音声ファイル内のテキスト・データから音声波形を合成
する手段と、音声波形を左右のチャネルに対応するアナログ信号に変
換する手段と、アナログ信号がスピーカ・システムに送信される時に、
合成音声が見掛けの空間位置から発生するように感じら
れるように、アナログ信号を音声ファイル内の位置デー
タに従い変更する手段と、を含むシステム。
【請求項９】音声ファイルが各々がそれぞれの位置デー
タのセットに関連される複数のテキスト・ストリングを
含み、アナログ信号がスピーカ・システムに送信される
時に、複数の合成音声の各々がそれぞれの空間位置から
発生するように感じられるように、合成、変換及び変更
手段が各テキスト・ストリングに対して使用される、請
求項８記載のシステム。
【請求項１０】音声ファイルが方言データを含み、アナ
ログ信号がスピーカ・システムに送信される時に、合成
音声が選択された方言により発声されるようにするため
に、テキスト・データから合成された音声波形をアナロ
グ信号への変換以前に、方言データに従い変更する手段
を含む、請求項８記載のシステム。
【請求項１１】音声ファイルが各々がそれぞれの位置デ
ータ及び方言データのセットに関連される複数のテキス
ト・ストリングを含み、合成、変換及び変更手段が各テ
キスト・ストリングに対して使用され、アナログ信号が
スピーカ・システムに送信される時に、複数の合成音声
の各々がそれぞれの方言によりそれぞれの空間位置から
発生するように感じられるように、各テキスト・ストリ
ングから合成される各音声波形を、アナログ信号への変
換以前に、それぞれの方言データのセットに従い変更す
る手段を含む、請求項８記載のシステム。
【請求項１２】スピーカ・システムに対するユーザ位置
を決定する手段を含み、変更手段がユーザ位置に従い実
行される、請求項８記載のシステム。
【請求項１３】決定手段がユーザ位置を検出するコンピ
ュータ・システムに結合されたセンサを含む、請求項１
２記載のシステム。
【請求項１４】決定手段がユーザ位置が入力されるコン
ピュータ・システムにより提供されるユーザ・インタフ
ェースである、請求項１２記載のシステム。