JP2005229618A

JP2005229618A - 動的音源とリスナーの位置による音声レンダリング

Info

Publication number: JP2005229618A
Application number: JP2005034235A
Authority: JP
Inventors: Steven R Jahnke; アール．ヤンケスティーヴン
Original assignee: Texas Instruments Inc
Current assignee: Texas Instruments Inc
Priority date: 2004-02-13
Filing date: 2005-02-10
Publication date: 2005-08-25
Also published as: EP1565035A3; EP1565035A2; US7492915B2; EP1565035B1; US20050179701A1

Abstract

【課題】使用する音声処理の量は僅かしか増加しない高品質の音声効果を実現する。
【解決手段】動的音源とリスナーの位置（ＤＳＳＬＰ）による音声レンダリングを用いる。最終音を判定する特性を、現在の状態とすぐ前の状態からのリスナーの相対位置の変化によって判定する。以前の状態を格納することによって、全ての音源とリスナーの位置との間の相対位置の変化によって発生する音声効果を計算することが可能になる。現在の状態のＤＳＳＬＰデータは、格納された音とリスナーの位置、音声タグ情報（ブロック８０１）、格納された状態データ（ブロック７１４）、およびゲーム・プレーヤーが起こした変化の入力（ブロック７２０）から生成され、ＤＳＳＬＰプロセッサ（ブロック７１２）において、動的に変化するＤＳＳＬＰ構成を発生させる。このＤＳＳＬＰ構成によって音声格納場所から発する音のフィルター処理が決定される。
【選択図】図８

Description

本発明の技術分野はコンピュータ・ゲームにおける音声処理である。

現在のビデオ・ゲーム・システムのハードウエアは、殆ど例外なくメイン・プロセッサとグラフィックス・プロセッサとを含む。メイン・プロセッサはパーソナル・コンピュータ（ＰＣ）の中にあるようなペンティアム（登録商標）・プロセッサとすることができる。あるいは、メイン・プロセッサはプログラム情報をグラフィックス・プロセッサへ転送するいずれのプロセッサであってもよい。グラフィックス・プロセッサは、アクセラレイティッド・グラフィックス・ポート（ＡＧＰ）の機能に適合するまたは超越するデータ・スループット機能を備えた非常に高性能なバスによってメイン・プロセッサに緊密に結合される。また、このグラフィックスは、一般に、音声プロセッサを提供するＩ／Ｏバスによって結合され、ＰＣＩポート用のネットワーク・コネクタを含む。メイン・プロセッサとグラフィックス・プロセッサとは緊密に結合され、メイン・プロセッサやメモリー・システムからグラフィックス・プロセッサへデータを転送するのに伴って起こるおそれのある性能の劣化を最小限に抑える。

音声システムの構成要素は、一般に性能が非常に重要であるとはみなされていない。従って、音声システムはより低性能の周辺バス上にあるのが一般的である。これは現行のシステムの音声では完全に容認されている。現在最も高性能のゲームの音声システムには２つの主要な特性がある。

高性能ゲーム・システムの第一の特性は位置音声（ｐｏｓｉｔｉｏｎａｌａｕｄｉｏ）システムである。位置音声システムはユーザ入力およびスクリーンの上でのキャラクタの遠近感に基づいて動的なチャネルの利得／減衰をリアル・タイムに行う。マルチ・チャンネル・スピーカー・システムは、通常、左前、中央、および右前のスピーカー、ならびに左後および右後のスピーカーの５個の主なスピーカーを含む。また、かかるシステムは分離したサブウーファースピーカーを含む。サブウーファースピーカーは、低音域再生用の周囲の条件に依存しない（ｎｏｎ−ｐｏｓｉｔｉｏｎａｌ）スピーカーである。５個の主スピーカーとサブウーファースピーカーとを備えたそのような音声システムは、‘５．１レベル’のシステムと呼ばれる。

音発生源が画面上のカメラ位置の左にある場合、その音に対する左のスピーカーの利得は増大する。同様に、右側の利得は減衰する。ユーザがジョイスティックを動かし、カメラの相対位置を変化させると、チャネル利得は動的に変わる。新設計の位置音声アルゴリズムを高度化すると、居間の高品質マルチ・チャンネル・システムの音は良くなる。

第二の特徴的構成要素はリアル・タイム残響である。リアル・タイム残響はゲーム・プレイ中にトラックに混合されることなく、レンダリングされる。これによって、ゲームの中にはユーザ環境に基づいた音場効果が作られる。例えば、ゲームが屋外場面から洞窟に移動すると、ゲームから出る新たな音の全てには洞窟の残響が適用される。従って、発砲は反響して聞こえるようになる。何故なら、それはいま屋外ではなく洞窟の中なのであるから。競合するいくつかのゲーム・システム供給者はこの技術を用いる。

位置音声とリアル・タイム残響の双方を強化するためには、ゲーム設計者はゲーム作成時に所望の効果を出すことが求められる。その後、これらの効果は、ラン・タイム中に音声プロセッサによって利用される。例えば、洞窟ホール効果は、「このレベルが読み込まれたら、洞窟効果を適用する」という形でゲーム・コードに付け加える必要がある。ゲーム開発者が、この効果を与えてやる。この効果は別々のミキシングされたトラックが聞こえることを要求しない。この効果は、ラン・タイム中に基本の音に処理が加えられる際に生成される。従って、通常の発砲は左前／右前のスピーカーに対してだけミキシングされる。

さらに、コンピュータ・ゲームでは、音源の位置に基づいて異なる残響を各音響要素に加えることができる。音は洞窟から来るが、リスナーの位置は洞窟の外であると想定する。音源には洞窟残響が適用されるが、リスナーが発生さるどの音にもこれは適用されない。これらのリアル・タイム効果を設定するは、適用する残響で音にタグをつけることによって、音声設計者がゲーム作成中に行うことが必要である。

現在の音声技法のゆるやかな発達とは異なり、ビデオ技法はそれよりはるかに早い速度で進んでいる。ビデオ製造業者は、かつてないほどのレベルのハードウエアおよびソフトウエア技術をビデオ画像に傾注してきた。ゲーム・システム用のビデオ情報は基本データから集められ、幾つかの層状に積み重ねられて積み重ね原理に従って画像処理される。画像には更なる細部が加えられ、さらに層情報が組み込まれる。風景情景では、最も低い層は針金メッシュ構造であり、これによって物体が載置される空間座標が形成される。それより高い層は多角形の物体を含み、さらに高い層は丸い角のような、これらの物体形状の改良されたものを含む。層の数が多くなると、風景情景や物体はさらに改良され、以下のような形状になる。
１．殺風景な幾何学図形から取り込んだ形状に質感を加え、もっとリアルに見えるようにする。
２．反射特性を混入させて、反射効果が見られるようにする。
３．ライティングを改良して、微妙な照明特性を加える。
４．遠近感を加え、遠方の物体の大きさが小さく見えるようにする。
５．被写界深度を加え、画像の下の方の位置が見えるようにする。
６．アンチエイリアジング（ａｎｔｉ−ａｌｉａｓｉｎｇ）を備え、曲線からギザギザの端部を取り除く。

これらは完成画像を形成するために重ね合わせた層の中に加えられたいくつかの基本的特性に過ぎない。ビデオ・データのこの改善を遂行するために必要な画像処理量は非常に大きい。ゲームは一連のデータから始まる。これらのデータは、多角形、針金メッシュ上での多角形配置、およびビデオ風景を暗黙の内に作り上げる各多角形の特徴を記述し、非常に洗練された効果をプロセッサが作成することができるようにする。

ゲーム・システムでは、マルチ・チャネル・サラウンド・サウンドは標準的機能になりつつある。マルチ・チャネル・サラウンド・サウンドは、標準の２スピーカ・ステレオ・システムで可能なものよりもはるかに広い配列の効果を使用可能にする。最新のゲーム・システムにおいては、これを利用した標準規格品や応用例が数多く作られている。これらの中には、３次元音声と一般に呼ばれている位置音声に対応するものもある。種々の後処理による効果を基本の音声ファイルに適用してその他の効果を得るものもある。従って、残響は閉じられた環境における音響をモデルとしたものである。これらのモデルのおかげでゲーム開発者は、所定の環境において音がどのように聞こえるかをゲーム作成時に予め判定することができるようになる。ゲーム開発者は単一の音響ファイルを作成する。マルチチャネル・スピーカー・システムの音響レベルは、音源に対するリスナーの相対的位置に基づいて、位置音声アプリケーション・プログラム・インターフェイス（ＡＰＩ）によって調整される。また、前もってプログラムされた環境状態情報に基づいて、残響のような種々の後処理効果を単一の音源ファイルに適用することができる。これによって、ゲーム・プレイ中により望ましいリスニング体験がもたらされる。

しかしながら、これらのモデルはいずれも、ゲーム環境自体は静的であると想定する。スピーカ・レベルは動的に調整可能であるが、音響特性は、上述のように予め前もってプログラムされていなければ調整不可能である。このことは、ゲーム設計者にかなり大きな負担を与えることになり、ゲーム設計者は、所定の環境において種々の効果、とりわけ物理学に基づく効果がどのように聞こえるかを知るために音声の知識を充分備えていなければならなくなる。また、これらのモデルは、音響環境の変化、特に多数の音源作成およびそれらの音源がいかに互いに相互作用するのか、に関する情報は一切用いない。静的モデルでは、これらの効果はゲームを設計する際に前もって判定しなければならない。

次世代ゲーム機の音声要件は２つの主要操作モード、すなわちビット・ストリーム再生動作モードとゲーム操作モードの内の１つに該当する。２つのゲーム製造業者は、自社の次のゲーム機はゲーム・システム以上のものとなると表明している。これらのゲーム機は、居間の娯楽システムになるであろう。現在の居間の娯楽システムにおける重要な音声構成要素は、オーディオ・ビジュアル再生（ＡＶＲ）である。まもなく売り出されるゲーム機は、ＡＶＲ機能の一部に対応すること必要がある。非増幅（ｕｎ−ａｍｐｌｉｆｉｅｄ）直接マルチチャネル音声が発生する可能性がある。

本発明は、動的音源とリスナーの位置（ＤＳＳＬＰ）による音声レンダリングを用いることによって、使用する音声処理量は僅かしか増えることのない高品質の音声効果を実現することについて説明する。音響とリスナーの位置だけに基づいた音声システムをモデルとするのではなく、最終の音を制御する特性は、現在の状態および以前の状態からのリスナーの相対位置の変化によって判定される。直前の状態を格納することによって、全ての音源とリスナーの位置との間の相対的位置の変化を算出することが可能になる。

現在の音声解決法は、マルチ・チャネル・システムにおけるスピーカー利得調整によって位置音声の変化にリアル・タイムに対応する。その他の効果は、ゲーム・ソース上でリアル・タイムに適用するとしても、ゲーム設計時に判定する必要がある。その本来の効果は、ゲームの状況に基づいて変化することはない。１つの音源とその他の音源またはリスナーの位置との間の相対位置の変化は考慮されない。動的モデルでは、これを変更することができる。例えば、２つの音がリスナーの位置に近くで音を発した場合、全ての周波数成分を混合する。これらの物体が遠ざかると、低い方の周波数だけを混合させればよい。なぜなら、これは音の相互作用の実態だからである。単一の位置音声に優る動的モデルはこれに対処する。

本発明は、単なる現在位置ではなく、音源とリスナーの位置との間の相対位置の変化によって音声を修正する方法を基本にしている。本発明は直前の音の状態を保持し、この音をいかに処理するかを物理的にモデル化する。これによって音間の相互作用は動的に判定される。

この動的モデルによって、今では、ゲームの音声を、音が現実の設定において実際にどのように聞こえるのかに関する物理的モデルとすることができるようになった。ゲーム作成時に音と速度依存特性との間の相互作用を判定する必要はもはやなくなった。これらは、ゲーム・プレイ中にリアル・タイムに判定され、且つ適用される。

本発明によって、ゲーム設計者にとって現実の音を発するゲーム作成はより簡単になり、音声専門家である必要なない。ドップラー偏移のような効果または音間の種々の相互作用がどのように聞こえるかに関してゲーム設計者は気にかける必要は今ではなくなった。これらの効果は動的モデルによって自動的に判定され且つ適用される。

本発明において、音声モデルは最新の立体グラフィクス・レンダリング・モデルのミラーリングである。最新の立体グラフィックスでは、画像の中で起こった変化だけを算出し、且つ適用する。現在の音声は同じようなモデルを採用しており、グラフィックス系のゲーム設計者の殆どは、音声モデルをより簡単につかむことができる。動的ライティングやシャドーイングといったグラフィックスのために為された類似の技法や効果は、音声にもそのまま適応可能である。本発明のこれらの態様およびその他の態様を図面に示す。

現在、音声処理の処理優先度はコンピュータ・ゲームにおけるビデオ処理よりもはるかに低い。通常、基本のポイント・ソース（ｐｏｉｎｔｓｏｕｒｃｅ）音はディジタル音声に変換され、一般的な環境の特徴を呈するように修正される。例えば、講堂の中での発砲は壁に柔らかいクッションを張った部屋の中での同じ発砲とは異なる特徴を呈する。ゲーム・システム・プログラマは基本の音とその基本的修正とを提供し、これらは環境に応じて切り換えることができる。現在採用されている音声技術はリアル・タイムで行われるいくつかの効果処理を提供するが、ゲーム作成中にゲーム設計者によって挿入される中核のインフォーメーション・ハンド（ｃｏｒｅｉｎｆｏｒｍａｔｉｏｎｈａｎｄ）と共に静的に使用される。これは、アーティストが環境を作成し、ゲームは単にこれを読み込み、且つ表示するだけの初期の２次元グラフィックスに類似する。

これらの最新のゲーム音声方式では、ゲーム設計者はどのような効果を適用すべきかを予め判定する。次にこれらの効果を、ゲーム・プレイ中にリアル・タイムに適用する。音声エンジンは実際の環境がどうであるかを知る必要はない。これらの現在使用可能なゲームは、音声効果を物体毎に挿入する。例えば、ドアは音響特性を有し、設計者が「閉鎖を追加」と言うと、現行の音声エンジンにリアル・タイムの閉鎖効果を適用させる。

図１は高品質のゲーム・システムにおいて現在用いられているハードウエア構造を示す。プロセッサ・コア１００は、ローカル・キャッシュ・メモリー１０１とグラフィックス・インターフェース・チップ１０２に緊密に接続されている。グラフィックス・インターフェース・チップ１０２は、高速バス１０４を介してグラフィックス・アクセラレータ１０３と通信を行う。グラフィックス・アクセラレータ１０３は、ローカル・グラフィックス・メモリー１０５から制御およびプログラム・データを引き寄せる。システム・メモリー１０６は大容量記憶装置を備える。オーディオ／ビデオ・チップ１０７は、フレーム・バッファ１０８のフレームにフォーマットし、ディプレイ１０９に出力することによってビデオ処理を完了させる。周辺バス１１５は、音声プロセッサ１１２と、ディスクＩ／Ｏ１１０と、ユーザ・インターフェースＩ／Ｏブロック１１１とにインターフェースするように為された性能のより低いバスである。音響システム１１４は、音声プロセッサ１１２が発生した合成音を出力する。

図１の構造は、非常に強力なグラフィックス計算能力を備えゲーム・プレーヤーが現在のゲームに期待するグラフィックス品質を確保する。音声効果は非常に重要な位置を占めるにも拘らず、ビデオを作成のために注がれたハードウエアおよびソフトウエアの複雑性を求めることはできない。一般に、ゲーム設計者は修正効果として音声の機能拡張を行うのが。類似のビデオ型効果が明らかに除外される場合には、これらの月並みな音声効果で充分である。

現在のゲームゲーム機の音声は、一般的に、正弦波の加算を用いた音質生成からなる。パーソナル・コンピュータ・ゲームの音声は、ウエーブ・ファイルとして再生されるのが一般的であるが、音質生成を用いても作成される。音響効果を記録する必要がないため、これは音声エンジニアにとっては簡単である。しかしながら、それは一般的に、品質、深さが不足し、音は、通常、人工的である。ホーム・シアター・システム上でのこれらのゲームの音声体験は、ディジタル・ビデオ・ディスク（ＤＶＤ）を見るよりもはるかに貧弱である。映画制作者が利用する記録済みの音響効果は、自然界の音からものものであり、従ってはるかに豊かである。その結果、ゲーム・プレイ中にＤＶＤのような、または更にＤＶＤに似た音声体験を得ようとしたら、音声エンジンは一連の正弦波パラミータに基づいて音質を作成するだけでなく、既に記録されたファイルの再生に対応しなければならない。この種の音声処理は、図２に示すようなＡＶＲライクの処理ストリームが必要である。

図２は、（ａ）背景音声ストリーム２０１と（ｂ）音声要素の流れ２０２の２つの基本的な種類の音声ストリームを示す。通常のゲームは、背景音声ストリームと可変数の初期の音声ストリームを用いる。背景の音声ストリームは、オンチップ・バッファの静的ランダム・アクセス・メモリー（ＳＲＡＭ）の量と、ノイズ状に聞こえるものは含めずに人間の耳が聞き分けることのできる音の数とによって制限される。背景の音声と音声要素とをチャネル／フレーム加算ブロック２０５に混入し、最終出力を作成する。

背景音楽は大容量記憶装置２１１（ハード・ドライブまたはＣＤ）に格納され、非インタラクティブである。それは従来のコンパクト・ディスクまたは映画トラックのように作成され且つ再生される。これらの背景音声ストリーム２０１は、その大きさ故に、ハード・ドライブからまたはゲーム・プログラムＣＤから音声プロセッサに流入される。音声デコーダー／バッファおよび音声フレーム発生装置２０３は、このデータを通常のあらゆる入力ストリームのように復号化する。コンピュータ・ゲームは、通常、全ての入力ストリーム・ファイル・フォーマットおよび「ビット・ストリーム再生動作モード」（“ＢｉｔＳｔｒｅａｍＰｌａｙｂａｃｋＯｐｅｒａｔｉｏｎａｌＭｏｄｅ”）におけるサンプリング速度に対応する。これには、ＡＣ３、ＤＴＳおよびその他の一般に用いられるフォーマットへの対応が含まれる。位置音声および環境効果音声のような効果処理は環境音楽には適用されない。

音声要素はインタラクティブである。図２は、音声要素ソース入力２００を示す。各音声要素の第１フレームはオンチップ・メモリーに格納しなければならないが、そうすれと音声プロトタイプ・ストリーム２０２として流入させることができる。位置の音声と環境効果音声の双方を含み、全ての音響効果処理２０６をそのまま音声要素に適用する。適用された環境効果は、音響ソース環境の位置に基づく。グローバルな環境効果は、音響効果処理ブロック４０６によって適用され、チャネル統合ブロック２０４に送られ、次にチャネル／フレーム加算ブロック２０５に送られ、そこでミックスされた音声要素は結合される。このグローバルな環境効果は、音響ソースが空間情報ブロック２１０から生成される場所に対するリスナーの位置に基づいている。このグローバルな環境はフレーム毎に変更された空間情報ブロック２０８においてフレーム毎に検知される。出力音響フォーマッター２０７はシステム・スピーカー用の合成音を生成する。音響スプリッター２０９は、この合成音をそのスピーカー別の音に分離する。スピーカー・システム２１２は、生成される多チャネルの音を受け取る。

音声要素源ブロック２００に導かれた各音声要素は、それに関連するアクティブ・フラッグ（ａｃｔｉｖｅｆｌａｇ）を有する。このフラッグが設定されると、音声要素は活性化し、一度だけ再生される。また、各アクティブ・フラッグは関連する自動解除（ｓｅｌｆ−ｃｌｅａｒ）またはユーザ解除（ｕｓｅｒ−ｃｌｅａｒ）フラッグを有する。自動解除フラッグが設定されると、音声エンジンは以前のアクティブ・フラッグを解除してインアクティブとし、さらに音声状態イベントの変化をトリガー（ｔｒｉｇｇｅｒ）する。この音声要素は一度動作する。自動解除フラッグが解除されてインアクティブ（ｉｎａｃｔｉｖｅ）になると、音声要素アクティブ・フラッグは引き続きアクティブに設定される。この音声要素はそれを繰り返し、アクティブ・フラッグを解除してインアクティブにするように、ゲーム・プログラムが音声エンジンに伝えるまでこれを繰り返す。これは、例えば、自動車または飛行機のエンジンの絶え間なく続くうなりを伝搬するのには有用である。

本発明では、音声システムは音とリスナーの相対位置だけをモデル化し、最終音を判定する特性は、リスナーの直前の状態から現在の状態への相対位置の変化によって判定される。これは音声処理方法の根本的な変化である。この方法によって、ラン・タイムに適用される真に物理的なモデルに基づいて最終音を判定することが可能となる。これは、ゲーム設計時の静的な判定とは全く異なる。

次の音の状態を判定する際に相対位置の変化を判定するには、音を発生させる全ての物体の現在のｘ、ｙ（およびおそらくはｚ）座標をリスナーの位置と一緒に格納する。このリスナーの位置は、一般に、第２または第３の人が見るゲームにおいてカメラを据える際に焦点を合わせる対象の物体、または第１の人が見るゲームにおける単なるカメラ・ポジションである。これはグラフィックス状態が判定されるのと同じ速度である可能性がある。以前の状態のこの格納内容を動的に算出する。現行の静的モデルでは、音声設計者はドップラー偏移を適用する必要があることを音声設計者は前もって判定しなければならない。本動的モデルでは、ドップラー偏移を適用するべきかどうか、且つどの程度適用すべきかは、音声エンジン・ソフトウエアが判定する。音の相互作用を混ぜる際、物理的距離は、どの周波数成分を混合する必要があるかに影響する。静的モデルでは、これはゲーム設計時に判定されなければならない。動的モデルではこれは変更可能である。例えば、２つの音がリスナーの位置に近いところで発する場合、全ての周波数成分が混合される。物体が遠くなるにつれて低い方の周波数だけを混合すればよい。これは、音が現実に相互に作用する状況であるからである。状態情報の変化を算出後、全ての音源とリスナーの位置との間の相対位置の変化に基づいて、ドップラー偏移のような効果を作成することができる。動的モデルはこれが可能である。

現在の音声解決策は、マルチ・チャネル・システムにおけるスピーカー利得調整のように、位置音声における変化にリアル・タイムに対処する。その他の効果は、ゲーム・ソースにおいてリアル・タイムに適用される場合であっても、ゲーム設計時に判定する必要がある。効果のレンダリングは、ゲーム状態に基づいて変更することはできない。２つの音源とリスナーの位置との間の相対位置の変化は考慮されていない。

本発明の解決策は、音源とリスナーの単なる現在の位置ではなく、音源とリスナーの位置との間の相対位置の変化に基づいて音声を修正する。直前の音の状態を保持することによって音を物理的にモデル化することが可能となる。これによって音間の相互作用を動的に判定することができる。今では、現実の状況において音は実際どのように聞こえるのかに応じて、ゲームの音声を物理的にモデル化することができる。音間の相互作用や、ドップラー偏移のような速度依存特性をゲーム作成時に判定する必要は今ではなくなった。代わりに、これらの効果は、ゲーム・プレイ中にリアル・タイムに判定され、且つ適用される。

別の利点は、ゲーム設計者にとって現実音を出すゲームを作成することは、音声の専門家でなくとも、今やより簡単であることである。ゲームは、物理的効果や音間の種々の相互作用を考慮する必要が今ではない。本動的モデルにおいては、これらの効果は自動的に判定され、さらに適用される。

本発明において適用されている基本的ゲーム動作モード要件は、今日のパーソナル・コンピュータの音声システムと基本的には同じであるが、ホーム・シアター・システム上で高品質の音を発するように強化されている。次世代ゲーム機には、位置音声とリアル・タイム環境効果の２つの基本音声機能が含まれる。

位置音声アルゴリズムは以下の３つの主要な特性を利用する。
１．リスナー位置。これは一般的にカメラ視点の中心であり、すなわちゲーマー（ｇａｍｅｒ）にはゲームがどのように見えるかである。リスナーの位置は１つしかない。全ての音発生源の位置を突き止める。多数の音発生源が存在することができ、それらを同時にトリガー（ｔｒｉｇｇｅｒ）することができる。
２．音発生源は、音要素が取り付けられた物体である。一例は、発砲するゲーム・キャラクターに結び付けられた発砲音要素である。
３．音響状態の変化中におけるリスナー位置と音発生物体との距離および配向。位置音声アルゴリズムに対するこの主要なトリガーは以下で説明する。

ゲーム作成中、各音声要素は関連の音声発生物体を有する。同じ音声発生物体は、多数の音声要素に関連付けることができる。各音声発生物体は、ｘ、ｙ、ｚ空間において位置を有する。リスナー位置は、アルゴリズムの目的のためにｘ、ｙ、ｚ空間における（０、０、０）に常に標準化される。音声発生物体が最初にゲーム機のメモリーに取り込まれると、ｘ、ｙ、ｚ空間におけるリスナーの位置に対するその最初の位置は音声エンジンに送られる。

４つのイベントは音声状態を変更することができる。それらは以下のものである。
１.ゲーマーは、ジョイスティックまたはその他の入力装置を用いてリスナーの相対位置を変更することができる。
２．ゲーマーは、ボタンを叩くこと、またはその他の入力動作によって音声要素の再生をトリガーすることができる。
３．ゲーム・プログラムは、音源物体を移動させることによって音源の相対位置を変えることができる。
４．ゲーム・プログラムは、音声要素の再生をトリガーすることができる。

音声状態が変化する間に、メイン・プロセッサは音声状態イベントの変化の表示を音声エンジンに送る。これは以下のことに基づいている。
１．リスナーの位置を変えようとするゲーマーによって音の状態の変化が引き起こされると、入力情報がある量引き戻され、音声エンジンに送られる。次に音声エンジンは、（０、０、０）に標準化されたリスナーの位置を維持するこの相対量だけ、全ての音源発生物体の位置を変える。
２．音発生物体の位置を変えるゲーム・プログラムによって音の状態の変化が引き起こされると、音発生物体位置のその変化だけが送信される。音声エンジンは、ｘ、ｙ、ｚ空間におけるその相対位置を変化させる。
３．アクティブ音要素を追加する、または除去するユーザ、またはゲーム・プログラムのいずれかによって音の状態に変化が生ずると、音要素のアクティブ状態フラッグが設定されるか、または解除される。

この位置音声アルゴリズムはイベント駆動される（ｅｖｅｎｔｄｒｉｖｅｎ）。位置音声効果エンジンは、音声状態のあらゆる変化に応答する。音源要素は、あたかも音はリスナー位置の真ん前、且つ完全なピーク（すなわち、距離はゼロである）にあるかのようにミックスされるものと想定される。これは２チャネルパルス符号変調またはマルチ・チャネル・ソースとすることができる。図３は、一般的なグラフィックス多角形メッシュ３０１を示す。多角形メッシュ３０２は、メッシュの中の特定の多角形３０２と空間的に接続された符号化データを有することができる。

音響音声状態の初期設定時に音声エンジンが一旦動作すると、音声状態にはいつでも変化がおこる。図４は、エンジンのフロー・チャートを示す。図４はゲーム状態の音性要素と、それらがスピーカーの位置にマップする方法との間の根本的な関係を示す。音声要素はブロック４０１乃至４０９に表わされている。スピーカー調整前処理ブロック４１１乃至４１９は、４５８までの８チャネルの出力音に分散される要素を準備する。ソート・ブロック４２１乃至４２８は、ブロック４３１乃至４３８における加算の前にマルチ・チャネル要素のソーティングを行う。ソート加算は、ブロック４４１乃至４４８においてモード修正される。出力４５１乃至４５８は、結果として得られる８チャネルの音を表わす。これらは各スピーカーの地点に送る最終ディジタル値である。この構成は、スピーカー調整方法を判定する目的の８個のスピーカーの位置を想定する。各スピーカーはそれぞれの別のスピーカーから等距離にあり、リスナーの位置からも等距離にある。図６はこれらのスピーカーの位置を示す。

図５は、スピーカー調整ブロック４０２の概略図を示す。３バンド・イコライザ５０１は、ブロック５００によって明示された各アクティブ音声要素の上で動作する。これは各要素をその低周波数帯域５２１、中周波数帯域５２２、および高周波数帯域５２３に分ける。イコライザ５０１は、ゲーム状態の音対リスナーを相対的に配向させ、スピーカー構成のマッピングを促進する。

位置調整ブロック５０２は、以下に示す計算式４および５のα調整計算を行う。位置調整ブロック５０２は、発生スピ−カーα_１およびα_２、ならびに非発生スピーカーｓの残りのチャネルの個々の利得調整を以下に示す計算式９、１０、１１に従って計算する。ブロック５０３の距離調整部は、計算式３のρを計算し、以下に示す計算式１２のＧ_ｄの計算を完了する。ブロック５０３のユーザ調整部は、パラメータＵの値を確立する。Ｕは１のデフォルト値を有するユーザ調整値である。Ｕによって、ゲーム設計者は所定のゲームにおいて音をどれだけ離したらよいか調整することができる。従って、Ｕによって、ゲームは間近に感じられたり、遠方に感じられたりする。位置および距離減衰関数の双方は、全てのアクティブ音要素に適用される。５１１乃至５１６の積要素は、計算式９、１０および１１の乗算演算を表わす。デフォルト・スピーカ構成は６．１システムである。７．１チャネルでは、２つの後部スピーカーが１つとして作用する。２つの加算段階は、第１段階の加算ブロック５３１および５３２、ならびに最終段階の加算ブロック５３３を含む。

図６は、ゲーム状態の音量制御およびミキシングがどのように行われたら良いかを判定するモデルケースを示す。図６のモデルは位置音声アルゴリズムの基本を形成する。図６の略語表は、スピーカー毎の標識を一覧表示している。図６は、スピーカー６０１乃至６０８の理想の模範的位置を示す。ＡＶＲ製造業者は、一般に、スピーカーは家庭で実際にどのように設定されるかを確認する。パワード（ｐｏｗｅｒｅｄ）スピーカー・システムをゲーム機と直接一緒に使用する場合、ビット・ストリーム動作モード（ＢｉｔＳｔｒｅａｍＰｌａｙｂａｃｋＯｐｅｒａｔｉｏｎａｌＭｏｄｅ）の音声設定が制御を行う。

物理的スピーカー・システムはデフォルトの６．１であると想定されるが、音声アルゴリズムは図６に示す８個のスピーカー部を想定する。仮想の左ＶＬ６０４および仮想の右ＶＲ６０５スピーカーの音声信号は、前とサラウンド左、および前とサラウンドの右スピーカー情報を用いて生成され、計算式１および２から計算される。

これによってリスナーには、実際のスピーカーが仮想の位置にあるかのように感じさせる、等しい音量が与えられ、減衰しない。その他のゲーム状態の位置は、極座標、距離のρ、および角度のθを用いて計算される。これらの極座標は各位置のｘとｙ座標の角度および大きさによって計算される。各要素のｘとｙ座標を極性形態に変換することにより、後の計算作業はかなり削減される。ｘとｙ座標をダウン・ロードする前にこの計算を音声開発ツールに適用することによって、ＤＳＰによる計算ステップを削減することができる。距離値ρは、０．０と１．０との間に保つ必要がある。このモデルでは、１．０はリスナーの位置であり、０．０は音が聞こえなくなる場所である。従って、開発ツールにおいてρを計算する前にｘとｙを標準化する必要がある。極座標変換は、計算式３Ａと３Ｂを用いて計算される。

但し、ｘ_ｎとｙ_ｎは標準化されたデカルト座標（Ｘ、Ｙ）である。ρとθが要素毎に計算されると、減衰値は低周波数、中周波数および高周波数毎に、またスピーカー毎に減衰値が計算される。これは、音要素を、音が発せられる適切な２つのスピーカーにマップする。音源の位置がＹ軸（ｘ＝０）の真上である場合、音は左前および右前スピーカーと、中央のスピーカーまたはサラウンド左および右スピーカーと、後方スピーカーから発せられる。あるいは、音要素は２つのスピーカーだけから発生される。これらの効果を発生させるスピーカーは、ここでは音要素に対する相対的メイン・スピーカーである。

効果を発生させる２つのスピーカーが決定されると、２つのアルファ調整α_１およびα_２がこれらの２つのスピーカーに適用される。α_１およびα_２の値は計算式４および５によって計算される。

残りの全てのスピーカーのスピーカー減衰は、周波数要素によって左右される。これらの減衰調整は計算式６、７および８にしたがって行うことができる。

但し、下付き文字Ｌ、Ｍ、およびＨは、それぞれ低周波数、中周波数および高周波数を意味する。

これら２つの発生スピーカーは計算式９および１０の値によって減衰される。

計算式４および５は、２つの音発生スピーカーに適用する減衰の０と１との間の重みづけレインジを決定する。この重みづけは、これらのスピーカー間の相対位置によって決定される。計算式９および１０は、この重みづけを用いて、計算式６、７、８からの周波数依存利得の各々のうちどれだけを適用すべきかを判定することを示している。Ｇ_ｆは周波数領域内の利得を表わす。

残りのチャネルＧ_ｓαの減衰は、

によって判定される。但し、下つき文字ｓは残りの非発生スピーカーを表わす。この減衰は、位置特性だけのものである。位置減衰が計算されると、距離ρの減衰が適用される。２つの発生スピーカーの各々の距離減衰は、次の通り、

但しＵはユーザ調整であり、そのデフォルト値は１である。これによってゲーム設計者は、所定のゲームの中で音をどれだけ遠ざけるか調整することができる。これによって、ゲームが間近に感じられるか、または遠方に感じられるかが決まる。全てのアクティブ音要素に対し、位置および距離減衰関数の両方が適用される。

アクティブ音要素音量出力をスピーカー毎に計算した後、それらは最高から最低にソートされる。次に、各スピーカー出力は加算され、最大で合計で０ｄＢとなる。０ｄＢに達すると、当該スピーカーの低い方の音量要素は廃棄してクリッピングを防ぐ。

以上のことをまとめると、位置音声アルゴリズムによるゲーム状態の音量調整は、次の通り。

背景音楽との最終混合もこの音量による制約をうける。元のスピーカー音量の合計が計算されると、残りの音量無歪限界（ｈｅａｄｒｏｏｍ）は背景音楽の減衰値として用いられる。この減衰値は次のように計算される。

ここで、下付き文字ｎは、当該スピーカーの位置を特定する。

次に、各スピーカー用のミュージック・ミックスは、この値によって減衰される。減衰された最終ミュージック・ミックスおよび元のミックスはそれらのスピーカーに用いられる最終ミックスである。従って、

図７は、背景音楽ストリーム７０１および音声要素ストリーム７０２の２つの基本的な種類の音声ストリームを示す。典型的なゲームでは、背景音楽ストリームと可変数の音声要素ストリームを、チャネル・フレーム加算ブロック７０５において、処理、且つミックスして最終出力を作成する。音声要素ストリームは、利用可能なオン・チップ記憶装置の量と、人間の耳が周囲のノイズとは異なるものとして識別できる異なる音の数とによって制限される。

背景音楽ストリーム７０１は、ハード・ドライブまたはＣＤのような大容量メモリーに格納する。背景音楽ストリームはノンインタラクティブである。それは従来のコンパクト・ディスクまたは映画のサウンド・トラックのように作成し、再生する。このファイルの大きさのために、トラックを、コンピュータのハード・ドライブまたはゲームＣＤのいずれかから、音声プロセッサに流入させる。ビット・ストリーム再生動作モードにおいて対応する全ての入力ストリーム・ファイル・フォーマットおよびサンプリング速度は、ＡＣ３、ＤＴ３およびその他の一般に使用されるフォーマットを含んで対応することができる。音声プロセッサは、効果処理をそのまま背景音楽に適用することはない。

音声要素ストリーム７０２はインタラクティブである。各音声要素の第１フレームは、オンチップ・メモリーに格納しなければならない。音声要素データは、次に利用可能なＳ／ＰＤＩＦ入力７０８上を流れ、ろ過された音声ストリーム・プロセッサ・ブロック７０４に流入することができる。Ｓ／ＰＤＩＦは、むしろ閉じられたシステム用に選択されるバスである。何故なら、それはＡＶＲシステムを殆どミラーリングしたものだからである。しかしながら、これらのストリームはたくさんの異なった方法で音声プロセッサに送り込むことが可能である。対応したファイル・フォーマットおよびサンプリング速度は背景音楽と同じである。殆どは単に２チャネルのＰＣＭファイルである。持続期間のより長い要素またはより完全な体験を必要とするそれらの要素は企業の標準フォーマットを用いてマルチ・チャネル符号化することができる。

音声要素ストリーム用の自動効果処理７０３は、ＤＳＳＬＰ状態への変化を、ゲーム・プレーヤーが起こした変化７２０からソースおよびリスナー位置へコンパイル（ｃｏｍｐｉｌｅ）するステップを含む。ブロック７１０は、この動的に変更されたＤＳＳＬＰデータを絶えず更新し、これをＤＳＳＬＰプロセッサ７１２に送る。ＤＳＳＬＰプロセッサ７１２は、現在の状態のＤＳＳＬＰを生成し、それはブロック７１４に格納される。この現在の状態のＤＳＳＬＰデータを用いて、音声要素ストリーム７０２を処理するために必要なブロック７０４のディジタル・フィルタを構成する。プロセッサ・ブロック７０４は、必要なフィルター処理を音声要素ストリームに適用する。

これらのフィルター効果は、幅の広いマルチ・チャネル・ストリーム積分器７０６の中に含まれる音声レンダリングブロックの中で達成される。ユーザによって供給される音効果処理は、ブロック７１８によって音声要素出力ストリームに適用され、音声フレーム・バッファ・ブロック７１６において結合される。完全に処理され、ミックスされた音声ストリームは、チャネル／フレーム加算ブロック７０５に送られる。チャネル／フレーム加算ブロック７０５は、音声要素と背景音楽ストリームとをミックスする。

濾波された音声要素ストリーム・プロセッサ・ブロック７０４に導かれた各音声要素は、関連するアクティブ・フラッグを備えた音声要素ストリーム・プロセッサを有する。フラッグが設定されると、音声要素はアクティブとなり、一度だけ再生される。また、各アクティブ・フラッグは、関連する自動解除またはユーザ解除フラッグを有する。自動解除フラッグがアクティブであると、音声エンジンは、以前はアクティブであったフラッグを自動的に解除してイナクティブとし、音声状態のイベントの変化をトリガーする。自動解除フラッグがイナクティブである場合、音声要素のアクティブ・フラッグは引き続きアクティブに設定される。これにより音響要素はこれを繰り返し実行し、アクティブ・フラッグを解除してイナクティブに変えるように、ゲーム・プログラムが音声エンジンに伝えるまでこれを続ける。これは自動車や飛行機のエンジンの絶え間のないうなりを伝えるには有用である。

先に図７を参照して説明したように、チャネル／フレーム加算ブロック７０５からの出力は、音フォーマッター７０７に送られる。音フォーマッター７０７は、システム・スピーカーおよび音分配器７０９用に合成音を生成する。次に、音分配器７０９は、この合成音をスピーカー別の音に分離する。スピーカー・システム７１１は、生成される多チャネルの音を受け取る。

図８は、本発明の３次元レンダリング音声プロセッサ・システムの自動的効果処理部を示す。ブロック８０１からの音声データ入力は、全てのソース音と、リスナー位置と、音声タグ情報とのリストを含む。ブロック８０２は、ブロック７１４の格納された現在の状態のＤＳＳＬＰと、ブロック７２０のゲーム・プレーヤーが起こしたＤＳＳＬＰ入力に対する変化から、現在の状態のＤＳＳＬＰデータを生成する。ブロック８０２は、ＤＳＳＬＰデータを処理し、動的に変化する格納済みＤＳＳＬＰ構成をＤＳＳＬＰプロセッサ７１２の中に生成する。これによって音源位置の各々から発する音の適切なフィルター処理が決定される。また、ＤＳＳＬＰプロセッサ７１２は、各リスナー位置を各スピーカーの位置に関係付ける。最後に、現在の状態のＤＳＳＬＰデータはブロック７１４に格納され、リアル・タイムのレンダリング計算において用いられる。この集中的なリアル・タイムのレンダリング計算は、図７の濾波された音声要素ストリーム・プロセッサ７０４で行われる。

図９は、ＤＳＳＬＰ技術に対応するより新型の高性能バス・システムを実現するために必要なゲーム構造およびバス変化を示す。この構造のビデオおよび音声部は、より多くの等しいフーティング上にある。プロセッサ・コア９００は、キャッシュ・メモリー９０１に格納された制御情報から駆動される。プロセッサ・コア９００およびその他のいくつかの重要な要素は、高性能バス９１８上にある。プロセッサ・コア９００は、ビデオ景観９１６および現在の状態のＤＳＳＬＰ情報９１７の双方の完全な記述を作成する景観／ＤＳＳＬＰデータ・インターフェース９０２と直接にインターフェースする。リアル・タイムに更新されたＤＳＳＬＰの現在の状態の記述によって、音声効果のリアル・タイムなレンダリングが可能になる。

リアル・タイムのグラフィックス処理は、グラフィックス・アクセラレータ９０３と、関連のローカル・グラフィックス・メモリー９０５を用いる。ビデオ出力プロセッサ９１２は、生成されたデータを用いてフレーム・バッファ９０８とビデオ・ディスプレイ・ブロック９０９を駆動する。音声プロセッサ９２２は以前の状態のＤＳＳＬＰ情報を格納するシステム・メモリー９０６を用いて、現在の状態のＤＳＳＬＰ生成装置９１７に格納される新たな現在の状態のＤＳＳＬＰ音声情報を生成する。リアル・タイム音声プロセッサ９２２は、次に音響システム９２３を駆動する。

また、このシステムは、高性能バス９１８よりも性能の小さく、ディスク・ドライブＩ／Ｏ９１０およびプログラム／ユーザ・インターフェースＩ／Ｏ９１１とインターフェースする周辺バス９１９を含む。バス・インターフェース９１５によって、高性能バス９１８と周辺バス９１９との間でインターフェースされ、裁定が行われる。

本発明のさらに別の利点は、このモデルが現在の３次元グラフィックス・レンダリング・モデルをミラーリングすることである。これらのレンダリング・グラフィックス・モデルでは、画像の中において起こる変化だけを計算し且つ適用する。従って、殆どのグラフィックス系のゲーム設計者は、音声モデルを更に容易に捕捉することができる。従って、（動的ライティングおよびシャドウイングのような）グラフィックス用の類似の技法および効果は、そのまま音声に適用可能である。以下の例は、音声システムの中でドップラー効果を発生させる現在の技術に対する本発明の手法の違いを示す。

ドップラー偏移は、現在の技術ではハード・コードされたプログラミングによって実現される。プログラマーはドップラー偏移パラミータを送るだけで、このパラミータは、音声プロセッサではなく、メイン・プロセッサによって処理される。メイン・プロセッサは位置音声アルゴリズムの役割を担う。現在のシステムの音声プロセッサは、効果プロセッサに過ぎない。音声プロセッサは、メイン・プロセッサが決定した音声ストリーム修正（例えば、残響、音量制御）を実行する。ドップラー偏移は以下のステップを必要とする。

ゲーム設計者はプログラミング段階から動作を行い、周波数領域内のドップラー値をメイン・プロセッサに渡す。メイン・プロセッサは、このドップラー値およびその他の情報を音声プロセッサに送る。このその他の情報には、（ａ）新たな位置更新、（ｂ）新たな音質が合成されたパターン、および（ｃ）残響フィルター係数表ポインタが含まれる。音声・プロセッサはメイン・プロセッサからデータを取り込み、効果を適用する。ドップラー効果に対し、音声プロセッサは、受け取ったドップラー値に関連する多数のサンプルを時間をずらしてサンプリングする。従って、プログラマーはドップラーが所定の状態においてどのように聞こえるかを判定する。音声プロセッサには、ドップラー値がどのようであるべきかを判定する役割はなく、単にその効果を発生させるだけである。さらに、ドップラー値を判定する際、以前の位置と現在の位置との間の相互作用は行われない。

図１０は、本発明におけるドップラー偏移プロセスのフロー・チャートを示す。音声プロセッサは、ドップラー効果を定期的に計算し、これを各アクティブな音物体に適用する。音声プロセッサは、メイン・プロセッサから物体の位置変化情報を受け取る（ステップ１００１）。これらの位置の変化は、ユーザの入力の結果、またはコンピュータ制御物体の移動、あるいはその組み合わせの結果とすることができる。音声プロセッサは、位置を特定してどのような効果を適用したらよいかを判定し、それを適用する。このプロセスは、まず、物体の変化情報からソースとリスナーの位置の距離の変化、さらに次の音源物体の方向の変化を計算する（ステップ１０２）。このプロセスには、各物体の新たな位置を入力から計算するステップが含まれる。それぞれの新たな位置を、格納された以前の位置と比較して、当該物体のあらゆる変化を判定する。最初からこのループまでの間、次の物体は最初の物体である。位置の変化が正（決定ブロック１００３においてイエス）である場合、音源はリスナー位置から遠ざかりつつあり、ドップラー偏移値の周波数は下がっている（ブロック１００４）ことを指し示している。この負のドップラー偏移値は、変化した距離の量に比例する。位置の変化が負（決定ブロック１００３においてノー且つ決定ブロック１００５においてイエス）である場合、音源はリスナーの位置に近づきつつあり、ドップラー偏移値の周波数は上がっている（ブロック１００６）ことを指し示している。この正のドップラー偏移値もまた変化した距離の量に比例する。対応する音源物体からの音は、次の期間のドップラー偏移値（ブロック１００７）に対応する量および方向によってタイム・シフトされる。音声プロセッサは、周波数領域におけるサンプルをタイム・シフトすることによってドップラー偏移を実行する。これによって、音には可聴周波数偏移が生み出される。この変化が正でも負でもない場合（決定ブロック１００３においてノーであり、決定ブロック１００５においてノー）、ドップラー偏移は不要である。ドップラー偏移値をゼロに設定すると（ブロック１００８）、時間シフトブロック１００７は省略される。別のアクティブな音物体がある（決定ブロック１００９におけるイエス）場合、制御はブロック１００２に戻り、次の物体にために繰り返す。別のアクティブな音物体がない（決定ブロック１００９におけるノー）場合、ドップラー偏移プロセスは終了する（出口ブロック１０１０）。

このプログラミングは動的であり、単に、メイン・プロセッサからのユーザの入力基づいている。メイン・プロセッサは物体の位置変化情報を音声プロセッサに送る。音声プロセッサは、現在の音声発生物体の状態とその以前の状態とを格納する。音声プロセッサは、ドップラー効果の値を判定し、それを適用する。これについては図１０で詳述する。ドップラー偏移値が正である場合、その音はリスナー位置に対して遠ざかりつつある。ドップラー偏移値が負の場合、その音は近づきつつある。ドップラー偏移値の大きさは、適用する周波数偏移量である。この値によって、相対的な動きに応じて、正または負にタイム・シフトするサンプルの数が設定される。

従って、音声エンジンは、音源とリスナー位置の量および方向の相対変化を自立的に決定し、次に音声サンプルを適切にタイム・シフトする。プログラマーは、ドップラー効果を起こすために介入する必要はない。これは３次元のグラフィックス・プロセッサにおける自動的シェーディングに類似する。グラフィックス・アーティストは、影は描くことはない。メイン・プロセッサは、光源、カメラ位置、および物体に基づいて陰を自動的に作成する。

上述の実施形態では、コンピュータが生成したグラフィックス多角形を利用するシステムで利用される音処理方法は、複数の音源であって、その各々はコンピュータが生成した物体に取り付けられる、複数の音源を規定するステップと、音源が取り付けられた各コンピュータ生成物体とリスナー位置との相対位置を特定するステップと、相対位置に応じて音源をマルチ・チャネル音のチャネルに混入させるステップと、音源が取り付けられた各コンピュータ生成物体とリスナー位置との間の相対位置の変化を検出するステップと、検出した相対位置変化に応じて、音源をマルチ・チャネル音のチャネルに再混入させるステップと、を含む。

上述の実施形態では、音源が取り付けられた各コンピュータ生成物体とリスナー位置との間の相対位置を特定するステップは、音源が取り付けられた各コンピュータ生成物体の（Ｘ、Ｙ）座標内の位置を規定するステップと、規定された（Ｘ、Ｙ）座標内の位置を、座標原点であるリスナー位置に標準化するステップと、（Ｘ、Ｙ）座標から標準化され、且つ規定された位置を、極座標に変換するステップとによって行うことができる。この相対位置の変化の検出は、標準化された（Ｘ、Ｙ）座標における相対変化物体を極座標へ変換することを含むことができる。

音処理方法は、各音源からの音を複数の周波数帯域に分割するステップと、周波数帯域に応じて、マルチ・チャネル音響システムのチャネルへの音源混入を適用するステップと、周波数帯域に応じて多チャネルにおける音源を減衰させるステップとを含む。元の音レベルとリスナー位置からの距離に応じて、音源を減衰させることができる。音源が取り付けられたコンピュータ生成物体は、コンピュータ制御下で移動可能である。リスナー位置は、ユーザ入力に応じて移動可能である。音源はコンピュータ制御下またはユーザ制御下で、電源を入れたり切ったりすることができる。

音処理は、さらに、音源が取り付けられた各コンピュータ生成物体とリスナー位置との間の相対位置の変化の方向および大きさを定期的に特定するステップと、音源が取り付けられた各コンピュータ生成物体とリスナー位置との間の相対位置の方向および大きさの対応する変化に応じて、音源が取り付けられた各コンピュータ生成物体の音の周波数偏移を、次の期間のために適用するステップとを含む。相対位置の変化の方向および大きさを特定するステップは、音源が取り付けられた各コンピュータ生成物体とリスナー位置との間の特定された相対位置を格納するステップと、音源が取り付けられた各コンピュータ生成物体とリスナー位置との間の新たに特定された相対位置を、対応する格納された相対位置と比較するステップとを含むことができる。次の期間のために音の周波数偏移を適用するステップは、音源が取り付けられたコンピュータ生成物体とリスナー位置との間の相対位置の方向および大きさの変化に対応した量および方向によって、対応する取り付けられた音のタイム・シフト・サンプリングを行うステップを含むことができる。

以上の説明に関して更に以下の項を開示する。
（１）コンピュータが生成するグラフィックス多角形を利用したシステムにおいて用いられる音処理方法であって、
複数の音源であって、各々がコンピュータ生成物体に取り付けられた、複数の音源を規定するステップと、
音源が取り付けられた各コンピュータ生成物体とリスナー位置との間の相対位置を特定するステップと、
相対位置に応じて、マルチ・チャネル音のチャネルに音源を混入させるステップと、
音源が取り付けられた各コンピュータ生成物体とリスナー位置との間の相対位置の変化を特定するステップと、
前記検出された相対位置の変化に応じて、マルチ・チャネル音のチャネルに音源を再混入させるステップと、を含む方法。
（２）（１）記載の方法において、
音源が取り付けられた各コンピュータ生成物体とリスナー位置との間の相対位置を特定するステップは、
音源が取り付けられた各コンピュータ生成物体の（Ｘ、Ｙ）座標における位置を特定するステップと、
前記規定された（Ｘ、Ｙ）座標内の場所を、座標原点であるリスナー位置に標準化するステップと、
（Ｘ、Ｙ）座標から標準化され、規定された位置を極座標に変換するステップとを含む方法。
（３）（２）または（３）記載の方法において、
音源が取り付けられたコンピュータ生成物体とリスナー位置との間の相対位置の変化を検出する前記ステップは、標準化された（Ｘ、Ｙ）座標の変化に応じて、物体を極座標に変換するステップを含む方法。
（４）（１）乃至（３）のいずれかに記載の音処理方法であって、
各音源からの音を複数の周波数帯域に分割するステップと、
周波数帯域に応じて、マルチ・チャネル音響システムのチャネルに音源を混入させるステップと、
周波数帯域に応じて多チャネルにおける音源を減衰させるステップとを含む方法。
（５）（１）乃至（４）のいずれかに記載の音処理方法であって、
元の音レベルとリスナー位置からの距離に応じて音源を減衰させるステップを踏む方法。
（６）（１）乃至（５）のいずれかに記載の音処理方法であって、さらに、
音源が取り付けられた各コンピュータ生成物体とリスナー位置との間の相対位置の変化の方向および大きさを特定するステップと、
音源が取り付けられた各コンピュータ生成物体とリスナー位置との間の相対位置の方向および大きさの対応する変化に応じて、音源が取り付けられた各コンピュータ生成物体の音の周波数偏移を、次の期間のために適用するステップとを含む方法。
（７）（６）記載の音処理方法において、
音源が取り付けられた各コンピュータ生成物体とリスナー位置との間の相対位置の変化の方向および大きさを定期的に特定するステップは、
音源が取り付けられた各コンピュータ生成物体とリスナー位置との間の前記特定された相対位置を格納するステップと、
音源が取り付けられた各コンピュータ生成物体とリスナー位置との間の新たに特定された相対位置を、格納済みの対応する相対位置と比較するステップとを含む方法。
（８）（６）または（７）に記載の音処理方法において、
音の周波数偏移を次の期間のために適用する前記ステップは、音源が取り付けられた各コンピュータ生成物体とリスナー位置との間の相対位置の方向および大きさの変化に対応した量および方向によって、対応する取り付けられた音のタイム・シフト・サンプリングを行うステップを含む方法。

（９）本発明は、動的音源とリスナーの位置（ＤＳＳＬＰ）による音声レンダリングを用いて、使用する音声処理の量は僅かしか増加しない高品質の音声効果の実現について説明する。音とリスナーの位置だけに基づいて音声システムをモデル化するのではなく、最終音を判定する特性を、現在の状態とすぐ前の状態からのリスナーの相対位置の変化によって判定する。以前の状態を格納することによって、全ての音源とリスナーの位置との間の相対位置の変化によって発生する音声効果を計算することが可能になる。現在の状態のＤＳＳＬＰデータは、格納された音とリスナーの位置、音声タグ情報（ブロック８０１）、格納された状態データ（ブロック７１４）、およびゲーム・プレーヤーが起こした変化の入力（ブロック７２０）から生成され、ＤＳＳＬＰプロセッサ（ブロック７１２）において、動的に変化するＤＳＳＬＰ構成を発生させる。このＤＳＳＬＰ構成によって音声格納場所から発する音のフィルター処理が決定される。

図１は、非ビデオ・データ転送（従来技術）用の高性能バスと性能のより低いバスとを介して相互接続されたグラフィックス・アクセラレータを含んだ従来のビデオ・ゲーム・システム構成を示す。図２は、ゲーム動作モードの音声プロセッサ・システム（従来技術）のソフトウエアの流れを示す。図３は、アコースティック・タグの付いた３次元物体を示す。図４は、位置音声効果エンジン処理のブロック図を示す。図５は、ゲーム状態の音声要素間の基本的関係を表わすフロー・チャートを示す。図６は、スピーカー構成配置に対するゲーム状態の音対リスナー方向の相対方向を示す。図７は、本発明の動的音源とリスナーを用いた音声レンダリングのソフトウエアの流れを示す。図８は、本発明の３次元レンダリング音声プロセッサ・システム自動的効果処理部を示す。図９は、本発明において説明された動的音源とリスナーを用いた音声レンダリングに必要な高度オーディオ／ビデオ・プロセッサを示す。図１０は、本発明によるドップラー偏移効果の利用を示すフロー・チャートである。

Claims

コンピュータが生成するグラフィックス多角形を利用したシステムにおいて用いられる音処理方法であって、
複数の音源であって、各々がコンピュータ生成物体に取り付けられた、複数の音源を規定するステップと、
音源が取り付けられた各コンピュータ生成物体とリスナー位置との間の相対位置を特定するステップと、
相対位置に応じて、マルチ・チャネル音のチャネルに音源を混入させるステップと、
音源が取り付けられた各コンピュータ生成物体とリスナー位置との間の相対位置の変化を特定するステップと、
前記検出された相対位置の変化に応じて、マルチ・チャネル音のチャネルに音源を再混入させるステップと、を含む方法。