JP2006109295A - オーディオ再生装置、オーディオ再生プログラム、および、プログラム記録媒体 - Google Patents
オーディオ再生装置、オーディオ再生プログラム、および、プログラム記録媒体 Download PDFInfo
- Publication number
- JP2006109295A JP2006109295A JP2004295808A JP2004295808A JP2006109295A JP 2006109295 A JP2006109295 A JP 2006109295A JP 2004295808 A JP2004295808 A JP 2004295808A JP 2004295808 A JP2004295808 A JP 2004295808A JP 2006109295 A JP2006109295 A JP 2006109295A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- data
- direction vector
- image
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】 臨場感のある音付き画像データを簡単に作成する。
【解決手段】 音合成部14は、表示装置4によって表示されている発話オブジェクトに関する音源データを音源データ記憶部16から読み出し、当該音源データがテキストである場合には、このテキストに基づいて音データを合成する。音データ加工部13は、発話オブジェクト方向記憶部17から読み出された当該発話オブジェクトに関する発話オブジェクトの方向ベクトルが、例えば、視聴者が向いている方向と同じ方向である場合には、音合成部14からの音データを低域通過フィルタにかけて高周波数成分を抑制する。こうして、発話オブジェクトが視聴者と向き合っている場合の発声音よりも不明瞭にして、視聴者にとって臨場感のある音付き画像を表示する。
【選択図】図1
【解決手段】 音合成部14は、表示装置4によって表示されている発話オブジェクトに関する音源データを音源データ記憶部16から読み出し、当該音源データがテキストである場合には、このテキストに基づいて音データを合成する。音データ加工部13は、発話オブジェクト方向記憶部17から読み出された当該発話オブジェクトに関する発話オブジェクトの方向ベクトルが、例えば、視聴者が向いている方向と同じ方向である場合には、音合成部14からの音データを低域通過フィルタにかけて高周波数成分を抑制する。こうして、発話オブジェクトが視聴者と向き合っている場合の発声音よりも不明瞭にして、視聴者にとって臨場感のある音付き画像を表示する。
【選択図】図1
Description
この発明は、ユーザに対して臨場感のある音付き画像データを表示することが可能なオーディオ再生装置,オーディオ再生プログラムおよびプログラム記録媒体に関する。
現在、擬人エージェント等の特定図形の状態に対応させた音声や音楽等(以下、音情報と総称する)を作成・出力する技術が求められている。例えば、擬人エージェントに音声を対応させ、その音声を出力することによって、ユーザフレンドリーなインタフェースを構築できる(例えば、特開2000‐311251号公報(特許文献1)参照)。しかしながら、出力される音情報の音響特性が現実空間の音響特性とは異なることが原因で、ユーザにとって臨場感等の面で満足するものでないことが多い。特に、擬人エージェントが上述のような臨場感のない音声を話してしまうと、ユーザはコンピュータ上のそのエージェントに対して親密感を持ち難くなってしまう。
上記特許文献1に開示されたアニメーション作成装置は、音情報に応じて、画像データに含まれる複数の図形に関連付けられた動き情報を変形させて、上記図形を動作させる技術に関するものである。そして、このアニメーション作成装置では、複数の図形の空間的配置を変化させ、その変化させた図形の空間的配置と音情報から抽出したパラメータとに応じて図形の動き情報を変化させ、空間的な協調性を持たせて複数の図形を表示するようにしている。
しかしながら、上記従来のアニメーション作成装置では、特定図形の状態(以下、「シーン」と言う)に応じて上記音情報を加工あるいは作成することができず、コンテンツ作成者は特定図形のシーンに適した上記音情報を作成するために多大な労力を必要とする。例えば、人の形を模倣したエージェントである擬人エージェントが視聴者に対して正面を向いているシーンと、視聴者に対して後ろを向いているシーンがあるとする。現実空間においてそのような状況があった場合に、各シーンにおいて人が発声する音声信号の特性は違うはずであり、異なった音声信号を擬人エージェントの上記各シーンに付与する必要がある。例えば、擬人エージェントが視聴者に対して正面を向いている時に発話した声は、視聴者に対して後ろを向いている時に発話した声よりも明瞭になるはずである。
ところが、上記特許文献1に開示されたアニメーション作成装置では、上記音情報を加工あるいは作成することができないために、上述したような擬人エージェントの各シーンに合わせた音声をコンテンツ作成者が手作業で個別に作成する必要があり、多大な労力を必要とするという問題がある。したがって、擬人化エージェントのシーンに合わせた音声データを簡単に作成することができないのである。
特開2000‐311251号公報
そこで、この発明の課題は、ユーザに対して臨場感のある音付き画像データを簡単に作成して表示できるオーディオ再生装置,オーディオ再生プログラムおよびプログラム記録媒体を提供することにある。
上記課題を解決するため、この発明のオーディオ再生装置は、
空間位置情報を有すると共に、音を発するオブジェクトの方向を表すオブジェクトの方向ベクトルを記憶するオブジェクト方向記憶手段と、
上記オブジェクトが発する音を表す音源データを記憶する音源データ記憶手段と、
上記音源データに基づく上記オブジェクトが発する音の音データを、上記オブジェクトの方向ベクトルの向きに基づいて加工する音データ加工手段と、
上記加工された音データに基づく音を出力する音出力手段と
を備えていることを特徴としている。
空間位置情報を有すると共に、音を発するオブジェクトの方向を表すオブジェクトの方向ベクトルを記憶するオブジェクト方向記憶手段と、
上記オブジェクトが発する音を表す音源データを記憶する音源データ記憶手段と、
上記音源データに基づく上記オブジェクトが発する音の音データを、上記オブジェクトの方向ベクトルの向きに基づいて加工する音データ加工手段と、
上記加工された音データに基づく音を出力する音出力手段と
を備えていることを特徴としている。
上記構成によれば、音データ加工手段によって、オブジェクトの方向ベクトルの向きに基づいて、上記オブジェクトが発する音の音データを加工するので、上記オブジェクトの方向ベクトルの向きが視聴者の方を向いていない場合に上記オブジェクトが発する音を、上記視聴者の方を向いている場合の音よりも不明瞭にして、上記視聴者に、聴覚によって上記オブジェクトの視聴者に対する向きを感じ取らせることができる。したがって、上記オブジェクトが発する視聴者に対して臨場感のある音の音データを簡単に作成することができる。
また、1実施の形態のオーディオ再生装置では、
上記音源データ記憶手段は、上記音源データとして、上記オブジェクトが発する音を表すテキストデータを記憶しており、
上記音データ加工手段による上記音データの加工に先だって、上記テキストデータに基づいて、上記オブジェクトが発する音の音データを合成する音声合成手段を備えている。
上記音源データ記憶手段は、上記音源データとして、上記オブジェクトが発する音を表すテキストデータを記憶しており、
上記音データ加工手段による上記音データの加工に先だって、上記テキストデータに基づいて、上記オブジェクトが発する音の音データを合成する音声合成手段を備えている。
この実施の形態によれば、オブジェクトが発する音をテキストで記憶しておくので、上記オブジェクトが発する音の内容を簡単に編集することができ、上記音源データとして波形データを記憶しておく場合に比してデータ量を圧縮することができる。
また、1実施の形態のオーディオ再生装置では、
上記オブジェクトを含む画像の画像データを記憶する画像データ記憶手段と、
上記画像データに基づく画像を表示する表示手段と
を備えている。
上記オブジェクトを含む画像の画像データを記憶する画像データ記憶手段と、
上記画像データに基づく画像を表示する表示手段と
を備えている。
この実施の形態によれば、上記オブジェクトを含む画像を表示するので、視聴者対してより臨場感のあるコンテンツを再生することができる。
また、1実施の形態のオーディオ再生装置では、
上記音データ加工手段は、上記表示手段によって表示された画像に含まれているオブジェクトに関する上記オブジェクトの方向ベクトルの向きが、上記表示手段の画面に立てた垂線の向きから所定の角度以上外れている場合には、当該オブジェクトが発する音の周波数帯域における高域成分を遮断するようになっている。
上記音データ加工手段は、上記表示手段によって表示された画像に含まれているオブジェクトに関する上記オブジェクトの方向ベクトルの向きが、上記表示手段の画面に立てた垂線の向きから所定の角度以上外れている場合には、当該オブジェクトが発する音の周波数帯域における高域成分を遮断するようになっている。
この実施の形態によれば、例えば、上記表示手段に表示されているオブジェクトの方向ベクトルの向きが、視聴者の方向とは反対の方向である場合には、上記オブジェクトが発する音を不明瞭な音にして出力することができる。したがって、画像のシーンに応じた音を出力でき、視聴者にとって臨場感のある音付き画像データを表示することができる。
また、1実施の形態のオーディオ再生装置では、
上記音データ加工手段は、上記表示手段によって表示された画像に含まれているオブジェクトに関する上記オブジェクトの方向ベクトルの向きと、上記表示手段の画面に立てた垂線の向きとの角度差が大きい程、当該オブジェクトが発する音の周波数帯域におけるより広い範囲の高域成分を遮断するようになっている。
上記音データ加工手段は、上記表示手段によって表示された画像に含まれているオブジェクトに関する上記オブジェクトの方向ベクトルの向きと、上記表示手段の画面に立てた垂線の向きとの角度差が大きい程、当該オブジェクトが発する音の周波数帯域におけるより広い範囲の高域成分を遮断するようになっている。
この実施の形態によれば、上記オブジェクトの方向ベクトルの向きと、上記表示手段の画面に立てた垂線の向きとの角度差に応じて、当該オブジェクトが発する音を不明瞭な音にして出力することができる。したがって、視聴者にとってより臨場感のある音付き画像データを表示することができる。
また、1実施の形態のオーディオ再生装置では、
上記音データ加工手段は、上記表示手段によって表示された画像に含まれているオブジェクトに関する上記オブジェクトの方向ベクトルの向きが、上記表示手段の画面に立てた垂線の向きから所定の角度以上外れている場合には、当該オブジェクトが発する音の振幅を減衰するようになっている。
上記音データ加工手段は、上記表示手段によって表示された画像に含まれているオブジェクトに関する上記オブジェクトの方向ベクトルの向きが、上記表示手段の画面に立てた垂線の向きから所定の角度以上外れている場合には、当該オブジェクトが発する音の振幅を減衰するようになっている。
この実施の形態によれば、上記音の振幅を減衰することによって上記不明瞭な音を生成するので、上記周波数成分の高域成分を遮断する場合に比して、小さな計算量で、画像のシーンに応じた音を出力することができる。
また、1実施の形態のオーディオ再生装置では、
上記音データ加工手段は、上記表示手段によって表示された画像に含まれているオブジェクトに関する上記オブジェクトの方向ベクトルの向きが、上記表示手段の画面に立てた垂線の向きと同じ場合には、特定の方向にのみに当該オブジェクトの音を放射させるようになっている。
上記音データ加工手段は、上記表示手段によって表示された画像に含まれているオブジェクトに関する上記オブジェクトの方向ベクトルの向きが、上記表示手段の画面に立てた垂線の向きと同じ場合には、特定の方向にのみに当該オブジェクトの音を放射させるようになっている。
この実施の形態によれば、上記オブジェクトの方向ベクトルの向きが上記表示画面の向きと同じ場合には、例えば視聴者の方向等の特定の方向にのみ音を放射させることができる。したがって、上記周波数成分の高域成分を遮断する場合に比して、より簡単に画像のシーンに応じた音を出力することができる。
また、1実施の形態のオーディオ再生装置では、
上記画像データに基づく画像には、空間位置情報を有する障害物が含まれており、
上記オブジェクトの空間位置を記憶するオブジェクト空間位置記憶手段と、
上記障害物の空間位置を記憶する障害物空間位置記憶手段と
を備え、
上記音データ加工手段は、上記表示手段によって表示された画像に含まれている上記オブジェクトの空間位置から上記オブジェクトの方向ベクトルの方向に障害物が存在するか否かを判定し、上記方向に障害物が存在する場合には、当該オブジェクトが発する音に上記障害物によって反射した反射音を加えた音の音データに加工するようになっている。
上記画像データに基づく画像には、空間位置情報を有する障害物が含まれており、
上記オブジェクトの空間位置を記憶するオブジェクト空間位置記憶手段と、
上記障害物の空間位置を記憶する障害物空間位置記憶手段と
を備え、
上記音データ加工手段は、上記表示手段によって表示された画像に含まれている上記オブジェクトの空間位置から上記オブジェクトの方向ベクトルの方向に障害物が存在するか否かを判定し、上記方向に障害物が存在する場合には、当該オブジェクトが発する音に上記障害物によって反射した反射音を加えた音の音データに加工するようになっている。
この実施の形態によれば、上記オブジェクトの空間位置から上記オブジェクトの方向ベクトルの方向に障害物が存在する場合には、当該オブジェクトが発する音に上記障害物によって反射した反射音を加えるので、より現実に近い音空間を実現することができ、視聴者に臨場感を与えることができる。
また、1実施の形態のオーディオ再生装置では、
上記オブジェクトは、人間の形態を模倣した擬人化エージェントであり、
上記オブジェクトの方向ベクトルは上記擬人化エージェントにおける顔の向きである。
上記オブジェクトは、人間の形態を模倣した擬人化エージェントであり、
上記オブジェクトの方向ベクトルは上記擬人化エージェントにおける顔の向きである。
この実施の形態によれば、擬人化エージェントの発話音声に現実感および臨場感を持たせることができ、視聴者とって親密感を有する擬人化エージェントを提供することができる。
また、この発明のオーディオ再生プログラムは、
コンピュータを、
この発明のオーディオ再生装置におけるオブジェクト方向記憶手段,音源データ記憶手段,音データ加工手段および音出力手段
として機能させることを特徴としている。
コンピュータを、
この発明のオーディオ再生装置におけるオブジェクト方向記憶手段,音源データ記憶手段,音データ加工手段および音出力手段
として機能させることを特徴としている。
上記構成によれば、この発明のオーディオ再生装置の場合と同様に、上記オブジェクトが発する視聴者に対して臨場感のある音の音データを簡単に作成することができる。
また、この発明のプログラム記録媒体は、
この発明のオーディオ再生プログラムが記録されたことを特徴としている。
この発明のオーディオ再生プログラムが記録されたことを特徴としている。
上記構成によれば、この発明のオーディオ再生装置の場合と同様に、上記オブジェクトが発する視聴者に対して臨場感のある音の音データを簡単に作成することができる。
以上より明らかなように、この発明によれば、オブジェクトの方向ベクトルの向きに基づいて、上記オブジェクトが発する音の音データを加工するので、例えば、上記オブジェクトの方向ベクトルの向きが視聴者の方を向いていない場合に上記オブジェクトが発する音を、上記視聴者の方を向いている場合の音よりも不明瞭にして、上記視聴者に、聴覚によって上記オブジェクトの視聴者に対する向きを感じ取らせることが可能になる。したがって、上記視聴者にとって上記オブジェクトが発する臨場感のある音の音データを簡単に作成することができる。
以下、この発明を図示の実施の形態により詳細に説明する。以下、この発明のオーディオ再生装置を分かり易く説明にするために、機能的構成によって第1実施形態と第2実施形態に分けて説明する。但し、何れの実施形態の場合もハードウェア構成は同じであるとして説明する。そこで、先ず、この発明のオーディオ再生装置のハードウェア構成から説明する。
[ハードウェア構成]
図2は、この発明のオーディオ再生装置におけるハードウェア構成を示すブロック図である。本オーディオ再生装置は、制御装置1,入力装置2,記憶装置3,表示装置4,通信装置5および音出力装置6によって構成され、各装置1〜6はバス7によって接続されている。
図2は、この発明のオーディオ再生装置におけるハードウェア構成を示すブロック図である。本オーディオ再生装置は、制御装置1,入力装置2,記憶装置3,表示装置4,通信装置5および音出力装置6によって構成され、各装置1〜6はバス7によって接続されている。
上記制御装置1は、プリプロセッサやメモリ等により構成されて、例えば記憶装置3に記憶されている制御プログラムに従って動作する。具体的には、後述する機能部による処理結果を記憶装置3に保存すると共に、記憶装置3に記憶されているデータを表示装置4や通信装置5や音出力装置6に出力する。
上記入力装置2は、カーソルキー等の各種キーを備えたキーボード、ジョグダイヤル、手書きOCR(Optical Character Reader:光学式文字読取装置)、あるいは、マウス等のポインティングデバイス等によって構成される。そして、入力装置2によって入力された信号(例えば、上記キーボードで押下されたキーの信号)は制御装置1へ出力される。尚、上記入力装置2としてマイクを用いると共に、A/Dコンバータおよび音声認識装置を備えて、音声入力を行うようにしても差し支えない。
上記記憶装置3は、RAM(ランダム・アクセス・メモリ)あるいはROM(リード・オンリ・メモリ)等によって構成され、入力データ,一時データおよび処理データを保存するためのワークエリアを有している。また、記憶装置3は、画像データおよびそれに出現する音や音声を発するオブジェクト(例えば、擬人エージェント等)(以下、発話オブジェクトと言う)に関する情報を記憶する。この発話オブジェクトに関するデータ構造については後に詳細に述べる。
上記表示装置4は、CRT(Cathode Ray Tube)や液晶ディスプレイ等により構成され、例えば記憶装置3に保存されているデータを表示する。
上記通信装置5は、ネットワーク・インタフェース・カード等によって構成され、ネットワークケーブル等を介して接続されたサーバ装置等とデータの送受信を行う。
上記音出力装置6は、ヘッドホンあるいは複数のスピーカによって構成される。
[第1実施の形態]
図1は、本実施の形態のオーディオ再生装置における機能的構成を示す機能ブロック図である。図1に示すオーディオ再生装置は、図2における制御装置1,入力装置2,記憶装置3,表示装置4および音出力装置6によって構成されている。そして、制御装置1は、再生指示部11,画像データ出力部12,音データ加工部13および音合成部14を備えている。また、記憶装置3には、画像データ記憶部15,音源データ記憶部16および発話オブジェクト方向記憶部17を有している。
図1は、本実施の形態のオーディオ再生装置における機能的構成を示す機能ブロック図である。図1に示すオーディオ再生装置は、図2における制御装置1,入力装置2,記憶装置3,表示装置4および音出力装置6によって構成されている。そして、制御装置1は、再生指示部11,画像データ出力部12,音データ加工部13および音合成部14を備えている。また、記憶装置3には、画像データ記憶部15,音源データ記憶部16および発話オブジェクト方向記憶部17を有している。
先ず、上記記憶装置3に記憶された基本となるデータについて説明する。
上記画像データ記憶部15には、本実施の形態においては、擬人化エージェント等の音や音声を発する発話オブジェクトを含む画像データが記憶されている。
上記音源データ記憶部16には、上記発話オブジェクトの発話内容を記述したテキストデータや上記発話オブジェクトが発する音データが記憶されている。尚、後述するが、制御装置1の音合成部14は、上記音源データに含まれる上記発話オブジェクトの発話内容を記述したテキストデータから、音声合成技術によって上記発話オブジェクトが発声する音声を合成する。勿論、上記画像データに複数の発話オブジェクトが含まれる場合には、上記音源データとして各発話オブジェクト毎に異なる複数の音源データを用意しておき、上記発話オブジェクトと音源データとを対応付けておく。
上記発話オブジェクト方向記憶部17には、上記発話オブジェクトに関連付けられた方向ベクトルである発話オブジェクトの方向ベクトルが記憶されている。例えば、発話オブジェクトが擬人エージェントである場合には、擬人エージェントに関連付けられた方向ベクトルとして、擬人エージェントの顔の向きがある。後に詳細に説明するが、制御装置1の音データ加工部13は、上記発話オブジェクトの方向ベクトルに基づいて当該発話オブジェクトが発する音の音データに加工を施すのである。勿論、上記画像データに複数の発話オブジェクトが含まれている場合には、上記発話オブジェクトの方向ベクトルを複数用意し、各発話オブジェクト毎に異なる方向ベクトルを割当てておく。
以下、説明を間端にするために、上記各記憶部15〜17に記憶されたデータや方向ベクトルにも、該当する記憶部15〜17と同じ番号を付すことにする。
図3は、上記音源データ16および上記発話オブジェクトの方向ベクトル17を、XML(eXtensible Markup Language)によって記述した例である。図3(a)は<speak>タグによって囲まれたテキストをテキスト音声合成することを示している。さらに、<speak>タグの属性値「object」が上記テキストを発話する発話オブジェクトの種類を示し、属性値「dir」が当該発話オブジェクトの方向ベクトルを示す。図3(a)の例では<speak>タグによって囲まれたテキストが音源データ16であり、属性値「dir」の内容が発話オブジェクトの方向ベクトル17である。さらに詳細に説明すると、図3(a)に示すタグは、方向ベクトルが“x1,y1,z1”(=dir)である発話オブジェクト1(=object)が、“3かける3は9です”と発話することを示している。
また、図3(b)は、<sound>タグによって囲まれたファイルの音を出力することを示している。その場合における属性値は図3(a)の場合と同様である。図3(b)に示す例では、<sound>タグによって囲まれるファイルが音源データ16である。さらに詳細に説明すると、図3(b)に示すタグは、方向ベクトルが“x2,y2,z2”(=dir)である発話オブジェクト2(=object)が音ファイル“shout.wav”の音を出力することを示している。
このように、上記音源データ16および上記発話オブジェクトの方向ベクトル17をXMLによって記述することにより、様々な他のフォーマットと互換を保つことができるのである。
尚、上記図3に示す例では、空間位置を示す方向ベクトルを三次元情報としているが、二次元情報としても勿論差し支えない。
後述するように、各機能部11〜14は、上述したようにXML等で表された音源データ16および発話オブジェクトの方向ベクトル17に基づいて動作するのである。
次に、上記制御装置1を構成する再生指示部11,画像データ出力部12,音データ加工部13および音合成部14の動作について説明する。
上記再生指示部11は、上記入力装置2からの利用者の入力を受付けて、利用者からの指示に従って、記憶装置3から画像データ15を読み出して画像データ出力部12に送出すると共に、当該画像データの表示が音声を伴う場合には音声合成部14に対してその旨を通知する。画像データ出力部12は、再生指示部11から受け取った画像データ15を表示装置4へ出力して表示させる。
上記音合成部14は、上記再生指示部11からの通知を受けて、当該画像データの表示が音声を伴う場合には、記憶装置3から、音源データ16と発話オブジェクトの方向ベクトル17とが記述されたXMLデータを読み出す。そして、当該XMLデータに記述された音源データ16がテキストである場合には、このテキストに基づいて音データを合成する。また、当該XMLデータに記述された音源データ16がファイルである場合には、当該ファイルの音データを記憶装置3から読み出す。そして、当該XMLデータに発話オブジェクトの方向ベクトル17が記述されている場合には、得られた音データを発話オブジェクトの方向ベクトル17と共に音データ加工部13に出力する。これに対して、発話オブジェクトの方向ベクトル17が記述されていない場合には、得られた音データを音出力装置6に出力する。尚、音合成部14は、テキストに基づく音データの合成を既知の音声合成技術を用いて行うことができる。
上記音データ加工部13は、上記発話オブジェクトの方向ベクトル17に基づいて、音合成部14によって合成された音データあるいは音合成部14からの上記ファイルの音データに処理を施して、音響効果を加える。そして、上記処理後の音データを音出力装置6に出力する。尚、この音データ加工部14の動作については、後に詳細に説明する。
次に、本実施の形態のオーディオ再生装置における具体的な動作例について、図4に従って説明する。
ここでは、図4(a)に示すように、視聴者21が、表示装置4に表示されている画像を正面から見ているとする。その場合における表示装置4の方向ベクトルは、矢印22で示すように、表示装置4の画面に対して垂直な方向である。また、図4(b)および図4(c)には、表示装置4に表示されている発話オブジェクト23a,23bを含む画像を、正面から見た様子を示している。尚、図4(b)においては、発話オブジェクト23aは視聴者21の正面を向いており、発話オブジェクト23aの方向ベクトルは表示装置4の方向ベクトル22と同じ向きである。これに対して、図4(c)においては、発話オブジェクト23bは視聴者21に対して後ろを向けており、発話オブジェクト23aの方向ベクトルは方向ベクトル22とは逆の向きである。このような場合、本実施の形態においては、図4(b)における発話オブジェクト23aの声の方が、図4(c)における発話オブジェクト23bの声よりも明瞭になるように音データを加工する。つまり、発話オブジェクト23が視聴者21に対して後ろを向いている場合には“もごもご”と話しているような音データを生成するのである。
次に、上述のような動作を実行する際における制御装置1の各部の処理動作について、図5に示すオーディオ再生処理動作のフローチャートに従って説明する。
ステップS1で、上記再生指示部11によって、上記入力装置2からの指示信号に基づいて、利用者から画像の表示指示があったか否かが判別される。そして、表示指示があった場合にはステップS2に進む。ステップS2で、再生指示部11によって、記憶装置3から上記表示指示に応じた画像データ15が読み出されて画像データ出力部12に出力される。ステップS3で、画像データ出力部12によって、再生指示部11から送出された画像データ15が表示装置4に出力される。こうして、表示装置4によって、利用者から指示された画像が表示される。
ステップS4で、上記再生指示部11によって、上記読み出された画像データ15に上記XMLデータが対応付けられているか否かを判別することによって、当該画像データ15内に発話オブジェクトが有るか否かが判別される。その結果、発話オブジェクトが有る場合には、音声合成部14に対してその旨が通知されてステップS5に進む。一方、発話オブジェクトが無い場合には、ステップS8に進む。
ステップS5で、上記音合成部14によって、再生指示部11からの通知を受けて、記憶装置3から該当する音源データ16と発話オブジェクトの方向ベクトル17とが記述された上記XMLデータが読み出される。ステップS6で、音合成部14によって、当該XMLデータに記述された音源データ16がテキストである場合には、このテキストに基づいて音声合成技術によって音データが合成される。一方、当該XMLデータに記述された音源データ16がファイルである場合には、当該ファイルの音データが記憶装置3から取得される。ステップS7で、音データ加工部13によって、当該XMLデータに発話オブジェクトの方向ベクトル17が記述されている場合には、上記ステップS6において合成された音データあるいは取得された上記ファイルの音データに対して、発話オブジェクトの方向ベクトル17に応じた加工が施される。尚、この音データの加工については、後に詳細に説明する。ステップS8で、音出力装置6によって、上記ステップS7において加工が施された音データまたは加工が施されなかった音データに基づいて、上記ステップS3において表示された発話オブジェクトの声が出力される。そうした後、オーディオ再生処理動作を終了する。
図6は、上記オーディオ再生処理動作におけるステップS7で実行される音加工処理動作の詳細なフローチャートである。以下、図6に示すフローチャートに従って、音加工処理動作について説明する。その際に、説明を分かり易くするために、図7に示す具体例を参照しながら上記説明を行う。尚、図7においては、視聴者21が、表示装置4に表示されている発話オブジェクトを含む画像を閲覧していると仮定している。但し、図7(a)においては、表示されている発話オブジェクトの方向ベクトルは、表示装置4の画面中央部から視聴者21へ向かう方向とは反対方向の矢印24aで表される。また、図7(b)においては、表示されている発話オブジェクトの方向ベクトルは、表示装置4の画面中央部から視聴者21へ向かう方向と同じ方向の矢印24bで表される。
上記オーディオ再生処理動作におけるステップS6において、合成音作成あるいはファイルの音データの取得が終了すると、音加工処理動作がスタートする。図6において、ステップS11で、上記音データ加工部13によって、発話オブジェクトの方向ベクトル24が特定の範囲内に在るか否かが判別される。その結果、特定範囲内に在る場合には、ステップS12に進む。一方、そうでない場合には、音加工処理動作を終了して上記オーディオ再生処理動作におけるステップS8にリターンする。
例えば、図7(a)の場合には、発話オブジェクトの方向ベクトル24aが表示装置4の画面を含む特定の軸25よりも視聴者21とは反対側にあるため、換言すれば表示装置4の方向ベクトルに対して90°以上外れているため、音データ加工部13は、発話オブジェクトの方向ベクトル24aが特定範囲26内に有ると判定する。一方、図7(b)の場合には、発話オブジェクトの方向ベクトル24bが特定の軸25よりも視聴者21の側にあるため、換言すれば表示装置4の方向ベクトルに対するずれ角度が90°より狭いため、音データ加工部13は、発話オブジェクトの方向ベクトル24bが上記特定範囲26内には無いと判定するのである。
ステップS12で、上記音データ加工部13によって、音合成部14からの音データが低域通過フィルタにかけられて、高周波数成分が抑制される。これによって、発話オブジェクトの方向ベクトル24が視聴者21向きの方向とは逆方向である場合には、発話オブジェクトの発声音を“もごもご”と通常より不明瞭な音で出力される。こうして、視聴者にとって臨場感のある音付き画像を表示することができるのである。
尚、上記ステップS12においては、音合成部14からの音データの振幅を減衰させるようにしてもよい。このようにすることでも、発話オブジェクトの発声音を“もごもご”と通常より不明瞭な音にすることができる。このように、単純に振幅を減衰させる方法の場合には、上記低域通過フィルタをかける場合に比して、上述の音響効果は小さくなるが処理に要する計算量を削減することができる。
そうした後、音加工処理動作を終了して上記オーディオ再生処理動作におけるステップS8にリターンする。
ところで、図6に示す音加工処理動作においては、上述したように、発話オブジェクトの方向ベクトル24aが特定範囲26内に有るか否かに基づいて、音を加工するかしないかに分岐する分岐処理を行っている。しかしながら、上記分岐処理は行わず、発話オブジェクトの方向ベクトルの向きに応じて、低域通過フィルタの通過帯域幅を操作するようにしても差し支えない。ここで、図8を従って、具体的に説明する。
図8(a)においては、視聴者21が表示装置4に表示されている発話オブジェクトを含む画像を閲覧していると仮定している。そして、表示装置4の画面中央部から視聴者21へ向かう方向とは反対方向への軸ベクトル28を定義する。そして、軸ベクトル28から発話オブジェクトの方向ベクトル27までの時計回りの角度をθとする。但し、θは、180度を超えた場合には「−θ+360」の値に置き換える。そして、図8(b)に示すような周波数特性を有する低域通過フィルタにおいて、通過帯域幅Fwが「aθ+b」になるような低域通過フィルタを作成する。ここで、「a」と「b」とは正の定数である。そして、音合成部14からの音データを上記低域通過フィルタにかけることにより、図6に示す音加工処理動作における分岐処理を行う場合とは異なり、発話オブジェクトの方向ベクトル27の向きが視聴者21の向き(つまり、軸ベクトル28の向き)とは異なる程、発話オブジェクトの音声が徐々に明瞭な音となって出力される。逆に言えば、表示装置4の方向ベクトル22の向きと異なる程、発話オブジェクトの音声が徐々に不明瞭な音となって出力される。したがって、視聴者21にとってより臨場感のある音付き画像データを表示することができるのである。
また、上記軸ベクトル28から発話オブジェクトの方向ベクトル27までの時計回りの角度θに応じて、音の振幅を増大させるようにしても良い。例えば、時刻tにおける音の振幅値をS(t)とすると、S(t)×(cθ+d)となるように音データを加工する。但し、上記「c」と「d」とは正の定数である。または、発話オブジェクトの方向ベクトル27が軸ベクトル28に近づく程音の振幅を減衰させても良い。尚、このように単純に振幅を増大または減衰させる方法は、低域通過フィルタをかける場合に比して臨場感の効果が小さくなるが、処理に要する計算量を削減することができる。
さらに、上述した音加工方法の他に、例えば、図9に示すように、音出力装置6を構成するスピーカを、指向性スピーカ29と無指向性スピーカ30とにして、音を出力するスピーカを切り換えるようにすることも可能である。例えば、上記音加工処理動作における上記ステップS11において、音データ加工部13によって、発話オブジェクトの方向ベクトル24が特定範囲26内にあると判定した場合に、無指向性スピーカ30から視聴者21に向けて音を出力する。一方、特定範囲26外にあると判定した場合は、指向性スピーカ29から視聴者21に向けて音を出力するのである。この方法によれば、音を出力するスピーカを切り換えるだけの簡単な処理にて、発話オブジェクトの方向ベクトル24の向きが表示装置4の画面を含む特定の軸25よりも視聴者21とは反対側にある場合には、発話オブジェクトの音声を通常よりも不明瞭な音で出力できる。したがって、視聴者にとって臨場感のある音付き画像データを表示することができるのである。
また、図9に示すように、指向性スピーカ29と無指向性スピーカ30とを切り換えるのではなく、直線状のスピーカアレーと二次元ディジタルフィルタとを用い、上記音加工処理動作における上記ステップS11において、音データ加工部13によって、発話オブジェクトの方向ベクトル24が特定範囲26外にあると判定した場合に、視聴者の方向・範囲に音を放射させるようにすることもできる。
[第2実施の形態]
図10は、本実施の形態のオーディオ再生装置における機能的構成を示す機能ブロック図である。以下、図10に従って、本オーディオ再生装置について説明する。
図10は、本実施の形態のオーディオ再生装置における機能的構成を示す機能ブロック図である。以下、図10に従って、本オーディオ再生装置について説明する。
図10において、本オーディオ再生装置は、上記第1実施の形態の場合と同様に、図2における制御装置1,入力装置2,記憶装置3,表示装置4および音出力装置6によって構成されている。そして、制御装置1は、再生指示部31,画像データ出力部32,第1音データ加工部33,第2音データ加工部34および音合成部35を備えている。また、記憶装置3には、画像データ記憶部36,音源データ記憶部37,発話オブジェクト方向記憶部38,発話オブジェクト空間位置記憶部39および障害物空間位置記憶部40を有している。
本オーディオ再生装置の機能を説明するに先立って、上記記憶装置3に記憶された基本となるデータについて説明する。尚、その際に、図11を用いて説明を補足する。図11においては、図11(a)に示すように、視聴者41が、発話オブジェクトを含む画像が表示されている表示装置4を正面から見ている。その場合における表示装置4の方向ベクトルは、矢印42で示すように、表示装置4の画面に対して垂直な方向である。また、図11(b)は、図11(a)の状態において、表示装置4に表示されている画像を表す。
上記画像データ記憶部36,音源データ記憶部37および発話オブジェクト方向記憶部38に記憶されたデータは、上記第1実施の形態における画像データ15,音源データ16および発話オブジェクトの方向ベクトル17と同じデータ構造を有しているので、ここでは説明を省略する。
上記発話オブジェクト空間位置記憶部39には、画像データ記憶部36に記憶された画像データ中における発話オブジェクトの空間位置を記述するデータが記憶されている。例えば、図11(b)に示すように、表示装置4の表示画面における左下を原点とするx,y,z座標系を設定し、上記発話オブジェクトの空間位置データを上記x,y,z座標上の位置で表すのである。図11(b)では、座標位置43が、上記発話オブジェクトの空間位置データとなっている。尚、画像に複数の発話オブジェクトが含まれる場合には、発話オブジェクト毎に異なる空間位置データを割当てるのである。
上記障害物空間位置記憶部40には、例えば、画像データ記憶部36に記憶された画像データ中に存在する壁や建物等の障害物の空間位置を示すデータである。例えば、図11(b)に示すように、表示装置4の表示画面における左下を原点とするx,y,z座標系を設定し、上記障害物の空間位置データを上記x,y,z座標上の位置で表すのである。図11(b)では、ハッチングの領域44が、上記障害物の空間位置データとなっている。尚、画像に複数の障害物が含まれる場合には、障害物毎に異なる空間位置データを割当てるのである。
後に詳細に説明するが、上記第2音データ加工部34は、上記発話オブジェクトの方向ベクトル,発話オブジェクトの空間位置データおよび障害物の空間位置データ等に基づいて、発話オブジェクトが発する音を加工して出力するのである。
以下、説明を間端にするために、上記各記憶部36〜40に記憶されたデータや方向ベクトルや空間位置データにも、該当する記憶部36〜40と同じ番号を付すことにする。
図12は、上記記憶装置3に記憶されるデータを、上記XMLによって記述した例である。図12において、タグ45は、<speak>タグによって囲まれたテキストをテキスト音声合成することを示している。さらに、<speak>タグの属性値「object」が上記テキストを発話する発話オブジェクトの種類を示し、属性値「dir」が当該発話オブジェクトの方向ベクトルを示す。また、属性値「position」は当該発話オブジェクトの空間位置データ、つまり画像データ中における発話オブジェクトの座標を示している。
また、図12において、上記タグ45を含んで<obstruction>と</obstruction>とのタグセットで挟まれてなるタグ46は、<obstruction>タグの属性値「position」は障害物の空間位置データ、つまり画像データ中における障害物の座標を示している。図12に示す例の場合では、<obstruction>タグの属性値「position」は座標(xa1,ya1,za1)、(xb1,yb1,zb1)、(xc1,yc1,zc1)、(xd1,yd1,zd1)の4点によって囲まれる領域に障害物があることを示している。勿論、障害物の領域は4点の座標で表される四角領域に限定されるものではなく、あらゆる多角形領域や立体領域であっても差し支えない。
このように、上記音源データ37,発話オブジェクトの方向ベクトル38,発話オブジェクトの空間位置データ39および障害物の空間位置データ40をXMLによって記述することにより、様々な他のフォーマットと互換を保つことができるのである。
尚、図12に示す例では、空間位置を示す方向ベクトルを三次元情報としているが、二次元情報としても勿論差し支えない。
後述するように、各機能部31〜35は、上述したようにXML等で表されたデータに基づいて動作するのである。
次に、上記制御装置1を構成する再生指示部31,画像データ出力部32,第1音データ加工部33,第2音データ加工部34および音合成部35の動作について説明する。尚、再生指示部31,画像データ出力部32,第1音データ加工部33および音合成部35は、上記第1実施の形態における再生指示部11,画像データ出力部12,音データ加工部13および音合成部14と同様に動作するので説明は省略する。以下において、第2音データ加工部34の動作についてのみ説明する。
上記第2音データ加工部34は、発話オブジェクトの方向ベクトル38,発話オブジェクトの空間位置データ39および障害物の空間位置データ40に基づいて、音合成部35によって合成された音データあるいは音合成部35からの上記ファイルの音データに処理を施して音響効果を加える。そして、上記処理後の音データを音出力装置6に出力する。尚、この第2音データ加工部34の動作については、後に詳細に説明する。
次に、本実施の形態のオーディオ再生装置の具体的な動作例について、図13に従って説明する。
図13には、発話オブジェクト47と障害物48との空間位置を示している。尚、図13(a)は、画像が表示されている表示装置4を正面から見た様子を示しており、図13(b)は、図13(a)に示す画像をy軸方向上から見下ろした様子を示している。図13においては、発話オブジェクト47の方向ベクトル49の先に障害物48が在るので、発話オブジェクト47の発声に反射音(エコー効果)を加えた音の音データに加工して音出力装置6に出力するのである。このように、発話オブジェクト47の方向ベクトルの先に障害物48が在る場合に反射音を加えることによって、より現実に近い音空間を実現でき、視聴者に臨場感を与えることができるのである。
次に、上述のような動作を実行する際における制御装置1の各部の処理動作について説明する。但し、本オーディオ再生装置におけるオーディオ再生処理動作は、上記第1実施の形態におけるオーディオ再生処理動作と基本的には同じであり、上記ステップS7において実行される音加工処理動作のみが異なる。そこで、以下においては、オーディオ再生処理動作におけるステップS7で実行される音加工処理動作のみについて説明する。
図14は、上記音加工処理動作の詳細なフローチャートである。上記オーディオ再生処理動作におけるステップS6において、合成音作成あるいはファイルの音データの取得が終了すると、音加工処理動作がスタートする。
ステップS21で、上記第1音データ加工部33によって、発話オブジェクトの方向ベクトル49が上記特定の範囲内に在るか否かが判別される。その結果、上記特定範囲内に在る場合にはステップS22に進み、そうでない場合にはステップS23に進む。ステップS22で、第1音データ加工部33によって、音合成部35からの音データが低域通過フィルタにかけられて、高周波数成分が抑制される。
ステップS23で、上記第2音データ加工部34によって、発話オブジェクトの方向ベクトル49の先に障害物48が在るか否かが判別される。その結果、障害物48が在る場合にはステップS24に進む。一方、障害物48が無い場合には、音加工処理動作を終了して上記オーディオ再生処理動作におけるステップS8にリターンする。具体的には、図15に示すように、発話オブジェクトの空間位置データ(x3,y3,z3)から発話オブジェクトの方向ベクトル49の方向に向かう先に障害物の空間位置データa(xa1,ya1,za1),b(xb1,yb1,zb1),c(xc1,yc1,zc1),d(xd1,yd1,zd1)で示される障害物48があるか否かを判別するのである。
ステップS24で、上記第2音データ加工部34によって、上記ステップS22において加工が施された音データあるいは加工が施されなかった音データに、反射音(エコー効果)を加える加工が施される。その際に、発話オブジェクト47と障害物48との距離が遠いほど反射音の振幅を減衰したり、反射音の遅延量を大きくしたりしても良い。例えば、ある時間tにおいて発話オブジェクト47が発する音をs(t)とし、発話オブジェクト47と障害物48との距離をdとし、音速をcとすると、出力する合成音x(t)を
x(t)=s(t)+αs(t−βd/c)/d
と求めることができる。但し、α,βは、設計者が決める任意の定数である。
x(t)=s(t)+αs(t−βd/c)/d
と求めることができる。但し、α,βは、設計者が決める任意の定数である。
このように、画像内に存在する発話オブジェクト47の方向ベクトル49の先に障害物48が在る場合に反射音を加えることによってより現実的な音空間を実現でき、視聴者に臨場感を与えることができる。また、発話オブジェクト47と障害物48との距離を考慮することによって、視聴者により臨場感を与えることができるのである。
そうした後、音加工処理動作を終了して上記オーディオ再生処理動作におけるステップS8にリターンする。
尚、上記音加工処理動作における上記ステップS21およびステップS22の処理を行った後の音データに障害物48からの反射音を加えることによって、現実の音環境により近い臨場感を視聴者に与えることができるのではあるが、処理量を削減するために上記ステップS21およびステップS22の処理を省いても構わない。
[その他の実施の形態]
上記第1,第2実施の形態においては、本発明の効果を分かり易くするため、発話オブジェクトを含む画像が表示装置4に表示されていることを前提として説明を行っている。しかしながら、勿論、表示装置4は常に備える必要はない。例えば、画像表示を行わないラジオ放送等においても、視聴者は音出力装置6から出力された音によって擬人エージェント等が向いている方向を聴覚的に判断することが可能になるという効果を得ることができる。但し、その場合には、図4(a)に示すような、表示装置4の方向ベクトル22と同じ意味を表す方向ベクトルを予め定めておく必要がある。
上記第1,第2実施の形態においては、本発明の効果を分かり易くするため、発話オブジェクトを含む画像が表示装置4に表示されていることを前提として説明を行っている。しかしながら、勿論、表示装置4は常に備える必要はない。例えば、画像表示を行わないラジオ放送等においても、視聴者は音出力装置6から出力された音によって擬人エージェント等が向いている方向を聴覚的に判断することが可能になるという効果を得ることができる。但し、その場合には、図4(a)に示すような、表示装置4の方向ベクトル22と同じ意味を表す方向ベクトルを予め定めておく必要がある。
また、上記第1,第2実施の形態においては、発話オブジェクトの例として擬人化エージェントを挙げて説明したが、勿論擬人化エージェントに限定する必要はない。例えば、図16に示すように、画像中のスピーカを発話オブジェクトとして、音源データ16,37、方向ベクトル17,38、空間位置データ39を、関連付けることも可能である。
また、上記第1,第2実施の形態においては、発話オブジェクトの方向ベクトルを予め作成して発話オブジェクト方向記憶部17,38に記憶しておくようにしているが、発話オブジェクトの画像データから算出して得るようにすることも可能である。
また、上記第1,第2実施の形態においては、音源データ16,37と、発話オブジェクトの方向ベクトル17,38と、発話オブジェクトの空間位置データ39と、障害物の空間位置データ40とを、上記XMLによって一つにまとめて記述して記憶装置3に記憶している。しかしながら、この発明によるデータ形式は上記XMLに限定されるものではなく、音源データ16,37と、発話オブジェクトの方向ベクトル17,38と、発話オブジェクトの空間位置データ39と、障害物の空間位置データ40とを、個別の記憶部に記憶させるようにしても構わない。
ところで、上述したこの発明の目的は、上記第1,第2実施の形態における記憶装置3に記憶されている制御プログラムのうち上記オーディオ再生処理プログラムが記録されたプログラム記録媒体を、他のシステムや装置に装着し、そのシステムや装置のコンピュータによって上記プログラム記録媒体に記録された上記オーディオ再生処理プログラムを読み出して実行することによっても、達成される。
上記オーディオ再生処理プログラムが記録されるプログラム記録媒体として、例えば、フレキシブルディスク,ハードディスク,光ディスク,光磁気ディスク,磁気テープおよび不揮発性のメモリカード等を用いることができる。
また、上記オーディオ再生処理プログラムは、通信ネットワークのような伝送媒体を介して、他のシステムや装置からプログラム記録媒体にダウンロードされたものであっても差し支えない。
ここで、コンピュータが読み出したオーディオ再生処理プログラムを実行することによって、上述したオーディオ再生処理動作が実行されるだけでなく、プログラムの指示に基づいて、コンピュータ上で稼働しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって上記オーディオ再生処理プログラムとしての機能が実行される場合も含まれることは言うまでもない。
さらに、上記プログラム記録媒体から読み出されたオーディオ再生処理プログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わったメモリに書込まれた後、そのオーディオ再生処理プログラムによる指示に基づいて、上記機能拡張ボードや機能拡張ユニットに備わったCPU(中央演算処理装置)等が実際の処理の一部または全部を行い、その処理によって上記オーディオ再生処理プログラムとしての機能が実行される場合も含まれることは言うまでもない。
この発明は、上述した各実施形態に限定されるものではなく、特許請求項の範囲に記載された範囲内で種々の変更が可能であり、[その他の実施の形態]に開示された技術的手段を適宜組み合わせて得られる実施の形態もこの発明の技術的範囲に含まれる。
1…制御装置、
2…入力装置、
3…記憶装置、
4…表示装置、
5…通信装置、
6…音出力装置、
11,31…再生指示部、
12,32…画像データ出力部、
13…音データ加工部、
14,35…音合成部、
15,36…画像データ記憶部、
16,37…音源データ記憶部、
17,38…発話オブジェクト方向記憶部、
24a,24b,27,49…発話オブジェクトの方向ベクトル、
21,41…視聴者、
22,42…表示装置の方向ベクトル、
23a,23b,47…発話オブジェクト、
25…特定の軸、
26…特定範囲、
28…軸ベクトル、
29…指向性スピーカ、
30…無指向性スピーカ、
33…第1音データ加工部、
34…第2音データ加工部、
39…発話オブジェクト空間位置記憶部、
40…障害物空間位置記憶部、
43…発話オブジェクトの座標位置、
44…障害物の座標位置、
48…障害物。
2…入力装置、
3…記憶装置、
4…表示装置、
5…通信装置、
6…音出力装置、
11,31…再生指示部、
12,32…画像データ出力部、
13…音データ加工部、
14,35…音合成部、
15,36…画像データ記憶部、
16,37…音源データ記憶部、
17,38…発話オブジェクト方向記憶部、
24a,24b,27,49…発話オブジェクトの方向ベクトル、
21,41…視聴者、
22,42…表示装置の方向ベクトル、
23a,23b,47…発話オブジェクト、
25…特定の軸、
26…特定範囲、
28…軸ベクトル、
29…指向性スピーカ、
30…無指向性スピーカ、
33…第1音データ加工部、
34…第2音データ加工部、
39…発話オブジェクト空間位置記憶部、
40…障害物空間位置記憶部、
43…発話オブジェクトの座標位置、
44…障害物の座標位置、
48…障害物。
Claims (11)
- 空間位置情報を有すると共に、音を発するオブジェクトの方向を表すオブジェクトの方向ベクトルを記憶するオブジェクト方向記憶手段と、
上記オブジェクトが発する音を表す音源データを記憶する音源データ記憶手段と、
上記音源データに基づく上記オブジェクトが発する音の音データを、上記オブジェクトの方向ベクトルの向きに基づいて加工する音データ加工手段と、
上記加工された音データに基づく音を出力する音出力手段と
を備えていることを特徴とするオーディオ再生装置。 - 請求項1に記載のオーディオ再生装置において、
上記音源データ記憶手段は、上記音源データとして、上記オブジェクトが発する音を表すテキストデータを記憶しており、
上記音データ加工手段による上記音データの加工に先だって、上記テキストデータに基づいて、上記オブジェクトが発する音の音データを合成する音声合成手段を備えたことを特徴とするオーディオ再生装置。 - 請求項1に記載のオーディオ再生装置において、
上記オブジェクトを含む画像の画像データを記憶する画像データ記憶手段と、
上記画像データに基づく画像を表示する表示手段と
を備えたことを特徴とするオーディオ再生装置。 - 請求項3に記載のオーディオ再生装置において、
上記音データ加工手段は、上記表示手段によって表示された画像に含まれているオブジェクトに関する上記オブジェクトの方向ベクトルの向きが、上記表示手段の画面に立てた垂線の向きから所定の角度以上外れている場合には、当該オブジェクトが発する音の周波数帯域における高域成分を遮断するようになっていることを特徴とするオーディオ再生装置。 - 請求項3に記載のオーディオ再生装置において、
上記音データ加工手段は、上記表示手段によって表示された画像に含まれているオブジェクトに関する上記オブジェクトの方向ベクトルの向きと、上記表示手段の画面に立てた垂線の向きとの角度差が大きいほど、当該オブジェクトが発する音の周波数帯域におけるより広い範囲の高域成分を遮断するようになっていることを特徴とするオーディオ再生装置。 - 請求項3に記載のオーディオ再生装置において、
上記音データ加工手段は、上記表示手段によって表示された画像に含まれているオブジェクトに関する上記オブジェクトの方向ベクトルの向きが、上記表示手段の画面に立てた垂線の向きから所定の角度以上外れている場合には、当該オブジェクトが発する音の振幅を減衰するようになっていることを特徴とするオーディオ再生装置。 - 請求項3に記載のオーディオ再生装置において、
上記音データ加工手段は、上記表示手段によって表示された画像に含まれているオブジェクトに関する上記オブジェクトの方向ベクトルの向きが、上記表示手段の画面に立てた垂線の向きと同じ場合には、特定の方向にのみに当該オブジェクトの音を放射させるようになっていることを特徴とするオーディオ再生装置。 - 請求項3に記載のオーディオ再生装置において、
上記画像データに基づく画像には、空間位置情報を有する障害物が含まれており、
上記オブジェクトの空間位置を記憶するオブジェクト空間位置記憶手段と、
上記障害物の空間位置を記憶する障害物空間位置記憶手段と
を備え、
上記音データ加工手段は、上記表示手段によって表示された画像に含まれている上記オブジェクトの空間位置から上記オブジェクトの方向ベクトルの方向に障害物が存在するか否かを判定し、上記方向に障害物が存在する場合には、当該オブジェクトが発する音に上記障害物によって反射した反射音を加えた音の音データに加工するようになっていることを特徴とするオーディオ再生装置。 - 請求項1に記載のオーディオ再生装置において、
上記オブジェクトは、人間の形態を模倣した擬人化エージェントであり、
上記オブジェクトの方向ベクトルは上記擬人化エージェントにおける顔の向きである
ことを特徴とするオーディオ再生装置。 - コンピュータを、
請求項1におけるオブジェクト方向記憶手段,音源データ記憶手段,音データ加工手段および音出力手段
として機能させることを特徴とするオーディオ再生プログラム。 - 請求項10に記載のオーディオ再生プログラムが記録されたことを特徴とするコンピュータ読出し可能なプログラム記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004295808A JP2006109295A (ja) | 2004-10-08 | 2004-10-08 | オーディオ再生装置、オーディオ再生プログラム、および、プログラム記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004295808A JP2006109295A (ja) | 2004-10-08 | 2004-10-08 | オーディオ再生装置、オーディオ再生プログラム、および、プログラム記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006109295A true JP2006109295A (ja) | 2006-04-20 |
Family
ID=36378459
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004295808A Pending JP2006109295A (ja) | 2004-10-08 | 2004-10-08 | オーディオ再生装置、オーディオ再生プログラム、および、プログラム記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006109295A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010252102A (ja) * | 2009-04-16 | 2010-11-04 | Sony Corp | 映像音声入出力システム |
WO2019093155A1 (ja) * | 2017-11-10 | 2019-05-16 | ソニー株式会社 | 情報処理装置、および情報処理方法、並びにプログラム |
-
2004
- 2004-10-08 JP JP2004295808A patent/JP2006109295A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010252102A (ja) * | 2009-04-16 | 2010-11-04 | Sony Corp | 映像音声入出力システム |
WO2019093155A1 (ja) * | 2017-11-10 | 2019-05-16 | ソニー株式会社 | 情報処理装置、および情報処理方法、並びにプログラム |
US10998870B2 (en) * | 2017-11-10 | 2021-05-04 | Sony Corporation | Information processing apparatus, information processing method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9332100B2 (en) | Portable communications device | |
US9888333B2 (en) | Three-dimensional audio rendering techniques | |
US8411091B2 (en) | Image drawing system, image drawing server, image drawing method, and computer program | |
JP3949701B1 (ja) | 音声処理装置、音声処理方法、ならびに、プログラム | |
JP3977405B1 (ja) | ゲーム音出力装置、ゲーム音制御方法、および、プログラム | |
JP2007274061A (ja) | 音像定位装置およびavシステム | |
CN107168518B (zh) | 一种用于头戴显示器的同步方法、装置及头戴显示器 | |
KR102332739B1 (ko) | 음향 처리 장치 및 방법, 그리고 프로그램 | |
KR102548644B1 (ko) | 신호 처리 장치 및 방법, 그리고 프로그램 | |
JP2004267433A (ja) | 音声チャット機能を提供する情報処理装置、サーバおよびプログラム並びに記録媒体 | |
US20050182608A1 (en) | Audio effect rendering based on graphic polygons | |
JP3740518B2 (ja) | ゲーム装置、コンピュータの制御方法及びプログラム | |
JP3617839B2 (ja) | ゲームサウンド制御プログラム、ゲームサウンド制御方法およびゲーム装置 | |
JP2008299135A (ja) | 音声合成装置、音声合成方法、および音声合成用プログラム | |
US20230007427A1 (en) | Audio scene change signaling | |
JP2006109295A (ja) | オーディオ再生装置、オーディオ再生プログラム、および、プログラム記録媒体 | |
KR20160064328A (ko) | 모션 카툰 시스템을 위한 특수 효과 지원 장치 및 방법 | |
JP4484570B2 (ja) | 音響情報処理装置、音響情報提供方法 | |
JP2005094271A (ja) | 仮想空間音響再生プログラムおよび仮想空間音響再生装置 | |
CN114520950A (zh) | 音频输出方法、装置、电子设备及可读存储介质 | |
Wegman et al. | The MiniCAVE-A voice-controlled IPT environment | |
JP2002354598A (ja) | 音声空間情報付加装置および方法、記録媒体、並びにプログラム | |
Martin et al. | 3D audiovisual rendering and real-time interactive control of expressivity in a talking head | |
JP2020188435A (ja) | オーディオエフェクト制御装置、オーディオエフェクト制御システム、オーディオエフェクト制御方法及びプログラム | |
JP7458127B2 (ja) | 処理システム、音響システム及びプログラム |