JP2006109295A

JP2006109295A - オーディオ再生装置、オーディオ再生プログラム、および、プログラム記録媒体

Info

Publication number: JP2006109295A
Application number: JP2004295808A
Authority: JP
Inventors: Kenichi Kumagai; 建一熊谷; Toshio Akaha; 俊夫赤羽
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2004-10-08
Filing date: 2004-10-08
Publication date: 2006-04-20

Abstract

【課題】臨場感のある音付き画像データを簡単に作成する。
【解決手段】音合成部１４は、表示装置４によって表示されている発話オブジェクトに関する音源データを音源データ記憶部１６から読み出し、当該音源データがテキストである場合には、このテキストに基づいて音データを合成する。音データ加工部１３は、発話オブジェクト方向記憶部１７から読み出された当該発話オブジェクトに関する発話オブジェクトの方向ベクトルが、例えば、視聴者が向いている方向と同じ方向である場合には、音合成部１４からの音データを低域通過フィルタにかけて高周波数成分を抑制する。こうして、発話オブジェクトが視聴者と向き合っている場合の発声音よりも不明瞭にして、視聴者にとって臨場感のある音付き画像を表示する。
【選択図】図１

Description

この発明は、ユーザに対して臨場感のある音付き画像データを表示することが可能なオーディオ再生装置,オーディオ再生プログラムおよびプログラム記録媒体に関する。

現在、擬人エージェント等の特定図形の状態に対応させた音声や音楽等(以下、音情報と総称する)を作成・出力する技術が求められている。例えば、擬人エージェントに音声を対応させ、その音声を出力することによって、ユーザフレンドリーなインタフェースを構築できる(例えば、特開２０００‐３１１２５１号公報(特許文献１)参照)。しかしながら、出力される音情報の音響特性が現実空間の音響特性とは異なることが原因で、ユーザにとって臨場感等の面で満足するものでないことが多い。特に、擬人エージェントが上述のような臨場感のない音声を話してしまうと、ユーザはコンピュータ上のそのエージェントに対して親密感を持ち難くなってしまう。

上記特許文献１に開示されたアニメーション作成装置は、音情報に応じて、画像データに含まれる複数の図形に関連付けられた動き情報を変形させて、上記図形を動作させる技術に関するものである。そして、このアニメーション作成装置では、複数の図形の空間的配置を変化させ、その変化させた図形の空間的配置と音情報から抽出したパラメータとに応じて図形の動き情報を変化させ、空間的な協調性を持たせて複数の図形を表示するようにしている。

しかしながら、上記従来のアニメーション作成装置では、特定図形の状態(以下、「シーン」と言う)に応じて上記音情報を加工あるいは作成することができず、コンテンツ作成者は特定図形のシーンに適した上記音情報を作成するために多大な労力を必要とする。例えば、人の形を模倣したエージェントである擬人エージェントが視聴者に対して正面を向いているシーンと、視聴者に対して後ろを向いているシーンがあるとする。現実空間においてそのような状況があった場合に、各シーンにおいて人が発声する音声信号の特性は違うはずであり、異なった音声信号を擬人エージェントの上記各シーンに付与する必要がある。例えば、擬人エージェントが視聴者に対して正面を向いている時に発話した声は、視聴者に対して後ろを向いている時に発話した声よりも明瞭になるはずである。

ところが、上記特許文献１に開示されたアニメーション作成装置では、上記音情報を加工あるいは作成することができないために、上述したような擬人エージェントの各シーンに合わせた音声をコンテンツ作成者が手作業で個別に作成する必要があり、多大な労力を必要とするという問題がある。したがって、擬人化エージェントのシーンに合わせた音声データを簡単に作成することができないのである。
特開２０００‐３１１２５１号公報

そこで、この発明の課題は、ユーザに対して臨場感のある音付き画像データを簡単に作成して表示できるオーディオ再生装置,オーディオ再生プログラムおよびプログラム記録媒体を提供することにある。

上記課題を解決するため、この発明のオーディオ再生装置は、
空間位置情報を有すると共に、音を発するオブジェクトの方向を表すオブジェクトの方向ベクトルを記憶するオブジェクト方向記憶手段と、
上記オブジェクトが発する音を表す音源データを記憶する音源データ記憶手段と、
上記音源データに基づく上記オブジェクトが発する音の音データを、上記オブジェクトの方向ベクトルの向きに基づいて加工する音データ加工手段と、
上記加工された音データに基づく音を出力する音出力手段と
を備えていることを特徴としている。

上記構成によれば、音データ加工手段によって、オブジェクトの方向ベクトルの向きに基づいて、上記オブジェクトが発する音の音データを加工するので、上記オブジェクトの方向ベクトルの向きが視聴者の方を向いていない場合に上記オブジェクトが発する音を、上記視聴者の方を向いている場合の音よりも不明瞭にして、上記視聴者に、聴覚によって上記オブジェクトの視聴者に対する向きを感じ取らせることができる。したがって、上記オブジェクトが発する視聴者に対して臨場感のある音の音データを簡単に作成することができる。

また、１実施の形態のオーディオ再生装置では、
上記音源データ記憶手段は、上記音源データとして、上記オブジェクトが発する音を表すテキストデータを記憶しており、
上記音データ加工手段による上記音データの加工に先だって、上記テキストデータに基づいて、上記オブジェクトが発する音の音データを合成する音声合成手段を備えている。

この実施の形態によれば、オブジェクトが発する音をテキストで記憶しておくので、上記オブジェクトが発する音の内容を簡単に編集することができ、上記音源データとして波形データを記憶しておく場合に比してデータ量を圧縮することができる。

また、１実施の形態のオーディオ再生装置では、
上記オブジェクトを含む画像の画像データを記憶する画像データ記憶手段と、
上記画像データに基づく画像を表示する表示手段と
を備えている。

この実施の形態によれば、上記オブジェクトを含む画像を表示するので、視聴者対してより臨場感のあるコンテンツを再生することができる。

また、１実施の形態のオーディオ再生装置では、
上記音データ加工手段は、上記表示手段によって表示された画像に含まれているオブジェクトに関する上記オブジェクトの方向ベクトルの向きが、上記表示手段の画面に立てた垂線の向きから所定の角度以上外れている場合には、当該オブジェクトが発する音の周波数帯域における高域成分を遮断するようになっている。

この実施の形態によれば、例えば、上記表示手段に表示されているオブジェクトの方向ベクトルの向きが、視聴者の方向とは反対の方向である場合には、上記オブジェクトが発する音を不明瞭な音にして出力することができる。したがって、画像のシーンに応じた音を出力でき、視聴者にとって臨場感のある音付き画像データを表示することができる。

また、１実施の形態のオーディオ再生装置では、
上記音データ加工手段は、上記表示手段によって表示された画像に含まれているオブジェクトに関する上記オブジェクトの方向ベクトルの向きと、上記表示手段の画面に立てた垂線の向きとの角度差が大きい程、当該オブジェクトが発する音の周波数帯域におけるより広い範囲の高域成分を遮断するようになっている。

この実施の形態によれば、上記オブジェクトの方向ベクトルの向きと、上記表示手段の画面に立てた垂線の向きとの角度差に応じて、当該オブジェクトが発する音を不明瞭な音にして出力することができる。したがって、視聴者にとってより臨場感のある音付き画像データを表示することができる。

また、１実施の形態のオーディオ再生装置では、
上記音データ加工手段は、上記表示手段によって表示された画像に含まれているオブジェクトに関する上記オブジェクトの方向ベクトルの向きが、上記表示手段の画面に立てた垂線の向きから所定の角度以上外れている場合には、当該オブジェクトが発する音の振幅を減衰するようになっている。

この実施の形態によれば、上記音の振幅を減衰することによって上記不明瞭な音を生成するので、上記周波数成分の高域成分を遮断する場合に比して、小さな計算量で、画像のシーンに応じた音を出力することができる。

また、１実施の形態のオーディオ再生装置では、
上記音データ加工手段は、上記表示手段によって表示された画像に含まれているオブジェクトに関する上記オブジェクトの方向ベクトルの向きが、上記表示手段の画面に立てた垂線の向きと同じ場合には、特定の方向にのみに当該オブジェクトの音を放射させるようになっている。

この実施の形態によれば、上記オブジェクトの方向ベクトルの向きが上記表示画面の向きと同じ場合には、例えば視聴者の方向等の特定の方向にのみ音を放射させることができる。したがって、上記周波数成分の高域成分を遮断する場合に比して、より簡単に画像のシーンに応じた音を出力することができる。

また、１実施の形態のオーディオ再生装置では、
上記画像データに基づく画像には、空間位置情報を有する障害物が含まれており、
上記オブジェクトの空間位置を記憶するオブジェクト空間位置記憶手段と、
上記障害物の空間位置を記憶する障害物空間位置記憶手段と
を備え、
上記音データ加工手段は、上記表示手段によって表示された画像に含まれている上記オブジェクトの空間位置から上記オブジェクトの方向ベクトルの方向に障害物が存在するか否かを判定し、上記方向に障害物が存在する場合には、当該オブジェクトが発する音に上記障害物によって反射した反射音を加えた音の音データに加工するようになっている。

この実施の形態によれば、上記オブジェクトの空間位置から上記オブジェクトの方向ベクトルの方向に障害物が存在する場合には、当該オブジェクトが発する音に上記障害物によって反射した反射音を加えるので、より現実に近い音空間を実現することができ、視聴者に臨場感を与えることができる。

また、１実施の形態のオーディオ再生装置では、
上記オブジェクトは、人間の形態を模倣した擬人化エージェントであり、
上記オブジェクトの方向ベクトルは上記擬人化エージェントにおける顔の向きである。

この実施の形態によれば、擬人化エージェントの発話音声に現実感および臨場感を持たせることができ、視聴者とって親密感を有する擬人化エージェントを提供することができる。

また、この発明のオーディオ再生プログラムは、
コンピュータを、
この発明のオーディオ再生装置におけるオブジェクト方向記憶手段,音源データ記憶手段,音データ加工手段および音出力手段
として機能させることを特徴としている。

上記構成によれば、この発明のオーディオ再生装置の場合と同様に、上記オブジェクトが発する視聴者に対して臨場感のある音の音データを簡単に作成することができる。

また、この発明のプログラム記録媒体は、
この発明のオーディオ再生プログラムが記録されたことを特徴としている。

以上より明らかなように、この発明によれば、オブジェクトの方向ベクトルの向きに基づいて、上記オブジェクトが発する音の音データを加工するので、例えば、上記オブジェクトの方向ベクトルの向きが視聴者の方を向いていない場合に上記オブジェクトが発する音を、上記視聴者の方を向いている場合の音よりも不明瞭にして、上記視聴者に、聴覚によって上記オブジェクトの視聴者に対する向きを感じ取らせることが可能になる。したがって、上記視聴者にとって上記オブジェクトが発する臨場感のある音の音データを簡単に作成することができる。

以下、この発明を図示の実施の形態により詳細に説明する。以下、この発明のオーディオ再生装置を分かり易く説明にするために、機能的構成によって第１実施形態と第２実施形態に分けて説明する。但し、何れの実施形態の場合もハードウェア構成は同じであるとして説明する。そこで、先ず、この発明のオーディオ再生装置のハードウェア構成から説明する。

［ハードウェア構成］
図２は、この発明のオーディオ再生装置におけるハードウェア構成を示すブロック図である。本オーディオ再生装置は、制御装置１,入力装置２,記憶装置３,表示装置４,通信装置５および音出力装置６によって構成され、各装置１〜６はバス７によって接続されている。

上記制御装置１は、プリプロセッサやメモリ等により構成されて、例えば記憶装置３に記憶されている制御プログラムに従って動作する。具体的には、後述する機能部による処理結果を記憶装置３に保存すると共に、記憶装置３に記憶されているデータを表示装置４や通信装置５や音出力装置６に出力する。

上記入力装置２は、カーソルキー等の各種キーを備えたキーボード、ジョグダイヤル、手書きＯＣＲ(Optical Character Reader：光学式文字読取装置)、あるいは、マウス等のポインティングデバイス等によって構成される。そして、入力装置２によって入力された信号(例えば、上記キーボードで押下されたキーの信号)は制御装置１へ出力される。尚、上記入力装置２としてマイクを用いると共に、Ａ/Ｄコンバータおよび音声認識装置を備えて、音声入力を行うようにしても差し支えない。

上記記憶装置３は、ＲＡＭ(ランダム・アクセス・メモリ)あるいはＲＯＭ(リード・オンリ・メモリ)等によって構成され、入力データ,一時データおよび処理データを保存するためのワークエリアを有している。また、記憶装置３は、画像データおよびそれに出現する音や音声を発するオブジェクト(例えば、擬人エージェント等)(以下、発話オブジェクトと言う)に関する情報を記憶する。この発話オブジェクトに関するデータ構造については後に詳細に述べる。

上記表示装置４は、ＣＲＴ(Cathode Ray Tube)や液晶ディスプレイ等により構成され、例えば記憶装置３に保存されているデータを表示する。

上記通信装置５は、ネットワーク・インタフェース・カード等によって構成され、ネットワークケーブル等を介して接続されたサーバ装置等とデータの送受信を行う。

上記音出力装置６は、ヘッドホンあるいは複数のスピーカによって構成される。

［第１実施の形態］
図１は、本実施の形態のオーディオ再生装置における機能的構成を示す機能ブロック図である。図１に示すオーディオ再生装置は、図２における制御装置１,入力装置２,記憶装置３,表示装置４および音出力装置６によって構成されている。そして、制御装置１は、再生指示部１１,画像データ出力部１２,音データ加工部１３および音合成部１４を備えている。また、記憶装置３には、画像データ記憶部１５,音源データ記憶部１６および発話オブジェクト方向記憶部１７を有している。

先ず、上記記憶装置３に記憶された基本となるデータについて説明する。

上記画像データ記憶部１５には、本実施の形態においては、擬人化エージェント等の音や音声を発する発話オブジェクトを含む画像データが記憶されている。

上記音源データ記憶部１６には、上記発話オブジェクトの発話内容を記述したテキストデータや上記発話オブジェクトが発する音データが記憶されている。尚、後述するが、制御装置１の音合成部１４は、上記音源データに含まれる上記発話オブジェクトの発話内容を記述したテキストデータから、音声合成技術によって上記発話オブジェクトが発声する音声を合成する。勿論、上記画像データに複数の発話オブジェクトが含まれる場合には、上記音源データとして各発話オブジェクト毎に異なる複数の音源データを用意しておき、上記発話オブジェクトと音源データとを対応付けておく。

上記発話オブジェクト方向記憶部１７には、上記発話オブジェクトに関連付けられた方向ベクトルである発話オブジェクトの方向ベクトルが記憶されている。例えば、発話オブジェクトが擬人エージェントである場合には、擬人エージェントに関連付けられた方向ベクトルとして、擬人エージェントの顔の向きがある。後に詳細に説明するが、制御装置１の音データ加工部１３は、上記発話オブジェクトの方向ベクトルに基づいて当該発話オブジェクトが発する音の音データに加工を施すのである。勿論、上記画像データに複数の発話オブジェクトが含まれている場合には、上記発話オブジェクトの方向ベクトルを複数用意し、各発話オブジェクト毎に異なる方向ベクトルを割当てておく。

以下、説明を間端にするために、上記各記憶部１５〜１７に記憶されたデータや方向ベクトルにも、該当する記憶部１５〜１７と同じ番号を付すことにする。

図３は、上記音源データ１６および上記発話オブジェクトの方向ベクトル１７を、ＸＭＬ(eXtensible Markup Language)によって記述した例である。図３(a)は＜speak＞タグによって囲まれたテキストをテキスト音声合成することを示している。さらに、＜speak＞タグの属性値「object」が上記テキストを発話する発話オブジェクトの種類を示し、属性値「dir」が当該発話オブジェクトの方向ベクトルを示す。図３(a)の例では＜speak＞タグによって囲まれたテキストが音源データ１６であり、属性値「dir」の内容が発話オブジェクトの方向ベクトル１７である。さらに詳細に説明すると、図３(a)に示すタグは、方向ベクトルが“ｘ1,ｙ1,ｚ1”(＝dir)である発話オブジェクト１(＝object)が、“３かける３は９です”と発話することを示している。

また、図３(b)は、＜sound＞タグによって囲まれたファイルの音を出力することを示している。その場合における属性値は図３(a)の場合と同様である。図３(b)に示す例では、＜sound＞タグによって囲まれるファイルが音源データ１６である。さらに詳細に説明すると、図３(b)に示すタグは、方向ベクトルが“ｘ2,ｙ2,ｚ2”(＝dir)である発話オブジェクト２(＝object)が音ファイル“shout.wav”の音を出力することを示している。

このように、上記音源データ１６および上記発話オブジェクトの方向ベクトル１７をＸＭＬによって記述することにより、様々な他のフォーマットと互換を保つことができるのである。

尚、上記図３に示す例では、空間位置を示す方向ベクトルを三次元情報としているが、二次元情報としても勿論差し支えない。

後述するように、各機能部１１〜１４は、上述したようにＸＭＬ等で表された音源データ１６および発話オブジェクトの方向ベクトル１７に基づいて動作するのである。

次に、上記制御装置１を構成する再生指示部１１,画像データ出力部１２,音データ加工部１３および音合成部１４の動作について説明する。

上記再生指示部１１は、上記入力装置２からの利用者の入力を受付けて、利用者からの指示に従って、記憶装置３から画像データ１５を読み出して画像データ出力部１２に送出すると共に、当該画像データの表示が音声を伴う場合には音声合成部１４に対してその旨を通知する。画像データ出力部１２は、再生指示部１１から受け取った画像データ１５を表示装置４へ出力して表示させる。

上記音合成部１４は、上記再生指示部１１からの通知を受けて、当該画像データの表示が音声を伴う場合には、記憶装置３から、音源データ１６と発話オブジェクトの方向ベクトル１７とが記述されたＸＭＬデータを読み出す。そして、当該ＸＭＬデータに記述された音源データ１６がテキストである場合には、このテキストに基づいて音データを合成する。また、当該ＸＭＬデータに記述された音源データ１６がファイルである場合には、当該ファイルの音データを記憶装置３から読み出す。そして、当該ＸＭＬデータに発話オブジェクトの方向ベクトル１７が記述されている場合には、得られた音データを発話オブジェクトの方向ベクトル１７と共に音データ加工部１３に出力する。これに対して、発話オブジェクトの方向ベクトル１７が記述されていない場合には、得られた音データを音出力装置６に出力する。尚、音合成部１４は、テキストに基づく音データの合成を既知の音声合成技術を用いて行うことができる。

上記音データ加工部１３は、上記発話オブジェクトの方向ベクトル１７に基づいて、音合成部１４によって合成された音データあるいは音合成部１４からの上記ファイルの音データに処理を施して、音響効果を加える。そして、上記処理後の音データを音出力装置６に出力する。尚、この音データ加工部１４の動作については、後に詳細に説明する。

次に、本実施の形態のオーディオ再生装置における具体的な動作例について、図４に従って説明する。

ここでは、図４(a)に示すように、視聴者２１が、表示装置４に表示されている画像を正面から見ているとする。その場合における表示装置４の方向ベクトルは、矢印２２で示すように、表示装置４の画面に対して垂直な方向である。また、図４(b)および図４(c)には、表示装置４に表示されている発話オブジェクト２３a,２３bを含む画像を、正面から見た様子を示している。尚、図４(b)においては、発話オブジェクト２３aは視聴者２１の正面を向いており、発話オブジェクト２３aの方向ベクトルは表示装置４の方向ベクトル２２と同じ向きである。これに対して、図４(c)においては、発話オブジェクト２３bは視聴者２１に対して後ろを向けており、発話オブジェクト２３aの方向ベクトルは方向ベクトル２２とは逆の向きである。このような場合、本実施の形態においては、図４(b)における発話オブジェクト２３aの声の方が、図４(c)における発話オブジェクト２３bの声よりも明瞭になるように音データを加工する。つまり、発話オブジェクト２３が視聴者２１に対して後ろを向いている場合には“もごもご”と話しているような音データを生成するのである。

次に、上述のような動作を実行する際における制御装置１の各部の処理動作について、図５に示すオーディオ再生処理動作のフローチャートに従って説明する。

ステップＳ1で、上記再生指示部１１によって、上記入力装置２からの指示信号に基づいて、利用者から画像の表示指示があったか否かが判別される。そして、表示指示があった場合にはステップＳ2に進む。ステップＳ2で、再生指示部１１によって、記憶装置３から上記表示指示に応じた画像データ１５が読み出されて画像データ出力部１２に出力される。ステップＳ3で、画像データ出力部１２によって、再生指示部１１から送出された画像データ１５が表示装置４に出力される。こうして、表示装置４によって、利用者から指示された画像が表示される。

ステップＳ4で、上記再生指示部１１によって、上記読み出された画像データ１５に上記ＸＭＬデータが対応付けられているか否かを判別することによって、当該画像データ１５内に発話オブジェクトが有るか否かが判別される。その結果、発話オブジェクトが有る場合には、音声合成部１４に対してその旨が通知されてステップＳ5に進む。一方、発話オブジェクトが無い場合には、ステップＳ8に進む。

ステップＳ5で、上記音合成部１４によって、再生指示部１１からの通知を受けて、記憶装置３から該当する音源データ１６と発話オブジェクトの方向ベクトル１７とが記述された上記ＸＭＬデータが読み出される。ステップＳ6で、音合成部１４によって、当該ＸＭＬデータに記述された音源データ１６がテキストである場合には、このテキストに基づいて音声合成技術によって音データが合成される。一方、当該ＸＭＬデータに記述された音源データ１６がファイルである場合には、当該ファイルの音データが記憶装置３から取得される。ステップＳ7で、音データ加工部１３によって、当該ＸＭＬデータに発話オブジェクトの方向ベクトル１７が記述されている場合には、上記ステップＳ6において合成された音データあるいは取得された上記ファイルの音データに対して、発話オブジェクトの方向ベクトル１７に応じた加工が施される。尚、この音データの加工については、後に詳細に説明する。ステップＳ8で、音出力装置６によって、上記ステップＳ7において加工が施された音データまたは加工が施されなかった音データに基づいて、上記ステップＳ3において表示された発話オブジェクトの声が出力される。そうした後、オーディオ再生処理動作を終了する。

図６は、上記オーディオ再生処理動作におけるステップＳ7で実行される音加工処理動作の詳細なフローチャートである。以下、図６に示すフローチャートに従って、音加工処理動作について説明する。その際に、説明を分かり易くするために、図７に示す具体例を参照しながら上記説明を行う。尚、図７においては、視聴者２１が、表示装置４に表示されている発話オブジェクトを含む画像を閲覧していると仮定している。但し、図７(a)においては、表示されている発話オブジェクトの方向ベクトルは、表示装置４の画面中央部から視聴者２１へ向かう方向とは反対方向の矢印２４aで表される。また、図７(b)においては、表示されている発話オブジェクトの方向ベクトルは、表示装置４の画面中央部から視聴者２１へ向かう方向と同じ方向の矢印２４bで表される。

上記オーディオ再生処理動作におけるステップＳ6において、合成音作成あるいはファイルの音データの取得が終了すると、音加工処理動作がスタートする。図６において、ステップＳ11で、上記音データ加工部１３によって、発話オブジェクトの方向ベクトル２４が特定の範囲内に在るか否かが判別される。その結果、特定範囲内に在る場合には、ステップＳ12に進む。一方、そうでない場合には、音加工処理動作を終了して上記オーディオ再生処理動作におけるステップＳ8にリターンする。

例えば、図７(a)の場合には、発話オブジェクトの方向ベクトル２４aが表示装置４の画面を含む特定の軸２５よりも視聴者２１とは反対側にあるため、換言すれば表示装置４の方向ベクトルに対して９０°以上外れているため、音データ加工部１３は、発話オブジェクトの方向ベクトル２４aが特定範囲２６内に有ると判定する。一方、図７（b)の場合には、発話オブジェクトの方向ベクトル２４bが特定の軸２５よりも視聴者２１の側にあるため、換言すれば表示装置４の方向ベクトルに対するずれ角度が９０°より狭いため、音データ加工部１３は、発話オブジェクトの方向ベクトル２４bが上記特定範囲２６内には無いと判定するのである。

ステップＳ12で、上記音データ加工部１３によって、音合成部１４からの音データが低域通過フィルタにかけられて、高周波数成分が抑制される。これによって、発話オブジェクトの方向ベクトル２４が視聴者２１向きの方向とは逆方向である場合には、発話オブジェクトの発声音を“もごもご”と通常より不明瞭な音で出力される。こうして、視聴者にとって臨場感のある音付き画像を表示することができるのである。

尚、上記ステップＳ12においては、音合成部１４からの音データの振幅を減衰させるようにしてもよい。このようにすることでも、発話オブジェクトの発声音を“もごもご”と通常より不明瞭な音にすることができる。このように、単純に振幅を減衰させる方法の場合には、上記低域通過フィルタをかける場合に比して、上述の音響効果は小さくなるが処理に要する計算量を削減することができる。

そうした後、音加工処理動作を終了して上記オーディオ再生処理動作におけるステップＳ8にリターンする。

ところで、図６に示す音加工処理動作においては、上述したように、発話オブジェクトの方向ベクトル２４aが特定範囲２６内に有るか否かに基づいて、音を加工するかしないかに分岐する分岐処理を行っている。しかしながら、上記分岐処理は行わず、発話オブジェクトの方向ベクトルの向きに応じて、低域通過フィルタの通過帯域幅を操作するようにしても差し支えない。ここで、図８を従って、具体的に説明する。

図８(a)においては、視聴者２１が表示装置４に表示されている発話オブジェクトを含む画像を閲覧していると仮定している。そして、表示装置４の画面中央部から視聴者２１へ向かう方向とは反対方向への軸ベクトル２８を定義する。そして、軸ベクトル２８から発話オブジェクトの方向ベクトル２７までの時計回りの角度をθとする。但し、θは、１８０度を超えた場合には「−θ＋３６０」の値に置き換える。そして、図８(b)に示すような周波数特性を有する低域通過フィルタにおいて、通過帯域幅Ｆwが「ａθ＋ｂ」になるような低域通過フィルタを作成する。ここで、「ａ」と「ｂ」とは正の定数である。そして、音合成部１４からの音データを上記低域通過フィルタにかけることにより、図６に示す音加工処理動作における分岐処理を行う場合とは異なり、発話オブジェクトの方向ベクトル２７の向きが視聴者２１の向き(つまり、軸ベクトル２８の向き)とは異なる程、発話オブジェクトの音声が徐々に明瞭な音となって出力される。逆に言えば、表示装置４の方向ベクトル２２の向きと異なる程、発話オブジェクトの音声が徐々に不明瞭な音となって出力される。したがって、視聴者２１にとってより臨場感のある音付き画像データを表示することができるのである。

また、上記軸ベクトル２８から発話オブジェクトの方向ベクトル２７までの時計回りの角度θに応じて、音の振幅を増大させるようにしても良い。例えば、時刻ｔにおける音の振幅値をＳ(t)とすると、Ｓ(t)×(ｃθ＋ｄ)となるように音データを加工する。但し、上記「ｃ」と「ｄ」とは正の定数である。または、発話オブジェクトの方向ベクトル２７が軸ベクトル２８に近づく程音の振幅を減衰させても良い。尚、このように単純に振幅を増大または減衰させる方法は、低域通過フィルタをかける場合に比して臨場感の効果が小さくなるが、処理に要する計算量を削減することができる。

さらに、上述した音加工方法の他に、例えば、図９に示すように、音出力装置６を構成するスピーカを、指向性スピーカ２９と無指向性スピーカ３０とにして、音を出力するスピーカを切り換えるようにすることも可能である。例えば、上記音加工処理動作における上記ステップＳ11において、音データ加工部１３によって、発話オブジェクトの方向ベクトル２４が特定範囲２６内にあると判定した場合に、無指向性スピーカ３０から視聴者２１に向けて音を出力する。一方、特定範囲２６外にあると判定した場合は、指向性スピーカ２９から視聴者２１に向けて音を出力するのである。この方法によれば、音を出力するスピーカを切り換えるだけの簡単な処理にて、発話オブジェクトの方向ベクトル２４の向きが表示装置４の画面を含む特定の軸２５よりも視聴者２１とは反対側にある場合には、発話オブジェクトの音声を通常よりも不明瞭な音で出力できる。したがって、視聴者にとって臨場感のある音付き画像データを表示することができるのである。

また、図９に示すように、指向性スピーカ２９と無指向性スピーカ３０とを切り換えるのではなく、直線状のスピーカアレーと二次元ディジタルフィルタとを用い、上記音加工処理動作における上記ステップＳ11において、音データ加工部１３によって、発話オブジェクトの方向ベクトル２４が特定範囲２６外にあると判定した場合に、視聴者の方向・範囲に音を放射させるようにすることもできる。

［第２実施の形態］
図１０は、本実施の形態のオーディオ再生装置における機能的構成を示す機能ブロック図である。以下、図１０に従って、本オーディオ再生装置について説明する。

図１０において、本オーディオ再生装置は、上記第１実施の形態の場合と同様に、図２における制御装置１,入力装置２,記憶装置３,表示装置４および音出力装置６によって構成されている。そして、制御装置１は、再生指示部３１,画像データ出力部３２,第１音データ加工部３３,第２音データ加工部３４および音合成部３５を備えている。また、記憶装置３には、画像データ記憶部３６,音源データ記憶部３７,発話オブジェクト方向記憶部３８,発話オブジェクト空間位置記憶部３９および障害物空間位置記憶部４０を有している。

本オーディオ再生装置の機能を説明するに先立って、上記記憶装置３に記憶された基本となるデータについて説明する。尚、その際に、図１１を用いて説明を補足する。図１１においては、図１１(a)に示すように、視聴者４１が、発話オブジェクトを含む画像が表示されている表示装置４を正面から見ている。その場合における表示装置４の方向ベクトルは、矢印４２で示すように、表示装置４の画面に対して垂直な方向である。また、図１１(b)は、図１１(a)の状態において、表示装置４に表示されている画像を表す。

上記画像データ記憶部３６,音源データ記憶部３７および発話オブジェクト方向記憶部３８に記憶されたデータは、上記第１実施の形態における画像データ１５,音源データ１６および発話オブジェクトの方向ベクトル１７と同じデータ構造を有しているので、ここでは説明を省略する。

上記発話オブジェクト空間位置記憶部３９には、画像データ記憶部３６に記憶された画像データ中における発話オブジェクトの空間位置を記述するデータが記憶されている。例えば、図１１(b)に示すように、表示装置４の表示画面における左下を原点とするｘ,ｙ,ｚ座標系を設定し、上記発話オブジェクトの空間位置データを上記ｘ,ｙ,ｚ座標上の位置で表すのである。図１１(b)では、座標位置４３が、上記発話オブジェクトの空間位置データとなっている。尚、画像に複数の発話オブジェクトが含まれる場合には、発話オブジェクト毎に異なる空間位置データを割当てるのである。

上記障害物空間位置記憶部４０には、例えば、画像データ記憶部３６に記憶された画像データ中に存在する壁や建物等の障害物の空間位置を示すデータである。例えば、図１１(b)に示すように、表示装置４の表示画面における左下を原点とするｘ,ｙ,ｚ座標系を設定し、上記障害物の空間位置データを上記ｘ,ｙ,ｚ座標上の位置で表すのである。図１１(b)では、ハッチングの領域４４が、上記障害物の空間位置データとなっている。尚、画像に複数の障害物が含まれる場合には、障害物毎に異なる空間位置データを割当てるのである。

後に詳細に説明するが、上記第２音データ加工部３４は、上記発話オブジェクトの方向ベクトル,発話オブジェクトの空間位置データおよび障害物の空間位置データ等に基づいて、発話オブジェクトが発する音を加工して出力するのである。

以下、説明を間端にするために、上記各記憶部３６〜４０に記憶されたデータや方向ベクトルや空間位置データにも、該当する記憶部３６〜４０と同じ番号を付すことにする。

図１２は、上記記憶装置３に記憶されるデータを、上記ＸＭＬによって記述した例である。図１２において、タグ４５は、＜speak＞タグによって囲まれたテキストをテキスト音声合成することを示している。さらに、＜speak＞タグの属性値「object」が上記テキストを発話する発話オブジェクトの種類を示し、属性値「dir」が当該発話オブジェクトの方向ベクトルを示す。また、属性値「position」は当該発話オブジェクトの空間位置データ、つまり画像データ中における発話オブジェクトの座標を示している。

また、図１２において、上記タグ４５を含んで＜obstruction＞と＜/obstruction＞とのタグセットで挟まれてなるタグ４６は、＜obstruction＞タグの属性値「position」は障害物の空間位置データ、つまり画像データ中における障害物の座標を示している。図１２に示す例の場合では、＜obstruction＞タグの属性値「position」は座標(ｘa１,ｙa１,ｚa１)、(ｘb１,ｙb１,ｚb１)、(ｘc１,ｙc１,ｚc１）、(ｘd１,ｙd１,ｚd１)の４点によって囲まれる領域に障害物があることを示している。勿論、障害物の領域は４点の座標で表される四角領域に限定されるものではなく、あらゆる多角形領域や立体領域であっても差し支えない。

このように、上記音源データ３７,発話オブジェクトの方向ベクトル３８,発話オブジェクトの空間位置データ３９および障害物の空間位置データ４０をＸＭＬによって記述することにより、様々な他のフォーマットと互換を保つことができるのである。

尚、図１２に示す例では、空間位置を示す方向ベクトルを三次元情報としているが、二次元情報としても勿論差し支えない。

後述するように、各機能部３１〜３５は、上述したようにＸＭＬ等で表されたデータに基づいて動作するのである。

次に、上記制御装置１を構成する再生指示部３１,画像データ出力部３２,第１音データ加工部３３,第２音データ加工部３４および音合成部３５の動作について説明する。尚、再生指示部３１,画像データ出力部３２,第１音データ加工部３３および音合成部３５は、上記第１実施の形態における再生指示部１１,画像データ出力部１２,音データ加工部１３および音合成部１４と同様に動作するので説明は省略する。以下において、第２音データ加工部３４の動作についてのみ説明する。

上記第２音データ加工部３４は、発話オブジェクトの方向ベクトル３８,発話オブジェクトの空間位置データ３９および障害物の空間位置データ４０に基づいて、音合成部３５によって合成された音データあるいは音合成部３５からの上記ファイルの音データに処理を施して音響効果を加える。そして、上記処理後の音データを音出力装置６に出力する。尚、この第２音データ加工部３４の動作については、後に詳細に説明する。

次に、本実施の形態のオーディオ再生装置の具体的な動作例について、図１３に従って説明する。

図１３には、発話オブジェクト４７と障害物４８との空間位置を示している。尚、図１３(a)は、画像が表示されている表示装置４を正面から見た様子を示しており、図１３(b)は、図１３(a)に示す画像をｙ軸方向上から見下ろした様子を示している。図１３においては、発話オブジェクト４７の方向ベクトル４９の先に障害物４８が在るので、発話オブジェクト４７の発声に反射音(エコー効果)を加えた音の音データに加工して音出力装置６に出力するのである。このように、発話オブジェクト４７の方向ベクトルの先に障害物４８が在る場合に反射音を加えることによって、より現実に近い音空間を実現でき、視聴者に臨場感を与えることができるのである。

次に、上述のような動作を実行する際における制御装置１の各部の処理動作について説明する。但し、本オーディオ再生装置におけるオーディオ再生処理動作は、上記第１実施の形態におけるオーディオ再生処理動作と基本的には同じであり、上記ステップＳ7において実行される音加工処理動作のみが異なる。そこで、以下においては、オーディオ再生処理動作におけるステップＳ7で実行される音加工処理動作のみについて説明する。

図１４は、上記音加工処理動作の詳細なフローチャートである。上記オーディオ再生処理動作におけるステップＳ6において、合成音作成あるいはファイルの音データの取得が終了すると、音加工処理動作がスタートする。

ステップＳ21で、上記第１音データ加工部３３によって、発話オブジェクトの方向ベクトル４９が上記特定の範囲内に在るか否かが判別される。その結果、上記特定範囲内に在る場合にはステップＳ22に進み、そうでない場合にはステップＳ23に進む。ステップＳ22で、第１音データ加工部３３によって、音合成部３５からの音データが低域通過フィルタにかけられて、高周波数成分が抑制される。

ステップＳ23で、上記第２音データ加工部３４によって、発話オブジェクトの方向ベクトル４９の先に障害物４８が在るか否かが判別される。その結果、障害物４８が在る場合にはステップＳ24に進む。一方、障害物４８が無い場合には、音加工処理動作を終了して上記オーディオ再生処理動作におけるステップＳ8にリターンする。具体的には、図１５に示すように、発話オブジェクトの空間位置データ(ｘ3,ｙ3,ｚ3)から発話オブジェクトの方向ベクトル４９の方向に向かう先に障害物の空間位置データａ(ｘa１,ｙa１,ｚa１),ｂ(ｘb１,ｙb１,ｚb１),ｃ(ｘc１,ｙc１,ｚc１),ｄ(ｘd１,ｙd１,ｚd１)で示される障害物４８があるか否かを判別するのである。

ステップＳ24で、上記第２音データ加工部３４によって、上記ステップＳ22において加工が施された音データあるいは加工が施されなかった音データに、反射音(エコー効果)を加える加工が施される。その際に、発話オブジェクト４７と障害物４８との距離が遠いほど反射音の振幅を減衰したり、反射音の遅延量を大きくしたりしても良い。例えば、ある時間ｔにおいて発話オブジェクト４７が発する音をｓ(t)とし、発話オブジェクト４７と障害物４８との距離をｄとし、音速をｃとすると、出力する合成音ｘ(t)を
ｘ(t)＝ｓ(t)＋αｓ(ｔ−βｄ/ｃ)/ｄ
と求めることができる。但し、α,βは、設計者が決める任意の定数である。

このように、画像内に存在する発話オブジェクト４７の方向ベクトル４９の先に障害物４８が在る場合に反射音を加えることによってより現実的な音空間を実現でき、視聴者に臨場感を与えることができる。また、発話オブジェクト４７と障害物４８との距離を考慮することによって、視聴者により臨場感を与えることができるのである。

尚、上記音加工処理動作における上記ステップＳ21およびステップＳ22の処理を行った後の音データに障害物４８からの反射音を加えることによって、現実の音環境により近い臨場感を視聴者に与えることができるのではあるが、処理量を削減するために上記ステップＳ21およびステップＳ22の処理を省いても構わない。

［その他の実施の形態］
上記第１,第２実施の形態においては、本発明の効果を分かり易くするため、発話オブジェクトを含む画像が表示装置４に表示されていることを前提として説明を行っている。しかしながら、勿論、表示装置４は常に備える必要はない。例えば、画像表示を行わないラジオ放送等においても、視聴者は音出力装置６から出力された音によって擬人エージェント等が向いている方向を聴覚的に判断することが可能になるという効果を得ることができる。但し、その場合には、図４(a)に示すような、表示装置４の方向ベクトル２２と同じ意味を表す方向ベクトルを予め定めておく必要がある。

また、上記第１,第２実施の形態においては、発話オブジェクトの例として擬人化エージェントを挙げて説明したが、勿論擬人化エージェントに限定する必要はない。例えば、図１６に示すように、画像中のスピーカを発話オブジェクトとして、音源データ１６,３７、方向ベクトル１７,３８、空間位置データ３９を、関連付けることも可能である。

また、上記第１,第２実施の形態においては、発話オブジェクトの方向ベクトルを予め作成して発話オブジェクト方向記憶部１７,３８に記憶しておくようにしているが、発話オブジェクトの画像データから算出して得るようにすることも可能である。

また、上記第１,第２実施の形態においては、音源データ１６,３７と、発話オブジェクトの方向ベクトル１７,３８と、発話オブジェクトの空間位置データ３９と、障害物の空間位置データ４０とを、上記ＸＭＬによって一つにまとめて記述して記憶装置３に記憶している。しかしながら、この発明によるデータ形式は上記ＸＭＬに限定されるものではなく、音源データ１６,３７と、発話オブジェクトの方向ベクトル１７,３８と、発話オブジェクトの空間位置データ３９と、障害物の空間位置データ４０とを、個別の記憶部に記憶させるようにしても構わない。

ところで、上述したこの発明の目的は、上記第１,第２実施の形態における記憶装置３に記憶されている制御プログラムのうち上記オーディオ再生処理プログラムが記録されたプログラム記録媒体を、他のシステムや装置に装着し、そのシステムや装置のコンピュータによって上記プログラム記録媒体に記録された上記オーディオ再生処理プログラムを読み出して実行することによっても、達成される。

上記オーディオ再生処理プログラムが記録されるプログラム記録媒体として、例えば、フレキシブルディスク,ハードディスク,光ディスク,光磁気ディスク,磁気テープおよび不揮発性のメモリカード等を用いることができる。

また、上記オーディオ再生処理プログラムは、通信ネットワークのような伝送媒体を介して、他のシステムや装置からプログラム記録媒体にダウンロードされたものであっても差し支えない。

ここで、コンピュータが読み出したオーディオ再生処理プログラムを実行することによって、上述したオーディオ再生処理動作が実行されるだけでなく、プログラムの指示に基づいて、コンピュータ上で稼働しているＯＳ(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって上記オーディオ再生処理プログラムとしての機能が実行される場合も含まれることは言うまでもない。

さらに、上記プログラム記録媒体から読み出されたオーディオ再生処理プログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わったメモリに書込まれた後、そのオーディオ再生処理プログラムによる指示に基づいて、上記機能拡張ボードや機能拡張ユニットに備わったＣＰＵ(中央演算処理装置)等が実際の処理の一部または全部を行い、その処理によって上記オーディオ再生処理プログラムとしての機能が実行される場合も含まれることは言うまでもない。

この発明は、上述した各実施形態に限定されるものではなく、特許請求項の範囲に記載された範囲内で種々の変更が可能であり、［その他の実施の形態］に開示された技術的手段を適宜組み合わせて得られる実施の形態もこの発明の技術的範囲に含まれる。

この発明のオーディオ再生装置における機能ブロック図である。図１に示すオーディオ再生装置におけるハードウェア構成を示すブロック図である。ＸＭＬによって記述された音源データおよび発話オブジェクトの方向ベクトルを例示する図である。視聴者が表示装置を正面から見ている様子と、画像中の発話オブジェクトの向きを示す図である。オーディオ再生処理動作のフローチャートである。図５に示すオーディオ再生処理動作中で実行される音加工処理動作の詳細なフローチャートである。発話オブジェクトの方向ベクトルと特定範囲との関係を示す図である。発話オブジェクトの方向ベクトルの向きに応じて低域通過フィルタの通過帯域幅を操作する場合の説明図である。発話オブジェクトの方向ベクトルの向きに応じて指向性スピーカと無指向性スピーカとで切り換える場合の説明図である。図１とは異なるオーディオ再生装置における機能ブロック図である。視聴者が表示装置を正面から見ている様子と、画像中の発話オブジェクトの向き,発話オブジェクトの空間位置データおよび障害物の空間位置データを示す図である。ＸＭＬによって記述された音源データおよび発話オブジェクトの方向ベクトル,発話オブジェクトの空間位置データおよび障害物の空間位置データを例示する図である。発話オブジェクトと障害物との空間位置を示す図である。図１０に示すオーディオ再生装置における音加工処理動作の詳細なフローチャートである。発話オブジェクトの空間位置データから発話オブジェクトの方向ベクトルの方向に向かう先に障害物があるか否かを判別する様子を具体的に示す図である。画像中のスピーカを発話オブジェクトとした場合の様子を示す図である。

符号の説明

１…制御装置、
２…入力装置、
３…記憶装置、
４…表示装置、
５…通信装置、
６…音出力装置、
１１,３１…再生指示部、
１２,３２…画像データ出力部、
１３…音データ加工部、
１４,３５…音合成部、
１５,３６…画像データ記憶部、
１６,３７…音源データ記憶部、
１７,３８…発話オブジェクト方向記憶部、
２４a,２４b,２７,４９…発話オブジェクトの方向ベクトル、
２１,４１…視聴者、
２２,４２…表示装置の方向ベクトル、
２３a,２３b,４７…発話オブジェクト、
２５…特定の軸、
２６…特定範囲、
２８…軸ベクトル、
２９…指向性スピーカ、
３０…無指向性スピーカ、
３３…第１音データ加工部、
３４…第２音データ加工部、
３９…発話オブジェクト空間位置記憶部、
４０…障害物空間位置記憶部、
４３…発話オブジェクトの座標位置、
４４…障害物の座標位置、
４８…障害物。

Claims

空間位置情報を有すると共に、音を発するオブジェクトの方向を表すオブジェクトの方向ベクトルを記憶するオブジェクト方向記憶手段と、
上記オブジェクトが発する音を表す音源データを記憶する音源データ記憶手段と、
上記音源データに基づく上記オブジェクトが発する音の音データを、上記オブジェクトの方向ベクトルの向きに基づいて加工する音データ加工手段と、
上記加工された音データに基づく音を出力する音出力手段と
を備えていることを特徴とするオーディオ再生装置。
請求項１に記載のオーディオ再生装置において、
上記音源データ記憶手段は、上記音源データとして、上記オブジェクトが発する音を表すテキストデータを記憶しており、
上記音データ加工手段による上記音データの加工に先だって、上記テキストデータに基づいて、上記オブジェクトが発する音の音データを合成する音声合成手段を備えたことを特徴とするオーディオ再生装置。
請求項１に記載のオーディオ再生装置において、
上記オブジェクトを含む画像の画像データを記憶する画像データ記憶手段と、
上記画像データに基づく画像を表示する表示手段と
を備えたことを特徴とするオーディオ再生装置。
請求項３に記載のオーディオ再生装置において、
上記音データ加工手段は、上記表示手段によって表示された画像に含まれているオブジェクトに関する上記オブジェクトの方向ベクトルの向きが、上記表示手段の画面に立てた垂線の向きから所定の角度以上外れている場合には、当該オブジェクトが発する音の周波数帯域における高域成分を遮断するようになっていることを特徴とするオーディオ再生装置。
請求項３に記載のオーディオ再生装置において、
上記音データ加工手段は、上記表示手段によって表示された画像に含まれているオブジェクトに関する上記オブジェクトの方向ベクトルの向きと、上記表示手段の画面に立てた垂線の向きとの角度差が大きいほど、当該オブジェクトが発する音の周波数帯域におけるより広い範囲の高域成分を遮断するようになっていることを特徴とするオーディオ再生装置。
請求項３に記載のオーディオ再生装置において、
上記音データ加工手段は、上記表示手段によって表示された画像に含まれているオブジェクトに関する上記オブジェクトの方向ベクトルの向きが、上記表示手段の画面に立てた垂線の向きから所定の角度以上外れている場合には、当該オブジェクトが発する音の振幅を減衰するようになっていることを特徴とするオーディオ再生装置。
請求項３に記載のオーディオ再生装置において、
上記音データ加工手段は、上記表示手段によって表示された画像に含まれているオブジェクトに関する上記オブジェクトの方向ベクトルの向きが、上記表示手段の画面に立てた垂線の向きと同じ場合には、特定の方向にのみに当該オブジェクトの音を放射させるようになっていることを特徴とするオーディオ再生装置。
請求項３に記載のオーディオ再生装置において、
上記画像データに基づく画像には、空間位置情報を有する障害物が含まれており、
上記オブジェクトの空間位置を記憶するオブジェクト空間位置記憶手段と、
上記障害物の空間位置を記憶する障害物空間位置記憶手段と
を備え、
上記音データ加工手段は、上記表示手段によって表示された画像に含まれている上記オブジェクトの空間位置から上記オブジェクトの方向ベクトルの方向に障害物が存在するか否かを判定し、上記方向に障害物が存在する場合には、当該オブジェクトが発する音に上記障害物によって反射した反射音を加えた音の音データに加工するようになっていることを特徴とするオーディオ再生装置。
請求項１に記載のオーディオ再生装置において、
上記オブジェクトは、人間の形態を模倣した擬人化エージェントであり、
上記オブジェクトの方向ベクトルは上記擬人化エージェントにおける顔の向きである
ことを特徴とするオーディオ再生装置。
コンピュータを、
請求項１におけるオブジェクト方向記憶手段,音源データ記憶手段,音データ加工手段および音出力手段
として機能させることを特徴とするオーディオ再生プログラム。
請求項１０に記載のオーディオ再生プログラムが記録されたことを特徴とするコンピュータ読出し可能なプログラム記録媒体。