JP2008219563A

JP2008219563A - 音声信号生成装置、音場再生装置、音声信号生成方法およびコンピュータプログラム

Info

Publication number: JP2008219563A
Application number: JP2007055434A
Authority: JP
Inventors: Masami Miura; 雅美三浦; Susumu Yabe; 進矢部
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2007-03-06
Filing date: 2007-03-06
Publication date: 2008-09-18

Abstract

【課題】最適な音場を形成することが可能な音声信号生成装置、音場再生装置、音声信号生成方法およびコンピュータプログラムを提供すること。
【解決手段】音声情報および音源位置情報から波面合成によって形成される仮想音源の中に、アレイスピーカの条件であるアレイスピーカ条件と標準アレイスピーカ条件とが異なるときに、音声情報と音源位置情報とから波面合成によって形成される仮想音源を変換する変換処理を行う変換部１４０と；音声情報および音源位置情報と、変換部１４０での変換結果とを用いて、仮想音源を形成するためのｍチャネルの音声信号を生成する音声信号生成部１３０と；を含むことを特徴とする、音声信号生成装置１１５が提供される。
【選択図】図１

Description

本発明は、音声信号生成装置、音場再生装置、音声信号生成方法およびコンピュータプログラムに関する。

臨場感のある音を再生するために、複数のスピーカを用いて多チャンネルの音声信号を再生するステレオ再生システムが広く知られている。例えば、５．１チャンネルサラウンドシステムは、５つのスピーカと１つのサブウーファースピーカを用いて音の再生を行う。ＩＴＵ−ＲＢＳ７７５（ＩｎｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎＵｎｉｏｎＲａｄｉｏｃｏｍｍｕｎｉｃａｔｉｏｎｓＳｅｃｔｏｒ）の規定に従ってスピーカを配置し、それぞれのチャンネルに対応するスピーカから異なる音波が出力され、それを受聴者が耳にすることによって、受聴者は臨場感のある音を楽しむことができる。

５．１チャンネルサラウンドシステムのようなステレオ再生システムは、所定の受聴位置においては、目的となる音像定位を得ることができる。しかし、このようなステレオ再生システムは、目的となる音像定位を得られる範囲が狭いため、所定の受聴位置以外の場所においては、受聴者が耳にする再生音が、所定の受聴位置で耳にする再生音と比較して大きく異なってしまう。

そこで、本来の音源が存在した音場そのものを、空間に物理的に再現することを目的とするマルチチャンネルオーディオシステムがある。マルチチャンネルオーディオシステムは、音場合成技術である波面合成技術を用いるものであり、複数のスピーカからなるアレイスピーカから音波が出力される。出力される音波は、干渉のない波となって受聴者に伝わる。その音波を受聴者が耳にすることによって、受聴者は臨場感のある音を楽しむことができる。

図２３は、音源からの波面を模式的に表している説明図である。図２３の（ａ）は１つの音源（スピーカ）から音声を出力する際の波面を模式的に表し、図２３の（ｂ）はマルチチャンネルオーディオシステムで音声を出力する際の波面を模式的に表している。図２３の（ｂ）に示したように、個々のスピーカから放射される音声のタイミングとレベルを制御することにより、あたかも１つの音源から音声が発せられているかのような波面を生成することができる。

また、マルチチャンネルオーディオシステムは仮想的に音源を配置し、その配置した音源から音が発せられているものとするように波面を合成することで、受聴者はあたかもその場所から音が発せられているかのように臨場感のある音を楽しむことができる。

このようなマルチチャンネルオーディオシステムは、ステレオ再生システムに比べて目的となる音像定位を得られる範囲が広い。そのため、広い室内において、より多くの受聴者が臨場感のある音を楽しむことができる。

図２４は、波面合成によって２つの音源からの波面を再現する場合について説明する説明図である。図２４に示したように、波面合成技術を用いることによって音場の任意の位置から発せられる波面を、アレイスピーカから発する音声によって再現することができる。

波面合成技術を用いれば、上述のように音場の任意の位置から発せられる波面を再現することができるため、受聴者はより臨場感のある音場を楽しむことができる。図２５は、ステレオ方式とマルチチャンネルオーディオシステムとによる受聴イメージの違いについて説明する説明図である。図２５の（ａ）はステレオ方式による５つの音源の受聴イメージを示しており、図２５の（ｂ）はマルチチャンネルオーディオシステムによる５つの音源の受聴イメージを示している。

図２５の（ａ）に示したように、ステレオ方式によれば、受聴者が左右のスピーカＳＰＬ、ＳＰＲの中央に位置した場合でなければ所望の音場を再現することができず、しかも音像を左右のスピーカＳＰＬ、ＳＰＲ間のライン上に配置されたものとしてしか音像を得ることができなかった。一方、図２５の（ｂ）に示したように、マルチチャンネルオーディオシステムによれば、ｍ個のスピーカＳＰ１、ＳＰ２・・・ＳＰｍから発せられる音声によって形成される音場は、ステレオ方式の場合よりも広い範囲で所望の音場を再現することができ、さらに、音源を奥行き方向も含めた任意の位置に配置し、音像もそのように知覚させることができる。従って、モニタＭＯで表示する映像に合わせて音源を任意の位置に配置することで、受聴者はより臨場感のある音場を楽しむことができる。

マルチチャンネルオーディオシステムを用いて音を再生する際には、再生音の基となる音源データに、仮想的に音源を配置する位置情報と、想定しているシステムの構成、例えばアレイスピーカを構成するスピーカの数や想定する受聴者の受聴位置の情報を予め含めておく。そして、マルチチャンネルオーディオシステムにおいて音源データに含まれるそれらの情報に基づいて音の再生を行うことで、臨場感のある音を表現することができる（特許文献１参照）。

特開２００６−２７９５５５号公報

しかし、マルチチャンネルオーディオシステムにおいては、必ずしも想定しているシステムで音声が再生されるとは限らない。システムによってはアレイスピーカを構成するスピーカの数や、想定する受聴者の受聴位置が異なっている。そのような異なるシステムで音を再生すると、映像や音声（以下、映像や音声を総称して「コンテンツ」とも称する）を制作した制作者の想定通りに音が再生されず、臨場感のある音を再現できないという問題があった。

例えば、コンテンツ制作者が１６個のスピーカからなるアレイスピーカで音声を出力することを想定して作られたコンテンツを、１２個のスピーカからなるアレイスピーカを有するシステムで再生した場合に、スピーカ４個分の音声が出力されないおそれがある。

想定しているシステムでしか臨場感を再現できないのであれば、互換性が非常に悪くなってしまう。従って、どのような構成のマルチチャンネルオーディオシステムであっても、コンテンツ制作者の想定通りまたは想定したものに近い、臨場感のある音が再現される必要がある。

そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、マルチチャンネルオーディオシステムがどのような構成を有していても最適な音場を形成することが可能な、新規かつ改良された音声信号生成装置、音場再生装置、音声信号生成方法およびコンピュータプログラムを提供することにある。

上記課題を解決するために、本発明のある観点によれば、音声情報と音源位置情報とが含まれる音声データを入力し、アレイ状に配されたｍ個のスピーカからなるアレイスピーカから音を出力することで、仮想空間内に配された仮想音源からなる音場を現実空間の想定受聴者位置が含まれる想定受聴領域に再生するための音声信号を生成する音声信号生成装置であって：アレイスピーカの条件であるアレイスピーカ条件と標準アレイスピーカ条件とが異なるときに、音声情報と音源位置情報とから波面合成によって形成される仮想音源を変換する変換処理を行う変換部と；音声情報および音源位置情報と、変換部での変換結果とに基づいて、仮想音源を形成するためのｍチャネルの音声信号を生成する音声信号生成部と；を含むことを特徴とする、音声信号生成装置が提供される。

かかる構成によれば、変換部はアレイスピーカの条件であるアレイスピーカ条件と標準アレイスピーカ条件とが異なるときに、音声情報と音源位置情報とから波面合成によって形成される仮想音源を変換する変換処理を行い、音声信号生成部は音声情報および音源位置情報と、変換部での変換結果とに基づいて、仮想音源を形成するためのｍチャネルの音声信号を生成する。その結果、コンテンツ制作時に想定したアレイスピーカと実際にコンテンツを再生するアレイスピーカの条件が異なっているときに、コンテンツを再生するアレイスピーカで再生できるように仮想音源の変換処理を行うことで、コンテンツ制作時に想定した想定受聴領域で仮想音源による音声を聴くことができる。

音声データから音声情報および音源位置情報を抽出する音場情報抽出部をさらに含んでいてもよい。かかる構成によれば、音場情報抽出部は音声データから音声情報および音源位置情報を抽出する。その結果、音声情報および音源位置情報が含まれる音声データを、ネットワークや記録媒体から読み込むことによって、想定受聴領域で仮想音源による音声を聴くことができる。

変換部における変換処理は、音声情報、音源位置情報、アレイスピーカ条件および標準アレイスピーカ条件に基づいて、音声情報と音源位置情報とを変換して変換音声情報および変換音源位置情報を生成する処理であり、音声信号生成部は、変換音声情報および変換音源位置情報から、仮想音源を形成するためのｍチャネルの音声信号を生成してもよい。かかる構成によれば、音声信号生成部は、音声情報、音源位置情報、アレイスピーカ条件および標準アレイスピーカ条件に基づいてから、仮想音源を形成するためのｍチャネルの音声信号を生成する。その結果、アレイスピーカを窓とみなして、想定受聴領域からその窓を通して見渡せる位置に存在しないような仮想音源を、想定受聴領域から見渡すことができるような位置に再配置することによって、想定受聴領域で仮想音源による音声を聴くことができる。

変換部は、想定受聴者位置からの奥行きを変化させずに仮想音源を再配置するように、変換音声情報および変換音源位置情報を生成してもよい。

変換部は、音声情報および音源位置情報を作成した際に想定した受聴者位置、アレイスピーカの中心位置および仮想音源の位置からなる三角形と相似関係となる位置に仮想音源を再配置するように、変換音声情報および変換音源位置情報を生成してもよい。

また、上記課題を解決するために、本発明の別の観点によれば、音声情報および音源位置情報が含まれる音声データを入力し、アレイ状に配されたｍ個のスピーカからなるアレイスピーカから音を出力することで、仮想空間内に配された仮想音源からなる音場を現実空間の想定受聴者位置が含まれる想定受聴領域に再生する音場再生装置であって：アレイスピーカの条件であるアレイスピーカ条件と標準アレイスピーカ条件とが異なるときに、音声情報と音源位置情報から波面合成によって形成される仮想音源を変換する変換処理を行う変換部と；音声情報および音源位置情報と、変換部での変換結果とに基づいて、仮想音源を形成するためのｍチャネルの音声信号を生成する音声信号生成部と；ｍチャネルの音声信号を波面合成し、ｍチャネルの音声を出力することで、想定受聴領域に音場を再生する音声出力部と；を含むことを特徴とする、音場再生装置が提供される。

かかる構成によれば、変換部はアレイスピーカの条件であるアレイスピーカ条件と標準アレイスピーカ条件とが異なるときに、音声情報と音源位置情報とから波面合成によって形成される仮想音源を変換する変換処理を行い、音声信号生成部は音声情報および音源位置情報と、変換部での変換結果とに基づいて、仮想音源を形成するためのｍチャネルの音声信号を生成し、音声出力部はｍチャネルの音声信号を波面合成し、ｍチャネルの音声を出力することで、想定受聴領域に音場を再生する。その結果、コンテンツ制作時に想定したアレイスピーカと実際にコンテンツを再生するアレイスピーカの条件が異なっているときに、コンテンツを再生するアレイスピーカで再生できるように仮想音源の変換処理を行って、ｍチャネルの音声信号を出力することで、想定受聴領域で仮想音源による音声を聴くことができる。

また、上記課題を解決するために、本発明の別の観点によれば、音声情報および音源位置情報が含まれる音声データを入力し、アレイ状に配されたｍ個のスピーカからなるアレイスピーカから音を出力することで、仮想空間内に配された仮想音源からなる音場を現実空間の想定受聴者位置が含まれる想定受聴領域に再生するための音声信号を生成する音声信号生成方法であって：アレイスピーカの条件であるアレイスピーカ条件と標準アレイスピーカ条件とが異なるかを判断する判断ステップと；判断ステップにおいてアレイスピーカ条件と標準アレイスピーカ条件とが異なると判断されたときに、音声情報と音源位置情報から波面合成によって形成される仮想音源を変換する変換ステップと；音声情報および音源位置情報と、変換ステップでの変換結果とに基づいて、仮想音源を形成するためのｍチャネルの音声信号を生成する音声信号生成ステップと；を含むことを特徴とする、音声信号生成方法が提供される。

かかる構成によれば、判断ステップはアレイスピーカの条件であるアレイスピーカ条件と標準アレイスピーカ条件とが異なるかを判断し、変換ステップは判断ステップにおいてアレイスピーカ条件と標準アレイスピーカ条件とが異なると判断されたときに、音声情報と音源位置情報から波面合成によって形成される仮想音源を変換する変換処理を行い、音声信号生成ステップは、音声情報および音源位置情報と、変換ステップでの変換結果とに基づいて、仮想音源を形成するためのｍチャネルの音声信号を生成する。その結果、コンテンツ制作時に想定したアレイスピーカと実際にコンテンツを再生するアレイスピーカの条件が異なっているときに、コンテンツを再生するアレイスピーカで再生できるように仮想音源の変換処理を行うことで、想定受聴領域で仮想音源による音声を聴くことができる。

また、上記課題を解決するために、本発明の別の観点によれば、音声情報および音源位置情報が含まれる音声データを入力し、アレイ状に配されたｍ個のスピーカからなるアレイスピーカから音を出力することで、仮想空間内に配された仮想音源からなる音場を現実空間の想定受聴者位置が含まれる想定受聴領域に再生するための音声信号を生成するためのコンピュータプログラムであって、コンピュータに：アレイスピーカの条件であるアレイスピーカ条件と標準アレイスピーカ条件とが異なるかを判断する判断ステップと；判断ステップにおいてアレイスピーカ条件と標準アレイスピーカ条件とが異なると判断されたときに、音声情報と音源位置情報から波面合成によって形成される仮想音源を変換する変換ステップと；音声情報および音源位置情報と、変換ステップでの変換結果とに基づいて、仮想音源を形成するためのｍチャネルの音声信号を生成する音声信号生成ステップと；を含む処理を実行させることを特徴とする、コンピュータプログラムが提供される。

かかる構成によれば、判断ステップはアレイスピーカの条件であるアレイスピーカ条件と標準アレイスピーカ条件とが異なるかを判断し、変換ステップは判断ステップにおいてアレイスピーカ条件と標準アレイスピーカ条件とが異なると判断されたときに、音声情報と音源位置情報から波面合成によって形成される仮想音源を変換し、音声信号生成ステップは、音声情報および音源位置情報と、変換ステップでの変換結果とに基づいて、仮想音源を形成するためのｍチャネルの音声信号を生成する。その結果、コンテンツ制作時に想定したアレイスピーカと実際にコンテンツを再生するアレイスピーカの条件が異なっているときに、コンテンツを再生するアレイスピーカで再生できるように仮想音源の変換処理を行うことで、想定受聴領域で仮想音源による音声を聴くことができる。

以上説明したように本発明によれば、マルチチャンネルオーディオシステムがどのような構成を有していても最適な音場を形成することが可能な、新規かつ改良された音声信号生成装置、音場再生装置、音声信号生成方法およびコンピュータプログラムを提供することができる。

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

（第１の実施形態）
まず、本発明の第１の実施形態にかかる音声信号生成装置、音場再生装置および音声信号生成方法について説明する。図１は、本発明の第１の実施形態にかかる音場再生装置について説明する説明図である。以下、図１を用いて本発明の第１の実施形態にかかる音場再生装置の構成について説明する。

図１に示したように、本発明の第１の実施形態にかかる音場再生装置１０は、光ディスク再生装置１１０と、逆多重化部１１４と、音声信号生成装置１１５と、アンプ１５０と、アレイスピーカ１６０と、字幕データ抽出部１７０と、字幕データ再生部１７２と、映像データ抽出部１８０と、映像再生部１８２と、字幕スーパーインポーズ部１９０と、表示部１９２と、を含んで構成される。そして、音声信号生成装置１１５は、音場情報抽出部１２０と、音声信号生成部１３０と、変換部１４０と、を含んで構成される。

光ディスク再生装置１１０は、光ディスク（図示せず）から信号を読み込むものである。逆多重化部１１４は、光ディスク再生装置１１０で読み取った信号に対して逆多重化処理を施し、映像データや音声データを抽出するものである。本発明の第１の実施形態にかかる光ディスク再生装置で読み込む光ディスクは、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、その他の数百メガバイト以上の大容量を有する光ディスクである。

音場情報抽出部１２０は、逆多重化部１１４で抽出した音声データから、仮想音源を形成するための音声情報および音源位置情報を抽出するものである。音声情報には、各仮想音源の種類や出力レベル、音の持続時間等の情報を含めることができる。音声信号生成部１３０は、音場情報抽出部１２０で抽出した音声情報および音源位置情報から、波面合成によって仮想音源を形成するための音声信号を生成するものである。

変換部１４０は、音場再生装置１０の環境が、音場情報抽出部１２０で抽出した音声情報および音源位置情報に含まれる、予め想定された再生条件を満たさないものである場合に、再生条件を満たすように音声情報や音源位置情報の変換を行うものである。音場再生装置１０の環境が再生条件を満たさない場合とは、例えばアレイスピーカ１６０を構成するスピーカの数がコンテンツに含まれる音声を出力するために必要なスピーカの数と合わない場合や、音場再生装置１０の再生能力が、コンテンツ制作者が想定した再生能力より劣っている場合、コンテンツ制作者が想定する受聴者の位置が音場再生装置１０の想定受聴者位置と異なっている場合などを指す。音声情報や音源位置情報の変換方法については後に詳述する。

アンプ１５０は、音声信号生成部１３０で生成された音声信号を、アレイスピーカ１６０での再生のために増幅するものである。アレイスピーカ１６０は、本発明の音声出力部の一例であり、ｍ個のスピーカユニット（図示せず）から音声を出力するものである。アレイスピーカ１６０から出力される音声は、波面合成されて干渉のない波面を形成する。また、アレイスピーカ１６０からは面合成によって音声を出力することで、空間上に仮想的に音源を配し、その音源から音声が発せられているような音場を再生することができる。

字幕データ抽出部１７０は、逆多重化部１１４で逆多重化した信号から字幕データを抽出する。字幕データ再生部１７２は、字幕データ抽出部１７０で抽出した字幕データの再生を行う。映像データ抽出部１８０は、逆多重化部１１４で逆多重化した信号から映像データを抽出する。映像再生部１８２は、映像データ抽出部１８０で抽出した映像データの再生を行う。字幕スーパーインポーズ部１９０は、映像データに字幕データを重ね合わせる処理を行う。表示部１９２は、字幕データが重ね合わされた映像データを表示する。

以上、本発明の第１の実施形態にかかる音場再生装置の構成について説明した。次に、本発明の第１の実施形態にかかる音場再生装置の動作について説明する。

光ディスク再生装置１１０に光ディスクが挿入されると、光ディスク再生装置１１０で光ディスクから信号を読み取る。読み取った信号データは逆多重化部１１４に送られ、逆多重化処理が行われて複数の信号となる。逆多重化部１１４で逆多重化された信号は、音場情報抽出部１２０、字幕データ抽出部１７０および映像データ抽出部１８０に送られる。そして音場情報抽出部１２０では、アレイスピーカ１６０から音声を再生することで再現する音場に関する情報の抽出を行い、字幕データ抽出部１７０では字幕データの抽出を行い、映像データ抽出部１８０は映像データの抽出を行う。

音場情報抽出部１２０で抽出する音場に関する情報とは、例えば波面合成によって仮想音源を形成する際の仮想音源の位置情報や、仮想音源が出力する音声に関する音声情報などが含まれる。音場情報抽出部１２０で抽出した情報は音声信号生成部１３０に送られ、音声信号生成部１３０において波面合成によって仮想音源を形成するための音声信号が生成される。

ここで、音声信号を生成する際に、コンテンツ制作者が想定した音場に関する条件と、音場再生装置１０が有する条件が異なる場合には、コンテンツ制作者が想定した条件に一致する、またはなるべく近くなるように、変換部１４０において音声信号の変換処理を行う。音声信号の変換処理を含めた音声信号生成方法については後述する。

音声信号生成部１３０で生成された音声信号は、アンプ１５０に送られる。アンプ１５０に送られた音声信号は、アンプ１５０において増幅処理が行われ、アレイスピーカ１６０に送られる。アレイスピーカ１６０は、アンプ１５０から送られた音声信号を基に音声を出力する。アレイスピーカ１６０から出力される音声は、波面合成によって干渉の無い波面が形成され、受聴者は、あたかも空間内に音源が仮想的に配されているような音声を楽しむことができる。

また、字幕データ抽出部１７０で抽出した字幕データは、字幕データ再生部１７２に送られて字幕の再生が行われ、映像データ抽出部１８０で抽出した映像データは、映像再生部１８２で映像の再生が行われる。そして、字幕スーパーインポーズ部１９０において映像に字幕データが重ね合わされ、表示部１９２に字幕データが重ね合わされた映像が表示される。もちろん、字幕データが存在しないコンテンツであれば、字幕データを重ね合わせずに映像を表示してもよい。

以上、本発明の第１の実施形態にかかる音場再生装置の動作について説明した。次に、本発明の第１の実施形態にかかる音声信号生成方法について説明する。

光ディスク再生装置１１０で読み込む光ディスクには、少なくとも複数の音源の位置情報と音声情報とが音声データとして多重化されて記録されている。図２は、本発明の第１の実施形態にかかる音声データの構成例について説明する説明図である。図２に示したように、本発明の第１の実施形態にかかる音声データは、１つの波面合成データセル３１、３２・・・という単位で、音場を再生するためのデータが含まれている。音場再生装置１０は、光ディスク再生装置１１０でセルを順次読み込むことで映像や音声を再生する。

第１波面合成データセル３１は、標準再生配置条件情報３１０と、音源数３１２と、音源１情報ヘッダ３１４ａと、音源１データ３１４ｂと、・・・、音源ｎ情報ヘッダ３１６ａと、音源ｎデータ３１６ｂと、を含んで構成される。

標準再生配置条件情報３１０には、例えばアレイスピーカの条件（標準アレイスピーカ条件）や、想定する受聴者位置等が含まれる。アレイスピーカの条件には、例えばアレイスピーカを構成するための条件が含まれ、アレイスピーカの条件としては、例えばアレイスピーカを構成するスピーカの数や、スピーカ間の間隔等の情報が含まれる。音源数３１２には音源の数が含まれる。例えば音源の数が３つであれば「３」という値が含まれる。

各音源のヘッダには、音源ＩＤ、音源位置とその更新情報、音源の指向特性とその更新情報、音源のレベル、音源の開始時刻と終了時刻、音源のデータ種別等が含まれる。音源ＩＤは、それぞれの音源を識別するＩＤコードである。例えば、次に再生するセルである第２波面合成データセル３２に、同じ音源ＩＤが含まれていたら、それは続きのデータであることを示している。また、音源が移動したり、向きを変えたりするときは、その変化するタイミングの時刻や、変化する量、方向などをデータに含めることで、音源の変化を表すことができる。

音源のレベルには、レベルの単位種別（ｄＢ／リニア）とその値が含まれる。また、音源データ種別には、出力する音源の種別、例えばＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）、ＭＩＤＩ（ＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）。ＭＰ３（ＭＰＥＧ−１ＡｕｄｉｏＬａｙｅｒ−３）、ＡＡＣ（ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ）などが含まれる。

音場再生装置１０は、光ディスクからこのようなセルに格納されたデータを順次読み取り、波面合成によってアレイスピーカ１６０から音声を出力することで、空間内に仮想音源からなる音場を再現する。

波面合成によって仮想音源を形成するには、アレイスピーカ１６０を構成するスピーカの数だけ波面合成を行うための畳み込み演算を行わなければならない。従って、再現する音源の数が増えれば増えるほど、演算量も増えていくことになる。

しかし、音場再生装置の構成が、コンテンツを制作したコンテンツ制作者が想定する構成とは異なる場合が十分考えられる。音場再生装置１０の構成によっては、光ディスクで読み取った音声データに基づいて音場を再生するだけの演算能力が十分でない場合や、アレイスピーカ１６０を構成するスピーカの数が合わない場合がある。このような場合で無理に音場を再生しようとすると、コンテンツ制作者の想定通りの音場が再生されないおそれがある。

そこで、本発明の第１の実施形態においては、音場再生装置の構成がコンテンツ制作者の想定とは異なる場合に、音声信号を変換してアレイスピーカから音声を出力することで、コンテンツ制作者の想定に近い音場を再現する音場再生装置について説明する。

（１）高周波成分の付加
最初に、本発明の第１の実施形態においては、音場再生装置の構成がコンテンツ制作者の想定とは異なる場合に、スピーカから高周波の音声を出力することでコンテンツ制作者の想定に近い音場を再現する音場再生装置について説明する。

波面合成によって音場を生成できる周波数には上限が存在する。この上限周波数をｆ_ｈ［Ｈｚ］とする。上限周波数ｆ_ｈは、アレイスピーカと仮想音源からの波面のなす角度によって変化する。図３を用いてこれを説明する。アレイスピーカと仮想音源からの波面のなす角度をθ［度］とすると、θ＝９０度の場合には、受聴位置がアレイスピーカから十分離れているとみなすと、上限周波数ｆ_ｈ９０＝｛音速／（スピーカユニット間隔×２）｝［Ｈｚ］であり、それ以外の場合の上限周波数は、ｆ_ｈ９０の１／ｓｉｎθ倍となる。

仮想音源からの波面とアレイスピーカとのなす角度θおよび上限周波数ｆ_ｈの関係により、仮想音源の位置、アレイスピーカの位置および受聴位置の関係で、波面合成によって音場を生成できる上限周波数が変化する。図４および図５は、仮想音源の位置と波面の様子について説明する説明図である。図４は、仮想音源の位置がアレイスピーカに近い場合と遠い場合における、仮想音源位置、アレイスピーカ位置および受聴者位置と波面の様子について示したものであり、図５は、仮想音源の位置がアレイスピーカの中央と端に配置された場合における、仮想音源位置、アレイスピーカ位置および受聴者位置と波面の様子について示したものである。

図４に示したように、仮想音源Ａのように仮想音源の位置がアレイスピーカから近い場合でも、仮想音源Ｂのように仮想音源の位置がアレイスピーカから遠い場合でも、想定受聴者位置が各仮想音源の正面であれば、アレイスピーカと仮想音源からの波面のなす角度が小さいので、波面合成できる上限周波数ｆ_ｈは高くなる。一方、図５に示したように、仮想音源Ｂのように仮想音源がアレイスピーカの端の位置に存在する場合には、仮想音源Ａのように仮想音源がアレイスピーカの端の位置に存在する場合に比べて、波面合成できる上限周波数ｆ_ｈは低くなる。

ここで、受聴者の位置が仮想音源の正面から左右のどちらかにずれればずれる程、アレイスピーカと仮想音源からの波面とのなす角は大きくなる。従って、受聴者の位置が仮想音源の正面から左右のどちらかにずれればずれる程、波面合成の精度が高域の周波数帯で落ちてしまう問題が生じる。精度の低下は、図４に示したような仮想音源の位置がアレイスピーカに近い場合に特に問題となり、仮想音源Ｂの正面から左右のどちらかに少しずれただけでもアレイスピーカと仮想音源からの波面とのなす角は大きくなり、波面合成の精度が高域の周波数帯で低下してしまう問題が生じる。

そこで、本実施形態においては、変換部１４０において高域の周波数を付加して出力することで、波面合成の精度を補うことによって、波面合成によって臨場感のある音場の再生を行うことを目的とする。

図６は、本発明の第１の実施形態にかかる高域周波数成分付加方法について説明する流れ図である。まず、再生系のアレイスピーカの仕様と、想定受聴者位置とから、各仮想音源位置での波面合成周波数帯域と高域周波数付加処理とのクロス周波数を設定する（ステップＳ１１２）。

次に、音声信号生成部１３０において、各仮想音源について音源位置に対応する波面合成フィルタの畳み込み演算を行って音声信号を生成する（ステップＳ１１４）。波面合成フィルタの畳み込み演算を行うことで、波面合成によって仮想音源を形成するための音声信号が生成される。

次に、上記ステップＳ１１２で設定した各仮想音源位置でのクロス周波数に従って、変換部１４０において上記ステップＳ１１４で生成した音声信号にローパスフィルタをかけて（ステップＳ１１６）、ローパスフィルタをかけられた音声信号に、上記ステップＳ１１２で設定した各仮想音源位置でのクロス周波数に従って高域周波数成分を付加する（ステップＳ１１８）。

このように、音声信号生成部１３０で生成した音声信号に変換部１４０で高域周波数成分を付加することによって、高域周波数成分が含まれる仮想音源による音場を再生する場合であっても、波面合成の精度を補って波面合成による音場の再生を行うことができる。

ここで、高域周波数成分を出力するスピーカユニットを、所望する音場に応じて変えてもよい。図７および図８は、高域周波数成分を出力するスピーカユニットについて説明する説明図である。図７は、仮想音源の位置がアレイスピーカ１６０から離れている場合について説明する説明図であり、図８は、図７に比べて仮想音源の位置がアレイスピーカ１６０に近い場合について説明する説明図である。

高域周波数成分を出力するスピーカユニットは、図７の（ａ）のように、仮想音源と想定受聴者位置の中央に位置する受聴者とを結んだ直線上に位置するスピーカユニットとしてもよく、図７の（ｂ）のように、仮想音源と想定受聴者位置の中央に位置する受聴者とを結んだ直線上に位置するスピーカユニットから左右に所定数だけ離れたスピーカユニットとしてもよい。図７の（ｂ）のように、左右のスピーカユニットから高周波成分を出力することで左右（Ｌ、Ｒ）の虚音像を生成して音場を再生することができる。所定数は、仮想音源とアレイスピーカとの距離に応じて変えてもよい。図８に示した例においては、図７に比べて仮想音源の位置がアレイスピーカ１６０に近いため、高域周波数成分を出力するスピーカユニットは、仮想音源と想定受聴者位置の中央に位置する受聴者とを結んだ直線上に位置するスピーカユニットから、図７の（ｂ）に比べて少ない所定数だけ左右に離れたスピーカユニットとしてもよい。

なお、上述した上限周波数は、受聴者の位置がアレイスピーカから十分離れており、個々のスピーカユニットから発せされる波面が空間内で合成できているとみなせる場合である。図９に示したように、アレイスピーカに近接した位置では、個々のスピーカユニットからの音波の影響が残っており、書くスピーカユニットの正面の音圧分布に乱れが生じている。

以上、スピーカユニットから高周波成分の音声を付加することによって波面合成の精度を上げて、より臨場感のある音場を再生する方法について説明した。

（２）仮想音源の再配置
次に、仮想音源の位置を、再生する環境に応じて変換して変換仮想音源として再配置することで、コンテンツ制作者の想定に近い音場を再現する音場再生装置について説明する。

アレイスピーカの長さによって、仮想音源位置からの波面が精度よく届く受聴領域が変化する。アレイスピーカを用いて仮想音源が作る波面を合成する場合、あたかもアレイスピーカが窓になっていて、受聴者はその窓を通して音声を聞くような波面が受聴領域に形成される。従って、アレイスピーカという窓を通して受聴者から音源位置が見渡せる場合と、音源位置が見渡せない場合とでは、受聴者への波面の伝わり方が異なる。受聴者から音源位置が見渡せる場合には、受聴者は仮想音源から直接伝播する音声を聴くようになり、音源位置が見渡せない場合には、受聴者はアレイスピーカという窓の窓枠で回折された音を聴くようになる。

図１０および図１１は、仮想音源位置と受聴者位置との関係について説明する説明図である。図１０に示した例では、アレイスピーカ１６０の長さが十分長く、受聴者位置から仮想音源位置を見渡せるので、受聴者は想定受聴者位置から端のほうにずれていても、仮想音源から音波が到達しているように音声を聴くことができる。しかし、図１１に示した例では、アレイスピーカ１６０の長さが図１０に示したものより短い。そのため、図１０と同じ仮想音源位置であっても、受聴者が想定受聴者位置から端のほうにずれてしまうと、仮想音源からの音波はアレイスピーカの端を回折して受聴者に届く。

図１２は、仮想音源位置と受聴者位置との関係について説明する説明図である。図１２の（ａ）は、想定受聴者位置から仮想音源Ａ、仮想音源Ｂともにアレイスピーカを通して見渡せることができるが、図１２の（ｂ）では、想定受聴者位置から仮想音源Ｂはアレイスピーカを通して見渡せることができるが、仮想音源Ａはアレイスピーカを通して見渡すことができない。そのため、図１２の（ｂ）においては、想定受聴者位置から仮想音源Ａを知覚する場所は、本来の仮想音源Ａの配置場所ではなく、アレイスピーカの一番端となってしまう。そのため、仮想音源の位置が想定した場所と異なって再生されてしまう。

このため、コンテンツを制作するコンテンツ制作者は、音場再生装置１０のアレイスピーカ１６０の長さや想定受聴者位置を考慮してコンテンツを制作する必要がある。

しかし、全ての音場再生装置がコンテンツ制作者の想定通りの環境で構成されているとは限らない。コンテンツ制作者の想定と異なる環境でコンテンツの再生を行うと、コンテンツ制作者の想定した音場を再生することが困難となる。

そこで、コンテンツ制作者は、図２に示したように音声データに想定する再生環境の情報を含めるようにコンテンツを制作することで、音場再生装置では、その情報を基にして仮想音源の位置を音場再生装置の環境に合わせて変換して再配置することができる。特に、映像を伴った音声を再生する場合には、画面の大きさとアレイスピーカの長さを考慮して仮想音源を再配置することで、音の位置と映像とが一致してより自然な音場の再生が可能となる。逆に、仮想音源の再配置を行わないと、音の位置と映像とが一致せず、不自然な音場を再生することになってしまう。

以下、本発明の一実施形態にかかる仮想音源の再配置方法についていくつか例を挙げて説明する。

（２−１）比率を保った変換
図１３は、本発明の第１の実施形態にかかる仮想音源の再配置について説明する説明図である。図１３の（ａ）は、アレイスピーカ１６０を構成するスピーカユニットの数が１２個である場合について示してあり、図１３の（ｂ）は、アレイスピーカを構成するスピーカユニットの数が８個である場合について示してある。

図１３の（ａ）においては、想定受聴者位置からアレイスピーカ１６０を通して仮想音源を見渡せるので、仮想音源の配置位置を変換する必要はない。しかし、図１３の（ｂ）においては、想定受聴者位置からアレイスピーカ１６０を通して仮想音源を見渡すことができないため、このままではアレイスピーカ１６０の一番端に仮想音源を知覚することになる。そこで、ａ：ｂ＝ａ´：ｂ´となるように、仮想音源の配置位置を変換する。このように仮想音源の配置位置を変換することで、コンテンツ制作者の想定に近い音場を再生することができ、また映像を伴うコンテンツであった場合には、映像と音声とが一致するように音場を再生することができる。

なお、映像を伴っていた場合であっても、例えば音源が映像に映っておらず、画面外に音源が存在するというような設定である場合には、仮想音源の再配置を行わずに、サラウンド音像再生方法による再生を行ってもよい。サラウンド音像再生方法を用いた場合では、受聴可能範囲をあまり広く取ることが出来ないが、例えば仮想音源を形成する音声信号を、パンポットを通して２チャネルのステレオに変換し、さらにＲ−ＬおよびＬ−Ｒの信号を生成して、その信号をアレイスピーカ１６０の左右両端のスピーカユニットに入力し、ステレオ音声を出力することによって、音場を再生してもよい。

図１４は、本発明の第１の実施形態にかかる再生方法の選択について説明する流れ図である。まず、想定受聴者位置からアレイスピーカ１６０を通して仮想音源の配置位置を見渡すことができるかどうか判断する（ステップＳ２１２）。見渡すことができるならば、波面合成による処理を行う（ステップＳ２１８）。一方、見渡すことができないならば、次に想定受聴者位置から見てアレイスピーカ１６０の外側に音像を知覚させるかどうか判断する（ステップＳ２１４）。アレイスピーカ１６０の外側に音像を知覚させるのであれば、サラウンド方式による処理を行い（ステップＳ２１６）、アレイスピーカ１６０の内側に音像を知覚させるのであれば、波面合成による処理を行う（ステップＳ２１８）。波面合成による処理を行う際には、上述したような仮想音源の配置位置の変換処理を行う。

（２−２）アレイスピーカ原点を考慮した変換
想定受聴者位置は、アレイスピーカ１６０の長さ（アレイスピーカ長）に応じて設定することが望ましい。アレイスピーカ長が長ければ長いほど、想定受聴者位置はアレイスピーカ１６０から離れた位置になり、アレイスピーカ長が短ければ短いほど、想定受聴者位置はアレイスピーカに近づいた位置に設定することが望ましい。アレイスピーカ長が長くなればアレイスピーカを構成するスピーカユニットの数も多くなり、アレイスピーカから出力される音声の出力強度も強くなるからである。

図１５は、アレイスピーカと想定受聴者位置の例について説明する説明図である。図１５に示した例はアレイスピーカ１６０を構成するスピーカユニットが１２個の場合である。図１５のように、スピーカユニットの数が多くアレイスピーカ長が長い場合には、想定受聴者位置は比較的アレイスピーカ１６０から離れた位置に設定することが望ましい。

もし、コンテンツ制作者が図１５のような環境を想定してコンテンツを制作していたときに、図１５に示したような環境でコンテンツを再生した場合には問題なく音場が再生されるが、それ以外の場合には音場が正しく再生されない。例えば、図１６に示したようにアレイスピーカ１６０を構成するスピーカユニットの数が６個の場合、想定受聴者位置は図１５に示したものよりアレイスピーカ１６０に近い場所に設定される。このような場合には、仮想音源の位置を変換するように、アレイスピーカ１６０から音声を出力するための音声信号を変換部１４０で変換することによって、コンテンツ制作者の想定したものに近い音場を再生することができる。

（２−２−１）相似的な変換
図１７は、本発明の第１の実施形態にかかる仮想音源位置の変換の一例について説明する説明図である。図１７に示した仮想音源位置の変換例は、仮想音源の位置を相似的に変換することでコンテンツ制作者の想定したものに近い音場を再生することを目的としている。

相似的に変換する際には、変換部１４０において想定受聴者位置と、アレイスピーカの中心（以後「アレイスピーカ原点」とも称する）と、仮想音源位置とを結ぶ三角形が、コンテンツ制作者が想定した環境における、想定受聴者位置と、アレイスピーカ原点と、仮想音源位置とを結ぶ三角形と相似の関係を有するように、仮想音源位置の変換を行う。ここで、相似の比率は、コンテンツ制作者がコンテンツ制作時に想定したアレイスピーカ長と、実際に再生を行うアレイスピーカ長との比率である。

このように仮想音源の位置を変換するように、音声信号を変換部１４０で変換することによって、コンテンツ制作者の想定したものに近い音場を再生することができる。

図１８は、本発明の第１の実施形態にかかる、相似的な変換を行うことによる仮想音源位置の変換方法について説明する流れ図である。最初に、コンテンツ制作者がコンテンツ制作時に想定したアレイスピーカ長と、実際に再生を行うアレイスピーカ長との比率を算出し、その比率を変換倍率として決定する（ステップＳ３１２）。

次に、アレイスピーカ原点を基準とした座標系で、コンテンツ制作時に設定した各仮想音源の座標位置に上記ステップＳ３１２で決定した変換倍率を乗じる（ステップＳ３１４）。

このように、仮想音源の位置を相似的に変換するように、変換部１４０で音声信号を変換することで、コンテンツ制作者の想定したものに近い音場を再生することができる。

（２−２−２）絶対値的な変換
（２−１）では仮想音源の位置を相似的に変換することでコンテンツ制作者の想定したものに近い音場を再生することができる仮想音源位置の変換方法について説明した。次に、仮想音源の位置を絶対値的に変換する方法について説明する。この方法では、アレイスピーカの構成に拘らず、想定受聴者位置と仮想音源位置との距離（想定受聴者位置から見た仮想音源位置の奥行き）がコンテンツ制作者の想定したものと一致するように、仮想音源位置の変換を行う。

図１９は、本発明の第１の実施形態にかかる仮想音源位置の変換部１４０での変換処理の別の例について説明する説明図である。図１９に示したように、アレイスピーカ１６０を構成するスピーカユニットの数がコンテンツ制作者の想定と異なる場合に、アレイスピーカの位置および仮想音源の位置をコンテンツ制作者が想定したものと同じになるように音声信号を変換する。しかし、アレイスピーカの位置は変換することができないので、あたかもコンテンツ制作者が想定したアレイスピーカ位置から音声が発せられるように音声信号の変換を行う。

図２０および図２１は、本発明の第１の実施形態にかかる、絶対値的な変換を行うことによる仮想音源位置の変換方法について説明する流れ図である。

図２０は、仮想音源位置と想定受聴者位置の距離関係を保つように変換する場合の流れについて説明する流れ図である。まず、コンテンツ制作時に想定したアレイスピーカ原点と基準とした各仮想音源位置の座標を、コンテンツ制作時に想定した想定受聴者位置を原点とした座標系に変換する（ステップＳ４１２）。

次に、コンテンツ制作時に想定した想定受聴者位置を座標の原点とした各仮想音源位置の座標を、それぞれ再生時の想定受聴者位置座標とする（ステップＳ４１４）。そして、再生時のアレイスピーカ原点を座標の原点とするために、再生時のアレイスピーカ１６０のアレイスピーカ原点と想定受聴者位置との距離を用いて、各仮想音源位置の座標を変換する（ステップＳ４１６）。

図２１は、コンテンツ制作時のアレイスピーカと想定受聴者位置との関係が、再生時のアレイスピーカと想定受聴者位置との関係と相似である場合における、仮想音源位置と想定受聴者位置の距離関係を保つように変換する場合の流れについて説明する流れ図である。この場合においては、まず、コンテンツ制作時に想定したアレイスピーカ原点と基準とした各仮想音源位置の座標を、コンテンツ制作時に想定した想定受聴者位置を原点とした座標系に変換する（ステップＳ４２２）。そして、再生時のアレイスピーカ原点を座標の原点とするために、再生時のアレイスピーカ１６０のアレイスピーカ原点と想定受聴者位置との距離を用いて、各仮想音源位置の座標を変換する（ステップＳ４２４）。

このように、変換部１４０において、各仮想音源の位置がアレイスピーカの位置および仮想音源の位置をコンテンツ制作者が想定したものと同じになるように、音声信号を変換する。こうして音声信号の変換を行うことで、音場再生装置１００の環境がコンテンツ制作者の想定と異なる場合であっても、コンテンツ制作者の意図したものに近い音場を再生することができる。

以上説明したように、本発明の第１の実施形態によれば、仮想音源を形成するための音声信号を変換部１４０で変換することで、コンテンツ制作者の意図通り、または意図したものに近い音場を再生することができる。そして、音声信号の変換には、高周波帯域の付加や仮想音源の再配置といった方法を用いることができる。

（第２の実施形態）
本発明の第１の実施形態では、光ディスクから音源データを読み込んで、読み込んだ音源データが音場再生装置の条件と合致しない場合に、所定の範囲内に含まれる仮想音源を集約することでコンテンツ制作者の想定に近い音場を再現することができる音場再生装置について説明した。

しかし、音源データの提供は光ディスクからに限られない。本発明の第２の実施形態では、インターネットなどのネットワークから音源データを受信して音場を再現する音場再生装置において本発明を適用した場合について説明する。

図２２は、本発明の第２の実施形態にかかる音場再生装置について説明する説明図である。以下、図２２を用いて本発明の第２の実施形態にかかる音場再生装置について説明する。

図２２に示したように、本発明の第２の実施形態にかかる音場再生装置２０は、データ受信部２１０と、受信データ復号部２１２と、逆多重化部２１４と、アンプ２５０と、アレイスピーカ２６０と、字幕データ抽出部２７０と、字幕データ再生部２７２と、映像データ抽出部２８０と、映像再生部２８２と、字幕スーパーインポーズ部２９０と、表示部２９２と、を含んで構成される。そして、音声信号生成装置２１５は、音場情報抽出部２２０と、音声信号生成部２３０と、変換部２４０と、を含んで構成される。

ここで、逆多重化部２１４と、音場情報抽出部２２０と、音声信号生成部２３０と、変換部２４０と、アンプ２５０と、アレイスピーカ２６０と、字幕データ抽出部２７０と、字幕データ再生部２７２と、映像データ抽出部２８０と、映像再生部２８２と、字幕スーパーインポーズ部２９０と、表示部２９２と、は本発明の第１の実施形態にかかる音場再生装置の各部と同一の機能を有するので、詳細な説明は省略する。

データ受信部２１０は、インターネットなどのネットワークを介してデータの受信を行うものであり、本実施形態にかかるデータ受信部２１０は、外部から映像データや音声データが含まれるコンテンツの受信を行う機能を有する。

受信データ復号部２１２は、データ受信部２１０で受信したデータの復号処理を行うものである。ネットワークを介して送信されるコンテンツは、安全性を高めるためにデータの暗号化が施されている場合がある。そのような場合にはデータの復号処理を行うことで、音場再生装置２０は受信したデータの処理を行うことができる。

以上、本発明の第２の実施形態にかかる音場再生装置の構成について説明した。次に、本発明の第２の実施形態にかかる音場再生装置の動作について説明する。

まず、データ受信部２１０がネットワーク経由で映像データや音声データが含まれるコンテンツを受信する。ネットワーク経由で送られてくるコンテンツは暗号化が施されている場合があり、その場合には受信データ復号部２１２で受信したコンテンツの復号化処理を行う。

復号化されたコンテンツは、逆多重化部２１４に送られて逆多重化処理が行われる。以後の処理は、本発明の第１の実施形態にかかる音場再生装置の動作と同一であるため、詳細な説明は省略する。

以上、本発明の第２の実施形態にかかる音場再生装置の動作について説明した。

以上説明したように、本発明の第２の実施形態によれば、ネットワーク経由でコンテンツが送信されてきた場合に、音場再生装置の構成がコンテンツ制作者の想定とは異なる場合であっても、音声信号を変換することによってコンテンツ制作者の想定に近い音場を再現することができる。

なお、上述した処理は、音場再生装置または音声信号生成装置の内部に記憶部を設け、記憶部に記憶されたコンピュータプログラムを順次呼び出して実行されるようにしてもよい。記憶部として、各種のＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）を用いてもよい。

以上、添付図面を参照しながら本発明の好適な実施形態について説明したが、本発明は係る例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。

本発明の第１の実施形態にかかる音場再生装置について説明する説明図である。本発明の第１の実施形態にかかる音声データの構成例について説明する説明図である。波面合成によって音場を生成できる上限周波数ｆ_ｈについて説明する説明図である。仮想音源の位置と波面の様子について説明する説明図である。仮想音源の位置と波面の様子について説明する説明図である。本発明の第１の実施形態にかかる高域周波数成分付加方法について説明する流れ図である。高域周波数成分を出力するスピーカユニットについて説明する説明図である。高域周波数成分を出力するスピーカユニットについて説明する説明図である。アレイスピーカに近接した位置における個々のスピーカユニットからの音波の影響について説明する説明図である。仮想音源位置と受聴者位置との関係について説明する説明図である。仮想音源位置と受聴者位置との関係について説明する説明図である。仮想音源位置と受聴者位置との関係について説明する説明図である。本発明の第１の実施形態にかかる仮想音源の再配置について説明する説明図である。本発明の第１の実施形態にかかる再生方法の選択について説明する流れ図である。アレイスピーカと想定受聴者位置の例について説明する説明図である。アレイスピーカと想定受聴者位置の例について説明する説明図である。本発明の第１の実施形態にかかる仮想音源位置の変換の一例について説明する説明図である。本発明の第１の実施形態にかかる、相似的な変換を行うことによる仮想音源位置の変換方法について説明する流れ図である。本発明の第１の実施形態にかかる仮想音源位置の変換部１４０での変換処理の別の例について説明する説明図である。本発明の第１の実施形態にかかる、絶対値的な変換を行うことによる仮想音源位置の変換方法について説明する流れ図である。本発明の第１の実施形態にかかる、絶対値的な変換を行うことによる仮想音源位置の変換方法について説明する流れ図である。本発明の第２の実施形態にかかる音場再生装置について説明する説明図である。音源からの波面を模式的に表している説明図である。波面合成によって２つの音源からの波面を再現する場合について説明する説明図である。ステレオ方式とマルチチャンネルオーディオシステムとによる受聴イメージの違いについて説明する説明図である。

符号の説明

１０、２０音場再生装置
１１０光ディスク再生装置
１１４、２１４逆多重化部
１１５、２１５音声信号生成装置
１２０、２２０音場情報抽出部
１３０、２３０音声信号生成部
１４０、２４０変換部
１５０、２５０アンプ
１６０、２６０アレイスピーカ
１７０、２７０字幕データ抽出部
１７２、２７２字幕データ再生部
１８０、２８０映像データ抽出部
１８２、２８２映像再生部
１９０、２９０字幕スーパーインポーズ部
１９２、２９２表示部
２１２受信データ復号部

Claims

音声情報と音源位置情報とが含まれる音声データを入力し、アレイ状に配されたｍ個のスピーカからなるアレイスピーカから音を出力することで、仮想空間内に配された仮想音源からなる音場を現実空間の想定受聴者位置が含まれる想定受聴領域に再生するための音声信号を生成する音声信号生成装置であって：
前記アレイスピーカの条件であるアレイスピーカ条件と標準アレイスピーカ条件とが異なるときに、前記音声情報と前記音源位置情報とから波面合成によって形成される仮想音源を変換する変換処理を行う変換部と；
前記音声情報および前記音源位置情報と、前記変換部での変換結果とに基づいて、前記仮想音源を形成するためのｍチャネルの音声信号を生成する音声信号生成部と；
を含むことを特徴とする、音声信号生成装置。
前記音声データから前記音声情報および前記音源位置情報を抽出する音場情報抽出部をさらに含むことを特徴とする、請求項１に記載の音声信号生成装置。
前記変換部における前記変換処理は、前記音声情報、前記音源位置情報、前記アレイスピーカ条件および前記標準アレイスピーカ条件に基づいて、前記音声情報と前記音源位置情報とを変換して変換音声情報および変換音源位置情報を生成する処理であり、
前記音声信号生成部は、前記変換音声情報および前記変換音源位置情報から、前記仮想音源を形成するためのｍチャネルの音声信号を生成することを特徴とする、請求項１に記載の音声信号生成装置。
前記変換部は、前記想定受聴者位置からの奥行きを変化させずに仮想音源を再配置するように、前記変換音声情報および前記変換音源位置情報を生成することを特徴とする、請求項３に記載の音声信号生成装置。
前記変換部は、前記音声情報および前記音源位置情報を作成した際に想定した受聴者位置、アレイスピーカの中心位置および仮想音源の位置からなる三角形と相似関係となる位置に仮想音源を再配置するように、前記変換音声情報および前記変換音源位置情報を生成することを特徴とする、請求項３に記載の音声信号生成装置。
音声情報および音源位置情報が含まれる音声データを入力し、アレイ状に配されたｍ個のスピーカからなるアレイスピーカから音を出力することで、仮想空間内に配された仮想音源からなる音場を現実空間の想定受聴者位置が含まれる想定受聴領域に再生する音場再生装置であって：
前記アレイスピーカの条件であるアレイスピーカ条件と標準アレイスピーカ条件とが異なるときに、前記音声情報と前記音源位置情報から波面合成によって形成される仮想音源を変換する変換処理を行う変換部と；
前記音声情報および前記音源位置情報と、前記変換部での変換結果とに基づいて、前記仮想音源を形成するためのｍチャネルの音声信号を生成する音声信号生成部と；
前記ｍチャネルの音声信号を波面合成し、ｍチャネルの音声を出力することで、前記想定受聴領域に音場を再生する音声出力部と；
を含むことを特徴とする、音場再生装置。
前記音声データから前記音声情報および前記音源位置情報を抽出する音場情報抽出部をさらに含むことを特徴とする、請求項６に記載の音場再生装置。
前記変換部における前記変換処理は、前記音声情報、前記音源位置情報、前記アレイスピーカ条件および前記標準アレイスピーカ条件に基づいて、前記音声情報と前記音源位置情報とを変換して変換音声情報および変換音源位置情報を生成する処理であり、
前記音声信号生成部は、前記変換音声情報および前記変換音源位置情報から、前記仮想音源を形成するためのｍチャネルの音声信号を生成することを特徴とする、請求項６に記載の音場再生装置。
前記変換部は、前記想定受聴者位置からの奥行きを変化させずに仮想音源を再配置するように、前記変換音声情報および前記変換音源位置情報を生成することを特徴とする、請求項８に記載の音場再生装置。
前記変換部は、前記音声情報および前記音源位置情報を作成した際に想定した受聴者位置、アレイスピーカの中心位置および仮想音源の位置からなる三角形と相似関係となる位置に仮想音源を再配置するように、前記変換音声情報および前記変換音源位置情報を生成することを特徴とする、請求項８に記載の音場再生装置。
音声情報および音源位置情報が含まれる音声データを入力し、アレイ状に配されたｍ個のスピーカからなるアレイスピーカから音を出力することで、仮想空間内に配された仮想音源からなる音場を現実空間の想定受聴者位置が含まれる想定受聴領域に再生するための音声信号を生成する音声信号生成方法であって：
前記アレイスピーカの条件であるアレイスピーカ条件と標準アレイスピーカ条件とが異なるかを判断する判断ステップと；
前記判断ステップにおいて前記アレイスピーカ条件と前記標準アレイスピーカ条件とが異なると判断されたときに、前記音声情報と前記音源位置情報から波面合成によって形成される仮想音源を変換する変換ステップと；
前記音声情報および前記音源位置情報と、前記変換ステップでの変換結果とに基づいて、前記仮想音源を形成するためのｍチャネルの音声信号を生成する音声信号生成ステップと；
を含むことを特徴とする、音声信号生成方法。
音声情報および音源位置情報が含まれる音声データを入力し、アレイ状に配されたｍ個のスピーカからなるアレイスピーカから音を出力することで、仮想空間内に配された仮想音源からなる音場を現実空間の想定受聴者位置が含まれる想定受聴領域に再生するための音声信号を生成するためのコンピュータプログラムであって、コンピュータに：
前記アレイスピーカの条件であるアレイスピーカ条件と標準アレイスピーカ条件とが異なるかを判断する判断ステップと；
前記判断ステップにおいて前記アレイスピーカ条件と前記標準アレイスピーカ条件とが異なると判断されたときに、前記音声情報と前記音源位置情報から波面合成によって形成される仮想音源を変換する変換ステップと；
前記音声情報および前記音源位置情報と、前記変換ステップでの変換結果とに基づいて、前記仮想音源を形成するためのｍチャネルの音声信号を生成する音声信号生成ステップと；
を含む処理を実行させることを特徴とする、コンピュータプログラム。