JP2023164284A

JP2023164284A - 音声生成装置、音声再生装置、音声生成方法、及び音声信号処理プログラム

Info

Publication number: JP2023164284A
Application number: JP2023018244A
Authority: JP
Inventors: 正之西口; Masayuki Nishiguchi; 勇貴水谷; Yuki Mizutani; 智一石川; Tomokazu Ishikawa; 成悟榎本; Seigo Enomoto
Original assignee: Akita Prefectural University; Panasonic Holdings Corp
Current assignee: Akita Prefectural University; Panasonic Holdings Corp
Priority date: 2022-04-28
Filing date: 2023-02-09
Publication date: 2023-11-10

Abstract

【課題】音源の個数が多くても演算負荷を抑える頭部インパルスレスポンスを用いた立体音声の生成装置を提供する。【解決手段】方向取得部１０は、音源Ｓの音源方向を取得する。パニング部２０は、方向取得部１０により取得された音源方向に基づいて、特定の代表方向からの音によるパニングを、音源Ｓの時間シフトとゲイン調整によって行うことにより、音源Ｓを表現するためのパニングを行う。パニング部２０は、このパニングにより、代表方向からの頭部インパルスレスポンスの畳み込みによって音源方向の頭部インパルスレスポンスの畳み込みを模擬する。音源Ｓは、複数個存在し、代表方向は、音源Ｓの個数より少ない数である、それぞれの代表点に対する方向であり、パニング部２０は、複数個の音源Ｓによる音像を、複数の代表方向の音により合成する。【選択図】図１

Description

本発明は、特にヘッドフォン等で再生される音声信号を作成する音声生成装置、音声再生装置、音声生成方法、及び音声信号処理プログラムに関する。

従来から、映画、ＶＲ（Virtual Reality）、ＡＲ（Augmented Reality）等のコンテンツの再生が可能なＶＲヘッドフォンやＨＭＤ（Head Mounted Display）が存在する。
このようなＶＲヘッドフォンやＨＭＤでは、より広い音場が感じられるように、受聴者から音源への方向を考慮した頭部伝達関数（Head-Related Transfer Function、以下、「ＨＲＴＦ」という。）を用いて、頭外定位させていた。

特許文献１には、このようなＨＲＴＦを算出する音声処理装置の一例として、リスナーの頭部の姿勢に応じた検出信号を出力するセンサーと、検出信号に基づく演算によりリスナーの頭部が向く方向を求めて、当該方向を示す方向情報を出力するセンサー信号処理部と、方向情報を平均化した平均情報に基づいて、センサー信号処理部から出力される方向情報を補正するセンサー出力補正部と、予め求められた頭部伝達関数を、補正された方向情報にしたがって修正する頭部伝達関数修正部と、再生対象の音声信号に、修正された頭部伝達関数に応じて音像定位処理を施す音像定位処理部とを含む装置が記載されている。

ここで、従来、ヘッドフォン等でＨＲＴＦを用いた立体音声を再生する際に、実際の音声信号への演算では、頭部伝達関数を時間軸上で表現した頭部インパルスレスポンス（Head-Related Impulse Response、以下「ＨＲＩＲ」とという。）を用いることも多かった。

特開２０２１－５８２２号公報

特許文献１に記載されたような従来の音声処理装置では、音源毎にＨＲＩＲの畳み込みをしていたため、音源の個数が多いと、それぞれにＨＲＩＲの畳み込みを行う必要があり、演算負荷が高くなっていた。

本発明は、このような状況に鑑みてなされたものであり、上述の問題を解消することを目的とする。

本発明の音声生成装置は、音源の音源方向を取得する方向取得部と、前記方向取得部により取得された音源方向に基づいて、特定の代表方向からの音によるパニングを、前記音源の時間シフトとゲイン調整によって行うことにより、前記音源を表現するためのパニング部とを備えることを特徴とする。
本発明の音声生成装置は、前記音源は、複数個存在し、前記代表方向は、前記音源の個数より少ない数である、それぞれの代表点に対する方向であり、前記パニング部は、複数個の前記音源による音像を、複数の前記代表方向の音によって合成することを特徴とする。
本発明の音声生成装置は、前記パニング部は、前記音源に対して、前記音源方向の頭部インパルスレスポンスと前記代表方向の頭部インパルスレスポンスとの相互相関が最大になるように算出された時間シフト、又は該時間シフトに負号を付した時間シフトを行うことを特徴とする。
本発明の音声生成装置は、前記時間シフト及び／又はゲインは、周波数軸上の重み付けフィルタをかけてから前記相互相関が算出されたものを用いることを特徴とする。
本発明の音声生成装置は、前記パニング部は、複数の前記代表点のそれぞれについて、前記時間シフトした前記音源に、前記音源と前記代表方向毎に設定されたゲインをかけることを特徴とする。
本発明の音声生成装置は、前記パニング部は、代表方向のＨＲＩＲベクトルの和で音源方向のＨＲＩＲベクトルを合成する際、合成されたＨＲＩＲベクトルと音源方向のＨＲＩＲベクトルとの誤差信号ベクトルが代表方向のＨＲＩＲベクトルと直行するようにして算出したゲインを用いることを特徴とする。
本発明の音声生成装置は、前記パニング部は、合成されたＨＲＩＲベクトルと音源方向のＨＲＩＲベクトルとの誤差信号ベクトルのエネルギー又はＬ２ノルムを最小化するようにして算出されたゲインを用いることを特徴とすることを特徴とする。
本発明の音声生成装置は、前記誤差信号ベクトルは、周波数軸上の重み付けフィルタをかけたものを用いることを特徴とする。
本発明の音声生成装置は、前記パニング部は、前記音源の位置からの左右の耳の頭部インパルスレスポンスのエネルギーバランスが、パニングにより実質的に複数の前記代表点からの頭部インパルスレスポンスで合成された頭部インパルスレスポンスでも維持されるように補正されたゲインを用いることを特徴とする。
本発明の音声生成装置は、前記パニング部は、前記音源に前記時間シフトを行い、前記ゲインを掛けた信号を前記代表点の位置に存在する代表点信号として扱い、前記音源の個数分の前記代表点信号の和信号に、前記代表点の位置の頭部インパルスレスポンスを畳み込んで、受聴者の耳元の信号を生成することを特徴とする。
本発明の音声生成装置は、前記時間シフトは、サンプリングの小数点分のシフトも許容することを特徴とする。
本発明の音声生成装置は、再生高域強調フィルタにより高域が減衰する傾向が補償されることを特徴とする。
本発明の音声生成装置は、前記音源は、コンテンツの音声信号、及び遠隔通話の参加者の音声信号のいずれかであり、前記方向取得部は、受聴者からみた前記音源の方向を取得することを特徴とする。
本発明の音声再生装置は、前記音声生成装置と、前記音声生成装置により生成された音声信号を出力させる音声出力部とを備えることを特徴とする。
本発明の音声生成方法は、音声生成装置により実行される音声生成方法であって、音源の音源方向を取得し、取得された音源方向に基づいて、特定の代表方向からの音によるパニングを、前記音源の時間シフトとゲイン調整によって行うことにより、前記音源を表現することを特徴とする。
本発明の音声信号処理プログラムは、音声生成装置により実行される音声信号処理プログラムであって、前記音声生成装置により、音源の音源方向を取得させ、取得された音源方向に基づいて、特定の代表方向からの音によるパニングを、前記音源の時間シフトとゲイン調整によって行うことにより、前記音源を表現させることを特徴とする。

本発明によれば、音源方向に基づいて、特定の代表方向のパニングにより、当該音源を合成することで、等価的に音源方向のＨＲＩＲを代表方向のＨＲＩＲによって生成することになり、演算負荷を軽くしたＨＲＩＲの立体音響を生成可能な音声生成装置を提供することができる。

本発明の第一実施形態に係る音声生成装置の制御構成図である。図１に示すパニングによるＨＲＩＲの合成の概念を示す概念図である。本発明の第一実施形態に係る音声再生処理のフローチャートである。本発明の第一実施形態に係る音声再生処理におけるＨＲＩＲの合成を説明するための図である。本発明の他の第一実施形態に係る音声生成装置の制御構成図である。本発明の実施例１に係る本人のＨＲＴＦ（４方向＿斜め、右耳）のＳＮＲの比較結果を示すグラフである本発明の実施例１に係る本人のＨＲＴＦ（４方向＿斜め、左耳）のＳＮＲの比較結果を示すグラフである本発明の実施例１に係る本人のＨＲＴＦ（４方向＿縦横、右耳）のＳＮＲの比較結果を示すグラフである本発明の実施例１に係る本人のＨＲＴＦ（４方向＿縦横、右耳）のＳＮＲの比較結果を示すグラフである本発明の実施例１に係る本人のＨＲＴＦ（６方向、右耳）のＳＮＲの比較結果を示すグラフである本発明の実施例１に係る本人のＨＲＴＦ（６方向、左耳）のＳＮＲの比較結果を示すグラフである本発明の実施例１に係る主観評価による定位実験（真値）の結果を示すグラフである。本発明の実施例１に係る主観評価による定位実験（４方向＿斜め）の結果を示すグラフである。本発明の実施例１に係る主観評価による定位実験（４方向＿縦横）の結果を示すグラフである。本発明の実施例１に係る主観評価による定位実験（６方向）の結果を示すグラフである。本発明の実施例１に係るＭＵＳＨＲＡ法での主観品質評価の結果を示すグラフである。本発明の実施例１に係るＦＡＢＩＡＮ（４方向＿斜め）のＳＮＲの比較結果を示すグラフである。本発明の実施例１に係るＦＡＢＩＡＮ（４方向＿縦横）のＳＮＲの比較結果を示すグラフである。本発明の実施例１に係るＦＡＢＩＡＮの（６方向）ＳＮＲの比較結果を示すグラフである。本発明の実施例１に係るＦＡＢＩＡＮ（３種類、右耳）のＳＮＲの比較結果を示すグラフである。本発明の実施例１に係るＦＡＢＩＡＮ（３種類、左耳）のＳＮＲの比較結果を示すグラフである。本発明の実施例１に係るＦＡＢＩＡＮ（４方向のみ、右耳）のＳＮＲの比較結果を示すグラフである。本発明の実施例１に係るＦＡＢＩＡＮ（４方向のみ、左耳）のＳＮＲの比較結果を示すグラフである。本発明の実施例１に係るＦＡＢＩＡＮ（４方向＿斜め、右耳）のパニングにおける整数倍の時間シフトのグラフである。本発明の実施例１に係るＦＡＢＩＡＮ（４方向＿斜め、左耳）のパニングにおける整数倍の時間シフトのグラフである。本発明の実施例１に係るＦＡＢＩＡＮ（４方向＿縦横、右耳）のパニングにおける整数倍の時間シフトのグラフである。本発明の実施例１に係るＦＡＢＩＡＮ（４方向＿縦横、左耳）のパニングにおける整数倍の時間シフトのグラフである。本発明の実施例１に係るＦＡＢＩＡＮ（６方向、右耳）のパニングにおける整数倍の時間シフトのグラフである。本発明の実施例１に係るＦＡＢＩＡＮ（６方向、左耳）のパニングにおける整数倍の時間シフトのグラフである。本発明の実施例１に係る小数シフトの効果をＳＮＲで検証した比較結果を示すグラフである。本発明の実施例１に係る小数シフトの効果をＳＮＲで検証した比較結果を示すグラフである。本発明の実施例１に係る小数シフトの効果をＳＮＲで検証した比較結果を示すグラフである。本発明の実施例１に係る小数シフトの効果をＳＮＲで検証した比較結果を示すグラフである。本発明の実施例１に係る小数シフトの効果をＳＮＲで検証した比較結果を示すグラフである。本発明の実施例１に係る小数シフトの効果をＳＮＲで検証した比較結果を示すグラフである。本発明の実施例１に係る本人のＨＲＩＲの波形の比較の例である。本発明の実施例１に係るＦＡＢＩＡＮの波形の比較の例である。本発明の実施例２に係るの周波数重み付けをした波形の比較のグラフである。

＜第一実施形態＞
〔音声再生装置１の制御構成〕
まず、図１を参照して、本発明の第一実施形態に係る音声再生装置１の制御構成について説明する。

音声再生装置１は、映像や音声や文字等のデータであるコンテンツの音響信号を再生したり、遠隔地との間で通話等をしたりするような、受聴者に装着され、音声の再生が可能な装置である。
具体的には、音声再生装置１は、例えば、ヘッドフォンが接続されたＰＣ（Personal Computer）やスマートフォンによる立体音響再生装置、ゲーム専用機、光学媒体やフラッシュメモリーカードに格納されたコンテンツを再生するコンテンツ再生装置、映画館やパブリックビューイング会場の機器、専用のデコーダー及びヘッドトラッキングセンサーを備えたヘッドフォン、ＶＲ（Virtual Reality）やＡＲ（Augmented Reality）やＭＲ（Mixed Reality）用のＨＭＤ（Head-Mounted Display）、ヘッドフォン型スマートフォン（Smart Phone）、テレビ（ビデオ）会議システム、遠隔会議用機器、音声聞き取りの補助装置、補聴器、その他の家電製品等である。

本実施形態に係る音声再生装置１は、制御構成として、方向取得部１０、パニング部２０、出力部３０、及び再生部４０を備える。
また、本実施形態においては、方向取得部１０及びパニング部２０が、音声信号を生成する音声生成装置２として構成される。

ここで、本実施形態においては、複数の音声信号（音源信号、目的信号）である音源Ｓ－１～音源Ｓ－ｎから立体音声を生成する。この複数個存在する音源Ｓ－１～音源Ｓ－ｎのいずれかを、下記では単に「音源Ｓ」とも記載する。
本実施形態に係る音源Ｓとしては、コンテンツの音声信号、遠隔通話参加者の音声信号等を用いることが可能である。

このコンテンツは、例えば、ゲーム、映画、ＶＲ、ＡＲ、ＭＲ等の各種コンテンツであってもよい。この映画は、楽器の演奏、講演等も含む。この場合、音源Ｓとして、楽器、乗り物、ゲームキャラクタ等のオブジェクト（以下、単に「オブジェクト等」という。）に由来する音声信号、音声発生源となる役者やナレーターや落語家や講談家やその他の発話者のようなヒトの音声信号等を用いることが可能である。これらの音声信号は、コンテンツ内で、空間的な配置関係が設定される。

または、音源Ｓが、遠隔通話参加者の音声信号である場合、ＰＣ（Personal Computer）やスマートフォン等の各種メッセンジャーやビデオ会議用アプリケーションソフトウェア（Application Software、以下、単に「アプリ」という。）のユーザー（参加者）が発声した音声信号等を用いることが可能である。この音声信号等は、ヘッドセット等のマイクロフォンにより取得されたものでも、机等に固定されて取得されたものであってもよい。方向情報として、カメラ内での参加者の頭部の向き、又は仮想空間内で配置されたアバターの向き等が付加されてもよい。さらに、音源Ｓは、一対一、一対複数、複数対複数の拠点間のテレビ会議システム等の遠隔会議の参加者の音声信号等であってもよい。この場合も、各通話の参加者のカメラに対する向きが方向情報として設定されていてもよい。

また、いずれの場合においても、音源Ｓとして、ネットワーク又は直接接続されたマイクロフォン等で録音された音声信号も用いることが可能である。この場合も、音声信号には、方向情報が付加されていてもよい。または、上述の各コンテンツや遠隔参加者の音声信号の任意の組み合わせが用いられてもよい。
さらに、本実施形態においては、この音源Ｓの音声信号は、立体音響の方向を再現するための「目的信号」ともなる。

方向取得部１０は、音源Ｓの音源方向を取得する。本実施形態において、方向取得部１０は、受聴者の正面方向に対する音源Ｓの方向を取得する。さらに、方向取得部１０は、音源Ｓの放射方向に対する受聴者の方向を取得してもよい。
具体的には、方向取得部１０は、受聴者からみた音源Ｓの方向を取得する。加えて、方向取得部１０は、音源Ｓからみた受聴者の方向を取得してもよい。

ここで、本実施形態に係る音源Ｓには、音声を発声させる際の方向情報が算出されたり設定されたりしている。このため、方向取得部１０は、音源Ｓによる音の放射方向を取得する。本実施形態において、例えば、方向取得部１０は、音源Ｓとなる参加者の頭部の方向を取得することが可能である。また、方向取得部１０は、受聴者についても、ＨＭＤやスマートフォンのジャイロセンサー等によるヘッドトラッキング、仮想空間におけるアバターの向き等の方向情報から、受聴者の頭部の方向を取得可能である。
方向取得部１０は、これらの方向の情報に基づいて、仮想空間を含む空間的な配置における、音源Ｓ及び受聴者の向きを相互に算出可能である。

パニング部２０は、方向取得部１０により取得された複数個の音源Ｓ（目的信号）の音源方向に基づいて、特定の代表方向からの音によるパニングを、音源Ｓの時間シフトとゲイン調整によって行うことにより、音源Ｓを表現するためのパニングを行う。具体的には、パニング部２０は、音源Ｓの音源方向に近似する代表方向のパニングにより、音源Ｓ（目的信号）を合成する。これにより、パニング部２０は、等価的に音源Ｓの音源方向のＨＲＩＲを生成する。ここで、本実施形態において、「等価」「等価的」とは、後述する実施例で示すように、誤差が特定程度以下であり、ほぼ同様の信号であることをいう。具体的には、パニング部２０は、音源Ｓのパニングによって、音源Ｓの音源方向の最寄りの、又は音源方向のＨＲＩＲに最も似ている数個の方向のＨＲＩＲの合成で、等価的に当該方向のＨＲＩＲを生成する。この方向を、本実施形態において、下記で説明する「特定の代表方向」（以下、単に「代表方向」ともいう。）として説明する。これにより、耳元の信号を生成するための演算量を削減する。
すなわち、パニング部２０は、複数個の音源Ｓによる音像を、複数の代表方向の音によって合成する。この代表方向は、例えば、２～３方向を用いることが可能である。具体的には、パニング部２０は、音源Ｓの個数より少ない個数の代表点にまとめ、この代表点に対する代表方向のＨＲＩＲのみで音像を合成することが可能である。

この際、パニング部２０は、音源Ｓの音源方向のＨＲＩＲと代表方向のＨＲＩＲとの相互相関が最大になる時間シフト（ディレイ、時間遅延）を算出する。ここで得られた時間シフト、又はこの時間シフトに負号を付した時間シフトを音源Ｓに付与した、時間シフト後の信号が代表方向にあるものとして、以降の処理を行う。
この時間シフトは、サンプリング周波数より短い時間での時間シフト（サンプル位置が小数で示されるシフト。以下、「小数シフト」という。）も許容してもよい。この小数シフトは、オーバーサンプリングにより行うことが可能である。

ここで、パニング部２０は、音源Ｓを時間シフトした代表方向の信号にゲインをかけて、代表点毎に算出されたそれらの値に各代表点におけるＨＲＩＲを畳み込んだものの和を算出することで、音源Ｓに音源方向のＨＲＩＲを畳み込んだものと等価な信号を合成する。
一方、パニング部２０は、代表方向のＨＲＩＲ（ベクトル）の和で音源方向のＨＲＩＲ（ベクトル）を合成する際、合成されたＨＲＩＲ（ベクトル）と音源方向のＨＲＩＲ（ベクトル）の誤差信号ベクトルが代表方向のＨＲＩＲ（ベクトル）と直行させるようにして、ゲインを算出してもよい。なお、ＨＲＩＲ（ベクトル）とはＨＲＩＲの時間波形をベクトルと見立てたものである。以下、このＨＲＩＲ（ベクトル）を、単に「ＨＲＩＲベクトル」とも記載する。
パニング部２０は、このゲインについて、音源位置からの左右の耳のＨＲＩＲのエネルギーバランスが、パニングにより実質的に複数の代表点からのＨＲＩＲで合成されたＨＲＩＲでも維持されるように補正する。すなわち、パニング部２０は、音源Ｓによる受聴者Ｌの左右の耳のＨＲＩＲのエネルギーバランスが、パニングにより実質的に合成されたＨＲＩＲでも維持されるようにゲインを補正してもよい。

本実施形態においては、パニング部２０は、音源Ｓの各音源方向について、代表方向のＨＲＩＲのゲインのゲイン値と、ＨＲＩＲの時間シフトの時間に相当する時間シフト値とを算出して、後述するＨＲＩＲテーブル２００に格納しておくことが可能である。
この上で、パニング部２０は、各音源Ｓの音源方向に対応する時間シフト値及びゲイン値で、各音源Ｓの時間シフトを行い、ゲインをかけて、これの和をとって和信号とする。パニング部２０は、この和信号が代表点の位置に存在するものとして扱う。パニング部２０は、この和信号に、代表点の位置のＨＲＩＲを畳み込んで、受聴者の耳元の信号を生成することが可能である。

出力部３０は、音声生成装置２により生成された音声信号を出力させる。本実施形態においては、出力部３０は、例えば、Ｄ／Ａコンバーター、ヘッドフォン用のアンプ（Amplifier）等を備え、ヘッドフォンである再生部４０用の再生音響信号として音声信号を出力する。ここで、再生音響信号は、例えば、コンテンツに含まれる情報を基にしてデジタルデータが復号化され、再生部４０で再生されることで受聴者が聴くことが可能な音声信号であってもよい。または、出力部３０は、音声信号を符号化して、音声ファイルやストリーミング音声として出力することで再生してもよい。

再生部４０は、出力部３０により出力された再生音響信号を再生する。再生部４０は、ヘッドフォンやイヤフォンの電磁ドライバー及びダイヤフラムを備えたスピーカー（以下、「スピーカー等」という。）、受聴者の装着する耳当てやイヤーピース等を備えていてもよい。
または、再生部４０は、デジタルの再生音響信号をデジタル信号のまま又はＤ／Ａコンバーターでアナログ音声信号に変換し、スピーカー等から出力して、受聴者に聴かせることが可能であってもよい。または、再生部４０は、音声信号を別途、受聴者が装着したＨＭＤのヘッドフォンやイヤフォン等に出力してもよい。

ＨＲＩＲテーブル２００は、パニング部２０により選択される代表点のＨＲＩＲのデータである。さらに、ＨＲＩＲテーブル２００は、後述するパニング部２０により算出された、ＨＲＩＲのパニングによる合成のための各値を含んでいる。
具体的には、ＨＲＩＲテーブル２００は、この各値として、例えば、各代表点について、全周３６０°で２°ずつの音源方向についてそれぞれ算出されたゲイン値を含んでいる。このゲイン値は、例えば、代表点の数が二つの左右２方向のパニングを行う場合、各音源方向について二つ（Ａ値、Ｂ値）、仰角方向を含む３方向のパニングを行う場合、三つ（Ａ値、Ｂ値、Ｃ値）を用いてもよい。
さらに、ＨＲＩＲテーブル２００は、音源Ｓを時間シフトする時間シフト値についても含んでいてもよい。この時間シフト値は、音源Ｓをオーバーサンプリングすることで、小数シフトを行うための小数シフト値を含んでいてもよい。ＨＲＩＲテーブル２００は、この時間シフト値を、ゲイン値と対応づけられて格納することが可能である。
これらのゲイン値及び時間シフト値は、オフラインで事前に算出しておくことが可能である。

〔音声再生装置１のハードウェア構成〕
音声再生装置１は、例えば、各種回路として、ＡＳＩＣ（Application Specific Processor、特定用途向けプロセッサー）、ＤＳＰ（Digital Signal Processor）、ＣＰＵ（Central Processing Unit、中央処理装置）、ＭＰＵ（Micro Processing Unit）、ＧＰＵ（Graphics Processing Unit）等の制御手段（制御部）を含んでいる。

さらに、音声再生装置１は、記憶手段（記憶部）として、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等の半導体メモリー、ＨＤＤ（Hard Disk Drive）等の磁気記録媒体、光学記録媒体等の記憶部を含んでいてもよい。ＲＯＭとしては、フラッシュメモリーやその他の書き込み、追記可能な記録媒体を含んでいてもよい。さらに、ＨＤＤの代わりに、ＳＳＤ（Solid State Drive）を備えていてもよい。この記憶部には、本実施形態に係る制御プログラム及び各種のコンテンツを格納してもよい。このうち、制御プログラムは、本実施形態の音声信号処理プログラムを含む各機能構成及び各方法を実現するためのプログラムである。この制御プログラムは、ファームウェア等の組み込みプログラム、ＯＳ（Operating System）及びアプリを含む。

各種のコンテンツは、例えば、映画や音楽のデータ、ゲーム、オーディオブック、音声合成可能な電子書籍のデータ、テレビジョンやラジオの放送データ、カーナビゲーションや各種家電等の操作指示に関する各種音声データ、ＶＲ、ＡＲ、ＭＲ等を含む娯楽コンテンツ、その他の音声出力可能なデータであってもよい。または、ゲームによるＢＧＭや効果音、ＭＩＤＩファイル、携帯電話やトランシーバー等の音声通話データやメッセンジャーでのテキストの合成音声のデータをコンテンツとすることも可能である。これらのコンテンツは、有線や無線で伝送されたファイルやデータ塊でダウンロードされて取得されても、ストリーミング等により段階的に取得されてもよい。
また、本実施形態に係るアプリは、コンテンツを再生するメディアプレーヤー等のアプリ、メッセンジャーやビデオ会議用のアプリ等であってもよい。

また、音声再生装置１は、受聴者の向いている方向を算出するＧＮＳＳ（Global Navigation Satellite System）受信機、部屋内位置方向検出器、ヘッドトラッキングが可能な、加速度センサー、ジャイロセンサー、地磁気センサー等と、これらの出力を方向情報に変換する回路とを含む方向算出手段を備えていてもよい。

さらに、音声再生装置１は、液晶ディスプレイや有機ＥＬディスプレイ等の表示部、ボタン、キーボード、マウスやタッチパネル等のポインティングデバイス等の入力部、無線や有線での各種機器との接続を行うインターフェイス部とを備えていてもよい。このうち、インターフェイス部は、マイクロＳＤ（登録商標）カードやＵＳＢ（Universal Serial Bus）メモリー等のフラッシュメモリー媒体等のインターフェイス、ＬＡＮボード、無線ＬＡＮボード、シリアル、パラレル等のインターフェイスを含んでいてもよい。

また、音声再生装置１は、主に記憶手段に格納された各種プログラムを用いて制御手段が実行することで、本実施形態に係る各方法を、ハードウェア資源を用いて実現することができる。
なお、上述の構成の一部又は任意の組み合わせをＩＣやプログラマブルロジックやＦＰＧＡ（Field-Programmable Gate Array）等でハードウェア的、回路的に構成してもよい。

〔音声再生装置１による音声再生処理〕
次に、図２～図４を参照して、本発明の第一実施形態に係る音声再生装置１による音声再生処理の説明を行う。

まずは、図２により、本実施形態に係る音声再生処理の概要について説明する。
音源Ｓから発せられる音の耳元での音を生成するために、従来は各音源方向から左右の耳元までの伝達関数である頭部伝達関数（ＨＲＴＦ）を時間軸上で表現したＨＲＩＲ（頭部インパルスレスポンス）を各音源Ｓに畳み込んで、その結果を合算していた。図２では、音源Ｓ－１、音源Ｓ－２、音源Ｓ－３、音源Ｓ－４について、ＨＲＴＦを畳み込んでいる例を示す。
しかしこの手法では、音源Ｓの数が増えると、多数の積和演算を行う畳み込みのための演算量が増大していた。

これに対して、本実施形態に係る音声再生処理では、各音源Ｓから耳元までのＨＲＩＲを直接、各音源Ｓに畳み込むのではなく、各音源Ｓを代表点Ｒ－１～Ｒ－ｎ（以下、これらの代表点の一つを示す場合、単に「代表点Ｒ」という。）のパニングにより合成して表現することで、代表点Ｒから耳元までのＨＲＩＲの畳み込みを行う。これにより、全ての音源Ｓが、耳元で再生されている如く、立体音響による音像を表現することが可能である。これにより、音源Ｓの数が増えても、畳み込みの回数は代表点の数のみによって決まるため、畳み込みのための演算が増大することはなくなる。
図２の例では、音源Ｓ－１～音源Ｓ－４を、代表点Ｒ－１と代表点Ｒ－２の間のパニングで表現することで、四音源でありながら、畳み込みは代表点Ｒ－１と代表点Ｒ－２の二つ分のみとなる。
さらに、背後について、代表点Ｒ－３、代表点Ｒ－４等を加えてパニングを行うことも可能である。

本実施形態において、パニング部２０がパニングを行う際には、音源Ｓ（目的信号）を時間シフトし、それにゲインをかけた信号が代表点Ｒの位置に存在する代表点信号として扱ってもよい。この上で、パニング部２０は、代表点にまとめる音源Ｓの個数分の代表点信号の和信号を算出し、この和信号に代表点の位置のＨＲＩＲを畳み込んで、受聴者Ｌの耳元の信号を生成する。
すなわち、パニング部２０は、一つの代表点Ｒを使用する音源Ｓがｎ個あったならば、それらｎ個の音源Ｓの代表点信号を足しこんだものに、代表点の位置のＨＲＩＲを畳み込むことで、耳元信号を生成することが可能である。

本実施形態の音声再生処理は、主に音声再生装置１において、それぞれ、制御手段が記憶手段に格納された制御プログラムを、各部と協働し、ハードウェア資源を用いて制御して実行し、又は、各回路で直接実行する。
以下で、図３のフローチャートを参照して、音声再生処理の詳細をステップ毎に説明する。

（ステップＳ１０１）
まず、音声再生装置１の方向取得部１０が、音源及び方向取得処理を行う。
方向取得部１０は、受聴者Ｌからみた音源Ｓの方向を取得する。
具体的には、方向取得部１０は、音源Ｓの音声信号（目的信号）を取得する。この音声信号は、サンプリング周波数、量子化ビット数ともに任意である。本実施形態においては、例えば、サンプリング周波数４８ｋＨｚ、量子化ビット数１６ビットの音声信号を用いる例について説明する。さらに、方向取得部１０は、コンテンツの音声信号又は遠隔通話の参加者の音声信号等に付加されている、音源Ｓの方向情報を取得する。
この上で、方向取得部１０は、音源Ｓと受聴者Ｌとの空間的な配置を把握する。この配置は、上述したように、コンテンツ等に設定された仮想空間等を含む空間内の配置であってもよい。そして、方向取得部１０は、把握された空間内の配置に応じて、受聴者Ｌからみた音源Ｓの方向、すなわち音源方向として算出する。方向取得部１０は、コンテンツの音声信号についても、同様に、音源Ｓの音声信号の方向情報を参照し、受聴者Ｌの配置に基づいて、音源方向を算出可能である。
なお、方向取得部１０は、音源Ｓからみた受聴者Ｌの方向も算出してもよい。

（ステップＳ１０２）
次に、パニング部２０が、パニング処理を行う。
ここでは、パニング部２０は、方向情報を用いて、音源Ｓのパニングを行う。
本実施形態においては、パニング部２０は、パニングによって耳元で合成された音が、いかに本来あるべき耳もとの音に近づけることができるかという観点で、パニングを行う。

図４により、パニング部２０が、代表点Ｒ－１及び代表点Ｒ－２を用いて音源Ｓ－１をパニングする際の演算について説明する。図４は、説明用に、図２の一部を示したものである。ここで、パニングする信号は音源Ｓ－１であるものの、以下、そのための最適シフト量と最適ゲインを算出するため、音源Ｓ－１、代表点Ｒ－１、及び代表点Ｒ－２から耳元までのＨＲＩＲを用いて計算をする。
この図４の例において、音源Ｓ－１から耳元までのサンプリングのポイント数（タップ数）がＰポイントのＨＲＩＲを、Ｐ次元ベクトルとする。これを、ｖ｛ｘ｝とする（以下の各実施形態において、ベクトルを「ｖ｛｝」として示す。）。
ここで、パニング部２０は、代表点Ｒ－１から受聴者Ｌの耳元までのＨＲＩＲをｖ｛ｘ₀₁｝、代表点Ｒ－２から耳元までのＨＲＩＲをｖ｛ｘ₀₂｝とする。ｖ｛ｘ｝とｖ｛ｘ₀₁｝との相互相関を算出し、これが最大になるようにｖ｛ｘ₀₁｝を時間シフトしたものをｖ｛ｘ₁｝とする。同様にｖ｛ｘ｝とｖ｛ｘ₀₂｝との相互相関を算出し、これが最大になるようにｖ｛ｘ₀₂｝を時間シフトしたものをｖ｛ｘ₂｝として算出する。
このｖ｛ｘ₁｝にゲインＡをかけ、ｖ｛ｘ₂｝にゲインＢをかけ、これらの和でｖ｛ｘ｝を近似する。つまり、ｖ｛ｘ｝の近似値＝Ａ×ｖ｛ｘ₁｝＋Ｂ×ｖ｛ｘ₂｝として、ｖ｛ｘ｝を近似する。これにより、誤差を少なくしたパニングを実現することが可能となる。

このゲインの算出と時間シフトの詳細について説明する。
まずは、ゲインの算出について説明する。
ｖ｛ｘ｝の近似による誤差ベクトルを、下記の式（１）で示す：

なお、上述の式（１）では、変数上の矢印によりベクトルであることを示している。
ここで、ＡとＢとが、最適な大きさになっている、すなわちエラーベクトルの大きさが最小になる場合、誤差ベクトルｖ｛ｅ｝と、合成元のベクトルｖ｛ｘ₁｝及びｖ｛ｘ₂｝によって張られる面とは直交する。このため、以下の式（２）の関係が成立する：

これにより、下記の式（３）が算出される：

この式（３）を変形すると、下記の式（４）が得られる：

式（４）の上の式に対して｜ｖ｛ｘ₂｝｜²、下の式に対してｖ｛ｘ₁｝・ｖ｛ｘ₂｝の演算を行うと、下記の式（５）が得られる：

式（５）の上式から下式を減算し、Ｂを消去することでＡを算出することが可能である。これを式（６）に示す：

従って、ゲインＡは、下記の式（７）となる：

同様に、ゲインＡを消去することで、下記の式（８）のように、ゲインＢを算出可能である：

このように、ゲインＡ、Ｂは、合成信号と目的信号の誤差ベクトルが、用いた代表方向ベクトルと直行するように決定される。
この計算で得られたゲインＡ、Ｂを、相互相関による時間シフト後のｖ｛ｘ₁｝のＨＲＩＲ波形、及びｖ｛ｘ₂｝のＨＲＩＲ波形に掛け、出力対象とするＨＲＩＲの合成が可能となる。すなわち、これらの時間シフト量（時間シフト値）とゲインＡ、Ｂとを、音源Ｓ－１に適用してパニングを行う。

次に、相互相関を最大化する時間シフトの具体的な演算処理について説明する。
本実施形態においては、ｖ｛ｘ｝及びｖ｛ｘ₀₁｝は、サンプル数がＰポイントのＨＲＩＲをベクトルとして扱っている。
このため、ＨＲＩＲの時間（サンプルのポイントの位置）の添え字を明示的に、下記の式（９）のように記載することが可能である：

この上で、これら式（９）の二つのベクトルの相互相関を「ｋ」の関数として、以下の式（１０）のように定義する：

ここで、φ_xx01（ｋ）の最大値を与えるｋを、ｋ_max01と記す。パニング部２０は、例えば、ｋに各値を代入する等して、このｋ_max01を算出する。
同様にして、φ_xx02（ｋ）の最大値を与えるｋを、ｋ_max02と記す。パニング部２０は、このｋ_max02を、ｋ_max01と同様に算出する。
このｋ_max01及びｋ_max02のいずれかを、以下、単に「ｋ_max」と記載する。

パニング部２０は、例えば、全周３６０°で２°毎に異なる各音源Ｓの音源方向について算出されたゲインＡ、Ｂ、及びｋ_max01、ｋ_max02を、それぞれゲイン値と時間シフト値としてＨＲＩＲテーブル２００に格納しておき、下記の出力処理で使用する。
なお、このゲインＡ、Ｂと時間シフトのｋ_max01、ｋ_max02の値の算出を既に実行し格納してあるＨＲＩＲテーブル２００を用いて、下記の音声出力処理のみを行うことも可能である。

（ステップＳ１０３）
次に、パニング部２０及び出力部３０が音声出力処理を行う。
まず、パニング部２０が、各音源Ｓについて、ＨＲＩＲテーブル２００から、取得された音源方向に対応するゲイン値及び時間シフト値を取得する。
この上で、パニング部２０は、当該音源Ｓの波形の各サンプリング点（サンプル）について、このゲイン値を掛ける。
この際、パニング部２０は、当該音源Ｓによる左右の耳のＨＲＩＲのエネルギーバランスが、パニングにより合成されたＨＲＩＲでも維持されるように、ゲインを補正してもよい。すなわち、各ゲイン値に、左右のＨＲＩＲ間のエネルギーバランスを元々のＨＲＩＲと一致させるような調整係数を掛けてもよい。
次に、パニング部２０は、このゲイン値を掛けた信号について、時間シフトを行う。

この時間シフトの詳細について説明する。
ベクトルｖ｛ｘ₀₁｝の要素をｋ_maxサンプルだけシフトしたベクトルｖ｛ｘ｝を、下記の手順で生成する。
まず、位相を進めた場合、つまりｋ_max≧０の場合、ベクトルの最後にｋ_maxサンプルだけゼロを設定し、ベクトルの長さを維持する。
一方、位相を遅らせた場合、つまりｋ_max＜０の場合、ベクトルの頭にｋ_maxサンプルだけゼロを設定し、ベクトルの長さを維持する。
つまり、以下の式（１１）のように設定する：

このようにして、時間シフトしたベクトルｖ｛ｘ₁｝を生成する。時間シフト量の値の正負の極性は、上記相互相関を算出する際の基準をどちらかにするかで反転する。また、ＨＲＩＲの音源信号への畳み込みの際も、時間シフト量の極性に注意する必要がある。
なお、パニング部２０は、後述する実施例で示すように、この時間シフトは、タップ数の整数倍ではなく、オーバーサンプリングして行う小数倍の小数シフトを行うことも可能である。また、時間シフトを行ってからゲイン値を掛けてもよい。

パニング部２０は、このようにして算出された、ゲインと時間シフトを行った信号を代表点の位置に存在する代表点信号として扱う。
この上で、パニング部２０は、代表点Ｒにまとめる音源Ｓの代表点信号の和をとり、和信号を生成する。
そして、パニング部２０は、この和信号に、代表点の位置のＨＲＩＲ（代表点方向のＨＲＩＲ）を畳み込んで、受聴者Ｌの耳元の信号を生成する。

出力部３０は、パニング部２０により生成されたこの耳元の信号を、再生部４０に出力することで再生させる。この出力は、例えば、受聴者の左耳、右耳に対応した２チャンネルのアナログ音声信号であってもよい。
これにより、再生部４０は、ヘッドフォンによる２チャンネルの音声信号として仮想的な音場に対応した音声信号を再生することが可能となる。
以上により、本発明の第一実施形態に係る音声再生処理を終了する。

以上のように構成することで、以下のような効果を得ることができる。
近年、映画、ＡＲ、ＶＲ、ＭＲ、ゲーム等のコンテンツ再生をＶＲヘッドフォンやＨＭＤ等で行う際、３Ｄの音場全体を適切に記述、再生するレンダリング技術（バイノーラル化技術）が要求されていた。従来の３Ｄの立体音響（バイノーラル信号）の生成では、複数個の音源信号に、各々に対応する音源方向のＨＲＩＲを個別に畳み込むことで行っていた。このように、個々の音源にＨＲＩＲを畳み込むと、高い臨場感で人の動き（６ＤｏＦ）に追従するために、膨大な演算量が要求され問題になっていた。
一方、スピーカーによるパニングでは、従来、サイン則、タンジェント則等でスピーカーの音量バランスを制御することでスピーカー間に音像を作っていた。しかしながら、単に音量バランスを制御するだけでは、ヘッドフォンによる立体音響の音像を、適切に再生することはできなかった。

これに対して、（Ａ）本発明の第一実施形態に係る音声生成装置２は、音源Ｓの音源方向を取得する方向取得部１０と、方向取得部１０により取得された音源方向に基づいて、特定の代表方向からの音によるパニングを、音源Ｓの時間シフトとゲイン調整によって行うことにより、音源Ｓを表現するためのパニング部２０とを備えることを特徴とする。
このように構成することで、代表方向のパニングにより音源Ｓを合成し、音源方向数を減らすことで、より効率的で効果的なレンダリングが可能になる。これにより、一つ一つの音源の信号に、個別にＨＲＩＲを畳み込む従来手法に比べて演算量を削減することができる。すなわち、パニング部２０は、方向取得部１０により取得された音源方向に近似する代表方向のＨＲＩＲをパニングにより等価的に合成し、音源方向のＨＲＩＲを生成することができる。このようにして演算量を削減することで、３Ｄ音場の再生システムとして、ゲーム、映画等のＶＲ／ＡＲアプリへ応用することができる。また、スマートフォンや家電機器に適用することで、立体音響を生成する演算量を抑えることができ、コストが削減できる。さらに、より演算量を削減した方式として、国際標準化等に適用可能となる。

（Ｂ）本発明の第一実施形態に係る音声生成装置２において、音源Ｓは、複数個存在し、代表方向は、音源Ｓの個数より少ない数である、それぞれの代表点に対する方向であり、パニング部２０は、複数個の音源による音像を、複数の代表方向の音によって合成することを特徴とする。
このように構成することで、複数の音源方向にある音源Ｓを、あらかじめ決められられた代表方向、例えば受聴者を取り囲む２方向～６方向等にパニングし、これらの方向に音源ＳをまとめてからＨＲＩＲを畳み込む。これにより、一つ一つの音源信号に個別にＨＲＩＲを畳み込む従来手法に比べて、演算量を削減することができる。

（Ｃ）本発明の第一実施形態に係る音声生成装置２において、パニング部２０は、音源Ｓに対して、音源方向のＨＲＩＲと代表方向のＨＲＩＲとの相互相関が最大になるように算出された時間シフト、又は該時間シフトに負号を付した時間シフトを行うことを特徴とする。
このように構成し、パニング部２０は、音源方向のＨＲＩＲと代表方向のＨＲＩＲの相互相関が最大になるように、音源方向毎に時間シフト量（時間シフト値）を算出しておき、その時間シフト量（時間シフト値）を音源信号に適用して、さらに適切なゲインを乗じることで各代表方向に音源信号をわりあてる。これにより、パニングを行う際、音源Ｓの信号を時間シフトして、代表方向からの放音により仮想的に合成されたＨＲＩＲの歪みを抑え、ターゲットとなるＨＲＩＲと等価なＨＲＩＲを音源Ｓに畳み込んだ信号を生成することができる。すなわち、音源Ｓを時間シフトしてパニングによって耳元で合成された音を、本来のＨＲＩＲで複数の音源を畳み込んで生成された耳元の音に近づけることができる。

（Ｄ）本発明の第一実施形態に係る音声生成装置２において、時間シフトは、サンプリングの小数点分のシフトも許容する（Ａ）～（Ｃ）のいずれかに記載の音声生成装置であることを特徴とする。
このように構成することで、より歪を減らしたパニングを行うことができる。すなわち、後述する実施例で示すように、整数シフトによるＳ／Ｎ比（Signal-Noise Ratio。以下、「ＳＮＲ」と称する）の櫛形の変化を抑えて、ＳＮＲを向上させることができる。

（Ｅ）本発明の第一実施形態に係る音声生成装置２において、パニング部２０は、複数の代表点のそれぞれについて、時間シフトした音源Ｓに、音源Ｓと代表方向毎に設定されたゲインをかける（Ａ）～（Ｄ）のいずれかに記載の音声生成装置であることを特徴とする。
このように構成し、代表点Ｒ毎に、音源Ｓのそれぞれについて設定されたゲインを掛けて全ての音源Ｓについてこのゲインを掛けた信号の和を算出する。すなわち、パニング部２０は、時間シフトした音源Ｓにゲインをかけて、それらの和を算出したものに代表方向のＨＲＩＲを畳み込むことで、等価的に、音源Ｓに音源方向のＨＲＩＲを畳み込んだ信号を合成する。これにより、パニングにおいて歪を最小に抑え、演算量を減らしてＨＲＩＲによる立体音響の再生を行うことができる。

（Ｆ）本発明の第一実施形態に係る音声生成装置２において、パニング部２０は、代表方向のＨＲＩＲ（ベクトル）の和で音源方向のＨＲＩＲ（ベクトル）を合成する際、合成されたＨＲＩＲ（ベクトル）と音源方向のＨＲＩＲ（ベクトル）との誤差信号ベクトルが代表方向のＨＲＩＲ（ベクトル）と直行するようにして算出したゲインを用いる（Ａ）～（Ｅ）のいずれかに記載の音声生成装置であることを特徴とする。
このように構成し、代表方向のＨＲＩＲ（ベクトル）の和で音源方向のＨＲＩＲ（ベクトル）を合成する際、合成されたＨＲＩＲ（ベクトル）と音源方向のＨＲＩＲ（ベクトル）の誤差信号ベクトルが代表方向のＨＲＩＲ（ベクトル）と直行させるようにして、前記ゲインを算出する。すなわち、等価的に合成されたＨＲＩＲが、オリジナルＨＲＩＲに最も似た形状となるゲインを算出してパニングを行う。これにより、理論的に、歪を最小化したパニングを可能とすることができる。よって、演算資源を節約しつつ、サイン則、タンジェント則等よりも高精度に、ＡＲ／ＶＲ等のヘッドフォン受聴に適したパニングが可能となる。

（Ｇ）本発明の第一実施形態に係る音声生成装置２において、パニング部２０は、音源Ｓの位置からの左右の耳のＨＲＩＲのエネルギーバランスが、パニングにより実質的に複数の代表点からのＨＲＩＲで合成されたＨＲＩＲでも維持されるように補正されたゲインを用いる（Ａ）～（Ｆ）のいずれかに記載の音声生成装置であることを特徴とする。
このように構成することで、ＨＲＩＲの合成によりエネルギーバランスが不自然にならないようにすることができる。

（Ｈ）本発明の第一実施形態に係る音声生成装置２において、パニング部２０は、音源Ｓに時間シフトを行い、ゲインを掛けた信号を代表点の位置に存在する代表点信号として扱い、音源Ｓの個数分の代表点信号の和信号に、代表点の位置のＨＲＩＲを畳み込んで、受聴者Ｌの耳元の信号を生成する（Ａ）～（Ｇ）のいずれかに記載の音声生成装置であることを特徴とする。
このように構成することで、演算量を抑えて高品質の立体音響の信号を生成することができる。さらに、ゲイン値、時間シフト値を算出してＨＲＩＲテーブル２００に格納しておき、これらの値を音源Ｓに適用し和信号を算出し、それに代表点の位置のＨＲＩＲを畳み込むことで、立体音響を再生できる。この演算負荷は、後述する実施例で示すように、音源Ｓの個数が多くなるほど顕著に削減できる。具体的には、音源Ｓの個数が３～４でも、６５～８０％に積和演算数を削減することが可能である。

（Ｉ）本発明の第一実施形態に係る音声生成装置２において、音源Ｓは、コンテンツの音声信号、及び遠隔通話の参加者の音声信号のいずれかであり、方向取得部１０は、音源による音の放射方向に対する受聴者の方向を取得する（Ａ）～（Ｈ）のいずれかに記載の音声生成装置であることを特徴とする。
このように構成することで、コンテンツの再生時、１対１接続、１対多点接続、多点対多点接続のメッセンジャー、遠隔会議等の多数の音源に対して、負荷を減らして音声を生成することができる。

（Ｊ）本発明の第一実施形態に係る音声再生装置１は、上述の（Ａ）～（Ｉ）に記載の声生成装置２と、音声生成装置２により生成された音声信号を出力させる音声出力部３０とを備えることを特徴とする。
このように構成することで、生成された音声をヘッドフォンやＨＭＤ等で出力して、臨場感ある音声を体感することができる。

なお、上述の実施形態においては、パニング部２０が、音源信号を左右２方向の代表点のよるパニングで表現する場合、すなわち左右方向のＨＲＩＲのベクトルを用いて等価的に音源方向のＨＲＩＲのベクトルを合成する例について記載した。すなわち、上述の実施形態においては、方向情報として、受聴者の左右の角度方向を考慮する例について記載した。
しかしながら、これらの到来方向として、上下方向についても考慮することが可能である。具体的には、音源方向のＨＲＩＲのベクトルを３方向のＨＲＩＲのベクトルによる補間で等価的に合成することも可能である。すなわち、パニング部２０は、仰角方向を含む３方向の代表点によるパニング処理も同様に実行可能である。
この場合、２方向からの補間と同様、ｖ｛ｘ｝と相互相関が最大になるように代表方向のＨＲＩＲを時間シフトしたものをベクトル表記でｖ｛ｘ₁｝、ｖ｛ｘ₂｝、ｖ｛ｘ₃｝とする。
この場合、誤差ベクトルｖ｛ｅ｝は、下記の式（１２）で示される：

これを、下記式（１３）に当てはめて、解く：

具体的には、下記式（１４）により、最適なゲインＡ、Ｂ、Ｃが算出できる。

ここで、上述の式（１４）で、行列の右肩の「－１」は逆行列を意味する。
相互相関が最大になるように決定した代表方向のＨＲＩＲの時間シフト量ｋ_max01、ｋ_max02、ｋ_max03についても、２方向の場合の値と同様に、上述のゲイン値に先だって算出する。

また、上述の実施形態においては、代表点Ｒを２個乃至４個用いる例について記載した。
しかしながら、２個以上の代表点Ｒを用いることも当然可能である。たとえば、後述する実施例で示すように、範囲角９０°、６０°等に対応する４～６個の代表点Ｒを用いることも可能である。さらに、４個の場合も、受聴者Ｌに対して斜め（４５°、１３５°、２２５°、３１５°）、縦横（０°、９０°、１８０°、２７０°）のように、異なる代表点の位置に設定することも可能である。４～６個の代表点Ｒから、音源方向に最も近い２点又は３点を選択して、当該音源の合成のための代表点として使用することも可能である。

このように構成し、（Ｋ）本発明の他の実施形態に係る音声生成装置２において、パニング部２０は、合成されたＨＲＩＲベクトルと音源方向のＨＲＩＲベクトルとの誤差信号ベクトルのエネルギー又はＬ２ノルムを最小化するようにして算出されたゲインを用いることを特徴とする（Ａ）～（Ｈ）のいずれかに記載の音声生成装置であることを特徴とする。
また、（Ｌ）本実施形態に係る音声再生装置１は、上述の音（Ｋ）に記載の声生成装置２と、音声生成装置２により生成された音声信号を出力させる音声出力部３０とを備えていてもよい。
このように構成することで、音源方向のＨＲＩＲのベクトルを３方向のＨＲＩＲのベクトルによる補間で等価的に合成することが可能となる。

＜第二実施形態＞
（時間シフト及びゲイン算出時の重み付けフィルタ）
上述の第一実施形態においては、相互相関を最大化する時間シフト及びゲインの算出時に、ＨＲＩＲそのものを用いている例について記載した。
しかしながら、）本発明の第二実施形態に係る音声生成装置において、時間シフト及び／又はゲインは、周波数軸上の重み付けフィルタをかけてから相互相関が算出されたものを用いてもよい。
すなわち、相互相関を最大化する時間シフトおよびゲインの算出時に、周波数軸上の重み付けフィルタ（以下、「周波数重み付けフィルタ」ともいう。）をかけたものを用いることが可能である。
この周波数重み付けフィルタは、ヒトの聴感の感度が高い周波数帯域近傍かそれよりやや高い周波数をカットオフ周波数として、それより高い帯域、すなわちヒトの聴感の感度が低くなってくる帯域を減衰させるようなフィルタを用いることが好適である。たとえば、カットオフ周波数を３０００Ｈｚ～６０００Ｈｚ、６ｄｂ／ｏｃｔ（オクターブ）～１２ｄｂ／ｏｃｔ程度のローパスフィルタ（ＬＰＦ）を用いることが好適である。

具体的には、ｖ｛ｘ｝及びｖ｛ｘ₀₁｝は、ＰポイントのＨＲＩＲをベクトルとして扱っているので、ＨＲＩＲの時間の添え字を明示的に記して、上述の式（９）のように記すことが可能である。
ここで上述の式（９）の二つのベクトルに周波数重み付けフィルタのインパルス応答ｗ_c（ｎ）を畳み込んで、長さをＰで打ち切ったものを下記の式（１５）に示す：

ここで、演算「＊」は、畳み込みを示す。
この上で、式（１５）の二つのベクトルの相互相関を「ｋ」の関数として、以下の式（１６）のように定義する：

ここで、式（１６）によるφ_xx01（ｋ）の最大値を与えるｋを、ｋ_maxと記す。パニング部２０は、例えば、ベクトルｖ｛ｘ₀₁｝の要素をｋ_maxサンプルだけシフトしたベクトルｖ｛ｘ₁｝を、上述の式（１１）と同様に、下記の手順で生成する。
具体的には、位相を進めた場合、つまりｋ_max≧０の場合、ｋ_maxサンプル分となるように、ベクトルの最後にゼロを詰めて、ベクトルの長さを維持する。
つまり、ｋ_max≧０の場合、
ｖ｛ｘ₁｝＝（ｘ₀₁（０＋ｋ_max），ｘ₀₁（１＋ｋ_max），ｘ₀₁（２＋ｋ_max）， …… ｘ₀₁（Ｐ－１）， …… ０，０，０）
となる。
一方、また、位相を遅らせた場合、つまりｋ_max＜０の場合は、ベクトルの頭にゼロを詰めて、ｋ_maxサンプル分となるようにベクトルの長さを維持する。
つまり、ｋ_max＜０の場合、
ｖ｛ｘ₁｝＝（０，０，０， ……，ｘ₀₁（０），ｘ₀₁（１），ｘ₀₁（２）， …… ，ｘ₀₁（Ｐ－１＋ｋ_max））
となる。
このようにして、ベクトルｖ｛ｘ₁｝を生成する。
この上で、上述の第一実施形態と同様に、相互相関を算出して、用いることが可能である。

（誤差算出時の重み付けフィルタ）
また、上述の第一実施形態では、合成されたＨＲＩＲとオリジナルのＨＲＩＲの誤差（類似度）を算出する際に、上述の式（１２）のようにして、誤差信号ベクトル（誤差ベクトル）ｖ｛ｅ｝の｜ｖ｛ｅ｝｜²を最小化するＡ，Ｂ，Ｃを算出していた。
これについて、本実施形態において、ｖ｛ｅ｝は、周波数重み付けフィルタをかけたものを用いてもよい。
具体的には、ｖ｛ｅ｝が時間軸上の波形データである場合、ｖ｛ｅ｝に重み付けフィルタのインパルス応答ｗ（ｎ）を畳み込んだものをｖ｛ｅ_w｝とすると、ｖ｛ｅ_w｝は、下記の式（１７）で示される：

演算「＊」は、畳み込みを示す。ここでベクトルに対して演算子「＊」を用いているが、それは演算子の左右のベクトルを数列表記したもの同士の畳み込みを行った結果得られた数列を、ベクトル表記したものとする。つまりｖ｛ｘ｝＊ｖ｛ｙ｝は、ｘ（ｎ）＊ｙ（ｎ）の結果をベクトル表記したものである。以下、特に指定がない場合、ベクトルに対する演算子「＊」は、同様の扱いとなる。
この上で、ｖ｛ｅ_w｝を下記の式（１８）に当てはめて解くことで、ゲインＡ，Ｂ，Ｃを算出することが可能である：

または、等価的に、下記の式（１９）により、ｖ｛ｅ｝_wを算出することも可能である。

このようにして求められた時間シフトおよびゲインを用いて、目的信号を代表方向に振り分ける（パニングする）ことが可能となる。

なお、パニングする目的信号及び畳み込むＨＲＩＲは、上述の第一実施形態と同様であってもよい。すなわち、目的信号及び畳み込むＨＲＩＲには、重み付けフィルタを畳み込まなくてもよい。
このような周波数重み付けを導入することで、誤差をより小さく（精度良く）して、近似を行う周波数帯域を設定することが可能になる。とくに音楽や音声信号はその主要なエネルギーが低周波領域に集中しているため、低域側に重みをつける重み付けフィルタを用いることで、良好な性能が得られる。

また、インパルス応答がｗ（ｎ）である重み付けフィルタとベクトルの畳み込みを、重み付けフィルタのインパルス応答ｗ（ｎ）を１サンプルづつ時間シフトしたものを各行にもつ畳み込み行列Ｗで表すと、式（１７）を、下記式（２０）のように変形することも可能である。

この上で、下記の式（２１）にて、｜ｖ｛ｅ｝｜²を算出可能である：

ここで、Ｗ^Tは、Ｗの転置行列を表す。

また、重み付けフィルタは、相互相関の算出時と、ゲインの算出時で、同じ特性のものを用いても、異なる特性のものを用いても良い。同じものを用いる場合は、元々のＨＲＩＲのセット全体に重み付けフィルタｗを畳み込んでから、上述の第一実施形態と同様の処理にて、時間シフト量およびゲインを算出してもよい。

なお、上述のように重み付けフィルタとして、ＬＰＦで低域に重み付けをして相互相関および最適ゲインを計算する場合、有効帯域を３０００Ｈｚ程度に制限した際は、上述の第一実施形態の小数シフトは、しなくてもよい。この場合、オーバーサンプリングも不要となる。

（高域強調フィルタ）
上述の実施形態では、音声信号を複数方向の代表方向にパニングして分配して、各代表方向のＨＲＩＲを畳み込んで表現している。具体的には、上述の第一実施形態及び第二実施形態では、三方向のｖ｛ｘ｝の近似値＝Ａ×ｖ｛ｘ₁｝＋Ｂ×ｖ｛ｘ₂｝＋Ｃ×ｖ｛ｘ₃｝として目的方向のＨＲＩＲを代表方向のＨＲＩＲの和で模擬している。
このような場合、ＨＲＩＲの高域の振幅特性は低域に比べて、オリジナルのＨＲＩＲよりもレベルが落ちる傾向がある。これは、リスニングポイントのわずかな位置ずれによる、わずか時間の誤差であっても、ＨＲＩＲの高域成分の位相が大きく回転してしまい、パニングによる足し算で相殺される傾向が強くなるためであった。
これに対して、本実施形態に係る音声生成装置では、再生高域強調フィルタにより高域が減衰する傾向を補償してもよい。

具体的には、パニングして代表方向ＨＲＩＲを畳み込んだ信号に、高域強調フィルタをかけることでその高域が減衰する傾向を補償することが可能である。または、等価的に、代表方向ＨＲＩＲそのものに事前に高域強調フィルタ処理をかけておき、高域を強調してもよい。
この高域強調フィルタは、例えば、５０００～１５０００Ｈｚ以上をターンオーバー周波数として、＋１～＋１．５ｄＢ程度、高域を強調するようなインパルス応答の重み付けフィルタであってもよい。
このように、パニングを用いて合成される音声の高域を強調するフィルタ処理を行うことで、より聴感上の立体感を高めることができる。

なお、上述の第一実施形態と同様の小数シフトを行った場合であっても、通常の８～１６倍オーバーサンプリングでは、ＨＲＩＲの高域成分のミスマッチは残るため、高域強調フィルタをかけてもよい。

〔他の実施形態〕
上述の実施形態においては、音源Ｓの音声信号にＨＲＩＲを畳み込むように記載したものの、音源Ｓの音声信号を周波数領域に変換し、ＨＲＴＦを適用することによっても、同様な処理を行うことが可能である。
この場合、周波数領域毎に異なるＨＲＴＦを適用することが可能である。具体的には、上述の第二実施形態と同様に、ヒトの聴感の感度が高い周波数帯域近傍かそれよりやや高い周波数を基準として、低音域及び高音域のＨＲＴＦを用いることで、より精度の高い合成が可能となる。

加えて、パニング部２０は、ＨＲＩＲテーブル２００から、ユーザ個人のＨＲＩＲやＨＲＩＲデータベースにより生成されたＨＲＩＲ等を選択することが可能であってもよい。
さらに、パニング部２０は、発話者及び受聴者が仮想空間内のアバター等に変身している場合、これに応じて、ＨＲＩＲテーブル２００からＨＲＩＲを選択することも可能である。すなわち、例えば、上方に耳が着いた猫やウサギのような形状のアバターの場合、これに合わせたような聞こえ方のＨＲＩＲを選択可能である。

さらに、パニング部２０は、音源Ｓの直接音と、環境による反射音とを、別途、畳み込み等で重ね合わせる等して、現実感をさらに高めることも可能である。
このように構成することで、より現実に近く、明瞭な再生音を再生することができる。

加えて、上述の実施形態においては、再生部４０として左右２チャンネルで再生する例について説明した。
これについて、複数チャンネルが再生可能なヘッドフォン等で再生を行うことも可能である。

また、上述の実施形態においては、音声再生装置１が一体的に構成されているように記載した。
しかしながら、音声再生装置１は、スマートフォンやＰＣや家電等の情報処理装置と、ヘッドセット、ヘッドフォン、左右分離型イヤフォン等の端末とが接続されるような再生システムとして構成されてもよい。このような構成の場合、方向取得部１０及び再生部４０が端末に備えられ、方向取得部１０及びパニング部２０の機能を情報処理装置又は端末のいずれかで実行するようにしてもよい。加えて、情報処理装置と端末との間は、例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＨＤＭＩ（登録商標）、ＷｉＦｉ（登録商標）、ＵＳＢ（Universal Serial Bus）、その他の有線や無線の情報伝送手段で伝送されてもよい。この場合、情報処理装置の機能を、イントラネットやインターネット上のサーバー等で実行することも可能である。

また、上述の第一乃至第二実施形態においては、音声再生装置１として、出力部３０及び再生部４０を含む構成について記載した。
しかしながら、出力部３０及び再生部４０を含まない構成も可能である
図５に、このような音声信号を生成するだけの音声生成装置２ｂの構成の一例を記載する。この音声生成装置２ｂにおいては、例えば、生成した音声信号のデータを記録媒体Ｍに格納可能である。

また、このような他の実施形態に係る音声生成装置２ｂは、ＰＣ、スマートフォン、ゲーム装置、メディアプレーヤー等のコンテンツ再生装置、ＶＲ、ＡＲ、ＭＲ、ビデオフォン、テレビ会議システム、遠隔会議システム、ゲーム装置、その他の家電等の各種装置に組み込んで用いることが可能である。つまり、音声生成装置２ｂは、テレビジョンやディスプレイを備えた装置、ディスプレイ越しのテレビ電話、ビデオ会議、テレプレゼンス等、仮想空間内での音源Ｓの方向が取得可能な全ての装置に適用可能である。

また、本実施形態に係る音声信号処理プログラムは、これらの装置で実行することも可能である。さらに、コンテンツ作成や配信時に、プロダクションや配信元等のＰＣやサーバー等で、これらの音声信号処理プログラムを実行することも可能である。また、上述の実施形態に係る音声再生装置１にて、この音声信号処理プログラムを実行することも可能である。
すなわち、上述の音声生成装置２、２ｂ、及び／又は音声信号処理プログラムによる処理により、より臨場感、リアリティの高い、映画、ゲーム、ＶＲ、ＡＲ、ＭＲ等のヘッドフォン及び／又はＨＭＤによる再生が可能になる。また、遠隔会議等においても、臨場感を高めることができる。また、映画館、フィールドゲーム、３Ｄ音場のキャプチャー、伝送、再生システムへの適用、ＡＲ、ＶＲアプリ等ヘの適用等も可能である。

上述の第一乃至第二実施形態においては、音源Ｓの音声信号に方向情報が付加されている例について記載した。
これについて、上述の遠隔会議等のように、話し手、聞き手が随時入れ替わる会話を行なっているような状況は、音源Ｓの音声信号に方向情報が付加されていなくてもよい。すなわち、現在の受話者が発話者だった際に、その発話された音声信号を用いて、発話者（現在の受話者）の方向を推定し、それを現在の発話者からみた受話者の方向として使用することが可能である。

この場合、方向取得部１０は、例えば、音声信号のＬ（左）チャンネルの信号（以下、「Ｌ信号」という。）及びＲ（右）チャンネルの信号（以下、「Ｒ信号」という。）の音声信号の受聴者から見た到来方向を算出する。この際、方向取得部１０は、ＬチャンネルとＲチャンネルの強度の比を取してもよい。その強度の比から、各周波数成分の信号の到来方向を推定することも可能である。

または、方向取得部１０は、ＨＲＴＦ（Head-Related Transfer Function、頭部伝達関数）における各周波数の信号のＩＴＤ（Interaural Time Difference）と到来方向との関係から、音声信号の到来方向を推定しても良い。方向取得部１０は、このＩＴＤと到来方向との関係は、データベースとして記憶部に格納されているものを参照してもよい。

または、コンテンツやビデオ会議での通話者や受聴者等のヒトの顔画像データから、顔認識を行って、通話者や受聴者の方向を推定することも可能である。すなわち、ヘッドトラッキングのない構成であっても、方向を推定することが可能である。同様に、空間内の発話者や受聴者の位置を把握することも可能であってもよい。
このように構成することで、各種柔軟な構成に対応可能となる。また、ＶＲやＳｏｃｉａｌＶＲのような用途においては、音源位置は事前に分かっているため、音源方向を推定せずとも音源Ｓと受聴者Ｌの位置関係から、音源Ｓの方向取得が可能である。

次に図面に基づき本発明を実施例によりさらに説明するが、以下の具体例は本発明を限定するものではない。

（本人のＨＲＴＦを用いたＳＮＲの比較）
この実験では、実際に被験者（受聴者）本人のＨＲＴＦを１５°間隔で作成したもの（以下、「オリジナル」という。）をＨＲＩＲに変換したものを作成した。
また、オリジナルのＨＲＩＲについて、代表点を設定し、水平面（左右方向）の全周で、上述の実施形態に係る相互相関による時間シフト値を用いて時間シフトを行い、上述のベクトル計算により算出されたゲイン値を使用して２点の代表点を用いるパニングを行った（以下、「本実施例のパニング」という。）。

具体的には、まず、音源ＳをオリジナルのＨＲＩＲで畳み込んだもの（以下、「真値」という。）と、本実施例のパニングを行ったものに２代表点の各ＨＲＩＲを各々畳み込んだものを合算したもの（以下、「近似値」という。）との比較実験を行った。なお、実際は処理手順の簡単化のため、２代表点のＨＲＩＲを各々時間シフトしたものに各々ゲインを掛けたものを合算して、音源方向のＨＲＩＲを模擬し（以下、「合成ＨＲＩＲ」と呼ぶ）、それに音源信号を畳み込むことで、上記の「近似値」と等価な信号を生成した。
さらに、比較例として、従来の時間シフト無しの従来のサイン則によるゲインを用いた。この比較例のサイン則では、正面から音源Ｓまでの角度をθとし、代表点Ｒまでの角度をθ₀とした場合に、２つの代表点を用いるＨＲＩＲに畳み込む音源信号に乗ずる左右のゲインＡ_sとＢ_sとを、

（Ａ_s－Ｂ_s）／（Ａ_s＋Ｂ_s）＝ｓｉｎθ／ｓｉｎθ₀

として算出した。

本実施例で用いる代表点は、
（１）範囲角９０°（４５°、１３５°、２２５°、３１５°）
（２）範囲角９０°（０°、９０°、１８０°、２７０°）
（３）範囲角６０°（３０°、９０°、１５０°、２１０°、２７０°、３３０°）
の代表点方向に設定した。
これらの代表点の組を、それぞれ４方向＿斜め（１）、４方向＿縦横（２）、６方向（３）と呼ぶ。
これら、実施例と比較例とについて、各音源方向のＨＲＩＲを畳み込んだ出力信号と「近似値」との差をＳＮＲとして算出した。
図６～図１１を参照し、この結果について説明する。各図において、横軸は角度、縦軸はＳＮＲ（ｄＢ、デシベル）を示す。

図６は、ＳＮＲ比較（４方向＿斜め、右耳）の結果を示す。
図７は、ＳＮＲ比較（４方向＿斜め、左耳）の結果を示す。
図８は、ＳＮＲ比較（４方向＿縦横、右耳）の結果を示す。
図９は、ＳＮＲ比較（４方向＿縦横、左耳）の結果を示す。
図１０は、ＳＮＲ比較（６方向、右耳）の結果を示す。
図１１は、ＳＮＲ比較（６方向、左耳）の結果を示す。

いずれも、比較例と比べて、５～１０ｄＢ、ＳＮＲが高かった。このように、本実施例に係るパニングを用いることで、従来よりもＳＮＲを向上させることができた。

（主観評価による定位実験）
次に、オリジナルのＨＲＩＲを畳み込んだ真値と、本実施例のパニングによる近似値とを用いて、被験者により主観定位を測定する実験（定位実験）を行った。
この定位実験の条件を、下記の表１に示す：

このうち、提示音圧はダミーヘッドにヘッドフォンを装着し、メジャリングアンプを用いて測定した。
実験の結果を、図１２～図１５に示す。
各グラフにおいては、横軸が提示した音源方向を示し、縦軸が受聴者の回答した方向を示す。すなわち、斜めである４５°の線に合っていれば、受聴者が提示された音源方向を正しく認識していることを示す。丸の大きさは、二回の試行で、同じになった箇所が大きく、異なっていた箇所は小さく示した。

図１２は、真値で音源Ｓの主観定位を指示させた定位実験の結果を示す。図１２の真値の結果では、一部、斜め方向に外れている箇所もあるものの、概ね、受聴者が回答した音源方向は、正しかった。すなわち、グラフ上、ほぼ４５°の線に沿っていた。

図１３は、上述の（１）４方向＿斜めの代表点を用いた定位実験の結果を示す。
図１４は、上述の（２）４方向＿縦横の代表点を用いた定位実験の結果を示す。
図１５は、上述の（３）６方向の代表点を用いた定位実験の結果を示す。
図１３～図１５において、（ａ）は、比較例としてサイン則によるゲインを用いた例であり、（ｂ）は、本実施例の代表点のパニングによる近似値の例である。

結果として、いずれもサイン則でパニングした比較例では、４方向よりも６方向になると音源方向を認識できる程度がある程度、上昇するものの、受聴者は、あまり正しく音源方向を認識できなかった。
これに対して、本実施例の代表点のパニングによる近似値では、真値とかなり近く、４５°の線にほぼ沿っている。本実施例の近似値では４方向＿斜めでも、ほとんど４５°の線に沿っていることが分かる。すなわち、本実施例の近似値では、代表点の数を減らしてもよく、４方向程度の代表点で、十分、受聴者が音源方向を認識可能となっていた。
すなわち、本実施例のパニングにおいて、ホワイトノイズを用いた場合、オリジナルのＨＲＩＲと比べて、受聴者が十分に音源方向の認識をすることができた。

（ＭＵＳＨＲＡ法での主観品質評価）
次に、音源Ｓの音色がどの程度変化したかを、スピーチ音源を使用して評価した。具体的には、オリジナルのＨＲＩＲを当該スピーチ音源に畳み込んだものと比べて、本実施例のパニングによる近似値が変化するのかを、ＩＴＵ－ＲＢＳ．１５３４で定義されているオーディオの主観品質を測定する手法であるＭＵＳＨＲＡ（MUltiple Stimuli with Hidden Reference and Anchor）法で評価した。
ここでは、上述の他の試験と同様に、比較例、オリジナルのＨＲＩＲ、及び本実施例のパニングの合成ＨＲＩＲを、ＪＶＳ（Japanese Versatile Speech）コーパス（＜ＵＲＬ＝”https://sites.google.com/site/shinnosuketakamichi/research-topics/jvs_corpus”＞）に畳み込んで、（真値）及び（近似値）を生成して評価した。
このＭＵＳＨＲＡ法での実験の条件を、下記の表２に示す：

この実験では、音源がある角度は外して、オリジナルのＨＲＩＲにスピーチ音声を畳み込んだもの（真値）を聞かせた後に、（真値）を含む各実施例、比較例の評価をランダムに聞かせて、ブラインドで評価するようにした。

図１６に、このＭＵＳＨＲＡ法での主観品質評価の実験結果（男声１種）を示す。
各グラフは、それぞれ、Ａがオリジナル（真値）、Ｂが４方向＿斜め（比較例）、Ｃが４方向＿縦横（比較例）、Ｄが６方向（比較例）、Ｅが４方向＿斜め（実施例）、Ｆが６方向＿縦横（実施例）、Ｇが６方向（実施例）を示す。いずれのグラフも、縦軸は評価点、×印がついた横のバーの箇所が評価点の平均値で、バーの高さが９５％信頼区間を示す。

結果として、オリジナル（真値）、本実施例、比較例の順位となった。すなわち、本実施例のパニングにより、オリジナルのＨＲＩＲに近い評価点となり、従来のサイン則よりは評価点が高くなることが分かった。

（ＦＡＢＩＡＮのＨＲＩＲを用いたＳＮＲの比較）
上述したオリジナルのＨＲＩＲは１５°間隔であった。このため、より狭い角度範囲で、客観的な評価を行うため、当業者によく使用されているオープンソースのＨＲＩＲデータベースであるＦＡＢＩＡＮ（＜ＵＲＬ＝”https://depositonce.tu-berlin.de/handle/11303/6153”＞を用いた。このＦＡＢＩＡＮは２°間隔でのデータを含んでいる。ＦＡＢＩＡＮは、被験者本人のＨＲＩＲではないので、本実施例のパニングを行ったものについて、ＳＮＲの客観評価だけを行い、結果を確認した。

この実施例で用いる代表点は、上述のオリジナルを用いた場合と同様である。すなわち、
（１）範囲角９０°（４５°、１３５°、２２５°、３１５°）
（２）範囲角９０°（０°、９０°、１８０°、２７０°）
（３）範囲角６０°（３０°、９０°、１５０°、２１０°、２７０°、３３０°）
を、代表点方向に設定した。
これらの代表点の組を、それぞれ４方向＿斜め（１）、４方向＿縦横（２）、６方向（３）と呼ぶ。
このＦＡＢＩＡＮを用いた本実施例のパニングにおいても、相互相関による時間シフトを行い、ベクトル計算によって求めたゲインを使用した。
図１７～図２３を参照し、この結果について説明する。各図において、横軸は角度、縦軸はＳＮＲ（ｄＢ、デシベル）を示す。また、図１７～図１９において、（ａ）は左耳の結果、（ｂ）は右耳の結果を示す。

図１７は、（１）ＳＮＲ（４方向＿斜め）の結果を示す。
図１８は、（２）ＳＮＲ（４方向＿縦横）の結果を示す。
図１９は、（３）ＳＮＲ（６方向）の結果を示す。
図２０は、（１）～（３）の３種類をまとめたＳＮＲ比較（右耳）の結果を示す。
図２１は、（１）～（３）の３種類をまとめたＳＮＲ比較（左耳）の結果を示す。
図２２は、（１）～（２）の４方向のみのＳＮＲ比較（右耳）の結果を示す。
図２３は、（１）～（２）の４方向のみのＳＮＲ比較（左耳）の結果を示す。

図１７～１９によれば、結果として、４方向の場合、良い角度で１０ｄＢ、悪いとこで６ｄＢ程度のＳＮＲとなった。また、（１）４方向＿斜めより、（２）４方向＿縦横のほうが良い結果となった。すなわち、４方向＿縦横だと、良い角度では２０ｄＢ超えるＳＮＲとなり、悪い角度でも１０ｄＢ程度となった。また、ＦＡＢＩＡＮは、２°刻みでデータがあるため、角度毎の振る舞いがよく見えやすかった。
図２０～２１は、４方向及び６方向の全てを重ねて、どれが一番良いかを判断したものである。結論として４方向で十分そうであった。
図２２～２３は、４方向のみを重ねて、縦横と斜めだと、どちらが良いかを判断したものである。結論としては、（２）４方向＿縦横の方が、（１）４方向＿斜めより良く、斜めよりも縦横の４箇所を使うのが良いことがこのグラフから見て取れた。

（小数シフトによる効果）
上述のＦＡＢＩＡＮによる検証では、隣り合う角度でのＳＮＲに大きな差があり、櫛形の形状となっていた。このため、本実施例のパニングで用いた時間シフト量を確認した。
図２４～図２９に、各角度における総合相関が最大となった時間シフト量を示す。いずれも、横軸は角度、縦軸は時間シフト量（サンプル数）を示している。「端点１」は代表点Ｒ－１を、「端点２」は代表点Ｒ－２を示す。

図２４は、時間シフト量（４方向＿斜め、右耳）の演算結果を示す。
図２５は、時間シフト量（４方向＿斜め、左耳）の演算結果を示す。
図２６は、時間シフト量（４方向＿縦横、右耳）の演算結果を示す。
図２７は、時間シフト量（４方向＿縦横、左耳）の演算結果を示す。
図２８は、時間シフト量（６方向、右耳）の演算結果を示す。
図２９は、時間シフト量（６方向、左耳）の演算結果を示す。

いずれのグラフも、２°刻みであっても、何点かで時間シフト量が等しくなっていた。
ここで、上述の実施例では、相互相関が最大となるような時間シフトを行っていたものの、整数値でのシフトのみであった。このため、本来シフトしたい量と実際のシフト量がずれている箇所があると考えられた。
例）シフトしたい量が０．６サンプルのところ、実際にシフトしている量が１サンプル

すなわち、音源Ｓのサンプリング周波数について整数値での時間シフトしか行っていないため、最も適切なシフトサンプルの値が小数の場合でも、整数になってしまっていた。
このため、本発明者らは、オーバーサンプリングを行って、実質的な小数シフトを可能にすることでシフト量のずれを低減し、ＳＮＲの向上が見込めるのではないかと考えて検証した。すなわち、０．５サンプルのシフト、０．２５サンプルのシフト等を行って、相互相関を最大にすることに思い至り、検証した。

ここでは、４倍のオ－バーサンプリングを行い、整数シフトの場合（実施例）とのＳＮＲの比較を行った。
具体的には、ＦＡＢＩＡＮのＨＲＩＲで用いられている４８ｋＨｚサンプリングを、４倍のオーバーサンプリングにより１９２ｋＨｚにして、相互相関を最大になるようにできるか検証した。
これは、４８ｋＨｚサンプリングにおける１サンプルの空間上の長さは約０．７ｃｍであり、４倍にオーバーサンプリングすると１サンプル当たりの空間上の長さは約０．１８ｃｍとなるため、人間の顔、耳のサイズを考えるとこの程度の分解能があればよいのではないかと考えられたためである。

このようにしたオーバーサンプリングによる小数シフトの効果を、ＦＡＢＩＡＮのＨＲＩＲで検証した。
図３０～図３５に、整数倍シフトと小数シフトとでＳＮＲを比較した結果を示す。いずれのグラフも、横軸は角度、縦軸はＳＮＲ（ｄＢ、デシベル）を示す。

図３０は、ＳＮＲ比較（４方向、斜め）の結果を示す。
図３１は、ＳＮＲ比較（４方向、斜め）の結果を示す。
図３２は、ＳＮＲ比較（４方向、縦横）の結果を示す。
図３３は、ＳＮＲ比較（４方向、縦横）の結果を示す。
図３４は、ＳＮＲ比較（６方向）の結果を示す。
図３５は、ＳＮＲ比較（６方向）の結果を示す。

いずれも、小数シフトを行うことで、角度による櫛形のＳＮＲの変化が抑制され、よりＳＮＲが向上した。

（演算量についての検討）
次に、小数シフトを行うためにオーバーサンプリングを行うと、演算量が増えるため、これによる演算量の増加について検討した。
具体的には、演算量を概算することで、オーバーサンプリングを行うことによる演算量の増加がどの程度かを概算し、確認した。

以下の条件で演算量を概算した。
・範囲角内の音源オブジェクト（音源Ｓ）の数：Ｍ
・ＨＲＩＲのタップ数：Ｌ
・小数シフトのためのオーバーサンプリングフィルタの次数：Ｎ
（Ｎ次オーバーサンプリングを行った場合）
・Ｍ倍オーバーサンプリングで何ポイント（小数含む：３．２５ポイント等）シフトを行うかの時間シフト値は、ＨＲＩＲの音源Ｓの方向（音源方向）毎に、事前に算出しておいた。
・当該時間シフト値による時間シフトを音源Ｓに対して行う

比較例として各音源Ｓについて、音源Ｓの方向（音源方向）のＨＲＩＲの畳み込みを直接、行った場合と、本実施例のパニングを用いた場合の演算量とは、以下の（ア）～（ウ）の通りとなる：
（ア）パニングを行わず、それぞれ畳み込みを行った場合
・１サンプルあたり必要な演算量（積和の回数）：ＭＬ

（イ）オーバーサンプリングを行い、小数シフトを許容したパニングを行った場合
１つのオ－バーサンプリング点の算出：２Ｎ
全ての音源Ｓにオーバーサンプリングを行う：２ＭＮ
代表点の値を算出：２Ｍ＋２（Ｍ－１）
≒（２代表点へのゲイン値掛け）＋（２代表点への和信号生成）
畳み込み：２Ｌ
・１サンプルあたり必要な演算量（積和の回数）：２ＭＮ＋２Ｍ＋２（Ｍ－１）＋２Ｌ

（ウ）オーバーサンプリング無しの場合（参考）：
１サンプルあたり必要な演算量（積和の回数）：２Ｍ＋２（Ｍ－１）＋２Ｌ

ここで、上述の（ア）と（イ）の手法での演算量比較の具体例について説明する。
どちらの場合も、オーバーサンプリングフィルタの次数Ｎは１６とする。
ｉ．音源オブジェクト数：Ｍ＝３、ＨＲＩＲのタップ数：Ｌ＝２５６の場合
（ア）での演算量：３×２５６＝７６８
（イ）での演算量：２×３×１６＋２×３＋２（３－１）＋２×２５６＝６１８
ｉｉ．音源オブジェクト数：Ｍ＝４、ＨＲＩＲのタップ数：Ｌ＝２５６の場合
（ア）での演算量：４×２５６＝１０２４
（イ）での演算量：２×４×１６＋２×４＋２（４－１）＋２×２５６＝６５４

結果として、いずれも６５～８０％に積和数が削減されていた。

（波形の例）
図３６に、上述の本実施例のパニングによる合成ＨＲＩＲの波形と、被験者本人（オリジナル）のＨＲＩＲの波形とを比較した例を示す。ここでは、後方（１３５°～２２５°）の波形（４方向＿斜め）を比較した代表例を示す。上側の図が本実施例のパニングによる合成ＨＲＩＲの波形であり、下側の図がオリジナルのＨＲＩＲの波形を示す。
図３７に、上述の本実施例のパニングによる合成ＨＲＩＲの波形と、ＦＡＢＩＡＮのＨＲＩＲの波形とを比較した代表例を示す。ここでは、（４方向＿斜め、右耳）の波形について、上側の図が本実施例のパニングによる合成ＨＲＩＲの波形であり、下側の図がＦＡＢＩＡＮのＨＲＩＲの波形を示す。
いずれも、よく似た波形となっていることが分かった。他の波形でも同様であった。すなわち、本実施例のパニングにより、精度良く近似することが可能となっていた。つまり、特定の代表方向のパニングにより、当該音源を合成することで、等価的に音源方向のＨＲＩＲを代表方向のＨＲＩＲによって生成することが可能であった。

上述の第三実施形態で示したカットオフ周波数３０００Ｈｚ、８ｄＢ／ＯｃｔのＬＰＦのインパルス応答の重み付けフィルタをかけて相互相関を算出したＨＲＩＲを生成し、オリジナルのＨＲＩＲ及び重み付けフィルタをかけないものと比較した。

具体的には、１ｋＨｚの正弦波を、正面から左回りに８秒かけて頭部を１周したときの左耳の入力波形のエンベロープを測定した結果を、図３８に示す。図３８（ａ）はオリジナルのＨＲＩＲでの結果、（ｂ）は比較例であり６方向のＨＲＩＲを重み付けフィルタなしで１層整数シフトして測定した結果、（ｃ）は本実施例において６方向のＨＲＩＲを重み付けフィルタありで１層整数シフトして測定した結果を示す。

結果として、比較例と比較して、重み付けフィルタをかけることで、移動する音源にて、オリジナルのＨＲＩＲに近い、スムーズな推移をさせることができた。

なお、上記実施の形態の構成及び動作は例であって、本発明の趣旨を逸脱しない範囲で適宜変更して実行することができることは言うまでもない。

本発明の音声生成装置は、立体音響を生成する際の演算量を減らして負荷を低減することができ、産業上に利用することができる。

１音声再生装置
２、２ｂ音声生成装置
１０方向取得部
２０パニング部
３０出力部
４０再生部
２００ＨＲＩＲテーブル
Ｌ受聴者
Ｓ、Ｓ－１～Ｓ－ｎ音源
Ｒ、Ｒ－１～Ｒ－ｎ代表点
Ｍ記録媒体

Claims

音源の音源方向を取得する方向取得部と、
前記方向取得部により取得された音源方向に基づいて、特定の代表方向からの音によるパニングを、前記音源の時間シフトとゲイン調整によって行うことにより、前記音源を表現するためのパニング部とを備える
ことを特徴とする音声生成装置。
前記音源は、複数個存在し、
前記代表方向は、前記音源の個数より少ない数である、それぞれの代表点に対する方向であり、
前記パニング部は、
複数個の前記音源による音像を、複数の前記代表方向の音によって合成する
ことを特徴とする請求項１に記載の音声生成装置。
前記パニング部は、
前記音源に対して、前記音源方向の頭部インパルスレスポンスと前記代表方向の頭部インパルスレスポンスとの相互相関が最大になるように算出された時間シフト、又は該時間シフトに負号を付した時間シフトを行う
ことを特徴とする請求項２に記載の音声生成装置。
前記時間シフト及び／又はゲインは、周波数軸上の重み付けフィルタをかけてから前記相互相関が算出されたものを用いる
ことを特徴とする請求項３に記載の音声生成装置。
前記パニング部は、
複数の前記代表点のそれぞれについて、前記時間シフトした前記音源に、前記音源と前記代表方向毎に設定されたゲインをかける
ことを特徴とする請求項３に記載の音声生成装置。
前記パニング部は、
代表方向のＨＲＩＲベクトルの和で音源方向のＨＲＩＲベクトルを合成する際、合成されたＨＲＩＲベクトルと音源方向のＨＲＩＲベクトルとの誤差信号ベクトルが代表方向のＨＲＩＲベクトルと直行するようにして算出したゲインを用いる
ことを特徴とする請求項５に記載の音声生成装置。
前記パニング部は、
合成されたＨＲＩＲベクトルと音源方向のＨＲＩＲベクトルとの誤差信号ベクトルのエネルギー又はＬ２ノルムを最小化するようにして算出されたゲインを用いることを特徴とする
ことを特徴とする請求項５に記載の音声生成装置。
前記誤差信号ベクトルは、周波数軸上の重み付けフィルタをかけたものを用いる
ことを特徴とする請求項７に記載の音声生成装置。
前記パニング部は、
前記音源の位置からの左右の耳の頭部インパルスレスポンスのエネルギーバランスが、パニングにより実質的に複数の前記代表点からの頭部インパルスレスポンスで合成された頭部インパルスレスポンスでも維持されるように補正されたゲインを用いる
ことを特徴とする請求項５に記載の音声生成装置。
前記パニング部は、
前記音源に前記時間シフトを行い、前記ゲインを掛けた信号を前記代表点の位置に存在する代表点信号として扱い、前記音源の個数分の前記代表点信号の和信号に、前記代表点の位置の頭部インパルスレスポンスを畳み込んで、受聴者の耳元の信号を生成する
ことを特徴とする請求項５に記載の音声生成装置。
前記時間シフトは、サンプリングの小数点分のシフトも許容する
ことを特徴とする請求項３に記載の音声生成装置。
再生高域強調フィルタにより高域が減衰する傾向が補償される
ことを特徴とする請求項３に記載の音声生成装置。
前記音源は、コンテンツの音声信号、及び遠隔通話の参加者の音声信号のいずれかであり、
前記方向取得部は、受聴者からみた前記音源の方向を取得する
ことを特徴とする請求項１に記載の音声生成装置。
請求項１乃至１３のいずれか１項に記載の音声生成装置と、
前記音声生成装置により生成された音声信号を出力させる音声出力部とを備える
ことを特徴とする音声再生装置。
音声生成装置により実行される音声生成方法であって、
音源の音源方向を取得し、
取得された音源方向に基づいて、特定の代表方向からの音によるパニングを、前記音源の時間シフトとゲイン調整によって行うことにより、前記音源を表現する
ことを特徴とする音声生成方法。
音声生成装置により実行される音声信号処理プログラムであって、前記音声生成装置により、
音源の音源方向を取得させ、
取得された音源方向に基づいて、特定の代表方向からの音によるパニングを、前記音源の時間シフトとゲイン調整によって行うことにより、前記音源を表現させる
ことを特徴とする音声信号処理プログラム。