JP2022128177A

JP2022128177A - 音声生成装置、音声再生装置、音声再生方法、及び音声信号処理プログラム

Info

Publication number: JP2022128177A
Application number: JP2021026556A
Authority: JP
Inventors: 正之西口; Masayuki Nishiguchi; 幸治安倍; Koji Abe
Original assignee: Akita Prefectural University
Current assignee: Akita Prefectural University
Priority date: 2021-02-22
Filing date: 2021-02-22
Publication date: 2022-09-01

Abstract

【課題】ヘッドフォン等で再生する際に、従来より臨場感のある音声信号を生成可能な音声生成装置を提供する。【解決手段】方向取得部１０は、音源の放射方向に対する受聴者の方向、及び受聴者の正面方向に対する音源の方向を取得する。音声生成部２０は、方向取得部１０により取得された方向に基づいて、音源の音声放射特性及び受聴者の頭部伝達関数に対応した音声信号を生成する。この音声信号は、音声出力部３０により出力させ、ヘッドフォン等の再生部４０で再生させることが可能である。【選択図】図１

Description

本発明は、特にヘッドフォン等で再生される音声信号を作成する音声生成装置、音声再生装置、音声再生方法、及び音声信号処理プログラムに関する。

従来から、映画、ＶＲ（Virtual Reality）、ＡＲ（Augmented Reality）等のコンテンツの再生が可能なＶＲヘッドフォンやＨＭＤ（Head Mounted Display）が存在する。
このようなＶＲヘッドフォンやＨＭＤでは、より広い音場が感じられるように、受聴者から音源への方向を考慮した頭部伝達関数（Head-Related Transfer Function、以下、「ＨＲＴＦ」という。）を用いて、頭外定位させていた。

特許文献１には、このようなＨＲＴＦを算出する音声処理装置の一例として、リスナーの頭部の姿勢に応じた検出信号を出力するセンサーと、検出信号に基づく演算によりリスナーの頭部が向く方向を求めて、当該方向を示す方向情報を出力するセンサー信号処理部と、方向情報を平均化した平均情報に基づいて、センサー信号処理部から出力される方向情報を補正するセンサー出力補正部と、予め求められた頭部伝達関数を、補正された方向情報にしたがって修正する頭部伝達関数修正部と、再生対象の音声信号に、修正された頭部伝達関数に応じて音像定位処理を施す音像定位処理部とを含む装置が記載されている。

特開２０２１－５８２２号公報

しかしながら、特許文献１に記載されたような従来の音声処理装置では、音源を点音源としてＨＲＴＦを計算していた。すなわち、音声の放射される方向による周波数毎のエネルギーの違い等（以下、「音声放射特性」という。）が考慮されていなかった。このため、生成された音声を受聴しても、十分な臨場感を感じることはできなかった。

本発明は、このような状況に鑑みてなされたものであり、上述の問題を解消することを目的とする。

本発明の音声生成装置は、音源の放射方向に対する受聴者の方向、及び前記受聴者の正面方向に対する音源の方向を取得する方向取得部と、前記方向取得部により取得された前記受聴者の方向及び前記音源の方向に基づいて、前記音源の音声放射特性及び前記受聴者の頭部伝達関数に対応した音声信号を生成する音声生成部とを備えることを特徴とする。
本発明の音声生成装置は、前記音声生成部は、前記音源の前記音声放射特性を強調することを特徴とする。
本発明の音声生成装置は、前記音源は、コンテンツの音声信号、及び遠隔通話の参加者の音声信号のいずれかであり、前記方向取得部は、前記音源による音の放射方向に対する前記受聴者の方向を取得することを特徴とする。
本発明の音声生成装置は、前記音声生成部は、前記音源の発した音声のレベル及び／又は振幅周波数特性を変化させた音声信号を生成することを特徴とする。
本発明の音声生成装置は、前記音声生成部は、複数の種類及び環境のいずれかに応じた適切な前記音源の前記音声放射特性を選択することを特徴とする。
本発明の音声再生装置は、前記音声生成装置と、前記音声生成装置により生成された音声信号を出力させる音声出力部とを備えることを特徴とする。
本発明の音声再生方法は、音源の放射方向に対する受聴者の方向、及び前記受聴者の正面方向に対する音源の方向を取得し、取得された前記受聴者の方向及び前記音源の方向に基いて、前記音源の音声放射特性及び前記受聴者の頭部伝達関数に対応した音声信号を生成し、生成された音声信号を出力することを特徴とする。
本発明の音声信号処理プログラムは、音声生成装置により実行される音声信号処理プログラムであって、前記音声生成装置に、音源の放射方向に対する受聴者の方向、及び前記受聴者の正面方向に対する音源の方向を取得させ、取得された前記受聴者の方向及び前記音源の方向に基いて、前記音源の音声放射特性及び前記受聴者の頭部伝達関数に対応した音声信号を生成させることを特徴とする。

本発明によれば、音源及び受聴者のお互いに対する方向を取得し、この方向に基づいて、音源の音声放射特性及び受聴者の頭部伝達関数に対応した音声信号を生成することで、受聴者が受聴する際に、より臨場感が感じられる音声信号を生成可能な音声生成装置を提供することができる。

本発明の実施の形態に係る音声生成装置の制御構成図である。図１に示す音声放射特性情報の概念を示すグラフである。本発明の実施の形態に係る音声再生処理のフローチャートである。図２に示す方向取得処理の概念図である。本発明の他の実施の形態に係る音声生成装置の制御構成図である。

＜実施の形態＞
〔音声再生装置１の制御構成〕
まず、図１及び図２を参照して、本発明の実施の形態に係る音声再生装置１の制御構成について説明する。

音声再生装置１は、映像や音声や文字等のデータであるコンテンツの音響信号を再生したり、遠隔地との間で通話等をしたりするような、受聴者に装着され、音声の再生が可能な装置である。
具体的には、音声再生装置１は、例えば、光学媒体やフラッシュメモリーカードに格納されたコンテンツを再生するコンテンツ再生装置、映画館やパブリックビューイング会場の機器、専用のデコーダー及びヘッドトラッキングセンサーを備えたヘッドフォン、ＶＲ（Virtual Reality）やＡＲ（Augmented Reality）やＭＲ（Mixed Reality）用のＨＭＤ（Head-Mounted Display）、ゲーム専用機、ヘッドフォン型スマートフォン（Smart Phone）、ヘッドフォンが接続されたＰＣ（Personal Computer）やスマートフォン、テレビ（ビデオ）会議システム、マイクロフォンとスピーカーとを備える遠隔会議用機器、音声聞き取りの補助装置、補聴器、その他の家電製品等である。

本実施形態に係る音声再生装置１は、制御構成として、方向取得部１０、音声生成部２０、出力部３０、及び再生部４０を備える。
また、本実施形態においては、方向取得部１０及び音声生成部２０が、音声信号を生成する音声生成装置２として構成される。

まず、本実施形態においては、音源Ｓとして、コンテンツの音声信号、及び遠隔通話参加者の音声信号のいずれかを用いることが可能である。

このコンテンツは、例えば、映画、ＶＲ、ＡＲ、ＭＲ、ゲーム等の各種コンテンツであってもよい。この映画は、楽器の演奏、講演等も含む。この場合、音源Ｓとして、音声発生源となる役者やナレーターや落語家や講談家やその他の発話者のようなヒトに加え、楽器、乗り物、ゲームキャラクタ等のオブジェクト（以下、単に「オブジェクト等」という。）に由来する音声信号を用いることが可能である。これらの音声信号は、コンテンツ内で、空間的な配置関係が設定される。

または、音源Ｓが、遠隔通話参加者の音声信号である場合、ＰＣ（Personal Computer）やスマートフォン等の各種メッセンジャーやビデオ会議用アプリケーションソフトウェア（Application Software、以下、単に「アプリ」という。）のユーザー（参加者）が発声した音声信号等を用いることが可能である。この音声信号等は、ヘッドセット等のマイクロフォンにより取得されたものでも、机等に固定されて取得されたものであってもよい。加えて、カメラで取得する発話者の頭部の向きと、音声の取得される向きとが異なっていてもよい。この場合は、方向情報として、カメラ内での参加者の頭部の向き、又は仮想空間内で配置されたアバターの向き等が、方向情報として付加されてもよい。さらに、音源Ｓは、一対一、一対複数、複数対複数の拠点間のテレビ会議システム等の遠隔会議の参加者の音声信号等であってもよい。この場合も、各通話の参加者のカメラに対する向きが方向情報として設定されていてもよい。

また、いずれの場合においても、音源Ｓの音声信号として、ネットワーク又は直接接続されたマイクロフォン等で録音された音声信号も用いることが可能である。この場合も、音声信号には、方向情報が付加されていてもよい。

方向取得部１０は、音源Ｓの放射方向に対する受聴者の方向、及び受聴者の正面方向に対する音源Ｓの方向を取得する。具体的には、方向取得部１０は、音源Ｓからみた受聴者の方向、及び受聴者からみた音源Ｓの方向を取得する。すなわち、方向取得部１０は、音源Ｓ及び受聴者のお互いに対する方向を取得する。
より具体的には、方向取得部１０は、音源Ｓの放射方向に対する受聴者の方向として、設定された音声の放射方向からみた受聴者の方向を取得する。このうち、音源Ｓの音声の放射方向は、音声の放射エネルギーの平均値が最大となる方向であってもよく、音声を発する開口部等から音声が放射される方向であってもよい（この音源Ｓの放射方向を、以下、「音源Ｓの正面方向」ともいう。）。音源Ｓの放射方向に対する（放射方向からみた、放射方向を基準とした）受聴者の方向は、例えば、受聴者を含むヒトの場合は正中面からみた受聴者の方向である。具体的には、音源Ｓの放射方向から、ヒトの場合は発声器官である口の向いている方向を基準とした受聴者の方向となる。楽器の場合は、音源Ｓの放射方向から、音が放射される端部や弦等の向いている方向を基準とした受聴者の方向となる。その他のオブジェクト等については、音源Ｓの放射方向から、設定又は演算で算出された方向を基準とした受聴者の方向となる。
また、受聴者の正面方向は、受聴者の正中面からの方向であってもよい。本実施形態においては、受聴者の頭部中心についての相称面が正中面であってもよい。または、左耳と右耳とを結ぶ仮想面から鉛直な鼻部先端への方向を、受聴者の正面方向としてもよい。この正面方向は、ヘッドトラッキングセンサー等から取得可能である。
これらの方向の角度の開始箇所等は任意に設定してもよく、お互いに相対的な角度で示されてもよい。

ここで、本実施形態に係る音源Ｓには、音声を発声させる際の方向情報が算出されたり設定されたりしている。このため、方向取得部１０は、音源Ｓによる音の放射方向を取得する。本実施形態において、例えば、方向取得部１０は、音源Ｓとなる参加者の頭部の方向を取得することが可能である。また、方向取得部１０は、受聴者についても、ＨＭＤやスマートフォンのジャイロセンサー等によるヘッドトラッキング、仮想空間におけるアバターの向き等の方向情報から、受聴者の頭部の方向を取得可能である。

方向取得部１０は、これらの方向の情報に基づいて、仮想空間を含む空間的な配置における、音源Ｓ及び受聴者の向きを相互に算出可能である。

音声生成部２０は、方向取得部１０により取得された方向に基づいて、音源Ｓの音声放射特性及び受聴者のＨＲＴＦに対応した音声信号を生成する。
具体的に、本実施形態においては、音声生成部２０は、音声放射特性情報２００を参照して、複数の音源Ｓの種類及び環境のいずれかに応じた適切な音声放射特性を選択することが可能であってもよい。より具体的には、例えば、音声生成部２０は、上述のように、ヒト及びオブジェクト等の種類に応じて、適切な音声放射特性を選択することが可能である。または、音声生成部２０は、後述する周囲の環境に応じて、適切な音声放射特性を選択することが可能であってもよい。
さらに、音声生成部２０は、音声放射特性を強調してもよい。この強調は、例えば、音声生成部２０は、例えば、音源Ｓの発した音のレベル及び／又は振幅周波数特性を変化させた音声信号を生成することで行うことも可能である。

音声出力部３０は、音声生成装置２により生成された音声信号を出力させる。本実施形態においては、音声出力部３０は、例えば、Ｄ／Ａコンバーター、ヘッドフォン用のアンプ（Amplifier）等を備え、ヘッドフォンである再生部４０用の再生音響信号として音声信号を出力する。ここで、再生音響信号は、例えば、コンテンツに含まれる情報を基にしてデジタルデータが復号化され、再生部４０で再生されることで受聴者が聴くことが可能な音声信号であってもよい。または、音声出力部３０は、音声信号を符号化して、音声ファイルやストリーミング音声として出力することで再生してもよい。

再生部４０は、出力部３０により出力された再生音響信号を再生する。再生部４０は、ヘッドフォンやイヤフォンの電磁ドライバー及びダイヤフラムを備えたスピーカー（以下、「スピーカー等」という。）、受聴者の装着する耳当てやイヤーピース等を備えていてもよい。
または、再生部４０は、デジタルの再生音響信号をデジタル信号のまま又はＤ／Ａコンバーターでアナログ音声信号に変換し、スピーカー等から出力して、受聴者に聴かせることが可能であってもよい。または、再生部４０は、音声信号を別途、受聴者が装着したＨＭＤのヘッドフォンやイヤフォン等に出力してもよい。

ここで、図２により、本実施形態に係る音声放射特性情報２００について説明する。
音声放射特性情報２００は、音声生成部２０により選択される音源Ｓの音声放射特性のデータである。本実施形態に係る音声放射特性は、例えば、発話者（音源Ｓ）が正面方向に発した発話を、発話者の正中面に対してどの方向で受聴するかによってその周波数特性がどのように変化するかについての特性である。すなわち、音声放射特性は、音声の放射特性が、方向及び周波数でどう変化するかが事前に測定されたものである。具体的には、発声器官である口や顔の周囲の状況により、音声の放射特性が変わるため、これを測定しておいて、音声信号の生成に利用する。または、物理演算等により、ヒトやオブジェクト等の音声の放射特性をシミュレートして生成しておき、これを音声放射特性情報２００に格納しておいてもよい。
本実施形態においては、音声放射特性情報２００は、例えば、音声源Ｓの特性に合わせて、音源Ｓが正面に向かって発した音声を収録した方向（向き）と周波数成分毎の出力値（エネルギー）とを含む。

図２は、音声放射特性情報２００に含まれるヒトの生音声の音声放射特性の一例を示す。この例では、半径１．５ｍの円上に設置したマイクロホンアレイで、指向特性を測定した。このマイクロホンアレイでは、発話者の右真横方向を０度とし、反時計回りに１５度間隔で、１８０度まで、計１３個のコンデンサーマイクロホンを載置した。発話者は、正面方向９０度のコンデンサーマイクロホンに対して顔を向け、発話を行い、これを収録した。この上で、収録した音声を帯域分割し、周波数毎の音声放射特性を、音声放射特性情報２００として格納した。

図２は、ヒトが「あ」を発声した際の放射特性を示す。ここでは、測定結果の一例として、録音された音声について２４分割の帯域分割を行い、帯域ごとに求めたエネルギーを用いたレーダーチャートを一例として示している。この例では、エネルギーを、１／３オクターブバンドごとに二乗平均平方根（ＲＭＳ）を用いて算出し、正面方向が０ｄＢとなるように各方向それぞれ相対レベルで示している。図２の左側のレーターチャートは２００～４００Ｈｚ、右側のレーターチャートは１．６ｋ～３．２ｋＨｚの結果を示す。
この図に示されるように、低い周波数領域では０度～１８０度にエネルギーが均一になる。これに比べて、高い周波数では０度又は１８０度の側面方向のエネルギーが低くなり、指向性が高くなることが分かる。

本実施形態においては、音声放射特性情報２００として、このようなヒトの声の音声放射特性、及び／又は、様々な種類のオブジェクト等について、それぞれの音声放射特性を含んでいてもよい。これらが、音声生成部２０により、音源Ｓの種類に応じて選択される。または、音声放射特性情報２００として、低音成分と高音成分の比率、トーン性の成分が多いかノイズ性の成分が多いかの比率等により、複数の音声放射特性が選択可能であってもよい。
また、音声放射特性情報２００として、周囲の環境、例えば、密閉された部屋、ホール、開けた野原（平原）、森、海中等に応じた複数の音声放射特性を含んでいてもよい。すなわち、音声放射特性情報２００において、各種の典型的な空間に音源Ｓが存在する場合、この種類に応じて、音声放射特性が選択されてもよい。この場合、ヒトやオブジェクト等について、これらの典型的な空間にいた場合の音声放射特性を事前に何パターンか測定しておいて、そのなかから尤もらしいものを、状況に応じて選択して用いることが可能である。

〔音声再生装置１のハードウェア構成〕
音声再生装置１は、例えば、各種回路として、ＡＳＩＣ（Application Specific Processor、特定用途向けプロセッサー）、ＤＳＰ（Digital Signal Processor）、ＣＰＵ（Central Processing Unit、中央処理装置）、ＭＰＵ（Micro Processing Unit）、ＧＰＵ（Graphics Processing Unit）等の制御演算手段を含んでいる。

さらに、音声再生装置１は、記憶手段として、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等の半導体メモリー、ＨＤＤ（Hard Disk Drive）等の磁気記録媒体、光学記録媒体等である記憶部を含んでいてもよい。ＲＯＭとしては、フラッシュメモリーやその他の書き込み、追記可能な記録媒体を含んでいてもよい。さらに、ＨＤＤの代わりに、ＳＳＤ（Solid State Drive）を備えていてもよい。この記憶部には、本発明の実施の形態に係る制御プログラム及び各種のコンテンツを格納してもよい。このうち、制御プログラムは、本実施形態の音声信号処理プログラムを含む各機能構成及び各方法を実現するためのプログラムである。この制御プログラムは、ファームウェア等の組み込みプログラム、ＯＳ（Operating System）及びアプリを含む。

各種のコンテンツは、例えば、映画や音楽のデータ、オーディオブック、音声合成可能な電子書籍のデータ、テレビジョンやラジオの放送データ、カーナビゲーションや各種家電等の操作指示に関する各種音声データ、ＶＲ、ＡＲ、ＭＲ、ゲーム等を含む娯楽コンテンツ、その他の音声出力可能なデータであってもよい。または、携帯電話やトランシーバー等の音声通話データやメッセンジャーでのテキストの合成音声のデータをコンテンツとすることも可能である。これらのコンテンツは、有線や無線で伝送されたファイルやデータ塊でダウンロードされて取得されても、ストリーミング等により段階的に取得されてもよい。

また、本実施形態に係るアプリは、コンテンツを再生するメディアプレーヤー等のアプリ、メッセンジャーやビデオ会議用のアプリ等であってもよい。

また、音声再生装置１は、受聴者の向いている方向を算出するＧＮＳＳ（Global Navigation Satellite System）受信機、部屋内位置方向検出器、ヘッドトラッキングが可能な、加速度センサー、ジャイロセンサー、地磁気センサー等と、これらの出力を方向情報に変換する回路とを含む方向算出手段を備えていてもよい。

さらに、音声再生装置１は、液晶ディスプレイや有機ＥＬディスプレイ等の表示部、ボタン、キーボード、マウスやタッチパネル等のポインティングデバイス等の入力部、無線や有線での各種機器との接続を行うインターフェイス部とを備えていてもよい。このうち、インターフェイス部は、マイクロＳＤ（登録商標）カードやＵＳＢ（Universal Serial Bus）メモリー等のフラッシュメモリー媒体等のインターフェイス、ＬＡＮボード、無線ＬＡＮボード、シリアル、パラレル等のインターフェイスを含んでいてもよい。

また、音声再生装置１は、主に記憶手段に格納された各種プログラムを用いて制御手段が実行することで、本発明の実施の形態に係る各方法を、ハードウェア資源を用いて実現することができる。
なお、上述の構成の一部又は任意の組み合わせをＩＣやプログラマブルロジックやＦＰＧＡ（Field-Programmable Gate Array）等でハードウェア的、回路的に構成してもよい。

〔音声再生装置１による音声再生処理〕
次に、図３～図４を参照して、本発明の実施の形態に係る音声再生装置１による音声再生処理の説明を行う。
本実施形態の音声再生処理は、主に音声再生装置１において、それぞれ、制御部が記憶部に格納された制御プログラムを、各部と協働し、ハードウェア資源を用いて制御して実行し、又は、各回路で直接実行する。
以下で、図３のフローチャートを参照して、音声再生処理の詳細をステップ毎に説明する。

（ステップＳ１０１）
まず、音声再生装置１の方向取得部１０が、方向取得処理を行う。
方向取得部１０は、音源Ｓ及び受聴者のお互いに対する方向を取得する。
具体的には、方向取得部１０は、コンテンツの音声信号又は遠隔通話の参加者の音声信号等に付加されている、音源Ｓの方向情報を取得する。この上で、方向取得部１０は、音源Ｓと受聴者との空間的な配置を把握する。この配置は、上述したように、コンテンツ等に設定された仮想空間等を含む空間内の配置であってもよい。そして、方向取得部１０は、把握された空間内の配置に応じて、音源Ｓから見た受聴者の方向、及び受聴者から見た音源Ｓの方向を、それぞれ算出する。

図４により、この方向の算出の詳細について説明する。具体的には、音源Ｓが遠隔会議の発話者の音声信号であり、受聴者も遠隔会議の参加者である例について記載する。この例では、仮想空間内に受聴者Ａ及び受聴者Ｂの二人の受聴者がおり、発話者の発話を受聴者Ａ、受聴者Ｂがヘッドフォン等で受聴している。

ここで、まず、方向取得部１０は、音源Ｓの方向情報を取得する。図４の例では、この方向情報は、アプリにおける仮想空間内における発話者の頭部の向きの情報であってもよい。さらに、この例では、方向取得部１０は、仮想空間内における発話者、受聴者Ａ、受聴者Ｂの座標情報を取得し、空間的な配置を算出する。この上で、方向取得部１０は、仮想空間内における受聴者Ａ、受聴者Ｂの頭部の向きを方向情報として取得する。これにより、方向取得部１０は、発話者、受聴者Ａ、受聴者Ｂの顔の向きに基づいて、お互いに対する方向をそれぞれ算出する。

図４の例において、方向取得部１０は、α₁、α₂、β₁、β₂の各方向を算出する。このうち、α₁、α₂は、それぞれ、受聴者Ａ及び受聴者Ｂの顔面の真正面から見た発話者の方向である。一方、β₁、β₂は、それぞれ、発話者の顔面の真正面から見た受聴者Ａの方向、及び受聴者Ｂの方向である。これらの方向は、それぞれ、頭部中心から頭部中心へ、正中面からの方向である例を示す。

方向取得部１０は、コンテンツの音声信号についても、同様に、音源Ｓの音声信号の方向情報から音源Ｓ及び受聴者のお互いに対する方向を取得可能である。

（ステップＳ１０２）
ここで、音声生成部２０が、音声信号生成処理を行う。
まず、音声生成部２０は、音源Ｓの音声信号を取得し、これをＤＦＴ、ＭＤＣＴ等によって、時間領域から周波数領域の信号へ変換し、音源音響信号として記憶部に格納する。具体的には、音声生成部２０は、音声信号を数マイクロ秒～数十ミリ秒程度のウィンドウ（フレーム）に切り出し、ＤＦＴ（Discrete Fourier Transformation、離散フーリエ変換）、ＭＤＣＴ（Modified Discrete Cosine Transform、変形離散コサイン変換）等によって、時間領域から周波数領域へ変換する。このフレームは、例えば、サンプリング周波数４８ｋＨｚ、量子化ビット数１６ビットの場合、２０４８サンプル程度を用いることが好適である。音声生成部２０は、このフレームを音源音響信号（周波数成分）として出力する。または、音声生成部２０は、バンドパスフィルター等で周波数分析を行って、各サブバンド成分の信号（以下、「サブバンド信号」という。）に帯域分割して、周波数領域の音源音響信号に変換してもよい。加えて、音声生成部２０は、これらの周波数領域の信号への分割の結果を時系列で分析し、出力される音源音響信号がトーン性の信号かノイズ性の信号かを判断可能である。

音声生成部２０は、この音源音響信号について、方向取得部１０により取得された方向に基づいて、音源Ｓの音声放射特性及び受聴者のＨＲＴＦに対応した音声信号を生成する。
具体的には、上述したように、例えば、受聴者がコンテンツをヘッドフォン再生で閲覧する場合、上述の受聴者から見た役者等の発話者の頭部の方向と、発話者自身の頭部の方向とが、方向取得部１０により取得されている。
このため、音声生成部２０は、これらの方向に基づいた音源Ｓの音声信号の音声放射特性を、音声放射特性情報２００から取得して、受聴者の頭部の方向に応じたＨＲＴＦとともに畳み込んだものを、従来のＨＲＴＦの代わりに用いて、音声信号を生成する。
または、音声生成部２０は、ＡＲやＶＲ等で、受聴者に対して仮想的な発話者の方向に基づいた音声放射特性を音声放射特性情報２００から取得して、これをＨＲＴＦとともに畳み込んで、音声信号を生成することも可能である。
または、音声生成部２０は、上述の音源Ｓの音響信号にこの音声応射特性に応じたフィルタ処理を行い、レベル及び／又は振幅周波数特性を変化させた音声信号を生成することも可能である。音声生成部２０は、この音声信号を、受聴者の頭部の方向に応じたＨＲＴＦと畳み込むことも可能である。

図４により、この音声生成部２０による音声生成処理の一例について説明する。
ここでは、音源Ｓである発話者の音声放射特性の伝達関数を方向βの関数として周波数領域でＲ（β）とする。また、音源Ｓから人間の耳元までの音の伝達特性であるＨＲＴＦとして、受聴者Ａの左耳用のＨＲＴＦをＨＲＴＦ₁＿ｌ（α）、右耳用をＨＲＴＦ₁＿ｒ（α）とする。一方、受聴者ＢのＨＲＴＦとして、左耳用をＨＲＴＦ₂＿ｌ（α）、右耳用をＨＲＴＦ₂＿ｒ（α）とする。なお、音声放射特性及びＨＲＴＦが周波数の関数であるのは当業者に理解されるため、ここでは周波数の記述を省略している。
この際、音声生成部２０は、受聴者Ａの左右の耳に対しては、それぞれ、

（左耳用）ＨＲＴＦ₁＿ｌ（α₁）・Ｒ（β₁）・Ｓ
（右耳用）ＨＲＴＦ₁＿ｒ（α₁）・Ｒ（β₁）・Ｓ

にて音声信号を生成する。
同様に、音声生成部２０は、受聴者Ｂの左右の耳に対しては、それぞれ、

（左耳用）ＨＲＴＦ₂＿ｌ（α₂）・Ｒ（β₂）・Ｓ
（右耳用）ＨＲＴＦ₂＿ｒ（α₂）・Ｒ（β₂）・Ｓ

にて音声信号を生成する。
または、音声生成部２０は、音声放射特性に基づいたフィルタ処理等を行って、ＨＲＴＦに畳み込むような処理を行うことも可能である。

このように、音声生成部２０は、音源Ｓの音声放射特性とＨＲＴＦとが周波数領域で掛け合わされることで、より臨場感があり頭外定位する音声信号を生成することが可能である。
なお、上述の例では、音源Ｓの音声信号をＤＦＴ等により周波数領域に変換した後、周波数領域の掛け算によって音声放射特性及びＨＲＴＦを音源Ｓの音声信号に反映する方法について説明したが、音源Ｓの音声信号を周波数領域に変換しないで、時間領域の信号のまま、音声放射特性及びＨＲＴＦの時間領域の応答を畳み込むことによっても、同様な処理を行うことが可能である。
または、音声生成部２０は、ＨＲＴＦだけではなく、両耳間音圧差（Interaural Level Difference、ＩＬＤ）若しくはＩＴＤ（Interaural Time Difference、両耳間時間差)の調整、仮想スピーカーの位置をずらす等の手法により、頭外定位の位置を移動させることも可能である。

ここで、通話参加者のうち、発話者と受聴者が入れ替わった場合は、それに応じて上記頭部伝達関数や放射特性、対応する方向も入れ替えることが可能である。

加えて、いずれの場合においても、音声生成部２０は、音声放射特性情報２００から、ヒトやオブジェクト等の種類に応じて、音声放射特性を選択することが可能である。すなわち、オブジェクトがピアノ、フルート等の楽器であった場合、この楽器の方向又は演奏している演奏者の方向に合わせて、適切な音声放射特性が選択可能である。
さらに、音声生成部２０は、複数の環境のいずれかに応じた適切な音声放射特性を選択することが可能である。たとえば、発話者及び受聴者が仮想空間内の密閉された部屋又は草原等にいた場合、これに応じて、音声放射特性情報２００から音声放射特性を選択することも可能である。

（ステップＳ１０３）
次に、出力部３０が音声出力処理を行う。
音声出力部３０は、音声生成部２０により生成された音声信号を、再生部４０に出力することで再生させる。この出力は、例えば、受聴者の左耳、右耳に対応した２チャンネルのアナログ音声信号であってもよい。
これにより、再生部４０は、ヘッドフォンによる２チャンネルの音声信号として仮想的な音場に対応した音声信号を再生することが可能となる。
以上により、本発明の実施の形態に係る音声再生処理を終了する。

以上のように構成することで、以下のような効果を得ることができる。
従来、映画、ＶＲ、ＡＲ、ＭＲ、ゲーム等のコンテンツ再生をＶＲヘッドフォンやＨＭＤ等で行う際、従来のＨＲＴＦでは、音源は点音源であり、音声の放射特性は考慮されていなかった。
図４の例でいうと、従来は、受聴者Ａに関しては方向α₁に関する受聴者Ａの頭部伝達関数を用いて、また受聴者Ｂに関しては方向α₂に関する受聴者Ｂの頭部伝達関数を用いて、発話者の発話音声を処理し、受聴者Ａ及び受聴者Ｂから見込んだ発話者の方向に、発話音声を頭外定位させていた。すなわち、従来では、発話者からみた受聴者の方向が考慮されていなかった。すなわち、従来のＨＲＴＦは、その定義上「受け取り側」の方向に関する空間的特性しかなかった。

これに対して、本発明の実施の形態に係る音声生成装置２は、音源Ｓ及び受聴者のお互いに対する方向を取得する方向取得部１０と、方向取得部１０により取得された方向に基づいて、音源Ｓの音声放射特性及び受聴者のＨＲＴＦに対応した音声信号を生成する音声生成部２０とを備えることを特徴とする。
このように構成することで、本実施形態に係る音声生成装置２においては、音源Ｓから見た受聴者の方向も考慮して、その放射特性を表現する伝達関数を用いて再生する音声信号を生成することができる。よって、より臨場感の高い音声を生成できる。

より詳しく説明すると、本発明者らがヒトの発話音声の放射特性等を調査したところ、その受聴位置によって大きく振幅周波数特性が変わることを発見し、これを本実施形態に係る音声生成装置２に適用し、本発明を完成させるに至った。
この音声生成装置２により、従来より臨場感、リアリティの高い音作りを行うことができる。すなわち、本実施形態に係る音声生成装置２では「送り手側」の音源に関する空間的特性を実測等してモデル化を行い、これをＨＲＴＦに加えて利用することが可能となった。これにより仮想音場の生成において、よりリアリティの高い音声信号を生成できる。

図４の例でいうと、本実施形態に係る音声生成装置２では、発話者から見込んだ受聴者Ａの方向β₁及び受聴者Ｂの方向β₂を考慮してヘッドフォン提示する。これは、発話者の発話をどの方向で聞くか、すなわち図のβ₁、β₂の値によって発話者の発生した音声が変化して受聴者に到達することに着目したものである。
上述した従来の頭部伝達関数に加え、この変化、すなわち音源Ｓの放射特性を勘案することで、より現実感の高い音声をヘッドフォン等で再現することが可能になる。また、上述したα₁、α₂、β₁、β₂は、発話者（音源Ｓ）、受聴者Ａ、受聴者Ｂの座標情報及び顔の向きがわかれば容易に計算できる。

本発明の実施の形態に係る音声生成装置２において、音声生成部２０は、音声放射特性を強調することを特徴とする。
このように構成することで、コンテンツ再生や遠隔会議等でより臨場感を強調又はデフォルメすることができる。これにより、受聴者により没入感を与えたり、オブジェクトを認識させやすくしたりすることができる。

本発明の実施の形態に係る音声生成装置２は、音源Ｓは、コンテンツの音声信号、及び遠隔通話の参加者の音声信号のいずれかであり、方向取得部１０は、音源Ｓによる音の放射方向を取得することを特徴とする。
このように構成することで、コンテンツの再生時、１対１接続、１対多点接続、多点対多点接続のメッセンジャー、遠隔会議等において、より臨場感のある音声を生成することができる。

本発明の実施の形態に係る音声生成装置２においては、音声生成部２０は、音源Ｓの発した音のレベル及び／又は振幅周波数特性を変化させた音声信号を生成することを特徴とする。
このように構成することで、音源Ｓがコンテンツの音声信号である場合、音声のレベル及び／又は振幅周波数特性を変化させて再生することで、臨場感を高められる。または、音源Ｓが発話者である場合、受聴者に対する頭部の方向（ｙａｗ）によって発話のレベル及び／又は振幅周波数特性を変化させることで、発話者の音声を明瞭、又はより高い臨場感で聴くことができる。落語や講演等での臨場感も高められる。

本発明の実施の形態に係る音声再生装置１においては、音声生成部２０は、複数の環境のいずれかに応じた適切な音声放射特性を選択することを特徴とする。
このように構成し、音声放射特性を事前に典型的な数種類の環境で測定しておいた音声放射特性情報２００から、適切なものを選択して用いることで、より臨場感を高められる。たとえば、部屋と平原とで音声放射特性情報２００を変更して、より臨場感を高めることができる。または、オブジェクトの種類に応じた音声放射特性を選択して、オブジェクト毎の臨場感を高めることもできる。

本発明の実施の形態に係る音声再生装置１は、音声生成装置２と、音声生成装置２により生成された音声信号を出力させる音声出力部３０とを備えることを特徴とする。
このように構成することで、生成された音声をヘッドフォンやＨＭＤ等で出力して、臨場感ある音声を体感することができる。

〔他の実施の形態〕
なお、上述の実施形態においては、音声再生装置１が一体的に構成されているように記載した。
しかしながら、音声再生装置１は、スマートフォンやＰＣや家電等の情報処理装置と、ヘッドセット、ヘッドフォン、左右分離型イヤフォン等の端末とが接続されるような再生システムとして構成されてもよい。このような構成の場合、方向取得部１０及び再生部４０が端末に備えられ、方向取得部１０及び音声生成部２０の機能を情報処理装置又は端末のいずれかで実行するようにしてもよい。加えて、情報処理装置と端末との間は、例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＨＤＭＩ（登録商標）、ＷｉＦｉ（登録商標）、ＵＳＢ（Universal Serial Bus）、その他の有線や無線の情報伝送手段で伝送されてもよい。この場合、情報処理装置の機能を、イントラネットやインターネット上のサーバー等で実行することも可能である。

また、上述の実施の形態においては、音声再生装置１として、出力部３０及び再生部４０を含む構成について記載した。
しかしながら、出力部３０及び再生部４０を含まない構成も可能である
図５に、このような音声信号を生成するだけの音声生成装置２ｂの構成の一例を記載する。この音声生成装置２ｂにおいては、例えば、生成した音声信号のデータを記録媒体Ｍに格納可能である。

また、このような他の実施形態に係る音声生成装置２ｂは、ＰＣ、スマートフォン、ゲーム装置、メディアプレーヤー等のコンテンツ再生装置、ＶＲ、ＡＲ、ＭＲ、ビデオフォン、テレビ会議システム、遠隔会議システム、ゲーム装置、その他の家電等の各種装置に組み込んで用いることが可能である。つまり、音声生成装置２ｂは、テレビジョンやディスプレイを備えた装置、ディスプレイ越しのテレビ電話、ビデオ会議、テレプレゼンス等、こちらとあちらの相対的位置関係と頭部等の実方向（ｙａｗ）や仮想空間内での方向が取得可能な全ての装置に適用可能である。

また、本実施形態に係る音声信号処理プログラムは、これらの装置で実行することも可能である。さらに、コンテンツ作成や配信時に、プロダクションや配信元等のＰＣやサーバー等で、これらの音声信号処理プログラムを実行することも可能である。また、上述の実施形態に係る音声再生装置１にて、この音声信号処理プログラムを実行することも可能である。
すなわち、上述の音声生成装置２、２ｂ、及び／又は音声信号処理プログラムによる処理により、より臨場感、リアリティの高い、映画、ＶＲ、ＡＲ、ＭＲ、ゲーム等のヘッドフォン及び／又はＨＭＤによる再生が可能になる。また、遠隔会議等においても、臨場感を高めることができる。

上述の実施の形態においては、音源Ｓの音声信号に方向情報が付加されている例について記載した。
これについて、上述の遠隔会議等のように、話し手、聞き手が随時入れ替わる会話を行なっているような状況は、音源Ｓの音声信号に方向情報が付加されていなくてもよい。すなわち、現在の受話者が発話者だった際に、その発話された音声信号を用いて、発話者（現在の受話者）の方向を推定し、それを現在の発話者からみた受話者の方向として使用することが可能である。

この場合、方向取得部１０は、音源Ｓからの音声信号の方向情報として、各周波数成分の信号の到来方向の推定値を算出して用いることも可能である。方向取得部１０は、例えば、音声信号のＬ（左）チャンネルの信号（以下、「Ｌ信号」という。）及びＲ（右）チャンネルの信号（以下、「Ｒ信号」という。）の音声信号の各周波数成分について、受聴者から見た到来方向を算出する。この際、方向取得部１０は、ＬチャンネルとＲチャンネルの強度の比を取してもよい。その強度の比から、各周波数成分の信号の到来方向を推定することも可能である。
または、方向取得部１０は、音源Ｓの音声信号の全帯域信号である音声信号そのもの、又は、バンドパスフィルターで帯域分割した各サブバンド信号の左チャンネルの信号と右チャンネルの信号の相互相関を、サブバンド毎に算出してもよい。このサブバンド信号毎に、相互相関が最大となる時間シフトτをもとめ、その値から各サブバンド信号の到来方向を推定することが可能である。

または、方向取得部１０は、ＨＲＴＦ（Head-Related Transfer Function、頭部伝達関数）における各周波数の信号のＩＴＤ（Interaural Time Difference）と到来方向との関係から、音声信号の到来方向を推定しても良い。方向取得部１０は、このＩＴＤと到来方向との関係は、データベースとして記憶部に格納されているものを参照してもよい。

このように、話者が交互に入れ替わるような場合には、お互いのお互いに対する方向推定が可能となる。

または、コンテンツやビデオ会議での通話者や受聴者等のヒトの顔画像データから、顔認識を行って、頭部の向きを推定することも可能である。すなわち、ヘッドトラッキングのない構成であっても、方向を推定することが可能である。同様に、空間内の発話者や受聴者の位置を把握することも可能であってもよい。
このように構成することで、各種柔軟な構成に対応可能となる。

上述の実施形態では、音源Ｓの方向を方向情報として取得するように記載した。
しかしながら、音源Ｓの方向情報を受聴者、音源Ｓの発生者、コンテンツ制作者等が変更するような構成も可能である。
この場合、例えば、ユーザの指示をスイッチ、ボタン、タッチパッド等の入力部から、方向移動指示信号を取得し、これを基に、音源Ｓの方向情報を制御することが可能である。この制御はリアルタイム（実時間）で行ってもよい。
または、音声再生装置１や音声生成装置２ｂの液晶や有機ＥＬディスプレイ等の表示部、音声再生装置１や音声生成装置２ｂと接続されたスマートフォンや専用端末のＵＩ（User Interface）等により、方向移動指示信号を取得することも可能である。

このように構成することで、より臨場感を高めることができる。また、コンテンツに適用して、聞こえやすさを調整することもできる。
さらに、発話者が正面を向いていない場合等であっても、より聞こえやすくすることができる。これを、音声聞き取りの補聴器等に適用することも可能である。

上述の実施形態では、音源Ｓの種類や種類の環境に応じて、音声生成部２０が音声放射特性情報２００から音声放射特性を選択する例について記載した。
しかしながら、音声生成部２０は、音源Ｓの音の周波数領域の信号への分割の結果を時系列で分析し、トーン性の成分が多いか、ノイズ性の成分が多いかを判断し、これに基づいた音声放射特性を選択してもよい。または、音声生成部２０は、音源Ｓの音声信号について、物理演算で、実時間（リアルタイム）で音声放射特性を算出することも可能である。
さらに、音声放射特性情報２００についても、周波数帯について補完されたり、物理演算等により事前に合成して算出されたりするような構成であってもよい。

加えて、音声放射特性情報２００は、ヒトの声の音声放射特性の場合、男性と女性の違い、年齢や滑舌の違い、言語の違い、母音と子音の違い、音量や発声法による違い等に応じた複数の音声放射特性を含んでいてもよい。具体的には、子音のように高音、ノイズ性の成分が多い場合には、これらが低い場合よりも発声方向の指向性が高くなるようにしてもよい。これらは、合成音声が音源Ｓの場合、リアルタイム（実時間）の発声に合わせて選択されるような構成も可能である。また、音源Ｓの音声信号の音素的な特徴から、音声放射特性を選択、算出等することも可能である。

上述の実施形態においては、再生部４０として左右２チャンネルで再生する例について説明した。
これについて、複数チャンネルでの再生を行うことも可能である。
さらに、再生部４０は、音声生成部２０によって逆相信号が付加される制御が行われた音響信号により、ノイズキャンセリングを行いつつ音声信号を再生するといった処理も可能である。
このように構成することで、より再生音を明瞭に再生することができる。

加えて、上述の実施形態においては、方向情報として、受聴者の左右の角度方向を考慮する例について記載した。
しかしながら、これらの到来方向として、上下方向についても考慮することが可能である。

また、上述の実施形態においては、音源Ｓの再生環境による音の反射等については、考慮していない例について記載した。
しかしながら、算出された受聴者の方向情報に、受聴者に対する音源オブジェクトの音響信号についての位置の関係を考慮して再生音響信号を制御するように構成してもよい。すなわち、リバーブ（残響）等を制御することも可能である。これにより、映画館やフィールドゲーム等、音源Ｓの直接音と、環境による反射音とを重ね合わせる等して、現実感を高めることができる。
さらに、３Ｄ音場のキャプチャー、伝送、再生システムへの適用、ＡＲ、ＶＲアプリ等ヘの適用等も可能である。

なお、上記実施の形態の構成及び動作は例であって、本発明の趣旨を逸脱しない範囲で適宜変更して実行することができることは言うまでもない。

本発明の音声再生方法は、受聴者からみた音源の方向に加え音源から見た受聴者の方向を利用することで、従来よりも臨場感がある再生を行う音声信号を生成することができ、産業上に利用することができる。

１音声再生装置
２、２ｂ音声生成装置
１０方向取得部
２０音声生成部
３０出力部
４０再生部
２００音声放射特性情報
Ａ、Ｂ受聴者
Ｓ音源
Ｍ記録媒体

Claims

音源の放射方向に対する受聴者の方向、及び前記受聴者の正面方向に対する音源の方向を取得する方向取得部と、
前記方向取得部により取得された前記受聴者の方向及び前記音源の方向に基づいて、前記音源の音声放射特性及び前記受聴者の頭部伝達関数に対応した音声信号を生成する音声生成部とを備える
ことを特徴とする音声生成装置。
前記音声生成部は、
前記音源の前記音声放射特性を強調する
ことを特徴とする請求項１に記載の音声生成装置。
前記音源は、コンテンツの音声信号、及び遠隔通話の参加者の音声信号のいずれかであり、
前記方向取得部は、前記音源による音の放射方向に対する前記受聴者の方向を取得する
ことを特徴とする請求項１又は２に記載の音声生成装置。
前記音声生成部は、
前記音源の発した音声のレベル及び／又は振幅周波数特性を変化させた音声信号を生成する
ことを特徴とする請求項１乃至３のいずれか１項に記載の音声生成装置。
前記音声生成部は、
複数の種類及び環境のいずれかに応じた適切な前記音源の前記音声放射特性を選択する
ことを特徴とする請求項１乃至４のいずれか１項に記載の音声生成装置。
請求項１乃至４のいずれか１項に記載の音声生成装置と、
前記音声生成装置により生成された音声信号を出力させる音声出力部とを備える
ことを特徴とする音声再生装置。
音源の放射方向に対する受聴者の方向、及び前記受聴者の正面方向に対する音源の方向を取得し、
取得された前記受聴者の方向及び前記音源の方向に基いて、前記音源の音声放射特性及び前記受聴者の頭部伝達関数に対応した音声信号を生成し、
生成された音声信号を出力する
ことを特徴とする音声再生方法。
音声生成装置により実行される音声信号処理プログラムであって、前記音声生成装置に、
音源の放射方向に対する受聴者の方向、及び前記受聴者の正面方向に対する音源の方向を取得させ、
取得された前記受聴者の方向及び前記音源の方向に基いて、前記音源の音声放射特性及び前記受聴者の頭部伝達関数に対応した音声信号を生成させる
ことを特徴とする音声信号処理プログラム。