JP2022128177A - 音声生成装置、音声再生装置、音声再生方法、及び音声信号処理プログラム - Google Patents
音声生成装置、音声再生装置、音声再生方法、及び音声信号処理プログラム Download PDFInfo
- Publication number
- JP2022128177A JP2022128177A JP2021026556A JP2021026556A JP2022128177A JP 2022128177 A JP2022128177 A JP 2022128177A JP 2021026556 A JP2021026556 A JP 2021026556A JP 2021026556 A JP2021026556 A JP 2021026556A JP 2022128177 A JP2022128177 A JP 2022128177A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- listener
- sound source
- audio
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Stereophonic System (AREA)
Abstract
【課題】ヘッドフォン等で再生する際に、従来より臨場感のある音声信号を生成可能な音声生成装置を提供する。【解決手段】方向取得部10は、音源の放射方向に対する受聴者の方向、及び受聴者の正面方向に対する音源の方向を取得する。音声生成部20は、方向取得部10により取得された方向に基づいて、音源の音声放射特性及び受聴者の頭部伝達関数に対応した音声信号を生成する。この音声信号は、音声出力部30により出力させ、ヘッドフォン等の再生部40で再生させることが可能である。【選択図】図1
Description
本発明は、特にヘッドフォン等で再生される音声信号を作成する音声生成装置、音声再生装置、音声再生方法、及び音声信号処理プログラムに関する。
従来から、映画、VR(Virtual Reality)、AR(Augmented Reality)等のコンテンツの再生が可能なVRヘッドフォンやHMD(Head Mounted Display)が存在する。
このようなVRヘッドフォンやHMDでは、より広い音場が感じられるように、受聴者から音源への方向を考慮した頭部伝達関数(Head-Related Transfer Function、以下、「HRTF」という。)を用いて、頭外定位させていた。
このようなVRヘッドフォンやHMDでは、より広い音場が感じられるように、受聴者から音源への方向を考慮した頭部伝達関数(Head-Related Transfer Function、以下、「HRTF」という。)を用いて、頭外定位させていた。
特許文献1には、このようなHRTFを算出する音声処理装置の一例として、リスナーの頭部の姿勢に応じた検出信号を出力するセンサーと、検出信号に基づく演算によりリスナーの頭部が向く方向を求めて、当該方向を示す方向情報を出力するセンサー信号処理部と、方向情報を平均化した平均情報に基づいて、センサー信号処理部から出力される方向情報を補正するセンサー出力補正部と、予め求められた頭部伝達関数を、補正された方向情報にしたがって修正する頭部伝達関数修正部と、再生対象の音声信号に、修正された頭部伝達関数に応じて音像定位処理を施す音像定位処理部とを含む装置が記載されている。
しかしながら、特許文献1に記載されたような従来の音声処理装置では、音源を点音源としてHRTFを計算していた。すなわち、音声の放射される方向による周波数毎のエネルギーの違い等(以下、「音声放射特性」という。)が考慮されていなかった。このため、生成された音声を受聴しても、十分な臨場感を感じることはできなかった。
本発明は、このような状況に鑑みてなされたものであり、上述の問題を解消することを目的とする。
本発明の音声生成装置は、音源の放射方向に対する受聴者の方向、及び前記受聴者の正面方向に対する音源の方向を取得する方向取得部と、前記方向取得部により取得された前記受聴者の方向及び前記音源の方向に基づいて、前記音源の音声放射特性及び前記受聴者の頭部伝達関数に対応した音声信号を生成する音声生成部とを備えることを特徴とする。
本発明の音声生成装置は、前記音声生成部は、前記音源の前記音声放射特性を強調することを特徴とする。
本発明の音声生成装置は、前記音源は、コンテンツの音声信号、及び遠隔通話の参加者の音声信号のいずれかであり、前記方向取得部は、前記音源による音の放射方向に対する前記受聴者の方向を取得することを特徴とする。
本発明の音声生成装置は、前記音声生成部は、前記音源の発した音声のレベル及び/又は振幅周波数特性を変化させた音声信号を生成することを特徴とする。
本発明の音声生成装置は、前記音声生成部は、複数の種類及び環境のいずれかに応じた適切な前記音源の前記音声放射特性を選択することを特徴とする。
本発明の音声再生装置は、前記音声生成装置と、前記音声生成装置により生成された音声信号を出力させる音声出力部とを備えることを特徴とする。
本発明の音声再生方法は、音源の放射方向に対する受聴者の方向、及び前記受聴者の正面方向に対する音源の方向を取得し、取得された前記受聴者の方向及び前記音源の方向に基いて、前記音源の音声放射特性及び前記受聴者の頭部伝達関数に対応した音声信号を生成し、生成された音声信号を出力することを特徴とする。
本発明の音声信号処理プログラムは、音声生成装置により実行される音声信号処理プログラムであって、前記音声生成装置に、音源の放射方向に対する受聴者の方向、及び前記受聴者の正面方向に対する音源の方向を取得させ、取得された前記受聴者の方向及び前記音源の方向に基いて、前記音源の音声放射特性及び前記受聴者の頭部伝達関数に対応した音声信号を生成させることを特徴とする。
本発明の音声生成装置は、前記音声生成部は、前記音源の前記音声放射特性を強調することを特徴とする。
本発明の音声生成装置は、前記音源は、コンテンツの音声信号、及び遠隔通話の参加者の音声信号のいずれかであり、前記方向取得部は、前記音源による音の放射方向に対する前記受聴者の方向を取得することを特徴とする。
本発明の音声生成装置は、前記音声生成部は、前記音源の発した音声のレベル及び/又は振幅周波数特性を変化させた音声信号を生成することを特徴とする。
本発明の音声生成装置は、前記音声生成部は、複数の種類及び環境のいずれかに応じた適切な前記音源の前記音声放射特性を選択することを特徴とする。
本発明の音声再生装置は、前記音声生成装置と、前記音声生成装置により生成された音声信号を出力させる音声出力部とを備えることを特徴とする。
本発明の音声再生方法は、音源の放射方向に対する受聴者の方向、及び前記受聴者の正面方向に対する音源の方向を取得し、取得された前記受聴者の方向及び前記音源の方向に基いて、前記音源の音声放射特性及び前記受聴者の頭部伝達関数に対応した音声信号を生成し、生成された音声信号を出力することを特徴とする。
本発明の音声信号処理プログラムは、音声生成装置により実行される音声信号処理プログラムであって、前記音声生成装置に、音源の放射方向に対する受聴者の方向、及び前記受聴者の正面方向に対する音源の方向を取得させ、取得された前記受聴者の方向及び前記音源の方向に基いて、前記音源の音声放射特性及び前記受聴者の頭部伝達関数に対応した音声信号を生成させることを特徴とする。
本発明によれば、音源及び受聴者のお互いに対する方向を取得し、この方向に基づいて、音源の音声放射特性及び受聴者の頭部伝達関数に対応した音声信号を生成することで、受聴者が受聴する際に、より臨場感が感じられる音声信号を生成可能な音声生成装置を提供することができる。
<実施の形態>
〔音声再生装置1の制御構成〕
まず、図1及び図2を参照して、本発明の実施の形態に係る音声再生装置1の制御構成について説明する。
〔音声再生装置1の制御構成〕
まず、図1及び図2を参照して、本発明の実施の形態に係る音声再生装置1の制御構成について説明する。
音声再生装置1は、映像や音声や文字等のデータであるコンテンツの音響信号を再生したり、遠隔地との間で通話等をしたりするような、受聴者に装着され、音声の再生が可能な装置である。
具体的には、音声再生装置1は、例えば、光学媒体やフラッシュメモリーカードに格納されたコンテンツを再生するコンテンツ再生装置、映画館やパブリックビューイング会場の機器、専用のデコーダー及びヘッドトラッキングセンサーを備えたヘッドフォン、VR(Virtual Reality)やAR(Augmented Reality)やMR(Mixed Reality)用のHMD(Head-Mounted Display)、ゲーム専用機、ヘッドフォン型スマートフォン(Smart Phone)、ヘッドフォンが接続されたPC(Personal Computer)やスマートフォン、テレビ(ビデオ)会議システム、マイクロフォンとスピーカーとを備える遠隔会議用機器、音声聞き取りの補助装置、補聴器、その他の家電製品等である。
具体的には、音声再生装置1は、例えば、光学媒体やフラッシュメモリーカードに格納されたコンテンツを再生するコンテンツ再生装置、映画館やパブリックビューイング会場の機器、専用のデコーダー及びヘッドトラッキングセンサーを備えたヘッドフォン、VR(Virtual Reality)やAR(Augmented Reality)やMR(Mixed Reality)用のHMD(Head-Mounted Display)、ゲーム専用機、ヘッドフォン型スマートフォン(Smart Phone)、ヘッドフォンが接続されたPC(Personal Computer)やスマートフォン、テレビ(ビデオ)会議システム、マイクロフォンとスピーカーとを備える遠隔会議用機器、音声聞き取りの補助装置、補聴器、その他の家電製品等である。
本実施形態に係る音声再生装置1は、制御構成として、方向取得部10、音声生成部20、出力部30、及び再生部40を備える。
また、本実施形態においては、方向取得部10及び音声生成部20が、音声信号を生成する音声生成装置2として構成される。
また、本実施形態においては、方向取得部10及び音声生成部20が、音声信号を生成する音声生成装置2として構成される。
まず、本実施形態においては、音源Sとして、コンテンツの音声信号、及び遠隔通話参加者の音声信号のいずれかを用いることが可能である。
このコンテンツは、例えば、映画、VR、AR、MR、ゲーム等の各種コンテンツであってもよい。この映画は、楽器の演奏、講演等も含む。この場合、音源Sとして、音声発生源となる役者やナレーターや落語家や講談家やその他の発話者のようなヒトに加え、楽器、乗り物、ゲームキャラクタ等のオブジェクト(以下、単に「オブジェクト等」という。)に由来する音声信号を用いることが可能である。これらの音声信号は、コンテンツ内で、空間的な配置関係が設定される。
または、音源Sが、遠隔通話参加者の音声信号である場合、PC(Personal Computer)やスマートフォン等の各種メッセンジャーやビデオ会議用アプリケーションソフトウェア(Application Software、以下、単に「アプリ」という。)のユーザー(参加者)が発声した音声信号等を用いることが可能である。この音声信号等は、ヘッドセット等のマイクロフォンにより取得されたものでも、机等に固定されて取得されたものであってもよい。加えて、カメラで取得する発話者の頭部の向きと、音声の取得される向きとが異なっていてもよい。この場合は、方向情報として、カメラ内での参加者の頭部の向き、又は仮想空間内で配置されたアバターの向き等が、方向情報として付加されてもよい。さらに、音源Sは、一対一、一対複数、複数対複数の拠点間のテレビ会議システム等の遠隔会議の参加者の音声信号等であってもよい。この場合も、各通話の参加者のカメラに対する向きが方向情報として設定されていてもよい。
また、いずれの場合においても、音源Sの音声信号として、ネットワーク又は直接接続されたマイクロフォン等で録音された音声信号も用いることが可能である。この場合も、音声信号には、方向情報が付加されていてもよい。
方向取得部10は、音源Sの放射方向に対する受聴者の方向、及び受聴者の正面方向に対する音源Sの方向を取得する。具体的には、方向取得部10は、音源Sからみた受聴者の方向、及び受聴者からみた音源Sの方向を取得する。すなわち、方向取得部10は、音源S及び受聴者のお互いに対する方向を取得する。
より具体的には、方向取得部10は、音源Sの放射方向に対する受聴者の方向として、設定された音声の放射方向からみた受聴者の方向を取得する。このうち、音源Sの音声の放射方向は、音声の放射エネルギーの平均値が最大となる方向であってもよく、音声を発する開口部等から音声が放射される方向であってもよい(この音源Sの放射方向を、以下、「音源Sの正面方向」ともいう。)。音源Sの放射方向に対する(放射方向からみた、放射方向を基準とした)受聴者の方向は、例えば、受聴者を含むヒトの場合は正中面からみた受聴者の方向である。具体的には、音源Sの放射方向から、ヒトの場合は発声器官である口の向いている方向を基準とした受聴者の方向となる。楽器の場合は、音源Sの放射方向から、音が放射される端部や弦等の向いている方向を基準とした受聴者の方向となる。その他のオブジェクト等については、音源Sの放射方向から、設定又は演算で算出された方向を基準とした受聴者の方向となる。
また、受聴者の正面方向は、受聴者の正中面からの方向であってもよい。本実施形態においては、受聴者の頭部中心についての相称面が正中面であってもよい。または、左耳と右耳とを結ぶ仮想面から鉛直な鼻部先端への方向を、受聴者の正面方向としてもよい。この正面方向は、ヘッドトラッキングセンサー等から取得可能である。
これらの方向の角度の開始箇所等は任意に設定してもよく、お互いに相対的な角度で示されてもよい。
より具体的には、方向取得部10は、音源Sの放射方向に対する受聴者の方向として、設定された音声の放射方向からみた受聴者の方向を取得する。このうち、音源Sの音声の放射方向は、音声の放射エネルギーの平均値が最大となる方向であってもよく、音声を発する開口部等から音声が放射される方向であってもよい(この音源Sの放射方向を、以下、「音源Sの正面方向」ともいう。)。音源Sの放射方向に対する(放射方向からみた、放射方向を基準とした)受聴者の方向は、例えば、受聴者を含むヒトの場合は正中面からみた受聴者の方向である。具体的には、音源Sの放射方向から、ヒトの場合は発声器官である口の向いている方向を基準とした受聴者の方向となる。楽器の場合は、音源Sの放射方向から、音が放射される端部や弦等の向いている方向を基準とした受聴者の方向となる。その他のオブジェクト等については、音源Sの放射方向から、設定又は演算で算出された方向を基準とした受聴者の方向となる。
また、受聴者の正面方向は、受聴者の正中面からの方向であってもよい。本実施形態においては、受聴者の頭部中心についての相称面が正中面であってもよい。または、左耳と右耳とを結ぶ仮想面から鉛直な鼻部先端への方向を、受聴者の正面方向としてもよい。この正面方向は、ヘッドトラッキングセンサー等から取得可能である。
これらの方向の角度の開始箇所等は任意に設定してもよく、お互いに相対的な角度で示されてもよい。
ここで、本実施形態に係る音源Sには、音声を発声させる際の方向情報が算出されたり設定されたりしている。このため、方向取得部10は、音源Sによる音の放射方向を取得する。本実施形態において、例えば、方向取得部10は、音源Sとなる参加者の頭部の方向を取得することが可能である。また、方向取得部10は、受聴者についても、HMDやスマートフォンのジャイロセンサー等によるヘッドトラッキング、仮想空間におけるアバターの向き等の方向情報から、受聴者の頭部の方向を取得可能である。
方向取得部10は、これらの方向の情報に基づいて、仮想空間を含む空間的な配置における、音源S及び受聴者の向きを相互に算出可能である。
音声生成部20は、方向取得部10により取得された方向に基づいて、音源Sの音声放射特性及び受聴者のHRTFに対応した音声信号を生成する。
具体的に、本実施形態においては、音声生成部20は、音声放射特性情報200を参照して、複数の音源Sの種類及び環境のいずれかに応じた適切な音声放射特性を選択することが可能であってもよい。より具体的には、例えば、音声生成部20は、上述のように、ヒト及びオブジェクト等の種類に応じて、適切な音声放射特性を選択することが可能である。または、音声生成部20は、後述する周囲の環境に応じて、適切な音声放射特性を選択することが可能であってもよい。
さらに、音声生成部20は、音声放射特性を強調してもよい。この強調は、例えば、音声生成部20は、例えば、音源Sの発した音のレベル及び/又は振幅周波数特性を変化させた音声信号を生成することで行うことも可能である。
具体的に、本実施形態においては、音声生成部20は、音声放射特性情報200を参照して、複数の音源Sの種類及び環境のいずれかに応じた適切な音声放射特性を選択することが可能であってもよい。より具体的には、例えば、音声生成部20は、上述のように、ヒト及びオブジェクト等の種類に応じて、適切な音声放射特性を選択することが可能である。または、音声生成部20は、後述する周囲の環境に応じて、適切な音声放射特性を選択することが可能であってもよい。
さらに、音声生成部20は、音声放射特性を強調してもよい。この強調は、例えば、音声生成部20は、例えば、音源Sの発した音のレベル及び/又は振幅周波数特性を変化させた音声信号を生成することで行うことも可能である。
音声出力部30は、音声生成装置2により生成された音声信号を出力させる。本実施形態においては、音声出力部30は、例えば、D/Aコンバーター、ヘッドフォン用のアンプ(Amplifier)等を備え、ヘッドフォンである再生部40用の再生音響信号として音声信号を出力する。ここで、再生音響信号は、例えば、コンテンツに含まれる情報を基にしてデジタルデータが復号化され、再生部40で再生されることで受聴者が聴くことが可能な音声信号であってもよい。または、音声出力部30は、音声信号を符号化して、音声ファイルやストリーミング音声として出力することで再生してもよい。
再生部40は、出力部30により出力された再生音響信号を再生する。再生部40は、ヘッドフォンやイヤフォンの電磁ドライバー及びダイヤフラムを備えたスピーカー(以下、「スピーカー等」という。)、受聴者の装着する耳当てやイヤーピース等を備えていてもよい。
または、再生部40は、デジタルの再生音響信号をデジタル信号のまま又はD/Aコンバーターでアナログ音声信号に変換し、スピーカー等から出力して、受聴者に聴かせることが可能であってもよい。または、再生部40は、音声信号を別途、受聴者が装着したHMDのヘッドフォンやイヤフォン等に出力してもよい。
または、再生部40は、デジタルの再生音響信号をデジタル信号のまま又はD/Aコンバーターでアナログ音声信号に変換し、スピーカー等から出力して、受聴者に聴かせることが可能であってもよい。または、再生部40は、音声信号を別途、受聴者が装着したHMDのヘッドフォンやイヤフォン等に出力してもよい。
ここで、図2により、本実施形態に係る音声放射特性情報200について説明する。
音声放射特性情報200は、音声生成部20により選択される音源Sの音声放射特性のデータである。本実施形態に係る音声放射特性は、例えば、発話者(音源S)が正面方向に発した発話を、発話者の正中面に対してどの方向で受聴するかによってその周波数特性がどのように変化するかについての特性である。すなわち、音声放射特性は、音声の放射特性が、方向及び周波数でどう変化するかが事前に測定されたものである。具体的には、発声器官である口や顔の周囲の状況により、音声の放射特性が変わるため、これを測定しておいて、音声信号の生成に利用する。または、物理演算等により、ヒトやオブジェクト等の音声の放射特性をシミュレートして生成しておき、これを音声放射特性情報200に格納しておいてもよい。
本実施形態においては、音声放射特性情報200は、例えば、音声源Sの特性に合わせて、音源Sが正面に向かって発した音声を収録した方向(向き)と周波数成分毎の出力値(エネルギー)とを含む。
音声放射特性情報200は、音声生成部20により選択される音源Sの音声放射特性のデータである。本実施形態に係る音声放射特性は、例えば、発話者(音源S)が正面方向に発した発話を、発話者の正中面に対してどの方向で受聴するかによってその周波数特性がどのように変化するかについての特性である。すなわち、音声放射特性は、音声の放射特性が、方向及び周波数でどう変化するかが事前に測定されたものである。具体的には、発声器官である口や顔の周囲の状況により、音声の放射特性が変わるため、これを測定しておいて、音声信号の生成に利用する。または、物理演算等により、ヒトやオブジェクト等の音声の放射特性をシミュレートして生成しておき、これを音声放射特性情報200に格納しておいてもよい。
本実施形態においては、音声放射特性情報200は、例えば、音声源Sの特性に合わせて、音源Sが正面に向かって発した音声を収録した方向(向き)と周波数成分毎の出力値(エネルギー)とを含む。
図2は、音声放射特性情報200に含まれるヒトの生音声の音声放射特性の一例を示す。この例では、半径1.5mの円上に設置したマイクロホンアレイで、指向特性を測定した。このマイクロホンアレイでは、発話者の右真横方向を0度とし、反時計回りに15度間隔で、180度まで、計13個のコンデンサーマイクロホンを載置した。発話者は、正面方向90度のコンデンサーマイクロホンに対して顔を向け、発話を行い、これを収録した。この上で、収録した音声を帯域分割し、周波数毎の音声放射特性を、音声放射特性情報200として格納した。
図2は、ヒトが「あ」を発声した際の放射特性を示す。ここでは、測定結果の一例として、録音された音声について24分割の帯域分割を行い、帯域ごとに求めたエネルギーを用いたレーダーチャートを一例として示している。この例では、エネルギーを、1/3オクターブバンドごとに二乗平均平方根(RMS)を用いて算出し、正面方向が0dBとなるように各方向それぞれ相対レベルで示している。図2の左側のレーターチャートは200~400Hz、右側のレーターチャートは1.6k~3.2kHzの結果を示す。
この図に示されるように、低い周波数領域では0度~180度にエネルギーが均一になる。これに比べて、高い周波数では0度又は180度の側面方向のエネルギーが低くなり、指向性が高くなることが分かる。
この図に示されるように、低い周波数領域では0度~180度にエネルギーが均一になる。これに比べて、高い周波数では0度又は180度の側面方向のエネルギーが低くなり、指向性が高くなることが分かる。
本実施形態においては、音声放射特性情報200として、このようなヒトの声の音声放射特性、及び/又は、様々な種類のオブジェクト等について、それぞれの音声放射特性を含んでいてもよい。これらが、音声生成部20により、音源Sの種類に応じて選択される。または、音声放射特性情報200として、低音成分と高音成分の比率、トーン性の成分が多いかノイズ性の成分が多いかの比率等により、複数の音声放射特性が選択可能であってもよい。
また、音声放射特性情報200として、周囲の環境、例えば、密閉された部屋、ホール、開けた野原(平原)、森、海中等に応じた複数の音声放射特性を含んでいてもよい。すなわち、音声放射特性情報200において、各種の典型的な空間に音源Sが存在する場合、この種類に応じて、音声放射特性が選択されてもよい。この場合、ヒトやオブジェクト等について、これらの典型的な空間にいた場合の音声放射特性を事前に何パターンか測定しておいて、そのなかから尤もらしいものを、状況に応じて選択して用いることが可能である。
また、音声放射特性情報200として、周囲の環境、例えば、密閉された部屋、ホール、開けた野原(平原)、森、海中等に応じた複数の音声放射特性を含んでいてもよい。すなわち、音声放射特性情報200において、各種の典型的な空間に音源Sが存在する場合、この種類に応じて、音声放射特性が選択されてもよい。この場合、ヒトやオブジェクト等について、これらの典型的な空間にいた場合の音声放射特性を事前に何パターンか測定しておいて、そのなかから尤もらしいものを、状況に応じて選択して用いることが可能である。
〔音声再生装置1のハードウェア構成〕
音声再生装置1は、例えば、各種回路として、ASIC(Application Specific Processor、特定用途向けプロセッサー)、DSP(Digital Signal Processor)、CPU(Central Processing Unit、中央処理装置)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)等の制御演算手段を含んでいる。
音声再生装置1は、例えば、各種回路として、ASIC(Application Specific Processor、特定用途向けプロセッサー)、DSP(Digital Signal Processor)、CPU(Central Processing Unit、中央処理装置)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)等の制御演算手段を含んでいる。
さらに、音声再生装置1は、記憶手段として、ROM(Read Only Memory)、RAM(Random Access Memory)等の半導体メモリー、HDD(Hard Disk Drive)等の磁気記録媒体、光学記録媒体等である記憶部を含んでいてもよい。ROMとしては、フラッシュメモリーやその他の書き込み、追記可能な記録媒体を含んでいてもよい。さらに、HDDの代わりに、SSD(Solid State Drive)を備えていてもよい。この記憶部には、本発明の実施の形態に係る制御プログラム及び各種のコンテンツを格納してもよい。このうち、制御プログラムは、本実施形態の音声信号処理プログラムを含む各機能構成及び各方法を実現するためのプログラムである。この制御プログラムは、ファームウェア等の組み込みプログラム、OS(Operating System)及びアプリを含む。
各種のコンテンツは、例えば、映画や音楽のデータ、オーディオブック、音声合成可能な電子書籍のデータ、テレビジョンやラジオの放送データ、カーナビゲーションや各種家電等の操作指示に関する各種音声データ、VR、AR、MR、ゲーム等を含む娯楽コンテンツ、その他の音声出力可能なデータであってもよい。または、携帯電話やトランシーバー等の音声通話データやメッセンジャーでのテキストの合成音声のデータをコンテンツとすることも可能である。これらのコンテンツは、有線や無線で伝送されたファイルやデータ塊でダウンロードされて取得されても、ストリーミング等により段階的に取得されてもよい。
また、本実施形態に係るアプリは、コンテンツを再生するメディアプレーヤー等のアプリ、メッセンジャーやビデオ会議用のアプリ等であってもよい。
また、音声再生装置1は、受聴者の向いている方向を算出するGNSS(Global Navigation Satellite System)受信機、部屋内位置方向検出器、ヘッドトラッキングが可能な、加速度センサー、ジャイロセンサー、地磁気センサー等と、これらの出力を方向情報に変換する回路とを含む方向算出手段を備えていてもよい。
さらに、音声再生装置1は、液晶ディスプレイや有機ELディスプレイ等の表示部、ボタン、キーボード、マウスやタッチパネル等のポインティングデバイス等の入力部、無線や有線での各種機器との接続を行うインターフェイス部とを備えていてもよい。このうち、インターフェイス部は、マイクロSD(登録商標)カードやUSB(Universal Serial Bus)メモリー等のフラッシュメモリー媒体等のインターフェイス、LANボード、無線LANボード、シリアル、パラレル等のインターフェイスを含んでいてもよい。
また、音声再生装置1は、主に記憶手段に格納された各種プログラムを用いて制御手段が実行することで、本発明の実施の形態に係る各方法を、ハードウェア資源を用いて実現することができる。
なお、上述の構成の一部又は任意の組み合わせをICやプログラマブルロジックやFPGA(Field-Programmable Gate Array)等でハードウェア的、回路的に構成してもよい。
なお、上述の構成の一部又は任意の組み合わせをICやプログラマブルロジックやFPGA(Field-Programmable Gate Array)等でハードウェア的、回路的に構成してもよい。
〔音声再生装置1による音声再生処理〕
次に、図3~図4を参照して、本発明の実施の形態に係る音声再生装置1による音声再生処理の説明を行う。
本実施形態の音声再生処理は、主に音声再生装置1において、それぞれ、制御部が記憶部に格納された制御プログラムを、各部と協働し、ハードウェア資源を用いて制御して実行し、又は、各回路で直接実行する。
以下で、図3のフローチャートを参照して、音声再生処理の詳細をステップ毎に説明する。
次に、図3~図4を参照して、本発明の実施の形態に係る音声再生装置1による音声再生処理の説明を行う。
本実施形態の音声再生処理は、主に音声再生装置1において、それぞれ、制御部が記憶部に格納された制御プログラムを、各部と協働し、ハードウェア資源を用いて制御して実行し、又は、各回路で直接実行する。
以下で、図3のフローチャートを参照して、音声再生処理の詳細をステップ毎に説明する。
(ステップS101)
まず、音声再生装置1の方向取得部10が、方向取得処理を行う。
方向取得部10は、音源S及び受聴者のお互いに対する方向を取得する。
具体的には、方向取得部10は、コンテンツの音声信号又は遠隔通話の参加者の音声信号等に付加されている、音源Sの方向情報を取得する。この上で、方向取得部10は、音源Sと受聴者との空間的な配置を把握する。この配置は、上述したように、コンテンツ等に設定された仮想空間等を含む空間内の配置であってもよい。そして、方向取得部10は、把握された空間内の配置に応じて、音源Sから見た受聴者の方向、及び受聴者から見た音源Sの方向を、それぞれ算出する。
まず、音声再生装置1の方向取得部10が、方向取得処理を行う。
方向取得部10は、音源S及び受聴者のお互いに対する方向を取得する。
具体的には、方向取得部10は、コンテンツの音声信号又は遠隔通話の参加者の音声信号等に付加されている、音源Sの方向情報を取得する。この上で、方向取得部10は、音源Sと受聴者との空間的な配置を把握する。この配置は、上述したように、コンテンツ等に設定された仮想空間等を含む空間内の配置であってもよい。そして、方向取得部10は、把握された空間内の配置に応じて、音源Sから見た受聴者の方向、及び受聴者から見た音源Sの方向を、それぞれ算出する。
図4により、この方向の算出の詳細について説明する。具体的には、音源Sが遠隔会議の発話者の音声信号であり、受聴者も遠隔会議の参加者である例について記載する。この例では、仮想空間内に受聴者A及び受聴者Bの二人の受聴者がおり、発話者の発話を受聴者A、受聴者Bがヘッドフォン等で受聴している。
ここで、まず、方向取得部10は、音源Sの方向情報を取得する。図4の例では、この方向情報は、アプリにおける仮想空間内における発話者の頭部の向きの情報であってもよい。さらに、この例では、方向取得部10は、仮想空間内における発話者、受聴者A、受聴者Bの座標情報を取得し、空間的な配置を算出する。この上で、方向取得部10は、仮想空間内における受聴者A、受聴者Bの頭部の向きを方向情報として取得する。これにより、方向取得部10は、発話者、受聴者A、受聴者Bの顔の向きに基づいて、お互いに対する方向をそれぞれ算出する。
図4の例において、方向取得部10は、α1、α2、β1、β2の各方向を算出する。このうち、α1、α2は、それぞれ、受聴者A及び受聴者Bの顔面の真正面から見た発話者の方向である。一方、β1、β2は、それぞれ、発話者の顔面の真正面から見た受聴者Aの方向、及び受聴者Bの方向である。これらの方向は、それぞれ、頭部中心から頭部中心へ、正中面からの方向である例を示す。
方向取得部10は、コンテンツの音声信号についても、同様に、音源Sの音声信号の方向情報から音源S及び受聴者のお互いに対する方向を取得可能である。
(ステップS102)
ここで、音声生成部20が、音声信号生成処理を行う。
まず、音声生成部20は、音源Sの音声信号を取得し、これをDFT、MDCT等によって、時間領域から周波数領域の信号へ変換し、音源音響信号として記憶部に格納する。具体的には、音声生成部20は、音声信号を数マイクロ秒~数十ミリ秒程度のウィンドウ(フレーム)に切り出し、DFT(Discrete Fourier Transformation、離散フーリエ変換)、MDCT(Modified Discrete Cosine Transform、変形離散コサイン変換)等によって、時間領域から周波数領域へ変換する。このフレームは、例えば、サンプリング周波数48kHz、量子化ビット数16ビットの場合、2048サンプル程度を用いることが好適である。音声生成部20は、このフレームを音源音響信号(周波数成分)として出力する。または、音声生成部20は、バンドパスフィルター等で周波数分析を行って、各サブバンド成分の信号(以下、「サブバンド信号」という。)に帯域分割して、周波数領域の音源音響信号に変換してもよい。加えて、音声生成部20は、これらの周波数領域の信号への分割の結果を時系列で分析し、出力される音源音響信号がトーン性の信号かノイズ性の信号かを判断可能である。
ここで、音声生成部20が、音声信号生成処理を行う。
まず、音声生成部20は、音源Sの音声信号を取得し、これをDFT、MDCT等によって、時間領域から周波数領域の信号へ変換し、音源音響信号として記憶部に格納する。具体的には、音声生成部20は、音声信号を数マイクロ秒~数十ミリ秒程度のウィンドウ(フレーム)に切り出し、DFT(Discrete Fourier Transformation、離散フーリエ変換)、MDCT(Modified Discrete Cosine Transform、変形離散コサイン変換)等によって、時間領域から周波数領域へ変換する。このフレームは、例えば、サンプリング周波数48kHz、量子化ビット数16ビットの場合、2048サンプル程度を用いることが好適である。音声生成部20は、このフレームを音源音響信号(周波数成分)として出力する。または、音声生成部20は、バンドパスフィルター等で周波数分析を行って、各サブバンド成分の信号(以下、「サブバンド信号」という。)に帯域分割して、周波数領域の音源音響信号に変換してもよい。加えて、音声生成部20は、これらの周波数領域の信号への分割の結果を時系列で分析し、出力される音源音響信号がトーン性の信号かノイズ性の信号かを判断可能である。
音声生成部20は、この音源音響信号について、方向取得部10により取得された方向に基づいて、音源Sの音声放射特性及び受聴者のHRTFに対応した音声信号を生成する。
具体的には、上述したように、例えば、受聴者がコンテンツをヘッドフォン再生で閲覧する場合、上述の受聴者から見た役者等の発話者の頭部の方向と、発話者自身の頭部の方向とが、方向取得部10により取得されている。
このため、音声生成部20は、これらの方向に基づいた音源Sの音声信号の音声放射特性を、音声放射特性情報200から取得して、受聴者の頭部の方向に応じたHRTFとともに畳み込んだものを、従来のHRTFの代わりに用いて、音声信号を生成する。
または、音声生成部20は、ARやVR等で、受聴者に対して仮想的な発話者の方向に基づいた音声放射特性を音声放射特性情報200から取得して、これをHRTFとともに畳み込んで、音声信号を生成することも可能である。
または、音声生成部20は、上述の音源Sの音響信号にこの音声応射特性に応じたフィルタ処理を行い、レベル及び/又は振幅周波数特性を変化させた音声信号を生成することも可能である。音声生成部20は、この音声信号を、受聴者の頭部の方向に応じたHRTFと畳み込むことも可能である。
具体的には、上述したように、例えば、受聴者がコンテンツをヘッドフォン再生で閲覧する場合、上述の受聴者から見た役者等の発話者の頭部の方向と、発話者自身の頭部の方向とが、方向取得部10により取得されている。
このため、音声生成部20は、これらの方向に基づいた音源Sの音声信号の音声放射特性を、音声放射特性情報200から取得して、受聴者の頭部の方向に応じたHRTFとともに畳み込んだものを、従来のHRTFの代わりに用いて、音声信号を生成する。
または、音声生成部20は、ARやVR等で、受聴者に対して仮想的な発話者の方向に基づいた音声放射特性を音声放射特性情報200から取得して、これをHRTFとともに畳み込んで、音声信号を生成することも可能である。
または、音声生成部20は、上述の音源Sの音響信号にこの音声応射特性に応じたフィルタ処理を行い、レベル及び/又は振幅周波数特性を変化させた音声信号を生成することも可能である。音声生成部20は、この音声信号を、受聴者の頭部の方向に応じたHRTFと畳み込むことも可能である。
図4により、この音声生成部20による音声生成処理の一例について説明する。
ここでは、音源Sである発話者の音声放射特性の伝達関数を方向βの関数として周波数領域でR(β)とする。また、音源Sから人間の耳元までの音の伝達特性であるHRTFとして、受聴者Aの左耳用のHRTFをHRTF1_l(α)、右耳用をHRTF1_r(α)とする。一方、受聴者BのHRTFとして、左耳用をHRTF2_l(α)、右耳用をHRTF2_r(α)とする。なお、音声放射特性及びHRTFが周波数の関数であるのは当業者に理解されるため、ここでは周波数の記述を省略している。
この際、音声生成部20は、受聴者Aの左右の耳に対しては、それぞれ、
(左耳用)HRTF1_l(α1)・R(β1)・S
(右耳用)HRTF1_r(α1)・R(β1)・S
にて音声信号を生成する。
同様に、音声生成部20は、受聴者Bの左右の耳に対しては、それぞれ、
(左耳用)HRTF2_l(α2)・R(β2)・S
(右耳用)HRTF2_r(α2)・R(β2)・S
にて音声信号を生成する。
または、音声生成部20は、音声放射特性に基づいたフィルタ処理等を行って、HRTFに畳み込むような処理を行うことも可能である。
ここでは、音源Sである発話者の音声放射特性の伝達関数を方向βの関数として周波数領域でR(β)とする。また、音源Sから人間の耳元までの音の伝達特性であるHRTFとして、受聴者Aの左耳用のHRTFをHRTF1_l(α)、右耳用をHRTF1_r(α)とする。一方、受聴者BのHRTFとして、左耳用をHRTF2_l(α)、右耳用をHRTF2_r(α)とする。なお、音声放射特性及びHRTFが周波数の関数であるのは当業者に理解されるため、ここでは周波数の記述を省略している。
この際、音声生成部20は、受聴者Aの左右の耳に対しては、それぞれ、
(左耳用)HRTF1_l(α1)・R(β1)・S
(右耳用)HRTF1_r(α1)・R(β1)・S
にて音声信号を生成する。
同様に、音声生成部20は、受聴者Bの左右の耳に対しては、それぞれ、
(左耳用)HRTF2_l(α2)・R(β2)・S
(右耳用)HRTF2_r(α2)・R(β2)・S
にて音声信号を生成する。
または、音声生成部20は、音声放射特性に基づいたフィルタ処理等を行って、HRTFに畳み込むような処理を行うことも可能である。
このように、音声生成部20は、音源Sの音声放射特性とHRTFとが周波数領域で掛け合わされることで、より臨場感があり頭外定位する音声信号を生成することが可能である。
なお、上述の例では、音源Sの音声信号をDFT等により周波数領域に変換した後、周波数領域の掛け算によって音声放射特性及びHRTFを音源Sの音声信号に反映する方法について説明したが、音源Sの音声信号を周波数領域に変換しないで、時間領域の信号のまま、音声放射特性及びHRTFの時間領域の応答を畳み込むことによっても、同様な処理を行うことが可能である。
または、音声生成部20は、HRTFだけではなく、両耳間音圧差(Interaural Level Difference、ILD)若しくはITD(Interaural Time Difference、両耳間時間差)の調整、仮想スピーカーの位置をずらす等の手法により、頭外定位の位置を移動させることも可能である。
なお、上述の例では、音源Sの音声信号をDFT等により周波数領域に変換した後、周波数領域の掛け算によって音声放射特性及びHRTFを音源Sの音声信号に反映する方法について説明したが、音源Sの音声信号を周波数領域に変換しないで、時間領域の信号のまま、音声放射特性及びHRTFの時間領域の応答を畳み込むことによっても、同様な処理を行うことが可能である。
または、音声生成部20は、HRTFだけではなく、両耳間音圧差(Interaural Level Difference、ILD)若しくはITD(Interaural Time Difference、両耳間時間差)の調整、仮想スピーカーの位置をずらす等の手法により、頭外定位の位置を移動させることも可能である。
ここで、通話参加者のうち、発話者と受聴者が入れ替わった場合は、それに応じて上記頭部伝達関数や放射特性、対応する方向も入れ替えることが可能である。
加えて、いずれの場合においても、音声生成部20は、音声放射特性情報200から、ヒトやオブジェクト等の種類に応じて、音声放射特性を選択することが可能である。すなわち、オブジェクトがピアノ、フルート等の楽器であった場合、この楽器の方向又は演奏している演奏者の方向に合わせて、適切な音声放射特性が選択可能である。
さらに、音声生成部20は、複数の環境のいずれかに応じた適切な音声放射特性を選択することが可能である。たとえば、発話者及び受聴者が仮想空間内の密閉された部屋又は草原等にいた場合、これに応じて、音声放射特性情報200から音声放射特性を選択することも可能である。
さらに、音声生成部20は、複数の環境のいずれかに応じた適切な音声放射特性を選択することが可能である。たとえば、発話者及び受聴者が仮想空間内の密閉された部屋又は草原等にいた場合、これに応じて、音声放射特性情報200から音声放射特性を選択することも可能である。
(ステップS103)
次に、出力部30が音声出力処理を行う。
音声出力部30は、音声生成部20により生成された音声信号を、再生部40に出力することで再生させる。この出力は、例えば、受聴者の左耳、右耳に対応した2チャンネルのアナログ音声信号であってもよい。
これにより、再生部40は、ヘッドフォンによる2チャンネルの音声信号として仮想的な音場に対応した音声信号を再生することが可能となる。
以上により、本発明の実施の形態に係る音声再生処理を終了する。
次に、出力部30が音声出力処理を行う。
音声出力部30は、音声生成部20により生成された音声信号を、再生部40に出力することで再生させる。この出力は、例えば、受聴者の左耳、右耳に対応した2チャンネルのアナログ音声信号であってもよい。
これにより、再生部40は、ヘッドフォンによる2チャンネルの音声信号として仮想的な音場に対応した音声信号を再生することが可能となる。
以上により、本発明の実施の形態に係る音声再生処理を終了する。
以上のように構成することで、以下のような効果を得ることができる。
従来、映画、VR、AR、MR、ゲーム等のコンテンツ再生をVRヘッドフォンやHMD等で行う際、従来のHRTFでは、音源は点音源であり、音声の放射特性は考慮されていなかった。
図4の例でいうと、従来は、受聴者Aに関しては方向α1に関する受聴者Aの頭部伝達関数を用いて、また受聴者Bに関しては方向α2に関する受聴者Bの頭部伝達関数を用いて、発話者の発話音声を処理し、受聴者A及び受聴者Bから見込んだ発話者の方向に、発話音声を頭外定位させていた。すなわち、従来では、発話者からみた受聴者の方向が考慮されていなかった。すなわち、従来のHRTFは、その定義上「受け取り側」の方向に関する空間的特性しかなかった。
従来、映画、VR、AR、MR、ゲーム等のコンテンツ再生をVRヘッドフォンやHMD等で行う際、従来のHRTFでは、音源は点音源であり、音声の放射特性は考慮されていなかった。
図4の例でいうと、従来は、受聴者Aに関しては方向α1に関する受聴者Aの頭部伝達関数を用いて、また受聴者Bに関しては方向α2に関する受聴者Bの頭部伝達関数を用いて、発話者の発話音声を処理し、受聴者A及び受聴者Bから見込んだ発話者の方向に、発話音声を頭外定位させていた。すなわち、従来では、発話者からみた受聴者の方向が考慮されていなかった。すなわち、従来のHRTFは、その定義上「受け取り側」の方向に関する空間的特性しかなかった。
これに対して、本発明の実施の形態に係る音声生成装置2は、音源S及び受聴者のお互いに対する方向を取得する方向取得部10と、方向取得部10により取得された方向に基づいて、音源Sの音声放射特性及び受聴者のHRTFに対応した音声信号を生成する音声生成部20とを備えることを特徴とする。
このように構成することで、本実施形態に係る音声生成装置2においては、音源Sから見た受聴者の方向も考慮して、その放射特性を表現する伝達関数を用いて再生する音声信号を生成することができる。よって、より臨場感の高い音声を生成できる。
このように構成することで、本実施形態に係る音声生成装置2においては、音源Sから見た受聴者の方向も考慮して、その放射特性を表現する伝達関数を用いて再生する音声信号を生成することができる。よって、より臨場感の高い音声を生成できる。
より詳しく説明すると、本発明者らがヒトの発話音声の放射特性等を調査したところ、その受聴位置によって大きく振幅周波数特性が変わることを発見し、これを本実施形態に係る音声生成装置2に適用し、本発明を完成させるに至った。
この音声生成装置2により、従来より臨場感、リアリティの高い音作りを行うことができる。すなわち、本実施形態に係る音声生成装置2では「送り手側」の音源に関する空間的特性を実測等してモデル化を行い、これをHRTFに加えて利用することが可能となった。これにより仮想音場の生成において、よりリアリティの高い音声信号を生成できる。
この音声生成装置2により、従来より臨場感、リアリティの高い音作りを行うことができる。すなわち、本実施形態に係る音声生成装置2では「送り手側」の音源に関する空間的特性を実測等してモデル化を行い、これをHRTFに加えて利用することが可能となった。これにより仮想音場の生成において、よりリアリティの高い音声信号を生成できる。
図4の例でいうと、本実施形態に係る音声生成装置2では、発話者から見込んだ受聴者Aの方向β1及び受聴者Bの方向β2を考慮してヘッドフォン提示する。これは、発話者の発話をどの方向で聞くか、すなわち図のβ1、β2の値によって発話者の発生した音声が変化して受聴者に到達することに着目したものである。
上述した従来の頭部伝達関数に加え、この変化、すなわち音源Sの放射特性を勘案することで、より現実感の高い音声をヘッドフォン等で再現することが可能になる。また、上述したα1、α2、β1、β2は、発話者(音源S)、受聴者A、受聴者Bの座標情報及び顔の向きがわかれば容易に計算できる。
上述した従来の頭部伝達関数に加え、この変化、すなわち音源Sの放射特性を勘案することで、より現実感の高い音声をヘッドフォン等で再現することが可能になる。また、上述したα1、α2、β1、β2は、発話者(音源S)、受聴者A、受聴者Bの座標情報及び顔の向きがわかれば容易に計算できる。
本発明の実施の形態に係る音声生成装置2において、音声生成部20は、音声放射特性を強調することを特徴とする。
このように構成することで、コンテンツ再生や遠隔会議等でより臨場感を強調又はデフォルメすることができる。これにより、受聴者により没入感を与えたり、オブジェクトを認識させやすくしたりすることができる。
このように構成することで、コンテンツ再生や遠隔会議等でより臨場感を強調又はデフォルメすることができる。これにより、受聴者により没入感を与えたり、オブジェクトを認識させやすくしたりすることができる。
本発明の実施の形態に係る音声生成装置2は、音源Sは、コンテンツの音声信号、及び遠隔通話の参加者の音声信号のいずれかであり、方向取得部10は、音源Sによる音の放射方向を取得することを特徴とする。
このように構成することで、コンテンツの再生時、1対1接続、1対多点接続、多点対多点接続のメッセンジャー、遠隔会議等において、より臨場感のある音声を生成することができる。
このように構成することで、コンテンツの再生時、1対1接続、1対多点接続、多点対多点接続のメッセンジャー、遠隔会議等において、より臨場感のある音声を生成することができる。
本発明の実施の形態に係る音声生成装置2においては、音声生成部20は、音源Sの発した音のレベル及び/又は振幅周波数特性を変化させた音声信号を生成することを特徴とする。
このように構成することで、音源Sがコンテンツの音声信号である場合、音声のレベル及び/又は振幅周波数特性を変化させて再生することで、臨場感を高められる。または、音源Sが発話者である場合、受聴者に対する頭部の方向(yaw)によって発話のレベル及び/又は振幅周波数特性を変化させることで、発話者の音声を明瞭、又はより高い臨場感で聴くことができる。落語や講演等での臨場感も高められる。
このように構成することで、音源Sがコンテンツの音声信号である場合、音声のレベル及び/又は振幅周波数特性を変化させて再生することで、臨場感を高められる。または、音源Sが発話者である場合、受聴者に対する頭部の方向(yaw)によって発話のレベル及び/又は振幅周波数特性を変化させることで、発話者の音声を明瞭、又はより高い臨場感で聴くことができる。落語や講演等での臨場感も高められる。
本発明の実施の形態に係る音声再生装置1においては、音声生成部20は、複数の環境のいずれかに応じた適切な音声放射特性を選択することを特徴とする。
このように構成し、音声放射特性を事前に典型的な数種類の環境で測定しておいた音声放射特性情報200から、適切なものを選択して用いることで、より臨場感を高められる。たとえば、部屋と平原とで音声放射特性情報200を変更して、より臨場感を高めることができる。または、オブジェクトの種類に応じた音声放射特性を選択して、オブジェクト毎の臨場感を高めることもできる。
このように構成し、音声放射特性を事前に典型的な数種類の環境で測定しておいた音声放射特性情報200から、適切なものを選択して用いることで、より臨場感を高められる。たとえば、部屋と平原とで音声放射特性情報200を変更して、より臨場感を高めることができる。または、オブジェクトの種類に応じた音声放射特性を選択して、オブジェクト毎の臨場感を高めることもできる。
本発明の実施の形態に係る音声再生装置1は、音声生成装置2と、音声生成装置2により生成された音声信号を出力させる音声出力部30とを備えることを特徴とする。
このように構成することで、生成された音声をヘッドフォンやHMD等で出力して、臨場感ある音声を体感することができる。
このように構成することで、生成された音声をヘッドフォンやHMD等で出力して、臨場感ある音声を体感することができる。
〔他の実施の形態〕
なお、上述の実施形態においては、音声再生装置1が一体的に構成されているように記載した。
しかしながら、音声再生装置1は、スマートフォンやPCや家電等の情報処理装置と、ヘッドセット、ヘッドフォン、左右分離型イヤフォン等の端末とが接続されるような再生システムとして構成されてもよい。このような構成の場合、方向取得部10及び再生部40が端末に備えられ、方向取得部10及び音声生成部20の機能を情報処理装置又は端末のいずれかで実行するようにしてもよい。加えて、情報処理装置と端末との間は、例えば、Bluetooth(登録商標)、HDMI(登録商標)、WiFi(登録商標)、USB(Universal Serial Bus)、その他の有線や無線の情報伝送手段で伝送されてもよい。この場合、情報処理装置の機能を、イントラネットやインターネット上のサーバー等で実行することも可能である。
なお、上述の実施形態においては、音声再生装置1が一体的に構成されているように記載した。
しかしながら、音声再生装置1は、スマートフォンやPCや家電等の情報処理装置と、ヘッドセット、ヘッドフォン、左右分離型イヤフォン等の端末とが接続されるような再生システムとして構成されてもよい。このような構成の場合、方向取得部10及び再生部40が端末に備えられ、方向取得部10及び音声生成部20の機能を情報処理装置又は端末のいずれかで実行するようにしてもよい。加えて、情報処理装置と端末との間は、例えば、Bluetooth(登録商標)、HDMI(登録商標)、WiFi(登録商標)、USB(Universal Serial Bus)、その他の有線や無線の情報伝送手段で伝送されてもよい。この場合、情報処理装置の機能を、イントラネットやインターネット上のサーバー等で実行することも可能である。
また、上述の実施の形態においては、音声再生装置1として、出力部30及び再生部40を含む構成について記載した。
しかしながら、出力部30及び再生部40を含まない構成も可能である
図5に、このような音声信号を生成するだけの音声生成装置2bの構成の一例を記載する。この音声生成装置2bにおいては、例えば、生成した音声信号のデータを記録媒体Mに格納可能である。
しかしながら、出力部30及び再生部40を含まない構成も可能である
図5に、このような音声信号を生成するだけの音声生成装置2bの構成の一例を記載する。この音声生成装置2bにおいては、例えば、生成した音声信号のデータを記録媒体Mに格納可能である。
また、このような他の実施形態に係る音声生成装置2bは、PC、スマートフォン、ゲーム装置、メディアプレーヤー等のコンテンツ再生装置、VR、AR、MR、ビデオフォン、テレビ会議システム、遠隔会議システム、ゲーム装置、その他の家電等の各種装置に組み込んで用いることが可能である。つまり、音声生成装置2bは、テレビジョンやディスプレイを備えた装置、ディスプレイ越しのテレビ電話、ビデオ会議、テレプレゼンス等、こちらとあちらの相対的位置関係と頭部等の実方向(yaw)や仮想空間内での方向が取得可能な全ての装置に適用可能である。
また、本実施形態に係る音声信号処理プログラムは、これらの装置で実行することも可能である。さらに、コンテンツ作成や配信時に、プロダクションや配信元等のPCやサーバー等で、これらの音声信号処理プログラムを実行することも可能である。また、上述の実施形態に係る音声再生装置1にて、この音声信号処理プログラムを実行することも可能である。
すなわち、上述の音声生成装置2、2b、及び/又は音声信号処理プログラムによる処理により、より臨場感、リアリティの高い、映画、VR、AR、MR、ゲーム等のヘッドフォン及び/又はHMDによる再生が可能になる。また、遠隔会議等においても、臨場感を高めることができる。
すなわち、上述の音声生成装置2、2b、及び/又は音声信号処理プログラムによる処理により、より臨場感、リアリティの高い、映画、VR、AR、MR、ゲーム等のヘッドフォン及び/又はHMDによる再生が可能になる。また、遠隔会議等においても、臨場感を高めることができる。
上述の実施の形態においては、音源Sの音声信号に方向情報が付加されている例について記載した。
これについて、上述の遠隔会議等のように、話し手、聞き手が随時入れ替わる会話を行なっているような状況は、音源Sの音声信号に方向情報が付加されていなくてもよい。すなわち、現在の受話者が発話者だった際に、その発話された音声信号を用いて、発話者(現在の受話者)の方向を推定し、それを現在の発話者からみた受話者の方向として使用することが可能である。
これについて、上述の遠隔会議等のように、話し手、聞き手が随時入れ替わる会話を行なっているような状況は、音源Sの音声信号に方向情報が付加されていなくてもよい。すなわち、現在の受話者が発話者だった際に、その発話された音声信号を用いて、発話者(現在の受話者)の方向を推定し、それを現在の発話者からみた受話者の方向として使用することが可能である。
この場合、方向取得部10は、音源Sからの音声信号の方向情報として、各周波数成分の信号の到来方向の推定値を算出して用いることも可能である。方向取得部10は、例えば、音声信号のL(左)チャンネルの信号(以下、「L信号」という。)及びR(右)チャンネルの信号(以下、「R信号」という。)の音声信号の各周波数成分について、受聴者から見た到来方向を算出する。この際、方向取得部10は、LチャンネルとRチャンネルの強度の比を取してもよい。その強度の比から、各周波数成分の信号の到来方向を推定することも可能である。
または、方向取得部10は、音源Sの音声信号の全帯域信号である音声信号そのもの、又は、バンドパスフィルターで帯域分割した各サブバンド信号の左チャンネルの信号と右チャンネルの信号の相互相関を、サブバンド毎に算出してもよい。このサブバンド信号毎に、相互相関が最大となる時間シフトτをもとめ、その値から各サブバンド信号の到来方向を推定することが可能である。
または、方向取得部10は、音源Sの音声信号の全帯域信号である音声信号そのもの、又は、バンドパスフィルターで帯域分割した各サブバンド信号の左チャンネルの信号と右チャンネルの信号の相互相関を、サブバンド毎に算出してもよい。このサブバンド信号毎に、相互相関が最大となる時間シフトτをもとめ、その値から各サブバンド信号の到来方向を推定することが可能である。
または、方向取得部10は、HRTF(Head-Related Transfer Function、頭部伝達関数)における各周波数の信号のITD(Interaural Time Difference)と到来方向との関係から、音声信号の到来方向を推定しても良い。方向取得部10は、このITDと到来方向との関係は、データベースとして記憶部に格納されているものを参照してもよい。
このように、話者が交互に入れ替わるような場合には、お互いのお互いに対する方向推定が可能となる。
または、コンテンツやビデオ会議での通話者や受聴者等のヒトの顔画像データから、顔認識を行って、頭部の向きを推定することも可能である。すなわち、ヘッドトラッキングのない構成であっても、方向を推定することが可能である。同様に、空間内の発話者や受聴者の位置を把握することも可能であってもよい。
このように構成することで、各種柔軟な構成に対応可能となる。
このように構成することで、各種柔軟な構成に対応可能となる。
上述の実施形態では、音源Sの方向を方向情報として取得するように記載した。
しかしながら、音源Sの方向情報を受聴者、音源Sの発生者、コンテンツ制作者等が変更するような構成も可能である。
この場合、例えば、ユーザの指示をスイッチ、ボタン、タッチパッド等の入力部から、方向移動指示信号を取得し、これを基に、音源Sの方向情報を制御することが可能である。この制御はリアルタイム(実時間)で行ってもよい。
または、音声再生装置1や音声生成装置2bの液晶や有機ELディスプレイ等の表示部、音声再生装置1や音声生成装置2bと接続されたスマートフォンや専用端末のUI(User Interface)等により、方向移動指示信号を取得することも可能である。
しかしながら、音源Sの方向情報を受聴者、音源Sの発生者、コンテンツ制作者等が変更するような構成も可能である。
この場合、例えば、ユーザの指示をスイッチ、ボタン、タッチパッド等の入力部から、方向移動指示信号を取得し、これを基に、音源Sの方向情報を制御することが可能である。この制御はリアルタイム(実時間)で行ってもよい。
または、音声再生装置1や音声生成装置2bの液晶や有機ELディスプレイ等の表示部、音声再生装置1や音声生成装置2bと接続されたスマートフォンや専用端末のUI(User Interface)等により、方向移動指示信号を取得することも可能である。
このように構成することで、より臨場感を高めることができる。また、コンテンツに適用して、聞こえやすさを調整することもできる。
さらに、発話者が正面を向いていない場合等であっても、より聞こえやすくすることができる。これを、音声聞き取りの補聴器等に適用することも可能である。
さらに、発話者が正面を向いていない場合等であっても、より聞こえやすくすることができる。これを、音声聞き取りの補聴器等に適用することも可能である。
上述の実施形態では、音源Sの種類や種類の環境に応じて、音声生成部20が音声放射特性情報200から音声放射特性を選択する例について記載した。
しかしながら、音声生成部20は、音源Sの音の周波数領域の信号への分割の結果を時系列で分析し、トーン性の成分が多いか、ノイズ性の成分が多いかを判断し、これに基づいた音声放射特性を選択してもよい。または、音声生成部20は、音源Sの音声信号について、物理演算で、実時間(リアルタイム)で音声放射特性を算出することも可能である。
さらに、音声放射特性情報200についても、周波数帯について補完されたり、物理演算等により事前に合成して算出されたりするような構成であってもよい。
しかしながら、音声生成部20は、音源Sの音の周波数領域の信号への分割の結果を時系列で分析し、トーン性の成分が多いか、ノイズ性の成分が多いかを判断し、これに基づいた音声放射特性を選択してもよい。または、音声生成部20は、音源Sの音声信号について、物理演算で、実時間(リアルタイム)で音声放射特性を算出することも可能である。
さらに、音声放射特性情報200についても、周波数帯について補完されたり、物理演算等により事前に合成して算出されたりするような構成であってもよい。
加えて、音声放射特性情報200は、ヒトの声の音声放射特性の場合、男性と女性の違い、年齢や滑舌の違い、言語の違い、母音と子音の違い、音量や発声法による違い等に応じた複数の音声放射特性を含んでいてもよい。具体的には、子音のように高音、ノイズ性の成分が多い場合には、これらが低い場合よりも発声方向の指向性が高くなるようにしてもよい。これらは、合成音声が音源Sの場合、リアルタイム(実時間)の発声に合わせて選択されるような構成も可能である。また、音源Sの音声信号の音素的な特徴から、音声放射特性を選択、算出等することも可能である。
上述の実施形態においては、再生部40として左右2チャンネルで再生する例について説明した。
これについて、複数チャンネルでの再生を行うことも可能である。
さらに、再生部40は、音声生成部20によって逆相信号が付加される制御が行われた音響信号により、ノイズキャンセリングを行いつつ音声信号を再生するといった処理も可能である。
このように構成することで、より再生音を明瞭に再生することができる。
これについて、複数チャンネルでの再生を行うことも可能である。
さらに、再生部40は、音声生成部20によって逆相信号が付加される制御が行われた音響信号により、ノイズキャンセリングを行いつつ音声信号を再生するといった処理も可能である。
このように構成することで、より再生音を明瞭に再生することができる。
加えて、上述の実施形態においては、方向情報として、受聴者の左右の角度方向を考慮する例について記載した。
しかしながら、これらの到来方向として、上下方向についても考慮することが可能である。
しかしながら、これらの到来方向として、上下方向についても考慮することが可能である。
また、上述の実施形態においては、音源Sの再生環境による音の反射等については、考慮していない例について記載した。
しかしながら、算出された受聴者の方向情報に、受聴者に対する音源オブジェクトの音響信号についての位置の関係を考慮して再生音響信号を制御するように構成してもよい。すなわち、リバーブ(残響)等を制御することも可能である。これにより、映画館やフィールドゲーム等、音源Sの直接音と、環境による反射音とを重ね合わせる等して、現実感を高めることができる。
さらに、3D音場のキャプチャー、伝送、再生システムへの適用、AR、VRアプリ等ヘの適用等も可能である。
しかしながら、算出された受聴者の方向情報に、受聴者に対する音源オブジェクトの音響信号についての位置の関係を考慮して再生音響信号を制御するように構成してもよい。すなわち、リバーブ(残響)等を制御することも可能である。これにより、映画館やフィールドゲーム等、音源Sの直接音と、環境による反射音とを重ね合わせる等して、現実感を高めることができる。
さらに、3D音場のキャプチャー、伝送、再生システムへの適用、AR、VRアプリ等ヘの適用等も可能である。
なお、上記実施の形態の構成及び動作は例であって、本発明の趣旨を逸脱しない範囲で適宜変更して実行することができることは言うまでもない。
本発明の音声再生方法は、受聴者からみた音源の方向に加え音源から見た受聴者の方向を利用することで、従来よりも臨場感がある再生を行う音声信号を生成することができ、産業上に利用することができる。
1 音声再生装置
2、2b 音声生成装置
10 方向取得部
20 音声生成部
30 出力部
40 再生部
200 音声放射特性情報
A、B 受聴者
S 音源
M 記録媒体
2、2b 音声生成装置
10 方向取得部
20 音声生成部
30 出力部
40 再生部
200 音声放射特性情報
A、B 受聴者
S 音源
M 記録媒体
Claims (8)
- 音源の放射方向に対する受聴者の方向、及び前記受聴者の正面方向に対する音源の方向を取得する方向取得部と、
前記方向取得部により取得された前記受聴者の方向及び前記音源の方向に基づいて、前記音源の音声放射特性及び前記受聴者の頭部伝達関数に対応した音声信号を生成する音声生成部とを備える
ことを特徴とする音声生成装置。 - 前記音声生成部は、
前記音源の前記音声放射特性を強調する
ことを特徴とする請求項1に記載の音声生成装置。 - 前記音源は、コンテンツの音声信号、及び遠隔通話の参加者の音声信号のいずれかであり、
前記方向取得部は、前記音源による音の放射方向に対する前記受聴者の方向を取得する
ことを特徴とする請求項1又は2に記載の音声生成装置。 - 前記音声生成部は、
前記音源の発した音声のレベル及び/又は振幅周波数特性を変化させた音声信号を生成する
ことを特徴とする請求項1乃至3のいずれか1項に記載の音声生成装置。 - 前記音声生成部は、
複数の種類及び環境のいずれかに応じた適切な前記音源の前記音声放射特性を選択する
ことを特徴とする請求項1乃至4のいずれか1項に記載の音声生成装置。 - 請求項1乃至4のいずれか1項に記載の音声生成装置と、
前記音声生成装置により生成された音声信号を出力させる音声出力部とを備える
ことを特徴とする音声再生装置。 - 音源の放射方向に対する受聴者の方向、及び前記受聴者の正面方向に対する音源の方向を取得し、
取得された前記受聴者の方向及び前記音源の方向に基いて、前記音源の音声放射特性及び前記受聴者の頭部伝達関数に対応した音声信号を生成し、
生成された音声信号を出力する
ことを特徴とする音声再生方法。 - 音声生成装置により実行される音声信号処理プログラムであって、前記音声生成装置に、
音源の放射方向に対する受聴者の方向、及び前記受聴者の正面方向に対する音源の方向を取得させ、
取得された前記受聴者の方向及び前記音源の方向に基いて、前記音源の音声放射特性及び前記受聴者の頭部伝達関数に対応した音声信号を生成させる
ことを特徴とする音声信号処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021026556A JP2022128177A (ja) | 2021-02-22 | 2021-02-22 | 音声生成装置、音声再生装置、音声再生方法、及び音声信号処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021026556A JP2022128177A (ja) | 2021-02-22 | 2021-02-22 | 音声生成装置、音声再生装置、音声再生方法、及び音声信号処理プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022128177A true JP2022128177A (ja) | 2022-09-01 |
Family
ID=83061118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021026556A Pending JP2022128177A (ja) | 2021-02-22 | 2021-02-22 | 音声生成装置、音声再生装置、音声再生方法、及び音声信号処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022128177A (ja) |
-
2021
- 2021-02-22 JP JP2021026556A patent/JP2022128177A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10685638B2 (en) | Audio scene apparatus | |
JP7010334B2 (ja) | 音声処理装置および方法、並びにプログラム | |
JP4921470B2 (ja) | 頭部伝達関数を表すパラメータを生成及び処理する方法及び装置 | |
US8509454B2 (en) | Focusing on a portion of an audio scene for an audio signal | |
US9131305B2 (en) | Configurable three-dimensional sound system | |
JP4938015B2 (ja) | 3次元音声を生成する方法及び装置 | |
TW447223B (en) | Apparatus and method for synthesizing pseudo-stereophonic outputs from a monophonic input | |
CN108781341B (zh) | 音响处理方法及音响处理装置 | |
US9967693B1 (en) | Advanced binaural sound imaging | |
JP6246922B2 (ja) | 音響信号処理方法 | |
JP2019506058A (ja) | 没入型オーディオ再生のための信号合成 | |
CN113170271A (zh) | 用于处理立体声信号的方法和装置 | |
US20210076152A1 (en) | Controlling rendering of a spatial audio scene | |
GB2567244A (en) | Spatial audio signal processing | |
JP7232546B2 (ja) | 音響信号符号化方法、音響信号復号化方法、プログラム、符号化装置、音響システム、及び復号化装置 | |
JP2018110366A (ja) | 3dサウンド映像音響機器 | |
Braasch et al. | A loudspeaker-based projection technique for spatial music applications using virtual microphone control | |
Cohen et al. | Spatial soundscape superposition and multimodal interaction | |
WO2021261385A1 (ja) | 音響再生装置、ノイズキャンセリングヘッドフォン装置、音響再生方法、音響処理プログラム | |
JP2022128177A (ja) | 音声生成装置、音声再生装置、音声再生方法、及び音声信号処理プログラム | |
WO2023210699A1 (ja) | 音声生成装置、音声再生装置、音声生成方法、及び音声信号処理プログラム | |
Cohen et al. | Spatial soundscape superposition, Part II: Signals and systems | |
JP2023164284A (ja) | 音声生成装置、音声再生装置、音声生成方法、及び音声信号処理プログラム | |
WO2022113393A1 (ja) | ライブデータ配信方法、ライブデータ配信システム、ライブデータ配信装置、ライブデータ再生装置、およびライブデータ再生方法 | |
US20230007421A1 (en) | Live data distribution method, live data distribution system, and live data distribution apparatus |