JP2017055149A - 音声処理装置および方法、符号化装置、並びにプログラム - Google Patents

音声処理装置および方法、符号化装置、並びにプログラム Download PDF

Info

Publication number
JP2017055149A
JP2017055149A JP2015175388A JP2015175388A JP2017055149A JP 2017055149 A JP2017055149 A JP 2017055149A JP 2015175388 A JP2015175388 A JP 2015175388A JP 2015175388 A JP2015175388 A JP 2015175388A JP 2017055149 A JP2017055149 A JP 2017055149A
Authority
JP
Japan
Prior art keywords
audio
diffuseness
unit
information
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015175388A
Other languages
English (en)
Inventor
辻 実
Minoru Tsuji
実 辻
徹 知念
Toru Chinen
徹 知念
本間 弘幸
Hiroyuki Honma
弘幸 本間
優樹 山本
Yuki Yamamoto
優樹 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2015175388A priority Critical patent/JP2017055149A/ja
Priority to PCT/JP2016/074581 priority patent/WO2017043309A1/ja
Publication of JP2017055149A publication Critical patent/JP2017055149A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/02Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo four-channel type, e.g. in which rear channel signals are derived from two-channel stereo signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

【課題】より自由度の高いオーディオ再生を行うことができるようにする。
【解決手段】抽出部は、オブジェクトの位置情報と、Diffuseness情報とが含まれるオブジェクトメタデータを取得する。判定部は、オブジェクトメタデータに含まれるDiffuseness情報と、Diffuseness閾値とを比較して、Diffuseness情報がDiffuseness閾値以下である場合、オブジェクトオーディオデータをレンダリング部に供給させ、Diffuseness情報がDiffuseness閾値より大きい場合、オブジェクトオーディオデータをゲイン制御部に供給させる。本技術は音声処理装置に適用することができる。
【選択図】図2

Description

本技術は音声処理装置および方法、符号化装置、並びにプログラムに関し、特に、より自由度の高いオーディオ再生を行うことができるようにした音声処理装置および方法、符号化装置、並びにプログラムに関する。
従来、ISO/IEC 23008-3 “3D Audio”規格において、オブジェクトオーディオが採用されており、各オブジェクト音源が、そのオブジェクトの位置情報等のメタ情報に従ってレンダリング処理され、再生される(例えば、非特許文献1参照)。
一方、実空間において聞こえる音には、音源から直接耳に届く直接音だけでなく、音源からの音が壁などに反射して耳に届く反射音が存在する場合がある。具体的には、例えば人の前方で花火がなったとき、その人の前方から直接音が聞こえるだけでなく、その人の後方の壁から反射音が聞こえるようなケースがある。
ところで、オブジェクトオーディオにおいては、直接音と反射音をそれぞれ別のオブジェクトで表現することで、実空間における音の聞こえ方を再現する場合がある。
ここで、直接音と反射音はそれぞれ独立したオブジェクトとして存在しているが、それぞれのオブジェクトが直接音であるか反射音であるかの区別がないため、再生側では全てのオブジェクトの音声がレンダリング再生されることになる。
そのため、例えば直接音だけを再生したり、反射音のゲインを調整したりするなど、直接音のオブジェクトと反射音のオブジェクトを別々に制御することができず、自由度の高いオーディオ再生を行うことができなかった。
本技術は、このような状況に鑑みてなされたものであり、より自由度の高いオーディオ再生を行うことができるようにするものである。
本技術の第1の側面の音声処理装置は、オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータを取得する取得部と、前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを再生に使用し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを再生に使用しないか、または前記オーディオオブジェクトのオーディオデータに対して前記Diffuseness情報が前記閾値以下である場合とは異なる処理を行って再生に使用するように制御する制御部とを備える。
音声処理装置には、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトのオーディオデータに対し、前記処理としてゲイン調整を行うゲイン制御部をさらに設けることができる。
音声処理装置には、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトのオーディオデータに対し、前記処理として音像を広げる処理を行うレンダリング部をさらに設けることができる。
前記Diffuseness情報の最大値は、前記オーディオオブジェクトの音声が反射音であることを示しており、前記Diffuseness情報の最小値は、前記オーディオオブジェクトの音声が直接音であることを示しているようにすることができる。
本技術の第1の側面の音声処理方法またはプログラムは、オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータを取得し、前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを再生に使用し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを再生に使用しないか、または前記オーディオオブジェクトのオーディオデータに対して前記Diffuseness情報が前記閾値以下である場合とは異なる処理を行って再生に使用するように制御するステップを含む。
本技術の第1の側面においては、オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータが取得され、前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを再生に使用し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを再生に使用しないか、または前記オーディオオブジェクトのオーディオデータに対して前記Diffuseness情報が前記閾値以下である場合とは異なる処理を行って再生に使用するように制御される。
本技術の第2の側面の符号化装置は、オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータを取得する取得部と、前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを符号化し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを符号化しない符号化部とを備える。
本技術の第2の側面においては、オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータが取得され、前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータが符号化され、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータが符号化されない。
本技術の第1の側面および第2の側面によれば、より自由度の高いオーディオ再生を行うことができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。
オブジェクトメタデータの一例を示す図である。 音声処理装置の構成例を示す図である。 再生処理を説明するフローチャートである。 音声処理装置の構成例を示す図である。 再生処理を説明するフローチャートである。 エンコーダの構成例を示す図である。 エンコード処理を説明するフローチャートである。 音声処理装置の構成例を示す図である。 再生処理を説明するフローチャートである。 コンピュータの構成例を示す図である。
以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈オブジェクトメタデータについて〉
本技術は、オーディオオブジェクトのオブジェクトオーディオデータおよびオブジェクトメタデータに基づいて、そのオーディオオブジェクトの音声を再生する場合に、より自由度の高いオーディオ再生を実現することができるようにするものである。なお、以下では、オーディオオブジェクトを単にオブジェクトとも称することとする。
より具体的には、本技術は直接音のオブジェクトと反射音のオブジェクトとで、オーディオ再生時の制御を別々に行うことができるようにすることで、より自由度の高いオーディオ再生を実現することができるようにするものである。
オブジェクトの音声の再生時には、オブジェクトの音声を再生するためのオーディオ信号であるオブジェクトオーディオデータと、オブジェクトに関するメタデータであるオブジェクトメタデータとに基づいて音声再生のための処理が行われる。
ここで、オブジェクトメタデータには、例えば図1に示すように位置情報、ゲイン情報、およびDiffuseness情報が含まれている。
位置情報は、再生空間における基準となる音声の聴取位置から見たオブジェクトの位置を示す情報である。例えば位置情報は、聴取位置から見たオブジェクト位置の水平方向角度および垂直方向角度と、聴取位置からオブジェクト位置までの距離とからなる。
また、ゲイン情報は、オブジェクトオーディオデータに対するゲイン調整を行うときに用いられるオブジェクトごとのゲイン値などとされる。
さらにDiffuseness情報は、オブジェクトの音声が直接音であるか、または反射音であるかを示す拡散性情報である。
例えばDiffuseness情報は、直接音であるか、または反射音であるかを示すフラグ情報とされてもよいし、オブジェクトの音に含まれる反射成分の割り合いを示す情報などとされてもよい。
以下では、Diffuseness情報は、反射成分の割り合いを示す情報、すなわち反射音らしさの度合いを示す情報であるものとし、Diffuseness情報が0.0乃至1.0の間の値とされる場合を例として説明する。
ここで、Diffuseness情報が最小値である0.0である場合には、オブジェクトの音声に反射成分は含まれておらず、オブジェクトの音声は直接音であるとされる。これに対して、Diffuseness情報が最大値である1.0である場合には、オブジェクトの音声は反射成分のみからなり、オブジェクトの音声は反射音であるとされる。
具体的には、例えば音源にマイクロホンを取り付けて収音することで得られたオーディオデータをオブジェクトのオブジェクトオーディオデータとする場合には、そのオブジェクトオーディオデータに含まれる成分は音源からの直接音の成分が殆どとなる。このような場合、オブジェクトのDiffuseness情報は0.0などとされる。
これに対して、例えば音源からある程度離れた位置にあるマイクロホンで収音して得られたオーディオデータをオブジェクトオーディオデータとする場合には、そのオブジェクトオーディオデータには音源からの直接音の成分だけでなく、その反射音の成分も含まれているはずである。そこで、このような場合、オブジェクトのDiffuseness情報は音源とマイクロホンとの距離に応じて1.0や0.5などとされる。特にこの場合には音源とマイクロホンとの距離が短いほどDiffuseness情報の値が小さくなるようにすればよい。また、明らかに音源とは異なる方向から聞こえてくる音をマイクロホンで収音して得られたオーディオデータをオブジェクトオーディオデータとする場合には、そのオブジェクトオーディオデータは反射音であるはずである。そこで、このような場合、オブジェクトのDiffuseness情報は1.0とすればよい。
さらに他の具体例として、例えば音像の広がりを示す領域内の各位置をオブジェクトの位置とし、それらのオブジェクトのオブジェクトオーディオデータによって、1つの音源から発せられた音声を表現する場合なども考えられる。
そのような場合、音像の広がりを示す領域の中心位置にあるオブジェクトのオブジェクトオーディオデータには、音源からの直接音の成分のみが含まれているものとされ、Diffuseness情報の値は0.0とされる。これに対して、音像の広がりを示す領域の中心位置から遠い位置にあるオブジェクトほど、そのオブジェクトのオブジェクトオーディオデータに含まれる反射音の成分が多くなるものとされる。すなわち、そのオブジェクトのDiffuseness情報の値は、音像の広がりを示す領域の中心位置からの距離に応じて、0.5や0.7、1.0などとされる。
さらに、人工的に生成された音声のオブジェクトについては、音声の制作者の意図に応じてDiffuseness情報の値を定めればよい。
なお、ここではDiffuseness情報の最大値である1.0が反射音を示しており、最小値である0.0が直接音を示している例について説明したが、0.0が反射音を示し、1.0が直接音を示すようにしてもよい。
また、以下では1つのオブジェクトに対して1つのDiffuseness情報が定められる例について説明するが、複数のオブジェクトに対して1つのDiffuseness情報が定められるようにしてもよい。
〈音声処理装置の構成例〉
次に、オブジェクトメタデータと、オブジェクトオーディオデータとを入力としてオーディオ再生を行う音声処理装置に本技術を適用した実施の形態について説明する。
図2は、本技術を適用した音声処理装置の一実施の形態の構成例を示す図である。
音声処理装置11には、コンテンツのオーディオデータである1または複数のオブジェクトのオブジェクトオーディオデータと、それらのオブジェクトのオブジェクトメタデータとが供給される。音声処理装置11は、それらのオブジェクトオーディオデータとオブジェクトメタデータとに基づいてレンダリング処理を行い、複数のチャンネルのスピーカからなるスピーカアレイ12にオーディオデータを供給してコンテンツを再生させる。
音声処理装置11は、抽出部21、判定部22、切替部23、ゲイン制御部24、およびレンダリング部25を有している。
抽出部21は、外部からオブジェクトのオブジェクトメタデータを取得し、そのオブジェクトメタデータからDiffuseness情報を抽出して判定部22に供給するとともに、オブジェクトメタデータをレンダリング部25に供給する。
判定部22は、抽出部21から供給されたDiffuseness情報と、外部から供給されたDiffuseness閾値th1とを比較することで、オブジェクトの音声が反射音らしいか否かを判定し、その判定結果に応じて切替部23を制御する。すなわち、判定部22では、オブジェクトの音声に含まれる反射成分の割り合いが所定値より大きいか否かが判定される。
ここでは、Diffuseness情報がDiffuseness閾値th1より大きい場合に、オブジェクトの音声は反射音らしいとされ、そのオブジェクトに対して反射音向けの処理が行われる。
また、Diffuseness閾値th1は、後段において反射音向けの処理を行うべきオブジェクトであるか、つまり反射音であるかを判別するための閾値であり、例えばDiffuseness閾値th1はユーザ等により指定される。例えばDiffuseness閾値th1が0.0である場合、Diffuseness情報が0.0以外の全てのオブジェクトに対して反射音向けの処理が行われることになる。
切替部23は、判定部22の制御に応じて、外部から供給されたオブジェクトオーディオデータの出力先を切り替える。
具体的には、切替部23はスイッチ31を有しており、スイッチ31をノード32またはノード33の何れかに接続することで、オブジェクトオーディオデータの出力先を切り替える。例えばスイッチ31がノード32に接続された場合には、オブジェクトオーディオデータはレンダリング部25に供給され、スイッチ31がノード33に接続された場合には、オブジェクトオーディオデータがゲイン制御部24に供給される。
ここでは、反射音向けの処理が行われる場合に、オブジェクトオーディオデータがゲイン制御部24に供給され、そうでない場合、つまり直接音向けの処理が行われる場合には、オブジェクトオーディオデータは、直接、レンダリング部25に供給される。
ゲイン制御部24は、外部から供給された反射成分ゲインに基づいて、切替部23から供給されたオブジェクトオーディオデータに対するゲイン制御処理、つまりゲイン調整を行い、ゲイン調整されたオブジェクトオーディオデータをレンダリング部25に供給する。
ここで、反射成分ゲインは、ユーザ等により指定されたものとしてもよいし、予め定められた定数としてもよい。例えば反射成分ゲインが0.0とされた場合には、反射音向けの処理を行うとされたオブジェクト、つまりDiffuseness情報がDiffuseness閾値th1より大きいオブジェクトについては、オブジェクトオーディオデータは無音信号となる。そのため、そのようなオブジェクトについては、実質的にレンダリング再生が行われないことになる。
また、反射成分ゲインは、Diffuseness情報の値に応じて判定部22により定められるようにしてもよい。そのような場合、例えば判定部22は、Diffuseness情報の値が大きいほど反射成分ゲインが小さくなるようにする。具体的には、例えばDiffuseness情報の値に応じて反射成分ゲインが線形に変化していくようにすればよい。
レンダリング部25は、抽出部21から供給されたオブジェクトメタデータに基づいて、切替部23またはゲイン制御部24から供給されたオブジェクトオーディオデータに対してレンダリング処理を行う。また、レンダリング部25は、レンダリング処理の結果として得られた各チャンネルのオーディオデータを、それらのチャンネルに対応するスピーカアレイ12の各スピーカに供給し、音声を再生させる。
〈再生処理の説明〉
次に、図2に示した音声処理装置11の動作について説明する。すなわち、以下、図3のフローチャートを参照して、音声処理装置11による再生処理について説明する。なお、この再生処理はオブジェクトごとに行われる。
ステップS11において、抽出部21は、外部からオブジェクトのオブジェクトメタデータを取得し、オブジェクトメタデータからDiffuseness情報を抽出して判定部22に供給するとともに、オブジェクトメタデータをレンダリング部25に供給する。
ステップS12において、判定部22は、抽出部21から供給されたDiffuseness情報が、外部から供給されたDiffuseness閾値th1以下であるか否かを判定する。
ステップS12においてDiffuseness閾値th1以下でないと判定された場合、つまり処理対象のオブジェクトの音声は反射音らしいため、そのオブジェクトが反射音向けの処理を行うべきものであると判定された場合、処理はステップS13へと進む。
ステップS13において、切替部23は、外部から供給されたオブジェクトオーディオデータをゲイン制御部24に供給する。
すなわち、判定部22は、ステップS12の判定処理の結果に応じて切替部23を制御し、切替部23は判定部22の制御に応じてスイッチ31をノード33に接続し、外部から供給されたオブジェクトオーディオデータをゲイン制御部24に供給する。
ステップS14において、ゲイン制御部24は外部から供給された反射成分ゲインに基づいて、切替部23から供給されたオブジェクトオーディオデータに対するゲイン制御処理を行い、その結果得られたオブジェクトオーディオデータをレンダリング部25に供給する。
例えばゲイン制御処理では、反射成分ゲインに基づいてオブジェクトオーディオデータのゲインが調整、つまり減衰される。したがって、例えば反射成分ゲインを0.0とすれば、反射音のオブジェクトについてはコンテンツ再生時にその音声が使用されず、直接音のみが再生に使用されることになる。
このように反射音のオブジェクトオーディオデータのゲイン調整を行うことで、反射成分のない、または反射成分の少ない、クリアな音声を再生することができるようになる。
これに対して、反射成分ゲインをそれなりに大きい値とすれば、反射音のオブジェクトについてもコンテンツ再生時にその音声が十分な音量で再生されるので、反射成分を含む臨場感のあるコンテンツ再生が行われることになる。なお、反射成分ゲインにより、反射音が強調されるようにしてもよい。
また、ステップS12において、Diffuseness閾値th1以下であると判定された場合、つまり処理対象のオブジェクトが直接音向けの処理を行うべきものであると判定された場合、処理はステップS15へと進む。
ステップS15において、切替部23は、外部から供給されたオブジェクトオーディオデータをレンダリング部25に供給する。
すなわち、判定部22は、ステップS12の判定処理の結果に応じて切替部23を制御し、切替部23は判定部22の制御に応じてスイッチ31をノード32に接続し、外部から供給されたオブジェクトオーディオデータをレンダリング部25に供給する。
ステップS14においてゲイン制御処理が行われたか、またはステップS15においてオブジェクトオーディオデータがレンダリング部25に供給されると、ステップS16において、レンダリング部25はレンダリング処理を行う。
具体的には、レンダリング部25は、抽出部21から供給されたオブジェクトメタデータに含まれている位置情報に基づいて、オブジェクトの音像が再生空間における位置情報により示される位置に定位するように、VBAP(Vector Base Amplitude Panning)等によりスピーカアレイ12の各スピーカ、つまり各チャンネルのゲイン値を算出する。
そして、レンダリング部25は、スピーカごとに算出したゲイン値と、オブジェクトメタデータに含まれているゲイン情報により示されるオブジェクトごとのゲイン値とを、切替部23またはゲイン制御部24から供給されたオブジェクトオーディオデータに乗算する。レンダリング部25は、ゲイン値の乗算処理の結果得られたオーディオデータを、それらの各スピーカに供給するオーディオデータとする。
なお、VBAPについては、例えば「Ville Pulkki, “Virtual Sound Source Positioning Using Vector Base Amplitude Panning”, Journal of AES, vol.45, no.6, pp.456-466, 1997」などに詳細に記載されている。
ステップS17において、レンダリング部25は、レンダリング処理により得られた各スピーカのオーディオデータを、スピーカアレイ12の対応するスピーカに供給して音声を再生させ、再生処理は終了する。これにより、反射音が適切に減衰されたコンテンツの音声が再生されることになる。このとき、オブジェクトの音像は、オブジェクトメタデータに含まれる位置情報により示される位置に定位することになる。
以上のようにして音声処理装置11は、Diffuseness情報とDiffuseness閾値th1とを比較し、その比較結果に応じてオブジェクトオーディオデータに対してゲイン制御処理を行う。つまり、直接音らしいオブジェクトオーディオデータについては、そのまま音声の再生に使用され、反射音らしいオブジェクトオーディオデータについては、再生に使用されないか、または直接音とは異なる処理が施されて再生に使用されるように制御される。
これにより、適宜反射成分を減衰させて反射成分のない、または反射成分の少ないクリアなコンテンツ再生を実現したり、反射成分を適切に残して、反射成分が含まれる臨場感のあるコンテンツ再生を実現したりすることができる。
すなわち、反射音と直接音とを区別してオブジェクトオーディオデータを処理することができるようにすることで、より自由度の高いコンテンツ再生を実現することができる。その結果、ユーザは自身の好みに応じてコンテンツを再生させることができる。
〈第2の実施の形態〉
〈音声処理装置の構成例〉
また、コンテンツ再生時に反射音のオブジェクトについて、音の広がりを再現する処理を制御できるようにしてもよい。
例えばISO/IEC 23008-3 “3D Audio”規格では、オブジェクトのレンダリングにおいて、音の広がりを再現するSpread処理が採用されている。このSpread処理は、オブジェクトのレンダリングの際に、音の広がりを再現するために加えられる処理であるが、反射音は定位が明確でない方が臨場感がある場合がある。そこで、反射音のオブジェクトのレンダリングにおいてSpread処理を加えるようにすることで、より臨場感のある反射音を再現できるようにしもてよい。
そのような場合、音声処理装置は、例えば図4に示すように構成される。なお、図4において図2における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図4に示す音声処理装置61は、抽出部21、判定部22、切替部23、およびレンダリング部25を有している。
この例では、オブジェクトメタデータが抽出部21を介して切替部23に供給され、切替部23は、判定部22の制御に応じてオブジェクトメタデータの出力先を切り替える。
また、判定部22には、レンダリング部25においてSpread処理を行うオブジェクトであるか否かを判別するためのDiffuseness閾値th2が供給され、判定部22は、このDiffuseness閾値th2とDiffuseness情報とを比較して切替部23を制御する。
ここで、Diffuseness閾値th2は、ユーザ等により指定されたものとしてもよいし、予め定められた定数とされるようにしてもよい。また、Diffuseness閾値th2は、別途、オブジェクトオーディオデータやオブジェクトメタデータが含まれるビットストリームにオーディオメタデータとして記録されているものであってもよい。
判定部22では、Diffuseness情報がDiffuseness閾値th2より大きい場合に、Spread処理が行われるオブジェクトであるとされる。つまり、オブジェクトの音声は反射音であるとされる。具体的には、例えばDiffuseness閾値th2が0.0である場合、Diffuseness情報が0.0以外である全てのオブジェクトについて、Spread処理が行われることになる。
レンダリング部25は、ベクトル算出部71、ゲイン算出部72、およびゲイン調整部73を有している。
レンダリング部25では、Diffuseness情報がDiffuseness閾値th2より大きい場合には、切替部23からベクトル算出部71およびゲイン算出部72にオブジェクトメタデータが供給される。これに対して、Diffuseness情報がDiffuseness閾値th2以下である場合には、切替部23からゲイン算出部72にオブジェクトメタデータが供給される。
ベクトル算出部71は、外部から供給されたスプレッドパラメタと、切替部23から供給されたオブジェクトメタデータとに基づいて、オブジェクト位置からの音像の広がりを示す領域内の位置を終点位置とする複数のSpreadベクトルを算出し、ゲイン算出部72に供給する。
ここで、音像の広がりを示す領域とは、オブジェクトの音像が広がる範囲を示す領域である。この音像の広がりを示す領域の中心位置はオブジェクトメタデータに含まれる位置情報により示される位置とされ、また音像の広がりを示す領域の範囲(大きさ)、すなわち音像の広がり度合いがスプレッドパラメタにより指定される。つまり、スプレッドパラメタの値が大きいほど、音像が広がる範囲が広くなる。
ベクトル算出部71は、再生空間における基準となる音声の聴取位置を始点とし、オブジェクトメタデータとスプレッドパラメタにより定まる音像の広がりを示す領域内の上下左右対称な複数の各位置を終点とする複数のSpreadベクトルを算出する。
なお、スプレッドパラメタは、ユーザ等により指定されたものであってもよいし、予め定められた定数であってもよい。また、スプレッドパラメタは、別途、オブジェクトオーディオデータやオブジェクトメタデータが含まれるビットストリームにオーディオメタデータとして記録されているものであってもよい。
さらに、スプレッドパラメタの値は、Diffuseness情報に応じて判定部22により定められるようにしてもよい。例えばスプレッドパラメタの値は、Diffuseness情報が小さい、つまり0.0に近いほど小さくなり、逆にDiffuseness情報が大きいほど、つまり1.0に近いほど大きくなるように定められてもよい。この場合、オブジェクトの音声の反射成分が多いほど音像の広がりを示す領域が大きくなるので、より臨場感のあるコンテンツ再生を実現することができる。
ゲイン算出部72は、必要に応じてベクトル算出部71から供給されたSpreadベクトルと、切替部23から供給されたオブジェクトメタデータとに基づいて、VBAPによりスピーカアレイ12のスピーカごとにゲイン値を算出し、ゲイン調整部73に供給する。
具体的には、ゲイン算出部72は、Spreadベクトルが供給された場合、Spreadベクトルにより示される位置のそれぞれ、つまりSpreadベクトルの終点位置のそれぞれと、オブジェクトメタデータに含まれる位置情報により示される位置とについて、それらの位置ごとにVBAPによりスピーカごとのゲイン値を算出する。そして、ゲイン算出部72は、同じスピーカについて算出したゲイン値を加算して1つのゲイン値とし、各スピーカごとに得られたゲイン値を正規化し、正規化されたゲイン値にオブジェクトメタデータに含まれるゲイン情報により示されるオブジェクトごとのゲイン値を乗算して、最終的な各スピーカのゲイン値とする。
また、ゲイン算出部72は、Spreadベクトルが供給されなかった場合、オブジェクトメタデータに含まれる位置情報により示される位置について、VBAPによりスピーカごとのゲイン値を算出する。さらに、ゲイン算出部72は、VBAPにより求めたスピーカごとのゲイン値と、オブジェクトメタデータに含まれているゲイン情報により示されるオブジェクトごとのゲイン値とを乗算して、最終的な各スピーカのゲイン値とする。
ゲイン調整部73は、ゲイン算出部72から供給された各スピーカのゲイン値を、外部から供給されたオブジェクトオーディオデータに乗算し、その結果得られたオーディオデータを、それらの各スピーカに供給するオーディオデータとする。ゲイン調整部73は、各スピーカのオーディオデータを、スピーカアレイ12を構成する各スピーカに供給して音声を再生させる。
〈再生処理の説明〉
次に、図4に示した音声処理装置61の動作について説明する。すなわち、以下、図5のフローチャートを参照して、音声処理装置61による再生処理について説明する。なお、この再生処理はオブジェクトごとに行われる。
ステップS41において、抽出部21は、外部からオブジェクトのオブジェクトメタデータを取得し、オブジェクトメタデータからDiffuseness情報を抽出して判定部22に供給するとともに、オブジェクトメタデータを切替部23に供給する。
ステップS42において、判定部22は、抽出部21から供給されたDiffuseness情報が、外部から供給されたDiffuseness閾値th2以下であるか否かを判定する。
ステップS42においてDiffuseness閾値th2以下でないと判定された場合、つまり処理対象のオブジェクトの音声が反射音であり、そのオブジェクトはSpread処理を行うべきものであると判定された場合、処理はステップS43へと進む。
ステップS43において、切替部23は、抽出部21から供給されたオブジェクトメタデータをベクトル算出部71およびゲイン算出部72に供給する。
すなわち、判定部22は、ステップS42の判定処理の結果に応じて切替部23を制御し、切替部23は判定部22の制御に応じてスイッチ31をノード33に接続することで、オブジェクトメタデータをベクトル算出部71およびゲイン算出部72に供給する。
ステップS44において、ベクトル算出部71は、外部から供給されたスプレッドパラメタと、切替部23から供給されたオブジェクトメタデータとに基づいて複数のSpreadベクトルを算出し、ゲイン算出部72に供給する。
例えばオブジェクトメタデータに含まれる位置情報により示される位置を中心とし、スプレッドパラメタにより定まる大きさの領域が音像の広がりを示す領域とされ、その領域内の上下左右対称な複数の各位置を示すSpreadベクトルが算出される。
ステップS45において、ゲイン算出部72は、切替部23から供給されたオブジェクトメタデータと、ベクトル算出部71から供給されたSpreadベクトルとに基づいて各スピーカ、つまり各チャンネルのゲイン値を算出し、ゲイン調整部73に供給する。
例えば各Spreadベクトルにより示される位置と、オブジェクトメタデータに含まれる位置情報により示される位置とについて、それらの位置ごとにVBAPによりスピーカごとのゲイン値が算出される。そして、同じスピーカについて算出したゲイン値が加算されて1つのゲイン値とされた後、各スピーカのゲイン値が正規化され、さらに正規化されたゲイン値に、オブジェクトメタデータに含まれるゲイン情報により示されるオブジェクトごとのゲイン値が乗算されて最終的な各スピーカのゲイン値とされる。
このようにして得られるゲイン値を用いれば、オブジェクトの音像を1点ではなく広がりのある領域全体に定位させることができる。
このようにDiffuseness情報がDiffuseness閾値th2よりも大きく、オブジェクトの音声に含まれる反射成分がある程度多い場合には、Spreadベクトルを求めて各スピーカのゲイン値を算出するSpread処理、つまり音像を広げる処理が行われる。
ステップS45の処理が行われてゲイン値が算出されると、その後、処理はステップS48に進む。
これに対して、ステップS42においてDiffuseness閾値th2以下であると判定された場合、ステップS46において切替部23は、抽出部21から供給されたオブジェクトメタデータをゲイン算出部72に供給する。
すなわち、判定部22は、ステップS42の判定処理の結果に応じて切替部23を制御し、切替部23は判定部22の制御に応じてスイッチ31をノード32に接続することで、オブジェクトメタデータをゲイン算出部72に供給する。
ステップS47において、ゲイン算出部72は、切替部23から供給されたオブジェクトメタデータに基づいて各スピーカのゲイン値を算出し、ゲイン調整部73に供給する。すなわち、オブジェクトメタデータに含まれる位置情報により示される位置について、VBAPによりスピーカごとのゲイン値が算出され、さらにそれらのゲイン値にオブジェクトメタデータに含まれるゲイン情報により示されるオブジェクトごとのゲイン値が乗算されて最終的な各スピーカのゲイン値とされる。
このようにDiffuseness情報がDiffuseness閾値th2以下であり、オブジェクトの音声に含まれる反射成分が少ない場合には、音像を広げる処理は行われず、通常通りゲイン値が算出される。このようにして得られるゲイン値を用いると、オブジェクトの音像は、位置情報により示される位置に定位する。
ステップS47の処理が行われてゲイン値が算出されると、その後、処理はステップS48に進む。
ステップS45またはステップS47の処理が行われてゲイン値が算出されると、ステップS48において、ゲイン調整部73は、ゲイン算出部72から供給されたゲイン値に基づいて、外部から供給されたオブジェクトオーディオデータのゲイン調整を行う。
すなわち、ゲイン調整部73は、スピーカごとに、それらのスピーカのゲイン値をオブジェクトオーディオデータに乗算し、その結果得られたオーディオデータを、それらの各スピーカに供給するオーディオデータとする。
ステップS49において、ゲイン調整部73は、各スピーカのオーディオデータを、スピーカアレイ12の対応するスピーカに供給して音声を再生させ、再生処理は終了する。これにより、反射音の音像は適切に広げられ、直接音の音像はその音源となるオブジェクト位置に定位するようにコンテンツの音声が再生されることになる。
以上のようにして音声処理装置61は、Diffuseness情報とDiffuseness閾値th2とを比較し、その比較結果に応じてSpread処理を行って、反射音のオブジェクトに音の広がりを加える。つまり、直接音らしいオブジェクトオーディオデータについては、そのまま音声の再生に使用され、反射音らしいオブジェクトオーディオデータについては、直接音には施されないSpread処理が施されて再生に使用されるように制御される。これにより、より臨場感のあるコンテンツ再生を実現することができる。
すなわち、音声処理装置61では、反射音と直接音とを区別してオブジェクトオーディオデータを処理することができるようにすることで、より自由度の高いコンテンツ再生を実現することができる。
〈第3の実施の形態〉
〈エンコーダの構成例〉
ところで、コンテンツを再生するためのオーディオデータとして、複数のオブジェクトのオーディオデータがある場合、コンテンツを再生するために必要となるデータの伝送量が多くなる。そこで、Diffuseness情報に基づいてオブジェクトの重要度を特定し、データ伝送量を抑制するようにしてもよい。
一般的に反射成分、つまり反射音のオブジェクトは、直接成分、つまり直接音のオブジェクトに比べて重要度は低いと考えられる。そこで、データ伝送の帯域が十分に確保されていない場合に、オブジェクトメタデータに含まれているDiffuseness情報に基づいて、伝送するオブジェクトを間引くようにすれば、データ伝送量を抑制することができる。
そのような場合、本技術を適用したエンコーダは、例えば図6に示すように構成される。
図6に示すエンコーダ101は、送出データ間引き部111、エンコード部112、および送出部113を有している。
エンコーダ101では、複数個、ここではN個のオブジェクトについて、それらのオブジェクトのオブジェクトオーディオデータとオブジェクトメタデータが送出データ間引き部111に供給される。すなわち、N個のオブジェクトオーディオデータと、N個のオブジェクトメタデータとが送出データ間引き部111に供給される。
送出データ間引き部111は、これらのオブジェクトオーディオデータとオブジェクトメタデータを、外部から供給されたDiffuseness閾値th3に基づいて間引きして、エンコード部112に供給する。
送出データ間引き部111は、抽出部121、判定部122、選択部123、および選択部124を有している。
抽出部121は、外部からオブジェクトのオブジェクトメタデータを取得し、オブジェクトメタデータからDiffuseness情報を抽出して判定部122に供給するとともに、オブジェクトメタデータを選択部124に供給する。
判定部122は、抽出部121から供給されたDiffuseness情報と、外部から供給されたDiffuseness閾値th3とを比較することで、オブジェクトのデータをエンコード対象とするか否かを判定し、その判定結果に応じて選択部123および選択部124を制御する。
具体的には、Diffuseness情報がDiffuseness閾値th3以下である場合、オブジェクトのデータがエンコード対象とされる。これは、Diffuseness情報が小さく反射成分が少ない音声のオブジェクト、つまり直接音らしいオブジェクトは重要度が高いオブジェクトである可能性が高いからである。
これに対してDiffuseness情報がDiffuseness閾値th3より大きく、反射成分の多い音声のオブジェクトは、重要度が低いオブジェクトである可能性が高いため、そのオブジェクトのデータはエンコード対象とされず、破棄される。すなわち、反射音らしいオブジェクトはコンテンツ再生には使用されずに破棄される。
ここで、Diffuseness閾値th3は、例えばデータ伝送の帯域幅の状況や、伝送されるデータの受信側のユーザ等により決定されたものとされる。
より具体的には、例えばユーザが反射音のないクリアなコンテンツ再生を要求した場合、反射成分の多い音声のオブジェクトは再生に不要なオブジェクトとなるので、Diffuseness閾値th3は0.0とされる。この場合、直接音のオブジェクトのデータのみが伝送されることになり、データ伝送量を抑制することができるとともに、再生側においても自由度の高いコンテンツ再生を実現することができる。
選択部123は、例えばスイッチからなり、判定部122の制御に従ってオンまたはオフし、外部から供給されたオブジェクトオーディオデータを、自身のオンまたはオフの状態に応じてエンコード部112に供給する。すなわち選択部123は、供給されたオブジェクトオーディオデータのなかから、エンコード対象とするものだけを選択して出力する。
選択部124は、例えばスイッチからなり、判定部122の制御に従ってオンまたはオフし、抽出部121から供給されたオブジェクトメタデータを、自身のオンまたはオフの状態に応じてエンコード部112に供給する。すなわち選択部124は、供給されたオブジェクトメタデータのなかから、エンコード対象とするものだけを選択して出力する。
ここでは、選択部123および選択部124は、自身がオンとなっている状態であるときにのみ、入力されたデータを後段へと出力するようになされている。
エンコード部112は、選択部123から供給されたオブジェクトオーディオデータと、選択部124から供給されたオブジェクトメタデータとをエンコード(符号化)してビットストリームを生成し、送出部113に供給する。
送出部113は、エンコード部112から供給されたビットストリームを、通信網を介して他の装置に送出する。
〈エンコード処理の説明〉
次に、図6に示したエンコーダ101の動作について説明する。すなわち、以下、図7のフローチャートを参照して、エンコーダ101によるエンコード処理について説明する。
ステップS81において、抽出部121は、N個のオブジェクトのなかから処理対象とするオブジェクトを1つ選択する。
ステップS82において、抽出部121は、外部から処理対象のオブジェクトのオブジェクトメタデータを取得し、オブジェクトメタデータからDiffuseness情報を抽出して判定部122に供給するとともに、そのオブジェクトメタデータを選択部124に供給する。
ステップS83において、判定部122は、抽出部121から供給されたDiffuseness情報が、外部から供給されたDiffuseness閾値th3以下であるか否かを判定する。
ステップS83においてDiffuseness閾値th3以下であると判定された場合、ステップS84において、判定部122は処理対象のオブジェクトのデータをエンコード対象とする。この場合、判定部122は、選択部123および選択部124を制御して、それらの選択部123および選択部124をオンさせる。
これにより、選択部123は外部から供給された処理対象のオブジェクトのオブジェクトオーディオデータをエンコード部112に供給し、選択部124は抽出部121から供給された処理対象のオブジェクトのオブジェクトメタデータをエンコード部112に供給する。
このようにしてオブジェクトオーディオデータとオブジェクトメタデータが出力されると、その後、処理はステップS85へと進む。
これに対して、ステップS83においてDiffuseness閾値th3以下でないと判定された場合、ステップS84の処理はスキップされて処理はステップS85へと進む。
この場合、判定部122は、処理対象のオブジェクトのデータはエンコード対象ではないとして、選択部123および選択部124を制御し、それらの選択部123および選択部124をオフさせる。
この場合、処理対象のオブジェクトのオブジェクトオーディオデータは、選択部123からエンコード部112へは供給されず、また処理対象のオブジェクトのオブジェクトメタデータも選択部124からエンコード部112へは供給されない。
このような処理により、Diffuseness情報がDiffuseness閾値th3よりも大きく、重要度の低いオブジェクトのデータはエンコード対象とされずに間引かれることになる。
ステップS84の処理が行われたか、またはステップS83においてDiffuseness閾値th3以下でないと判定されると、ステップS85において、抽出部121は、N個の全てのオブジェクトを処理したか否かを判定する。
ステップS85においてまだ全てのオブジェクトを処理していないと判定された場合、処理はステップS81に戻り、上述した処理が繰り返し行われる。すなわち、次のオブジェクトが処理対象のオブジェクトとされて、エンコード対象とするかが決定される。
これに対して、ステップS85において全てのオブジェクトを処理したと判定された場合、ステップS86においてエンコード部112はエンコード処理を行う。
すなわち、エンコード部112は、選択部123から供給されたオブジェクトオーディオデータと、選択部124から供給されたオブジェクトメタデータとをエンコードし、その結果得られたデータを多重化してビットストリームを生成する。エンコード部112は、このようにして得られたビットストリームを送出部113に供給する。
ステップS87において、送出部113は、エンコード部112から供給されたビットストリームを送出し、エンコード処理は終了する。
以上のようにしてエンコーダ101は、オブジェクトごとにDiffuseness情報とDiffuseness閾値th3とを比較し、その比較結果に応じてオブジェクトのオブジェクトオーディオデータとオブジェクトメタデータとをエンコードする。すなわち、直接音らしいオブジェクトはコンテンツ再生に使用され、反射音らしいオブジェクトはコンテンツ再生に使用されずに破棄されるように制御される。
このようにDiffuseness情報とDiffuseness閾値th3とを比較し、重要度が低いと考えられる反射音らしいオブジェクトのデータを間引くことで、ビットストリームの伝送量を低減させることができる。特にエンコーダ101によれば、データ伝送帯域幅が十分に確保されていない場合などに、オブジェクトの音声の反射性(拡散性)、つまり反射音らしさの度合いに応じてデータを伝送するオブジェクトの取捨選択を行うことで、データ伝送量を抑制することができる。また、オブジェクトの取捨選択をすることによって、より自由度の高いオーディオ再生を実現することができる。
〈第4の実施の形態〉
〈音声処理装置の構成例〉
なお、第3の実施の形態ではエンコーダ101側においてオブジェクトの取捨選択を行い、データ伝送量を低減させる例について説明したが、コンテンツの再生側においてオブジェクトの取捨選択を行い、再生時の処理の演算量を抑制するようにしてもよい。
上述したように、一般的に反射成分のオブジェクトは、直接成分のオブジェクトに比べて重要度は低いと考えられる。そこで、再生側の装置の処理能力が十分高くない場合に、オブジェクトメタデータに含まれるDiffuseness情報に基づいて、レンダリング再生するオブジェクトを間引くことで、再生時、つまりレンダリング処理時の演算量を低減させることが可能となる。
そのような場合、本技術を適用した音声処理装置は、例えば図8に示すように構成される。なお、図8において図2における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図8に示す音声処理装置151は、オブジェクト間引き部161およびレンダリング部25を有している。
音声処理装置151では、複数個、ここではN個のオブジェクトについて、それらのオブジェクトのオブジェクトオーディオデータとオブジェクトメタデータがオブジェクト間引き部161に供給される。すなわち、N個のオブジェクトオーディオデータと、N個のオブジェクトメタデータとがオブジェクト間引き部161に供給される。
オブジェクト間引き部161は、抽出部21、判定部22、選択部171、および選択部172を有している。
抽出部21は、外部からオブジェクトのオブジェクトメタデータを取得し、そのオブジェクトメタデータからDiffuseness情報を抽出して判定部22に供給するとともに、オブジェクトメタデータを選択部172に供給する。
判定部22は、抽出部21から供給されたDiffuseness情報と、外部から供給されたDiffuseness閾値th4とを比較することで、オブジェクトのデータをレンダリング対象とするか否かを判定し、その判定結果に応じて選択部171および選択部172を制御する。
具体的には、Diffuseness情報がDiffuseness閾値th4以下である場合、オブジェクトのデータがレンダリング対象とされる。これは、Diffuseness情報が小さく反射成分が少ない音声のオブジェクトは重要度が高いオブジェクトである可能性が高いからである。
これに対してDiffuseness情報がDiffuseness閾値th4より大きく、反射成分の多い音声のオブジェクトは、重要度が低いオブジェクトである可能性が高いため、そのオブジェクトのデータはレンダリング対象とされず、破棄される。つまり、反射音らしいオブジェクトはコンテンツの再生には使用されない。
ここで、Diffuseness閾値th4は、例えば再生装置である音声処理装置151の処理負荷の状況や、ユーザ等により決定されたものとされる。
より具体的には、例えば音声処理装置151の処理負荷が高くなっており、直接音のオブジェクトのみを再生することで処理負荷を抑制したい場合には、Diffuseness閾値th4は0.0とされる。この場合、直接音のオブジェクトのデータのみがレンダリング処理されることになり、レンダリング処理時の演算量、つまり処理負荷を低減させることができる。
選択部171は、例えばスイッチからなり、判定部22の制御に従ってオンまたはオフし、外部から供給されたオブジェクトオーディオデータを、自身のオンまたはオフの状態に応じてレンダリング部25に供給する。すなわち選択部171は、供給されたオブジェクトオーディオデータのなかから、レンダリング対象とするものだけを選択して出力する。
選択部172は、例えばスイッチからなり、判定部22の制御に従ってオンまたはオフし、抽出部21から供給されたオブジェクトメタデータを、自身のオンまたはオフの状態に応じてレンダリング部25に供給する。すなわち選択部172は、供給されたオブジェクトメタデータのなかから、レンダリング対象とするものだけを選択して出力する。
ここでは、選択部171および選択部172は、自身がオンとなっている状態であるときにのみ、入力されたデータを後段へと出力するようになされている。
〈再生処理の説明〉
次に、図8に示した音声処理装置151の動作について説明する。すなわち、以下、図9のフローチャートを参照して、音声処理装置151による再生処理について説明する。
ステップS111において、抽出部21は、N個のオブジェクトのなかから処理対象とするオブジェクトを1つ選択する。
ステップS112において、抽出部21は、外部から処理対象のオブジェクトのオブジェクトメタデータを取得し、オブジェクトメタデータからDiffuseness情報を抽出して判定部22に供給するとともに、そのオブジェクトメタデータを選択部172に供給する。
ステップS113において、判定部22は、抽出部21から供給されたDiffuseness情報が、外部から供給されたDiffuseness閾値th4以下であるか否かを判定する。
ステップS113においてDiffuseness閾値th4以下であると判定された場合、ステップS114において、判定部22は処理対象のオブジェクトのデータをレンダリング対象とする。この場合、判定部22は、選択部171および選択部172を制御して、それらの選択部171および選択部172をオンさせる。
これにより、選択部171は外部から供給された処理対象のオブジェクトのオブジェクトオーディオデータをレンダリング部25に供給し、選択部172は抽出部21から供給された処理対象のオブジェクトのオブジェクトメタデータをレンダリング部25に供給する。
このようにしてオブジェクトオーディオデータとオブジェクトメタデータが出力されると、その後、処理はステップS115へと進む。
これに対して、ステップS113においてDiffuseness閾値th4以下でないと判定された場合、ステップS114の処理はスキップされて処理はステップS115へと進む。
この場合、判定部22は、処理対象のオブジェクトのデータはレンダリング対象ではないとして、選択部171および選択部172を制御し、それらの選択部171および選択部172をオフさせる。
この場合、処理対象のオブジェクトのオブジェクトオーディオデータは、選択部171からレンダリング部25へは供給されず、また処理対象のオブジェクトのオブジェクトメタデータも選択部172からレンダリング部25へは供給されない。
このような処理により、Diffuseness情報がDiffuseness閾値th4よりも大きく、重要度の低いオブジェクトのデータはレンダリング対象とされずに間引かれることになる。
ステップS114の処理が行われたか、またはステップS113においてDiffuseness閾値th4以下でないと判定されると、ステップS115において、抽出部21は、N個の全てのオブジェクトを処理したか否かを判定する。
ステップS115においてまだ全てのオブジェクトを処理していないと判定された場合、処理はステップS111に戻り、上述した処理が繰り返し行われる。すなわち、次のオブジェクトが処理対象のオブジェクトとされて、レンダリング対象とするかが決定される。
これに対して、ステップS115において全てのオブジェクトを処理したと判定された場合、ステップS116においてレンダリング部25はレンダリング処理を行う。
すなわち、レンダリング部25は、図3のステップS16と同様の処理を行うことで、レンダリング対象とされたオブジェクトごとに、選択部171から供給されたオブジェクトオーディオデータと、選択部172から供給されたオブジェクトメタデータとに基づいて、各スピーカのオーディオデータを生成する。そして、レンダリング部25は、オブジェクトごとに求めた各スピーカのオーディオデータについて、同じスピーカのオーディオデータを加算して、そのスピーカの最終的なオーディオデータとする。
ステップS117において、レンダリング部25は、レンダリング処理により得られた各スピーカのオーディオデータを、スピーカアレイ12の対応するスピーカに供給して音声を再生させ、再生処理は終了する。これにより、レンダリング対象とされたオブジェクトの音声が、それらのオブジェクトの位置に定位するようにコンテンツの音声が再生されることになる。
以上のようにして音声処理装置151は、オブジェクトごとにDiffuseness情報とDiffuseness閾値th4とを比較し、その比較結果に応じてオブジェクトのオブジェクトオーディオデータのレンダリング処理を行う。すなわち、直接音らしいオブジェクトはコンテンツ再生に使用され、反射音らしいオブジェクトはコンテンツ再生に使用されずに破棄されるように制御される。
このようにDiffuseness情報とDiffuseness閾値th4とを比較し、重要度が低いと考えられる反射音らしいオブジェクトをレンダリング対象から除外することで、つまり間引きを行うことで、レンダリング処理時の演算量(処理量)を低減させることができる。
特に音声処理装置151の処理能力が十分高くない場合などに、オブジェクトの音声の反射性、つまり反射音らしさの度合いに応じて、レンダリング再生するオブジェクトの取捨選択を行うことで、演算量を低減させることができる。換言すれば、オブジェクトの取捨選択をすることによって、より自由度の高いオーディオ再生を実現することができる。
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図10は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、本技術は、以下の構成とすることも可能である。
(1)
オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータを取得する取得部と、
前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを再生に使用し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを再生に使用しないか、または前記オーディオオブジェクトのオーディオデータに対して前記Diffuseness情報が前記閾値以下である場合とは異なる処理を行って再生に使用するように制御する制御部と
を備える音声処理装置。
(2)
前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトのオーディオデータに対し、前記処理としてゲイン調整を行うゲイン制御部をさらに備える
(1)に記載の音声処理装置。
(3)
前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトのオーディオデータに対し、前記処理として音像を広げる処理を行うレンダリング部をさらに備える
(1)に記載の音声処理装置。
(4)
前記Diffuseness情報の最大値は、前記オーディオオブジェクトの音声が反射音であることを示しており、前記Diffuseness情報の最小値は、前記オーディオオブジェクトの音声が直接音であることを示している
(1)乃至(3)の何れか一項に記載の音声処理装置。
(5)
オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータを取得し、
前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを再生に使用し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを再生に使用しないか、または前記オーディオオブジェクトのオーディオデータに対して前記Diffuseness情報が前記閾値以下である場合とは異なる処理を行って再生に使用するように制御する
ステップを含む音声処理方法。
(6)
オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータを取得し、
前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを再生に使用し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを再生に使用しないか、または前記オーディオオブジェクトのオーディオデータに対して前記Diffuseness情報が前記閾値以下である場合とは異なる処理を行って再生に使用するように制御する
ステップを含む処理をコンピュータに実行させるプログラム。
(7)
オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータを取得する取得部と、
前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを符号化し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを符号化しない符号化部と
を備える符号化装置。
11 音声処理装置, 21 抽出部, 22 判定部, 23 切替部, 24 ゲイン制御部, 25 レンダリング部, 71 ベクトル算出部, 72 ゲイン算出部, 73 ゲイン調整部, 101 エンコーダ, 111 送出データ間引き部, 112 エンコード部, 113 送出部, 161 オブジェクト間引き部

Claims (7)

  1. オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータを取得する取得部と、
    前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを再生に使用し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを再生に使用しないか、または前記オーディオオブジェクトのオーディオデータに対して前記Diffuseness情報が前記閾値以下である場合とは異なる処理を行って再生に使用するように制御する制御部と
    を備える音声処理装置。
  2. 前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトのオーディオデータに対し、前記処理としてゲイン調整を行うゲイン制御部をさらに備える
    請求項1に記載の音声処理装置。
  3. 前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトのオーディオデータに対し、前記処理として音像を広げる処理を行うレンダリング部をさらに備える
    請求項1に記載の音声処理装置。
  4. 前記Diffuseness情報の最大値は、前記オーディオオブジェクトの音声が反射音であることを示しており、前記Diffuseness情報の最小値は、前記オーディオオブジェクトの音声が直接音であることを示している
    請求項1に記載の音声処理装置。
  5. オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータを取得し、
    前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを再生に使用し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを再生に使用しないか、または前記オーディオオブジェクトのオーディオデータに対して前記Diffuseness情報が前記閾値以下である場合とは異なる処理を行って再生に使用するように制御する
    ステップを含む音声処理方法。
  6. オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータを取得し、
    前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを再生に使用し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを再生に使用しないか、または前記オーディオオブジェクトのオーディオデータに対して前記Diffuseness情報が前記閾値以下である場合とは異なる処理を行って再生に使用するように制御する
    ステップを含む処理をコンピュータに実行させるプログラム。
  7. オーディオオブジェクトの位置を示す位置情報と、前記オーディオオブジェクトのDiffuseness情報とが含まれるメタデータを取得する取得部と、
    前記Diffuseness情報が所定の閾値以下である前記オーディオオブジェクトのオーディオデータを符号化し、前記Diffuseness情報が前記閾値よりも大きい前記オーディオオブジェクトについては、前記オーディオオブジェクトのオーディオデータを符号化しない符号化部と
    を備える符号化装置。
JP2015175388A 2015-09-07 2015-09-07 音声処理装置および方法、符号化装置、並びにプログラム Pending JP2017055149A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015175388A JP2017055149A (ja) 2015-09-07 2015-09-07 音声処理装置および方法、符号化装置、並びにプログラム
PCT/JP2016/074581 WO2017043309A1 (ja) 2015-09-07 2016-08-24 音声処理装置および方法、符号化装置、並びにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015175388A JP2017055149A (ja) 2015-09-07 2015-09-07 音声処理装置および方法、符号化装置、並びにプログラム

Publications (1)

Publication Number Publication Date
JP2017055149A true JP2017055149A (ja) 2017-03-16

Family

ID=58239363

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015175388A Pending JP2017055149A (ja) 2015-09-07 2015-09-07 音声処理装置および方法、符号化装置、並びにプログラム

Country Status (2)

Country Link
JP (1) JP2017055149A (ja)
WO (1) WO2017043309A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018198767A1 (ja) * 2017-04-25 2018-11-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
WO2022014326A1 (ja) * 2020-07-14 2022-01-20 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム
WO2024080001A1 (ja) * 2022-10-13 2024-04-18 ヤマハ株式会社 音処理方法、音処理装置、および音処理プログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117479077A (zh) 2017-10-20 2024-01-30 索尼公司 信号处理装置、方法和存储介质
EP3699906A4 (en) 2017-10-20 2020-12-23 Sony Corporation SIGNAL PROCESSING DEVICE AND METHOD, AND PROGRAM

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8908874B2 (en) * 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
CN104054126B (zh) * 2012-01-19 2017-03-29 皇家飞利浦有限公司 空间音频渲染和编码
JP6204682B2 (ja) * 2013-04-05 2017-09-27 日本放送協会 音響信号再生装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018198767A1 (ja) * 2017-04-25 2018-11-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
CN110537373A (zh) * 2017-04-25 2019-12-03 索尼公司 信号处理装置和方法以及程序
JPWO2018198767A1 (ja) * 2017-04-25 2020-02-27 ソニー株式会社 信号処理装置および方法、並びにプログラム
CN110537373B (zh) * 2017-04-25 2021-09-28 索尼公司 信号处理装置和方法以及存储介质
JP7107305B2 (ja) 2017-04-25 2022-07-27 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム
WO2022014326A1 (ja) * 2020-07-14 2022-01-20 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム
WO2024080001A1 (ja) * 2022-10-13 2024-04-18 ヤマハ株式会社 音処理方法、音処理装置、および音処理プログラム

Also Published As

Publication number Publication date
WO2017043309A1 (ja) 2017-03-16

Similar Documents

Publication Publication Date Title
CN108989953B (zh) 空间上回避通过波束形成扬声器阵列产生的音频
TWI700687B (zh) 用於編碼、解碼、場景處理及與以指向性音訊編碼為基礎之空間音訊編碼有關的其他程序之裝置、方法及電腦程式
US11785408B2 (en) Determination of targeted spatial audio parameters and associated spatial audio playback
JP6012884B2 (ja) 知覚的基準に基づいてオブジェクト・ベースのオーディオ・コンテンツをレンダリングするためのオブジェクト・クラスタリング
WO2017043309A1 (ja) 音声処理装置および方法、符号化装置、並びにプログラム
JP2020038375A (ja) ダッキング制御のためのメタデータ
JP6056625B2 (ja) 情報処理装置、音声処理方法、及び音声処理プログラム
KR102616673B1 (ko) 가상 현실 환경에서 청취 위치 사이의 글로벌 전환을 처리하기 위한 방법 및 시스템
CN110537220B (zh) 信号处理设备和方法及程序
TWI745795B (zh) 使用低階、中階及高階分量產生器用於編碼、解碼、場景處理及基於空間音訊編碼與DirAC有關的其他程序的裝置、方法及電腦程式
US11743646B2 (en) Signal processing apparatus and method, and program to reduce calculation amount based on mute information
WO2010105695A1 (en) Multi channel audio coding
KR102070360B1 (ko) 입체음향서비스장치의 구동방법, 그리고 컴퓨터판독가능기록매체
KR101499785B1 (ko) 모바일 디바이스를 위한 오디오 처리 장치 및 그 방법
US11483669B2 (en) Spatial audio parameters
KR20240021911A (ko) 3차원 오디오 신호를 인코딩하기 위한 방법 및 장치, 인코더 및 시스템
JP2023500631A (ja) 方向メタデータを使用するマルチチャネルオーディオ符号化及び復号化
WO2023066456A1 (en) Metadata generation within spatial audio
KR20140128181A (ko) 예외 채널 신호의 렌더링 방법
KR20140128182A (ko) 예외 채널 근방의 객체 신호의 렌더링 방법