JP6434157B2 - 音声信号処理装置および方法 - Google Patents

音声信号処理装置および方法 Download PDF

Info

Publication number
JP6434157B2
JP6434157B2 JP2017537403A JP2017537403A JP6434157B2 JP 6434157 B2 JP6434157 B2 JP 6434157B2 JP 2017537403 A JP2017537403 A JP 2017537403A JP 2017537403 A JP2017537403 A JP 2017537403A JP 6434157 B2 JP6434157 B2 JP 6434157B2
Authority
JP
Japan
Prior art keywords
audio signal
virtual positions
virtual
signal sources
listener
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017537403A
Other languages
English (en)
Other versions
JP2018506222A (ja
Inventor
リユン・パン
パブロ・ホフマン
Original Assignee
ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ホアウェイ・テクノロジーズ・カンパニー・リミテッド filed Critical ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Publication of JP2018506222A publication Critical patent/JP2018506222A/ja
Application granted granted Critical
Publication of JP6434157B2 publication Critical patent/JP6434157B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Description

本発明は、音声信号処理装置および方法に関する。特に、本発明は、仮想空間音声会議システムのための音声信号処理装置および方法に関する。
従来より、マルチパーティー音声会議システムにおける話者の声は、一般的には、モノラル音声ストリーム(本質的に互いの上に重ね合わされ、ヘッドホンが使用する場合は通常「頭部内で」聴取者に提示される)として聴取者にレンダリングされている。
仮想空間音声会議システム(ITU−Tの勧告のP.1301の「音声および音声映像マルチパーティー遠隔会議の主観的品質評価(Subjective quality evaluation of audio and audiovisual multiparty telemeetings)」によって規定されている、マルチパーティー遠隔会議の特別な形式である)は、参加者の声の3D音声レンダリングを可能にする。すなわち、参加者の声は、頭部インパルス応答(HRIR:head−related impulse response)もしくはその対応する周波数領域表現(すなわち、頭部伝達関数(HRTF:head−related transfer function))および/またはバイノーラル室内インパルス応答(BRIR:binaural room impulse response)もしくはその対応する周波数領域表現(すなわち、バイノーラル室内伝達関数(BRTF:binaural room transfer function))から導出される空間フィルタを用いることによって空間内の異なる「仮想」位置に配置される。これらのフィルタは、人間が空間音の知覚のために使用する聴覚キュー(すなわち、両耳間時間差(ITD:interaural time difference)、両耳間レベル差(ILD:interaural level difference)、スペクトルキュー、およびさらには室内音響情報(BRIRの場合の反響など)をエンコードする。参加者の声のモノラル音声ストリームに対する3D音声レンダリングの有益な効果は、会議体験がより自然になるだけでなく、発話了解度が大幅に向上することである。この心理音響効果(マスキングからの空間的解放として科学的に知られている)は、目標話者と競合話者(一般的にはマスカ(masker)と呼ばれる)が(仮想的に)空間的に分離されているとき発話了解度を最大で12〜13dB改善することができることが示されている。
米国特許第7391877号明細書は、聴取者の位置を中心とする円に沿って非等距離の位置に話者を仮想的に分布させる空間音プロセッサを記載している。発話識別に関する心理音響テストの結果に基づいて、システムは、聴取者の前に配置された話者に関する比較的小さな仮想空間分離から開始する。このとき、話者間の仮想空間分離は、話者がより横方向の位置に配置されるにつれて増大する。方位角が±90度の方向に関しては、2つの仮想話者位置(一方は遠距離場にあり、もう一方は近距離場にある)が提案されている。等距離の話者または非等距離の話者のいずれかに基づく同様の解決策が、国際公開第2013/142641号パンフレットおよび国際公開第2013/142668号パンフレットに記載されている。
発話了解度を高めるために、声信号自体に含まれる情報を使用するいくつかの試みが行われてきた。これらの試み(すなわち、話者からマスカを分離するための声情報の使用)は、目標話者とマスカとの間に存在するスペクトルの重なりの量(すなわち、エネルギーマスキング(energetic masking))に大きく依存している。マスカのエネルギーが優位な時間−周波数領域を除去し、目標の声のエネルギーが優位な時間−周波数領域のみを保存するために、理想的な時間−周波数バイナリマスクが、例えばBrungartらの「理想的な時間−周波数分離を用いた、発話対発話のマスキングのエネルギー成分の分離(Isolating the energetic component of speech−on−speech masking with ideal time−frequency segregation)」(J.Acoust.Soc.Am.volume 120no.62006)において提案されている。これは、目標話者およびマスカ話者からのクリーンな(元の)発話信号へのアクセスが必要なため、理想的である。より具体的には、目標話者が優位な音響混合音の時間−周波数領域を保存することができるようにするためには、目標話者およびマスカ話者に関する先験的な知識が必要である。しかしながら、実際には、場合により、目標話者は、先験的に知られず、また変わり得る。例えば、仮想空間音声会議では、各参加者が、一定期間にわたって目標話者になり得る。
したがって、改善された音声信号処理装置および方法、特に、仮想空間音声会議システムの発話了解度を改善する音声信号処理装置および方法が必要とされる。
米国特許第7391877号明細書 国際公開第2013/142641号パンフレット 国際公開第2013/142668号パンフレット
本発明の目的は、仮想空間音声会議システムの発話了解度を改善する音声信号処理装置および方法を提供することである。
この目的は、独立請求項の主題によって達成される。さらなる実施態様は、従属請求項、明細書、および図面において提供される。
第1の態様によれば、本発明は、複数の音声信号スペクトルを形成する複数の音声信号を処理するための音声信号処理装置であって、複数の音声信号が、聴取者が複数の音声信号源の仮想位置から発生するように複数の音声信号を知覚するよう聴取者に送信される、音声信号処理装置に関する。音声信号処理装置は、聴取者に対する複数の音声信号源の仮想位置の複数の可能な空間配置から、聴取者に対する複数の音声信号源の仮想位置の空間配置を選択するように構成されたセレクタであって、複数の音声信号源の仮想位置の可能な空間配置のそれぞれが、複数の伝達関数に関連し、セレクタが、複数の音声信号スペクトル、および複数の音声信号源の仮想位置の可能な空間配置のそれぞれに関連する複数の伝達関数に基づいて、複数の音声信号源の仮想位置の空間配置を選択するように構成されている、セレクタと、聴取者に対する複数の音声信号源の仮想位置の選択された空間配置に基づいて複数の音声信号をフィルタリングするように構成されたフィルタであって、複数のフィルタリングされた音声信号が、聴取者に対する複数の音声信号源の仮想位置の選択された空間配置によって決定される、複数の音声信号源の仮想位置から発生するように聴取者によって知覚される、フィルタとを備える。
したがって、改善された空間配置を選択するために声情報(すなわち、音声信号スペクトル)および方向情報(すなわち、伝達関数)の両方を用いて例えば仮想空間音声会議システムの発話了解度を改善することを可能にする音声信号処理装置が提供される。
複数の音声信号は、N個の音声信号を含んでもよく、複数の音声信号源の仮想位置は、L個の仮想位置を含んでもよい。伝達関数は、頭部伝達関数(HRTF)またはバイノーラル室内伝達関数(BRTF)であってもよい。
本発明の第1の態様の第1の可能な実施態様では、セレクタは、複数の音声信号源の仮想位置の可能な空間配置のそれぞれに関連する複数の方向話者スペクトルプロファイル(directional−speaker spectral profile)を得て、該複数の方向話者スペクトルプロファイルに基づいて複数の音声信号源の仮想位置の空間配置を選択するために、複数の音声信号スペクトルと、複数の音声信号源の仮想位置の可能な空間配置のそれぞれに関連する複数の伝達関数とを組み合わせることによって、複数の音声信号源の仮想位置の空間配置を選択するように構成される。
この実施態様では、声情報および方向情報が、改善された空間配置を選択するために方向話者スペクトルプロファイルとして組み合わされる。
本発明の第1の態様の第1の可能な実施態様の第2の可能な実施態様では、セレクタは、複数の音声信号スペクトルと、複数の音声信号源の仮想位置の可能な空間配置のそれぞれに関連する複数の伝達関数とを掛けることによって、複数の音声信号源の仮想位置の可能な空間配置のそれぞれに関連する複数の方向話者スペクトルプロファイルを得るために複数の音声信号スペクトルと、複数の音声信号源の仮想位置の可能な空間配置のそれぞれに関連する複数の伝達関数とを組み合わせるように構成される。
この実施態様は、スペクトルを乗算することによって声情報と方向情報を方向話者スペクトルプロファイルとして組み合わせる計算上効率的な形態を提供する。
本発明の第1の態様の第1の実施態様または第2の実施態様の第3の可能な実施態様では、セレクタは、複数の方向話者スペクトルプロファイル間のスペクトル差が所定の閾値よりも大きな(好ましくは最大値である)、複数の音声信号源の仮想位置の複数の可能な空間配置のうちの1つを選択することによって、複数の音声信号源の仮想位置の空間配置を選択するように構成される。
この実施態様は、好適な空間配置を求めるためにスペクトル差を用いて良好な発話了解度を実現する。スペクトル差に基づいて、この実施態様は、最適な空間配置を求めることを可能にする。
本発明の第1の態様の第3の実施態様の第4の可能な実施態様では、セレクタは、以下の式を用いて、複数の音声信号源の仮想位置のm番目の空間配置に関連する方向話者スペクトルプロファイル間のスペクトル差を求めるように構成される。
および
Yn,m,k=Xn,kHm,k
ただし、Smは、複数の音声信号源の仮想位置のm番目の空間配置に関連する複数の方向話者スペクトルプロファイル間のスペクトル差を示すスカラー値を表し、Kは、周波数バンドの総数を表し、Wkは、重み係数を表し、σm,kは、k番目の周波数バンドに関する方向話者スペクトルプロファイルの分散を表し、Nは、音声信号スペクトルの総数を表し、Yn,m,kは、k番目の周波数バンドにおけるn番目の方向話者スペクトルプロファイルの値を表し、
は、k番目の周波数バンドにおける方向話者プロファイルの平均を表し、Xn,kは、k番目の周波数バンドにおけるn番目の音声信号の音声信号スペクトルの値を表し、Hm,kは、k番目の周波数バンドにおけるn番目の音声信号に関連する音声信号源の仮想位置に関連する伝達関数の値を表す。
本発明の第1の態様の第4の実施態様の第5の可能な実施態様では、セレクタは、以下の式に基づいて(離散フーリエ変換に使用される)複数の周波数ビンにわたる平均化演算を実行することによって、k番目の周波数バンドにおけるn番目の音声信号の音声信号スペクトルの値(すなわち、Xn,k)および/またはk番目の周波数バンドにおけるn番目の音声信号に関連する音声信号源の仮想位置に関連する伝達関数の値(すなわち、Hm,k)を求めるように構成される。
および
ただし、χ(i)は、i番目の周波数ビンにおけるn番目の音声信号の離散フーリエ変換の値を表し、H(i)は、i番目の周波数ビンにおけるn番目の音声信号に関連する音声信号源の仮想位置に関連する伝達関数のインパルス応答の離散フーリエ変換の値を表し、J(k)は、k番目の周波数バンドの周波数ビンの数を表す。
本発明の第1の態様の第3の実施態様〜第5の実施態様の第6の可能な実施態様では、セレクタは、複数の左耳方向話者スペクトルプロファイルを得るために複数の音声信号スペクトルと、聴取者の左耳に対する音声信号源の仮想位置に関連する複数の左耳伝達関数とを組み合わせることによって、また、複数の右耳方向話者スペクトルプロファイルを得るために複数の音声信号スペクトルと、聴取者の右耳に対する音声信号源の仮想位置に関連する複数の右耳伝達関数とを組み合わせることによって、左耳方向話者スペクトルプロファイルと右耳方向話者スペクトルプロファイルとのスペクトル差が所定の閾値よりも小さな、特に最小値である、複数の音声信号源の仮想位置の複数の可能な空間配置のうちの1つを選択することにより、複数の音声信号源の仮想位置の空間配置を選択するように構成される。
このような本発明の第1の態様の第7の可能な実施態様では、セレクタは、聴取者に対する複数の音声信号源の仮想位置の複数の可能な空間配置から、複数の音声信号源の仮想位置の空間配置を選択するように構成され、複数の音声信号源の仮想位置は、複数の音声信号スペクトル、および複数の音声信号源の仮想位置の可能な空間配置のそれぞれに関連する複数の伝達関数に基づいて、複数の伝達関数間のスペクトル差が所定の閾値よりも大きな、好ましくは最大値である、複数の音声信号源の仮想位置の複数の可能な空間配置のうちの1つを求めることによって、聴取者を中心とし、かつ一定の角度分離を有する円上に配置される。
本発明の第1の態様の第7の実施態様の第8の可能な実施態様では、セレクタは、以下の式を用いて、複数の音声信号源の仮想位置のm番目の空間配置に関連する伝達関数間のスペクトル差を求めるように構成される。
および
ただし、
は、複数の音声信号源の仮想位置のm番目の空間配置に関連する複数の伝達関数間のスペクトル差を示すスカラー値を表し、Kは、周波数バンドの総数を表し、wkは、重み係数を表し、
は、k番目の周波数バンドに関する複数の伝達関数の分散を表し、Nは、音声信号スペクトルの総数を表し、Hn,m,kは、k番目の周波数バンドにおけるn番目の伝達関数の値を表し、
は、k番目の周波数バンドにおける伝達関数の平均を表す。
本発明の第1の態様の第7の実施態様または第8の実施態様の第9の可能な実施態様では、セレクタは、以下の式に基づいて離散フーリエ変換に使用される複数の周波数ビンにわたる平均化演算を実行することによって、k番目の周波数バンドにおけるn番目の伝達関数の値(すなわち、Hn,m,k)を求めるように構成される。
ただし、Hnは、i番目の周波数ビンにおけるn番目の音声信号に関連する音声信号源の仮想位置に関連する伝達関数のインパルス応答の離散フーリエ変換の値を表し、J(k)は、k番目の周波数バンドの周波数ビンの数を表す。
本発明の第1の態様の第7の実施態様または第8の実施態様の第10の可能な実施態様では、セレクタは、複数の音声信号スペクトル、および複数の音声信号源の仮想位置の可能な空間配置のそれぞれに関連する複数の伝達関数に基づいて、複数の音声信号スペクトルの類似値に従って複数の音声信号スペクトルをランク付けすることによって、複数の音声信号源の仮想位置の空間配置を選択するように構成される。
本発明の第1の態様の第10の実施態様の第11の可能な実施態様では、セレクタは、複数の音声信号スペクトル、および複数の音声信号源の仮想位置の可能な空間配置のそれぞれに関連する複数の伝達関数に基づいて、大きな類似値を有する音声信号スペクトル間の角度分離が最大化されるように、ランク付けされた複数の音声信号スペクトルを、複数の音声信号源の仮想位置の選択された空間配置の仮想位置に割り当てることによって、複数の音声信号源の仮想位置の空間配置を選択するように構成される。
本発明の第1の態様の第10の実施態様または第11の実施態様の第12の可能な実施態様では、セレクタは、(i)平均音声信号スペクトルおよび音声信号スペクトルのそれぞれと平均音声信号スペクトルとのスペクトル差を計算することによって、または(ii)音声信号スペクトル間の相関関数を計算することによって複数の音声信号スペクトルの類似値を計算するように構成される。
第2の態様によれば、本発明は、複数の音声信号スペクトルを形成する複数の音声信号を処理するための信号処理方法であって、複数の音声信号が、聴取者が複数の音声信号源の仮想位置から発生するように複数の音声信号を知覚するよう聴取者に送信される、信号処理方法に関する。音声信号処理方法は、聴取者に対する複数の音声信号源の仮想位置の複数の可能な空間配置から、聴取者に対する複数の音声信号源の仮想位置の空間配置を選択するステップであって、複数の音声信号源の仮想位置の可能な空間配置のそれぞれが、複数の伝達関数に関連し、複数の音声信号源の仮想位置の空間配置が、複数の音声信号スペクトル、および複数の音声信号源の仮想位置の可能な空間配置のそれぞれに関連する複数の伝達関数に基づいて選択される、ステップと、聴取者に対する複数の音声信号源の仮想位置の選択された空間配置に基づいて複数の音声信号をフィルタリングするステップであって、複数のフィルタリングされた音声信号が、聴取者に対する複数の音声信号源の仮想位置の選択された空間配置によって決定される、複数の音声信号源の仮想位置から発生するように聴取者によって知覚される、ステップとを含む。
本発明の第2の態様による音声信号処理方法は、本発明の第1の態様による音声信号処理装置によって実行されてもよい。本発明の第2の態様による音声信号処理方法のさらなる特徴は、本発明の第1の態様による音声信号処理装置およびその異なる実施態様の機能から直接得られる。
第3の態様によれば、本発明は、コンピュータ上で実行されたときに、本発明の第2の態様による方法を実行するプログラムコードを含むコンピュータプログラムに関する。
本発明は、ハードウェアおよび/またはソフトウェアで実施することができる。
本発明のさらなる実施形態を、以下の図面に関連して説明する。
一実施形態による音声信号処理装置の概略図を示している。 一実施形態による音声信号処理方法の概略図を示している。 一実施形態による音声信号処理装置および方法によって使用され得る例示的な左、右、および平均のバイノーラル室内伝達関数を示している。 一実施形態による音声信号処理装置および方法によって使用され得る例示的な音声信号スペクトルを示している。 一実施形態による音声信号処理装置および方法によって得られ、使用され得る例示的な方向話者スペクトルプロファイルを示している。 一実施形態による音声信号処理装置および方法によって使用され得る、5人の話者の場合に関する例示的な方向話者スペクトルプロファイルを示している。 図6Aの例示的な方向話者スペクトルプロファイルの分散を示している。 一実施形態による音声信号処理装置および方法において人間の聴覚感度を反映するために使用される例示的な重み係数を示している。 一実施形態に従って、聴取者に対する複数の音声信号源の仮想位置の4つの例示的な空間配置を示している。 一実施形態に従って、聴取者に対する複数の音声信号源の仮想位置の最適な空間配置を選択する方法を示している。 一実施形態に従って、聴取者に対する複数の音声信号源の仮想位置の最適な空間配置を選択する方法を示している。
以下の詳細な説明では、本開示の一部を形成する添付図面を参照するが、添付図面には、本開示を実施することができる特定の態様が例示として示されている。本開示の範囲から逸脱することなく、他の態様を利用することができ、構造的または論理的変更を行うことができることが理解される。したがって、以下の詳細な説明は、限定的な意味で解釈されるべきではなく、本開示の範囲は、添付の特許請求の範囲によって規定される。
記載した方法に関連する開示は、この方法を実施するように構成された対応するデバイスまたはシステムにも当てはまり、またその逆も同様であり得ることが理解される。例えば、特定の方法ステップが記載されている場合、対応するデバイスまたは装置は、記載されている方法ステップを実行するユニットを、このようなユニットが明示的に記載されていなくてもまたは図に示されていなくても、含み得る。さらに、特に断らない限り、本明細書に記載された様々な例示的な態様の特徴は互いに組み合わせることができることが理解される。
図1は、一実施形態による音声信号処理装置100の概略図を示している。音声信号処理装置100は、複数の音声信号スペクトルを形成する複数の音声信号105を処理するように構成される。複数の音声信号105は、聴取者が複数の音声信号源の仮想位置から発生するように複数の音声信号を知覚するよう聴取者に送信されるようになっている。一実施形態では、音声信号処理装置は、仮想空間音声会議システムの一部であり、音声信号は、仮想空間音声会議の参加者の声信号である。
音声信号処理装置100は、聴取者に対する複数の音声信号源の仮想位置の複数の可能な空間配置から、聴取者に対する複数の音声信号源の仮想位置の空間配置を選択するように構成されたセレクタ101を備える。
複数の音声信号源の仮想位置の可能な空間配置のそれぞれは、複数の伝達関数、特に、頭部伝達関数(HTRF)および/またはバイノーラル室内伝達関数(BTRF)に関連する。当業者に知られているように、HTRF/BTRFとそのインパルス応答(すなわち、頭部インパルス応答(HRIR)およびバイノーラル室内インパルス応答(BRIR))との間には直接の対応関係がある。
さらに、セレクタ101は、複数の音声信号スペクトルと、複数の音声信号源の仮想位置の可能な空間配置のそれぞれに関連する複数の伝達関数とに基づいて、複数の音声信号源の仮想位置の空間配置を選択するように構成される。
用語「仮想位置」は、音声処理の分野の当業者には周知である。位置に対して適切な伝達関数を選択することによって、聴取者は、(仮想)音声信号源から発せられる音声信号を知覚して受け取る。この位置は、本明細書で使用される「仮想位置」であり、ヘッドホンで提示される音源/話者が空間内の任意の所望の方向(すなわち、仮想位置)に由来するように思われる技術が含まれてもよい。
音声信号処理装置100は、聴取者に対する複数の音声信号源の仮想位置の選択された空間配置に基づいて複数の音声信号105をフィルタリングし、複数のフィルタリングされた音声信号107を生成するように構成されたフィルタ103をさらに備える。複数のフィルタリングされた音声信号107は、聴取者に対する複数の音声信号源の仮想位置の選択された空間配置によって決定される、複数の音声信号源の仮想位置から発生するように聴取者によって知覚される。
図2は、複数の音声信号スペクトルを形成する複数の音声信号105を処理するための音声信号処理方法200の一実施形態の概略図を示しており、複数の音声信号は、聴取者が複数の音声信号源の仮想位置から発生するように複数の音声信号を知覚するよう聴取者に送信される。
音声信号処理方法200は、聴取者に対する複数の音声信号源の仮想位置の複数の可能な空間配置から、聴取者に対する複数の音声信号源の仮想位置の空間配置を選択するステップ201であって、複数の音声信号源の仮想位置の可能な空間配置のそれぞれが、複数の伝達関数に関連する、ステップ201を含む。複数の音声信号源の仮想位置の空間配置は、複数の音声信号スペクトルと、複数の音声信号源の仮想位置の可能な空間配置のそれぞれに関連する複数の伝達関数とに基づいて選択される。
さらに、音声信号処理装置200は、複数のフィルタリングされた音声信号107を得るために、聴取者に対する複数の音声信号源の仮想位置の選択された空間配置に基づいて複数の音声信号105をフィルタリングするステップ203を含む。複数のフィルタリングされた音声信号107は、聴取者に対する複数の音声信号源の仮想位置の選択された空間配置によって決定される、複数の音声信号源の仮想位置から発生するように聴取者によって知覚される。
音声信号処理方法200は、例えば、本発明の第1の態様による音声信号処理装置100によって実行されてもよい。
以下では、音声信号処理装置100および音声信号処理方法200のさらなる実施態様および実施形態について説明する。
一実施形態では、音声信号処理装置100のセレクタ101は、複数の音声信号スペクトルと、複数の音声信号源の仮想位置の可能な空間配置のそれぞれに関連する複数の伝達関数とを組み合わせることによって複数の音声信号源の仮想位置の空間配置を選択するように構成される。一実施形態では、複数の音声信号スペクトルと複数の伝達関数は、複数の音声信号源の仮想位置の可能な空間配置のそれぞれに関連する複数の方向話者スペクトルプロファイルを得るために複数の音声信号スペクトルと複数の伝達関数を掛けることによって組み合わされる。
図3は、左のBRTFと右のBRTFの平均を導出することによって得られる例示的な伝達関数を示している。例示的な伝達関数を導出するために、左のBRTFおよび右のBRTFは、それぞれの周波数バンドで平均化される。このサブバンド解析は、直交ミラーフィルタ(QMF:quadrature mirror filter)、ガンマトーンフィルタ、またはオクターブバンドもしくは1/3オクターブバンドを用いるなど様々な方法で行うことができる。図3に示す例では、スペクトル、プロファイル、および伝達関数は、1/6オクターブバンド解析(すなわち、フィルタバンクのバンド幅を示すn=6の1/nオクターブバンド)を用いて計算される。この解析は、高速フーリエ変換(FFT)アルゴリズムを用いて計算される離散フーリエ変換(DFT)の大きさのビンにわたる平均化によって定Qフィルタバンク(constant−Q filter bank)に近づく。定Qフィルタバンクは、フィルタの中心周波数とバンド幅の比がフィルタにわたって同じままであることを意味する。一実施形態では、サブバンド解析は、発話に関連する周波数範囲にわたって実行され、500〜6300Hzの周波数に設定される。この周波数範囲は、合計で21の異なる1/6オクターブバンドを用いるサブバンド解析に帰着する。上限周波数の他の選択肢は、7000または8000Hzであってもよい。
当業者であれば、左右のHRTFの平均をとることが、音声信号処理装置100および音声信号処理方法200との関連で使用され得る伝達関数を導出する1つの手法に過ぎないことを理解するであろう。例えば、左または右のいずれかのHRTF/BRTFを、伝達関数として使用してもよい。伝達関数(例えば、HRTFおよび/またはBRTF)は、一度計算されたら、後の使用のために記憶されてもよい。
図4は、一実施形態による音声信号処理装置100および方法200によって使用され得る例示的な音声信号スペクトルを示している。図4の細い線は、例示的な発話音声信号の離散フーリエ変換(すなわち、例示的な音声信号スペクトル)を示している。図4の太い線は、一実施形態では計算目的のために使用される音声信号スペクトルの平均表現またはサブバンド表現を示している。
一実施形態では、k番目の周波数バンドにおけるn番目の音声信号の音声信号スペクトルの値(すなわち、Xn,k)および/またはk番目の周波数バンドにおけるn番目の音声信号に関連する音声信号源のm番目の空間配置の仮想位置に関連する伝達関数の値(すなわち、Hm,k)は、以下の式に基づいて離散フーリエ変換に使用される複数の周波数ビンにわたる平均化演算を実行することによって求められる。
および
ただし、χ(i)は、i番目の周波数ビンにおけるn番目の音声信号の離散フーリエ変換の値を表し、H(i)は、i番目の周波数ビンにおけるn番目の音声信号に関連する音声信号源の仮想位置に関連する伝達関数のインパルス応答の離散フーリエ変換の値を表し、J(k)は、k番目の周波数バンドの周波数ビンの数を表す。
図5は、方向話者スペクトルプロファイルを得るために、伝達関数(図3に示した伝達関数など)と音声信号スペクトル(図4に示した音声信号スペクトルなど)を、セレクタ101によって組み合わせることができる方法を示している。図5から分かるように、方向話者スペクトルプロファイルは、(サブバンド平均)伝達関数と(サブバンド平均)音声信号スペクトルを掛けることによって、あるいはそれぞれの対応する対数振幅特性(log−magnitude response)を合計することによって得られる。本発明との関連では、伝達関数と音声信号スペクトルの乗算は、平均または離散伝達関数および平均または離散音声信号スペクトルのそれぞれによって規定される2つのベクトルの点別乗算である。数学的には、セレクタ101は、
Yn,m,k=Xn,kHm,k
(ただし、Yn,m,kは、k番目の周波数バンドにおける複数の音声信号源の仮想位置のm番目の空間配置に関連するn番目の方向話者スペクトルプロファイルの値を表す)を計算するように構成される。
一実施形態では、セレクタ101は、複数の方向話者スペクトルプロファイルに基づいて複数の音声信号源の仮想位置の空間配置を選択するように構成される。一実施形態では、セレクタ101は、複数の方向話者スペクトルプロファイル間のスペクトル差が所定の閾値よりも大きな(好ましくは最大値である)、複数の音声信号源の仮想位置の複数の可能な空間配置のうちの1つを選択することによって、複数の音声信号源の仮想位置の空間配置を選択するように構成される。
一実施形態では、セレクタ101は、以下の式を用いて、複数の音声信号源の仮想位置のm番目の空間配置に関連する方向話者スペクトルプロファイル間のスペクトル差を求めるように構成される。
および
ただし、Smは、複数の音声信号源の仮想位置のm番目の空間配置に関連する複数の方向話者スペクトルプロファイル間のスペクトル差を示すスカラー値を表し、Kは、周波数バンドの総数を表し、wkは、重み係数を表し、σm,kは、k番目の周波数バンドの方向話者スペクトルプロファイルの分散を表し、Nは、音声信号スペクトルの総数を表し、
は、k番目の周波数バンドの方向話者プロファイルの平均を表す。
図6Aは、一実施形態による音声信号処理装置100および音声信号処理方法200によって使用され得る、5人の話者の場合に関する例示的な方向話者スペクトルプロファイルを示している。図6Bは、異なる周波数バンドに関する、図6Aに示されている5つの例示的な方向話者スペクトルプロファイルの分散σm,kを示している。
一実施形態では、Sm(すなわち、複数の方向話者スペクトルプロファイル間のスペクトル差)を計算するために使用される重み係数wkはすべて、1に設定されてもよい。あるいは、重み係数wkは、異なる周波数バンドの中心周波数における人間の聴覚感度を示してもよい。この場合、重み係数wkは、最小閾値(すなわち、平均的な人間の聴覚感度が最も高い周波数バンドの閾値)によって正規化された聴覚の絶対閾値の逆数として計算されてもよい。これらの例示的な重み係数wk(人間の聴覚の絶対閾値から導出される)は、図6Cに示されている。
セレクタ101が同じ最大スペクトル差を有する複数の音声信号源の仮想位置の少なくとも2つの空間配置を求める可能性に対処するために、一実施形態では、セレクタ101は、複数の左耳方向話者スペクトルプロファイルを得るために複数の音声信号スペクトルと、聴取者の左耳に対する音声信号源の仮想位置に関連する複数の左耳伝達関数とを組み合わせることによって、また、複数の右耳方向話者スペクトルプロファイルを得るために複数の音声信号スペクトルと、聴取者の右耳に対する音声信号源の仮想位置に関連する複数の右耳伝達関数とを組み合わせることによって、左耳方向話者スペクトルプロファイルと右耳方向話者スペクトルプロファイルとのスペクトル差が所定の閾値よりも小さな(特に最小値である)、複数の音声信号源の仮想位置の複数の可能な空間配置のうちの1つを選択することにより、複数の音声信号源の仮想位置の空間配置を選択するように構成される。
図7は、3人の話者(すなわち、音声信号)および12の可能な仮想位置(すなわち、伝達関数)の場合に関して複数の音声信号源の仮想位置の4つの例示的な空間配置を示している。合計でL個の異なる仮想位置(すなわち、異なる伝達関数)をレンダリングすることが可能な仮想空間会議におけるN人の話者に関して、可能な空間配置の総数Mは、
によって与えられる。
したがって、例えば、N=3の話者およびL=12の空間位置の場合、M=1320の可能な空間配置が存在する。図7に示した例では、4つの配置のすべてが、複数の平均伝達関数に基づいて最大スペクトル差を提供する。左耳伝達関数および右耳伝達関数を用いることによって、本発明の一実施形態は、左耳方向話者スペクトルプロファイルと右耳方向話者スペクトルプロファイルとのスペクトル差を最小にする、複数の音声信号源の仮想位置の最適な空間配置として配置2を選択することを可能にする。
一実施形態では、セレクタ101は、複数の音声信号源の仮想位置が聴取者の位置を中心とし、かつ一定の角度分離を有する円上に配置される場合に、複数の音声信号スペクトルと、複数の音声信号源の仮想位置の可能な空間配置のそれぞれに関連する複数の伝達関数とに基づいて、複数の伝達関数間のスペクトル差が所定の閾値よりも大きな(好ましくは最大値である)、複数の音声信号源の仮想位置の複数の可能な空間配置のうちの1つを求めることによって、聴取者に対する複数の音声信号源の仮想位置の複数の可能な空間配置から、複数の音声信号源の仮想位置の空間配置を選択するように構成される。
一実施形態では、セレクタ101は、以下の式を用いて、複数の音声信号源の仮想位置のm番目の空間配置に関連する伝達関数間のスペクトル差を求めるように構成される。
および
ただし、
は、複数の音声信号源の仮想位置のm番目の空間配置に関連する複数の伝達関数間のスペクトル差を示すスカラー値を表し、Kは、周波数バンドの総数を表し、wkは、重み係数を表し、
は、k番目の周波数バンドに関する複数の伝達関数の分散を表し、Nは、音声信号スペクトルの総数を表し、Hn,m,kは、k番目の周波数バンドにおけるn番目の伝達関数の値を表し、
は、k番目の周波数バンドにおける伝達関数の平均を表す。
一実施形態では、k番目の周波数バンドにおけるn番目の伝達関数の値(すなわち、Hn,m,k)は、以下の式に基づいて離散フーリエ変換に使用される複数の周波数ビンにわたる平均化演算を実行することによって求められる。
ただし、Hnは、i番目の周波数ビンにおけるn番目の音声信号に関連する音声信号源の仮想位置に関連する伝達関数のインパルス応答の離散フーリエ変換の値を表し、J(k)は、k番目の周波数バンドの周波数ビンの数を表す。
一実施形態では、セレクタ101は、複数の音声信号スペクトルと、複数の音声信号源の仮想位置の可能な空間配置のそれぞれに関連する複数の伝達関数とに基づいて、複数の音声信号スペクトルの類似性に従って複数の音声信号スペクトルをランク付けすることによって、複数の音声信号源の仮想位置の空間配置を選択するように構成される。一実施形態では、セレクタ101は、(i)平均音声信号スペクトルおよび各音声信号スペクトルと平均音声信号スペクトルとのスペクトル差を計算することによって、または(ii)音声信号スペクトル間の相関関数を計算することによって複数の音声信号スペクトルの類似値を計算するように構成される。
一実施形態では、セレクタ101は、複数の音声信号スペクトルと、複数の音声信号源の仮想位置の可能な空間配置のそれぞれに関連する複数の伝達関数とに基づいて、スペクトル差が小さい音声信号スペクトル(すなわち、「類似する」音声信号スペクトル)間の角度分離が最大化されるように、ランク付けされた複数の音声信号スペクトルを、複数の音声信号源の仮想位置の選択された空間配置の仮想位置に割り当てることによって、複数の音声信号源の仮想位置の空間配置を選択するように構成される。
図8Aおよび図8Bは、一実施形態に従って、聴取者に対する複数の話者(すなわち、音声信号源)の仮想位置の最適な空間配置を選択する方法の例を示している。任意の話者が、N人の話者から任意に選択され、選択された話者の音声信号スペクトルと他のN−1人の話者の音声信号スペクトルのそれぞれとの相関が計算される。次に、最も高い相関をもたらす話者音声信号スペクトルが選択される。すべての話者音声信号スペクトルがランク付けされるまで、同じ処理が、新たに選択されたスピーカに対して繰り返される。
図8Aおよび図8Bに示す例では、N=5の話者(仮想空間音声会議に初めに参加した時間に応じて1から5まで順序付けられた)が存在し、最適な空間配置は、A、B、C、D、およびEのラベルが付けられた5つの方向によって形成される。音声信号スペクトルの類似性に応じた話者のランク付けにより、彼らは、5、1、3、2、および4の順番にランク付けされている。伝達関数の割り当ては、話者リスト内の第1の話者(すなわち、話者5)を方向リスト内の第1の方向(すなわち、方向A)に任意に割り当てることによって開始される。次の話者(すなわち、話者1)(その音声信号スペクトルが、他の話者よりも話者5の音声信号スペクトルに類似する)は、方向Aからの角度分離が最も大きな方向に割り当てられる。この特定の例では、2つの選択肢(すなわち、方向CおよびD)が存在する。この2つの選択案は、方向が一定の角度分離を有するという制約条件の結果である。ここでは、反時計回りの検索が選択され、AとCを結ぶ矢印によって示されているように、方向Cが選択される。この処理は、方向EがCからの最大角度分離を与えることから、話者3を方向Eに割り当てることによって継続される。同じ処理が、利用可能なすべての方向が占められるまで、話者2(方向EとBを結ぶ矢印)および話者4(方向BとDを結ぶ矢印)に対して繰り返される。
当業者であれば、本発明の実施形態が、ステレオ再生、5.1チャンネル、7.1チャンネル、および22.2チャンネルを含むがこれらに限定されないラウドスピーカ再生の最適な空間配置(すなわち、空間配置)を計算するために使用することもできることを理解するであろう。ラウドスピーカの数およびその空間位置とは無関係に、これらの実施形態は、上で説明した手順と同等の方法でスペクトル差に従って話者をランク付けするために音声信号スペクトルを利用する。ラウドスピーカの数、その空間位置、およびそれがカバーする最大角度スパンθに応じて、異なる話者への位置の割り当ては、2つの方法で行うことができる。
一実施形態では、話者は、単純な角距離に基づいて空間的に分離される。すなわち、最も類似した音声信号スペクトルを有する話者は、最も大きな角距離を有する位置に配置され、最も異なる音声信号スペクトルを有する話者は、最も小さな角距離を有する位置に配置される。これらの位置は、実際のラウドスピーカのまさにその位置にあってもよいし、ラウドスピーカ間の位置(この場合、これは、パンニング技術または他の音場レンダリング技術(例えば、波面合成(wavefield synthesis))によって形成される)にあってもよい。
代替的な実施形態では、話者は、上で説明したように方向話者スペクトルプロファイルに基づいてまたは上で説明したように伝達関数に基づいて空間的に分離される。クロストークキャンセルシステムの特定の場合、上記の実施形態は、ヘッドホン再生とまったく同じ方法で実施することができる。最適な空間配置が発見されたら、パンニング技術または音場レンダリング技術が、話者をその最適な位置に配置するために使用されてもよい。
当業者であれば、特許請求の範囲に記載された発明が、音声信号およびそのスペクトルがオンザフライで解析されるのではなく、ユーザの複数の音声信号スペクトルがユーザプロファイルを形成する(結果的に、ユーザプロファイルは、そこから導出されるプロファイル音声信号スペクトル(例えば、ユーザの音声信号スペクトルの平均)によって示される)実施形態も含むことを理解するであろう。
本発明の実施形態は、コンピュータシステム上で動作するコンピュータプログラム(プログラマブル装置(コンピュータシステムなど)上で実行されたときに本発明による方法のステップを実行するか、またはプログラマブル装置が本発明によるデバイスまたはシステムの機能を実行することを可能にするコード部分を少なくとも含む)で実施されてもよい。
コンピュータプログラムは、特定のアプリケーションプログラムおよび/またはオペレーティングシステムなどの命令のリストである。コンピュータプログラムは、例えば、サブルーチン、関数、プロシージャ、オブジェクトメソッド、オブジェクトインプリメンテーション、実行可能アプリケーション、アプレット、サーブレット、ソースコード、オブジェクトコード、共有ライブラリ/動的負荷ライブラリ、および/またはコンピュータシステム上での実行のために設計された他の一連の命令を含む。
コンピュータプログラムは、コンピュータ可読記憶媒体の内部に記憶されてもよいし、コンピュータ可読伝送媒体を介してコンピュータシステムに伝送されてもよい。コンピュータプログラムの全部または一部は、情報処理システムに永続的に、取り外し可能に、または遠隔的に結合される一時的または非一時的なコンピュータ可読媒体において提供されてもよい。コンピュータ可読媒体は、例えば、以下に限定されないが、以下のうちの任意の数、すなわち、磁気記憶媒体(ディスクおよびテープ記憶媒体を含む)、光記憶媒体(コンパクトディスク媒体(例えば、CD−ROM、CD−Rなど)およびデジタルビデオディスク記憶媒体など)、不揮発性メモリ記憶媒体(フラッシュメモリ、EEPROM、EPROM、ROMなどの半導体ベースのメモリユニットを含む)、強磁性デジタルメモリ、MRAM、揮発性記憶媒体(レジスタ、バッファ、もしくはキャッシュ、メインメモリ、RAMなどを含む)、データ伝送媒体(いくつか例を挙げると、コンピュータネットワーク、ポイントツーポイント遠隔通信装置、および搬送波伝送媒体を含む)のうちの任意の数を含んでもよい。
コンピュータ処理は、一般的に、実行(遂行)プログラムもしくはプログラムの一部、現在のプログラム値および状態情報、ならびに処理の実行を管理するためにオペレーティングシステムによって使用されるリソースを含む。オペレーティングシステム(OS)は、コンピュータのリソースの共有を管理し、これらのリソースにアクセスするために使用されるインタフェースをプログラマに提供するソフトウェアである。オペレーティングシステムは、システムデータおよびユーザ入力を処理し、タスクおよび内部システムリソースをサービスとして割り当て、管理することによってシステムのユーザおよびプログラムに応答する。
コンピュータシステムは、例えば、少なくとも1つの処理ユニット、関連メモリ、および多数の入出力(I/O)デバイスを含んでもよい。コンピュータプログラムを実行すると、コンピュータシステムは、コンピュータプログラムに従って情報を処理し、I/Oデバイスによって、結果として得られる出力情報を生成する。
本明細書で述べられている接続は、例えば中間デバイスを介して、それぞれのノード、ユニット、またはデバイスから/に信号を伝達するのに適した任意の種類の接続であってもよい。したがって、別段の含意または記載がない限り、接続は、例えば、直接接続または間接接続であってもよい。接続は、単一の接続、複数の接続、単方向接続、または双方向接続に関連して図示または説明されている場合がある。しかしながら、異なる実施形態は、接続の実施を変更してもよい。例えば、双方向接続ではなく、別々の単方向接続を使用してもよく、その逆もまた同様である。また、複数の信号を連続的にまたは時間多重化して伝達する単一の接続で、複数の接続を置き換えてもよい。同様に、複数の信号を搬送する単一の接続は、これらの信号のサブセットを搬送する様々な異なる接続に分けられてもよい。したがって、信号を伝達するための多くの選択肢が存在する。
当業者であれば、論理ブロック間の境界が例示に過ぎないこと、および、代替的な実施形態は、論理ブロックもしくは回路要素を併合してもよいし、様々な論理ブロックもしくは回路要素の機能を代替的に分解してもよいことを認めるであろう。したがって、本明細書に描かれているアーキテクチャが例示的なものに過ぎないこと、および、実際に、同じ機能を果たす多くの他のアーキテクチャを実施することができることを理解されたい。
したがって、同じ機能を果たす、構成要素の配置は、所望の機能を果たすように有効に「関連付けられる。したがって、特定の機能を果たすように組み合わされた本明細書の任意の2つの構成要素は、アーキテクチャまたは中間構成要素に関係なく、所望の機能を果たすように互いに「関連付けられている」と考えることができる。同様に、このように関連付けられた任意の2つの構成要素は、所望の機能を果たすように互いに「動作可能に接続されている」または「動作可能に結合されている」と見なすこともできる。
さらに、当業者であれば、上で説明した動作間の境界が例示に過ぎないことを認めるであろう。複数の動作は、単一の動作に組み合わされてもよく、単一の動作は、別の複数の動作に分散されてもよく、動作は、少なくとも部分的に時間的に重なり合って実行されてもよい。さらに、代替的な実施形態は、特定の動作の複数のインスタンスを含んでもよく、動作の順序は、様々な他の実施形態において変更されてもよい。
また、例えば、例(またはその一部)は、ソフトまたは物理回路もしくは物理回路に変換可能な論理表現のコード表現(任意の適切な種類のハードウェア記述言語など)として実施されてもよい。
また、本発明は、プログラマブルでないハードウェアで実施される物理デバイスまたはユニットに限定されず、適切なプログラムコードに従って動作することによって所望のデバイス機能を実行することができるプログラマブルデバイスまたはユニット(メインフレーム、ミニコンピュータ、サーバ、ワークステーション、パーソナルコンピュータ、ノートパッド、パーソナルデジタルアシスタント、電子ゲーム、自動車のおよび他の組み込みシステム、携帯電話、ならびに様々な他の無線デバイス(これらは、本明細書では通常「コンピュータシステム」と呼ばれている)など)にも適用することができる。
しかしながら、他の修正例、変形例、および代替例も可能である。したがって、明細書および図面は、限定的な意味においてではなく、例示的な意味において考慮されるべきである。
100 音声信号処理装置
101 セレクタ
103 フィルタ
105 複数の音声信号
107 複数のフィルタリングされた音声信号
200 音声信号処理方法

Claims (15)

  1. 複数の音声信号スペクトルを形成する複数の音声信号を処理するための音声信号処理装置であって、前記複数の音声信号が、聴取者が複数の音声信号源の仮想位置から発生するように前記複数の音声信号を知覚するよう前記聴取者に送信され、前記音声信号処理装置が、
    前記聴取者に対する前記複数の音声信号源の前記仮想位置の複数の可能な空間配置から、前記聴取者に対する前記複数の音声信号源の前記仮想位置の空間配置を選択するように構成されたセレクタであって、前記複数の音声信号源の前記仮想位置の前記可能な空間配置のそれぞれが、複数の伝達関数に関連し、前記セレクタが、前記複数の音声信号スペクトル、および前記複数の音声信号源の前記仮想位置の前記可能な空間配置のそれぞれに関連する前記複数の伝達関数に基づいて、前記複数の音声信号源の前記仮想位置の前記空間配置を選択するように構成されている、セレクタと、
    前記聴取者に対する前記複数の音声信号源の前記仮想位置の前記選択された空間配置に基づいて前記複数の音声信号をフィルタリングするように構成されたフィルタであって、前記複数のフィルタリングされた音声信号が、前記聴取者に対する前記複数の音声信号源の前記仮想位置の前記選択された空間配置によって決定される、前記複数の音声信号源の前記仮想位置から発生するように前記聴取者によって知覚される、フィルタと
    を備える、音声信号処理装置。
  2. 前記セレクタが、前記複数の音声信号源の前記仮想位置の前記可能な空間配置のそれぞれに関連する複数の方向話者スペクトルプロファイルを得て、該複数の方向話者スペクトルプロファイルに基づいて前記複数の音声信号源の前記仮想位置の前記空間配置を選択するために、前記複数の音声信号スペクトルと、前記複数の音声信号源の前記仮想位置の前記可能な空間配置のそれぞれに関連する前記複数の伝達関数とを組み合わせることによって、前記複数の音声信号源の前記仮想位置の前記空間配置を選択するように構成されている、請求項1に記載の音声信号処理装置。
  3. 前記セレクタが、前記複数の入力音声信号スペクトルと、前記複数の音声信号源の前記仮想位置の前記可能な空間配置のそれぞれに関連する前記複数の伝達関数とを掛けることによって、前記複数の音声信号源の前記仮想位置の前記可能な空間配置のそれぞれに関連する複数の方向話者スペクトルプロファイルを得るために前記複数の音声信号スペクトルと、前記複数の音声信号源の前記仮想位置の前記可能な空間配置のそれぞれに関連する前記複数の伝達関数とを組み合わせるように構成されている、請求項1に記載の音声信号処理装置。
  4. 前記セレクタが、前記複数の方向話者スペクトルプロファイル間のスペクトル差が所定の閾値よりも大きな、特に最大値である、前記複数の音声信号源の前記仮想位置の前記複数の可能な空間配置のうちの1つを選択することによって、前記複数の音声信号源の前記仮想位置の前記空間配置を選択するように構成されている、請求項2または3に記載の音声信号処理装置。
  5. 前記セレクタが、以下の式を用いて、前記複数の音声信号源の前記仮想位置のm番目の空間配置に関連する前記方向話者スペクトルプロファイル間の前記スペクトル差を求めるように構成されており、以下の式が、
    および
    Yn,m,k=Xn,kHm,k
    であり、Smが、前記複数の音声信号源の前記仮想位置の前記m番目の空間配置に関連する前記複数の方向話者スペクトルプロファイル間の前記スペクトル差であり、wkが、重み係数であり、σm,kが、k番目の周波数バンドに関する前記方向話者スペクトルプロファイルの分散であり、
    が、前記複数の方向話者スペクトルプロファイルにわたる周波数バンド平均であり、Yn,k,mが、前記k番目の周波数バンドにおけるn番目の方向話者スペクトルプロファイルの大きさであり、Xn,kが、前記k番目の周波数バンドにおける前記n番目の音声信号の音声信号スペクトルの値を表し、Hm,kが、前記k番目の周波数バンドにおける前記n番目の音声信号に関連する前記音声信号源の前記仮想位置に関連する前記伝達関数の値を表す、請求項4に記載の音声信号処理装置。
  6. 前記セレクタが、以下の式に基づいて複数の周波数ビンにわたる平均化演算を実行することによって、前記k番目の周波数バンドにおける前記n番目の音声信号の音声信号スペクトルの前記値および/または前記k番目の周波数バンドにおける前記n番目の音声信号に関連する前記音声信号源の前記仮想位置に関連する前記伝達関数の前記値を求めるように構成されており、以下の式が、
    および
    であり、χ(i)が、i番目の周波数ビンにおけるn番目の音声信号の離散フーリエ変換の値を表し、H(i)が、前記i番目の周波数ビンにおける前記n番目の音声信号に関連する前記音声信号源の前記仮想位置に関連する前記伝達関数のインパルス応答の離散フーリエ変換の値を表し、J(k)が、前記k番目の周波数バンドの周波数ビンの数を表す、請求項5に記載の音声信号処理装置。
  7. 前記セレクタが、複数の左耳方向話者スペクトルプロファイルを得るために前記複数の音声信号スペクトルと、前記聴取者の左耳に対する前記音声信号源の前記仮想位置に関連する複数の左耳伝達関数とを組み合わせることによって、また、複数の右耳方向話者スペクトルプロファイルを得るために前記複数の音声信号スペクトルと、前記聴取者の右耳に対する前記音声信号源の前記仮想位置に関連する複数の右耳伝達関数とを組み合わせることによって、前記左耳方向話者スペクトルプロファイルと前記右耳方向話者スペクトルプロファイルとのスペクトル差が所定の閾値よりも小さな、特に最小値である、前記複数の音声信号源の前記仮想位置の前記複数の可能な空間配置のうちの1つを選択することにより、前記複数の音声信号源の前記仮想位置の前記空間配置を選択するように構成されている、請求項4〜6のいずれか一項に記載の音声信号処理装置。
  8. 前記セレクタが、前記聴取者に対する前記複数の音声信号源の前記仮想位置の前記複数の可能な空間配置から、前記複数の音声信号源の前記仮想位置の前記空間配置を選択するように構成されており、前記複数の音声信号源の前記仮想位置が、前記複数の音声信号スペクトル、および前記複数の音声信号源の前記仮想位置の前記可能な空間配置のそれぞれに関連する前記複数の伝達関数に基づいて、前記複数の伝達関数間のスペクトル差が所定の閾値よりも大きな、特に最大値である、前記複数の音声信号源の前記仮想位置の前記複数の可能な空間配置のうちの1つを求めることによって、前記聴取者を中心とし、かつ一定の角度分離を有する円上に配置される、請求項1に記載の音声信号処理装置。
  9. 前記セレクタが、以下の式を用いて、前記複数の音声信号源の前記仮想位置のm番目の空間配置に関連する前記伝達関数間の前記スペクトル差を求めるように構成されており、以下の式が、
    および
    であり、
    が、前記複数の音声信号源の前記仮想位置の前記m番目の空間配置に関連する前記複数の伝達関数間の前記スペクトル差を示すスカラー値を表し、Kが、周波数バンドの総数を表し、wkが、重み係数を表し、
    が、k番目の周波数バンドに関する前記複数の伝達関数の分散を表し、Nが、音声信号スペクトルの総数を表し、Hn,m,kが、前記k番目の周波数バンドにおけるn番目の伝達関数の値を表し、
    が、前記k番目の周波数バンドにおける伝達関数の平均を表す、請求項8に記載の音声信号処理装置。
  10. 前記セレクタが、以下の式に基づいて複数の周波数ビンにわたる平均化演算を実行することによって、前記k番目の周波数バンドにおける前記n番目の伝達関数の前記値を求めるように構成されており、以下の式が、
    であり、Hnが、i番目の周波数ビンにおけるn番目の音声信号に関連する前記音声信号源の前記仮想位置に関連する前記伝達関数のインパルス応答の離散フーリエ変換の値を表し、J(k)が、前記k番目の周波数バンドの周波数ビンの数を表す、請求項9に記載の音声信号処理装置。
  11. 前記セレクタが、前記複数の音声信号スペクトル、および前記複数の音声信号源の前記仮想位置の前記可能な空間配置のそれぞれに関連する前記複数の伝達関数に基づいて、前記複数の音声信号スペクトルの類似値に従って前記複数の音声信号スペクトルをランク付けすることによって、前記複数の音声信号源の前記仮想位置の前記空間配置を選択するように構成されている、請求項8または9に記載の音声信号処理装置。
  12. 前記セレクタが、前記複数の音声信号スペクトル、および前記複数の音声信号源の前記仮想位置の前記可能な空間配置のそれぞれに関連する前記複数の伝達関数に基づいて、大きな類似値を有する音声信号スペクトル間の角度分離が最大化されるように、ランク付けされた前記複数の音声信号スペクトルを、前記複数の音声信号源の前記仮想位置の選択された空間配置の仮想位置に割り当てることによって、前記複数の音声信号源の前記仮想位置の前記空間配置を選択するように構成されている、請求項11に記載の音声信号処理装置。
  13. 前記セレクタが、(i)平均音声信号スペクトルおよび前記音声信号スペクトルのそれぞれと平均音声信号スペクトルとのスペクトル差を計算することによって、または(ii)前記音声信号スペクトル間の相関関数を計算することによって前記複数の音声信号スペクトルの類似値を計算するように構成されている、請求項11または12に記載の音声信号処理装置。
  14. 複数の音声信号スペクトルを形成する複数の音声信号を処理するための信号処理方法であって、前記複数の音声信号が、聴取者が複数の音声信号源の仮想位置から発生するように前記複数の音声信号を知覚するよう前記聴取者に送信され、前記音声信号処理方法が、以下のステップ、すなわち、
    前記聴取者に対する前記複数の音声信号源の前記仮想位置の複数の可能な空間配置から、前記聴取者に対する前記複数の音声信号源の前記仮想位置の空間配置を選択するステップであって、前記複数の音声信号源の前記仮想位置の前記可能な空間配置のそれぞれが、複数の伝達関数に関連し、前記複数の音声信号源の前記仮想位置の前記空間配置が、前記複数の入力音声信号スペクトル、および前記複数の音声信号源の前記仮想位置の前記可能な空間配置のそれぞれに関連する前記複数の伝達関数に基づいて選択される、ステップと、
    前記聴取者に対する前記複数の音声信号源の前記仮想位置の前記選択された空間配置に基づいて前記複数の音声信号をフィルタリングするステップであって、前記複数のフィルタリングされた音声信号が、前記聴取者に対する前記複数の音声信号源の前記仮想位置の前記選択された空間配置によって決定される、前記複数の音声信号源の前記仮想位置から発生するように前記聴取者によって知覚される、ステップと
    を含む、信号処理方法。
  15. コンピュータ上で実行されたときに、請求項14に記載の音声信号処理方法を実行するプログラムコードを含むコンピュータプログラム。
JP2017537403A 2015-04-22 2015-04-22 音声信号処理装置および方法 Active JP6434157B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2015/058694 WO2016169591A1 (en) 2015-04-22 2015-04-22 An audio signal processing apparatus and method

Publications (2)

Publication Number Publication Date
JP2018506222A JP2018506222A (ja) 2018-03-01
JP6434157B2 true JP6434157B2 (ja) 2018-12-05

Family

ID=52988069

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017537403A Active JP6434157B2 (ja) 2015-04-22 2015-04-22 音声信号処理装置および方法

Country Status (11)

Country Link
US (1) US10412226B2 (ja)
EP (1) EP3216235B1 (ja)
JP (1) JP6434157B2 (ja)
KR (1) KR101981150B1 (ja)
CN (1) CN107534825B (ja)
BR (1) BR112017022609B1 (ja)
CA (1) CA2983359C (ja)
MX (1) MX2017013569A (ja)
MY (1) MY186995A (ja)
RU (1) RU2694335C1 (ja)
WO (1) WO2016169591A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10142755B2 (en) * 2016-02-18 2018-11-27 Google Llc Signal processing methods and systems for rendering audio on virtual loudspeaker arrays
JP2022527111A (ja) * 2019-04-03 2022-05-30 ドルビー ラボラトリーズ ライセンシング コーポレイション スケーラブル音声シーンメディアサーバ
WO2022078905A1 (en) * 2020-10-16 2022-04-21 Interdigital Ce Patent Holdings, Sas Method and apparatus for rendering an audio signal of a plurality of voice signals
CN113691927B (zh) * 2021-08-31 2022-11-11 北京达佳互联信息技术有限公司 音频信号处理方法及装置
US11700335B2 (en) * 2021-09-07 2023-07-11 Verizon Patent And Licensing Inc. Systems and methods for videoconferencing with spatial audio
CN117118956B (zh) * 2023-10-25 2024-01-19 腾讯科技(深圳)有限公司 音频处理方法、装置、电子设备及计算机可读存储介质

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7116787B2 (en) * 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes
US7391877B1 (en) 2003-03-31 2008-06-24 United States Of America As Represented By The Secretary Of The Air Force Spatial processor for enhanced performance in multi-talker speech displays
JP2006254064A (ja) * 2005-03-10 2006-09-21 Pioneer Electronic Corp 遠隔会議システム、音像位置割当方法および音質設定方法
JP2006279588A (ja) * 2005-03-29 2006-10-12 Yamaha Corp 多地点通信会議用端末
KR100619082B1 (ko) 2005-07-20 2006-09-05 삼성전자주식회사 와이드 모노 사운드 재생 방법 및 시스템
JP4867367B2 (ja) * 2006-01-30 2012-02-01 ヤマハ株式会社 立体音響再生装置
CN101422054B (zh) * 2006-03-13 2011-04-13 松下电器产业株式会社 声像定位装置
US8249233B2 (en) * 2006-03-17 2012-08-21 International Business Machines Corporation Apparatus and system for representation of voices of participants to a conference call
US20070263823A1 (en) * 2006-03-31 2007-11-15 Nokia Corporation Automatic participant placement in conferencing
JP4893257B2 (ja) * 2006-11-17 2012-03-07 ヤマハ株式会社 音像位置制御装置
ES2627188T3 (es) * 2007-05-18 2017-07-27 Aytu Bioscience, Inc. Medición y usos del estado oxidativo
US20090112589A1 (en) * 2007-10-30 2009-04-30 Per Olof Hiselius Electronic apparatus and system with multi-party communication enhancer and method
CN101903945B (zh) 2007-12-21 2014-01-01 松下电器产业株式会社 编码装置、解码装置以及编码方法
US8351589B2 (en) * 2009-06-16 2013-01-08 Microsoft Corporation Spatial audio for audio conferencing
US20110026745A1 (en) * 2009-07-31 2011-02-03 Amir Said Distributed signal processing of immersive three-dimensional sound for audio conferences
US9654644B2 (en) * 2012-03-23 2017-05-16 Dolby Laboratories Licensing Corporation Placement of sound signals in a 2D or 3D audio conference
EP2829051B1 (en) * 2012-03-23 2019-07-17 Dolby Laboratories Licensing Corporation Placement of talkers in 2d or 3d conference scene
WO2014052429A1 (en) * 2012-09-27 2014-04-03 Dolby Laboratories Licensing Corporation Spatial multiplexing in a soundfield teleconferencing system
CN104010265A (zh) * 2013-02-22 2014-08-27 杜比实验室特许公司 音频空间渲染设备及方法
US10335233B2 (en) * 2013-06-28 2019-07-02 Biolitec Unternehmensbeteilligungs Ii Ag Myoma/polyp in-office treatment with lasers

Also Published As

Publication number Publication date
RU2694335C1 (ru) 2019-07-11
MY186995A (en) 2021-08-26
BR112017022609B1 (pt) 2022-10-04
BR112017022609A2 (pt) 2018-07-10
CN107534825A (zh) 2018-01-02
US10412226B2 (en) 2019-09-10
WO2016169591A1 (en) 2016-10-27
CA2983359A1 (en) 2016-10-27
CN107534825B (zh) 2019-12-24
CA2983359C (en) 2019-11-12
KR20170094297A (ko) 2017-08-17
US20170346951A1 (en) 2017-11-30
EP3216235B1 (en) 2018-11-07
KR101981150B1 (ko) 2019-05-22
MX2017013569A (es) 2018-02-09
EP3216235A1 (en) 2017-09-13
JP2018506222A (ja) 2018-03-01

Similar Documents

Publication Publication Date Title
JP6434157B2 (ja) 音声信号処理装置および方法
CN113170271B (zh) 用于处理立体声信号的方法和装置
CA2952157C (en) Apparatus and method for enhancing an audio signal, sound enhancing system
KR20080078882A (ko) 입체 오디오 신호 디코딩
CA2908794C (en) Apparatus and method for center signal scaling and stereophonic enhancement based on a signal-to-downmix ratio
CN107431871B (zh) 过滤音频信号的音频信号处理装置和方法
EP3005362B1 (en) Apparatus and method for improving a perception of a sound signal
KR102194515B1 (ko) 회의를 위한 서브밴드 공간 처리 및 크로스토크 제거 시스템
Garí et al. Flexible binaural resynthesis of room impulse responses for augmented reality research
WO2010105695A1 (en) Multi channel audio coding
US11457329B2 (en) Immersive audio rendering
US10771896B2 (en) Crosstalk cancellation for speaker-based spatial rendering
CN109121067B (zh) 多声道响度均衡方法和设备
CN111919455B (zh) 分配环境信号到多个环境信号通道的音频信号处理器、系统和方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180702

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180928

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181015

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181107

R150 Certificate of patent or registration of utility model

Ref document number: 6434157

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250