JP2017533459A - マルチチャネルオーディオ信号内の音声成分を強調するための信号処理装置 - Google Patents

マルチチャネルオーディオ信号内の音声成分を強調するための信号処理装置 Download PDF

Info

Publication number
JP2017533459A
JP2017533459A JP2017516852A JP2017516852A JP2017533459A JP 2017533459 A JP2017533459 A JP 2017533459A JP 2017516852 A JP2017516852 A JP 2017516852A JP 2017516852 A JP2017516852 A JP 2017516852A JP 2017533459 A JP2017533459 A JP 2017533459A
Authority
JP
Japan
Prior art keywords
audio signal
channel audio
signal
center
weighted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017516852A
Other languages
English (en)
Other versions
JP6508491B2 (ja
Inventor
ユルゲン・ガイガー
ペーター・グロシェ
Original Assignee
ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ホアウェイ・テクノロジーズ・カンパニー・リミテッド filed Critical ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Publication of JP2017533459A publication Critical patent/JP2017533459A/ja
Application granted granted Critical
Publication of JP6508491B2 publication Critical patent/JP6508491B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)

Abstract

マルチチャネルオーディオ信号内の音声成分を強調するための信号処理装置(100)であって、マルチチャネルオーディオ信号は、左チャネルオーディオ信号(L)、センタチャネルオーディオ信号(C)、および右チャネルオーディオ信号(R)を含み、信号処理装置(100)は、フィルタ(101)およびコンバイナ(103)を含み、フィルタ(101)が、左チャネルオーディオ信号(L)、センタチャネルオーディオ信号(C)、および右チャネルオーディオ信号(R)に基づいて、周波数にわたるマルチチャネルオーディオ信号の全体振幅を表す測定値を決定し、センタチャネルオーディオ信号(C)の振幅の測定値とマルチチャネルオーディオ信号の全体振幅を表す測定値との比に基づいて利得関数(G)を取得し、利得関数(G)で左チャネルオーディオ信号(L)に重み付けして、重み付けされた左チャネルオーディオ信号(LE)を取得し、利得関数(G)でセンタチャネルオーディオ信号(C)に重み付けして、重み付けされたセンタチャネルオーディオ信号(CE)を取得し、利得関数(G)で右チャネルオーディオ信号(R)に重み付けして、重み付けされた右チャネルオーディオ信号(RE)を取得するように構成され、コンバイナ(103)が、左チャネルオーディオ信号(L)を重み付けされた左チャネルオーディオ信号(LE)と合成して、合成された左チャネルオーディオ信号(LEV)を取得し、センタチャネルオーディオ信号(C)を重み付けされたセンタチャネルオーディオ信号(CE)と合成して、合成されたセンタチャネルオーディオ信号(CEV)を取得し、右チャネルオーディオ信号(R)を重み付けされた右チャネルオーディオ信号(RE)と合成して、合成された右チャネルオーディオ信号(REV)を取得するように構成される。

Description

本発明は、オーディオ信号処理の分野に関し、特に、マルチチャネルオーディオ信号内の音声強調に関する。
マルチチャネルオーディオ信号、例えば、エンタテイメントオーディオ信号内の音声成分を強調するために、現行では、異なる手法が採用されている。
音声成分を強調するための簡単な手法は、マルチチャネルオーディオ信号で構成されるセンタチャネルオーディオ信号をブーストするか、またはそれに応じて他のチャネルのすべてのオーディオ信号を減衰させることである。この手法は、音声が典型的にはセンタチャネルオーディオ信号にパンされるという仮定を利用する。しかしながら、この手法は、通常、音声強調の性能が低いという欠点がある。
より精巧な手法では、別個のチャネルのオーディオ信号の分析を試みる。この点に関して、センタチャネルオーディオ信号と他のチャネルのオーディオ信号との関係に関する情報は、音声強調を可能にするためにステレオダウンミックスと共に提供され得る。しかしながら、この手法はステレオオーディオ信号には適用できず、別個の音声オーディオチャネルが必要である。
ソフトな音声成分のレベルを改善し、マルチチャネルオーディオ信号内の大きな非音声成分を減衰させる別の手法は、ダイナミックレンジ圧縮(DRC)である。まず、この手法は、大きな成分を減衰させることを含む。次に、全体のラウドネスレベルが増加し、その結果、音声または対話がブーストされる。しかしながら、この手法は、マルチチャネルオーディオ信号の性質を考慮しておらず、修正はラウドネスレベルにのみ関係する。
本発明の目的は、マルチチャネルオーディオ信号内の音声成分を強調するための効率的な概念を提供することである。
この目的は、独立請求項の特徴によって実現される。さらなる実装形態は、従属請求項、明細書および図面から明らかである。
本発明は、マルチチャネルオーディオ信号のすべてのチャネルから決定することができる利得関数に基づいて、マルチチャネルオーディオ信号をフィルタリングすることができるという知見に基づいている。フィルタリングは、ウィナーフィルタリング手法に基づくことができ、マルチチャネルオーディオ信号のセンタチャネルオーディオ信号が音声成分を含むものとみなすことができ、マルチチャネルオーディオ信号の別のチャネルが非音声成分を含むものとみなすことができる。マルチチャネルオーディオ信号内の音声成分の経時変化を考慮するために、音声アクティビティ検出をさらに行うことができ、マルチチャネルオーディオ信号のすべてのチャネルを処理して音声アクティビティインジケータを提供することができる。マルチチャネルオーディオ信号は、入力ステレオオーディオ信号のステレオアップミキシング処理の結果であり得る。これにより、マルチチャネルオーディオ信号内の音声成分の効率的な強調を実現することができる。
第1の態様によれば、本発明は、マルチチャネルオーディオ信号内の音声成分を強調するための信号処理装置に関し、マルチチャネルオーディオ信号は、左チャネルオーディオ信号、センタチャネルオーディオ信号、および右チャネルオーディオ信号を含み、信号処理装置は、フィルタおよびコンバイナを含み、フィルタは、左チャネルオーディオ信号、センタチャネルオーディオ信号、および右チャネルオーディオ信号に基づいて、周波数にわたるマルチチャネルオーディオ信号の全体振幅を表す測定値を決定し、センタチャネルオーディオ信号の振幅の測定値とマルチチャネルオーディオ信号の全体振幅を表す測定値との比に基づいて利得関数を取得し、利得関数で左チャネルオーディオ信号に重み付けして、重み付けされた左チャネルオーディオ信号を取得し、利得関数でセンタチャネルオーディオ信号に重み付けして、重み付けされたセンタチャネルオーディオ信号を取得し、利得関数で右チャネルオーディオ信号に重み付けして、重み付けされた右チャネルオーディオ信号を取得するように構成され、コンバイナは、左チャネルオーディオ信号を重み付けされた左チャネルオーディオ信号と合成して、合成された左チャネルオーディオ信号を取得し、センタチャネルオーディオ信号を重み付けされたセンタチャネルオーディオ信号と合成して、合成されたセンタチャネルオーディオ信号を取得し、右チャネルオーディオ信号を重み付けされた右チャネルオーディオ信号と合成して、合成された右チャネルオーディオ信号を取得するように構成される。これにより、マルチチャネルオーディオ信号内の音声成分を強調するための効率的な概念が実現される。
マルチチャネルオーディオ信号は、左チャネルオーディオ信号、センタチャネルオーディオ信号、および右チャネルオーディオ信号を含む。マルチチャネルオーディオ信号は、左サラウンドチャネルオーディオ信号および右サラウンドチャネルオーディオ信号をさらに含むことができる。マルチチャネルオーディオ信号を、LCR/3.0ステレオオーディオ信号または5.1サラウンドオーディオ信号とすることができる。周波数にわたるマルチチャネルオーディオ信号の全体振幅を表す測定値を決定することは、周波数領域におけるマルチチャネルオーディオ信号の全体振幅を表す測定値を決定することを含む。
利得関数は、音声成分の振幅とマルチチャネルオーディオ信号の全体振幅との比を示すことができ、音声成分はセンタチャネルオーディオ信号で構成されるものとする。マルチチャネルオーディオ信号の全体振幅を、周波数にわたるマルチチャネルオーディオ信号内の音声成分および非音声成分の加算により決定することができる。利得関数は周波数に依存することができる。
このような第1の態様に係る信号処理装置の第1の実装形態では、フィルタは、マルチチャネルオーディオ信号の全体振幅を表す測定値を、センタチャネルオーディオ信号の振幅の測定値、および左チャネルオーディオ信号と右チャネルオーディオ信号との差の振幅の測定値の和として決定するように構成されている。したがって、左チャネルオーディオ信号と右チャネルオーディオ信号との差がセンタチャネルオーディオ信号の成分を含まない残差信号を表すため、マルチチャネルオーディオ信号の全体振幅を表す測定値は、フィルタ利得関数を得るために使用される、より適切な方法で効率的に決定される。
このような第1の態様すなわち第1の態様の前述の実装形態のいずれかに係る信号処理装置の第2の実装形態では、フィルタは、以下の式:
に従って利得関数を決定するように構成され、ここで、Gは利得関数を示し、Lは左チャネルオーディオ信号を示し、Cはセンタチャネルオーディオ信号を示し、Rは右チャネルオーディオ信号を示し、PCはセンタチャネルオーディオ信号の振幅を表す測定値としてセンタチャネルオーディオ信号のパワーを示し、PSは左チャネルオーディオ信号と右チャネルオーディオ信号との差のパワーを示し、PCとPSの和はマルチチャネルオーディオ信号の全体振幅を表す測定値を示し、mはサンプル時間インデックスを示し、kは周波数ビンインデックスを示す。これにより、利得関数は、効率的かつ効果的な方法で決定される。
利得関数はウィナーフィルタリング手法に従って決定される。センタチャネルオーディオ信号は、音声成分を含むものとみなされる。左チャネルオーディオ信号と右チャネルオーディオ信号との差は、音声成分がセンタチャネルオーディオ信号にパンされるという仮定に基づいて、非音声成分を含むとみなされる。このようにウィナーフィルタの成分を画定することにより、信号対雑音比または信号の雑音パワースペクトル密度を推定するために高価な方法を使用することは回避される。
方程式内でパワーを用いる代わりに、利得関数を決定するために振幅または対数パワーを使用することができる。左チャネルオーディオ信号と右チャネルオーディオ信号との差は、非センタチャネルオーディオ信号の組合せを含む残差オーディオ信号を参照することができ、センタチャネルオーディオ信号を除くすべてのオーディオ信号は非センタチャネルオーディオ信号とも呼ばれる。残差オーディオ信号は、左チャネルオーディオ信号と右チャネルオーディオ信号との差であり得る。
左チャネルオーディオ信号の振幅と右チャネルオーディオの振幅との和は、センタチャネル抽出の特定の形態であるビーム形成に対応し、本発明の実施形態においても使用され得る。ただし、左チャネルオーディオ信号と右チャネルオーディオの振幅の差は、センタチャネルの成分の除去に対応する。これにより、左チャネルオーディオ信号と右チャネルオーディオ信号との差として画定される残差オーディオ信号は、フィルタ利得の改善された推定をもたらす。
このような第1の態様すなわち第1の態様の前述の実装形態のいずれかに係る信号処理装置の第3の実装形態では、マルチチャネルオーディオ信号は、左サラウンドチャネルオーディオ信号および右サラウンドチャネルオーディオ信号をさらに含み、フィルタは、左サラウンドチャネルオーディオ信号および右サラウンドチャネルオーディオ信号に基づいて追加的に、周波数にわたるマルチチャネルオーディオ信号の全体振幅を表す測定値を決定し、センタチャネルオーディオ信号の振幅の測定値、左チャネルオーディオ信号と右チャネルオーディオ信号との差の振幅の測定値、および左サラウンドチャネルオーディオ信号と右サラウンドチャネルオーディオ信号との差の振幅の測定値の和として、マルチチャネルオーディオ信号の全体振幅を表す測定値を決定するように構成される。これにより、マルチチャネルオーディオ信号内のサラウンドチャネルは、左サラウンドチャネルオーディオ信号と右サラウンドチャネルオーディオ信号との差から振幅を得ることによって、効率的に処理される。差信号は、センタチャネルオーディオ信号に対しより明らかな区別をつける。
このような第1の態様すなわち第1の態様の前述の実装形態のいずれかに係る信号処理装置の第4の実装形態では、フィルタは、左チャネルオーディオ信号の周波数ビンを利得関数の周波数ビンで重み付けして、重み付けされた左チャネルオーディオ信号の周波数ビンを取得し、センタチャネルオーディオ信号の周波数ビンを利得関数の周波数ビンで重み付けして、重み付けされたセンタチャネルオーディオ信号の周波数ビンを取得し、右チャネルオーディオ信号の周波数ビンを利得関数の周波数ビンで重み付けして、重み付けされた右チャネルオーディオ信号の周波数ビンを取得するように構成される。このように、マルチチャネルオーディオ信号は、周波数領域において効率的に処理される。同じフィルタですべての信号を重み付けすることにより、ステレオ画像内のオーディオソースの位置がずれることがないという利点を有する。さらに、このようにして、音声成分がすべての信号から抽出される。
フィルタは、メル周波数スケールに従って周波数ビンをグループ化して、周波数帯域を得るようにさらに構成され得る。したがって、インデックスkは、周波数帯域インデックスに対応することができる。フィルタは、所定の周波数範囲内、例えば100Hz〜8kHz内に配置された周波数ビンまたは周波数帯域のみを処理するようにさらに構成され得る。このようにして、人間の声を含む周波数のみが処理される。
このような第1の態様すなわち第1の態様の前述の実装形態のいずれかに係る信号処理装置の第5の実装形態では、信号処理装置は、左チャネルオーディオ信号、センタチャネルオーディオ信号、および右チャネルオーディオ信号に基づいて音声アクティビティインジケータを決定するように構成された音声アクティビティ検出器をさらに備え、音声アクティビティインジケータはマルチチャネルオーディオ信号内の音声成分の振幅を経時的に示し、コンバイナは、重み付けされた左チャネルオーディオ信号を音声アクティビティインジケータと合成して、合成された左チャネルオーディオ信号を取得し、重み付けされたセンタチャネルオーディオ信号を音声アクティビティインジケータと合成して、合成されたセンタチャネルオーディオ信号を取得し、重み付けされた右チャネルオーディオ信号を音声アクティビティインジケータと合成して、合成された右チャネルオーディオ信号を取得するように、さらに構成される。これにより、マルチチャネルオーディオ信号内の時変音声成分の効率的な強調が実現され、非スピーチ信号が抑制される。
音声アクティビティインジケータは、時間領域におけるマルチチャネルオーディオ信号内の音声成分の振幅を示す。音声アクティビティインジケータは、例えば、音声成分が信号に存在しない場合にはゼロに等しく、音声が存在する場合には1に等しい。ゼロと1との間の値は、音声が存在する確率として解釈され、滑らかな出力信号を得るのに役立つことができる。
第1の態様の第5の実装形態に係る信号処理装置の第6の実装形態では、音声アクティビティ検出器は、左チャネルオーディオ信号、センタチャネルオーディオ信号、および右チャネルオーディオ信号に基づいてマルチチャネルオーディオ信号の全体のスペクトル変動を表す測定値を決定し、センタチャネルオーディオ信号のスペクトル変動の測定値とマルチチャネルオーディオ信号の全体のスペクトル変動を表す測定値との比に基づいて、音声アクティビティインジケータを取得するように構成される。これにより、音声アクティビティインジケータは、スペクトル変動の測定値間の関係を利用して効率的に決定される。
全体のスペクトル変動を表す測定値は、スペクトルフラックスまたは時間微分であり得る。スペクトルフラックスを、正規化のための異なる手法を使用して決定することができる。スペクトルフラックスを、2つ以上のオーディオ信号フレーム間のパワースペクトルの差として計算することができる。全体のスペクトル変動を表す測定値をFCとFSとの和とすることができ、ここで、FCは、センタチャネルオーディオ信号のスペクトル変動の測定値を示し、FSは、左チャネルオーディオ信号と右チャネルオーディオ信号との差のスペクトル変動の測定値を示す。
第1の態様の第6の実装形態に係る信号処理装置の第7の実装形態では、音声アクティビティ検出器は、以下の式:
に従って音声アクティビティインジケータを決定するように構成され、ここで、Vは音声アクティビティインジケータを示し、FCはセンタチャネルオーディオ信号のスペクトル変動の測定値を示し、FSは左チャネルオーディオ信号と右チャネルオーディオ信号との差のスペクトル変動の測定値を示し、FCとFSとの和はマルチチャネルオーディオ信号の全体のスペクトル変動を表す測定値を示し、aは所定のスケーリング係数を示す。これにより、音声アクティビティインジケータは効率的に決定される。FCおよびFSが同じ値である信号は、0の値の音声アクティビティインジケータをもたらす。FCの値が大きいほど、音声アクティビティインジケータの値が大きくなる。スケーリング係数aは、音声アクティビティインジケータの振幅を制御することができる。
音声アクティビティインジケータの値は、事前の測定値の正規化とは無関係であり得る。音声アクティビティインジケータの値は、インターバル[0;1]に制限され得る。
第1の態様の第7の実装形態に係る信号処理装置の第8の実装形態では、音声アクティビティ検出器は、以下の式:
に従って、センタチャネルオーディオ信号のスペクトル変動の測定値をスペクトルフラックスとして、および左チャネルオーディオ信号と右チャネルオーディオ信号との差のスペクトル変動の測定値をスペクトルフラックスとして決定するように構成され、ここで、FCはセンタチャネルオーディオ信号のスペクトルフラックスを示し、FSは左チャネルオーディオ信号と右チャネルオーディオ信号との差のスペクトルフラックスを示し、Cはセンタチャネルオーディオ信号を示し、Sは左チャネルオーディオ信号と右チャネルオーディオ信号との差を示し、mはサンプル時間インデックスを示し、kは周波数ビンインデックスを示す。これにより、スペクトルフラックスは効率的に決定される。
第1の態様の第5の実装形態から第8の実装形態に係る信号処理装置の第9の実装形態では、音声アクティビティ検出器は、所定のローパスフィルタ機能に基づいて音声アクティビティインジケータを時間内にフィルタリングするように構成される。これにより、マルチチャネルオーディオ信号内のアーチファクトの効率的な緩和および/または音声アクティビティインジケータの効率的な時間平滑化が実現される。
所定のローパスフィルタ機能を、1タップ有限インパルス応答(FIR)のローパスフィルタによって実現することができる。
第1の態様の第5の実装形態から第9の実装形態に係る信号処理装置の第10の実装形態では、コンバイナは、左チャネルオーディオ信号、センタチャネルオーディオ信号、および右チャネルオーディオ信号を所定の入力利得係数で重み付けし、音声アクティビティインジケータを所定のスピーチ利得係数で重み付けするようにさらに構成される。これにより、非音声成分の振幅に関する音声成分の振幅の効率的な制御が実現される。
第1の態様の第5の実装形態から第10の実装形態に係る信号処理装置の第11の実装形態では、コンバイナは、重み付けされた左チャネルオーディオ信号と音声アクティビティインジケータとの合成に左チャネルオーディオ信号を加えて、合成された左チャネルオーディオ信号を取得し、重み付けされた左チャネルオーディオ信号と音声アクティビティインジケータとの合成にセンタチャネルオーディオ信号を加えて、合成されたセンタチャネルオーディオ信号を取得し、重み付けされた左チャネルオーディオ信号と音声アクティビティインジケータとの合成に右チャネルオーディオ信号を加えて、合成された右チャネルオーディオ信号を取得するように構成される。これにより、コンバイナは効率的に実装される。抽出された音声成分は元の信号と合成され、出力信号の音声成分が強調される。
第1の態様の第5の実装形態から第11の実装形態に係る信号処理装置の第12の実装形態では、マルチチャネルオーディオ信号は、左サラウンドチャネルオーディオ信号および右サラウンドチャネルオーディオ信号をさらに含み、音声アクティビティ検出器は、左サラウンドチャネルオーディオ信号および右サラウンドチャネルオーディオ信号に基づいて追加的に音声アクティビティインジケータを決定するように構成される。これにより、マルチチャネルオーディオ信号内のサラウンドチャネルも、音声アクティビティインジケータを決定するために考慮され、音声アクティビティインジケータのより良好な推定をもたらす。
このような第1の態様すなわち第1の態様の前述の実装形態のいずれかに係る信号処理装置の第13の実装形態では、信号処理装置は、左チャネルオーディオ信号、センタチャネルオーディオ信号、および右チャネルオーディオ信号を時間領域から周波数領域に変換するように構成された変換器をさらに備える。これにより、オーディオ信号の周波数領域への効率的な変換が実現される。これは、スピーチ強調および音声アクティビティ検出が周波数領域で実行される場合に必要とされ得る。
変換器は、左チャネルオーディオ信号、センタチャネルオーディオ信号、および右チャネルオーディオ信号の短時間離散フーリエ変換(STFT)を実行するように構成され得る。
このような第1の態様すなわち第1の態様の前述の実装形態のいずれかに係る信号処理装置の第14の実装形態では、信号処理装置は、合成された左チャネルオーディオ信号、合成されたセンタチャネルオーディオ信号、および合成された右チャネルオーディオ信号を周波数領域から時間領域に逆に変換するように構成された逆変換器をさらに備える。これにより、オーディオ信号の時間領域への効率的な逆変換が実現され、時間領域の出力信号が得られる。
逆変換器は、合成された左チャネルオーディオ信号、合成されたセンタチャネルオーディオ信号、および合成された右チャネルオーディオ信号の短時間逆離散フーリエ変換(ISTFT)を実行するように構成され得る。
このような第1の態様すなわち第1の態様の前述の実装形態のいずれかに係る信号処理装置の第15の実装形態では、信号処理装置は、左チャネルオーディオ信号、センタチャネルオーディオ信号、および右チャネルオーディオ信号を、入力左チャネルステレオオーディオ信号および入力右チャネルステレオオーディオ信号に基づいて決定するように構成されたアップミキサをさらに備える。このようにして、信号処理装置を、2チャネルすなわち左右のチャネルの入力ステレオオーディオ信号を処理するために利用することができる。
第1の態様の第15の実装形態に係る信号処理装置の第16の実装形態では、アップミキサは、以下の式:
に従って、左チャネルオーディオ信号、センタチャネルオーディオ信号、および右チャネルオーディオ信号を決定するように構成され、ここで、Lrは入力左チャネルステレオオーディオ信号の実数部を示し、Rrは入力右チャネルステレオオーディオ信号の実数部を示し、Liは入力左チャネルステレオオーディオ信号の虚数部を示し、Riは入力右チャネルステレオオーディオ信号の虚数部を示し、αは直交度パラメータを示し、Linは入力左チャネルステレオオーディオ信号を示し、Rinは入力右チャネルステレオオーディオ信号を示し、Lは左チャネルオーディオ信号を示し、Cはセンタチャネルオーディオ信号を示し、Rは右チャネルオーディオ信号を示す。これにより、入力ステレオオーディオ信号の効率的なセンタチャネル抽出が、直交分解を用いて実現される。得られる左チャネルオーディオ信号および右チャネルオーディオ信号は、互いに直交している。
このような第1の態様すなわち第1の態様の前述の実装形態のいずれかに係る信号処理装置の第17の実装形態では、信号処理装置は、合成された左チャネルオーディオ信号、合成されたセンタチャネルオーディオ信号、および合成された右チャネルオーディオ信号に基づいて、出力左チャネルステレオオーディオ信号および出力右チャネルステレオオーディオ信号を決定するように構成されたダウンミキサをさらに備える。これにより、2チャネルすなわち左右のチャネルの出力ステレオオーディオ信号が効率的に提供される。
このような第1の態様すなわち第1の態様の前述の実装形態のいずれかに係る信号処理装置の第18の実装形態では、振幅の測定値は、信号のパワー、対数パワー、振幅、または対数振幅を含む。このように、振幅の測定値は、異なる尺度で異なる値を示すことができる。
マルチチャネルオーディオ信号の振幅は、マルチチャネルオーディオ信号のパワー、対数パワー、振幅、または対数振幅を含む。左チャネルオーディオ信号と右チャネルオーディオ信号との差の振幅の測定値は、左チャネルオーディオ信号と右チャネルオーディオ信号との差のパワー、対数パワー、振幅、または対数振幅を含む。センタチャネルオーディオ信号の振幅は、センタチャネルオーディオ信号のパワー、対数パワー、振幅、または対数振幅を含む。信号は、信号処理装置によって処理される任意の信号を参照することができる。
このような第1の態様すなわち第1の態様の前述の実装形態のいずれかに係る信号処理装置の第19の実装形態では、コンバイナは、所定の入力利得係数で左チャネルオーディオ信号、センタチャネルオーディオ信号、および右チャネルオーディオ信号を重み付けし、所定のスピーチ利得係数で重み付けされた左チャネルオーディオ信号、重み付けされたセンタチャネルオーディオ信号、および重み付けされた右チャネルオーディオ信号を重み付けするようにさらに構成される。これにより、非音声成分の振幅に関する音声成分の振幅の効率的な制御が実現される。
重み付けされたオーディオ信号CE、LE、およびREを、所定のスピーチ利得係数GSで重み付けすることができる。音声アクティビティ検出器を使用せずに重み付けを行うことができる。
第2の態様によれば、本発明は、マルチチャネルオーディオ信号内の音声成分を強調するための信号処理方法に関し、マルチチャネルオーディオ信号は、左チャネルオーディオ信号、センタチャネルオーディオ信号、および右チャネルオーディオ信号を含み、信号処理方法は、フィルタによって、左チャネルオーディオ信号、センタチャネルオーディオ信号、および右チャネルオーディオ信号に基づいて、周波数にわたるマルチチャネルオーディオ信号の全体振幅を表す測定値を決定するステップと、フィルタによって、センタチャネルオーディオ信号の振幅の測定値とマルチチャネルオーディオ信号の全体振幅を表す測定値との比に基づいて利得関数を取得するステップと、フィルタによって、利得関数で左チャネルオーディオ信号に重み付けして、重み付けされた左チャネルオーディオ信号を取得するステップと、フィルタによって、利得関数でセンタチャネルオーディオ信号に重み付けして、重み付けされたセンタチャネルオーディオ信号を取得するステップと、フィルタによって、利得関数で右チャネルオーディオ信号に重み付けして、重み付けされた右チャネルオーディオ信号を取得するステップと、コンバイナによって、左チャネルオーディオ信号を重み付けされた左チャネルオーディオ信号と合成して、合成された左チャネルオーディオ信号を取得するステップと、コンバイナによって、センタチャネルオーディオ信号を重み付けされたセンタチャネルオーディオ信号と合成して、合成されたセンタチャネルオーディオ信号を取得するステップと、コンバイナによって、右チャネルオーディオ信号を重み付けされた右チャネルオーディオ信号と合成して、合成された右チャネルオーディオ信号を取得するステップと、を含む。これにより、マルチチャネルオーディオ信号内の音声成分を強調するための効率的な概念が実現される。
信号処理方法を、信号処理装置によって実行することができる。信号処理方法のさらなる特徴は、信号処理装置の機能性に直接起因する。
このような第2の態様に係る信号処理方法の第1の実装形態では、方法は、フィルタによって、マルチチャネルオーディオ信号の全体振幅を表す測定値を、センタチャネルオーディオ信号の振幅の測定値、および左チャネルオーディオ信号と右チャネルオーディオ信号との差の振幅の測定値の和として決定するステップを含む。したがって、左チャネルオーディオ信号と右チャネルオーディオ信号との差がセンタチャネルオーディオ信号の成分を含まない残差信号を表すため、マルチチャネルオーディオ信号の全体振幅を表す測定値は、フィルタ利得関数を得るために使用される、より適切な方法で効率的に決定される。
このような第2の態様すなわち第2の態様の前述の実装形態のいずれかに係る信号処理方法の第2の実装形態では、方法は、以下の式:
に従ってフィルタによって利得関数を決定するステップを含み、ここで、Gは利得関数、Lは左チャネルオーディオ信号、Cはセンタチャネルオーディオ信号、Rは右チャネルオーディオ信号、PCはセンタチャネルオーディオ信号の振幅を表す測定値としてセンタチャネルオーディオ信号のパワー、PSは左チャネルオーディオ信号と右チャネルオーディオ信号との差のパワー、PCとPSの和はマルチチャネルオーディオ信号の全体振幅を表す測定値、mはサンプル時間インデックス、kは周波数ビンインデックスを示す。これにより、利得関数は、効率的かつ効果的な方法で決定される。
このような第2の態様すなわち第2の態様の前述の実装形態のいずれかに係る信号処理方法の第3の実装形態では、マルチチャネルオーディオ信号は、左サラウンドチャネルオーディオ信号および右サラウンドチャネルオーディオ信号をさらに含み、方法は、フィルタによって、左サラウンドチャネルオーディオ信号および右サラウンドチャネルオーディオ信号に基づいて追加的に、周波数にわたるマルチチャネルオーディオ信号の全体振幅を表す測定値を決定するステップと、フィルタによって、センタチャネルオーディオ信号の振幅の測定値、左チャネルオーディオ信号と右チャネルオーディオ信号との差の振幅の測定値、および左サラウンドチャネルオーディオ信号と右サラウンドチャネルオーディオ信号との差の振幅の測定値の和として、マルチチャネルオーディオ信号の全体振幅を表す測定値を決定するステップと、を含む。これにより、マルチチャネルオーディオ信号内のサラウンドチャネルは、左サラウンドチャネルオーディオ信号と右サラウンドチャネルオーディオ信号との差から振幅を得ることによって、効率的に処理される。差信号は、センタチャネルオーディオ信号に対しより明らかな区別をつける。
このような第2の態様すなわち第2の態様の前述の実装形態のいずれかに係る信号処理方法の第4の実装形態では、方法は、フィルタによって、左チャネルオーディオ信号の周波数ビンを利得関数の周波数ビンで重み付けして、重み付けされた左チャネルオーディオ信号の周波数ビンを取得するステップと、フィルタによって、センタチャネルオーディオ信号の周波数ビンを利得関数の周波数ビンで重み付けして、重み付けされたセンタチャネルオーディオ信号の周波数ビンを取得するステップと、フィルタによって、右チャネルオーディオ信号の周波数ビンを利得関数の周波数ビンで重み付けして、重み付けされた右チャネルオーディオ信号の周波数ビンを取得するステップと、を含む。このように、マルチチャネルオーディオ信号は、周波数領域において効率的に処理される。同じフィルタですべての信号を重み付けすることにより、ステレオ画像内のオーディオソースの位置がずれることがないという利点を有する。さらに、このようにして、音声成分がすべての信号から抽出される。
このような第2の態様すなわち第2の態様の前述の実装形態のいずれかに係る信号処理方法の第5の実装形態では、方法は、音声アクティビティ検出器によって、左チャネルオーディオ信号、センタチャネルオーディオ信号、および右チャネルオーディオ信号に基づいて音声アクティビティインジケータを決定するステップであって、音声アクティビティインジケータはマルチチャネルオーディオ信号内の音声成分の振幅を経時的に示す、ステップと、コンバイナによって、重み付けされた左チャネルオーディオ信号を音声アクティビティインジケータと合成して、合成された左チャネルオーディオ信号を取得するステップと、コンバイナによって、重み付けされたセンタチャネルオーディオ信号を音声アクティビティインジケータと合成して、合成されたセンタチャネルオーディオ信号を取得するステップと、コンバイナによって、重み付けされた右チャネルオーディオ信号を音声アクティビティインジケータと合成して、合成された右チャネルオーディオ信号を取得するステップと、を含む。これにより、マルチチャネルオーディオ信号内の時変音声成分の効率的な強調が実現され、非スピーチ信号が抑制される。
第2の態様の第5の実装形態に係る信号処理方法の第6の実装形態では、方法は、音声アクティビティ検出器によって、左チャネルオーディオ信号、センタチャネルオーディオ信号、および右チャネルオーディオ信号に基づいてマルチチャネルオーディオ信号の全体のスペクトル変動を表す測定値を決定するステップと、音声アクティビティ検出器によって、センタチャネルオーディオ信号のスペクトル変動の測定値とマルチチャネルオーディオ信号の全体のスペクトル変動を表す測定値との比に基づいて、音声アクティビティインジケータを取得するステップと、を含む。これにより、音声アクティビティインジケータは、スペクトル変動の測定値間の関係を利用して効率的に決定される。
第2の態様の第6の実装形態に係る信号処理方法の第7の実装形態では、方法は、以下の式:
に従って、音声アクティビティ検出器によって音声アクティビティインジケータを決定するステップを含み、ここで、Vは音声アクティビティインジケータを示し、FCはセンタチャネルオーディオ信号のスペクトル変動の測定値を示し、FSは左チャネルオーディオ信号と右チャネルオーディオ信号との差のスペクトル変動の測定値を示し、FCとFSとの和はマルチチャネルオーディオ信号の全体のスペクトル変動を表す測定値を示し、aは所定のスケーリング係数を示す。これにより、音声アクティビティインジケータは効率的に決定される。FCおよびFSが同じ値である信号は、0の値の音声アクティビティインジケータをもたらす。FCの値が大きいほど、音声アクティビティインジケータの値が大きくなる。スケーリング係数aは、音声アクティビティインジケータの振幅を制御することができる。
第2の態様の第7の実装形態に係る信号処理方法の第8の実装形態では、方法は、以下の式:
に従って、音声アクティビティ検出器によってセンタチャネルオーディオ信号のスペクトル変動の測定値をスペクトルフラックスとして、および左チャネルオーディオ信号と右チャネルオーディオ信号との差のスペクトル変動の測定値をスペクトルフラックスとして決定するステップを含み、ここで、FCはセンタチャネルオーディオ信号のスペクトルフラックスを示し、FSは左チャネルオーディオ信号と右チャネルオーディオ信号との差のスペクトルフラックスを示し、Cはセンタチャネルオーディオ信号を示し、Sは左チャネルオーディオ信号と右チャネルオーディオ信号との差を示し、mはサンプル時間インデックスを示し、kは周波数ビンインデックスを示す。これにより、スペクトルフラックスは効率的に決定される。
第2の態様の第5の実装形態から第8の実装形態に係る信号処理方法の第9の実装形態では、方法は、音声アクティビティ検出器によって、所定のローパスフィルタ機能に基づいて音声アクティビティインジケータを時間内にフィルタリングするステップを含む。これにより、マルチチャネルオーディオ信号内のアーチファクトの効率的な緩和および/または音声アクティビティインジケータの効率的な時間平滑化が実現される。
第2の態様の第5の実装形態から第9の実装形態に係る信号処理方法の第10の実装形態では、方法は、コンバイナによって、左チャネルオーディオ信号、センタチャネルオーディオ信号、および右チャネルオーディオ信号を所定の入力利得係数で重み付けするステップと、コンバイナによって、音声アクティビティインジケータを所定のスピーチ利得係数で重み付けするステップと、を含む。これにより、非音声成分の振幅に関する音声成分の振幅の効率的な制御が実現される。
第2の態様の第5の実装形態から第10の実装形態に係る信号処理方法の第11の実装形態では、方法は、コンバイナによって、重み付けされた左チャネルオーディオ信号と音声アクティビティインジケータとの合成に左チャネルオーディオ信号を加えて、合成された左チャネルオーディオ信号を取得するステップと、コンバイナによって、重み付けされた左チャネルオーディオ信号と音声アクティビティインジケータとの合成にセンタチャネルオーディオ信号を加えて、合成されたセンタチャネルオーディオ信号を取得するステップと、コンバイナによって、重み付けされた左チャネルオーディオ信号と音声アクティビティインジケータとの合成に右チャネルオーディオ信号を加えて、合成された右チャネルオーディオ信号を取得するステップと、を含む。これにより、合成が効率的に行われる。抽出された音声成分は元の信号と合成され、出力信号の音声成分が強調される。
第2の態様の第5の実装形態から第11の実装形態に係る信号処理方法の第12の実装形態では、マルチチャネルオーディオ信号は、左サラウンドチャネルオーディオ信号および右サラウンドチャネルオーディオ信号をさらに含み、方法は、音声アクティビティ検出器によって、左サラウンドチャネルオーディオ信号および右サラウンドチャネルオーディオ信号に基づいて追加的に音声アクティビティインジケータを決定するステップを含む。これにより、マルチチャネルオーディオ信号内のサラウンドチャネルも、音声アクティビティインジケータを決定するために考慮され、音声アクティビティインジケータのより良好な推定をもたらす。
このような第2の態様すなわち第2の態様の前述の実装形態のいずれかに係る信号処理方法の第13の実装形態では、方法は、変換器によって、左チャネルオーディオ信号、センタチャネルオーディオ信号、および右チャネルオーディオ信号を時間領域から周波数領域に変換するステップを含む。これにより、オーディオ信号の周波数領域への効率的な変換が実現される。これは、例えば、スピーチ強調および音声アクティビティ検出が周波数領域で実行される場合に必要とされる。
このような第2の態様すなわち第2の態様の前述の実装形態のいずれかに係る信号処理方法の第14の実装形態では、方法は、逆変換器によって、合成された左チャネルオーディオ信号、合成されたセンタチャネルオーディオ信号、および合成された右チャネルオーディオ信号を周波数領域から時間領域に逆に変換するステップを含む。これにより、オーディオ信号の時間領域への効率的な逆変換が実現され、時間領域の出力信号が得られる。
このような第2の態様すなわち第2の態様の前述の実装形態のいずれかに係る信号処理方法の第15の実装形態では、方法は、アップミキサによって、左チャネルオーディオ信号、センタチャネルオーディオ信号、および右チャネルオーディオ信号を、入力左チャネルステレオオーディオ信号および入力右チャネルステレオオーディオ信号に基づいて決定するステップを含む。このように、信号処理方法を、入力ステレオオーディオ信号を処理するために適用することができる。
第2の態様の第15の実装形態に係る信号処理方法の第16の実装形態では、方法は、以下の式:
に従って、アップミキサによって、左チャネルオーディオ信号、センタチャネルオーディオ信号、および右チャネルオーディオ信号を決定するステップを含み、ここで、Lrは入力左チャネルステレオオーディオ信号の実数部を示し、Rrは入力右チャネルステレオオーディオ信号の実数部を示し、Liは入力左チャネルステレオオーディオ信号の虚数部を示し、Riは入力右チャネルステレオオーディオ信号の虚数部を示し、αは直交度パラメータを示し、Linは入力左チャネルステレオオーディオ信号を示し、Rinは入力右チャネルステレオオーディオ信号を示し、Lは左チャネルオーディオ信号を示し、Cはセンタチャネルオーディオ信号を示し、Rは右チャネルオーディオ信号を示す。これにより、入力ステレオオーディオ信号の効率的なセンタチャネル抽出が、直交分解を用いて実現される。得られる左チャネルオーディオ信号および右チャネルオーディオ信号は、互いに直交している。
このような第2の態様すなわち第2の態様の前述の実装形態のいずれかに係る信号処理方法の第17の実装形態では、方法は、ダウンミキサによって、合成された左チャネルオーディオ信号、合成されたセンタチャネルオーディオ信号、および合成された右チャネルオーディオ信号に基づいて、出力左チャネルステレオオーディオ信号および出力右チャネルステレオオーディオ信号を決定するステップを含む。これにより、2チャネルすなわち左右のチャネルの出力ステレオオーディオ信号が効率的に提供される。
このような第2の態様すなわち第2の態様の前述の実装形態のいずれかに係る信号処理方法の第18の実装形態では、振幅の測定値は、信号のパワー、対数パワー、振幅または対数振幅を含む。このように、振幅の測定値は、異なる尺度で異なる値を示すことができる。
このような第2の態様すなわち第2の態様の前述の実装形態のいずれかに係る信号処理方法の第19の実装形態では、方法は、コンバイナによって、所定の入力利得係数で左チャネルオーディオ信号、センタチャネルオーディオ信号、および右チャネルオーディオ信号を所定の入力利得係数で重み付けするステップと、コンバイナによって、所定のスピーチ利得係数で重み付けされた左チャネルオーディオ信号、重み付けされたセンタチャネルオーディオ信号、および重み付けされた右チャネルオーディオ信号を重み付けするステップと、を含む。これにより、非音声成分の振幅に関する音声成分の振幅の効率的な制御が実現される。
第3の態様によれば、本発明は、このような第2の態様すなわちコンピュータ上で実行される場合の第2の態様の実装形態のいずれかに係る方法を実行するためのプログラムコードを含むコンピュータプログラムに関する。したがって、本方法は自動的に実行され得る。
信号処理装置は、コンピュータプログラムおよび/またはプログラムコードを実行するようにプログラム可能に構成され得る。
本発明は、ハードウェアおよび/またはソフトウェアで実施され得る。
本発明の実施形態を、以下の図面に関して説明する。
一実施形態に係る、マルチチャネルオーディオ信号内の音声成分を強調するための信号処理装置を示す図である。 一実施形態に係る、マルチチャネルオーディオ信号内の音声成分を強調するための信号処理方法を示す図である。 一実施形態に係る、マルチチャネルオーディオ信号内の音声成分を強調するための信号処理装置を示す図である。 一実施形態に係る、信号処理装置のアップミキサを示す図である。 一実施形態に係る、信号処理装置のフィルタを示す図である。 一実施形態に係る、信号処理装置の音声アクティビティ検出器を示す図である。 一実施形態に係る、マルチチャネルオーディオ信号内の音声成分を強調するための信号処理装置を示す図である。
同一または同等の特徴については同じ参照符号が使用されている。
図1は、一実施形態に係る、マルチチャネルオーディオ信号内の音声成分を強調するための信号処理装置100の図を示している。マルチチャネルオーディオ信号は、左チャネルオーディオ信号L、センタチャネルオーディオ信号C、および右チャネルオーディオ信号Rを含む。信号処理装置100は、フィルタ101とコンバイナ103とを備える。
フィルタ101は、左チャネルオーディオ信号L、センタチャネルオーディオ信号C、および右チャネルオーディオ信号Rに基づいて、周波数にわたるマルチチャネルオーディオ信号の全体振幅を表す測定値を決定し、センタチャネルオーディオ信号Cの振幅の測定値とマルチチャネルオーディオ信号の全体振幅を表す測定値との比に基づいて利得関数Gを取得し、利得関数Gで左チャネルオーディオ信号Lに重み付けして、重み付けされた左チャネルオーディオ信号LEを取得し、利得関数Gでセンタチャネルオーディオ信号Cに重み付けして、重み付けされたセンタチャネルオーディオ信号CEを取得し、利得関数Gで右チャネルオーディオ信号Rに重み付けして、重み付けされた右チャネルオーディオ信号REを出力するように構成されている。
コンバイナ103は、左チャネルオーディオ信号Lと重み付けされた左チャネルオーディオ信号LEとを合成して、合成された左チャネルオーディオ信号LEVを取得し、センタチャネルオーディオ信号Cと重み付けされたセンタチャネルオーディオ信号CEとを合成して、合成された左チャネルオーディオ信号CEVを取得し、右チャネルオーディオ信号Rと重み付けされた右チャネルオーディオ信号REとを合成して、合成された右チャネルオーディオ信号REVを取得するように構成されている。
マルチチャネルオーディオ信号は、例えば、3チャネルステレオオーディオ信号や5.1マルチチャネルオーディオ信号、または他のマルチチャネル信号を含んでもよく、3チャネルステレオオーディオ信号は、左チャネルオーディオ信号L、右チャネルオーディオ信号、およびセンタチャネルオーディオ信号Cのみを含み、3チャネルステレオオーディオ信号は、LCRステレオまたは3.0ステレオオーディオ信号とも呼ばれ、5.1マルチチャネルオーディオ信号は、左チャネルオーディオ信号L、右チャネルオーディオ信号R、センタチャネルオーディオ信号C、左サラウンドチャネルオーディオ信号LS、右サラウンドチャネルオーディオ信号RS、および低音チャネル信号Bを含み、他のマルチチャネル信号は、センタチャネルオーディオ信号および少なくとも2つの他のチャネルオーディオ信号を有する。センタチャネルオーディオ信号C以外のオーディオ信号、例えば、左チャネルオーディオ信号L、右チャネルオーディオ信号R、左サラウンドチャネルオーディオ信号LS、右サラウンドチャネルオーディオ信号RSおよび低音チャネル信号Bは、非センタチャネルオーディオ信号とも呼ばれる。5.1マルチチャネルオーディオ信号の場合、マルチチャネルオーディオ信号の全体振幅を表す測定値は、センタチャネルオーディオ信号の振幅の測定値と、左チャネルオーディオ信号と右チャネルオーディオ信号との差の振幅の測定値と、左サラウンドチャネルオーディオ信号と右サラウンドチャネルオーディオ信号との差の振幅の測定値と、低周波効果チャネルオーディオ信号の振幅の測定値と、の和として取得され得る。5.1マルチチャネルオーディオ信号の場合、得られたフィルタを使用して、構成されたオーディオ信号のすべてを重み付けすることができる。
図2は、一実施形態に係る、マルチチャネルオーディオ信号内の音声成分を強調するための信号処理方法200の図を示している。マルチチャネルオーディオ信号は、左チャネルオーディオ信号L、センタチャネルオーディオ信号C、および右チャネルオーディオ信号Rを含む。
信号処理方法200は、左チャネルオーディオ信号L、センタチャネルオーディオ信号C、および右チャネルオーディオ信号Rに基づいて、周波数にわたるマルチチャネルオーディオ信号の全体振幅を表す測定値を決定するステップ201と、センタチャネルオーディオ信号Cの振幅の測定値とマルチチャネルオーディオ信号の全体振幅を表す測定値との比に基づいて利得関数Gを取得するステップ203と、利得関数Gで左チャネルオーディオ信号Lに重み付けして、重み付けされた左チャネルオーディオ信号LEを取得するステップ205と、利得関数Gでセンタチャネルオーディオ信号Cに重み付けして、重み付けされたセンタチャネルオーディオ信号CEを取得するステップ207と、利得関数Gで右チャネルオーディオ信号Rに重み付けして、重み付けされた右チャネルオーディオ信号REを取得するステップ209と、左チャネルオーディオ信号Lを重み付けされた左チャネルオーディオ信号LEと合成して、合成された左チャネルオーディオ信号LEVを取得するステップ211と、センタチャネルオーディオ信号Cを重み付けされたセンタチャネルオーディオ信号CEと合成して、合成されたセンタチャネルオーディオ信号CEVを取得するステップ213と、右チャネルオーディオ信号Rを重み付けされた右チャネルオーディオ信号REと合成して、合成された右チャネルオーディオ信号REVを取得するステップ215と、を含む。
信号処理方法200を、信号処理装置100によって、例えば、フィルタ101とコンバイナ103とによって、実行することができる。
以下では、信号処理装置100および信号処理方法200のさらなる実装形態および実施形態について説明する。
本発明は、オーディオ信号処理の分野に関する。信号処理装置100および信号処理方法200を、オーディオ信号内、例えば、ステレオオーディオ信号内の音声強調、例えば、対話強調に適用することができる。特に、信号処理装置100および信号処理方法200を、アップミキサ301と組み合わせて、またはアップミキサ301およびダウンミキサ303と組み合わせて、対話の明瞭性を改善するためにステレオオーディオ信号を処理するのに適用することができる。
テレビ、ラップトップ、タブレットコンピュータ、携帯電話、スマートフォンなどの2つのスピーカを備えたさまざまなデバイスが存在する。このようなデバイスを使用してステレオオーディオ信号を再生する場合、例えば、映画からのサウンドトラックの音声成分は、正常なおよび聴力障害のリスナにとっては理解しにくい場合がある。これは特に、騒がしい環境の場合や、音声成分が非音声成分や音楽またはサウンドエフェクトなどのサウンドと重なっている場合に当てはまる。
本発明の実施形態は、特に、対話の明瞭性を改善するためにステレオオーディオ信号の音声成分を強調することを目的とする。1つの根底にある仮定は、音声または同等のスピーチが、マルチチャネルオーディオ信号においてセンタにパンされることであり、これは一般に、ほとんどのステレオオーディオ信号に当てはまる。目的は、非音声成分は変化させないまま、音声品質に影響を与えることなく音声成分のラウドネスを強調することである。これは特に、音声および非音声成分を同時に有する時間間隔で可能である必要がある。本発明の実施形態は、例えば、ステレオオーディオ信号のみを使用することを可能にし、別個の音声オーディオチャネルまたは元の5.1マルチチャネルオーディオ信号からのさらなる情報を必要とせず、または採用しない。目的は、上述した信号処理装置100または信号処理方法200を使用して、仮想センタチャネルオーディオ信号を抽出し、このセンタチャネルオーディオ信号および他のオーディオ信号を強調することによって達成される。さらに、非音声成分が処理の影響を受け得ないことを確実にするために、音声アクティビティ検出のための手法を採用することができる。本発明の他の実施形態を、5.1マルチチャネルオーディオ信号のような他のマルチチャネルオーディオ信号を処理するために使用することができる。
本発明の実施形態は、ステレオオーディオ信号記録から、センタチャネルオーディオ信号がアップミキシング手法を用いて抽出される、以下の手法に基づいている。このセンタチャネルオーディオ信号を、元の音声成分の推定値を得るために、音声強調および音声アクティビティ検出を使用してさらに処理することができる。手法の特徴は、音声成分がセンタチャネルオーディオ信号から抽出され得るだけでなく、残りのチャネルオーディオ信号からも抽出され得ることであり得る。アップミキシング処理は完全には機能しない可能性があるので、これらの残りのチャネルオーディオ信号は依然として音声成分を含み得る。また、音声成分が抽出されてブーストされると、結果として得られる出力オーディオ信号は、改善された音声品質および広がりを有する。
以下では、2から3のアップミキシングによって2チャネルのステレオオーディオ信号から得られる、マルチチャネルオーディオ信号LCR(センタチャネルオーディオ信号、左チャネルオーディオ信号、および右チャネルオーディオ信号を含む)の音声成分を強調するための本発明の特定の実施形態が、図3から図7に基づいて説明される。
ただし、本発明の実施形態は、そのようなマルチチャネルオーディオ信号に限定されず、例えば、他のデバイスから受信されたLCRの3つのチャネルオーディオ信号の処理、または、センタチャネルオーディオ信号を含む他のマルチチャネル信号、例えば、5.1または7.1マルチチャネル信号の処理を含んでもよい。さらなる実施形態は、音声アクティビティ検出の有無にかかわらず、音声または対話強調を適用する前に、仮想センタチャネルオーディオ信号を得るために、マルチチャネル信号をアップミキシングすることで、例えば、左右オーディオチャネル信号および左右サラウンドチャネル信号を含む4.0マルチチャネル信号である、センタチャネルオーディオ信号を含まないマルチチャネル信号を処理するように構成されてもよい。
図3は、一実施形態に係る、マルチチャネルオーディオ信号内の音声成分を強調するための信号処理装置100の図を示している。信号処理装置100は、フィルタ101と、コンバイナ103と、アップミキサ301と、ダウンミキサ303とを備えている。フィルタ101およびコンバイナ103は、左チャネルプロセッサ305と、センタチャネルプロセッサ307と、右チャネルプロセッサ309とを備えている。
アップミキサ301は、入力左チャネルステレオオーディオ信号Linと入力右チャネルステレオオーディオ信号Rinとに基づいて、左チャネルオーディオ信号L、センタチャネルオーディオ信号C、および右チャネルオーディオ信号Rを決定するように構成されている。つまり、アップミキサ301は、図4に基づいてより詳細に例示的に説明されるように、2から3のアップミックスを提供する。
左チャネルプロセッサ305は、合成された左チャネルオーディオ信号LEVを提供するために、左チャネルオーディオ信号Lを処理するように構成されている。センタチャネルプロセッサ307は、合成されたセンタチャネルオーディオ信号CEVを提供するために、センタチャネルオーディオ信号Cを処理するように構成されている。右チャネルプロセッサ309は、合成された右チャネルオーディオ信号REVを提供するために、右チャネルオーディオ信号Rを処理するように構成されている。左チャネルプロセッサ305、センタチャネルプロセッサ307、および右チャネルプロセッサ309は、図5に基づいてより詳細に例示的に説明されるように、音声強調ENHを実行するように構成されている。左チャネルプロセッサ305、センタチャネルプロセッサ307、および右チャネルプロセッサ309は、図6に基づいてより詳細に例示的に説明されるように、音声アクティビティ検出VADによって提供される音声アクティビティインジケータを処理するようにさらに構成されてもよい。
ダウンミキサ303は、合成された左チャネルオーディオ信号LEV、合成されたセンタチャネルオーディオ信号CEV、および合成された右チャネルオーディオ信号REVに基づいて、出力左チャネルステレオオーディオ信号Loutおよび出力右チャネルステレオオーディオ信号Routを決定するように構成されている。つまり、ダウンミキサ303は、3から2のダウンミックスを提供する。
このように、音声強調オーディオ信号は、ダウンミックスされた2チャネルのステレオ信号LoutおよびRoutが従来の2チャネルステレオ再生装置、例えば、従来のステレオテレビセットに直接出力され得るように処理される。
本発明の一実施形態では、入力左チャネルステレオオーディオ信号Linおよび入力右チャネルステレオオーディオ信号Rinを含む入力ステレオオーディオ信号からのセンタチャネル抽出のために、アップミキサ301による共通の手法が使用される。この結果、L、C、およびRで示される左、センタ、および右のチャネルオーディオ信号が得られる。本発明の他の実施形態は、アップミキシングのための他の手法を使用することができる。例えば、5.1マルチチャネルオーディオ信号が利用可能であり、構成された左、センタ、および右のチャネルが直接使用される、本発明のさらなる実施形態が考えられる。
左、センタ、および右のチャネルオーディオ信号L、C、およびRは、改善された方法で処理されて、時間および/または周波数に依存する音声強調フィルタ101を推定し、その後、音声強調フィルタ101をマルチチャネルオーディオ信号のすべてのチャネルに適用することができる。このフィルタ101は、音声成分と同時に存在し得る非音声成分を減衰させるように構成されている。他の手法に関する違いは、センタチャネルオーディオ信号だけでなく、他のオーディオ信号、例えば、図3に示すLCRの場合の左チャネルオーディオ信号と右チャネルオーディオ信号が、同じフィルタ101で処理されることである。本発明の実施形態は、音声強調フィルタ101を画定するための改善された手法を使用する。
さらに、マルチチャネルオーディオ信号のすべてのチャネルからの情報を利用する改善された手法を使用して音声アクティビティ検出を実行することができる。音声アクティビティ検出器の出力、例えば、音声アクティビティインジケータを、音声アクティビティを示すことができる軟判定とすることができる。音声強調と音声アクティビティ検出との組合せは、音声成分のみを含む、または少なくともほぼ音声成分のみを含むマルチチャネルオーディオ信号を提供する。この音声成分マルチチャネルオーディオ信号は、合成されたチャネルオーディオ信号LEV、CEV、およびREVを得るために、コンバイナ103によって元のマルチチャネルオーディオ信号にブーストされ、加えられることができる。ステレオへのダウンミックスを、最終出力チャネルステレオオーディオ信号LoutおよびRoutを提供するために、ダウンミキサ303によって実行することができる。
図4は、一実施形態に係る、信号処理装置100のアップミキサ301の図を示している。アップミキサ301は、入力左チャネルステレオオーディオ信号Linと入力右チャネルステレオオーディオ信号Rinとに基づいて、左チャネルオーディオ信号L、センタチャネルオーディオ信号C、および右チャネルオーディオ信号Rを決定するように構成されている。アップミキサ301は、2から3のアップミックスを提供する。アップミキサ301は、アップミキシング手法を用いて入力2チャネルステレオオーディオ信号からセンタチャネルオーディオ信号Cの抽出を実行するように構成されている。
例えば、2チャネルの入力ステレオオーディオ信号から仮想センタチャネルオーディオ信号Cを取得する処理は、センタ抽出とも呼ばれる。これは、記録の従来のステレオオーディオ信号のみが利用可能な場合に望ましいことがある。センタ抽出を達成するための異なる手法が存在する。アップミキシング手法の1つのファミリは、マトリクス復号に基づいている。これらのアプローチは、アップミキシングのための線形の信号に依存しない手法である。それらはマトリクスデコーダと連結され、時間領域で動作することができる。一方、幾何学的手法は信号に依存する。これらの手法は、左チャネルオーディオ信号Lと右チャネルオーディオ信号Rとが互いに無相関であるという仮定に頼ることができる。これらの手法は、周波数領域で動作する。
以下では、本発明の任意の実施形態で使用することができるセンタ抽出の一例として、特定の手法を説明する。手法は周波数領域で実行される。これは、例えば、短時間ウィンドウに対して離散フーリエ変換(DFT)アルゴリズムを適用することによって、入力ステレオオーディオ信号が周波数領域に変換されることを意味する。離散フーリエ変換(DFT)のブロックサイズの適切な選択を、48000Hzのサンプリング周波数が使用される場合に、1024とすることができる。
この手法は、左右のチャネルオーディオ信号LおよびRがそれぞれ直交することを前提にしている。この考えは、センタチャネルオーディオ信号Cを
C=α×(Lin+Rin) (1)
として得ることであり、ここで、αは決定されるパラメータである。次に、得られたセンタチャネルオーディオ信号Cから左右のチャネルオーディオ信号LおよびRを
L=Lin−C (2)
R=Rin−C (3)
として導出することができる。パラメータαを、オーディオ信号の直交性を表す制約
L×R*=0 (4)
を満たすように最適化することができる。この問題の数学的解を、
の結果により導くことができ、ここで、Lr、Li、RrおよびRiは、それぞれ入力左ステレオオーディオ信号Linおよび入力右ステレオオーディオ信号Rinのスペクトル成分の実数部および虚数部を示す。パラメータαは、時間依存性および周波数依存性であり、したがって、オーディオ信号サンプルの所与のフレームのすべての周波数ビンについて計算され得る。
センタ抽出のための他の特定の幾何学的手法を適用することができる。他の特定の手法は、例えば、センタ抽出のための主成分分析を使用する。
図5は、一実施形態に係る、信号処理装置100のフィルタ101の図を示している。フィルタ101は、減算器501、決定器503、決定器505、決定器507、重み付け器509、重み付け器511、および重み付け器513を備えている。この図は、音声強調手法を示している。
減算器501は、残差オーディオ信号Sを得るために、左チャネルオーディオ信号Lから右チャネルオーディオ信号Rを減算するように構成されている。
決定器503は、センタチャネルオーディオ信号Cの2乗された振幅またはパワーを決定して、センタチャネルオーディオ信号Cの振幅PCの測定値を得るように構成されている。決定器505は、残差オーディオ信号Sの2乗された振幅またはパワーを決定して、残差オーディオ信号Sの振幅PSの測定値を得るように構成されている。
決定器507は、センタチャネルオーディオ信号Cの振幅PCの測定値と、マルチチャネルオーディオ信号の全体振幅を表す測定値との比を判定して、利得関数Gを得るように構成されている。マルチチャネルオーディオ信号の全体振幅を表す測定値は、センタチャネルオーディオ信号Cの振幅PCの測定値と残差オーディオ信号Sの振幅PSの測定値の和によって形成される。利得関数Gは、時間依存性および/または周波数依存性であり得る。サンプル時間インデックスはmとして示される。周波数ビンインデックスはkとして示される。
重み付け器509は、利得関数Gによって左チャネルオーディオ信号Lを重み付けして、重み付けされた左チャネルオーディオ信号LEを得るように構成されている。重み付け器511は、利得関数Gによってセンタチャネルオーディオ信号Cを重み付けして、重み付けされたセンタチャネルオーディオ信号CEを得るように構成されている。重み付け器513は、利得関数Gによって右チャネルオーディオ信号Rを重み付けして、重み付けされた右チャネルオーディオ信号REを得るように構成されている。
本発明の実施形態は、左、センタ、および右のチャネルオーディオ信号L、C、およびRからの情報を使用して、音声強調のためのウィナーフィルタリング手法に従って利得関数Gを推定する。非音声成分を除去するために、マルチチャネルオーディオ信号の全チャネルにウィナーフィルタリング手法を適用することができる。センタチャネルオーディオ信号Cが音声成分を含む場合、ウィナーフィルタリング手法は、(ほぼ)マルチチャネルオーディオ信号の全チャネルの音声成分のみを保持する。
一般に、採用された音声強調手法は、付加雑音に対処することができる。したがって、任意のチャネルの入力信号Yは、Y=X+Nとみなすことができ、Xはクリーン音声成分を含み、Nを付加雑音とみなすことができる。XとNは互いに無相関であるものとする。観測されたオーディオ信号YからNを除去するために、付加雑音Nの雑音パワースペクトル密度またはアプリオリ信号対雑音比X/Nを推定することができる。その後、周波数依存の利得関数GすなわちG(m,k)を
として得ることができ、オーディオ信号のすべての周波数ビンを生成する、クリーン音声成分を含むオーディオ信号の推定値を
として決定することができる。
音声強調手法は、センタチャネルオーディオ信号Cが主に音声を含むという仮定を利用する。通常、センタ抽出手法は完全なセンタ抽出を提供しないので、センタチャネルオーディオ信号Cは非音声成分を含むことができ、マルチチャネルオーディオ信号の他のチャネルは音声成分を含んでもよい。したがって、目的は、センタチャネルオーディオ信号Cの非音声成分を除去し、マルチチャネルオーディオ信号の他のチャネルの音声成分を分離することである。この目的を達成するために、利得関数Gを推定するためにウィナーフィルタリング手法を適用することができる。付加雑音Nの雑音パワースペクトル密度を推定するために複雑な手法を使用する代わりに、方程式(7)、(8)、および(9)によって画定されるように、ウィナーフィルタリング手法のためにXおよびNを画定するための単純かつ効率的な手法が使用される。センタチャネルオーディオ信号Cは、Xに対応する音声成分を含むものとみなされ、マルチチャネルオーディオ信号の他のチャネルのコンテンツは、Nに対応する雑音を含むものとみなされる。
一実施形態では、残差オーディオ信号Sは、例えば、S=L−Rに従って、減算器501によって、左右のチャネルオーディオ信号から得られる。このようにして、センタ成分が残差信号から除去される。決定器503によるセンタチャネルオーディオ信号Cのスペクトルと、決定器505による残差オーディオ信号Sのスペクトルから、
に従って、パワーを決定することができ、ここで、mはサンプル時間インデックスであり、kは周波数ビンインデックスである。別の可能な手法は、パワーの代わりに振幅、または対数振幅もしくはパワーを使用することである。さらなる実施形態では、処理アーチファクトを低減するために、パワーは時間の経過とともに平滑化され得る。
次に、決定器507によって、
に従って、ウィナーフィルタリング手法により利得関数Gを決定する。
利得関数Gは、続いて、重み付け器509〜513によってそれぞれ左、センタ、および右チャネルのオーディオ信号L、C、およびRに適用される。この結果、重み付けされた左チャネルオーディオ信号LE、重み付けされたセンタチャネルオーディオ信号CE、および重み付けされた右チャネルオーディオ信号REが得られる。
元のセンタチャネルオーディオ信号Cが音声成分のみを含む場合、強調された重み付けされたオーディオ信号はまた、音声成分のみを含む。
本発明の一実施形態では、異なるマルチチャネルオーディオ信号フォーマットが使用される。例示的な5.1マルチチャネルオーディオ信号の場合、残差オーディオ信号Sを決定するオプションは、
S=L−R+LS−RS (10)
であり、ここで、Lは左チャネルオーディオ信号を示し、Rは右チャネルオーディオ信号を示し、LSは左サラウンドチャネルオーディオ信号を示し、RSは右サラウンドチャネルオーディオ信号を示している。別の実施形態では、パワーPSを、L−RのパワーとLS−RSのパワーの和として決定することができる。
残差オーディオ信号Sおよび残差オーディオ信号のパワーPSを、7.1マルチチャネルオーディオ信号フォーマットのような他のマルチチャネルオーディオ信号フォーマットを使用してそれに応じて決定することができる。
計算の複雑さをさらに低減するために、例えば、メル周波数スケールに従って、オーディオ信号の周波数ビンを周波数帯域にグループ化することができる。この場合、利得関数Gを各周波数ビンについて決定することができる。
さらに、例えば、100Hzから8000Hzの周波数範囲内の、人間の声を含む可能性のある周波数のみを処理することは、非音声成分をフィルタリングするのに役立つ。
音声強調の実施形態は、アップミキシング処理の間にセンタチャネルオーディオ信号Cに漏れる望ましくない非音声成分を除去する。さらに、マルチチャネルオーディオ信号の他のチャネルに漏れる直接成分をブースする。
図6は、一実施形態に係る、信号処理装置100の音声アクティビティ検出器601の図を示している。音声アクティビティ検出器601は、左チャネルオーディオ信号L、センタチャネルオーディオ信号C、および右チャネルオーディオ信号Rに基づいて音声アクティビティインジケータVを決定するように構成され、音声アクティビティインジケータVは、経時的なマルチチャネルオーディオ信号内の音声成分の振幅を示している。音声アクティビティ検出器601は、減算器603、決定器605、決定器607、遅延器609、遅延器611、減算器613、減算器615、決定器617、決定器619、および決定器621を備えている。
減算器603は、残差オーディオ信号Sを得るために、左チャネルオーディオ信号Lから右チャネルオーディオ信号Rを減算するように構成されている。決定器605は、センタチャネルオーディオ信号Cの振幅を決定して、|C(m,k)|を得るように構成され、ここで、mはサンプル時間インデックスを示し、kは周波数ビンインデックスを示している。決定器607は、残差オーディオ信号Sの振幅を決定して、|S(m,k)|を得るように構成され、ここで、mはサンプル時間インデックスを示し、kは周波数ビンインデックスを示している。遅延器609は、サンプル時間だけ|C(m,k)|を遅延させて、|C(m−1,k)|を得るように構成されている。遅延器611は、サンプル時間だけ|S(m,k)|を遅延させて、|S(m−1,k)|を得るように構成されている。減算器613は、|C(m,k)|−|C(m−1、k)|を得るために、|C(m,k)|から|C(m−1,k)|を減算するように構成されている。減算器615は、|S(m,k)|−|S(m−1、k)|を得るために、|S(m,k)|から|S(m−1,k)|を減算するように構成されている。
決定器617は、センタチャネルオーディオ信号Cのスペクトル変動FCの測定値、例えば、スペクトルフラックスを、例えば、|C(m,k)|−|C(m−1,k)|上のすべての周波数ビンにわたる二乗和Σ2に基づいて決定するように構成されている。決定器619は、左チャネルオーディオ信号Lと右チャネルオーディオ信号Rとの差のスペクトル変動FSの測定値、例えば、スペクトルフラックスを、例えば、|S(m,k)|−|S(m−1,k)|上のすべての周波数ビンにわたる二乗和Σ2に基づいて決定するように構成されている。決定器621は、スペクトル変動FCの測定値およびスペクトル変動FSの測定値に基づいて、例えば、比率FC/(FC+FS)に基づいて、音声アクティビティインジケータVを決定するように構成されている。
音声アクティビティ検出は、音声の時間的な検出およびセグメント化のプロセスを含む。音声アクティビティ検出の目的は、無音または他のサウンド中の音声を検出することである。このような手法は、ほぼあらゆる種類の音声技術にとって望ましい。
音声アクティビティ検出のためのさまざまな他の手法を本発明の実施形態に適用することができる。簡単な手法は、例えば、エネルギーに基づくものである。エネルギー閾値処理を使用して音声を検出することができる。典型的には、このような手法は、無音の音声に対してのみ有効である。他の手法は統計的モデルベースの手法を含み、これは、信号対雑音比(SNR)推定に基づいており、統計的音声強調手法に類似している。パラメトリックモデルベースの手法では、通常、低レベルのオーディオ特徴をガウス混合モデルなどの分類子と結合する。可能なオーディオ特徴は、4Hzの変調エネルギー、ゼロ交差率、スペクトル重心、またはスペクトルフラックスである。
本発明の一実施形態では、音声アクティビティ検出を使用して、音声または対話成分のみがブーストされ、非音声成分が変更されないことを確実にする。音声強調手法の概要を図6に示す。
音声強調手法で実行され得るように、音声アクティビティインジケータVは、センタチャネルオーディオ信号Cおよび残差オーディオ信号S=L−Rから導出される。これらのオーディオ信号から、スペクトルフラックスが抽出される。スペクトルフラックスは、スペクトルの時間的変化の測定値である。DFTまたは周波数領域信号Xのスペクトルフラックスを、以下のように定義することができる。
スペクトルフラックスの他の類似の定義もまた、本発明のさらなる実施形態において採用することができる。スペクトルフラックスは、スペクトルエネルギー分布の変化を示し、経時的な時間微分を表す。2つの連続するオーディオ信号フレームにわたって差が決定される式(11)の定義の代わりに、スペクトルフラックスが、複数のオーディオ信号フレームを含む2つの連続するブロックにわたる差として決定されてもよい。音声成分を有するオーディオ信号については、音楽および他のサウンドに比べてより高い値のスペクトルフラックスが期待される。
本発明の一実施形態では、例えば、マルチチャネルオーディオ信号の1つのチャネルが主に音声を含むような、特定のチャネル設定が、周波数に依存しない連続的な音声アクティビティインジケータVを導出するために利用される。そして、式(11)に従って、センタチャネルオーディオ信号CのスペクトルフラックスFCと残差オーディオ信号SのスペクトルフラックスFSとを決定することができる。
任意の正規化プロセスとは関係のない音声アクティビティインジケータVを得るために、音声アクティビティインジケータVは、例えば、以下のように計算され得る。
音声アクティビティインジケータVのこの定義は、FC=FSの場合にV=0を確実にする。最後に、VはV∈[0;1]に制限される。パラメータaは、Vのダイナミックレンジを制御する所定のスケーリング係数を示し、ここで、以下のようにa=4を許容可能な値とすることができる。
さらに、FCがある閾値tを超えない場合、音声アクティビティインジケータVをV=0に設定することができる。滑らかな音声アクティビティインジケータの曲線を経時的に得るために、時間平滑化をVに適用することができる。
音声強調手法と同様に、音声アクティビティ検出手法を、例えば、メル周波数スケールに従って、周波数ビンが周波数帯域にグループ化されたときに実行することもできる。さらに、考慮される周波数を人間の声の周波数範囲、例えば100〜8000Hzの範囲に限定することで、さらに性能が向上する。
音声アクティビティ検出手法の結果は、単純で効率的なアルゴリズムを使用して得られる、周波数に依存しない連続的な決定である。例えばモデルを学習するために、調整可能なパラメータはわずかしか使用され得ず、それ以上のデータは使用され得ない。この手法により、音声と音楽などの他のサウンドとを確実に区別することができる。
図7は、一実施形態に係る、マルチチャネルオーディオ信号内の音声成分を強調するための信号処理装置100の図を示している。この図は、ミキシング処理を示している。信号処理装置100は、図1に関連して説明した信号処理装置の可能な実装形態を形成している。信号処理装置100は、フィルタ101と、コンバイナ103と、音声アクティビティ検出器601とを備えている。
フィルタ101は、図5のフィルタ101に関連して説明した機能を提供する。音声アクティビティ検出器601は、図6の音声アクティビティ検出器601と関連して説明した機能を提供する。
一実施形態では、コンバイナ103は、左チャネルオーディオ信号Lと重み付けされた左チャネルオーディオ信号LEとを合成して、合成された左チャネルオーディオ信号LEVを取得し、センタチャネルオーディオ信号Cと重み付けされたセンタチャネルオーディオ信号CEとを合成して、合成されたセンタチャネルオーディオ信号CEVを取得し、右チャネルオーディオ信号Rと重み付けされた右チャネルオーディオ信号REとを合成して、合成された右チャネルオーディオ信号REVを取得する。コンバイナは、加算器701、加算器703、加算器705、重み付け器707、重み付け器709、重み付け器711、および重み付け器713を備えている。
一実施形態では、重み付け器713は、所定のスピーチ利得係数GSで音声アクティビティインジケータV(m)を重み付けして、重み付けされた音声アクティビティインジケータVG=GSV(m)を得るように構成され、ここで、mはサンプル時間インデックスを示している。コンバイナは、図示されていない別の重み付け器を備えることができ、この重み付け器は、左チャネルオーディオ信号L、センタチャネルオーディオ信号C、および右チャネルオーディオ信号Rに所定の入力利得係数Ginで重み付けするように構成されている。
重み付け器707は、重み付けされた左チャネルオーディオ信号LEを重み付けされた音声アクティビティインジケータVG=GSV(m)で重み付けするように構成され、加算器701は、左チャネルオーディオ信号Lに結果を加算して、合成された左チャネルオーディオ信号LEVを得るように構成されている。重み付け器709は、重み付けされたセンタチャネルオーディオ信号CEを重み付けされた音声アクティビティインジケータVG=GSV(m)で重み付けするように構成され、加算器703は、センタチャネルオーディオ信号Cに結果を加算して、合成されたセンタチャネルオーディオ信号CEVを得るように構成されている。重み付け器711は、重み付けされた右チャネルオーディオ信号REを重み付けされた音声アクティビティインジケータVG=GSV(m)で重み付けするように構成され、加算器705は、右チャネルオーディオ信号Rに結果を加算して、合成された右チャネルオーディオ信号REVを得るように構成されている。
一実施形態では、重み付け器713は、重み付けされた左チャネルオーディオ信号LE、重み付けされたセンタチャネルオーディオ信号CE、および重み付けされた右チャネルオーディオ信号REに所定のスピーチ利得係数GSで重み付けするように構成されている。コンバイナ103は、図示されていない別の重み付け器を備えることができ、この重み付け器は、左チャネルオーディオ信号L、センタチャネルオーディオ信号C、および右チャネルオーディオ信号Rに所定の入力利得係数Ginで重み付けするように構成されている。
音声アクティビティ検出器601を使用しない場合にも、所定のスピーチ利得係数GSを適用することができる。簡略化のために、重み付け器713は、図において単一の重み付け器713として示されている。可能な実装形態では、重み付け器713は、特に重み付け器709と加算器703との間、重み付け器707と加算器701との間、および重み付け器711と加算器705との間で、3回使用される。音声アクティビティ検出器601が使用されない場合、V=1と仮定することができ、GSを使用してVを修正することができる。
したがって、音声強調および音声アクティビティ検出の結果を、クリーン音声オーディオ信号の推定値を得るために合成することができる。上述したように、音声強調および音声アクティビティ検出を並行して実行することができる。音声アクティビティインジケータVを、スピーチ利得係数GSを用いて重み付け器713によって重み付けまたは乗算することができ、VG=VGSを用いて音声ブーストを制御することができる。VGを、重み付けされたオーディオ信号LE,CE,REを用いて乗法的に重み付け器707,709,711により合成することができ、加算器701,703,705によって得られたオーディオ信号を元のオーディオ信号L,C,Rに加算して、信号処理装置100の最終的な合成されたオーディオ信号LEV、CEV、REVを、以下の式:
CEV(m,k)=Gin×C+GS×V(m)×G(m,k)×C(m,k) (14)
LEV(m,k)=Gin×L+GS×V(m)×G(m,k)×L(m,k) (15)
REV(m,k)=Gin×R+GS×V(m)×G(m,k)×R(m,k) (16)
に従って得ることができ、ここで、Ginは元のオーディオ信号に適用される入力利得係数である。この係数は、マルチチャネルオーディオ信号で構成される非音声成分の利得を制御する。GinおよびGSの特定の組み合わせ、例えば、Gin=1およびGS=−1を使用して、マルチチャネルオーディオ信号から音声成分を除去することができる。音声成分をブーストするための適切な設定をGin=1とすることができるが、GSは1から4の範囲であってもよい。最終的に合成されたオーディオ信号LEV,CEV,REVを、時間領域に変換することができ、ステレオダウンミックスを生成するために使用することができる。
結果として、音声または対話強調の問題に対する計算上安価でありながら効率的な解決法が提供される。すべての成分は、DFT周波数領域で動作できる。例えば、5.1チャネルサラウンドオーディオ信号内の、センタチャネルオーディオ信号Cがブーストされ、センタチャネルオーディオ信号C内のすべてのサウンドが強調される、簡単な手法と比較して、本発明の実施形態では、例えば、音声アクティビティの検出に起因して、センタチャネルオーディオ信号C内の音声成分のみがブーストされる。さらに、本発明の実施形態はまた、音声および非音声成分を同時に処理し、例えば、音声強調手法のために、音声成分のみがブーストされる。
センタチャネルオーディオ信号Cだけでなく、他のオーディオ信号(例えば、LおよびR)が音声強調および音声アクティビティ検出を用いて処理されるという事実により、最終的なオーディオ信号が高品質の空間的に広がりのある音声成分を含むことが確実になる。これは、センタチャネルオーディオ信号Cのみが処理される場合には当てはまらない。本発明の実施形態は、5.1サラウンドオーディオ信号のような特定のコーデック、ミックス、またはマルチチャネルオーディオ信号フォーマットとは無関係であり、異なるチャネル設定に拡張され得る。
本発明の実施形態、特に信号処理装置は、本明細書に記載の装置および方法、例えば、図1〜図7に基づいて本明細書に記載のフィルタ101、コンバイナ103、および/または他のユニットまたはステップの、さまざまな機能を実装するように構成された単一または複数のプロセッサを備えることができる。
本発明の方法の特定の実施要件に応じて、本発明の方法を、ハードウェア、ソフトウェア、またはそれらの任意の組合せで実施することができる。
デジタル記憶媒体、特にフロッピディスク、CD、DVDもしくはブルーレイディスク、ROM、PROM、EPROM、EEPROM、または電子的に読み取り可能な制御信号が記憶されたフラッシュメモリを使用して実装を行うことができ、このデジタル記憶媒体は、本発明の方法の少なくとも1つの実施形態が実行されるようにプログラマブルコンピュータシステムと協働するか、または協働する能力がある。
したがって、本発明のさらなる実施形態は、機械読み取り可能なキャリアに格納されたプログラムコードを有するコンピュータプログラム製品であるか、またはそれを含み、プログラムコードは、コンピュータプログラム製品がコンピュータ上で動作するときに、本発明の方法のうちの少なくとも1つを実行するように動作する。
つまり、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上、プロセッサ上などで動作するときに、本発明の方法のうちの少なくとも1つを実行するためのプログラムコードを有するコンピュータプログラムであるか、またはそれを含む。
したがって、本発明のさらなる実施形態は、コンピュータプログラム製品がコンピュータ上、プロセッサ上などで動作するときに、本発明の方法のうちの少なくとも1つを実行するように動作するコンピュータプログラムが格納される、機械読み取り可能なデジタル記憶媒体であるか、またはそれを含む。
したがって、本発明のさらなる実施形態は、コンピュータプログラム製品がコンピュータ上、プロセッサ上などで動作するときに、本発明の方法のうちの少なくとも1つを実行するように動作するコンピュータプログラムを表す、データストリームもしくは一連の信号であるか、またはそれらを含む。
したがって、本発明のさらなる実施形態は、本発明の方法のうちの少なくとも1つを実行するように適合されたコンピュータ、プロセッサ、または任意の他のプログラマブルロジックデバイスであるか、またはそれを含む。
したがって、本発明のさらなる実施形態は、コンピュータプログラム製品が、コンピュータ、プロセッサ、または任意の他のプログラマブルロジックデバイス、例えば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)上で動作するときに、本発明の方法のうちの少なくとも1つを実行するように動作するコンピュータプログラムを格納した、コンピュータ、プロセッサ、または任意の他のプログラマブルロジックデバイスであるか、またはそれを含む。
以上、本発明の特定の実施形態を参照して特に図示し説明したが、当業者であれば、本発明の趣旨および範囲から逸脱することなく、形態および詳細におけるさまざまな他の変更を行うことができることを理解されたい。したがって、本明細書に開示され、以下の特許請求の範囲によって理解される広範な概念から逸脱することなく、異なる実施形態に適合するためにさまざまな変更を行うことができることを理解されたい。
100 信号処理装置
101 音声強調フィルタ
103 コンバイナ
200 信号処理方法
301 アップミキサ
303 ダウンミキサ
305 左チャネルプロセッサ
307 センタチャネルプロセッサ
309 右チャネルプロセッサ
501,603,613,615 減算器
503,505,507,605,607,617,619,621 決定器
509,511,513,707,709,711,713 重み付け器
601 音声アクティビティ検出器
609,611 遅延器
701,703,705 加算器

Claims (15)

  1. マルチチャネルオーディオ信号内の音声成分を強調するための信号処理装置(100)であって、前記マルチチャネルオーディオ信号は、左チャネルオーディオ信号(L)、センタチャネルオーディオ信号(C)、および右チャネルオーディオ信号(R)を含み、前記信号処理装置(100)は、フィルタ(101)およびコンバイナ(103)を含み、
    前記フィルタ(101)が、
    前記左チャネルオーディオ信号(L)、前記センタチャネルオーディオ信号(C)、および前記右チャネルオーディオ信号(R)に基づいて、周波数にわたる前記マルチチャネルオーディオ信号の全体振幅を表す測定値を決定し、
    前記センタチャネルオーディオ信号(C)の振幅の測定値と前記マルチチャネルオーディオ信号の前記全体振幅を表す前記測定値との比に基づいて利得関数(G)を取得し、
    前記利得関数(G)で前記左チャネルオーディオ信号(L)に重み付けして、重み付けされた左チャネルオーディオ信号(LE)を取得し、前記利得関数(G)で前記センタチャネルオーディオ信号(C)に重み付けして、重み付けされたセンタチャネルオーディオ信号(CE)を取得し、前記利得関数(G)で前記右チャネルオーディオ信号(R)に重み付けして、重み付けされた右チャネルオーディオ信号(RE)を取得するように構成され、
    前記コンバイナ(103)が、
    前記左チャネルオーディオ信号(L)を前記重み付けされた左チャネルオーディオ信号(LE)と合成して、合成された左チャネルオーディオ信号(LEV)を取得し、前記センタチャネルオーディオ信号(C)を前記重み付けされたセンタチャネルオーディオ信号(CE)と合成して、合成されたセンタチャネルオーディオ信号(CEV)を取得し、前記右チャネルオーディオ信号(R)を前記重み付けされた右チャネルオーディオ信号(RE)と合成して、合成された右チャネルオーディオ信号(REV)を取得するように構成されている、
    信号処理装置(100)。
  2. 前記フィルタ(101)が、前記マルチチャネルオーディオ信号の前記全体振幅を表す前記測定値を、前記センタチャネルオーディオ信号(C)の振幅の前記測定値、および前記左チャネルオーディオ信号(L)と前記右チャネルオーディオ信号(R)との差の振幅の測定値の和として決定するように構成されている、請求項1に記載の信号処理装置(100)。
  3. 前記フィルタ(101)が、以下の式:
    に従って前記利得関数(G)を決定するように構成され、
    Gは前記利得関数を示し、Lは前記左チャネルオーディオ信号を示し、Cは前記センタチャネルオーディオ信号を示し、Rは前記右チャネルオーディオ信号を示し、PCは前記センタチャネルオーディオ信号(C)の振幅を表す前記測定値として前記センタチャネルオーディオ信号(C)のパワーを示し、PSは前記左チャネルオーディオ信号(L)と前記右チャネルオーディオ信号(R)との差のパワーを示し、PCとPSの和は前記マルチチャネルオーディオ信号の前記全体振幅を表す前記測定値を示し、mはサンプル時間インデックスを示し、kは周波数ビンインデックスを示す、
    請求項1または2に記載の信号処理装置(100)。
  4. 前記マルチチャネルオーディオ信号が、左サラウンドチャネルオーディオ信号(LS)および右サラウンドチャネルオーディオ信号(RS)をさらに含み、
    前記フィルタ(101)が、
    前記左サラウンドチャネルオーディオ信号(LS)および前記右サラウンドチャネルオーディオ信号(RS)に基づいて追加的に、周波数にわたる前記マルチチャネルオーディオ信号の前記全体振幅を表す前記測定値を決定し、
    前記センタチャネルオーディオ信号(C)の振幅の前記測定値、前記左チャネルオーディオ信号(L)と前記右チャネルオーディオ信号(R)との差の振幅の測定値、および前記左サラウンドチャネルオーディオ信号(LS)と前記右サラウンドチャネルオーディオ信号(RS)との差の振幅の測定値の和として、前記マルチチャネルオーディオ信号の前記全体振幅を表す前記測定値を決定する
    ように構成されている、請求項1から3のいずれか一項に記載の信号処理装置(100)。
  5. 前記左チャネルオーディオ信号(L)、前記センタチャネルオーディオ信号(C)、および前記右チャネルオーディオ信号(R)に基づいて音声アクティビティインジケータ(V)を決定するように構成された音声アクティビティ検出器(601)をさらに備えた信号処理装置(100)であって、前記音声アクティビティインジケータ(V)は前記マルチチャネルオーディオ信号内の前記音声成分の振幅を経時的に示し、
    前記コンバイナ(103)が、前記重み付けされた左チャネルオーディオ信号(LE)を前記音声アクティビティインジケータ(V)と合成して、前記合成された左チャネルオーディオ信号(LEV)を取得し、前記重み付けされたセンタチャネルオーディオ信号(CE)を前記音声アクティビティインジケータ(V)と合成して、前記合成されたセンタチャネルオーディオ信号(CEV)を取得し、前記重み付けされた右チャネルオーディオ信号(RE)を前記音声アクティビティインジケータ(V)と合成して、前記合成された右チャネルオーディオ信号(REV)を取得するように、さらに構成されている、
    請求項1から4のいずれか一項に記載の信号処理装置(100)。
  6. 前記音声アクティビティ検出器(601)が、
    前記左チャネルオーディオ信号(L)、前記センタチャネルオーディオ信号(C)、および前記右チャネルオーディオ信号(R)に基づいて前記マルチチャネルオーディオ信号の全体のスペクトル変動を表す測定値を決定し、
    前記センタチャネルオーディオ信号(C)のスペクトル変動(Fc)の測定値と前記マルチチャネルオーディオ信号の前記全体のスペクトル変動を表す前記測定値との比に基づいて、前記音声アクティビティインジケータ(V)を取得する
    ように構成されている、請求項5に記載の信号処理装置(100)。
  7. 前記音声アクティビティ検出器(601)が、以下の式:
    に従って前記音声アクティビティインジケータ(V)を決定するように構成され、
    Vは前記音声アクティビティインジケータを示し、FCは前記センタチャネルオーディオ信号(C)の前記スペクトル変動の測定値を示し、FSは前記左チャネルオーディオ信号(L)と前記右チャネルオーディオ信号(R)との差のスペクトル変動の測定値を示し、FCとFSとの和は前記マルチチャネルオーディオ信号の前記全体のスペクトル変動を表す前記測定値を示し、aは所定のスケーリング係数を示す、
    請求項6に記載の信号処理装置(100)。
  8. 前記音声アクティビティ検出器(601)が、以下の式:
    に従って、前記センタチャネルオーディオ信号(C)の前記スペクトル変動の測定値(Fc)をスペクトルフラックスとして、および前記左チャネルオーディオ信号(L)と前記右チャネルオーディオ信号(R)との前記差の前記スペクトル変動の測定値(FS)をスペクトルフラックスとして決定するように構成され、
    FCは前記センタチャネルオーディオ信号(C)のスペクトルフラックスを示し、FSは前記左チャネルオーディオ信号(L)と前記右チャネルオーディオ信号(R)との前記差のスペクトルフラックスを示し、Cは前記センタチャネルオーディオ信号を示し、Sは前記左チャネルオーディオ信号(L)と前記右チャネルオーディオ信号(R)との前記差を示し、mはサンプル時間インデックスを示し、kは周波数ビンインデックスを示す、
    請求項7に記載の信号処理装置(100)。
  9. 前記音声アクティビティ検出器(601)が、所定のローパスフィルタ機能に基づいて前記音声アクティビティインジケータ(V)を時間内にフィルタリングするように構成されている、請求項5から8のいずれか一項に記載の信号処理装置(100)。
  10. 前記コンバイナ(103)が、前記左チャネルオーディオ信号(L)、前記センタチャネルオーディオ信号(C)、および前記右チャネルオーディオ信号(R)を所定の入力利得係数(Gin)で重み付けし、前記音声アクティビティインジケータ(V)を所定のスピーチ利得係数(GS)で重み付けするようにさらに構成されている、請求項5から9のいずれか一項に記載の信号処理装置(100)。
  11. 前記コンバイナ(103)が、前記重み付けされた左チャネルオーディオ信号(LE)と前記音声アクティビティインジケータ(V)との前記合成に前記左チャネルオーディオ信号(L)を加えて、前記合成された左チャネルオーディオ信号(LEV)を取得し、前記重み付けされた左チャネルオーディオ信号(LE)と前記音声アクティビティインジケータ(V)との前記合成に前記センタチャネルオーディオ信号(C)を加えて、前記合成されたセンタチャネルオーディオ信号(CEV)を取得し、前記重み付けされた左チャネルオーディオ信号(LE)と前記音声アクティビティインジケータ(V)との前記合成に前記右チャネルオーディオ信号(R)を加えて、前記合成された右チャネルオーディオ信号(REV)を取得するように構成されている、請求項5から10のいずれか一項に記載の信号処理装置(100)。
  12. 前記左チャネルオーディオ信号(L)、前記センタチャネルオーディオ信号(C)、および前記右チャネルオーディオ信号(R)を、入力左チャネルステレオオーディオ信号(Lin)および入力右チャネルステレオオーディオ信号(Rin)に基づいて決定するように構成されたアップミキサ(301)、および/または、
    前記合成された左チャネルオーディオ信号(LEV)、前記合成されたセンタチャネルオーディオ信号(CEV)、および前記合成された右チャネルオーディオ信号(REV)に基づいて、出力左チャネルステレオオーディオ信号(Lout)および出力右チャネルステレオオーディオ信号(Rout)を決定するように構成されたダウンミキサ(303)
    をさらに備えた、請求項1から11のいずれか一項に記載の信号処理装置(100)。
  13. 前記振幅の測定値が、信号のパワー、対数パワー、振幅または対数振幅を含む、請求項1から12のいずれか一項に記載の信号処理装置(100)。
  14. マルチチャネルオーディオ信号内の音声成分を強調するための信号処理方法(200)であって、前記マルチチャネルオーディオ信号は、左チャネルオーディオ信号(L)、センタチャネルオーディオ信号(C)、および右チャネルオーディオ信号(R)を含み、前記信号処理方法(200)が、
    前記左チャネルオーディオ信号(L)、前記センタチャネルオーディオ信号(C)、および前記右チャネルオーディオ信号(R)に基づいて、周波数にわたる前記マルチチャネルオーディオ信号の全体振幅を表す測定値を決定するステップ(201)と、
    前記センタチャネルオーディオ信号(C)の振幅の測定値と前記マルチチャネルオーディオ信号の前記全体振幅を表す前記測定値との比に基づいて利得関数(G)を取得するステップ(203)と、
    前記利得関数(G)で前記左チャネルオーディオ信号(L)に重み付けして、重み付けされた左チャネルオーディオ信号(LE)を取得するステップ(205)と、
    前記利得関数(G)で前記センタチャネルオーディオ信号(C)に重み付けして、重み付けされたセンタチャネルオーディオ信号(CE)を取得するステップ(207)と、
    前記利得関数(G)で前記右チャネルオーディオ信号(R)に重み付けして、重み付けされた右チャネルオーディオ信号(RE)を取得するステップ(209)と、
    前記左チャネルオーディオ信号(L)を前記重み付けされた左チャネルオーディオ信号(LE)と合成して、合成された左チャネルオーディオ信号(LEV)を取得するステップ(211)と、
    前記センタチャネルオーディオ信号(C)を前記重み付けされたセンタチャネルオーディオ信号(CE)と合成して、合成されたセンタチャネルオーディオ信号(CEV)を取得するステップ(213)と、
    前記右チャネルオーディオ信号(R)を前記重み付けされた右チャネルオーディオ信号(RE)と合成して、合成された右チャネルオーディオ信号(REV)を取得するステップ(215)と
    を含む、信号処理方法(200)。
  15. コンピュータ上で実行される場合に請求項14に記載の方法(200)を実行するためのプログラムコードを含むコンピュータプログラム。
JP2017516852A 2014-12-12 2014-12-12 マルチチャネルオーディオ信号内の音声成分を強調するための信号処理装置 Active JP6508491B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2014/077620 WO2016091332A1 (en) 2014-12-12 2014-12-12 A signal processing apparatus for enhancing a voice component within a multi-channel audio signal

Publications (2)

Publication Number Publication Date
JP2017533459A true JP2017533459A (ja) 2017-11-09
JP6508491B2 JP6508491B2 (ja) 2019-05-08

Family

ID=52023531

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017516852A Active JP6508491B2 (ja) 2014-12-12 2014-12-12 マルチチャネルオーディオ信号内の音声成分を強調するための信号処理装置

Country Status (12)

Country Link
US (1) US10210883B2 (ja)
EP (1) EP3204945B1 (ja)
JP (1) JP6508491B2 (ja)
KR (1) KR101935183B1 (ja)
CN (1) CN107004427B (ja)
AU (1) AU2014413559B2 (ja)
BR (1) BR112017003218B1 (ja)
CA (1) CA2959090C (ja)
MX (1) MX363414B (ja)
RU (1) RU2673390C1 (ja)
WO (1) WO2016091332A1 (ja)
ZA (1) ZA201701038B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101811635B1 (ko) 2017-04-27 2018-01-25 경상대학교산학협력단 스테레오 채널 잡음 제거 장치 및 방법

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8606512B1 (en) 2007-05-10 2013-12-10 Allstate Insurance Company Route risk mitigation
US10096038B2 (en) 2007-05-10 2018-10-09 Allstate Insurance Company Road segment safety rating system
US9932033B2 (en) 2007-05-10 2018-04-03 Allstate Insurance Company Route risk mitigation
US9355423B1 (en) 2014-01-24 2016-05-31 Allstate Insurance Company Reward system related to a vehicle-to-vehicle communication system
US10096067B1 (en) 2014-01-24 2018-10-09 Allstate Insurance Company Reward system related to a vehicle-to-vehicle communication system
US9390451B1 (en) 2014-01-24 2016-07-12 Allstate Insurance Company Insurance system related to a vehicle-to-vehicle communication system
US10796369B1 (en) 2014-02-19 2020-10-06 Allstate Insurance Company Determining a property of an insurance policy based on the level of autonomy of a vehicle
US9940676B1 (en) 2014-02-19 2018-04-10 Allstate Insurance Company Insurance system for analysis of autonomous driving
US10783586B1 (en) 2014-02-19 2020-09-22 Allstate Insurance Company Determining a property of an insurance policy based on the density of vehicles
US10783587B1 (en) 2014-02-19 2020-09-22 Allstate Insurance Company Determining a driver score based on the driver's response to autonomous features of a vehicle
US10803525B1 (en) 2014-02-19 2020-10-13 Allstate Insurance Company Determining a property of an insurance policy based on the autonomous features of a vehicle
US10360926B2 (en) 2014-07-10 2019-07-23 Analog Devices Global Unlimited Company Low-complexity voice activity detection
US10269075B2 (en) * 2016-02-02 2019-04-23 Allstate Insurance Company Subjective route risk mapping and mitigation
EP3373604B1 (en) * 2017-03-08 2021-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for providing a measure of spatiality associated with an audio stream
CN107331393B (zh) * 2017-08-15 2020-05-12 成都启英泰伦科技有限公司 一种自适应语音活动检测方法
CN107863099B (zh) * 2017-10-10 2021-03-26 成都启英泰伦科技有限公司 一种新型双麦克风语音检测和增强方法
US10511909B2 (en) 2017-11-29 2019-12-17 Boomcloud 360, Inc. Crosstalk cancellation for opposite-facing transaural loudspeaker systems
US11290802B1 (en) * 2018-01-30 2022-03-29 Amazon Technologies, Inc. Voice detection using hearable devices
CN108182945A (zh) * 2018-03-12 2018-06-19 广州势必可赢网络科技有限公司 一种基于声纹特征的多人声音分离方法及装置
US10567878B2 (en) 2018-03-29 2020-02-18 Dts, Inc. Center protection dynamic range control
US11551671B2 (en) * 2019-05-16 2023-01-10 Samsung Electronics Co., Ltd. Electronic device and method of controlling thereof
CN117133305A (zh) * 2023-04-27 2023-11-28 荣耀终端有限公司 立体声降噪方法、设备及存储介质
CN117692846A (zh) * 2023-07-05 2024-03-12 荣耀终端有限公司 一种音频播放方法、终端设备、存储介质及程序产品

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10303666A (ja) * 1997-02-25 1998-11-13 Victor Co Of Japan Ltd デジタルオーディオ信号処理用記録媒体及びデジタルオーディオ信号用の通信方法並びにデジタルオーディオ記録媒体
JP2001238300A (ja) * 2000-02-23 2001-08-31 Fujitsu Ten Ltd 音量値算出方法
JP2005229544A (ja) * 2004-02-16 2005-08-25 Yamaha Corp 音量制御装置
WO2009004718A1 (ja) * 2007-07-03 2009-01-08 Pioneer Corporation 楽音強調装置、楽音強調方法、楽音強調プログラムおよび記録媒体
JP2010518655A (ja) * 2006-09-14 2010-05-27 エルジー エレクトロニクス インコーポレイティド ダイアログ増幅技術
JP2012034295A (ja) * 2010-08-02 2012-02-16 Nippon Hoso Kyokai <Nhk> 音響信号変換装置及び音響信号変換プログラム
JP2012169781A (ja) * 2011-02-10 2012-09-06 Sony Corp 音声処理装置および方法、並びにプログラム
US20140270185A1 (en) * 2013-03-13 2014-09-18 Dts Llc System and methods for processing stereo audio content

Family Cites Families (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1522599A (en) * 1974-11-16 1978-08-23 Dolby Laboratories Inc Centre channel derivation for stereophonic cinema sound
US4799260A (en) * 1985-03-07 1989-01-17 Dolby Laboratories Licensing Corporation Variable matrix decoder
US5046098A (en) * 1985-03-07 1991-09-03 Dolby Laboratories Licensing Corporation Variable matrix decoder with three output channels
US4866774A (en) * 1988-11-02 1989-09-12 Hughes Aircraft Company Stero enhancement and directivity servo
WO2001018794A1 (en) * 1999-09-10 2001-03-15 Wisconsin Alumni Research Foundation Spectral enhancement of acoustic signals to provide improved recognition of speech
US6920223B1 (en) * 1999-12-03 2005-07-19 Dolby Laboratories Licensing Corporation Method for deriving at least three audio signals from two input audio signals
US6757395B1 (en) * 2000-01-12 2004-06-29 Sonic Innovations, Inc. Noise reduction apparatus and method
WO2002015395A1 (en) * 2000-07-27 2002-02-21 Clear Audio Ltd. Voice enhancement system
PT1362499E (pt) * 2000-08-31 2012-04-18 Dolby Lab Licensing Corp Processo para dispositivo para descodificação matricial áudio
JP2003084790A (ja) * 2001-09-17 2003-03-19 Matsushita Electric Ind Co Ltd 台詞成分強調装置
US7257231B1 (en) * 2002-06-04 2007-08-14 Creative Technology Ltd. Stream segregation for stereo signals
US7970144B1 (en) * 2003-12-17 2011-06-28 Creative Technology Ltd Extracting and modifying a panned source for enhancement and upmix of audio signals
DE602004010188T2 (de) * 2004-03-12 2008-09-11 Nokia Corp. Synthese eines mono-audiosignals aus einem mehrkanal-audiosignal
JP3892478B2 (ja) * 2004-04-06 2007-03-14 松下電器産業株式会社 音声再生装置
US20060182284A1 (en) * 2005-02-15 2006-08-17 Qsound Labs, Inc. System and method for processing audio data for narrow geometry speakers
KR100608025B1 (ko) * 2005-03-03 2006-08-02 삼성전자주식회사 2채널 헤드폰용 입체 음향 생성 방법 및 장치
JP5587551B2 (ja) * 2005-09-13 2014-09-10 コーニンクレッカ フィリップス エヌ ヴェ オーディオ符号化
US7974713B2 (en) * 2005-10-12 2011-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Temporal and spatial shaping of multi-channel audio signals
JP4637725B2 (ja) * 2005-11-11 2011-02-23 ソニー株式会社 音声信号処理装置、音声信号処理方法、プログラム
US20160066087A1 (en) * 2006-01-30 2016-03-03 Ludger Solbach Joint noise suppression and acoustic echo cancellation
JP4946305B2 (ja) * 2006-09-22 2012-06-06 ソニー株式会社 音響再生システム、音響再生装置および音響再生方法
US8050434B1 (en) * 2006-12-21 2011-11-01 Srs Labs, Inc. Multi-channel audio enhancement system
EP2119306A4 (en) * 2007-03-01 2012-04-25 Jerry Mahabub SOUND SPECIALIZATION AND ENVIRONMENT SIMULATION
KR101336237B1 (ko) * 2007-03-02 2013-12-03 삼성전자주식회사 멀티 채널 스피커 시스템의 멀티 채널 신호 재생 방법 및장치
KR101141033B1 (ko) * 2007-03-19 2012-05-03 돌비 레버러토리즈 라이쎈싱 코오포레이션 스피치 개선을 위한 노이즈 분산 추정기
KR101163411B1 (ko) * 2007-03-19 2012-07-12 돌비 레버러토리즈 라이쎈싱 코오포레이션 지각 모델을 사용한 스피치 개선
US8180062B2 (en) * 2007-05-30 2012-05-15 Nokia Corporation Spatial sound zooming
ATE514163T1 (de) * 2007-09-12 2011-07-15 Dolby Lab Licensing Corp Spracherweiterung
US8606566B2 (en) * 2007-10-24 2013-12-10 Qnx Software Systems Limited Speech enhancement through partial speech reconstruction
WO2009086174A1 (en) * 2007-12-21 2009-07-09 Srs Labs, Inc. System for adjusting perceived loudness of audio signals
WO2009128078A1 (en) * 2008-04-17 2009-10-22 Waves Audio Ltd. Nonlinear filter for separation of center sounds in stereophonic audio
EP2373067B1 (en) 2008-04-18 2013-04-17 Dolby Laboratories Licensing Corporation Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience
EP2151822B8 (en) 2008-08-05 2018-10-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an audio signal for speech enhancement using a feature extraction
CN101437094A (zh) * 2008-12-04 2009-05-20 中兴通讯股份有限公司 移动终端立体声背景噪声抑制方法及装置
TWI449442B (zh) * 2009-01-14 2014-08-11 Dolby Lab Licensing Corp 用於無回授之頻域主動矩陣解碼的方法與系統
WO2010091480A1 (en) * 2009-02-16 2010-08-19 Peter John Blamey Automated fitting of hearing devices
JP5564803B2 (ja) * 2009-03-06 2014-08-06 ソニー株式会社 音響機器及び音響処理方法
US8705769B2 (en) * 2009-05-20 2014-04-22 Stmicroelectronics, Inc. Two-to-three channel upmix for center channel derivation
US8000485B2 (en) * 2009-06-01 2011-08-16 Dts, Inc. Virtual audio processing for loudspeaker or headphone playback
CN101695150B (zh) * 2009-10-12 2011-11-30 清华大学 多声道音频编码方法、编码器、解码方法和解码器
US9324337B2 (en) * 2009-11-17 2016-04-26 Dolby Laboratories Licensing Corporation Method and system for dialog enhancement
TWI459828B (zh) * 2010-03-08 2014-11-01 Dolby Lab Licensing Corp 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統
CN101894559B (zh) * 2010-08-05 2012-06-06 展讯通信(上海)有限公司 音频处理方法及其装置
CN102402977B (zh) * 2010-09-14 2015-12-09 无锡中星微电子有限公司 从立体声音乐中提取伴奏、人声的方法及其装置
US8898058B2 (en) * 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
EP2664062B1 (en) * 2011-01-14 2015-08-19 Huawei Technologies Co., Ltd. A method and an apparatus for voice quality enhancement
US9305567B2 (en) * 2012-04-23 2016-04-05 Qualcomm Incorporated Systems and methods for audio signal processing
EP3462452A1 (en) * 2012-08-24 2019-04-03 Oticon A/s Noise estimation for use with noise reduction and echo cancellation in personal communication
WO2014039028A1 (en) * 2012-09-04 2014-03-13 Nuance Communications, Inc. Formant dependent speech signal enhancement
EP2898510B1 (en) * 2012-09-19 2016-07-13 Dolby Laboratories Licensing Corporation Method, system and computer program for adaptive control of gain applied to an audio signal
EP2733964A1 (en) * 2012-11-15 2014-05-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Segment-wise adjustment of spatial audio signal to different playback loudspeaker setup
JP6135106B2 (ja) * 2012-11-29 2017-05-31 富士通株式会社 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム
WO2015062649A1 (en) * 2013-10-30 2015-05-07 Huawei Technologies Co., Ltd. Method and mobile device for processing an audio signal
CN103632666B (zh) * 2013-11-14 2016-09-28 华为技术有限公司 语音识别方法、语音识别设备和电子设备
CN105336341A (zh) * 2014-05-26 2016-02-17 杜比实验室特许公司 增强音频信号中的语音内容的可理解性
CN104134444B (zh) * 2014-07-11 2017-03-15 福建星网视易信息系统有限公司 一种基于mmse的歌曲去伴奏方法和装置
US10332541B2 (en) * 2014-11-12 2019-06-25 Cirrus Logic, Inc. Determining noise and sound power level differences between primary and reference channels
US9747923B2 (en) * 2015-04-17 2017-08-29 Zvox Audio, LLC Voice audio rendering augmentation

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10303666A (ja) * 1997-02-25 1998-11-13 Victor Co Of Japan Ltd デジタルオーディオ信号処理用記録媒体及びデジタルオーディオ信号用の通信方法並びにデジタルオーディオ記録媒体
JP2001238300A (ja) * 2000-02-23 2001-08-31 Fujitsu Ten Ltd 音量値算出方法
JP2005229544A (ja) * 2004-02-16 2005-08-25 Yamaha Corp 音量制御装置
JP2010518655A (ja) * 2006-09-14 2010-05-27 エルジー エレクトロニクス インコーポレイティド ダイアログ増幅技術
WO2009004718A1 (ja) * 2007-07-03 2009-01-08 Pioneer Corporation 楽音強調装置、楽音強調方法、楽音強調プログラムおよび記録媒体
JP2012034295A (ja) * 2010-08-02 2012-02-16 Nippon Hoso Kyokai <Nhk> 音響信号変換装置及び音響信号変換プログラム
JP2012169781A (ja) * 2011-02-10 2012-09-06 Sony Corp 音声処理装置および方法、並びにプログラム
US20140270185A1 (en) * 2013-03-13 2014-09-18 Dts Llc System and methods for processing stereo audio content

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101811635B1 (ko) 2017-04-27 2018-01-25 경상대학교산학협력단 스테레오 채널 잡음 제거 장치 및 방법

Also Published As

Publication number Publication date
US20170154636A1 (en) 2017-06-01
BR112017003218A2 (pt) 2017-11-28
EP3204945A1 (en) 2017-08-16
CA2959090C (en) 2020-02-11
AU2014413559A1 (en) 2017-03-02
MX2017003698A (es) 2017-06-30
WO2016091332A1 (en) 2016-06-16
AU2014413559B2 (en) 2018-10-18
KR101935183B1 (ko) 2019-01-03
MX363414B (es) 2019-03-22
EP3204945B1 (en) 2019-10-16
CN107004427A (zh) 2017-08-01
ZA201701038B (en) 2018-04-25
JP6508491B2 (ja) 2019-05-08
RU2673390C1 (ru) 2018-11-26
KR20170042709A (ko) 2017-04-19
CA2959090A1 (en) 2016-06-16
US10210883B2 (en) 2019-02-19
CN107004427B (zh) 2020-04-14
BR112017003218B1 (pt) 2021-12-28

Similar Documents

Publication Publication Date Title
JP6508491B2 (ja) マルチチャネルオーディオ信号内の音声成分を強調するための信号処理装置
US10650796B2 (en) Single-channel, binaural and multi-channel dereverberation
US8731209B2 (en) Device and method for generating a multi-channel signal including speech signal processing
RU2596592C2 (ru) Пространственный аудио процессор и способ обеспечения пространственных параметров на основе акустического входного сигнала
EP3035330B1 (en) Determining the inter-channel time difference of a multi-channel audio signal
RU2663345C2 (ru) Устройство и способ масштабирования центрального сигнала и улучшения стереофонии на основе отношения сигнал-понижающее микширование
KR101710544B1 (ko) 스펙트럼 무게 발생기를 사용하는 주파수-영역 처리를 이용하는 스테레오 레코딩 분해를 위한 방법 및 장치
JP2023536104A (ja) 機械学習を用いたノイズ削減
US20240161762A1 (en) Full-band audio signal reconstruction enabled by output from a machine learning model
JP2012027101A (ja) 音声再生装置、音声再生方法、プログラム、及び、記録媒体

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170509

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170509

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180605

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180905

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190319

R150 Certificate of patent or registration of utility model

Ref document number: 6508491

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250