JP2010539792A - スピーチ増強 - Google Patents

スピーチ増強 Download PDF

Info

Publication number
JP2010539792A
JP2010539792A JP2010524855A JP2010524855A JP2010539792A JP 2010539792 A JP2010539792 A JP 2010539792A JP 2010524855 A JP2010524855 A JP 2010524855A JP 2010524855 A JP2010524855 A JP 2010524855A JP 2010539792 A JP2010539792 A JP 2010539792A
Authority
JP
Japan
Prior art keywords
speech
channel
audio signal
spectrum
flattening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010524855A
Other languages
English (en)
Inventor
ブラウン、シー・フィリップ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of JP2010539792A publication Critical patent/JP2010539792A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

スピーチを増強する方法であって、オーディオ信号の中央チャンネルを抽出して、中央チャンネルのスペクトルを平坦化して、平坦化されたスピーチ・チャンネルにオーディオ信号を混合することにより、オーディオ信号における任意のスピーチを増強することを含む。また、複数のチャンネルによりオーディオ信号から音の中央チャンネルを抽出する方法、オーディオ信号のスペクトルを平坦化する方法、及びオーディオ信号におけるスピーチを検出する方法が開示される。更に、スピーチエンハンサが開示され、これはオーディオ信号の中央チャンネルを抽出するための抽出器と、前記中央チャンネルのスペクトルを平坦化するためのスペクトル平坦化器と、前記中央チャンネルにおけるスピーチ検出における信頼度を生成するスピーチ信頼度生成器と、前記平坦化されたスピーチ・チャンネルを原オーディオ信号に、検出されたスピーチの信頼度に比例して混合することにより、オーディオ信号における任意のスピーチを増強するミキサとを備える。
【選択図】図1

Description

発明の詳細な説明
発明の開示
本明細書は、複数のチャンネルでオーディオ信号から音の中央チャンネルを抽出して、オーディオ信号のスペクトルを平坦化して、オーディオ信号におけるスピーチ(発話)を検出して、スピーチを引き立たせる方法及び装置を説明する。複数のチャンネルによりオーディオ信号から音の中央チャンネルを抽出する方法は、(1)候補中央チャンネルの比αより小さいオーディオ信号の第1のチャンネル及び(2)候補中央チャンネルの比αより小さいオーディオ信号の第2のチャンネルの共役を乗じて、αを概ね最小化して、候補中央チャンネルにその概ね最小化されたαを乗じることにより、抽出された中央チャンネルを形成することを含む。
オーディオ信号のスペクトルを平坦化する方法は、推定されたスピーチ・チャンネルを知覚帯域に分離して、知覚帯域のうちの何れが最も多くのエネルギを有しているかを判定し、より少ないエネルギを有する知覚帯域の利得を増大させることにより、オーディオ信号における任意のスピーチのスペクトルを平坦化させることを含んでもよい。この増大は、より少ないエネルギを有する知覚帯域の利得を最大まで増大することを含んでもよい。
オーディオ信号におけるスピーチを検出する方法は、オーディオ信号の候補中央チャンネルにおけるスペクトル変動を測定し、候補中央チャンネルよりも少ないオーディオ信号のスペクトル変動を測定して、これらスペクトル変動を比較することにより、オーディオ信号におけるスピーチを検出することを含んでもよい。
スピーチを増強する方法は、オーディオ信号の中央チャンネルを抽出して、中央チャンネルのスペクトルを平坦化して、平坦化されたスピーチ・チャンネルにオーディオ信号を混合することにより、オーディオ信号における任意のスピーチを増強することを含んでもよい。この方法は、中央チャンネルにおけるスピーチ検出に信頼度を生成することを更に含んでもよく、その混合は、平坦化されたスピーチ・チャンネルにオーディオ信号を、検出されたスピーチを有する信頼度に比例させて混合することを含んでもよい。その信頼度は、可能性確率が最も低いものから可能性確率が最も高いものまで変動し得るので、その生成は、最低可能性確率よりも高く、且つ最高可能性確率よりも低い値に対して生成された信頼度を制限することを更に含んでもよい。その抽出は、上述した方法を用いて、オーディオ信号の中央チャンネルを抽出することを含んでもよい。上述の平坦化は、上述の方法を用いて中央チャンネルのスペクトルを平坦化することを含んでもよい。上述の生成は、上述の方法を用いて中央チャンネルにおけるスピーチ検出に信頼度を生成することを含んでもよい。
上述の抽出は、上述の方法を用いてオーディオ信号の中央チャンネルを抽出することを含んでもよく、上述の平坦化は、上述の方法を用いて中央チャンネルのスペクトルを平坦化することを含んでもよく、上述の生成は、上述の方法を用いて中央チャンネルにおけるスピーチ検出に信頼度を生成することを含んでもよい。
本明細書は、上述の方法の何れかを実行するコンピュータ・プログラムが格納されたコンピュータ読み取り可能な記録媒体のみならず、CPU、該記録媒体、及びこれらCPUと記録媒体とを結合するバスとを含むコンピュータ・システムを教示する。
本発明の一つの実施例によるスピーチ・エンハンサーの機能ブロック図である。 計40帯域をもたらす間隔1ERBのフィルタの適宜なセットを表す図である。 本発明の一つの実施例による混合プロセスを説明する図である。 本発明の一つの実施例によるコンピュータ・システムを例示する図である。
発明を実施するための最良の形態
図1は本発明の一つの実施例によるスピーチ・エンハンサーの機能ブロック図である。スピーチ・エンハンサー1は、入力信号17、離散フーリエ変換器10a,10b、中央チャンネル抽出器11、スペクトル平坦化器12、発声活動検出器13、可変利得増幅器15,15c、逆離散フーリエ変換器18a,18b及び出力信号18を含む。入力信号17はそれぞれ左右のチャンネ17a,17bから成り、同様に出力信号18はそれぞれ左右のチャンネル18a,18bから成る。
各々の離散フーリエ変換器18は、入力として入力信号17の左右チャンネル17a,17bを受け取って、出力として変換19a,19bを形成する。中央チャンネル抽出器11は、変換19を受け取って、出力として仮の中央チャンネルC20を形成する。スペクトル平坦化器12は入力として仮の中央チャンネルC20を受け取って、成形された中央チャンネル24を出力として形成し、一方、発声活動検出器13は同じ入力C20を受け取って、一方では可変利得増幅器14a及び14cのための制御信号22を、他方では可変利得増幅器14bのための制御信号21を、出力として形成する。
増幅器14aは、入力及び制御信号として、左チャンネル変換19a及び発声活動検出器13の出力制御信号22をそれぞれ受け取る。同様に、増幅器14cは、入力及び制御信号として、右チャンネル変換19b及び発声活動検出器出力制御信号22をそれぞれ受け取る。増幅器14bは、入力及び制御信号として、スペクトル的に成形された中央チャンネル24及びスペクトル平坦化器12の出力発声活動検出器制御信号21を受け取る。
ミキサー15aは、増幅器14からの出力である利得調整された左変換23aと、利得調整されたスペクトル的に成形された中央チャンネル25とを受け取って、出力として信号26aを形成する。同様に、ミキサー15bは、増幅器14cからの利得調整された右変換23bと、利得調整されたスペクトル的に成形された中央チャンネル25とを受け取って、出力として信号26bを形成する。
逆変換器18a,18bは、各々の信号26a,26bを受け取って、それぞれ導出された左及び右チャンネル信号L’18a及びR’18bを形成する。
スピーチ・エンハンサー1の操作を以下に更に詳細に説明する。中央チャンネル抽出、スペクトル平坦化、発声活動検出及び混合の処理については、一つの実施例に沿って最初は概略的に次いでより詳細に順番に説明する。
中央チャンネル抽出
以下のように仮定する。
(1)対象17の信号はスピーチを包含する。
(2)多重チャンネル信号(即ち、左及び右、又はステレオ)の場合、スピーチは中央にパンされる。
(3)実際のパンされた中央は、音源左右信号の比アルファ(α)から成る。
(4)その比の減算の結果は一対の直交信号である。
これらの仮定の下に操作して、中央チャンネル抽出器11はステレオ信号17から中央にパンされたコンテンツC20を抽出する。中央にパンされたコンテンツのために、左右両方のチャンネルの同一の領域は、その中央にパンされたコンテンツを含む。中央にパンされたコンテンツは、左右両方のチャンネルから同一部分を除去することにより抽出される。
残りの左右信号について(ブロックのフレーム上で、或いは新しいブロックが入る毎に連続的に更新される方法を用いて)、LR*=0(ここで*は共役を示す)を計算し、比αが零に充分に近い値になるまで調整するようにしてもよい。
スペクトル平坦化
聴覚フィルタは、推定されたスピーチ・チャンネルにおけるスピーチを知覚帯域へ分離する。最も多くのエネルギを有する帯域、データの各々のブロックについて判定される。そのブロックについてのスピーチ・チャンネルのスペクトル形状は、残りの帯域における低エネルギを補償するために修正される。このスペクトルは平坦化される。低エネルギを有すr帯域は、或る最大限まで増大された利得を持つ。一つの実施形態においては、全ての帯域は最大利得を共有してもよい。代替的な実施形態においては、各々の帯域は、それ自身の最大利得を有してもよい。(全ての帯域が同じエネルギを有するという望ましくない場合には、スペクトルは既に平坦である。スペクトル成形が生じないか、或いはスペクトル成形が同一の機能により達成されることも考慮されるであろう。)
スペクトル平坦化はチャンネルのコンテンツとは無関係に生じる。非スピーチを処理してもよいが、これがシステムにおいて後で用いられることはない。非スピーチは、スピーチとは非常に異なるスペクトルを有するので、非スピーチのための平坦化は、通常はスピーチについてのものと同じではない。
発声活動検出器
推定されたスピーチが単独のチャンネルへ分離されると、それはスピーチ・コンテンツについて分析される(それはスピーチを包含するか?)。コンテンツはスペクトル平坦化とは独立に分析される。スピーチ・コンテンツは、データの隣接するフレームにおけるスペクトル変動を測定することにより判定される。(各々のフレームはデータの多くのブロックから成り得るが、フレームは一般に48kHzサンプル・レートの2、4、又は8ブロックである。)
スピーチ・チャンネルがステレオから抽出されるところでは、残りのステレオ信号がスピーチ分析に役立つであろう。この概念は、任意の多重チャンネル源における隣接するチャンネルにより一般的に適用される。
ミキシング
スピーチが存在すると見做されるとき、平坦化されたスピーチ・チャンネルは、スピーチ・チャンネルが実際にスピーチを包含するという信頼度に関連する或る割合で原信号と混合される。一般に、信頼度が高いときは、より多くの平坦化スピーチ・チャンネルが用いられる。信頼度が低いときは、より少ない平坦化スピーチ・チャンネルが用いられる。
中央チャンネル抽出、スペクトル平坦化、発性声活動検出及び混合の処理について、一つの実施例によって更に詳細に順番に説明する。
2チャンネル源からの仮の中央及びサラウンド・チャンネル抽出
スピーチ増強によれば、中央にパンされたオーディオのみを抽出、処理、及び再挿入することが望まれる。ステレオ混合においては、スピーチは最も頻繁に中央へパンされる。
ここで、中央にパンされたオーディオ(仮の中央チャンネル)の2チャンネル混合物からの抽出について説明する。数学的な証明は第1の部分を構成する。第2の部分は、この証明を実環境ステレオ信号に適用して、仮の中央を導出する。
仮の中央が原ステレオから取り去られると、直交チャンネルを有するステレオ信号が残る。類似の方法は、周辺にパンされたオーディオから仮のサラウンド・チャンネルを導出する。
中央チャンネル抽出−数学的証明
或る2チャンネル信号が与えられると、そのチャンネルは左(L)と右(R)に分けられるであろう。この左右のチャンネルの各々は、共通の情報のみならず、各々に固有の情報を包含する。共通の情報をC(中央にパンされている)、固有の情報を左のみ右のみについてそれぞれL及びRとして表すことができる。
Figure 2010539792
「固有」とはL及びRが互いに直交することを意味する。
Figure 2010539792
L及びRを実数と虚数部分とへ分けると、
Figure 2010539792
ここで、LrはLの実数部分、LiはLの虚数部分であり、Rについても同様である。いま、中央にパンされたCをL及びRから減じることにより、非直交対(L及びR)から直交対(L及びR)が形成されたものと見做す。
Figure 2010539792
ここでC=αC(但し、Cは推定された中央チャンネルであり、αは倍率である)とすると、
Figure 2010539792
式(6)及び式(7)を式(3)へ代入すると、
Figure 2010539792
式(8)は二次方程式の形になり、
Figure 2010539792
ここで累乗根は以下のように得られる。
Figure 2010539792
ここで式(6)及び式(7)におけるCを、
Figure 2010539792
として、実数と虚数とに分けると、
Figure 2010539792
すると、二次方程式(9)においては、
Figure 2010539792
式(14)、式(15)及び式(16)を式(10)へ代入して、αについて解くと、
Figure 2010539792
αに対する解について負の根を選び、周辺にパンされた情報による混乱を避けるためαを範囲{0,0.5}に限定する(但し、その値は本発明には重要ではない)。仮の中央チャンネル式は以下のようになる。
Figure 2010539792
ここで、
Figure 2010539792
である。(min{ }及びmax{ }関数は、αを範囲{0,0.5}に制限するが、その値は本発明には重要ではない。)
仮のサラウンド・チャンネルは同様にして以下のように導ける。
Figure 2010539792
ここでSは、原ステレオ対(L,R)において周囲にパンされたオーディオであり、且つSは(L−R)になるものと仮定する。この場合も、βに対する解について負の根を選び、周辺にパンされた情報による混乱を避けるためβを範囲{0,0.5}に限定する(但し、その値は本発明には重要ではない)。
いまやC及びSが導出されたので、これらを原ステレオ対(L及びR)から除去して、二つの原チャンネルからオーディオの四つのチャンネルを形成することができる。即ち、
Figure 2010539792
ここでL’は導出された左チャンネル、Cは導出された中央チャンネル、R’は導出された右チャンネル、Sは導出されたサラウンド・チャンネルである。
中央チャンネル抽出−適用
上述のように、スピーチ増強方法にとって、その主要な懸念は中央チャンネルの抽出である。この部分において、上述の技術は、オーディオ信号の複雑な周波数領域表現に適用される。
仮の中央チャンネル抽出の第1段階は、オーディオ・サンプルのブロックでDFTを実行し、その結果として生じる変換係数を得ることである。DFTのブロック・サイズはサンプリング・レートに依存する。例えば48kHzのサンプリング・レートfにおいては、N=512サンプルのブロック・サイズが可能である。ハミング・ウインドウのようなウィンドーイング関数w[n]により、変換の適用に先立ってサンプルのブロックを重み付けする。
Figure 2010539792
ここでnは整数であり、Nはブロックにおけるサンプルの数である。
DFT係数を次式(25)で以下のように計算する。
Figure 2010539792
ここでx[n,c]はブロックmのチャンネルcにおけるサンプル番号nであり、jは虚数単位(j=−1)であり、X[k,c]はブロックmにおけるサンプルについてのチャンネルcにおける変換係数kである。チャンネルの数は三つ、即ち、左、右、及び仮の中央(x[n,c]の場合においては、左及び右のみ)であることに留意されたい。以下の方程式において、左チャンネルはc=1として表され、仮の中央チャンネルはc=2(未だ導出されていない)、右チャンネルはc=3として表される。また、高速フーリエ変換(FFT)はDFTを効率的に実行する。
左と右との和及び差は、原則として周波数ビン毎に求めた。実数及び虚数部分はグループ分けして二乗した。各ビンは、αを計算するのに先立ってブロック間で平滑化した。この平滑化は、可聴なアーチファクト(これは、ビンにおけるパワーがデータのブロック間で急激に変化したときに生じる)を低減させる。平滑化は、例えば、漏れ積分回路(leaky integrator)、非線形スムーザー、線形且つ多極のローパス・スムーザー、或いは更に精巧なスムーザーで実行してもよい。
Figure 2010539792
ここでRe{ }は実数部分であり、Im{ }は虚数部分であり、λは漏れ積分回路係数である。漏れ積分回路はローパス・フィルタリング効果を有し、λについての代表的な値は0.9である。次に、ブロックmについての抽出係数αは式(19)を用いて以下のように導かれる。
Figure 2010539792
そして、ブロックmについての仮の中央チャンネルは式(18)を用いて以下のように導かれる。
Figure 2010539792
スペクトル平坦化
以下、本発明のスペクトル平坦化の実施例を説明する。大部分がスピーチである単独のチャンネルを仮定し、そのスピーチ信号を離散フーリエ変換(DFT)又は関連した変換によって周波数領域へ変換する。振幅スペクトルは、変換周波数ビンを二乗することによってパワースペクトルへ変換する。
次いで、周波数ビンは臨界若しくは聴覚フィルタ・スケールで可能な帯域へ分類する。スピーチ信号を臨界帯域へ分割することは、人間の聴覚系(特に蝸牛)によく似ている。これらのフィルタは、概ね丸められた指数形を示して、等価長矩形帯域幅(ERB)スケールで均一に間隔をあけられる。このERBスケールは、音響心理学で用いられる単なる尺度であって、聴覚フィルタの帯域幅及び間隔を概算する。図2は1ERBの間隔を有するフィルタの適宜なセットを表しており、合計40の帯域がもたらされる。オーディオ・データの帯域化も可聴なアーチファクト(これは、原則としてビン毎に処理するときに生じる)を除去するのに役立つ。次いで、臨界帯域パワーを時間に対して平滑化する。即ち、隣接するブロックに亘って平滑化する。
平滑化された臨界帯域のうちの最大出力を求めて、対応する利得を残りの(非最大)帯域について計算して、それらの出力を最大出力へ近似させる。利得補償は、基底膜の圧縮(非線形)特性に類似する。これらの利得は、飽和を避けるために、最大値へ制限される。これらの利得を原信号へ適用するためには、これらを変換してDFTフォーマットへ戻さねばならない。従って、帯域毎出力利得は最初に周波数ビン出力利得へ変換して戻し、次いでビン毎出力利得を各ビンの平方根を採ることにより振幅利得へ変換する。かくして原信号変換ビンには、計算されたビン毎振幅利得を乗じることができる。次いでスペクトル平坦化信号を変換して周波数領域から時間領域へ戻す。仮の中央の場合、これは時間領域へ復帰させるのに先立って、先ず原信号と混合する。図3はその処理を説明している。
上述のスペクトル平坦化システムは、入力された信号の特性を考慮していない。非スピーチ信号が平坦化されるならば、音質における知覚可能な変化は深刻なものとなろう。非スピーチ信号の処理を避けるために、上述の方法は、発声活動検出器13に結び付けることができる。発声活動検出器13がスピーチの存在を示すとき、平坦化スピーチが用いられる。
平坦化すべき信号は、上述のようにして周波数領域へ既に変換されていると仮定する。単純化のために、上記に用いられたチャンネル表記法は省略した。DFT係数を出力へ変換して、次いでDFT領域から臨界帯域へ変換する。
Figure 2010539792
ここでH[k,p]はP臨界帯域フィルタである。
次いで各帯域における出力を、脳の皮質レベルで生じる時間積分と同様に、ブロック間で平滑化する。平滑化は、例えば、漏れ積分回路、非線形スムーザー、線形且つ多極ローパス・スムーザー、或いは更に精巧なスムーザーにより実行してもよい。この平滑化も遷移挙動(これは、利得にブロック間の急激な変動を引き起こし、可聴なポンピングをもたらす)を除去するのに役立つ。次にピーク出力は以下のように求められる。
Figure 2010539792
ここでE[p]は平滑化された臨界帯域出力、λは漏れ積分回路係数、及びEmaxはピーク出力である。漏れ積分回路はローパス・フィルタリング効果を有しており、その利得はλについての代表的な値が0.9である。
次に帯域毎出力利得を求め、最大利得を過度な補償を避けるように制限すると、
Figure 2010539792
を得る。ここでG[p]は各帯域へ適用すべき出力利得、Gmaxは許容できる最大出力利得であり、γはスペクトルの平坦化の度合を決定する。実際には、γは1に近似する。指定された利得の量に対する他の汎用制限のみならず、システムが処理を実行するならば、Gmaxはダイナミック・レンジ(又は無歪限界)に依存する。Gmaxについての代表的な値は20dBである。
次に帯域毎出力利得をビン毎出力に変換して、平方根を採ってビン毎振幅利得を得る。
Figure 2010539792
ここでY[k]はビン毎振幅利得である。
次に振幅利得を発声活動検出器出力21,22に基づいて修正する。発声活動検出のための方法を本発明の一つの実施例によって以下に説明する。
発声活動検出
スペクトル束は、信号の出力スペクトルが変化する速度を測定し、オーディオの隣接するフレームの間の出力を比較する。(フレームは、オーディオ・データの複数のブロックである。)スペクトル束は、発声活動検出、或いは「スピーチ対オーディオ分類における他の判定がなされたもの」を示す。多くの場合、付加的な指標が用いられ、その結果は、オーディオが本当にスピーチであるか否かの判定をなすために集積される。
一般に、スピーチのスペクトル束は音楽のそれよりも若干高い。即ち、音楽スペクトルは、フレーム間でスピーチ・スペクトルよりも安定する傾向にある。
ステレオの場合、スペクトルの中央チャンネルが抽出されるところで、DFT係数は先ず中央と横のオーディオ(原ステレオから仮の中央を減じたもの)に分けられる。これは、伝統的な中間/横ステレオ処理とは異なっており、伝統的な中間/横ステレオ処理が一般に(L+R)/2,(L−R)/2であるのに対し、中央/横処理はC,L+R−2Cである。
上述したように周波数領域へ変換された信号によれば、DFT係数は出力へ変換されて、次いでDFT領域から臨界帯域領域へ変換される。臨界帯域出力は次いで中央と横との両方のスペクトル束を計算するのに用いられる。
Figure 2010539792
ここでX[p]は仮の中央の臨界帯域表現、S[p]は残りの信号(左と右との和から中央を減じたもの)の臨界帯域表現であり、H[k,p]は上述したようにP臨界帯域フィルタである。
データの穿孔する2Jブロックから(中央及び横振幅について)二つのフレーム・バッファを形成する。
Figure 2010539792
次の段階は、現在のフレームと先行するフレームとの平均出力から中央チャンネルについての加重Wを計算する。これは帯域の限られた範囲に亘ってなされる。
Figure 2010539792
帯域バンドの範囲は、スピーチの主要な帯域幅約100−8000Hzに限定される。中央と側方との両方についての非加重スペクトル束は次のように計算される。
Figure 2010539792
ここでF(m)は中央の非加重スペクトル束であり、F(m)は側面の非加重スペクトル束である。
従ってスペクトル束の偏った推定値は以下のように計算される。
Figure 2010539792
であるならば、
Figure 2010539792
さもなければ、
Figure 2010539792
である。ここでFTot(m)は全束推定値であり、Wminは許容される最小加重である。Wminはダイナミック・レンジに依存するが、代表的な値はWmin=―60dBである。
スペクトル束についての最終的な平滑化値は、単純な一次IIRローパス・フィルタによりFTot(m)の値をローパス・フィルタリングすることにより計算される。このフィルタは信号のサンプル・レート及びブロックの大きさに依存するが、一実施形態においては、f=48kHzについて0.025*fの正規化カットオフを有する一次ローパス・フィルタにより規定できる。ここでfはディジタル・システムのサンプル・レートである。
Tot(m)はかくして次の範囲に短縮される。即ち、
Figure 2010539792
であるから、
Figure 2010539792
(min{}及びmax{}関数は、本実施例によればFTot(m)を{0,1}に制限する。)
混合
平坦化された中央チャンネルは、発声活動検出器の出力に基づいて原オーディオン信号と混合される。
(上述に示す通りの)スペクトル平坦化についてのビン当りの振幅利得Y[k]は、(上述のように導かれるように)仮の中央チャンネルX[k,2]へ適用される。
Figure 2010539792
発声活動検出器13が、スピーチを検知するときはFTot(m)=1とし、非スピーチを検知するときはFTot(m)=0とする。0と1との間の値が可能であり、これは発声活動検出器13がスピーチの存在について軟判定をなす場合に得られる。
左チャンネルについて、
Figure 2010539792
同様に、右チャンネルについて、
Figure 2010539792
実際には、FTotは値の狭い範囲に限定される。例えば
Figure 2010539792
は最終的混合体における平坦化信号と原信号との両方の少量を保存する。
次にビン毎振幅利得を原入力信号へ適用し、これを逆DFTを介して変換して時間領域へ戻す。
Figure 2010539792
ここで
Figure 2010539792
はxの増強された形態であり、原ステレオ入力信号である。
図4は本発明の一実施例に係るコンピュータ4を示す。このコンピュータ4はメモリ41、CPU42及びバス43を含む。バス43はメモリ41及びCPU42に交信するように接続する。メモリ41は上述に説明した任意の方法を実行するためのコンピュータ・プログラムを保存する。
本発明の幾つかの実施形態について説明した。それでもなお、当業者には本発明の要旨及び目的から逸脱することなく、説明された実施形態に如何にして様々な修正を加えるかを理解されたい。例えば説明は離散フーリエ変換器を含むが、当業者には時間領域から周波数領域及びその逆の変換の様々な代替的方法を理解される。
従来技術

Schaub,A.and P.,”Spectral sharpening for speech enhancement noise reduction”,Proc.ICASSP.1991,Toronto,Canada,May 1991,pp.993−996.

Sondhi,, ”New methods of pitch extraction”, Audio and Electroacoustics, IEEE Transactions, June 1968, Volume 16, Issue 2, pp 262−266.
Villchur, E., ”Signal Processing to Improve Speech Intelligibility for the Hearing Impaired”, 99th Audio Engineering Society Convention, September 1995.

Thomas, I. and Niederjohn, R., ”Preprocessing of Speech for Added Intelligibility in High Ambient Noise”, 34th Audio Engineering Society Convention, March 1968.

Moore, B. et. al., ”A Model for the Prediction of Thresholds, Loudness, and Partial Loudness”, J. Audio Eng. Soc, Vol. 45, No. 4, April 1997.

Moore, B. and Oxenham, A., ”Psychoacoustic consequences of compression in the peripheral auditory system”, The Journal of the Acoustical Society of America − December 2002 − Volume 112, Issue 6, pp. 2962−2966


従来技術 スペクトル平坦化
米国特許
米国特許第6732073 B1号 発明の名称”Spectralenhancement of acoustic signals to provide improved recognition of speech”

米国特許第0993480 B1号 発明の名称”Voice intelligibility enhancement system”

米国特許2006/026320 A1号 発明の名称”Apparatus and method for noise reduction and speech enhancement with microphones and loudspeakers”


米国特許第07191122号 発明の名称”Speech compression system and method”

米国特許第2007/0094017号 発明の名称”Frequency domain format enhancement”

国際特許

WO 2004/013840 Al号 発明の名称”Digital Signal Processing Techniques For Improving Audio Clarity And Intelligibility”

WO 2003/015082号 発明の名称”Sound Intelligibility Enhancement Using A Psychoacoustic Model And An Oversampled Filterbank”


論文

Sallberg, B. et. al; ”Analog Circuit Implementation for Speech Enhancement Purposes Signals”; Systems and Computers, 2004. Conference Record of the Thirty−Eighth Asilomar Conference.

Magotra, N. and Sirivara, S.; ”Real−time digital speech processing strategies for the hearing impaired”; Acoustics, Speech, and Signal Processing. 1997. ICASSP−97., 1997 page(s): 1211−1214 vol. 2

Walker, G., Byrne, D., and Dillon, H.; ”The effects of multichannel compression/expansion amplification on the intelligibility of nonsense syllables in noise”; The Journal of the Acoustical Society of America − September 1984 − Volume 76, Issue 3, pp. 746−757

従来技術 中央抽出

Adobe Audition has a vocal/instrument extraction function
http://www.adobeforums.eom/cgi−bin/webx/.3bc3a3e5

winampのための「中央カット」
http://www.hvdrogenaudio.org/forums/lofiversion/index.php/tl7450.html

従来技術 スペクトル束

Vinton, M, and Robinson C; ”Automated Speech/Other Discrimination for Loudness Monitoring,” AES 118th Convention. 2005

Scheirer E., and Slaney M., ”Construction and evaluation of a robust multifeature speech/music discriminator”, IEEE Transactions on Acoustics, Speech, and Signal Processing (ICASSP’97), 1997, pp. 1331 −− 1334.

Claims (14)

  1. 複数のチャンネルによりオーディオ信号から音の中央チャンネルを抽出する方法であって、
    (1)候補中央チャンネルの比αより小さいオーディオ信号の第1のチャンネルと、
    (2)候補中央チャンネルの比αより小さいオーディオ信号の第2のチャンネルの共役とを乗じて、
    αを概ね最小化して、
    候補中央チャンネルを概ね最小化されたαに乗じることにより、抽出された中央チャンネルを形成することを含む方法。
  2. オーディオ信号のスペクトルを平坦化する方法であって、
    推定されたスピーチ・チャンネルを知覚帯域に分離して、
    知覚帯域のうちの何れが最も多くのエネルギを有しているかを判定し、
    より少ないエネルギを有する知覚帯域の利得を増大させることにより、オーディオ信号における任意のスピーチのスペクトルを平坦化させることを含む方法。
  3. 請求項2の方法において、前記増大は、より少ないエネルギを有する知覚帯域の利得を最大まで増大することを含む方法。
  4. オーディオ信号におけるスピーチを検出する方法であって、
    オーディオ信号の候補中央チャンネルにおけるスペクトル変動を測定し、
    候補中央チャンネルよりも少ないオーディオ信号のスペクトル変動を測定して、
    これらスペクトル変動を比較することにより、オーディオ信号におけるスピーチを検出することを含む方法。
  5. スピーチを増強する方法であって、
    オーディオ信号の中央チャンネルを抽出して、
    中央チャンネルのスペクトルを平坦化して、
    平坦化されたスピーチ・チャンネルにオーディオ信号を混合することにより、オーディオ信号における任意のスピーチを増強することを含む方法。
  6. 請求項5の方法において、
    中央チャンネルにおけるスピーチ検出に信頼度を生成すると共に、
    前記混合は、
    平坦化されたスピーチ・チャンネルにオーディオ信号を、検出されたスピーチを有する信頼度に比例させて混合することを更に含む方法。
  7. 請求項6の方法において、
    前記信頼度は、可能性確率が最も低いものから可能性確率が最も高いものまで変動すると共に、
    前記生成は、
    最低可能性確率よりも高く、且つ最高可能性確率よりも低い値に対して生成された信頼度を更に制限することを含む方法。
  8. 請求項5の方法において、前記抽出は、請求項1の方法を用いてオーディオ信号の中央チャンネルを抽出することを含む方法。
  9. 請求項5の方法において、前記平坦化は、請求項2の方法を用いて前記中央チャンネルのスペクトルを平坦化することを含む方法。
  10. 請求項5の方法において、前記生成は、請求項3の方法を用いて前記中央チャンネルにおけるスピーチ検出に信頼度を生成することを含む方法。
  11. 請求項5の方法において、前記抽出は、請求項1の方法を用いてオーディオ信号の中央チャンネルを抽出することを含み、
    前記平坦化は、請求項2の方法を用いて前記中央チャンネルのスペクトルを平坦化することを含み、
    前記生成は、請求項3の方法を用いて前記中央チャンネルにおけるスピーチ検出に信頼度を生成することを含む方法。
  12. 請求項1乃至11の何れか一項に記載の方法を実行するコンピュータ・プログラムが格納されたコンピュータ読み取り可能な記録媒体。
  13. コンピュータ・システムであり、
    CPUと、
    請求項12の記録媒体と、
    前記CPUと前記記録媒体とを結合するバスとを含むコンピュータ・システム。
  14. スピーチエンハンサであって、
    オーディオ信号の中央チャンネルを抽出するための抽出器と、
    前記中央チャンネルのスペクトルを平坦化するためのスペクトル平坦化器と、
    前記中央チャンネルにおけるスピーチ検出における信頼度を生成するスピーチ信頼度生成器と、
    前記平坦化されたスピーチ・チャンネルを原オーディオ信号に、検出されたスピーチの信頼度に比例して混合することにより、オーディオ信号における任意のスピーチを増強するミキサとを備えるスピーチエンハンサ。
JP2010524855A 2007-09-12 2008-09-10 スピーチ増強 Pending JP2010539792A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US99360107P 2007-09-12 2007-09-12
PCT/US2008/010591 WO2009035615A1 (en) 2007-09-12 2008-09-10 Speech enhancement

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2012040093A Division JP5507596B2 (ja) 2007-09-12 2012-02-27 スピーチ増強

Publications (1)

Publication Number Publication Date
JP2010539792A true JP2010539792A (ja) 2010-12-16

Family

ID=40016128

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2010524855A Pending JP2010539792A (ja) 2007-09-12 2008-09-10 スピーチ増強
JP2012040093A Active JP5507596B2 (ja) 2007-09-12 2012-02-27 スピーチ増強

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2012040093A Active JP5507596B2 (ja) 2007-09-12 2012-02-27 スピーチ増強

Country Status (6)

Country Link
US (1) US8891778B2 (ja)
EP (1) EP2191467B1 (ja)
JP (2) JP2010539792A (ja)
CN (1) CN101960516B (ja)
AT (1) ATE514163T1 (ja)
WO (1) WO2009035615A1 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009086174A1 (en) 2007-12-21 2009-07-09 Srs Labs, Inc. System for adjusting perceived loudness of audio signals
EP2151822B8 (en) * 2008-08-05 2018-10-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an audio signal for speech enhancement using a feature extraction
US8406462B2 (en) * 2008-08-17 2013-03-26 Dolby Laboratories Licensing Corporation Signature derivation for images
DE112009005215T8 (de) * 2009-08-04 2013-01-03 Nokia Corp. Verfahren und Vorrichtung zur Audiosignalklassifizierung
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
US9324337B2 (en) * 2009-11-17 2016-04-26 Dolby Laboratories Licensing Corporation Method and system for dialog enhancement
KR101690252B1 (ko) * 2009-12-23 2016-12-27 삼성전자주식회사 신호 처리 방법 및 장치
JP2012027101A (ja) * 2010-07-20 2012-02-09 Sharp Corp 音声再生装置、音声再生方法、プログラム、及び、記録媒体
US9237400B2 (en) 2010-08-24 2016-01-12 Dolby International Ab Concealment of intermittent mono reception of FM stereo radio receivers
JP6010539B2 (ja) * 2011-09-09 2016-10-19 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 符号化装置、復号装置、符号化方法および復号方法
US9496839B2 (en) * 2011-09-16 2016-11-15 Pioneer Dj Corporation Audio processing apparatus, reproduction apparatus, audio processing method and program
US20130253923A1 (en) * 2012-03-21 2013-09-26 Her Majesty The Queen In Right Of Canada, As Represented By The Minister Of Industry Multichannel enhancement system for preserving spatial cues
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
CN104078050A (zh) 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
CN105247614B (zh) 2013-04-05 2019-04-05 杜比国际公司 音频编码器和解码器
CN105493182B (zh) * 2013-08-28 2020-01-21 杜比实验室特许公司 混合波形编码和参数编码语音增强
US9269370B2 (en) * 2013-12-12 2016-02-23 Magix Ag Adaptive speech filter for attenuation of ambient noise
CN108462936A (zh) * 2013-12-13 2018-08-28 无比的优声音科技公司 用于音场增强的设备及方法
US9344825B2 (en) 2014-01-29 2016-05-17 Tls Corp. At least one of intelligibility or loudness of an audio program
RU2673390C1 (ru) * 2014-12-12 2018-11-26 Хуавэй Текнолоджиз Ко., Лтд. Устройство обработки сигналов для усиления речевого компонента в многоканальном звуковом сигнале
TWI569263B (zh) * 2015-04-30 2017-02-01 智原科技股份有限公司 聲頻訊號的訊號擷取方法與裝置
WO2016183379A2 (en) 2015-05-14 2016-11-17 Dolby Laboratories Licensing Corporation Generation and playback of near-field audio content
JP6687453B2 (ja) * 2016-04-12 2020-04-22 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America ステレオ再生装置
CN115881146A (zh) * 2021-08-05 2023-03-31 哈曼国际工业有限公司 用于动态语音增强的方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06205500A (ja) * 1992-10-15 1994-07-22 Philips Electron Nv 中央チャンネル信号導出装置
JPH06253398A (ja) * 1993-01-27 1994-09-09 Philips Electron Nv オーディオ信号処理装置
JP2003084790A (ja) * 2001-09-17 2003-03-19 Matsushita Electric Ind Co Ltd 台詞成分強調装置
JP2005258158A (ja) * 2004-03-12 2005-09-22 Advanced Telecommunication Research Institute International ノイズ除去装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04149598A (ja) * 1990-10-12 1992-05-22 Pioneer Electron Corp 音場補正装置
JP3284747B2 (ja) 1994-05-12 2002-05-20 松下電器産業株式会社 音場制御装置
US6993480B1 (en) * 1998-11-03 2006-01-31 Srs Labs, Inc. Voice intelligibility enhancement system
US6732073B1 (en) * 1999-09-10 2004-05-04 Wisconsin Alumni Research Foundation Spectral enhancement of acoustic signals to provide improved recognition of speech
US6959274B1 (en) * 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
US20030023429A1 (en) 2000-12-20 2003-01-30 Octiv, Inc. Digital signal processing techniques for improving audio clarity and intelligibility
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
US7668317B2 (en) * 2001-05-30 2010-02-23 Sony Corporation Audio post processing in DVD, DTV and other audio visual products
CA2354755A1 (en) 2001-08-07 2003-02-07 Dspfactory Ltd. Sound intelligibilty enhancement using a psychoacoustic model and an oversampled filterbank
JP2005502247A (ja) 2001-09-06 2005-01-20 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ再生装置
US7257231B1 (en) * 2002-06-04 2007-08-14 Creative Technology Ltd. Stream segregation for stereo signals
FI118370B (fi) * 2002-11-22 2007-10-15 Nokia Corp Stereolaajennusverkon ulostulon ekvalisointi
CA2454296A1 (en) 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
US20060206320A1 (en) * 2005-03-14 2006-09-14 Li Qi P Apparatus and method for noise reduction and speech enhancement with microphones and loudspeakers

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06205500A (ja) * 1992-10-15 1994-07-22 Philips Electron Nv 中央チャンネル信号導出装置
JPH06253398A (ja) * 1993-01-27 1994-09-09 Philips Electron Nv オーディオ信号処理装置
JP2003084790A (ja) * 2001-09-17 2003-03-19 Matsushita Electric Ind Co Ltd 台詞成分強調装置
JP2005258158A (ja) * 2004-03-12 2005-09-22 Advanced Telecommunication Research Institute International ノイズ除去装置

Also Published As

Publication number Publication date
US20100179808A1 (en) 2010-07-15
JP5507596B2 (ja) 2014-05-28
EP2191467B1 (en) 2011-06-22
ATE514163T1 (de) 2011-07-15
EP2191467A1 (en) 2010-06-02
JP2012110049A (ja) 2012-06-07
US8891778B2 (en) 2014-11-18
CN101960516B (zh) 2014-07-02
CN101960516A (zh) 2011-01-26
WO2009035615A1 (en) 2009-03-19

Similar Documents

Publication Publication Date Title
JP5507596B2 (ja) スピーチ増強
US10565970B2 (en) Method and a system for decomposition of acoustic signal into sound objects, a sound object and its use
US8971551B2 (en) Virtual bass synthesis using harmonic transposition
KR101935183B1 (ko) 멀티-채널 오디오 신호 내의 음성 성분을 향상시키는 신호 처리 장치
JP4818335B2 (ja) 信号帯域拡張装置
JP5341128B2 (ja) 補聴器における安定性の改善
RU2507608C2 (ru) Устройства и способы для обработки аудио сигнала с целью повышения разборчивости речи, используя функцию выделения нужных характеристик
RU2520420C2 (ru) Способ и система для масштабирования подавления слабого сигнала более сильным в относящихся к речи каналах многоканального звукового сигнала
KR101378696B1 (ko) 협대역 신호로부터의 상위대역 신호의 결정
JP5127754B2 (ja) 信号処理装置
US7970144B1 (en) Extracting and modifying a panned source for enhancement and upmix of audio signals
KR101670313B1 (ko) 음원 분리를 위해 자동적으로 문턱치를 선택하는 신호 분리 시스템 및 방법
JP2009518684A (ja) チャネル間振幅スペクトルを用いた音声チャネルの抽出
CN102610232B (zh) 一种自适应音频感知响度调整方法
EP2720477B1 (en) Virtual bass synthesis using harmonic transposition
Kates Modeling the effects of single-microphone noise-suppression
EP2828853B1 (en) Method and system for bias corrected speech level determination
JP2008072600A (ja) 音響信号処理装置、音響信号処理プログラム、音響信号処理方法
JPH07146700A (ja) ピッチ強調方法および装置ならびに聴力補償装置
US8175282B2 (en) Method of evaluating perception intensity of an audio signal and a method of controlling an input audio signal on the basis of the evaluation
Jiang et al. Speech noise reduction algorithm in digital hearing aids based on an improved sub-band SNR estimation
Muhsina et al. Signal enhancement of source separation techniques
JP2002049399A (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
US20240161762A1 (en) Full-band audio signal reconstruction enabled by output from a machine learning model
US20240163529A1 (en) Dolby atmos master compressor/limiter

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110928

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111004

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20111025

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111226

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120106

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120123

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120206

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120213

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120515