JP2010539792A

JP2010539792A - スピーチ増強

Info

Publication number: JP2010539792A
Application number: JP2010524855A
Authority: JP
Inventors: ブラウン、シー・フィリップ
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2007-09-12
Filing date: 2008-09-10
Publication date: 2010-12-16
Also published as: ATE514163T1; US8891778B2; CN101960516A; JP5507596B2; US20100179808A1; WO2009035615A1; CN101960516B; EP2191467B1; EP2191467A1; JP2012110049A

Abstract

スピーチを増強する方法であって、オーディオ信号の中央チャンネルを抽出して、中央チャンネルのスペクトルを平坦化して、平坦化されたスピーチ・チャンネルにオーディオ信号を混合することにより、オーディオ信号における任意のスピーチを増強することを含む。また、複数のチャンネルによりオーディオ信号から音の中央チャンネルを抽出する方法、オーディオ信号のスペクトルを平坦化する方法、及びオーディオ信号におけるスピーチを検出する方法が開示される。更に、スピーチエンハンサが開示され、これはオーディオ信号の中央チャンネルを抽出するための抽出器と、前記中央チャンネルのスペクトルを平坦化するためのスペクトル平坦化器と、前記中央チャンネルにおけるスピーチ検出における信頼度を生成するスピーチ信頼度生成器と、前記平坦化されたスピーチ・チャンネルを原オーディオ信号に、検出されたスピーチの信頼度に比例して混合することにより、オーディオ信号における任意のスピーチを増強するミキサとを備える。
【選択図】図１

Description

発明の詳細な説明

発明の開示
本明細書は、複数のチャンネルでオーディオ信号から音の中央チャンネルを抽出して、オーディオ信号のスペクトルを平坦化して、オーディオ信号におけるスピーチ（発話）を検出して、スピーチを引き立たせる方法及び装置を説明する。複数のチャンネルによりオーディオ信号から音の中央チャンネルを抽出する方法は、（１）候補中央チャンネルの比αより小さいオーディオ信号の第１のチャンネル及び（２）候補中央チャンネルの比αより小さいオーディオ信号の第２のチャンネルの共役を乗じて、αを概ね最小化して、候補中央チャンネルにその概ね最小化されたαを乗じることにより、抽出された中央チャンネルを形成することを含む。

オーディオ信号のスペクトルを平坦化する方法は、推定されたスピーチ・チャンネルを知覚帯域に分離して、知覚帯域のうちの何れが最も多くのエネルギを有しているかを判定し、より少ないエネルギを有する知覚帯域の利得を増大させることにより、オーディオ信号における任意のスピーチのスペクトルを平坦化させることを含んでもよい。この増大は、より少ないエネルギを有する知覚帯域の利得を最大まで増大することを含んでもよい。

オーディオ信号におけるスピーチを検出する方法は、オーディオ信号の候補中央チャンネルにおけるスペクトル変動を測定し、候補中央チャンネルよりも少ないオーディオ信号のスペクトル変動を測定して、これらスペクトル変動を比較することにより、オーディオ信号におけるスピーチを検出することを含んでもよい。

スピーチを増強する方法は、オーディオ信号の中央チャンネルを抽出して、中央チャンネルのスペクトルを平坦化して、平坦化されたスピーチ・チャンネルにオーディオ信号を混合することにより、オーディオ信号における任意のスピーチを増強することを含んでもよい。この方法は、中央チャンネルにおけるスピーチ検出に信頼度を生成することを更に含んでもよく、その混合は、平坦化されたスピーチ・チャンネルにオーディオ信号を、検出されたスピーチを有する信頼度に比例させて混合することを含んでもよい。その信頼度は、可能性確率が最も低いものから可能性確率が最も高いものまで変動し得るので、その生成は、最低可能性確率よりも高く、且つ最高可能性確率よりも低い値に対して生成された信頼度を制限することを更に含んでもよい。その抽出は、上述した方法を用いて、オーディオ信号の中央チャンネルを抽出することを含んでもよい。上述の平坦化は、上述の方法を用いて中央チャンネルのスペクトルを平坦化することを含んでもよい。上述の生成は、上述の方法を用いて中央チャンネルにおけるスピーチ検出に信頼度を生成することを含んでもよい。

上述の抽出は、上述の方法を用いてオーディオ信号の中央チャンネルを抽出することを含んでもよく、上述の平坦化は、上述の方法を用いて中央チャンネルのスペクトルを平坦化することを含んでもよく、上述の生成は、上述の方法を用いて中央チャンネルにおけるスピーチ検出に信頼度を生成することを含んでもよい。

本明細書は、上述の方法の何れかを実行するコンピュータ・プログラムが格納されたコンピュータ読み取り可能な記録媒体のみならず、ＣＰＵ、該記録媒体、及びこれらＣＰＵと記録媒体とを結合するバスとを含むコンピュータ・システムを教示する。

本発明の一つの実施例によるスピーチ・エンハンサーの機能ブロック図である。計４０帯域をもたらす間隔１ＥＲＢのフィルタの適宜なセットを表す図である。本発明の一つの実施例による混合プロセスを説明する図である。本発明の一つの実施例によるコンピュータ・システムを例示する図である。

発明を実施するための最良の形態
図１は本発明の一つの実施例によるスピーチ・エンハンサーの機能ブロック図である。スピーチ・エンハンサー１は、入力信号１７、離散フーリエ変換器１０ａ，１０ｂ、中央チャンネル抽出器１１、スペクトル平坦化器１２、発声活動検出器１３、可変利得増幅器１５，１５ｃ、逆離散フーリエ変換器１８ａ，１８ｂ及び出力信号１８を含む。入力信号１７はそれぞれ左右のチャンネ１７ａ，１７ｂから成り、同様に出力信号１８はそれぞれ左右のチャンネル１８ａ，１８ｂから成る。

各々の離散フーリエ変換器１８は、入力として入力信号１７の左右チャンネル１７ａ，１７ｂを受け取って、出力として変換１９ａ，１９ｂを形成する。中央チャンネル抽出器１１は、変換１９を受け取って、出力として仮の中央チャンネルＣ２０を形成する。スペクトル平坦化器１２は入力として仮の中央チャンネルＣ２０を受け取って、成形された中央チャンネル２４を出力として形成し、一方、発声活動検出器１３は同じ入力Ｃ２０を受け取って、一方では可変利得増幅器１４ａ及び１４ｃのための制御信号２２を、他方では可変利得増幅器１４ｂのための制御信号２１を、出力として形成する。

増幅器１４ａは、入力及び制御信号として、左チャンネル変換１９ａ及び発声活動検出器１３の出力制御信号２２をそれぞれ受け取る。同様に、増幅器１４ｃは、入力及び制御信号として、右チャンネル変換１９ｂ及び発声活動検出器出力制御信号２２をそれぞれ受け取る。増幅器１４ｂは、入力及び制御信号として、スペクトル的に成形された中央チャンネル２４及びスペクトル平坦化器１２の出力発声活動検出器制御信号２１を受け取る。

ミキサー１５ａは、増幅器１４からの出力である利得調整された左変換２３ａと、利得調整されたスペクトル的に成形された中央チャンネル２５とを受け取って、出力として信号２６ａを形成する。同様に、ミキサー１５ｂは、増幅器１４ｃからの利得調整された右変換２３ｂと、利得調整されたスペクトル的に成形された中央チャンネル２５とを受け取って、出力として信号２６ｂを形成する。

逆変換器１８ａ，１８ｂは、各々の信号２６ａ，２６ｂを受け取って、それぞれ導出された左及び右チャンネル信号Ｌ’１８ａ及びＲ’１８ｂを形成する。

スピーチ・エンハンサー１の操作を以下に更に詳細に説明する。中央チャンネル抽出、スペクトル平坦化、発声活動検出及び混合の処理については、一つの実施例に沿って最初は概略的に次いでより詳細に順番に説明する。

中央チャンネル抽出
以下のように仮定する。

（１）対象１７の信号はスピーチを包含する。

（２）多重チャンネル信号（即ち、左及び右、又はステレオ）の場合、スピーチは中央にパンされる。

（３）実際のパンされた中央は、音源左右信号の比アルファ（α）から成る。

（４）その比の減算の結果は一対の直交信号である。

これらの仮定の下に操作して、中央チャンネル抽出器１１はステレオ信号１７から中央にパンされたコンテンツＣ２０を抽出する。中央にパンされたコンテンツのために、左右両方のチャンネルの同一の領域は、その中央にパンされたコンテンツを含む。中央にパンされたコンテンツは、左右両方のチャンネルから同一部分を除去することにより抽出される。

残りの左右信号について（ブロックのフレーム上で、或いは新しいブロックが入る毎に連続的に更新される方法を用いて）、ＬＲ＊＝０（ここで＊は共役を示す）を計算し、比αが零に充分に近い値になるまで調整するようにしてもよい。

スペクトル平坦化
聴覚フィルタは、推定されたスピーチ・チャンネルにおけるスピーチを知覚帯域へ分離する。最も多くのエネルギを有する帯域、データの各々のブロックについて判定される。そのブロックについてのスピーチ・チャンネルのスペクトル形状は、残りの帯域における低エネルギを補償するために修正される。このスペクトルは平坦化される。低エネルギを有すｒ帯域は、或る最大限まで増大された利得を持つ。一つの実施形態においては、全ての帯域は最大利得を共有してもよい。代替的な実施形態においては、各々の帯域は、それ自身の最大利得を有してもよい。（全ての帯域が同じエネルギを有するという望ましくない場合には、スペクトルは既に平坦である。スペクトル成形が生じないか、或いはスペクトル成形が同一の機能により達成されることも考慮されるであろう。）
スペクトル平坦化はチャンネルのコンテンツとは無関係に生じる。非スピーチを処理してもよいが、これがシステムにおいて後で用いられることはない。非スピーチは、スピーチとは非常に異なるスペクトルを有するので、非スピーチのための平坦化は、通常はスピーチについてのものと同じではない。

発声活動検出器
推定されたスピーチが単独のチャンネルへ分離されると、それはスピーチ・コンテンツについて分析される（それはスピーチを包含するか？）。コンテンツはスペクトル平坦化とは独立に分析される。スピーチ・コンテンツは、データの隣接するフレームにおけるスペクトル変動を測定することにより判定される。（各々のフレームはデータの多くのブロックから成り得るが、フレームは一般に４８ｋＨｚサンプル・レートの２、４、又は８ブロックである。）
スピーチ・チャンネルがステレオから抽出されるところでは、残りのステレオ信号がスピーチ分析に役立つであろう。この概念は、任意の多重チャンネル源における隣接するチャンネルにより一般的に適用される。

ミキシング
スピーチが存在すると見做されるとき、平坦化されたスピーチ・チャンネルは、スピーチ・チャンネルが実際にスピーチを包含するという信頼度に関連する或る割合で原信号と混合される。一般に、信頼度が高いときは、より多くの平坦化スピーチ・チャンネルが用いられる。信頼度が低いときは、より少ない平坦化スピーチ・チャンネルが用いられる。

中央チャンネル抽出、スペクトル平坦化、発性声活動検出及び混合の処理について、一つの実施例によって更に詳細に順番に説明する。

２チャンネル源からの仮の中央及びサラウンド・チャンネル抽出
スピーチ増強によれば、中央にパンされたオーディオのみを抽出、処理、及び再挿入することが望まれる。ステレオ混合においては、スピーチは最も頻繁に中央へパンされる。

ここで、中央にパンされたオーディオ（仮の中央チャンネル）の２チャンネル混合物からの抽出について説明する。数学的な証明は第１の部分を構成する。第２の部分は、この証明を実環境ステレオ信号に適用して、仮の中央を導出する。

仮の中央が原ステレオから取り去られると、直交チャンネルを有するステレオ信号が残る。類似の方法は、周辺にパンされたオーディオから仮のサラウンド・チャンネルを導出する。

中央チャンネル抽出−数学的証明
或る２チャンネル信号が与えられると、そのチャンネルは左（Ｌ）と右（Ｒ）に分けられるであろう。この左右のチャンネルの各々は、共通の情報のみならず、各々に固有の情報を包含する。共通の情報をＣ（中央にパンされている）、固有の情報を左のみ右のみについてそれぞれＬ及びＲとして表すことができる。

「固有」とはＬ及びＲが互いに直交することを意味する。

Ｌ及びＲを実数と虚数部分とへ分けると、

ここで、ＬｒはＬの実数部分、ＬｉはＬの虚数部分であり、Ｒについても同様である。いま、中央にパンされたＣをＬ及びＲから減じることにより、非直交対（Ｌ及びＲ）から直交対（Ｌ及びＲ）が形成されたものと見做す。

ここでＣ＝αＣ（但し、Ｃは推定された中央チャンネルであり、αは倍率である）とすると、

式（６）及び式（７）を式（３）へ代入すると、

式（８）は二次方程式の形になり、

ここで累乗根は以下のように得られる。

ここで式（６）及び式（７）におけるＣを、

として、実数と虚数とに分けると、

すると、二次方程式（９）においては、

式（１４）、式（１５）及び式（１６）を式（１０）へ代入して、αについて解くと、

αに対する解について負の根を選び、周辺にパンされた情報による混乱を避けるためαを範囲｛０，０．５｝に限定する（但し、その値は本発明には重要ではない）。仮の中央チャンネル式は以下のようになる。

ここで、

である。（ｍｉｎ｛｝及びｍａｘ｛｝関数は、αを範囲｛０，０．５｝に制限するが、その値は本発明には重要ではない。）
仮のサラウンド・チャンネルは同様にして以下のように導ける。

ここでＳは、原ステレオ対（Ｌ，Ｒ）において周囲にパンされたオーディオであり、且つＳは（Ｌ−Ｒ）になるものと仮定する。この場合も、βに対する解について負の根を選び、周辺にパンされた情報による混乱を避けるためβを範囲｛０，０．５｝に限定する（但し、その値は本発明には重要ではない）。

いまやＣ及びＳが導出されたので、これらを原ステレオ対（Ｌ及びＲ）から除去して、二つの原チャンネルからオーディオの四つのチャンネルを形成することができる。即ち、

ここでＬ’は導出された左チャンネル、Ｃは導出された中央チャンネル、Ｒ’は導出された右チャンネル、Ｓは導出されたサラウンド・チャンネルである。

中央チャンネル抽出−適用
上述のように、スピーチ増強方法にとって、その主要な懸念は中央チャンネルの抽出である。この部分において、上述の技術は、オーディオ信号の複雑な周波数領域表現に適用される。

仮の中央チャンネル抽出の第１段階は、オーディオ・サンプルのブロックでＤＦＴを実行し、その結果として生じる変換係数を得ることである。ＤＦＴのブロック・サイズはサンプリング・レートに依存する。例えば４８ｋＨｚのサンプリング・レートｆ_Ｓにおいては、Ｎ＝５１２サンプルのブロック・サイズが可能である。ハミング・ウインドウのようなウィンドーイング関数ｗ［ｎ］により、変換の適用に先立ってサンプルのブロックを重み付けする。

ここでｎは整数であり、Ｎはブロックにおけるサンプルの数である。

ＤＦＴ係数を次式（２５）で以下のように計算する。

ここでｘ［ｎ，ｃ］はブロックｍのチャンネルｃにおけるサンプル番号ｎであり、ｊは虚数単位（ｊ^２＝−１）であり、Ｘ_ｍ［ｋ，ｃ］はブロックｍにおけるサンプルについてのチャンネルｃにおける変換係数ｋである。チャンネルの数は三つ、即ち、左、右、及び仮の中央（ｘ［ｎ，ｃ］の場合においては、左及び右のみ）であることに留意されたい。以下の方程式において、左チャンネルはｃ＝１として表され、仮の中央チャンネルはｃ＝２（未だ導出されていない）、右チャンネルはｃ＝３として表される。また、高速フーリエ変換（ＦＦＴ）はＤＦＴを効率的に実行する。

左と右との和及び差は、原則として周波数ビン毎に求めた。実数及び虚数部分はグループ分けして二乗した。各ビンは、αを計算するのに先立ってブロック間で平滑化した。この平滑化は、可聴なアーチファクト（これは、ビンにおけるパワーがデータのブロック間で急激に変化したときに生じる）を低減させる。平滑化は、例えば、漏れ積分回路（ｌｅａｋｙｉｎｔｅｇｒａｔｏｒ）、非線形スムーザー、線形且つ多極のローパス・スムーザー、或いは更に精巧なスムーザーで実行してもよい。

ここでＲｅ｛｝は実数部分であり、Ｉｍ｛｝は虚数部分であり、λ_１は漏れ積分回路係数である。漏れ積分回路はローパス・フィルタリング効果を有し、λ_１についての代表的な値は０．９である。次に、ブロックｍについての抽出係数αは式（１９）を用いて以下のように導かれる。

そして、ブロックｍについての仮の中央チャンネルは式（１８）を用いて以下のように導かれる。

スペクトル平坦化
以下、本発明のスペクトル平坦化の実施例を説明する。大部分がスピーチである単独のチャンネルを仮定し、そのスピーチ信号を離散フーリエ変換（ＤＦＴ）又は関連した変換によって周波数領域へ変換する。振幅スペクトルは、変換周波数ビンを二乗することによってパワースペクトルへ変換する。

次いで、周波数ビンは臨界若しくは聴覚フィルタ・スケールで可能な帯域へ分類する。スピーチ信号を臨界帯域へ分割することは、人間の聴覚系（特に蝸牛）によく似ている。これらのフィルタは、概ね丸められた指数形を示して、等価長矩形帯域幅（ＥＲＢ）スケールで均一に間隔をあけられる。このＥＲＢスケールは、音響心理学で用いられる単なる尺度であって、聴覚フィルタの帯域幅及び間隔を概算する。図２は１ＥＲＢの間隔を有するフィルタの適宜なセットを表しており、合計４０の帯域がもたらされる。オーディオ・データの帯域化も可聴なアーチファクト（これは、原則としてビン毎に処理するときに生じる）を除去するのに役立つ。次いで、臨界帯域パワーを時間に対して平滑化する。即ち、隣接するブロックに亘って平滑化する。

平滑化された臨界帯域のうちの最大出力を求めて、対応する利得を残りの（非最大）帯域について計算して、それらの出力を最大出力へ近似させる。利得補償は、基底膜の圧縮（非線形）特性に類似する。これらの利得は、飽和を避けるために、最大値へ制限される。これらの利得を原信号へ適用するためには、これらを変換してＤＦＴフォーマットへ戻さねばならない。従って、帯域毎出力利得は最初に周波数ビン出力利得へ変換して戻し、次いでビン毎出力利得を各ビンの平方根を採ることにより振幅利得へ変換する。かくして原信号変換ビンには、計算されたビン毎振幅利得を乗じることができる。次いでスペクトル平坦化信号を変換して周波数領域から時間領域へ戻す。仮の中央の場合、これは時間領域へ復帰させるのに先立って、先ず原信号と混合する。図３はその処理を説明している。
上述のスペクトル平坦化システムは、入力された信号の特性を考慮していない。非スピーチ信号が平坦化されるならば、音質における知覚可能な変化は深刻なものとなろう。非スピーチ信号の処理を避けるために、上述の方法は、発声活動検出器１３に結び付けることができる。発声活動検出器１３がスピーチの存在を示すとき、平坦化スピーチが用いられる。

平坦化すべき信号は、上述のようにして周波数領域へ既に変換されていると仮定する。単純化のために、上記に用いられたチャンネル表記法は省略した。ＤＦＴ係数を出力へ変換して、次いでＤＦＴ領域から臨界帯域へ変換する。

ここでＨ［ｋ，ｐ］はＰ臨界帯域フィルタである。

次いで各帯域における出力を、脳の皮質レベルで生じる時間積分と同様に、ブロック間で平滑化する。平滑化は、例えば、漏れ積分回路、非線形スムーザー、線形且つ多極ローパス・スムーザー、或いは更に精巧なスムーザーにより実行してもよい。この平滑化も遷移挙動（これは、利得にブロック間の急激な変動を引き起こし、可聴なポンピングをもたらす）を除去するのに役立つ。次にピーク出力は以下のように求められる。

ここでＥ_ｍ［ｐ］は平滑化された臨界帯域出力、λ_２は漏れ積分回路係数、及びＥ_ｍａｘはピーク出力である。漏れ積分回路はローパス・フィルタリング効果を有しており、その利得はλ_２についての代表的な値が０．９である。

次に帯域毎出力利得を求め、最大利得を過度な補償を避けるように制限すると、

を得る。ここでＧ_ｍ［ｐ］は各帯域へ適用すべき出力利得、Ｇ_ｍａｘは許容できる最大出力利得であり、γはスペクトルの平坦化の度合を決定する。実際には、γは１に近似する。指定された利得の量に対する他の汎用制限のみならず、システムが処理を実行するならば、Ｇ_ｍａｘはダイナミック・レンジ（又は無歪限界）に依存する。Ｇ_ｍａｘについての代表的な値は２０ｄＢである。

次に帯域毎出力利得をビン毎出力に変換して、平方根を採ってビン毎振幅利得を得る。

ここでＹ_ｍ［ｋ］はビン毎振幅利得である。

次に振幅利得を発声活動検出器出力２１，２２に基づいて修正する。発声活動検出のための方法を本発明の一つの実施例によって以下に説明する。

発声活動検出
スペクトル束は、信号の出力スペクトルが変化する速度を測定し、オーディオの隣接するフレームの間の出力を比較する。（フレームは、オーディオ・データの複数のブロックである。）スペクトル束は、発声活動検出、或いは「スピーチ対オーディオ分類における他の判定がなされたもの」を示す。多くの場合、付加的な指標が用いられ、その結果は、オーディオが本当にスピーチであるか否かの判定をなすために集積される。

一般に、スピーチのスペクトル束は音楽のそれよりも若干高い。即ち、音楽スペクトルは、フレーム間でスピーチ・スペクトルよりも安定する傾向にある。

ステレオの場合、スペクトルの中央チャンネルが抽出されるところで、ＤＦＴ係数は先ず中央と横のオーディオ（原ステレオから仮の中央を減じたもの）に分けられる。これは、伝統的な中間／横ステレオ処理とは異なっており、伝統的な中間／横ステレオ処理が一般に（Ｌ＋Ｒ）／２，（Ｌ−Ｒ）／２であるのに対し、中央／横処理はＣ，Ｌ＋Ｒ−２Ｃである。

上述したように周波数領域へ変換された信号によれば、ＤＦＴ係数は出力へ変換されて、次いでＤＦＴ領域から臨界帯域領域へ変換される。臨界帯域出力は次いで中央と横との両方のスペクトル束を計算するのに用いられる。

ここでＸ_ｍ［ｐ］は仮の中央の臨界帯域表現、S_ｍ［ｐ］は残りの信号（左と右との和から中央を減じたもの）の臨界帯域表現であり、Ｈ［ｋ，ｐ］は上述したようにＰ臨界帯域フィルタである。

データの穿孔する２Ｊブロックから（中央及び横振幅について）二つのフレーム・バッファを形成する。

次の段階は、現在のフレームと先行するフレームとの平均出力から中央チャンネルについての加重Ｗを計算する。これは帯域の限られた範囲に亘ってなされる。

帯域バンドの範囲は、スピーチの主要な帯域幅約１００−８０００Ｈｚに限定される。中央と側方との両方についての非加重スペクトル束は次のように計算される。

ここでＦ_ｘ（ｍ）は中央の非加重スペクトル束であり、Ｆ_ｓ（ｍ）は側面の非加重スペクトル束である。

従ってスペクトル束の偏った推定値は以下のように計算される。

であるならば、

さもなければ、

である。ここでＦ_Ｔｏｔ（ｍ）は全束推定値であり、Ｗ_ｍｉｎは許容される最小加重である。Ｗ_ｍｉｎはダイナミック・レンジに依存するが、代表的な値はＷ_ｍｉｎ＝―６０ｄＢである。

スペクトル束についての最終的な平滑化値は、単純な一次ＩＩＲローパス・フィルタによりＦ_Ｔｏｔ（ｍ）の値をローパス・フィルタリングすることにより計算される。このフィルタは信号のサンプル・レート及びブロックの大きさに依存するが、一実施形態においては、ｆ_ｓ＝４８ｋＨｚについて０．０２５＊ｆ_ｓの正規化カットオフを有する一次ローパス・フィルタにより規定できる。ここでｆ_ｓはディジタル・システムのサンプル・レートである。

Ｆ_Ｔｏｔ（ｍ）はかくして次の範囲に短縮される。即ち、

であるから、

（ｍｉｎ{｝及びｍａｘ{｝関数は、本実施例によればＦ_Ｔｏｔ（ｍ）を｛０，１｝に制限する。）
混合
平坦化された中央チャンネルは、発声活動検出器の出力に基づいて原オーディオン信号と混合される。

（上述に示す通りの）スペクトル平坦化についてのビン当りの振幅利得Ｙ_ｍ［ｋ］は、（上述のように導かれるように）仮の中央チャンネルＸ_ｍ［ｋ，２］へ適用される。

発声活動検出器１３が、スピーチを検知するときはＦ_Ｔｏｔ（ｍ）＝１とし、非スピーチを検知するときはＦ_Ｔｏｔ（ｍ）＝０とする。０と１との間の値が可能であり、これは発声活動検出器１３がスピーチの存在について軟判定をなす場合に得られる。

左チャンネルについて、

同様に、右チャンネルについて、

実際には、Ｆ_Ｔｏｔは値の狭い範囲に限定される。例えば

は最終的混合体における平坦化信号と原信号との両方の少量を保存する。

次にビン毎振幅利得を原入力信号へ適用し、これを逆ＤＦＴを介して変換して時間領域へ戻す。

ここで

はｘの増強された形態であり、原ステレオ入力信号である。

図４は本発明の一実施例に係るコンピュータ４を示す。このコンピュータ４はメモリ４１、ＣＰＵ４２及びバス４３を含む。バス４３はメモリ４１及びＣＰＵ４２に交信するように接続する。メモリ４１は上述に説明した任意の方法を実行するためのコンピュータ・プログラムを保存する。

本発明の幾つかの実施形態について説明した。それでもなお、当業者には本発明の要旨及び目的から逸脱することなく、説明された実施形態に如何にして様々な修正を加えるかを理解されたい。例えば説明は離散フーリエ変換器を含むが、当業者には時間領域から周波数領域及びその逆の変換の様々な代替的方法を理解される。

従来技術

Ｓｃｈａｕｂ，Ａ．ａｎｄＰ．，”Ｓｐｅｃｔｒａｌｓｈａｒｐｅｎｉｎｇｆｏｒｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｎｏｉｓｅｒｅｄｕｃｔｉｏｎ”，Ｐｒｏｃ．ＩＣＡＳＳＰ．１９９１,Ｔｏｒｏｎｔｏ，Ｃａｎａｄａ，Ｍａｙ１９９１，ｐｐ．９９３−９９６．

Ｓｏｎｄｈｉ，, ”Ｎｅｗｍｅｔｈｏｄｓｏｆｐｉｔｃｈｅｘｔｒａｃｔｉｏｎ”，ＡｕｄｉｏａｎｄＥｌｅｃｔｒｏａｃｏｕｓｔｉｃｓ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓ，Ｊｕｎｅ１９６８，Ｖｏｌｕｍｅ１６，Ｉｓｓｕｅ２，ｐｐ２６２−２６６．
Ｖｉｌｌｃｈｕｒ，Ｅ．， ”ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇｔｏＩｍｐｒｏｖｅＳｐｅｅｃｈＩｎｔｅｌｌｉｇｉｂｉｌｉｔｙｆｏｒｔｈｅＨｅａｒｉｎｇＩｍｐａｉｒｅｄ”，９９ｔｈＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ，Ｓｅｐｔｅｍｂｅｒ１９９５．

Ｔｈｏｍａｓ，Ｉ．ａｎｄＮｉｅｄｅｒｊｏｈｎ，Ｒ．， ”ＰｒｅｐｒｏｃｅｓｓｉｎｇｏｆＳｐｅｅｃｈｆｏｒＡｄｄｅｄＩｎｔｅｌｌｉｇｉｂｉｌｉｔｙｉｎＨｉｇｈＡｍｂｉｅｎｔＮｏｉｓｅ”，３４ｔｈＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ，Ｍａｒｃｈ１９６８．

Ｍｏｏｒｅ，Ｂ．ｅｔ．ａｌ．， ”ＡＭｏｄｅｌｆｏｒｔｈｅＰｒｅｄｉｃｔｉｏｎｏｆＴｈｒｅｓｈｏｌｄｓ，Ｌｏｕｄｎｅｓｓ，ａｎｄＰａｒｔｉａｌＬｏｕｄｎｅｓｓ”，Ｊ．ＡｕｄｉｏＥｎｇ．Ｓｏｃ，Ｖｏｌ．４５，Ｎｏ．４，Ａｐｒｉｌ１９９７．

Ｍｏｏｒｅ，Ｂ．ａｎｄＯｘｅｎｈａｍ，Ａ．， ”Ｐｓｙｃｈｏａｃｏｕｓｔｉｃｃｏｎｓｅｑｕｅｎｃｅｓｏｆｃｏｍｐｒｅｓｓｉｏｎｉｎｔｈｅｐｅｒｉｐｈｅｒａｌａｕｄｉｔｏｒｙｓｙｓｔｅｍ”，ＴｈｅＪｏｕｒｎａｌｏｆｔｈｅＡｃｏｕｓｔｉｃａｌＳｏｃｉｅｔｙｏｆＡｍｅｒｉｃａ − Ｄｅｃｅｍｂｅｒ２００２ − Ｖｏｌｕｍｅ１１２，Ｉｓｓｕｅ６，ｐｐ．２９６２−２９６６

従来技術スペクトル平坦化
米国特許
米国特許第６７３２０７３Ｂ１号発明の名称”Ｓｐｅｃｔｒａｌｅｎｈａｎｃｅｍｅｎｔｏｆａｃｏｕｓｔｉｃｓｉｇｎａｌｓｔｏｐｒｏｖｉｄｅｉｍｐｒｏｖｅｄｒｅｃｏｇｎｉｔｉｏｎｏｆｓｐｅｅｃｈ”

米国特許第０９９３４８０Ｂ１号発明の名称”Ｖｏｉｃｅｉｎｔｅｌｌｉｇｉｂｉｌｉｔｙｅｎｈａｎｃｅｍｅｎｔｓｙｓｔｅｍ”

米国特許２００６／０２６３２０Ａ１号発明の名称”Ａｐｐａｒａｔｕｓａｎｄｍｅｔｈｏｄｆｏｒｎｏｉｓｅｒｅｄｕｃｔｉｏｎａｎｄｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｗｉｔｈｍｉｃｒｏｐｈｏｎｅｓａｎｄｌｏｕｄｓｐｅａｋｅｒｓ”

米国特許第０７１９１１２２号発明の名称”Ｓｐｅｅｃｈｃｏｍｐｒｅｓｓｉｏｎｓｙｓｔｅｍａｎｄｍｅｔｈｏｄ”

米国特許第２００７／００９４０１７号発明の名称”Ｆｒｅｑｕｅｎｃｙｄｏｍａｉｎｆｏｒｍａｔｅｎｈａｎｃｅｍｅｎｔ”

国際特許

ＷＯ２００４／０１３８４０Ａｌ号発明の名称”ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＴｅｃｈｎｉｑｕｅｓＦｏｒＩｍｐｒｏｖｉｎｇＡｕｄｉｏＣｌａｒｉｔｙＡｎｄＩｎｔｅｌｌｉｇｉｂｉｌｉｔｙ”

ＷＯ２００３／０１５０８２号発明の名称”ＳｏｕｎｄＩｎｔｅｌｌｉｇｉｂｉｌｉｔｙＥｎｈａｎｃｅｍｅｎｔＵｓｉｎｇＡＰｓｙｃｈｏａｃｏｕｓｔｉｃＭｏｄｅｌＡｎｄＡｎＯｖｅｒｓａｍｐｌｅｄＦｉｌｔｅｒｂａｎｋ”

論文

Ｓａｌｌｂｅｒｇ，Ｂ．ｅｔ．ａｌ； ”ＡｎａｌｏｇＣｉｒｃｕｉｔＩｍｐｌｅｍｅｎｔａｔｉｏｎｆｏｒＳｐｅｅｃｈＥｎｈａｎｃｅｍｅｎｔＰｕｒｐｏｓｅｓＳｉｇｎａｌｓ”；ＳｙｓｔｅｍｓａｎｄＣｏｍｐｕｔｅｒｓ，２００４．ＣｏｎｆｅｒｅｎｃｅＲｅｃｏｒｄｏｆｔｈｅＴｈｉｒｔｙ−ＥｉｇｈｔｈＡｓｉｌｏｍａｒＣｏｎｆｅｒｅｎｃｅ．

Ｍａｇｏｔｒａ，Ｎ．ａｎｄＳｉｒｉｖａｒａ，Ｓ．； ”Ｒｅａｌ−ｔｉｍｅｄｉｇｉｔａｌｓｐｅｅｃｈｐｒｏｃｅｓｓｉｎｇｓｔｒａｔｅｇｉｅｓｆｏｒｔｈｅｈｅａｒｉｎｇｉｍｐａｉｒｅｄ”；Ａｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ．１９９７．ＩＣＡＳＳＰ−９７．，１９９７ｐａｇｅ（ｓ）：１２１１−１２１４ｖｏｌ．２

Ｗａｌｋｅｒ，Ｇ．，Ｂｙｒｎｅ，Ｄ．，ａｎｄＤｉｌｌｏｎ，Ｈ．； ”Ｔｈｅｅｆｆｅｃｔｓｏｆｍｕｌｔｉｃｈａｎｎｅｌｃｏｍｐｒｅｓｓｉｏｎ／ｅｘｐａｎｓｉｏｎａｍｐｌｉｆｉｃａｔｉｏｎｏｎｔｈｅｉｎｔｅｌｌｉｇｉｂｉｌｉｔｙｏｆｎｏｎｓｅｎｓｅｓｙｌｌａｂｌｅｓｉｎｎｏｉｓｅ”；ＴｈｅＪｏｕｒｎａｌｏｆｔｈｅＡｃｏｕｓｔｉｃａｌＳｏｃｉｅｔｙｏｆＡｍｅｒｉｃａ − Ｓｅｐｔｅｍｂｅｒ１９８４ − Ｖｏｌｕｍｅ７６，Ｉｓｓｕｅ３，ｐｐ．７４６−７５７

従来技術中央抽出

ＡｄｏｂｅＡｕｄｉｔｉｏｎｈａｓａｖｏｃａｌ／ｉｎｓｔｒｕｍｅｎｔｅｘｔｒａｃｔｉｏｎｆｕｎｃｔｉｏｎ
ｈｔｔｐ：／／ｗｗｗ．ａｄｏｂｅｆｏｒｕｍｓ．ｅｏｍ／ｃｇｉ−ｂｉｎ／ｗｅｂｘ／．３ｂｃ３ａ３ｅ５

ｗｉｎａｍｐのための「中央カット」
ｈｔｔｐ：／／ｗｗｗ．ｈｖｄｒｏｇｅｎａｕｄｉｏ．ｏｒｇ／ｆｏｒｕｍｓ／ｌｏｆｉｖｅｒｓｉｏｎ／ｉｎｄｅｘ．ｐｈｐ／ｔｌ７４５０．ｈｔｍｌ

従来技術スペクトル束

Ｖｉｎｔｏｎ，Ｍ，ａｎｄＲｏｂｉｎｓｏｎＣ； ”ＡｕｔｏｍａｔｅｄＳｐｅｅｃｈ／ＯｔｈｅｒＤｉｓｃｒｉｍｉｎａｔｉｏｎｆｏｒＬｏｕｄｎｅｓｓＭｏｎｉｔｏｒｉｎｇ，” ＡＥＳ１１８ｔｈＣｏｎｖｅｎｔｉｏｎ．２００５

ＳｃｈｅｉｒｅｒＥ．，ａｎｄＳｌａｎｅｙＭ．， ”Ｃｏｎｓｔｒｕｃｔｉｏｎａｎｄｅｖａｌｕａｔｉｏｎｏｆａｒｏｂｕｓｔｍｕｌｔｉｆｅａｔｕｒｅｓｐｅｅｃｈ／ｍｕｓｉｃｄｉｓｃｒｉｍｉｎａｔｏｒ”，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ’９７），１９９７，ｐｐ．１３３１ −− １３３４．

Claims

複数のチャンネルによりオーディオ信号から音の中央チャンネルを抽出する方法であって、
（１）候補中央チャンネルの比αより小さいオーディオ信号の第１のチャンネルと、
（２）候補中央チャンネルの比αより小さいオーディオ信号の第２のチャンネルの共役とを乗じて、
αを概ね最小化して、
候補中央チャンネルを概ね最小化されたαに乗じることにより、抽出された中央チャンネルを形成することを含む方法。
オーディオ信号のスペクトルを平坦化する方法であって、
推定されたスピーチ・チャンネルを知覚帯域に分離して、
知覚帯域のうちの何れが最も多くのエネルギを有しているかを判定し、
より少ないエネルギを有する知覚帯域の利得を増大させることにより、オーディオ信号における任意のスピーチのスペクトルを平坦化させることを含む方法。
請求項２の方法において、前記増大は、より少ないエネルギを有する知覚帯域の利得を最大まで増大することを含む方法。
オーディオ信号におけるスピーチを検出する方法であって、
オーディオ信号の候補中央チャンネルにおけるスペクトル変動を測定し、
候補中央チャンネルよりも少ないオーディオ信号のスペクトル変動を測定して、
これらスペクトル変動を比較することにより、オーディオ信号におけるスピーチを検出することを含む方法。
スピーチを増強する方法であって、
オーディオ信号の中央チャンネルを抽出して、
中央チャンネルのスペクトルを平坦化して、
平坦化されたスピーチ・チャンネルにオーディオ信号を混合することにより、オーディオ信号における任意のスピーチを増強することを含む方法。
請求項５の方法において、
中央チャンネルにおけるスピーチ検出に信頼度を生成すると共に、
前記混合は、
平坦化されたスピーチ・チャンネルにオーディオ信号を、検出されたスピーチを有する信頼度に比例させて混合することを更に含む方法。
請求項６の方法において、
前記信頼度は、可能性確率が最も低いものから可能性確率が最も高いものまで変動すると共に、
前記生成は、
最低可能性確率よりも高く、且つ最高可能性確率よりも低い値に対して生成された信頼度を更に制限することを含む方法。
請求項５の方法において、前記抽出は、請求項１の方法を用いてオーディオ信号の中央チャンネルを抽出することを含む方法。
請求項５の方法において、前記平坦化は、請求項２の方法を用いて前記中央チャンネルのスペクトルを平坦化することを含む方法。
請求項５の方法において、前記生成は、請求項３の方法を用いて前記中央チャンネルにおけるスピーチ検出に信頼度を生成することを含む方法。
請求項５の方法において、前記抽出は、請求項１の方法を用いてオーディオ信号の中央チャンネルを抽出することを含み、
前記平坦化は、請求項２の方法を用いて前記中央チャンネルのスペクトルを平坦化することを含み、
前記生成は、請求項３の方法を用いて前記中央チャンネルにおけるスピーチ検出に信頼度を生成することを含む方法。
請求項１乃至１１の何れか一項に記載の方法を実行するコンピュータ・プログラムが格納されたコンピュータ読み取り可能な記録媒体。
コンピュータ・システムであり、
ＣＰＵと、
請求項１２の記録媒体と、
前記ＣＰＵと前記記録媒体とを結合するバスとを含むコンピュータ・システム。
スピーチエンハンサであって、
オーディオ信号の中央チャンネルを抽出するための抽出器と、
前記中央チャンネルのスペクトルを平坦化するためのスペクトル平坦化器と、
前記中央チャンネルにおけるスピーチ検出における信頼度を生成するスピーチ信頼度生成器と、
前記平坦化されたスピーチ・チャンネルを原オーディオ信号に、検出されたスピーチの信頼度に比例して混合することにより、オーディオ信号における任意のスピーチを増強するミキサとを備えるスピーチエンハンサ。