JP6031041B2

JP6031041B2 - 複数のオーディオセンサを有する装置とその動作方法

Info

Publication number: JP6031041B2
Application number: JP2013540466A
Authority: JP
Inventors: ケヒヒアン，パトリック; デンドゥンゲン，ウィルヘルミュスアンドレアスマリニュスアルノルデュスマリアファン
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2010-11-24
Filing date: 2011-11-21
Publication date: 2016-11-24
Anticipated expiration: 2031-11-21
Also published as: US9538301B2; WO2012069973A9; EP2643981B1; JP2014501089A; CN103229517A; RU2605522C2; BR112013012539A2; EP2643981A1; BR112013012539B1; RU2013128560A; CN103229517B; WO2012069973A1; US20140119548A1

Description

本発明は、複数のマイクロホンなどのオーディオセンサを有する装置とその動作方法とに関し、具体的には、複数のオーディオセンサのうちの第１のオーディオセンサが装置のユーザと接触している時、複数のセンサのうちの第２のセンサが空気と接触するように構成された装置に関する。

モバイル装置は音響的に厳しい環境（すなわち、背景雑音が多い環境）において使われることが多い。モバイル装置のユーザが双方向通信中に他端の音を聞ける問題とは別に、ユーザのスピーチを表す「クリーンな」（すなわち、雑音無し又は雑音を大幅に低減した）オーディオ信号を得ることは難しい。キャプチャされるＳＮＲ（signal-to-noise ratio）が低い環境では、従来のスピーチ処理アルゴリズムは、雑音抑制量が限られており、近接したスピーチ信号（すなわち、モバイル装置のマイクロホンで捉えたもの）は「楽音（musical tones）」アーティファクトで歪んでしまうことがある。

既知の通り、骨伝導（ＢＣ）やコンタクトマイクロホン（すなわち、音を出しているオブジェクトに物理的に接触しているマイクロホン）などのコンタクトセンサを用いて取得するオーディオ信号は、マイクロホン（すなわち、音を出しているオブジェクトからは空気で隔てられているマイクロホン）などの空気伝導（ＡＣ）センサを用いて取得するオーディオ信号と比較して、背景雑音の影響を比較的受けにくい。何故なら、ＢＣマイクロホンにより測定される音の振動は、通常のＡＣマイクロホンのように空気を通してではなく、ユーザの身体を通して伝搬するからである。通常のＡＣマイクロホンは、所望のオーディオ信号のキャプチャに加え、背景ノイズもピックアップしてしまう。さらに、ＢＣマイクロホンを用いて得られるオーディオ信号の強度は、概して、ＡＣマイクロホンを用いて得られるものよりも非常に高い。それゆえ、ＢＣマイクロホンは、雑音が多い環境で使用する装置に使えると考えられている。図１は、ＢＣ信号が環境雑音の影響を比較的受けないが、ＡＣ信号は受けることを示し、雑音が多い同じ環境においてＡＣマイクロホンを用いて取得したオーディオ信号と比較して、ＢＣマイクロホンを用いて取得したオーディオ信号の高いＳＮＲ特性を示す。図１において、垂直軸はオーディオ信号の振幅を示す。

しかし、ＢＣマイクロホンを用いて取得するスピーチの問題は、ＡＣマイクロホンを用いて取得するスピーチより、通常は音質と明瞭度が非常に低いことである。明瞭度の低下は、骨と組織のフィルタリング特性によるものである。このフィルタリング特性により、オーディオ信号の高周波成分が大きく減衰してしまう。

ＢＣマイクロホンを用いて取得するスピーチの音質と明瞭度は、ユーザにおける位置に依存する。マイクロホンが、喉や首の領域の喉頭と声帯に近いほど、ＢＣオーディオ信号の音質と強度は高くなる。さらに、ＢＣマイクロホンが音を発しているオブジェクトに物理的に接触していれので、得られる信号のＳＮＲは、背景雑音もピックアップしてしまうＡＣオーディオ信号と比較して高い。

しかし、首の領域に又はその周りに配置したＢＣマイクロホンを用いて取得するスピーチの強度は非常に高いが、信号の明瞭性は非常に低いままである。これは、首の領域の又はその周りの骨や柔らかい組織を通る声門信号のフィルタリングと、声道伝達機能の欠如とによるものである。

ＢＣマイクロホンを用いて得られるオーディオ信号の特性は、ユーザの身体と接触させるためにＢＣマイクロホンに印加されている圧力だけでなく、そのＢＣマイクロホンのハウジングにも、すなわち環境中の背景雑音からシールドされているかにも依存する。

それゆえ、ＢＣマイクロホンから得られるスピーチの明瞭性を改善するためのフィルタリング又はスピーチエンハンスメント方法が開発されている。これらの方法は、ＢＣマイクロホンからのオーディオ信号に適用する等化フィルタを構成するためのクリーンなスピーチ参照信号の存在か、又はＡＣマイクロホンからのクリーンなオーディオ信号を用いた特定ユーザモデルのトレーニングを必要とする。ＢＣマイクロホンからのスピーチ信号の特性を用いてＡＣマイクロホンから得られたスピーチの明瞭性を改善するための代替的方法もある。

携帯パーソナル緊急応答システム（ＭＰＥＲＳ）は、ユーザがケアプロバイダに、又は緊急時に緊急サービスに連絡できるマイクロホンを含む、ユーザが身につけるペンダント又は同様の装置を含む。これらの装置は雑音が多い環境で用いなければならないため、ユーザからの最もよいスピーチオーディオ信号を与える装置を提供することが望まれ、これらの装置におけるＢＣマイクロホンとＡＣマイクロホンの使用が検討されている。

しかし、ペンダントはユーザに対して自由に動き（例えば回転し）、そのためユーザに接触するマイクロホンは時間的に変化する（すなわち、マイクロホンは、ある時はＢＣマイクロホンであり、次の時にはＡＣマイクロホンである）。また、ある時には、どのマイクロホンもユーザに接触していない（すなわち、すべてのマイクロホンがＡＣマイクロホンである）可能性もある。このため、オーディオ信号を処理してエンハンスされたオーディオ信号を生成する装置２の中の後段の回路に問題が生じる。処理動作は特定の（すなわち、ＢＣ又はＡＣの）オーディオ信号に対して行われるからである。

それゆえ、この問題を解決する装置及び該装置を動作させる方法が必要である。

本発明の第１の態様による方法は、装置を動作させる方法であって、前記装置は、複数のオーディオセンサを有し、前記複数のオーディオセンサのうち第１のオーディオセンサが前記装置のユーザに接触している時、前記複数のオーディオセンサのうち第２のオーディオセンサが空気と接触するように構成され、前記方法は：前記複数のオーディオセンサからユーザのスピーチを表すオーディオ信号を取得するステップ；及び前記各オーディオ信号を分析して、前記複数のオーディオセンサが前記装置のユーザと接触しているか、接触しているとすればどのオーディオセンサが接触しているか判断するステップ、を有する。

好ましくは、分析するステップは、各オーディオ信号のスペクトル特性を分析するステップを有する。より好ましくは、分析するステップは、閾値周波数より高い各オーディオ信号のパワーを分析するステップを有する。前記閾値周波数より高い各オーディオ信号のパワーが、他のオーディオセンサからの前記閾値周波数より高いオーディオ信号のパワーより小さく、その差が所定量より大きい場合、オーディオセンサが前記装置のユーザに接触していると判断できる。

一実施形態において、分析するステップは、各オーディオ信号にＮポイントフーリエ変換を適用するステップ；フーリエ変換された各オーディオ信号の閾値周波数より低いパワースペクトルに関する情報を決定するステップ；前記決定された情報に応じて、２つのセンサからのフーリエ変換されたオーディオ信号を互いに規格化するステップ；及びフーリエ変換され規格化されたオーディオ信号の前記閾値周波数より上のパワースペクトルを比較して、前記複数のオーディオセンサが前記装置のユーザと接触しているか、接触しているとすればどのオーディオセンサが接触しているか判断するステップ、を有する。

一実施形態において、情報を決定するステップは、フーリエ変換された各オーディオ信号の閾値周波数より上のパワースペクトルにおける最大ピーク値を決定するステップ、を有する。しかし、別の一実施形態では、情報を決定するステップは、フーリエ変換された各オーディオ信号の閾値周波数より下のパワースペクトルを合計するステップを有する。

フーリエ変換された各オーディオ信号の前記閾値周波数より高いパワースペクトルが、他のオーディオセンサからのフーリエ変換されたオーディオ信号の前記閾値周波数より高いパワースペクトルより小さく、その差が所定量より大きい場合、オーディオセンサが前記装置のユーザに接触していると判断できる。

フーリエ変換されたオーディオ信号の前記閾値周波数より高いパワースペクトルの差が所定量より小さいとき、オーディオセンサは前記装置のユーザと接触していないと判断できる。

好ましくは、前記方法は、さらに、前記オーディオ信号を処理して、分析するステップの結果に応じてユーザのスピーチを表す出力オーディオ信号を生成する回路に、前記オーディオ信号供給するステップをさらに有する。

本発明の第２の態様による装置は、複数のオーディオセンサのうち第１のオーディオセンサが前記装置のユーザと接触している時、前記複数のオーディオセンサの第２のオーディオセンサが空気と接触するように、前記装置中に構成された前記複数のオーディオセンサ；及び回路であって：前記複数のオーディオセンサからユーザのスピーチを表すオーディオ信号を取得し；及び前記各オーディオ信号を分析して、前記複数のオーディオセンサが前記装置のユーザと接触しているか、接触しているとすればどのオーディオセンサが接触しているか判断する回路を有する。

好ましくは、前記回路は、閾値周波数より高い各オーディオ信号のパワーを分析するように構成される。

一実施形態において、前記回路は、各オーディオ信号にＮポイントフーリエ変換を適用し；フーリエ変換された各オーディオ信号の閾値周波数より低いパワースペクトルに関する情報を決定し；前記決定された情報に応じて、２つのセンサからのフーリエ変換されたオーディオ信号を互いに規格化し；及びフーリエ変換され規格化されたオーディオ信号の前記閾値周波数より上のパワースペクトルを比較して、前記複数のオーディオセンサが前記装置のユーザと接触しているか、接触しているとすればどのオーディオセンサが接触しているか判断する、ことにより、前記各オーディオ信号を分析するように構成される。

好ましくは、前記装置は、さらに、前記オーディオ信号を受け取り、前記ユーザのスピーチを表す出力オーディオ信号を生成する処理回路をさらに有する。

本発明の第３の態様によると、コンピュータ又はプロセッサによるコンピュータ読み取り可能コードの実行時に、前記コンピュータ又はプロセッサが上記の方法を実行するように構成された前記コンピュータ読み取り可能コードを有するコンピュータプログラム製品が提供される。

ここで、以下の図面を参照して、例として、本発明の実施形態の例を説明する。
ノイズの多い同じ環境において、ＡＣマイクロホンを用いて得られるオーディオ信号と比較して、ＢＣマイクロホンを用いて得られるオーディオ信号の高いＳＮＲ特性を示す図である。２つのマイクロホンを含むペンダントを示すブロック図である。本発明の第１の実施形態による装置を示すブロック図である。ＢＣマイクロホンとＡＣマイクロホンから得られる、背景雑音を含む信号間のパワースペクトル密度の比較を示すグラフである。ＢＣマイクロホンとＡＣマイクロホンから得られる、背景雑音を含まない信号間のパワースペクトル密度の比較を示すグラフである。本発明の一実施形態による方法を示すフローチャートである。本発明のより具体的な一実施形態による方法を示すフローチャートである。本発明による装置のＢＣ／ＡＣ弁別器モジュールの動作の結果を示すグラフである。本発明の第２の実施形態による装置を示すブロック図である。ＢＣマイクロホンを用いて得られる信号に対して行ったスピーチ検出の結果を示すグラフである。ＡＣマイクロホンを用いて得られる信号に対してスピーチエンハンスメントアルゴリズムを適用した結果を示すグラフである。ノイズが多い環境とクリーンな環境においてＡＣマイクロホンを用いて得られる信号と、本発明による方法の出力との間の比較を示すグラフである。図１１に示す３つの信号のパワースペクトル密度間の比較を示すグラフである。２つのマイクロホンを含む携帯電話用有線ハンドフリーキットを示す図である。

図２を参照して、装置２は、ペンダント形式であり、２つのセンサ４，６がペンダント２の対向する側又は面に配置されており、２つのセンサ４，６のうち一方がユーザに接触しているとき、他方のセンサが空気に接触している。ユーザと接触しているセンサ４，６は骨伝導又はコンタクトセンサとして機能し（ＢＣオーディオ信号を供給し）、空気と接触しているセンサ４，６は空気伝導センサとして機能（し、ＡＣオーディオ信号を供給）する。センサ４，６は概して同じタイプと構成である。例示した実施形態では、センサ４，６はマイクロホンであり、ＭＥＭＳ技術に基づくものである。当業者には言うまでもなく、センサ４，６は他のタイプのセンサやトランスデューサを用いて実施することもできる。

装置２は、ユーザの首の回りに付けられるようにひもに付けられていても良い。ひもと装置は、ペンダントとして身につけられると、装置がユーザの身体に対して所定の方向を向き、センサ４，６の一方がユーザに接触するように、構成されている。さらに、この装置の形状は、回転しても変わらず、それにより使用中にユーザの動きにより、装置の方向が変化してその一方のセンサのユーザとの接触が失われないように、なっている。装置の形状は例えば方形であってもよい。

本発明による装置２のブロック図を図３に示した。上記の通り、装置２は、第１のマイクロホン４と第２のマイクロホン６である２つのマイクロホンを有する。これらのマイクロホンは、装置２において、マイクロホン４，６の一方がユーザの一部分と接触している時、マイクロホン４，６の他方が空気と接触する。

第１のマイクロホン４と第２のマイクロホン６は同時に動作して（すなわち、同時に同じスピーチをキャプチャして）、それぞれオーディオ信号（図３のｍ１とｍ２）を生成する。

オーディオ信号は弁別器ブロック７に送られる。弁別器ブロック７は、オーディオ信号を分析して、どちらがＢＣオーディオ信号に対応し、どちらがＡＣオーディオ信号に対応するか判断する。

弁別器ブロック７は、オーディオ信号を回路８に出力する。回路８はオーディオ信号中のスピーチの音質を改善する処理を実行する。

処理回路８は、ＢＣオーディオ信号とＡＣオーディオ信号に既知の任意のスピーチエンハンスメントアルゴリズムを実行して、ユーザのスピーチを表すクリーンな（又は少なくとも改善された）出力オーディオ信号を生成する。出力オーディオ信号は、アンテナ１２を介して他の電子装置（携帯電話や装置基地局など）に送信するため、送信器回路１０に送られる。

弁別器ブロック７は、マイクロホン４，６がどちらもユーザの身体に接触していないと判断すると、両方のＡＣオーディオ信号を処理回路８に出力できる。処理回路８は、複数のＡＣオーディオ信号の存在に基づき代替的なスピーチエンハンスメント方法（例えば、ビームフォーミング）を実行する。

ＢＣオーディオ信号中の高周波（例えば、１ｋHzより高い周波数）のスピーチは、伝送媒体により減衰されることが知られており、図４のグラフに示されている。図４のグラフは、背景雑音がある場合（図４Ａ）と背景雑音がない場合（図４Ｂ）におけるＢＣオーディオ信号とＡＣオーディオ信号のパワースペクトル密度の比較を示す。この特性は、弁別器回路７により、ＢＣオーディオ信号とＡＣオーディオ信号とを弁別するのに用いることができる。

本発明による方法の実施形態を図５に示す。ステップ１０１において、各オーディオ信号が第１のマイクロホン４と第２のマイクロホン６を用いて同時に取得され、弁別器ブロック７に送られる。次に、ステップ１０３とステップ１０５において、弁別器ブロック７は各オーディオ信号のスペクトル特性を分析し、そのスペクトル特性に基づいて第１のマイクロホン４と第２のマイクロホン６がユーザの身体に接触しているか、接触していればどちらが接触しているか調べる（detect）。一実施形態では、弁別器ブロック７は、閾値周波数（例えば、１ｋHz）より高い各オーディオ信号のスペクトル特性を分析する。

しかし、困難な点は、２つのマイクロホン４，６が較正されていないかも知れない、すなわち２つのマイクロホン４，６の周波数応答が異なるかも知れないということである。この場合、較正フィルタを一方のマイクホンに適用してから弁別器ブロック７に進めばよい（図示せず）。よって、以下の説明では、広帯域利得について応答は同じである、すなわち２つのマイクロホンの周波数応答は同じ形状を有するものと仮定する。

以下の動作では、弁別器ブロック７は、２つのマイクロホン４，６からのオーディオ信号のスペクトルを比較して、どちらかのオーディオ信号がＢＣオーディオ信号か、どちらがＢＣオーディオ信号か判断する。マイクロホン４，６の周波数応答が異なる場合、これは装置２の生産段階で較正フィルタを用いて補正できるので、マイクロホンの応答が異なっても、弁別器ブロック７により行われる比較には影響しない。

この較正フィルタを用いても、ＡＣオーディオ信号とＢＣオーディオ信号との間の利得差を考慮する必要はある。ＡＣオーディオ信号とＢＣオーディオ信号は、スペクトル特性に加え、強度が異なるからである（特に１ｋＨｚより高い周波数）。

このように、弁別器ブロック７は、（弁別のみを目的として）閾値周波数より下で見いだされたグローバルピークに基づき、その閾値周波数より上の２つのオーディオ信号のスペクトルを規格化し、その閾値周波数より上のスペクトルを比較して、ＢＣオーディオ信号があるか、あればどちらかを判断する。この規格化が行われなければ、次に、ＢＣオーディオ信号は高強度なので、間違っているかも知れないが、ＢＣオーディオ信号の方がＡＣオーディオ信号よりも高い方の周波数におけるパワーがより高いと判断できる。

本発明の一実施形態を図６のフローチャートに示す。以下の説明では、仮定として、マイクロホン４、６の周波数応答における違いを無くす（account for）のに必要な較正が行われ、さらに仮定として、ＢＣマイクロホン４とＡＣマイクロホン６からの各オーディオ信号は、以下に説明するオーディオ信号の処理の前に、適切な時間遅延を用いて時間的に合わせられている（time-aligned）ものとする。ステップ１１１において、各オーディオ信号は、第１のマイクロホン４と第２のマイクロホン６を用いて同時に取得され、弁別器ブロック７に送られる。

ステップ１１３において、弁別器ブロック７は、ω＝０ラジアン（ｒａｄ）とω＝２πｆ_ｓとの間にＮ個の周波数ビンを生成して、

のように、各マイクロホン４，６からのオーディオ信号にＮポイント（片側）高速フーリエ変換（ＦＦＴ）を適用する。ここで、ｆ_ｓは、アナログのマイクロホン信号をデジタルドメインに変換するアナログ・ツー・デジタル変換器の、ヘルツ（Ｈｚ）単位でのサンプリング周波数である。ナイキスト周波数πｆ_ｓを含む最初のＮ／２＋１個のビン以外のビンは破棄してもよい。弁別器ブロック７は、オーディオ信号に対するＦＦＴの結果を用いて、各オーディオ信号のパワースペクトルを計算する。

次に、ステップ１１５において、弁別器ブロック７は、閾値周波数ω_ｃより下の周波数ビンにおけるパワースペクトルの最大ピークの値

を見つけ、その最大ピークを用いて、閾値周波数ω_ｃより上のオーディオ信号のパワースペクトルを規格化する。閾値周波数ω_ｃは、ＡＣオーディオ信号に対してＢＣオーディオ信号のスペクトルが概して減衰する周波数として選択される。閾値周波数ω_ｃは例えば１ｋＨｚである。各周波数ビンは１つの値を含み、その値は、パワースペクトルの場合、そのビンにおける周波数応答の大きさの二乗である
あるいは、ステップ１１５において、弁別器ブロック７は、各オーディオ信号のω_ｃより下の合計パワースペクトル、すなわち

を見つけることができ、この合計パワースペクトルを用いて閾値周波数ω_ｃより上のオーディオ信号のパワースペクトルを規格化できる。

ＡＣオーディオ信号とＢＣオーディオ信号の低い周波数ビンは概略同じ低周波数情報を含むはずなので、ｐ_１とｐ_２の値を用いて、２つのマイクロホン４，６からの信号スペクトルを規格化して、（ＢＣオーディオ信号とＡＣオーディオ信号の間の違いが見つかると期待される）両方のオーディオ信号の高い周波数ビンを比較して、潜在的なＢＣオーディオ信号を特定できるようにする。

ステップ１１７において、弁別器ブロック７は、上の方の周波数ビンにおける第１のマイクロホン４からの信号のスペクトルと、規格化された第２のマイクロホン６からの信号スペクトルとの間のパワーを比較する

。ここで、εはゼロでの除算を防止するための小さな定数であり、ｐ_１／（ｐ_２＋ε）は第２のオーディオ信号のスペクトルの規格化を表す（言うまでもなく、第１のオーディオ信号を規格化してもよい）。

２つのオーディオ信号のパワー間の違いが（骨伝導マイクロホンの位置に依存し、実験的に決められる）所定量より大きい場合、ω_ｃより上の規格化されたスペクトルのパワーが最大であるオーディオ信号はＡＣマイクロホンからのオーディオ信号であると判断され、そのパワーが最小であるオーディオ信号はＢＣマイクロホンからのオーディオ信号であると判断される。

しかし、２つのオーディオ信号のパワー間の差が前記所定量より小さい場合、複数のオーディオ信号のどれかがＢＣオーディオ信号であると肯定的に判断することはできない（そして、どちらのマイクロホン４，６もユーザの身体と接触していないものと思われる）。

言うまでもなく、ステップ１１７において上記の式で絶対値の二乗を計算する替わりに、絶対値を計算することもできる。

また、言うまでもなく、ステップ１１７において、制限付き割合を用いて、２つの信号のパワーの間の代替的な比較を行い、意思決定における不確実性を無くす（accounted for）こともできる。例えば、閾値周波数より上の周波数におけるパワーの制限付き割合を

により決定すると、この割合は−１と１との間に制限され、値が０に近いとマイクロホンがあればＢＣマイクロホンであることを示す。

弁別器ブロック７は、スイッチング回路を含み、この回路は、ＢＣオーディオ信号であると判断されたオーディオ信号を処理回路８のＢＣオーディオ信号入力に出力し、ＡＣオーディオ信号であると判断されたオーディオ信号を処理回路８のＡＣオーディオ信号入力に出力する。処理回路８は、ＢＣオーディオ信号とＡＣオーディオ信号にスピーチエンハンスメントアルゴリズムを実行して、ユーザのスピーチを表すクリーンな（又は少なくとも改善された）出力オーディオ信号を生成する。

不確実性のため、両方のオーディオ信号がＡＣオーディオ信号であると判断される場合、弁別器ブロック７中のスイッチング回路は、信号を、処理回路８の代替的なオーディオ信号入力（図示せず）に出力する。処理回路８は、両方のオーディオ信号をＡＣオーディオ信号として扱い、従来の２マイクロホン技術を用いて処理し、例えばビームフォーミング技術を用いて複数のＡＣオーディオ信号を合成する。

別の一実施形態では、スイッチング回路は処理回路８の一部であってもよい。つまり、弁別器ブロック７は、第１のマイクロホン４からのオーディオ信号を処理回路８の第１のオーディオ信号入力に出力し、第２のマイクロホン６からのオーディオ信号を処理回路８の第２のオーディオ信号入力に出力し、それとともにオーディオ信号がＢＣ又はＡＣオーディオ信号であるか、あるとすればどちらかを示す信号１３を出力できる。

図７のグラフは、テスト手順における、上記の弁別器ブロック７の動作を示す。具体的に、テストの最初の１０秒間に、第２のマイクロホン６はユーザに接触しており（そのためＢＣオーディオ信号を供給し）、これは（下段のグラフに示されているように）弁別器ブロック７により正しく識別される。テストの次の１０秒間に、第１のマイクロホン４がユーザに接触しており（そのためＢＣオーディオ信号を供給し）、これは弁別器ブロック７により正しく識別されている。

図８は、本発明による装置２の処理回路８の一実施形態をより詳細に示す。装置２は図３に示したものに対応し、両方の装置２に共通の特徴は同じ参照数字を付した。

このように、この実施形態では、処理回路８は次のブロックを有する：弁別器ブロック７からＢＣオーディオ信号を受け取るスピーチ検出ブロック１４；弁別器ブロック７からのＡＣオーディオ信号とスピーチ検出ブロック１４の出力とを受け取るスピーチエンハンスメントブロック１６；ＢＣオーディオ信号を受け取り信号を生成する第１の特徴抽出ブロック１８；スピーチエンハンスメントブロック１６の出力を受け取る第２の特徴抽出ブロック２０；第１の特徴抽出ブロック１８からの信号と第２の特徴抽出ブロック２０の出力とを受け取り、処理回路８の出力オーディオ信号を生成するイコライザ２２。

また、処理回路８は、両方のオーディオ信号がＡＣオーディオ信号であると判断された時に、第１と第２のマイクロホン４，６からのオーディオ信号を処理するさらに別の回路２４を含む。この回路２４の出力は、使われる場合、イコライザブロック２２からの出力オーディオ信号の替わりに、送信器回路１０に送られる。

手短に言えば、処理回路８は、ＢＣオーディオ信号の特性又は特徴（properties or features）及びスピーチエンハンスメントアルゴリズムを用いて、ＡＣオーディオ信号中の雑音量を低減し、ノイズ低減されたＡＣオーディオ信号を用いてＢＣオーディオ信号をイコライズ（equalize）する。このオーディオ信号処理方法の利点は、雑音低減されたＡＣオーディオ信号はまだ雑音及び／又はアーティファクトを含むが、（一般的にはスピーチアーティファクトを含まない）ＢＣオーディオ信号の周波数特性を改善して、明りょうに聞こえるようにするために用いることができるということである。

スピーチ検出ブロック１４は、受け取ったＢＣオーディオ信号を処理して、装置２のユーザによるスピーチを表すＢＣオーディオ信号の部分を識別する。スピーチ検出のためにＢＣオーディオ信号を用いると、ＢＣマイクロホン４が背景雑音の影響を比較的受けず、ＳＮＲが高いため、都合がよい。

スピーチ検出ブロック１４は、スピーチ期間をＢＣオーディオ信号の振幅が閾値より大きい時に検出する、単純な閾値手法（thresholding technique）をＢＣオーディオ信号に適用することにより、スピーチ検出を行える。

処理回路８の他の実施形態では、最小統計手法及び／又はビームフォーミング手法（２以上のＢＣオーディオ信号がある場合）に基づき、ＢＣオーディオ信号中の雑音を抑圧してからスピーチ検出を行うことができる。

図９のグラフは、ＢＣオーディオ信号に対するスピーチ検出ブロック１４の動作結果を示す。

（図９の下段に示した）スピーチ検出ブロック１４の出力は、ＡＣオーディオ信号とともに、スピーチエンハンスメントブロック１６に送られる。ＢＣオーディオ信号と比べて、ＡＣオーディオ信号は静的及び非静的な背景雑音源を含むので、ＢＣオーディオ信号をエンハンス（イコライズ）する基準としてＡＣオーディオ信号を用いられるように、ＡＣオーディオ信号にスピーチエンハンスメントを行う。スピーチエンハンスメントブロック１６の一効果はＡＣオーディオ信号中の雑音量を低減することである。

ブロック１６によりＡＣオーディオ信号に適用できるスピーチエンハンスメントアルゴリズムは多くの異なるタイプのものが知られており、用いるアルゴリズムは装置２におけるマイクロホン４，６の構成及び装置２をどう使うかに依存する。

実施形態では、スピーチエンハンスメントブロック１６は、ＡＣオーディオ信号に、ある形式のスペクトル処理を適用する。例えば、スピーチエンハンスメントブロック１６は、スピーチ検出ブロック１４により判断された非スピーチ期間中に、スピーチ検出ブロック１４の出力を用いて、ＡＣオーディオ信号のスペクトル領域におけるノイズフロア（noise floors）を推定する。このノイズフロアの推定は、スピーチが検出されていないときはいつでも更新される。

装置２が２以上のＡＣセンサ又はマイクロホン（すなわち、ユーザに接触しているセンサに加えて複数のＡＣセンサ）を有するように設計されている実施形態では、スピーチエンハンスメントブロック１６はある形式のマイクロホンビームフォーミングを適用することもできる。

図１０の上段のグラフは、ＡＣマイクロホン６から得られるＡＣオーディオ信号を示し、図１０の下段のグラフは、スピーチ検出ブロック１４の出力を用いてＡＣオーディオ信号にスピーチエンハンスメントアルゴリズムを適用した結果を示す。図から分かるように、ＡＣオーディオ信号の背景雑音レベルは大きくＳＮＲは約０ｄＢであり、スピーチエンハンスメントブロック１６はＡＣオーディオ信号にゲインを適用して、背景雑音をほぼ３０ｄＢだけ抑制する。しかしまた、図から分かるように、ＡＣオーディオ信号中の雑音量は大幅に低減されるが、何らかのアーティファクトは残ってしまう。

雑音低減されたＡＣオーディオ信号を基準信号として用いて、ＢＣオーディオ信号の明瞭性を改善（すなわちエンハンス）する。

処理回路８のある実施形態では、長期スペクトル法を用いて等化（equalization）フィルタを構成することが可能であり、あるいは、ＢＣオーディオ信号をアダプティブフィルタへの入力として用いることができる。このアダプティブフィルタはフィルタ出力とエンハンスされたＡＣオーディオ信号との間の二乗平均誤差を最小化し、フィルタ出力は等化されたＢＣオーディオ信号を与える。さらに別の実施形態では、有限インパルス応答によりＢＣオーディオ信号とエンハンスされたＡＣオーディオ信号との間の伝達関数をモデル化できるとの仮定をする。ＢＣオーディオ信号を入力とし、エンハンスされたＡＣオーディオ信号を基準信号とするアダプティブフィルタを用いれば、アダプティブフィルタの出力は等化されたＢＣオーディオ信号である。これらの実施形態では、言うまでもなく、イコライザブロック２２は、特徴抽出ブロック１８によりＢＣオーディオ信号から抽出された特徴に加えて、元のＢＣオーディオ信号が必要である。この場合、図８に示した処理回路８におけるＢＣオーディオ信号入力ラインとイコライザブロック２２との間には、別途の接続がある。

しかし、線形予測に基づく方法はＢＣオーディオ信号のスピーチの明瞭性を改善するのにより適しているので、好ましくは、特徴抽出ブロック１８、２０は、ＢＣオーディオ信号と雑音低減されたＡＣオーディオ信号からの線形予測係数を抽出する線形予測ブロックである。これらの線形予測係数は、以下にさらに説明するように等化フィルタの構成に用いられる。

線形予測（ＬＰ）は、スピーチ生成の音源・フィルタモデルに基づくスピーチ分析ツールであり、音源とフィルタは声帯と声道形状によりそれぞれ生成される声門励起（glottal excitation）に対応する。このフィルタは全極型であると仮定する。よって、ＬＰ分析により、スピーチ生成時の声道特性に関する全極型モデルにより表される励起信号と周波数領域エンベロープが与えられる。

このモデルは

として与えられる。ここで、ｙ（ｎ）とｙ（ｎ−ｋ）は分析する信号の現在と過去の信号に対応し、ｕ（ｎ）はゲインＧの励起信号であり、ａ_ｋは予測器係数を表し、ｐは全極モデルの次数を表す。

ＬＰ分析の目標は、オーディオスピーチサンプルが与えられた時に、予測誤差

を最小化するように、予測器係数の値を推定することである。

この誤差は、実際に、音源・フィルタモデルにおける励起源に対応する。ｅ（ｎ）は、モデルがスペクトルエンベロープしか予測できないことによる、このモデルにより予測できない信号の部分であり、実際には喉頭により生成されるパルス（声帯励起）に対応する。

白色雑音を追加すると、ＬＰ係数の推定に大きな影響があり、ｙ（ｎ）に一又は複数の追加的音源があると、これらの音源からの貢献を含む励起信号の推定ができることが知られている。それゆえ、正しい励起信号を推定するため、所望の音源信号のみを含む無雑音オーディオ信号を取得することが重要である。

ＢＣオーディオ信号はこのような信号である。そのＳＮＲは高いので、励起源ｅは、線形予測ブロック１８により行われるＬＰ分析を用いて正しく推定できる。この励起信号ｅは、雑音低減されたＡＣオーディオ信号を分析することにより推定される全極モデルを用いて、フィルタできる。全極フィルタは、雑音低減されたＡＣオーディオ信号の滑らかなスペクトルエンベロープを表すので、エンハンスメントプロセスによる生じるアーティファクトに対してもよりロバスト（robust）である。

図８に示したように、線形予測分析は、（線形予測ブロック１８を用いて）ＢＣオーディオ信号と（線形予測ブロック２０を用いて）雑音低減されたＡＣオーディオ信号の両方に行われる。線形予測は、長さが３２ｍｓであり重なりが１６ｍｓであるオーディオサンプルの各ブロックに対して行われる。線形予測分析の前に、信号の一方又は両方に、プリエンファシス（pre-emphasis）フィルタを適用することもできる。線形予測分析の性能とＢＣオーディオ信号の等化（equalization）を改善するため、雑音低減されたＡＣオーディオ信号とＢＣ信号を、どちらかのオーディオ信号に適当な時間遅延を導入することにより、時間的に合わせる（time-align）ことができる（図示せず）。この時間遅延は相互相関手法を用いて、適応的に決めることができる。

現在のサンプルブロックにおいて、過去、現在、及び将来の予測係数を推定し、ラインスペクトル周波数（ＬＳＦ）に変換し、平滑化し、変換して線形予測係数に戻す。スペクトルエンベロープの線形予測係数表示は平滑化に従わない（not amenable）ため、ＬＳＦを用いる。平滑化は、合成動作時の移行効果を減衰するために適用される。

ＢＣオーディオ信号について求めたＬＰ係数を用いて、ＢＣ励起信号ｅを生成する。この信号は、等化ブロック２２によりフィルタ（等化）される。等化ブロック２２は、雑音低減されたＡＣオーディオ信号から推定され平滑化された全極フィルタ

を用いる。

全極フィルタのＬＳＦを用いたシェーピング（shaping）をＡＣ全極フィルタに適用して、有効スペクトルにおける不必要な上昇を防ぐことができる。

LP分析の前にプリエンファシス（pre-emphasis）フィルタを信号に適用する場合、Ｈ（ｚ）の出力にデエンファシス（de-emphasis）フィルタを適用することもできる。出力にワイドバンドゲインを適用して、エンファシス（emphasis）フィルタにより生じるワイドバンドの増幅又は減衰を補正することもできる。

よって、出力オーディオ信号は、雑音低減されたＡＣオーディオ信号のＬＰ分析から推定された全極モデルを用いて、ＢＣオーディオ信号のＬＰ分析から得られた「クリーンな」励起信号ｅをフィルタすることにより、求められる。

図１１は、雑音が多い環境及びクリーンな環境におけるＡＣマイクロホン信号と、線形予測を用いた場合の処理回路８の出力との間の比較を示す。このように、図から分かるように、出力オーディオ信号は、雑音が多いＡＣオーディオ信号よりアーティファクトがずっと少なく、クリーンなＡＣオーディオ信号によく似ている。

図１２は、図１１に示す３つの信号のパワースペクトル密度間の比較を示す。ここでも図から分かるように、出力オーディオ信号スペクトルは、クリーンな環境におけるＡＣオーディオ信号とよく一致している。

このように、処理回路８の実施形態により、スピーチが大きな雑音や反響により劣化してしまう不良な音響的環境においても、クリーンな（又は少なくとも明瞭な）スピーチオーディオ信号を生成できる。

処理回路８のさらに別の一実施形態（図８には図示せず）では、線形予測をする前に、弁別器ブロック７により与えられるＢＣオーディオ信号をエンハンス（雑音を低減）する第２のスピーチエンハンスメントブロックが設けられる。第１のスピーチエンハンスメントブロック１６のように、第２のスピーチエンハンスメントブロックはスピーチ検出ブロック１４の出力を受け取る。第２のスピーチエンハンスメントブロックを用いて、ＢＣオーディオ信号に中程度（moderate）のスピーチエンハンスメントを適用し、マイクロホン信号に漏れる雑音を除去する。第１と第２のスピーチエンハンスメントブロックにより実行されるアルゴリズムは同じでもよいが、ノイズ抑制／スピーチエンハンスメントの適用される実際の大きさは、ＡＣオーディオ信号とＢＣオーディオ信号とでは異なる。

言うまでもなく、上記の本発明を組み込んだ、図２に示したペンダント２又はその他の非ペンダント装置は、２つ以上のマイクロホンを含んでも良い。例えば、ペンダント２の断面は（各面に１つずつ、３つのマイクロホンを要する）三角形でも、（各面に１つずつ、４つのマイクロホンを要する）四角形でもよい。また、装置２を、二以上のマイクロホンがＢＣオーディオ信号を取得できるように構成することも可能である。この場合、回路８によるスピーチエンハンスメント処理の前に、例えばビームフォーミング手法を用いて、複数のＡＣ（又はＢＣ）マイクロホンからのオーディオ信号を合成して、ＳＮＲが改善された一ＡＣ（又はＢＣ）オーディオ信号を生成することができる。これにより、処理回路８により出力されるオーディオ信号の音質と明瞭性をさらに改善できる。

かかる装置においてあるタイプ（例えば、ＡＣ及び／又はＢＣ）の二以上のマイクロホンを用いる場合、装置ごとにマイクロホンをＡＣ又はＢＣと分類する一般的な方法を以下に説明する。最初に、図５又は図６を参照して説明したように、複数のマイクロホンをペアごとの分類を行い、ＡＣ、ＢＣ、又は未定のどれかにグループ分けする。次に、ペアごとの分類を再度行い、今度は未定とされたマイクロホンの間、及びＢＣ信号とされたマイクロホンの間で行う。２つのマイクロホンが未定と分類された場合、それらはＢＣグループに属し、そうでなければＡＣグループに属する。第２のステップは、ＢＣグループの替わりにＡＣグループを用いて実行することもできる。

本発明は、ここまでＭＰＥＲＳの一部であるペンダントに関して説明したが、言うまでもなく、スピーチを検出するセンサやマイクロホンを用いる他のタイプの電子装置に実装することもできる。一タイプの装置２を図１３に示す。これは、携帯電話に接続してハンドフリー機能を提供できる有線のハンドフリーキットである。装置２は、イヤピース（図示せず）と、２つのマイクロホン４，６を有するマイクロホン部３０とを有する。マイクロホン部３０は、使用時、ユーザの口又は首の近くにくる。マイクロホン部は、いつもマイクロホン部の方向に応じて、２つのマイクロホン４，６のどちらかがユーザの首に接触するように構成される。

言うまでもなく、図２と図７に示した弁別器ブロック７及び／又は処理回路８は、単一のプロセッサとして、又は相互接続された複数の処理ブロックとして実装できる。言うまでもなく、代替的に、処理回路８の機能は、装置内の汎用プロセッサにより実行されるコンピュータプログラムの形式で実装できる。さらに、言うまでもなく、処理回路８は、第１及び／第２のマイクロホン４，６を収納している装置とは別の装置に実装して、これら装置の間でオーディオ信号を送ることもできる。

言うまでもなく、弁別器ブロック７と処理回路８は、ブロックごとにオーディオ信号を処理（すなわち、一度に一ブロックのオーディオサンプルを処理）できる。例えば、弁別器ブロック７において、ＦＦＴを適用する前に、オーディオ信号をＮ個のオーディオサンプルを含む複数のブロックに分割できる。その後、弁別器ブロック７により実行される処理は、変換されたＮ個のオーディオサンプルのブロックごとに実行される。特徴抽出ブロック１８，２０は、同様に動作できる。

それゆえ、装置がユーザに対して自由に動いて、ＢＣ信号とＡＣ信号を提供するマイクロホンが変わっても、ユーザのスピーチを表すオーディオ信号をＢＣオーディオ信号及びＡＣオーディオ信号から取得できる装置及び該装置を動作させる方法を提供する。

本発明を、図面と上記の説明に詳しく示し説明したが、かかる例示と説明は例であり限定ではなく、本発明は開示した実施形態には限定されない。

請求項に記載した発明を実施する際、図面、本開示、及び添付した特許請求の範囲を研究して、開示した実施形態のバリエーションを、当業者は理解して実施することができるであろう。請求項において、「有する（comprising）」という用語は他の要素やステップを排除するものではなく、「１つの（"a" or "an"）」という表現は複数ある場合を排除するものではない。単一のプロセッサまたはその他のアイテムが請求項に記載した複数のユニットの機能を満たすこともできる。相異なる従属クレームに手段が記載されているからといって、その手段を組み合わせて有利に使用することができないということではない。コンピュータプログラムは、光記憶媒体や他のハードウェアとともに、またはその一部として供給される固体媒体などの適切な媒体に記憶／配布することができ、インターネットや有線または無線の電気通信システムなどを介して他の形式で配信することもできる。請求項に含まれる参照符号は、その請求項の範囲を限定するものと解してはならない。

Claims

装置を動作させる方法であって、前記装置は、複数のオーディオセンサを有し、前記複数のオーディオセンサのうち第１のオーディオセンサが前記装置のユーザに接触している時、前記複数のオーディオセンサのうち第２のオーディオセンサが空気と接触するように構成され、前記方法は：
前記複数のオーディオセンサからユーザのスピーチを表す各オーディオ信号を取得するステップ；及び
前記各オーディオ信号を分析して、前記複数のオーディオセンサが前記装置のユーザと接触しているか、接触しているとすればどのオーディオセンサが接触しているか判断するステップ、を有する方法。
分析するステップは、各オーディオ信号のスペクトル特性を分析するステップを有する、
請求項１に記載の方法。
分析するステップは、閾値周波数より高い各オーディオ信号のパワーを分析するステップを有する、請求項１または２に記載の方法。
前記閾値周波数より高い各オーディオ信号のパワーが、他のオーディオセンサからの前記閾値周波数より高いオーディオ信号のパワーより小さく、その差が所定量より大きい場合、オーディオセンサが前記装置のユーザに接触していると判断する、
請求項３に記載の方法。
分析するステップは：
各オーディオ信号にＮポイントフーリエ変換を適用するステップ；
フーリエ変換された各オーディオ信号の閾値周波数より低いパワースペクトルに関する情報を決定するステップ；
前記決定された情報に応じて、２つのセンサからのフーリエ変換されたオーディオ信号を互いに規格化するステップ；及び
フーリエ変換され規格化されたオーディオ信号の前記閾値周波数より上のパワースペクトルを比較して、前記複数のオーディオセンサが前記装置のユーザと接触しているか、接触しているとすればどのオーディオセンサが接触しているか判断するステップ、を有する
請求項１ないし４いずれか一項に記載の方法。
情報を決定するステップは、フーリエ変換された各オーディオ信号の閾値周波数より下のパワースペクトルにおける最大ピーク値を決定するステップを有する、
請求項５に記載の方法。
情報を決定するステップは、フーリエ変換された各オーディオ信号の閾値周波数より下のパワースペクトルを合計するステップ、を有する、
請求項５に記載の方法。
フーリエ変換された各オーディオ信号の前記閾値周波数より高いパワースペクトルが、他のオーディオセンサからのフーリエ変換されたオーディオ信号の前記閾値周波数より高いパワースペクトルより小さく、その差が所定量より大きい場合、オーディオセンサが前記装置のユーザに接触していると判断する、請求項５ないし７いずれか一項に記載の方法。
フーリエ変換されたオーディオ信号の前記閾値周波数より高いパワースペクトルの差が所定量より小さいとき、オーディオセンサは前記装置のユーザと接触していないと判断する、請求項５ないし８いずれか一項に記載の方法。
前記オーディオ信号を処理して、分析するステップの結果に応じてユーザのスピーチを表す出力オーディオ信号を生成する回路に、前記オーディオ信号を供給するステップをさらに有する、請求項１ないし９いずれか一項に記載の方法。
装置であって、
複数のオーディオセンサのうち第１のオーディオセンサが前記装置のユーザと接触している時、前記複数のオーディオセンサの第２のオーディオセンサが空気と接触するように、前記装置中に構成された前記複数のオーディオセンサ；及び
回路であって：
前記複数のオーディオセンサからユーザのスピーチを表すオーディオ信号を取得し；及び
前記各オーディオ信号を分析して、前記複数のオーディオセンサが前記装置のユーザと接触しているか、接触しているとすればどのオーディオセンサが接触しているか判断する、回路、
を有する装置。
前記回路は、閾値周波数より高い各オーディオ信号のパワーを分析するように構成された、請求項１１に記載の装置。
前記回路は、
各オーディオ信号にＮポイントフーリエ変換を適用し；
フーリエ変換された各オーディオ信号の閾値周波数より低いパワースペクトルに関する情報を決定し；
前記決定された情報に応じて、２つのセンサからのフーリエ変換されたオーディオ信号を互いに規格化し；及び
フーリエ変換され規格化されたオーディオ信号の前記閾値周波数より上のパワースペクトルを比較して、前記複数のオーディオセンサが前記装置のユーザと接触しているか、接触しているとすればどのオーディオセンサが接触しているか判断することにより、前記各オーディオ信号を分析するように構成された、請求項１１又は１２に記載の装置。
前記オーディオ信号を受け取り、前記ユーザのスピーチを表す出力オーディオ信号を生成する処理回路をさらに有する、請求項１１ないし１３いずれか一項に記載の装置。
コンピュータ又はプロセッサに請求項１乃至１０いずれか一項に記載の方法を実行させるコンピュータプログラム。