JP2014502468A

JP2014502468A - オーディオ信号生成システム及び方法

Info

Publication number: JP2014502468A
Application number: JP2013540465A
Authority: JP
Inventors: ケヒヒアン，パトリック; デンドゥンゲン，ウィルヘルミュスアンドレアスマリニュスアルノルデュスマリアファン
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2010-11-24
Filing date: 2011-11-17
Publication date: 2014-01-30
Anticipated expiration: 2031-11-17
Also published as: US20130246059A1; EP2643834B1; CN103229238A; BR112013012538A2; JP6034793B2; WO2012069966A1; EP2643834A1; EP2458586A1; RU2595636C2; US9812147B2; CN103229238B; RU2013128375A

Abstract

ユーザのスピーチを表す信号を生成する方法を提供する。該方法は、ユーザと接触したセンサを用いてユーザのスピーチを表す第１のオーディオ信号を取得するステップ；空気伝導センサを用いて、ユーザのスピーチを表しユーザの周りに環境からの雑音を含む第２のオーディオ信号を取得するステップ；第１のオーディオ信号におけるスピーチ期間を検出するステップ；第２のオーディオ信号にスピーチエンハンスメントアルゴリズムを適用して第２のオーディオ信号中の雑音を低減する、スピーチエンハンスメントアルゴリズムは第１のオーディオ信号におけるスピーチ期間を用いるステップ；雑音を低減した第２のオーディオ信号を用いて第１のオーディオ信号を等化して、ユーザのスピーチを表す出力オーディオ信号を生成するステップを有する。

Description

本発明は、オーディオ信号生成システムと方法に関し、具体的には、骨伝導又は接触型マイクロホンなどの接触型センサを用いて取得されたオーディオ信号からユーザのスピーチを表すオーディオ信号を生成するシステムと方法に関する。

モバイル装置は音響的に厳しい環境（すなわち、背景雑音が多い環境）において使われることが多い。モバイル装置のユーザが双方向通信中に他端の音を聞ける問題とは別に、ユーザのスピーチを表す「クリーンな」（すなわち、雑音が無い又は雑音を大幅に低減した）オーディオ信号を得ることは難しい。キャプチャされるＳＮＲ（signal-to-noise ratio）が低い環境では、従来のスピーチ処理アルゴリズムは、雑音抑制量が限られており、近接したスピーチ信号（すなわち、モバイル装置のマイクロホンで捉えたもの）は「楽音（musical tones）」アーティファクトで歪んでしまうことがある。

既知の通り、骨伝導（ＢＣ）やコンタクトマイクロホン（すなわち、音を出しているオブジェクトに物理的に接触しているマイクロホン）などのコンタクトセンサを用いて取得するオーディオ信号は、マイクロホン（すなわち、音を出しているオブジェクトからは空気で隔てられているマイクロホン）などの空気伝導（ＡＣ）センサを用いて取得するオーディオ信号と比較して、背景雑音に比較的強い。何故なら、ＢＣマイクロホンにより測定される音の振動は、通常のＡＣマイクロホンのように空気を通してではなく、ユーザの身体を通して伝搬するからである。通常のＡＣマイクロホンは、所望のオーディオ信号のキャプチャに加え、背景ノイズもピックアップしてしまう。さらに、ＢＣマイクロホンを用いて得られるオーディオ信号の強度は、概して、ＡＣマイクロホンを用いて得られるものよりも非常に高い。それゆえ、ＢＣマイクロホンは、雑音が多い環境で使用する装置に使えると考えられている。図１は、ノイズの多い同じ環境において、ＡＣマイクロホンを用いて得られるオーディオ信号と比較して、ＢＣマイクロホンを用いて得られるオーディオ信号の高いＳＮＲ特性を示す図である。

しかし、ＢＣマイクロホンを用いて取得するスピーチの問題は、ＡＣマイクロホンを用いて取得するスピーチより、通常は音質と明瞭度が非常に低いことである。明瞭度の低下は、骨と組織のフィルタリング特性によるものである。このフィルタリング特性により、オーディオ信号の高周波成分が大きく減衰してしまう。

ＢＣマイクロホンを用いて取得するスピーチの音質と明瞭度は、ユーザにおける位置に依存する。マイクロホンが、喉や首の領域の喉頭と声帯に近いほど、ＢＣオーディオ信号の音質と強度は高くなる。さらに、ＢＣマイクロホンが音を発しているオブジェクトに物理的に接触していれので、得られる信号のＳＮＲは、背景雑音もピックアップしてしまうＡＣオーディオ信号と比較して高い。

しかし、首の領域に又はその周りに配置したＢＣマイクロホンを用いて取得するスピーチの強度は非常に高いが、信号の明瞭性は非常に低いままである。これは、首の領域の又はその周りの骨や柔らかい組織を通る声門信号のフィルタリングと、声道伝達機能の欠如とによるものである。

ＢＣマイクロホンを用いて得られるオーディオ信号の特性は、ユーザの身体と接触させるためにＢＣマイクロホンに印加されている圧力だけでなく、そのＢＣマイクロホンのハウジングにも、すなわち環境中の背景雑音からシールドされているかにも依存する。

ＢＣマイクロホンから得られるスピーチの明瞭性を改善するためのフィルタリング又はスピーチエンハンスメント方法があるが、これらの方法は、ＢＣマイクロホンからのオーディオ信号に適用する等化フィルタを構成するためのクリーンなスピーチ参照信号の存在か、又はＡＣマイクロホンからのクリーンなオーディオ信号を用いた特定ユーザモデルのトレーニングを必要とする。結果として、これらの方法は、（例えばノイズの多い環境において）クリーンなスピーチ基準信号が常に利用できるとは限らない、又は多数の異なるユーザの誰でも装置を使用できる現実のアプリケーションには適していない。

それゆえ、ＢＣマイクロホンを用いて取得されたオーディオ信号からユーザのスピーチを表すオーディオ信号を生成する代替的なシステムと方法であって、雑音の多い環境で使え、使用前にユーザがアルゴリズムをトレーニングする必要がないものが必要である。

本発明の第１の態様により提供される、ユーザのスピーチを表す信号を生成する方法は、：前記ユーザと接触したセンサを用いて前記ユーザのスピーチを表す第１のオーディオ信号を取得するステップ；空気伝導センサを用いて、前記ユーザのスピーチを表し前記ユーザの周りに環境からの雑音を含む第２のオーディオ信号を取得するステップ；前記第１のオーディオ信号におけるスピーチ期間を検出するステップ；前記第２のオーディオ信号にスピーチエンハンスメントアルゴリズムを適用して前記第２のオーディオ信号中の雑音を低減する、前記スピーチエンハンスメントアルゴリズムは前記第１のオーディオ信号におけるスピーチ期間を用いるステップ；前記雑音を低減した第２のオーディオ信号を用いて前記第１のオーディオ信号を等化して、前記ユーザのスピーチを表す出力オーディオ信号を生成するステップを有する。

この方法は、雑音低減されたＡＣオーディオ信号はまだ雑音及び／又はアーティファクトを含むが、（一般的にはスピーチアーティファクトを含まない）ＢＣオーディオ信号の周波数特性を改善して、明瞭に聞こえるようにするために用いることができるとの利点を有する。

好ましくは、前記第１のオーディオ信号におけるスピーチ期間を検出するステップは、前記オーディオ信号の振幅が閾値より大きい前記第１のオーディオ信号の部分を検出するステップを有する。

好ましくは、前記スピーチエンハンスメントアルゴリズムを適用するステップは、前記第２のオーディオ信号にスペクトル処理を適用するステップを有する。

好ましい一実施形態において、スピーチエンハンスメントアルゴリズムを適用して前記第２のオーディオ信号中の雑音を低減するステップは、前記第１のオーディオ信号におけるスピーチ期間を用いて前記第２のオーディオ信号のスペクトル領域におけるノイズフロアを推定するステップを有する。

好ましい実施形態において、前記第１のオーディオ信号を等化するステップは、前記第１のオーディオ信号と前記雑音を低減した第２のオーディオ信号の両方において線形予測分析を行い等化フィルタを構成するステップを有する。

具体的に、線形予測分析を行うステップは、好ましくは：（ｉ）前記第１のオーディオ信号及び前記雑音を低減した第２のオーディオ信号の両方の線形予測係数を推定するステップ；（ｉｉ）前記第１のオーディオ信号の線形予測係数を用いて前記第１のオーディオ信号の励起信号を生成するステップ；（ｉｉｉ）前記雑音を低減した第２のオーディオ信号の線形予測係数を用いて周波数領域エンベロープを構成するステップ；及び（ｉｖ）前記周波数領域エンベロープを用いて前記第１のオーディオ信号の励起信号を等化するステップ、を有する。

あるいは、前記第１のオーディオ信号を等化するステップは、（ｉ）長期スペクトル法を用いて等化フィルタを構成するステップ、又は（ｉｉ）前記第１のオーディオ信号を前記フィルタ出力と前記雑音を低減した第２のオーディオ信号との間の平均二乗誤差を最小化するアダプティブフィルタへの入力として用いるステップを有する。

いくつかの実施形態では、等化するステップの前に、該方法はさらに、前記第１のオーディオ信号にスピーチエンハンスメントアルゴリズムを適用して前記第１のオーディオ信号中の雑音を低減する、前記スピーチエンハンスメントアルゴリズムは前記第１のオーディオ信号におけるスピーチ期間を用いるステップを有し、前記等化するステップは、前記雑音を低減した第２のオーディオ信号を用いて前記雑音を低減した第１のオーディオ信号を等化して、前記ユーザのスピーチを表す出力オーディオ信号を生成するステップを有する。

一部の実施形態では、上記方法は、さらに、第２の空気伝導センサを用いて、前記ユーザのスピーチを表し前記ユーザの周りの環境からの雑音を含む第３のオーディオ信号を取得するステップ；及びビームフォーミング手法を用いて前記第２のオーディオ信号と前記第３のオーディオ信号を合成して合成オーディオ信号を生成するステップを有し、スピーチエンハンスメントアルゴリズムを適用するステップは、前記合成オーディオ信号に前記スピーチエンハンスメントアルゴリズムを適用して前記合成オーディオ信号中の雑音を低減する、前記スピーチエンハンスメントアルゴリズムは前記第１のオーディオ信号におけるスピーチ期間を用いるステップを有する。

ある実施形態では、上記方法は、さらに、前記ユーザと接触した第２のセンサを用いて前記ユーザのスピーチを表す第４のオーディオ信号を取得するステップ；及びビームフォーミング手法を用いて前記第１のオーディオ信号と前記第４のオーディオ信号を合成して第２の合成オーディオ信号を生成するステップをさらに有し、スピーチ期間を検出するステップは、前記第２の合成オーディオ信号におけるスピーチ期間を検出するステップを有する。

本発明の第２の態様により提供される、ユーザのスピーチを表すオーディオ信号の生成において用いる装置は、処理回路であって：前記ユーザと接触したセンサから前記ユーザのスピーチを表す第１のオーディオ信号を受け取り；空気伝導センサから、前記ユーザのスピーチを表し前記ユーザの周りの環境からの雑音を含む第２のオーディオ信号を受け取り；前記第１のオーディオ信号におけるスピーチ期間を検出し；前記第２のオーディオ信号にスピーチエンハンスメントアルゴリズムを適用して前記第２のオーディオ信号中の雑音を低減し、前記スピーチエンハンスメントアルゴリズムは前記第１のオーディオ信号におけるスピーチ期間を用い；前記雑音を低減した第２のオーディオ信号を用いて前記第１のオーディオ信号を等化して、前記ユーザのスピーチを表す出力オーディオ信号を生成する。

好ましい実施形態において、前記処理回路は、前記第１のオーディオ信号と前記雑音を低減した第２のオーディオ信号の両方において線形予測分析を行うことにより第１のオーディオ信号を等化し、等化フィルタを構成するように構成される。

好ましい実施形態において、前記処理回路は、（ｉ）前記第１のオーディオ信号及び前記雑音を低減した第２のオーディオ信号の両方の線形予測係数を推定し；（ｉｉ）前記第１のオーディオ信号の線形予測係数を用いて前記第１のオーディオ信号の励起信号を生成し；（ｉｉｉ）前記雑音を低減したオーディオ信号の線形予測係数を用いて周波数領域エンベロープを構成し；及び（ｉｖ）前記周波数領域エンベロープを用いて前記第１のオーディオ信号の励起信号を等化することにより前記線形予測分析を行うように構成される。

好ましくは、前記装置は、さらに、前記装置を使用中に前記ユーザの身体に接触し、第１のオーディオ信号を生成するように構成された接触センサ；及び前記第２のオーディオ信号を生成するように構成された空気伝導センサをさらに有する。

本発明の第３の態様によると、コンピュータ又はプロセッサによるコンピュータ読み取り可能コードの実行時に、前記コンピュータ又はプロセッサが上記の方法を実行するように構成された前記コンピュータ読み取り可能コードを有するコンピュータプログラム製品が提供される。

ここで、以下の図面を参照して、例として、本発明の実施形態の例を説明する。
ノイズの多い同じ環境において、ＡＣマイクロホンを用いて得られるオーディオ信号と比較して、ＢＣマイクロホンを用いて得られるオーディオ信号の高いＳＮＲ特性を示す図である。本発明の第１の実施形態による処理回路を含む装置を示すブロック図である。本発明によるＢＣマイクロホンからのオーディオ信号を処理する方法を示すフローチャートである。ＢＣマイクロホンを用いて得られる信号に対して行ったスピーチ検出の結果を示すグラフである。ＡＣマイクロホンを用いて得られる信号に対してスピーチエンハンスメントアルゴリズムを適用した結果を示すグラフである。ノイズが多い環境とクリーンな環境においてＡＣマイクロホンを用いて得られる信号と、本発明による方法の出力との間の比較を示すグラフである。図６に示す３つの信号のパワースペクトル密度間の比較を示すグラフである。本発明の第２の実施形態による処理回路を含む装置を示すブロック図である。本発明の第３の実施形態による処理回路を含む装置を示すブロック図である。ＢＣマイクロホンとＡＣマイクロホンから得られる、背景雑音を含む信号間のパワースペクトル密度の比較を示すグラフである。ＢＣマイクロホンとＡＣマイクロホンから得られる、背景雑音を含まない信号間のパワースペクトル密度の比較を示すグラフである。第３の実施形態による処理回路のＢＣ／ＡＣ弁別器モジュールの動作の結果を示すグラフである。本発明による処理回路で用いることができる２つのマイクロホンを組み込んだ装置を示す図である。本発明による処理回路で用いることができる２つのマイクロホンを組み込んだ装置を示す図である。本発明による処理回路で用いることができる２つのマイクロホンを組み込んだ装置を示す図である。

上記の通り、本発明は、大きな雑音や反響によりスピーチが劣化してしまう音響的環境から、クリーンな（又は少なくとも明瞭な）スピーチオーディオ信号を生成する問題を解決する。

（スピーチの自然さを増すために）ＢＣマイクロホンや接触型センサを用いて取得されたオーディオ信号の等化（equalization）のために開発された既存のアルゴリズムは、クリーンな基準信号の利用と、特定ユーザモデルの事前トレーニングとに依存する。しかし、本発明は、ＢＣ又は接触型のマイクロホンから取得されたオーディオ信号からユーザのスピーチを表すオーディオ信号を生成する改善されたシステムと方法であって、ノイズが多い環境で用いることができ、利用前にユーザがアルゴリズムをトレーニングする必要がないものを提供する。

本発明の第１の実施形態による処理回路を含む装置２を図１に示した。装置２は、ポータブル又はモバイル装置であり、例えば携帯電話、スマートフォン、又はＰＤＡであり、又はかかるモバイル装置のアクセサリであり、例えば無線又は有線のハンヅフリーヘッドセットである。

装置２は、ユーザのスピーチを表すオーディオ信号をそれぞれ生成する２つのセンサ４、６を有する。第１のセンサ４は、装置２を使用する時に、装置２のユーザの一部と接触するように、装置２に配置された骨伝導型又は接触型のセンサである。第２のセンサ６は、一般的にユーザと直接的物理的接触をしていない空気伝導型センサである。図示した実施形態において、第１のセンサ４は骨伝導型又は接触型のマイクロホンであり、第２のセンサは空気伝導型のマイクロホンである。別の実施形態では、第１のセンサ４は、ユーザが話す時のユーザの身体の振動から得られる加速度を表す電気信号を生成する加速度計である。当業者には言うまでもなく、第１及び／又は第２のセンサ４、６は他のタイプのセンサやトランスデューサを用いて実施することもできる。

ＢＣマイクロホン４とＡＣマイクロホン６は同時に動作して（すなわち、同時に同じスピーチをキャプチャして）、それぞれ骨伝導と空気伝導によるオーディオ信号を生成する。

ＢＣマイクロホン４からのオーディオ信号（以下「ＢＣオーディオ信号」と呼び、図２において「ｍ_１」で示す）と、ＡＣマイクロホン６からのオーディオ信号（以下「ＡＣオーディオ信号」と呼び、図２において「ｍ_２」で示す）とは、処理回路８に供給される。処理回路８は、本発明によるオーディオ信号の処理を行う。

処理回路８の出力はユーザのスピーチを表すクリーンな（少なくとも改善された）オーディオ信号である。この出力は、アンテナ１２を介して他の電子装置に送信する送信器回路１０に供給される。

処理回路８は次のブロックを有する：ＢＣオーディオ信号を受け取るスピーチ検出ブロック１４；ＡＣオーディオ信号とスピーチ検出ブロック１４の出力とを受け取るスピーチエンハンスメントブロック１６；ＢＣオーディオ信号を受け取る第１の特徴抽出ブロック１８；スピーチエンハンスメントブロック１６の出力を受け取る第２の特徴抽出ブロック２０；第１の特徴抽出ブロック１８からの信号出力と第２の特徴抽出ブロック２０の出力とを受け取り、処理回路８の出力オーディオ信号を生成するイコライザ２２。

処理回路８の動作と上記の様々なブロックの機能は、図３を参照してより詳細に説明する。図３は本発明による信号処理方法を示すフローチャートである。

手短に言えば、本発明による方法は、ＢＣオーディオ信号の特性又は特徴（properties or features）及びスピーチエンハンスメントアルゴリズムを用いて、ＡＣオーディオ信号中の雑音量を低減し、ノイズ低減されたＡＣオーディオ信号を用いてＢＣオーディオ信号を等化（equalize）する。この方法の利点は、雑音低減されたＡＣオーディオ信号はまだ雑音及び／又はアーティファクトを含むが、（一般的にはスピーチアーティファクトを含まない）ＢＣオーディオ信号の周波数特性を改善して、明瞭に聞こえるようにするために用いることができるということである。

よって、図３のステップ１０１において、各オーディオ信号はＢＣマイクロホン４とＡＣマイクロホン６を用いて同時に取得され、これらの信号は処理回路８に供給される。以下の説明では、ＢＣマイクロホン４とＡＣマイクロホン６からの各オーディオ信号は、以下に説明するオーディオ信号のさらなる処理の前に、適当な時間遅延を用いて時間的に合わせられていると仮定する。

スピーチ検出ブロック１４は、受け取ったＢＣオーディオ信号を処理して、装置２のユーザによるスピーチを表すＢＣオーディオ信号の部分を識別する（図３のステップ１０３）。スピーチ検出のためにＢＣオーディオ信号を用いると、ＢＣマイクロホン４が背景雑音の影響を比較的受けず、ＳＮＲが高いため、都合がよい。

スピーチ検出ブロック１４は、スピーチ期間をＢＣオーディオ信号の振幅が閾値より大きい時に検出する、単純な閾値手法（thresholding technique）をＢＣオーディオ信号に適用することにより、スピーチ検出を行える。

本発明の他の実施形態（図示せず）では、最小統計手法及び／又はビームフォーミング手法（２以上のＢＣオーディオ信号がある場合）に基づき、ＢＣオーディオ信号中の雑音を抑圧してからスピーチ検出を行うことができる。

図４のグラフは、ＢＣオーディオ信号に対するスピーチ検出ブロック１４の動作結果を示す。

上記の通り、（図４の下段に示した）スピーチ検出ブロック１４の出力は、ＡＣオーディオ信号とともに、スピーチエンハンスメントブロック１６に送られる。ＢＣオーディオ信号と比べて、ＡＣオーディオ信号は静的及び非静的な背景雑音源を含むので、ＢＣオーディオ信号をエンハンス（イコライズ）する基準としてＡＣオーディオ信号を用いられるように、ＡＣオーディオ信号にスピーチエンハンスメントを行う（ステップ１０５）。スピーチエンハンスメントブロック１６の一効果はＡＣオーディオ信号中の雑音量を低減することである。

ブロック１６によりＡＣオーディオ信号に適用できるスピーチエンハンスメントアルゴリズムは多くの異なるタイプのものが知られており、用いるアルゴリズムは装置２におけるマイクロホン４、６の構成及び装置２をどう使うかに依存する。

実施形態では、スピーチエンハンスメントブロック１６は、ＡＣオーディオ信号に、ある形式のスペクトル処理を適用する。例えば、スピーチエンハンスメントブロック１６は、スピーチ検出ブロック１４により判断された非スピーチ期間中に、スピーチ検出ブロック１４の出力を用いて、ＡＣオーディオ信号のスペクトル領域におけるノイズフロア（noise floors）特性を推定する。このノイズフロアの推定は、スピーチが検出されていないときはいつでも更新される。別の一実施形態では、スピーチエンハンスメントブロック１６は、スピーチ検出ブロック１４の出力中に示された非スピーチ部分を用いて、ＡＣオーディオ信号の非スピーチ部分をフィルタ除去する。

装置２が二以上のＡＣセンサ（マイクロホン）６を有する実施形態では、スピーチエンハンスメントブロック１６も何らかの形式のマイクロホンビームフォーミングを適用してもよい。

図５の上段のグラフは、ＡＣマイクロホン６から得られるＡＣオーディオ信号を示し、図５の下段のグラフは、スピーチ検出ブロック１４の出力を用いてＡＣオーディオ信号にスピーチエンハンスメントアルゴリズムを適用した結果を示す。図から分かるように、ＡＣオーディオ信号の背景雑音レベルは大きくＳＮＲは約０ｄＢであり、スピーチエンハンスメントブロック１６はＡＣオーディオ信号にゲインを適用して、背景雑音をほぼ３０ｄＢだけ抑制する。しかしまた、図から分かるように、ＡＣオーディオ信号中の雑音量は大幅に低減されるが、何らかのアーティファクトは残ってしまう。

それゆえ、上記の通り、雑音低減されたＡＣオーディオ信号を基準信号として用いて、ＢＣオーディオ信号の明瞭性を改善（すなわちエンハンス）する（ステップ１０７）。

本発明のある実施形態では、長期スペクトル法を用いて等化（equalization）フィルタを構成することが可能であり、あるいは、ＢＣオーディオ信号をアダプティブフィルタへの入力として用いることができる。このアダプティブフィルタはフィルタ出力とエンハンスされたＡＣオーディオ信号との間の二乗平均誤差を最小化し、フィルタ出力は等化されたＢＣオーディオ信号を与える。さらに別の実施形態では、有限インパルス応答によりＢＣオーディオ信号とエンハンスされたＡＣオーディオ信号との間の伝達関数をモデル化できるとの仮定をする。これらの実施形態では、言うまでもなく、イコライザブロック２２は、特徴抽出ブロック１８によりＢＣオーディオ信号から抽出された特徴に加えて、元のＢＣオーディオ信号が必要である。この場合、図８に示した処理回路２におけるＢＣオーディオ信号入力ラインとイコライザブロック２２との間には、別途の接続がある。

しかし、線形予測に基づく方法はＢＣオーディオ信号のスピーチの明瞭性を改善するのにより適しているので、本発明の好ましい実施形態では、特徴抽出ブロック１８、２０は、ＢＣオーディオ信号と雑音低減されたＡＣオーディオ信号からの線形予測係数を抽出する線形予測ブロックである。これらの線形予測係数は、以下にさらに説明するように等化フィルタの構成に用いられる。

線形予測（ＬＰ）は、スピーチ生成の音源・フィルタモデルに基づくスピーチ分析ツールであり、音源とフィルタは声帯と声道形状によりそれぞれ生成される声門励起（glottal excitation）に対応する。このフィルタは全極型であると仮定する。よって、ＬＰ分析により、スピーチ生成時の声道特性に関する全極型モデルにより表される励起信号と周波数領域エンベロープが与えられる。

このモデルは

として与えられる。ここで、ｙ（ｎ）とｙ（ｎ−ｋ）は分析する信号の現在と過去の信号に対応し、ｕ（ｎ）はゲインＧの励起信号であり、ａ_ｋは予測器係数を表し、ｐは全極モデルの次数を表す。

ＬＰ分析の目標は、オーディオスピーチサンプルが与えられた時に、予測誤差

を最小化するように、予測器係数の値を推定することである。ここで、誤差は実際には音源・フィルタモデルにおける励起源に対応する。ｅ（ｎ）は、モデルがスペクトルエンベロープしか予測できないことによる、このモデルにより予測できない信号の部分であり、実際には喉頭により生成されるパルス（声帯励起）に対応する。

白色雑音を追加すると、ＬＰ係数の推定に大きな影響があり、ｙ（ｎ）に一又は複数の追加的音源があると、これらの音源からの貢献を含む励起信号の推定ができることが知られている。それゆえ、正しい励起信号を推定するため、所望の音源信号のみを含む無雑音オーディオ信号を取得することが重要である。

ＢＣオーディオ信号はこのような信号である。そのＳＮＲは高いので、励起源ｅは、線形予測ブロック１８により行われるＬＰ分析を用いて正しく推定できる。この励起信号ｅは、雑音低減されたＡＣオーディオ信号を分析することにより推定される全極モデルを用いて、フィルタできる。全極フィルタは、雑音低減されたＡＣオーディオ信号の滑らかなスペクトルエンベロープを表すので、エンハンスメントプロセスによる生じるアーティファクトに対してもよりロバスト（robust）である。

図２に示したように、線形予測分析は、（線形予測ブロック１８を用いて）ＢＣオーディオ信号と（線形予測ブロック２０を用いて）雑音低減されたＡＣオーディオ信号の両方に行われる。線形予測は、長さが３２ｍｓであり重なりが１６ｍｓであるオーディオサンプルの各ブロックに対して行われる。線形予測分析の前に、信号の一方又は両方に、プリエンファシス（pre-emphasis）フィルタを適用することもできる。線形予測分析の性能とＢＣオーディオ信号の等化（equalization）を改善するため、雑音低減されたＡＣオーディオ信号とＢＣ信号を、どちらかのオーディオ信号に適当な時間遅延を導入することにより、時間的に合わせる（time-align）ことができる（図示せず）。この時間遅延は相互相関手法を用いて、適応的に決めることができる。

現在のサンプルブロックにおいて、過去、現在、及び将来の予測係数を推定し、ラインスペクトル周波数（ＬＳＦ）に変換し、平滑化し、変換して線形予測係数に戻す。スペクトルエンベロープの線形予測係数表示は平滑化に従わない（not amebable）ため、ＬＳＦを用いる。平滑化は、合成動作時の移行効果を減衰するために適用される。

ＢＣオーディオ信号について求めたＬＰ係数を用いて、ＢＣ励起信号ｅを生成する。この信号は、等化ブロック２２によりフィルタ（等化）される。等化ブロック２２は、雑音低減されたＡＣオーディオ信号から推定され平滑化された全極フィルタ

を用いる。

全極フィルタのＬＳＦを用いたシェーピング（shaping）をＡＣ全極フィルタに適用して、有効スペクトルにおける不必要な上昇を防ぐことができる。

ＬＰ分析の前にプリエンファシス（pre-emphasis）フィルタを信号に適用する場合、Ｈ（ｚ）の出力にデエンファシス（de-emphasis）フィルタを適用することもできる。出力にワイドバンドゲインを適用して、エンファシス（emphasis）フィルタにより生じるワイドバンドの増幅又は減衰を補正することもできる。

よって、出力オーディオ信号は、雑音低減されたＡＣオーディオ信号のＬＰ分析から推定された全極モデルを用いて、ＢＣオーディオ信号のＬＰ分析から得られた「クリーンな」励起信号ｅをフィルタすることにより、求められる。

図６は、雑音が多い環境及びクリーンな環境におけるＡＣマイクロホン信号と、線形予測を用いた場合の本発明による方法の出力との間の比較を示す。このように、図から分かるように、出力オーディオ信号は、雑音が多いＡＣオーディオ信号よりアーティファクトがずっと少なく、クリーンなＡＣオーディオ信号によく似ている。

図７は、図６に示す３つの信号のパワースペクトル密度間の比較を示す。ここでも図から分かるように、出力オーディオ信号スペクトルは、クリーンな環境におけるＡＣオーディオ信号とよく一致している。

本発明の第２の実施形態による処理回路８を含む装置２を図８に示した。装置２と処理回路８は、概して、本発明の第１の実施形態のものに対応する。両方の実施形態に共通な特徴には同じ参照数字を付した。

第２の実施形態では、第２のスピーチエンハンスメントブロック２４は、線形予測をする前に、ＢＣマイクロホン４により供給されるＢＣオーディオ信号をエンハンス（雑音を低減）するために設けられる。第１のスピーチエンハンスメントブロック１６のように、第２のスピーチエンハンスメントブロック２４はスピーチ検出ブロック１４の出力を受け取る。第２のスピーチエンハンスメントブロック２４を用いて、ＢＣオーディオ信号に中程度（moderate）のスピーチエンハンスメントを適用し、マイクロホン信号に漏れる雑音を除去する。第１と第２のスピーチエンハンスメントブロック１６、２４により実行されるアルゴリズムは同じでもよいが、ノイズ抑制／スピーチエンハンスメントの適用される実際の大きさは、ＡＣオーディオ信号とＢＣオーディオ信号とでは異なる。

本発明の第３の実施形態による処理回路８を含む装置２を図９に示した。装置２と処理回路８は、概して、本発明の第１の実施形態のものに対応する。両方の実施形態に共通な特徴には同じ参照数字を付した。

本発明のこの実施形態は、センサ／マイクロホン４、６が、２つのセンサのうちどちらかがユーザと接触しており（そのためＢＣ又は接触型のセンサ又はマイクロホンとして動作し）、他のセンサが空気と接触している（そのためＡＣセンサ又はマイクロホンとして動作する）ように構成された装置２で用いることができる。かかる装置の一例は、ペンダントであって、その対向面にセンサが配置され、ペンダントの向きにかかわらずセンサの一方がユーザに接触するものである。概して、これらの装置２では、センサ４、６は同じタイプのものであり、どちらかがユーザ又は空気と接触する。

この場合、第１のマイクロホン４と第２のマイクロホン６からのオーディオ信号がＢＣオーディオ信号とＡＣオーディオ信号に対応するか、対応するとすればどちらが対応するか、処理回路８が判断する必要がある。

そのため、処理回路８には弁別器ブロック２６が設けられる。弁別器ブロック２６は、第１のマイクロホン４と第２のマイクロホン６からオーディオ信号を受け取り、そのオーディオ信号を分析して、ＢＣオーディオ信号があるか、あるとすればどちらのオーディオ信号がＢＣオーディオ信号であるか判断し、処理回路８の適当なブランチにオーディオ信号を出力する。弁別器ブロック２６は、どのマイクロホン４、６もユーザの身体に接触していないと判断すると、一方又は両方のＡＣオーディオ信号を、従来のスピーチエンハンスメント（例えばビームフォーミング）を行う回路（図９には図示せず）に出力し、出力オーディオ信号を生成する。

ＢＣオーディオ信号中の高周波（例えば、１ｋHzより高い周波数）のスピーチは、伝送媒体により減衰されることが知られており、図９のグラフに示されている。図９のグラフは、背景雑音がある場合（図１０Ａ）と背景雑音がない場合（図１０Ｂ）におけるＢＣオーディオ信号とＡＣオーディオ信号のパワースペクトル密度の比較を示す。それゆえ、この特性を用いて、ＢＣオーディオ信号とＡＣオーディオ信号とを区別できる。弁別器ブロック２６の一実施形態では、各オーディオ信号のスペクトル特性を分析して、マイクロホン４、６のうち身体に接触しているものがあるか、あればどちらかを検出する。

しかし、困難な点は、２つのマイクロホン４、６が較正されていないかも知れない、すなわち２つのマイクロホン４、６の周波数応答が異なるかも知れないということである。この場合、較正フィルタを一方のマイクホンに適用してから弁別器ブロック２６に進めばよい（図示せず）。よって、以下の説明では、広帯域利得について応答は同じである、すなわち２つのマイクロホンの周波数応答は同じ形状を有するものと仮定する。

以下の動作では、弁別器ブロック２６は、２つのマイクロホン４、６からのオーディオ信号のスペクトルを比較して、どちらかのオーディオ信号がＢＣオーディオ信号か、どちらがＢＣオーディオ信号か判断する。マイクロホン４、６の周波数応答が異なる場合、これは装置２の生産段階で較正フィルタを用いて補正できるので、マイクロホンの応答が異なっても、弁別器ブロック２６により行われる比較には影響しない。

この較正フィルタを用いても、ＡＣオーディオ信号とＢＣオーディオ信号との間の利得差を考慮する必要はある。ＡＣオーディオ信号とＢＣオーディオ信号は、スペクトル特性に加え、強度が異なるからである（特に１ｋＨｚより高い周波数）。

このように、弁別器ブロック２６は、（弁別のみを目的として）閾値周波数より下で見いだされたグローバルピークに基づき、その閾値周波数より上の２つのオーディオ信号のスペクトルを規格化し、その閾値周波数より上のスペクトルを比較して、ＢＣオーディオ信号があるか、あればどちらかを判断する。この規格化が行われなければ、次に、ＢＣオーディオ信号は高強度なので、間違っているかも知れないが、ＢＣオーディオ信号の方がＡＣオーディオ信号よりも高い方の周波数におけるパワーがより高いと判断できる。

以下の説明では、マイクロホン４、６の周波数応答中の差異を無くす（account for）のに必要な構成が行われているものと仮定する。最初のステップにおいて、弁別器ブロック２６は、ω＝０ラジアン（ｒａｄ）とω＝２πｆ_ｓラジアンとの間にＮ個の周波数ビンを生成して、

のように、各マイクロホン４、６からのオーディオ信号にＮポイント高速フーリエ変換（ＦＦＴ）を適用する。ここで、ｆ_ｓは、アナログのマイクロホン信号をデジタルドメインに変換するアナログ・ツー・デジタル変換器の、ヘルツ（Ｈｚ）単位でのサンプリング周波数である。ナイキスト周波数πｆ_ｓを含む最初のＮ／２＋１個のビン以外のビンは破棄してもよい。弁別器ブロック２６は、オーディオ信号に対するＦＦＴの結果を用いて、各オーディオ信号のパワースペクトルを計算する。

次に、弁別器ブロック２６は、閾値周波数ω_ｃより下の周波数ビンにおけるパワースペクトルの最大ピークの値

を見つけ、その最大ピークを用いて、閾値周波数ω_ｃより上のオーディオ信号のパワースペクトルを規格化する。閾値周波数ω_ｃは、ＡＣオーディオ信号に対してＢＣオーディオ信号のスペクトルが概して減衰する周波数として選択される。閾値周波数ω_ｃは例えば１ｋＨｚである。各周波数ビンは１つの値を含み、その値は、パワースペクトルの場合、そのビンにおける周波数応答の大きさの二乗である
あるいは、ステップ１１５において、弁別器ブロック２６は、各信号のω_ｃより下の合計パワースペクトル、すなわち

を見つけることができ、この合計パワースペクトルを用いて閾値周波数ω_ｃより上のオーディオ信号のパワースペクトルを規格化できる。

ＡＣオーディオ信号とＢＣオーディオ信号の低い周波数ビンは概略同じ低周波数情報を含むはずなので、ｐ_１とｐ_２の値を用いて、２つのマイクロホン４、６からの信号スペクトルを規格化して、（ＢＣオーディオ信号とＡＣオーディオ信号の間の違いが見つかると期待される）両方のオーディオ信号の高い周波数ビンを比較して、潜在的なＢＣオーディオ信号を特定できるようにする。

弁別器ブロック２６は、上の方の周波数ビンにおける第１のマイクロホン４からの信号のスペクトルと、規格化された第２のマイクロホン６からの信号スペクトルとの間のパワーを比較する

。ここで、εはゼロでの除算を防止するための小さな定数であり、ｐ_１／（ｐ_２＋ε）は第２のオーディオ信号のスペクトルの規格化を表す（言うまでもなく、第１のオーディオ信号を規格化してもよい）。

２つのオーディオ信号のパワー間の違いが骨伝導センサの位置に依存し、実験的に決められる所定量より大きい場合、ω_ｃより上の規格化されたスペクトルのパワーが最大であるオーディオ信号はＡＣマイクロホンからのオーディオ信号であり、そのパワーが最小であるオーディオ信号はＢＣマイクロホンからのオーディオ信号である。弁別器ブロック２６は、ＢＣオーディオ信号であると判断されたオーディオ信号を処理回路８の上側ブランチ（すなわち、スピーチ検出ブロック１４と特徴抽出ブロック１８を含むブランチ）に出力し、ＡＣオーディオ信号であると判断されたオーディオ信号を処理回路８の下側ブランチ（すなわち、スピーチエンハンスメントブロック１６を含むブランチ）に出力する。

しかし、２つのオーディオ信号のパワー間の差が前記所定量より小さい場合、複数のオーディオ信号のどれかがＢＣオーディオ信号であると肯定的に判断することはできない（そして、どちらのマイクロホン４、６もユーザの身体と接触していないものと思われる）。その場合、処理回路８は、両方のオーディオ信号をＡＣオーディオ信号として扱い、従来の技術を用いて処理し、例えばビームフォーミング技術を用いて複数のＡＣオーディオ信号を合成する。

言うまでもなく、上記の式で絶対値の二乗を計算する替わりに、絶対値を計算することもできる。

また、言うまでもなく、制限付き割合を用いて、２つの信号のパワーの間の代替的な比較を行い、意思決定における不確実性を無くす（accounted for）こともできる。例えば、閾値周波数より上の周波数におけるパワーの制限付き割合を

により決定すると、この割合は−１と１との間に制限され、値が０に近いとマイクロホンがあればＢＣマイクロホンであることを示す。

図１１のグラフは、テスト手順における、上記の弁別器ブロック２６の動作を示す。具体的に、テストの最初の１０秒間に、第２のマイクロホンはユーザに接触しており（ＢＣオーディオ信号を供給する）、これは（下段のグラフに示されているように）弁別器ブロック２６により正しく識別される。テストの次の１０秒間に、第１のマイクロホンがユーザに接触しており（そのためＢＣオーディオ信号を供給し）、これは弁別器ブロック２６により正しく識別されている。

図１２、図１３、図１４は、本発明による処理回路８で用いることができる２つのマイクロホンを組み込んだ装置を示す図である。

図１２に示す装置２は、ハンドフリー機能を提供するために携帯電話とともに使える無線ヘッドセットである。無線ヘッドセットは、ユーザの耳にフィットするように形成され、ユーザに音を伝えるイヤピース２８と、ユーザの口又は頬の近くに配置されるＡＣオーディオ信号を供給するＡＣマイクロホン６と、ユーザの頭（好ましくは耳の近くのどこか）に接触しＢＣオーディオ信号を供給するように装置２中に配置されたＢＣマイクロホン４とを有する。

図１３は、携帯電話に接続してハンドフリー機能を提供できる有線のハンドフリーキットの形式である装置２を示す。装置２は、イヤピース（図示せず）と、２つのマイクロホン４、６を有するマイクロホン部３０とを有する。マイクロホン部３０は、使用時、ユーザの口又は首の近くにくる。マイクロホン部分は、２つのマイクロホン４、６のどちらかがユーザの首に接触するように構成されている。これは、上記の、弁別器ブロック２６を含む処理回路８の第３の実施形態がこの装置２において特に有用であることを意味する。

図１４は、ユーザの首の回りに装着するペンダントの形式の装置２を示す。かかるペンダントは、ユーザがケアプロバイダや緊急サービスと通信できる携帯型パーソナル緊急応答システム（ＭＰＥＲＳ）で用いられる。

ペンダント２の２つのマイクロホン４、６は、ペンダントが回転不変である（すなわち、ペンダント２の対向面にある）ように構成されている。これは、マイクロホン４、６のうち一方がユーザの首又は胸に接触することを意味する。このように、ペンダント２は、正しく動作するために、弁別器ブロック２６を含む上記の第３の実施形態による処理回路８の使用を必要とする。

言うまでもなく、上記の装置２は２つより多いマイクロホンを含むように拡張できる（例えば、ペンダント２の断面は三角形（各面に１つずつ、合計３つのマイクロホンを必要とする）又は四角形（各面に１つずつ、合計４つのマイクロホンを必要とする）である）。また、装置２を、二以上のマイクロホンがＢＣオーディオ信号を取得できるように構成することも可能である。この場合、回路８に入力する前に、例えばビームフォーミング手法を用いて、複数のＡＣ（又はＢＣ）マイクロホンからのオーディオ信号を合成して、ＳＮＲが改善された一ＡＣ（又はＢＣ）オーディオ信号を生成することができる。これにより、処理回路８により出力されるオーディオ信号の音質と明瞭性をさらに改善できる。

当業者はＡＣマイクロホンとＢＣマイクロホンとして用いることができる好適なマイクロホンについて知っているだろう。例えば、一又は複数のマイクロホンはＭＥＭＳ技術に基づくものである。

言うまでもなく、図２、図８、図９に示した処理回路８は、単一のプロセッサとして、又は相互接続された複数の処理ブロックとして実装できる。言うまでもなく、代替的に、処理回路８の機能は、装置内の汎用プロセッサにより実行されるコンピュータプログラムの形式で実装できる。さらに、言うまでもなく、処理回路８は、ＢＣ及び／ＡＣマイクロホン４、６を収納している装置とは別の装置に実装して、これら装置の間でオーディオ信号を送ることもできる。

言うまでもなく、処理回路８（及びある実施形態で実装された場合には弁別器ブロック７）は、ブロックごとにオーディオ信号を処理（すなわち、一度に一ブロックのオーディオサンプルを処理）できる。例えば、弁別器ブロック２６において、ＦＦＴを適用する前に、オーディオ信号をＮ個のオーディオサンプルを含む複数のブロックに分割できる。その後、弁別器ブロック２６により実行される処理は、変換されたＮ個のオーディオサンプルのブロックごとに実行される。特徴抽出ブロック１８、２０は、同様に動作できる。

それゆえ、ＢＣマイクロホンを用いて取得されたオーディオ信号からユーザのスピーチを表すオーディオ信号を生成する代替的なシステムと方法であって、雑音の多い環境で使え、使用前にユーザがアルゴリズムをトレーニングする必要がないものが提供される。

本発明を、図面と上記の説明に詳しく示し説明したが、かかる例示と説明は例であり限定ではなく、本発明は開示した実施形態には限定されない。

請求項に記載した発明を実施する際、図面、本開示、及び添付した特許請求の範囲を研究して、開示した実施形態のバリエーションを、当業者は理解して実施することができるであろう。請求項において、「有する（comprising）」という用語は他の要素やステップを排除するものではなく、「１つの（"a" or "an"）」という表現は複数ある場合を排除するものではない。単一のプロセッサまたはその他のアイテムが請求項に記載した複数のユニットの機能を満たすこともできる。相異なる従属クレームに手段が記載されているからといって、その手段を組み合わせて有利に使用することができないということではない。コンピュータプログラムは、光記憶媒体や他のハードウェアとともに、またはその一部として供給される固体媒体などの適切な媒体に記憶／配布することができ、インターネットや有線または無線の電気通信システムなどを介して他の形式で配信することもできる。請求項に含まれる参照符号は、その請求項の範囲を限定するものと解してはならない。

Claims

ユーザのスピーチを表す信号を生成する方法であって：
前記ユーザと接触したセンサを用いて前記ユーザのスピーチを表す第１のオーディオ信号を取得するステップ；
空気伝導センサを用いて、前記ユーザのスピーチを表し前記ユーザの周りに環境からの雑音を含む第２のオーディオ信号を取得するステップ；
前記第１のオーディオ信号におけるスピーチ期間を検出するステップ；
前記第２のオーディオ信号にスピーチエンハンスメントアルゴリズムを適用して前記第２のオーディオ信号中の雑音を低減する、前記スピーチエンハンスメントアルゴリズムは前記第１のオーディオ信号におけるスピーチ期間を用いるステップ；
前記雑音を低減した第２のオーディオ信号を用いて前記第１のオーディオ信号を等化して、前記ユーザのスピーチを表す出力オーディオ信号を生成するステップを有する方法。
前記第１のオーディオ信号におけるスピーチ期間を検出するステップは、前記オーディオ信号の振幅が閾値より大きい前記第１のオーディオ信号の部分を検出するステップを有する、
請求項１に記載の方法。
前記スピーチエンハンスメントアルゴリズムを適用するステップは、前記第２のオーディオ信号にスペクトル処理を適用するステップを有する、
請求項１または２に記載の方法。
スピーチエンハンスメントアルゴリズムを適用して前記第２のオーディオ信号中の雑音を低減するステップは、前記第１のオーディオ信号におけるスピーチ期間を用いて前記第２のオーディオ信号のスペクトル領域におけるノイズフロアを推定するステップを有する、
請求項１ないし３いずれか一項に記載の方法。
前記第１のオーディオ信号を等化するステップは、前記第１のオーディオ信号と前記雑音を低減した第２のオーディオ信号の両方において線形予測分析を行い等化フィルタを構成するステップを有する、
請求項１ないし４いずれか一項に記載の方法。
線形予測分析を行うステップは：
（ｉ）前記第１のオーディオ信号及び前記雑音を低減した第２のオーディオ信号の両方の線形予測係数を推定するステップ；
（ｉｉ）前記第１のオーディオ信号の線形予測係数を用いて前記第１のオーディオ信号の励起信号を生成するステップ；
（ｉｉｉ）前記雑音を低減した第２のオーディオ信号の線形予測係数を用いて周波数領域エンベロープを構成するステップ；及び
（ｉｖ）前記周波数領域エンベロープを用いて前記第１のオーディオ信号の励起信号を等化するステップを有する、
請求項５に記載の方法。
前記第１のオーディオ信号を等化するステップは、（ｉ）長期スペクトル法を用いて等化フィルタを構成するステップ、又は（ｉｉ）前記第１のオーディオ信号を前記フィルタ出力と前記雑音を低減した第２のオーディオ信号との間の平均二乗誤差を最小化するアダプティブフィルタへの入力として用いるステップを有する、
請求項１ないし４いずれか一項に記載の方法。
等化するステップの前に、前記第１のオーディオ信号にスピーチエンハンスメントアルゴリズムを適用して前記第１のオーディオ信号中の雑音を低減する、前記スピーチエンハンスメントアルゴリズムは前記第１のオーディオ信号におけるスピーチ期間を用いるステップを有し、
前記等化するステップは、前記雑音を低減した第２のオーディオ信号を用いて前記雑音を低減した第１のオーディオ信号を等化して、前記ユーザのスピーチを表す出力オーディオ信号を生成するステップを有する、
請求項１ないし９いずれか一項に記載の方法。
第２の空気伝導センサを用いて、前記ユーザのスピーチを表し前記ユーザの周りの環境からの雑音を含む第３のオーディオ信号を取得するステップ；及び
ビームフォーミング手法を用いて前記第２のオーディオ信号と前記第３のオーディオ信号を合成して合成オーディオ信号を生成するステップをさらに有し、
スピーチエンハンスメントアルゴリズムを適用するステップは、前記合成オーディオ信号に前記スピーチエンハンスメントアルゴリズムを適用して前記合成オーディオ信号中の雑音を低減する、前記スピーチエンハンスメントアルゴリズムは前記第１のオーディオ信号におけるスピーチ期間を用いるステップを有する、
請求項１ないし８いずれか一項に記載の方法。
前記ユーザと接触した第２のセンサを用いて前記ユーザのスピーチを表す第４のオーディオ信号を取得するステップ；及び
ビームフォーミング手法を用いて前記第１のオーディオ信号と前記第４のオーディオ信号を合成して第２の合成オーディオ信号を生成するステップをさらに有し、
スピーチ期間を検出するステップは、前記第２の合成オーディオ信号におけるスピーチ期間を検出するステップを有する、
請求項１ないし９いずれか一項に記載の方法。
ユーザのスピーチを表すオーディオ信号の生成において用いる装置であって、
処理回路であって：
前記ユーザと接触したセンサから前記ユーザのスピーチを表す第１のオーディオ信号を受け取り；
空気伝導センサから、前記ユーザのスピーチを表し前記ユーザの周りの環境からの雑音を含む第２のオーディオ信号を受け取り；
前記第１のオーディオ信号におけるスピーチ期間を検出し；
前記第２のオーディオ信号にスピーチエンハンスメントアルゴリズムを適用して前記第２のオーディオ信号中の雑音を低減し、前記スピーチエンハンスメントアルゴリズムは前記第１のオーディオ信号におけるスピーチ期間を用い；
前記雑音を低減した第２のオーディオ信号を用いて前記第１のオーディオ信号を等化して、前記ユーザのスピーチを表す出力オーディオ信号を生成する、
処理回路を有する、装置。
前記処理回路は、前記第１のオーディオ信号と前記雑音を低減した第２のオーディオ信号の両方において線形予測分析を行うことにより第１のオーディオ信号を等化し、等化フィルタを構成するように構成された、
請求項１１に記載の装置。
前記処理回路は、
（ｉ）前記第１のオーディオ信号及び前記雑音を低減した第２のオーディオ信号の両方の線形予測係数を推定し；
（ｉｉ）前記第１のオーディオ信号の線形予測係数を用いて前記第１のオーディオ信号の励起信号を生成し；
（ｉｉｉ）前記雑音を低減したオーディオ信号の線形予測係数を用いて周波数領域エンベロープを構成し；及び
（ｉｖ）前記周波数領域エンベロープを用いて前記第１のオーディオ信号の励起信号を等化する、
ことにより前記線形予測分析を行うように構成された、
請求項１１又は１２に記載の装置。
前記装置はさらに、
前記装置を使用中に前記ユーザの身体に接触し、第１のオーディオ信号を生成するように構成された接触センサ；及び
前記第２のオーディオ信号を生成するように構成された空気伝導センサをさらに有する、
請求項１１ないし１３いずれか一項に記載の装置。
コンピュータ又はプロセッサによるコンピュータ読み取り可能コードの実行時に、前記コンピュータ又はプロセッサが請求項１乃至１０いずれか一項に記載の方法を実行するように構成された前記コンピュータ読み取り可能コードを有するコンピュータプログラム。