JP2014502468A - オーディオ信号生成システム及び方法 - Google Patents

オーディオ信号生成システム及び方法 Download PDF

Info

Publication number
JP2014502468A
JP2014502468A JP2013540465A JP2013540465A JP2014502468A JP 2014502468 A JP2014502468 A JP 2014502468A JP 2013540465 A JP2013540465 A JP 2013540465A JP 2013540465 A JP2013540465 A JP 2013540465A JP 2014502468 A JP2014502468 A JP 2014502468A
Authority
JP
Japan
Prior art keywords
audio signal
speech
user
noise
linear prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013540465A
Other languages
English (en)
Other versions
JP6034793B2 (ja
Inventor
ケヒヒアン,パトリック
デン ドゥンゲン,ウィルヘルミュス アンドレアス マリニュス アルノルデュス マリア ファン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2014502468A publication Critical patent/JP2014502468A/ja
Application granted granted Critical
Publication of JP6034793B2 publication Critical patent/JP6034793B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)

Abstract

ユーザのスピーチを表す信号を生成する方法を提供する。該方法は、ユーザと接触したセンサを用いてユーザのスピーチを表す第1のオーディオ信号を取得するステップ;空気伝導センサを用いて、ユーザのスピーチを表しユーザの周りに環境からの雑音を含む第2のオーディオ信号を取得するステップ;第1のオーディオ信号におけるスピーチ期間を検出するステップ;第2のオーディオ信号にスピーチエンハンスメントアルゴリズムを適用して第2のオーディオ信号中の雑音を低減する、スピーチエンハンスメントアルゴリズムは第1のオーディオ信号におけるスピーチ期間を用いるステップ;雑音を低減した第2のオーディオ信号を用いて第1のオーディオ信号を等化して、ユーザのスピーチを表す出力オーディオ信号を生成するステップを有する。

Description

本発明は、オーディオ信号生成システムと方法に関し、具体的には、骨伝導又は接触型マイクロホンなどの接触型センサを用いて取得されたオーディオ信号からユーザのスピーチを表すオーディオ信号を生成するシステムと方法に関する。
モバイル装置は音響的に厳しい環境(すなわち、背景雑音が多い環境)において使われることが多い。モバイル装置のユーザが双方向通信中に他端の音を聞ける問題とは別に、ユーザのスピーチを表す「クリーンな」(すなわち、雑音が無い又は雑音を大幅に低減した)オーディオ信号を得ることは難しい。キャプチャされるSNR(signal-to-noise ratio)が低い環境では、従来のスピーチ処理アルゴリズムは、雑音抑制量が限られており、近接したスピーチ信号(すなわち、モバイル装置のマイクロホンで捉えたもの)は「楽音(musical tones)」アーティファクトで歪んでしまうことがある。
既知の通り、骨伝導(BC)やコンタクトマイクロホン(すなわち、音を出しているオブジェクトに物理的に接触しているマイクロホン)などのコンタクトセンサを用いて取得するオーディオ信号は、マイクロホン(すなわち、音を出しているオブジェクトからは空気で隔てられているマイクロホン)などの空気伝導(AC)センサを用いて取得するオーディオ信号と比較して、背景雑音に比較的強い。何故なら、BCマイクロホンにより測定される音の振動は、通常のACマイクロホンのように空気を通してではなく、ユーザの身体を通して伝搬するからである。通常のACマイクロホンは、所望のオーディオ信号のキャプチャに加え、背景ノイズもピックアップしてしまう。さらに、BCマイクロホンを用いて得られるオーディオ信号の強度は、概して、ACマイクロホンを用いて得られるものよりも非常に高い。それゆえ、BCマイクロホンは、雑音が多い環境で使用する装置に使えると考えられている。図1は、ノイズの多い同じ環境において、ACマイクロホンを用いて得られるオーディオ信号と比較して、BCマイクロホンを用いて得られるオーディオ信号の高いSNR特性を示す図である。
しかし、BCマイクロホンを用いて取得するスピーチの問題は、ACマイクロホンを用いて取得するスピーチより、通常は音質と明瞭度が非常に低いことである。明瞭度の低下は、骨と組織のフィルタリング特性によるものである。このフィルタリング特性により、オーディオ信号の高周波成分が大きく減衰してしまう。
BCマイクロホンを用いて取得するスピーチの音質と明瞭度は、ユーザにおける位置に依存する。マイクロホンが、喉や首の領域の喉頭と声帯に近いほど、BCオーディオ信号の音質と強度は高くなる。さらに、BCマイクロホンが音を発しているオブジェクトに物理的に接触していれので、得られる信号のSNRは、背景雑音もピックアップしてしまうACオーディオ信号と比較して高い。
しかし、首の領域に又はその周りに配置したBCマイクロホンを用いて取得するスピーチの強度は非常に高いが、信号の明瞭性は非常に低いままである。これは、首の領域の又はその周りの骨や柔らかい組織を通る声門信号のフィルタリングと、声道伝達機能の欠如とによるものである。
BCマイクロホンを用いて得られるオーディオ信号の特性は、ユーザの身体と接触させるためにBCマイクロホンに印加されている圧力だけでなく、そのBCマイクロホンのハウジングにも、すなわち環境中の背景雑音からシールドされているかにも依存する。
BCマイクロホンから得られるスピーチの明瞭性を改善するためのフィルタリング又はスピーチエンハンスメント方法があるが、これらの方法は、BCマイクロホンからのオーディオ信号に適用する等化フィルタを構成するためのクリーンなスピーチ参照信号の存在か、又はACマイクロホンからのクリーンなオーディオ信号を用いた特定ユーザモデルのトレーニングを必要とする。結果として、これらの方法は、(例えばノイズの多い環境において)クリーンなスピーチ基準信号が常に利用できるとは限らない、又は多数の異なるユーザの誰でも装置を使用できる現実のアプリケーションには適していない。
それゆえ、BCマイクロホンを用いて取得されたオーディオ信号からユーザのスピーチを表すオーディオ信号を生成する代替的なシステムと方法であって、雑音の多い環境で使え、使用前にユーザがアルゴリズムをトレーニングする必要がないものが必要である。
本発明の第1の態様により提供される、ユーザのスピーチを表す信号を生成する方法は、:前記ユーザと接触したセンサを用いて前記ユーザのスピーチを表す第1のオーディオ信号を取得するステップ;空気伝導センサを用いて、前記ユーザのスピーチを表し前記ユーザの周りに環境からの雑音を含む第2のオーディオ信号を取得するステップ;前記第1のオーディオ信号におけるスピーチ期間を検出するステップ;前記第2のオーディオ信号にスピーチエンハンスメントアルゴリズムを適用して前記第2のオーディオ信号中の雑音を低減する、前記スピーチエンハンスメントアルゴリズムは前記第1のオーディオ信号におけるスピーチ期間を用いるステップ;前記雑音を低減した第2のオーディオ信号を用いて前記第1のオーディオ信号を等化して、前記ユーザのスピーチを表す出力オーディオ信号を生成するステップを有する。
この方法は、雑音低減されたACオーディオ信号はまだ雑音及び/又はアーティファクトを含むが、(一般的にはスピーチアーティファクトを含まない)BCオーディオ信号の周波数特性を改善して、明瞭に聞こえるようにするために用いることができるとの利点を有する。
好ましくは、前記第1のオーディオ信号におけるスピーチ期間を検出するステップは、前記オーディオ信号の振幅が閾値より大きい前記第1のオーディオ信号の部分を検出するステップを有する。
好ましくは、前記スピーチエンハンスメントアルゴリズムを適用するステップは、前記第2のオーディオ信号にスペクトル処理を適用するステップを有する。
好ましい一実施形態において、スピーチエンハンスメントアルゴリズムを適用して前記第2のオーディオ信号中の雑音を低減するステップは、前記第1のオーディオ信号におけるスピーチ期間を用いて前記第2のオーディオ信号のスペクトル領域におけるノイズフロアを推定するステップを有する。
好ましい実施形態において、前記第1のオーディオ信号を等化するステップは、前記第1のオーディオ信号と前記雑音を低減した第2のオーディオ信号の両方において線形予測分析を行い等化フィルタを構成するステップを有する。
具体的に、線形予測分析を行うステップは、好ましくは:(i)前記第1のオーディオ信号及び前記雑音を低減した第2のオーディオ信号の両方の線形予測係数を推定するステップ;(ii)前記第1のオーディオ信号の線形予測係数を用いて前記第1のオーディオ信号の励起信号を生成するステップ;(iii)前記雑音を低減した第2のオーディオ信号の線形予測係数を用いて周波数領域エンベロープを構成するステップ;及び(iv)前記周波数領域エンベロープを用いて前記第1のオーディオ信号の励起信号を等化するステップ、を有する。
あるいは、前記第1のオーディオ信号を等化するステップは、(i)長期スペクトル法を用いて等化フィルタを構成するステップ、又は(ii)前記第1のオーディオ信号を前記フィルタ出力と前記雑音を低減した第2のオーディオ信号との間の平均二乗誤差を最小化するアダプティブフィルタへの入力として用いるステップを有する。
いくつかの実施形態では、等化するステップの前に、該方法はさらに、前記第1のオーディオ信号にスピーチエンハンスメントアルゴリズムを適用して前記第1のオーディオ信号中の雑音を低減する、前記スピーチエンハンスメントアルゴリズムは前記第1のオーディオ信号におけるスピーチ期間を用いるステップを有し、前記等化するステップは、前記雑音を低減した第2のオーディオ信号を用いて前記雑音を低減した第1のオーディオ信号を等化して、前記ユーザのスピーチを表す出力オーディオ信号を生成するステップを有する。
一部の実施形態では、上記方法は、さらに、第2の空気伝導センサを用いて、前記ユーザのスピーチを表し前記ユーザの周りの環境からの雑音を含む第3のオーディオ信号を取得するステップ;及びビームフォーミング手法を用いて前記第2のオーディオ信号と前記第3のオーディオ信号を合成して合成オーディオ信号を生成するステップを有し、スピーチエンハンスメントアルゴリズムを適用するステップは、前記合成オーディオ信号に前記スピーチエンハンスメントアルゴリズムを適用して前記合成オーディオ信号中の雑音を低減する、前記スピーチエンハンスメントアルゴリズムは前記第1のオーディオ信号におけるスピーチ期間を用いるステップを有する。
ある実施形態では、上記方法は、さらに、前記ユーザと接触した第2のセンサを用いて前記ユーザのスピーチを表す第4のオーディオ信号を取得するステップ;及びビームフォーミング手法を用いて前記第1のオーディオ信号と前記第4のオーディオ信号を合成して第2の合成オーディオ信号を生成するステップをさらに有し、スピーチ期間を検出するステップは、前記第2の合成オーディオ信号におけるスピーチ期間を検出するステップを有する。
本発明の第2の態様により提供される、ユーザのスピーチを表すオーディオ信号の生成において用いる装置は、処理回路であって:前記ユーザと接触したセンサから前記ユーザのスピーチを表す第1のオーディオ信号を受け取り;空気伝導センサから、前記ユーザのスピーチを表し前記ユーザの周りの環境からの雑音を含む第2のオーディオ信号を受け取り;前記第1のオーディオ信号におけるスピーチ期間を検出し;前記第2のオーディオ信号にスピーチエンハンスメントアルゴリズムを適用して前記第2のオーディオ信号中の雑音を低減し、前記スピーチエンハンスメントアルゴリズムは前記第1のオーディオ信号におけるスピーチ期間を用い;前記雑音を低減した第2のオーディオ信号を用いて前記第1のオーディオ信号を等化して、前記ユーザのスピーチを表す出力オーディオ信号を生成する。
好ましい実施形態において、前記処理回路は、前記第1のオーディオ信号と前記雑音を低減した第2のオーディオ信号の両方において線形予測分析を行うことにより第1のオーディオ信号を等化し、等化フィルタを構成するように構成される。
好ましい実施形態において、前記処理回路は、(i)前記第1のオーディオ信号及び前記雑音を低減した第2のオーディオ信号の両方の線形予測係数を推定し;(ii)前記第1のオーディオ信号の線形予測係数を用いて前記第1のオーディオ信号の励起信号を生成し;(iii)前記雑音を低減したオーディオ信号の線形予測係数を用いて周波数領域エンベロープを構成し;及び(iv)前記周波数領域エンベロープを用いて前記第1のオーディオ信号の励起信号を等化することにより前記線形予測分析を行うように構成される。
好ましくは、前記装置は、さらに、前記装置を使用中に前記ユーザの身体に接触し、第1のオーディオ信号を生成するように構成された接触センサ;及び前記第2のオーディオ信号を生成するように構成された空気伝導センサをさらに有する。
本発明の第3の態様によると、コンピュータ又はプロセッサによるコンピュータ読み取り可能コードの実行時に、前記コンピュータ又はプロセッサが上記の方法を実行するように構成された前記コンピュータ読み取り可能コードを有するコンピュータプログラム製品が提供される。
ここで、以下の図面を参照して、例として、本発明の実施形態の例を説明する。
ノイズの多い同じ環境において、ACマイクロホンを用いて得られるオーディオ信号と比較して、BCマイクロホンを用いて得られるオーディオ信号の高いSNR特性を示す図である。 本発明の第1の実施形態による処理回路を含む装置を示すブロック図である。 本発明によるBCマイクロホンからのオーディオ信号を処理する方法を示すフローチャートである。 BCマイクロホンを用いて得られる信号に対して行ったスピーチ検出の結果を示すグラフである。 ACマイクロホンを用いて得られる信号に対してスピーチエンハンスメントアルゴリズムを適用した結果を示すグラフである。 ノイズが多い環境とクリーンな環境においてACマイクロホンを用いて得られる信号と、本発明による方法の出力との間の比較を示すグラフである。 図6に示す3つの信号のパワースペクトル密度間の比較を示すグラフである。 本発明の第2の実施形態による処理回路を含む装置を示すブロック図である。 本発明の第3の実施形態による処理回路を含む装置を示すブロック図である。 BCマイクロホンとACマイクロホンから得られる、背景雑音を含む信号間のパワースペクトル密度の比較を示すグラフである。 BCマイクロホンとACマイクロホンから得られる、背景雑音を含まない信号間のパワースペクトル密度の比較を示すグラフである。 第3の実施形態による処理回路のBC/AC弁別器モジュールの動作の結果を示すグラフである。 本発明による処理回路で用いることができる2つのマイクロホンを組み込んだ装置を示す図である。 本発明による処理回路で用いることができる2つのマイクロホンを組み込んだ装置を示す図である。 本発明による処理回路で用いることができる2つのマイクロホンを組み込んだ装置を示す図である。
上記の通り、本発明は、大きな雑音や反響によりスピーチが劣化してしまう音響的環境から、クリーンな(又は少なくとも明瞭な)スピーチオーディオ信号を生成する問題を解決する。
(スピーチの自然さを増すために)BCマイクロホンや接触型センサを用いて取得されたオーディオ信号の等化(equalization)のために開発された既存のアルゴリズムは、クリーンな基準信号の利用と、特定ユーザモデルの事前トレーニングとに依存する。しかし、本発明は、BC又は接触型のマイクロホンから取得されたオーディオ信号からユーザのスピーチを表すオーディオ信号を生成する改善されたシステムと方法であって、ノイズが多い環境で用いることができ、利用前にユーザがアルゴリズムをトレーニングする必要がないものを提供する。
本発明の第1の実施形態による処理回路を含む装置2を図1に示した。装置2は、ポータブル又はモバイル装置であり、例えば携帯電話、スマートフォン、又はPDAであり、又はかかるモバイル装置のアクセサリであり、例えば無線又は有線のハンヅフリーヘッドセットである。
装置2は、ユーザのスピーチを表すオーディオ信号をそれぞれ生成する2つのセンサ4、6を有する。第1のセンサ4は、装置2を使用する時に、装置2のユーザの一部と接触するように、装置2に配置された骨伝導型又は接触型のセンサである。第2のセンサ6は、一般的にユーザと直接的物理的接触をしていない空気伝導型センサである。図示した実施形態において、第1のセンサ4は骨伝導型又は接触型のマイクロホンであり、第2のセンサは空気伝導型のマイクロホンである。別の実施形態では、第1のセンサ4は、ユーザが話す時のユーザの身体の振動から得られる加速度を表す電気信号を生成する加速度計である。当業者には言うまでもなく、第1及び/又は第2のセンサ4、6は他のタイプのセンサやトランスデューサを用いて実施することもできる。
BCマイクロホン4とACマイクロホン6は同時に動作して(すなわち、同時に同じスピーチをキャプチャして)、それぞれ骨伝導と空気伝導によるオーディオ信号を生成する。
BCマイクロホン4からのオーディオ信号(以下「BCオーディオ信号」と呼び、図2において「m」で示す)と、ACマイクロホン6からのオーディオ信号(以下「ACオーディオ信号」と呼び、図2において「m」で示す)とは、処理回路8に供給される。処理回路8は、本発明によるオーディオ信号の処理を行う。
処理回路8の出力はユーザのスピーチを表すクリーンな(少なくとも改善された)オーディオ信号である。この出力は、アンテナ12を介して他の電子装置に送信する送信器回路10に供給される。
処理回路8は次のブロックを有する:BCオーディオ信号を受け取るスピーチ検出ブロック14;ACオーディオ信号とスピーチ検出ブロック14の出力とを受け取るスピーチエンハンスメントブロック16;BCオーディオ信号を受け取る第1の特徴抽出ブロック18;スピーチエンハンスメントブロック16の出力を受け取る第2の特徴抽出ブロック20;第1の特徴抽出ブロック18からの信号出力と第2の特徴抽出ブロック20の出力とを受け取り、処理回路8の出力オーディオ信号を生成するイコライザ22。
処理回路8の動作と上記の様々なブロックの機能は、図3を参照してより詳細に説明する。図3は本発明による信号処理方法を示すフローチャートである。
手短に言えば、本発明による方法は、BCオーディオ信号の特性又は特徴(properties or features)及びスピーチエンハンスメントアルゴリズムを用いて、ACオーディオ信号中の雑音量を低減し、ノイズ低減されたACオーディオ信号を用いてBCオーディオ信号を等化(equalize)する。この方法の利点は、雑音低減されたACオーディオ信号はまだ雑音及び/又はアーティファクトを含むが、(一般的にはスピーチアーティファクトを含まない)BCオーディオ信号の周波数特性を改善して、明瞭に聞こえるようにするために用いることができるということである。
よって、図3のステップ101において、各オーディオ信号はBCマイクロホン4とACマイクロホン6を用いて同時に取得され、これらの信号は処理回路8に供給される。以下の説明では、BCマイクロホン4とACマイクロホン6からの各オーディオ信号は、以下に説明するオーディオ信号のさらなる処理の前に、適当な時間遅延を用いて時間的に合わせられていると仮定する。
スピーチ検出ブロック14は、受け取ったBCオーディオ信号を処理して、装置2のユーザによるスピーチを表すBCオーディオ信号の部分を識別する(図3のステップ103)。スピーチ検出のためにBCオーディオ信号を用いると、BCマイクロホン4が背景雑音の影響を比較的受けず、SNRが高いため、都合がよい。
スピーチ検出ブロック14は、スピーチ期間をBCオーディオ信号の振幅が閾値より大きい時に検出する、単純な閾値手法(thresholding technique)をBCオーディオ信号に適用することにより、スピーチ検出を行える。
本発明の他の実施形態(図示せず)では、最小統計手法及び/又はビームフォーミング手法(2以上のBCオーディオ信号がある場合)に基づき、BCオーディオ信号中の雑音を抑圧してからスピーチ検出を行うことができる。
図4のグラフは、BCオーディオ信号に対するスピーチ検出ブロック14の動作結果を示す。
上記の通り、(図4の下段に示した)スピーチ検出ブロック14の出力は、ACオーディオ信号とともに、スピーチエンハンスメントブロック16に送られる。BCオーディオ信号と比べて、ACオーディオ信号は静的及び非静的な背景雑音源を含むので、BCオーディオ信号をエンハンス(イコライズ)する基準としてACオーディオ信号を用いられるように、ACオーディオ信号にスピーチエンハンスメントを行う(ステップ105)。スピーチエンハンスメントブロック16の一効果はACオーディオ信号中の雑音量を低減することである。
ブロック16によりACオーディオ信号に適用できるスピーチエンハンスメントアルゴリズムは多くの異なるタイプのものが知られており、用いるアルゴリズムは装置2におけるマイクロホン4、6の構成及び装置2をどう使うかに依存する。
実施形態では、スピーチエンハンスメントブロック16は、ACオーディオ信号に、ある形式のスペクトル処理を適用する。例えば、スピーチエンハンスメントブロック16は、スピーチ検出ブロック14により判断された非スピーチ期間中に、スピーチ検出ブロック14の出力を用いて、ACオーディオ信号のスペクトル領域におけるノイズフロア(noise floors)特性を推定する。このノイズフロアの推定は、スピーチが検出されていないときはいつでも更新される。別の一実施形態では、スピーチエンハンスメントブロック16は、スピーチ検出ブロック14の出力中に示された非スピーチ部分を用いて、ACオーディオ信号の非スピーチ部分をフィルタ除去する。
装置2が二以上のACセンサ(マイクロホン)6を有する実施形態では、スピーチエンハンスメントブロック16も何らかの形式のマイクロホンビームフォーミングを適用してもよい。
図5の上段のグラフは、ACマイクロホン6から得られるACオーディオ信号を示し、図5の下段のグラフは、スピーチ検出ブロック14の出力を用いてACオーディオ信号にスピーチエンハンスメントアルゴリズムを適用した結果を示す。図から分かるように、ACオーディオ信号の背景雑音レベルは大きくSNRは約0dBであり、スピーチエンハンスメントブロック16はACオーディオ信号にゲインを適用して、背景雑音をほぼ30dBだけ抑制する。しかしまた、図から分かるように、ACオーディオ信号中の雑音量は大幅に低減されるが、何らかのアーティファクトは残ってしまう。
それゆえ、上記の通り、雑音低減されたACオーディオ信号を基準信号として用いて、BCオーディオ信号の明瞭性を改善(すなわちエンハンス)する(ステップ107)。
本発明のある実施形態では、長期スペクトル法を用いて等化(equalization)フィルタを構成することが可能であり、あるいは、BCオーディオ信号をアダプティブフィルタへの入力として用いることができる。このアダプティブフィルタはフィルタ出力とエンハンスされたACオーディオ信号との間の二乗平均誤差を最小化し、フィルタ出力は等化されたBCオーディオ信号を与える。さらに別の実施形態では、有限インパルス応答によりBCオーディオ信号とエンハンスされたACオーディオ信号との間の伝達関数をモデル化できるとの仮定をする。これらの実施形態では、言うまでもなく、イコライザブロック22は、特徴抽出ブロック18によりBCオーディオ信号から抽出された特徴に加えて、元のBCオーディオ信号が必要である。この場合、図8に示した処理回路2におけるBCオーディオ信号入力ラインとイコライザブロック22との間には、別途の接続がある。
しかし、線形予測に基づく方法はBCオーディオ信号のスピーチの明瞭性を改善するのにより適しているので、本発明の好ましい実施形態では、特徴抽出ブロック18、20は、BCオーディオ信号と雑音低減されたACオーディオ信号からの線形予測係数を抽出する線形予測ブロックである。これらの線形予測係数は、以下にさらに説明するように等化フィルタの構成に用いられる。
線形予測(LP)は、スピーチ生成の音源・フィルタモデルに基づくスピーチ分析ツールであり、音源とフィルタは声帯と声道形状によりそれぞれ生成される声門励起(glottal excitation)に対応する。このフィルタは全極型であると仮定する。よって、LP分析により、スピーチ生成時の声道特性に関する全極型モデルにより表される励起信号と周波数領域エンベロープが与えられる。
このモデルは
Figure 2014502468
として与えられる。ここで、y(n)とy(n−k)は分析する信号の現在と過去の信号に対応し、u(n)はゲインGの励起信号であり、aは予測器係数を表し、pは全極モデルの次数を表す。
LP分析の目標は、オーディオスピーチサンプルが与えられた時に、予測誤差
Figure 2014502468
を最小化するように、予測器係数の値を推定することである。ここで、誤差は実際には音源・フィルタモデルにおける励起源に対応する。e(n)は、モデルがスペクトルエンベロープしか予測できないことによる、このモデルにより予測できない信号の部分であり、実際には喉頭により生成されるパルス(声帯励起)に対応する。
白色雑音を追加すると、LP係数の推定に大きな影響があり、y(n)に一又は複数の追加的音源があると、これらの音源からの貢献を含む励起信号の推定ができることが知られている。それゆえ、正しい励起信号を推定するため、所望の音源信号のみを含む無雑音オーディオ信号を取得することが重要である。
BCオーディオ信号はこのような信号である。そのSNRは高いので、励起源eは、線形予測ブロック18により行われるLP分析を用いて正しく推定できる。この励起信号eは、雑音低減されたACオーディオ信号を分析することにより推定される全極モデルを用いて、フィルタできる。全極フィルタは、雑音低減されたACオーディオ信号の滑らかなスペクトルエンベロープを表すので、エンハンスメントプロセスによる生じるアーティファクトに対してもよりロバスト(robust)である。
図2に示したように、線形予測分析は、(線形予測ブロック18を用いて)BCオーディオ信号と(線形予測ブロック20を用いて)雑音低減されたACオーディオ信号の両方に行われる。線形予測は、長さが32msであり重なりが16msであるオーディオサンプルの各ブロックに対して行われる。線形予測分析の前に、信号の一方又は両方に、プリエンファシス(pre-emphasis)フィルタを適用することもできる。線形予測分析の性能とBCオーディオ信号の等化(equalization)を改善するため、雑音低減されたACオーディオ信号とBC信号を、どちらかのオーディオ信号に適当な時間遅延を導入することにより、時間的に合わせる(time-align)ことができる(図示せず)。この時間遅延は相互相関手法を用いて、適応的に決めることができる。
現在のサンプルブロックにおいて、過去、現在、及び将来の予測係数を推定し、ラインスペクトル周波数(LSF)に変換し、平滑化し、変換して線形予測係数に戻す。スペクトルエンベロープの線形予測係数表示は平滑化に従わない(not amebable)ため、LSFを用いる。平滑化は、合成動作時の移行効果を減衰するために適用される。
BCオーディオ信号について求めたLP係数を用いて、BC励起信号eを生成する。この信号は、等化ブロック22によりフィルタ(等化)される。等化ブロック22は、雑音低減されたACオーディオ信号から推定され平滑化された全極フィルタ
Figure 2014502468
を用いる。
全極フィルタのLSFを用いたシェーピング(shaping)をAC全極フィルタに適用して、有効スペクトルにおける不必要な上昇を防ぐことができる。
LP分析の前にプリエンファシス(pre-emphasis)フィルタを信号に適用する場合、H(z)の出力にデエンファシス(de-emphasis)フィルタを適用することもできる。出力にワイドバンドゲインを適用して、エンファシス(emphasis)フィルタにより生じるワイドバンドの増幅又は減衰を補正することもできる。
よって、出力オーディオ信号は、雑音低減されたACオーディオ信号のLP分析から推定された全極モデルを用いて、BCオーディオ信号のLP分析から得られた「クリーンな」励起信号eをフィルタすることにより、求められる。
図6は、雑音が多い環境及びクリーンな環境におけるACマイクロホン信号と、線形予測を用いた場合の本発明による方法の出力との間の比較を示す。このように、図から分かるように、出力オーディオ信号は、雑音が多いACオーディオ信号よりアーティファクトがずっと少なく、クリーンなACオーディオ信号によく似ている。
図7は、図6に示す3つの信号のパワースペクトル密度間の比較を示す。ここでも図から分かるように、出力オーディオ信号スペクトルは、クリーンな環境におけるACオーディオ信号とよく一致している。
本発明の第2の実施形態による処理回路8を含む装置2を図8に示した。装置2と処理回路8は、概して、本発明の第1の実施形態のものに対応する。両方の実施形態に共通な特徴には同じ参照数字を付した。
第2の実施形態では、第2のスピーチエンハンスメントブロック24は、線形予測をする前に、BCマイクロホン4により供給されるBCオーディオ信号をエンハンス(雑音を低減)するために設けられる。第1のスピーチエンハンスメントブロック16のように、第2のスピーチエンハンスメントブロック24はスピーチ検出ブロック14の出力を受け取る。第2のスピーチエンハンスメントブロック24を用いて、BCオーディオ信号に中程度(moderate)のスピーチエンハンスメントを適用し、マイクロホン信号に漏れる雑音を除去する。第1と第2のスピーチエンハンスメントブロック16、24により実行されるアルゴリズムは同じでもよいが、ノイズ抑制/スピーチエンハンスメントの適用される実際の大きさは、ACオーディオ信号とBCオーディオ信号とでは異なる。
本発明の第3の実施形態による処理回路8を含む装置2を図9に示した。装置2と処理回路8は、概して、本発明の第1の実施形態のものに対応する。両方の実施形態に共通な特徴には同じ参照数字を付した。
本発明のこの実施形態は、センサ/マイクロホン4、6が、2つのセンサのうちどちらかがユーザと接触しており(そのためBC又は接触型のセンサ又はマイクロホンとして動作し)、他のセンサが空気と接触している(そのためACセンサ又はマイクロホンとして動作する)ように構成された装置2で用いることができる。かかる装置の一例は、ペンダントであって、その対向面にセンサが配置され、ペンダントの向きにかかわらずセンサの一方がユーザに接触するものである。概して、これらの装置2では、センサ4、6は同じタイプのものであり、どちらかがユーザ又は空気と接触する。
この場合、第1のマイクロホン4と第2のマイクロホン6からのオーディオ信号がBCオーディオ信号とACオーディオ信号に対応するか、対応するとすればどちらが対応するか、処理回路8が判断する必要がある。
そのため、処理回路8には弁別器ブロック26が設けられる。弁別器ブロック26は、第1のマイクロホン4と第2のマイクロホン6からオーディオ信号を受け取り、そのオーディオ信号を分析して、BCオーディオ信号があるか、あるとすればどちらのオーディオ信号がBCオーディオ信号であるか判断し、処理回路8の適当なブランチにオーディオ信号を出力する。弁別器ブロック26は、どのマイクロホン4、6もユーザの身体に接触していないと判断すると、一方又は両方のACオーディオ信号を、従来のスピーチエンハンスメント(例えばビームフォーミング)を行う回路(図9には図示せず)に出力し、出力オーディオ信号を生成する。
BCオーディオ信号中の高周波(例えば、1kHzより高い周波数)のスピーチは、伝送媒体により減衰されることが知られており、図9のグラフに示されている。図9のグラフは、背景雑音がある場合(図10A)と背景雑音がない場合(図10B)におけるBCオーディオ信号とACオーディオ信号のパワースペクトル密度の比較を示す。それゆえ、この特性を用いて、BCオーディオ信号とACオーディオ信号とを区別できる。弁別器ブロック26の一実施形態では、各オーディオ信号のスペクトル特性を分析して、マイクロホン4、6のうち身体に接触しているものがあるか、あればどちらかを検出する。
しかし、困難な点は、2つのマイクロホン4、6が較正されていないかも知れない、すなわち2つのマイクロホン4、6の周波数応答が異なるかも知れないということである。この場合、較正フィルタを一方のマイクホンに適用してから弁別器ブロック26に進めばよい(図示せず)。よって、以下の説明では、広帯域利得について応答は同じである、すなわち2つのマイクロホンの周波数応答は同じ形状を有するものと仮定する。
以下の動作では、弁別器ブロック26は、2つのマイクロホン4、6からのオーディオ信号のスペクトルを比較して、どちらかのオーディオ信号がBCオーディオ信号か、どちらがBCオーディオ信号か判断する。マイクロホン4、6の周波数応答が異なる場合、これは装置2の生産段階で較正フィルタを用いて補正できるので、マイクロホンの応答が異なっても、弁別器ブロック26により行われる比較には影響しない。
この較正フィルタを用いても、ACオーディオ信号とBCオーディオ信号との間の利得差を考慮する必要はある。ACオーディオ信号とBCオーディオ信号は、スペクトル特性に加え、強度が異なるからである(特に1kHzより高い周波数)。
このように、弁別器ブロック26は、(弁別のみを目的として)閾値周波数より下で見いだされたグローバルピークに基づき、その閾値周波数より上の2つのオーディオ信号のスペクトルを規格化し、その閾値周波数より上のスペクトルを比較して、BCオーディオ信号があるか、あればどちらかを判断する。この規格化が行われなければ、次に、BCオーディオ信号は高強度なので、間違っているかも知れないが、BCオーディオ信号の方がACオーディオ信号よりも高い方の周波数におけるパワーがより高いと判断できる。
以下の説明では、マイクロホン4、6の周波数応答中の差異を無くす(account for)のに必要な構成が行われているものと仮定する。最初のステップにおいて、弁別器ブロック26は、ω=0ラジアン(rad)とω=2πfラジアンとの間にN個の周波数ビンを生成して、
Figure 2014502468
Figure 2014502468
のように、各マイクロホン4、6からのオーディオ信号にNポイント高速フーリエ変換(FFT)を適用する。ここで、fは、アナログのマイクロホン信号をデジタルドメインに変換するアナログ・ツー・デジタル変換器の、ヘルツ(Hz)単位でのサンプリング周波数である。ナイキスト周波数πfを含む最初のN/2+1個のビン以外のビンは破棄してもよい。弁別器ブロック26は、オーディオ信号に対するFFTの結果を用いて、各オーディオ信号のパワースペクトルを計算する。
次に、弁別器ブロック26は、閾値周波数ωより下の周波数ビンにおけるパワースペクトルの最大ピークの値
Figure 2014502468
Figure 2014502468
を見つけ、その最大ピークを用いて、閾値周波数ωより上のオーディオ信号のパワースペクトルを規格化する。閾値周波数ωは、ACオーディオ信号に対してBCオーディオ信号のスペクトルが概して減衰する周波数として選択される。閾値周波数ωは例えば1kHzである。各周波数ビンは1つの値を含み、その値は、パワースペクトルの場合、そのビンにおける周波数応答の大きさの二乗である
あるいは、ステップ115において、弁別器ブロック26は、各信号のωより下の合計パワースペクトル、すなわち
Figure 2014502468
Figure 2014502468
を見つけることができ、この合計パワースペクトルを用いて閾値周波数ωより上のオーディオ信号のパワースペクトルを規格化できる。
ACオーディオ信号とBCオーディオ信号の低い周波数ビンは概略同じ低周波数情報を含むはずなので、pとpの値を用いて、2つのマイクロホン4、6からの信号スペクトルを規格化して、(BCオーディオ信号とACオーディオ信号の間の違いが見つかると期待される)両方のオーディオ信号の高い周波数ビンを比較して、潜在的なBCオーディオ信号を特定できるようにする。
弁別器ブロック26は、上の方の周波数ビンにおける第1のマイクロホン4からの信号のスペクトルと、規格化された第2のマイクロホン6からの信号スペクトルとの間のパワーを比較する
Figure 2014502468
。ここで、εはゼロでの除算を防止するための小さな定数であり、p/(p+ε)は第2のオーディオ信号のスペクトルの規格化を表す(言うまでもなく、第1のオーディオ信号を規格化してもよい)。
2つのオーディオ信号のパワー間の違いが骨伝導センサの位置に依存し、実験的に決められる所定量より大きい場合、ωより上の規格化されたスペクトルのパワーが最大であるオーディオ信号はACマイクロホンからのオーディオ信号であり、そのパワーが最小であるオーディオ信号はBCマイクロホンからのオーディオ信号である。弁別器ブロック26は、BCオーディオ信号であると判断されたオーディオ信号を処理回路8の上側ブランチ(すなわち、スピーチ検出ブロック14と特徴抽出ブロック18を含むブランチ)に出力し、ACオーディオ信号であると判断されたオーディオ信号を処理回路8の下側ブランチ(すなわち、スピーチエンハンスメントブロック16を含むブランチ)に出力する。
しかし、2つのオーディオ信号のパワー間の差が前記所定量より小さい場合、複数のオーディオ信号のどれかがBCオーディオ信号であると肯定的に判断することはできない(そして、どちらのマイクロホン4、6もユーザの身体と接触していないものと思われる)。その場合、処理回路8は、両方のオーディオ信号をACオーディオ信号として扱い、従来の技術を用いて処理し、例えばビームフォーミング技術を用いて複数のACオーディオ信号を合成する。
言うまでもなく、上記の式で絶対値の二乗を計算する替わりに、絶対値を計算することもできる。
また、言うまでもなく、制限付き割合を用いて、2つの信号のパワーの間の代替的な比較を行い、意思決定における不確実性を無くす(accounted for)こともできる。例えば、閾値周波数より上の周波数におけるパワーの制限付き割合を
Figure 2014502468
により決定すると、この割合は−1と1との間に制限され、値が0に近いとマイクロホンがあればBCマイクロホンであることを示す。
図11のグラフは、テスト手順における、上記の弁別器ブロック26の動作を示す。具体的に、テストの最初の10秒間に、第2のマイクロホンはユーザに接触しており(BCオーディオ信号を供給する)、これは(下段のグラフに示されているように)弁別器ブロック26により正しく識別される。テストの次の10秒間に、第1のマイクロホンがユーザに接触しており(そのためBCオーディオ信号を供給し)、これは弁別器ブロック26により正しく識別されている。
図12、図13、図14は、本発明による処理回路8で用いることができる2つのマイクロホンを組み込んだ装置を示す図である。
図12に示す装置2は、ハンドフリー機能を提供するために携帯電話とともに使える無線ヘッドセットである。無線ヘッドセットは、ユーザの耳にフィットするように形成され、ユーザに音を伝えるイヤピース28と、ユーザの口又は頬の近くに配置されるACオーディオ信号を供給するACマイクロホン6と、ユーザの頭(好ましくは耳の近くのどこか)に接触しBCオーディオ信号を供給するように装置2中に配置されたBCマイクロホン4とを有する。
図13は、携帯電話に接続してハンドフリー機能を提供できる有線のハンドフリーキットの形式である装置2を示す。装置2は、イヤピース(図示せず)と、2つのマイクロホン4、6を有するマイクロホン部30とを有する。マイクロホン部30は、使用時、ユーザの口又は首の近くにくる。マイクロホン部分は、2つのマイクロホン4、6のどちらかがユーザの首に接触するように構成されている。これは、上記の、弁別器ブロック26を含む処理回路8の第3の実施形態がこの装置2において特に有用であることを意味する。
図14は、ユーザの首の回りに装着するペンダントの形式の装置2を示す。かかるペンダントは、ユーザがケアプロバイダや緊急サービスと通信できる携帯型パーソナル緊急応答システム(MPERS)で用いられる。
ペンダント2の2つのマイクロホン4、6は、ペンダントが回転不変である(すなわち、ペンダント2の対向面にある)ように構成されている。これは、マイクロホン4、6のうち一方がユーザの首又は胸に接触することを意味する。このように、ペンダント2は、正しく動作するために、弁別器ブロック26を含む上記の第3の実施形態による処理回路8の使用を必要とする。
言うまでもなく、上記の装置2は2つより多いマイクロホンを含むように拡張できる(例えば、ペンダント2の断面は三角形(各面に1つずつ、合計3つのマイクロホンを必要とする)又は四角形(各面に1つずつ、合計4つのマイクロホンを必要とする)である)。また、装置2を、二以上のマイクロホンがBCオーディオ信号を取得できるように構成することも可能である。この場合、回路8に入力する前に、例えばビームフォーミング手法を用いて、複数のAC(又はBC)マイクロホンからのオーディオ信号を合成して、SNRが改善された一AC(又はBC)オーディオ信号を生成することができる。これにより、処理回路8により出力されるオーディオ信号の音質と明瞭性をさらに改善できる。
当業者はACマイクロホンとBCマイクロホンとして用いることができる好適なマイクロホンについて知っているだろう。例えば、一又は複数のマイクロホンはMEMS技術に基づくものである。
言うまでもなく、図2、図8、図9に示した処理回路8は、単一のプロセッサとして、又は相互接続された複数の処理ブロックとして実装できる。言うまでもなく、代替的に、処理回路8の機能は、装置内の汎用プロセッサにより実行されるコンピュータプログラムの形式で実装できる。さらに、言うまでもなく、処理回路8は、BC及び/ACマイクロホン4、6を収納している装置とは別の装置に実装して、これら装置の間でオーディオ信号を送ることもできる。
言うまでもなく、処理回路8(及びある実施形態で実装された場合には弁別器ブロック7)は、ブロックごとにオーディオ信号を処理(すなわち、一度に一ブロックのオーディオサンプルを処理)できる。例えば、弁別器ブロック26において、FFTを適用する前に、オーディオ信号をN個のオーディオサンプルを含む複数のブロックに分割できる。その後、弁別器ブロック26により実行される処理は、変換されたN個のオーディオサンプルのブロックごとに実行される。特徴抽出ブロック18、20は、同様に動作できる。
それゆえ、BCマイクロホンを用いて取得されたオーディオ信号からユーザのスピーチを表すオーディオ信号を生成する代替的なシステムと方法であって、雑音の多い環境で使え、使用前にユーザがアルゴリズムをトレーニングする必要がないものが提供される。
本発明を、図面と上記の説明に詳しく示し説明したが、かかる例示と説明は例であり限定ではなく、本発明は開示した実施形態には限定されない。
請求項に記載した発明を実施する際、図面、本開示、及び添付した特許請求の範囲を研究して、開示した実施形態のバリエーションを、当業者は理解して実施することができるであろう。 請求項において、「有する(comprising)」という用語は他の要素やステップを排除するものではなく、「1つの("a" or "an")」という表現は複数ある場合を排除するものではない。単一のプロセッサまたはその他のアイテムが請求項に記載した複数のユニットの機能を満たすこともできる。相異なる従属クレームに手段が記載されているからといって、その手段を組み合わせて有利に使用することができないということではない。コンピュータプログラムは、光記憶媒体や他のハードウェアとともに、またはその一部として供給される固体媒体などの適切な媒体に記憶/配布することができ、インターネットや有線または無線の電気通信システムなどを介して他の形式で配信することもできる。請求項に含まれる参照符号は、その請求項の範囲を限定するものと解してはならない。

Claims (15)

  1. ユーザのスピーチを表す信号を生成する方法であって:
    前記ユーザと接触したセンサを用いて前記ユーザのスピーチを表す第1のオーディオ信号を取得するステップ;
    空気伝導センサを用いて、前記ユーザのスピーチを表し前記ユーザの周りに環境からの雑音を含む第2のオーディオ信号を取得するステップ;
    前記第1のオーディオ信号におけるスピーチ期間を検出するステップ;
    前記第2のオーディオ信号にスピーチエンハンスメントアルゴリズムを適用して前記第2のオーディオ信号中の雑音を低減する、前記スピーチエンハンスメントアルゴリズムは前記第1のオーディオ信号におけるスピーチ期間を用いるステップ;
    前記雑音を低減した第2のオーディオ信号を用いて前記第1のオーディオ信号を等化して、前記ユーザのスピーチを表す出力オーディオ信号を生成するステップを有する方法。
  2. 前記第1のオーディオ信号におけるスピーチ期間を検出するステップは、前記オーディオ信号の振幅が閾値より大きい前記第1のオーディオ信号の部分を検出するステップを有する、
    請求項1に記載の方法。
  3. 前記スピーチエンハンスメントアルゴリズムを適用するステップは、前記第2のオーディオ信号にスペクトル処理を適用するステップを有する、
    請求項1または2に記載の方法。
  4. スピーチエンハンスメントアルゴリズムを適用して前記第2のオーディオ信号中の雑音を低減するステップは、前記第1のオーディオ信号におけるスピーチ期間を用いて前記第2のオーディオ信号のスペクトル領域におけるノイズフロアを推定するステップを有する、
    請求項1ないし3いずれか一項に記載の方法。
  5. 前記第1のオーディオ信号を等化するステップは、前記第1のオーディオ信号と前記雑音を低減した第2のオーディオ信号の両方において線形予測分析を行い等化フィルタを構成するステップを有する、
    請求項1ないし4いずれか一項に記載の方法。
  6. 線形予測分析を行うステップは:
    (i)前記第1のオーディオ信号及び前記雑音を低減した第2のオーディオ信号の両方の線形予測係数を推定するステップ;
    (ii)前記第1のオーディオ信号の線形予測係数を用いて前記第1のオーディオ信号の励起信号を生成するステップ;
    (iii)前記雑音を低減した第2のオーディオ信号の線形予測係数を用いて周波数領域エンベロープを構成するステップ;及び
    (iv)前記周波数領域エンベロープを用いて前記第1のオーディオ信号の励起信号を等化するステップを有する、
    請求項5に記載の方法。
  7. 前記第1のオーディオ信号を等化するステップは、(i)長期スペクトル法を用いて等化フィルタを構成するステップ、又は(ii)前記第1のオーディオ信号を前記フィルタ出力と前記雑音を低減した第2のオーディオ信号との間の平均二乗誤差を最小化するアダプティブフィルタへの入力として用いるステップを有する、
    請求項1ないし4いずれか一項に記載の方法。
  8. 等化するステップの前に、前記第1のオーディオ信号にスピーチエンハンスメントアルゴリズムを適用して前記第1のオーディオ信号中の雑音を低減する、前記スピーチエンハンスメントアルゴリズムは前記第1のオーディオ信号におけるスピーチ期間を用いるステップを有し、
    前記等化するステップは、前記雑音を低減した第2のオーディオ信号を用いて前記雑音を低減した第1のオーディオ信号を等化して、前記ユーザのスピーチを表す出力オーディオ信号を生成するステップを有する、
    請求項1ないし9いずれか一項に記載の方法。
  9. 第2の空気伝導センサを用いて、前記ユーザのスピーチを表し前記ユーザの周りの環境からの雑音を含む第3のオーディオ信号を取得するステップ;及び
    ビームフォーミング手法を用いて前記第2のオーディオ信号と前記第3のオーディオ信号を合成して合成オーディオ信号を生成するステップをさらに有し、
    スピーチエンハンスメントアルゴリズムを適用するステップは、前記合成オーディオ信号に前記スピーチエンハンスメントアルゴリズムを適用して前記合成オーディオ信号中の雑音を低減する、前記スピーチエンハンスメントアルゴリズムは前記第1のオーディオ信号におけるスピーチ期間を用いるステップを有する、
    請求項1ないし8いずれか一項に記載の方法。
  10. 前記ユーザと接触した第2のセンサを用いて前記ユーザのスピーチを表す第4のオーディオ信号を取得するステップ;及び
    ビームフォーミング手法を用いて前記第1のオーディオ信号と前記第4のオーディオ信号を合成して第2の合成オーディオ信号を生成するステップをさらに有し、
    スピーチ期間を検出するステップは、前記第2の合成オーディオ信号におけるスピーチ期間を検出するステップを有する、
    請求項1ないし9いずれか一項に記載の方法。
  11. ユーザのスピーチを表すオーディオ信号の生成において用いる装置であって、
    処理回路であって:
    前記ユーザと接触したセンサから前記ユーザのスピーチを表す第1のオーディオ信号を受け取り;
    空気伝導センサから、前記ユーザのスピーチを表し前記ユーザの周りの環境からの雑音を含む第2のオーディオ信号を受け取り;
    前記第1のオーディオ信号におけるスピーチ期間を検出し;
    前記第2のオーディオ信号にスピーチエンハンスメントアルゴリズムを適用して前記第2のオーディオ信号中の雑音を低減し、前記スピーチエンハンスメントアルゴリズムは前記第1のオーディオ信号におけるスピーチ期間を用い;
    前記雑音を低減した第2のオーディオ信号を用いて前記第1のオーディオ信号を等化して、前記ユーザのスピーチを表す出力オーディオ信号を生成する、
    処理回路を有する、装置。
  12. 前記処理回路は、前記第1のオーディオ信号と前記雑音を低減した第2のオーディオ信号の両方において線形予測分析を行うことにより第1のオーディオ信号を等化し、等化フィルタを構成するように構成された、
    請求項11に記載の装置。
  13. 前記処理回路は、
    (i)前記第1のオーディオ信号及び前記雑音を低減した第2のオーディオ信号の両方の線形予測係数を推定し;
    (ii)前記第1のオーディオ信号の線形予測係数を用いて前記第1のオーディオ信号の励起信号を生成し;
    (iii)前記雑音を低減したオーディオ信号の線形予測係数を用いて周波数領域エンベロープを構成し;及び
    (iv)前記周波数領域エンベロープを用いて前記第1のオーディオ信号の励起信号を等化する、
    ことにより前記線形予測分析を行うように構成された、
    請求項11又は12に記載の装置。
  14. 前記装置はさらに、
    前記装置を使用中に前記ユーザの身体に接触し、第1のオーディオ信号を生成するように構成された接触センサ;及び
    前記第2のオーディオ信号を生成するように構成された空気伝導センサをさらに有する、
    請求項11ないし13いずれか一項に記載の装置。
  15. コンピュータ又はプロセッサによるコンピュータ読み取り可能コードの実行時に、前記コンピュータ又はプロセッサが請求項1乃至10いずれか一項に記載の方法を実行するように構成された前記コンピュータ読み取り可能コードを有するコンピュータプログラム。
JP2013540465A 2010-11-24 2011-11-17 オーディオ信号生成システム及び方法 Expired - Fee Related JP6034793B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP10192409A EP2458586A1 (en) 2010-11-24 2010-11-24 System and method for producing an audio signal
EP10192409.0 2010-11-24
PCT/IB2011/055149 WO2012069966A1 (en) 2010-11-24 2011-11-17 System and method for producing an audio signal

Publications (2)

Publication Number Publication Date
JP2014502468A true JP2014502468A (ja) 2014-01-30
JP6034793B2 JP6034793B2 (ja) 2016-11-30

Family

ID=43661809

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013540465A Expired - Fee Related JP6034793B2 (ja) 2010-11-24 2011-11-17 オーディオ信号生成システム及び方法

Country Status (7)

Country Link
US (1) US9812147B2 (ja)
EP (2) EP2458586A1 (ja)
JP (1) JP6034793B2 (ja)
CN (1) CN103229238B (ja)
BR (1) BR112013012538A2 (ja)
RU (1) RU2595636C2 (ja)
WO (1) WO2012069966A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014501089A (ja) * 2010-11-24 2014-01-16 コーニンクレッカ フィリップス エヌ ヴェ 複数のオーディオセンサを有する装置とその動作方法
WO2023100429A1 (ja) * 2021-11-30 2023-06-08 株式会社Jvcケンウッド 収音装置、収音方法、及び収音プログラム

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9711127B2 (en) 2011-09-19 2017-07-18 Bitwave Pte Ltd. Multi-sensor signal optimization for speech communication
WO2013057659A2 (en) 2011-10-19 2013-04-25 Koninklijke Philips Electronics N.V. Signal noise attenuation
JP6314837B2 (ja) * 2013-01-15 2018-04-25 ソニー株式会社 記憶制御装置、再生制御装置および記録媒体
BR112015020150B1 (pt) * 2013-02-26 2021-08-17 Mediatek Inc. Aparelho para gerar um sinal de fala, e, método para gerar um sinal de fala
CN103208291A (zh) * 2013-03-08 2013-07-17 华南理工大学 一种可用于强噪声环境的语音增强方法及装置
TWI520127B (zh) 2013-08-28 2016-02-01 晨星半導體股份有限公司 應用於音訊裝置的控制器與相關的操作方法
US9547175B2 (en) 2014-03-18 2017-01-17 Google Inc. Adaptive piezoelectric array for bone conduction receiver in wearable computers
FR3019422B1 (fr) * 2014-03-25 2017-07-21 Elno Appareil acoustique comprenant au moins un microphone electroacoustique, un microphone osteophonique et des moyens de calcul d'un signal corrige, et equipement de tete associe
KR102493123B1 (ko) * 2015-01-23 2023-01-30 삼성전자주식회사 음성 향상 방법 및 시스템
CN104952458B (zh) * 2015-06-09 2019-05-14 广州广电运通金融电子股份有限公司 一种噪声抑制方法、装置及系统
BR112018005910B1 (pt) * 2015-09-25 2023-10-10 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V Codificador e método para codificar um sinal de áudio com ruído de fundo reduzido com o uso de conversão em código preditiva linear e sistema
DK3374990T3 (da) 2015-11-09 2019-11-04 Nextlink Ipr Ab Fremgangsmåde og system til støjundertrykkelse
WO2017099938A1 (en) * 2015-12-10 2017-06-15 Intel Corporation System for sound capture and generation via nasal vibration
CN110010149B (zh) * 2016-01-14 2023-07-28 深圳市韶音科技有限公司 基于统计模型的双传感器语音增强方法
US9813833B1 (en) 2016-10-14 2017-11-07 Nokia Technologies Oy Method and apparatus for output signal equalization between microphones
US11528556B2 (en) 2016-10-14 2022-12-13 Nokia Technologies Oy Method and apparatus for output signal equalization between microphones
WO2018083511A1 (zh) * 2016-11-03 2018-05-11 北京金锐德路科技有限公司 一种音频播放装置及方法
RU2759715C2 (ru) * 2017-01-03 2021-11-17 Конинклейке Филипс Н.В. Звукозапись с использованием формирования диаграммы направленности
CN109979476B (zh) * 2017-12-28 2021-05-14 电信科学技术研究院 一种语音去混响的方法及装置
WO2020131963A1 (en) * 2018-12-21 2020-06-25 Nura Holdings Pty Ltd Modular ear-cup and ear-bud and power management of the modular ear-cup and ear-bud
CN109767783B (zh) 2019-02-15 2021-02-02 深圳市汇顶科技股份有限公司 语音增强方法、装置、设备及存储介质
CN109949822A (zh) * 2019-03-31 2019-06-28 联想(北京)有限公司 信号处理方法和电子设备
US11488583B2 (en) 2019-05-30 2022-11-01 Cirrus Logic, Inc. Detection of speech
WO2021068120A1 (zh) * 2019-10-09 2021-04-15 大象声科(深圳)科技有限公司 一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法
TWI735986B (zh) * 2019-10-24 2021-08-11 瑞昱半導體股份有限公司 收音裝置及方法
CN113421580B (zh) * 2021-08-23 2021-11-05 深圳市中科蓝讯科技股份有限公司 降噪方法、存储介质、芯片及电子设备
CN114124626B (zh) * 2021-10-15 2023-02-17 西南交通大学 信号的降噪方法、装置、终端设备以及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04245720A (ja) * 1991-01-30 1992-09-02 Nagano Japan Radio Co 雑音低減方法
JPH05333899A (ja) * 1992-05-29 1993-12-17 Fujitsu Ten Ltd 音声入力装置、音声認識装置および警報発生装置
JPH0879868A (ja) * 1994-09-05 1996-03-22 Nippon Telegr & Teleph Corp <Ntt> 骨導マイクロホン出力信号再生装置
JPH11305792A (ja) * 1998-02-20 1999-11-05 Nippon Telegr & Teleph Corp <Ntt> 収音装置,音声認識装置,これらの方法、及びプログラム記録媒体
US20050185813A1 (en) * 2004-02-24 2005-08-25 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US20060287852A1 (en) * 2005-06-20 2006-12-21 Microsoft Corporation Multi-sensory speech enhancement using a clean speech prior
JP2007003702A (ja) * 2005-06-22 2007-01-11 Ntt Docomo Inc 雑音除去装置、通信端末、及び、雑音除去方法
JP2007240654A (ja) * 2006-03-06 2007-09-20 Asahi Kasei Corp 体内伝導通常音声変換学習装置、体内伝導通常音声変換装置、携帯電話機、体内伝導通常音声変換学習方法、体内伝導通常音声変換方法
JP2007531029A (ja) * 2004-03-31 2007-11-01 スイスコム モービル アーゲー 音響通信のための方法およびシステム
US20080163747A1 (en) * 2007-01-10 2008-07-10 Yamaha Corporation Sound collector, sound signal transmitter and music performance system for remote players
JP2009100343A (ja) * 2007-10-18 2009-05-07 National Institute Of Advanced Industrial & Technology 信号再生装置

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5602959A (en) * 1994-12-05 1997-02-11 Motorola, Inc. Method and apparatus for characterization and reconstruction of speech excitation waveforms
US6498858B2 (en) * 1997-11-18 2002-12-24 Gn Resound A/S Feedback cancellation improvements
US6876750B2 (en) * 2001-09-28 2005-04-05 Texas Instruments Incorporated Method and apparatus for tuning digital hearing aids
US7617094B2 (en) * 2003-02-28 2009-11-10 Palo Alto Research Center Incorporated Methods, apparatus, and products for identifying a conversation
JP2004279768A (ja) 2003-03-17 2004-10-07 Mitsubishi Heavy Ind Ltd 気導音推定装置及び気導音推定方法
US7447630B2 (en) * 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
CA2454296A1 (en) * 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
JP2008512888A (ja) * 2004-09-07 2008-04-24 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 改善した雑音抑圧を有する電話装置
US7283850B2 (en) * 2004-10-12 2007-10-16 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
CN100592389C (zh) * 2008-01-18 2010-02-24 华为技术有限公司 合成滤波器状态更新方法及装置
RU2411595C2 (ru) * 2005-08-02 2011-02-10 Конинклейке Филипс Электроникс Н.В. Улучшение разборчивости речи в мобильном коммуникационном устройстве путем управления работой вибратора в зависимости от фонового шума
KR100738332B1 (ko) * 2005-10-28 2007-07-12 한국전자통신연구원 성대신호 인식 장치 및 그 방법
EP1640972A1 (en) 2005-12-23 2006-03-29 Phonak AG System and method for separation of a users voice from ambient sound
CN101246688B (zh) * 2007-02-14 2011-01-12 华为技术有限公司 一种对背景噪声信号进行编解码的方法、系统和装置
RU2472306C2 (ru) * 2007-09-26 2013-01-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство и способ для извлечения сигнала окружающей среды в устройстве и способ получения весовых коэффициентов для извлечения сигнала окружающей среды
JP5159325B2 (ja) * 2008-01-09 2013-03-06 株式会社東芝 音声処理装置及びそのプログラム
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
CN101483042B (zh) * 2008-03-20 2011-03-30 华为技术有限公司 一种噪声生成方法以及噪声生成装置
CN101335000B (zh) * 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置
US9532897B2 (en) * 2009-08-17 2017-01-03 Purdue Research Foundation Devices that train voice patterns and methods thereof
JPWO2011118207A1 (ja) * 2010-03-25 2013-07-04 日本電気株式会社 音声合成装置、音声合成方法および音声合成プログラム
US8606572B2 (en) * 2010-10-04 2013-12-10 LI Creative Technologies, Inc. Noise cancellation device for communications in high noise environments
US9538301B2 (en) * 2010-11-24 2017-01-03 Koninklijke Philips N.V. Device comprising a plurality of audio sensors and a method of operating the same
US9711127B2 (en) * 2011-09-19 2017-07-18 Bitwave Pte Ltd. Multi-sensor signal optimization for speech communication

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04245720A (ja) * 1991-01-30 1992-09-02 Nagano Japan Radio Co 雑音低減方法
JPH05333899A (ja) * 1992-05-29 1993-12-17 Fujitsu Ten Ltd 音声入力装置、音声認識装置および警報発生装置
JPH0879868A (ja) * 1994-09-05 1996-03-22 Nippon Telegr & Teleph Corp <Ntt> 骨導マイクロホン出力信号再生装置
JPH11305792A (ja) * 1998-02-20 1999-11-05 Nippon Telegr & Teleph Corp <Ntt> 収音装置,音声認識装置,これらの方法、及びプログラム記録媒体
US20050185813A1 (en) * 2004-02-24 2005-08-25 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
JP2005244968A (ja) * 2004-02-24 2005-09-08 Microsoft Corp モバイル・デバイス上のマルチセンサによるスピーチ改良のための方法および装置
JP2007531029A (ja) * 2004-03-31 2007-11-01 スイスコム モービル アーゲー 音響通信のための方法およびシステム
US20060287852A1 (en) * 2005-06-20 2006-12-21 Microsoft Corporation Multi-sensory speech enhancement using a clean speech prior
JP2008544328A (ja) * 2005-06-20 2008-12-04 マイクロソフト コーポレーション クリーン音声の事前分布を使用した多感覚応用の音声強調
JP2007003702A (ja) * 2005-06-22 2007-01-11 Ntt Docomo Inc 雑音除去装置、通信端末、及び、雑音除去方法
JP2007240654A (ja) * 2006-03-06 2007-09-20 Asahi Kasei Corp 体内伝導通常音声変換学習装置、体内伝導通常音声変換装置、携帯電話機、体内伝導通常音声変換学習方法、体内伝導通常音声変換方法
US20080163747A1 (en) * 2007-01-10 2008-07-10 Yamaha Corporation Sound collector, sound signal transmitter and music performance system for remote players
JP2008172409A (ja) * 2007-01-10 2008-07-24 Yamaha Corp 収音装置及び音声伝送システム
JP2009100343A (ja) * 2007-10-18 2009-05-07 National Institute Of Advanced Industrial & Technology 信号再生装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014501089A (ja) * 2010-11-24 2014-01-16 コーニンクレッカ フィリップス エヌ ヴェ 複数のオーディオセンサを有する装置とその動作方法
US9538301B2 (en) 2010-11-24 2017-01-03 Koninklijke Philips N.V. Device comprising a plurality of audio sensors and a method of operating the same
WO2023100429A1 (ja) * 2021-11-30 2023-06-08 株式会社Jvcケンウッド 収音装置、収音方法、及び収音プログラム

Also Published As

Publication number Publication date
US20130246059A1 (en) 2013-09-19
EP2643834B1 (en) 2014-03-19
CN103229238A (zh) 2013-07-31
BR112013012538A2 (pt) 2016-09-06
JP6034793B2 (ja) 2016-11-30
WO2012069966A1 (en) 2012-05-31
EP2643834A1 (en) 2013-10-02
EP2458586A1 (en) 2012-05-30
RU2595636C2 (ru) 2016-08-27
US9812147B2 (en) 2017-11-07
CN103229238B (zh) 2015-07-22
RU2013128375A (ru) 2014-12-27

Similar Documents

Publication Publication Date Title
JP6034793B2 (ja) オーディオ信号生成システム及び方法
JP6031041B2 (ja) 複数のオーディオセンサを有する装置とその動作方法
KR101444100B1 (ko) 혼합 사운드로부터 잡음을 제거하는 방법 및 장치
JP6150988B2 (ja) 特に「ハンズフリー」電話システム用の、小数遅延フィルタリングにより音声信号のノイズ除去を行うための手段を含むオーディオ装置
TWI281354B (en) Voice activity detector (VAD)-based multiple-microphone acoustic noise suppression
US10218327B2 (en) Dynamic enhancement of audio (DAE) in headset systems
KR101224755B1 (ko) 음성-상태 모델을 사용하는 다중-감각 음성 향상
JP2005244968A (ja) モバイル・デバイス上のマルチセンサによるスピーチ改良のための方法および装置
CN105491495B (zh) 基于确定性序列的反馈估计
CN112019967B (zh) 一种耳机降噪方法、装置、耳机设备及存储介质
JP2011033717A (ja) 雑音抑圧装置
JP6265903B2 (ja) 信号雑音減衰
KR101850693B1 (ko) 인-이어 마이크로폰을 갖는 이어셋의 대역폭 확장 장치 및 방법
Ohlenbusch et al. Modeling of Speech-dependent Own Voice Transfer Characteristics for Hearables with In-ear Microphones
Na et al. Noise reduction algorithm with the soft thresholding based on the Shannon entropy and bone-conduction speech cross-correlation bands
Vaziri et al. Evaluating noise suppression methods for recovering the Lombard speech from vocal output in an external noise field
WO2022198538A1 (zh) 主动降噪音频设备和用于主动降噪的方法
KR100565428B1 (ko) 인간 청각 모델을 이용한 부가잡음 제거장치
WO2022231977A1 (en) Recovery of voice audio quality using a deep learning model
CN115802225A (zh) 一种用于无线耳机的噪声抑制方法和噪声抑制装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141114

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160126

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160412

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161004

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161028

R150 Certificate of patent or registration of utility model

Ref document number: 6034793

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees