JP2003508804A - 音源をクラス分けするためのシステムおよび方法 - Google Patents

音源をクラス分けするためのシステムおよび方法

Info

Publication number
JP2003508804A
JP2003508804A JP2001520402A JP2001520402A JP2003508804A JP 2003508804 A JP2003508804 A JP 2003508804A JP 2001520402 A JP2001520402 A JP 2001520402A JP 2001520402 A JP2001520402 A JP 2001520402A JP 2003508804 A JP2003508804 A JP 2003508804A
Authority
JP
Japan
Prior art keywords
signal
time
frequency representation
model
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001520402A
Other languages
English (en)
Other versions
JP2003508804A5 (ja
Inventor
ザカロスカス,ピエール
Original Assignee
ウェーブメーカーズ・インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ウェーブメーカーズ・インコーポレーテッド filed Critical ウェーブメーカーズ・インコーポレーテッド
Publication of JP2003508804A publication Critical patent/JP2003508804A/ja
Publication of JP2003508804A5 publication Critical patent/JP2003508804A5/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Seasonings (AREA)
  • Saccharide Compounds (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)

Abstract

(57)【要約】 音源のグループの中から音源を特定するためのシステムおよび方法。本発明は、音響入力を複数の信号モデル、音源クラスあたりひとつの信号モデルに整合させ、それぞれの信号モデルに対して整合良好度数を生成する。音源は、スコアが十分に高い時に、最良の整合良好度を有するモデルと同じクラスであると宣言される。データは、マイクロフォンで記録され、デジタル化され、周波数領域に変換される。信号検出器が過渡音に適用される。高調波検出方法は、音源が高調波特性を有しているかを判断するために使用される。過渡音の少なくともある部分が重要な信号を含んでいる時、再スケールされた信号スペクトルが信号モデルのセットと比較され、入力信号のパラメータがデータに合わせられる。パターンを、信号モデルをトレイニングする時に使用された音源のパターンと比較するために、平均歪みが計算される。クラス分けが行われる前に、音源モデルが信号データでトレイニングされる。それぞれの信号モデルは、現存しているテンプレートとかなり異なっている時、入力信号スペクトラムからテンプレートを生成することにより作られる。入力パターンに似ている現存しているテンプレートが見つかると、テンプレートは、得られるテンプレートが過去にそのテンプレートに整合した全てのスペクトルの平均になるように、パターンで平均化される。

Description

【発明の詳細な説明】
【0001】 (技術分野) 本発明は、テキストに依存しない話者識別を含む、音響(音)源の自動クラス
分け用システムおよび方法に関する。
【0002】 (背景) 音響信号のクラス分けを研究するいくつかの研究分野がある。それぞれの研究
分野は、音響信号クラス分けに対する独自の手法を採用しているが、それらの間
に何らかの重なりがある。現在、自動音源クラス分けの主な適用例は、話者照合
、話者識別、受動ソナー・クラス分けおよび機械雑音モニタリングまたは診断で
ある。
【0003】 話者照合は、特定の話者が本当に彼または彼女が自称している人であることを
照合することを目指している。ほとんどの話者照合システムにおいて、話者は、
キーワードを話すことで協力し、システムは、推定されている話者によるキーワ
ードの話され方を、同じキーワードのトレイニング・サンプルと整合させる。整
合が不十分であると、話者はサービス(たとえば、コンピュータへのアクセスや
建物へのアクセス)を拒絶または拒否される。こうした方法の不都合は、トレイ
ニング時と同じキーワードがテスト時に使用されなければならず、したがって、
アクセスを制御する方法などの応用を制限している。この方法は、たとえば、会
話を交わしている際に話者をクラス分けするためには使用できない。
【0004】 話者識別は、1組の音声の中でどれが所定のテスト発声に最もよく整合してい
るかを決定することを目指している。テキストに依存しない話者識別は、特定の
キーワードを使用することなくこうした決定を行おうとしている。
【0005】 受動ソナークラス分けは、ソナーが水中で放射する音により船を識別すること
を含んでいる。機械雑音モニタリングおよび診断は、機械装置がたてる音を通し
て機械装置の部品の状態を判定するステップを含んでいる。
【0006】 上述した適用例の全てにおいて、まず、それぞれの音源のモデルが、それぞれ
の音からの1組のサンプル音でシステムをトレイニングすることにより得られる
。次いで、テスト・サンプルは、テスト・サンプルについて音源の種類を決定す
るために、記憶されたモデルと比較される。知られている方法は、比較的に長い
トレイニング時間とテスト・サンプルを必要とし、多くの場合こうした方法を不
適当にしてしまう。さらに、こうした方法は、大量のメモリ記憶と計算資源を必
要とする傾向にある。最後に、これらの方法は、テスト信号中の雑音の存在に対
して強くなく、多くのタスクでその使用を妨げる(「信号」は、重要な信号を意
味し、背景および気を散らす音は「雑音」と呼ばれる)。
【0007】 本発明者は、スペクトルのある部分が雑音によりマスクされている時でさえも
音響信号をクラス分けでき、しかも、最少のトレイニングおよびテストしか必要
としないことが望ましいであろうと考えた。本発明は、従来技術の制限を回避す
る音響信号クラス分けのためのシステムおよび方法を提供する。
【0008】 (概要) 本発明は、音源をクラス分けするための方法、装置およびコンピュータ・プロ
グラムを含んでいる。本発明は、音響入力を複数の信号モデル、音源クラスあた
りひとつの信号モデルに整合させ、それぞれの信号モデルに対してスコアを生成
する。音源は、スコアが十分に高い時に、最良のスコアを有するモデルと同じク
ラスであると宣言する。好ましい実施態様において、クラス分けは、学習により
増強された信号モデルを使用することにより行われる。入力信号は、人間の語音
を表すことができ、その場合は、目的が、テキストに依存しない形で話者を特定
することになるであろう。しかし、本発明は、音楽装置、鳥、エンジンまたは機
械雑音または人間の歌など、任意のタイプの生音または記録された音響データを
クラス分けするために使用することができることを理解するべきである。
【0009】 本発明の好ましい実施態様は、以下のように入力信号をクラス分けする。入力
信号は、2値データにデジタル化され、2進データは時間−周波数表現(スペク
トログラム)に変換される。暗雑音が推定され、信号検出器が信号を含んでいる
期間を分離する。信号内容のない期間は雑音推定の中に含まれている。入力信号
のスペクトログラムは再スケールされ、かつ信号モデルを定義する複数のテンプ
レートに対するスペクトログラムと比較される。その際のそれぞれの信号モデル
は音源クラスを表している。計測されたスペクトログラムとそれぞれの信号モデ
ルのスペクトログラムの間の平均歪みが計算される。最も低い歪みを有する信号
モデルが選択される。選択された信号モデルの平均歪みが十分に小さい時、音源
は、対応しているクラスに属していると宣言される。そうでない時、音源は、未
知のタイプであると宣言される。
【0010】 既存のテンプレートのスペクトログラムと入力信号のスペクトログラムがかな
り異なっている時、入力信号のスペクトログラムからテンプレートを生成するこ
とにより信号モデルのセットを信号データでトレイニングする。入力信号スペク
トラムに似ている既存のテンプレートが見つかると、そのテンプレートが入力信
号のスペクトログラムで平均化され、得られるテンプレートが、過去のそのテン
プレートに整合するスペクトルの全ての平均であるようにする。
【0011】 本発明は、以下の利点を有している。利点は、音源がたまたまサンプリング時
に発する音に依存せずに、音レベルに依存せずに、また、音響信号のスペクトル
のある部分が雑音によりマスクされる時でさえも、音響信号源をクラス分けでき
ることである。また、本発明は必要とするトレイニング、テスト・データおよび
計算資源が比較的少なくてすむ。
【0012】 本発明の1つまたは複数の実施形態の詳細が、以下の付随する図および説明に
おいて述べられている。本発明の、他の特徴、目的および利点は、説明と図およ
び請求項から明らかになるであろう。
【0013】 種々の図における同じ参照番号および名称は同じ要素を示している。
【0014】 (詳細な説明) この説明を通して、示されている好ましい実施形態および例が、本発明の制限
としてよりもむしろ見本として考えられるべきである。
【0015】 動作環境の概観 図1は、本発明の音響信号クラス分けシステムを実行するために使用すること
ができる、典型的な従来技術のプログラマブル処理システムのブロック図を示し
ている。音響信号はトランスジューサ・マイクロフォン10で受信され、音響信
号の対応する電気信号表現を生成する。トランスジューサ・マイクロフォン10
からの信号は、その後、アナログ・デジタル変換器14によりデジタル化される
前に、増幅器12により増幅されるのが好ましい。アナログ・デジタル変換器1
4の出力は、本発明のクラス分け技術を適用する処理システムに加えられる。処
理システムは、図のようにCPU16、CPUバスにより結合されたRAM20
、ROM18(フラッシュROMのような、書き換え可能であってもよい)およ
び磁気ディスクのような任意選択の記憶デバイス22を含むのが好ましい。クラ
ス分け処理の出力は、ビデオ・ディスプレイ26を駆動するビデオ・ディスプレ
イ制御器24によって使用者のために表示することも、音源の同一性に対するそ
の応答をカスタマイズするためにシステムが使用することも、外部装置(たとえ
ば、アクセス制御適用におけるロック機構)を駆動するために使用することもで
きる。
【0016】 システムの機能概観 以下は、音響信号クラス分けシステムの機能構成要素を説明している。本発明
の第1の機能要素は、入力データを時間−周波数表現に変換するプリプロセッサ
である。異なる周波数帯域の相対パワーのパターンおよびこうしたパターンが短
期間でどのように変わるかが、入力信号をクラス分けするために本システムによ
り使用されている。
【0017】 本発明の第2および第3の機能要素は、動的暗雑音推定器および信号検出器で
ある。それらは連結して動作する。信号検出器は、連続した暗雑音を区別するの
に有効であるクラス分けは、信号のみに基づき、暗雑音に影響されないことを保
証することが重要である。動的暗雑音推定機能は、暗雑音から過渡的な音を分離
し、暗雑音のみを推定することができる。一実施形態において、パワー検出器は
、複数の周波数帯域のそれぞれにおいて動作する。データの雑音のみの部分は、
雑音の平均および標準偏差をデシベル(dB)で生成するのに使用される。パワ
ーが、ある周波数帯域において、標準偏差の特定数を超えるだけ平均を超える時
、対応する時間期間は、信号を含んでいるとしてフラグを立てられ、雑音のみの
スペクトルを推定するのには使用されない。
【0018】 本発明の第4の機能要素は高調波検出器である。高調波音の場合に、高調波検
出器は、クラス分けにとって有益である信号の基本周波数の推定値を提供するの
に使用される。高調波検出器は、関心のある多くの場合(たとえば、人の音声、
音楽、鳥の鳴き声、エンジンおよび機械装置)、信号が高調波構造を有している
ために、データに適用するのに有益なフィルタである。高調波検出器の好ましい
実施形態は以下に説明されている。高調波検出器はスペクトル上で高調波的に関
連するピークの数を数える。
【0019】 第5の機能要素はスペクトル再スケーラである。入力信号は弱い、または強い
、近い、または遠い可能性がある。計測されたスペクトルがモデルのテンプレー
トに合わせられる前に、計測されたスペクトルは、パターン間距離が信号の全体
の音量に依存しないように再スケールされる。好ましい実施形態において、デシ
ベル(dB)での信号対雑音比(SNR)に比例した重み付けが、再スケール中
に周波数帯域に対して適用される。重みは、最少値および最大値により、それぞ
れ、下方でおよび上方で制限されている。スペクトルは、それぞれの記憶された
テンプレートに対する重み付けされた距離が最少化されるように再スケールされ
る。
【0020】 第6の機能要素はパターン整合器である。それぞれがクラスを定義している信
号モデルのセットと入力信号のスペクトグラムとをパターン整合器で比較する。
それぞれの信号モデルは、既知の同一性の信号から得られた短期間の原型スペク
トログラムのセット(「テンプレート」)で構成されている。信号モデルのトレ
イニングは、以前に収集された原型スペクトログラムとはかなり異なるスペクト
ログラムを収集することにより行われる。好ましい実施形態において、第1の原
型スペクトログラムは、雑音レベルをかなり上回る信号を含んでいる第1入力信
号のスペクトログラムである。次の期間に、入力信号のスペクトログラムが、選
択された距離閾値よりも任意の既存の原型スペクトログラムに近い時、入力信号
のスペクトログラムは最も近い原型スペクトログラムで平均化される。入力信号
のスペクトログラムが、選択された閾値よりも任意の原型スペクトログラムから
ずっと遠い時、入力信号のスペクトログラムは新たな原型スペクトログラムであ
ると宣言される。
【0021】 テンプレートと入力信号の計測されたスペクトログラムの間の距離は、ユーク
リッド距離または重み付けユークリッド距離のような、いくつかの適切な測定基
準の1つでよい。それぞれの信号モデル・クラスに対して、計測された入力信号
のスペクトログラムに対して最も小さな距離を有するテンプレートが、そのクラ
スに最もピッタリと合う原型スペクトログラムとして選択される。
【0022】 第7の機能要素はクラス分け器である。それぞれのクラスに対するスコアは、
それぞれの入力信号サンプルに対して蓄積される。適当な数の入力信号サンプル
から十分なデータが収集された時、最終クラスの決定が行われる。別法として、
決定は、任意の時点または事象で強制的に行われることができ(たとえば、語音
の期間の後にかなりの期間の沈黙が続く時)、最もピッタリと合うクラスがその
時点でのスコアとともに返される。
【0023】 基本方法の概観 図2は、本発明の好ましい方法の実施形態のフロー図である。図2に示されて
いる方法は、図1に示されているアナログ・デジタル変換器14からの出力とし
て生成された複数のデータ・サンプルで構成されている入力音響信号を強調する
のに使用されている。方法は、スタート状態(ステップ202)で始まる。入力
データ・ストリーム(たとえば、以前に生成された音響データ・ファイルまたは
デジタル化された生の音響信号)は、サンプルのセットとしてコンピュータ・メ
モリに読み込まれる(ステップ204)。好ましい実施形態において、本発明は
、全データ・ストリームが処理されるように、連続した音響データ・ストリーム
の部分を表しているデータの「移動ウィンドウ」からクラス分けするように適用
される。一般的に、クラス分けされるべき音響データ・ストリームは、元の音響
データ・ストリームの期間にかかわらず、固定長の一連のデータ「バッファ」と
して表されている。
【0024】 現在ウィンドウのサンプルは、事前フィルタリング、シェーディングなどのよ
うな適切な調節操作を含む時間−周波数変換を受ける(ステップ206)。短時
間フーリエ変換、フィルタ・バンク解析、離散ウェーブレット変換などのような
、いくつかの時間−周波数変換のうちの任意の変換を使用できる。
【0025】 時間−周波数変換の結果は、初期時系列入力信号x(t)が時間周波数表現X
(f,i)に変換される。ここで、tは時系列xに対するサンプリング指標で、
fとiは、それぞれ、スペクトログラムXの周波数の次元と時間の次元を指す個
別変数であるということである。好ましい実施形態において、特に指示がない限
り、以降のステップにおいて、Xの大きさの対数がXの代わりに使用される。す
なわち、 P(f,i)=20log10(|X(f,i)|) である。
【0026】 時間と周波数の関数としてのパワー・レベルP(f,i)は、今後、「スペク
トログラム」と呼ばれるであろう。
【0027】 個々の周波数帯域fにおけるパワー・レベルは、次に、暗雑音推定を受ける(
ステップ208)。信号検出器は、静的な暗雑音に埋もれた信号の存在を検出し
(ステップ210)、信号を含んでいるスペクトログラムのみを通過させる。暗
雑音推定は、信号が存在しない時、暗雑音パラメータの推定値を更新する。
【0028】 暗雑音推定を実行する好ましい実施形態は、それぞれの周波数帯域fに対する
移動ウィンドウにおいて音響パワーを平均するパワー検出器を備えている。所定
の数の周波数帯域内のパワーが、暗雑音を超えるある数の標準偏差として決定さ
れている、閾値を超える時、すなわち、 P(f,i)>B(f)+σ(f) である時、パワー検出器は、信号の存在を宣言する。 ここで、B(f)は帯域fにおける平均暗雑音パワーで、σ(f)は同じ帯域に
おける雑音の標準偏差で、cは定数である。別の実施形態において、雑音推定は
動的である必要はなく、一度だけ計測されるであろう(たとえば、本発明を実行
するソフトウェアを走らせるコンピュータの起動中)。
【0029】 信号検出器を通過させられたスペクトログラムは、次に、高調波検出器機能に
適用される(ステップ212)。このステップで、システムが入力信号と同じ高
調波クラスでない信号を区別でき、したがって、その信号に対してはもはや比較
は必要がない。たとえば、人の声は、基本周波数(ピッチ)が、成人女性に対す
る90Hzから子供に対する300Hzの間であって、0.1と約3kHzの間
の高調波のセットが存在するのが特徴である。
【0030】 ステップ206からのスペクトログラムPは、次に、記憶されているテンプレ
ートと比較できるように再スケールされるのが好ましい(ステップ214)。こ
のステップを実行する一方法は、P(f,i)+k(i,m)とm番目のテンプ
レートT(f,m)の間の平方自乗平均の差が最少となるように、スペクトログ
ラムP(f,i)のそれぞれの要素を定数k(i,m)だけシフトアップするこ
とである。これは、以下を計算することにより行われる。
【数1】 ここで、Nは、周波数帯域の数である。
【0031】 他の実施形態において、重み付けは、比較する前にテンプレートを再スケール
するのに使用される。重みw(i)は、それぞれの周波数帯域に対して、レベル
の差、すなわち、r(f,i)=P(f,i)−B(f)として計算された時間
iでの帯域fにおけるSNR r(f,i)に比例している。この実施形態にお
いて、再スケール係数のそれぞれの要素は、以下のように定義された重みにより
重み付けされる。ここでwminとwmaxはプリセットされた閾値である。 r(f,i)<wminの時、w(f,i)=wmin r(f,i)>wmaxの時、w(f,i)=wmax その他の時、w(f,i)=r(f,i)
【0032】 好ましい実施形態において、重みは、それぞれの時間フレームの重みの和で正
規化される。すなわち、 w’(f,i)=w(f,i)/sumf(w(f,i)) w’min=wmin/sumf(w(f,i)) w’max=wmax/sumf(w(f,i)) この場合、再スケール定数は、
【数2】 で与えられる。
【0033】 この再スケールの効果は、より高いSNRを有しているテンプレートの周波数
帯域を選択的に整列させることである。しかし、再スケールは、随意選択であっ
て、全ての実施形態において使用される必要はない。
【0034】 他の実施形態において、テンプレートを再スケールするために、計測されたス
ペクトルのSNRと同様にテンプレートのSNRが使用される。テンプレートT
(f,m)のSNRは、rN(f,m)=T(f,m)−BN(f)として定義さ
れる。ここで、BN(f)はトレイニング時の周波数帯域fの暗雑音である。r
とrNの両方を用いた重み付けスキームの一実施形態において、重みwNは、テン
プレートおよびスペクトログラムに対する重みの積の平方根として定義される。
【数3】
【0035】 rとrNの他の組合せが考えられる。好ましい実施形態において、重みは、そ
れぞれの時間フレームの重みの和により正規化される。すなわち、 w’2(f,i)=w2(f,i)/sumf(w2(f,i)) w’min=wmin/sumf(w2(f,i)) w’max=wmax/sumf(w2(f,i))
【0036】 スペクトル再スケールの後、好ましい実施形態は、信号モデルの中に、現在ス
ペクトログラムP(f,i)に最もよく整合するテンプレートT*を見出すため
に、パターン整合を行う(ステップ216)。「最も良い整合」という用語の定
義には、最も良い整合を見出すのに使用される方法におけるのと同様に、ある許
容範囲が存在している。一実施形態において、P+kとT*の間の最も小さなR
MS(平方自乗平均)差d*を有するテンプレートが見つかる。好ましい実施形
態において、重み付けされたRMS距離が使用される。ここで、
【数4】 である。
【0037】 この実施形態において、最少のSNRを有する周波数帯域は、より大きなSN
Rを有する帯域に比べて距離計算にあまり寄与しない。時間iでの最良整合テン
プレートT*(i)は、d*(i)=minm(d(i,m))となるようなmを
見つけることにより選択される。
【0038】 最後の要素はクラス分け器である。それぞれのクラスに対するスコアは蓄積さ
れ、十分なデータが収集された時に、判定が行われる。たとえば、スコアは、時
間iにわたる距離d(i,m)の平均であり得る。通常の実施形態において、8
〜20のスコアが蓄積され、それぞれのスコアは有声音の語音のバッファ(有声
語音のないバッファは、話者の同一性についてそれほど多くの情報を含んでいな
いため、無声語音、すなわち、子音ではない)に対応している。クラス分け決定
は、単に、スコアを閾値と比較するステップと、2値決定を生ずるステップとを
含んでもよいし、または、ニューラル・ネットワークのような「柔軟な」クラス
分け器を使用することができる。別法として、決定は、任意の所望の時または事
象で強制されることができ、最良整合クラスがその時点のスコアとともに返され
る。スコアは、全体のスコアに対する基本周波数の寄与に関連する要素を含んで
いる。その要素の好ましい実施形態は、K(f0−fsource2の形をとり、f0
は計測された基本周波数、fsourceは音源モデルの基本周波数、Kは比例定数で
ある。
【0039】 より具体的には、好ましい実施形態において、スコアは、基本周波数項を加え
た、時間にわたる距離の平均である。すなわち、
【数5】 である。ここで、平均は、時間i=Iで始まるN点にわたってとられる。この場
合、スコアが最少化される必要がある。sが、全てのモデルについて、選択され
た閾値Tunknownを満たさない時、音源は、「未知」タイプであると宣言される
。その他の場合、音源は、最も低いスコアを有するクラスに属していると宣言さ
れる。
【0040】 それぞれが1つまたは複数のテンプレートを備えている、単一のまたは多数の
モデルが、入力音響信号をクラス分けするために、種々の適用例において適用さ
れてもよい。単一信号モデルの場合、クラス分けは2値である。
【0041】 暗雑音推定および信号検出 図3は、図2においてステップ208と210でそれぞれ簡潔に説明された、
暗雑音推定と信号検出の処理をより具体的に説明するフロー図である。暗雑音推
定は、信号が存在していない時、暗雑音パラメータの推定値を更新する。信号検
出器は、連続暗雑音を区別するのに有益である。クラス分けが信号のみに基づき
、暗雑音により影響を受けないことを保証することが重要である。
【0042】 処理は、スタート処理状態で始まる(ステップ302)。処理は、信号を検出
するために、雑音の平均および標準偏差を使用できる前に暗雑音の十分な数(た
とえば、1秒)のサンプルを必要とする。したがって、ルーチンは、暗雑音の十
分な数のサンプルが得られたかを判定する(ステップ304)。得られていない
時、現在のサンプルが雑音推定値を更新する(ステップ306)のに使用され、
処理は終了する(ステップ310)。暗雑音更新手順の一実施形態において、ス
ペクトログラム要素P(f,i)はリング・バッファに保持され、それぞれの周
波数帯域fにおける雑音の平均B(f)と標準偏差δ(f)を更新するのに使用
される。暗雑音推定は、指標iがプリセットされた閾値より大きい時、準備でき
たと考えられる。
【0043】 背景サンプルが準備できた時(ステップ304)、現在の入力信号サンプルの
信号レベルP(f,i)が、周波数帯域のある部分で背景をかなり超えているか
否かについての判定が行われる(ステップ308)。好ましい実施形態において
、所定の数の周波数帯域内のパワーが、暗雑音平均レベルを超えるある数の標準
偏差として決定されている閾値を超えている時、すなわち、 P(f,i)>B(f)+cδ(f) の時、判定ステップはパワー閾値が超えられたことを示す(ステップ312)。
ここで、cは経験的に決定された定数である。そして、処理は終了する(ステッ
プ310)。十分に強力な信号がステップ308にて検出されない時、暗雑音統
計値がステップ306にて更新され、処理は終了する(ステップ310)。
【0044】 高調波検出器 図4は、図2のステップ212で簡潔に説明された高調波検出処理をより詳細
に説明するフロー図である。高調波検出器は、高調波関係を有している入力信号
サンプルのスペクトルにおけるピークの存在を検出する。関心のある音源の大部
分が、周波数成分の間に高調波関係を有しているという特徴を有するスペクトル
を有しているために、このステップが、しばしば役に立つ。
【0045】 処理は、スタート処理状態で始まる(ステップ402)。入力信号サンプルの
変換されたスペクトルは、ピークを「拾う」ために、fmaxの最大周波数までの
周波数にわたって、局所ピークに対して走査される(ステップ404)。局所ピ
ークは、P(f−1)<P(f)<P(f+1)の時、P(f)で宣言される。
周辺スペクトル値を閾値εを超える値だけ超えているピーク、すなわち、P(f
−1)+e<P(f)<P(f+1)+eであるfが抽出される(ステップ40
6)。これらのピークのそれぞれは、基本周波数f0のそれぞれに対して1つの
「得票」を表している(ステップ408)。好ましい実施形態の推定値V0(f0 )はフロア(floor)(fmax/f0)である。f0のより低い値は、所定の
maxに対して、より高いf0よりも少ない高調波を有しているため、得票は、考
えている周波数範囲において期待される高調波の数で正規化されるV0(f0)(
ステップ410)。比V(f0)/V0(f0)が閾値より大きい時(ステップ4
12)、高調波関係が存在していると宣言される。
【0046】 パターン整合 図5は、図2のステップ216で簡潔に説明されたパターン整合の処理をより
詳細に説明するフロー図である。処理は、スタート処理状態で始まる(ステップ
502)。パターン整合処理は、現在のスペクトログラムP(f,i)に最も良
く整合する信号モデルのテンプレートT*を見つける(ステップ504)。パタ
ーン整合処理は、また、信号モデルの学習手順に責任を有する。「最も良い整合
」という用語の定義には、最良の整合を見出すのに使用される方法におけるのと
同様に、ある許容範囲が存在している。一実施形態において、P+kとT*の間
の最も小さなRMS差d*を有するテンプレートが見つかる。好ましい実施形態
において、重み付けされたRMS距離は整合の程度を計測するために使用される
。一実施形態において、RMS距離は、
【数6】 により計算される。
【0047】 この実施形態において、最少のSNRを有する周波数帯域は、より大きなSN
Rを有する周波数帯域に比べて距離計算に寄与することが少ない。時間iでステ
ップ504の出力である最良整合テンプレートT*(f,i)は、d*(i)=m
inm[d(i,m)]であるようなmを見つけることにより選択される。シス
テムが学習モードにない時(ステップ506)、T*(f,i)は、また、最も
近いテンプレートである処理の出力である(ステップ508)。その後、処理は
終了する(ステップ510)。
【0048】 システムが学習モードの時(ステップ506)、P(f,i)に最も近いテン
プレートT*(f,i)が、信号モデルを調整するために使用される。T*(f,
i)がモデルに組み込まれる方法は、d*(i)の値に依存している(ステップ
512)。dmaxを所定の閾値として、d*(i)<dmaxの時、T*(f,i)が
調整され(ステップ516)、処理が終了する(ステップ510)。ステップ5
16の好ましい実施形態は、T*(f,i)が、T*(f,i)を構成するのに使
用されている全てのスペクトルP(f,i)の平均になるように実行される。好
ましい実施形態において、T(f,m)に関連するスペクトルの数nmは、メモ
リに保持され、T(f,m)を調整するために、新たなスペクトルP(f,i)
が使用されると、調整されたテンプレートは、 T(f,m)=[nmT(f,m)+P(f,i)]/(nm+1) で、テンプレートmに対応するパターンの数は同様に調整される。 nm=nm+1
【0049】 ステップ512を再び参照すると、d*(i)>dmaxの時、重みnm=1で、
新たなテンプレートT*(f,i)=P(f,i)が生成され(ステップ514
)、処理が終了する(ステップ510)。
【0050】 コンピュータ実施 本発明は、ハードウェアまたはソフトウェアまたはその両方(たとえば、プロ
グラマブル・ロジック・アレイ)で実施されてもよい。特に指定がない限り、本
発明の一部として含まれるアルゴリズムは、本質的には任意の特定のコンピュー
タまたは他の装置と関連していない。特に、種々の汎用機が本明細書における教
示に従って書かれたプログラムを用いて使用されてもよいし、または、要求され
た方法のステップを実行するために、より特殊な装置を構成するのが都合がよい
かもしれない。しかし、本発明は、それぞれが、少なくとも1つのプロセッサ、
少なくとも1つのデータ記憶システム(揮発性と不揮発性メモリおよび/または
記憶素子を含む)、少なくとも1つの入力デバイスおよび少なくとも1つの出力
デバイスを有しているプログラマブル・システムで実行する1つまたは複数のコ
ンピュータ・プログラムで実施されるのが好ましい。それぞれのこうしたプログ
ラマブル・システム要素は、ある機能を実行する手段を構成している。プログラ
ム・コードは、本明細書において説明された機能を実行するために、プロセッサ
で実行される。
【0051】 それぞれのこうしたプログラムは、コンピュータ・システムと通信するために
、任意の所望のコンピュータ言語(機械語、アセンブリ、上位手続き型、または
、オブジェクト指向プログラミング言語を含む)で実現されてもよい。いかなる
場合でも、言語はコンパイラ型言語とすることもインタープリタ型言語とするこ
ともできる。
【0052】 本明細書において説明されている機能を実行するために、記憶媒体またはデバ
イスがコンピュータにより読まれる時に、コンピュータを機器構成し、動作させ
るための、それぞれのこうしたコンピュータ・プログラムは、汎用または特定用
途向けプログラマブル・コンピュータにより読み取り可能な記憶媒体またはデバ
イス(たとえば、ROM、CD−ROMまたは磁気または光媒体)に記憶される
のが好ましい。本発明のシステムは、また、コンピュータ・プログラムで構成さ
れた、コンピュータ読み取り可能記憶媒体として実施されていると考えられても
よく、ここで、このように機器構成された記憶媒体は、コンピュータが本明細書
において述べられている機能を実行するために、特殊で、あらかじめ決められた
方法で動作することを可能にする。
【0053】 本発明の多くの実施形態が述べられてきた。しかし、本発明の精神および範囲
を逸脱することなく、種々の修正が行われてもよいことが理解されるであろう。
たとえば、種々のアルゴリズムのステップのいくつかは、順序に関係がなく、し
たがって、上述した以外の順序で実行されてもよい。したがって、別の実施形態
は、以下の特許請求の範囲内にある。
【図面の簡単な説明】
【図1】 本発明の信号増強技術を実行するのに適している従来技術のプログラマブル・
コンピュータ・システムのブロック図である。
【図2】 本発明の好ましい実施形態の基本的な方法を示すフロー図である。
【図3】 暗雑音パラメータを推定し、信号の存在を検出する好ましい方法を示すフロー
図である。
【図4】 信号スペクトルにおける高調波的に関連するピークの存在を検出する好ましい
方法を示すフロー図である。
【図5】 信号モデル・テンプレートを生成し、使用する好ましい方法を示すフロー図で
ある。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,MZ,SD,SL,SZ,TZ,UG ,ZW),EA(AM,AZ,BY,KG,KZ,MD, RU,TJ,TM),AE,AG,AL,AM,AT, AU,AZ,BA,BB,BG,BR,BY,BZ,C A,CH,CN,CR,CU,CZ,DE,DK,DM ,DZ,EE,ES,FI,GB,GD,GE,GH, GM,HR,HU,ID,IL,IN,IS,JP,K E,KG,KP,KR,KZ,LC,LK,LR,LS ,LT,LU,LV,MA,MD,MG,MK,MN, MW,MX,MZ,NO,NZ,PL,PT,RO,R U,SD,SE,SG,SI,SK,SL,TJ,TM ,TR,TT,TZ,UA,UG,US,UZ,VN, YU,ZA,ZW 【要約の続き】 られる。入力パターンに似ている現存しているテンプレ ートが見つかると、テンプレートは、得られるテンプレ ートが過去にそのテンプレートに整合した全てのスペク トルの平均になるように、パターンで平均化される。

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 (a)デジタル化された音響入力信号を時間−周波数表現に
    変換すること、 (b)時間−周波数表現において暗雑音レベルを推定すること、 (c)意味のある信号レベルを含む時間−周波数表現の各間隔について、その
    間隔の時間−周波数表現を少なくとも1つの信号モデルと比較し、部分的に信号
    対雑音比に基づいて、前記間隔の時間−周波数表現と最適に整合する1つの前記
    信号モデル内の少なくとも1つのテンプレートを決定し、それぞれの比較に対し
    てスコアを決定すること、および (d)デジタル化された音響入力信号を最高スコアを有する信号モデルに割り
    当てること を含む、デジタル化された音響入力信号内の音響信号をクラス分けする方法。
  2. 【請求項2】 割り当てることが、さらに、選択された閾値を満足しないス
    コアを有している任意の信号モデルを拒絶することを含んでいる請求項1に記載
    の方法。
  3. 【請求項3】 (a)デジタル化された音響入力信号を時間−周波数表現に
    変換すること、 (b)時間−周波数表現内の過渡的な音を分離すること、 (c)暗雑音を推定し、信号内容のない長い過渡音および過渡音の間の暗雑音
    をそのような推定の中に含めること、 (d)時間−周波数表現において高調波の存在を検出すること、 (e)推定された暗雑音の時間−周波数表現を再スケールすること、 (f)任意の重要な信号を含む各過渡音の再スケール済み時間−周波数表現を
    少なくとも1つの信号モデルと比較し、この表現に最適に整合する1つの前記信
    号モデルの少なくとも1つのテンプレートを決定すること、および (g)デジタル化された音響入力信号を最高スコアを有する信号モデルに割り
    当てるステップと を含む、デジタル化された音響入力信号内の音響信号をクラス分けする方法。
  4. 【請求項4】 割り当てるステップが、さらに、選択された閾値を満足しな
    いスコアを有している任意の信号モデルを拒絶するステップを含んでいる請求項
    3に記載の方法。
  5. 【請求項5】 a.デジタル化された音響入力信号を時間−周波数表現に変
    換するコンピュータによる手段と、 b.時間−周波数表現において暗雑音レベルを推定するコンピュータによる手
    段と、 c.意味のある信号レベルを含む時間−周波数表現の各間隔について、その間
    隔の時間−周波数表現を少なくとも1つの信号モデルと比較し、部分的に信号対
    雑音比に基づいて、前記間隔の時間−周波数表現と最適に整合する1つの前記信
    号モデル内の少なくとも1つのテンプレートを決定し、それぞれの比較に対して
    スコアを決定するコンピュータによる手段と、 d.デジタル化された音響入力信号を最高スコアを有する信号モデルに割り当
    てるコンピュータによる手段と を含む、デジタル化された音響入力信号内の音響信号をクラス分けするシステム
  6. 【請求項6】 選択された閾値を満足しないスコアを有している任意の信号
    モデルを拒絶するコンピュータによる手段をさらに含む請求項5に記載のシステ
    ム。
  7. 【請求項7】 a.デジタル化された音響入力信号を時間−周波数表現に変
    換するコンピュータによる手段と、 b.時間−周波数表現内の過渡的な音を分離するコンピュータによる手段と、 c.暗雑音を推定し、信号内容のない長い過渡音および過渡音の間の暗雑音を
    そのような推定の中に含めるコンピュータによる手段と、 d.時間−周波数表現において高調波の存在を検出するコンピュータによる手
    段と、 e.推定された暗雑音の時間−周波数表現を再スケールするコンピュータによ
    る手段と、 f.任意の重要な信号を含む各過渡音の再スケール済み時間−周波数表現を少
    なくとも1つの信号モデルと比較し、この表現に最適に整合する1つの前記信号
    モデルの少なくとも1つのテンプレートを決定するコンピュータによる手段と、 g.デジタル化された音響入力信号を最高スコアを有する信号モデルに割り当
    てるコンピュータによる手段と を含む、デジタル化された音響入力信号内の音響信号をクラス分けするシステム
  8. 【請求項8】 選択された閾値を満足しないスコアを有している任意の信号
    モデルを拒絶するコンピュータによる手段をさらに含む請求項7に記載のシステ
    ム。
  9. 【請求項9】 コンピュータに、 (a)デジタル化された音響入力信号を時間−周波数表現に変換させ、 (b)時間−周波数表現において暗雑音レベルを推定させ、 (c)意味のある信号レベルを含む時間−周波数表現の各間隔について、その
    間隔の時間−周波数表現を少なくとも1つの信号モデルと比較し、部分的に信号
    対雑音比に基づいて、前記間隔の時間−周波数表現と最適に整合する1つの前記
    信号モデル内の少なくとも1つのテンプレートを決定し、それぞれの比較に対す
    るスコアを決定させ、 (d)デジタル化された音響入力信号を最高スコアを有する信号モデルに割り
    当てさせる 命令を含む、デジタル化された音響入力信号内の音響信号をクラス分けする、コ
    ンピュータ読み取り可能媒体に記録されたコンピュータ・プログラム。
  10. 【請求項10】 選択された閾値を満足しないスコアを有している任意の信
    号モデルを拒絶することをコンピュータに行わせる命令をさらに含む請求項9に
    記載のコンピュータ・プログラム方法。
  11. 【請求項11】 コンピュータに、 (a)デジタル化された音響入力信号を時間−周波数表現に変換させ、 (b)時間−周波数表現内の過渡的な音を分離させ、 (c)暗雑音を推定し、信号内容のない長い過渡音および過渡音の間の暗雑音
    をそのような推定の中に含めさせ、 (d)時間−周波数表現において高調波の存在を検出させ、 (e)推定された暗雑音の時間−周波数表現を再スケールさせ、 (f)任意の重要な信号を含む各過渡音の再スケール済み時間−周波数表現を
    少なくとも1つの信号モデルと比較し、この表現に最適に整合する1つの前記信
    号モデルの少なくとも1つのテンプレートを決定させ、 (g)デジタル化された音響入力信号を最高スコアを有する信号モデルに割り
    当てさせる 命令を含む、デジタル化された音響入力信号内の音響信号をクラス分けする、コ
    ンピュータ読み取り可能媒体に記録されたコンピュータ・プログラム。
  12. 【請求項12】 選択された閾値を満足しないスコアを有している任意の信
    号モデルを拒絶することをコンピュータに行わせる命令をさらに含む請求項11
    に記載のコンピュータ・プログラム方法。
JP2001520402A 1999-08-30 2000-08-29 音源をクラス分けするためのシステムおよび方法 Pending JP2003508804A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/385,975 US7117149B1 (en) 1999-08-30 1999-08-30 Sound source classification
US09/385,975 1999-08-30
PCT/US2000/023754 WO2001016937A1 (en) 1999-08-30 2000-08-29 System and method for classification of sound sources

Publications (2)

Publication Number Publication Date
JP2003508804A true JP2003508804A (ja) 2003-03-04
JP2003508804A5 JP2003508804A5 (ja) 2007-10-04

Family

ID=23523654

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001520402A Pending JP2003508804A (ja) 1999-08-30 2000-08-29 音源をクラス分けするためのシステムおよび方法

Country Status (8)

Country Link
US (3) US7117149B1 (ja)
EP (2) EP1210711B1 (ja)
JP (1) JP2003508804A (ja)
AT (1) ATE308098T1 (ja)
AU (1) AU7471600A (ja)
CA (1) CA2382122A1 (ja)
DE (1) DE60023517T2 (ja)
WO (1) WO2001016937A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006251712A (ja) * 2005-03-14 2006-09-21 Univ Of Tokyo 観測データ、特に、複数の音源からの音が混在している音響信号の解析方法

Families Citing this family (99)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7117149B1 (en) 1999-08-30 2006-10-03 Harman Becker Automotive Systems-Wavemakers, Inc. Sound source classification
JP2002306492A (ja) * 2001-04-16 2002-10-22 Electronic Navigation Research Institute カオス論的ヒューマンファクタ評価装置
US7725315B2 (en) * 2003-02-21 2010-05-25 Qnx Software Systems (Wavemakers), Inc. Minimization of transient noises in a voice signal
US8326621B2 (en) 2003-02-21 2012-12-04 Qnx Software Systems Limited Repetitive transient noise removal
US7949522B2 (en) 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
US8271279B2 (en) 2003-02-21 2012-09-18 Qnx Software Systems Limited Signature noise removal
US7885420B2 (en) 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US7895036B2 (en) 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
US8073689B2 (en) 2003-02-21 2011-12-06 Qnx Software Systems Co. Repetitive transient noise removal
FR2854483B1 (fr) * 2003-05-02 2005-12-09 Miriad Technologies Procede d'identification de sons specifiques
EP1671257A1 (en) * 2003-09-30 2006-06-21 Koninklijke Philips Electronics N.V. System and method for adaptively setting biometric measurement thresholds
EP1542206A1 (en) * 2003-12-11 2005-06-15 Sony International (Europe) GmbH Apparatus and method for automatic classification of audio signals
US7565213B2 (en) 2004-05-07 2009-07-21 Gracenote, Inc. Device and method for analyzing an information signal
DE102004022660B4 (de) * 2004-05-07 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Analysieren eines Informationssignals
US7505902B2 (en) * 2004-07-28 2009-03-17 University Of Maryland Discrimination of components of audio signals based on multiscale spectro-temporal modulations
US8306821B2 (en) * 2004-10-26 2012-11-06 Qnx Software Systems Limited Sub-band periodic signal enhancement system
US7610196B2 (en) * 2004-10-26 2009-10-27 Qnx Software Systems (Wavemakers), Inc. Periodic signal enhancement system
US7680652B2 (en) 2004-10-26 2010-03-16 Qnx Software Systems (Wavemakers), Inc. Periodic signal enhancement system
US7949520B2 (en) 2004-10-26 2011-05-24 QNX Software Sytems Co. Adaptive filter pitch extraction
US8543390B2 (en) 2004-10-26 2013-09-24 Qnx Software Systems Limited Multi-channel periodic signal enhancement system
US7716046B2 (en) * 2004-10-26 2010-05-11 Qnx Software Systems (Wavemakers), Inc. Advanced periodic signal enhancement
US8170879B2 (en) 2004-10-26 2012-05-01 Qnx Software Systems Limited Periodic signal enhancement system
US8284947B2 (en) * 2004-12-01 2012-10-09 Qnx Software Systems Limited Reverberation estimation and suppression system
US8027833B2 (en) 2005-05-09 2011-09-27 Qnx Software Systems Co. System for suppressing passing tire hiss
US8170875B2 (en) 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US8311819B2 (en) * 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
CN1889172A (zh) 2005-06-28 2007-01-03 松下电器产业株式会社 可增加和修正声音类别的声音分类系统及方法
US7844453B2 (en) 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
ES2286943B1 (es) * 2006-05-19 2008-10-16 Agnitio, S.L. Procedimiento de identificacion de voz.
JP5151102B2 (ja) * 2006-09-14 2013-02-27 ヤマハ株式会社 音声認証装置、音声認証方法およびプログラム
TWI297486B (en) * 2006-09-29 2008-06-01 Univ Nat Chiao Tung Intelligent classification of sound signals with applicaation and method
US20100332222A1 (en) * 2006-09-29 2010-12-30 National Chiao Tung University Intelligent classification method of vocal signal
US8326620B2 (en) 2008-04-30 2012-12-04 Qnx Software Systems Limited Robust downlink speech and noise detector
US8335685B2 (en) 2006-12-22 2012-12-18 Qnx Software Systems Limited Ambient noise compensation system robust to high excitation noise
US20080231557A1 (en) * 2007-03-20 2008-09-25 Leadis Technology, Inc. Emission control in aged active matrix oled display using voltage ratio or current ratio
FR2914090A1 (fr) * 2007-03-21 2008-09-26 Wally Tzara Dispositif de traitement pour la normalisation de barres representatives de grandeurs variables ponderees
US8111583B2 (en) * 2007-08-21 2012-02-07 Schwartz Adam L Method and apparatus for determining and indicating direction and type of sound
US8904400B2 (en) 2007-09-11 2014-12-02 2236008 Ontario Inc. Processing system having a partitioning component for resource partitioning
US8850154B2 (en) 2007-09-11 2014-09-30 2236008 Ontario Inc. Processing system having memory partitioning
US8694310B2 (en) 2007-09-17 2014-04-08 Qnx Software Systems Limited Remote control server protocol system
KR100919223B1 (ko) * 2007-09-19 2009-09-28 한국전자통신연구원 부대역의 불확실성 정보를 이용한 잡음환경에서의 음성인식 방법 및 장치
FR2923043A1 (fr) * 2007-10-29 2009-05-01 Orelia Sas Procede et systeme de creation automatisee de modeles de reconnaissance de contenu sonore
US8461986B2 (en) * 2007-12-14 2013-06-11 Wayne Harvey Snyder Audible event detector and analyzer for annunciating to the hearing impaired
US8468019B2 (en) * 2008-01-31 2013-06-18 Qnx Software Systems Limited Adaptive noise modeling speech recognition system
US8209514B2 (en) 2008-02-04 2012-06-26 Qnx Software Systems Limited Media processing system having resource partitioning
US8380497B2 (en) * 2008-10-15 2013-02-19 Qualcomm Incorporated Methods and apparatus for noise estimation
KR101547344B1 (ko) * 2008-10-31 2015-08-27 삼성전자 주식회사 음성복원장치 및 그 방법
NO330636B1 (no) * 2009-02-23 2011-05-30 Roxar Flow Measurement As Anordning og fremgangsmate for akustikkbasert sandovervaking ved et rorsystem
US8713007B1 (en) * 2009-03-13 2014-04-29 Google Inc. Classifying documents using multiple classifiers
US9196254B1 (en) * 2009-07-02 2015-11-24 Alon Konchitsky Method for implementing quality control for one or more components of an audio signal received from a communication device
US9026440B1 (en) * 2009-07-02 2015-05-05 Alon Konchitsky Method for identifying speech and music components of a sound signal
US9196249B1 (en) * 2009-07-02 2015-11-24 Alon Konchitsky Method for identifying speech and music components of an analyzed audio signal
FR2948484B1 (fr) * 2009-07-23 2011-07-29 Parrot Procede de filtrage des bruits lateraux non-stationnaires pour un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile
KR101327112B1 (ko) * 2010-08-23 2013-11-07 주식회사 팬택 주변 소리 정보를 이용하여 다양한 사용자 인터페이스를 제공하는 단말기 및 그 제어방법
KR101826331B1 (ko) 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
WO2012042768A1 (ja) * 2010-09-28 2012-04-05 パナソニック株式会社 音声処理装置および音声処理方法
EP2657933B1 (en) 2010-12-29 2016-03-02 Samsung Electronics Co., Ltd Coding apparatus and decoding apparatus with bandwidth extension
US8849663B2 (en) 2011-03-21 2014-09-30 The Intellisis Corporation Systems and methods for segmenting and/or classifying an audio signal from transformed audio information
US8767978B2 (en) 2011-03-25 2014-07-01 The Intellisis Corporation System and method for processing sound signals implementing a spectral motion transform
JP5917270B2 (ja) * 2011-05-27 2016-05-11 キヤノン株式会社 音検出装置及びその制御方法、プログラム
US8548803B2 (en) 2011-08-08 2013-10-01 The Intellisis Corporation System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain
US8620646B2 (en) 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
US9183850B2 (en) 2011-08-08 2015-11-10 The Intellisis Corporation System and method for tracking sound pitch across an audio signal
US20130090926A1 (en) * 2011-09-16 2013-04-11 Qualcomm Incorporated Mobile device context information using speech detection
US8438023B1 (en) * 2011-09-30 2013-05-07 Google Inc. Warning a user when voice input to a device is likely to fail because of background or other noise
US9089123B1 (en) * 2011-10-19 2015-07-28 Mark Holton Thomas Wild game information system
US10276156B2 (en) * 2012-02-29 2019-04-30 Nvidia Corporation Control using temporally and/or spectrally compact audio commands
US8949118B2 (en) * 2012-03-19 2015-02-03 Vocalzoom Systems Ltd. System and method for robust estimation and tracking the fundamental frequency of pseudo periodic signals in the presence of noise
US9177559B2 (en) * 2012-04-24 2015-11-03 Tom Stephenson Method and apparatus for analyzing animal vocalizations, extracting identification characteristics, and using databases of these characteristics for identifying the species of vocalizing animals
US9646427B2 (en) * 2014-10-08 2017-05-09 Innova Electronics Corporation System for detecting the operational status of a vehicle using a handheld communication device
JP6048025B2 (ja) * 2012-09-18 2016-12-21 富士ゼロックス株式会社 分類装置及びプログラム
US20140095161A1 (en) * 2012-09-28 2014-04-03 At&T Intellectual Property I, L.P. System and method for channel equalization using characteristics of an unknown signal
US9263059B2 (en) 2012-09-28 2016-02-16 International Business Machines Corporation Deep tagging background noises
US9058820B1 (en) 2013-05-21 2015-06-16 The Intellisis Corporation Identifying speech portions of a sound model using various statistics thereof
US9185083B1 (en) * 2013-05-23 2015-11-10 The Boeing Company Concealing data within encoded audio signals
US9484044B1 (en) 2013-07-17 2016-11-01 Knuedge Incorporated Voice enhancement and/or speech features extraction on noisy audio signals using successively refined transforms
US9530434B1 (en) 2013-07-18 2016-12-27 Knuedge Incorporated Reducing octave errors during pitch determination for noisy audio signals
US9208794B1 (en) 2013-08-07 2015-12-08 The Intellisis Corporation Providing sound models of an input signal using continuous and/or linear fitting
NL2011893C2 (en) * 2013-12-04 2015-06-08 Stichting Incas3 Method and system for predicting human activity.
US10373611B2 (en) 2014-01-03 2019-08-06 Gracenote, Inc. Modification of electronic system operation based on acoustic ambience classification
US9842611B2 (en) 2015-02-06 2017-12-12 Knuedge Incorporated Estimating pitch using peak-to-peak distances
US9870785B2 (en) 2015-02-06 2018-01-16 Knuedge Incorporated Determining features of harmonic signals
US9922668B2 (en) 2015-02-06 2018-03-20 Knuedge Incorporated Estimating fractional chirp rate with multiple frequency representations
EP3171362B1 (en) * 2015-11-19 2019-08-28 Harman Becker Automotive Systems GmbH Bass enhancement and separation of an audio signal into a harmonic and transient signal component
WO2017168412A1 (en) * 2016-03-28 2017-10-05 Agrint Sensing Solutions Ltd Improved system and method for detecting agricultural pests
US10283143B2 (en) 2016-04-08 2019-05-07 Friday Harbor Llc Estimating pitch of harmonic signals
US10283138B2 (en) 2016-10-03 2019-05-07 Google Llc Noise mitigation for a voice interface device
US10724996B2 (en) * 2017-03-17 2020-07-28 Kabushiki Kaisha Toshiba Position location system, position location method, and non-transitory computer readable storage medium
US10121109B2 (en) 2017-04-07 2018-11-06 International Business Machines Corporation Flexible and self-adaptive classification of received audio measurements in a network environment
US20180307753A1 (en) * 2017-04-21 2018-10-25 Qualcomm Incorporated Acoustic event enabled geographic mapping
CN107274913B (zh) * 2017-05-26 2020-09-11 广东美的厨房电器制造有限公司 一种声音识别方法及装置
WO2019089432A1 (en) 2017-10-30 2019-05-09 The Research Foundation For The State University Of New York System and method associated with user authentication based on an acoustic-based echo-signature
US11327050B2 (en) * 2018-02-20 2022-05-10 Intel Corporation Mechanical failure monitoring, detection, and classification in electronic assemblies
JP7073891B2 (ja) * 2018-05-02 2022-05-24 コニカミノルタ株式会社 過積載検出処理装置、過積載検出システム及びプログラム
US10929097B2 (en) * 2018-06-26 2021-02-23 ROVl GUIDES, INC. Systems and methods for switching operational modes based on audio triggers
EP3887648B1 (en) * 2018-11-29 2024-01-03 BP Exploration Operating Company Limited Das data processing to identify fluid inflow locations and fluid type
US11763827B2 (en) 2019-10-30 2023-09-19 The Board Of Trustees Of The Leland Stanford Junior University N-path spectral decomposition in acoustic signals
CA3115423A1 (en) * 2020-05-01 2021-11-01 Systemes De Controle Actif Soft Db Inc. A system and a method for sound recognition
CN112735444B (zh) * 2020-12-25 2024-01-09 浙江弄潮儿智慧科技有限公司 一种具有模型匹配的中华凤头燕鸥识别系统及其模型匹配方法

Family Cites Families (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4454609A (en) 1981-10-05 1984-06-12 Signatron, Inc. Speech intelligibility enhancement
US4531228A (en) * 1981-10-20 1985-07-23 Nissan Motor Company, Limited Speech recognition system for an automotive vehicle
US4486900A (en) * 1982-03-30 1984-12-04 At&T Bell Laboratories Real time pitch detection by stream processing
US4821325A (en) * 1984-11-08 1989-04-11 American Telephone And Telegraph Company, At&T Bell Laboratories Endpoint detector
US5146539A (en) * 1984-11-30 1992-09-08 Texas Instruments Incorporated Method for utilizing formant frequencies in speech recognition
US4630305A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic gain selector for a noise suppression system
GB8613327D0 (en) 1986-06-02 1986-07-09 British Telecomm Speech processor
US4998280A (en) * 1986-12-12 1991-03-05 Hitachi, Ltd. Speech recognition apparatus capable of discriminating between similar acoustic features of speech
US4843562A (en) * 1987-06-24 1989-06-27 Broadcast Data Systems Limited Partnership Broadcast information classification system and method
US4811404A (en) * 1987-10-01 1989-03-07 Motorola, Inc. Noise suppression system
US5027410A (en) 1988-11-10 1991-06-25 Wisconsin Alumni Research Foundation Adaptive, programmable signal processing and filtering for hearing aids
CN1013525B (zh) * 1988-11-16 1991-08-14 中国科学院声学研究所 认人与不认人实时语音识别的方法和装置
JP2974423B2 (ja) * 1991-02-13 1999-11-10 シャープ株式会社 ロンバード音声認識方法
US5680508A (en) 1991-05-03 1997-10-21 Itt Corporation Enhancement of speech coding in background noise for low-rate speech coder
US5617508A (en) * 1992-10-05 1997-04-01 Panasonic Technologies Inc. Speech detection device for the detection of speech end points based on variance of frequency band limited energy
DE4243831A1 (de) * 1992-12-23 1994-06-30 Daimler Benz Ag Verfahren zur Laufzeitschätzung an gestörten Sprachkanälen
US5400409A (en) * 1992-12-23 1995-03-21 Daimler-Benz Ag Noise-reduction method for noise-affected voice channels
US5692104A (en) * 1992-12-31 1997-11-25 Apple Computer, Inc. Method and apparatus for detecting end points of speech activity
JP3186892B2 (ja) 1993-03-16 2001-07-11 ソニー株式会社 風雑音低減装置
US5583961A (en) 1993-03-25 1996-12-10 British Telecommunications Public Limited Company Speaker recognition using spectral coefficients normalized with respect to unequal frequency bands
NZ263223A (en) 1993-03-31 1997-11-24 British Telecomm Path link passing speech recognition
DE69421077T2 (de) 1993-03-31 2000-07-06 British Telecommunications P.L.C., London Wortkettenerkennung
US5526466A (en) * 1993-04-14 1996-06-11 Matsushita Electric Industrial Co., Ltd. Speech recognition apparatus
JP3071063B2 (ja) 1993-05-07 2000-07-31 三洋電機株式会社 収音装置を備えたビデオカメラ
JP2538176B2 (ja) * 1993-05-28 1996-09-25 松下電器産業株式会社 エコ―制御装置
NO941999L (no) 1993-06-15 1994-12-16 Ontario Hydro Automatisert intelligent overvåkingssystem
US5475791A (en) * 1993-08-13 1995-12-12 Voice Control Systems, Inc. Method for recognizing a spoken word in the presence of interfering speech
US5495415A (en) * 1993-11-18 1996-02-27 Regents Of The University Of Michigan Method and system for detecting a misfire of a reciprocating internal combustion engine
JP3235925B2 (ja) * 1993-11-19 2001-12-04 松下電器産業株式会社 ハウリング抑制装置
US5568559A (en) * 1993-12-17 1996-10-22 Canon Kabushiki Kaisha Sound processing apparatus
US5502688A (en) * 1994-11-23 1996-03-26 At&T Corp. Feedforward neural network system for the detection and characterization of sonar signals with characteristic spectrogram textures
ATE179827T1 (de) 1994-11-25 1999-05-15 Fleming K Fink Verfahren zur veränderung eines sprachsignales mittels grundfrequenzmanipulation
GB2297465B (en) * 1995-01-25 1999-04-28 Dragon Syst Uk Ltd Methods and apparatus for detecting harmonic structure in a waveform
US5708704A (en) * 1995-04-07 1998-01-13 Texas Instruments Incorporated Speech recognition method and system with improved voice-activated prompt interrupt capability
US5701344A (en) * 1995-08-23 1997-12-23 Canon Kabushiki Kaisha Audio processing apparatus
US5584295A (en) * 1995-09-01 1996-12-17 Analogic Corporation System for measuring the period of a quasi-periodic signal
US5949888A (en) 1995-09-15 1999-09-07 Hughes Electronics Corporaton Comfort noise generator for echo cancelers
FI99062C (fi) * 1995-10-05 1997-09-25 Nokia Mobile Phones Ltd Puhesignaalin taajuuskorjaus matkapuhelimessa
US6434246B1 (en) * 1995-10-10 2002-08-13 Gn Resound As Apparatus and methods for combining audio compression and feedback cancellation in a hearing aid
DE19629132A1 (de) * 1996-07-19 1998-01-22 Daimler Benz Ag Verfahren zur Verringerung von Störungen eines Sprachsignals
US6167375A (en) 1997-03-17 2000-12-26 Kabushiki Kaisha Toshiba Method for encoding and decoding a speech signal including background noise
FI113903B (fi) * 1997-05-07 2004-06-30 Nokia Corp Puheen koodaus
US20020071573A1 (en) * 1997-09-11 2002-06-13 Finn Brian M. DVE system with customized equalization
US6173074B1 (en) * 1997-09-30 2001-01-09 Lucent Technologies, Inc. Acoustic signature recognition and identification
DE19747885B4 (de) * 1997-10-30 2009-04-23 Harman Becker Automotive Systems Gmbh Verfahren zur Reduktion von Störungen akustischer Signale mittels der adaptiven Filter-Methode der spektralen Subtraktion
US6192134B1 (en) * 1997-11-20 2001-02-20 Conexant Systems, Inc. System and method for a monolithic directional microphone array
US6163608A (en) * 1998-01-09 2000-12-19 Ericsson Inc. Methods and apparatus for providing comfort noise in communications systems
US6175602B1 (en) * 1998-05-27 2001-01-16 Telefonaktiebolaget Lm Ericsson (Publ) Signal noise reduction by spectral subtraction using linear convolution and casual filtering
US6507814B1 (en) * 1998-08-24 2003-01-14 Conexant Systems, Inc. Pitch determination using speech classification and prior pitch estimation
DE60034212T2 (de) 1999-01-07 2008-01-17 Tellabs Operations, Inc., Naperville Verfahren und vorrichtung zur adaptiven rauschunterdrückung
US6507816B2 (en) * 1999-05-04 2003-01-14 International Business Machines Corporation Method and apparatus for evaluating the accuracy of a speech recognition system
US6910011B1 (en) 1999-08-16 2005-06-21 Haman Becker Automotive Systems - Wavemakers, Inc. Noisy acoustic signal enhancement
US7117149B1 (en) 1999-08-30 2006-10-03 Harman Becker Automotive Systems-Wavemakers, Inc. Sound source classification
US6405168B1 (en) * 1999-09-30 2002-06-11 Conexant Systems, Inc. Speaker dependent speech recognition training using simplified hidden markov modeling and robust end-point detection
US20030123644A1 (en) 2000-01-26 2003-07-03 Harrow Scott E. Method and apparatus for removing audio artifacts
US6766292B1 (en) 2000-03-28 2004-07-20 Tellabs Operations, Inc. Relative noise ratio weighting techniques for adaptive noise cancellation
DE10017646A1 (de) * 2000-04-08 2001-10-11 Alcatel Sa Geräuschunterdrückung im Zeitbereich
AU2001257333A1 (en) * 2000-04-26 2001-11-07 Sybersay Communications Corporation Adaptive speech filter
US6587816B1 (en) 2000-07-14 2003-07-01 International Business Machines Corporation Fast frequency-domain pitch estimation
US7617099B2 (en) * 2001-02-12 2009-11-10 FortMedia Inc. Noise suppression by two-channel tandem spectrum modification for speech signal in an automobile
DE10118653C2 (de) * 2001-04-14 2003-03-27 Daimler Chrysler Ag Verfahren zur Geräuschreduktion
US6782363B2 (en) * 2001-05-04 2004-08-24 Lucent Technologies Inc. Method and apparatus for performing real-time endpoint detection in automatic speech recognition
US6859420B1 (en) 2001-06-26 2005-02-22 Bbnt Solutions Llc Systems and methods for adaptive wind noise rejection
US6467376B1 (en) * 2001-07-09 2002-10-22 Li-Tu Lin Wu Hammer
US20030216907A1 (en) * 2002-05-14 2003-11-20 Acoustic Technologies, Inc. Enhancing the aural perception of speech
US7146316B2 (en) * 2002-10-17 2006-12-05 Clarity Technologies, Inc. Noise reduction in subbanded speech signals
JP4352790B2 (ja) * 2002-10-31 2009-10-28 セイコーエプソン株式会社 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物
US7949522B2 (en) 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
US7885420B2 (en) 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US7725315B2 (en) 2003-02-21 2010-05-25 Qnx Software Systems (Wavemakers), Inc. Minimization of transient noises in a voice signal
US7895036B2 (en) * 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
US8073689B2 (en) 2003-02-21 2011-12-06 Qnx Software Systems Co. Repetitive transient noise removal
US7492889B2 (en) 2004-04-23 2009-02-17 Acoustic Technologies, Inc. Noise suppression based on bark band wiener filtering and modified doblinger noise estimate
US7433463B2 (en) 2004-08-10 2008-10-07 Clarity Technologies, Inc. Echo cancellation and noise reduction method
US7383179B2 (en) 2004-09-28 2008-06-03 Clarity Technologies, Inc. Method of cascading noise reduction algorithms to avoid speech distortion
US7716046B2 (en) 2004-10-26 2010-05-11 Qnx Software Systems (Wavemakers), Inc. Advanced periodic signal enhancement
US8284947B2 (en) 2004-12-01 2012-10-09 Qnx Software Systems Limited Reverberation estimation and suppression system
US8027833B2 (en) 2005-05-09 2011-09-27 Qnx Software Systems Co. System for suppressing passing tire hiss
US8170875B2 (en) 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006251712A (ja) * 2005-03-14 2006-09-21 Univ Of Tokyo 観測データ、特に、複数の音源からの音が混在している音響信号の解析方法

Also Published As

Publication number Publication date
EP1210711B1 (en) 2005-10-26
WO2001016937A9 (en) 2002-09-06
CA2382122A1 (en) 2001-03-08
US8428945B2 (en) 2013-04-23
DE60023517D1 (de) 2005-12-01
US20110213612A1 (en) 2011-09-01
DE60023517T2 (de) 2006-06-01
US20070033031A1 (en) 2007-02-08
EP1210711A1 (en) 2002-06-05
US7117149B1 (en) 2006-10-03
AU7471600A (en) 2001-03-26
ATE308098T1 (de) 2005-11-15
EP1635329A3 (en) 2007-02-07
WO2001016937A1 (en) 2001-03-08
EP1635329A2 (en) 2006-03-15
US7957967B2 (en) 2011-06-07

Similar Documents

Publication Publication Date Title
JP2003508804A (ja) 音源をクラス分けするためのシステムおよび方法
US20190172480A1 (en) Voice activity detection systems and methods
US8036884B2 (en) Identification of the presence of speech in digital audio data
US20070129941A1 (en) Preprocessing system and method for reducing FRR in speaking recognition
US20100332222A1 (en) Intelligent classification method of vocal signal
US20050143997A1 (en) Method and apparatus using spectral addition for speaker recognition
US7359856B2 (en) Speech detection system in an audio signal in noisy surrounding
JP5050698B2 (ja) 音声処理装置およびプログラム
Dubuisson et al. On the use of the correlation between acoustic descriptors for the normal/pathological voices discrimination
Couvreur et al. Automatic noise recognition in urban environments based on artificial neural networks and hidden markov models
CN106356076A (zh) 基于人工智能的语音活动性检测方法和装置
US6470311B1 (en) Method and apparatus for determining pitch synchronous frames
CN110415707B (zh) 一种基于语音特征融合和gmm的说话人识别方法
Kaminski et al. Automatic speaker recognition using a unique personal feature vector and Gaussian Mixture Models
Bäckström et al. Voice activity detection
US20030046069A1 (en) Noise reduction system and method
KR19990001828A (ko) 스펙트럼의 동적영역 정규화에 의한 음성 특징 추출 장치 및 방법
JPS60114900A (ja) 有音・無音判定法
Tahliramani et al. Performance Analysis of Speaker Identification System With and Without Spoofing Attack of Voice Conversion
Zhen et al. On the use of bandpass liftering in speaker recognition.
JP2968976B2 (ja) 音声認識装置
CN113808595B (zh) 一种从源说话人到目标说话人的声音转换方法及装置
Benhafid et al. A Study of Acoustic Features in Arabic Speaker Identification under Noisy Environmental Conditions
Alimuradov et al. A Novel Approach to Speech Signal Segmentation Based on Time-Frequency Analysis
JPH05249987A (ja) 音声検出方法および音声検出装置

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20040722

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20040722

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070814

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070814

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100921

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110301