JP2003508804A - 音源をクラス分けするためのシステムおよび方法 - Google Patents
音源をクラス分けするためのシステムおよび方法Info
- Publication number
- JP2003508804A JP2003508804A JP2001520402A JP2001520402A JP2003508804A JP 2003508804 A JP2003508804 A JP 2003508804A JP 2001520402 A JP2001520402 A JP 2001520402A JP 2001520402 A JP2001520402 A JP 2001520402A JP 2003508804 A JP2003508804 A JP 2003508804A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- time
- frequency representation
- model
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000001052 transient effect Effects 0.000 claims abstract description 9
- 238000004590 computer program Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims 1
- 238000001228 spectrum Methods 0.000 abstract description 22
- 238000012549 training Methods 0.000 abstract description 9
- 238000001514 detection method Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 10
- 238000012360 testing method Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 5
- 239000000872 buffer Substances 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Seasonings (AREA)
- Saccharide Compounds (AREA)
- Magnetic Resonance Imaging Apparatus (AREA)
Abstract
Description
分け用システムおよび方法に関する。
分野は、音響信号クラス分けに対する独自の手法を採用しているが、それらの間
に何らかの重なりがある。現在、自動音源クラス分けの主な適用例は、話者照合
、話者識別、受動ソナー・クラス分けおよび機械雑音モニタリングまたは診断で
ある。
照合することを目指している。ほとんどの話者照合システムにおいて、話者は、
キーワードを話すことで協力し、システムは、推定されている話者によるキーワ
ードの話され方を、同じキーワードのトレイニング・サンプルと整合させる。整
合が不十分であると、話者はサービス(たとえば、コンピュータへのアクセスや
建物へのアクセス)を拒絶または拒否される。こうした方法の不都合は、トレイ
ニング時と同じキーワードがテスト時に使用されなければならず、したがって、
アクセスを制御する方法などの応用を制限している。この方法は、たとえば、会
話を交わしている際に話者をクラス分けするためには使用できない。
るかを決定することを目指している。テキストに依存しない話者識別は、特定の
キーワードを使用することなくこうした決定を行おうとしている。
を含んでいる。機械雑音モニタリングおよび診断は、機械装置がたてる音を通し
て機械装置の部品の状態を判定するステップを含んでいる。
の音からの1組のサンプル音でシステムをトレイニングすることにより得られる
。次いで、テスト・サンプルは、テスト・サンプルについて音源の種類を決定す
るために、記憶されたモデルと比較される。知られている方法は、比較的に長い
トレイニング時間とテスト・サンプルを必要とし、多くの場合こうした方法を不
適当にしてしまう。さらに、こうした方法は、大量のメモリ記憶と計算資源を必
要とする傾向にある。最後に、これらの方法は、テスト信号中の雑音の存在に対
して強くなく、多くのタスクでその使用を妨げる(「信号」は、重要な信号を意
味し、背景および気を散らす音は「雑音」と呼ばれる)。
音響信号をクラス分けでき、しかも、最少のトレイニングおよびテストしか必要
としないことが望ましいであろうと考えた。本発明は、従来技術の制限を回避す
る音響信号クラス分けのためのシステムおよび方法を提供する。
グラムを含んでいる。本発明は、音響入力を複数の信号モデル、音源クラスあた
りひとつの信号モデルに整合させ、それぞれの信号モデルに対してスコアを生成
する。音源は、スコアが十分に高い時に、最良のスコアを有するモデルと同じク
ラスであると宣言する。好ましい実施態様において、クラス分けは、学習により
増強された信号モデルを使用することにより行われる。入力信号は、人間の語音
を表すことができ、その場合は、目的が、テキストに依存しない形で話者を特定
することになるであろう。しかし、本発明は、音楽装置、鳥、エンジンまたは機
械雑音または人間の歌など、任意のタイプの生音または記録された音響データを
クラス分けするために使用することができることを理解するべきである。
信号は、2値データにデジタル化され、2進データは時間−周波数表現(スペク
トログラム)に変換される。暗雑音が推定され、信号検出器が信号を含んでいる
期間を分離する。信号内容のない期間は雑音推定の中に含まれている。入力信号
のスペクトログラムは再スケールされ、かつ信号モデルを定義する複数のテンプ
レートに対するスペクトログラムと比較される。その際のそれぞれの信号モデル
は音源クラスを表している。計測されたスペクトログラムとそれぞれの信号モデ
ルのスペクトログラムの間の平均歪みが計算される。最も低い歪みを有する信号
モデルが選択される。選択された信号モデルの平均歪みが十分に小さい時、音源
は、対応しているクラスに属していると宣言される。そうでない時、音源は、未
知のタイプであると宣言される。
り異なっている時、入力信号のスペクトログラムからテンプレートを生成するこ
とにより信号モデルのセットを信号データでトレイニングする。入力信号スペク
トラムに似ている既存のテンプレートが見つかると、そのテンプレートが入力信
号のスペクトログラムで平均化され、得られるテンプレートが、過去のそのテン
プレートに整合するスペクトルの全ての平均であるようにする。
に発する音に依存せずに、音レベルに依存せずに、また、音響信号のスペクトル
のある部分が雑音によりマスクされる時でさえも、音響信号源をクラス分けでき
ることである。また、本発明は必要とするトレイニング、テスト・データおよび
計算資源が比較的少なくてすむ。
おいて述べられている。本発明の、他の特徴、目的および利点は、説明と図およ
び請求項から明らかになるであろう。
としてよりもむしろ見本として考えられるべきである。
ができる、典型的な従来技術のプログラマブル処理システムのブロック図を示し
ている。音響信号はトランスジューサ・マイクロフォン10で受信され、音響信
号の対応する電気信号表現を生成する。トランスジューサ・マイクロフォン10
からの信号は、その後、アナログ・デジタル変換器14によりデジタル化される
前に、増幅器12により増幅されるのが好ましい。アナログ・デジタル変換器1
4の出力は、本発明のクラス分け技術を適用する処理システムに加えられる。処
理システムは、図のようにCPU16、CPUバスにより結合されたRAM20
、ROM18(フラッシュROMのような、書き換え可能であってもよい)およ
び磁気ディスクのような任意選択の記憶デバイス22を含むのが好ましい。クラ
ス分け処理の出力は、ビデオ・ディスプレイ26を駆動するビデオ・ディスプレ
イ制御器24によって使用者のために表示することも、音源の同一性に対するそ
の応答をカスタマイズするためにシステムが使用することも、外部装置(たとえ
ば、アクセス制御適用におけるロック機構)を駆動するために使用することもで
きる。
の第1の機能要素は、入力データを時間−周波数表現に変換するプリプロセッサ
である。異なる周波数帯域の相対パワーのパターンおよびこうしたパターンが短
期間でどのように変わるかが、入力信号をクラス分けするために本システムによ
り使用されている。
ある。それらは連結して動作する。信号検出器は、連続した暗雑音を区別するの
に有効であるクラス分けは、信号のみに基づき、暗雑音に影響されないことを保
証することが重要である。動的暗雑音推定機能は、暗雑音から過渡的な音を分離
し、暗雑音のみを推定することができる。一実施形態において、パワー検出器は
、複数の周波数帯域のそれぞれにおいて動作する。データの雑音のみの部分は、
雑音の平均および標準偏差をデシベル(dB)で生成するのに使用される。パワ
ーが、ある周波数帯域において、標準偏差の特定数を超えるだけ平均を超える時
、対応する時間期間は、信号を含んでいるとしてフラグを立てられ、雑音のみの
スペクトルを推定するのには使用されない。
出器は、クラス分けにとって有益である信号の基本周波数の推定値を提供するの
に使用される。高調波検出器は、関心のある多くの場合(たとえば、人の音声、
音楽、鳥の鳴き声、エンジンおよび機械装置)、信号が高調波構造を有している
ために、データに適用するのに有益なフィルタである。高調波検出器の好ましい
実施形態は以下に説明されている。高調波検出器はスペクトル上で高調波的に関
連するピークの数を数える。
、近い、または遠い可能性がある。計測されたスペクトルがモデルのテンプレー
トに合わせられる前に、計測されたスペクトルは、パターン間距離が信号の全体
の音量に依存しないように再スケールされる。好ましい実施形態において、デシ
ベル(dB)での信号対雑音比(SNR)に比例した重み付けが、再スケール中
に周波数帯域に対して適用される。重みは、最少値および最大値により、それぞ
れ、下方でおよび上方で制限されている。スペクトルは、それぞれの記憶された
テンプレートに対する重み付けされた距離が最少化されるように再スケールされ
る。
号モデルのセットと入力信号のスペクトグラムとをパターン整合器で比較する。
それぞれの信号モデルは、既知の同一性の信号から得られた短期間の原型スペク
トログラムのセット(「テンプレート」)で構成されている。信号モデルのトレ
イニングは、以前に収集された原型スペクトログラムとはかなり異なるスペクト
ログラムを収集することにより行われる。好ましい実施形態において、第1の原
型スペクトログラムは、雑音レベルをかなり上回る信号を含んでいる第1入力信
号のスペクトログラムである。次の期間に、入力信号のスペクトログラムが、選
択された距離閾値よりも任意の既存の原型スペクトログラムに近い時、入力信号
のスペクトログラムは最も近い原型スペクトログラムで平均化される。入力信号
のスペクトログラムが、選択された閾値よりも任意の原型スペクトログラムから
ずっと遠い時、入力信号のスペクトログラムは新たな原型スペクトログラムであ
ると宣言される。
リッド距離または重み付けユークリッド距離のような、いくつかの適切な測定基
準の1つでよい。それぞれの信号モデル・クラスに対して、計測された入力信号
のスペクトログラムに対して最も小さな距離を有するテンプレートが、そのクラ
スに最もピッタリと合う原型スペクトログラムとして選択される。
それぞれの入力信号サンプルに対して蓄積される。適当な数の入力信号サンプル
から十分なデータが収集された時、最終クラスの決定が行われる。別法として、
決定は、任意の時点または事象で強制的に行われることができ(たとえば、語音
の期間の後にかなりの期間の沈黙が続く時)、最もピッタリと合うクラスがその
時点でのスコアとともに返される。
いる方法は、図1に示されているアナログ・デジタル変換器14からの出力とし
て生成された複数のデータ・サンプルで構成されている入力音響信号を強調する
のに使用されている。方法は、スタート状態(ステップ202)で始まる。入力
データ・ストリーム(たとえば、以前に生成された音響データ・ファイルまたは
デジタル化された生の音響信号)は、サンプルのセットとしてコンピュータ・メ
モリに読み込まれる(ステップ204)。好ましい実施形態において、本発明は
、全データ・ストリームが処理されるように、連続した音響データ・ストリーム
の部分を表しているデータの「移動ウィンドウ」からクラス分けするように適用
される。一般的に、クラス分けされるべき音響データ・ストリームは、元の音響
データ・ストリームの期間にかかわらず、固定長の一連のデータ「バッファ」と
して表されている。
うな適切な調節操作を含む時間−周波数変換を受ける(ステップ206)。短時
間フーリエ変換、フィルタ・バンク解析、離散ウェーブレット変換などのような
、いくつかの時間−周波数変換のうちの任意の変換を使用できる。
(f,i)に変換される。ここで、tは時系列xに対するサンプリング指標で、
fとiは、それぞれ、スペクトログラムXの周波数の次元と時間の次元を指す個
別変数であるということである。好ましい実施形態において、特に指示がない限
り、以降のステップにおいて、Xの大きさの対数がXの代わりに使用される。す
なわち、 P(f,i)=20log10(|X(f,i)|) である。
トログラム」と呼ばれるであろう。
ステップ208)。信号検出器は、静的な暗雑音に埋もれた信号の存在を検出し
(ステップ210)、信号を含んでいるスペクトログラムのみを通過させる。暗
雑音推定は、信号が存在しない時、暗雑音パラメータの推定値を更新する。
移動ウィンドウにおいて音響パワーを平均するパワー検出器を備えている。所定
の数の周波数帯域内のパワーが、暗雑音を超えるある数の標準偏差として決定さ
れている、閾値を超える時、すなわち、 P(f,i)>B(f)+σ(f) である時、パワー検出器は、信号の存在を宣言する。 ここで、B(f)は帯域fにおける平均暗雑音パワーで、σ(f)は同じ帯域に
おける雑音の標準偏差で、cは定数である。別の実施形態において、雑音推定は
動的である必要はなく、一度だけ計測されるであろう(たとえば、本発明を実行
するソフトウェアを走らせるコンピュータの起動中)。
適用される(ステップ212)。このステップで、システムが入力信号と同じ高
調波クラスでない信号を区別でき、したがって、その信号に対してはもはや比較
は必要がない。たとえば、人の声は、基本周波数(ピッチ)が、成人女性に対す
る90Hzから子供に対する300Hzの間であって、0.1と約3kHzの間
の高調波のセットが存在するのが特徴である。
ートと比較できるように再スケールされるのが好ましい(ステップ214)。こ
のステップを実行する一方法は、P(f,i)+k(i,m)とm番目のテンプ
レートT(f,m)の間の平方自乗平均の差が最少となるように、スペクトログ
ラムP(f,i)のそれぞれの要素を定数k(i,m)だけシフトアップするこ
とである。これは、以下を計算することにより行われる。
するのに使用される。重みw(i)は、それぞれの周波数帯域に対して、レベル
の差、すなわち、r(f,i)=P(f,i)−B(f)として計算された時間
iでの帯域fにおけるSNR r(f,i)に比例している。この実施形態にお
いて、再スケール係数のそれぞれの要素は、以下のように定義された重みにより
重み付けされる。ここでwminとwmaxはプリセットされた閾値である。 r(f,i)<wminの時、w(f,i)=wmin r(f,i)>wmaxの時、w(f,i)=wmax その他の時、w(f,i)=r(f,i)
規化される。すなわち、 w’(f,i)=w(f,i)/sumf(w(f,i)) w’min=wmin/sumf(w(f,i)) w’max=wmax/sumf(w(f,i)) この場合、再スケール定数は、
帯域を選択的に整列させることである。しかし、再スケールは、随意選択であっ
て、全ての実施形態において使用される必要はない。
ペクトルのSNRと同様にテンプレートのSNRが使用される。テンプレートT
(f,m)のSNRは、rN(f,m)=T(f,m)−BN(f)として定義さ
れる。ここで、BN(f)はトレイニング時の周波数帯域fの暗雑音である。r
とrNの両方を用いた重み付けスキームの一実施形態において、重みwNは、テン
プレートおよびスペクトログラムに対する重みの積の平方根として定義される。
れぞれの時間フレームの重みの和により正規化される。すなわち、 w’2(f,i)=w2(f,i)/sumf(w2(f,i)) w’min=wmin/sumf(w2(f,i)) w’max=wmax/sumf(w2(f,i))
ペクトログラムP(f,i)に最もよく整合するテンプレートT*を見出すため
に、パターン整合を行う(ステップ216)。「最も良い整合」という用語の定
義には、最も良い整合を見出すのに使用される方法におけるのと同様に、ある許
容範囲が存在している。一実施形態において、P+kとT*の間の最も小さなR
MS(平方自乗平均)差d*を有するテンプレートが見つかる。好ましい実施形
態において、重み付けされたRMS距離が使用される。ここで、
Rを有する帯域に比べて距離計算にあまり寄与しない。時間iでの最良整合テン
プレートT*(i)は、d*(i)=minm(d(i,m))となるようなmを
見つけることにより選択される。
れ、十分なデータが収集された時に、判定が行われる。たとえば、スコアは、時
間iにわたる距離d(i,m)の平均であり得る。通常の実施形態において、8
〜20のスコアが蓄積され、それぞれのスコアは有声音の語音のバッファ(有声
語音のないバッファは、話者の同一性についてそれほど多くの情報を含んでいな
いため、無声語音、すなわち、子音ではない)に対応している。クラス分け決定
は、単に、スコアを閾値と比較するステップと、2値決定を生ずるステップとを
含んでもよいし、または、ニューラル・ネットワークのような「柔軟な」クラス
分け器を使用することができる。別法として、決定は、任意の所望の時または事
象で強制されることができ、最良整合クラスがその時点のスコアとともに返され
る。スコアは、全体のスコアに対する基本周波数の寄与に関連する要素を含んで
いる。その要素の好ましい実施形態は、K(f0−fsource)2の形をとり、f0
は計測された基本周波数、fsourceは音源モデルの基本周波数、Kは比例定数で
ある。
た、時間にわたる距離の平均である。すなわち、
合、スコアが最少化される必要がある。sが、全てのモデルについて、選択され
た閾値Tunknownを満たさない時、音源は、「未知」タイプであると宣言される
。その他の場合、音源は、最も低いスコアを有するクラスに属していると宣言さ
れる。
モデルが、入力音響信号をクラス分けするために、種々の適用例において適用さ
れてもよい。単一信号モデルの場合、クラス分けは2値である。
暗雑音推定と信号検出の処理をより具体的に説明するフロー図である。暗雑音推
定は、信号が存在していない時、暗雑音パラメータの推定値を更新する。信号検
出器は、連続暗雑音を区別するのに有益である。クラス分けが信号のみに基づき
、暗雑音により影響を受けないことを保証することが重要である。
するために、雑音の平均および標準偏差を使用できる前に暗雑音の十分な数(た
とえば、1秒)のサンプルを必要とする。したがって、ルーチンは、暗雑音の十
分な数のサンプルが得られたかを判定する(ステップ304)。得られていない
時、現在のサンプルが雑音推定値を更新する(ステップ306)のに使用され、
処理は終了する(ステップ310)。暗雑音更新手順の一実施形態において、ス
ペクトログラム要素P(f,i)はリング・バッファに保持され、それぞれの周
波数帯域fにおける雑音の平均B(f)と標準偏差δ(f)を更新するのに使用
される。暗雑音推定は、指標iがプリセットされた閾値より大きい時、準備でき
たと考えられる。
信号レベルP(f,i)が、周波数帯域のある部分で背景をかなり超えているか
否かについての判定が行われる(ステップ308)。好ましい実施形態において
、所定の数の周波数帯域内のパワーが、暗雑音平均レベルを超えるある数の標準
偏差として決定されている閾値を超えている時、すなわち、 P(f,i)>B(f)+cδ(f) の時、判定ステップはパワー閾値が超えられたことを示す(ステップ312)。
ここで、cは経験的に決定された定数である。そして、処理は終了する(ステッ
プ310)。十分に強力な信号がステップ308にて検出されない時、暗雑音統
計値がステップ306にて更新され、処理は終了する(ステップ310)。
に説明するフロー図である。高調波検出器は、高調波関係を有している入力信号
サンプルのスペクトルにおけるピークの存在を検出する。関心のある音源の大部
分が、周波数成分の間に高調波関係を有しているという特徴を有するスペクトル
を有しているために、このステップが、しばしば役に立つ。
変換されたスペクトルは、ピークを「拾う」ために、fmaxの最大周波数までの
周波数にわたって、局所ピークに対して走査される(ステップ404)。局所ピ
ークは、P(f−1)<P(f)<P(f+1)の時、P(f)で宣言される。
周辺スペクトル値を閾値εを超える値だけ超えているピーク、すなわち、P(f
−1)+e<P(f)<P(f+1)+eであるfが抽出される(ステップ40
6)。これらのピークのそれぞれは、基本周波数f0のそれぞれに対して1つの
「得票」を表している(ステップ408)。好ましい実施形態の推定値V0(f0 )はフロア(floor)(fmax/f0)である。f0のより低い値は、所定の
fmaxに対して、より高いf0よりも少ない高調波を有しているため、得票は、考
えている周波数範囲において期待される高調波の数で正規化されるV0(f0)(
ステップ410)。比V(f0)/V0(f0)が閾値より大きい時(ステップ4
12)、高調波関係が存在していると宣言される。
詳細に説明するフロー図である。処理は、スタート処理状態で始まる(ステップ
502)。パターン整合処理は、現在のスペクトログラムP(f,i)に最も良
く整合する信号モデルのテンプレートT*を見つける(ステップ504)。パタ
ーン整合処理は、また、信号モデルの学習手順に責任を有する。「最も良い整合
」という用語の定義には、最良の整合を見出すのに使用される方法におけるのと
同様に、ある許容範囲が存在している。一実施形態において、P+kとT*の間
の最も小さなRMS差d*を有するテンプレートが見つかる。好ましい実施形態
において、重み付けされたRMS距離は整合の程度を計測するために使用される
。一実施形態において、RMS距離は、
Rを有する周波数帯域に比べて距離計算に寄与することが少ない。時間iでステ
ップ504の出力である最良整合テンプレートT*(f,i)は、d*(i)=m
inm[d(i,m)]であるようなmを見つけることにより選択される。シス
テムが学習モードにない時(ステップ506)、T*(f,i)は、また、最も
近いテンプレートである処理の出力である(ステップ508)。その後、処理は
終了する(ステップ510)。
プレートT*(f,i)が、信号モデルを調整するために使用される。T*(f,
i)がモデルに組み込まれる方法は、d*(i)の値に依存している(ステップ
512)。dmaxを所定の閾値として、d*(i)<dmaxの時、T*(f,i)が
調整され(ステップ516)、処理が終了する(ステップ510)。ステップ5
16の好ましい実施形態は、T*(f,i)が、T*(f,i)を構成するのに使
用されている全てのスペクトルP(f,i)の平均になるように実行される。好
ましい実施形態において、T(f,m)に関連するスペクトルの数nmは、メモ
リに保持され、T(f,m)を調整するために、新たなスペクトルP(f,i)
が使用されると、調整されたテンプレートは、 T(f,m)=[nmT(f,m)+P(f,i)]/(nm+1) で、テンプレートmに対応するパターンの数は同様に調整される。 nm=nm+1
新たなテンプレートT*(f,i)=P(f,i)が生成され(ステップ514
)、処理が終了する(ステップ510)。
グラマブル・ロジック・アレイ)で実施されてもよい。特に指定がない限り、本
発明の一部として含まれるアルゴリズムは、本質的には任意の特定のコンピュー
タまたは他の装置と関連していない。特に、種々の汎用機が本明細書における教
示に従って書かれたプログラムを用いて使用されてもよいし、または、要求され
た方法のステップを実行するために、より特殊な装置を構成するのが都合がよい
かもしれない。しかし、本発明は、それぞれが、少なくとも1つのプロセッサ、
少なくとも1つのデータ記憶システム(揮発性と不揮発性メモリおよび/または
記憶素子を含む)、少なくとも1つの入力デバイスおよび少なくとも1つの出力
デバイスを有しているプログラマブル・システムで実行する1つまたは複数のコ
ンピュータ・プログラムで実施されるのが好ましい。それぞれのこうしたプログ
ラマブル・システム要素は、ある機能を実行する手段を構成している。プログラ
ム・コードは、本明細書において説明された機能を実行するために、プロセッサ
で実行される。
、任意の所望のコンピュータ言語(機械語、アセンブリ、上位手続き型、または
、オブジェクト指向プログラミング言語を含む)で実現されてもよい。いかなる
場合でも、言語はコンパイラ型言語とすることもインタープリタ型言語とするこ
ともできる。
イスがコンピュータにより読まれる時に、コンピュータを機器構成し、動作させ
るための、それぞれのこうしたコンピュータ・プログラムは、汎用または特定用
途向けプログラマブル・コンピュータにより読み取り可能な記憶媒体またはデバ
イス(たとえば、ROM、CD−ROMまたは磁気または光媒体)に記憶される
のが好ましい。本発明のシステムは、また、コンピュータ・プログラムで構成さ
れた、コンピュータ読み取り可能記憶媒体として実施されていると考えられても
よく、ここで、このように機器構成された記憶媒体は、コンピュータが本明細書
において述べられている機能を実行するために、特殊で、あらかじめ決められた
方法で動作することを可能にする。
を逸脱することなく、種々の修正が行われてもよいことが理解されるであろう。
たとえば、種々のアルゴリズムのステップのいくつかは、順序に関係がなく、し
たがって、上述した以外の順序で実行されてもよい。したがって、別の実施形態
は、以下の特許請求の範囲内にある。
コンピュータ・システムのブロック図である。
図である。
方法を示すフロー図である。
ある。
Claims (12)
- 【請求項1】 (a)デジタル化された音響入力信号を時間−周波数表現に
変換すること、 (b)時間−周波数表現において暗雑音レベルを推定すること、 (c)意味のある信号レベルを含む時間−周波数表現の各間隔について、その
間隔の時間−周波数表現を少なくとも1つの信号モデルと比較し、部分的に信号
対雑音比に基づいて、前記間隔の時間−周波数表現と最適に整合する1つの前記
信号モデル内の少なくとも1つのテンプレートを決定し、それぞれの比較に対し
てスコアを決定すること、および (d)デジタル化された音響入力信号を最高スコアを有する信号モデルに割り
当てること を含む、デジタル化された音響入力信号内の音響信号をクラス分けする方法。 - 【請求項2】 割り当てることが、さらに、選択された閾値を満足しないス
コアを有している任意の信号モデルを拒絶することを含んでいる請求項1に記載
の方法。 - 【請求項3】 (a)デジタル化された音響入力信号を時間−周波数表現に
変換すること、 (b)時間−周波数表現内の過渡的な音を分離すること、 (c)暗雑音を推定し、信号内容のない長い過渡音および過渡音の間の暗雑音
をそのような推定の中に含めること、 (d)時間−周波数表現において高調波の存在を検出すること、 (e)推定された暗雑音の時間−周波数表現を再スケールすること、 (f)任意の重要な信号を含む各過渡音の再スケール済み時間−周波数表現を
少なくとも1つの信号モデルと比較し、この表現に最適に整合する1つの前記信
号モデルの少なくとも1つのテンプレートを決定すること、および (g)デジタル化された音響入力信号を最高スコアを有する信号モデルに割り
当てるステップと を含む、デジタル化された音響入力信号内の音響信号をクラス分けする方法。 - 【請求項4】 割り当てるステップが、さらに、選択された閾値を満足しな
いスコアを有している任意の信号モデルを拒絶するステップを含んでいる請求項
3に記載の方法。 - 【請求項5】 a.デジタル化された音響入力信号を時間−周波数表現に変
換するコンピュータによる手段と、 b.時間−周波数表現において暗雑音レベルを推定するコンピュータによる手
段と、 c.意味のある信号レベルを含む時間−周波数表現の各間隔について、その間
隔の時間−周波数表現を少なくとも1つの信号モデルと比較し、部分的に信号対
雑音比に基づいて、前記間隔の時間−周波数表現と最適に整合する1つの前記信
号モデル内の少なくとも1つのテンプレートを決定し、それぞれの比較に対して
スコアを決定するコンピュータによる手段と、 d.デジタル化された音響入力信号を最高スコアを有する信号モデルに割り当
てるコンピュータによる手段と を含む、デジタル化された音響入力信号内の音響信号をクラス分けするシステム
。 - 【請求項6】 選択された閾値を満足しないスコアを有している任意の信号
モデルを拒絶するコンピュータによる手段をさらに含む請求項5に記載のシステ
ム。 - 【請求項7】 a.デジタル化された音響入力信号を時間−周波数表現に変
換するコンピュータによる手段と、 b.時間−周波数表現内の過渡的な音を分離するコンピュータによる手段と、 c.暗雑音を推定し、信号内容のない長い過渡音および過渡音の間の暗雑音を
そのような推定の中に含めるコンピュータによる手段と、 d.時間−周波数表現において高調波の存在を検出するコンピュータによる手
段と、 e.推定された暗雑音の時間−周波数表現を再スケールするコンピュータによ
る手段と、 f.任意の重要な信号を含む各過渡音の再スケール済み時間−周波数表現を少
なくとも1つの信号モデルと比較し、この表現に最適に整合する1つの前記信号
モデルの少なくとも1つのテンプレートを決定するコンピュータによる手段と、 g.デジタル化された音響入力信号を最高スコアを有する信号モデルに割り当
てるコンピュータによる手段と を含む、デジタル化された音響入力信号内の音響信号をクラス分けするシステム
。 - 【請求項8】 選択された閾値を満足しないスコアを有している任意の信号
モデルを拒絶するコンピュータによる手段をさらに含む請求項7に記載のシステ
ム。 - 【請求項9】 コンピュータに、 (a)デジタル化された音響入力信号を時間−周波数表現に変換させ、 (b)時間−周波数表現において暗雑音レベルを推定させ、 (c)意味のある信号レベルを含む時間−周波数表現の各間隔について、その
間隔の時間−周波数表現を少なくとも1つの信号モデルと比較し、部分的に信号
対雑音比に基づいて、前記間隔の時間−周波数表現と最適に整合する1つの前記
信号モデル内の少なくとも1つのテンプレートを決定し、それぞれの比較に対す
るスコアを決定させ、 (d)デジタル化された音響入力信号を最高スコアを有する信号モデルに割り
当てさせる 命令を含む、デジタル化された音響入力信号内の音響信号をクラス分けする、コ
ンピュータ読み取り可能媒体に記録されたコンピュータ・プログラム。 - 【請求項10】 選択された閾値を満足しないスコアを有している任意の信
号モデルを拒絶することをコンピュータに行わせる命令をさらに含む請求項9に
記載のコンピュータ・プログラム方法。 - 【請求項11】 コンピュータに、 (a)デジタル化された音響入力信号を時間−周波数表現に変換させ、 (b)時間−周波数表現内の過渡的な音を分離させ、 (c)暗雑音を推定し、信号内容のない長い過渡音および過渡音の間の暗雑音
をそのような推定の中に含めさせ、 (d)時間−周波数表現において高調波の存在を検出させ、 (e)推定された暗雑音の時間−周波数表現を再スケールさせ、 (f)任意の重要な信号を含む各過渡音の再スケール済み時間−周波数表現を
少なくとも1つの信号モデルと比較し、この表現に最適に整合する1つの前記信
号モデルの少なくとも1つのテンプレートを決定させ、 (g)デジタル化された音響入力信号を最高スコアを有する信号モデルに割り
当てさせる 命令を含む、デジタル化された音響入力信号内の音響信号をクラス分けする、コ
ンピュータ読み取り可能媒体に記録されたコンピュータ・プログラム。 - 【請求項12】 選択された閾値を満足しないスコアを有している任意の信
号モデルを拒絶することをコンピュータに行わせる命令をさらに含む請求項11
に記載のコンピュータ・プログラム方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/385,975 US7117149B1 (en) | 1999-08-30 | 1999-08-30 | Sound source classification |
US09/385,975 | 1999-08-30 | ||
PCT/US2000/023754 WO2001016937A1 (en) | 1999-08-30 | 2000-08-29 | System and method for classification of sound sources |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003508804A true JP2003508804A (ja) | 2003-03-04 |
JP2003508804A5 JP2003508804A5 (ja) | 2007-10-04 |
Family
ID=23523654
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001520402A Pending JP2003508804A (ja) | 1999-08-30 | 2000-08-29 | 音源をクラス分けするためのシステムおよび方法 |
Country Status (8)
Country | Link |
---|---|
US (3) | US7117149B1 (ja) |
EP (2) | EP1210711B1 (ja) |
JP (1) | JP2003508804A (ja) |
AT (1) | ATE308098T1 (ja) |
AU (1) | AU7471600A (ja) |
CA (1) | CA2382122A1 (ja) |
DE (1) | DE60023517T2 (ja) |
WO (1) | WO2001016937A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006251712A (ja) * | 2005-03-14 | 2006-09-21 | Univ Of Tokyo | 観測データ、特に、複数の音源からの音が混在している音響信号の解析方法 |
Families Citing this family (99)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7117149B1 (en) | 1999-08-30 | 2006-10-03 | Harman Becker Automotive Systems-Wavemakers, Inc. | Sound source classification |
JP2002306492A (ja) * | 2001-04-16 | 2002-10-22 | Electronic Navigation Research Institute | カオス論的ヒューマンファクタ評価装置 |
US7725315B2 (en) * | 2003-02-21 | 2010-05-25 | Qnx Software Systems (Wavemakers), Inc. | Minimization of transient noises in a voice signal |
US8326621B2 (en) | 2003-02-21 | 2012-12-04 | Qnx Software Systems Limited | Repetitive transient noise removal |
US7949522B2 (en) | 2003-02-21 | 2011-05-24 | Qnx Software Systems Co. | System for suppressing rain noise |
US8271279B2 (en) | 2003-02-21 | 2012-09-18 | Qnx Software Systems Limited | Signature noise removal |
US7885420B2 (en) | 2003-02-21 | 2011-02-08 | Qnx Software Systems Co. | Wind noise suppression system |
US7895036B2 (en) | 2003-02-21 | 2011-02-22 | Qnx Software Systems Co. | System for suppressing wind noise |
US8073689B2 (en) | 2003-02-21 | 2011-12-06 | Qnx Software Systems Co. | Repetitive transient noise removal |
FR2854483B1 (fr) * | 2003-05-02 | 2005-12-09 | Miriad Technologies | Procede d'identification de sons specifiques |
EP1671257A1 (en) * | 2003-09-30 | 2006-06-21 | Koninklijke Philips Electronics N.V. | System and method for adaptively setting biometric measurement thresholds |
EP1542206A1 (en) * | 2003-12-11 | 2005-06-15 | Sony International (Europe) GmbH | Apparatus and method for automatic classification of audio signals |
US7565213B2 (en) | 2004-05-07 | 2009-07-21 | Gracenote, Inc. | Device and method for analyzing an information signal |
DE102004022660B4 (de) * | 2004-05-07 | 2006-03-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Analysieren eines Informationssignals |
US7505902B2 (en) * | 2004-07-28 | 2009-03-17 | University Of Maryland | Discrimination of components of audio signals based on multiscale spectro-temporal modulations |
US8306821B2 (en) * | 2004-10-26 | 2012-11-06 | Qnx Software Systems Limited | Sub-band periodic signal enhancement system |
US7610196B2 (en) * | 2004-10-26 | 2009-10-27 | Qnx Software Systems (Wavemakers), Inc. | Periodic signal enhancement system |
US7680652B2 (en) | 2004-10-26 | 2010-03-16 | Qnx Software Systems (Wavemakers), Inc. | Periodic signal enhancement system |
US7949520B2 (en) | 2004-10-26 | 2011-05-24 | QNX Software Sytems Co. | Adaptive filter pitch extraction |
US8543390B2 (en) | 2004-10-26 | 2013-09-24 | Qnx Software Systems Limited | Multi-channel periodic signal enhancement system |
US7716046B2 (en) * | 2004-10-26 | 2010-05-11 | Qnx Software Systems (Wavemakers), Inc. | Advanced periodic signal enhancement |
US8170879B2 (en) | 2004-10-26 | 2012-05-01 | Qnx Software Systems Limited | Periodic signal enhancement system |
US8284947B2 (en) * | 2004-12-01 | 2012-10-09 | Qnx Software Systems Limited | Reverberation estimation and suppression system |
US8027833B2 (en) | 2005-05-09 | 2011-09-27 | Qnx Software Systems Co. | System for suppressing passing tire hiss |
US8170875B2 (en) | 2005-06-15 | 2012-05-01 | Qnx Software Systems Limited | Speech end-pointer |
US8311819B2 (en) * | 2005-06-15 | 2012-11-13 | Qnx Software Systems Limited | System for detecting speech with background voice estimates and noise estimates |
CN1889172A (zh) | 2005-06-28 | 2007-01-03 | 松下电器产业株式会社 | 可增加和修正声音类别的声音分类系统及方法 |
US7844453B2 (en) | 2006-05-12 | 2010-11-30 | Qnx Software Systems Co. | Robust noise estimation |
ES2286943B1 (es) * | 2006-05-19 | 2008-10-16 | Agnitio, S.L. | Procedimiento de identificacion de voz. |
JP5151102B2 (ja) * | 2006-09-14 | 2013-02-27 | ヤマハ株式会社 | 音声認証装置、音声認証方法およびプログラム |
TWI297486B (en) * | 2006-09-29 | 2008-06-01 | Univ Nat Chiao Tung | Intelligent classification of sound signals with applicaation and method |
US20100332222A1 (en) * | 2006-09-29 | 2010-12-30 | National Chiao Tung University | Intelligent classification method of vocal signal |
US8326620B2 (en) | 2008-04-30 | 2012-12-04 | Qnx Software Systems Limited | Robust downlink speech and noise detector |
US8335685B2 (en) | 2006-12-22 | 2012-12-18 | Qnx Software Systems Limited | Ambient noise compensation system robust to high excitation noise |
US20080231557A1 (en) * | 2007-03-20 | 2008-09-25 | Leadis Technology, Inc. | Emission control in aged active matrix oled display using voltage ratio or current ratio |
FR2914090A1 (fr) * | 2007-03-21 | 2008-09-26 | Wally Tzara | Dispositif de traitement pour la normalisation de barres representatives de grandeurs variables ponderees |
US8111583B2 (en) * | 2007-08-21 | 2012-02-07 | Schwartz Adam L | Method and apparatus for determining and indicating direction and type of sound |
US8904400B2 (en) | 2007-09-11 | 2014-12-02 | 2236008 Ontario Inc. | Processing system having a partitioning component for resource partitioning |
US8850154B2 (en) | 2007-09-11 | 2014-09-30 | 2236008 Ontario Inc. | Processing system having memory partitioning |
US8694310B2 (en) | 2007-09-17 | 2014-04-08 | Qnx Software Systems Limited | Remote control server protocol system |
KR100919223B1 (ko) * | 2007-09-19 | 2009-09-28 | 한국전자통신연구원 | 부대역의 불확실성 정보를 이용한 잡음환경에서의 음성인식 방법 및 장치 |
FR2923043A1 (fr) * | 2007-10-29 | 2009-05-01 | Orelia Sas | Procede et systeme de creation automatisee de modeles de reconnaissance de contenu sonore |
US8461986B2 (en) * | 2007-12-14 | 2013-06-11 | Wayne Harvey Snyder | Audible event detector and analyzer for annunciating to the hearing impaired |
US8468019B2 (en) * | 2008-01-31 | 2013-06-18 | Qnx Software Systems Limited | Adaptive noise modeling speech recognition system |
US8209514B2 (en) | 2008-02-04 | 2012-06-26 | Qnx Software Systems Limited | Media processing system having resource partitioning |
US8380497B2 (en) * | 2008-10-15 | 2013-02-19 | Qualcomm Incorporated | Methods and apparatus for noise estimation |
KR101547344B1 (ko) * | 2008-10-31 | 2015-08-27 | 삼성전자 주식회사 | 음성복원장치 및 그 방법 |
NO330636B1 (no) * | 2009-02-23 | 2011-05-30 | Roxar Flow Measurement As | Anordning og fremgangsmate for akustikkbasert sandovervaking ved et rorsystem |
US8713007B1 (en) * | 2009-03-13 | 2014-04-29 | Google Inc. | Classifying documents using multiple classifiers |
US9196254B1 (en) * | 2009-07-02 | 2015-11-24 | Alon Konchitsky | Method for implementing quality control for one or more components of an audio signal received from a communication device |
US9026440B1 (en) * | 2009-07-02 | 2015-05-05 | Alon Konchitsky | Method for identifying speech and music components of a sound signal |
US9196249B1 (en) * | 2009-07-02 | 2015-11-24 | Alon Konchitsky | Method for identifying speech and music components of an analyzed audio signal |
FR2948484B1 (fr) * | 2009-07-23 | 2011-07-29 | Parrot | Procede de filtrage des bruits lateraux non-stationnaires pour un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile |
KR101327112B1 (ko) * | 2010-08-23 | 2013-11-07 | 주식회사 팬택 | 주변 소리 정보를 이용하여 다양한 사용자 인터페이스를 제공하는 단말기 및 그 제어방법 |
KR101826331B1 (ko) | 2010-09-15 | 2018-03-22 | 삼성전자주식회사 | 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 |
WO2012042768A1 (ja) * | 2010-09-28 | 2012-04-05 | パナソニック株式会社 | 音声処理装置および音声処理方法 |
EP2657933B1 (en) | 2010-12-29 | 2016-03-02 | Samsung Electronics Co., Ltd | Coding apparatus and decoding apparatus with bandwidth extension |
US8849663B2 (en) | 2011-03-21 | 2014-09-30 | The Intellisis Corporation | Systems and methods for segmenting and/or classifying an audio signal from transformed audio information |
US8767978B2 (en) | 2011-03-25 | 2014-07-01 | The Intellisis Corporation | System and method for processing sound signals implementing a spectral motion transform |
JP5917270B2 (ja) * | 2011-05-27 | 2016-05-11 | キヤノン株式会社 | 音検出装置及びその制御方法、プログラム |
US8548803B2 (en) | 2011-08-08 | 2013-10-01 | The Intellisis Corporation | System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain |
US8620646B2 (en) | 2011-08-08 | 2013-12-31 | The Intellisis Corporation | System and method for tracking sound pitch across an audio signal using harmonic envelope |
US9183850B2 (en) | 2011-08-08 | 2015-11-10 | The Intellisis Corporation | System and method for tracking sound pitch across an audio signal |
US20130090926A1 (en) * | 2011-09-16 | 2013-04-11 | Qualcomm Incorporated | Mobile device context information using speech detection |
US8438023B1 (en) * | 2011-09-30 | 2013-05-07 | Google Inc. | Warning a user when voice input to a device is likely to fail because of background or other noise |
US9089123B1 (en) * | 2011-10-19 | 2015-07-28 | Mark Holton Thomas | Wild game information system |
US10276156B2 (en) * | 2012-02-29 | 2019-04-30 | Nvidia Corporation | Control using temporally and/or spectrally compact audio commands |
US8949118B2 (en) * | 2012-03-19 | 2015-02-03 | Vocalzoom Systems Ltd. | System and method for robust estimation and tracking the fundamental frequency of pseudo periodic signals in the presence of noise |
US9177559B2 (en) * | 2012-04-24 | 2015-11-03 | Tom Stephenson | Method and apparatus for analyzing animal vocalizations, extracting identification characteristics, and using databases of these characteristics for identifying the species of vocalizing animals |
US9646427B2 (en) * | 2014-10-08 | 2017-05-09 | Innova Electronics Corporation | System for detecting the operational status of a vehicle using a handheld communication device |
JP6048025B2 (ja) * | 2012-09-18 | 2016-12-21 | 富士ゼロックス株式会社 | 分類装置及びプログラム |
US20140095161A1 (en) * | 2012-09-28 | 2014-04-03 | At&T Intellectual Property I, L.P. | System and method for channel equalization using characteristics of an unknown signal |
US9263059B2 (en) | 2012-09-28 | 2016-02-16 | International Business Machines Corporation | Deep tagging background noises |
US9058820B1 (en) | 2013-05-21 | 2015-06-16 | The Intellisis Corporation | Identifying speech portions of a sound model using various statistics thereof |
US9185083B1 (en) * | 2013-05-23 | 2015-11-10 | The Boeing Company | Concealing data within encoded audio signals |
US9484044B1 (en) | 2013-07-17 | 2016-11-01 | Knuedge Incorporated | Voice enhancement and/or speech features extraction on noisy audio signals using successively refined transforms |
US9530434B1 (en) | 2013-07-18 | 2016-12-27 | Knuedge Incorporated | Reducing octave errors during pitch determination for noisy audio signals |
US9208794B1 (en) | 2013-08-07 | 2015-12-08 | The Intellisis Corporation | Providing sound models of an input signal using continuous and/or linear fitting |
NL2011893C2 (en) * | 2013-12-04 | 2015-06-08 | Stichting Incas3 | Method and system for predicting human activity. |
US10373611B2 (en) | 2014-01-03 | 2019-08-06 | Gracenote, Inc. | Modification of electronic system operation based on acoustic ambience classification |
US9842611B2 (en) | 2015-02-06 | 2017-12-12 | Knuedge Incorporated | Estimating pitch using peak-to-peak distances |
US9870785B2 (en) | 2015-02-06 | 2018-01-16 | Knuedge Incorporated | Determining features of harmonic signals |
US9922668B2 (en) | 2015-02-06 | 2018-03-20 | Knuedge Incorporated | Estimating fractional chirp rate with multiple frequency representations |
EP3171362B1 (en) * | 2015-11-19 | 2019-08-28 | Harman Becker Automotive Systems GmbH | Bass enhancement and separation of an audio signal into a harmonic and transient signal component |
WO2017168412A1 (en) * | 2016-03-28 | 2017-10-05 | Agrint Sensing Solutions Ltd | Improved system and method for detecting agricultural pests |
US10283143B2 (en) | 2016-04-08 | 2019-05-07 | Friday Harbor Llc | Estimating pitch of harmonic signals |
US10283138B2 (en) | 2016-10-03 | 2019-05-07 | Google Llc | Noise mitigation for a voice interface device |
US10724996B2 (en) * | 2017-03-17 | 2020-07-28 | Kabushiki Kaisha Toshiba | Position location system, position location method, and non-transitory computer readable storage medium |
US10121109B2 (en) | 2017-04-07 | 2018-11-06 | International Business Machines Corporation | Flexible and self-adaptive classification of received audio measurements in a network environment |
US20180307753A1 (en) * | 2017-04-21 | 2018-10-25 | Qualcomm Incorporated | Acoustic event enabled geographic mapping |
CN107274913B (zh) * | 2017-05-26 | 2020-09-11 | 广东美的厨房电器制造有限公司 | 一种声音识别方法及装置 |
WO2019089432A1 (en) | 2017-10-30 | 2019-05-09 | The Research Foundation For The State University Of New York | System and method associated with user authentication based on an acoustic-based echo-signature |
US11327050B2 (en) * | 2018-02-20 | 2022-05-10 | Intel Corporation | Mechanical failure monitoring, detection, and classification in electronic assemblies |
JP7073891B2 (ja) * | 2018-05-02 | 2022-05-24 | コニカミノルタ株式会社 | 過積載検出処理装置、過積載検出システム及びプログラム |
US10929097B2 (en) * | 2018-06-26 | 2021-02-23 | ROVl GUIDES, INC. | Systems and methods for switching operational modes based on audio triggers |
EP3887648B1 (en) * | 2018-11-29 | 2024-01-03 | BP Exploration Operating Company Limited | Das data processing to identify fluid inflow locations and fluid type |
US11763827B2 (en) | 2019-10-30 | 2023-09-19 | The Board Of Trustees Of The Leland Stanford Junior University | N-path spectral decomposition in acoustic signals |
CA3115423A1 (en) * | 2020-05-01 | 2021-11-01 | Systemes De Controle Actif Soft Db Inc. | A system and a method for sound recognition |
CN112735444B (zh) * | 2020-12-25 | 2024-01-09 | 浙江弄潮儿智慧科技有限公司 | 一种具有模型匹配的中华凤头燕鸥识别系统及其模型匹配方法 |
Family Cites Families (79)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4454609A (en) | 1981-10-05 | 1984-06-12 | Signatron, Inc. | Speech intelligibility enhancement |
US4531228A (en) * | 1981-10-20 | 1985-07-23 | Nissan Motor Company, Limited | Speech recognition system for an automotive vehicle |
US4486900A (en) * | 1982-03-30 | 1984-12-04 | At&T Bell Laboratories | Real time pitch detection by stream processing |
US4821325A (en) * | 1984-11-08 | 1989-04-11 | American Telephone And Telegraph Company, At&T Bell Laboratories | Endpoint detector |
US5146539A (en) * | 1984-11-30 | 1992-09-08 | Texas Instruments Incorporated | Method for utilizing formant frequencies in speech recognition |
US4630305A (en) * | 1985-07-01 | 1986-12-16 | Motorola, Inc. | Automatic gain selector for a noise suppression system |
GB8613327D0 (en) | 1986-06-02 | 1986-07-09 | British Telecomm | Speech processor |
US4998280A (en) * | 1986-12-12 | 1991-03-05 | Hitachi, Ltd. | Speech recognition apparatus capable of discriminating between similar acoustic features of speech |
US4843562A (en) * | 1987-06-24 | 1989-06-27 | Broadcast Data Systems Limited Partnership | Broadcast information classification system and method |
US4811404A (en) * | 1987-10-01 | 1989-03-07 | Motorola, Inc. | Noise suppression system |
US5027410A (en) | 1988-11-10 | 1991-06-25 | Wisconsin Alumni Research Foundation | Adaptive, programmable signal processing and filtering for hearing aids |
CN1013525B (zh) * | 1988-11-16 | 1991-08-14 | 中国科学院声学研究所 | 认人与不认人实时语音识别的方法和装置 |
JP2974423B2 (ja) * | 1991-02-13 | 1999-11-10 | シャープ株式会社 | ロンバード音声認識方法 |
US5680508A (en) | 1991-05-03 | 1997-10-21 | Itt Corporation | Enhancement of speech coding in background noise for low-rate speech coder |
US5617508A (en) * | 1992-10-05 | 1997-04-01 | Panasonic Technologies Inc. | Speech detection device for the detection of speech end points based on variance of frequency band limited energy |
DE4243831A1 (de) * | 1992-12-23 | 1994-06-30 | Daimler Benz Ag | Verfahren zur Laufzeitschätzung an gestörten Sprachkanälen |
US5400409A (en) * | 1992-12-23 | 1995-03-21 | Daimler-Benz Ag | Noise-reduction method for noise-affected voice channels |
US5692104A (en) * | 1992-12-31 | 1997-11-25 | Apple Computer, Inc. | Method and apparatus for detecting end points of speech activity |
JP3186892B2 (ja) | 1993-03-16 | 2001-07-11 | ソニー株式会社 | 風雑音低減装置 |
US5583961A (en) | 1993-03-25 | 1996-12-10 | British Telecommunications Public Limited Company | Speaker recognition using spectral coefficients normalized with respect to unequal frequency bands |
NZ263223A (en) | 1993-03-31 | 1997-11-24 | British Telecomm | Path link passing speech recognition |
DE69421077T2 (de) | 1993-03-31 | 2000-07-06 | British Telecommunications P.L.C., London | Wortkettenerkennung |
US5526466A (en) * | 1993-04-14 | 1996-06-11 | Matsushita Electric Industrial Co., Ltd. | Speech recognition apparatus |
JP3071063B2 (ja) | 1993-05-07 | 2000-07-31 | 三洋電機株式会社 | 収音装置を備えたビデオカメラ |
JP2538176B2 (ja) * | 1993-05-28 | 1996-09-25 | 松下電器産業株式会社 | エコ―制御装置 |
NO941999L (no) | 1993-06-15 | 1994-12-16 | Ontario Hydro | Automatisert intelligent overvåkingssystem |
US5475791A (en) * | 1993-08-13 | 1995-12-12 | Voice Control Systems, Inc. | Method for recognizing a spoken word in the presence of interfering speech |
US5495415A (en) * | 1993-11-18 | 1996-02-27 | Regents Of The University Of Michigan | Method and system for detecting a misfire of a reciprocating internal combustion engine |
JP3235925B2 (ja) * | 1993-11-19 | 2001-12-04 | 松下電器産業株式会社 | ハウリング抑制装置 |
US5568559A (en) * | 1993-12-17 | 1996-10-22 | Canon Kabushiki Kaisha | Sound processing apparatus |
US5502688A (en) * | 1994-11-23 | 1996-03-26 | At&T Corp. | Feedforward neural network system for the detection and characterization of sonar signals with characteristic spectrogram textures |
ATE179827T1 (de) | 1994-11-25 | 1999-05-15 | Fleming K Fink | Verfahren zur veränderung eines sprachsignales mittels grundfrequenzmanipulation |
GB2297465B (en) * | 1995-01-25 | 1999-04-28 | Dragon Syst Uk Ltd | Methods and apparatus for detecting harmonic structure in a waveform |
US5708704A (en) * | 1995-04-07 | 1998-01-13 | Texas Instruments Incorporated | Speech recognition method and system with improved voice-activated prompt interrupt capability |
US5701344A (en) * | 1995-08-23 | 1997-12-23 | Canon Kabushiki Kaisha | Audio processing apparatus |
US5584295A (en) * | 1995-09-01 | 1996-12-17 | Analogic Corporation | System for measuring the period of a quasi-periodic signal |
US5949888A (en) | 1995-09-15 | 1999-09-07 | Hughes Electronics Corporaton | Comfort noise generator for echo cancelers |
FI99062C (fi) * | 1995-10-05 | 1997-09-25 | Nokia Mobile Phones Ltd | Puhesignaalin taajuuskorjaus matkapuhelimessa |
US6434246B1 (en) * | 1995-10-10 | 2002-08-13 | Gn Resound As | Apparatus and methods for combining audio compression and feedback cancellation in a hearing aid |
DE19629132A1 (de) * | 1996-07-19 | 1998-01-22 | Daimler Benz Ag | Verfahren zur Verringerung von Störungen eines Sprachsignals |
US6167375A (en) | 1997-03-17 | 2000-12-26 | Kabushiki Kaisha Toshiba | Method for encoding and decoding a speech signal including background noise |
FI113903B (fi) * | 1997-05-07 | 2004-06-30 | Nokia Corp | Puheen koodaus |
US20020071573A1 (en) * | 1997-09-11 | 2002-06-13 | Finn Brian M. | DVE system with customized equalization |
US6173074B1 (en) * | 1997-09-30 | 2001-01-09 | Lucent Technologies, Inc. | Acoustic signature recognition and identification |
DE19747885B4 (de) * | 1997-10-30 | 2009-04-23 | Harman Becker Automotive Systems Gmbh | Verfahren zur Reduktion von Störungen akustischer Signale mittels der adaptiven Filter-Methode der spektralen Subtraktion |
US6192134B1 (en) * | 1997-11-20 | 2001-02-20 | Conexant Systems, Inc. | System and method for a monolithic directional microphone array |
US6163608A (en) * | 1998-01-09 | 2000-12-19 | Ericsson Inc. | Methods and apparatus for providing comfort noise in communications systems |
US6175602B1 (en) * | 1998-05-27 | 2001-01-16 | Telefonaktiebolaget Lm Ericsson (Publ) | Signal noise reduction by spectral subtraction using linear convolution and casual filtering |
US6507814B1 (en) * | 1998-08-24 | 2003-01-14 | Conexant Systems, Inc. | Pitch determination using speech classification and prior pitch estimation |
DE60034212T2 (de) | 1999-01-07 | 2008-01-17 | Tellabs Operations, Inc., Naperville | Verfahren und vorrichtung zur adaptiven rauschunterdrückung |
US6507816B2 (en) * | 1999-05-04 | 2003-01-14 | International Business Machines Corporation | Method and apparatus for evaluating the accuracy of a speech recognition system |
US6910011B1 (en) | 1999-08-16 | 2005-06-21 | Haman Becker Automotive Systems - Wavemakers, Inc. | Noisy acoustic signal enhancement |
US7117149B1 (en) | 1999-08-30 | 2006-10-03 | Harman Becker Automotive Systems-Wavemakers, Inc. | Sound source classification |
US6405168B1 (en) * | 1999-09-30 | 2002-06-11 | Conexant Systems, Inc. | Speaker dependent speech recognition training using simplified hidden markov modeling and robust end-point detection |
US20030123644A1 (en) | 2000-01-26 | 2003-07-03 | Harrow Scott E. | Method and apparatus for removing audio artifacts |
US6766292B1 (en) | 2000-03-28 | 2004-07-20 | Tellabs Operations, Inc. | Relative noise ratio weighting techniques for adaptive noise cancellation |
DE10017646A1 (de) * | 2000-04-08 | 2001-10-11 | Alcatel Sa | Geräuschunterdrückung im Zeitbereich |
AU2001257333A1 (en) * | 2000-04-26 | 2001-11-07 | Sybersay Communications Corporation | Adaptive speech filter |
US6587816B1 (en) | 2000-07-14 | 2003-07-01 | International Business Machines Corporation | Fast frequency-domain pitch estimation |
US7617099B2 (en) * | 2001-02-12 | 2009-11-10 | FortMedia Inc. | Noise suppression by two-channel tandem spectrum modification for speech signal in an automobile |
DE10118653C2 (de) * | 2001-04-14 | 2003-03-27 | Daimler Chrysler Ag | Verfahren zur Geräuschreduktion |
US6782363B2 (en) * | 2001-05-04 | 2004-08-24 | Lucent Technologies Inc. | Method and apparatus for performing real-time endpoint detection in automatic speech recognition |
US6859420B1 (en) | 2001-06-26 | 2005-02-22 | Bbnt Solutions Llc | Systems and methods for adaptive wind noise rejection |
US6467376B1 (en) * | 2001-07-09 | 2002-10-22 | Li-Tu Lin Wu | Hammer |
US20030216907A1 (en) * | 2002-05-14 | 2003-11-20 | Acoustic Technologies, Inc. | Enhancing the aural perception of speech |
US7146316B2 (en) * | 2002-10-17 | 2006-12-05 | Clarity Technologies, Inc. | Noise reduction in subbanded speech signals |
JP4352790B2 (ja) * | 2002-10-31 | 2009-10-28 | セイコーエプソン株式会社 | 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物 |
US7949522B2 (en) | 2003-02-21 | 2011-05-24 | Qnx Software Systems Co. | System for suppressing rain noise |
US7885420B2 (en) | 2003-02-21 | 2011-02-08 | Qnx Software Systems Co. | Wind noise suppression system |
US7725315B2 (en) | 2003-02-21 | 2010-05-25 | Qnx Software Systems (Wavemakers), Inc. | Minimization of transient noises in a voice signal |
US7895036B2 (en) * | 2003-02-21 | 2011-02-22 | Qnx Software Systems Co. | System for suppressing wind noise |
US8073689B2 (en) | 2003-02-21 | 2011-12-06 | Qnx Software Systems Co. | Repetitive transient noise removal |
US7492889B2 (en) | 2004-04-23 | 2009-02-17 | Acoustic Technologies, Inc. | Noise suppression based on bark band wiener filtering and modified doblinger noise estimate |
US7433463B2 (en) | 2004-08-10 | 2008-10-07 | Clarity Technologies, Inc. | Echo cancellation and noise reduction method |
US7383179B2 (en) | 2004-09-28 | 2008-06-03 | Clarity Technologies, Inc. | Method of cascading noise reduction algorithms to avoid speech distortion |
US7716046B2 (en) | 2004-10-26 | 2010-05-11 | Qnx Software Systems (Wavemakers), Inc. | Advanced periodic signal enhancement |
US8284947B2 (en) | 2004-12-01 | 2012-10-09 | Qnx Software Systems Limited | Reverberation estimation and suppression system |
US8027833B2 (en) | 2005-05-09 | 2011-09-27 | Qnx Software Systems Co. | System for suppressing passing tire hiss |
US8170875B2 (en) | 2005-06-15 | 2012-05-01 | Qnx Software Systems Limited | Speech end-pointer |
-
1999
- 1999-08-30 US US09/385,975 patent/US7117149B1/en not_active Expired - Lifetime
-
2000
- 2000-08-29 JP JP2001520402A patent/JP2003508804A/ja active Pending
- 2000-08-29 EP EP00963280A patent/EP1210711B1/en not_active Expired - Lifetime
- 2000-08-29 AU AU74716/00A patent/AU7471600A/en not_active Abandoned
- 2000-08-29 WO PCT/US2000/023754 patent/WO2001016937A1/en active IP Right Grant
- 2000-08-29 EP EP05022053A patent/EP1635329A3/en not_active Withdrawn
- 2000-08-29 DE DE60023517T patent/DE60023517T2/de not_active Expired - Fee Related
- 2000-08-29 CA CA002382122A patent/CA2382122A1/en not_active Abandoned
- 2000-08-29 AT AT00963280T patent/ATE308098T1/de not_active IP Right Cessation
-
2006
- 2006-09-29 US US11/540,153 patent/US7957967B2/en not_active Expired - Fee Related
-
2011
- 2011-05-11 US US13/105,621 patent/US8428945B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006251712A (ja) * | 2005-03-14 | 2006-09-21 | Univ Of Tokyo | 観測データ、特に、複数の音源からの音が混在している音響信号の解析方法 |
Also Published As
Publication number | Publication date |
---|---|
EP1210711B1 (en) | 2005-10-26 |
WO2001016937A9 (en) | 2002-09-06 |
CA2382122A1 (en) | 2001-03-08 |
US8428945B2 (en) | 2013-04-23 |
DE60023517D1 (de) | 2005-12-01 |
US20110213612A1 (en) | 2011-09-01 |
DE60023517T2 (de) | 2006-06-01 |
US20070033031A1 (en) | 2007-02-08 |
EP1210711A1 (en) | 2002-06-05 |
US7117149B1 (en) | 2006-10-03 |
AU7471600A (en) | 2001-03-26 |
ATE308098T1 (de) | 2005-11-15 |
EP1635329A3 (en) | 2007-02-07 |
WO2001016937A1 (en) | 2001-03-08 |
EP1635329A2 (en) | 2006-03-15 |
US7957967B2 (en) | 2011-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2003508804A (ja) | 音源をクラス分けするためのシステムおよび方法 | |
US20190172480A1 (en) | Voice activity detection systems and methods | |
US8036884B2 (en) | Identification of the presence of speech in digital audio data | |
US20070129941A1 (en) | Preprocessing system and method for reducing FRR in speaking recognition | |
US20100332222A1 (en) | Intelligent classification method of vocal signal | |
US20050143997A1 (en) | Method and apparatus using spectral addition for speaker recognition | |
US7359856B2 (en) | Speech detection system in an audio signal in noisy surrounding | |
JP5050698B2 (ja) | 音声処理装置およびプログラム | |
Dubuisson et al. | On the use of the correlation between acoustic descriptors for the normal/pathological voices discrimination | |
Couvreur et al. | Automatic noise recognition in urban environments based on artificial neural networks and hidden markov models | |
CN106356076A (zh) | 基于人工智能的语音活动性检测方法和装置 | |
US6470311B1 (en) | Method and apparatus for determining pitch synchronous frames | |
CN110415707B (zh) | 一种基于语音特征融合和gmm的说话人识别方法 | |
Kaminski et al. | Automatic speaker recognition using a unique personal feature vector and Gaussian Mixture Models | |
Bäckström et al. | Voice activity detection | |
US20030046069A1 (en) | Noise reduction system and method | |
KR19990001828A (ko) | 스펙트럼의 동적영역 정규화에 의한 음성 특징 추출 장치 및 방법 | |
JPS60114900A (ja) | 有音・無音判定法 | |
Tahliramani et al. | Performance Analysis of Speaker Identification System With and Without Spoofing Attack of Voice Conversion | |
Zhen et al. | On the use of bandpass liftering in speaker recognition. | |
JP2968976B2 (ja) | 音声認識装置 | |
CN113808595B (zh) | 一种从源说话人到目标说话人的声音转换方法及装置 | |
Benhafid et al. | A Study of Acoustic Features in Arabic Speaker Identification under Noisy Environmental Conditions | |
Alimuradov et al. | A Novel Approach to Speech Signal Segmentation Based on Time-Frequency Analysis | |
JPH05249987A (ja) | 音声検出方法および音声検出装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20040722 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20040722 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070814 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070814 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100921 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110301 |