JP2000132177A5 - - Google Patents
Download PDFInfo
- Publication number
- JP2000132177A5 JP2000132177A5 JP1999298768A JP29876899A JP2000132177A5 JP 2000132177 A5 JP2000132177 A5 JP 2000132177A5 JP 1999298768 A JP1999298768 A JP 1999298768A JP 29876899 A JP29876899 A JP 29876899A JP 2000132177 A5 JP2000132177 A5 JP 2000132177A5
- Authority
- JP
- Japan
- Prior art keywords
- energy
- signal
- input signal
- filtering
- boundary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001914 filtration Methods 0.000 description 27
- 238000003672 processing method Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 7
- 230000000051 modifying Effects 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 1
Description
【特許請求の範囲】
【請求項1】
入力信号を受信する受信手段と、
受信した前記入力信号のエネルギーの変動を表すエネルギー変動信号を生成する生成手段と、
基準周波数よりも低い周波数を持つエネルギー変動を除去するために、前記エネルギー変動信号をフィルタリングするフィルタリング手段と、
前記フィルタリング手段によりフィルタリングされたエネルギー変動信号を用いて前記入力信号における音声の存在を検出する検出手段と、
を有することを特徴とする音声処理装置。
【請求項2】
前記フィルタリング手段が、基準周波数よりも高い周波数のエネルギー変動を前記エネルギー変動信号から除去することを特徴とする請求項1に記載の音声処理装置。
【請求項3】
前記フィルタリング手段が、2Hzより低い周波数及び10Hzより高い周波数のエネルギー変動を前記エネルギー変動信号からフィルタリングして除去することを特徴とする請求項2に記載の音声処理装置。
【請求項4】
前記フィルタリング手段が、4Hzの周波数を持つエネルギー変動をパスすることを特徴とする請求項2または3に記載の音声処理装置。
【請求項5】
前記検出手段が、フィルタリングされたエネルギー変動信号をしきい値と比較し、その比較結果に基づいて音声の存在を検出することを特徴とする請求項1乃至4のいずれか1項に記載の音声処理装置。
【請求項6】
前記生成手段は、前記入力信号を多数の連続タイムフレームに分割し、前記エネルギー変動信号を生成するために前記連続タイムフレームの各々における入力信号のエネルギーを決定することを特徴とする請求項1乃至5のいずれか1項に記載の音声処理装置。
【請求項7】
基準周波数帯域内にフィルタリングされたエネルギー変動信号の変調パワーを決定する変調パワー決定手段を更に有することを特徴とする請求項6に記載の音声処理装置。
【請求項8】
前記フィルタリング手段及び前記変調パワー決定手段は、それぞれ、前記エネルギー変動信号の離散部分における変調パワーをフィルタリング及び決定することを特徴とする請求項7に記載の音声処理装置。
【請求項9】
それぞれ入力信号の一部分を表すフレームのシーケンスを受信する受信手段と、
各フレームのエネルギーを示すエネルギー値のシーケンスを生成する生成手段と、
基準周波数より低い周波数を持つエネルギー変動を除去するために、前記エネルギー値のシーケンスをフィルタリングするフィルタリング手段と、
フィルタリング済みのエネルギー値を用いて前記入力信号における音声の存在を検出する検出手段と、
を有することを特徴とする音声処理装置。
【請求項10】
前記入力信号における音声を含む部分と音声を含まない部分との間の境界を決定する境界決定手段を更に有し、
該境界決定手段は、前記境界をエネルギー信号における複数のロケーションの各々に位置させた場合の尤度を決定し、その中で、最大の尤度を持つロケーションを決定することを特徴とする請求項9に記載の音声処理装置。
【請求項11】
入力信号における音声を含む部分と音声を含まない部分との間における境界のロケーションを決定する音声処理装置であって、
入力信号を受信する手段と、
受信した前記入力信号の各フレームのエネルギーを示すエネルギー信号を生成する生成手段と、
前記エネルギー信号における複数のロケーションの各々に前記境界を位置させた場合の尤度を決定する尤度決定手段と、
前記複数のロケーションの各々に関して決定された前記尤度を用いて、前記境界のロケーションを決定する手段と
を有することを特徴とする音声処理装置。
【請求項12】
前記尤度決定手段は、前記複数のロケーションの各々について、
(i)前記エネルギー信号における、前記ロケーションから一方の側の部分を、バックグラウンドノイズ内エネルギーを表す第1モデルと比較し、
(ii)前記エネルギー信号における、前記ロケーションからもう一方の側の部分を、音声内エネルギーを表す第2モデルと比較し、
(iii)比較結果を組み合わせて、前記ロケーションに関する尤度を決定することにより、
前記境界を前記複数のロケーションの各々に位置させた場合の尤度を決定することを特徴とする請求項11に記載の音声処理装置。
【請求項13】
前記第1及び第2モデルは統計的モデルであることを特徴とする請求項12に記載の音声処理装置。
【請求項14】
前記第1及び第2モデルはラプラス統計に基づくことを特徴とする請求項13に記載の音声処理装置。
【請求項15】
前記第2モデルは自己回帰モデルであることを特徴とする請求項13または14に記載の音声処理装置。
【請求項16】
前記入力信号を処理し、かつ前記入力信号に音声が存在することを識別する音声検出手段を有し、
前記音声検出手段が前記入力信号において音声を検出した場合に前記尤度決定手段が前記入力信号における前記尤度を決定することを特徴とする請求項11乃至15のいずれか1項に記載の音声処理装置。
【請求項17】
基準周波数より低い周波数を持つエネルギー変動を除去するために前記エネルギー信号をフィルタリングするフィルタリング手段を更に有することを特徴とする請求項11乃至16のいずれか1項に記載の音声処理装置。
【請求項18】
前記フィルタリング手段が1Hzより低い周波数のエネルギー変動をフィルタリングして除去することを特徴とする請求項17に記載の音声処理装置。
【請求項19】
前記生成手段は、前記入力信号を複数の連続タイムフレームに分割し、離散エネルギー信号を生成するために前記タイムフレームの各々における前記入力信号のエネルギーを決定することを特徴とする請求項11乃至18のいずれか1項に記載の音声処理装置。
【請求項20】
前記生成手段は、前記入力信号を多数の連続タイムフレームに分割し、離散エネルギー信号を生成するために前記タイムフレームの各々における入力信号のエネルギーを決定し、
前記フィルタリング手段は、フィルタリング済みのエネルギー信号を表す多数の離散サンプルを出力することを特徴とする請求項17に記載の音声処理装置。
【請求項21】
前記境界が、前記入力信号の音声を含む部分の開始または終端に位置することを特徴とする請求項11乃至20のいずれか1項に記載の音声処理装置。
【請求項22】
受信手段が、入力信号を受信する受信ステップと、
生成手段が、受信した前記入力信号のエネルギーの変動を表すエネルギー変動信号を生成する生成ステップと、
フィルタリング手段が、基準周波数より低い周波数を持つエネルギー変動を除去するために、前記エネルギー変動信号をフィルタリングするフィルタリングステップと、
検出手段が、前記フィルタリングステップでフィルタリングされたエネルギー変動信号を用いて前記入力信号における音声の存在を検出する検出ステップと、
を含むことを特徴とする音声処理方法。
【請求項23】
前記フィルタリングステップでは、2Hzより低い周波数及び10Hzより高い周波数のエネルギー変動をフィルタリングして除去することを特徴とする請求項22に記載の音声処理方法。
【請求項24】
前記フィルタリングステップでは、4Hzの周波数を持つエネルギー変動をパスすることを特徴とする請求項22または23に記載の音声処理方法。
【請求項25】
受信手段が、各々が入力信号の一部分を表すフレームのシーケンスを受信する受信ステップと、
生成手段が、各フレームのエネルギーを示すエネルギー値のシーケンスを生成する生成ステップと、
フィルタリング手段が、基準周波数より低い周波数を持つエネルギー変動を除去するために、前記エネルギー値のシーケンスをフィルタリングするフィルタリングステップと、
検出手段が、フィルタリングされたエネルギー値を用いて前記入力信号における音声の存在を検出する検出ステップと、
を含むことを特徴とする音声処理方法。
【請求項26】
境界決定手段が、前記入力信号における音声を含む部分と音声を含まない部分との間の境界を決定する境界決定ステップを更に含み、
該境界決定ステップでは、前記境界をエネルギー信号における複数のロケーションの各々に位置させた場合の尤度を決定し、その中で最大の尤度を持つロケーションを決定することを特徴とする請求項25に記載の音声処理方法。
【請求項27】
入力信号における音声を含む部分と音声を含まない部分との間の境界のロケーションを決定する音声処理方法であって、
受信手段が、入力信号を受信する受信ステップと、
生成手段が、受信した前記入力信号における局部エネルギーを示すエネルギー信号を生成する生成ステップと、
尤度決定手段が、前記境界を前記エネルギー信号における複数のロケーションの各々に位置させた場合の尤度を決定する尤度決定ステップと、
境界決定手段が、前記複数のロケーションの各々に関して決定された前記尤度を用いて、前記境界のロケーションを決定する境界決定ステップと、
を含むことを特徴とする音声処理方法。
【請求項28】
前記尤度決定ステップでは、前記複数のロケーションの各々について、
(i)前記エネルギー信号における、前記ロケーションから一方の側の部分を、バックグラウンドノイズ内エネルギーを表すモデルと比較し、
(ii)前記エネルギー信号における、前記ロケーションからもう一方の側の部分を、音声内エネルギーを表すモデルと比較し、
(iii)比較結果を組み合わせて、前記ロケーションに関する尤度を決定することにより、
前記境界を前記ロケーションの各々に位置させた場合の尤度を決定することを特徴とする請求項27に記載の音声処理方法。
【請求項29】
請求項22乃至28のいずれか1項に記載の音声処理方法をコンピュータに実行させるためのプログラムを記憶したコンピュータ読取可能な記憶媒体。
【請求項1】
入力信号を受信する受信手段と、
受信した前記入力信号のエネルギーの変動を表すエネルギー変動信号を生成する生成手段と、
基準周波数よりも低い周波数を持つエネルギー変動を除去するために、前記エネルギー変動信号をフィルタリングするフィルタリング手段と、
前記フィルタリング手段によりフィルタリングされたエネルギー変動信号を用いて前記入力信号における音声の存在を検出する検出手段と、
を有することを特徴とする音声処理装置。
【請求項2】
前記フィルタリング手段が、基準周波数よりも高い周波数のエネルギー変動を前記エネルギー変動信号から除去することを特徴とする請求項1に記載の音声処理装置。
【請求項3】
前記フィルタリング手段が、2Hzより低い周波数及び10Hzより高い周波数のエネルギー変動を前記エネルギー変動信号からフィルタリングして除去することを特徴とする請求項2に記載の音声処理装置。
【請求項4】
前記フィルタリング手段が、4Hzの周波数を持つエネルギー変動をパスすることを特徴とする請求項2または3に記載の音声処理装置。
【請求項5】
前記検出手段が、フィルタリングされたエネルギー変動信号をしきい値と比較し、その比較結果に基づいて音声の存在を検出することを特徴とする請求項1乃至4のいずれか1項に記載の音声処理装置。
【請求項6】
前記生成手段は、前記入力信号を多数の連続タイムフレームに分割し、前記エネルギー変動信号を生成するために前記連続タイムフレームの各々における入力信号のエネルギーを決定することを特徴とする請求項1乃至5のいずれか1項に記載の音声処理装置。
【請求項7】
基準周波数帯域内にフィルタリングされたエネルギー変動信号の変調パワーを決定する変調パワー決定手段を更に有することを特徴とする請求項6に記載の音声処理装置。
【請求項8】
前記フィルタリング手段及び前記変調パワー決定手段は、それぞれ、前記エネルギー変動信号の離散部分における変調パワーをフィルタリング及び決定することを特徴とする請求項7に記載の音声処理装置。
【請求項9】
それぞれ入力信号の一部分を表すフレームのシーケンスを受信する受信手段と、
各フレームのエネルギーを示すエネルギー値のシーケンスを生成する生成手段と、
基準周波数より低い周波数を持つエネルギー変動を除去するために、前記エネルギー値のシーケンスをフィルタリングするフィルタリング手段と、
フィルタリング済みのエネルギー値を用いて前記入力信号における音声の存在を検出する検出手段と、
を有することを特徴とする音声処理装置。
【請求項10】
前記入力信号における音声を含む部分と音声を含まない部分との間の境界を決定する境界決定手段を更に有し、
該境界決定手段は、前記境界をエネルギー信号における複数のロケーションの各々に位置させた場合の尤度を決定し、その中で、最大の尤度を持つロケーションを決定することを特徴とする請求項9に記載の音声処理装置。
【請求項11】
入力信号における音声を含む部分と音声を含まない部分との間における境界のロケーションを決定する音声処理装置であって、
入力信号を受信する手段と、
受信した前記入力信号の各フレームのエネルギーを示すエネルギー信号を生成する生成手段と、
前記エネルギー信号における複数のロケーションの各々に前記境界を位置させた場合の尤度を決定する尤度決定手段と、
前記複数のロケーションの各々に関して決定された前記尤度を用いて、前記境界のロケーションを決定する手段と
を有することを特徴とする音声処理装置。
【請求項12】
前記尤度決定手段は、前記複数のロケーションの各々について、
(i)前記エネルギー信号における、前記ロケーションから一方の側の部分を、バックグラウンドノイズ内エネルギーを表す第1モデルと比較し、
(ii)前記エネルギー信号における、前記ロケーションからもう一方の側の部分を、音声内エネルギーを表す第2モデルと比較し、
(iii)比較結果を組み合わせて、前記ロケーションに関する尤度を決定することにより、
前記境界を前記複数のロケーションの各々に位置させた場合の尤度を決定することを特徴とする請求項11に記載の音声処理装置。
【請求項13】
前記第1及び第2モデルは統計的モデルであることを特徴とする請求項12に記載の音声処理装置。
【請求項14】
前記第1及び第2モデルはラプラス統計に基づくことを特徴とする請求項13に記載の音声処理装置。
【請求項15】
前記第2モデルは自己回帰モデルであることを特徴とする請求項13または14に記載の音声処理装置。
【請求項16】
前記入力信号を処理し、かつ前記入力信号に音声が存在することを識別する音声検出手段を有し、
前記音声検出手段が前記入力信号において音声を検出した場合に前記尤度決定手段が前記入力信号における前記尤度を決定することを特徴とする請求項11乃至15のいずれか1項に記載の音声処理装置。
【請求項17】
基準周波数より低い周波数を持つエネルギー変動を除去するために前記エネルギー信号をフィルタリングするフィルタリング手段を更に有することを特徴とする請求項11乃至16のいずれか1項に記載の音声処理装置。
【請求項18】
前記フィルタリング手段が1Hzより低い周波数のエネルギー変動をフィルタリングして除去することを特徴とする請求項17に記載の音声処理装置。
【請求項19】
前記生成手段は、前記入力信号を複数の連続タイムフレームに分割し、離散エネルギー信号を生成するために前記タイムフレームの各々における前記入力信号のエネルギーを決定することを特徴とする請求項11乃至18のいずれか1項に記載の音声処理装置。
【請求項20】
前記生成手段は、前記入力信号を多数の連続タイムフレームに分割し、離散エネルギー信号を生成するために前記タイムフレームの各々における入力信号のエネルギーを決定し、
前記フィルタリング手段は、フィルタリング済みのエネルギー信号を表す多数の離散サンプルを出力することを特徴とする請求項17に記載の音声処理装置。
【請求項21】
前記境界が、前記入力信号の音声を含む部分の開始または終端に位置することを特徴とする請求項11乃至20のいずれか1項に記載の音声処理装置。
【請求項22】
受信手段が、入力信号を受信する受信ステップと、
生成手段が、受信した前記入力信号のエネルギーの変動を表すエネルギー変動信号を生成する生成ステップと、
フィルタリング手段が、基準周波数より低い周波数を持つエネルギー変動を除去するために、前記エネルギー変動信号をフィルタリングするフィルタリングステップと、
検出手段が、前記フィルタリングステップでフィルタリングされたエネルギー変動信号を用いて前記入力信号における音声の存在を検出する検出ステップと、
を含むことを特徴とする音声処理方法。
【請求項23】
前記フィルタリングステップでは、2Hzより低い周波数及び10Hzより高い周波数のエネルギー変動をフィルタリングして除去することを特徴とする請求項22に記載の音声処理方法。
【請求項24】
前記フィルタリングステップでは、4Hzの周波数を持つエネルギー変動をパスすることを特徴とする請求項22または23に記載の音声処理方法。
【請求項25】
受信手段が、各々が入力信号の一部分を表すフレームのシーケンスを受信する受信ステップと、
生成手段が、各フレームのエネルギーを示すエネルギー値のシーケンスを生成する生成ステップと、
フィルタリング手段が、基準周波数より低い周波数を持つエネルギー変動を除去するために、前記エネルギー値のシーケンスをフィルタリングするフィルタリングステップと、
検出手段が、フィルタリングされたエネルギー値を用いて前記入力信号における音声の存在を検出する検出ステップと、
を含むことを特徴とする音声処理方法。
【請求項26】
境界決定手段が、前記入力信号における音声を含む部分と音声を含まない部分との間の境界を決定する境界決定ステップを更に含み、
該境界決定ステップでは、前記境界をエネルギー信号における複数のロケーションの各々に位置させた場合の尤度を決定し、その中で最大の尤度を持つロケーションを決定することを特徴とする請求項25に記載の音声処理方法。
【請求項27】
入力信号における音声を含む部分と音声を含まない部分との間の境界のロケーションを決定する音声処理方法であって、
受信手段が、入力信号を受信する受信ステップと、
生成手段が、受信した前記入力信号における局部エネルギーを示すエネルギー信号を生成する生成ステップと、
尤度決定手段が、前記境界を前記エネルギー信号における複数のロケーションの各々に位置させた場合の尤度を決定する尤度決定ステップと、
境界決定手段が、前記複数のロケーションの各々に関して決定された前記尤度を用いて、前記境界のロケーションを決定する境界決定ステップと、
を含むことを特徴とする音声処理方法。
【請求項28】
前記尤度決定ステップでは、前記複数のロケーションの各々について、
(i)前記エネルギー信号における、前記ロケーションから一方の側の部分を、バックグラウンドノイズ内エネルギーを表すモデルと比較し、
(ii)前記エネルギー信号における、前記ロケーションからもう一方の側の部分を、音声内エネルギーを表すモデルと比較し、
(iii)比較結果を組み合わせて、前記ロケーションに関する尤度を決定することにより、
前記境界を前記ロケーションの各々に位置させた場合の尤度を決定することを特徴とする請求項27に記載の音声処理方法。
【請求項29】
請求項22乃至28のいずれか1項に記載の音声処理方法をコンピュータに実行させるためのプログラムを記憶したコンピュータ読取可能な記憶媒体。
【0005】
【課題を解決するための手段】
本発明は、その一態様によれば、次に示す手段を有する音声認識装置を提供する。即ち、入力信号を受信する手段と、受信した前記入力信号のエネルギーの変動を表すエネルギー変動信号を生成する生成手段と、基準周波数よりも低い周波数を持つエネルギー変動を除去するために、前記エネルギー変動信号をフィルタリングするフィルタリング手段と、前記フィルタリング手段によりフィルタリングされたエネルギー変動信号を用いて前記入力信号における音声の存在を検出する検出手段とを有する。ノイズレベルが高い環境であっても音声の存在を一層的確に検出できることがこの装置の利点である。音声に起因するエネルギー変動に較べてノイズレベルの変化は一般に比較的遅い(1Hz未満)ことにより、着目したものである。
【課題を解決するための手段】
本発明は、その一態様によれば、次に示す手段を有する音声認識装置を提供する。即ち、入力信号を受信する手段と、受信した前記入力信号のエネルギーの変動を表すエネルギー変動信号を生成する生成手段と、基準周波数よりも低い周波数を持つエネルギー変動を除去するために、前記エネルギー変動信号をフィルタリングするフィルタリング手段と、前記フィルタリング手段によりフィルタリングされたエネルギー変動信号を用いて前記入力信号における音声の存在を検出する検出手段とを有する。ノイズレベルが高い環境であっても音声の存在を一層的確に検出できることがこの装置の利点である。音声に起因するエネルギー変動に較べてノイズレベルの変化は一般に比較的遅い(1Hz未満)ことにより、着目したものである。
本発明は、他の態様によれば、入力信号における音声を含む部分と音声を含まない部分との間の境界の位置を決定する装置を提供する。即ち、入力信号を受信する手段と受信した前記入力信号の各フレームのエネルギーを示すエネルギー信号を生成する生成手段と、前記エネルギー信号における複数のロケーションの各々に前記境界を位置させた場合の尤度を決定する尤度決定手段と、前記複数のロケーションの各々に関して決定された前記尤度を用いて、前記境界のロケーションを決定する手段とを有する。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GBGB9822932.1A GB9822932D0 (en) | 1998-10-20 | 1998-10-20 | Speech processing apparatus and method |
GBGB9822928.9A GB9822928D0 (en) | 1998-10-20 | 1998-10-20 | Speech processing apparatus and method |
GB9822932.1 | 1998-10-20 | ||
GB9822928.9 | 1998-10-20 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2000132177A JP2000132177A (ja) | 2000-05-12 |
JP2000132177A5 true JP2000132177A5 (ja) | 2009-08-27 |
JP4484283B2 JP4484283B2 (ja) | 2010-06-16 |
Family
ID=26314539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP29876899A Expired - Fee Related JP4484283B2 (ja) | 1998-10-20 | 1999-10-20 | 音声処理装置及び方法 |
Country Status (4)
Country | Link |
---|---|
US (2) | US6711536B2 (ja) |
EP (1) | EP0996110B1 (ja) |
JP (1) | JP4484283B2 (ja) |
DE (1) | DE69926851T2 (ja) |
Families Citing this family (58)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6711536B2 (en) * | 1998-10-20 | 2004-03-23 | Canon Kabushiki Kaisha | Speech processing apparatus and method |
US6327564B1 (en) * | 1999-03-05 | 2001-12-04 | Matsushita Electric Corporation Of America | Speech detection using stochastic confidence measures on the frequency spectrum |
US6868380B2 (en) * | 2000-03-24 | 2005-03-15 | Eliza Corporation | Speech recognition system and method for generating phonotic estimates |
WO2002029780A2 (en) * | 2000-10-04 | 2002-04-11 | Clarity, Llc | Speech detection with source separation |
JP2002132287A (ja) * | 2000-10-20 | 2002-05-09 | Canon Inc | 音声収録方法および音声収録装置および記憶媒体 |
US6850887B2 (en) * | 2001-02-28 | 2005-02-01 | International Business Machines Corporation | Speech recognition in noisy environments |
ATE288615T1 (de) * | 2001-03-14 | 2005-02-15 | Ibm | Verfahren und prozessorsystem zur audiosignalverarbeitung |
GB2380644A (en) * | 2001-06-07 | 2003-04-09 | Canon Kk | Speech detection |
US6959276B2 (en) * | 2001-09-27 | 2005-10-25 | Microsoft Corporation | Including the category of environmental noise when processing speech signals |
US7299173B2 (en) * | 2002-01-30 | 2007-11-20 | Motorola Inc. | Method and apparatus for speech detection using time-frequency variance |
US7492908B2 (en) * | 2002-05-03 | 2009-02-17 | Harman International Industries, Incorporated | Sound localization system based on analysis of the sound field |
US7072828B2 (en) * | 2002-05-13 | 2006-07-04 | Avaya Technology Corp. | Apparatus and method for improved voice activity detection |
US20040064314A1 (en) * | 2002-09-27 | 2004-04-01 | Aubert Nicolas De Saint | Methods and apparatus for speech end-point detection |
US7885420B2 (en) * | 2003-02-21 | 2011-02-08 | Qnx Software Systems Co. | Wind noise suppression system |
US8326621B2 (en) | 2003-02-21 | 2012-12-04 | Qnx Software Systems Limited | Repetitive transient noise removal |
US7895036B2 (en) * | 2003-02-21 | 2011-02-22 | Qnx Software Systems Co. | System for suppressing wind noise |
US7725315B2 (en) * | 2003-02-21 | 2010-05-25 | Qnx Software Systems (Wavemakers), Inc. | Minimization of transient noises in a voice signal |
US8073689B2 (en) * | 2003-02-21 | 2011-12-06 | Qnx Software Systems Co. | Repetitive transient noise removal |
US7949522B2 (en) | 2003-02-21 | 2011-05-24 | Qnx Software Systems Co. | System for suppressing rain noise |
US8271279B2 (en) | 2003-02-21 | 2012-09-18 | Qnx Software Systems Limited | Signature noise removal |
JP4348970B2 (ja) * | 2003-03-06 | 2009-10-21 | ソニー株式会社 | 情報検出装置及び方法、並びにプログラム |
US8918316B2 (en) * | 2003-07-29 | 2014-12-23 | Alcatel Lucent | Content identification system |
GB2405948B (en) * | 2003-09-12 | 2006-06-28 | Canon Res Ct Europ Ltd | Voice activated device |
GB2405949A (en) * | 2003-09-12 | 2005-03-16 | Canon Kk | Voice activated device with periodicity determination |
US7756709B2 (en) * | 2004-02-02 | 2010-07-13 | Applied Voice & Speech Technologies, Inc. | Detection of voice inactivity within a sound stream |
WO2006008810A1 (ja) * | 2004-07-21 | 2006-01-26 | Fujitsu Limited | 速度変換装置、速度変換方法及びプログラム |
US20060100866A1 (en) * | 2004-10-28 | 2006-05-11 | International Business Machines Corporation | Influencing automatic speech recognition signal-to-noise levels |
EP1840877A4 (en) * | 2005-01-18 | 2008-05-21 | Fujitsu Ltd | ELOCUTION SPEED CHANGING METHOD AND ELOCUTION SPEED CHANGING DEVICE |
FR2881867A1 (fr) * | 2005-02-04 | 2006-08-11 | France Telecom | Procede de transmission de marques de fin de parole dans un systeme de reconnaissance de la parole |
US8219391B2 (en) * | 2005-02-15 | 2012-07-10 | Raytheon Bbn Technologies Corp. | Speech analyzing system with speech codebook |
US7962340B2 (en) * | 2005-08-22 | 2011-06-14 | Nuance Communications, Inc. | Methods and apparatus for buffering data for use in accordance with a speech recognition system |
US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
US8364492B2 (en) * | 2006-07-13 | 2013-01-29 | Nec Corporation | Apparatus, method and program for giving warning in connection with inputting of unvoiced speech |
KR100883652B1 (ko) * | 2006-08-03 | 2009-02-18 | 삼성전자주식회사 | 음성 구간 검출 방법 및 장치, 및 이를 이용한 음성 인식시스템 |
US8775168B2 (en) * | 2006-08-10 | 2014-07-08 | Stmicroelectronics Asia Pacific Pte, Ltd. | Yule walker based low-complexity voice activity detector in noise suppression systems |
KR100897554B1 (ko) * | 2007-02-21 | 2009-05-15 | 삼성전자주식회사 | 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기 |
JP5089295B2 (ja) * | 2007-08-31 | 2012-12-05 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声処理システム、方法及びプログラム |
EP2083417B1 (en) | 2008-01-25 | 2015-07-29 | Yamaha Corporation | Sound processing device and program |
JP5169297B2 (ja) * | 2008-02-22 | 2013-03-27 | ヤマハ株式会社 | 音処理装置およびプログラム |
US8190440B2 (en) * | 2008-02-29 | 2012-05-29 | Broadcom Corporation | Sub-band codec with native voice activity detection |
US8762150B2 (en) | 2010-09-16 | 2014-06-24 | Nuance Communications, Inc. | Using codec parameters for endpoint detection in speech recognition |
US8942975B2 (en) * | 2010-11-10 | 2015-01-27 | Broadcom Corporation | Noise suppression in a Mel-filtered spectral domain |
US8719019B2 (en) * | 2011-04-25 | 2014-05-06 | Microsoft Corporation | Speaker identification |
US8972256B2 (en) * | 2011-10-17 | 2015-03-03 | Nuance Communications, Inc. | System and method for dynamic noise adaptation for robust automatic speech recognition |
CN104221079B (zh) * | 2012-02-21 | 2017-03-01 | 塔塔顾问服务有限公司 | 利用频谱特性进行声音分析的改进的梅尔滤波器组结构 |
US9060052B2 (en) | 2013-03-13 | 2015-06-16 | Accusonus S.A. | Single channel, binaural and multi-channel dereverberation |
JP2017532082A (ja) | 2014-08-22 | 2017-11-02 | エスアールアイ インターナショナルSRI International | 患者の精神状態のスピーチベース評価のためのシステム |
CN104599675A (zh) * | 2015-02-09 | 2015-05-06 | 宇龙计算机通信科技(深圳)有限公司 | 语音处理方法、语音处理装置和终端 |
US10134425B1 (en) * | 2015-06-29 | 2018-11-20 | Amazon Technologies, Inc. | Direction-based speech endpointing |
US10706873B2 (en) * | 2015-09-18 | 2020-07-07 | Sri International | Real-time speaker state analytics platform |
CN106157951B (zh) * | 2016-08-31 | 2019-04-23 | 北京华科飞扬科技股份公司 | 进行音频断句的自动拆分方法及系统 |
CN106373592B (zh) * | 2016-08-31 | 2019-04-23 | 北京华科飞扬科技股份公司 | 音频容噪断句处理方法及系统 |
JP2018072723A (ja) * | 2016-11-02 | 2018-05-10 | ヤマハ株式会社 | 音響処理方法および音響処理装置 |
US11216724B2 (en) * | 2017-12-07 | 2022-01-04 | Intel Corporation | Acoustic event detection based on modelling of sequence of event subparts |
JP6838588B2 (ja) * | 2018-08-28 | 2021-03-03 | 横河電機株式会社 | 音声分析装置、音声分析方法、プログラム、および記録媒体 |
CN110136715B (zh) | 2019-05-16 | 2021-04-06 | 北京百度网讯科技有限公司 | 语音识别方法和装置 |
CN113593539A (zh) * | 2020-04-30 | 2021-11-02 | 阿里巴巴集团控股有限公司 | 流式端到端语音识别方法、装置及电子设备 |
TWI748587B (zh) * | 2020-08-04 | 2021-12-01 | 瑞昱半導體股份有限公司 | 聲音事件偵測系統及方法 |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3873925A (en) | 1974-03-07 | 1975-03-25 | Motorola Inc | Audio frequency squelch system |
US3873926A (en) | 1974-05-03 | 1975-03-25 | Motorola Inc | Audio frequency squelch system |
US4187396A (en) | 1977-06-09 | 1980-02-05 | Harris Corporation | Voice detector circuit |
US4481593A (en) * | 1981-10-05 | 1984-11-06 | Exxon Corporation | Continuous speech recognition |
US4489434A (en) * | 1981-10-05 | 1984-12-18 | Exxon Corporation | Speech recognition method and apparatus |
JPS5868097A (ja) * | 1981-10-20 | 1983-04-22 | 日産自動車株式会社 | 車両用音声認識装置 |
US4484344A (en) | 1982-03-01 | 1984-11-20 | Rockwell International Corporation | Voice operated switch |
JPS6048100A (ja) * | 1983-08-26 | 1985-03-15 | 松下電器産業株式会社 | 音声認識装置 |
JPS60200300A (ja) * | 1984-03-23 | 1985-10-09 | 松下電器産業株式会社 | 音声の始端・終端検出装置 |
US4718092A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition activation and deactivation method |
JPS6148898A (ja) * | 1984-08-16 | 1986-03-10 | 松下電器産業株式会社 | 音声の有声無声判定装置 |
US4956865A (en) * | 1985-01-30 | 1990-09-11 | Northern Telecom Limited | Speech recognition |
US4870686A (en) * | 1987-10-19 | 1989-09-26 | Motorola, Inc. | Method for entering digit sequences by voice command |
US5305422A (en) * | 1992-02-28 | 1994-04-19 | Panasonic Technologies, Inc. | Method for determining boundaries of isolated words within a speech signal |
JPH0619498A (ja) * | 1992-07-01 | 1994-01-28 | Fujitsu Ltd | 音声検出器 |
US5617508A (en) | 1992-10-05 | 1997-04-01 | Panasonic Technologies Inc. | Speech detection device for the detection of speech end points based on variance of frequency band limited energy |
FR2697101B1 (fr) * | 1992-10-21 | 1994-11-25 | Sextant Avionique | Procédé de détection de la parole. |
US5692104A (en) * | 1992-12-31 | 1997-11-25 | Apple Computer, Inc. | Method and apparatus for detecting end points of speech activity |
US5459814A (en) * | 1993-03-26 | 1995-10-17 | Hughes Aircraft Company | Voice activity detector for speech signals in variable background noise |
US5473726A (en) * | 1993-07-06 | 1995-12-05 | The United States Of America As Represented By The Secretary Of The Air Force | Audio and amplitude modulated photo data collection for speech recognition |
JPH07273738A (ja) * | 1994-03-28 | 1995-10-20 | Toshiba Corp | 音声送信制御回路 |
DE4422545A1 (de) | 1994-06-28 | 1996-01-04 | Sel Alcatel Ag | Start-/Endpunkt-Detektion zur Worterkennung |
US5594834A (en) * | 1994-09-30 | 1997-01-14 | Motorola, Inc. | Method and system for recognizing a boundary between sounds in continuous speech |
US5638487A (en) * | 1994-12-30 | 1997-06-10 | Purespeech, Inc. | Automatic speech recognition |
US5778342A (en) * | 1996-02-01 | 1998-07-07 | Dspc Israel Ltd. | Pattern recognition system and method |
US5842161A (en) * | 1996-06-25 | 1998-11-24 | Lucent Technologies Inc. | Telecommunications instrument employing variable criteria speech recognition |
US6570991B1 (en) | 1996-12-18 | 2003-05-27 | Interval Research Corporation | Multi-feature speech/music discrimination system |
JP2000047697A (ja) * | 1998-07-30 | 2000-02-18 | Nec Eng Ltd | ノイズキャンセラ |
US6138095A (en) * | 1998-09-03 | 2000-10-24 | Lucent Technologies Inc. | Speech recognition |
JP3310225B2 (ja) * | 1998-09-29 | 2002-08-05 | 松下電器産業株式会社 | 雑音レベル時間変動率計算方法及び装置と雑音低減方法及び装置 |
GB9822931D0 (en) * | 1998-10-20 | 1998-12-16 | Canon Kk | Speech processing apparatus and method |
GB9822930D0 (en) * | 1998-10-20 | 1998-12-16 | Canon Kk | Speech processing apparatus and method |
US6711536B2 (en) * | 1998-10-20 | 2004-03-23 | Canon Kabushiki Kaisha | Speech processing apparatus and method |
US6249757B1 (en) * | 1999-02-16 | 2001-06-19 | 3Com Corporation | System for detecting voice activity |
-
1999
- 1999-09-30 US US09/409,247 patent/US6711536B2/en not_active Expired - Lifetime
- 1999-10-18 EP EP99308210A patent/EP0996110B1/en not_active Expired - Lifetime
- 1999-10-18 DE DE69926851T patent/DE69926851T2/de not_active Expired - Lifetime
- 1999-10-20 JP JP29876899A patent/JP4484283B2/ja not_active Expired - Fee Related
-
2004
- 2004-02-04 US US10/770,421 patent/US20040158465A1/en not_active Abandoned
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2000132177A5 (ja) | ||
US7508948B2 (en) | Reverberation removal | |
WO2013140399A1 (en) | System and method for robust estimation and tracking the fundamental frequency of pseudo periodic signals in the presence of noise | |
US11404070B2 (en) | System and method for identifying and processing audio signals | |
CN101621730A (zh) | 用于检测声反馈的装置和方法 | |
CN106878866A (zh) | 音频信号处理方法、装置及终端 | |
JP4740609B2 (ja) | 有声音および無声音の検出装置、並びにその方法 | |
US20180005647A1 (en) | Multiple pitch extraction by strength calculation from extrema | |
KR960005740B1 (ko) | 음성신호처리장치 | |
JP2010197124A (ja) | 異音検出装置、方法及びプログラム | |
CN110248300A (zh) | 一种基于自主学习的啸叫抑制方法及扩声系统 | |
JP2014126856A (ja) | 雑音除去装置及びその制御方法 | |
JP2005266797A (ja) | 音源信号分離装置及び方法、並びにピッチ検出装置及び方法 | |
CN111223492A (zh) | 一种回声路径延迟估计方法及装置 | |
JP2010021627A (ja) | 音量調整装置、音量調整方法および音量調整プログラム | |
EP3428918B1 (en) | Pop noise control | |
JPH0431898A (ja) | 音声雑音分離装置 | |
US20200402499A1 (en) | Detecting speech activity in real-time in audio signal | |
JP3435357B2 (ja) | 収音方法、その装置及びプログラム記録媒体 | |
Yegnanarayana et al. | Study of robustness of zero frequency resonator method for extraction of fundamental frequency | |
US9978393B1 (en) | System and method for automatically removing noise defects from sound recordings | |
JP2020134887A (ja) | 音信号処理プログラム、音信号処理方法及び音信号処理装置 | |
JPH06164278A (ja) | ハウリング抑制装置 | |
JP7278161B2 (ja) | 情報処理装置、プログラム及び情報処理方法 | |
JPH09127073A (ja) | 自己回帰モデルを利用した時系列データの収集、処理方法 |