JP2000132177A5

JP2000132177A5 -

Info

Publication number: JP2000132177A5
Application number: JP1999298768A
Authority: JP
Filing date: 1999-10-20
Publication date: 2009-08-27
Anticipated expiration: 2019-10-20

Description

【特許請求の範囲】
【請求項１】
入力信号を受信する受信手段と、
受信した前記入力信号のエネルギーの変動を表すエネルギー変動信号を生成する生成手段と、
基準周波数よりも低い周波数を持つエネルギー変動を除去するために、前記エネルギー変動信号をフィルタリングするフィルタリング手段と、
前記フィルタリング手段によりフィルタリングされたエネルギー変動信号を用いて前記入力信号における音声の存在を検出する検出手段と、
を有することを特徴とする音声処理装置。
【請求項２】
前記フィルタリング手段が、基準周波数よりも高い周波数のエネルギー変動を前記エネルギー変動信号から除去することを特徴とする請求項１に記載の音声処理装置。
【請求項３】
前記フィルタリング手段が、２Ｈｚより低い周波数及び１０Ｈｚより高い周波数のエネルギー変動を前記エネルギー変動信号からフィルタリングして除去することを特徴とする請求項２に記載の音声処理装置。
【請求項４】
前記フィルタリング手段が、４Ｈｚの周波数を持つエネルギー変動をパスすることを特徴とする請求項２または３に記載の音声処理装置。
【請求項５】
前記検出手段が、フィルタリングされたエネルギー変動信号をしきい値と比較し、その比較結果に基づいて音声の存在を検出することを特徴とする請求項１乃至４のいずれか１項に記載の音声処理装置。
【請求項６】
前記生成手段は、前記入力信号を多数の連続タイムフレームに分割し、前記エネルギー変動信号を生成するために前記連続タイムフレームの各々における入力信号のエネルギーを決定することを特徴とする請求項１乃至５のいずれか１項に記載の音声処理装置。
【請求項７】
基準周波数帯域内にフィルタリングされたエネルギー変動信号の変調パワーを決定する変調パワー決定手段を更に有することを特徴とする請求項６に記載の音声処理装置。
【請求項８】
前記フィルタリング手段及び前記変調パワー決定手段は、それぞれ、前記エネルギー変動信号の離散部分における変調パワーをフィルタリング及び決定することを特徴とする請求項７に記載の音声処理装置。
【請求項９】
それぞれ入力信号の一部分を表すフレームのシーケンスを受信する受信手段と、
各フレームのエネルギーを示すエネルギー値のシーケンスを生成する生成手段と、
基準周波数より低い周波数を持つエネルギー変動を除去するために、前記エネルギー値のシーケンスをフィルタリングするフィルタリング手段と、
フィルタリング済みのエネルギー値を用いて前記入力信号における音声の存在を検出する検出手段と、
を有することを特徴とする音声処理装置。
【請求項１０】
前記入力信号における音声を含む部分と音声を含まない部分との間の境界を決定する境界決定手段を更に有し、
該境界決定手段は、前記境界をエネルギー信号における複数のロケーションの各々に位置させた場合の尤度を決定し、その中で、最大の尤度を持つロケーションを決定することを特徴とする請求項９に記載の音声処理装置。
【請求項１１】
入力信号における音声を含む部分と音声を含まない部分との間における境界のロケーションを決定する音声処理装置であって、
入力信号を受信する手段と、
受信した前記入力信号の各フレームのエネルギーを示すエネルギー信号を生成する生成手段と、
前記エネルギー信号における複数のロケーションの各々に前記境界を位置させた場合の尤度を決定する尤度決定手段と、
前記複数のロケーションの各々に関して決定された前記尤度を用いて、前記境界のロケーションを決定する手段と
を有することを特徴とする音声処理装置。
【請求項１２】
前記尤度決定手段は、前記複数のロケーションの各々について、
（ｉ）前記エネルギー信号における、前記ロケーションから一方の側の部分を、バックグラウンドノイズ内エネルギーを表す第１モデルと比較し、
（ｉｉ）前記エネルギー信号における、前記ロケーションからもう一方の側の部分を、音声内エネルギーを表す第２モデルと比較し、
（ｉｉｉ）比較結果を組み合わせて、前記ロケーションに関する尤度を決定することにより、
前記境界を前記複数のロケーションの各々に位置させた場合の尤度を決定することを特徴とする請求項１１に記載の音声処理装置。
【請求項１３】
前記第１及び第２モデルは統計的モデルであることを特徴とする請求項１２に記載の音声処理装置。
【請求項１４】
前記第１及び第２モデルはラプラス統計に基づくことを特徴とする請求項１３に記載の音声処理装置。
【請求項１５】
前記第２モデルは自己回帰モデルであることを特徴とする請求項１３または１４に記載の音声処理装置。
【請求項１６】
前記入力信号を処理し、かつ前記入力信号に音声が存在することを識別する音声検出手段を有し、
前記音声検出手段が前記入力信号において音声を検出した場合に前記尤度決定手段が前記入力信号における前記尤度を決定することを特徴とする請求項１１乃至１５のいずれか１項に記載の音声処理装置。
【請求項１７】
基準周波数より低い周波数を持つエネルギー変動を除去するために前記エネルギー信号をフィルタリングするフィルタリング手段を更に有することを特徴とする請求項１１乃至１６のいずれか１項に記載の音声処理装置。
【請求項１８】
前記フィルタリング手段が１Ｈｚより低い周波数のエネルギー変動をフィルタリングして除去することを特徴とする請求項１７に記載の音声処理装置。
【請求項１９】
前記生成手段は、前記入力信号を複数の連続タイムフレームに分割し、離散エネルギー信号を生成するために前記タイムフレームの各々における前記入力信号のエネルギーを決定することを特徴とする請求項１１乃至１８のいずれか１項に記載の音声処理装置。
【請求項２０】
前記生成手段は、前記入力信号を多数の連続タイムフレームに分割し、離散エネルギー信号を生成するために前記タイムフレームの各々における入力信号のエネルギーを決定し、
前記フィルタリング手段は、フィルタリング済みのエネルギー信号を表す多数の離散サンプルを出力することを特徴とする請求項１７に記載の音声処理装置。
【請求項２１】
前記境界が、前記入力信号の音声を含む部分の開始または終端に位置することを特徴とする請求項１１乃至２０のいずれか１項に記載の音声処理装置。
【請求項２２】
受信手段が、入力信号を受信する受信ステップと、
生成手段が、受信した前記入力信号のエネルギーの変動を表すエネルギー変動信号を生成する生成ステップと、
フィルタリング手段が、基準周波数より低い周波数を持つエネルギー変動を除去するために、前記エネルギー変動信号をフィルタリングするフィルタリングステップと、
検出手段が、前記フィルタリングステップでフィルタリングされたエネルギー変動信号を用いて前記入力信号における音声の存在を検出する検出ステップと、
を含むことを特徴とする音声処理方法。
【請求項２３】
前記フィルタリングステップでは、２Ｈｚより低い周波数及び１０Ｈｚより高い周波数のエネルギー変動をフィルタリングして除去することを特徴とする請求項２２に記載の音声処理方法。
【請求項２４】
前記フィルタリングステップでは、４Ｈｚの周波数を持つエネルギー変動をパスすることを特徴とする請求項２２または２３に記載の音声処理方法。
【請求項２５】
受信手段が、各々が入力信号の一部分を表すフレームのシーケンスを受信する受信ステップと、
生成手段が、各フレームのエネルギーを示すエネルギー値のシーケンスを生成する生成ステップと、
フィルタリング手段が、基準周波数より低い周波数を持つエネルギー変動を除去するために、前記エネルギー値のシーケンスをフィルタリングするフィルタリングステップと、
検出手段が、フィルタリングされたエネルギー値を用いて前記入力信号における音声の存在を検出する検出ステップと、
を含むことを特徴とする音声処理方法。
【請求項２６】
境界決定手段が、前記入力信号における音声を含む部分と音声を含まない部分との間の境界を決定する境界決定ステップを更に含み、
該境界決定ステップでは、前記境界をエネルギー信号における複数のロケーションの各々に位置させた場合の尤度を決定し、その中で最大の尤度を持つロケーションを決定することを特徴とする請求項２５に記載の音声処理方法。
【請求項２７】
入力信号における音声を含む部分と音声を含まない部分との間の境界のロケーションを決定する音声処理方法であって、
受信手段が、入力信号を受信する受信ステップと、
生成手段が、受信した前記入力信号における局部エネルギーを示すエネルギー信号を生成する生成ステップと、
尤度決定手段が、前記境界を前記エネルギー信号における複数のロケーションの各々に位置させた場合の尤度を決定する尤度決定ステップと、
境界決定手段が、前記複数のロケーションの各々に関して決定された前記尤度を用いて、前記境界のロケーションを決定する境界決定ステップと、
を含むことを特徴とする音声処理方法。
【請求項２８】
前記尤度決定ステップでは、前記複数のロケーションの各々について、
（ｉ）前記エネルギー信号における、前記ロケーションから一方の側の部分を、バックグラウンドノイズ内エネルギーを表すモデルと比較し、
（ｉｉ）前記エネルギー信号における、前記ロケーションからもう一方の側の部分を、音声内エネルギーを表すモデルと比較し、
（ｉｉｉ）比較結果を組み合わせて、前記ロケーションに関する尤度を決定することにより、
前記境界を前記ロケーションの各々に位置させた場合の尤度を決定することを特徴とする請求項２７に記載の音声処理方法。
【請求項２９】
請求項２２乃至２８のいずれか１項に記載の音声処理方法をコンピュータに実行させるためのプログラムを記憶したコンピュータ読取可能な記憶媒体。

【０００５】
【課題を解決するための手段】
本発明は、その一態様によれば、次に示す手段を有する音声認識装置を提供する。即ち、入力信号を受信する手段と、受信した前記入力信号のエネルギーの変動を表すエネルギー変動信号を生成する生成手段と、基準周波数よりも低い周波数を持つエネルギー変動を除去するために、前記エネルギー変動信号をフィルタリングするフィルタリング手段と、前記フィルタリング手段によりフィルタリングされたエネルギー変動信号を用いて前記入力信号における音声の存在を検出する検出手段とを有する。ノイズレベルが高い環境であっても音声の存在を一層的確に検出できることがこの装置の利点である。音声に起因するエネルギー変動に較べてノイズレベルの変化は一般に比較的遅い（１Ｈｚ未満）ことにより、着目したものである。

本発明は、他の態様によれば、入力信号における音声を含む部分と音声を含まない部分との間の境界の位置を決定する装置を提供する。即ち、入力信号を受信する手段と受信した前記入力信号の各フレームのエネルギーを示すエネルギー信号を生成する生成手段と、前記エネルギー信号における複数のロケーションの各々に前記境界を位置させた場合の尤度を決定する尤度決定手段と、前記複数のロケーションの各々に関して決定された前記尤度を用いて、前記境界のロケーションを決定する手段とを有する。