JPH02278299A

JPH02278299A - 音声信号処理方式

Info

Publication number: JPH02278299A
Application number: JP1101142A
Authority: JP
Inventors: Takashi Ariyoshi; 有吉　敬
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1989-04-19
Filing date: 1989-04-19
Publication date: 1990-11-14

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】瑳４止乱本発明は、音声信号処理方式、より詳細には、騒音下で
の音声認識技術に係り、オフィス内、工場内、自動車内
、家庭内での音声認識に適用して好適なものである。

灸未１度音声認識などに用いるための音声のタイムスペクトルパ
ターンには、マイク入力に周囲のノイズが混入していた
り、回路に電気的なノイズが混入したりすることによっ
て、音声ではないパターンが現れることがある。特に、
音声区間中のノイズのパターンを除去することは難しか
った。

タイムスペクトルパターンからノイズの成分を除去する
従来の方法としては、スペクトルサブトラクション法Ｃ
′５ｕｐｐｒｅｓｓｉｏｎ　ｏｆ　ａｃｏｕｓｔｉｃ　
ｎｏｉｓｅｉｎ　５ｐｅｅｃｈ　ｕｓｉｎｇ　５ｐｅｃ
ｔｒａｌ　５ｕｂｔｒａｃｔｉｏｎ”　ＩＥＥＥＴｒａ
ｎｓ、　ＡＳＳＰ、　Ｖｏｌ、２６　Ｎｏ、４．　Ａｕ
ｇ、　１９７１３）がある。

これは、一般的に、予め測定された、音声区間でない区
間のスペクトルパターンをノイズのパターンとして、入
力信号から得られたスペクトルパターンから差引きその
結果を音声のスペクトルパターンとするものである。こ
の方法は、ノイズのスペクトルパターンが時間定常でな
く、予め測定したときと、音声区間、及び、その前後で
変化する状況では効果が薄い。これに対して時間非定常
のノイズに対応するために、時間軸、及び１周波数軸方
向に広がりを持つ音声、または、ノイズのタイムスペク
トルパターンを予め登録しておき。

入力信号から得られたスペクトルパターンに類似のパタ
ーンが存在する場合に、それを除去する方法（特開昭５
８−１２３５９９号公報）も考えられているが、あらゆ
るノイズのパターンを登録することは不可能であるし、
多くの音声パターン、または、ノイズパターンと照合す
るためには時間がかかるという欠点がある。

正−一孜本発明は、上述のごとき実情に鑑みてなされたもので、
特に、ＢＰＦを用いた音声のタイムスペクトルパターン
には時間軸上と周波数軸上の両方にある程度以上の広が
りがあるという性質を利用して、予め定められた大きさ
に満たない広がりを持つパターンをノイズのパターンと
して除去すること、更には、この演算を高速に行うこと
を目的としてなされたものである。

１−一皮本発明は、上記目的を達成するために、（１）予め定め
られたサンプリング周期を１フレームとする時間軸と、
複数のチャンネルから成る周波数軸とに対するタイムス
ペクトルパターンを生成する音声信号処理装置に於て、
入力された音声信号から得られたタイムスペクトルパタ
ーンのうち、時間軸上でパターンとして連続して現われ
たフレームの数が予め定められた数に満たない場合、ま
たは、周波数軸上でパターンとして連続して現れたチャ
ンネルの数が予め定められた数に満たない場合、該当す
る部分のパターンを除去すること。

或いは、（２）あるフレーム、あるチャンネルのパター
ンを除去する手段として、各フレーム毎に、該チャンネ
ルに於て、該フレームを含む、時間軸上でパターンとし
て連続して現れたフレームの数が予め定められた数に満
たない場合に、該フレーム、該チャンネルのパターンを
除去する手続きを各チャンネル毎に行う手段と、該フレ
ームに於て、該チャンネルを含む１周波数軸上でパター
ンとして連続して現われたチャンネルの数が予め定めら
れた数に満たない場合に、該フレーム、該チャンネルの
パターンを除去する手続きを各チャンネル毎に行う手段
とを有すること、或いは、（３）マイクから入力された
音声信号の前処理を行う音声前処理部と、複数のチャン
ネルから成り、上記音声前処理部の出力のスペクトルを
求めるバンドパスフィルタ部と、上記バンドパスフィル
タ部の各チャンネルの出力をＡ／Ｄコンバートし、予め
定められたサンプル周期でタイムスペクトルパターンを
出力するＡ／Ｄコンバータと、上記Ａ／Ｄコンバータか
ら得られたタイムスペクトルパターンからノイズのパタ
ーンを除去するパターン処理部と、上記パターン処理部
の出力である、ノイズを除去したタイムスペクトルパタ
ーンから、音声区間を決定し、入力音声の特徴量パター
ンを作成する音声パターン作成部と、複数の標準音声の
特徴量パターンが格納されている標準音声パターンメモ
リと、上記音声パターン作成部からの入力音声の特徴量
パターンと、上記標準パターンメモリ内の標準音声の特
徴量パターンとを用いてパターンマツチングを行い、上
記入力音声の特徴量パターンに最も類似する上記標準音
声の特徴量パターンに対応する結果を認識結果として出
力する認識部とを具備して成り、上記パターン処理部に
於て、前記（１）記載の方式によりノイズを除去するこ
とを特徴としたものである。以下５本発明の実施例に基
づいて説明する。

第１図は１本発明の一実施例を説明するための構成図で
、図中、１はマイクロフォン、２は音声前処理部、３は
バンドパスフィルタバンク、４はパターン処理部、５は
Ａ／Ｄコンバータ、６は音声パターン作成部、７は標準
音声パターンメモリ。

８は認識部、９は認識結果出力部で、音声前処理部２は
、マイクエから入力された音声信号の増帽。

プリエンファシス等を行い、バンドパスフィルタバンク
３は複数のチャンネルから成るバンドパスフィルタ（Ｂ
ＰＦ）、検波器（ＤＥＴ）　、及び、ローパスフィルタ
（ＬＰＦ）で構成され、音声のスペクトルを求める。Ａ
／Ｄコンバータ４は、ＢＰＦ−ＤＥＴ−ＬＰＦの各チャ
ンネルの出力をＡ／ＤコンバートするＡ／Ｄコンバータ
である。

パターン処理部５は、Ａ／Ｄコンバータから得られたタ
イムスペクトルパターンのうち、Ｏでない部分を音声、
または、ノイズのパターンとして見て、時間軸上でパタ
ーンとして連続して現れたフレームの数が予め定められ
た数（＝２とする。）に満たない場合、または、周波数
軸上でパターンとして連続して現れたチャンネルの数が
予め定められた数（＝２とする。）に満たない場合、該
当する部分のパターンをノイズとして除去する。

音声パターン作成部６は、パターン処理部の出力である
、ノイズを除去したタイムスペクトルパターンから、音
声区間を決定し、入力音声の特徴量パターンを作成する
。標準音声パターンメモリ７には、複数の標準音声の特
徴量パターンが格納されている。認識部８は、音声パタ
ーン作成部６からの入力音声の特徴量パターンと、標準
音声パターンメモリ内の標準音声の特徴量パターンとを
用いてパターンマツチングを行い、入力音声の特徴量パ
ターンに最も類似する′ＩｆＡ準音声の特徴量パターン
に対応する結果をｒｉｓｍ結果９として出力する。

第２図は１本発明の動作説明をするためのフローチャー
トで、１つのフレームのスペクトルパターンが入力され
る毎に１回、上記パターン処理部で実行される。すなわ
ち。

周波数軸のチャンネル数をｎ、フレーム番号ｉ。

チャンネル番号ｊのタイムスペクトルパターンをＰ（ｉ
、ｊ）として、（１）　ｊ＝ＬＬｐ＋ｎについて。

Ｐ＝（ｉ−２，ｊ）＝０かっ−Ｐ（ｘｖｊ）：０であれ
ば、ｐ（ｉ−Ｌｊ）＝０とし、さらに、（２）　Ｊ＝ＬＬｙｐｎについて、Ｐ＝（ｉ−１，ｊ−１）＝０かつ、Ｐ　（ｉ−１ｔ、１
＋１）：０であれば、　Ｐ（ｉ−１＊ｊ）＝０とする。

但し、ここで、Ｐ（ｉ−１，０）＝　Ｐ（ｉ−１，ｎ＋
１）＝０とする。

という、（１）、（２）の手続きである。

ここでは、ノイズとして除去しないための、時間軸上で
パターンとして連続して現れたフレームの数と、周波数
軸上でパターンとして連続して現九たチャンネルの数を
いずれも２としたが、この数のうち、いずれか一方、あ
るいは、両方を３以上にする場合にも、（１）、（２）
と類似の手続きを繰り返し行うことにより実現できる。

即ち、除去しない、連続するフレーム数をｋｔ、連続す
るチャンネル数をｋｆとして。

（１’）ｊ＝ｌｙＬｔｔｎについて、Ｐ　（ｘ−ｋｔ、ｊ）＝０　　　　　　　かつ、（Ｐ（
ｘ−ｋｔ＋２ｙｊ）”０または、Ｐ（ｉ−ｋｔ÷３．ｊ
）＝Ｏ１Ｐ（ｉ、ｊ）　：Ｏ）　　であれば。

Ｐ（ｉ−ｋｔすＩＦＪ）　＝Ｏとし、さらに。

Ｃ２’＞Ｊ＝ｌｐ２ｐｐｐｎについて、Ｐ（ｉ−ｋｆ÷
１．ｊ−１）＝０　　　　　　　かつ、（Ｐ　（ｉ−ｋ
ｔ＋１．ｊ＋１）＝Ｏまたは、Ｐ　（ｉ−ｋｔ◆１．ｊ
＋２）＝Ｏ。

Ｐ　（ｉ−ｋｔ◆１．ｊ＋ｋｆ−１）　＝　０　　であ
れば、Ｐ　（ｉ−ｋｔ◆Ｌｊ）”Ｏとする。

但し、ここで、層〈１または層〉ｎなる層に対して、Ｐ（ｉ−ｋｔ＋１．ｍ）＝０　とする。

という、（１′）、（２′）の手続きをフレームを遡る
などして繰り返し行う。

第３図は、Ａ／Ｄコンバータの出カバターンの例で、１
つのフレーム、１つのチャンネルの値が８ビツトで表現
されている。第４図は、第３図のパターンに対して本発
明の処理を行ったパターン処理部の出力である。

羞−一来以上の説明から明らかなように、ｔｉｔ求項第１項の発
明によると、時ｒＪＪ軸上でパターンとして連続して現
れたフレームの数が予め定められた数に満たない場合、
または、周波数軸上でパターンとして連続して現れたチ
ャンネルの数が予め定められた数に満たない場合、該当
する部分のパターンを除去するので、時間軸上、および
、周波数軸上である限られた広がりのないノイズのパタ
ーンを容易に除去することが出来るようになった。特に
、従来、困難であった音声区間中のノイズパターンが除
去出来るようになった。

また、請求項第２項の発明によると、請求項第１項記載
のノイズパターン除去のための演算に、アンドオアとＯ
か、０でないかの単純な演算のみを用い実行しているの
で、高速に、かつ、実時間で実施することが出来る。

更に、請求項第３項の発明によると、タイムスペクトル
パターンの生成に請求項第１項の音声信号処理方式を用
いているので、騒音下での音声認識においては、その音
響的ノイズの除去、及び、ＬＳＩなど比較的精度の悪い
アナログ部を持つ音声認識装置においては５回路的なノ
イズの除去を行なうことができ、音声認識率が向上する
。

また、請求項第１項記載の音声信号処理方式は、簡単な
ソフトウェアで実現できるので、従来のハードウェアを
そのまま用い、若干のソフトウェアの変更をするだけで
、従来の音声認識装置に付加することが出来る。

【図面の簡単な説明】

第１図は１本発明による音声信号処理方式を実施するた
めの一構成例を示す図、第２図は１本発明の動作説明を
するためのフローチャート、第３図は、Ａ／Ｄコンバー
タの出カバターンの一例を示す図、第４図は、第３図の
パターンに対して本発明による処理を行ったパターン処
理部の出カバターンを示す図である。１・・・マイクロフォン、２・・・音声前処理部、３・
・・バンドパスフィルタバンク、４・・・パターン処理
部、５・・・Ａ／Ｄコンバータ、６・・・音声パターン
作成部、７・・・＃＊音声パターンメモＴハ８・・・Ｌ
召識部、９・・・認識結果出力部。

Claims

【特許請求の範囲】１、予め定められたサンプリング周期を１フレームとす
る時間軸と、複数のチャンネルから成る周波数軸とに対
するタイムスペクトルパターンを生成する音声信号処理
装置に於て、入力された音声信号から得られたタイムス
ペクトルパターンのうち、時間軸上でパターンとして連
続して現われたフレームの数が予め定められた数に満た
ない場合、または、周波数軸上でパターンとして連続し
て現れたチャンネルの数が予め定められた数に満たない
場合、該当する部分のパターンを除去することを特徴と
した音声信号処理方式。２、あるフレーム、あるチャンネルのパターンを除去す
る手段として、各フレーム毎に、該チャンネルに於て、
該フレームを含む、時間軸上でパターンとして連続して
現れたフレームの数が予め定められた数に満たない場合
に、該フレーム、該チャンネルのパターンを除去する手
続きを各チャンネル毎に行う手段と、該フレームに於て
、該チャンネルを含む、周波数軸上でパターンとして連
続して現われたチャンネルの数が予め定められた数に満
たない場合に、該フレーム、該チャンネルのパターンを
除去する手続きを各チャンネル毎に行う手段とを有する
ことを特徴とした請求項第１記載の音声信号処理方式。３、マイクから入力された音声信号の前処理を行う音声
前処理部と、複数のチヤンネルから成り、上記音声前処
理部の出力のスペクトルを求めるバンドパスフィルタ部
と、上記バンドパスフィルタ部の各チャンネルの出力を
Ａ／Ｄコンバートし、予め定められたサンプル周期でタ
イムスペクトルパターンを出力するＡ／Ｄコンバータと
、上記Ａ／Ｄコンバータから得られたタイムスペクトル
パターンからノイズのパターンを除去するパターン処理
部と、上記パターン処理部の出力である、ノイズを除去
したタイムスペクトルパターンから、音声区間を決定し
、入力音声の特徴量パターンを作成する音声パターン作
成部と、複数の標準音声の特徴量パターンが格納されて
いる標準音声パターンメモリと、上記音声パターン作成
部からの入力音声の特徴量パターンと、上記標準パター
ンメモリ内の標準音声の特徴量パターンとを用いてパタ
ーンマッチングを行い、上記入力音声の特徴量パターン
に最も類似する上記標準音声の特徴量パターンに対応す
る結果を認識結果として出力する認識部とを具備して成
り、上記パターン処理部に於て、請求項第１記載の方式
によりノイズを除去することを特徴とした音声信号処理
方式。