JPH0442299A

JPH0442299A - 音声区間検出装置

Info

Publication number: JPH0442299A
Application number: JP2150528A
Authority: JP
Inventors: Koichi Yamaguchi; 耕市山口
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1990-06-08
Filing date: 1990-06-08
Publication date: 1992-02-12

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］本発明は、雑音環境下で入力音声の語頭を検出すること
ができる音声区間検出装置に関する。

［従来の技術］一般に音声認識では、マイクから入力される入力音声の
信号の中から発声の前後の無音区間及び雑音区間を取り
除いて音声区間だけを抽出する音声区間の検出が必要で
ある。

上述の音声区間の検出は、信号対雑音比（以後、Ｓ／Ｎ
比と称する）が良好なときにはそれほど困難ではない。

例えは、Ｓ／Ｎ比か高い場合には、入力音声の信号のう
ちで入力音声のパワー時系列の値か特定のしきい値を越
える音声区間を、認識すべき音声区間として抽出すれば
よい。

以下、従来の音声区間検出方法について説明する。

従来の音声区間検出方法は次のように分類することがで
きる。

まず第１の分類としては、音声区間検出に用いる特徴パ
ラメータとして何を使用するかによる分類である。

この分類に含まれる方法としては、音声信号のパワー時
系列と比較するしきい値を雑音パワーの観測により動的
に調節する方法、パワー時系列か定常雑音区間で一定で
ありその時間差分を利用する方法、零交差数、対数パワ
ー、１次の自己相関関数及び１次の線型予測係数などの
パラメータを組合わせる方法、そしてスペクトル情報を
利用する方法などがある。

次に第２の分類としては、検出精度の改善による分類が
ある。

この分類には、上述のしきい値を複数設けて、複数の候
補の端点から所定のアルゴリズムにより最適なものを選
び出す方法がある。

続いて第３の分類としては、複数の音声区間の候補から
どの音声区間を選択するかによる分類がある。

この分類には、複数の音声区間の候補の各々について実
際に音声認識を行い、照合得点の最も高い区間を選択す
る方法がある。また他の方法としては、上述の方法を発
展させてデータ上のすべての時刻を始端及び終端の候補
として全区間について音声認識を行って照合得点の高い
区間を見つける方法、即ち、ワード・スポツティング法
がある。

更に第４の分類としては、ニューラルネットを利用する
ことによる分類がある。

この分類には、音響パラメータを入力して、音声がある
場合、すなわち有音区間がある場合に発火する出カニニ
ットをもつパーセプトロン型ニュラルネットをパックプ
ロパゲーション学習法によって構成する方法がある（萩
山、板倉「ニュラルネットを用いた音声区間の検出」音
響学会講演論文集昭和６３年１０月２−　Ｐｉ等を参照
）。

［発明が解決しようとする課題］しかし上述の第１の分類では、しきい値が雑音に応じて
調節できず、また、各種パラメータの動きが複雑であり
、それに対処できるアルゴリズムが構築できない。

また第２の分類では、複数候補の出現の仕方が極めて多
様で取扱いが困難であると共に、しきい値の設定を現実
の雑音に合わせることが難しい。

更に第３の分類では、照合処理を複数回または常時行う
必要があり、そのために計算量か多くなる。また認識部
の耐騒音性が難しい現状においては、音声区間と雑音と
を区別する性能か認識対象語粱以外の入力に対するリジ
ェクト能力により左右されてしまう。

そして第４の分類では、ニューラルネットワクの入力デ
ータとして音響パラメータ及び対数パワーを用いており
、発火の対象が全有音区間であるために入力データの変
動か大きいので、ニュラルネットワクの学習対象サンプ
ルに対しては良い結果が得られるが、学習対象外のサン
プルに対してはあまりよい結果が得られない。

従って、上述の従来の音声区間検出方法には、現実の環
境で種々の雑音のためＳ／Ｎ比か劣化し、弱い摩擦音、
音声の始端（語頭）及び終端（語尾）にある振幅の小さ
い有声音などの検出が困難であると共に、非定常雑音を
音声区間として誤検出してしまうので雑音環境下におい
て安定かつ正確に音声区間を検出することができないと
いう問題点がある。

本発明の目的は、雑音環境下において安定かつ正確に音
声区間、特に語頭を検出することができる音声区間検出
装置を提供することにある。

［問題点を解決するための手段］本発明によれば、前記目的は、入力された音声の特徴パ
ラメータ系列の特定の区間を入力する入力手段と、該特
定の区間が該入力音声の始端か又は無音かを判別する判
別手段と、該判別結果に対応した値を出力する出力手段
とを有しており該出力値に基づいて所定のアルゴリズム
により該入力音声の始端を検出可能な多層パーセプトロ
ン型ニューラルネットワークを備えていることを特徴と
する音声区間検出装置によって達成される。

また、本発明の前記目的は、入力された音声の特徴パラ
メータ系列及び当該特徴パラメータ系列から特定の方法
により抽出された動的特徴パラメタを入力する入力手段
と、該入力された特徴パラメータ系列及び動的特徴パラ
メータが該入力音声の始端か又は無音かを判別する判別
手段と、該判別結果に対応した値を出力する出力手段と
を有しており該出力値に基づいて所定のアルゴリズムに
より該入力音声の始端を検出可能な多層パーセプトロン
型ニューラルネットワークを備えていることを特徴とす
る音声区間検出装置によっても達成される。

［作用］多層パーセプトロン型ニューラルネットワークの入力手
段が入力音声の特徴パラメータ系列の特定の区間を入力
し、判別手段が該特徴パラメータ系列の特定の区間が入
力音声の始端か又は無音かを判別し、出力手段が判別結
果に対応する値を出力して該出力値に基づいて所定のア
ルゴリズムにより入力音声の始端を検出する。

また、多層パーセプトロン型ニューラルネットワークの
入力手段か入力音声の特徴パラメータ系列及び当該特徴
パラメータ系列から特定の方法により抽出された動的特
徴パラメータを入力し、判別手段が該入力された特徴パ
ラメータ系列及び動的特徴パラメータが該入力音声の始
端か又は無音かを判別し、出力手段が判別結果に対応す
る値を出力して該出力値に基づいて所定のアルゴリズム
により入力音声の始端を検出する。

［実施例］以下、本発明における音声区間検出装置の実施例を図面
を参照して詳細に説明する。

第１図は、多層パーセプトロン型のニューラルネットワ
ークを用いた本発明における音声区間検出装置の一実施
例を示す。

第１図に示す音声区間検出装置１０の多層パーセプトロ
ン型ニューラルネットワークは３層構造であり、入力手
段としての入力層のユニット１１、判別手段としての中
間層のユニット１２及び出力手段としての出力層のユニ
ット１３を備えている。

入力層のユニット１１は、特徴パラメータ方向（第１図
ではその紙面に垂直な方向）にもユニットが特徴パラメ
ータの次元数に対応した数（本実施例では７つ）だけ並
列に配置されている。

即ち、特徴パラメータとして、第４図に示す帯域濾波器
（以後、ＢＰＦと称する）群の出力のうち、２フレ一ム
分をに−Ｌ変換により６次元に圧縮したパラメータとフ
レーム毎のパワーに相当するパラメータとを合わせて７
次元の特徴パラメタとして用いている。

本実施例では、音響分析の分析周期を１００ミＩＪ秒（
ｍｓｅｃ）として２フレ一ム分を１フレームに圧縮して
いるため、時間軸方向（第１図の横方向）でのユニット
間の時間差は２０ミリ秒（ｍｓｅｃ）となる。第１図で
は時間軸方向に５フレ一ム分を入力しているので、入力
層のユニット１１は合計３５個である。

更に、中間層のユニット１２の数は、本実施例では８つ
としている。そして入力層のユニット１１と中間層のユ
ニット１２との各ユニットは、それぞれ互いに結合（フ
ルコネクション）されている。

また、出力層のユニット１３は１つであり、中間層のユ
ニット１２と出力層のユニット１３とは、それぞれ互い
に結合（フルコネクション）されている。

そして上述の入力層のユニット１１と中間層のユニット
１２との間及び中間層のユニット１２と出力層のユニッ
ト１３との間は結合の数を減らすことも可能であるが、
本実施例では計算量及び音声の時間軸方向での相関を考
慮して、ニューラルネットワクの識別能力を重視しフル
コネクションとしている。しかし各入力層内のユニット
ｌｌどうしの結合はなく、また各中間層内のユニット１
２どうしの結合もない。なお本実施例では、上述の中間
層のユニット１２及び出力層のユニット１３の入出力特
性にはシグモイド関数（ｓｉｇｍｏｉｄ　ｆｕｎｃｔｉ
ｏｎ）を用いている。

次に、本実施例の音声区間検出装置１０に用いられるニ
ューラルネットワークの結合の重み係数を求める学習方
法について述べる。

本実施例のニューラルネットワークでは学習方法として
、パックプロパゲーション方法（Ｂａｃｋｐ＋ｏｐａｇ
ａｔｉｏｎ　Ｍｅｔｈｏｄ）を用いている。

以下、パックプロパゲーション方法を用いた学習方法の
概略を説明する。

まず、入力データとしては、無音声区間と語頭を含む区
間との２種類をそれぞれ多数用意する。

つまり、実際の雑音環境を想定して、代表的なノイズレ
ベル及びノイズの種類を数種作成し、それらを音声デー
タに付加したものを用いる。

次に、無音声区間のデータが入力されたときは０又は０
に近い正の小さい値を教師信号として与えて学習する。

また、語頭を含む区間のデータが入力されたときは１又
は１に近い１以下の値を教師信号として与えて学習する
。

そして語頭を含む区間のデータについては、入力音声の
語頭をスペクトログラムより、あらかじめ位置決めして
おく。また、決められた語頭の位置に相当する特徴パラ
メータのフレームか、第１図の時間軸方向に５つ並んで
いる入力層のユニット１１の前から３番目、即ち第１図
においては、図面の左から３番目の入力層のユニットに
なるように語頭を含む区間の入力データを作成する。

なお、これだけでは、ニューラルネットワークは位置ず
れに敏感になりすぎて、うまく語頭を検知できないこと
があるので、語頭を含む区間のブタとして語頭フレーム
がニューラルネットワクの入力層の５つのユニットのう
ち前から２番目及び４番目、即ち第１図においては、図
面の左から２番目及び４番目のユニットに対しても位置
するデータを作成して学習に用いる。

次に、語頭を含む区間のデータにおける発声内容につい
ては、音声認識の用途に応じて以下のように決める。

まず、不特定話者の音声認識の場合には、認識語業のみ
を選択して、その選択された認識語業を、語頭を含む区
間の発声データとする。このようにすることにより、ニ
ューラルネットワークは主として認識語業の語頭に対し
てのみ強く発火するので、ワードスポツティング的に用
いることができ、精度よく語頭が検出てきると共に認識
率が向上する。

また、特定話者の音声認識で認識器素が多い場合及び使
用者が自由に語簗を選択したい場合には、様々な語頭音
韻をもつ発声データを学習の対象とすることが可能であ
る。なお学習サンプルの種類の増加にともない、ニュー
ラルネットワークの中間層のユニット数を特徴パラメー
タ方向に１〜２つ増加して、汎用的な語頭検出器にする
ことができる。

次に、本発明の音声区間検出装置における他の実施例を
第２図に示す。

以下、本実施例の音声区間検出装置を説明する。

第２図に示す音声区間検出装置１４は、語業検出用のニ
ューラルネットワークの入力データとして特徴パラメー
タ以外に、特徴パラメータから特定の方法により抽出さ
れた動的特徴パラメータを併用するように構成されてい
ると共に、第１図に示す音声区間検出装置１０と同様に
多層パーセプトロン型ニューラルネットワークにより構
成されている。

そして音声区間検出装置１４を構成するパーセプトロン
型ニューラルネットワークも第１図に示す音声区間検出
装置１０と同様に３層構造であり、入力手段としての入
力層のユニット１５、判別手段としての中間層のユニッ
ト１６及び、出力手段としての出力層のユニット１７を
備えている。

しかし、第２図に示す音声区間検出装置１４の入力層の
ユニット１５は、更に動的特徴パラメータ用のユニット
１８を備えている。そして、入力層のユニット１５は全
部で４２個あり、ユニット１８はそのうちの７つを占め
ている。

なお、第２図では、簡略化のためユニット１８が１つた
け記載されているが、実際にはユニット１８は特徴パラ
メータ方向に７つ並列に配置されている。

次に第２図に示す音声区間検出装置１４の入力層のユニ
ット１５に入力される特徴パラメータと動的特徴パラメ
ータについて第３図を参照して詳述する。

第３図に示すように、ユニット１８を除いた入力層のユ
ニット１５には、入力データの特徴パラメタ１９がユニ
ット１５の各ユニットにそれぞれ入力される。また、動
的特徴パラメータ２０がユニット１８の各ユニットにそ
れぞれに入力される。

ここで、ニューラルネットワークへの入カデタの特徴パ
ラメータ１９を一般にＸｍ（ｔ）と表し、ｍは第ｍ次元
目の特徴パラメータを表わす正の整数（本実施例ではｍ
＝１．２、・・・・・、７）、ｔはフレームを表わす整
数として、特に全フレームの中心を０におくように設定
されている（本実施例では、ｔ−−２、−１，０，１，
２）。

即ち、第３図に示すように入力層のユニ・ント１５の各
ユニットは、時間軸に沿って図の左側から順次、Ｘｍ　
（−２）　、Ｘｍ　（−１）　、Ｘｍ　（０）、各ｍの
値に対応してそれぞれ入力される。

また、特徴パラメータ方向には、Ｘｉ　（ｔ）、Ｘ２　
（ｔ）１．、、　、Ｘ６　（ｔ）及びＸ７　（ｔ）の各
特徴パラメータが各ｔの値に対応して入力される。

更に、動的特徴パラメータ２０を一般にＹｍと表すと、
Ｙｍは特定の方法として示される次式により算出される
。

（なお、下記の式により得られる動的特徴パラメタＹｍ
は、回帰係数と呼ばれる）Ｙｍ−（ΣＸｍ（ｔ）−ｔ）／（Σｔ２）ｔ＝−２を−
−２第３図に示すように特徴パラメータ方向に沿って、ユニ
ット１８の各ユニットに各ｍの値に対応して動的特徴パ
ラメータＹ１、Ｙ２１．　、　、　、Ｙ７がそれぞれ入
力される。

この動的特徴パラメータＹｍを用いると、ニュラルネッ
トワークの入力層は、特徴パラメータＸｍ（ｔ）が３５
個、動的特徴パラメータＹｍが７個の合計４２個のユニ
ットで構成される。

また、上述の回帰係数以外に、特徴パラメータＸｍ　（
ｔ）の時間軸方向の差分△Ｘｍ　（ｔ）　−Ｘｍ、　（
ｔ）　−Ｘｍ　（ｔ　−１，）を動的特徴パラメータ２
０に設定することも可能である。

そして、動的特徴パラメータとして△Ｘｍ（ｔ）を選択
すると、特徴パラメータＸｍ　（ｔ）が３５個で、動的
特徴パラメータ△Ｘｍ　（ｔ）が３５個となりニューラ
ルネットワークの入力層のユニットは合計７０個となる
。

なお、本実施例による学習方法、即ち、動的特徴パラメ
ータを特徴パラメータと併用する場合の学習方法は、上
述した第１の実施例の学習方法、即ち、特徴パラメータ
を単独で用いる場合と同様なので説明を省略する。

次に、上述の２つの実施例に共通な語頭検出について説
明する。

上述した語頭検出用のニューラルネットワークの出力値
をＯｕｔ　（ｔ）と表し、その出力値Ｏｕｔ　（Ｂを用
いて語頭検出を行う。ここに、ｔはニューラルネットワ
ークの入力層のフレームの中心フレームの時刻を表す。

まず、ニューラルネットワークの出力値０ｕｔ（１）の
所定のアルゴリズムとしての判定アルゴリズムについて
説明する。判定アルゴリズムは音声認識装置の使用環境
及び認識語案にも依存するが、基本的には３つの種類に
分けられる。

第１の判定アルゴリズムは、ニューラルネットワークの
出力値０ｕｔ（ｔ）のみを用いる。次に、第２の判定ア
ルゴリズムは、複数のｔにおけるニューラルネットワー
クの出力値０ｕｔ（ｔ）を用いる。そして第３の判定ア
ルゴリズムは、ニュラルネットワークの出力値Ｏｕｔ　
（ｔ）と従来の方法との組合せを用いる。

第４図に上述の第１の判定アルゴリズムのフロチャート
を示す。

また、第２及び第３の判定アルゴリズムの場合は、第４
図中の条件判断の内容が変わるだけで全体のフローは同
じである。しかし、第２の判定アルゴリズムの場合には
、現時刻から所定量だけ以前の出力値○ｕｔ（ｔ）を記
憶する操作が必要になる。また、第３の判定アルゴリズ
ムの場合には、Ｐｗ（τ）を記憶する操作が必要になる
（尚、ＰＷ（τ）については後述する）。

ここで第５図を参照して第１の判定アルゴリズムを説明
する。

第１の判定アルゴリズムでは、ニューラルネットワーク
により出力値Ｏｕｔ　（ｔ）を計算する（ステップＳＬ
）。続いて、出力値０ｕｔ（ｔ）がθよりも大きいかど
うかを判定する（ステップＳ２）。そして、判定結果が
出力値Ｏｕｔ　（ｔ）＞θであれば、時刻ｔを語頭とし
て特徴パラメータを認識部に送って（ステップＳ３）ア
ルゴリズムを終了する。

また、第２の判定アルゴリズムでは、出力値Ｏｕｔ　（
ｔ）＞θ及び出力値Ｏｕｔ　（ｔ＋１）＞θならば時刻
ｔを語曇とする。そして、第３の判定アルゴリズムでは
、出力値Ｏｕｔ　（ｔ）＞θ及びＰｗ（ｒ）＞Ｇ、であ
り、τが［ｔＸ　ｔ＋ａ］に属するならば時刻ｔを語案
とする。ここで、θはおよそ０．５、ＰＷ（τ）は時刻
τにおるパワαはおよそ３、Ｇはパワーに対するしきい
値を表す。

なお、［ｔ、ｔ＋ｄ］は、を及びｔ十ｄを両端に含む閉
区間を表す。

通常は、第１の判定アルゴリズムで十分である。

しかし、語頭以外のもの、たとえば突発雑音等にニュー
ラルネットワークが反応しすぎる場合は第２及び第３の
判定アルゴリズムで対処する。また第１の判定アルゴリ
ズムにおいてθを０．５よりやや高い値に設定してもよ
い。

このようにして検出された語頭フレームに基づいて、特
徴パラメータが次の認識部へ送られる。

尚、特徴パラメータの送付に際しては、検出された語頭
直後から送られるのではなく、検出された語頭より少し
前にさかのぼった時点から送る。

このため、圧縮部では圧縮された特徴パラメタ系列を一
定のフレーム分だけバッファに貯えておく必要がある。

上述の２つの実施例の音声区間検出装置、即ち多層パー
セプトロン型ニューラルネットワークは、プログラムの
形で構成されているが、ニューラルチップの形で構成す
ることも可能である。

第５図に、第１図又は第２図に示す音声区間検出装置を
用いた音声認識装置の一実施例を示す。

第５図では、マイクロホン２１から入力された音声は、
アンプ２２によって増幅され、Ａ／Ｄ　（アナログ／デ
ィジタル）変換器２３でアナログ信号からディジタル信
号に変換された後、音響分析部２４に入力される。

音響分析部２４ては、ＢＰＦ群を用いて分析し、フレー
ム毎に各ＢＰＦ２５の出力パワー値を出力する。尚、こ
の音響分析は、線形予測分析、ケプストラム分析など、
ＢＰＦ群以外のものを用いてもよい。このようにして得
られた音響パラメータは、次に圧縮部２６に送られる。

尚、音響分析部２４はディジタルシグナルプロセッサ（
ＤＰＳ）により構成することができる。

圧縮部２６では圧縮方法としてに−Ｌ変換を用いて複数
フレームの音響パラメータを圧縮する。本実施例では約
１１５の圧縮率となっている。この圧縮により得られた
特徴パラメータを用いることにより、以後の処理量の負
担が軽減できる。圧縮率については、音声の時間方向に
対する冗長性、つまり、同じスペクトル形状が何フレー
ムも続く２↑ ことが多いことを利用して、本実施例では音響パラメー
タの２フレームを１度に圧縮しているが、後の処理量と
の関係で１フレーム又は３フレ一ム以上としてもよい。

Ｋ−Ｌ変換の係数決定の際には、あらかじめ多種の入力
音声を入力し、多くの有音部、無音部を分析して得られ
た音響パラメータを用いる。ただし、ここで、雑音環境
下におけるサンプルは除外しておく。

雑音環境下におけるサンプルを除外することにより、圧
縮動作時に雑音下のサンプルが入力された場合、一般に
付加された雑音成分はに−Ｌ変換係数の作成時に分析対
象としていないため、分析対象としている元の音声成分
とほぼ直交し、その結果雑音成分はに−Ｌ変換後小さい
値になってしまう。

次にに−Ｌ変換によって圧縮された特徴パラメタは、第
１図に示す本実施例の音声区間検出装置を用いた語頭検
出部２７に送られる。

語頭検出部２７では、その特徴パラメータ数のフレーム
分を入力して語頭か無音かを出力する。本実施例では、
不特定話者による単語の音声認識装置を示している。

第５図の認識部２８は、入力音声の特徴パラメタ系列に
対して、認識対象語案のうち特定の単語中の特定の部分
音韻系列との類似度に相当する値を出力する第１の多層
パーセプトロン型ニュートラルネットワーク（以後、イ
ベントネット群と称する）２９を上記特定の単語を構成
する部分音韻系列がほとんどすべて含まれるように複数
備えているき共に、多数話者の音声サンプルを分析する
ことにより、隣り合うイベントネット群２９間の時間間
隔情報を備えている。

また、これらイベントネット群２９の出力のすべてを入
力として入力音声に対して上記特定の単語との類似度に
相当する値を出力する第２の多層パセプトロン型ニュー
ラルネットワーク（以後、ワードネットと称する）３０
を備えている。

即ち、認識部２８は、上述のイベントネット群２９及び
ワードネッ）３０を認識対象語案のすべての単語につい
てそれぞれ備えている。更に、認識部２８は、これらワ
ードネット３０の出力のすべてを入力として、入力音声
がどの認識単語に属するかに応じた値を出力する第３の
多層パーセプトロン型ニューラルネットワーク（以後、
スーパーネットと呼ぶ）３１を備えている。

入力音声の特徴パラメータ系列をイベントネット群２９
の入力層の各ユニットに入力する際に、上述した方法に
より検出した単語の語頭付近から順に、前述の時間間隔
情報に基ついて、所定の範囲内で各イベントネット群２
９に入力する特徴量を時間的にずらし、その中で各イベ
ントネット群２９の出力値が最大になる位置を選択する
ことにより入力音声の時間伸縮を補正するとともに、最
終のイベントネット群２９の最大出力位置を入力音声の
語尾として認識結果を得る。

従って、入力音声の語頭及び語尾、即ち音声区間の検出
が認識結果判定部３２で最終的に得る。そして認識結果
判定部３２で得られた認識結果は結果出力部３３により
出力される。

本実施例では、ニューラルネットワークを音声区間検出
装置に利用しているが、ニューラルネットワークは、高
度なパターン識別能力をもっているため、雑音区間と音
声の始端との区別が可能となる。さらに、ニューラルネ
ットワークに要する計算は単純な積和輪演算であり、ま
た従来の方法のような時間軸の逆もどりがないため、高
速実行が可能であり、実時間性優れている。

雑音環境下においても、ニューラルネットワクの学習時
にいくつかのレベル、いくつかの種類の雑音を付加した
音声データを用いることで、ニューラルネットワークの
もつ泥化能力により、はとんどの雑音に対しても安定し
た出力が得られる。

つまり、実際の雑音環境下で、精度よく語頭を検出でき
る。また、通常の特徴パラメータの他に、そのパラメー
タ系列から導びかれる動的特徴パラメータをもニューラ
ルネットワークの入力とすることでより一層雑音環境下
での語頭検出精度を向上させることができる。なぜなら
ば、非定常騒音下においても動的特徴パラメータを導出
する区間において雑音のスペクトル量がほぼ同一の形状
をしているときには、その区間に語頭が含まれているな
らば、変化が抽出されるが、その区間が雑音のみならば
、変化は抽出されない。つまり、語頭のような無音区間
から音声が立ち上がってくるという変化のあるところで
は、動的特徴パラメータは敏感に反応し、雑音区間では
反応しないという特性をもっているからである。更に、
特徴パラメタとして雑音を含まない音声データを分析対
象として求めたに−Ｌ変換の係数を用いて圧縮した音響
パラメータを採用することにより、雑音をある程度除去
することができるので、このことも雑音下での語頭検出
に有効である。

［発明の効果］入力された音声の特徴パラメータ系列の特定の区間を入
力する入力手段と、該特定の区間が該入力音声の始端か
又は無音かを判別する判別手段と、該判別結果に対応し
た値を出力する出力手段とを有しており該出力値に基づ
いて所定のアルゴリズムにより該入力音声の始端を検出
可能な多層パセプトロン型ニューラルネットワーク又は
、入力された音声の特徴パラメータ系列及び当該特徴パ
ラメータ系列から特定の方法により抽出された動的特徴
パラメータを入力する入力手段と、該入力された特徴パ
ラメータ系列及び動的特徴パラメタが該入力音声の始端
か又は無音かを判別する判別手段と、該判別結果に対応
した値を出力する出力手段とを有しており該出力値に基
づいて所定のアルゴリズムにより該入力音声の始端を検
出可能な多層パーセプトロン型ニューラルネットワーク
を備えているのでニューラルネットワークの高い識別能
力と汎化能力を利用して雑音環境下においても高い精度
で語頭の検出でき、その結果、音声認識装置の認識率が
向上する。また、語頭を検出しているので連続動的計画
（ＤＰ）法を用いるワードスポツティングのように常に
マツチング計算をする必要がなく計算最が軽減し、時間
軸上の逆もどりがなく、ディジタルシグナルプロセッサ
を用いて装置を小型化できると共に低価格化できる。

【図面の簡単な説明】

第１図は本発明における音声区間検出装置の一実施例の
構成を示す図、第２図は本発明の音声区間検出装置の他
の実施例を示す図、第３図は語頭検出部で用い第２図に
示す音声区間検出装置の入力である特徴パラメータ及び
動的特徴の構成を示す図、第４図は本実施例の音声区間
検出装置における判定アルゴリズムの一例を示した図、
第５図は第１図又は第２図に示す音声区間検出装置を利
用した音声認識装置の一実施例を示すブロック図である
。１０・・・音声区間検出装置、１１，１５・・・入力層
のユニット、１２．　１６・・・中間層のユニット、１
３．　１７・・・出力層のユニット、１８・・・動的特
徴パラメータ用ユニット、１９・・・特徴パラメータ、
２０・・・動的特徴パラメタ、２１・・・マイクロホン
、２２・・・アンプ、２３・・・Ａ／Ｄ変換器、２４・
・・音響分析部、２５・・・ＢＰＦ、２６・・・圧縮部
、２７・・・語頭検出部、２８・・・認識部、２９・・
・イベントネット群、３０・・・ワードネット、３１・
・・スーパーネット、３２・・・認識結果判定部、３３
・・・認識結果出力部。

Claims

【特許請求の範囲】

（１）入力された音声の特徴パラメータ系列の特定の区
間を入力する入力手段と、該特定の区間が該入力音声の
始端か又は無音かを判別する判別手段と、該判別結果に
対応した値を出力する出力手段とを有しており該出力値
に基づいて所定のアルゴリズムにより該入力音声の始端
を検出可能な多層パーセプトロン型ニューラルネットワ
ークを備えていることを特徴とする音声区間検出装置。
（２）入力された音声の特徴パラメータ系列及び当該特
徴パラメータ系列から特定の方法により抽出された動的
特徴パラメータを入力する入力手段と、該入力された特
徴パラメータ系列及び動的特徴パラメータが該入力音声
の始端か又は無音かを判別する判別手段と、該判別結果
に対応した値を出力する出力手段とを有しており該出力
値に基づいて所定のアルゴリズムにより該入力音声の始
端を検出可能な多層パーセプトロン型ニューラルネット
ワークを備えていることを特徴とする音声区間検出装置
。