JPH03111898A

JPH03111898A - 音声検出方式

Info

Publication number: JPH03111898A
Application number: JP1250056A
Authority: JP
Inventors: Hidekazu Tsuda; 津田　英一; Shingo Nishimura; 新吾西村
Original assignee: Sekisui Chemical Co Ltd
Current assignee: Sekisui Chemical Co Ltd
Priority date: 1989-09-26
Filing date: 1989-09-26
Publication date: 1991-05-13

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］本発明は、音声検出方式に関する。

［従来の技術］従来、雑音環境下で音声の存在を検出する方法は多数あ
り、特公昭５７−１２９９９号公報に記載されているよ
うな通信における音声区間の検出に用いたり、音声言語
内容の認識の前処理に用いたりされているが、高雑音下
での一般用途への展開は困難で、例えば、着信ベル音が
鳴っているような状態でのハンズフリー電話機の音声に
よる応答開始等ができなかった。

尚、雑音環境下で簡易に音声の存在を検出する方法とし
ては、入力信号が一定時間間隔内に一参照軸を横切る回
数を検出する方法があった。

然しながら、上記従来の音声検出方式を用いる方法にあ
っては、一般に雑音の振幅は音声の振幅に比較して小さ
いという前提を用いており、雑音の振幅が音声の振幅と
同程度の場合、音声の存在を検出することができない。

そこで、本出願人は、雑音環境下での音声の存在を簡易
に検出することができる音声検出方式として、入力信号
の参照軸交差数と波高値（波形の振幅レベルの無次元化
量）とを特徴量として算出し、この算出結果を、有声音
と特定雑音について予め定めた辞書データと比較し、入
力信号が有声音を含むかどうかをパターン認識により判
定する方法を提案している。

［発明が解決しようとする課題］然しなから、上記従来の音声検出方式では、以下の■、
■の問題点がある。

■辞書データの作成時に採用した特定雑音（例えばベル
音）以外の全ての雑音を想定してのパターン認識は不可
能であり、予め予想されなかった雑音環境下での検出率
が低い。

■従来の音声検出方式においては、−室以上の検出率確
保のために・上−述の如くの複雑な特徴量を用いる必要
があるが、これは複雑な処理装置を必要とし、処理時間
も比較的長い。

本発明は、雑音の振幅が大きく音声の検出に対する影響
が大きい場合にも、予め予想し或いは予想されなかった
雑音環境下での音声の存在を、高い検出率で検出でき、
かつ容易に短時間処理できる音声検出方式を得ることを
目的とする。

［課題を解決するための手段］請求項１に記載の本発明は、ニューラルネットワークを
用いて入力信号が有声音を含むかどうかを判定する音声
検出方式であって、ニューラルネットワークへの入力と
して、入力信号の平均的な線形予測係数を用いるように
したものである。

請求項２に記載の本発明は、前記ニューラルネットワー
クへの入力として、入力信号の一定時間内における平均
的な線形予測係数の時間的変化を用いるようにしたもの
である。

請求項３に記載の本発明は、前記線形予測係数がＰＡＲ
ＣＯＲ係数であるようにしたものである。

請求項４に記載の本発明は、前記ニューラルネットワー
クが階層的なニューラルネットワークであるようにした
ものである。

尚、線形予測係数（ＬＰＧ係数）は以下の如く定義され
る。即ち、入力信号のサンプル値（χ、）の間には、−
ｍに高い近接相関があることが知られている。そこで次
のような線形予測が可能であると仮定する。

△　　　　　　　　ｐ線形予測値　　χ（＝−Σα□χ１−１　　・−（１）
線形予測誤差　εｔ＝χｔ−χ乞　　・・・（２）ここ
て、χｔ：時刻ｔにおける入力信号のサンプル値、（α
、）（ｉ＝１＋・・・、ｐ）：　（９次の）線形予測係
数さて、本発明の実施においては、線形予測誤差ε、の２
乗平均値が最小となるように線形予測係数（α１）を求
める。

具体的には　（εｔ）２を求め、その時間平均を（εｔ
）２と表わして、θ（εｔ）２／θα、＝０．ｉ＝１．
２．・・・、ｐとおくことによって、次の式から（α、
）が求められる。

Σ　Ｑ　　１ｖｌｉ−Ｊｌ　　＝Ｑ、　　ｊ＝ｌ　　ｌ
　　２　　＋　　””＋　　ｐ　　　””　　（３）又
、ＰＡＲＣＯＲ係数（偏自己相関係数）は以下の如く定
義される。即ち、［ｋｎ］　（ｎ　＝１　、・・・ｐ）
を（９次の）　ＰＡＲＣＯＩ係数（偏自己相関係数）と
する時、ＰＡＲＣＯＲ係数ｋ　ｎ＋１は、線形予測によ
る前向き残差εｔ（１）と後向き残差εｔ−（ｎ＋１１
”））間の正規化相関係数として、次の式によって定義
される。

・・・（４）ここで、εｔ（ｆ）＝χ、−！　　α１χ、−８、五ｍ
ｌ（αｌ）：前向き予測係数、 εｔ−（ｎ＋１．　（ｂ）＝χｔ−（ｎ　”　ｓ　）　
−Ｊ　、　ｌ　Ｊ　・χｔ−Ｊ　。

（βｊ）：後向き予測係数［作用］請求項１〜３のそれぞれに記載の本発明によれば、以下
の■〜■の作用効果がある。尚、本発明にあっては、有
声音（母音、半母音、鼻音等の声帯の振動を伴う音であ
り、人間が発声する殆ど全ての音声には有声音が含まれ
ている）をもって音声とする。

■ニューラルネットワークは、後に述べる学習によりそ
のネットワークを構築した後のシステム稼動段階で、必
要に応じて追加学習できる。従って、ネットワーク構築
のための学習段階では予想されなかった雑音環境下での
音声検出についても、その稼動段階で随時これを追加学
習することにより、高い検出率を達成できる。

■ニューラルネットワークへの入力として、「入力信号
の平均的な線形予測係数」を用いたから、入力を得るた
めの前処理が、従来の複雑な特徴量抽出に比して、単純
となり、この前処理に要する時間が短くて足りる。

■ニューラルネットワークは、原理的に、ネットワーク
全体の演算処理が単純かつ迅速である。

■ニューラルネットワークは、原理的に、それを構成し
ている各ユニットが独立に動作しており、並列的な演算
処理が可能である。従って、演算処理が迅速である。

■上記■〜■により、音声検出処理を複雑な処理装置に
よることなく容易に短時間処理できる。

又、請求項４に記載の本発明によれば上記■〜■の作用
効果に加えて、以下の■の作用効果がある。

０階層的なニューラルネットワークにあっては、現在、
後述する如くの簡単な学習アルゴリズム（パックプロパ
ゲーション）が確立されており、高い検出率を実現でき
るニューラルネットワークを容易に形成できる。

［実施例］第１図は本発明が適用された音声検出システムの一例を
示す模式図、第２図は入力信号を示す模式図、第３図は
ニューラルネットワークを示す模式図、第４図は階層的
なニューラルネットワークを示す模式図、第５図はユニ
ットの構造を示す模式図である。

本発明の具体的実施例の説明に先立ち、二二一うルネッ
トワークの構成、学習アルゴリズム、評価について説明
する。

（１）ニューラルネットワークは、その構造から、第３
図（Ａ）に示す階層的ネットワークと第３図ＣＢ）に示
す相互結合ネットワークの２種に大別できる６本発明は
、両ネットワークのいずれを用いて構成するものであつ
ても良いが、階層的ネットワークは後述する如くの簡単
な学習アルゴリズムが確立されているためより有用であ
る。

（２）ネットワークの構造階層的ネットワークは、第４図に示す如く、入力層、中
間層、出力層からなる階層構造をとる。

各層は１以上のユニットから構成される。結合は、入力
層→中間層→出力層という前向きの結合だけで、各層内
での結合はない。

（３）ユニットの構造ユニットは第５図に示す如く脳のニューロンのモデル化
であり構造は簡単である。他のユニットから入力を受け
、その総和をとり一定の規則（変換関数）で変換し、結
果を出力する。他のユニットとの結合には、それぞれ結
合の強さを表わす可変の重みを付ける。

（４）学習（パックプロパゲーション）ネットワークの
学習とは、実際の出力を目標値（望ましい出力）に近づ
けることであり、−ａ的には第５図に示した各ユニット
の変換関数及び重みを変化させて学習を行なう。具体的
には目標値を、有声音について「１」、雑音については
「０」とし、下記■〜■による。

■有声音のみに本発明の前処理を施し、前処理の結果を
ニューラルネットワークに入力する。そして、ニューラ
ルネットワークの出力が目標値に近づくように各ユニッ
トの変換関数及び重みを修正する。

■雑音のみに本発明の前処理を施し、前処理の結果をニ
ューラルネットワークに入力する。そして、ニューラル
ネットワークの出力が目標値に近づくように各ユニット
の変換関数及び重みを修正する。

■有声音と雑音を含む入力信号で学習を行なワても良い
。この場合の目標値は、有声音の「１」である。

又、学習のアルゴリズムとしては、例えば、Ｒｕｍｅｌ
ｈａｒｔ、　Ｄ、Ｅ、、ＭｃＣｌｅｌｌａｎｄ、　Ｊ、
Ｌ、　ａｎｄ　ｔｈｅＰＤＰ　Ｒｅ５ｅａｒｃｈ　Ｇｒ
ｏｕｐ、　ＰＡＲＡＬＬＥＬ　ＤＩＳＴＲＩＢＬＩＴＥ
ＤＰＲＯＣＥＳＳＩＮＧ、　ｔｈｅ　ＭＩＴ　Ｐｒｅｓ
ｓ、　１９８６．に記載されているパックプロパゲーシ
ョンを用いることができる。

（５）評価上記学習により一定検出率を確保し得るネットワークを
構築した後、前処理を施した未知の入力信号をニューラ
ルネットワークに入力する。

そして、ニューラルネットワークの出力結果が「１」に
近い場合は有声音、「０」に近い場合は雑音と判定する
。

以下、本発明の具体的な実施例について説明する。尚、
この実施例の検出システム１は、ＬＰＧ分析部１０、平
均化回路１５、ニューラルネットワーク２０、判定回路
３０の結合にて構成される（第１図参照）。

（Ａ）ネットワーク構築のための学習段階における入力
信号を、例えば、■有声音「ア」の定常的な部分（信号
の立上り部分や立下り部分を除いた部分）、及び■ベル
音（特定雑音）とする。尚、この学習段階で採用する特
定雑音は、ベル音に限らず、当該システムが使用される
であろう環境下で生ずることを予想される雑音であれば
何でも良い。

（Ｂ）前処理 ■入力信号を、第２図に示す如く、４つのブロックに時
間的に等分割する。

■入力信号波形を、第１図に示す如く、ＬＰＧ分析部１
０に通し、複数（ｐ個）（この実施例ではｐ　＝　１２
）の標本値のそれぞれにおける、各ブロック即ち各一定
時間毎に線形予測分析し、各ブロック毎の平均的な線形
予測係数を算出する。

この時、ＬＰＧ分析部１０の算出結果である９次の線形
予測係数は、各ブロック毎に平均化回路１５で平均化さ
れる。

以上の前処理により、入力信号の一定時間内における平
均的な線形予測係数の時間的変化が得られる。

（Ｃ）ニューラルネットワークによる処理及び判定 ■前処理の結果（ブロック毎のＬＰＧ分析部１０、平均
化回路１５の出力）を、第１図に示す如く、３層の階層
的なニューラルネットワーク２０に入力する。入力Ｊｉ
２１は、前処理の４ブロツク、ｐ個に対応する、４Ｘｐ
ユニツトにて構成される。出力層２２は、１ユニツトに
て構成され、目標値は前述の如く有声音については「１
」、雑音については「０」とする。

■−ニューラルネットワーク２０の出力を判定回路３０
に入力し、出力ｊｉ２２の出力値に応じて、入力信号が
有声音を含むかどうかを判定する。但し、本発明の実施
において、ニューラルネットワーク２０の出力は判定回
路３０の如くにて機械、的に判定処理されず、ニューラ
ルネットワーク２０の出力を得た人間の知力にて判定処
理されるものであっても良い。

■前述した学習アルゴリズムのパックプロパゲーション
により、入力に対する出力のエラーが一定レベルに収束
するまで１万回学習させ、一定検比率を保証し得るネッ
トワークを構築する。

■上記■にて構築されたニューラルネットワーク２０を
用いて、あらゆる雑音環境下での音声の存在が検出され
る。この時、実際のシステム稼動現場において、ネット
ワーク構築のための学習段階で予想されなかった背景雑
音の影響が大きいと考えられる場合には、現実の使用環
境下でこれを追加学習し、結果としてニューラルネット
ワーク２０を使用環境により適合するように改良できる
。

（Ｅｌ）実験上記検出システム１を用いて、音声検出を実験した。

結果、検出率は９９％であることが認められた。

次に、上記実施例の作用について説明する。

上記検出システム１によれば、以下の■〜■の作用効果
がある。

■ニューラルネットワーク２０は、前述した如く、当初
の学習によりそのネットワークを構築した後のシステム
稼動段階で、必要に応じて追加学習できる。従って、ネ
ットワーク構築のための学習段階では予想されなかった
雑音環境下での音声検出についても、その稼動段階で随
時これを追加学習することにより、高い検出率を達成で
きる。

■ニューラルネットワーク２０への入力として、「入力
信号の一定時間内における平均的な線形予測係数の時間
的変化」を用いたから、入力を得るための前処理が、従
来の複雑な特徴量抽出に比して、単純となり、この前処
理に要する時間が短くて足りる。

■ニューラルネットワーク２０は、原理的に、ネットワ
ーク全体の演算処理が単純かつ迅速である。

■ニューラルネットワーク２０は、原理的に、それを構
成している各ユニットが独立に動作しており、並列的な
演算処理が可能である。従って、演算処理が迅速である
。

０階層的なニューラルネットワーク２０を用いたから、
現在既に確立している簡単な学習アルゴリズム（パック
プロパゲーション）を利用でき、高い検出率を実現でき
るニューラルネットワークを容易に形成できる。

尚、本発明の実施において、ニューラルネットワークへ
の入力として、入力信号の一定時間内における平均的な
線形予測係数の時間的変化を用いるものでなく、単に、
「入力信号の平均的な線形予測係数」を用いるものであ
っても良い。

又、本発明の実施において、線形予測係数としてＰＡＲ
ＣＯＲ係数を用いるものであっても良い。

［発明の効果］以上のように本発明によれば、雑音の振幅が大きく音声
の検出に対する影響が大きい場合にも、予め予想し或い
は予想されなかった雑音環境下での音声の存在を、高い
検出率で検出でき、かつ容易に短時間処理できる音声検
出方式を得ることができる。

【図面の簡単な説明】

第１図は本発明が適用された音声検出システムの一例を
示す模式図、第２図は入力信号を示す模式図、第３図は
ニューラルネットワークを示す模式図、第４図は階層的
なニューラルネットワークを示す模式図、第５図はユニ
ットの構造を示す模式図である。１・・・検出システム、１０・・・ＬＰＧ分析部、１５・・・平均化回路、２０・・・ニューラルネットワーク、２１・・・入力層、２２・・・出力層、３ｏ・・・判定回路。

Claims

【特許請求の範囲】

（１）ニューラルネットワークを用いて入力信号が有声
音を含むかどうかを判定する音声検出方式であって、ニ
ューラルネットワークへの入力として、入力信号の平均
的な線形予測係数を用いる音声検出方式。
（２）前記ニューラルネットワークへの入力として、入
力信号の一定時間内における平均的な線形予測係数の時
間的変化を用いる請求項１記載の音声検出方式。
（３）前記線形予測係数がＰＡＲＣＯＲ係数である請求
項１又は２記載の音声検出方式。（４）前記ニューラル
ネットワークが階層的なニューラルネットワークである
請求項１〜３のいずれかに記載の音声検出方式。