JPH03111898A - 音声検出方式 - Google Patents
音声検出方式Info
- Publication number
- JPH03111898A JPH03111898A JP1250056A JP25005689A JPH03111898A JP H03111898 A JPH03111898 A JP H03111898A JP 1250056 A JP1250056 A JP 1250056A JP 25005689 A JP25005689 A JP 25005689A JP H03111898 A JPH03111898 A JP H03111898A
- Authority
- JP
- Japan
- Prior art keywords
- input signal
- neural network
- network
- input
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 39
- 238000013528 artificial neural network Methods 0.000 claims abstract description 43
- 230000008859 change Effects 0.000 claims description 5
- 230000002123 temporal effect Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 abstract description 7
- 238000012935 Averaging Methods 0.000 abstract description 5
- 238000010276 construction Methods 0.000 abstract description 5
- 230000007935 neutral effect Effects 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000007781 pre-processing Methods 0.000 description 12
- 238000000034 method Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000003466 anti-cipated effect Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
[産業上の利用分野]
本発明は、音声検出方式に関する。
[従来の技術]
従来、雑音環境下で音声の存在を検出する方法は多数あ
り、特公昭57−12999号公報に記載されているよ
うな通信における音声区間の検出に用いたり、音声言語
内容の認識の前処理に用いたりされているが、高雑音下
での一般用途への展開は困難で、例えば、着信ベル音が
鳴っているような状態でのハンズフリー電話機の音声に
よる応答開始等ができなかった。
り、特公昭57−12999号公報に記載されているよ
うな通信における音声区間の検出に用いたり、音声言語
内容の認識の前処理に用いたりされているが、高雑音下
での一般用途への展開は困難で、例えば、着信ベル音が
鳴っているような状態でのハンズフリー電話機の音声に
よる応答開始等ができなかった。
尚、雑音環境下で簡易に音声の存在を検出する方法とし
ては、入力信号が一定時間間隔内に一参照軸を横切る回
数を検出する方法があった。
ては、入力信号が一定時間間隔内に一参照軸を横切る回
数を検出する方法があった。
然しながら、上記従来の音声検出方式を用いる方法にあ
っては、一般に雑音の振幅は音声の振幅に比較して小さ
いという前提を用いており、雑音の振幅が音声の振幅と
同程度の場合、音声の存在を検出することができない。
っては、一般に雑音の振幅は音声の振幅に比較して小さ
いという前提を用いており、雑音の振幅が音声の振幅と
同程度の場合、音声の存在を検出することができない。
そこで、本出願人は、雑音環境下での音声の存在を簡易
に検出することができる音声検出方式として、入力信号
の参照軸交差数と波高値(波形の振幅レベルの無次元化
量)とを特徴量として算出し、この算出結果を、有声音
と特定雑音について予め定めた辞書データと比較し、入
力信号が有声音を含むかどうかをパターン認識により判
定する方法を提案している。
に検出することができる音声検出方式として、入力信号
の参照軸交差数と波高値(波形の振幅レベルの無次元化
量)とを特徴量として算出し、この算出結果を、有声音
と特定雑音について予め定めた辞書データと比較し、入
力信号が有声音を含むかどうかをパターン認識により判
定する方法を提案している。
[発明が解決しようとする課題]
然しなから、上記従来の音声検出方式では、以下の■、
■の問題点がある。
■の問題点がある。
■辞書データの作成時に採用した特定雑音(例えばベル
音)以外の全ての雑音を想定してのパターン認識は不可
能であり、予め予想されなかった雑音環境下での検出率
が低い。
音)以外の全ての雑音を想定してのパターン認識は不可
能であり、予め予想されなかった雑音環境下での検出率
が低い。
■従来の音声検出方式においては、−室以上の検出率確
保のために・上−述の如くの複雑な特徴量を用いる必要
があるが、これは複雑な処理装置を必要とし、処理時間
も比較的長い。
保のために・上−述の如くの複雑な特徴量を用いる必要
があるが、これは複雑な処理装置を必要とし、処理時間
も比較的長い。
本発明は、雑音の振幅が大きく音声の検出に対する影響
が大きい場合にも、予め予想し或いは予想されなかった
雑音環境下での音声の存在を、高い検出率で検出でき、
かつ容易に短時間処理できる音声検出方式を得ることを
目的とする。
が大きい場合にも、予め予想し或いは予想されなかった
雑音環境下での音声の存在を、高い検出率で検出でき、
かつ容易に短時間処理できる音声検出方式を得ることを
目的とする。
[課題を解決するための手段]
請求項1に記載の本発明は、ニューラルネットワークを
用いて入力信号が有声音を含むかどうかを判定する音声
検出方式であって、ニューラルネットワークへの入力と
して、入力信号の平均的な線形予測係数を用いるように
したものである。
用いて入力信号が有声音を含むかどうかを判定する音声
検出方式であって、ニューラルネットワークへの入力と
して、入力信号の平均的な線形予測係数を用いるように
したものである。
請求項2に記載の本発明は、前記ニューラルネットワー
クへの入力として、入力信号の一定時間内における平均
的な線形予測係数の時間的変化を用いるようにしたもの
である。
クへの入力として、入力信号の一定時間内における平均
的な線形予測係数の時間的変化を用いるようにしたもの
である。
請求項3に記載の本発明は、前記線形予測係数がPAR
COR係数であるようにしたものである。
COR係数であるようにしたものである。
請求項4に記載の本発明は、前記ニューラルネットワー
クが階層的なニューラルネットワークであるようにした
ものである。
クが階層的なニューラルネットワークであるようにした
ものである。
尚、線形予測係数(LPG係数)は以下の如く定義され
る。即ち、入力信号のサンプル値(χ、)の間には、−
mに高い近接相関があることが知られている。そこで次
のような線形予測が可能であると仮定する。
る。即ち、入力信号のサンプル値(χ、)の間には、−
mに高い近接相関があることが知られている。そこで次
のような線形予測が可能であると仮定する。
△ p
線形予測値 χ(=−Σα□χ1−1 ・−(1)
線形予測誤差 εt=χt−χ乞 ・・・(2)ここ
て、χt:時刻tにおける入力信号のサンプル値、(α
、)(i=1+・・・、p): (9次の)線形予測係
数 さて、本発明の実施においては、線形予測誤差ε、の2
乗平均値が最小となるように線形予測係数(α1)を求
める。
線形予測誤差 εt=χt−χ乞 ・・・(2)ここ
て、χt:時刻tにおける入力信号のサンプル値、(α
、)(i=1+・・・、p): (9次の)線形予測係
数 さて、本発明の実施においては、線形予測誤差ε、の2
乗平均値が最小となるように線形予測係数(α1)を求
める。
具体的には (εt)2を求め、その時間平均を(εt
)2と表わして、θ(εt)2/θα、=0.i=1.
2.・・・、pとおくことによって、次の式から(α、
)が求められる。
)2と表わして、θ(εt)2/θα、=0.i=1.
2.・・・、pとおくことによって、次の式から(α、
)が求められる。
Σ Q 1vli−Jl =Q、 j=l l
2 + ””+ p ”” (3)又
、PARCOR係数(偏自己相関係数)は以下の如く定
義される。即ち、[kn] (n =1 、・・・p)
を(9次の) PARCOI係数(偏自己相関係数)と
する時、PARCOR係数k n+1は、線形予測によ
る前向き残差εt(1)と後向き残差εt−(n+11
”))間の正規化相関係数として、次の式によって定義
される。
2 + ””+ p ”” (3)又
、PARCOR係数(偏自己相関係数)は以下の如く定
義される。即ち、[kn] (n =1 、・・・p)
を(9次の) PARCOI係数(偏自己相関係数)と
する時、PARCOR係数k n+1は、線形予測によ
る前向き残差εt(1)と後向き残差εt−(n+11
”))間の正規化相関係数として、次の式によって定義
される。
・・・(4)
ここで、εt(f)=χ、−! α1χ、−8、五m
l (αl):前向き予測係数、 εt−(n+1. (b)=χt−(n ” s )
−J 、 l J ・χt−J 。
l (αl):前向き予測係数、 εt−(n+1. (b)=χt−(n ” s )
−J 、 l J ・χt−J 。
(βj):後向き予測係数
[作用]
請求項1〜3のそれぞれに記載の本発明によれば、以下
の■〜■の作用効果がある。尚、本発明にあっては、有
声音(母音、半母音、鼻音等の声帯の振動を伴う音であ
り、人間が発声する殆ど全ての音声には有声音が含まれ
ている)をもって音声とする。
の■〜■の作用効果がある。尚、本発明にあっては、有
声音(母音、半母音、鼻音等の声帯の振動を伴う音であ
り、人間が発声する殆ど全ての音声には有声音が含まれ
ている)をもって音声とする。
■ニューラルネットワークは、後に述べる学習によりそ
のネットワークを構築した後のシステム稼動段階で、必
要に応じて追加学習できる。従って、ネットワーク構築
のための学習段階では予想されなかった雑音環境下での
音声検出についても、その稼動段階で随時これを追加学
習することにより、高い検出率を達成できる。
のネットワークを構築した後のシステム稼動段階で、必
要に応じて追加学習できる。従って、ネットワーク構築
のための学習段階では予想されなかった雑音環境下での
音声検出についても、その稼動段階で随時これを追加学
習することにより、高い検出率を達成できる。
■ニューラルネットワークへの入力として、「入力信号
の平均的な線形予測係数」を用いたから、入力を得るた
めの前処理が、従来の複雑な特徴量抽出に比して、単純
となり、この前処理に要する時間が短くて足りる。
の平均的な線形予測係数」を用いたから、入力を得るた
めの前処理が、従来の複雑な特徴量抽出に比して、単純
となり、この前処理に要する時間が短くて足りる。
■ニューラルネットワークは、原理的に、ネットワーク
全体の演算処理が単純かつ迅速である。
全体の演算処理が単純かつ迅速である。
■ニューラルネットワークは、原理的に、それを構成し
ている各ユニットが独立に動作しており、並列的な演算
処理が可能である。従って、演算処理が迅速である。
ている各ユニットが独立に動作しており、並列的な演算
処理が可能である。従って、演算処理が迅速である。
■上記■〜■により、音声検出処理を複雑な処理装置に
よることなく容易に短時間処理できる。
よることなく容易に短時間処理できる。
又、請求項4に記載の本発明によれば上記■〜■の作用
効果に加えて、以下の■の作用効果がある。
効果に加えて、以下の■の作用効果がある。
0階層的なニューラルネットワークにあっては、現在、
後述する如くの簡単な学習アルゴリズム(パックプロパ
ゲーション)が確立されており、高い検出率を実現でき
るニューラルネットワークを容易に形成できる。
後述する如くの簡単な学習アルゴリズム(パックプロパ
ゲーション)が確立されており、高い検出率を実現でき
るニューラルネットワークを容易に形成できる。
[実施例]
第1図は本発明が適用された音声検出システムの一例を
示す模式図、第2図は入力信号を示す模式図、第3図は
ニューラルネットワークを示す模式図、第4図は階層的
なニューラルネットワークを示す模式図、第5図はユニ
ットの構造を示す模式図である。
示す模式図、第2図は入力信号を示す模式図、第3図は
ニューラルネットワークを示す模式図、第4図は階層的
なニューラルネットワークを示す模式図、第5図はユニ
ットの構造を示す模式図である。
本発明の具体的実施例の説明に先立ち、二二一うルネッ
トワークの構成、学習アルゴリズム、評価について説明
する。
トワークの構成、学習アルゴリズム、評価について説明
する。
(1)ニューラルネットワークは、その構造から、第3
図(A)に示す階層的ネットワークと第3図CB)に示
す相互結合ネットワークの2種に大別できる6本発明は
、両ネットワークのいずれを用いて構成するものであつ
ても良いが、階層的ネットワークは後述する如くの簡単
な学習アルゴリズムが確立されているためより有用であ
る。
図(A)に示す階層的ネットワークと第3図CB)に示
す相互結合ネットワークの2種に大別できる6本発明は
、両ネットワークのいずれを用いて構成するものであつ
ても良いが、階層的ネットワークは後述する如くの簡単
な学習アルゴリズムが確立されているためより有用であ
る。
(2)ネットワークの構造
階層的ネットワークは、第4図に示す如く、入力層、中
間層、出力層からなる階層構造をとる。
間層、出力層からなる階層構造をとる。
各層は1以上のユニットから構成される。結合は、入力
層→中間層→出力層という前向きの結合だけで、各層内
での結合はない。
層→中間層→出力層という前向きの結合だけで、各層内
での結合はない。
(3)ユニットの構造
ユニットは第5図に示す如く脳のニューロンのモデル化
であり構造は簡単である。他のユニットから入力を受け
、その総和をとり一定の規則(変換関数)で変換し、結
果を出力する。他のユニットとの結合には、それぞれ結
合の強さを表わす可変の重みを付ける。
であり構造は簡単である。他のユニットから入力を受け
、その総和をとり一定の規則(変換関数)で変換し、結
果を出力する。他のユニットとの結合には、それぞれ結
合の強さを表わす可変の重みを付ける。
(4)学習(パックプロパゲーション)ネットワークの
学習とは、実際の出力を目標値(望ましい出力)に近づ
けることであり、−a的には第5図に示した各ユニット
の変換関数及び重みを変化させて学習を行なう。具体的
には目標値を、有声音について「1」、雑音については
「0」とし、下記■〜■による。
学習とは、実際の出力を目標値(望ましい出力)に近づ
けることであり、−a的には第5図に示した各ユニット
の変換関数及び重みを変化させて学習を行なう。具体的
には目標値を、有声音について「1」、雑音については
「0」とし、下記■〜■による。
■有声音のみに本発明の前処理を施し、前処理の結果を
ニューラルネットワークに入力する。そして、ニューラ
ルネットワークの出力が目標値に近づくように各ユニッ
トの変換関数及び重みを修正する。
ニューラルネットワークに入力する。そして、ニューラ
ルネットワークの出力が目標値に近づくように各ユニッ
トの変換関数及び重みを修正する。
■雑音のみに本発明の前処理を施し、前処理の結果をニ
ューラルネットワークに入力する。そして、ニューラル
ネットワークの出力が目標値に近づくように各ユニット
の変換関数及び重みを修正する。
ューラルネットワークに入力する。そして、ニューラル
ネットワークの出力が目標値に近づくように各ユニット
の変換関数及び重みを修正する。
■有声音と雑音を含む入力信号で学習を行なワても良い
。この場合の目標値は、有声音の「1」である。
。この場合の目標値は、有声音の「1」である。
又、学習のアルゴリズムとしては、例えば、Rumel
hart、 D、E、、McClelland、 J、
L、 and thePDP Re5earch Gr
oup、 PARALLEL DISTRIBLITE
DPROCESSING、 the MIT Pres
s、 1986.に記載されているパックプロパゲーシ
ョンを用いることができる。
hart、 D、E、、McClelland、 J、
L、 and thePDP Re5earch Gr
oup、 PARALLEL DISTRIBLITE
DPROCESSING、 the MIT Pres
s、 1986.に記載されているパックプロパゲーシ
ョンを用いることができる。
(5)評価
上記学習により一定検出率を確保し得るネットワークを
構築した後、前処理を施した未知の入力信号をニューラ
ルネットワークに入力する。
構築した後、前処理を施した未知の入力信号をニューラ
ルネットワークに入力する。
そして、ニューラルネットワークの出力結果が「1」に
近い場合は有声音、「0」に近い場合は雑音と判定する
。
近い場合は有声音、「0」に近い場合は雑音と判定する
。
以下、本発明の具体的な実施例について説明する。尚、
この実施例の検出システム1は、LPG分析部10、平
均化回路15、ニューラルネットワーク20、判定回路
30の結合にて構成される(第1図参照)。
この実施例の検出システム1は、LPG分析部10、平
均化回路15、ニューラルネットワーク20、判定回路
30の結合にて構成される(第1図参照)。
(A)ネットワーク構築のための学習段階における入力
信号を、例えば、■有声音「ア」の定常的な部分(信号
の立上り部分や立下り部分を除いた部分)、及び■ベル
音(特定雑音)とする。尚、この学習段階で採用する特
定雑音は、ベル音に限らず、当該システムが使用される
であろう環境下で生ずることを予想される雑音であれば
何でも良い。
信号を、例えば、■有声音「ア」の定常的な部分(信号
の立上り部分や立下り部分を除いた部分)、及び■ベル
音(特定雑音)とする。尚、この学習段階で採用する特
定雑音は、ベル音に限らず、当該システムが使用される
であろう環境下で生ずることを予想される雑音であれば
何でも良い。
(B)前処理
■入力信号を、第2図に示す如く、4つのブロックに時
間的に等分割する。
間的に等分割する。
■入力信号波形を、第1図に示す如く、LPG分析部1
0に通し、複数(p個)(この実施例ではp = 12
)の標本値のそれぞれにおける、各ブロック即ち各一定
時間毎に線形予測分析し、各ブロック毎の平均的な線形
予測係数を算出する。
0に通し、複数(p個)(この実施例ではp = 12
)の標本値のそれぞれにおける、各ブロック即ち各一定
時間毎に線形予測分析し、各ブロック毎の平均的な線形
予測係数を算出する。
この時、LPG分析部10の算出結果である9次の線形
予測係数は、各ブロック毎に平均化回路15で平均化さ
れる。
予測係数は、各ブロック毎に平均化回路15で平均化さ
れる。
以上の前処理により、入力信号の一定時間内における平
均的な線形予測係数の時間的変化が得られる。
均的な線形予測係数の時間的変化が得られる。
(C)ニューラルネットワークによる処理及び判定
■前処理の結果(ブロック毎のLPG分析部10、平均
化回路15の出力)を、第1図に示す如く、3層の階層
的なニューラルネットワーク20に入力する。入力Ji
21は、前処理の4ブロツク、p個に対応する、4Xp
ユニツトにて構成される。出力層22は、1ユニツトに
て構成され、目標値は前述の如く有声音については「1
」、雑音については「0」とする。
化回路15の出力)を、第1図に示す如く、3層の階層
的なニューラルネットワーク20に入力する。入力Ji
21は、前処理の4ブロツク、p個に対応する、4Xp
ユニツトにて構成される。出力層22は、1ユニツトに
て構成され、目標値は前述の如く有声音については「1
」、雑音については「0」とする。
■−ニューラルネットワーク20の出力を判定回路30
に入力し、出力ji22の出力値に応じて、入力信号が
有声音を含むかどうかを判定する。但し、本発明の実施
において、ニューラルネットワーク20の出力は判定回
路30の如くにて機械、的に判定処理されず、ニューラ
ルネットワーク20の出力を得た人間の知力にて判定処
理されるものであっても良い。
に入力し、出力ji22の出力値に応じて、入力信号が
有声音を含むかどうかを判定する。但し、本発明の実施
において、ニューラルネットワーク20の出力は判定回
路30の如くにて機械、的に判定処理されず、ニューラ
ルネットワーク20の出力を得た人間の知力にて判定処
理されるものであっても良い。
■前述した学習アルゴリズムのパックプロパゲーション
により、入力に対する出力のエラーが一定レベルに収束
するまで1万回学習させ、一定検比率を保証し得るネッ
トワークを構築する。
により、入力に対する出力のエラーが一定レベルに収束
するまで1万回学習させ、一定検比率を保証し得るネッ
トワークを構築する。
■上記■にて構築されたニューラルネットワーク20を
用いて、あらゆる雑音環境下での音声の存在が検出され
る。この時、実際のシステム稼動現場において、ネット
ワーク構築のための学習段階で予想されなかった背景雑
音の影響が大きいと考えられる場合には、現実の使用環
境下でこれを追加学習し、結果としてニューラルネット
ワーク20を使用環境により適合するように改良できる
。
用いて、あらゆる雑音環境下での音声の存在が検出され
る。この時、実際のシステム稼動現場において、ネット
ワーク構築のための学習段階で予想されなかった背景雑
音の影響が大きいと考えられる場合には、現実の使用環
境下でこれを追加学習し、結果としてニューラルネット
ワーク20を使用環境により適合するように改良できる
。
(El)実験
上記検出システム1を用いて、音声検出を実験した。
結果、検出率は99%であることが認められた。
次に、上記実施例の作用について説明する。
上記検出システム1によれば、以下の■〜■の作用効果
がある。
がある。
■ニューラルネットワーク20は、前述した如く、当初
の学習によりそのネットワークを構築した後のシステム
稼動段階で、必要に応じて追加学習できる。従って、ネ
ットワーク構築のための学習段階では予想されなかった
雑音環境下での音声検出についても、その稼動段階で随
時これを追加学習することにより、高い検出率を達成で
きる。
の学習によりそのネットワークを構築した後のシステム
稼動段階で、必要に応じて追加学習できる。従って、ネ
ットワーク構築のための学習段階では予想されなかった
雑音環境下での音声検出についても、その稼動段階で随
時これを追加学習することにより、高い検出率を達成で
きる。
■ニューラルネットワーク20への入力として、「入力
信号の一定時間内における平均的な線形予測係数の時間
的変化」を用いたから、入力を得るための前処理が、従
来の複雑な特徴量抽出に比して、単純となり、この前処
理に要する時間が短くて足りる。
信号の一定時間内における平均的な線形予測係数の時間
的変化」を用いたから、入力を得るための前処理が、従
来の複雑な特徴量抽出に比して、単純となり、この前処
理に要する時間が短くて足りる。
■ニューラルネットワーク20は、原理的に、ネットワ
ーク全体の演算処理が単純かつ迅速である。
ーク全体の演算処理が単純かつ迅速である。
■ニューラルネットワーク20は、原理的に、それを構
成している各ユニットが独立に動作しており、並列的な
演算処理が可能である。従って、演算処理が迅速である
。
成している各ユニットが独立に動作しており、並列的な
演算処理が可能である。従って、演算処理が迅速である
。
■上記■〜■により、音声検出処理を複雑な処理装置に
よることなく容易に短時間処理できる。
よることなく容易に短時間処理できる。
0階層的なニューラルネットワーク20を用いたから、
現在既に確立している簡単な学習アルゴリズム(パック
プロパゲーション)を利用でき、高い検出率を実現でき
るニューラルネットワークを容易に形成できる。
現在既に確立している簡単な学習アルゴリズム(パック
プロパゲーション)を利用でき、高い検出率を実現でき
るニューラルネットワークを容易に形成できる。
尚、本発明の実施において、ニューラルネットワークへ
の入力として、入力信号の一定時間内における平均的な
線形予測係数の時間的変化を用いるものでなく、単に、
「入力信号の平均的な線形予測係数」を用いるものであ
っても良い。
の入力として、入力信号の一定時間内における平均的な
線形予測係数の時間的変化を用いるものでなく、単に、
「入力信号の平均的な線形予測係数」を用いるものであ
っても良い。
又、本発明の実施において、線形予測係数としてPAR
COR係数を用いるものであっても良い。
COR係数を用いるものであっても良い。
[発明の効果]
以上のように本発明によれば、雑音の振幅が大きく音声
の検出に対する影響が大きい場合にも、予め予想し或い
は予想されなかった雑音環境下での音声の存在を、高い
検出率で検出でき、かつ容易に短時間処理できる音声検
出方式を得ることができる。
の検出に対する影響が大きい場合にも、予め予想し或い
は予想されなかった雑音環境下での音声の存在を、高い
検出率で検出でき、かつ容易に短時間処理できる音声検
出方式を得ることができる。
第1図は本発明が適用された音声検出システムの一例を
示す模式図、第2図は入力信号を示す模式図、第3図は
ニューラルネットワークを示す模式図、第4図は階層的
なニューラルネットワークを示す模式図、第5図はユニ
ットの構造を示す模式図である。 1・・・検出システム、 10・・・LPG分析部、 15・・・平均化回路、 20・・・ニューラルネットワーク、 21・・・入力層、 22・・・出力層、 3o・・・判定回路。
示す模式図、第2図は入力信号を示す模式図、第3図は
ニューラルネットワークを示す模式図、第4図は階層的
なニューラルネットワークを示す模式図、第5図はユニ
ットの構造を示す模式図である。 1・・・検出システム、 10・・・LPG分析部、 15・・・平均化回路、 20・・・ニューラルネットワーク、 21・・・入力層、 22・・・出力層、 3o・・・判定回路。
Claims (3)
- (1)ニューラルネットワークを用いて入力信号が有声
音を含むかどうかを判定する音声検出方式であって、ニ
ューラルネットワークへの入力として、入力信号の平均
的な線形予測係数を用いる音声検出方式。 - (2)前記ニューラルネットワークへの入力として、入
力信号の一定時間内における平均的な線形予測係数の時
間的変化を用いる請求項1記載の音声検出方式。 - (3)前記線形予測係数がPARCOR係数である請求
項1又は2記載の音声検出方式。(4)前記ニューラル
ネットワークが階層的なニューラルネットワークである
請求項1〜3のいずれかに記載の音声検出方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1250056A JPH03111898A (ja) | 1989-09-26 | 1989-09-26 | 音声検出方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1250056A JPH03111898A (ja) | 1989-09-26 | 1989-09-26 | 音声検出方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH03111898A true JPH03111898A (ja) | 1991-05-13 |
Family
ID=17202145
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1250056A Pending JPH03111898A (ja) | 1989-09-26 | 1989-09-26 | 音声検出方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH03111898A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05227332A (ja) * | 1991-10-25 | 1993-09-03 | Internatl Business Mach Corp <Ibm> | 通信線における音声存在の検出方法 |
WO1998048407A2 (en) * | 1997-04-18 | 1998-10-29 | Nokia Networks Oy | Speech detection in a telecommunication system |
JP2015158582A (ja) * | 2014-02-24 | 2015-09-03 | 日本放送協会 | 音声認識装置、及びプログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6047600A (ja) * | 1983-08-09 | 1985-03-14 | ロバート マイケル グランバーグ | オーデイオイメージ形成装置 |
JPS63261400A (ja) * | 1987-04-20 | 1988-10-28 | 富士通株式会社 | 音声認識方式 |
-
1989
- 1989-09-26 JP JP1250056A patent/JPH03111898A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6047600A (ja) * | 1983-08-09 | 1985-03-14 | ロバート マイケル グランバーグ | オーデイオイメージ形成装置 |
JPS63261400A (ja) * | 1987-04-20 | 1988-10-28 | 富士通株式会社 | 音声認識方式 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05227332A (ja) * | 1991-10-25 | 1993-09-03 | Internatl Business Mach Corp <Ibm> | 通信線における音声存在の検出方法 |
WO1998048407A2 (en) * | 1997-04-18 | 1998-10-29 | Nokia Networks Oy | Speech detection in a telecommunication system |
JP2015158582A (ja) * | 2014-02-24 | 2015-09-03 | 日本放送協会 | 音声認識装置、及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Basu et al. | Emotion recognition from speech using convolutional neural network with recurrent neural network architecture | |
KR20060044629A (ko) | 신경 회로망을 이용한 음성 신호 분리 시스템 및 방법과음성 신호 강화 시스템 | |
Aida-Zade et al. | Investigation of combined use of MFCC and LPC features in speech recognition systems | |
CN109346087B (zh) | 对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置 | |
JPH0990974A (ja) | 信号処理方法 | |
Furtună | Dynamic programming algorithms in speech recognition | |
Singh et al. | DeepF0: End-to-end fundamental frequency estimation for music and speech signals | |
Tsenov et al. | Speech recognition using neural networks | |
Kaur et al. | Genetic algorithm for combined speaker and speech recognition using deep neural networks | |
Wang et al. | Deep learning approaches for voice activity detection | |
JPH02298998A (ja) | 音声認識装置とその方法 | |
Gadasin et al. | Using Formants for Human Speech Recognition by Artificial Intelligence | |
US5745874A (en) | Preprocessor for automatic speech recognition system | |
JPH03111898A (ja) | 音声検出方式 | |
Devi et al. | Automatic Speaker Recognition using MFCC and Artificial Neural Network | |
Gowda et al. | Formant tracking using quasi-closed phase forward-backward linear prediction analysis and deep neural networks | |
CN115881157A (zh) | 音频信号的处理方法及相关设备 | |
JPH02289899A (ja) | 音声検出方式 | |
Lilley et al. | Unsupervised training of a DNN-based formant tracker | |
Hussain et al. | Endpoint detection of speech signal using neural network | |
WO2021062705A1 (zh) | 一种单声道鲁棒性的语音关键词实时检测方法 | |
Close et al. | PAMGAN+/-: Improving Phase-Aware Speech Enhancement Performance via Expanded Discriminator Training | |
Nijhawan et al. | A comparative study of two different neural models for speaker recognition systems | |
Martinez-Alfaro et al. | A robust real-time pitch detector based on neural networks | |
JPH1097269A (ja) | 音声検出装置及び方法 |