JPH03111898A - 音声検出方式 - Google Patents

音声検出方式

Info

Publication number
JPH03111898A
JPH03111898A JP1250056A JP25005689A JPH03111898A JP H03111898 A JPH03111898 A JP H03111898A JP 1250056 A JP1250056 A JP 1250056A JP 25005689 A JP25005689 A JP 25005689A JP H03111898 A JPH03111898 A JP H03111898A
Authority
JP
Japan
Prior art keywords
input signal
neural network
network
input
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1250056A
Other languages
English (en)
Inventor
Hidekazu Tsuda
津田 英一
Shingo Nishimura
新吾 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sekisui Chemical Co Ltd
Original Assignee
Sekisui Chemical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sekisui Chemical Co Ltd filed Critical Sekisui Chemical Co Ltd
Priority to JP1250056A priority Critical patent/JPH03111898A/ja
Publication of JPH03111898A publication Critical patent/JPH03111898A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、音声検出方式に関する。
[従来の技術] 従来、雑音環境下で音声の存在を検出する方法は多数あ
り、特公昭57−12999号公報に記載されているよ
うな通信における音声区間の検出に用いたり、音声言語
内容の認識の前処理に用いたりされているが、高雑音下
での一般用途への展開は困難で、例えば、着信ベル音が
鳴っているような状態でのハンズフリー電話機の音声に
よる応答開始等ができなかった。
尚、雑音環境下で簡易に音声の存在を検出する方法とし
ては、入力信号が一定時間間隔内に一参照軸を横切る回
数を検出する方法があった。
然しながら、上記従来の音声検出方式を用いる方法にあ
っては、一般に雑音の振幅は音声の振幅に比較して小さ
いという前提を用いており、雑音の振幅が音声の振幅と
同程度の場合、音声の存在を検出することができない。
そこで、本出願人は、雑音環境下での音声の存在を簡易
に検出することができる音声検出方式として、入力信号
の参照軸交差数と波高値(波形の振幅レベルの無次元化
量)とを特徴量として算出し、この算出結果を、有声音
と特定雑音について予め定めた辞書データと比較し、入
力信号が有声音を含むかどうかをパターン認識により判
定する方法を提案している。
[発明が解決しようとする課題] 然しなから、上記従来の音声検出方式では、以下の■、
■の問題点がある。
■辞書データの作成時に採用した特定雑音(例えばベル
音)以外の全ての雑音を想定してのパターン認識は不可
能であり、予め予想されなかった雑音環境下での検出率
が低い。
■従来の音声検出方式においては、−室以上の検出率確
保のために・上−述の如くの複雑な特徴量を用いる必要
があるが、これは複雑な処理装置を必要とし、処理時間
も比較的長い。
本発明は、雑音の振幅が大きく音声の検出に対する影響
が大きい場合にも、予め予想し或いは予想されなかった
雑音環境下での音声の存在を、高い検出率で検出でき、
かつ容易に短時間処理できる音声検出方式を得ることを
目的とする。
[課題を解決するための手段] 請求項1に記載の本発明は、ニューラルネットワークを
用いて入力信号が有声音を含むかどうかを判定する音声
検出方式であって、ニューラルネットワークへの入力と
して、入力信号の平均的な線形予測係数を用いるように
したものである。
請求項2に記載の本発明は、前記ニューラルネットワー
クへの入力として、入力信号の一定時間内における平均
的な線形予測係数の時間的変化を用いるようにしたもの
である。
請求項3に記載の本発明は、前記線形予測係数がPAR
COR係数であるようにしたものである。
請求項4に記載の本発明は、前記ニューラルネットワー
クが階層的なニューラルネットワークであるようにした
ものである。
尚、線形予測係数(LPG係数)は以下の如く定義され
る。即ち、入力信号のサンプル値(χ、)の間には、−
mに高い近接相関があることが知られている。そこで次
のような線形予測が可能であると仮定する。
△        p 線形予測値  χ(=−Σα□χ1−1  ・−(1)
線形予測誤差 εt=χt−χ乞  ・・・(2)ここ
て、χt:時刻tにおける入力信号のサンプル値、(α
、)(i=1+・・・、p): (9次の)線形予測係
数 さて、本発明の実施においては、線形予測誤差ε、の2
乗平均値が最小となるように線形予測係数(α1)を求
める。
具体的には (εt)2を求め、その時間平均を(εt
)2と表わして、θ(εt)2/θα、=0.i=1.
2.・・・、pとおくことによって、次の式から(α、
)が求められる。
Σ Q  1vli−Jl  =Q、  j=l  l
  2  +  ””+  p   ””  (3)又
、PARCOR係数(偏自己相関係数)は以下の如く定
義される。即ち、[kn] (n =1 、・・・p)
を(9次の) PARCOI係数(偏自己相関係数)と
する時、PARCOR係数k n+1は、線形予測によ
る前向き残差εt(1)と後向き残差εt−(n+11
”))間の正規化相関係数として、次の式によって定義
される。
・・・(4) ここで、εt(f)=χ、−!  α1χ、−8、五m
l (αl):前向き予測係数、 εt−(n+1. (b)=χt−(n ” s ) 
−J 、 l J ・χt−J 。
(βj):後向き予測係数 [作用] 請求項1〜3のそれぞれに記載の本発明によれば、以下
の■〜■の作用効果がある。尚、本発明にあっては、有
声音(母音、半母音、鼻音等の声帯の振動を伴う音であ
り、人間が発声する殆ど全ての音声には有声音が含まれ
ている)をもって音声とする。
■ニューラルネットワークは、後に述べる学習によりそ
のネットワークを構築した後のシステム稼動段階で、必
要に応じて追加学習できる。従って、ネットワーク構築
のための学習段階では予想されなかった雑音環境下での
音声検出についても、その稼動段階で随時これを追加学
習することにより、高い検出率を達成できる。
■ニューラルネットワークへの入力として、「入力信号
の平均的な線形予測係数」を用いたから、入力を得るた
めの前処理が、従来の複雑な特徴量抽出に比して、単純
となり、この前処理に要する時間が短くて足りる。
■ニューラルネットワークは、原理的に、ネットワーク
全体の演算処理が単純かつ迅速である。
■ニューラルネットワークは、原理的に、それを構成し
ている各ユニットが独立に動作しており、並列的な演算
処理が可能である。従って、演算処理が迅速である。
■上記■〜■により、音声検出処理を複雑な処理装置に
よることなく容易に短時間処理できる。
又、請求項4に記載の本発明によれば上記■〜■の作用
効果に加えて、以下の■の作用効果がある。
0階層的なニューラルネットワークにあっては、現在、
後述する如くの簡単な学習アルゴリズム(パックプロパ
ゲーション)が確立されており、高い検出率を実現でき
るニューラルネットワークを容易に形成できる。
[実施例] 第1図は本発明が適用された音声検出システムの一例を
示す模式図、第2図は入力信号を示す模式図、第3図は
ニューラルネットワークを示す模式図、第4図は階層的
なニューラルネットワークを示す模式図、第5図はユニ
ットの構造を示す模式図である。
本発明の具体的実施例の説明に先立ち、二二一うルネッ
トワークの構成、学習アルゴリズム、評価について説明
する。
(1)ニューラルネットワークは、その構造から、第3
図(A)に示す階層的ネットワークと第3図CB)に示
す相互結合ネットワークの2種に大別できる6本発明は
、両ネットワークのいずれを用いて構成するものであつ
ても良いが、階層的ネットワークは後述する如くの簡単
な学習アルゴリズムが確立されているためより有用であ
る。
(2)ネットワークの構造 階層的ネットワークは、第4図に示す如く、入力層、中
間層、出力層からなる階層構造をとる。
各層は1以上のユニットから構成される。結合は、入力
層→中間層→出力層という前向きの結合だけで、各層内
での結合はない。
(3)ユニットの構造 ユニットは第5図に示す如く脳のニューロンのモデル化
であり構造は簡単である。他のユニットから入力を受け
、その総和をとり一定の規則(変換関数)で変換し、結
果を出力する。他のユニットとの結合には、それぞれ結
合の強さを表わす可変の重みを付ける。
(4)学習(パックプロパゲーション)ネットワークの
学習とは、実際の出力を目標値(望ましい出力)に近づ
けることであり、−a的には第5図に示した各ユニット
の変換関数及び重みを変化させて学習を行なう。具体的
には目標値を、有声音について「1」、雑音については
「0」とし、下記■〜■による。
■有声音のみに本発明の前処理を施し、前処理の結果を
ニューラルネットワークに入力する。そして、ニューラ
ルネットワークの出力が目標値に近づくように各ユニッ
トの変換関数及び重みを修正する。
■雑音のみに本発明の前処理を施し、前処理の結果をニ
ューラルネットワークに入力する。そして、ニューラル
ネットワークの出力が目標値に近づくように各ユニット
の変換関数及び重みを修正する。
■有声音と雑音を含む入力信号で学習を行なワても良い
。この場合の目標値は、有声音の「1」である。
又、学習のアルゴリズムとしては、例えば、Rumel
hart、 D、E、、McClelland、 J、
L、 and thePDP Re5earch Gr
oup、 PARALLEL DISTRIBLITE
DPROCESSING、 the MIT Pres
s、 1986.に記載されているパックプロパゲーシ
ョンを用いることができる。
(5)評価 上記学習により一定検出率を確保し得るネットワークを
構築した後、前処理を施した未知の入力信号をニューラ
ルネットワークに入力する。
そして、ニューラルネットワークの出力結果が「1」に
近い場合は有声音、「0」に近い場合は雑音と判定する
以下、本発明の具体的な実施例について説明する。尚、
この実施例の検出システム1は、LPG分析部10、平
均化回路15、ニューラルネットワーク20、判定回路
30の結合にて構成される(第1図参照)。
(A)ネットワーク構築のための学習段階における入力
信号を、例えば、■有声音「ア」の定常的な部分(信号
の立上り部分や立下り部分を除いた部分)、及び■ベル
音(特定雑音)とする。尚、この学習段階で採用する特
定雑音は、ベル音に限らず、当該システムが使用される
であろう環境下で生ずることを予想される雑音であれば
何でも良い。
(B)前処理 ■入力信号を、第2図に示す如く、4つのブロックに時
間的に等分割する。
■入力信号波形を、第1図に示す如く、LPG分析部1
0に通し、複数(p個)(この実施例ではp = 12
)の標本値のそれぞれにおける、各ブロック即ち各一定
時間毎に線形予測分析し、各ブロック毎の平均的な線形
予測係数を算出する。
この時、LPG分析部10の算出結果である9次の線形
予測係数は、各ブロック毎に平均化回路15で平均化さ
れる。
以上の前処理により、入力信号の一定時間内における平
均的な線形予測係数の時間的変化が得られる。
(C)ニューラルネットワークによる処理及び判定 ■前処理の結果(ブロック毎のLPG分析部10、平均
化回路15の出力)を、第1図に示す如く、3層の階層
的なニューラルネットワーク20に入力する。入力Ji
21は、前処理の4ブロツク、p個に対応する、4Xp
ユニツトにて構成される。出力層22は、1ユニツトに
て構成され、目標値は前述の如く有声音については「1
」、雑音については「0」とする。
■−ニューラルネットワーク20の出力を判定回路30
に入力し、出力ji22の出力値に応じて、入力信号が
有声音を含むかどうかを判定する。但し、本発明の実施
において、ニューラルネットワーク20の出力は判定回
路30の如くにて機械、的に判定処理されず、ニューラ
ルネットワーク20の出力を得た人間の知力にて判定処
理されるものであっても良い。
■前述した学習アルゴリズムのパックプロパゲーション
により、入力に対する出力のエラーが一定レベルに収束
するまで1万回学習させ、一定検比率を保証し得るネッ
トワークを構築する。
■上記■にて構築されたニューラルネットワーク20を
用いて、あらゆる雑音環境下での音声の存在が検出され
る。この時、実際のシステム稼動現場において、ネット
ワーク構築のための学習段階で予想されなかった背景雑
音の影響が大きいと考えられる場合には、現実の使用環
境下でこれを追加学習し、結果としてニューラルネット
ワーク20を使用環境により適合するように改良できる
(El)実験 上記検出システム1を用いて、音声検出を実験した。
結果、検出率は99%であることが認められた。
次に、上記実施例の作用について説明する。
上記検出システム1によれば、以下の■〜■の作用効果
がある。
■ニューラルネットワーク20は、前述した如く、当初
の学習によりそのネットワークを構築した後のシステム
稼動段階で、必要に応じて追加学習できる。従って、ネ
ットワーク構築のための学習段階では予想されなかった
雑音環境下での音声検出についても、その稼動段階で随
時これを追加学習することにより、高い検出率を達成で
きる。
■ニューラルネットワーク20への入力として、「入力
信号の一定時間内における平均的な線形予測係数の時間
的変化」を用いたから、入力を得るための前処理が、従
来の複雑な特徴量抽出に比して、単純となり、この前処
理に要する時間が短くて足りる。
■ニューラルネットワーク20は、原理的に、ネットワ
ーク全体の演算処理が単純かつ迅速である。
■ニューラルネットワーク20は、原理的に、それを構
成している各ユニットが独立に動作しており、並列的な
演算処理が可能である。従って、演算処理が迅速である
■上記■〜■により、音声検出処理を複雑な処理装置に
よることなく容易に短時間処理できる。
0階層的なニューラルネットワーク20を用いたから、
現在既に確立している簡単な学習アルゴリズム(パック
プロパゲーション)を利用でき、高い検出率を実現でき
るニューラルネットワークを容易に形成できる。
尚、本発明の実施において、ニューラルネットワークへ
の入力として、入力信号の一定時間内における平均的な
線形予測係数の時間的変化を用いるものでなく、単に、
「入力信号の平均的な線形予測係数」を用いるものであ
っても良い。
又、本発明の実施において、線形予測係数としてPAR
COR係数を用いるものであっても良い。
[発明の効果] 以上のように本発明によれば、雑音の振幅が大きく音声
の検出に対する影響が大きい場合にも、予め予想し或い
は予想されなかった雑音環境下での音声の存在を、高い
検出率で検出でき、かつ容易に短時間処理できる音声検
出方式を得ることができる。
【図面の簡単な説明】
第1図は本発明が適用された音声検出システムの一例を
示す模式図、第2図は入力信号を示す模式図、第3図は
ニューラルネットワークを示す模式図、第4図は階層的
なニューラルネットワークを示す模式図、第5図はユニ
ットの構造を示す模式図である。 1・・・検出システム、 10・・・LPG分析部、 15・・・平均化回路、 20・・・ニューラルネットワーク、 21・・・入力層、 22・・・出力層、 3o・・・判定回路。

Claims (3)

    【特許請求の範囲】
  1. (1)ニューラルネットワークを用いて入力信号が有声
    音を含むかどうかを判定する音声検出方式であって、ニ
    ューラルネットワークへの入力として、入力信号の平均
    的な線形予測係数を用いる音声検出方式。
  2. (2)前記ニューラルネットワークへの入力として、入
    力信号の一定時間内における平均的な線形予測係数の時
    間的変化を用いる請求項1記載の音声検出方式。
  3. (3)前記線形予測係数がPARCOR係数である請求
    項1又は2記載の音声検出方式。(4)前記ニューラル
    ネットワークが階層的なニューラルネットワークである
    請求項1〜3のいずれかに記載の音声検出方式。
JP1250056A 1989-09-26 1989-09-26 音声検出方式 Pending JPH03111898A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1250056A JPH03111898A (ja) 1989-09-26 1989-09-26 音声検出方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1250056A JPH03111898A (ja) 1989-09-26 1989-09-26 音声検出方式

Publications (1)

Publication Number Publication Date
JPH03111898A true JPH03111898A (ja) 1991-05-13

Family

ID=17202145

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1250056A Pending JPH03111898A (ja) 1989-09-26 1989-09-26 音声検出方式

Country Status (1)

Country Link
JP (1) JPH03111898A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05227332A (ja) * 1991-10-25 1993-09-03 Internatl Business Mach Corp <Ibm> 通信線における音声存在の検出方法
WO1998048407A2 (en) * 1997-04-18 1998-10-29 Nokia Networks Oy Speech detection in a telecommunication system
JP2015158582A (ja) * 2014-02-24 2015-09-03 日本放送協会 音声認識装置、及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6047600A (ja) * 1983-08-09 1985-03-14 ロバート マイケル グランバーグ オーデイオイメージ形成装置
JPS63261400A (ja) * 1987-04-20 1988-10-28 富士通株式会社 音声認識方式

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6047600A (ja) * 1983-08-09 1985-03-14 ロバート マイケル グランバーグ オーデイオイメージ形成装置
JPS63261400A (ja) * 1987-04-20 1988-10-28 富士通株式会社 音声認識方式

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05227332A (ja) * 1991-10-25 1993-09-03 Internatl Business Mach Corp <Ibm> 通信線における音声存在の検出方法
WO1998048407A2 (en) * 1997-04-18 1998-10-29 Nokia Networks Oy Speech detection in a telecommunication system
JP2015158582A (ja) * 2014-02-24 2015-09-03 日本放送協会 音声認識装置、及びプログラム

Similar Documents

Publication Publication Date Title
Basu et al. Emotion recognition from speech using convolutional neural network with recurrent neural network architecture
KR20060044629A (ko) 신경 회로망을 이용한 음성 신호 분리 시스템 및 방법과음성 신호 강화 시스템
Aida-Zade et al. Investigation of combined use of MFCC and LPC features in speech recognition systems
CN109346087B (zh) 对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置
JPH0990974A (ja) 信号処理方法
Furtună Dynamic programming algorithms in speech recognition
Singh et al. DeepF0: End-to-end fundamental frequency estimation for music and speech signals
Tsenov et al. Speech recognition using neural networks
Kaur et al. Genetic algorithm for combined speaker and speech recognition using deep neural networks
Wang et al. Deep learning approaches for voice activity detection
JPH02298998A (ja) 音声認識装置とその方法
Gadasin et al. Using Formants for Human Speech Recognition by Artificial Intelligence
US5745874A (en) Preprocessor for automatic speech recognition system
JPH03111898A (ja) 音声検出方式
Devi et al. Automatic Speaker Recognition using MFCC and Artificial Neural Network
Gowda et al. Formant tracking using quasi-closed phase forward-backward linear prediction analysis and deep neural networks
CN115881157A (zh) 音频信号的处理方法及相关设备
JPH02289899A (ja) 音声検出方式
Lilley et al. Unsupervised training of a DNN-based formant tracker
Hussain et al. Endpoint detection of speech signal using neural network
WO2021062705A1 (zh) 一种单声道鲁棒性的语音关键词实时检测方法
Close et al. PAMGAN+/-: Improving Phase-Aware Speech Enhancement Performance via Expanded Discriminator Training
Nijhawan et al. A comparative study of two different neural models for speaker recognition systems
Martinez-Alfaro et al. A robust real-time pitch detector based on neural networks
JPH1097269A (ja) 音声検出装置及び方法