JPH11224097A - 音声の有音/休止判定方法およびその装置 - Google Patents

音声の有音/休止判定方法およびその装置

Info

Publication number
JPH11224097A
JPH11224097A JP10024203A JP2420398A JPH11224097A JP H11224097 A JPH11224097 A JP H11224097A JP 10024203 A JP10024203 A JP 10024203A JP 2420398 A JP2420398 A JP 2420398A JP H11224097 A JPH11224097 A JP H11224097A
Authority
JP
Japan
Prior art keywords
output
neural network
section
sound
pause
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10024203A
Other languages
English (en)
Inventor
Jiyoutarou Ikedo
丈太朗 池戸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP10024203A priority Critical patent/JPH11224097A/ja
Publication of JPH11224097A publication Critical patent/JPH11224097A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Time-Division Multiplex Systems (AREA)

Abstract

(57)【要約】 【課題】 S/Nが悪い状態での、特に休止区間の誤判
定を減少する。 【解決手段】 音声波形はLSP分析され(13)、こ
れと平坦な周波数包絡のLSPとの差(14)と、音声
波形の20〜143サンプル遅れとの自己相関の最大値
(15)と、サブフレームごとの音声パワー(16)
と、そのサブフレーム遅延出力(17)と、ニューラル
ネットワーク21の出力の1フレーム前の値(3)とが
ニューラルネットワークに入力され、その唯一の出力を
しきい値と比較して、有音/休止区間を判定出力する
(22)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は音声のディジタル
伝送等の分野に応用が可能であり、音声のディジタル処
理の分野に属し音声波中の有音区間と休止区間とを、ニ
ューラルネットワークを用いて判別する方法およびその
装置に関する。
【0002】
【従来の技術】音声波の有音区間と休止区間を判定する
方法として、音声波を分析して得られる複数種類のパラ
メータを、単一出力のニューラルネットワークに入力
し、その出力を利用して有音/休止判定を行なう方法
が、池戸,“ニューラルネットワークを用いたVoic
e Activity Detection”,’97
信学ソサエティ大会,B−5−28で提案されている。
これは単一出力を持つニューラルネットワークを利用
し、音声波の有音/休止区間判定を10ms毎のフレー
ム単位で行なうものである。
【0003】図5を用いて上記方法を簡単に説明する。
音声入力端子11より入力された8kHzでサンプリン
グされた音声波は、ディジタル値系列として音声波バッ
ファ部12に蓄えられる。ここで、音声波バッファ部1
2には有音/休止区間判定の対象となる80サンプル
(10ms)に加え、対象となる区間の直前の223サ
ンプルの計343サンプルの音声波が蓄えられる。
【0004】LSP分析部13は音声バッファ部12に
蓄えられた音声波のうち、有音/休止判定対象となる部
分を中心とした音声波からLSPパラメータベクトルを
算出する。ベクトル誤差算出部14はLSP分析部13
よりLSPベクトルを受け、平坦な周波数包絡を持つL
SPパラメータベクトルとの間のベクトル誤差を算出
し、結果をニューラルネットワーク部21へ送る。
【0005】最大自己相関算出部15は音声波バッファ
部12内に蓄えられた音声波を用い、有音/休止区間判
定の対象フレームの音声波と20サンプルから143サ
ンプル遅れの自己相関を算出し、その内最大の自己相関
の値を求め、これをニューラルネットワーク部21に送
る。サブフレーム音声パワー算出部16は5msの音声
毎に短時間パワーを算出し、結果をニューラルネットワ
ーク部21および遅延素子17へ送る。
【0006】遅延素子17はサブフレーム音声パワー算
出部16より5ms毎に短時間音声パワーを受け5ms
保持したのちニューラルネットワーク部21へ5ms前
の音声パワーを出力する。ニューラルネットワーク部2
1は各部14〜17からの出力つまり、音声波形の4つ
の特徴パラメータを受け、あらかじめ設定された重み係
数を用いて唯一の出力を10ms毎に算出し、出力判定
部22へ出力する。
【0007】入力層のニューロンN00〜N03は入力値を
そのまま出力する。中間層のニューロンN10〜N12およ
び出力層のニューロンN21の各ニューロンNi,j (i=
1,2、j=0,1,2)への入力INi,j は次式であ
る。 INi,j =Σk OUTi-1,k i,k,j (1) ここにkは中間層の出力については0から3、出力層の
出力については0から2の値をとる。つまり各々ニュー
ロンにはその直前の層のすべての各出力OUTと、その
両ニューロン間の組合せに固有の重み係数wを乗算した
ものが入力される。
【0008】中間層および出力層の各ニューロンは入力
値INi,j を受けて次式の出力OUTi,j を出力する。 OUTi,j =(1/(1+exp(−INi,j +OFFi,j ))) −(1/2) (2) ここに、OFFはニューロン毎に設定された一定のオフ
セット値である。従って、このニューラルネットワーク
の出力は−0.5から0.5の範囲に限定される。重み
係数wおよびオフセットOFFの数値例を図6A,Bに
それぞれ示す。これらの値は、予め既知の音声波形につ
いて、正しい判定結果が得られるように、学習して求め
る。
【0009】出力判定部22はニューラルネットワーク
部21の出力をあらかじめ設定された一定のしきい値と
比較し、その大小により有音/休止区間の判定を行な
い、判定結果を出力判定端子23より出力する。つまり
ニューラルネットワーク部21の出力の絶対値がしきい
値以上で有音区間、以下で休止区間と判定する。
【0010】
【発明が解決しようとする課題】前記の方法によれば、
背景雑音のレベルが小さな場合は有音区間と休止区間の
判定をほぼ正確に行なうことが可能であるが、背景雑音
が大きくなるに従い有音区間と休止区間の判定に誤りが
多くなるという問題があった。即ち、図7に有音/休止
判定の対象となる音声波形と、それに対応するニューラ
ルネットワークの出力値を示す。同図において、(a)
が音声波形、(b)が(a)の音声にSNRが30dB
となるよう背景雑音を重畳した音声に対するニューラル
ネットワークの出力、(c)が(a)の音声にSNRが
10dBとなるよう背景雑音を重畳した音声に対するニ
ューラルネットワークの出力である。この図からわかる
ように背景雑音レベルが大きくなるに従い有音/休止判
定誤りが大きくなる理由として、高レベルの背景雑音環
境下では休止区間におけるニューラルネットワーク出力
が不安定となるためと考えられる。
【0011】この発明は背景雑音レベルが大きくなって
も安定した有音/休止区間判定を行なうことのできる判
定方法および装置を提供することを目的とする。
【0012】
【課題を解決するための手段】この発明によれば、ニュ
ーラルネットワークの出力を入力へフィードバックし、
直前の時間区間のニューラルネットワークの出力値を用
いて出力を算出する。この方法ではニューラルネットワ
ークが出力を算出する際に、直前の時間区間が有音区間
であるか休止区間であるかを含めた形で出力を算出する
ことになり、特に有音区間あるいは休止区間の定常的な
部分でのニューラルネットワーク出力が安定することが
期待される。
【0013】
【発明の実施の形態】この発明の実施例を図1に示す。
ただし従来方法と同一の機能を有する機能ブロックに
は、図5と同じ記号を付してある。従来方法との差異は
ニューラルネットワーク部21の入力層のニューロンN
04が一つ増えていることと、ニューラルネットワーク部
21の出力が遅延素子31を介して入力層のニューロン
04へフィードバックされている点である。
【0014】遅延素子31はニューラルネットワーク部
21の出力を受けこれを10ms保持したのち、これを
ニューラルネットワーク部21の入力へフィードバック
する。即ち直前のフレームのニューラルネットワーク部
21の出力を他の音声特徴パラメータと一緒にニューラ
ルネットワーク部21に与える。図2A,Bは図1にお
ける重み係数およびオフセットの各数値例をそれぞれ示
す。これらの値も、従来技術と同様に学習により求め
る。
【0015】上述では直前のフレームの出力を帰還した
が、1又は複数前の出力を帰還させてもよい。
【0016】
【発明の効果】図3に図7と同一の音声および背景雑音
を処理した際の図1中のニューラルネットワークの出力
値を示す。同図において、Aが音声波形、BがAの音声
にSNRが30dBとなるよう背景雑音を重畳した音声
に対するニューラルネットワークの出力、CがAの音声
にSNRが10dBとなるよう背景雑音を重畳した音声
に対するニューラルネットワークの出力である。また比
較のため、Dに従来方法によるSNRが10dBの場合
を再掲した。
【0017】同図より明らかなように、この発明によれ
ば背景雑音が大きくなった場合でもニューラルネットワ
ーク出力は安定して、休止区間で小さな値を出力してい
る。また、図4にこの発明と従来方法とを用いて音声波
形の有音/休止区間の判定を行なった結果を示す。単位
は%である。本発明によれば、特に本来休止区間である
区間を有音区間と誤って判定する割合が従来方法より可
成り小さくなっていることが判る。
【図面の簡単な説明】
【図1】この発明の実施例の機能構成を示す図。
【図2】この発明を実施するにあたり用いたパラメータ
の例を示す図。
【図3】この発明により得られるニューラルネットワー
クの出力例を示す図。
【図4】従来方法とこの発明の有音/休止判定結果の比
較を示す図。
【図5】従来の音声の有音/休止判定装置の機能構成を
示す図。
【図6】従来方法を実施するにあたり用いたパラメータ
の例を示す図。
【図7】従来方法により得られるニューラルネットワー
クの出力例を示す図。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 音声波形を一定の周期でサンプリング
    し、量子化したものを、一定の時間区間に分割し、か
    つ、音声波形を分析して複数の特徴パラメータを得、こ
    れら特徴パラメータを、唯一つの出力を持つニューラル
    ネットワークに入力し、その出力を用いて、前記各時間
    区間毎にそこに含まれる音声波形が有音区間であるか休
    止区間であるかを判定する方法において、 前記複数の特徴パラメータとともに直前の時間区間のニ
    ューラルネットワーク出力をニューラルネットワークに
    入力することを特徴とする音声波の有音/休止判定方
    法。
  2. 【請求項2】 音声波形を一定の周期でサンプリング
    し、量子化したものを、一定の時間区間に分割する手段
    と、音声波形を複数の特徴パラメータを分析する手段
    と、それらの分析結果を入力とし、唯一つの出力を出力
    するニューラルネットワークと、前記ニューラルネット
    ワークの出力をしきい値と比較して前記各時間区間毎に
    その音声波形が有音区間であるか休止区間であるかを判
    定する手段を備える音声波の有音/休止判定装置におい
    て、 前記複数の特徴を入力とするとともに、直前の時間区間
    の前記ニューラルネットワークの出力を前記ニューラル
    ネットワークにフィードバック入力する手段を備えるこ
    とを特徴とする音声波の有音/休止区間判定装置。
JP10024203A 1998-02-05 1998-02-05 音声の有音/休止判定方法およびその装置 Pending JPH11224097A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10024203A JPH11224097A (ja) 1998-02-05 1998-02-05 音声の有音/休止判定方法およびその装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10024203A JPH11224097A (ja) 1998-02-05 1998-02-05 音声の有音/休止判定方法およびその装置

Publications (1)

Publication Number Publication Date
JPH11224097A true JPH11224097A (ja) 1999-08-17

Family

ID=12131769

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10024203A Pending JPH11224097A (ja) 1998-02-05 1998-02-05 音声の有音/休止判定方法およびその装置

Country Status (1)

Country Link
JP (1) JPH11224097A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111520615A (zh) * 2020-04-28 2020-08-11 清华大学 基于线谱对和三次插值搜索的管网漏损识别与定位方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111520615A (zh) * 2020-04-28 2020-08-11 清华大学 基于线谱对和三次插值搜索的管网漏损识别与定位方法
CN111520615B (zh) * 2020-04-28 2021-03-16 清华大学 基于线谱对和三次插值搜索的管网漏损识别与定位方法

Similar Documents

Publication Publication Date Title
US20180240472A1 (en) Voice Activity Detection Employing Running Range Normalization
JP3423906B2 (ja) 音声の動作特性検出装置および検出方法
US20020038211A1 (en) Speech processing system
CN1083294A (zh) 对语音编码的随时间变化的频谱按内插法进行分析的方法
CN109994126A (zh) 音频消息分段方法、装置、存储介质和电子设备
JP4551817B2 (ja) ノイズレベル推定方法及びその装置
JPH08179795A (ja) 音声のピッチラグ符号化方法および装置
SE470577B (sv) Förfarande och anordning för kodning och/eller avkodning av bakgrundsljud
US5046100A (en) Adaptive multivariate estimating apparatus
JPH11224097A (ja) 音声の有音/休止判定方法およびその装置
EP0308433B1 (en) An adaptive multivariate estimating apparatus
JP2002278586A (ja) 音声認識方法
JPH117292A (ja) 音声認識装置
JP3490324B2 (ja) 音響信号符号化装置、復号化装置、これらの方法、及びプログラム記録媒体
JP2001166783A (ja) 音声区間検出方法
JPH1124692A (ja) 音声波の有音/休止区間判定方法およびその装置
JPH11133997A (ja) 有音無音判定装置
JP2564200B2 (ja) 話者認識方法
Chelloug et al. Robust Voice Activity Detection Against Non Homogeneous Noisy Environments
JPH0720892A (ja) 音声認識装置におけるノイズキャンセリング装置
Chelloug et al. Real Time Implementation of Voice Activity Detection based on False Acceptance Regulation.
Tymchenko et al. Development and Research of VAD-Based Speech Signal Segmentation Algorithms.
Jebaruby et al. Weighted Energy Reallocation Approach for Near-end Speech Enhancement
Dhanjal OSLP: a new technique in linear prediction of speech
US20030171830A1 (en) Vector estimation system, method and associated encoder