JPH0376472B2

JPH0376472B2 -

Info

Publication number: JPH0376472B2
Application number: JP57024388A
Authority: JP
Inventors: Kazuo Nakada; Yoshinori Myamoto
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1982-02-19
Filing date: 1982-02-19
Publication date: 1991-12-05
Also published as: JPS58143394A; US4720862A

Description

【発明の詳細な説明】本発明は音声の分析における音声区間の検出と
検出された区間が有声音か無声音かの判定分類を
行う方式に係り、特に入力音声のレベルに依存し
ない上記検出と分類の確実な実行に好適な方式に
関する。

音声の合成または認識のための分析において、
もつとも基本的な処理として、音声区間の検出と
検出された区間が有声区間か、無声区間かの判定
（分類）がある。これが正確かつ確実に行われな
いと、合成音声の音質が劣化したり、音声認識の
誤り率が増加したりする。

一般に、これらの検出、分類には入力音声の強
度（分析フレーム別の平均エネルギー）が重要な
決定因子となる。しかし入力音声の強度の絶対値
を使うことは、結果が入力条件に依存することと
なり望ましくない。従来のオフラインでの分析
（たとえば合成のための分析）では、ある長時間
区間（たとえば一個の単語の全発声区間）におけ
るフレーム別平均エネルギーの最大値で正規化し
た強度を用いることでこの対策としているが、実
時間音声分析合成や認識ではこうした対策がとれ
ないという欠点があつた。

本発明は、上記問題点を解決するためになされ
たもので、実時間分析においても確実に機能し、
かつ入力音声の強度の相対的な変動に依存しない
音声区間の検出と検出された区間での有声、無声
の判定分類方式を提供することを目的とする。

この目的を達成するため本発明においては、入
力音声信号の相対レベル変動に依存しない３種の
パラメータを入力音声信号より抽出し、これらパ
ラメータのもつている物理的意味にもとづき、音
声区間の検出とその区間での有声、無声の判定分
類をおこなう点に特徴がある。

音声の分析は通常20〜30ミリ秒間のデータを１
ブロツクとし、10〜20ミリ秒間隔で行われる。１
ブロツクのデータから抽出される正規化主要パラ
メータの中で、とくに本発明に関連して重要なパ
ラメータは次の３つである。

(1) k₁＝γ₁／γ₀；正規化１次偏自己相関係数
（γ₀、γ₁は０次および１次の自己相関係数） (2) E_N＝_P 〓ⁱ⁼¹ （１−k² ₁）；正規化残差パワー（ｐは分析次数） (3) φ；正規化残差相関のピーク値これらの諸量はいずれも正規化されており、原
理的には入力音声信号の相対レベル変動には依存
しない。これらのパラメータの値が実際にどのよ
うな値をとるかの１例を、第１図（男声の場合）
と第２図（女声の場合）に示す。

これら多数の分析結果およびその各パラメータ
がもつている物理的な意味から、第３図のような
検出分類アルゴリズムが考えられる。

こゝでＶは有声音、Ｕは無声音、は無音を示
す。

第３図でα₁とα₂はパラメータE_Nに関し、また
β₁とβ₂はパラメータk₁に関してあらかじめ設定し
ておく判定いき値であり、たとえば、次のような
値とする。

α₁＝0.2、α₂＝0.6 β₁＝0.4、β₂＝0.2 この処理をフローの形で第４図に示す。

以下、本発明にもとづき本発明を詳細に説明す
る。

第５図は本発明の方式を用いた音声合成装置の
一実施例のブロツク構成図である。

１ブロツク分の音声波形１が、２つの分析回路
２と３に与えられる。２は偏自己相関分析による
偏自己相関係数k₁、k₂、…、k_pおよび正規化残差
パワーp₀を求める分析回路であり、その処理内容
については公知である。（中田和男：「音声」（コ
ロナ社）、1977、第３章、3.2.5および3.2.6また
は、安居院、中島：「コンピユータ音声処理」（産
報出版）、1980、第２章参照）その出力４として、k₁およびp₀が判定回路６に
入力される。

一方３は音源分析回路であり、正規化残差相関
φを求める。その処理内容についても公知である
（上記２文献参照）。その出力５としてφが判定回
路６に入力される。

判定回路６においては第３図の論理、すなわち
第４図のフローにしたがつて所定のいき値10、
11、12にもとづき検出分類を行う。これらの処理
は、たとえばマイクロプロセツサを使つて容易に
実現できる。判定回路６の出力はＶ（有声音）、Ｕ
（無声音）または（無音）に応じてそれぞれ端
子７，８，９から得られる。

１ブロツクのデータの処理が終れば次のブロツ
クの処理が開始され、以下これがくりかえされ
る。

第６図は本発明の方法に従つて時間軸ｔにたい
して実時間で入力音声の音声区間（Ｓ＝Ｕ、Ｖ又
は）の検出と、検出された各区間（Ｓ）におけ
る音声の判定分類（Ｕ又はＶ）をおこなつた実験
の結果であり、第７図は別の音声についての同様
の結果を要因別の変化とそれにもとづく総合分類
結果として示したものであるが、この結果によれ
ば上記検出と判定分類が正しくおこなわれており
本発明の方法が有効なことがわかる。

以上説明したごとく、本発明によれば、音声区
間の検出、その有声音、無声音での分類が、その
信号の入力レベルの変動に関係なく、かつそのフ
レームだけで正確かつ確実に行われるので、実時
間分析の必要な音声の分析合成伝送系や、音声認
識において音質を改善し、誤りを減少させる効果
がある。

【図面の簡単な説明】

第１図と第２図は本発明の基本となる正規化パ
ラメータ（k₁、E_N、φ）の分析抽出結果の一例
を示す図、第３図は本発明にもとづく検出、分類
の原理を示す図、第４図は第３図の原理に従つて
検出、分類をおこなう処理のフローを示す図、第
５図は本発明の一実施例のブロツク構成図、第
６，７図は本発明による検出と分類の実験結果の
一例を示す図である。３……音源分析回路。

Claims

【特許請求の範囲】

１音声波形を含むことを検出された入力信号を
所定間隔ごとにブロツク化し、全て音声パワーで
正規化することによつて得られるパラメータであ
つて、各ブロツクにおける信号から該信号の相対
レベル変動に依存しない正規化１次偏自己関数係
数、正規化残差パワー及び正規化残差相関係数の
ピーク値からなる３つのパラメータを抽出し、該
パラメータに算術的な閾値判定をおこなうことに
より、上記信号区間が音声区間であるか否かを検
出し、該検出された音声区間における音声の分類
をおこなうことを特徴とする音声区間の検出・分
類方式。