JP2598518B2

JP2598518B2 - 音声のセグメンテーション方法

Info

Publication number: JP2598518B2
Application number: JP1145064A
Authority: JP
Inventors: 啓介小田; 由美滝沢; 清仁徳田; 敦司深沢
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1989-06-09
Filing date: 1989-06-09
Publication date: 1997-04-09
Anticipated expiration: 2012-04-09
Also published as: JPH0311399A

Description

【発明の詳細な説明】［産業上の利用分野］この発明は連続して発生した音声信号を音節や音韻に
区分する音声のセグメンテーション方法に関する。

［従来の技術］従来から広く用いられてきた音声のセグメンテーショ
ン方法は、音声パワーに着目するものであった。例え
ば、安居院猛・中嶋正之共著「コンピュータ音声処
理」（1980年６月）秋葉出版P176において開示されてい
るように、音声パワーが極小となる時間点に挟持まれた
１個の極大値をもつ区間を１個の音節又は音韻区間とし
て検出する方法がある。

［発明が解決しようとする課題］しかしながら、このような方法では音声パワーという
尺度に対してセグメンテーションを行なうため、セグメ
ンテーションの結果は音声パワーに依存したものにな
る。音声パワーが個人差により大きく異なること、更に
同一人物でも音声パワーは一定ではないことなどを考え
れば、個人差によらない新しい尺度でのセグメンテーシ
ョンを行なう必要がある。

この発明は、音声パワーによるセグメンテーションの
結果が音声パワーに依存するという問題点を解消するた
めになされたものであり、音声信号を時系列信号とみな
した音声の情報エントロピーを用いてセグメンテーショ
ンを行なうことにより、音声パワーに依存せず、高精度
なセグメンテーションを可能にした音声のセグメンテー
ション方法を提供することを目的とする。

［課題を解決するための手段］この発明に係る音声のセグメンテーション方法は、音
声入力の平均パワー及び予測誤差パワーをそれぞれ求め
る工程と、平均パワー及び予測誤差パワーに基づいて正
規化エントロピーを求める工程と、正規化エントロピー
が極大値、極小値及び極大値と時系列に変化する区間
を、１単位の音節又は音韻区間として検出することによ
り音声のセグメンテーションを行う工程とを有する。

［作用］この発明においては、音声を時系列信号としてみなし
た時の音声の情報エントロピーに着目し、正規化エント
ロピーの極大値、極小値及び極大値と時系列に変化する
区間が、１単位の音節又は音韻区間として検出される。

［実施例］第１図はこの発明の一実施例に係る方法を実施するた
めの装置の構成を示したブロック図である。図におい
て、（１）は入力信号、（２）は２乗値算出手段、
（３）は平均パワー算出手段、（４）は予測誤差パワー
算出手段、（５）は正規化エントロピー算出手段、
（６）は音節又は音韻区間検出手段であり、（７）は検
出手段である。

次に動作を説明する。入力信号（１）は、例えばサン
プリング周波数8KHzでA/D変換された音声の時系列信号
ｘ（ｎ）,n＝0,±Δt,±Δ2t,±Δ3t,………，Δｔ＝1/
8000（sec.）となっているものとする。２乗値算出手段
（２）はこの入力信号ｘ（ｎ）を入力して、２乗信号
｛ｘ（ｎ）｝^２を得る。

次に、この２乗信号を平均パワー算出手段（３）へ入
力し、平均パワーP₀（ｎ）を得る。ここで、P₀（ｎ）は
次式で定義されるものである。

（ここで、Ｌは平均化する区間長である。）次に、このP₀（ｎ）を予測誤差パワー算出手段（４）
へ入力し、予測誤差パワーP_M（ｎ）を得る。

予測誤差パワーの算出は、入力信号ｘ（ｎ）を次式の
ように過去ｍ個のサンプル値の線形結合で予測し、（ここで、a_i ^(m)は、ｍ次の線形予測係数：反射係数で
ある。）レビンソン−ダービン（Levinson−Durbin）のアルゴ
リズムを用いて、ｍ次の反射係数a_m ^(m)が与えられた時
の、ｍ次の予測誤差パワーP_m（ｎ）を次式により算出す
る。

P_m（ｎ）＝P_m-1（ｎ）｛１−（a_m ^(m)）^２｝ ……（３）（ここで、ｍ＝1,2,3,M Ｍは最大の予測次数）したがって、予測誤差パワー算出手段（４）の出力P_M
（ｎ）は、式（３）において、ｍ＝１から順にＭまで増
加させた時の、Ｍ次の予測誤差パワーである。

正規化エントロピー算出手段（５）は、P₀（ｎ）及び
P_M（ｎ）を入力し、情報エントロピー（以下単にエント
ロピーという）の計算を行なう。ここで、時系列スペク
トルＳ（f,n）のエントロピーＨ（ｎ）は、上式において、fNはナイキスト（Nyquist）周波数で
あり、Ｓ（f,n）は、であり、式（４）に式（５）を代入すると、式（５）の
分母の項の積分は０となるので、となり、更に、式（６）の積分を実行し、定数を無視す
ると、次式を得る。

Ｈ（ｎ）＝logP_m（ｎ） ……（７）更に、上式（７）のエントロピーはP_m（ｎ）が式
（３）を漸化的に解くので、平均パワーP₀（ｎ）依存し
た量となり、P_m（ｎ）をP₀（ｎ）で正規化した値の対数
をとり、正規化エントロピー（ｎ）は、となり、式（８）に従って正規化エントロピーを算出す
る。

音節又は音韻区間検出手段（６）は、正規化エントロ
ピー算出手段（５）で算出した正規化エントロピーを時
系列信号とみなし、正規化エントロピーが極大値→極小
値→極大値となる区間を音節又は音韻区間として検出
し、セグメンテーションを行なってそれぞれ検出信号
（７）として出力する。この検出信号（７）はマッチン
グ装置（図示せず）に送り出され、そこで、予め記憶さ
れている基準パターンとの類似度が演算され、最も類似
しているパターンをその音節又は音韻として出力する。

第２図は音節又は音韻区間の検出方法を示した説明図
であり、横軸は時間、縦軸は正規化エントロピーの値で
ある。ここで、正規化エントロピーの極大値、極小値を
次のように定める。

イ）時刻miにおいて、正規化エントロピーは極大値_Ｍ
（mi）をもつ。

ロ）時刻niにおいて、正規化エントロピーは極大値_Ｍ
（ni）をもつ。

基本的に、時刻mi→ni→mi＋１の区間を１単位の音節
又は音韻区間とする。これは正規化エントロピーが_Ｍ
（mi）→_Ｍ（ni）→_Ｍ（ｍ＋１）という具合に極大
値→極小値→極大値という順で繰り返す区間である。

第３図は正規化エントロピーの出力例を示す説明図で
あり、平均パワーP_o（ｎ）及びそれに対応した予測次数
が10次（つまりＭ＝10）の正規化エントロピーが
（ｎ）が図示されている。この第３図の例では入力信号
としての単語は「あさひ」であり、図示のように音節又
は音韻の変化に対応して正規化エントロピーの値が変化
しており、その極大値→極小値→極大→を単位として、
ａ−ｓ−ａ−ｈ−ｉに対応して正規化エントロピーが区
分されている。

この正規化エントロピーのもつ性質から考えて、エン
トロピー値の減少傾向が大きいほど、入力音声が予測モ
デルにうまく適合しているといえる。したがって、エン
トロピー値の極小点が最も安定した音節又は音韻部分で
あるといえる。

［発明の効果］以上説明したようにこの発明によれば、正規化エント
ロピーを用いて音節又は音韻単位でのセグメンテーショ
ンを行なうことを可能にした。この正規化エントロピー
は、音声信号にAR（Auto Regressive;自己回帰）モデル
を適用した結果得られる予測性の良し悪しを示す評価尺
度であり、これは、また音声の声道情報に起因するもの
である。したがって、音声パワーに依存しないため、発
声者の個人差によらない尺度を用いたセグメンテーショ
ンが可能となり、更に、従来セグメンテーションが困難
であった、音声子音やささやき声などの声帯振動を伴わ
ない音声についても、セグメンテーションが可能になっ
た。

【図面の簡単な説明】

第１図はこの発明の一実施例に係る方法を実施した装置
の構成を示すブロック図、第２図は音節又は音韻区間の
検出方法を示した説明図、第３図は正規化エントロピー
の出力例を示す説明図である。（２）;2乗値算出手段（３）；平均パワー算出手段（４）；予測誤差パワー算出手段（５）；正規化エントロピー算出手段（６）；音節又は音韻区間検出手段

Claims

(57)【特許請求の範囲】

【請求項１】音声入力を所定のサンプリング周波数でA/
D変換して得られた音声の時系列信号ｘ（ｎ）から、次
式101及び102に基づいて、音声入力の平均パワーP
₀（ｎ）及び分析次数ｍ次の予測誤差パワーP_m（ｎ）を
それぞれ求める工程と、 P_m（ｎ）＝P_m-1（ｎ）｛１−（α_m ^(m)）^２式102 （但し、Ｌは平均化する区間長、P_m-1（ｎ）は分析次数
ｍ−１次の予測誤差パワー、α_m ^(m)は分析次数ｍ次のｍ
番目の予測係数）音声入力の前記平均パワーP₀（ｎ）及び前記予測誤差パ
ワーP_m（ｎ）とに基づいて、次式103に基づいて、正規
化エントロピー_Ｍを求める工程と、_Ｍ _＝ logP_m（ｎ）−logP₀（ｎ）式103 前記正規化エントロピー_Ｍが極大値、極小値及び極大
値と時系列的に変化する区間を、１単位の音節又は音韻
区間として検出することにより音声のセグメンテーショ
ンを行う工程と、を有することを特徴とする音声のセグメンテーション方
法。