JPH04130499A

JPH04130499A - 音声のセグメンテーション方法

Info

Publication number: JPH04130499A
Application number: JP2252992A
Authority: JP
Inventors: Keisuke Oda; 啓介小田; Akihiko Watanabe; 彰彦渡邉; Yumi Takizawa; 滝沢　由美; Atsushi Fukazawa; 敦司深澤
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1990-09-21
Filing date: 1990-09-21
Publication date: 1992-05-01

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）本発明は連続して発生する音声信号を音節や音韻に区分
する音声のセグメンテーション方法に関する。

（従来の技術）セグメンテーションの方法としては、多くの方式が提案
されているが、従来から広く用いられてきた方法として
は、音声パワーに着目する方法で、音声信号のパワーが
単音節ごとに大きな値をもっているので、パワーの極小
となる時間点に挟まれた１個の極大値を持つ区間を１個
の音節または音韻区間として検出する方法である。

この方法は例えば「コンピュータ音声処理、安居院猛、
中島正之著、秋葉出版、１９８６年６月、頁１７５」に
開示されている。

（発明が解決しようとする課題）しかしこの音声パワーに着目する方法では、音声パワー
という尺度に対してセグメンテーションを行っているた
め、セグメンテーション結果が音声パワーに依存したも
のとなる。一般に音声パヮ−は個人差により大きく異な
り、また同一人物でも音声パワーは一定でないことを考
慮すると、安定したセグメンテーションを行うためには
個人差によらない尺度を用いてセグメンテーションを行
う必要がある。さらに音声パワーという尺度によってセ
グメンテーションを行った場合、母音や有声子音等の比
較的音声パワーが大きな音節または音韻に対しては有効
にセグメンテーションができるが、／ｓ／、／ｌ　ｈ／
に代表される無声摩擦音に対しては、音声パワーが小さ
いためセグメンテーションが不完全となるという問題が
ある。

本発明は上述した問題点すなわちセグメンテーション結
果が個人差に依存したり無声摩擦音に対してセグメンテ
ーションが不完全であるという点を解消するためになさ
れたもので、音声パワーに依存せず音節または音韻を完
全に区分することの出来る音声のセグメンテーション方
法を提供することを目的とする。

（ＩＩ［を解決するための手段）本発明のセグメンテーション方法は、入力音声データの
各フレームに線形予測分析を行い、ＬＰＣ係数を算出し
、算出されたＬ　Ｐ　Ｇ係数に基づいてＬＰＣケプスト
ラムを算出し、隣接するフレーム間での前記ＬＰＣケプ
ストラムの変化量を算出し、前記ＬＰＣケプストラムの
変化量が一定の閾値以上で極大となる時、隣接する２つ
の極大値区間を１単位の音節または音韻区間として検出
するようにしたものである。

（作用）本発明では音声パワーの尺度に代えて、ＬＰＣケプスト
ラム変化量という尺度を用いてセグメンテーションをお
こなっている。このＬＰＣケプストラム変化量という尺
度は音声信号のスペクトル形状の時間変化を記述するも
のであり、音声のスペクトル構造が音節または音韻ごと
に異なる点に着目している。したがって無声摩擦音であ
っても音節または音韻毎にスペクトル変化が表れるため
完全なセグメンテーションを行うことができる。

また音声信号のスペクトル形状の時間変化は音声パワー
に依存しないため個人差によらない完全なセグメンテー
ションが可能である。

（実施例）第２図は本発明の一実施例にかかるセグメンテーション
方法を実施するための装置の概略構成を示したブロック
図である０本発明を実施するためには入力信号ｌからＬ
ＰＣ係数を算出するための算出手段２と、ＬＰＣケプス
トラム算出手段３と、ＬＰＣケプストラム変化量算出手
段４と、音節または音韻区間検出手段５とを必要とし、
これら一連の手段２〜５を経て検出信号出力６を得るこ
とが出来る。入力信号１は２例えばサンプリング周波数
８ＫＨｚでＡ／Ｄ変換された音声信号Ｘ（ｎ）、ｎ＝ｏ
、±Δｔ、±２Δｔ、±３Δｔ。

・・で、Δｔ　＝１／８０００　（ｓｅｅ　）となって
いるものと仮定する。ＬＰＣ係数算出手段２はこの入力
信号ｘ　（ｎ）に対して、分析フレーム長Ｎサンプル、
分析フレーム周期Ｔ■ｓｅｃでｍ次の線形予測分析を行
い、ＬＰＣ係数を決定する。

なお線形予測分析法には、入力信号１に関する相関関数
の定義の仕方に応じて、自己相関法や共分散法、さらに
最大エントロピー法等があるが、どの分析方法によって
もＬＰＣ係数の算出は可能である。ここでは最大エント
ロピー法を用いてＬＰＣ係数を算出するものとし、ＬＰ
Ｃ係数をａ。

、人力信号をｘ　（ｎ）とすれば１両者は次式で関係づ
けられる。

ｘ（ｎ）＝Σａ、ｘ　　（ｎ−ｉ）　　　　　（１）１
＠ここでｍは最大予測次数である。

ＬＰＣケプストラム算出手段３はＬＲＣ係数算出手段２
で得られたＬＰＣ係数に基づいて次式にしたがってＬＰ
Ｃケプストラム係数を算出する。

ここでＣ３はＬＰＣケプストラム係数で、１≦ｉ≦ｍで
ある。

ついでＬＰＣケプストラム変化量算出手段４によりＬＰ
Ｃケプストラム変化量を算出する。ＬＰＣケプストラム
変化量は、分析フレーム間のＬＰＣ係数の変化量を次式
により定義し、その値を算出するものである。

ここでＣＩ（・）は時刻ｎで分析したＬＰＣケプストラ
ム、Ｃ，ｉ″′ＴＩは直前のフレームで分析したＬＰＣ
ケプストラムである。

ついで音節または音韻区間検出手段５は、ＬＰＣケプス
トラム変化量検出手段４で算出したＬＰＣケプストラム
変化量を時系列信号とみなし、ＬＰＣケプストラム変化
量が一定の閾値以上で極大値となる区間を音節または音
韻区間として検出し、セグメンテーションを行って、こ
れを検出信号６として出力する。得られた検出信号６は
図示しないマツチング装置に送り出され、そこであらか
じめ記憶されている基準パターンとの類似度が演算され
、もっとも類似しているパターンをその音節または音韻
として出力する。

第１図は、音節または音韻区間の検出方法を示す説明図
である。横軸は時間、縦軸はＬＰＣケプストラム変化量
の値をそれぞれ示している。ここでＬＰＣケプス１−ラ
ム変化量δＣ０１，がある閾値δＣｏ以上で極大値を持
つ時刻を検出し、隣接する２つの極大値で挟まれた区間
を１単位の音節または音韻区間として検出する。

第３図は入力単語「あさひ」に対するセグメンテーショ
ン結果を平均パワーを用いる従来の方法と対比して示し
た図である。図より明らかなようにＬＰＣケプストラム
変化量が閾値６００以上で極大値を持つ点が６箇所あり
、ａ−ｓ−ａ−ｈ−１という５つの音節または音韻区間
にセグメンテーションされていることがわかる。一方従
来の音声パワーによるセグメンテーション方法では、無
声摩擦音／　ｓ　／の区間にパワーの極大値が見られず
、セグメンテーションが不完全であることがわかる。

［発明の効果］以上実施例に基づいて説明したように、本発明ではＬＰ
Ｃケプストラム変化量を用いてセグメンテーションを行
っている。このＬＰＣケプストラム変化量という尺度は
音声信号のスペクトル形状の時間変化を記述したもので
、音声のスペクトル構造が音節または音韻ごとに異なる
点に着目している。したがって音声パワーに依存せずし
かも無声摩擦音においても、完全に音節又は音韻単位で
のセグメンテーションが可能となる。

【図面の簡単な説明】

第１図は本発明によるセグメンテーション方法にしたが
った音節または音韻区間の検出方法の説明図、第２図は
本発明の一実施例にかかるセグメンテーション方法を実
施するための装置の概略構成を示したブロック図、第３
図は本発明によるセグメンテーション結果の一例を示す
図である。図において、１・・・・・・入力信号、２・・・・・・
ＬＰＣ係数算出手段、３・・・・・・ＬＰＣケプストラ
ム算出手段、４・・・・・・ＬＰＣケプストラム変化量
算出手段、５・・・・・・音節または音韻区間検出手段
、６・・・・・・検出信号出力。 δ　Ｃ０，。・・・・・・ＬＰＣケプストラム変化量δ　Ｃ０ −・・・・・ＬＰＣケプストラム変化量の閾値。

Claims

【特許請求の範囲】音声信号を音節や音韻に区分する音声のセグメンテーシ
ョン方法において、（１）入力音声データの各フレームに線形予測分析を行
いＬＰＣ係数を算出する第１の工程と、（２）算出され
たＬＰＣ係数に基づいてＬＰＣケプストラムを算出する
第２の工程と、（３）隣接するフレーム間での前記ＬＰＣケプストラム
の変化量を算出する第３の工程と、（４）前記ＬＰＣケ
プストラムの変化量が一定の閾値以上で極大となる時、
隣接する２つの極大値区間を１単位の音節または音韻区
間として検出する第４の工程と、を有することを特徴とする音声のセグメンテーシヨン方
法。