JPH05297888A

JPH05297888A - 音韻セグメンテーション及び分類方法

Info

Publication number: JPH05297888A
Application number: JP4104603A
Authority: JP
Inventors: Yumi Takizawa; 由美滝澤; Keisuke Oda; 啓介小田; Akihiko Watanabe; 彰彦渡邉; Atsushi Fukazawa; 敦司深沢
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1992-04-23
Filing date: 1992-04-23
Publication date: 1993-11-12

Abstract

(57)【要約】【目的】大局的に拡張性に優れたシステムとなりかつ
話者適応が容易なセグメンテーション方法及び音韻分類
方法にする。【構成】音声分析部２１、２２で抽出した音声特徴ベ
クトルを、射影ベクトル演算部３と射影演算子メモリ４
とによって、次元縮小された射影ベクトルへ変換し、こ
の射影ベクトルの時系列に基づいて、セグメンテーショ
ンあるいは音韻分類を行う。メモリ４で蓄積された射影
演算子は音韻学習サンプルの主成分分析によって作成し
たものであり、射影ベクトルは、低次元で音声特徴の大
部分を荷担し、音源特徴と声道特徴を荷担する重要な要
素であるという性質で疑似的に固定された特徴となる。
そのためシステムが拡張性に富むものとなり、射影演算
子の変更などにより容易に話者適応が可能となる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は連続して発声した音声信
号の音韻セグメンテーション方法及び音韻分類方法に関
するものある。

【０００２】

【従来の技術】不特定話者を対象にした連続発声の音声
認識の一方法として、入力音声信号から複数の音声特徴
（音声特徴ベクトル）を抽出し、その音声特徴ベクトル
の時系列を音韻セグメントにセグメンテーションし、標
準音韻との類似度測定やルール化されたしきい値判定に
よって音韻に分類する方法、を採用して行うものがあ
る。このような音韻分類方法では、詳細な音声分析に基
づく詳細な音声知識と詳細な音声特徴の採用が、音韻分
類精度を向上させるけれども、それらは話者依存性が強
いため、話者独立のシステムの構築を阻害する。そのた
め、従来、例えば次の文献で示されているような、話者
不変の音声特徴に基づいて大分類し、大局的なシステム
の話者独立性を維持することが行われている。文献：「連続音声認識エキスパートシステム−ＳＰＲＥ
Ｘ−」（電子通信学会誌Ｄ Vol.J70-D No.6,pp.1189-11
98）この文献では、声道のホルマント周波数とその時間変化
を主とした話者不変特徴を採用し、しきい値判定を主な
要素とした詳細なルールを用いて大分類的音韻分類を行
っている。

【０００３】

【発明が解決しようとする課題】しかしながら、音声特
徴の話者依存性は、適用機器から制限される特徴抽出精
度、発声環境、その他の環境によって異なり、適用範囲
が狭いと言う問題が残る。また、比較的広い適用範囲を
目標とした場合、現状では、大分類用の音声特徴を含め
て何らかの話者適応が必要となる。従って、本発明の一
つの目的は、大局的には話者独立のシステムが維持で
き、話者適応が容易な音韻分類方法を提供することにあ
り、これを、疑似的に話者不変と見なせる中間的ベクト
ルを設定することによって達成したものである。また、
本発明の他の目的は、中間的ベクトルに基づく音韻分類
方法において、簡易な音韻セグメンテーション方法を提
供することにある。

【０００４】

【課題を解決するための手段】第１の発明は、入力音声
信号を分析して１個以上の音源特徴と２個以上の声道特
徴とを要素として含む音声特徴ベクトルを抽出するを段
階と、射影演算子を加重として用い音声特徴ベクトルの
要素を加算することにより音声特徴ベクトルを次元縮小
した中間ベクトル（射影ベクトル）へ変換する段階とを
有する。また、その射影ベクトルの時系列を音韻セグメ
ントにセグメンテーションする段階と、各音韻セグメン
ト毎に複数の前記射影ベクトルを選択する段階とを備
え、選択したその音韻ベクトルに基づいて各音韻を大分
類するものである。そして、ここで用いる射影演算子
は、予め記憶して置くものであり、１個以上の音源特徴
要素と２個以上の声道特徴とを要素として含む音声特徴
ベクトルからなる学習音韻サンプルに対して主成分分析
を行い、一定次元まで次元縮小して得られた主成分の係
数である。

【０００５】第２の発明は、クラスタ毎に１個以上の音
源特徴要素と２個以上の声道特徴とを要素として含む音
声特徴ベクトルからなる学習音韻サンプルに対して主成
分分析を行い、一定次元まで次元縮小して得られた主成
分の係数を、射影演算子としてクラスタ毎に記憶して置
くようにしたものであり、指定されたクラスタについ
て、音声特徴ベクトルを射影ベクトルへ変換する段階を
有するものである。第３の発明は、各音韻セグメント毎
に、音韻の静的特徴を代表する射影ベクトルを選択し、
選択したその射影ベクトルの第１主成分対応の要素と第
２主成分対応の要素に関する偏角を計算する段階と、各
音韻セグメント毎に、時間的に両端に位置する射影ベク
トルの第１主成分対応の要素に関する時間的変化量の時
間的変化量を計算して加速度音韻要素を作成する段階と
を備え、静的音韻ベクトルの偏角と加速度音韻要素とに
基づいて音韻を大分類するものである。

【０００６】第４の発明は、その射影ベクトルの時系列
において第１主成分対応の要素の時間的変化量を計算す
る段階を備え、その時間的変化量が極値をとる時点で音
韻セグメントにセグメンテーションするものである。第
５の発明は、射影ベクトルの時間的変化量の計算が、Ｚ
ｄｆ（ｎ）＝Ｚ１（ｎ）ーＺａｖ１（ただし、ｎは時
刻、Ｚｄｆ（ｎ）は射影ベクトルの時間的変化量、Ｚ１
（ｎ）は射影ベクトルのの第１主成分対応の要素、Ｚａ
ｖ１（ｎ）は前記要素Ｚ１（ｎ）の時刻ｎを中心とした
予め定められている区間長に亘る移動平均）なる式の
演算によって行われ、かつその時間的変化量が正から負
へ変化する時刻及び負から正へ変化する時刻でセグメン
テーションするものである。

【０００７】

【作用】第１の発明において、射影演算子は、音声特徴
ベクトルを予め決めた一定次元Ｐに次元縮小する働きを
するものであり、学習音韻サンプルに対して主成分分析
を行い、その結果得られた主成分の係数を記憶しておい
たものである。次元縮小された射影ベクトルの第１、
２、・・・、Ｐの各要素は、それぞれ、主成分分析にお
ける第１、２、・・・、Ｐの各主成分に対応し、その順
位で音声特徴ベクトルの情報を荷担し、何らかの必要性
により、音声特徴ベクトルの要素の追加・削除・変更を
行った場合も、射影ベクトルの各要素は第１、２、・・
・、Ｐの順位で重要であるという性質は維持される。従
って、音声特徴ベクトルの各要素と次元縮小された射影
ベクトルの各要素との対応関係は明示的でないけれど
も、音源特徴と声道特徴を荷担する重要な要素であると
いう性質で疑似的に固定された一定次元の射影ベクトル
によって、大分類を行うことにより、大局的な音韻分類
システムは不変となる。また、音声特徴ベクトルの各要
素の相関を一般化して特定するのは困難であるが、典型
的には、射影ベクトルの第２要素までの寄与率は７０％
であり、第３要素までが９０％であり、低次元で音声特
徴ベクトルの大部分の情報を荷担するため、低次元の射
影ベクトルは大分類のための情報として適したものとな
る。

【０００８】第２の発明において、射影演算子は似た話
者のクラスタ対応で複数セット用意してあり、少なくと
も１つのクラスタで音韻の大分類を行う。クラスタの指
定は、キー入力によって行うことができ、マルチテンプ
レート的に全てを指定してもよい。また、予め決めてお
いた言葉の発声に基づいて選択することもでき、この場
合は、一旦標準クラスタで音韻認識し、その結果得られ
た音韻記号系列に応じて特定のクラスタを指定する方法
によるとよい。第３の発明において、音韻の大分類が音
声特徴の時間的変化を考慮した上で最も簡単な方法で行
われる。ここでは、２次元の射影ベクトル（第１要素と
第２要素からなるもの）に基づいて行われ、音韻の静的
特徴を代表する射影ベクトルの偏角と第１主成分対応の
第１要素に関する加速度音韻要素との２つに基づいて音
韻を大分類する。音韻の静的特徴を代表する射影ベクト
ルとしては、音韻セグメントの時間中央の射影ベクトル
を選択してもよく、射影ベクトルの第１要素の時間変化
量が最小となる時点の射影ベクトルを選択することもで
きる。

【０００９】第４の発明において、時間的変化量の極値
をとる時刻は、射影ベクトルの第１要素の時間変化量の
時間変化量（２次微分）を計算し、それが零となる時刻
とすることができる。なお、この音韻セグメンテーショ
ンには特別の音声知識は何ら利用していないので、切り
過ぎ（２重切り）及び切り不足（２音韻セグメント）は
避けられず、実用的には、何らかの付随的対処を必要と
し、例えば、切り過ぎは単語あるいは文節レベルで統合
し、切り不足は標準音韻として２音韻のものを設けるな
どの対処が必要になる。第５の発明において、ここでの
セグメンテーションは、概念的には、射影ベクトルの時
系列においてその第１要素の時間的変化量が極値をとる
時点でセグメンテーションすることと同じであるが、微
分によらない簡単な演算によって行われる。

【００１０】

【実施例】図１は、本発明を採用した音韻分類装置の構
成を示すブロック図であり、この図を用いて本発明の一
実施例を説明する。図１において、入力端子１から入力
された音声データＳは声道分析部２１に与えられ、そこ
で、最大予測次数１０次の線形予測によって分析し、そ
の予測誤差を音源分析部２２で、最大予測次数１０次の
線形予測によって分析し、音声特徴ベクトルＸ（ｎ）を
抽出する。ここでは、音声データＳのサンプリング周波
数を８ｋＨｚ（０．１２５ｍｓ周期）、分析フレーム長
を２４ｍｓ、フレーム周期（分析間隔）を４ｍｓとし、
音声平均パワーの音声特徴Ｘ１（ｎ）、声道特徴Ｘ１
（ｎ）〜Ｘ４（ｎ）、及び音源特徴Ｘ５（ｎ）〜Ｘ６
（ｎ）とをベクトル要素として持つ音声特徴ベクトルＸ
（ｎ）を抽出する。但し、ｎは分析時刻である。

【００１１】Ｘ１（ｎ）：音声平均パワーＸ２（ｎ）：予測次数１０次の声道エントロピー（正規
化予測誤差パワーの対数値）Ｘ３（ｎ）：予測次数２次の予測係数に基づく声道周波
数Ｘ４（ｎ）：同上の強度Ｘ５（ｎ）：音源平均パワー（声道予測誤差平均パワ
ー）Ｘ６（ｎ）：予測次数１０次の音源エントロピー（正規
化予測誤差パワーの対数値）なお、要素Ｘ３（ｎ）、Ｘ４（ｎ）は、予測次数２次の
予測係数から１組の複素共役根を計算し、その絶対値を
一方の要素Ｘ４（ｎ）とし、Ｚ平面で偏角が０〜Πであ
る根に対応した周波数を他方の要素Ｘ３（ｎ）としたも
のである。

【００１２】抽出した音声特徴ベクトルＸ（ｎ）は、射
影演算部３へ与えられる。また、射影演算部３には、射
影演算子メモリ４から射影演算子Ｌ（要素Ｌ１１〜Ｌ１
６及びＬ２１〜Ｌ２６からなる）与えられていて、そこ
で、次の式（１）及び式（２）に示すように、射影演算
子Ｌを加重とした加算演算を実行し、２つのベクトル要
素Ｚ１（ｎ）、Ｚ２（ｎ）からなる２次元のベクトル
（射影ベクトル）Ｚ（ｎ）を作成する。Ｚ１（ｎ）＝Ｌ１１＊Ｘ１（ｎ）＋Ｌ２１＊Ｘ２（ｎ）＋Ｌ３１＊Ｘ３（ｎ）＋Ｌ４１＊Ｘ４（ｎ）＋Ｌ５１＊Ｘ５（ｎ）＋Ｌ６１＊Ｘ６（ｎ）式（１）Ｚ２（ｎ）＝Ｌ１２＊Ｘ１（ｎ）＋Ｌ２２＊Ｘ２（ｎ）＋Ｌ３２＊Ｘ３（ｎ）＋Ｌ４２＊Ｘ４（ｎ）＋Ｌ５２＊Ｘ５（ｎ）＋Ｌ６２＊Ｘ６（ｎ）式（２）ここで、射影演算子メモリ４の１２個の射影演算子Ｌ
は、連続音声から切り出した学習音韻サンプルに対して
主成分分析を行い、その結果得られた第１主成分及び第
２主成分に関する係数を予め記憶しておいたものであ
り、具体的結果の一例は後述する。

【００１３】図２は、射影ベクトルＺ（ｎ）の性質の理
解の一助に示したものであり、４ｍｓごとに演算した射
影ベクトルＺ（ｎ）の時間軌跡の例を示すもものであ
る。この図２は、連続発声した日本語の地名「取手（と
りで）」の場合であり、ここで用いた射影演算子Ｌは、
次のとおりである（但し、小数点２位切り上げ）。Ｌ１１：０．６、Ｌ２１：０．３、Ｌ３１：０．１、
Ｌ４１：０．１、Ｌ５１：ー０．６、Ｌ６１：０．５Ｌ１２：ー０．２、Ｌ２２：０．６、Ｌ３２：０．７、
Ｌ４２：０．３、Ｌ５２：０．１Ｌ６２：０．４

【００１４】４ｍｓごとに出力される射影ベクトルｚ
（ｎ）は、音韻セグメンテーション部５へ与えられ、そ
こで、式（３）に示すように簡略化した演算により、射
影ベクトルＺ（ｎ）の第１要素Ｚ１（ｎ）と、射影ベク
トルの第１要素の移動平均Ｚａｖ（ｎ）のＺａｖ１
（ｎ）との差Ｚｄｆ（ｎ）を計算する。Ｚｄｆ（ｎ）＝Ｚ１（ｎ）ーＺａｖ１式（３）（ただし、ｎは時刻、Ｚｄｆ（ｎ）は射影ベクトルの時
間的変化量、Ｚ１（ｎ）は射影ベクトルのの第１主成分
対応の要素、Ｚａｖ１（ｎ）は前記要素Ｚ１（ｎ）の時
刻ｎを中心とした予め定められている区間長に亘る移動
平均）ここで、移動平均Ｚａｖ１（ｎ）は、射影ベクト
ル要素Ｚ１（ｎ）の時刻ｎを中心とした予め定められて
いる区間長（移動平均区間）に亘る平均である。そし
て、差Ｚｄｆ（ｎ）が、正から負または負から正に変化
した時刻Ｎｓを検出し、その時刻Ｎｓを１音韻毎のセグ
メンテーションを行う。

【００１５】差Ｚｄｆ（ｎ）は、射影ベクトルＺ（ｎ）
の時間的変化量の極値を見る簡易な尺度として用いたも
のであり、移動平均区間長を標準的音韻の時間長に比べ
て十分長く設定しておくことにより、射影ベクトル要素
Ｚ１（ｎ）の時間的変化量が極大・最小値（局所最大・
最小値）をとる時刻と、差Ｚｄｆ（ｎ）の極性変化時刻
とが、ほぼ同じとなる。移動平均Ｚａｖ１（ｎ）、Ｚａ
ｖ２（ｎ）は、長区間を設定すると２音韻毎のセグメン
テーションとなり、短期間を設定すると１音韻を２重に
セグメンテーションするようになる。従って、移動平均
区間長は、学習サンプルに基づいて実験的に決定するも
のであるが、１音韻毎にセグメンテーションする場合に
は、標準的には２００ｍｓ程度の値が適当である。

【００１６】そして、各音韻セグメント毎に、中央時刻
Ｎの射影ベクトルを音韻の静的特徴を代表する静的音韻
ベクトルＺ（Ｎ）として選択し、その前縁と後縁の時刻
（セグメンテーション時刻）Ｎｆ、Ｎｂにおける射影ベ
クトルＺ（Ｎｆ）、Ｚ（Ｎｂ）の差ベクトルＺ（Ｎ
ｆ）ーＺ（Ｎｂ）を音韻の動的特徴を代表するものと
して選択し出力する。音韻セグメンテーション部５から
出力された音韻情報は、音韻特徴ベクトル演算部６へ与
えられ、そこで、４個の要素Ｒ１（Ｎ）〜Ｒ４（Ｎ）か
らなる音韻特徴ベクトルＲ（Ｎ）を作成する。ここで、
２個の要素Ｒ１（Ｎ）、Ｒ２（Ｎ）は、静的特徴を表わ
すものであり、中央時刻Ｎの射影ベクトルＺ（Ｎ）を音
韻の静的特徴を代表するものとみなして、次の式（５）
及び式（６）で示す演算によって作成した、射影ベクト
ルＺ（Ｎ）の偏角と大きさに対応するものである。Ｒ１（Ｎ）＝ａｒｃｔａｎ（Ｚ１（Ｎ）／Ｚ２（Ｎ））式（４）Ｒ２（Ｎ）＝√（Ｚ１（Ｎ）の２乗＋Ｚ２（Ｎ）の２乗）式（５）

【００１７】また、他の２個の要素Ｒ３（Ｎ）、Ｒ４
（Ｎ）は、動的特徴を表わすものであり、前縁時刻Ｎｆ
の射影ベクトルＺ（Ｎｆ）と中央時刻Ｎの射影ベクトル
Ｚ（Ｎ）との時間変化の時間変化（加速度）と、中央時
刻Ｎの射影ベクトルＺ（Ｎ）と後縁時刻Ｎｂの射影ベク
トルＺ（Ｎｂ）との加速度との、差に対応するものであ
る。Ｒ３（Ｎ）＝（Ｚ１（Ｎｂ）ーＺ１（Ｎ））／Ｔ＊Ｔー（Ｚ１（Ｎ）ーＺ１（Ｎｆ）／Ｔ＊Ｔ式（６）Ｒ４（Ｎ）＝（Ｚ２（Ｎｂ）ーＺ２（Ｎ））／Ｔ＊Ｔー（Ｚ２（Ｎ）ーＺ２（Ｎｆ）／Ｔ＊Ｔ式（７）但し、２Ｔは音韻セグメント長である。

【００１８】作成した音韻特徴ベクトルＲ（Ｎ）は、音
韻分類部７へ与えられ、そこで、音韻辞書メモリ８から
読み取った標準音韻ベクトルとの、ベクトルの内積演算
による類似度の計算を行い、最も類似した音韻標準音韻
ベクトルのコードを出力端子９から出力する。ここで
は、要素Ｒ１（Ｎ）、Ｒ３（Ｎ）とを大分類情報、他の
２つの要素Ｒ２（Ｎ）、Ｒ４（Ｎ）を細分類情報とし
て、２段階の判定によって分類している。また、標準音
韻ベクトルは、学習サンプルに対して音韻分析を行い、
その結果得られた４個の要素を予め記憶しておいたもの
である。

【００１９】図３〜図７は、学習サンプルに対する音韻
分類の結果を、大分類情報、すなわち、静的特徴の偏角
Ｒ１（Ｎ）と動的特徴（加速度特徴）の１つＲ３（Ｎ）
との２つ、に関して示したものである。また、標準音韻
ベクトルの要素は、図３〜図７で示した各領域の頻度の
高い１点またはいくつかの代表点を選択して設定する。
母音の場合、図３〜図５に示すように、加速度特徴Ｒ３
（Ｎ）は、負の値をとり、偏角Ｒ１（Ｎ）は、母音／ａ
／では零近傍に集中し、母音／ｉ／、／ｅ／では正の比
較的小さな領域に分布し、母音／ｕ／、／ｏ／では負の
比較的小さくない領域に分布する。無声摩擦音／ｓ／、
／ｆ／、／ｈ／の場合、図６に示すように、偏角Ｒ１
（Ｎ）が正の中間的な値で加速度特徴Ｒ３（Ｎ）が比較
的小さな領域に分布し、無声摩擦音／ｐ／、／ｔ／、／
ｋ／の場合、図７に示すように、偏角Ｒ１（Ｎ）が正の
大きな値で加速度特徴Ｒ３（Ｎ）も大きな値の領域に分
布する。有声閉鎖音／ｂ／、／ｄ／、／ｇ／の場合、有
声閉鎖音／ｊ／、／ｚ／の場合、及び鼻音／ｍ／、／ｎ
／、／Ｎ／の場合、図示していないが、加速度特徴Ｒ３
（Ｎ）は正で、順に、１番目、２番目、３番目に大きい
領域に分布し、偏角Ｒ１（Ｎ）は負で、順に、絶対値が
２番目、１番目、３番目に大きい領域に分布する。

【００２０】また、この実施例の主成分分析は次のよう
なステップによった。ます、連続発声した学習サンプル
から音韻サンプル（音韻セグメント）を切り出し、各音
韻サンプルの音声特徴を抽出し、各音韻セグメント毎
に、例えば母音では母音エネルギーの重心、破裂音では
破裂時点のように、音韻を代表的する１つの時点の音声
特徴ベクトルを、変量として得る。次に、取り扱う各変
量の単位が異なるため、各変量の平均値と分散を求めた
後、平均が０で標準偏差が１となるように標準化して、
標準化された変量を求め、標準化した変量に対し主成分
分析を行う。すなわち、標準化された変量の分散共分散
行列を求める（元の変量の相関行列に等しいもの）。次
に、この行列に対する固有値と固有ベクトルを計算し、
固有値の大きいものから順に２個を選択し、それぞれ第
１主成分、第２主成分と決定し、対応した固有ベクトル
を係数として決定する。最後に、元の単位に対応した係
数とするために、主成分の係数（固有ベクトルの各要
素）を対応した分散で除するすることにより、第１主成
分、第２主成分対応のの射影演算子要素を決定する。

【００２１】なお、この実施例の説明は、話者適応には
触れず、標準クラスタに関してのみ行った。話者適応
は、クラスタ毎に主成分分析を行って得た射影演算子
と、クラスタ毎の音韻辞書とを用意しておき、キー操作
によって１組の射影演算子を指定することによって行う
ことができる。

【００２２】

【発明の効果】以上の説明から明らかなように、本発明
では、音声信号を直接分析して得られる音声特徴を、音
源特徴と声道特徴を荷担する重要な要素であるという性
質で疑似的に固定された一定次元の射影ベクトルへ変換
して、その射影ベクトルに基づいてセグメンテーション
あるいは分類を行うようにしているため、広い環境に適
合して大局的にシステムの話者独立性が維持でき、拡張
性にとんだものとなり、また、クラスタ対応で射影演算
子や音韻辞書を設けるのみで話者適応が可能なため、話
者適応が容易となる。

【図面の簡単な説明】

【図１】本発明を採用した音韻分類装置を示すブロック
図

【図２】図１の音韻分類装置における音声特徴平面上で
の射影ベクトルの時間軌跡を示す図

【図３】図１の音韻分類装置によって得られた音韻分類
の結果の説明図

【図４】図１の音韻分類装置によって得られた音韻分類
の結果の説明図

【図５】図１の音韻分類装置によって得られた音韻分類
の結果の説明図

【図６】図１の音韻分類装置によって得られた音韻分類
の結果の説明図

【図７】図１の音韻分類装置によって得られた音韻分類
の結果の説明図

【符号の説明】

１入力端子２１声道分析部２２音源分析部３射影演算部４射影演算子メモリ５音韻セグメンテーション部６音韻特徴ベクトル演算部７音韻分類部８音韻辞書メモリ９出力端子

フロントページの続き (72)発明者深沢敦司東京都港区虎ノ門１丁目７番12号沖電気工業株式会社内

Claims

【特許請求の範囲】

【請求項１】１個以上の音源特徴要素と２個以上の声
道特徴とを要素として含む音声特徴ベクトルからなる学
習音韻サンプルに対して主成分分析を行い、一定次元ま
で次元縮小して得られた主成分の係数を、射影演算子と
して記憶しておき、入力音声信号を分析して、１個以上の音源特徴と２個以
上の声道特徴とを要素として含む音声特徴ベクトルを抽
出するを段階と、前記射影演算子を加重として用い、前記入力音声信号の
前記音声特徴ベクトルの要素を加算することにより、前
記音声特徴ベクトルを前記縮小次元の射影ベクトルへ変
換する段階と、その射影ベクトルの時系列を音韻セグメントにセグメン
テーションする段階と、各音韻セグメント毎に、複数の前記射影ベクトルを選択
する段階とを備え、選択したその音韻ベクトルに基づいて各音韻を大分類す
ることを特徴とした音韻分類方法。
【請求項２】クラスタ毎に、１個以上の音源特徴要素
と２個以上の声道特徴とを要素として含む音声特徴ベク
トルからなる学習音韻サンプルに対して主成分分析を行
い、一定次元まで次元縮小して得られた主成分の係数
を、射影演算子としてクラスタ毎に記憶しておき、入力音声信号を分析して、１個以上の音源特徴と２個以
上の声道特徴とを要素として含む音声特徴ベクトルを抽
出するを段階と、指定されたクラスタの前記射影演算子を加重として用
い、前記入力音声信号の前記音声特徴ベクトルの要素を
加算することにより、前記音声特徴ベクトルを前記縮小
次元の射影ベクトルへ変換する段階と、その射影ベクトルの時系列を音韻セグメントにセグメン
テーションする段階と、各音韻セグメント毎に、複数の前記射影ベクトルを選択
する段階とを備え、を備え、選択したその音韻ベクトルとに基づいて各音韻を大分類
することを特徴とした音韻分類方法。
【請求項３】１個以上の音源特徴要素と２個以上の声
道特徴とを要素として含む音声特徴ベクトルからなる学
習音韻サンプルに対して主成分分析を行い、２次元以上
の一定次元まで次元縮小して得られた主成分の係数を、
射影演算子として記憶しておき、入力音声信号を分析して、１個以上の音源特徴と２個以
上の声道特徴とを要素として含む音声特徴ベクトルを抽
出するを段階と、前記射影演算子を加重として用い、前記入力音声信号の
前記音声特徴ベクトルの要素を加算することにより、前
記音声特徴ベクトルを前記縮小次元の射影ベクトルへ変
換する段階と、その射影ベクトルの時系列を音韻セグメントにセグメン
テーションする段階と、各音韻セグメント毎に、音韻の静的特徴を代表する射影
ベクトルを選択し、選択した当該射影ベクトルの、第１
主成分対応の要素と第２主成分対応の要素に関する偏角
を計算する段階と、各音韻セグメント毎に、時間的に両端に位置する射影ベ
クトルの、第１主成分対応の要素に関する、時間的変化
量の時間的変化量を計算して、加速度音韻要素を作成す
る段階とを備え、前記静的音韻ベクトルの偏角と、前記加速度音韻要素と
に基づいて音韻を大分類することを特徴とした音韻セグ
メンテーション及び分類方法。
【請求項４】１個以上の音源特徴要素と２個以上の声
道特徴とを要素として含む音声特徴ベクトルからなる学
習音韻サンプルに対して主成分分析を行い、一定次元ま
で次元縮小して得られた主成分の係数を、射影演算子と
して記憶しておき、入力音声信号を分析して、１個以上の音源特徴と２個以
上の声道特徴とを要素として含む音声特徴ベクトルを抽
出する段階と、前記射影演算子を加重として用い、前記入力音声信号の
前記音声特徴ベクトルの要素を加算することにより、前
記音声特徴ベクトルを前記縮小次元の射影ベクトルへ変
換する段階と、その射影ベクトルの時系列において、第１主成分対応の
要素の時間的変化量を計算する段階とを備え、その時間
的変化量が極値をとる時点で音韻セグメントにセグメン
テーションすることを特徴とした音韻セグメンテーショ
ン方法。
【請求項５】射影ベクトルの時間的変化量の計算が、
次の式の演算によって行われ、Ｚｄｆ（ｎ）＝Ｚ１（ｎ）ーＺａｖ１（ただし、ｎは時刻、Ｚｄｆ（ｎ）は射影ベクトルの時
間的変化量、Ｚ１（ｎ）は射影ベクトルのの第１主成分
対応の要素、Ｚａｖ１（ｎ）は前記要素Ｚ１（ｎ）の時
刻ｎを中心とした予め定められている区間長に亘る移動
平均）かつ、前記時間的変化量が、正から負へ変化する
時刻、及び負から正へ変化する時刻で音韻セグメントに
セグメンテーションする、ことを特徴とした請求項４記
載の音韻セグメンテーション方法。