JPH08123473A

JPH08123473A - 音韻ラベル化装置

Info

Publication number: JPH08123473A
Application number: JP6265138A
Authority: JP
Inventors: Kazuo Watanabe; 一夫渡辺; Masao Watari; 雅男渡; Miyuki Tanaka; 幸田中; Kazuo Ishii; 和夫石井; Yasuhiko Kato; 靖彦加藤; Hiroaki Ogawa; 浩明小川; Masanori Omote; 雅則表; Katsuki Minamino; 活樹南野; Hitoshi Honda; 等本田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1994-10-28
Filing date: 1994-10-28
Publication date: 1996-05-17

Abstract

(57)【要約】【目的】隣接するフレームの音韻ラベルに矛盾が生じ
ないように、音韻ラベル化を行うことができるようにす
る。【構成】音声分析部１により抽出した音声信号の特徴
パラメータを、遅延部２により所定時間だけ遅延して、
音韻ラベル化ＧＧＭ部３に入力する。音韻ラベル化ＧＧ
Ｍ部３においては、Ｌ_m個の関数ｔ_lm（Ｘ）と、係数ｃ
_lmとの積の線形和で表される関数ｆ_m（Ｘ）を第ｍ成分
として有する写像Ｆを用いて、音韻ラベルを識別する。
音韻分類部４においては、音韻ラベル化ＧＧＭ部３より
供給された識別データを、音声分析部１より入力された
特徴パラメータに付加して、出力する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、例えば音声入力装置
等に用いられる音韻ラベル化装置に関する。

【０００２】

【従来の技術】音声入力装置においては、入力された音
声信号を、一定の周期（例えば８ｍｓ程度の周期であ
り、以下フレームと言う）毎に、大略的性質によって分
類し、この分類された性質に対して音韻ラベル付けを行
う。そして、後に、入力音声信号から音声区間や音節区
間を切り出す際に、この音韻ラベルを用いる。

【０００３】従来の音韻ラベル化の方法として、例えば
次のようなものがある。第１の方法は、入力音声信号の
各フレーム毎に、パワー、零交差数及び自己相関係数等
の特徴パラメータを求め、この求めた特徴パラメータの
値と所定の閾値との比較をフレーム毎に行い、その比較
結果に基づいて、各フレームに音韻ラベル付けを行うも
のである。

【０００４】また、第２の方法は、ニューラルネットワ
ークを用いて音韻ラベル化を行う方法である。

【０００５】

【発明が解決しようとする課題】しかしながら、閾値を
用いて音韻ラベル化を行う第１の方法は、特徴パラメー
タの値と閾値との比較をフレーム毎に行い、その比較結
果に基づいて各フレームに音韻ラベルを付けるようにし
ているので、特徴パラメータと比較する閾値の設定には
多くの音声認識上の経験を必要とするという課題があ
る。さらに、各フレーム毎に独立して音韻ラベル化を行
っているので、隣接するフレームの音韻ラベル間に矛盾
が生じる恐れがある。

【０００６】また、ニューラルネットワークを用いて音
韻ラベル化を行う第２の方法は、学習に時間がかかる課
題がある。

【０００７】この発明は、このような状況に鑑みてなさ
れたものであり、隣接するフレームに対して矛盾のない
音韻ラベル化を簡単に実行することができるようにする
ものである。

【０００８】

【課題を解決するための手段】この発明の音韻ラベル化
装置は、音声信号の特徴パラメータを抽出する抽出手段
（例えば図１の音声分析部１）と、抽出手段により抽出
された、所定の数のフレームの特徴パラメータを、音声
信号の性質を表す音韻ラベルに変換する変換手段（例え
ば図１の音韻ラベル化ＧＧＭ部３）とを備え、変換手段
は、第ｍ成分の関数ｆ_m（Ｘ）が、Ｌ_m個の基底関数ｇ_lm
（Ｘ）と係数ｃ_lmとの積の線形和で表される写像により
構成されていることを特徴とする。

【０００９】関数ｆ_m（Ｘ）は、

【数３】で表されるものとすることができる。

【００１０】また、係数ｃ_lmは、Ｅ｛Ｘ∈Ｓ_q｝｛ｆ
（Ｘ）｝を、学習サンプルＳ_qの全要素にわたって関数
ｆ（Ｘ）の期待値を求める演算とするとき、式

【数４】で表される評価関数Ｊを最小にするものから求めること
ができる。

【００１１】特徴パラメータを遅延して変換手段に供給
する遅延手段（例えば図１の遅延部２）をさらに設ける
ことができる。

【００１２】特徴パラメータは、パワー、零交差数また
は１次相関係数の少なくとも１つとし、音韻ラベルは、
無音性、バズバー性、鼻音性、母音性、弱摩擦性、また
は強摩擦性の少なくとも１つとすることができる。

【００１３】

【作用】この構成の音韻ラベル化装置においては、第ｍ
成分の関数ｆ_m（Ｘ）が、Ｌ_m個の基底関数ｇ_lm（Ｘ）と
係数ｃ_lmとの積の線形和で表される写像を利用して、特
徴パラメータが音韻ラベルに変換される。従って、前後
数フレームの特徴パラメータの影響を考慮して、当該フ
レームに矛盾のない音韻ラベルを簡単につけることがで
きる。

【００１４】

【実施例】以下、この発明を図示の実施例により詳細に
説明する。

【００１５】この発明においては、入力音声信号の各フ
レーム毎の音韻ラベルを求めるために、本明細書におい
て、ＧＧＭ（Guaranteed Global minimum Mapping）
（その詳細は後述する）と定義される方法が用いられ
る。このＧＧＭは、入力データが属するカテゴリを識別
する規則を学習によって自ら定め、この定めた規則に従
って入力データが属するカテゴリを識別するものであ
る。従って、予め的確な学習データを用いて正しく学習
させたＧＧＭを用いれば、簡単な処理で入力データが属
するカテゴリを正しく識別することができる。

【００１６】図１はこの発明の音韻ラベル化装置の一実
施例の構成を示すブロック図である。入力音声信号は音
声分析部１においてサンプリング周波数１２ｋＨｚでＡ
／Ｄ変換され、更にフレーム（１フレームは８ｍｓ程
度）毎に、一定の周期で、パワー、零交差数及び１次自
己相関係数等の特徴パラメータに変換される。

【００１７】音声分析部１から出力された特徴パラメー
タは、後に詳述する遅延部２により所定時間遅延された
後、音韻ラベル化ＧＧＭ部３に入力されるとともに、音
韻分類部４に直接入力される。音韻ラベル化ＧＧＭ部３
においては、後に詳述するようにして、各フレーム毎に
特徴パラメータの属する音韻ラベルが識別され、識別デ
ータ（音韻ラベル）が出力される。音韻分類部４は、音
韻ラベル化ＧＧＭ部３からの識別データに基づき、音韻
ラベルが決定されて得られた音韻ラベルを音声分析部１
からの特徴パラメータに付加して出力する。この出力
は、図示せぬ例えばＨＭＭに供給され、処理される。

【００１８】音韻ラベル化ＧＧＭ部３においては、始集
合（入力）の次元を１５次元、終集合（出力）の次元を
６次元としている。始集合は以下のように定義してい
る。始集合の元は、その３ｋ＋１（ｋ＝０，１，２，・
・・）番目の成分が、音声分析部１からのパワーを表す
成分からなり、３ｋ＋２番目の成分が、音声分析部１か
らの零交差数を表す信号からなり、更に３ｋ＋３番目の
成分が、音声分析部１からの１次の自己相関係数を表す
信号となるよう構成する。

【００１９】ただしその際、１，２，３番目の成分の組
は、（ｔ−２）フレームの特徴パラメータのものとし、
４，５，６番目の成分は、（ｔ−１）フレームの特徴パ
ラメータのものとし、以下同様にして、７，８，９番目
の成分は、ｔフレームの特徴パラメータのものとし、１
０，１１，１２番目の成分は、（ｔ＋１）フレームの特
徴パラメータのものとし、１３，１４，１５番目の成分
は、（ｔ＋２）フレームの特徴パラメータのものとす
る。つまり、始集合は、入力音声信号の（ｔ−２）フレ
ームから（ｔ＋２）フレームの連続した５フレーム分の
特徴パラメータを組にした集合として構成する。

【００２０】音声分析部１から出力される連続した５フ
レームの特徴パラメータを組にするために、図２に示す
ように、遅延部２は、特徴パラメータの種類に応じて３
つの遅延回路２ａ，２ｂ，２ｃを有している。各遅延回
路は同じ構造（図には遅延回路２ａの構造だけが示され
ているが、遅延回路２ｂ，２ｃも同様の構造）を有し、
同じ動作をする。

【００２１】そこで、３つの特徴パラメータのうち、パ
ワーについて説明すると、始集合の１番目の成分につい
ては、音声分析部１からのパワーを表す信号が遅延素子
を介することなく、音韻ラベル化ＧＧＭ部３の入力部３
Ａに直接入力され、４番目の成分については、音声分析
部１からのパワーを表す信号が遅延回路２ａの遅延素子
２１によって１フレーム分だけ時間を遅延された後、入
力される。同様にして、７番目の成分については、音声
分析部１からのパワーを表す信号が、２個の遅延素子２
２，２３によって２フレーム分だけ時間を遅延された
後、入力される。

【００２２】このようにして、３ｋ＋１番目の成分に
は、遅延回路２ａのｋ個の遅延素子よって、ｋフレーム
分だけ遅延された後、入力される。ここで、１，４，
７，１０，１３の５つのうち、中心の７番目の成分が、
音韻ラベル化ＧＧＭ部３によってカテゴリが識別される
該当フレームｔに対応する。

【００２３】音韻ラベル化ＧＧＭ部３においては、写像
が設定されており、この設定写像は、後述するように、
その第ｍ成分の関数ｆ_m（Ｘ）が、Ｌ_m個の基底関数ｇ_lm
（Ｘ）と係数ｃ_lmとの積の線形和で表される。上記のよ
うに構成した始集合の点、つまり１５個（１つのフレー
ムについて３つの特徴パラメータがあり、その５フレー
ム分）の音声分析値よりなるベクトルをもとにして各成
分間の相関値を求め、この相関値の大きい組合せからな
る座標成分関数を乗算することにより得られる単項式を
基底関数として設定する。

【００２４】また、各成分関数には（従って、終集合の
各成分には）、その１番目の成分に、カテゴリ"無音性
Ｑ”を、２番目の成分に、カテゴリ”バズバー性Ｂ”
を、３番目の成分に、カテゴリ”鼻音性Ｎ”を、４番目
の成分に、カテゴリ”母音性Ｖ”を、５番目の成分には
カテゴリ”弱い摩擦性Ｃ”を、そして、６番目の成分に
は、”強い摩擦性Ｆ”を、それぞれ対応させる。

【００２５】このような設定の基で、音韻ラベル化ＧＧ
Ｍ部３の学習は、次のように行われる。すなわち、多
数の話者の音声信号から５フレーム分の音声信号を切り
出し、各フレーム毎に求められたパワー、零交差数及び
１次自己相関係数の時系列を学習データとする。また、
学習データにおける中心フレームの性質を表す音韻ラベ
ルを、例えばそのスペクトラムを視察することによって
求め、その求めた中心フレームの音韻ラベルを表すデー
タを教師ベクトルとする。

【００２６】例えば、データの中心フレームの音韻ラベ
ルが”無音性Ｑ”を有している場合、その教師ベクトル
としては、無音対応成分である１番目の成分を”１”
に、それ以外の２番目から６番目の成分はすべて”０”
とする。すなわち、（１，０，０，０，０，０）と定め
る（予め学習データ夫々に対しては、中心フレームの性
質を表す音韻ラベルを（視察によって）求めておく必要
がある）。これより、通常のＧＧＭの係数決定法に従い
（例えば、代数方程式を解くことにより）、誤差最小が
保証された写像が決定される。この点については、後に
詳述する。

【００２７】学習が完了した後、入力音声信号の音韻ラ
ベルは次のようにして音韻ラベル化ＧＧＭ部３によって
識別される。

【００２８】図３に示すように、音韻ラベル化ＧＧＭ部
３に、音声分析部１から出力された、（ｔ−２）フレー
ムから（ｔ＋２）フレームまでの５フレーム分のパワ
ー、零交差数及び１次自己相関係数の特徴パラメータ
（１５次元）が、遅延部２を介して入力される。音韻ラ
ベル化ＧＧＭ部３は、入力された５フレームのうち、中
心フレームｔの特徴パラメータが属するカテゴリを、写
像を使って判定し、そのカテゴリを表すデータ（６次
元）を出力する。

【００２９】そして、１フレームに相当する時間が経過
すると、音声分析部１から、（ｔ−１）フレームから
（ｔ＋３）フレームまでの５フレーム分のパワー、零交
差数及び１次自己相関係数が、音韻ラベル化ＧＧＭ部３
に入力される。その結果、入力された５フレーム分のう
ちの中心フレーム（ｔ＋１）の特徴パラメータが属する
カテゴリを表すデータが音韻ラベル化ＧＧＭ部３より出
力される。

【００３０】こうして、入力音声信号の各フレーム毎の
音韻ラベルの識別結果を表すデータの時系列が音韻ラベ
ル化ＧＧＭ部３より出力され、音韻分類部４に入力され
る。

【００３１】本実施例では、音韻ラベル化用ＧＧＭ部３
において、該当フレームと、その前後２フレームを加え
た合計５フレーム分の特徴パラメータに基づいて、該当
フレームｔの音韻ラベルを識別する。従って、前後２フ
レームの影響を考慮して、正確な音韻ラベル化を行うこ
とができる。

【００３２】上述のようにして、音韻ラベル化用ＧＧＭ
部３から出力される該当フレームｔの識別音韻ラベルを
表すデータは、音韻分類部４に入力される。そして、音
韻分類部４において、この音韻ラベルを表すデータに基
づいて、該当フレームｔの音韻ラベルが次のようにして
決定される。

【００３３】すなわち、音韻ラベル化ＧＧＭ部３におけ
る６次元出力ベクトル（図３に示すように、無音性乃至
強摩擦性に対応されたｆ₁（Ｘ）乃至ｆ₆（Ｘ）の成分よ
りなる）のうち、１つの成分関数からの出力値のみが、
予め設定した閾値以上であれば、その成分に対応するカ
テゴリの音韻ラベルをフレームｔの音韻ラベルとする。
また、複数の成分の値が閾値以上であれば、値のより大
きい成分が割り当てられている音韻ラベルの順に、複数
の音韻ラベルをフレームｔにおける音韻ラベルの候補と
する。すべての成分値が閾値以下の場合は、１つ前のフ
レーム（ｔ−１）につけた音韻ラベルをフレームｔの音
韻ラベルとする。

【００３４】同様のことをニューラルネットワークで実
現した場合には、本来区別できないような場合にも、出
力層で設けた飽和特性をもつような関数（例えば、ｔａ
ｎｈ（ｘ））により、無理やり識別が行われてしまう。
例えば、音韻分類部４に辞書等を用意し、言語学的情報
を用いることにより候補の中から所定のものを選択する
といったことは実行が困難である。しかしながら、ＧＧ
Ｍを用いた場合にはこれが可能になる。

【００３５】上述のように、本実施例の音韻ラベル化装
置においては、入力音声信号の５フレーム分のパワー、
零交差数及び１次相関係数を音韻ラベル化用ＧＧＭ部３
に入力すると、音韻ラベル化用ＧＧＭ部３は、入力され
た５フレーム分の特徴パラメータのうちの中心フレーム
ｔの特徴パラメータが属する音韻ラベルを識別して、音
韻ラベルを表すデータを音韻分類部４に出力する。そし
て、音韻分類部４において、識別された音韻ラベルを表
すデータに基づいて、フレームｔの音韻ラベル、あるい
は音韻ラベル候補を決定するようにしている。

【００３６】従って、本実施例によれば、５フレーム分
の特徴パラメータに基づいて中心フレームの音韻ラベル
を識別する規則を、学習によって生成するＧＧＭを用い
て、前後２フレームの影響を考慮して、フレームの音韻
ラベル、あるいは音韻ラベル候補を決定できるのであ
る。

【００３７】本実施例においては、特徴パラメータとし
てパワー、零交差数及び１次自己相関係数を用い、識別
カテゴリとして”無音性Ｑ”、”バズバー性Ｂ”、”母
音性Ｖ”、”弱い摩擦性Ｃ”，”強い摩擦性Ｆ”を割り
付けているが、これらに限定されるものではない。

【００３８】また、音韻ラベル化用ＧＧＭ部３の始集
合、終集合の次元は、入力する特徴パラメータの種類、
束化するフレーム数、識別音韻ラベルの数等によって変
更してもよい。さらに、ＧＧＭの基底関数の個数、種類
等も、音韻ラベルの識別精度に対応して、適宜、設定す
ることができる。

【００３９】音韻ラベル化用ＧＧＭ部３においては、写
像が定義され、この写像に対して変換処理が行われる
が、次に音韻ラベル化用ＧＧＭ部３における写像の詳細
について説明する。

【００４０】本実施例においては、Ｎ次元計量ベクトル
空間Ω_NからＭ次元計量ベクトル空間Ω_Mへの写像Ｆを決
定するに際し、写像Ｆの第ｍ成分の関数ｆ_m（Ｘ）が、
Ｌ_m個の関数ｇ_lm（Ｘ）の線形和として、次に示すよう
に定義される。

【００４１】

【数５】

【００４２】ここで、Ｘ＝（ｘ₀，ｘ₁，ｘ₂，・・・，
ｘ_N-1）であり、ｃ_lmは所定の係数である。

【００４３】即ち、本発明においては、関数ｇ_lm（Ｘ）
として、Ｎ変数関数空間上の完備な関数系が採用され
る。関数解析における「任意の関数は完備な関数系の線
形結合で表現することができる」という定理から、個数
Ｌ_mの大きさを充分大きくすることにより、原理的に
は、任意の連続写像を、この関数ｇ_lm（Ｘ）により表現
することができることが判る。

【００４４】このことは、階層型ニューラルネットにお
ける中間層のニューロン素子の数が充分大きければ、原
理的には、任意の連続写像を表現することができること
に対応する。

【００４５】従来のニューラルネットワークとの比較の
ために、本発明の写像をネットワークで表現すると、図
４に示すようになる。

【００４６】即ち、素子１１乃至１４には、それぞれ入
力ｘ₀乃至ｘ₃が入力される。これらの入力は、それぞれ
中間層の素子１５乃至１７にそのまま出力される。

【００４７】中間層の素子１５においては、次式で表さ
れるような演算が行われる。Ｘ’₀＝ｃ₀ｇ₀（Ｘ）（２）

【００４８】即ち、変数ｘ₀，ｘ₁，ｘ₂，ｘ₃から関数ｇ
₀（Ｘ）（＝ｇ₀（ｘ₀，ｘ₁，ｘ₂，ｘ₃））の関数値を計
算した後、係数ｃ₀が乗算される。同様に、素子１６と
素子１７においては、それぞれ次式で表すような演算が
行われる。Ｘ’₁＝ｃ₁ｇ₁（Ｘ）（３）Ｘ’₂＝ｃ₂ｇ₂（Ｘ）（４）

【００４９】そして、出力層の素子１８において、中間
層の素子１５乃至１７の出力ｘ’₀，ｘ’₁，ｘ’₂が加
算され、出力ｙが得られる。

【００５０】従って、関数ｇ_i（Ｘ）を所定のものに選
択、設定すれば、その後、学習により、係数ｃ_iを所定
のものに設定することで、写像Ｆが得られることにな
る。

【００５１】この係数ｃ_iを決定するため、Ｑ個のカテ
ゴリＣ_q（ｑ＝０，１，２，・・・，Ｑ−１）に分類さ
れているＮ次元（計量）ベクトル空間Ω_N上の学習サン
プル（カテゴリＣ_qの学習サンプルの集合をＳ_q（＝（Ｓ
_q0，Ｓ_q1，・・・，Ｓ_q(N-1)））とする）を用い、それ
ぞれのカテゴリＣ_qに対するＭ次元（計量）ベクトル空
間Ω_M上のＱ個の教師ベクトルＴ_q（＝（ｔ_q0，ｔ_q1，ｔ
_q2，・・・，ｔ_q(M-1)））を与え、次式で表される評価
関数Ｊを演算する。

【００５２】

【数６】

【００５３】尚、上式におけるＥ｛Ｘ∈Ｓ_q｝｛｝
は、｛｝内において、学習用サンプルの集合Ｓ_qの全
要素にわたって、平均値（期待値）を演算することを意
味する。従って、評価関数Ｊは、学習サンプルに対する
写像出力と教師ベクトルとの自乗誤差のアンサンブル平
均を意味している。

【００５４】（１）式を、（５）式に代入すると、次式
が得られる。

【００５５】

【数７】

【００５６】ここで、 α_qmij＝Ｅ｛Ｘ∈Ｓ_q｝｛ｇ_im（Ｘ）ｇ_jm（Ｘ）｝（７） β_qmi ＝Ｅ｛Ｘ∈Ｓ_q｝｛ｇ_im（Ｘ）｝（８）とおくと、上記（６）式は、次のように表すことができ
る。

【００５７】

【数８】

【００５８】ここで、評価関数Ｊの極値を求めるため、
（９）式を、次式で表すように、ｃ_imで偏微分し、その
値を０とする。 ∂Ｊ／∂ｃ_im＝０（１０）

【００５９】（９）式を、（１０）式に示すように演算
することにより、次式が得られる。

【００６０】

【数９】

【００６１】この（１１）式は、各ｍに関し、Ｌ_m個の
未知数（係数）ｃ_im（ｉ＝０，１，・・・，Ｌ_m-1）に
関する連立一次方程式となる。

【００６２】この（１１）式を、さらに、次の（１２）
式と（１３）式のようにおくと、（１４）式に示すよう
な簡潔な形となる。

【００６３】

【数１０】

【００６４】

【数１１】

【００６５】

【数１２】

【００６６】（１１）式または（１４）式は、一次方程
式であるから、不定あるいは不能となる特殊な場合を除
き、一意に解が得られる。

【００６７】このことは、（６）式で表される評価関数
Ｊの最小値に対応するｃ_imが、（１１）式の方程式また
は（１４）式の方程式を解くことにより、求めることが
できることを意味する。

【００６８】この解が一意に決まるという特性は、ニュ
ーラルネットにおけるような準最適解を求めるために、
初期値を変更して繰り返し学習する処理を不要にする。
また、（１）式に示すように写像を表現するようにした
ため、係数ｃ_imの値の自由度と、関数ｇ_lm（Ｘ）とし
て、どのような関数を採用するかの自由度があることに
なる（即ち、大きくは自由度が２種類となる）。

【００６９】このため、同程度の規模で考えれば、写像
の潜在的表現能力は、上述した本発明による写像決定方
法（ＧＧＭ（Guaranteed Global minimum Mapping））
の方が、ニューラルネットよりも大きくなる。なぜなら
ば、ニューラルネットの場合には、規模が固定されれ
ば、残る表現の自由度は、結合重み係数の値の取り得る
自由度だけとなるからである。

【００７０】以上のＧＧＭとニューラルネットの特性を
比較すると、表１に示すようになる。

【００７１】

【表１】

【００７２】この表に示すように、ニューラルネットに
おいては、中間層のニューロン素子の数を増加すること
で、任意の連続写像を記述することができるが、ＧＧＭ
においては、関数ｇ_i（Ｘ）を適宜選択することで、任
意の連続写像を記述することができる。

【００７３】また、フリーパラメータは、ニューラルネ
ットにおいては、結合重み係数ω_iであるのに対し、Ｇ
ＧＭにおいては、係数ｃ_iである。しかしながら、ＧＧ
Ｍの場合は、さらにｇ_i（Ｘ）の関数形の選択の自由度
がある。従って、ＧＧＭにおいては、写像の表現能力に
関係する自由度が、大きく２種類存在することになる。

【００７４】また、ニューラルネットにおいては、評価
関数の誤差を最小にすることは、初期値の問題があるた
め補償されないが、ＧＧＭにおいては、初期値の問題が
存在せず、確実に評価関数の誤差を最小にすることが可
能となる。

【００７５】さらに、ニューラルネットにおける学習法
はバックプロパゲーションであるが、ＧＧＭにおける学
習は、線形方程式を解くことにより行われる。

【００７６】さらに、写像の構造が、ニューラルネット
においては、シグモイド関数が内部に組み込まれた複雑
な構造となるのに対して、ＧＧＭにおいては、関数と係
数の積の和という単純な構造となる。

【００７７】その他、写像の特性付けは、ニューラルネ
ットとＧＧＭ、いずれの場合においても、教師ベクトル
により行われ、評価関数は、いずれの場合も、出力と教
師ベクトルとの自乗誤差を最小にする関数が用いられ
る。

【００７８】尚、本実施例においては、ＧＧＭを判別装
置に適用した例を、２次元の学習内データに対する判別
を行う場合で示したが、より多次元データの判別装置
や、入力パラメータからコントロール信号を出力する形
態の制御装置等で用いられる写像形態の計算部において
も、全く同様の構成の写像装置を実現することができ
る。

【００７９】上記実施例では、写像Ｆ、つまり係数ｃ_lm
を求めるために、上記（５）式で表される評価関数Ｊ
を、係数ｃ_lmによって偏微分して得られる（１１）式ま
たは（１４）式の連立方程式（正規方程式）を解くよう
にした。このようにして決定された解は、その連立方程
式のヤコビ行列が特異（ランク落ち）でない限り、まさ
にＪの最小値を与える。この意味で、上記実施例は、最
も素朴かつ優れた方法であると言える。

【００８０】しかしながら、このような係数の決定方法
では、（７）式と（８）式における演算を行うために、
各データを全て一旦メモリに記憶する必要があり、写像
の各成分関数の基底関数ｇ_lmを増やすと、（７）式と
（８）式で示すα_qmij，β_qmiの数が増大する。これに
より、次の問題が発生する。（１）α_qmij，β_qmiの決定に長い時間を費やさなけれ
ばならない。（２）演算のために十分な記憶領域を必要とする。（３）必要に応じて、追加学習（写像を修正）すること
が困難である（もう一度、Ｅ｛Ｘ∈Ｓ_q｝｛ｇ_im（Ｘ）
ｇ_jm（Ｘ）｝，Ｅ｛Ｘ∈Ｓ_q｝｛ｇ_im（Ｘ）｝を求め
て、正規方程式を解くことが必要である）。

【００８１】そこで、データを入力する毎に逐次的に写
像を決定していく方法を考える。このために、写像の決
定を、写像の開折の力学系の軌道決定として定式化す
る。

【００８２】上述したように、評価関数Ｊは（５）式で
表され、この（５）式は、次のように書き換えることが
できる。

【００８３】

【数１３】

【００８４】ここで、写像Ｆの次のような１パラメータ
開折Ｕを考える。Ｕ：Ｒ^N×Ｒ→Ｒ^M Ｕ（ｘ，ｔ）＝（ｆ₀（ｘ，ｔ），・・・，ｆ_M-1（ｘ，ｔ））（１６）即ち、Ｒ^Mは、Ｒ^Nの要素ｘと、Ｒの要素ｔの組み合わせ
（直積）で表される。

【００８５】尚、（１６）式において、ｆ_m（ｘ，ｔ）
は、次式で表される。

【００８６】

【数１４】

【００８７】この開折Ｕに対して、次式よりＪ（ｔの関
数）を求める。

【００８８】

【数１５】

【００８９】そして、次の力学系を考える。但し、簡単
のため、以後、（１／２）Ｊを、Ｊとする。ｄｃ_lm／ｄｔ＝−∂Ｊ／∂ｃ_lm ０≦ｌ≦Ｌ_m-1 ，０≦ｍ≦Ｍ−１（１９）

【００９０】この力学系に従い、Ｕ（即ち、係数ｃ
（ｔ））が動くとき、Ｊは非増加である。つまり、次式
が成立する。ｄＪ／ｄｔ≦０（２０）

【００９１】この（２０）式の等号成立の必要充分条件
は、次の通りである。 ∂Ｊ／∂ｃ_lm＝０（∀ｌ，∀ｍ）（２１）

【００９２】実際、計算してみると、次式が成立する。

【００９３】

【数１６】

【００９４】従って、等号成立の必要充分条件は、上式
より明らかに次の通りとなる。 ∂Ｊ／∂ｃ_lm＝０（∀ｌ，∀ｍ）（２３）

【００９５】これより、十分大なるｔに対して、ＵはＪ
の最小値になる。つまり、Ｊを最小にする写像（その係
数）を、次のようにして決定することができる。

【００９６】

【数１７】

【００９７】このように、写像を決定するために、この
力学系（微分方程式）の軌道（解曲線）を決定すればよ
い。

【００９８】上記の力学系（微分方程式）の軌道（解曲
線）を、直接解析的に求めるのではなく、データ毎に逐
次的に導いていく。ｄｃ_kn／ｄｔ＝−∂Ｊ／∂ｃ_kn （２５）

【００９９】そこで、上記力学系の式におけるｄｃ_kn／
ｄｔを、（ｃ_kn（ｔ＋ｈ）−ｃ_kn（ｔ））で近似するこ
とにより、次式が得られる。ｃ_kn（ｔ＋ｈ）−ｃ_kn（ｔ）＝−ｈ（∂Ｊ／∂ｃ_kn）（２６）

【０１００】また、次式が成立している。

【０１０１】

【数１８】

【０１０２】そこで、次式を定義する。Ｄ_nq（ｘ，ｔ）≡ｆ_n（ｘ，ｔ）−ｔ_nq （２８）

【０１０３】これにより、次の逐次的学習規則が導かれ
る。

【０１０４】

【数１９】

【０１０５】この式は、次のように変形することができ
る。

【０１０６】

【数２０】

【０１０７】いま、Ｓ_q∋ｘ（ｑ）：ｉ回目データとするとき、次式が成立する。ｃ_kn（ｔ＋（ｉ／Ｎ）ｈ）＝ｃ_kn（ｔ＋（（ｉ−１）／Ｎ）ｈ） −（ｈ／Ｃ_q）Ｄ_nq（ｘ（ｑ），ｔ）ｇ_nk（ｘ（ｑ））（３１）（ｉ＝０，１，２，・・・）（１≦ｍ≦Ｍ−１，１≦ｌ≦Ｌ_m−１）

【０１０８】従って、次のように写像（係数）を更新す
ることができる。ｃ_kn（ｔ＋１）＝ｃ_kn（ｔ）−εＤ_nq（ｘ，ｔ）ｇ_nk（ｘ）（３２）（ｔ＝０，１，・・・）（εは小なる定数）

【０１０９】即ち、（ｔ＋１）回目の学習データｘ（こ
れが、ｘ∈Ｓ_qであったとする）とするとき、各ｋ，ｎ
に対して、写像の係数ｃ_knを、（３５）式に従って更新
していく。この方式を使うことにより、所望の写像を決
定することができる。また、この方式は、一度得られた
写像（データを一旦全て記憶した後、まとめて処理する
方法により得られた写像であれ、データを逐次的に処理
する方法により得られた写像であれ）に対し、必要に応
じてその写像の係数を、この方法より更新することで、
写像を容易に修正することができる。

【０１１０】以上の原理に従って、逐次的にデータを処
理して写像Ｆを決定する（係数ｃ_lmを決定する）より詳
細な方法について、図５のフローチャートを参照して説
明する。

【０１１１】いま、Ｆ（ｉ）を、ｉ回目に更新された設
定写像とし、Ｆ（ｉ）（ｘ）を、次式で定義する。Ｆ（ｉ）（ｘ）＝（ｆ₀（ｉ）（ｘ），・・・，ｆ_M-1（ｉ）（ｘ））（３３）

【０１１２】さらに、１≦ｍ≦Ｍ−１に対して、ｆ
_m（ｘ）を次式で表す。

【０１１３】

【数２１】

【０１１４】また、学習データ（特徴ベクトル）全体
を、次式で表す。Ｄ＝｛ｄ_j｜ｊ＝１，・・・，Ｎ｝⊂Ｒ^N （３５）

【０１１５】さらに、各カテゴリｑ（ｑ＝１，・・・，
Ｑ−１）に対応する教師ベクトルＴを、Ｔ＝（ｔ_q0，・・・，ｔ_qM-1）と表す。学習繰り返し制限回数をＳとする。

【０１１６】最初にステップＳ４１で、係数の初期化処
理を実行する。即ち、変数を、それぞれ、ｉ＝０，ｊ＝
０，ｓ＝０とするとともに、係数ｃ_lm（０）（１≦ｍ≦
Ｍ−１，０≦ｌ≦Ｌ_m−１）を小さい値の乱数で初期化
する。

【０１１７】次にステップＳ４２で、学習データのセッ
トを行う。即ち、ｄ_j∈Ｓ_q（いまの場合、ｄ₀）を学習
データとする。

【０１１８】さらにステップＳ４３に進み、写像値の計
算を行う。即ち、Ｆ（ｉ）（ｄ_j）＝（ｆ₀（ｉ）（ｄ_j），・・・，ｆ_M-1（ｉ）（ｄ_j））（３６）の値を計算する。

【０１１９】次にステップＳ４４で、誤差の計算を行
う。即ち、各ｍに対して、次式を計算する。Ｄ_mｑ（ｉ）（ｄ_j）＝ｆ_m（ｉ）（ｄ_j）−ｔ_mq （３７）

【０１２０】ステップＳ４５では、係数の更新を行う。
即ち、次式を計算する。ｃ_lm（ｉ＋１）＝ｃ_lm（ｉ）−εＤ_qm（ｄ_j）ｇ_lm（ｄ_j）（３８）

【０１２１】次にステップＳ４６で、学習データの更新
を行う。即ち、次データｄ_j+1をｄ_jとする。

【０１２２】さらにステップＳ４７に進み、学習データ
数ｊと、学習データ総数Ｎとを比較し、ｊ＜Ｎならステ
ップＳ４２に戻り、それ以降の処理を繰り返す。

【０１２３】ｊ＝Ｎの場合、ステップＳ４７からステッ
プＳ４８に進み、学習繰り返し数の更新を行う（インク
リメントする）。即ち、ｓ＝ｓ＋１とする。

【０１２４】次にステップＳ４９において、学習繰り返
し数ｓと、制限回数Ｓとを比較し、ｓ＜Ｓなら、ステッ
プＳ５０において、ｊ＝０とした後、ステップＳ４２に
戻り、それ以降の処理を繰り返す。ｓ＝Ｓの場合、処理
を終了する。

【０１２５】写像を修正する場合においては、ステップ
Ｓ４１において、係数ｃ_lmを小さい値の乱数で初期化す
る代わりに、先に決定された写像の所定の係数（値）をｃ_lm（０）（１≦ｍ≦Ｍ−１，０≦ｌ≦Ｌ_m−１）に代入すればよい。

【０１２６】ところで、この写像決定方法を利用する
際、設定写像の決定が重要である。上記した最初の実施
例では、全学習データ（特徴ベクトル）を用いて相関係
数を計算することにより、成分関数の基底をなす単項式
を求めた。そして、この単項式により生成される（線形
結合として表される）多項式を各成分が持つように写像
を設定した。

【０１２７】これに対して、最初の実施例および後の実
施例のいずれにおいても、全学習データ（特徴ベクト
ル）を用いるのではなく、カテゴリに分けた学習データ
を使い、それらの相関係数より決定された単項式により
生成される多項式を、そのカテゴリに対応する成分関数
として設定し、これにより、設定写像自体に識別性を込
めるようにすることができる。

【０１２８】次に、図６のフローチャートを参照して、
その処理例について説明する。最初にステップＳ６１
で、各カテゴリｑ（０≦ｑ≦Ｑ−１）のベクトルをｘ_q
（＝（ｘ_q0，・・・，ｘ_qN-1））に対して、次式で表
される相関係数ρ_q,k,l（０≧ ｋ≧ｌ≧Ｎ−１）を計算
する。

【０１２９】

【数２２】

【０１３０】次にステップＳ６２において、（０≦ｋ≦
ｌ≦Ｎ−１）なるｋ，ｌに対し、次の対応関係を考え
る。

【０１３１】

【数２３】

【０１３２】そして、さらに、これから次のような組み
合わせを作成する。

【０１３３】

【数２４】

【０１３４】また、ステップＳ６３では、ｄ＝３からｄ
＝Ｄ_qまで、以下の処理を繰り返す。即ち、（ｄ＋１）
個の組（ｃ_q1，ｃ_q2，・・・，ｃ_qd；ｖ）から、次のよ
うな（ｄ＋２）個の組を作る（ここで、Ｄ_qは、パター
ン集合の規模、処理時間の現実性にあわせて予め決定す
る）。

【０１３５】

【数２５】

【０１３６】ステップＳ６４では、ステップＳ６２，Ｓ
６３で作った組および、（１），（ｋ_q，ｌ），（０≦
ｋ≦Ｎ）を加えたリストを、右端値（（・・・；ｖ）に
おけるｖの値）について大きい順に、かつ、組数の小さ
い順に並べ、パターン集合の規模、処理時間の現実性に
あわせてＷ個選択する。このＷは、成分関数毎に変えて
も構わない。

【０１３７】ステップＳ６５では、選択したＷ個の組に
対して、次のように単項式を決定する。（ｃ_qi(1)，ｃ_qi(2)，・・・，ｃ_qi(l)）→ｘ_i(1)ｘ_i(2)・・・ｘ_i(l) ここで、０≦ｌ≦Ｎ−１，１≦ｉ（１）≦ｉ（２），・・・，≦ｉ（ｌ）である。そして、これらにより生成される次のような多
項式を成分関数ｆ_qとして決定する（１≦ｑ≦Ｑ−１な
る全てのカテゴリに対して、上記のように対応する成分
関数を決定する）。

【０１３８】

【数２６】

【０１３９】次にステップＳ６６で、これらの成分関数
より設定写像を決定し、さらにステップＳ６７で、上述
した先のまたは後の写像決定法に従って、写像を決定す
る。

【０１４０】このように、カテゴリに対応して成分関数
を設定することにより、各カテゴリのデータの特質を、
より効果的に関数に反映することができ、より正確な判
別結果を得ることができる。即ち、識別性をより向上さ
せることができる。

【０１４１】

【発明の効果】以上のように、この発明の音韻ラベル化
装置によれば、第ｍ成分の関数ｆ_m（Ｘ）が、Ｌ_m個の基
底関数ｇ_lm（Ｘ）と係数ｃ_lmとの積の線形和で表される
写像を利用して、特徴パラメータを音韻ラベルに変換す
るようにしたので、前後数フレームの影響を考慮して、
隣接するフレームの音韻ラベル間に矛盾が生じないよう
に、音韻ラベルを正確に決定することができる。

【図面の簡単な説明】

【図１】この発明の音韻ラベル化装置における一実施例
の構成を表すブロック図である。

【図２】図１の遅延部２の内部の構成を示すブロック図
である。

【図３】図１の音韻ラベル化ＧＧＭ部３の処理を説明す
る図である。

【図４】図１の音韻ラベル化ＧＧＭ部３の概念的構成を
示す図である。

【図５】図１の音韻ラベル化ＧＧＭ部３の処理例を示す
フローチャートである。

【図６】図１の音韻ラベル化ＧＧＭ部３の他の処理例を
示すフローチャートである。

【符号の説明】

１音声分析部２遅延部２ａ，２ｂ，２ｃ遅延回路３音韻ラベル化ＧＧＭ部４音韻分類部２１乃至２３遅延素子

───────────────────────────────────────────────────── フロントページの続き (72)発明者石井和夫東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者加藤靖彦東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者小川浩明東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者表雅則東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者南野活樹東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者本田等東京都品川区北品川６丁目７番35号ソニー株式会社内

Claims

【特許請求の範囲】

【請求項１】音声信号の特徴パラメータを抽出する抽
出手段と、前記抽出手段により抽出された、所定の数のフレームの
前記特徴パラメータを、前記音声信号の性質を表す音韻
ラベルに変換する変換手段とを備え、前記変換手段は、第ｍ成分の関数ｆ_m（Ｘ）が、Ｌ_m個の
基底関数ｇ_lm（Ｘ）と係数ｃ_lmとの積の線形和で表され
る写像により構成されていることを特徴とする音韻ラベ
ル化装置。
【請求項２】前記関数ｆ_m（Ｘ）は、【数１】で表されることを特徴とする請求項１に記載の音韻ラベ
ル化装置。
【請求項３】前記係数ｃ_lmは、Ｅ｛Ｘ∈Ｓ_q｝｛ｆ
（Ｘ）｝を、学習サンプルＳ_qの全要素にわたって前記
関数ｆ（Ｘ）の期待値を求める演算とするとき、式【数２】で表される評価関数Ｊを最小にするものから求められる
ことを特徴とする請求項２に記載の音韻ラベル化装置。
【請求項４】前記特徴パラメータを遅延して前記変換
手段に供給する遅延手段をさらに備えることを特徴とす
る請求項１，２または３に記載の音韻ラベル化装置。
【請求項５】前記特徴パラメータは、パワー、零交差
数または１次相関係数の少なくとも１つであることを特
徴とする請求項１乃至４のいずれかに記載の音韻ラベル
化装置。
【請求項６】前記音韻ラベルは、無音性、バズバー
性、鼻音性、母音性、弱摩擦性、または強摩擦性の少な
くとも１つであることを特徴とする請求項１乃至５のい
ずれかに記載の音韻ラベル化装置。