JP2004264856A

JP2004264856A - 最適区画の分類神経網の構成方法、最適区画の分類神経網を用いた自動ラベリング方法、並びに装置

Info

Publication number: JP2004264856A
Application number: JP2004056726A
Authority: JP
Inventors: Ki-Hun Choo; 基 ▲見▼ 朱; Jeong-Su Kim; 正 ▲寿▼ 金; Jae-Won Lee; 在原李; Ki-Seung Lee; 起承李
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2003-02-28
Filing date: 2004-03-01
Publication date: 2004-09-24
Anticipated expiration: 2024-03-01
Also published as: JP4545456B2; US7444282B2; EP1453037A3; KR20040077227A; US20040172238A1; EP1453037A2; EP1453037B1; KR100486735B1; DE602004027566D1

Abstract

【課題】最適区画の分類神経網の構成方法と最適区画の分類神経網を用いた自動ラベリング方法装置を提供する。
【解決手段】 (a) 初期に生成または更新されたＫ個の神経網集合からＬ個の音素組み合わせ各々に対して最小誤差を有する神経網を探索し、同じ神経網で探索されたＫ個の音素組み合わせグループ別に前記Ｋ個の神経網を学習して加重値を更新し、個別誤差が収斂されたＫ個の神経網の全体誤差の和が収斂される時点で得られるＫ個の神経網を最適区画の分類神経網集合で構成する段階と、(b) 前記(a)段階で提供される音素組み合わせグループ分類結果及び最適区画の分類神経網集合を用いて前記1次ラベルファイルの音素境界を修正し、修正結果を反映した最終ラベルファイルを生成する段階とを含む最適区画の分類神経網を用いた自動ラベリング方法である。
【選択図】図１

Description

本発明は音声認識または音声合成に用いられる自動ラベリングの技術に関し、特に、多層パーセプトロン構造の最適区画の分類神経網に基づいて音素境界を修正し、迅速かつ正確に自動ラベリングを行う技術に関する

音声コーパスとはコンピュータが可読な形態に構成された大量の音声データの集合を意味し、音声の合成に必要とされる基本的な合成単位の抽出及び音韻、韻律規則のための基本資料として用いられる。よって、音声コーパスは、音声認識及び話者認識の場合において、認識アルゴリズムの訓練及び評価用として必須的な資源である。また、音声コーパスは、単に音声を記録して保存するだけでなく、如何なる音声が何処に保存されているかに関する索引情報も有している。

したがって、音声コーパスにアクセスすることにより、指定した単語または文章が即座に音声で聞き取れ、指定した音素列や音韻現象が含まれる音声資料だけを任意に検索することもできる。また、発声内容以外にも発声者に関する情報も含んでおり、発声者に関する多様な音声現象も分析することができる。
また、ラベリングとは、前記した検索を可能にするため、音声学的に多様な区分に関する付加情報を与えることであり、このラベリングの単位として音素、単語、語節、文章などがある。

与えられた音素列及び音声波形データから、完全自動化された音素ラベリングを行うのは、通常、ユーザの介入を必要としない。しかし、実用上は、手動ラベリングによる結果と比較すると、自動ラベリングでは結果に部分的な誤差が存在するので、修正作業が時々必要となる。この自動ラベリング結果に対する修正作業は、手動でラベリングされた結果との直接的な比較が不可能であるため、単にラベリングを修正するユーザの経験及び知識に基づいてのみ行うことができる。また、ラベリング結果を微細に修正するとなると、手動ラベリング結果を音声信号間で同期化させる聴取を反復的に行う必要がある。これでは、処理に長時間を要し、高速ラベリングという自動ラベリングにおける最大の長所である価値を結果的に下げてしまう要因となる。

HMM(Hidden Markov Model)に基づく音素ラベリング技法では、確率的なモデリング過程を通じて音響特徴変数を分割する。この際、確率的なモデリングのための変数は大容量の音声コーパスで生成されるので、全体学習データに対して生成されたモデルが最適のモデルであると見なすことができる。しかし、確率的なモデリングに基づく音素分割技法は、音声信号の音響特徴変数と関連した物理的な特性を反映させることができない。

これはHMMに基づく音素ラベリングが確率的な方法により音素分割を行うだけで、実際に音素と音素との境界に存在する多様な音響的な変動を反映させることができないことを意味している。一方、音響学的な変動を反映して音声を分割する技法は単純に音声信号が有している音響特徴変数の遷移特性だけを用いて音声信号を分割する場合が大部分である。このように、音声分割技法は、文脈情報が共に考慮される場合が少ないので、直接的には自動ラベリングに適用され難い。

音声分割技法を自動ラベリングに適用した方法としては、自動ラベリングの結果を修正する後処理技法を挙げられる。この方法は、音声分割自体により音素分割を行うのではなく、HMMを用いた音素分割を先に行い、ここで得られる音素境界を比較的小さい修正領域に移動させて音素分割を修正する方法である。このような後処理技法は、ガウスモデル関数を用いた技法、神経網を用いた技法などがあり、このうち神経網を用いた技法は神経網を音素境界検出器として用いる技法である。

ここでは、MFCC(Mel Frequency Cepstral Coefficients)を根幹とする幾つかの特徴変数を神経網に入力される変数として用い、出力ノードでは現在入力された特徴変数が音素境界に該当するか否かを0または1の値に指定して誤差を計算し、逆伝播アルゴリズムで神経網の係数を学習させる。かかる方法は神経網自体が確率的なモデリングを基盤としないために確率的な方法にのみ依存するHMMラベリングの脆弱点を補償できる長所を有する。しかし、学習された係数が初期係数セット及び学習データの特性によって全域最適でない地域最適として収斂されることによって神経網で修正されたラベル情報がHMMだけで得られたラベル情報に比べてさらに多くの誤謬を含む場合が発生する可能性がある。

かかる問題を解消するため既存の神経網を後処理器として用いる方法では、まず全てのデータに対して１つの神経網を構成し、左右音素の特性によって神経網を用いる場合は、誤差が減少するか増加するかを判別し、神経網を適宜適用させる。この場合、左右音素の特性を母音、子音及び黙音などに区分するといった比較的単純な方法を用いる。しかし、神経網を用いるか否かは経験的な方法により決定するので神経網の学習過程でユーザの介入が必要であり、また、神経網の適用は、既定の音素のグループ内でのみなされるという短所がある（例えば、非特許文献１、非特許文献２）。
"Neural Network Boundary Refining for Automatic Speech Segmentation，"Proceedings of ICASSP-2000，pp．3438-3441，2000(D．T．Toledano) "Automatic Speech Synthesis Unit Generation with MLP based postprocessora gainst auto-segmented phone errors，"Proceedings of International Joint Conferenceon Neural Networks，pp．2985-2990，1999(E．-Y．Park，S．-H．Kim及びJ．-H．Chung)

したがって、本発明が解決しようとする技術的課題は、Ｌ個の音素組み合わせ各々に対して最小誤差を有する神経網を探索してＬ個の音素組み合わせをユーザが設定したＫ個の神経網に該当する区画に分割し、各区画別に再学習された多層パーセプトロン構造の最適区画の分類神経網を構成するための方法を提供するところにある。
本発明が解決しようとする他の技術的課題は、隣接する左右音素の境界を前記多層パーセプトロン構造の最適区画の分類神経網に基づいて修正することによって迅速かつ正確に自動ラベリングを行うための方法及び装置を提供するところにある。

前記技術的課題を達成するために本発明に係る最適区画分割神経網の構成方法は、（ａ）左右音素の名称よりなるＬ個の音素組み合わせを手動ラベリングにより得られた音素境界を用いて獲得する段階と、（ｂ）入力変数を含む学習データから多層パーセプトロン構造のＫ個の神経網集合を生成する段階と、（ｃ）前記神経網集合から前記Ｌ個の音素組み合わせ各々に対し最小誤差を有する神経網を探索し、前記Ｌ個の音素組み合わせを同じ神経網で探索されたＫ個の音素組み合わせグループに分類する段階と、（ｄ）前記（ｃ）段階で分類されたＫ個の音素組み合わせグループ別に、前記Ｋ個の神経網に対して該当する学習データで学習して加重値を各神経網の個別誤差が収斂するまでに更新する段階と、（ｅ）前記（ｄ）段階で個別誤差が収斂されたＫ個の神経網の全体誤差の和が収斂するまで前記個別誤差が収斂されたＫ個の神経網に対して前記（ｃ）から（ｅ）段階を反復実行し、全体誤差の和が収斂する時点で得られるＫ個の神経網を最適区画の分類神経網集合で構成する段階と、を含む。

前記他の技術的課題を達成するために本発明に係る自動ラベリング方法は、手動ラベルファイルに対して自動ラベリングを行って生成された1次ラベルファイルの音素境界を修正するための自動ラベリング方法において、（ａ）初期に生成されるか、更新されたＫ個の神経網集合からＬ個の音素組み合わせ各々に対して最小誤差を有する神経網を探索し、同じ神経網で探索されたＫ個の音素組み合わせグループ別に前記Ｋ個の神経網を学習して加重値を更新し、個別誤差が収斂されたＫ個の神経網の全体誤差の和が収斂する時点で得られるＫ個の神経網を最適区画の分類神経網集合で構成する段階と、（ｂ）前記（ａ）段階で提供される音素組み合わせグループ分類結果及び最適区画の分類神経網集合を用いて前記1次ラベルファイルの音素境界を修正し、修正の結果を反映した最終ラベルファイルを生成する段階と、を含む。

前記他の技術的課題を達成するために本発明に係る自動ラベリング装置は、手動ラベルファイルに対して自動ラベリングを行って１次ラベルファイルを生成するラベリング部と、初期に生成または更新されたＫ個の神経網集合からＬ個の音素組み合わせ各々に対して最小誤差を有する神経網を探索し、同じ神経網で探索されたＫ個の音素組み合わせグループ別に前記Ｋ個の神経網を学習して加重値を更新し、個別誤差が収斂されたＫ個の神経網の全体誤差の和が収斂する時点で得られるＫ個の神経網を最適区画の分類神経網集合で構成する最適区画の分類神経網構成部と、前記最適区画の分類神経網構成部から提供される音素組み合わせ分類結果及び最適区画の分類神経網集合を用いて前記１次ラベルファイルの音素境界を修正し、修正の結果を反映した最終ラベルファイルを生成する音素境界修正部と、を含む。

本発明によれば、自動ラベリング過程後に生成された１次ラベルファイルの音素境界を最適区画の分類神経網及び最適区画分類結果を用いて修正することによって、２０msec以内の誤差を有する音素が９５％以上を占めるようになり、同じ合成単位の一貫性が維持できて合成単位結合時の不整合を減少させることができる利点がある。したがって、窮極的に合成音質を向上させ、かつTTS(Text-To-Speech)音声合成器の具現に必要な音声コーパスの構築時間を画期的に短縮させることができる。

以下、本発明の実施形態について添付した図面に基づいて詳細に説明する。
図1は、本発明の一実施形態に係る自動ラベリング装置の構成を示すブロック図であって、ラベリング部11、最適区画の分類神経網構成部13及び音素境界修正部15よりなる。図1に示すように、ラベリング部11は手動ラベルファイルを音響特徴変数に基づいて、HMM訓練及びビタビデコーディングで自動ラベリングを行い、１次ラベルファイルを生成する。音響特徴変数の一例としてメル周波数ケプストラム係数(Mel Frequency Cepstral Coefficients、以下MFCCと略称する)が挙げられる。このMFCCは、HMM音素分割に用いられるものであって、望ましくは総計４つの連続したフレームに対するMFCCを入力変数として用いる。１フレームに対して総計１３個のMFCCが計算されるので神経網に入力される変数は総計５２個となる。

最適区画の分類神経網構成部13は音響特徴変数及び付加変数を入力変数とし、手動ラベルファイルから生成されるＬ個の音素組み合わせ各々に対して最小誤差を有する神経網を探索してＬ個の音素組み合わせをユーザが設定した神経網の数Ｋに該当する区画に分割し、各区画別に再学習された多層パーセプトロン構造のＫ個の最適区画の分類神経網を構成する。ここで、付加変数は短区間ゼロ交差率(Short-Term Zero Crossing Rate、以下ST-ZCRと略称する)、スペクトル特徴変数変化率(Spectral Feature Transition Rate、以下SFTRと略称する)、対称Kullback-leibler距離(Symmetrical Kullback-Leibler Distance、以下SKLDと略称する)などを含む。

各変数についてさらに詳細に説明すると次の通りである。
ST-ZCRは任意区間内で音声信号の符号がどの程度変化するかを定量的に示す値である。そして、ST-ZCRは、有声音が無声音に対して有意に区分されるヒストグラムを有するため、有声音/無声音に該当する音素が相互に隣接する場合において音素の分割に有効な変数である。ST-ZCRは、変動成分の少ない有声音の区間では比較的に小さい値を有し、白色雑音のような成分を多く含む無声音の区間では大きな値を有する。

SFTRは経時的に変化するスペクトルの軌跡を1次関数として表現した場合、各スペクトルの特徴変数に対する1次関数傾度のユークリッド距離を示す。
すなわち、SFTRは任意時間でスペクトルの特徴変数がどの程度急に、あるいは徐々に変化するかを示す変数であって、スペクトルが安定した値を有する音素の中央部分では地域極小値を有し、遷移区間では比較的に大きな値を有する。したがって、SFTRは音素ラベリングの場合に音素の遷移区間や安定区間の表示因子として用いられる。
SKLDは大きいエネルギーを有する部分のスペクトル差をさらに強調する特性を有する。このため、SKLDを音声信号に適用した場合、ホルマント(formant)のように文脈と話者に関する重要な情報がある部分を適宜強調することにより、スペクトル距離を求めるものである。

一方、最適区画の分類神経網構成部13で多層パーセプトロン構造の神経網を用いると非線形分割が可能となる。この非線形分割特性により、入出力間の関係が非線形セルにより表現されれば、対応規則を適切にモデリングできる利点がある。なお、多層パーセプトロン構造では反復校正により加重値が求められる。この反復校正は、出力ノードに該当する最上位ノードの誤差を下方の神経網に伝播させる、逆伝播アルゴリズムにより実行される。

音素境界修正部15は最適区画の分類神経網構成部13から提供される最適区画分類結果及び最適区画の分類神経網集合を用いて、ラベリング部11から提供される1次ラベルファイルの音素境界を修正し、修正結果を反映した最終ラベルファイルを生成する。すなわち、音素境界修正のために、最適区画の分類神経網構成部13で学習が完了されて構成された最適区画の分類神経網を用いて、学習時と同じ入力変数を神経網に加えて出力が1か、0かによって音素境界を判定する。

図2は図1における最適区画の分類神経網構成部１３の細部的な構成を示すブロック図であって、訓練コーパス21、最小誤差分類部22、再訓練部23及び神経網集合24よりなる。図2に示すように、訓練コーパス21は音響特徴変数及び付加変数を含む入力変数と手動ラベルファイルとを保存する。

最小誤差分類部22は、まず訓練コーパス21に保存された入力変数と手動ラベルファイルとから得られる音素境界を用いて左右音素の名称よりなるＬ個の音素組み合わせを生成する。次いで、入力変数を含む学習データをＫ個に分割し、分割された学習データから得られる多層パーセプトロン構造のＫ個の神経網集合24から、Ｌ個の音素組み合わせ各々に対して最小誤差を有する最適の神経網を探索し、Ｌ個の音素組み合わせを同じ神経網に分類されたＫ個の音素組み合わせグループに分類する。

再訓練部23は最小誤差分類部22で分類されたＫ個の音素組み合わせグループ別に、所定の反復回数だけＫ個の神経網に対して該当する学習データで学習して各神経網の加重値を更新し、更新された加重値を神経網集合24で該当する神経網に適用して全体誤差を収斂させる。

図3は図1における最適区画の分類神経網構成部１３の動作を説明するためのフローチャートであって、初期化段階(ステップ31)、分類段階(ステップ32)、併合段階(ステップ33)、神経網訓練及び更新段階(ステップ34)、収斂確認段階(ステップ35)及び最適区画の分類神経網構成段階(ステップ36)よりなる。

そして、図2に示された最適区画の分類神経網構成部１３の動作を図3のフローチャートと結び付けて説明を続ける。
最適区画の分類神経網構成部１３では与えられた学習データで最適なＫ個の複数神経網を構成する。このために、まず初期複数神経網を構成し、学習データに対して分類と学習とが反復的に行われて全体誤差を漸進的に減らす。
ここで、複数神経網を表現する方法を説明すると次の通りである。1つの隠匿階層を有する神経網で、n番目のフレームとn+1番目のフレームとが相互隣接する場合、入力パラメータx_i(n)に対する出力y(n)は次の次式のように与えられる。

ここで、v_jは隠匿階層と出力階層間の神経網加重値、w_ijは入力階層から隠匿階層への加重値を各々示す。N_i、N_oは各々入力階層におけるノード数と隠匿階層におけるノード数とを示し、f(・)はシグモイド関数を示す。
一方、出力ノードでの誤差e(n)は次式のように示される。

ここで、y^d(n)は目標出力値としてn番目のフレームとn+1番目のフレーム間に音素境界が存在する場合には'1'、そうでない場合には'0'の値を有する。
一方、Φ = [v₁,…, v_No,w₁₁,…, w_{Ni No}]を神経網が構成される全ての加重値の集合で定義し、X(n) = [x₁(n),…, x_Ni(n)]で定義すると、数1式は次式のように示される。

ここで、入力ベクトルX(n)には図4に示されるように(n-1)番目、n番目、(n+1)番目、(n+2)番目のフレームに該当するMFCC係数と、n番目のフレームと(n+1)番目のフレーム間に計算されたSFTR、SKLDと、n番目のフレームと(n+1)番目のフレームで計算されたST-ZCRとが含まれる。
一方、神経網の加重値更新値ΔΦは次式のように示すことができる。

ここで、ηは学習利得(0<η<1)を示す。
複数個の神経網が用いられる場合、これら神経網が含まれた集合をCと定義すると、最適の神経網集合C^*=[Φ₁，Φ₂，．．．，Φ_k]は次式のように示すことができる全ての音素境界での全体誤差の和Dを最小化させることができる。

ここで、Mは全体音素境界の数を示し、W_mはm番目の音素境界での境界領域を示し、次式のように示すことができる。

ここで、t_mはm番目の音素境界の位置と最も近いフレームインデックスを示す。
数5式で定義される全体誤差の和を最小化させる神経網を構成するために、神経網の入力ベクトルをあらかじめ区画別に分割して分類及び再学習過程を分割された区画別に行う。以上の処理フローは図3においてステップ31からステップ36より実現される。

図3に示すように、ステップ31は初期化段階であって、神経網学習のための学習データ、第1及び第2スレショルド値ε₁及びε₂を設定し、初期神経網集合をあらかじめ準備する。反復回数インデックスiは0に、初期誤差の和D₀(C₀)は無限大に設定し、手動ラベリングにより得られた音素境界の位置値を準備する。
なお、ここで学習データ、初期神経網集合、音素境界の位置値はそれぞれ次式のように示される

初期神経網集合の構成は、乱数を用いてＫ個の神経網を構成させたり、学習データをＫ個のグループに任意分割し、分割された各区画に対して逆伝播アルゴリズムに基づく学習により得る方法で構成させたりすることが可能である。この学習データに含まれる全ての入力変数は図6に示されるようにN_p個の音素組み合わせのうち何れか１つに割り当てられる。例えば、n番目の入力データX(n)がj番目の音素組み合わせに該当するならば、X(n)∈P_jと表現される。同様に、全ての音素境界に対しても音素組み合わせが割り当てられる。すなわち、P_c(m)=jのように表現できるが、P_c(m)はm番目の音素境界に対する音素組み合わせインデックスであり、1≦j≦N_p、1≦n≦N、1≦m≦Mである。

ステップ32は分類段階であって、初期神経網集合から各音素組み合わせに対して最小誤差を有する最適の神経網を探す。j番目の音素組み合わせP_jに対するi番目の反復での最適の神経網インデックスc_i(P_j)は次式のように表現することができる。

ここで、W_mは次式のように、m番目の音素境界に含まれる入力変数が選択される区間を示す。

ここで、t_mはm番目の音素境界の位置と最も近いフレームインデックスを示す。
数8式に示すように、ｋ番目の神経網に対する全体誤差は、音素組み合わせP_jに含まれるあらゆる学習データをｋ番目の神経網に入力させた場合に得られる出力と目標出力との間の二乗誤差和で与えられることが分かる。

ステップ33は併合段階であって、ステップ32の分類過程を通じてあらゆる音素組み合わせが最適の神経網に分類されれば、この際、同じ神経網に分類された音素組み合わせを併合させて新しい区画に分類する。ｋ番目の区画はｋ番目の神経網が最適の神経網として選択されたあらゆる音素組み合わせを含み、次式のように示すことができる。ここで、次式はi番目の反復でｋ番目の区画を示すものであって、区画に含まれたあらゆる音素組み合わせで構成された集合を示す。

さらにこの前式は、学習データに含まれた入力変数で示す場合、次式のように表現することができる。

次に、新しい区画に対する全体誤差は次式のように示すことができる。

ここで、iは反復回数インデックスを示し、Sⁱはi番目の反復での区画を示し、次式のように示すことができる。

ステップ34は個別神経網の更新段階であって、ステップ32とステップ33との分類-併合により生成された区画によって区画別に神経網を学習する。この際、ｋ番目の神経網に対する加重値更新値は次式のように示すことができる。

この数14式から、全体学習データのうち同じ神経網として分類されたデータだけで該当する神経網を更新することが分かる。個別の神経網の更新は数14式で得られる更新値を変更させることによって反復的に行われる。すなわち、数14式を通じて得られた更新された神経網パラメータを用いて再び誤差を計算し、この誤差によって神経網パラメータを更新する過程を反復する。更新の終了時点はＫ個のあらゆる神経網が収斂する瞬間である。収斂性は誤差の変化率が第1スレショルド値ε₁より小さいか否かを通じて判断される。このような過程を通じて最終的に更新された神経網で新たに、次式で表わされる神経網集合が構成される。

ステップ35は収斂確認段階で、数12式により実現される処理であって、現在反復回数で求めた全体誤差の和が、以前の反復回数で求めた全体誤差の和に比較してどの程度の変化したかを確認する。もし、次式で与えられる全体誤差和の変化率が第2スレショルド値ε₂より小さければ、学習を終了させ、そうでなければiを1だけ増加させて前記ステップ32からステップ35を繰り返して行う。

ステップ36ではステップ35で収斂性が確認された場合、この時に得られた神経網集合24を最適区画の分類神経網組み合わせで構成する。
前記したようなステップ31からステップ36によって分類、併合及び再訓練過程が反復的に行われて全体誤差の和が収斂されれば、ステップ33で得られる音素組み合わせ区画結果とステップ36で得られる最適区画の分類神経網とを音素境界修正部15で音素境界修正のために用いることになる。

前記方法によれば、i番目の反復後に生成された数１５式で示される神経網集合についてステップ32及びステップ33の最小誤差分類を適用した後の誤差はD_i+1(C_i)(D_i(C_i)を満たす。すなわち、与えられた神経網集合に対してN_p個の音素組み合わせが最適の区画に分割される。ステップ34の過程は分割された各区画に対して最小誤差を有する最適の神経網が再学習される。したがって、ステップ34の過程を経た後、全体誤差の和はD_i+1(D_iを満たす。

ステップ34以後に得られる神経網が最小誤差面で最適の神経網を保証できない場合、反復回数が増加しても全体誤差の和が漸進的に減少しなくなって無限の反復が起こる。これを防止するためにステップ34で学習利得ηを小さな値に設定し、収斂性調査のための第1スレショルド値ε₁を比較的小さな値に設定して十分な反復を通じて神経網を更新させる。

図4は、図2に示された神経網において入力変数と出力値との関係を示したものであって、入力変数としては(n-1)、(n)、(n+1)、(n+2)番目のフレームに該当するMFCC係数と、(n)、(n+1)番目のフレームで計算されたST-ZCR、SFTR、SKLDを含み、出力値は音素Aと音素Bとの境界に該当する部分には1、そうでない部分には0を設定し、音素境界から左右1フレームだけ離れた部分には0．5を設定する。すなわち、神経網出力値の急な変動を抑制するために(n-1)番目のフレームとn番目のフレーム間の目標出力値を0．5に設定し、n番目のフレームと(n+1)番目のフレームとの間の目標出力値も0．5に設定する。

図5は、図1に示された音素境界修正部15において音素境界修正領域を説明するための図面である。図5に示すように、HMMを用いて自動ラベリングされた音素の境界51付近で音素の位置を修正するために、修正領域53は左右音素の持続時間を所定間隔に分割した分だけを左右に移動しつつ計算される神経網の出力のうち、1に近い値を有する位置を新たな音素境界と指定する。ここで、望ましくは、修正領域は左右音素の持続時間を3等分し、HMMを用いて自動ラベリングされた音素の境界付近で左右に１／３分割した長さに設定する。

図6は、図1に示された最適区画の分類神経網構成部13において神経網の入力変数を分割する方法を説明する図であって、参照符号61、62、63は手動ラベリングによる音素境界を示す。図6に示すように、あらゆる入力変数はラベリングされた音素名称によって該当する音素組み合わせが割り当てられ、割り当てられる音素組み合わせは入力変数の位置で最も近い音素境界を探し、この境界で連結される２つの音素名に決定される。例えば、領域nに最も近い音素境界は中央に位置した音素境界61として音素B及び音素Cに連結される。したがって、領域nに含まれるあらゆるMLP特徴ベクトルはB+Cの音素組み合わせを有する。このように入力変数に対する音素組み合わせは音素境界により決定される。

このような方法で入力変数を分割する場合、全体区画数は使われた音素数の２乗で与えられる。例えば、54個の基本音素が使われた場合54×54=2516個の区画に入力ベクトルを分割することになる。これは可能な最大区画の数であり、文脈的に意味のある組み合わせはほぼ1000個余りの区画に区分することができる。1000個余りの区画のうち幾つかの区画を相互併合させ、既定の個別神経網の数だけ新たな区画を生成する。この際、個別神経網の数Ｋは音素組み合わせによる区画の数Ｌと同じか、または小さい値に設定することが望ましい。

図7は、図3において神経網学習及び更新段階(ステップ34)を図式的に示したものであって、MLP構造のＫ個の神経網よりなる初期神経網集合71を準備し、MLP探索部72では可能なあらゆる音素組み合わせ73に対して初期神経網集合71から最小誤差を有するMLPインデックスを探索する。分類部74ではMLP探索部73であらゆる音素組み合わせに対して最小誤差を有するMLPインデックスが探索されれば、この際、同じMLPインデックスが探索された音素組み合わせを併合させてＫ個の新しい区画75に分類する。

各区画に該当する学習データは該当するMLP構造の神経網76を再訓練させて加重値を更新する。個別神経網の再訓練過程は更新された加重値を用いて誤差を計算し、誤差の変化率が第1スレショルド値ε₁より小さくなるまで再訓練を反復する。一方、現在反復回数で求めた全体誤差の和が以前の反復回数で求めた誤差の和と比較して全体誤差和の変化率が第2スレショルド値ε₂より小さくなるまで全体的な過程、すなわちステップ32からステップ35を繰り返して行う。

一方、例えば図7の新たな区画75のうち第1区画に対して音素組み合わせ[G+e、n+o、d+a、m+o]が含まれ、音素境界修正時に1次ラベルファイルの現在の左右の音素名がdとaである場合、音素境界修正部15での音素境界修正時には第1神経網が選択される。
このような方法は、音素組み合わせの区画分割が言語学的な知識とは全然関係なく行われ、全体誤差を最小化する観点でのみなされるので、最終的に分類された音素組み合わせは最小誤差面で最適の音素組み合わせ分類を保障する。

次いで、本発明に係る学習過程で区画分割を行う最適音素区画分類方法の性能を評価する。性能評価のために約476，924個の入力ベクトル-出力データが使われ、全体神経網の数は29個に設定し、構成された神経網は1つの隠匿階層を有し、隠匿階層におけるノード数は15個に設定した。シグモイド関数のβ値は2.0、学習時の学習利得η値は0.5に設定した。逆伝播アルゴリズム時の収斂性調査のための誤差比率のスレショルド値は0．001、無限ループを防止するための反復回数は最大300に制限した。入力ベクトルは4個の13次MFCC、SKLD、SFTR、ST-ZCRなどを含み、MFCCの分析時にフレーム長さ及びフレーム間隔は各々25msec、10msecに設定した。

次の表1は前記したような実験環境でHMMのみを用いて音素境界を推定する場合(従来の技術1)、HMMで得られた音素境界を単一神経網を用いて修正する場合(従来の技術2)、及び言語学的知識に基づいた音素群組み合わせ別に神経網を用いた場合(従来の技術3)、最適区画分類された神経網を用いた場合(本発明)に対する性能比較を示したものである。

この表1より、RMSE(Root Mean Square Error)、MAE(Mean Absolute Error)面で従来の技術3と本発明のように複数個の神経網を用いる場合、従来の技術1及び2に比べて顕著な性能向上を示すことが分かる。特に、あらかじめ分割された音素群の組み合わせを用いる従来の技術3の場合に比べて学習過程で最適区画に分割された神経網を用いる本発明の場合にさらに優秀な性能向上があるということが立証された。また、本発明では20msec以内の百分率累積誤差面において20msec以内の境界誤差を発生させる音素が95%を超えることによって、自動ラベリングの実用性をさらに向上させることが立証された。

図8は、本発明に係る最適区画の分類神経網の学習時の学習データに対する全体誤差を反復回数別に示したものであって、全体誤差は単一神経網を用いた場合と同様に最小誤差地点で収斂する傾向を示す。全体反復回数のうち初期の1〜5回部分でほとんど収斂されることが分かるが、これは初期神経網が学習データから由来したことに起因し、ランダム値を用いた初期化時にはこれより多くの反復回数により収斂される。

図9は、音素群組み合わせ別の神経網(従来の技術3)と本発明による最適の区画分類神経網との百分率累積誤差を比較したものであって、本発明により性能が向上したことを示している。特に、ラベル誤謬修正の指標としている「0msec以内の誤差を有する音素が95%を占める場合」が観察されることが分かる。

また、本発明はコンピュータが可読な記録媒体（コンピュータ可読記録媒体）に、コンピュータが可読なコードとして記録して具現化することができる。このコンピュータ可読記録媒体はコンピュータシステムによって読み取られるデータが保存されるあらゆる種類の記録媒体を含む。コンピュータが読み取られる記録媒体の例としては、ROM、RAM、CD-ROM、磁気テープ、フロッピーディスク、光データ貯蔵装置などがあり、またキャリアウェーブ(例えば、インターネットを介した伝送)の形で具現されることも含む。

またコンピュータ可読記録媒体はネットワークで連結されたコンピュータシステムに分散され、分散方式でコンピュータ可読コードが保存されて実行される。そして、本発明を具現するための機能的なプログラム、コード及びコードセグメントは本発明が属する技術分野のプログラマーにより容易に推論することができる。

以上、図面及び明細書で最適の実施形態を一例として開示した。ここで、使用された特定の用語は、単に本発明を説明するための目的で使われたものに過ぎず、意味限定や特許請求の範囲上に記載された本発明の範囲を制限するものではない。したがって、当業者は、本実施形態に基づいてより多様な変形及び均等の範囲に含まれる他の実施形態を想起することが可能である。したがって、本発明の真の技術的保護範囲は特許請求の範囲において示される技術的思想により定められるべきである。

音素境界を多層パーセプトロン構造の最適区画の分類神経網に基づいて修正することによって迅速かつ正確に自動ラベリングが行われるので、ラベリングされた後段、即ち音声認識過程、音声合成過程、話者認識過程の認識性能を向上させることに適用することが可能である。

本発明の一実施形態に係る自動ラベリング装置の構成を示すブロック図である。図１における最適区画分割神経網構成部の細部的な構成を示すブロック図である。図１における最適区画分割神経網構成部の動作を説明するフローチャートである。神経網の入力変数と出力値との関係を説明する図面である。音素境界修正領域を説明する図面である。図３における音素組み合わせに係る分類過程を説明する図面である。図３における音素情報を用いた最適区画分割神経網学習過程を説明するフローチャートである。本発明に係る最適区画分割神経網の学習時に学習データに対する全体誤差を反復回数別に示すグラフである。音素群組み合わせ別の神経網と本発明による最適区画分割神経網との百分率累積誤差を比較したグラフである。

符号の説明

１１ラベリング部
１３最適区画の分類神経網構成部
１５音素境界修正部

Claims

（ａ）左右音素の名称よりなるＬ個の音素組み合わせを手動ラベリングにより得られた音素境界を用いて獲得する段階と、
（ｂ）入力変数を含む学習データから多層パーセプトロン構造のＫ個の神経網集合を生成する段階と、
（ｃ）前記神経網集合から前記Ｌ個の音素組み合わせ各々に対し最小誤差を有する神経網を探索し、前記Ｌ個の音素組み合わせを同じ神経網で探索されたＫ個の音素組み合わせグループに分類する段階と、
（ｄ）前記（ｃ）段階で分類されたＫ個の音素組み合わせグループ別に、前記Ｋ個の神経網に対して該当する学習データに学習して加重値を各神経網の個別誤差が収斂するまでに更新する段階と、
（ｅ）前記（ｄ）段階で個別誤差が収斂されたＫ個の神経網の全体誤差の和が収斂するまで前記個別誤差が収斂されたＫ個の神経網に対して前記（ｃ）から（ｅ）段階を反復実行し、全体誤差の和が収斂する時点で得られるＫ個の神経網を最適区画の分類神経網集合で構成する段階と、を含む最適区画の分類神経網の構成方法。
前記神経網の出力値は音素の境界に該当する部分には１、そうでない部分には０を設定し、音素境界から左右に１フレームだけ離れた部分には０．５を設定する請求項１に記載の最適区画の分類神経網の構成方法。
手動ラベルファイルに対して自動ラベリングを行って生成された１次ラベルファイルの音素境界を修正するための自動ラベリング方法において、
（ａ）初期に生成されるか、更新されたＫ個の神経網集合からＬ個の音素組み合わせ各々に対して最小誤差を有する神経網を探索し、同じ神経網で探索されたＫ個の音素組み合わせグループ別に前記Ｋ個の神経網を学習して加重値を更新し、個別誤差が収斂されたＫ個の神経網の全体誤差の和が収斂する時点で得られるＫ個の神経網を最適区画の分類神経網集合で構成する段階と、
（ｂ）前記（ａ）段階で提供される音素組み合わせグループ分類結果及び最適区画の分類神経網集合を用いて前記1次ラベルファイルの音素境界を修正し、修正の結果を反映した最終ラベルファイルを生成する段階と、を含む最適区画の分類神経網を用いた自動ラベリング方法。
前記神経網の出力値は音素の境界に該当する部分には１、そうでない部分には０を設定し、音素境界から左右に１フレームだけ離れた部分には０．５を設定する請求項３に記載の最適区画の分類神経網を用いた自動ラベリング方法。
前記（ｂ）段階での音素境界修正領域は前記音素組み合わせの左右音素の持続時間のうち所定領域に設定することを特徴とする請求項３に記載の最適区画の分類神経網を用いた自動ラベリング方法。
前記所定領域は前記左右音素の持続時間を各々３等分し、前記1次ラベルファイルの各音素境界付近で左右に１／３分割した長さに設定することを特徴とする請求項５に記載の最適区画の分類神経網を用いた自動ラベリング方法。
手動ラベルファイルに対して自動ラベリングを行って1次ラベルファイルを生成するラベリング部と、
初期に生成または更新されたＫ個の神経網集合からＬ個の音素組み合わせ各々に対して最小誤差を有する神経網を探索し、同じ神経網で探索されたＫ個の音素組み合わせグループ別に前記Ｋ個の神経網を学習して加重値を更新し、個別誤差が収斂されたＫ個の神経網の全体誤差の和が収斂する時点で得られるＫ個の神経網を最適区画の分類神経網集合で構成する最適区画の分類神経網構成部と、
前記最適区画の分類神経網構成部から提供される音素組み合わせ分類結果及び最適区画の分類神経網集合を用いて前記1次ラベルファイルの音素境界を修正し、修正の結果を反映した最終ラベルファイルを生成する音素境界修正部と、を含む最適区画の分類神経網を用いた自動ラベリング装置。
前記最適区画の分類神経網構成部は、
音響特徴変数及び付加変数を含む入力変数及び手動ラベルファイルを保存する訓練コーパスと、
前記訓練コーパスに保存された入力変数及び手動ラベルファイルから得られる音素境界を用いて左右音素の名称よりなるＬ個の音素組み合わせを生成し、初期に生成または更新されたＫ個の神経網集合から前記Ｌ個の音素組み合わせ各々に対して最小誤差を有する神経網を探索し、前記Ｌ個の音素組み合わせを同じ神経網で探索されたＫ個の音素組み合わせグループに分類する最小誤差分類部と、
前記最小誤差分類部で分類されたＫ個の音素組み合わせグループ別に前記Ｋ個の神経網に対して該当する学習データで学習して加重値を各神経網の個別誤差が収斂するまで更新し、個別誤差が収斂されたＫ個の神経網の全体誤差の和が収斂されるべく再訓練させる再訓練部と、を含む請求項７に記載の最適区画の分類神経網を用いた自動ラベリング装置。
前記神経網の出力値は音素の境界に該当する部分には１、そうでない部分には０を設定し、音素境界から左右に１だけ離れた部分には０．５を設定する請求項７に記載の最適区画の分類神経網を用いた自動ラベリング装置。
前記音素境界修正部の音素境界修正領域は前記左右音素の持続時間のうち所定領域に設定することを特徴とする請求項７に記載の最適区画の分類神経網を用いた自動ラベリング装置。
前記所定領域は前記左右音素の持続時間を各々３等分し、前記1次ラベルファイルの各音素境界付近で左右に１／３分割した長さに設定することを特徴とする請求項１０に記載の最適区画の分類神経網を用いた自動ラベリング装置。
請求項１に記載の方法を実行するためのプログラムを記録したコンピュータ可読記録媒体。
請求項３に記載の方法を実行するためのプログラムを記録したコンピュータ可読記録媒体。