JP2004264856A - 最適区画の分類神経網の構成方法、最適区画の分類神経網を用いた自動ラベリング方法、並びに装置 - Google Patents

最適区画の分類神経網の構成方法、最適区画の分類神経網を用いた自動ラベリング方法、並びに装置 Download PDF

Info

Publication number
JP2004264856A
JP2004264856A JP2004056726A JP2004056726A JP2004264856A JP 2004264856 A JP2004264856 A JP 2004264856A JP 2004056726 A JP2004056726 A JP 2004056726A JP 2004056726 A JP2004056726 A JP 2004056726A JP 2004264856 A JP2004264856 A JP 2004264856A
Authority
JP
Japan
Prior art keywords
neural network
phoneme
classification
optimal
boundary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004056726A
Other languages
English (en)
Other versions
JP4545456B2 (ja
Inventor
Ki-Hun Choo
基 ▲見▼ 朱
Jeong-Su Kim
正 ▲寿▼ 金
Jae-Won Lee
在 原 李
Ki-Seung Lee
起 承 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2004264856A publication Critical patent/JP2004264856A/ja
Application granted granted Critical
Publication of JP4545456B2 publication Critical patent/JP4545456B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Feedback Control In General (AREA)

Abstract

【課題】 最適区画の分類神経網の構成方法と最適区画の分類神経網を用いた自動ラベリング方法装置を提供する。
【解決手段】 (a) 初期に生成または更新されたK個の神経網集合からL個の音素組み合わせ各々に対して最小誤差を有する神経網を探索し、同じ神経網で探索されたK個の音素組み合わせグループ別に前記K個の神経網を学習して加重値を更新し、個別誤差が収斂されたK個の神経網の全体誤差の和が収斂される時点で得られるK個の神経網を最適区画の分類神経網集合で構成する段階と、(b) 前記(a)段階で提供される音素組み合わせグループ分類結果及び最適区画の分類神経網集合を用いて前記1次ラベルファイルの音素境界を修正し、修正結果を反映した最終ラベルファイルを生成する段階とを含む最適区画の分類神経網を用いた自動ラベリング方法である。
【選択図】 図1

Description

本発明は音声認識または音声合成に用いられる自動ラベリングの技術に関し、特に、多層パーセプトロン構造の最適区画の分類神経網に基づいて音素境界を修正し、迅速かつ正確に自動ラベリングを行う技術に関する
音声コーパスとはコンピュータが可読な形態に構成された大量の音声データの集合を意味し、音声の合成に必要とされる基本的な合成単位の抽出及び音韻、韻律規則のための基本資料として用いられる。よって、音声コーパスは、音声認識及び話者認識の場合において、認識アルゴリズムの訓練及び評価用として必須的な資源である。また、音声コーパスは、単に音声を記録して保存するだけでなく、如何なる音声が何処に保存されているかに関する索引情報も有している。
したがって、音声コーパスにアクセスすることにより、指定した単語または文章が即座に音声で聞き取れ、指定した音素列や音韻現象が含まれる音声資料だけを任意に検索することもできる。また、発声内容以外にも発声者に関する情報も含んでおり、発声者に関する多様な音声現象も分析することができる。
また、ラベリングとは、前記した検索を可能にするため、音声学的に多様な区分に関する付加情報を与えることであり、このラベリングの単位として音素、単語、語節、文章などがある。
与えられた音素列及び音声波形データから、完全自動化された音素ラベリングを行うのは、通常、ユーザの介入を必要としない。しかし、実用上は、手動ラベリングによる結果と比較すると、自動ラベリングでは結果に部分的な誤差が存在するので、修正作業が時々必要となる。この自動ラベリング結果に対する修正作業は、手動でラベリングされた結果との直接的な比較が不可能であるため、単にラベリングを修正するユーザの経験及び知識に基づいてのみ行うことができる。また、ラベリング結果を微細に修正するとなると、手動ラベリング結果を音声信号間で同期化させる聴取を反復的に行う必要がある。これでは、処理に長時間を要し、高速ラベリングという自動ラベリングにおける最大の長所である価値を結果的に下げてしまう要因となる。
HMM(Hidden Markov Model)に基づく音素ラベリング技法では、確率的なモデリング過程を通じて音響特徴変数を分割する。この際、確率的なモデリングのための変数は大容量の音声コーパスで生成されるので、全体学習データに対して生成されたモデルが最適のモデルであると見なすことができる。しかし、確率的なモデリングに基づく音素分割技法は、音声信号の音響特徴変数と関連した物理的な特性を反映させることができない。
これはHMMに基づく音素ラベリングが確率的な方法により音素分割を行うだけで、実際に音素と音素との境界に存在する多様な音響的な変動を反映させることができないことを意味している。一方、音響学的な変動を反映して音声を分割する技法は単純に音声信号が有している音響特徴変数の遷移特性だけを用いて音声信号を分割する場合が大部分である。このように、音声分割技法は、文脈情報が共に考慮される場合が少ないので、直接的には自動ラベリングに適用され難い。
音声分割技法を自動ラベリングに適用した方法としては、自動ラベリングの結果を修正する後処理技法を挙げられる。この方法は、音声分割自体により音素分割を行うのではなく、HMMを用いた音素分割を先に行い、ここで得られる音素境界を比較的小さい修正領域に移動させて音素分割を修正する方法である。このような後処理技法は、ガウスモデル関数を用いた技法、神経網を用いた技法などがあり、このうち神経網を用いた技法は神経網を音素境界検出器として用いる技法である。
ここでは、MFCC(Mel Frequency Cepstral Coefficients)を根幹とする幾つかの特徴変数を神経網に入力される変数として用い、出力ノードでは現在入力された特徴変数が音素境界に該当するか否かを0または1の値に指定して誤差を計算し、逆伝播アルゴリズムで神経網の係数を学習させる。かかる方法は神経網自体が確率的なモデリングを基盤としないために確率的な方法にのみ依存するHMMラベリングの脆弱点を補償できる長所を有する。しかし、学習された係数が初期係数セット及び学習データの特性によって全域最適でない地域最適として収斂されることによって神経網で修正されたラベル情報がHMMだけで得られたラベル情報に比べてさらに多くの誤謬を含む場合が発生する可能性がある。
かかる問題を解消するため既存の神経網を後処理器として用いる方法では、まず全てのデータに対して1つの神経網を構成し、左右音素の特性によって神経網を用いる場合は、誤差が減少するか増加するかを判別し、神経網を適宜適用させる。この場合、左右音素の特性を母音、子音及び黙音などに区分するといった比較的単純な方法を用いる。しかし、神経網を用いるか否かは経験的な方法により決定するので神経網の学習過程でユーザの介入が必要であり、また、神経網の適用は、既定の音素のグループ内でのみなされるという短所がある(例えば、非特許文献1、非特許文献2)。
"Neural Network Boundary Refining for Automatic Speech Segmentation,"Proceedings of ICASSP-2000,pp.3438-3441,2000(D.T.Toledano) "Automatic Speech Synthesis Unit Generation with MLP based postprocessora gainst auto-segmented phone errors,"Proceedings of International Joint Conferenceon Neural Networks,pp.2985-2990,1999(E.-Y.Park,S.-H.Kim及びJ.-H.Chung)
したがって、本発明が解決しようとする技術的課題は、L個の音素組み合わせ各々に対して最小誤差を有する神経網を探索してL個の音素組み合わせをユーザが設定したK個の神経網に該当する区画に分割し、各区画別に再学習された多層パーセプトロン構造の最適区画の分類神経網を構成するための方法を提供するところにある。
本発明が解決しようとする他の技術的課題は、隣接する左右音素の境界を前記多層パーセプトロン構造の最適区画の分類神経網に基づいて修正することによって迅速かつ正確に自動ラベリングを行うための方法及び装置を提供するところにある。
前記技術的課題を達成するために本発明に係る最適区画分割神経網の構成方法は、(a)左右音素の名称よりなるL個の音素組み合わせを手動ラベリングにより得られた音素境界を用いて獲得する段階と、(b)入力変数を含む学習データから多層パーセプトロン構造のK個の神経網集合を生成する段階と、(c)前記神経網集合から前記L個の音素組み合わせ各々に対し最小誤差を有する神経網を探索し、前記L個の音素組み合わせを同じ神経網で探索されたK個の音素組み合わせグループに分類する段階と、(d)前記(c)段階で分類されたK個の音素組み合わせグループ別に、前記K個の神経網に対して該当する学習データで学習して加重値を各神経網の個別誤差が収斂するまでに更新する段階と、(e)前記(d)段階で個別誤差が収斂されたK個の神経網の全体誤差の和が収斂するまで前記個別誤差が収斂されたK個の神経網に対して前記(c)から(e)段階を反復実行し、全体誤差の和が収斂する時点で得られるK個の神経網を最適区画の分類神経網集合で構成する段階と、を含む。
前記他の技術的課題を達成するために本発明に係る自動ラベリング方法は、手動ラベルファイルに対して自動ラベリングを行って生成された1次ラベルファイルの音素境界を修正するための自動ラベリング方法において、(a)初期に生成されるか、更新されたK個の神経網集合からL個の音素組み合わせ各々に対して最小誤差を有する神経網を探索し、同じ神経網で探索されたK個の音素組み合わせグループ別に前記K個の神経網を学習して加重値を更新し、個別誤差が収斂されたK個の神経網の全体誤差の和が収斂する時点で得られるK個の神経網を最適区画の分類神経網集合で構成する段階と、(b)前記(a)段階で提供される音素組み合わせグループ分類結果及び最適区画の分類神経網集合を用いて前記1次ラベルファイルの音素境界を修正し、修正の結果を反映した最終ラベルファイルを生成する段階と、を含む。
前記他の技術的課題を達成するために本発明に係る自動ラベリング装置は、手動ラベルファイルに対して自動ラベリングを行って1次ラベルファイルを生成するラベリング部と、初期に生成または更新されたK個の神経網集合からL個の音素組み合わせ各々に対して最小誤差を有する神経網を探索し、同じ神経網で探索されたK個の音素組み合わせグループ別に前記K個の神経網を学習して加重値を更新し、個別誤差が収斂されたK個の神経網の全体誤差の和が収斂する時点で得られるK個の神経網を最適区画の分類神経網集合で構成する最適区画の分類神経網構成部と、前記最適区画の分類神経網構成部から提供される音素組み合わせ分類結果及び最適区画の分類神経網集合を用いて前記1次ラベルファイルの音素境界を修正し、修正の結果を反映した最終ラベルファイルを生成する音素境界修正部と、を含む。
本発明によれば、自動ラベリング過程後に生成された1次ラベルファイルの音素境界を最適区画の分類神経網及び最適区画分類結果を用いて修正することによって、20msec以内の誤差を有する音素が95%以上を占めるようになり、同じ合成単位の一貫性が維持できて合成単位結合時の不整合を減少させることができる利点がある。したがって、窮極的に合成音質を向上させ、かつTTS(Text-To-Speech)音声合成器の具現に必要な音声コーパスの構築時間を画期的に短縮させることができる。
以下、本発明の実施形態について添付した図面に基づいて詳細に説明する。
図1は、本発明の一実施形態に係る自動ラベリング装置の構成を示すブロック図であって、ラベリング部11、最適区画の分類神経網構成部13及び音素境界修正部15よりなる。図1に示すように、ラベリング部11は手動ラベルファイルを音響特徴変数に基づいて、HMM訓練及びビタビデコーディングで自動ラベリングを行い、1次ラベルファイルを生成する。音響特徴変数の一例としてメル周波数ケプストラム係数(Mel Frequency Cepstral Coefficients、以下MFCCと略称する)が挙げられる。このMFCCは、HMM音素分割に用いられるものであって、望ましくは総計4つの連続したフレームに対するMFCCを入力変数として用いる。1フレームに対して総計13個のMFCCが計算されるので神経網に入力される変数は総計52個となる。
最適区画の分類神経網構成部13は音響特徴変数及び付加変数を入力変数とし、手動ラベルファイルから生成されるL個の音素組み合わせ各々に対して最小誤差を有する神経網を探索してL個の音素組み合わせをユーザが設定した神経網の数Kに該当する区画に分割し、各区画別に再学習された多層パーセプトロン構造のK個の最適区画の分類神経網を構成する。ここで、付加変数は短区間ゼロ交差率(Short-Term Zero Crossing Rate、以下ST-ZCRと略称する)、スペクトル特徴変数変化率(Spectral Feature Transition Rate、以下SFTRと略称する)、対称Kullback-leibler距離(Symmetrical Kullback-Leibler Distance、以下SKLDと略称する)などを含む。
各変数についてさらに詳細に説明すると次の通りである。
ST-ZCRは任意区間内で音声信号の符号がどの程度変化するかを定量的に示す値である。そして、ST-ZCRは、有声音が無声音に対して有意に区分されるヒストグラムを有するため、有声音/無声音に該当する音素が相互に隣接する場合において音素の分割に有効な変数である。ST-ZCRは、変動成分の少ない有声音の区間では比較的に小さい値を有し、白色雑音のような成分を多く含む無声音の区間では大きな値を有する。
SFTRは経時的に変化するスペクトルの軌跡を1次関数として表現した場合、各スペクトルの特徴変数に対する1次関数傾度のユークリッド距離を示す。
すなわち、SFTRは任意時間でスペクトルの特徴変数がどの程度急に、あるいは徐々に変化するかを示す変数であって、スペクトルが安定した値を有する音素の中央部分では地域極小値を有し、遷移区間では比較的に大きな値を有する。したがって、SFTRは音素ラベリングの場合に音素の遷移区間や安定区間の表示因子として用いられる。
SKLDは大きいエネルギーを有する部分のスペクトル差をさらに強調する特性を有する。このため、SKLDを音声信号に適用した場合、ホルマント(formant)のように文脈と話者に関する重要な情報がある部分を適宜強調することにより、スペクトル距離を求めるものである。
一方、最適区画の分類神経網構成部13で多層パーセプトロン構造の神経網を用いると非線形分割が可能となる。この非線形分割特性により、入出力間の関係が非線形セルにより表現されれば、対応規則を適切にモデリングできる利点がある。なお、多層パーセプトロン構造では反復校正により加重値が求められる。この反復校正は、出力ノードに該当する最上位ノードの誤差を下方の神経網に伝播させる、逆伝播アルゴリズムにより実行される。
音素境界修正部15は最適区画の分類神経網構成部13から提供される最適区画分類結果及び最適区画の分類神経網集合を用いて、ラベリング部11から提供される1次ラベルファイルの音素境界を修正し、修正結果を反映した最終ラベルファイルを生成する。すなわち、音素境界修正のために、最適区画の分類神経網構成部13で学習が完了されて構成された最適区画の分類神経網を用いて、学習時と同じ入力変数を神経網に加えて出力が1か、0かによって音素境界を判定する。
図2は図1における最適区画の分類神経網構成部13の細部的な構成を示すブロック図であって、訓練コーパス21、最小誤差分類部22、再訓練部23及び神経網集合24よりなる。図2に示すように、訓練コーパス21は音響特徴変数及び付加変数を含む入力変数と手動ラベルファイルとを保存する。
最小誤差分類部22は、まず訓練コーパス21に保存された入力変数と手動ラベルファイルとから得られる音素境界を用いて左右音素の名称よりなるL個の音素組み合わせを生成する。次いで、入力変数を含む学習データをK個に分割し、分割された学習データから得られる多層パーセプトロン構造のK個の神経網集合24から、L個の音素組み合わせ各々に対して最小誤差を有する最適の神経網を探索し、L個の音素組み合わせを同じ神経網に分類されたK個の音素組み合わせグループに分類する。
再訓練部23は最小誤差分類部22で分類されたK個の音素組み合わせグループ別に、所定の反復回数だけK個の神経網に対して該当する学習データで学習して各神経網の加重値を更新し、更新された加重値を神経網集合24で該当する神経網に適用して全体誤差を収斂させる。
図3は図1における最適区画の分類神経網構成部13の動作を説明するためのフローチャートであって、初期化段階(ステップ31)、分類段階(ステップ32)、併合段階(ステップ33)、神経網訓練及び更新段階(ステップ34)、収斂確認段階(ステップ35)及び最適区画の分類神経網構成段階(ステップ36)よりなる。
そして、図2に示された最適区画の分類神経網構成部13の動作を図3のフローチャートと結び付けて説明を続ける。
最適区画の分類神経網構成部13では与えられた学習データで最適なK個の複数神経網を構成する。このために、まず初期複数神経網を構成し、学習データに対して分類と学習とが反復的に行われて全体誤差を漸進的に減らす。
ここで、複数神経網を表現する方法を説明すると次の通りである。1つの隠匿階層を有する神経網で、n番目のフレームとn+1番目のフレームとが相互隣接する場合、入力パラメータxi(n)に対する出力y(n)は次の次式のように与えられる。
Figure 2004264856
ここで、vjは隠匿階層と出力階層間の神経網加重値、wijは入力階層から隠匿階層への加重値を各々示す。Ni、Noは各々入力階層におけるノード数と隠匿階層におけるノード数とを示し、f(・)はシグモイド関数を示す。
一方、出力ノードでの誤差e(n)は次式のように示される。
Figure 2004264856
ここで、yd(n)は目標出力値としてn番目のフレームとn+1番目のフレーム間に音素境界が存在する場合には'1'、そうでない場合には'0'の値を有する。
一方、Φ = [v1,…, vNo, w11,…, wNi No]を神経網が構成される全ての加重値の集合で定義し、X(n) = [x1(n),…, xNi(n)]で定義すると、数1式は次式のように示される。
Figure 2004264856
ここで、入力ベクトルX(n)には図4に示されるように(n-1)番目、n番目、(n+1)番目、(n+2)番目のフレームに該当するMFCC係数と、n番目のフレームと(n+1)番目のフレーム間に計算されたSFTR、SKLDと、n番目のフレームと(n+1)番目のフレームで計算されたST-ZCRとが含まれる。
一方、神経網の加重値更新値ΔΦは次式のように示すことができる。
Figure 2004264856
ここで、ηは学習利得(0<η<1)を示す。
複数個の神経網が用いられる場合、これら神経網が含まれた集合をCと定義すると、最適の神経網集合C*=[Φ1,Φ2,...,Φk]は次式のように示すことができる全ての音素境界での全体誤差の和Dを最小化させることができる。
Figure 2004264856
ここで、Mは全体音素境界の数を示し、Wmはm番目の音素境界での境界領域を示し、次式のように示すことができる。
Figure 2004264856
ここで、tmはm番目の音素境界の位置と最も近いフレームインデックスを示す。
数5式で定義される全体誤差の和を最小化させる神経網を構成するために、神経網の入力ベクトルをあらかじめ区画別に分割して分類及び再学習過程を分割された区画別に行う。以上の処理フローは図3においてステップ31からステップ36より実現される。
図3に示すように、ステップ31は初期化段階であって、神経網学習のための学習データ、第1及び第2スレショルド値ε1及びε2を設定し、初期神経網集合をあらかじめ準備する。反復回数インデックスiは0に、初期誤差の和D0(C0)は無限大に設定し、手動ラベリングにより得られた音素境界の位置値を準備する。
なお、ここで学習データ、初期神経網集合、音素境界の位置値はそれぞれ次式のように示される
Figure 2004264856
初期神経網集合の構成は、乱数を用いてK個の神経網を構成させたり、学習データをK個のグループに任意分割し、分割された各区画に対して逆伝播アルゴリズムに基づく学習により得る方法で構成させたりすることが可能である。この学習データに含まれる全ての入力変数は図6に示されるようにNp個の音素組み合わせのうち何れか1つに割り当てられる。例えば、n番目の入力データX(n)がj番目の音素組み合わせに該当するならば、X(n)∈Pjと表現される。同様に、全ての音素境界に対しても音素組み合わせが割り当てられる。すなわち、Pc(m)=jのように表現できるが、Pc(m)はm番目の音素境界に対する音素組み合わせインデックスであり、1≦j≦Np、1≦n≦N、1≦m≦Mである。
ステップ32は分類段階であって、初期神経網集合から各音素組み合わせに対して最小誤差を有する最適の神経網を探す。j番目の音素組み合わせPjに対するi番目の反復での最適の神経網インデックスci(Pj)は次式のように表現することができる。
Figure 2004264856
ここで、Wmは次式のように、m番目の音素境界に含まれる入力変数が選択される区間を示す。
Figure 2004264856
ここで、tmはm番目の音素境界の位置と最も近いフレームインデックスを示す。
数8式に示すように、k番目の神経網に対する全体誤差は、音素組み合わせPjに含まれるあらゆる学習データをk番目の神経網に入力させた場合に得られる出力と目標出力との間の二乗誤差和で与えられることが分かる。
ステップ33は併合段階であって、ステップ32の分類過程を通じてあらゆる音素組み合わせが最適の神経網に分類されれば、この際、同じ神経網に分類された音素組み合わせを併合させて新しい区画に分類する。k番目の区画はk番目の神経網が最適の神経網として選択されたあらゆる音素組み合わせを含み、次式のように示すことができる。ここで、次式はi番目の反復でk番目の区画を示すものであって、区画に含まれたあらゆる音素組み合わせで構成された集合を示す。
Figure 2004264856
さらにこの前式は、学習データに含まれた入力変数で示す場合、次式のように表現することができる。
Figure 2004264856
次に、新しい区画に対する全体誤差は次式のように示すことができる。
Figure 2004264856
ここで、iは反復回数インデックスを示し、Siはi番目の反復での区画を示し、次式のように示すことができる。
Figure 2004264856
ステップ34は個別神経網の更新段階であって、ステップ32とステップ33との分類-併合により生成された区画によって区画別に神経網を学習する。この際、k番目の神経網に対する加重値更新値は次式のように示すことができる。
Figure 2004264856
この数14式から、全体学習データのうち同じ神経網として分類されたデータだけで該当する神経網を更新することが分かる。個別の神経網の更新は数14式で得られる更新値を変更させることによって反復的に行われる。すなわち、数14式を通じて得られた更新された神経網パラメータを用いて再び誤差を計算し、この誤差によって神経網パラメータを更新する過程を反復する。更新の終了時点はK個のあらゆる神経網が収斂する瞬間である。収斂性は誤差の変化率が第1スレショルド値ε1より小さいか否かを通じて判断される。このような過程を通じて最終的に更新された神経網で新たに、次式で表わされる神経網集合が構成される。
Figure 2004264856
ステップ35は収斂確認段階で、数12式により実現される処理であって、現在反復回数で求めた全体誤差の和が、以前の反復回数で求めた全体誤差の和に比較してどの程度の変化したかを確認する。もし、次式で与えられる全体誤差和の変化率が第2スレショルド値ε2より小さければ、学習を終了させ、そうでなければiを1だけ増加させて前記ステップ32からステップ35を繰り返して行う。
Figure 2004264856
ステップ36ではステップ35で収斂性が確認された場合、この時に得られた神経網集合24を最適区画の分類神経網組み合わせで構成する。
前記したようなステップ31からステップ36によって分類、併合及び再訓練過程が反復的に行われて全体誤差の和が収斂されれば、ステップ33で得られる音素組み合わせ区画結果とステップ36で得られる最適区画の分類神経網とを音素境界修正部15で音素境界修正のために用いることになる。
前記方法によれば、i番目の反復後に生成された数15式で示される神経網集合についてステップ32及びステップ33の最小誤差分類を適用した後の誤差はDi+1(Ci)(Di(Ci)を満たす。すなわち、与えられた神経網集合に対してNp個の音素組み合わせが最適の区画に分割される。ステップ34の過程は分割された各区画に対して最小誤差を有する最適の神経網が再学習される。したがって、ステップ34の過程を経た後、全体誤差の和はDi+1(Diを満たす。
ステップ34以後に得られる神経網が最小誤差面で最適の神経網を保証できない場合、反復回数が増加しても全体誤差の和が漸進的に減少しなくなって無限の反復が起こる。これを防止するためにステップ34で学習利得ηを小さな値に設定し、収斂性調査のための第1スレショルド値ε1を比較的小さな値に設定して十分な反復を通じて神経網を更新させる。
図4は、図2に示された神経網において入力変数と出力値との関係を示したものであって、入力変数としては(n-1)、(n)、(n+1)、(n+2)番目のフレームに該当するMFCC係数と、(n)、(n+1)番目のフレームで計算されたST-ZCR、SFTR、SKLDを含み、出力値は音素Aと音素Bとの境界に該当する部分には1、そうでない部分には0を設定し、音素境界から左右1フレームだけ離れた部分には0.5を設定する。すなわち、神経網出力値の急な変動を抑制するために(n-1)番目のフレームとn番目のフレーム間の目標出力値を0.5に設定し、n番目のフレームと(n+1)番目のフレームとの間の目標出力値も0.5に設定する。
図5は、図1に示された音素境界修正部15において音素境界修正領域を説明するための図面である。図5に示すように、HMMを用いて自動ラベリングされた音素の境界51付近で音素の位置を修正するために、修正領域53は左右音素の持続時間を所定間隔に分割した分だけを左右に移動しつつ計算される神経網の出力のうち、1に近い値を有する位置を新たな音素境界と指定する。ここで、望ましくは、修正領域は左右音素の持続時間を3等分し、HMMを用いて自動ラベリングされた音素の境界付近で左右に1/3分割した長さに設定する。
図6は、図1に示された最適区画の分類神経網構成部13において神経網の入力変数を分割する方法を説明する図であって、参照符号61、62、63は手動ラベリングによる音素境界を示す。図6に示すように、あらゆる入力変数はラベリングされた音素名称によって該当する音素組み合わせが割り当てられ、割り当てられる音素組み合わせは入力変数の位置で最も近い音素境界を探し、この境界で連結される2つの音素名に決定される。例えば、領域nに最も近い音素境界は中央に位置した音素境界61として音素B及び音素Cに連結される。したがって、領域nに含まれるあらゆるMLP特徴ベクトルはB+Cの音素組み合わせを有する。このように入力変数に対する音素組み合わせは音素境界により決定される。
このような方法で入力変数を分割する場合、全体区画数は使われた音素数の2乗で与えられる。例えば、54個の基本音素が使われた場合54×54=2516個の区画に入力ベクトルを分割することになる。これは可能な最大区画の数であり、文脈的に意味のある組み合わせはほぼ1000個余りの区画に区分することができる。1000個余りの区画のうち幾つかの区画を相互併合させ、既定の個別神経網の数だけ新たな区画を生成する。この際、個別神経網の数Kは音素組み合わせによる区画の数Lと同じか、または小さい値に設定することが望ましい。
図7は、図3において神経網学習及び更新段階(ステップ34)を図式的に示したものであって、MLP構造のK個の神経網よりなる初期神経網集合71を準備し、MLP探索部72では可能なあらゆる音素組み合わせ73に対して初期神経網集合71から最小誤差を有するMLPインデックスを探索する。分類部74ではMLP探索部73であらゆる音素組み合わせに対して最小誤差を有するMLPインデックスが探索されれば、この際、同じMLPインデックスが探索された音素組み合わせを併合させてK個の新しい区画75に分類する。
各区画に該当する学習データは該当するMLP構造の神経網76を再訓練させて加重値を更新する。個別神経網の再訓練過程は更新された加重値を用いて誤差を計算し、誤差の変化率が第1スレショルド値ε1より小さくなるまで再訓練を反復する。一方、現在反復回数で求めた全体誤差の和が以前の反復回数で求めた誤差の和と比較して全体誤差和の変化率が第2スレショルド値ε2より小さくなるまで全体的な過程、すなわちステップ32からステップ35を繰り返して行う。
一方、例えば図7の新たな区画75のうち第1区画に対して音素組み合わせ[G+e、n+o、d+a、m+o]が含まれ、音素境界修正時に1次ラベルファイルの現在の左右の音素名がdとaである場合、音素境界修正部15での音素境界修正時には第1神経網が選択される。
このような方法は、音素組み合わせの区画分割が言語学的な知識とは全然関係なく行われ、全体誤差を最小化する観点でのみなされるので、最終的に分類された音素組み合わせは最小誤差面で最適の音素組み合わせ分類を保障する。
次いで、本発明に係る学習過程で区画分割を行う最適音素区画分類方法の性能を評価する。性能評価のために約476,924個の入力ベクトル-出力データが使われ、全体神経網の数は29個に設定し、構成された神経網は1つの隠匿階層を有し、隠匿階層におけるノード数は15個に設定した。シグモイド関数のβ値は2.0、学習時の学習利得η値は0.5に設定した。逆伝播アルゴリズム時の収斂性調査のための誤差比率のスレショルド値は0.001、無限ループを防止するための反復回数は最大300に制限した。入力ベクトルは4個の13次MFCC、SKLD、SFTR、ST-ZCRなどを含み、MFCCの分析時にフレーム長さ及びフレーム間隔は各々25msec、10msecに設定した。
次の表1は前記したような実験環境でHMMのみを用いて音素境界を推定する場合(従来の技術1)、HMMで得られた音素境界を単一神経網を用いて修正する場合(従来の技術2)、及び言語学的知識に基づいた音素群組み合わせ別に神経網を用いた場合(従来の技術3)、最適区画分類された神経網を用いた場合(本発明)に対する性能比較を示したものである。
Figure 2004264856
この表1より、RMSE(Root Mean Square Error)、MAE(Mean Absolute Error)面で従来の技術3と本発明のように複数個の神経網を用いる場合、従来の技術1及び2に比べて顕著な性能向上を示すことが分かる。特に、あらかじめ分割された音素群の組み合わせを用いる従来の技術3の場合に比べて学習過程で最適区画に分割された神経網を用いる本発明の場合にさらに優秀な性能向上があるということが立証された。また、本発明では20msec以内の百分率累積誤差面において20msec以内の境界誤差を発生させる音素が95%を超えることによって、自動ラベリングの実用性をさらに向上させることが立証された。
図8は、本発明に係る最適区画の分類神経網の学習時の学習データに対する全体誤差を反復回数別に示したものであって、全体誤差は単一神経網を用いた場合と同様に最小誤差地点で収斂する傾向を示す。全体反復回数のうち初期の1〜5回部分でほとんど収斂されることが分かるが、これは初期神経網が学習データから由来したことに起因し、ランダム値を用いた初期化時にはこれより多くの反復回数により収斂される。
図9は、音素群組み合わせ別の神経網(従来の技術3)と本発明による最適の区画分類神経網との百分率累積誤差を比較したものであって、本発明により性能が向上したことを示している。特に、ラベル誤謬修正の指標としている「0msec以内の誤差を有する音素が95%を占める場合」が観察されることが分かる。
また、本発明はコンピュータが可読な記録媒体(コンピュータ可読記録媒体)に、コンピュータが可読なコードとして記録して具現化することができる。このコンピュータ可読記録媒体はコンピュータシステムによって読み取られるデータが保存されるあらゆる種類の記録媒体を含む。コンピュータが読み取られる記録媒体の例としては、ROM、RAM、CD-ROM、磁気テープ、フロッピーディスク、光データ貯蔵装置などがあり、またキャリアウェーブ(例えば、インターネットを介した伝送)の形で具現されることも含む。
またコンピュータ可読記録媒体はネットワークで連結されたコンピュータシステムに分散され、分散方式でコンピュータ可読コードが保存されて実行される。そして、本発明を具現するための機能的なプログラム、コード及びコードセグメントは本発明が属する技術分野のプログラマーにより容易に推論することができる。
以上、図面及び明細書で最適の実施形態を一例として開示した。ここで、使用された特定の用語は、単に本発明を説明するための目的で使われたものに過ぎず、意味限定や特許請求の範囲上に記載された本発明の範囲を制限するものではない。したがって、当業者は、本実施形態に基づいてより多様な変形及び均等の範囲に含まれる他の実施形態を想起することが可能である。したがって、本発明の真の技術的保護範囲は特許請求の範囲において示される技術的思想により定められるべきである。
音素境界を多層パーセプトロン構造の最適区画の分類神経網に基づいて修正することによって迅速かつ正確に自動ラベリングが行われるので、ラベリングされた後段、即ち音声認識過程、音声合成過程、話者認識過程の認識性能を向上させることに適用することが可能である。
本発明の一実施形態に係る自動ラベリング装置の構成を示すブロック図である。 図1における最適区画分割神経網構成部の細部的な構成を示すブロック図である。 図1における最適区画分割神経網構成部の動作を説明するフローチャートである。 神経網の入力変数と出力値との関係を説明する図面である。 音素境界修正領域を説明する図面である。 図3における音素組み合わせに係る分類過程を説明する図面である。 図3における音素情報を用いた最適区画分割神経網学習過程を説明するフローチャートである。 本発明に係る最適区画分割神経網の学習時に学習データに対する全体誤差を反復回数別に示すグラフである。 音素群組み合わせ別の神経網と本発明による最適区画分割神経網との百分率累積誤差を比較したグラフである。
符号の説明
11 ラベリング部
13 最適区画の分類神経網構成部
15 音素境界修正部

Claims (13)

  1. (a)左右音素の名称よりなるL個の音素組み合わせを手動ラベリングにより得られた音素境界を用いて獲得する段階と、
    (b)入力変数を含む学習データから多層パーセプトロン構造のK個の神経網集合を生成する段階と、
    (c)前記神経網集合から前記L個の音素組み合わせ各々に対し最小誤差を有する神経網を探索し、前記L個の音素組み合わせを同じ神経網で探索されたK個の音素組み合わせグループに分類する段階と、
    (d)前記(c)段階で分類されたK個の音素組み合わせグループ別に、前記K個の神経網に対して該当する学習データに学習して加重値を各神経網の個別誤差が収斂するまでに更新する段階と、
    (e)前記(d)段階で個別誤差が収斂されたK個の神経網の全体誤差の和が収斂するまで前記個別誤差が収斂されたK個の神経網に対して前記(c)から(e)段階を反復実行し、全体誤差の和が収斂する時点で得られるK個の神経網を最適区画の分類神経網集合で構成する段階と、を含む最適区画の分類神経網の構成方法。
  2. 前記神経網の出力値は音素の境界に該当する部分には1、そうでない部分には0を設定し、音素境界から左右に1フレームだけ離れた部分には0.5を設定する請求項1に記載の最適区画の分類神経網の構成方法。
  3. 手動ラベルファイルに対して自動ラベリングを行って生成された1次ラベルファイルの音素境界を修正するための自動ラベリング方法において、
    (a)初期に生成されるか、更新されたK個の神経網集合からL個の音素組み合わせ各々に対して最小誤差を有する神経網を探索し、同じ神経網で探索されたK個の音素組み合わせグループ別に前記K個の神経網を学習して加重値を更新し、個別誤差が収斂されたK個の神経網の全体誤差の和が収斂する時点で得られるK個の神経網を最適区画の分類神経網集合で構成する段階と、
    (b)前記(a)段階で提供される音素組み合わせグループ分類結果及び最適区画の分類神経網集合を用いて前記1次ラベルファイルの音素境界を修正し、修正の結果を反映した最終ラベルファイルを生成する段階と、を含む最適区画の分類神経網を用いた自動ラベリング方法。
  4. 前記神経網の出力値は音素の境界に該当する部分には1、そうでない部分には0を設定し、音素境界から左右に1フレームだけ離れた部分には0.5を設定する請求項3に記載の最適区画の分類神経網を用いた自動ラベリング方法。
  5. 前記(b)段階での音素境界修正領域は前記音素組み合わせの左右音素の持続時間のうち所定領域に設定することを特徴とする請求項3に記載の最適区画の分類神経網を用いた自動ラベリング方法。
  6. 前記所定領域は前記左右音素の持続時間を各々3等分し、前記1次ラベルファイルの各音素境界付近で左右に1/3分割した長さに設定することを特徴とする請求項5に記載の最適区画の分類神経網を用いた自動ラベリング方法。
  7. 手動ラベルファイルに対して自動ラベリングを行って1次ラベルファイルを生成するラベリング部と、
    初期に生成または更新されたK個の神経網集合からL個の音素組み合わせ各々に対して最小誤差を有する神経網を探索し、同じ神経網で探索されたK個の音素組み合わせグループ別に前記K個の神経網を学習して加重値を更新し、個別誤差が収斂されたK個の神経網の全体誤差の和が収斂する時点で得られるK個の神経網を最適区画の分類神経網集合で構成する最適区画の分類神経網構成部と、
    前記最適区画の分類神経網構成部から提供される音素組み合わせ分類結果及び最適区画の分類神経網集合を用いて前記1次ラベルファイルの音素境界を修正し、修正の結果を反映した最終ラベルファイルを生成する音素境界修正部と、を含む最適区画の分類神経網を用いた自動ラベリング装置。
  8. 前記最適区画の分類神経網構成部は、
    音響特徴変数及び付加変数を含む入力変数及び手動ラベルファイルを保存する訓練コーパスと、
    前記訓練コーパスに保存された入力変数及び手動ラベルファイルから得られる音素境界を用いて左右音素の名称よりなるL個の音素組み合わせを生成し、初期に生成または更新されたK個の神経網集合から前記L個の音素組み合わせ各々に対して最小誤差を有する神経網を探索し、前記L個の音素組み合わせを同じ神経網で探索されたK個の音素組み合わせグループに分類する最小誤差分類部と、
    前記最小誤差分類部で分類されたK個の音素組み合わせグループ別に前記K個の神経網に対して該当する学習データで学習して加重値を各神経網の個別誤差が収斂するまで更新し、個別誤差が収斂されたK個の神経網の全体誤差の和が収斂されるべく再訓練させる再訓練部と、を含む請求項7に記載の最適区画の分類神経網を用いた自動ラベリング装置。
  9. 前記神経網の出力値は音素の境界に該当する部分には1、そうでない部分には0を設定し、音素境界から左右に1だけ離れた部分には0.5を設定する請求項7に記載の最適区画の分類神経網を用いた自動ラベリング装置。
  10. 前記音素境界修正部の音素境界修正領域は前記左右音素の持続時間のうち所定領域に設定することを特徴とする請求項7に記載の最適区画の分類神経網を用いた自動ラベリング装置。
  11. 前記所定領域は前記左右音素の持続時間を各々3等分し、前記1次ラベルファイルの各音素境界付近で左右に1/3分割した長さに設定することを特徴とする請求項10に記載の最適区画の分類神経網を用いた自動ラベリング装置。
  12. 請求項1に記載の方法を実行するためのプログラムを記録したコンピュータ可読記録媒体。
  13. 請求項3に記載の方法を実行するためのプログラムを記録したコンピュータ可読記録媒体。
JP2004056726A 2003-02-28 2004-03-01 最適区画の分類神経網の構成方法、最適区画の分類神経網を用いた自動ラベリング方法、並びに装置 Expired - Fee Related JP4545456B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2003-0012700A KR100486735B1 (ko) 2003-02-28 2003-02-28 최적구획 분류신경망 구성방법과 최적구획 분류신경망을이용한 자동 레이블링방법 및 장치

Publications (2)

Publication Number Publication Date
JP2004264856A true JP2004264856A (ja) 2004-09-24
JP4545456B2 JP4545456B2 (ja) 2010-09-15

Family

ID=32768619

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004056726A Expired - Fee Related JP4545456B2 (ja) 2003-02-28 2004-03-01 最適区画の分類神経網の構成方法、最適区画の分類神経網を用いた自動ラベリング方法、並びに装置

Country Status (5)

Country Link
US (1) US7444282B2 (ja)
EP (1) EP1453037B1 (ja)
JP (1) JP4545456B2 (ja)
KR (1) KR100486735B1 (ja)
DE (1) DE602004027566D1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011242497A (ja) * 2010-05-17 2011-12-01 Nippon Telegr & Teleph Corp <Ntt> 音声データ区分方法、音声データ区分装置、及びプログラム

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7088872B1 (en) * 2002-02-14 2006-08-08 Cogent Systems, Inc. Method and apparatus for two dimensional image processing
US7266497B2 (en) * 2002-03-29 2007-09-04 At&T Corp. Automatic segmentation in speech synthesis
US8321427B2 (en) 2002-10-31 2012-11-27 Promptu Systems Corporation Method and apparatus for generation and augmentation of search terms from external and internal sources
US7616788B2 (en) * 2004-11-12 2009-11-10 Cogent Systems, Inc. System and method for fast biometric pattern matching
US8131477B2 (en) 2005-11-16 2012-03-06 3M Cogent, Inc. Method and device for image-based biological data quantification
KR100744288B1 (ko) * 2005-12-28 2007-07-30 삼성전자주식회사 음성 신호에서 음소를 분절하는 방법 및 그 시스템
KR100908121B1 (ko) * 2006-12-15 2009-07-16 삼성전자주식회사 음성 특징 벡터 변환 방법 및 장치
US8275179B2 (en) * 2007-05-01 2012-09-25 3M Cogent, Inc. Apparatus for capturing a high quality image of a moist finger
TWI319563B (en) * 2007-05-31 2010-01-11 Cyberon Corp Method and module for improving personal speech recognition capability
US8504361B2 (en) * 2008-02-07 2013-08-06 Nec Laboratories America, Inc. Deep neural networks and methods for using same
US20100014755A1 (en) * 2008-07-21 2010-01-21 Charles Lee Wilson System and method for grid-based image segmentation and matching
EP2221805B1 (en) 2009-02-20 2014-06-25 Nuance Communications, Inc. Method for automated training of a plurality of artificial neural networks
US8412525B2 (en) * 2009-04-30 2013-04-02 Microsoft Corporation Noise robust speech classifier ensemble
EP2851895A3 (en) 2011-06-30 2015-05-06 Google, Inc. Speech recognition using variable-length context
WO2013008384A1 (ja) * 2011-07-11 2013-01-17 日本電気株式会社 音声合成装置、音声合成方法および音声合成プログラム
US10453479B2 (en) * 2011-09-23 2019-10-22 Lessac Technologies, Inc. Methods for aligning expressive speech utterances with text and systems therefor
US9536517B2 (en) 2011-11-18 2017-01-03 At&T Intellectual Property I, L.P. System and method for crowd-sourced data labeling
US9235799B2 (en) * 2011-11-26 2016-01-12 Microsoft Technology Licensing, Llc Discriminative pretraining of deep neural networks
US8700552B2 (en) 2011-11-28 2014-04-15 Microsoft Corporation Exploiting sparseness in training deep neural networks
US8527276B1 (en) * 2012-10-25 2013-09-03 Google Inc. Speech synthesis using deep neural networks
US9336771B2 (en) * 2012-11-01 2016-05-10 Google Inc. Speech recognition using non-parametric models
US9477925B2 (en) 2012-11-20 2016-10-25 Microsoft Technology Licensing, Llc Deep neural networks training for speech and pattern recognition
US10311865B2 (en) * 2013-10-14 2019-06-04 The Penn State Research Foundation System and method for automated speech recognition
US9858922B2 (en) 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
US9547471B2 (en) * 2014-07-03 2017-01-17 Microsoft Technology Licensing, Llc Generating computer responses to social conversational inputs
BR112017003893A8 (pt) 2014-09-12 2017-12-26 Microsoft Corp Rede dnn aluno aprendiz via distribuição de saída
US9299347B1 (en) 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
US9659578B2 (en) * 2014-11-27 2017-05-23 Tata Consultancy Services Ltd. Computer implemented system and method for identifying significant speech frames within speech signals
US10460720B2 (en) 2015-01-03 2019-10-29 Microsoft Technology Licensing, Llc. Generation of language understanding systems and methods
CN105046323B (zh) * 2015-04-29 2017-03-22 西北大学 一种正则化rbf网络多标签分类方法
US11062228B2 (en) 2015-07-06 2021-07-13 Microsoft Technoiogy Licensing, LLC Transfer learning techniques for disparate label sets
GB2543542A (en) * 2015-10-21 2017-04-26 Ford Global Tech Llc A method of controlling a motor vehicle entertainment system
EP3267438B1 (en) * 2016-07-05 2020-11-25 Nxp B.V. Speaker authentication with artificial neural networks
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
US10657424B2 (en) * 2016-12-07 2020-05-19 Samsung Electronics Co., Ltd. Target detection method and apparatus
US10019668B1 (en) 2017-05-19 2018-07-10 Google Llc Scheduling neural network processing
US11321604B2 (en) 2017-06-21 2022-05-03 Arm Ltd. Systems and devices for compressing neural network parameters
US11275996B2 (en) * 2017-06-21 2022-03-15 Arm Ltd. Systems and devices for formatting neural network parameters
US10885900B2 (en) 2017-08-11 2021-01-05 Microsoft Technology Licensing, Llc Domain adaptation in speech recognition via teacher-student learning
KR102098461B1 (ko) * 2018-02-23 2020-04-07 창원대학교 산학협력단 퍼지 범주 표현을 이용한 확률 레이블 부착 알고리즘을 사용한 분류 방법
US11157816B2 (en) * 2018-10-17 2021-10-26 Capital One Services, Llc Systems and methods for selecting and generating log parsers using neural networks
CN109817198B (zh) * 2019-03-06 2021-03-02 广州多益网络股份有限公司 语音合成方法、装置及存储介质
CN113380238A (zh) * 2021-06-09 2021-09-10 阿波罗智联(北京)科技有限公司 处理音频信号的方法、模型训练方法、装置、设备和介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0398098A (ja) * 1989-09-11 1991-04-23 A T R Jido Honyaku Denwa Kenkyusho:Kk 音声認識装置
JPH03201161A (ja) * 1989-12-28 1991-09-03 Sharp Corp 音声認識装置
JPH0494000A (ja) * 1990-08-07 1992-03-26 Sharp Corp 音声認識装置
JPH06167993A (ja) * 1992-10-02 1994-06-14 Mitsubishi Electric Corp 音声認識の境界推定方法及び音声認識装置
JPH1152992A (ja) * 1997-07-31 1999-02-26 Seiko Epson Corp 音声認識用ニューラルネットワークの学習方法
JP2001250101A (ja) * 2000-03-07 2001-09-14 Yamatake Corp データ領域の解析方法及び表現方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5285522A (en) * 1987-12-03 1994-02-08 The Trustees Of The University Of Pennsylvania Neural networks for acoustical pattern recognition
US5621857A (en) * 1991-12-20 1997-04-15 Oregon Graduate Institute Of Science And Technology Method and system for identifying and recognizing speech
JPH05188998A (ja) * 1992-01-17 1993-07-30 Meidensha Corp 音声認識方法
US5621858A (en) * 1992-05-26 1997-04-15 Ricoh Corporation Neural network acoustic and visual speech recognition system training method and apparatus
US5461696A (en) * 1992-10-28 1995-10-24 Motorola, Inc. Decision directed adaptive neural network
JPH06348291A (ja) * 1993-06-10 1994-12-22 Nippondenso Co Ltd 単語音声認識方法
DE69427083T2 (de) * 1993-07-13 2001-12-06 Theodore Austin Bordeaux Spracherkennungssystem für mehrere sprachen
WO1995030193A1 (en) * 1994-04-28 1995-11-09 Motorola Inc. A method and apparatus for converting text into audible signals using a neural network
US5509103A (en) * 1994-06-03 1996-04-16 Motorola, Inc. Method of training neural networks used for speech recognition
US5790754A (en) * 1994-10-21 1998-08-04 Sensory Circuits, Inc. Speech recognition apparatus for consumer electronic applications
US5638487A (en) * 1994-12-30 1997-06-10 Purespeech, Inc. Automatic speech recognition
US5749066A (en) * 1995-04-24 1998-05-05 Ericsson Messaging Systems Inc. Method and apparatus for developing a neural network for phoneme recognition
KR0173923B1 (ko) * 1995-12-22 1999-04-01 양승택 다층구조 신경망을 이용한 음소 분할 방법
US5737716A (en) * 1995-12-26 1998-04-07 Motorola Method and apparatus for encoding speech using neural network technology for speech classification
JPH09319395A (ja) * 1996-03-26 1997-12-12 Meidensha Corp 離散単語音声認識システムにおける音声データ学習装置
JP2974621B2 (ja) * 1996-09-19 1999-11-10 株式会社エイ・ティ・アール音声翻訳通信研究所 音声認識用単語辞書作成装置及び連続音声認識装置
KR100277694B1 (ko) * 1998-11-11 2001-01-15 정선종 음성인식시스템에서의 발음사전 자동생성 방법
US6947890B1 (en) * 1999-05-28 2005-09-20 Tetsuro Kitazoe Acoustic speech recognition method and system using stereo vision neural networks with competition and cooperation
KR100346790B1 (ko) * 1999-06-23 2002-08-01 한국전자통신연구원 음소분할 후처리 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0398098A (ja) * 1989-09-11 1991-04-23 A T R Jido Honyaku Denwa Kenkyusho:Kk 音声認識装置
JPH03201161A (ja) * 1989-12-28 1991-09-03 Sharp Corp 音声認識装置
JPH0494000A (ja) * 1990-08-07 1992-03-26 Sharp Corp 音声認識装置
JPH06167993A (ja) * 1992-10-02 1994-06-14 Mitsubishi Electric Corp 音声認識の境界推定方法及び音声認識装置
JPH1152992A (ja) * 1997-07-31 1999-02-26 Seiko Epson Corp 音声認識用ニューラルネットワークの学習方法
JP2001250101A (ja) * 2000-03-07 2001-09-14 Yamatake Corp データ領域の解析方法及び表現方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高木英行他: ""ニューラルネットを用いた音韻セグメンテーション"", 日本音響学会昭和63年度秋季講演論文集−I−, vol. 2-P-7, JPN6010008844, October 1988 (1988-10-01), pages 215 - 216, ISSN: 0001630580 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011242497A (ja) * 2010-05-17 2011-12-01 Nippon Telegr & Teleph Corp <Ntt> 音声データ区分方法、音声データ区分装置、及びプログラム

Also Published As

Publication number Publication date
JP4545456B2 (ja) 2010-09-15
US7444282B2 (en) 2008-10-28
EP1453037A3 (en) 2006-05-17
KR20040077227A (ko) 2004-09-04
US20040172238A1 (en) 2004-09-02
EP1453037A2 (en) 2004-09-01
EP1453037B1 (en) 2010-06-09
KR100486735B1 (ko) 2005-05-03
DE602004027566D1 (de) 2010-07-22

Similar Documents

Publication Publication Date Title
JP4545456B2 (ja) 最適区画の分類神経網の構成方法、最適区画の分類神経網を用いた自動ラベリング方法、並びに装置
US8321222B2 (en) Synthesis by generation and concatenation of multi-form segments
US20200211529A1 (en) Systems and methods for multi-style speech synthesis
US20230043916A1 (en) Text-to-speech processing using input voice characteristic data
JP5768093B2 (ja) 音声処理システム
US10529314B2 (en) Speech synthesizer, and speech synthesis method and computer program product utilizing multiple-acoustic feature parameters selection
JP5038995B2 (ja) 声質変換装置及び方法、音声合成装置及び方法
US10140972B2 (en) Text to speech processing system and method, and an acoustic model training system and method
US8010362B2 (en) Voice conversion using interpolated speech unit start and end-time conversion rule matrices and spectral compensation on its spectral parameter vector
US8571871B1 (en) Methods and systems for adaptation of synthetic speech in an environment
US11763797B2 (en) Text-to-speech (TTS) processing
Chen et al. Polyglot speech synthesis based on cross-lingual frame selection using auditory and articulatory features
Rashmi et al. Hidden Markov Model for speech recognition system—a pilot study and a naive approach for speech-to-text model
JP3281281B2 (ja) 音声合成方法及び装置
JPH0895592A (ja) パターン認識方法
Mohanty et al. Double ended speech enabled system in Indian travel & tourism industry
Park et al. Automatic speech synthesis unit generation with MLP based postprocessor against auto-segmented phoneme errors
Obin et al. Exploiting alternatives for text-to-speech synthesis: From machine to human
CN115798452A (zh) 一种端到端语音拼接合成方法
Olinsky et al. Iterative English accent adaptation in a speech synthesis system
Beringer Rule-based categorial analysis of unprompted speech–A cross-language study
Chen et al. MIMIC: a voice-adaptive phonetic-tree speech synthesiser.
Lyudovik et al. Application of Large Speech Databases for Speech Synthesis in Artificial Intelligence Systems
Liu et al. Partial Change Phone Models for Pronunciation Variations in Spontaneous Mandarin Speech
Dutoit et al. Synthesis Strategies

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20061107

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20061113

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100223

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100601

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100630

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130709

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees