JPH11272291A - 音響判断ツリ―を用いたフォネティック・モデル化方法 - Google Patents

音響判断ツリ―を用いたフォネティック・モデル化方法

Info

Publication number
JPH11272291A
JPH11272291A JP11026384A JP2638499A JPH11272291A JP H11272291 A JPH11272291 A JP H11272291A JP 11026384 A JP11026384 A JP 11026384A JP 2638499 A JP2638499 A JP 2638499A JP H11272291 A JPH11272291 A JP H11272291A
Authority
JP
Japan
Prior art keywords
model
clustering
phonetic
learning
triphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11026384A
Other languages
English (en)
Inventor
Fun Kao Yuu
− フン カオ ユー
Kazuhiro Kondo
和弘 近藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Texas Instruments Inc
Original Assignee
Texas Instruments Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Texas Instruments Inc filed Critical Texas Instruments Inc
Publication of JPH11272291A publication Critical patent/JPH11272291A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/022Demisyllables, biphones or triphones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

(57)【要約】 【課題】 音響判断ツリーを用いたフォネティック・モ
デル化を提供する。 【解決手段】 フォネティック・モデル化は、フォネテ
ィック・データから三音素の文法を作成するステップ1
1と、三音素モデルを学習するステップ13と、音響的
に近い三音素をクラスタリングするステップ14と、ク
ラスタリングされていない三音素の文法をクラスタリン
グされたモデルにマッピングするステップ16とを備え
る。このクラスタリングプロセスは、音響的尤度に基づ
く判断ツリーを使用し、ユーザーが定義できる単位でサ
ブモデルクラスターを可能にする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声のフォネティ
ック(表音)・モデル化に関し、より詳細には、音響判
断ツリーを用いたフォネティック・モデル化に関する。
【0002】
【従来の技術】1つの言語には極めて少数の音素がある
が、音声認識用にはこれら少数の音素をモデル化するだ
けでは十分でない。調音結合効果(coarticulation eff
ect)は、異なるコンテキスト内で同じ音素を音響的に
実現することを極めて困難にしている。例えば、英語は
約40〜50種類の音素を有するが、スペイン語は20
種類よりも若干多い数の音素しか有していない。すべて
の調音結合効果をカバーするのに、英語において50種
類のフォネティック・モデルだけを学習するだけでは十
分でない。この理由から、音声認識のためにコンテキス
ト依存型モデルが検討されている。コンテキスト依存型
フォネティック・モデル化は、現在では、フォネティッ
ク・コンテキストによって生じる1つの音素の音響内で
見られる変化をモデル化するための標準的な実際的方法
となっている。しかしながら、即時コンテキストだけを
検討した場合、学習すべきモデルは503=125,0
00個となる。この多数のモデルは、最初にフォネティ
ック・モデルを使用しようとする動機を失わせてしまう
ものである。幸運なことに、大きな音響的差を生じさせ
るようなコンテキストもあれば、そうでないコンテキス
トもある。したがって、モデルの数を低減するだけでな
く学習の耐性(robustness)を高めるようフォネティッ
ク・モデルをクラスタ(cluster)することができる。
【0003】
【発明が解決しようとする課題】フォネティック・モデ
ルをどのようにクラスタするかを解決する技術は、多数
のボキャブラリー音声認識をするための音声学会におい
てコアとなる研究分野の1つである。クラスタリング・
アルゴリズムは次の3つの目標を達成する必要がある。
1)ほとんどのクラスタリングを達成しながら高い音響
分解能を維持すること。2)すべてのクラスタされたユ
ニットが利用可能な音声データにより良好に学習できる
ものであること。3)クラスタされたモデルで判らない
コンテキストを予測できること。音韻論学的規則(phon
ological rules)を用いた判断ツリー・クラスタリング
によって上記目的を達成できることが判っている。例え
ば、D.B.ポール氏著,「音素状態判断ツリー・クラス
タリングへの拡張:単一ツリーおよびタグ付けされたク
ラスタリング」,ICASSP97議事録,ドイツ,ミ
ュンヘン,1997年4月を参照されたい。
【0004】これまで、出願人はフューチャー・フォン
(Feature Phones)にて、調音上の素性におけるコンテ
キストを定め、判断ツリーを用いた音素レベルでのコン
テキストをクラスタするフォネティック・コンテキスト
・クラスタリング方法についてレポートした。Y.H.カ
オ氏ら著,「ボキャブラリー独立型電話音声認識に向け
て」,ICASSP1994年,第1巻,117〜12
0ページ、およびK.コンドウ氏ら著,「日本語を連続
的に読み取るためのクラスタリングされた位相間または
ワード・コンテキスト依存型モデル」,日本音響学会
報,第16巻,第5号,299〜310ページ,199
5年を参照されたい。これら論文は、学習データが少な
いが、かなり多数の学習データを活用するには過度に限
定されている場合に、効率的なクラスタリング方法とな
ることが証明されている。
【0005】
【課題を解決するための手段】本発明の一実施形態によ
れば、フォネティック・モデル化方法は、基本フォーム
単音素モデルを学習するステップと、各中心音素に対す
るシードとして単音素と共に学習コーパス内に存在する
すべての三音素モデルを学習するステップと、ルート・
ノードを2つの後続ノードに分割するステップと、すべ
てのリーフで分割手順を繰り返すステップと、各クラス
ターに対するシード・モデルを得るようにツリーのリー
フをクラスター化するすなわちクラスター内のモデルを
平均化するステップとにより、判断ツリー・アルゴリズ
ムを音響レベルに適用する。
【0006】
【実施の形態】図1を参照すると、音声開発ステーショ
ン10が示されており、この開発ステーションは、パソ
コン(PC)を備えたワークステーションとすることが
できる。このPCは、プロセッサと、ディスプレイと、
キーボード10b,マウス10b,マイク,CD−RO
Mドライブ,サーバーおよびディスクドライブなどの入
力装置とを含む。入力装置は、音声データとプロセス・
ステップを実行するためのソフトウェアとを含む。従う
べきソフトウェア・ステップによって実行されるプロセ
スは、フォネティック・モデルを発生する。このモデル
2は、マイク(MIC)から入力される音声を認識する
ように、図2に示されるようなプロセッサ23およびコ
ンパレータ23を含む音声認識装置23で使用される。
音声素性は数個の例により下記のように分類される。
【0007】
【表1】
【0008】図3を参照すると、本発明の一実施形態に
より採用されるステップを示すフローチャートが示され
ている。第1のステップ11は、すべてのアクセントを
カバーするように多数の話者からの音声データを収集す
るステップである。好ましい実施形態では、いくつかの
コーパス(corpora)を組み合わせる。これらコーパス
は、電話チャンネル・コーパス,ボイス・アクロス・ア
メリカ(VAA)、マクロフォンおよびフォンブック
(Phonebook)のためのものである。VAAコーパス
は、数字,コマンドおよびTIMITセンテンスを有す
る。TIMITとは、センテンスの組をデザインしたテ
キサスインスツルメンツ社およびMIT(マサチューセ
ッツ工科大学)を意味する。これらセンテンスの組は、
フォネティック上、バランスのとれたセンテンスであ
る。これは、1988年から1992年の間にテキサス
インスツルメンツ社によって収集されたものである。T
IMITのセンテンスは5,222種類の発話(uttera
nce)を有する。マクロフォン・コーパスは、数字,氏
名およびフォネティック・センテンスを有する。これら
のセンテンスは、TIMIT,ATIS(エア・トラベ
ル・インフォメーション・システム)およびWSJ(ウ
ォール・ストリート・ジャーナル)から得たものであ
る。このマクロフォン・コーパスは、1994年前後に
おいてスタンフォード・リサーチ・インスティテュート
(SRI)で収集されたものであり、LDC(言語デー
タ・コンソーシアム)を通して入手できる。学習セット
におけるフォネティック・センテンスが使用される。現
在では、22,617種類の発話がある。フォンブック
は単一の単語(ワード)発話を有する。ここには、フォ
ネティック上バランスがとられるように設計された約
8,000種類の異なるワードがある。これはNYNE
Xで収集されたものであり、LDCを通して入手でき
る。学習セットにおけるすべての発話が使用される。現
在では、77,710種類の発話が収集されている。総
計105,549種類の発話がある。これらはすべて、
電話回線を通して収集されたものである。組み合わされ
たコーパスのボキャブラリー・サイズは、男性では1
5,314であり、女性では16,049となっている。
ワード内の三音素(3つの音素の組)のカウントは2
9,039である。マイクロフォン回線コーパスに対し
ては、リソース・マネージメント(学習セットにある
4,200種類の発話)、TIMIT(13,696種類
の発話)および学習セットにおける26,733種類の
発話を有するウォール・ストリート・ジャーナル(WS
J)がある。これらコーパスはすべて、LDCを通して
入手できる。総計34,629種類の発話がある。組み
合わされたコーパスのボキャブラリー・サイズは、1
6,165である。ワード内の三音素のカウントは、2
6,714である。
【0009】次のステップ12は三音素の文法を作成す
るステップである。学習は管理された照合によって行わ
れる。管理は2つの方法で行うことができる。管理ワー
ド・ストリングによって案内される、長さが制限された
文法を使用するか、各学習発話のためのセンテンス文法
を作成する。長さが制限された文法は、個々のセンテン
ス文法を作成するよりもかなり短い。しかしながら、そ
れは、特に大きなボキャブラリー作業に対しては、厳し
い計算オーバーヘッドを有する。したがって、我々は各
学習発話に対し個々のセンテンス文法を使用した。サイ
ズは巨大であるが、これを処理するメモリを有している
限り、このほうがより高速である。
【0010】クラスタリングは三音素に基づいているの
で、三音素発音文法を作成しなければならない。これら
の文法は、ワード内三音素である。
【0011】クロスワード三音素は、ワード内三音素と
比較して30%までの誤り率の低減を達成できる。学習
ソフトウェアのみならず認識ソフトウェアも、クロスワ
ード三音素を処理するには広範なアップグレードを必要
とする。
【0012】すべての文法を作成したのちに、単音素モ
デルからすべての三音素モデルをシードする。
【0013】次のステップ13は、対応する三音素文法
内のデータを用いる三音素文法から三音素モデルを学習
するステップである。出願人は音響のみのアップグレー
ドで通常の2回パスを行い、三音素学習のためのHMM
構造で音響および状態遷移確率の双方を3回パスした。
【0014】三音素の多くは学習カウントが少ないの
で、隠れマルコフモデル(HMM)を適性に学習するこ
とはできない。HMMは音響手段よりも多くの学習を必
要とする。例えば、あなたが10個の学習トークンを有
している場合、音響手段はかなり良好に学習されるが、
HMMは極めて悪くなる。HMMは、特に多数の状態遷
移現象がある場合の有限時間モデルに対し、多数の遷移
現象を喪失することとなる。
【0015】本願出願人は三音素のHMMを組み合わせ
ることを提案する。音声認識は音響照合によって主に決
定されることが判っており、フォネティック・モデルの
HMM構造の認識への効果は無視できる。音声モデル化
はかなり多数の音響的混合にある。
【0016】次のステップ14は、三音素音響に基づく
左側/右側の質問を有する判断ツリーによる三音素をク
ラスタリングするステップである。中心音素ごとの各サ
ブモデル・ユニットに対し、すべてのモデルでスタート
する。分割されたコンテキストの質問を行い、所定の基
準に従い最良の分割を与える質問を選択する。ツリーの
ルート・ノードに同じ中心音素を有するすべての三音素
を判断ツリー・アルゴリズムが収集する。分割されたコ
ンテキストの質問は、ルートを2つの後続ノードに分割
するための音韻学的質問である。この後続ノードでは、
図4に示されるように、左側=母音でスタートし、一方
の答えは「yes」となり、他方の答えは「no」とな
る。右側へのパスは「yes」の答えに対するものであ
り、左側へのパスは「no」の答えに対するものであ
る。これは、所望する数のクラスターに到達するまです
べてのリーフ・ノード上で再帰的に行われる。各リーフ
・ノードは多数の可能な三音素から成るクラスターであ
る。各クラスターに対して、1つのモデルが構築され
る。ツリーを構築したのちに、1つのクラスターへトラ
バース・ダウンすることによって任意の三音素(わから
ない三音素を含む。)を分類できる。
【0017】我々のフォネティック・モデルのサイズ
は、単音素の公称長さに基づくものである。例えば、二
重母音/oy/はシュワー(schwa)/ax/のサイズの3倍で
あるので、フォルマントの時間的なパスを適当にモデル
化できる。モデルの左側部分は左側コンテキストによっ
てより影響されるはずであり、モデルの右側は右側コン
テキストによってより影響されるはずである。モデル・
クラスタリング全体は左側/右側の質問のパワーをフル
活用できない。フレキシブルなサブモデル区分化によ
り、サブモデル用の判断ツリーを構築することが可能で
ある。これらの結果は、判断ツリーにおける質問がひど
く片寄っていることを示す。すなわち、左側サブモデル
・ツリーでは左側の質問がより多く選択され、右側のサ
ブモデル・ツリーでは右側の質問がより多く選択され
た。
【0018】スペクトルの一端には、先のパラグラフで
説明したように左側/右側の依存性を活用しない全モデ
ル・クラスタリングがある。スペクトルの他端には、自
己の判断ツリーに各モデル状態を与える状態クラスタリ
ングがある。例えば、二重母音/oy/は9つの状態を有し
ており、このことは状態1,状態2,状態3などに対し
別々に9つの判断ツリーを作成しなければならないこと
を意味している。これによって、判断ツリーは音響推定
ノイズの影響を受け易くなる。クラスタリング用の隣接
状態をグループ化することにより、ツリーをより耐性
(ロバスト)にできる。したがって、出願人は、クラス
タリング・ユニットを任意のサブモデル・ユニット(一
般的には、音素ごとに3ユニット)内に位置させること
ができる。
【0019】我々が全モデル・クラスタリングと約1/
3・サブモデル・クラスタリングとを比較したところ、
1/3・サブモデル・クラスタリングは10%以上の誤
り率の低減を達成できた。判断ツリー分解能と推定耐性
とを最良にバランスさせるのに、任意のグループ化をテ
ストできるという点で、フレキシブル・グループ化は極
めて重要である。
【0020】所定の場合に、フレキシブル・グループ化
を行うことが必要である。例えば、我々の/t/モデルは
閉鎖音と破裂音とによって連接されている。破裂音への
最後の進入および閉鎖音からの初期の脱出に対して、H
MM遷移が設けられている。/t/の一部の実現は、閉鎖
音のみ、一部の破裂音のみ、一部のその双方の組み合わ
せによって行われる。閉鎖音の音響はほとんど低エネル
ギーであるが、破裂音の音響はほとんど高エネルギーで
あり、次の母音のフォルマント構造を捕捉する。/t/の
閉鎖音部分および破裂音部分に対しては、別々の判断ツ
リーが作成される。グループ化は、一般に、音素ごとに
3グループに分けられる。
【0021】次は、ツリー・ファイルの一例である。こ
のファイルは最初に質問のリストを有する。これら質問
は「name」によって定義され、次に一定の式が続
く。例えば、/b/ /d/ /g/ /p/ /t/ /k/は閉鎖音であ
り、質問は一定の式における閉鎖音を特定するだけで定
義される。ツリーは質問「name」のみによって定義
されるので、質問の定義は自己説明的とする必要があ
る。この質問のリストは、あなたが入力したリストと全
く同じである。この質問の後に、すべてのツリーが続
く。ここで、男性の/l/に対するツリーを見ることにす
る。
【0022】
【表2】
【0023】
【表3】
【0024】
【表4】
【0025】これらツリーは、インデントされた小さい
プリントのプリオーダー・リストとして記載されてい
る。リーディングごとに真(TRUE)の分岐と偽(FALS
E)の分岐とが整合される。上記ツリーは男性の単音素/
l/のためのものである。TREE=l_m「3 3」と
は、(フレーム3からフレーム3への)音素l_mフレ
ーム3に対するものであることを意味する。リーフ(L
EAF)ノードはクラスター名を特定している。このク
ラスター名のインデックスは、このクラスター・グルー
プの第1の名前インデックスによって前置されており、
その次に、“1”から始まる逐次番号が付けられてい
る。
【0026】これらのツリー例から、質問は片寄ってい
ることが明らかに理解できよう。フレーム1(左側フレ
ーム)に対しては左側の質問が多く使用され、フレーム
3(右側フレーム)に対しては右側の質問が多く使用さ
れている。総計3つのツリーに対する最初の質問は、
「左側(または、右側)音素が母音であるか否か」とい
う質問である。判断ツリーにおいて質問が初期に問われ
れば問われるほど、その質問はより重要である。あるシ
ラブル内の母音の前に/l/が先行すれば、これは明/l/
であり、/l/があるシラブル内の母音の後に続く場合、
これは暗/l/となる。判断ツリーは、最も重要な質問と
して明/l/と暗/l/を区別するために、正確でかつ最良
の質問をしている。
【0027】ツリー・ノードを分割するための最良の質
問を判別するための2つの基準がテストされた。すなわ
ち、学習カウントに基づくエントロピー減少基準と、音
響ベクトルに基づく尤度改善がテストされた。音響的尤
度のほうが良好に働くことが判った。
【0028】エントロピー減少基準は学習カウントに基
づくものである。ツリー・ノードのエントロピーεは次
のように計算される。
【0029】
【数1】
【0030】ここで、nはツリー・ノードにおける異な
る三音素モデルの数である。Piはノードにおけるモデ
ルiの確率であru.分割後のエントロピー減少量は次
のように定義される。
【0031】
【数2】
【0032】ここで、Np=Ny+Nnであり、これら値
は、(分割前の)親ノードの学習カウントと、(分割後
の)yesノードおよびnoノードの学習カウントとを
示す(yesノードに割り当てられるモデルもあれば、
noノードに割り当てられるモデルもある。)。すべて
の質問はノードを分割するようにし、これらの対応する
エントロピー減少量が計算される。エントロピー減少量
を最大にする質問がノードを分割するように選択され
る。
【0033】エントロピーはノードの純度を示す。例え
ばノード内に1つの三音素しかない場合、エントロピー
はゼロとなる(このことは我々が望んでいることであ
る。)。他方、エントロピーが最大となることは、ノー
ドが種々の異なるコンテキストのある三音素を有するこ
とを意味しており、このことは好ましくない。最大のエ
ントロピー減少量を選択することは、三音素を最良に分
離するために質問を分割すること意味する。分割後にエ
ントロピーが減少することを保証するために、学習カウ
ントによってエントロピー減少量を重み付けることに注
目されたい。
【0034】三音素を最良に分離するように最良の質問
を選択することによって(すなわち、質問の重要性をラ
ンキングすることによって)、エントロピー減少基準に
よりツリーを構築する。まず、より重要な質問を選択す
る。学習カウントによってエントロピーを重み付けして
いるという事実は、最終クラスター・ノードのすべてが
十分な学習カウントを有することをある程度保証もして
いる。
【0035】エントロピー減少基準の問題は、尺度が音
響ベクトルを直接使用しないということである。この基
準は三音素を最良に分離するためのツリーを構築する
が、クラスター・ノード内で三音素がどれだけ接近して
いるかについては知らない。この点が、クラスタリング
(すなわち、音響的に接近している三音素をクラスタリ
ングすること)の主な目的である。
【0036】この目的を達成するために、音響的尤度改
善基準が定められる。音響ベクトルを直接使用すること
によって、クラスター(ツリー・ノード)のコンパクト
性が計算される。
【0037】ツリー・ノードの尤度は次のように計算さ
れる。
【0038】
【数3】
【0039】ここで、nはツリー・ノード内の異なる三
音素モデルの数である。
【外1】 は各三音素ガウス分布の平均値である。
【外2】 は、このツリー・ノードにおけるすべての三音素モデル
のすべてのガウス平均値を平均することから得られるセ
ントロイド・ベクトルである。モデル内のガウス分布の
時間的(フレーム)インデックスは簡潔にするために省
略した。この時間的インデックスは尤度計算の際に維持
しなければならない。例えば、二重母音/oy/はモデル内
で9つの逐次音響ベクトルを有する。上記尤度を計算す
る際のセントロイド
【外3】 も9つのベクトルである。
【外4】
【外5】 との間の距離計算も時間的インデックスを維持する。
(/ao/のような)1番目のベクトルとモデル/oy/の(/i
y/のような)9番目のベクトルとの間の差は大きいの
で、フレーム1とフレーム9との間の距離を計算するこ
とは意味がない。上記式ではばらつきの正規化も省略し
ており、既にベクトルが正規化されている場合にはこれ
を加えなければならない。
【0040】上記尤度の定義は、実際には、ガウス確率
の対数であり、概念的には誤差により類似しているの
で、小さくなればなるほど良好である。より小さいLは
クラスターが極めてコンパクトであることを意味し、こ
のようにコンパクトであることが望ましい。質問はノー
ドを2つのノード(「yes」および「no」)に分離
する。ここで、エラー減少(尤度改善)を次のように定
義する。
【0041】
【数4】
【0042】エントロピー減少基準におけるのと同じよ
うに、上記式は学習カウントによって重み付けできる。
ΔLが任意の分割に対し正となるように、リニア重み付
けによって保証できる。
【0043】
【数5】
【0044】しかしながら、異なる三音素の学習カウン
トの間には大きな差が存在する。学習コーパスはフォネ
ティック上バランスをとるようになっているが、頻度の
高い三音素の学習カウントは頻度の少ない三音素と比較
してかなり大きい。学習カウントによってリニアに重み
付けされる尤度の定義は、数で圧倒するこれら三音素の
組を無視し、頻度の高い三音素を有利にする。頻度の少
ない三音素は保存上の顕著な素性価値を有することがあ
る。したがって、我々は次のような対数の重み付けもテ
ストした。
【0045】
【数6】
【0046】対数の重み付けは、頻度が低く音響的に顕
著な三音素を保存するように、頻度の高い三音素の影響
を減少するようになっている。
【0047】我々は、最良の分割を選択することに関し
て各三音素に同じ投票パワーを与える学習カウントの重
み付けはテストしなかった。この結果は、学習カウント
の重み付けをしないことはよくないが、リニア重み付け
および対数重み付けは同様な性能を与えることが判っ
た。
【0048】尤度改善基準は、エントロピー減少基準と
比較して誤り率を10%よりも多く低減する。
【0049】単一混合によってすべてのADTのクラス
タリングされたモデルを学習したのちに、ガウス混合密
度を加えた。クラスターの数は多数であるので、平均値
を分割し、標準偏差値に比例する乱れを加減することに
より平均値をシーディングすることによって、多数の混
合を増分的に作成するように選択した。
【0050】有声音の時間経過特性はいうまでもなく話
者ごとに大きく異なるので、特に話者依存型音声認識を
するための性能を改善するのに、混合密度関数が知られ
ている。これら混合は、有声音の時間経過特性、すなわ
ち話し方および調音効果以外の様相も潜在的にモデル化
できる。コンテキスト依存型音素を導入することによ
り、我々は調音結合によって生じる多数の様相を正規化
し、よって、混合がモデル化しなければならない様相を
低減しようとしている。同じことが性に依存したモデル
化についても当てはまる。
【0051】すべてのコンテキストが異なる方法で様相
を導入するわけではないので、同じモードを有すると考
えるコンテキストを1つのクラスターにクラスタリング
する。このクラスタリングは、基本的には、ADTクラ
スタリングで行われているものである。明らかにこのこ
とは単純化であり、同じコンテキストでもコンテキスト
以外の条件によって生じた様相はいうまでもなく、かな
りの程度の様相を示すこともある。所定の音素に対する
コンテキストをモデル化するのに割り当てられているク
ラスターが少なすぎる場合、クラスター内の様相は増加
する。混合密度関数を導入することにより、我々はコン
テキストのクラスタリングによる正規化の後に残されて
いるこれら様相をモデル化しようとしている。
【0052】混合密度関数は自由パラメータの数を増加
するので、これらのパラメータを学習するのに必要な学
習量も確実に増加する。必要な学習データを管理可能な
量内に維持するのに、特にフォネティック・モデルによ
る完全な共分散計量学の代わりに混合密度と共に一般に
対角線共分散計量学が使用される。稀な音素の組み合わ
せは、混合密度関数を確実に学習するのに十分な学習の
場を有することはできない。同様な組み合わせにより、
これら稀な音素の組み合わせをクラスタリングすること
によって、この問題を潜在的に緩和することができる。
【0053】したがって、これらの機構を使った様相の
モデル化は、利用できる学習データ量と、モデル/状態
ごとに導入される混合密度の数と、我々が各音素コンテ
キストをクラスタリングする程度との間で常に行われる
激しい戦いである。学習データのために、我々は利用で
きるものすべてを利用する。これについては後に説明す
る。したがって、これは固定された変数となる。我々
は、最適な運用ポイントに達するように、クラスターと
混合密度の数との組み合わせを変えて実験を行った。
【0054】我々は話者依存型システムにターゲットを
向けているので、我々は話者の特徴だけでなく入力装
置,周辺ノイズおよびチャンネル特性の種々の条件を仮
定しなければならない。(話者を除く)これらすべての
変動値は、低速の平均偏差値としておおまかに近似でき
る。したがって、我々は、この平均値を推定し、入力か
らこれらを減算することにより性能を改善できることを
期待できる。このことは、音声認識を改善できるだけで
なく、学習も改善できる。学習データは多数の条件から
プールされるので、これらデータを正規化することによ
り学習モデルの音響をシャープにすることができる。
【0055】入力の平均値を推定するには多数の方法が
ある。しかしながら、この推定値をリアルタイムで得る
には、我々は、全発声が入力されるまで待つのではな
く、入力音声が到達する際に推定値を計算する必要があ
る。したがって、我々はこの平均値を累積的に計算す
る。まず平均値の初期推定値、一般には全学習コーパス
にわたる平均値からスタートする。この平均値は入力音
声フレームごとに累積された平均値で更新される。この
平均値は学習中および認識中の双方において入力音声か
ら減算される。
【0056】調音結合効果をフルにモデル化するには、
我々は、ワード内のコンテキストを別個にモデル化する
だけでなく、ワード間のコンテキストも別個にモデル化
する必要がある。しかしながら、この方法はワード内係
数のようにストレート・フォワードな方法ではない。ワ
ード間コンテキストをモデル化するには、2つの問題が
ある。
【0057】第1に、話者はワードの間にポーズ(休止
区間)を置く可能性がある。ポーズも1つのコンテキス
トであるので、ワードが一般に調音結合効果の点で異な
る際には、ポーズを置くことなくワードが連続的に読ま
れる場合と別個に、これらワードをモデル化しなければ
ならない。
【0058】通常、学習中はコーパスによって提供され
るトランスクリプションに従って音素のシーケンスを管
理する。このシーケンスはワード間コンテキストを含
む。しかしながら、ワード間のポーズを明示的にトラン
スクライブした学習コーパスは極めて少ない。したがっ
て、ポーズを自動的に検出し、検出した結果に従ってコ
ンテキストを管理する必要がある。次の文法例はこのこ
とを行うものである。
【0059】
【表5】
【0060】上記表は、センテンス「one two」
に対するフォネティック・シーケンスを管理するための
文法例である。ここで、「_silence」は無音モ
デルであり、「x_y_z」は音素xおよび音素zを左
側および右側フォネティック・コンテキストとしてそれ
ぞれ有する音素yに対するフォネティック・モデルであ
る。「bbb」コンテキストは無音コンテキストを意味
する。「one(w,ah,n)」と「two(t uw)」に
対する音素シーケンスとの間で、文法は無音のためのワ
ード間コンテキストを強制する、無音部を通過するパス
および直接的なワード間フォネティック・コンテキスト
を強制する、無音部のない直接パスの双方を可能にす
る。理想的には、実際にワード間にポーズがある場合に
は第1のパスを選択し、ポーズがない場合には第2のパ
スを選択すれば、認識装置は十分正確となる。我々は、
主格ポーズを満たす妥当な自動パス選択により、この文
法がかなり良好に働くことを発見した。
【0061】この音声認識は学習のようにストレート・
フォワードとすることはできない。学習と異なり、任意
のワードでは前後に多数のワードが位置することがあ
る。このことは、ワードの開始点および終了点の双方で
多数のワード間コンテキストが必要となることを意味し
ている。したがって、先行するコンテキストに従って適
当な文法を選択する機構が必要である。このことは組み
込むにはつまらない機能とはならない。しかしながら、
大きなボキャブラリーの音声認識で一般に使用されるワ
ードのn‐gramは、ワード間コンテキストと共に良
好に働く。n‐gramは過去のn個の仮説によりワー
ドの仮説を区別するので、n個のワードの各履歴に対す
る正確なワード間コンテキストにより、音素に対するワ
ードを作成できる。
【0062】我々が受ける第2の問題は、ワード間コン
テキストをモデル化するのに必要なコンテキスト依存型
フォネティック・モデルの数が大幅に増加することであ
る。テキサスインスツルメンツ社はワード間コンテキス
ト依存型フォネティック・モデルを使用して日本語の数
字のストリングをモデル化するのに、ワード間コンテキ
ストを無視した際に必要なモデルと比較して、必要な三
音素モデルの数が5倍増加することを発見した。「日本
語を連続的に読むためのクラスター化された位相間また
はワードコンテキスト依存型モデル」を題名とする近藤
ら著の論文,日本音響学会報(E),第16巻,第5
号、299〜310ページ,1995年を参照された
い。英語については、ホワンらが、997ワードのDA
RPAリソース・マネージメント作業に対してモデルの
増加量が3倍となることを報告した。「連続音声認識に
おけるワードの間の調音結合のモデル化」を題名とする
ユーロ・スピーチ,1989年,5〜8ページのホワン
らの論文を参照されたい。
【0063】英語は他の主要な言語よりも多いストレス
の違いを利用している。ストレス音はより大きいエネル
ギーで発音されるので、これらストレス音はより大きく
聞こえる。ストレスは音声の韻律的素性の1つであり、
これら素性は、互いに独立しておらず、相関性が大き
い。ストレスがかけられたことは、時間が長くなり、そ
れらのピッチも高まる傾向がある。したがって、ストレ
スのある音響的特徴はストレスのない音と異なる。よっ
て、これらの差を正規化するための別個のモデルによ
り、ストレスのある音とストレスのない音とをモデル化
するには意味がある。
【0064】ストレスは、個々の音素ではなくシラブル
全体を生じさせると見なされる。しかしながら、我々
は、次の理由から、別個のストレスのあるモデルとスト
レスのないモデルにより母音だけをモデル化することを
選択した。
【0065】・ストレスにより母音のほうが子音よりも
大きく影響を受けると見なすことができる。 ・子音よりも母音の方が一般に発生頻度が高いので、稀
な子音の少なくとも一部のためではなく、母音のための
学習データを分割することができる。
【0066】我々は、母音に対する2つのレベルのスト
レス、すなわち第1のストレスと第2のストレスとを使
用した。ストレスを使用してコンテキストを定義しなか
った。すなわち、フォネティック・コンテキストに対し
てストレスのある母音とストレスのない母音とを区別し
なかった。これらはいずれも、学習データを過度に分割
することを避けるためのものであった。
【0067】フレームをクラスタリングした後の次のス
テップ16は、クラスター化されていない三音素の文法
をクラスタリングされたモデルにマッピングするステッ
プである。
【0068】以上の説明に関して更に以下の項を開示す
る。 (1)フォネティック・データから三音素文法を作成す
るステップと、三音素モデルを学習するステップと、音
響的に近い三音素をクラスタリングするステップと、ク
ラスタリングされていない三音素文法をクラスタリング
されたモデルにマッピングするステップと、を備えた、
フォネティック・モデル化の方法。 (2)前記三音素のクラスタリングを音響判断ツリー分
析によって行う、第1項記載の方法。 (3)前記クラスタリング・ステップが、クラスター・
サイズのフレキシブルなサブモデル・グループ化を行
う、第1項記載の方法。 (4)前記サブモデル・グループ化が、音素の存在する
音素のクラスに基づいて行われる、第3項記載の方法。 (5)前記クラスタリング基準が尤度改善基準である、
第2項記載の方法。 (6)音素当たりの前記クラスター・サイズが音素のエ
ントロピーに基づく、第1項記載の方法。 (7)音素クラスをクラスターに分割することが音響的
尤度に基づいて行われる、第1項記載の方法。 (8)前記クラスタリングが、質問における当該クラス
ターのエントロピーによる音響的尤度計算の重みに基い
て行われる、第1項記載の方法。 (9)前記判断ツリー質問がパターン照合として一定の
式を使用する、第2項記載の方法。
【0069】(10)音声を受信するためのマイクロフ
ォンと、音響的に近い三音素をクラスタリングするため
のクラスタリングされたモデルと、前記マイクロフォン
および前記クラスタリングされたモデルとに結合され
た、前記受信された音声に応答して到来音声と前記クラ
スタリングされたモデルとを比較して比較があるときに
所定の出力を発生するプロセッサと、を備えた音声認識
システム。 (11)音響的に近い三音素をクラスタリングすること
が音響判断ツリー分析によるクラスタリングによって行
われる、第10項記載の認識システム。
【0070】(12)フォネティック・モデル化は、フ
ォネティック・データから三音素の文法を作成するステ
ップ11と、三音素モデルを学習するステップ13と、
音響的に近い三音素をクラスタリングするステップ14
と、クラスタリングされていない三音素の文法をクラス
タリングされたモデルにマッピングするステップ16と
を備える。このクラスタリングプロセスは、音響的尤度
に基づく判断ツリーを使用し、ユーザーが定義できる単
位でサブモデルクラスターを可能にする。
【図面の簡単な説明】
【図1】音声開発ステーションの略図である。
【図2】音声認識装置のブロック図である。
【図3】本発明の一実施形態に係わる方法のフローチャ
ートである。
【図4】本発明に係わる判断ツリーである。
【符号の説明】
10 音声開発ステーション 10b 入力装置 23 音声認識装置

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 フォネティック・データから三音素文法
    を作成するステップと、 三音素モデルを学習するステップと、 音響的に近い三音素をクラスタリングするステップと、 クラスタリングされていない三音素文法をクラスタリン
    グされたモデルにマッピングするステップと、 を備えた、フォネティック・モデル化の方法。
  2. 【請求項2】音声を受信するためのマイクロフォンと、 音響的に近い三音素をクラスタリングするためのクラス
    タリングされたモデルと、 前記マイクロフォンおよび前記クラスタリングされたモ
    デルとに結合された、前記受信された音声に応答して到
    来音声と前記クラスタリングされたモデルとを比較して
    比較があるときに所定の出力を発生するプロセッサと、 を備えた音声認識システム。
JP11026384A 1998-02-03 1999-02-03 音響判断ツリ―を用いたフォネティック・モデル化方法 Pending JPH11272291A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US7351698P 1998-02-03 1998-02-03
US073516 1998-02-03

Publications (1)

Publication Number Publication Date
JPH11272291A true JPH11272291A (ja) 1999-10-08

Family

ID=22114155

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11026384A Pending JPH11272291A (ja) 1998-02-03 1999-02-03 音響判断ツリ―を用いたフォネティック・モデル化方法

Country Status (2)

Country Link
US (1) US6317712B1 (ja)
JP (1) JPH11272291A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006126730A (ja) * 2004-11-01 2006-05-18 Advanced Telecommunication Research Institute International 音素単位セットを最適化する方法及びシステム

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6928404B1 (en) * 1999-03-17 2005-08-09 International Business Machines Corporation System and methods for acoustic and language modeling for automatic speech recognition with large vocabularies
US7139708B1 (en) * 1999-03-24 2006-11-21 Sony Corporation System and method for speech recognition using an enhanced phone set
US6684187B1 (en) * 2000-06-30 2004-01-27 At&T Corp. Method and system for preselection of suitable units for concatenative speech
US6505158B1 (en) * 2000-07-05 2003-01-07 At&T Corp. Synthesis-based pre-selection of suitable units for concatenative speech
US6789063B1 (en) * 2000-09-01 2004-09-07 Intel Corporation Acoustic modeling using a two-level decision tree in a speech recognition system
US7587321B2 (en) * 2001-05-08 2009-09-08 Intel Corporation Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (LVCSR) system
US7788096B2 (en) * 2002-09-03 2010-08-31 Microsoft Corporation Method and apparatus for generating decision tree questions for speech processing
US7571097B2 (en) * 2003-03-13 2009-08-04 Microsoft Corporation Method for training of subspace coded gaussian models
TWI264702B (en) * 2004-05-03 2006-10-21 Acer Inc Method for constructing acoustic model
US7912699B1 (en) 2004-08-23 2011-03-22 At&T Intellectual Property Ii, L.P. System and method of lattice-based search for spoken utterance retrieval
US7392187B2 (en) * 2004-09-20 2008-06-24 Educational Testing Service Method and system for the automatic generation of speech features for scoring high entropy speech
US7840404B2 (en) * 2004-09-20 2010-11-23 Educational Testing Service Method and system for using automatic generation of speech features to provide diagnostic feedback
US20060183090A1 (en) * 2005-02-15 2006-08-17 Nollan Theordore G System and method for computerized training of English with a predefined set of syllables
US7805301B2 (en) * 2005-07-01 2010-09-28 Microsoft Corporation Covariance estimation for pattern recognition
US20070260459A1 (en) * 2006-05-04 2007-11-08 Texas Instruments, Incorporated System and method for generating heterogeneously tied gaussian mixture models for automatic speech recognition acoustic models
JP4427530B2 (ja) * 2006-09-21 2010-03-10 株式会社東芝 音声認識装置、プログラムおよび音声認識方法
US20080077407A1 (en) * 2006-09-26 2008-03-27 At&T Corp. Phonetically enriched labeling in unit selection speech synthesis
EP2115732B1 (en) 2007-02-01 2015-03-25 Museami, Inc. Music transcription
US8244534B2 (en) * 2007-08-20 2012-08-14 Microsoft Corporation HMM-based bilingual (Mandarin-English) TTS techniques
JP4405542B2 (ja) * 2007-10-24 2010-01-27 株式会社東芝 音素モデルをクラスタリングする装置、方法およびプログラム
US20090171663A1 (en) * 2008-01-02 2009-07-02 International Business Machines Corporation Reducing a size of a compiled speech recognition grammar
US8494257B2 (en) * 2008-02-13 2013-07-23 Museami, Inc. Music score deconstruction
JP4528839B2 (ja) * 2008-02-29 2010-08-25 株式会社東芝 音素モデルクラスタリング装置、方法及びプログラム
US8775184B2 (en) * 2009-01-16 2014-07-08 International Business Machines Corporation Evaluating spoken skills
EP2339576B1 (en) 2009-12-23 2019-08-07 Google LLC Multi-modal input on an electronic device
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
US8352245B1 (en) * 2010-12-30 2013-01-08 Google Inc. Adjusting language models
US8296142B2 (en) 2011-01-21 2012-10-23 Google Inc. Speech recognition using dock context
US9558738B2 (en) * 2011-03-08 2017-01-31 At&T Intellectual Property I, L.P. System and method for speech recognition modeling for mobile voice search
US9842592B2 (en) 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US9412365B2 (en) 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
US10134394B2 (en) 2015-03-20 2018-11-20 Google Llc Speech recognition using log-linear model
US9978367B2 (en) 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
US10832664B2 (en) 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
US10311860B2 (en) 2017-02-14 2019-06-04 Google Llc Language model biasing system
US10650803B2 (en) * 2017-10-10 2020-05-12 International Business Machines Corporation Mapping between speech signal and transcript
US11869494B2 (en) * 2019-01-10 2024-01-09 International Business Machines Corporation Vowel based generation of phonetically distinguishable words

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5388183A (en) * 1991-09-30 1995-02-07 Kurzwell Applied Intelligence, Inc. Speech recognition providing multiple outputs
US5794197A (en) * 1994-01-21 1998-08-11 Micrsoft Corporation Senone tree representation and evaluation
US5745649A (en) * 1994-07-07 1998-04-28 Nynex Science & Technology Corporation Automated speech recognition using a plurality of different multilayer perception structures to model a plurality of distinct phoneme categories
JP3453456B2 (ja) * 1995-06-19 2003-10-06 キヤノン株式会社 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置
US6006186A (en) * 1997-10-16 1999-12-21 Sony Corporation Method and apparatus for a parameter sharing speech recognition system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006126730A (ja) * 2004-11-01 2006-05-18 Advanced Telecommunication Research Institute International 音素単位セットを最適化する方法及びシステム

Also Published As

Publication number Publication date
US6317712B1 (en) 2001-11-13

Similar Documents

Publication Publication Date Title
JPH11272291A (ja) 音響判断ツリ―を用いたフォネティック・モデル化方法
O'shaughnessy Interacting with computers by voice: automatic speech recognition and synthesis
Lamel et al. High performance speaker-independent phone recognition using CDHMM.
US6912499B1 (en) Method and apparatus for training a multilingual speech model set
US6243680B1 (en) Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
Loizou et al. High-performance alphabet recognition
Rabiner et al. An overview of automatic speech recognition
US20080147404A1 (en) System and methods for accent classification and adaptation
Lamel et al. Cross-lingual experiments with phone recognition
US7181391B1 (en) Method, apparatus, and system for bottom-up tone integration to Chinese continuous speech recognition system
KR20050082253A (ko) 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
JPH09230885A (ja) パターン位置決定方法及び装置
Kubala et al. Comparative experiments on large vocabulary speech recognition
JP4836076B2 (ja) 音声認識システム及びコンピュータプログラム
O'Shaughnessy Automatic speech recognition
Mamyrbayev et al. Continuous speech recognition of kazakh language
Sawant et al. Isolated spoken Marathi words recognition using HMM
Bhatt et al. Monophone-based connected word Hindi speech recognition improvement
Lee et al. Improved acoustic modeling for continuous speech recognition
Padmanabhan et al. Speech recognition performance on a voicemail transcription task
Gauvain et al. The LIMSI Continuous Speech Dictation Systemt
Ursin Triphone clustering in Finnish continuous speech recognition
Liu et al. State-dependent phonetic tied mixtures with pronunciation modeling for spontaneous speech recognition
Shen et al. Automatic selection of phonetically distributed sentence sets for speaker adaptation with application to large vocabulary Mandarin speech recognition
Sakai et al. A probabilistic approach to unit selection for corpus-based speech synthesis.