JP2002062891A

JP2002062891A - 音素割当て方法

Info

Publication number: JP2002062891A
Application number: JP2001247302A
Authority: JP
Inventors: Anne Kienappel; キーンアペルアンネ
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2000-08-16
Filing date: 2001-08-16
Publication date: 2002-02-28
Also published as: EP1182646A2; EP1182646A3; US20020040296A1; DE10040063A1

Abstract

(57)【要約】【課題】ターゲット言語の音素を基礎音素ユニットの
セットの各々の基礎音素ユニットに割り当てる方法を提
供することを課題とする。【解決手段】基礎音素ユニットは、ソース言語の使用
可能な音声データの利用を介して生成された各々の基礎
音素モデルによって表される。方法の第１のステップで
は、少なくとも２つの音声データ制御割当方法（１，
２）がターゲット言語を各々の音素ユニットに割り当て
るのに使用される。第２のステップでは、各々の音素が
同一の基礎音素ユニットに種々の方法の多数によって一
致して割り当てられたかどうかを検出する。かかる場
合、多数により割り当てられた基礎音素ユニットが各々
の音素に割り当てられる。その他の場合、少なくとも１
つの方法により割り当てられた全ての基礎音素ユニット
から、類似度が割り当てられた音素及び基礎音素ユニッ
トの記号発音表示に従って使用されつつ、一の基礎音素
ユニットが選択される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、基礎音素ユニット
のセットに含まれるそれぞれの基礎音素ユニットに、タ
ーゲット言語の音素を割り当てる方法に係り、音素ユニ
ットは、基礎音素モデルによって表され、上記モデル
は、ソース言語の使用可能な音声データに基づいて生成
されている。更に、本発明は、ターゲット言語の音素
と、自動音声認識システムにおいて使用されるべき言語
的モデルのセットと、音響モデルの各々のセットを含む
音声認識システムとに対して音素モデルを生成する方法
に関する。

【０００２】

【従来の技術】音声認識システムは、第１に音声信号
が、スペクトル的に若しくは属性分析ユニットにおいて
時間に依存した態様で、分析されるような方法で、一般
的に作動する。この属性分析ユニットにおいて、音声信
号は、通常的には、複数のセクション、いわゆるフレー
ムに区切られる。これらのフレームはその後、更なる分
析のため適切な形式でコード化され、デジタル化され
る。観測された信号はその後、複数の異なるパラメータ
によって、或いはいわゆる“観測ベクトル”による多次
元パラメータ空間で表されてよい。実際の音声認識、即
ち音声信号の意味論的コンテンツの認識がその後生じ
て、観測ベクトル若しくは観測クベクトルの全体の列に
よって表現された音声信号のセクションが、異なった実
際に考えられる観測の列と比較され、観測ベクトル若し
くは見出された列と最も合致するモデルが選択されるよ
うになる。この目的のため、音声認識システムは、最も
幅広い考えられる信号列のライブラリの種を構成して、
そこから音声認識システムは、各々合致する信号列を選
択することができることとなる。これは、音声認識シス
テムが、音声信号に対して実際に原理的に発生しうる音
響モデルのセットの処分を有することを意味する。これ
は、音素のモデルが、コンテンツ内の各々前の及び／又
は後の音素に依存する、例えば音素のセット、音素様ユ
ニット、ジホン（diphones）若しくはトリホン（tripho
nes）であってよいが、完全な単語も有してよい。これ
は、種々の音響ユニットの混合されたセットであっても
よい。

【０００３】更に、各々の言語に対する発音辞書が必要
であり、また、認識効率を改善するため、連続のモデル
の列が選択されたとき、ある一定の実際的な制約を定義
する種々の単語辞書及び確率的音声モデル並びに各々の
言語の文法ガイドラインが必要である。

【０００４】音響ユニット、即ち観測ベクトルのある一
定の列、を表現する方法は、いわゆる“隠れマルコフモ
デル”（ＨＭモデル）の利用である。これらは、確率的
信号モデルであり、それに対して、信号列が個々の状態
間での遷移確率を備えた種々の状態のいわゆるマルコフ
鎖に基づいている、と想定されている。各々の状態自体
は、検出されることができず（隠れている）、個々の状
態における実際の観測の発生は、各々の状態の関数とし
て確率関数によって表現される。それ故に、観測のある
一定の列に対するモデルは、本質的には、種々の連続状
態の列によって、各々の状態における停止の持続によっ
て、状態間の遷移確率によって、及び各々の状態におけ
る個々の観測の発生確率によって、この概念において表
現されることができる。ある一定の音素に対してモデル
が作成されて、モデルに対する適切な初期パラメータが
まず使用されるようになり、その後、いわゆるトレーニ
ングにおいて、このモデルは、パラメータの変更によっ
てモデル化された各々の言語音素に適合されて、最適な
モデルが見出されるようになる。このトレーニング、即
ち言語の実際の音素へのモデルの適合、のため、各々の
言語の質的に良い適切な数の音声データが必要となる。
適合されるべき正確なパラメータと同様に種々のＭＨモ
デルについての詳細は、本発明について個々的に重要な
役割を果たさないので、ここではこれ以上言及しない。

【０００５】音声認識システムが、残念ながら非常に僅
かの発話資料しか入手できない新たな言語に対して音素
モデル（例えば隠れマルコフモデル）に基づいて訓練さ
れるとき、訓練を支援するため他の言語の発話資料が使
用されてよい。例えば、まずＨＭモデルは、ターゲット
言語と異なるその他のソース言語で訓練されることがで
き、これらのモデルはその後、新たな言語に基礎モデル
として転換され、ターゲット言語の入手可能な音声デー
タを用いてターゲット言語に適合される。その間に、複
数のソース言語に基づく多言語音素ユニットに対するモ
デルの訓練と、これらの多言語音素ユニットのターゲッ
ト言語への適合とが、一のソース言語の単一言語モデル
の使用（T. Schultz及びA. Waibelによる“Language In
dependent and Language Adaptive Large Vocabulary S
peech Recognition”, Proc. ICSLP, ページ数1819乃至
1822, Sidney, Australia 1998）よりも良好な結果を生
むことが証明された。

【０００６】転換に対して、新たなターゲット言語の音
素のソース言語の音素ユニットへの、若しくは多言語音
素ユニットへの割当てであって、各々の音素若しくは音
素ユニットの音響的な類似性を考慮する割当てが必要で
ある。基礎音素ユニットへのターゲット言語の音素を割
り当てる問題点は、基礎音素ユニット自身の定義の問題
点と密接に関係している。というのは、ターゲット言語
への割当てだけでなく、基礎音素ユニット自身の定義も
音響的な類似性に基づいているからである。

【０００７】異なる言語の音素の音響的類似性を評価す
るため、基本的な音声の背景知識が使用されることがで
きる。この目的のため、ターゲット言語の音素の基礎音
素ユニットへの割当ては、この背景知識を基礎として原
理的に可能である。各々の言語の音声の技術的な知見が
必要である。しかし、かかる技術的知見は、相対的にコ
ストがかかるものである。

【０００８】十分な技術的知見の欠如のため、国際的な
発音表記、例えばＩＰＡやＳＡＭＰＡは、ターゲット言
語への音素の割当てに対して拠り所にされることがしば
しばある。この種の割当ては、基礎音素ユニット自身が
国際発音表記記号に不明瞭でなく割り当てられることが
できる場合、不明瞭でないものとなる。上述の多言語音
素ユニットに対して、これは、ソース言語の音素ユニッ
ト自身が発音表記に基づいているときに付与されるだけ
である。ターゲット言語に対する単純且つ信頼性のある
割当て方法を得るため、基礎音素ユニットはそれ故に、
国際発音表記の音素記号を使用しつつ、定義されうるだ
ろう。しかし、これらの音素ユニットは、使用可能な実
際の音声データの統計的モデルによって生成された音素
ユニットよりも、音声認識システムに対して適性度が低
い。

【０００９】しかし、特に多言語基礎音素ユニットに対
して、この多言語基礎音素ユニットはソース言語の音声
データに基づいて生成されているが、発音表記による割
当ては完全に不明瞭というわけではない。かかるユニッ
トの明確な音声学的な識別は、認められない。それ故
に、知識ベースの即座の割当ても、音声学の専門家にと
って非常に困難なものである。

【００１０】原理上、ターゲット言語の音素を基礎音素
モデル及びそれらの統計的モデルに自動的に割当てする
可能性は存在する。かかる音声データが制御された割当
て方法の品質は、モデルに割り当てられるべき音素を有
する言語において充分の音声データがあるという事実に
臨界的に依存する。しかし、これは、ターゲット言語に
も絶対的に付与される事実ではない。それ故に、音声デ
ータが制御された定義を介して生成されたターゲット言
語音素ユニットに対して単純且つ信頼性のある方法がな
い。

【００１１】

【発明が解決しようとする課題】本発明の目的は、知ら
れた技術状態に代替を提供することにあり、任意の基礎
音素ユニットへと同様に、より詳細には音声データが制
御された定義を介して生成された多言語音素ユニットへ
の、ターゲット言語の音素の単純且つ信頼性のある割当
てを可能とする代替を提供することにある。

【００１２】

【課題を解決するための手段】この目的は、請求項１記
載の方法によって達成される。

【００１３】本発明による方法に対して、少なくとも２
つ、可能であればそれ以上の異なる音声データ制御割当
方法が必要となる。それらは、完全に異なる態様でそれ
ぞれ機能する相補的な音声データ制御割当方法であるべ
きである。

【００１４】これらの異なる音声データ制御割当方法を
用いれば、ターゲット言語の各音素は、音素が各々の基
礎音素ユニットに割り当てられるような態様で、操作さ
れる。このステップの後、各音声データ制御方法から使
用可能な一の基礎音素ユニットがあり、そのユニット
は、各々の音素に割り当てられる。これらの基礎音素ユ
ニットは、毎回同一の基礎音素ユニットが音素に割り当
てられるかどうかを検出するため、比較される。音声デ
ータ制御割当方法の多数が一致した結果を生む場合、こ
の割当てが選択される、即ち自動音声データ制御方法に
よって最も多く選択された基礎音素ユニットが音素に割
り当てられる。種々の方法の多数が一致した結果を生ま
ない場合、例えば２つの異なる音声データ制御割当方法
が使用され、これらの２つの割当方法が異なる基礎音素
ユニットを音素に割り当てた場合、割り当てられる音素
の記号発音表示（symbol phonetic description）への
一定の類似性を有し、且つ各々の基礎音素ユニットに対
して最良の適合度である基礎音素ユニットが、種々の割
当てから選択される。

【００１５】本発明による方法の効果は、音声データ資
料の最適な使用を、使用可能な場合（基礎音素ユニット
が定義されたとき、従って特にソース言語の側で）に
は、可能とし、データ資料が十分な信頼度を以って割当
てを決定するのに不充分であるときに、音声の若しくは
言語学的な背景知識を拠り所にするだけであるという事
実である。ここで、信頼度は、種々の音声データ制御割
当方法の結果の適合性である。このように、データ制御
定義方法の効果は、新たな言語への転換において多言語
音素ユニットに対しても使用できる。本発明による方法
の実現は、ＨＭモデル若しくは多言語音素ユニットに限
定されないだけでなく、他のモデルを使用しても有用で
あり、単一の音素若しくは音素ユニットのそれぞれの割
当てに対しても必然的に有用である。以下において、多
言語音素ユニット、例えばＨＭモデルによってそれぞれ
表されたユニットのセットが基礎として使用される。

【００１６】不充分な信頼性の場合の知識ベースの（音
声背景知識に基づく）割当ては、非常に簡易である。と
いうのは、選択が、音声データ制御方法によって予め定
義された非常に限られた可能な解決法からしかなされな
いからである。記号発音表現による類似度は、好ましく
はＳＡＭＰＡ若しくはＩＰＡのような国際発音表記が予
め定義された音素記号又は音素クラスへの各々の音素の
割当てについての情報を含むことは、明らかである。関
連する言語の音素の発音表記における表現だけが、音声
クラスへの発音表記記号の割当てと同様に、ここで必要
とされる。音声データ制御割当方法によって既に選択さ
れた基礎音素ユニットからの選択は、割り当てられるべ
きターゲット言語音素への“正確な”割当ての純粋な音
素記号適合と音素クラス適合とに基づいているが、非常
に簡易な基準に基づいており、言語学的な専門知識を一
切必要としない。それ故に、それは、プログラムを一切
使用しないでコンピュータ上で適切なソフトウェアによ
って実現されてよく、本発明による割当て方法全体は、
効果的に完全且つ自動的に実行されることができるよう
になる。

【００１７】音声データ制御割当て方法に対して以下の
ような種々の可能性がある。

【００１８】即ち、ターゲット言語の個々の音素に対し
て音素モデルが、音声データが使用されている、つまり
モデルがターゲット言語に訓練され使用可能なターゲッ
ト言語の音声資料が使用されている間に、まず作成され
る。作成されたモデルに対して、ソース言語の各々の基
礎音素ユニットの種々の基礎音素モデルに対する各々の
差が計算される。この差のパラメータは、例えば冒頭部
で言及した観測ベクトルの多次元パラメータ空間におけ
る幾何学的距離であってもよい。最小の差のパラメータ
を有する基礎音素ユニットが音素に割り当てられる、つ
まり最も近い基礎音素ユニットが採用される。

【００１９】その他の音声データ制御割当方法を用いる
と、ターゲット言語の使用可能な音声データ材料がま
ず、いわゆる音素スタート及び音素エンド分割化に副分
割される。例えばＳＡＭＰＡやＩＰＡのような定義され
た発音表記の音素モデルの助けにより、音声データは、
個々の音素に分割される。ターゲット言語のこれらの音
素は、割り当てられるべき基礎音素ユニットに基づい
て、或いはそれらの基礎音素モデルに基づいて機能する
音声認識システムに供給される。音声認識システムにお
いては、基礎音素モデルに対する認識値が通常的に決定
されるが、これは、如何なる確率で一定の音素が一定の
基礎音素ユニットとして認識されるかが確立されること
を意味する。その後、各音素へ、最良の認識率を有する
基礎音素モデルを備えた基礎音素ユニットが割り当てら
れる。他言すると、ターゲット言語の音素へ、音声認識
システムが各々のターゲット言語音素の分析中に最も多
く認識した基礎音素ユニットが割り当てられる。

【００２０】本発明による方法は、自動音声認識システ
ムにおいて使用されるべきターゲット言語の音素に対す
る音声モデルの相対的に迅速で良好な作成を可能とし、
本発明によれば、基礎音素ユニットは、ターゲット言語
の音素に割り当てられ、その後、音素は、異なるソース
言語から使用可能な音声データ資料の助けにより生成さ
れていた各々の基礎音素モデルによって表される。各タ
ーゲット言語音素に対して、基礎音素モデルは、開始モ
デルとして使用され、音声データ材料の助けにより最終
的にターゲット言語に適合される。本発明による割当て
方法は、ターゲット言語の音素モデルの生成する方法内
部で下位的方法として実行される。

【００２１】本発明による割当て方法を含む、音素モデ
ルの生成方法全体は、適切に適合されたコンピュータ上
で適切なソフトウェアを用いて効果的に実行されること
ができる。本方法のある一定のサブルーチン、例えば音
声信号の観測ベクトルへの変換が、より高速な処理速度
を得るためハードウェア形式で実現される場合は、ある
程度効果的だろう。

【００２２】このように作成された音素モデルは、例え
ば音声認識システムの使用のため各々のターゲット言語
の発音辞書と共に利用可能である音響モデルのセットに
おいて使用されることができる。音響モデルのセット
は、コンテキスト独立音素モデルのセットであってよ
い。それらは、音素モデルから形成されたジホン、トリ
ホン、若しくは言語モデルであってもよいことは、明ら
かであろう。種々のホンのかかる音響モデルが、通常は
音声に依存していることは、明らかである。

【００２３】本発明は、次に実施例の助けにより図面を
参照してより詳細に説明されるだろう。以下に示される
特質及び既に示された特質は、上記組合せにおいてだけ
でなく、個別的にも若しくは他の組合せにおいても、本
発明にとって重要なものとなることができる。

【００２４】

【発明の実施の形態】第１の実施例に対して、Ｎ個の多
言語（multilingual）音素ユニットのセットが、五個の
言語、フランス語、ドイツ語、イタリア語、ポルトガル
語、及びスペイン語から形成されている。これらの音素
ユニットをソース言語の全体で１８２個の音声依存音素
（音声に依存する音素）から形成するため、音響的に類
似する音素が、結合され、これらの音声依存音素に対し
て、共通のモデル、多言語マルコフモデルが、ソース言
語の音声材料に基づいて訓練されている。

【００２５】ソース言語のどの音素が、共通の多言語音
素ユニットを実際に形成する程類似しているかを検出す
るため、音声データが制御された方法が使用されてい
た。

【００２６】第１に、個々の音声依存音素間の差のパラ
メータＤが決定される。この目的のため、音素ごとにＮ
_ｓ個の状態を有するコンテキスト独立（context-indepe
ndent）ＨＭモデルが、ソース言語の１８２個の音素に
対して形成される。この時、音素の各状態はラプラス確
率密度の混合によって表現される。この時、各密度ｊは
混合重みｗ_ｊを有し、Ｎ_ｆ個の構成要素の平均値と、標
準偏差ベクトル

【００２７】

【外１】とによって表現される。この時、距離パラメータは次の
ように定義される。

【００２８】

【数１】この定義は、幾何学的な距離として理解されても良い。

【００２９】ソース言語の１８２個の音素は、いわゆる
距離パラメータの助けによりグループ化されて、同一の
多言語音素の音素間の平均距離が最小化されるようにな
る。

【００３０】割り当ては、いわゆる上昇型（bottom-u
p）クラスター化アルゴリズムを用いて自動的に実行さ
れる。この時、個々の音素は、クラスターに１個ずつ混
合され、ある一定の打ち切り基準まで、常に単一の音素
が最も近いクラスターに加えられる。ここで、最も近い
クラスターとは、上で定義された平均距離が最小となる
クラスターとして理解される。同様に、複数の音素を既
に含む２つのクラスターが、同じような方法で混合され
ることができることは、明らかである。

【００３１】上で定義された距離パラメータの選択は、
上記方法で生成された多言語音素ユニットが類似性のあ
る音の異なるクラスを示すことを、保証する。なぜな
ら、モデル間の距離は、それらのモデルの音の類似性に
依存するからである。

【００３２】同一の言語に含まれる決して２つでない音
素が、同一の多言語音素ユニットで表現されることを更
なる基準として与えられている。これは、ある一定のソ
ース言語の音素が最も近いクラスターのようなある一定
のクラスターに割り当てられる前に、まずこのクラスタ
ーが各々の言語の音素を既に含んでいるかどうかのテス
トがなされていることを意味する。かかる場合、次のス
テップにおいて、各々の言語の２つの音素の交換がクラ
スター内部のより小さい平均距離をもたらすかどうかの
テストがなされている。その場合だけ、交換が実行され
ており、それ以外の場合には、クラスターは変更されて
いないままである。各々のテストは、２つのクラスター
が混合される前になされている。この追加的な限定条件
は、多言語音素ユニットが、個々の言語の音素も同様で
あるが、言語の２つの単語を区別するために定義の面で
使用されてよいことを保証する。

【００３３】更に、クラスター方法に対する打ち切り基
準が選択されて、離れた音声（phonetic）クラスの音が
同一のクラスター内に表現されないようにする。

【００３４】クラスター方法において、Ｎ個の多言語音
素ユニットの一セットが生成されており、Ｎは１８０
（個々の言語依存音素の数）と５０（ソース言語のうち
の一内にある音素の最大数）との間の値を有してよい。
この実施例においては、Ｎ＝９４である音素ユニットが
生成されており、クラスター方法が打ち切られている。

【００３５】図２は、全体で９４個の多言語基礎音素ユ
ニットのセットのテーブルを示す。このテーブルの左の
コラムは、ソース言語のある一定数の個々の音素から混
合された音素ユニットの数を示す。右のコラムは、個々
の音素（“＋”により結合された）を示し、それらは、
各音素ユニットを形成する基礎音素の各々のグループを
形成する。ここで、個々の言語依存音素は、国際発音表
記ＳＡＭＰＡで各々の言語を示すインデックス（ｆ＝フ
ランス語、ｇ＝ドイツ語、Ｉ＝イタリア語、ｐ＝ポルト
ガル語、ｓ＝スペイン語）を用いて表現される。例えば
図２のテーブルの右側のコラムの最下欄においてわかる
ように、全ての５個の言語のうちの音素ｆ、ｍ、ｓは、
音響的にあまりに類似しているので、それらは、共通の
多言語音素ユニットを形成する。すべてにおいて、セッ
トは、単一の言語依存音素のみによってそれぞれ定義さ
れた３７個の音素ユニットと、２つの個々の言語依存音
素によってそれぞれ定義された３９個の音素ユニット
と、３つの個々の言語依存音素によってそれぞれ定義さ
れた９個の音素ユニットと、４つの個々の言語依存音素
によってそれぞれ定義された５個の音素ユニットと、５
つの個々の言語依存音素によってそれぞれ定義された４
個の音素ユニットとから成る。多言語音素ユニットにお
ける個々の音素の最大数は、決して同一言語の２つの音
素が同一の音素ユニットにおいて表されてはならないと
いう上述の条件を考慮して、関与する言語の数（ここで
は、５個の言語）によって予め定義される。

【００３６】これらの多言語音素ユニットの音声変換の
ために、本発明による方法が、使用され、本発明を用い
て、ターゲット言語の音素（本実施例においては、英語
とデンマーク語）が図２に示すセットの中の多言語音素
ユニットに割り当てられる。

【００３７】本発明による方法は、基礎音素の各々の具
体的セットから独立している。この点で、多言語音素を
形成するための個々の音素のグループ化は、その他の適
切な方法を用いて実行されても良い。より詳細には、そ
の他の適切な距離パラメータ若しくは類似のパラメータ
も、個々の言語依存音素間で各々に使用されてもよい。

【００３８】本発明による方法は、図１に非常に概略的
に示される。示された実施例において、音声データが制
御された２つの厳密に異なる使用可能な割り当て方法が
あり、図１に方法ブロック１，２として示される。音声
データが制御された２つの割り当て方法の第１の方法１
において、ＨＭモデルは、ターゲット言語の音声データ
ＳＤが使用されつつ、ターゲット言語の音素Ｐ_ｋに対し
て生成される（次に、ターゲット言語Ｍは、異なる音素
Ｐ_１乃至Ｐ_Ｍを有すると想定する）。明らかに、それら
は、ターゲット言語の限られた音声データ材料の結果と
して依然として相対的にみなされるモデルである。ター
ゲット言語のこれらのモデルに対して、全ての基礎音素
ユニット（ＰＥ_１，ＰＥ_２，…，ＰＥ_Ｍ）のＨＭ基礎音
素モデルへの距離Ｄが、上述の公式に従って計算され
る。ターゲット言語の各音素Ｐ_Ｋは、ターゲット言語の
音素Ｐ_Ｋの音素モデルへの最小距離を有する基礎音素モ
デルの音素ユニットＰＥ_ｉ（Ｐ_Ｋ）に割り当てられる。

【００３９】２つの方法の第２の方法において、入力さ
れる音声データＳＤは、まず個々の音素に分割される。
このいわゆる音素スタート（phoneme-start）及び音素
エンド（phoneme-end）分割化は、国際発音表記ＳＡＭ
ＰＡに従って定義された多言語音素に対するモデルのセ
ットの助けにより、実行される。ターゲット言語のこの
ようにして得られた分割化音声データは、割り当てられ
る音素ユニット（ＰＥ _１，…，ＰＥ_Ｎ）のセットを基礎
として機能する音声認識システムを通過する。音声認識
システムによって音素Ｐ_Ｋとして最も多く認識された音
素ユニットＰＥ _ｊ（Ｐ_Ｋ）は、その後、分割化から発生
したターゲット言語の個々の音素Ｐ_Ｋに割り当てられ
る。

【００４０】同一の音声データＳＤと音素ユニット（Ｐ
Ｅ_１，…，ＰＥ_Ｎ）の同一セットは、従って、２つの方
法に対して入力として使用される。

【００４１】これらの音声データが制御された２つの割
り当て方法１，２が実行された後、厳密に２つの割り当
てられた音素ユニットＰＥ_ｉ（Ｐ_Ｋ）とＰＥ_ｊ（Ｐ_Ｋ）
が各音素Ｐ_Ｋに対して選択されてよい。音声データが制
御された２つの割り当て方法１，２は、更に同時に実行
されてよいだけでなく、連続的に実行されてもよい。

【００４２】次のステップ３において、２つの割り当て
方法１，２によって割り当てられた音素ユニットＰＥ_ｉ
（Ｐ_Ｋ）、ＰＥ_ｊ（Ｐ_Ｋ）は、その後、ターゲット言語
の各音素に対して比較される。各々の音素Ｐ_Ｋに対して
２つの割り当てられた音素ユニットが同一である場合、
この共通の割り当てが単純に最終割り当て音素ユニット
ＰＥ_Ｚ（Ｐ_Ｋ）であると想定される。その他の場合、次
のステップ４において、選択が、音声データが制御され
た自動割り当て方法を経由して、これらの音素ユニット
ＰＥ_ｉ（Ｐ_Ｋ）、ＰＥ_ｊ（Ｐ_Ｋ）からなされる。

【００４３】ステップ４におけるこの選択は、音声背景
知識に基づいてなされるが、自動的に適用できる比較的
簡易な基準が使用される。特に、選択は、音素ユニット
が厳密に選択される、即ちその音素ユニットの国際発音
表記ＳＡＭＰＡにおける音素記号（phoneme symbol）若
しくは音素クラス（phoneme class）の各々が、ターゲ
ット音素の記号若しくはクラスと各々に一致するよう
に、簡易になされる。かかる目的のため、まずＳＡＭＰ
Ａ記号の音素ユニットが割り当てられる。これは、各々
の音素ユニットが作成される元となるオリジナルの言語
依存音素の記号が復帰されつつ、実行される。更に、タ
ーゲット言語の音素も、国際ＳＡＭＰＡ記号に割り当て
られることになることは、明らかである。しかしなが
ら、これは、全ての音素が、この音素を記号化する記
号、或いは長音記号（length suffix）“：”によって
のみ区別される記号に厳密に割り当てられるような比較
的簡易な方法で、実行されてよい。ＳＡＭＰＡアルファ
ベットの記号に一致しないターゲット言語の個々のユニ
ットのみ、同一の音を有する類似の記号に割り当てられ
ることになる。これは、手動若しくは自動によってされ
てよい。

【００４４】このとき、ターゲット言語のＭ個の考えら
れる音素への音素ユニットの割り当てＰＥ
_Ｚ１（Ｐ_１），ＰＥ_Ｚ２（Ｐ_２），…，ＰＥ
_ＺＭ（Ｐ_Ｍ）の列が、基礎データとして本発明による割
り当て方法を用いて得られる。ここで、Ｚ１，Ｚ２，
…，ＺＭは１乃至Ｎであってよい。このとき、各多言語
基礎音素ユニットは、原理上、ターゲット言語の複数の
音素に割り当てられる。

【００４５】ターゲット言語のそれぞれに対して、ター
ゲット言語音素に対するＭ個のモデルのセットの生成の
ための独自の分離したスタートモデルを得るため、各々
の音素ユニットの基礎音素モデルは、多言語音素ユニッ
トが複数のターゲット音素ユニット（Ｘ＞１）に割り当
てられる場合、Ｘ−１回再生成される。更に、モデル
は、不使用音素ユニットと、不使用音素ユニットに依存
するコンテキストを含む音素ユニットとを除去される。

【００４６】このようにしてターゲット言語に対して得
られた音素モデルの開始セットは、適切な適合技術によ
って適合される。より詳細には、通常的な適合技術、例
えば“Maximum a Posteriori”（MAP）方法（C. H. Lee
及びJ. L. Gauvainによる“Speaker Adaptation Based
on Map Estimation of HMM Parameters” in Proc. ICA
SSP, 1993におけるページ558乃至561参照）、若しくは
“Maximum LikelihoodLinear Regression method”（ML
LR）方法（“Computer Speech and Language”(1995)
9, 171ページ乃至185ページにおけるJ. C. Leggetter及
びP. C. Woodlandによる“Maximum Likelihood Linear
Regression for Speaker Adaptation ofContinuous Den
sity Hidden Markov Models”参照）が、使用されるこ
とができる。他の適合技術も使用されてよいことは明ら
かである。

【００４７】本発明によるかかる方法において、新たな
ターゲット言語に対する非常に良好なモデルは、ターゲ
ット言語で使用可能な音声データが非常に少ない場合で
あっても、作成されることができる。それらのモデル
は、音声認識システムにおいて使用されるべき音響モデ
ルのセットを順に形成するために使用可能である。この
ようにして上述の実施例によりこれまで得られた結果
は、本発明による方法が、音素ユニットの定義及び割り
当てに対する純粋なデータに基づくアプローチと発音表
記に基づくアプローチの双方よりも明らかに優れている
ことを示している。３０人の話者の各発話材料が、ター
ゲット言語においてたった３０秒しか使用できないが、
（ターゲット言語への適合前の）多言語音素ユニットに
対する本発明により生成されたモデルに基づく音声認識
システムは、従来的な方法に比べて言語誤り率を約四分
の一低減することができるだろう。

【図面の簡単な説明】

【図１】本発明による割当て方法の概略的な手順を示す
図である。

【図２】ソース言語であるフランス語、ドイツ語、イタ
リア語、ポルトガル語、及びスペイン語の９４個の多言
語基礎音素ユニットのセットのテーブルを示す図であ
る。

【符号の説明】

１音声データ制御割当方法２音声データ制御割当方法

───────────────────────────────────────────────────── フロントページの続き (71)出願人 590000248 Ｇｒｏｅｎｅｗｏｕｄｓｅｗｅｇ１, 5621 ＢＡＥｉｎｄｈｏｖｅｎ，ＴｈｅＮｅｔｈｅｒｌａｎｄｓ

Claims

【特許請求の範囲】

【請求項１】ターゲット言語の音素を、ソース言語の
使用可能な音声データに基づいて生成された基礎音素モ
デルによって表された基礎音素ユニットのセットの各々
の基礎音素ユニットに、割り当てる方法であって、各々の基礎音素ユニットに上記ターゲット言語の上記音
素を割り当てする、少なくとも２つの異なる音声データ
制御割当方法を実行する実行ステップと、上記各々の音素が、同一の基礎音素ユニットに、上記異
なる音声データ制御割当方法のうちの多数の方法によっ
て、割り当てられたかどうかを、検出する検出ステップ
と、上記音声データ制御割当方法のうちの多数の方法が合致
した割当てを有する限り、上記音声データ制御割当方法
のうちの多数の方法によって割り当てられた上記基礎音
素ユニットを、上記各々の音素に割り当てられた上記基
礎音素ユニットとして選択する第１の選択ステップか、
或いは、その他の場合には、上記異なる音声データ制御割当方法
のうちの少なくとも一の方法によって上記各々の音素に
割り当てられた上記基礎音素ユニットの全てから、基礎
音素ユニットを、類似性パラメータが上記基礎音素ユニ
ットの上記音素の記号発音表示及び割り当てられるべき
上記音素の記号発音表示に従って使用されつつ、選択す
る第２の選択ステップのいずれかの選択ステップとを含
むことを特徴とする、方法。
【請求項２】上記基礎音素ユニットは、種々のソース
言語の音声データによって形成された多言語音素ユニッ
トを少なくとも部分的に有する、請求項１記載の方法。
【請求項３】上記記号発音表示による上記類似性パラ
メータは、予め定義された発音表記の音素記号及び／又
は音素クラスへの、上記各々の音素の割当てと、上記各
々の基礎音素ユニットの割当てとについての情報を含
む、請求項１又は２記載の方法。
【請求項４】上記ターゲット言語の音声データを使用
する上記実行ステップにおける音声データ制御割当方法
の一を用いて、音素モデルが上記ターゲット言語の上記
音素に対して作成され、その後全ての上記基礎音素ユニ
ットに対して、上記ターゲット言語の上記音素の上記音
素モデルから上記基礎音素ユニットの基礎音素の各々の
差が算出され、上記差のパラメータが最小となる上記各
々の基礎音素ユニットが、上記ターゲット言語の上記音
素に割り当てられることを特徴とする請求項１乃至３の
うちいずれか１項の方法。
【請求項５】音声データ制御割当方法において、定義
された発音表記の音素モデルが使用されつつ、上記ター
ゲット言語の音声データが、個々の音素に分割され、こ
れらの各音素に対して、割り当てられる基礎音素ユニッ
トの基礎音素モデルのセットからなる音声認識システム
において、上記基礎音素モデルに対する認識率が、決定
され、最良の認識率が最も検出された基礎音素モデルの
基礎音素ユニットが、各音素に割り当てられることを特
徴とする、請求項１乃至４記載の方法。
【請求項６】ターゲット言語に対する自動音声認識シ
ステムにおいて実行される、ターゲット言語の音素に対
する音素モデルの生成方法であって、請求項１乃至５の
うちのいずれか記載の方法に従って、基礎音素ユニット
が上記ターゲット言語の音素に割り当てられ、基礎音素
ユニットは、上記ターゲット言語と異なるソース言語の
使用可能な音声データにより生成されていた各々の基礎
音素モデルによって表されており、その後、上記ターゲ
ット言語の音声データが使用されつつ、各ターゲット言
語の音素に対して、割り当てられた基礎音素ユニットの
上記基礎音素モデルが上記ターゲット言語に適合され
る、方法。
【請求項７】コンピュータ上で実行されたとき、請求
項１乃至６のうちのいずれか１項に記載されたステップ
の全てを実行するプログラムコード手段を備えたプログ
ラム。
【請求項８】上記コンピュータによって読み取り可能
なデータ担体に記憶された請求項７記載のプログラム。
【請求項９】請求項６記載の方法に従って生成された
複数の音声モデルを含む、自動音声認識システムにおい
て使用される音響モデルセット。
【請求項１０】請求項９記載の音響モデルセットを含
む、音声認識システム。