JP2002062891A - 音素割当て方法 - Google Patents

音素割当て方法

Info

Publication number
JP2002062891A
JP2002062891A JP2001247302A JP2001247302A JP2002062891A JP 2002062891 A JP2002062891 A JP 2002062891A JP 2001247302 A JP2001247302 A JP 2001247302A JP 2001247302 A JP2001247302 A JP 2001247302A JP 2002062891 A JP2002062891 A JP 2002062891A
Authority
JP
Japan
Prior art keywords
phoneme
basic
phonemes
target language
assigned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001247302A
Other languages
English (en)
Inventor
Anne Kienappel
キーンアペル アンネ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JP2002062891A publication Critical patent/JP2002062891A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Abstract

(57)【要約】 【課題】 ターゲット言語の音素を基礎音素ユニットの
セットの各々の基礎音素ユニットに割り当てる方法を提
供することを課題とする。 【解決手段】 基礎音素ユニットは、ソース言語の使用
可能な音声データの利用を介して生成された各々の基礎
音素モデルによって表される。方法の第1のステップで
は、少なくとも2つの音声データ制御割当方法(1,
2)がターゲット言語を各々の音素ユニットに割り当て
るのに使用される。第2のステップでは、各々の音素が
同一の基礎音素ユニットに種々の方法の多数によって一
致して割り当てられたかどうかを検出する。かかる場
合、多数により割り当てられた基礎音素ユニットが各々
の音素に割り当てられる。その他の場合、少なくとも1
つの方法により割り当てられた全ての基礎音素ユニット
から、類似度が割り当てられた音素及び基礎音素ユニッ
トの記号発音表示に従って使用されつつ、一の基礎音素
ユニットが選択される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、基礎音素ユニット
のセットに含まれるそれぞれの基礎音素ユニットに、タ
ーゲット言語の音素を割り当てる方法に係り、音素ユニ
ットは、基礎音素モデルによって表され、上記モデル
は、ソース言語の使用可能な音声データに基づいて生成
されている。更に、本発明は、ターゲット言語の音素
と、自動音声認識システムにおいて使用されるべき言語
的モデルのセットと、音響モデルの各々のセットを含む
音声認識システムとに対して音素モデルを生成する方法
に関する。
【0002】
【従来の技術】音声認識システムは、第1に音声信号
が、スペクトル的に若しくは属性分析ユニットにおいて
時間に依存した態様で、分析されるような方法で、一般
的に作動する。この属性分析ユニットにおいて、音声信
号は、通常的には、複数のセクション、いわゆるフレー
ムに区切られる。これらのフレームはその後、更なる分
析のため適切な形式でコード化され、デジタル化され
る。観測された信号はその後、複数の異なるパラメータ
によって、或いはいわゆる“観測ベクトル”による多次
元パラメータ空間で表されてよい。実際の音声認識、即
ち音声信号の意味論的コンテンツの認識がその後生じ
て、観測ベクトル若しくは観測クベクトルの全体の列に
よって表現された音声信号のセクションが、異なった実
際に考えられる観測の列と比較され、観測ベクトル若し
くは見出された列と最も合致するモデルが選択されるよ
うになる。この目的のため、音声認識システムは、最も
幅広い考えられる信号列のライブラリの種を構成して、
そこから音声認識システムは、各々合致する信号列を選
択することができることとなる。これは、音声認識シス
テムが、音声信号に対して実際に原理的に発生しうる音
響モデルのセットの処分を有することを意味する。これ
は、音素のモデルが、コンテンツ内の各々前の及び/又
は後の音素に依存する、例えば音素のセット、音素様ユ
ニット、ジホン(diphones)若しくはトリホン(tripho
nes)であってよいが、完全な単語も有してよい。これ
は、種々の音響ユニットの混合されたセットであっても
よい。
【0003】更に、各々の言語に対する発音辞書が必要
であり、また、認識効率を改善するため、連続のモデル
の列が選択されたとき、ある一定の実際的な制約を定義
する種々の単語辞書及び確率的音声モデル並びに各々の
言語の文法ガイドラインが必要である。
【0004】音響ユニット、即ち観測ベクトルのある一
定の列、を表現する方法は、いわゆる“隠れマルコフモ
デル”(HMモデル)の利用である。これらは、確率的
信号モデルであり、それに対して、信号列が個々の状態
間での遷移確率を備えた種々の状態のいわゆるマルコフ
鎖に基づいている、と想定されている。各々の状態自体
は、検出されることができず(隠れている)、個々の状
態における実際の観測の発生は、各々の状態の関数とし
て確率関数によって表現される。それ故に、観測のある
一定の列に対するモデルは、本質的には、種々の連続状
態の列によって、各々の状態における停止の持続によっ
て、状態間の遷移確率によって、及び各々の状態におけ
る個々の観測の発生確率によって、この概念において表
現されることができる。ある一定の音素に対してモデル
が作成されて、モデルに対する適切な初期パラメータが
まず使用されるようになり、その後、いわゆるトレーニ
ングにおいて、このモデルは、パラメータの変更によっ
てモデル化された各々の言語音素に適合されて、最適な
モデルが見出されるようになる。このトレーニング、即
ち言語の実際の音素へのモデルの適合、のため、各々の
言語の質的に良い適切な数の音声データが必要となる。
適合されるべき正確なパラメータと同様に種々のMHモ
デルについての詳細は、本発明について個々的に重要な
役割を果たさないので、ここではこれ以上言及しない。
【0005】音声認識システムが、残念ながら非常に僅
かの発話資料しか入手できない新たな言語に対して音素
モデル(例えば隠れマルコフモデル)に基づいて訓練さ
れるとき、訓練を支援するため他の言語の発話資料が使
用されてよい。例えば、まずHMモデルは、ターゲット
言語と異なるその他のソース言語で訓練されることがで
き、これらのモデルはその後、新たな言語に基礎モデル
として転換され、ターゲット言語の入手可能な音声デー
タを用いてターゲット言語に適合される。その間に、複
数のソース言語に基づく多言語音素ユニットに対するモ
デルの訓練と、これらの多言語音素ユニットのターゲッ
ト言語への適合とが、一のソース言語の単一言語モデル
の使用(T. Schultz及びA. Waibelによる“Language In
dependent and Language Adaptive Large Vocabulary S
peech Recognition”, Proc. ICSLP, ページ数1819乃至
1822, Sidney, Australia 1998)よりも良好な結果を生
むことが証明された。
【0006】転換に対して、新たなターゲット言語の音
素のソース言語の音素ユニットへの、若しくは多言語音
素ユニットへの割当てであって、各々の音素若しくは音
素ユニットの音響的な類似性を考慮する割当てが必要で
ある。基礎音素ユニットへのターゲット言語の音素を割
り当てる問題点は、基礎音素ユニット自身の定義の問題
点と密接に関係している。というのは、ターゲット言語
への割当てだけでなく、基礎音素ユニット自身の定義も
音響的な類似性に基づいているからである。
【0007】異なる言語の音素の音響的類似性を評価す
るため、基本的な音声の背景知識が使用されることがで
きる。この目的のため、ターゲット言語の音素の基礎音
素ユニットへの割当ては、この背景知識を基礎として原
理的に可能である。各々の言語の音声の技術的な知見が
必要である。しかし、かかる技術的知見は、相対的にコ
ストがかかるものである。
【0008】十分な技術的知見の欠如のため、国際的な
発音表記、例えばIPAやSAMPAは、ターゲット言
語への音素の割当てに対して拠り所にされることがしば
しばある。この種の割当ては、基礎音素ユニット自身が
国際発音表記記号に不明瞭でなく割り当てられることが
できる場合、不明瞭でないものとなる。上述の多言語音
素ユニットに対して、これは、ソース言語の音素ユニッ
ト自身が発音表記に基づいているときに付与されるだけ
である。ターゲット言語に対する単純且つ信頼性のある
割当て方法を得るため、基礎音素ユニットはそれ故に、
国際発音表記の音素記号を使用しつつ、定義されうるだ
ろう。しかし、これらの音素ユニットは、使用可能な実
際の音声データの統計的モデルによって生成された音素
ユニットよりも、音声認識システムに対して適性度が低
い。
【0009】しかし、特に多言語基礎音素ユニットに対
して、この多言語基礎音素ユニットはソース言語の音声
データに基づいて生成されているが、発音表記による割
当ては完全に不明瞭というわけではない。かかるユニッ
トの明確な音声学的な識別は、認められない。それ故
に、知識ベースの即座の割当ても、音声学の専門家にと
って非常に困難なものである。
【0010】原理上、ターゲット言語の音素を基礎音素
モデル及びそれらの統計的モデルに自動的に割当てする
可能性は存在する。かかる音声データが制御された割当
て方法の品質は、モデルに割り当てられるべき音素を有
する言語において充分の音声データがあるという事実に
臨界的に依存する。しかし、これは、ターゲット言語に
も絶対的に付与される事実ではない。それ故に、音声デ
ータが制御された定義を介して生成されたターゲット言
語音素ユニットに対して単純且つ信頼性のある方法がな
い。
【0011】
【発明が解決しようとする課題】本発明の目的は、知ら
れた技術状態に代替を提供することにあり、任意の基礎
音素ユニットへと同様に、より詳細には音声データが制
御された定義を介して生成された多言語音素ユニットへ
の、ターゲット言語の音素の単純且つ信頼性のある割当
てを可能とする代替を提供することにある。
【0012】
【課題を解決するための手段】この目的は、請求項1記
載の方法によって達成される。
【0013】本発明による方法に対して、少なくとも2
つ、可能であればそれ以上の異なる音声データ制御割当
方法が必要となる。それらは、完全に異なる態様でそれ
ぞれ機能する相補的な音声データ制御割当方法であるべ
きである。
【0014】これらの異なる音声データ制御割当方法を
用いれば、ターゲット言語の各音素は、音素が各々の基
礎音素ユニットに割り当てられるような態様で、操作さ
れる。このステップの後、各音声データ制御方法から使
用可能な一の基礎音素ユニットがあり、そのユニット
は、各々の音素に割り当てられる。これらの基礎音素ユ
ニットは、毎回同一の基礎音素ユニットが音素に割り当
てられるかどうかを検出するため、比較される。音声デ
ータ制御割当方法の多数が一致した結果を生む場合、こ
の割当てが選択される、即ち自動音声データ制御方法に
よって最も多く選択された基礎音素ユニットが音素に割
り当てられる。種々の方法の多数が一致した結果を生ま
ない場合、例えば2つの異なる音声データ制御割当方法
が使用され、これらの2つの割当方法が異なる基礎音素
ユニットを音素に割り当てた場合、割り当てられる音素
の記号発音表示(symbol phonetic description)への
一定の類似性を有し、且つ各々の基礎音素ユニットに対
して最良の適合度である基礎音素ユニットが、種々の割
当てから選択される。
【0015】本発明による方法の効果は、音声データ資
料の最適な使用を、使用可能な場合(基礎音素ユニット
が定義されたとき、従って特にソース言語の側で)に
は、可能とし、データ資料が十分な信頼度を以って割当
てを決定するのに不充分であるときに、音声の若しくは
言語学的な背景知識を拠り所にするだけであるという事
実である。ここで、信頼度は、種々の音声データ制御割
当方法の結果の適合性である。このように、データ制御
定義方法の効果は、新たな言語への転換において多言語
音素ユニットに対しても使用できる。本発明による方法
の実現は、HMモデル若しくは多言語音素ユニットに限
定されないだけでなく、他のモデルを使用しても有用で
あり、単一の音素若しくは音素ユニットのそれぞれの割
当てに対しても必然的に有用である。以下において、多
言語音素ユニット、例えばHMモデルによってそれぞれ
表されたユニットのセットが基礎として使用される。
【0016】不充分な信頼性の場合の知識ベースの(音
声背景知識に基づく)割当ては、非常に簡易である。と
いうのは、選択が、音声データ制御方法によって予め定
義された非常に限られた可能な解決法からしかなされな
いからである。記号発音表現による類似度は、好ましく
はSAMPA若しくはIPAのような国際発音表記が予
め定義された音素記号又は音素クラスへの各々の音素の
割当てについての情報を含むことは、明らかである。関
連する言語の音素の発音表記における表現だけが、音声
クラスへの発音表記記号の割当てと同様に、ここで必要
とされる。音声データ制御割当方法によって既に選択さ
れた基礎音素ユニットからの選択は、割り当てられるべ
きターゲット言語音素への“正確な”割当ての純粋な音
素記号適合と音素クラス適合とに基づいているが、非常
に簡易な基準に基づいており、言語学的な専門知識を一
切必要としない。それ故に、それは、プログラムを一切
使用しないでコンピュータ上で適切なソフトウェアによ
って実現されてよく、本発明による割当て方法全体は、
効果的に完全且つ自動的に実行されることができるよう
になる。
【0017】音声データ制御割当て方法に対して以下の
ような種々の可能性がある。
【0018】即ち、ターゲット言語の個々の音素に対し
て音素モデルが、音声データが使用されている、つまり
モデルがターゲット言語に訓練され使用可能なターゲッ
ト言語の音声資料が使用されている間に、まず作成され
る。作成されたモデルに対して、ソース言語の各々の基
礎音素ユニットの種々の基礎音素モデルに対する各々の
差が計算される。この差のパラメータは、例えば冒頭部
で言及した観測ベクトルの多次元パラメータ空間におけ
る幾何学的距離であってもよい。最小の差のパラメータ
を有する基礎音素ユニットが音素に割り当てられる、つ
まり最も近い基礎音素ユニットが採用される。
【0019】その他の音声データ制御割当方法を用いる
と、ターゲット言語の使用可能な音声データ材料がま
ず、いわゆる音素スタート及び音素エンド分割化に副分
割される。例えばSAMPAやIPAのような定義され
た発音表記の音素モデルの助けにより、音声データは、
個々の音素に分割される。ターゲット言語のこれらの音
素は、割り当てられるべき基礎音素ユニットに基づい
て、或いはそれらの基礎音素モデルに基づいて機能する
音声認識システムに供給される。音声認識システムにお
いては、基礎音素モデルに対する認識値が通常的に決定
されるが、これは、如何なる確率で一定の音素が一定の
基礎音素ユニットとして認識されるかが確立されること
を意味する。その後、各音素へ、最良の認識率を有する
基礎音素モデルを備えた基礎音素ユニットが割り当てら
れる。他言すると、ターゲット言語の音素へ、音声認識
システムが各々のターゲット言語音素の分析中に最も多
く認識した基礎音素ユニットが割り当てられる。
【0020】本発明による方法は、自動音声認識システ
ムにおいて使用されるべきターゲット言語の音素に対す
る音声モデルの相対的に迅速で良好な作成を可能とし、
本発明によれば、基礎音素ユニットは、ターゲット言語
の音素に割り当てられ、その後、音素は、異なるソース
言語から使用可能な音声データ資料の助けにより生成さ
れていた各々の基礎音素モデルによって表される。各タ
ーゲット言語音素に対して、基礎音素モデルは、開始モ
デルとして使用され、音声データ材料の助けにより最終
的にターゲット言語に適合される。本発明による割当て
方法は、ターゲット言語の音素モデルの生成する方法内
部で下位的方法として実行される。
【0021】本発明による割当て方法を含む、音素モデ
ルの生成方法全体は、適切に適合されたコンピュータ上
で適切なソフトウェアを用いて効果的に実行されること
ができる。本方法のある一定のサブルーチン、例えば音
声信号の観測ベクトルへの変換が、より高速な処理速度
を得るためハードウェア形式で実現される場合は、ある
程度効果的だろう。
【0022】このように作成された音素モデルは、例え
ば音声認識システムの使用のため各々のターゲット言語
の発音辞書と共に利用可能である音響モデルのセットに
おいて使用されることができる。音響モデルのセット
は、コンテキスト独立音素モデルのセットであってよ
い。それらは、音素モデルから形成されたジホン、トリ
ホン、若しくは言語モデルであってもよいことは、明ら
かであろう。種々のホンのかかる音響モデルが、通常は
音声に依存していることは、明らかである。
【0023】本発明は、次に実施例の助けにより図面を
参照してより詳細に説明されるだろう。以下に示される
特質及び既に示された特質は、上記組合せにおいてだけ
でなく、個別的にも若しくは他の組合せにおいても、本
発明にとって重要なものとなることができる。
【0024】
【発明の実施の形態】第1の実施例に対して、N個の多
言語(multilingual)音素ユニットのセットが、五個の
言語、フランス語、ドイツ語、イタリア語、ポルトガル
語、及びスペイン語から形成されている。これらの音素
ユニットをソース言語の全体で182個の音声依存音素
(音声に依存する音素)から形成するため、音響的に類
似する音素が、結合され、これらの音声依存音素に対し
て、共通のモデル、多言語マルコフモデルが、ソース言
語の音声材料に基づいて訓練されている。
【0025】ソース言語のどの音素が、共通の多言語音
素ユニットを実際に形成する程類似しているかを検出す
るため、音声データが制御された方法が使用されてい
た。
【0026】第1に、個々の音声依存音素間の差のパラ
メータDが決定される。この目的のため、音素ごとにN
個の状態を有するコンテキスト独立(context-indepe
ndent)HMモデルが、ソース言語の182個の音素に
対して形成される。この時、音素の各状態はラプラス確
率密度の混合によって表現される。この時、各密度jは
混合重みwを有し、N個の構成要素の平均値と、標
準偏差ベクトル
【0027】
【外1】 とによって表現される。この時、距離パラメータは次の
ように定義される。
【0028】
【数1】 この定義は、幾何学的な距離として理解されても良い。
【0029】ソース言語の182個の音素は、いわゆる
距離パラメータの助けによりグループ化されて、同一の
多言語音素の音素間の平均距離が最小化されるようにな
る。
【0030】割り当ては、いわゆる上昇型(bottom-u
p)クラスター化アルゴリズムを用いて自動的に実行さ
れる。この時、個々の音素は、クラスターに1個ずつ混
合され、ある一定の打ち切り基準まで、常に単一の音素
が最も近いクラスターに加えられる。ここで、最も近い
クラスターとは、上で定義された平均距離が最小となる
クラスターとして理解される。同様に、複数の音素を既
に含む2つのクラスターが、同じような方法で混合され
ることができることは、明らかである。
【0031】上で定義された距離パラメータの選択は、
上記方法で生成された多言語音素ユニットが類似性のあ
る音の異なるクラスを示すことを、保証する。なぜな
ら、モデル間の距離は、それらのモデルの音の類似性に
依存するからである。
【0032】同一の言語に含まれる決して2つでない音
素が、同一の多言語音素ユニットで表現されることを更
なる基準として与えられている。これは、ある一定のソ
ース言語の音素が最も近いクラスターのようなある一定
のクラスターに割り当てられる前に、まずこのクラスタ
ーが各々の言語の音素を既に含んでいるかどうかのテス
トがなされていることを意味する。かかる場合、次のス
テップにおいて、各々の言語の2つの音素の交換がクラ
スター内部のより小さい平均距離をもたらすかどうかの
テストがなされている。その場合だけ、交換が実行され
ており、それ以外の場合には、クラスターは変更されて
いないままである。各々のテストは、2つのクラスター
が混合される前になされている。この追加的な限定条件
は、多言語音素ユニットが、個々の言語の音素も同様で
あるが、言語の2つの単語を区別するために定義の面で
使用されてよいことを保証する。
【0033】更に、クラスター方法に対する打ち切り基
準が選択されて、離れた音声(phonetic)クラスの音が
同一のクラスター内に表現されないようにする。
【0034】クラスター方法において、N個の多言語音
素ユニットの一セットが生成されており、Nは180
(個々の言語依存音素の数)と50(ソース言語のうち
の一内にある音素の最大数)との間の値を有してよい。
この実施例においては、N=94である音素ユニットが
生成されており、クラスター方法が打ち切られている。
【0035】図2は、全体で94個の多言語基礎音素ユ
ニットのセットのテーブルを示す。このテーブルの左の
コラムは、ソース言語のある一定数の個々の音素から混
合された音素ユニットの数を示す。右のコラムは、個々
の音素(“+”により結合された)を示し、それらは、
各音素ユニットを形成する基礎音素の各々のグループを
形成する。ここで、個々の言語依存音素は、国際発音表
記SAMPAで各々の言語を示すインデックス(f=フ
ランス語、g=ドイツ語、I=イタリア語、p=ポルト
ガル語、s=スペイン語)を用いて表現される。例えば
図2のテーブルの右側のコラムの最下欄においてわかる
ように、全ての5個の言語のうちの音素f、m、sは、
音響的にあまりに類似しているので、それらは、共通の
多言語音素ユニットを形成する。すべてにおいて、セッ
トは、単一の言語依存音素のみによってそれぞれ定義さ
れた37個の音素ユニットと、2つの個々の言語依存音
素によってそれぞれ定義された39個の音素ユニット
と、3つの個々の言語依存音素によってそれぞれ定義さ
れた9個の音素ユニットと、4つの個々の言語依存音素
によってそれぞれ定義された5個の音素ユニットと、5
つの個々の言語依存音素によってそれぞれ定義された4
個の音素ユニットとから成る。多言語音素ユニットにお
ける個々の音素の最大数は、決して同一言語の2つの音
素が同一の音素ユニットにおいて表されてはならないと
いう上述の条件を考慮して、関与する言語の数(ここで
は、5個の言語)によって予め定義される。
【0036】これらの多言語音素ユニットの音声変換の
ために、本発明による方法が、使用され、本発明を用い
て、ターゲット言語の音素(本実施例においては、英語
とデンマーク語)が図2に示すセットの中の多言語音素
ユニットに割り当てられる。
【0037】本発明による方法は、基礎音素の各々の具
体的セットから独立している。この点で、多言語音素を
形成するための個々の音素のグループ化は、その他の適
切な方法を用いて実行されても良い。より詳細には、そ
の他の適切な距離パラメータ若しくは類似のパラメータ
も、個々の言語依存音素間で各々に使用されてもよい。
【0038】本発明による方法は、図1に非常に概略的
に示される。示された実施例において、音声データが制
御された2つの厳密に異なる使用可能な割り当て方法が
あり、図1に方法ブロック1,2として示される。音声
データが制御された2つの割り当て方法の第1の方法1
において、HMモデルは、ターゲット言語の音声データ
SDが使用されつつ、ターゲット言語の音素Pに対し
て生成される(次に、ターゲット言語Mは、異なる音素
乃至Pを有すると想定する)。明らかに、それら
は、ターゲット言語の限られた音声データ材料の結果と
して依然として相対的にみなされるモデルである。ター
ゲット言語のこれらのモデルに対して、全ての基礎音素
ユニット(PE,PE,…,PE)のHM基礎音
素モデルへの距離Dが、上述の公式に従って計算され
る。ターゲット言語の各音素Pは、ターゲット言語の
音素Pの音素モデルへの最小距離を有する基礎音素モ
デルの音素ユニットPE(P)に割り当てられる。
【0039】2つの方法の第2の方法において、入力さ
れる音声データSDは、まず個々の音素に分割される。
このいわゆる音素スタート(phoneme-start)及び音素
エンド(phoneme-end)分割化は、国際発音表記SAM
PAに従って定義された多言語音素に対するモデルのセ
ットの助けにより、実行される。ターゲット言語のこの
ようにして得られた分割化音声データは、割り当てられ
る音素ユニット(PE ,…,PE)のセットを基礎
として機能する音声認識システムを通過する。音声認識
システムによって音素Pとして最も多く認識された音
素ユニットPE (P)は、その後、分割化から発生
したターゲット言語の個々の音素Pに割り当てられ
る。
【0040】同一の音声データSDと音素ユニット(P
,…,PE)の同一セットは、従って、2つの方
法に対して入力として使用される。
【0041】これらの音声データが制御された2つの割
り当て方法1,2が実行された後、厳密に2つの割り当
てられた音素ユニットPE(P)とPE(P
が各音素Pに対して選択されてよい。音声データが制
御された2つの割り当て方法1,2は、更に同時に実行
されてよいだけでなく、連続的に実行されてもよい。
【0042】次のステップ3において、2つの割り当て
方法1,2によって割り当てられた音素ユニットPE
(P)、PE(P)は、その後、ターゲット言語
の各音素に対して比較される。各々の音素Pに対して
2つの割り当てられた音素ユニットが同一である場合、
この共通の割り当てが単純に最終割り当て音素ユニット
PE(P)であると想定される。その他の場合、次
のステップ4において、選択が、音声データが制御され
た自動割り当て方法を経由して、これらの音素ユニット
PE(P)、PE(P)からなされる。
【0043】ステップ4におけるこの選択は、音声背景
知識に基づいてなされるが、自動的に適用できる比較的
簡易な基準が使用される。特に、選択は、音素ユニット
が厳密に選択される、即ちその音素ユニットの国際発音
表記SAMPAにおける音素記号(phoneme symbol)若
しくは音素クラス(phoneme class)の各々が、ターゲ
ット音素の記号若しくはクラスと各々に一致するよう
に、簡易になされる。かかる目的のため、まずSAMP
A記号の音素ユニットが割り当てられる。これは、各々
の音素ユニットが作成される元となるオリジナルの言語
依存音素の記号が復帰されつつ、実行される。更に、タ
ーゲット言語の音素も、国際SAMPA記号に割り当て
られることになることは、明らかである。しかしなが
ら、これは、全ての音素が、この音素を記号化する記
号、或いは長音記号(length suffix)“:”によって
のみ区別される記号に厳密に割り当てられるような比較
的簡易な方法で、実行されてよい。SAMPAアルファ
ベットの記号に一致しないターゲット言語の個々のユニ
ットのみ、同一の音を有する類似の記号に割り当てられ
ることになる。これは、手動若しくは自動によってされ
てよい。
【0044】このとき、ターゲット言語のM個の考えら
れる音素への音素ユニットの割り当てPE
Z1(P),PEZ2(P),…,PE
ZM(P)の列が、基礎データとして本発明による割
り当て方法を用いて得られる。ここで、Z1,Z2,
…,ZMは1乃至Nであってよい。このとき、各多言語
基礎音素ユニットは、原理上、ターゲット言語の複数の
音素に割り当てられる。
【0045】ターゲット言語のそれぞれに対して、ター
ゲット言語音素に対するM個のモデルのセットの生成の
ための独自の分離したスタートモデルを得るため、各々
の音素ユニットの基礎音素モデルは、多言語音素ユニッ
トが複数のターゲット音素ユニット(X>1)に割り当
てられる場合、X−1回再生成される。更に、モデル
は、不使用音素ユニットと、不使用音素ユニットに依存
するコンテキストを含む音素ユニットとを除去される。
【0046】このようにしてターゲット言語に対して得
られた音素モデルの開始セットは、適切な適合技術によ
って適合される。より詳細には、通常的な適合技術、例
えば“Maximum a Posteriori”(MAP)方法(C. H. Lee
及びJ. L. Gauvainによる“Speaker Adaptation Based
on Map Estimation of HMM Parameters” in Proc. ICA
SSP, 1993におけるページ558乃至561参照)、若しくは
“Maximum LikelihoodLinear Regression method”(ML
LR)方法(“Computer Speech and Language”(1995)
9, 171ページ乃至185ページにおけるJ. C. Leggetter及
びP. C. Woodlandによる“Maximum Likelihood Linear
Regression for Speaker Adaptation ofContinuous Den
sity Hidden Markov Models”参照)が、使用されるこ
とができる。他の適合技術も使用されてよいことは明ら
かである。
【0047】本発明によるかかる方法において、新たな
ターゲット言語に対する非常に良好なモデルは、ターゲ
ット言語で使用可能な音声データが非常に少ない場合で
あっても、作成されることができる。それらのモデル
は、音声認識システムにおいて使用されるべき音響モデ
ルのセットを順に形成するために使用可能である。この
ようにして上述の実施例によりこれまで得られた結果
は、本発明による方法が、音素ユニットの定義及び割り
当てに対する純粋なデータに基づくアプローチと発音表
記に基づくアプローチの双方よりも明らかに優れている
ことを示している。30人の話者の各発話材料が、ター
ゲット言語においてたった30秒しか使用できないが、
(ターゲット言語への適合前の)多言語音素ユニットに
対する本発明により生成されたモデルに基づく音声認識
システムは、従来的な方法に比べて言語誤り率を約四分
の一低減することができるだろう。
【図面の簡単な説明】
【図1】本発明による割当て方法の概略的な手順を示す
図である。
【図2】ソース言語であるフランス語、ドイツ語、イタ
リア語、ポルトガル語、及びスペイン語の94個の多言
語基礎音素ユニットのセットのテーブルを示す図であ
る。
【符号の説明】
1 音声データ制御割当方法 2 音声データ制御割当方法
───────────────────────────────────────────────────── フロントページの続き (71)出願人 590000248 Groenewoudseweg 1, 5621 BA Eindhoven, Th e Netherlands

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 ターゲット言語の音素を、ソース言語の
    使用可能な音声データに基づいて生成された基礎音素モ
    デルによって表された基礎音素ユニットのセットの各々
    の基礎音素ユニットに、割り当てる方法であって、 各々の基礎音素ユニットに上記ターゲット言語の上記音
    素を割り当てする、少なくとも2つの異なる音声データ
    制御割当方法を実行する実行ステップと、 上記各々の音素が、同一の基礎音素ユニットに、上記異
    なる音声データ制御割当方法のうちの多数の方法によっ
    て、割り当てられたかどうかを、検出する検出ステップ
    と、 上記音声データ制御割当方法のうちの多数の方法が合致
    した割当てを有する限り、上記音声データ制御割当方法
    のうちの多数の方法によって割り当てられた上記基礎音
    素ユニットを、上記各々の音素に割り当てられた上記基
    礎音素ユニットとして選択する第1の選択ステップか、
    或いは、 その他の場合には、上記異なる音声データ制御割当方法
    のうちの少なくとも一の方法によって上記各々の音素に
    割り当てられた上記基礎音素ユニットの全てから、基礎
    音素ユニットを、類似性パラメータが上記基礎音素ユニ
    ットの上記音素の記号発音表示及び割り当てられるべき
    上記音素の記号発音表示に従って使用されつつ、選択す
    る第2の選択ステップのいずれかの選択ステップとを含
    むことを特徴とする、方法。
  2. 【請求項2】 上記基礎音素ユニットは、種々のソース
    言語の音声データによって形成された多言語音素ユニッ
    トを少なくとも部分的に有する、請求項1記載の方法。
  3. 【請求項3】 上記記号発音表示による上記類似性パラ
    メータは、予め定義された発音表記の音素記号及び/又
    は音素クラスへの、上記各々の音素の割当てと、上記各
    々の基礎音素ユニットの割当てとについての情報を含
    む、請求項1又は2記載の方法。
  4. 【請求項4】 上記ターゲット言語の音声データを使用
    する上記実行ステップにおける音声データ制御割当方法
    の一を用いて、音素モデルが上記ターゲット言語の上記
    音素に対して作成され、その後全ての上記基礎音素ユニ
    ットに対して、上記ターゲット言語の上記音素の上記音
    素モデルから上記基礎音素ユニットの基礎音素の各々の
    差が算出され、上記差のパラメータが最小となる上記各
    々の基礎音素ユニットが、上記ターゲット言語の上記音
    素に割り当てられることを特徴とする請求項1乃至3の
    うちいずれか1項の方法。
  5. 【請求項5】 音声データ制御割当方法において、定義
    された発音表記の音素モデルが使用されつつ、上記ター
    ゲット言語の音声データが、個々の音素に分割され、こ
    れらの各音素に対して、割り当てられる基礎音素ユニッ
    トの基礎音素モデルのセットからなる音声認識システム
    において、上記基礎音素モデルに対する認識率が、決定
    され、最良の認識率が最も検出された基礎音素モデルの
    基礎音素ユニットが、各音素に割り当てられることを特
    徴とする、請求項1乃至4記載の方法。
  6. 【請求項6】 ターゲット言語に対する自動音声認識シ
    ステムにおいて実行される、ターゲット言語の音素に対
    する音素モデルの生成方法であって、請求項1乃至5の
    うちのいずれか記載の方法に従って、基礎音素ユニット
    が上記ターゲット言語の音素に割り当てられ、基礎音素
    ユニットは、上記ターゲット言語と異なるソース言語の
    使用可能な音声データにより生成されていた各々の基礎
    音素モデルによって表されており、その後、上記ターゲ
    ット言語の音声データが使用されつつ、各ターゲット言
    語の音素に対して、割り当てられた基礎音素ユニットの
    上記基礎音素モデルが上記ターゲット言語に適合され
    る、方法。
  7. 【請求項7】 コンピュータ上で実行されたとき、請求
    項1乃至6のうちのいずれか1項に記載されたステップ
    の全てを実行するプログラムコード手段を備えたプログ
    ラム。
  8. 【請求項8】 上記コンピュータによって読み取り可能
    なデータ担体に記憶された請求項7記載のプログラム。
  9. 【請求項9】 請求項6記載の方法に従って生成された
    複数の音声モデルを含む、自動音声認識システムにおい
    て使用される音響モデルセット。
  10. 【請求項10】 請求項9記載の音響モデルセットを含
    む、音声認識システム。
JP2001247302A 2000-08-16 2001-08-16 音素割当て方法 Pending JP2002062891A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10040063.9 2000-08-16
DE10040063A DE10040063A1 (de) 2000-08-16 2000-08-16 Verfahren zur Zuordnung von Phonemen

Publications (1)

Publication Number Publication Date
JP2002062891A true JP2002062891A (ja) 2002-02-28

Family

ID=7652643

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001247302A Pending JP2002062891A (ja) 2000-08-16 2001-08-16 音素割当て方法

Country Status (4)

Country Link
US (1) US20020040296A1 (ja)
EP (1) EP1182646A3 (ja)
JP (1) JP2002062891A (ja)
DE (1) DE10040063A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7295979B2 (en) * 2000-09-29 2007-11-13 International Business Machines Corporation Language context dependent data labeling
US7043431B2 (en) * 2001-08-31 2006-05-09 Nokia Corporation Multilingual speech recognition system using text derived recognition models
US8285537B2 (en) * 2003-01-31 2012-10-09 Comverse, Inc. Recognition of proper nouns using native-language pronunciation
TWI224771B (en) * 2003-04-10 2004-12-01 Delta Electronics Inc Speech recognition device and method using di-phone model to realize the mixed-multi-lingual global phoneme
DE10334400A1 (de) * 2003-07-28 2005-02-24 Siemens Ag Verfahren zur Spracherkennung und Kommunikationsgerät
US7289958B2 (en) * 2003-10-07 2007-10-30 Texas Instruments Incorporated Automatic language independent triphone training using a phonetic table
US8301447B2 (en) * 2008-10-10 2012-10-30 Avaya Inc. Associating source information with phonetic indices
WO2012025579A1 (en) * 2010-08-24 2012-03-01 Veovox Sa System and method for recognizing a user voice command in noisy environment
EP2638542B1 (en) * 2010-11-08 2014-08-06 Google, Inc. Generating acoustic models
US8805869B2 (en) * 2011-06-28 2014-08-12 International Business Machines Corporation Systems and methods for cross-lingual audio search
EP2851895A3 (en) * 2011-06-30 2015-05-06 Google, Inc. Speech recognition using variable-length context
US9336771B2 (en) * 2012-11-01 2016-05-10 Google Inc. Speech recognition using non-parametric models
US9858922B2 (en) 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
US9299347B1 (en) 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
US10607601B2 (en) * 2017-05-11 2020-03-31 International Business Machines Corporation Speech recognition by selecting and refining hot words
US10943580B2 (en) * 2018-05-11 2021-03-09 International Business Machines Corporation Phonological clustering
TWI759003B (zh) * 2020-12-10 2022-03-21 國立成功大學 語音辨識模型的訓練方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998011534A1 (de) * 1996-09-10 1998-03-19 Siemens Aktiengesellschaft Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem
DE19636739C1 (de) * 1996-09-10 1997-07-03 Siemens Ag Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem Spracherkennungssystem
US6549883B2 (en) * 1999-11-02 2003-04-15 Nortel Networks Limited Method and apparatus for generating multilingual transcription groups

Also Published As

Publication number Publication date
US20020040296A1 (en) 2002-04-04
EP1182646A2 (de) 2002-02-27
EP1182646A3 (de) 2003-04-23
DE10040063A1 (de) 2002-02-28

Similar Documents

Publication Publication Date Title
US10074363B2 (en) Method and apparatus for keyword speech recognition
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US5865626A (en) Multi-dialect speech recognition method and apparatus
US6085160A (en) Language independent speech recognition
US5995928A (en) Method and apparatus for continuous spelling speech recognition with early identification
US6243680B1 (en) Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
KR101120716B1 (ko) 음성 특성에 기초한 전화 호출자들의 자동 식별
KR100391243B1 (ko) 음조언어(tonallanguage)인식을위해콘텍스트의존형(contextdependent)부음절(sub-syllable)모델을생성하고사용하기위한시스템및방법
US20160086599A1 (en) Speech Recognition Model Construction Method, Speech Recognition Method, Computer System, Speech Recognition Apparatus, Program, and Recording Medium
US20070239455A1 (en) Method and system for managing pronunciation dictionaries in a speech application
JP2002062891A (ja) 音素割当て方法
JPH02273795A (ja) 連続音声認識方法
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
KR20170011636A (ko) 음성 인식 장치 및 방법, 그를 위한 모델 생성 장치 및 방법
US20030154080A1 (en) Method and apparatus for modification of audio input to a data processing system
KR20060050361A (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
KR20040068023A (ko) 은닉 궤적 은닉 마르코프 모델을 이용한 음성 인식 방법
EP1398758B1 (en) Method and apparatus for generating decision tree questions for speech processing
JP2000347681A (ja) テキスト・ベースの音声合成を利用した音声制御システム用の再生方法
JP5196114B2 (ja) 音声認識装置およびプログラム
JP2015161927A (ja) 音響モデル生成装置、音響モデルの生産方法、およびプログラム
US11043212B2 (en) Speech signal processing and evaluation
JP2009069276A (ja) 音声認識装置、自動翻訳装置、音声認識方法、プログラム、及びデータ構造
US6934680B2 (en) Method for generating a statistic for phone lengths and method for determining the length of individual phones for speech synthesis