JP2000505914A

JP2000505914A - 音声認識装置において、隠れマルコフ音声モデルを多言語で適用するための方法

Info

Publication number: JP2000505914A
Application number: JP10513130A
Authority: JP
Inventors: ケーラーヨアヒム
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 1996-09-10
Filing date: 1997-09-02
Publication date: 2000-05-16
Also published as: WO1998011537A3; DE19636739C1; EP0925461B1; EP0925461A2; CN1230277A; US6212500B1; WO1998011537A2

Abstract

(57)【要約】本発明により、種々の言語にわたって音の類似性を検出するための方法が提供される。さらに多言語音素を隠れマルコフモデル化するための新たな使用が記載されている。音響音素的モデル化のために提案された本発明の方法では、言語固有の特性も言語に依存する特性も、種々の言語に置いて種々の隠れマルコフ音声モデルに対して確率密度を統合する際に記述される。

Description

【発明の詳細な説明】音声認識装置において、隠れマルコフ音声モデルを多言語で適用するための方法本発明は、音声認識装置に対する隠れマルコフモデルに関連し、このモデルは、異なる言語間の音響的類似性および音声的類似性を使用することによって複数の言語単位で適用される。音声認識では、音声認識技術を導入すべき各言語に対して、適合を実行するために新たな音響音声的モデルをトレーニングしなければならないという大きな問題がある。通常、普及している音声認識装置では、隠れマルコフモデルが発声固有の音のモデル化に使用される。この統計的モデル化発声モデルから続いて音響的単語モデルが組み合わされ、この単語モデルは音声認識過程での探索プロセスの間に認識される。この発声モデルをトレーニングするためには非常に大量の音声データバンクが必要であり、その収集と処理には極端なコストと時間がかかる。このため、音声認識技術を１つの言語から別の言語に移植する際に欠点が生じる。なぜなら、新たな音声データバンクの作成は、一方では製品の高価格化を意味し、他方では市場投入時の時間的遅れを引き起こす。普及している入手可能な音声認識装置は専ら言語固有モデルを使用している。この装置を別の新たな言語に移植するためには、大量の音声データバンクが収集され処理される。続いて新たな言語に対する発声モデルがこの収集された言語データにより基礎から新たにトレーニングされる。音声認識装置を異なる言語に移植する際のコストと時間的遅れを低減するために、個々の発声モデルが異なる言語での使用に適するか否かを検査すべきである。このために［２］にはすでに多言語音声モデルの作成とこれをそれぞれの言語で音声認識に使用することが記載されている。そこには概念、ポリフォニームとモノフォニームが導入されている。ここでポリフォニーム音とは、その音声形成特性を複数の言語にわたって同一視するのにほぼ十分である音を意味する。モノフォニーム音は、言語固有の特性を有する音である。このような開発作業と研究に対して、新たな言語データバンクをそのたびにトレーニングする必要がないようにするため、すでに規格が存在している［６］、［４］、［７］。音声モデルを多言語適用するための他の従来技術はまだない。本発明の課題は、隠れマルコフ音声モデルを１つの音声認識装置で多言語適用するための方法を提供することであり、この方法により音声認識装置の他の言語への移植コストを最小にすることであり、このことは多言語音声認識装置でのパラメータを低減することにより行う。この課題は、請求項１と請求項６に記載の構成によって解決される。本発明の改善形態は従属請求項に記載されている。本発明の方法は有利には、統計的類似尺度をリストアップし、この類似尺度により所定数の異なる音声モデルから異なる言語での類似の音に対して次のような音声モデルを選択する、すなわちその特性の点で、それぞれの音で使用される特徴ベクトルがすべての最適に表される音声モデルを選択するのである。特に有利には、異なる音声特徴ベクトルに対して最適の隠れマルコフモデルを選択するための尺度として、それぞれの隠れマルコフモデルと各特徴ベクトルとの間の対数的確率間隔を検出する。これにより個々の音声モデルの類似性とその認識率についての実験的知見が反映された尺度が使用される。特に有利には、できるだけ再現性のある隠れマルコフ音声モデルを表す尺度として本発明では、各隠れマルコフモデルとそれぞれの特徴ベクトルとの間の対数的確率間隔の数学的平均値を形成する。なぜならこれにより対称的間隔値が得られるからである。有利には、異なる言語での音を表す隠れマルコフモデルの再現特性を記述する本発明の記述尺度は次のようにして形成される。すなわち本発明の数式１から３を適用することにより形成される。なぜならこれにより計算コストが小さくなるからである。特に有利には本発明の方法により、音声バイオグラフィーに対するメモリコストが低減される。なぜなら、１つのモデルを複数言語に対して使用することができ、同じように１つの言語から別の言語への移植コストが最小になるからである。このことは移植のための時間の低減にもつながる。同じように有利には、Vite rbi-探索の際の計算コストの低減が可能である。なぜなら例えば、多言語入力装置で検査しなければならないモデルの数が少ないからである。特に有利には本発明では、隠れマルコフモデルが多言語音声認識装置に適用するため発声される。本発明の手段により、隠れマルコフ音声モデルを多言語の音に対してポリフォニームモデルに統合することができる。このために、適用される標準確率密度分布の重畳領域が種々異なるモデルで探索される。ポリフォニームモデルを表すために、異なるモデルで適用される任意の数の同じ標準確率密度分布を利用することができる。実験的知見では次のことが示されている。すなわち、有利には複数の標準分布を異なる言語モデルから使用することができ、これによる個々の言語特性の混合がこのモデルを使用する際の認識率の有意な低下にはつながらないということが示されている。ここで、標準確率密度分布間で間隔閾値が５であると特に有利である。特に有利には本発明の方法を使用する際に、語頭音、語中間音、語終音からなる３つの状態の隠れマルコフモデルをモデル化する。なぜならこれにより十分な精度が音の記述の際に達成され、音声識別子での識別の際の計算コストが低く押さえられるからである。図１には例として多言語音の構造が示されている。この場合、音素Ｍが示されている。この音素に対する確率密度と認識率が表に示されている。図１には、音素モデルの語頭音Ｌ、語中間音Ｍ、語終音Ｒが示されている。種々異なる言語、英語ＥＮ、独語ＤＥ、西語ＳＰに対して、個々に適用された標準確率密度の確率密度分布がプロットされており、ＷＤとして示されている。ここでは例えば３つの部分状態からなる隠れマルコフモデルが示されている。しかし本発明は認識を最小の計算コストで実行し、ある程度の最適性が得られるという基準を考慮しているが、このような隠れマルコフモデルに制限されるものではない。本発明はまた、異なる数の状態を有する隠れマルコフモデルに適用することができる。本発明により例えば、音声認識装置を別の言語に移植する際の移植コストが低減され、使用される計算ソースが、基礎となるパラメータの低減によりできるだけ低く維持される。例えばこの種の音声認識装置により、ハードウェア必要性の制限を良好に満たすことができ、１つの同じ音声認識装置を１つの機器で多言語に適用する場合には非常に有利である。まず本発明の目的を達成するために、異なる言語での音の類似性を利用し、モデル化の際に考慮するには、言語が異なると音素も異なることに注意しなければならない。その理由はとりわけ次のとおりである。 −言語が異なれば音素集合が異なるため、音素的コンテクストが異なる； −発声様式が異なる； −プロソディー特徴が異なる； −異音バリエーションが異なる。ここで考慮すべき特に重要な側面は、基本的に十分な認知技術的相違が音素にあることである［５］。このことは、異なる言語での個々の音は音響的に区別可能に維持され、従って個々の聴取者はこれを容易に分離できることを意味する。しかし各個別の言語は異なる音素資源を有しており、２つの類似の音素間の境界は各個別の言語に置いて言語固有に設定されている。この理由から所定の音の出現は言語固有の要素である。有利には音素は連続的に密な隠れマルコフモデル（ＣＤ−ＨＭＭ）を用いてモデル化される［３］。密な関数としてしばしばラプラス混合が使用される。ここで有利には各個々の音素は、左から右へ向いたＨＭＭの３つの状態からなる。ここで音響的特徴ベクトルは例えば２４スカラー・セプストラル、１２デルタ・セプストラル、１２デルタ・デルタ・セプストラル、エネルギー、デルタ・エネルギー、およびデルタ・デルタ・エネルギー係数からなる。例えば探索時間窓の長さとして２５ｍｓが選択されれば、個々のフレーム間のフレーム間隔は１０ｍｓである。言語本体の大きさが制限されているため、有利には単に文脈に依存しない音素だけが発生される。特に記述性のある音素目録が［４］から選択された。本発明の基本思想は、標準的に使用される言語音素ライブラリーから異なる言語に対して、異なる言語の異なる音声モデルから導出された特徴ベクトルに最も近い隠れマルコフモデルを選択することができるように類似性尺度を作成することである。このことにより２つの音素モデルの類似性を検出することができ、この類似性尺度を介して、音声実現化と音声モデルとの間の対数見込み値の差に基づいて次のような予測を行うのである。１つの音を複数の言語に対してモデル化する甲斐があるか否か、すなわち該当するすでに存在する隠れマルコフモデルを複数の言語における音のモデル化に使用する甲斐があるか否かの予測が行われる。このことにより、音声認識の際に考慮すべきパラメータの数が低減される。これは探索すべき隠れマルコフモデルの数が低減するからである本発明の第２の解決手段では、固有のポリフォニームモデルを複数の言語における音のモデル化のために作成する。このためにまず例えば、語頭音、語中間音語終音の形態の３つの音セグメントが形成される。これらの状態は複数の確率密度関数、所属の密度を伴ういわゆる混合分布密度からなる。異なる言語にわたって類似の音セグメントのこの密度は多言語コードブックにまとめられる。従って異なる言語の音セグメントは同じ密度に分けられる。コードブックは複数の言語に対して同時に使用できるが、例えば密度を各言語に対して重み付けする重み付け係数は各言語に対して別個に検出される。適切な類似尺度を形成するために、有利には隠れマルコフモデルは３つの状態により利用される。間隔尺度または類似性尺度はここで複数の音素モデルを１つの多言語音素モデルにまとめるために、またはこれを適切に置換するために使用することができる。これによって多言語音素資源を開発することができる。有利には、異なる言語からの同じ音の２つの音素モデルを間隔測定ないし類似性検出するのために、１つの測定量を使用する。この測定量は相対エントロピーに基づく［１］。ここではトレーニングの間に、音素モデルの混合されたラプラス密度分布のパラメータが検出される。さらに各音素に対して音素トークンＸの集合が特徴ベクトルとしてテストまたは開発言語本体から抽出される。この音素はここで、その国際的標準音素ラベルによりマーキングすることができる。本発明によれば、２つの音素モデルλ_iとλ_jおよびそれらに所属する音素トークンＸ_iとＸ_jが、これら異なる音素間の類似性検出のために次のように取り扱われる。この間隔尺度は、対数見込み間隔として見なすことができ、どの程度良好に２つの異なるモデルが同じ特徴ベクトルＸ_Iに適合しているかを表す。従って２つのモデルλ_iとλ_jとの間の間隔は次のように検出される。これら２つの音素モデル間の対称間隔を得るために有利にはこれが次のように検出される。実験的知見に基づき、他の言語からのいくつかの音素モデルがドイツ語音声認識装置での使用に、ドイツ語音素モデルよりも良く適することが発見された。例えばこれは音素ｋ，ｐおよびＮに対して当てはまる。これらの音素に対しては英語音素モデルがドイツ語音素モデルよりも適する。一方ドイツ語モデルと英語モデルとの大きな相違はウムラウトａＵで観察された。このことは２つの音に対して異なるシンボルを多言語音素資源で導入すべきであることを意味する。一方でウムラウトａＩに対しては、ドイツ語と英語とで大きな類似性が発見できた。このことは単に１つの音素モデルを両方の言語に対して同じように良好に適用できることを意味する。ここから出発して、多言語音素資源の各シンボルに対しては別個の統計的モデルを使用すべきである。［６］には、ポリフォニームがそのような音素として示されており、異なる言語においてただ１つの音素としてモデル化するのに十分な類似性がある。この手段の欠点は、言語固有の認識に対してポリフォニームの完全な音響空間が使用されることである。しかし本発明の目的は、多言語モデルの、言語に依存する音響特性と言語固有の音響特性を結合することである。本発明によれば、ポリフォニームモデルにおいてそのような音響空間の領域が限定される。すなわち個々の音素の使用される確率密度が重なる領域が限定される。このため、例えば群分けされた密度クラスタリング技術（agglommerative density clustering technique）が使用され、音素の同じまたは類似の表出が低減される。ここで注意すべき特に重要なことは、まとめることができるのは音素における個々の隠れマルコフモデルの相応する状態の密度だけだということである。図１では、個々の状態Ｌ、Ｍ、Ｒに対するそれぞれの密度が限定された領域に含まれている。同じ密度が個々の言語ＥＮ，ＤＥ，ＳＰにわたって分散されており、混合重み付け係数は言語に依存して異なっている。しかしこの評価では、異なる言語における音素の固有の表出は頻度の相違として発生することを考慮しなければならない。ここで異なる確率密度の統合は、密度頻度（デンシティ・クラスタリング）における確率密度に対する種々の閾値によって実行することができる。例えば５つの間隔閾値により、使用された密度の数は係数３だけ出発状態に対して低減された。またこれによる音声認識率の重大な悪化も生じなかった。この場合、元の３４１出発密度の２２１，４８および７２がそれぞれポリフォニーム領域、２言語領域および単言語領域にまとめられた。図１にはこのようなポリフォニーム領域が個々の言語に対し円の切断部分として示されている。図示の隠れマルコフモデルの語中間音Ｍでは、例えば確率密度がそのような領域にＷＤＰとして示されている。完全な多言語音声認識装置に対する認識率はここでは表２の４列と５列にＭＬ１およびＭＬ２としてプロットされている。第１の探索ＭＬ１では［６］からの従来のポリフォニーム定義が認識に使用されているが、このことはポリフォニームモデルの音響領域が全体が図１の音声領域の外側輪郭から成ることを意味する。一方、本発明の方法はそこの部分領域だけを使用する。ポリフォニームモデルの個々のモデル化のために個々の音声領域の部分的重なり領域を使用することにより、例えば２％の改善が達成される。このことは表２のＭＬ２に対する列に示されている。本発明で引用された刊行物は以下のとおりである。

【手続補正書】特許法第１８４条の８第１項【提出日】１９９８年９月２日（１９９８．９．２）【補正内容】有モデルを使用している。この装置を別の新たな言語に移植するためには、大量の音声データバンクが収集され処理される。続いて新たな言語に対する発声モデルがこの収集された言語データにより基礎から新たにトレーニングされる。音声認識装置を異なる言語に移植する際のコストと時間的遅れを低減するために、個々の発声モデルが異なる言語での使用に適するか否かを検査すべきである。このために［２］にはすでに多言語音声モデルの作成とこれをそれぞれの言語で音声認識に使用することが記載されている。そこには概念、ポリフォニームとモノフォニームが導入されている。ここでポリフォニーム音とは、その音声形成特性を複数の言語にわたって同一視するのにほぼ十分である音を意味する。モノフォニーム音は、言語固有の特性を有する音である。このような開発作業と研究に対して、新たな言語データバンクをそのたびにトレーニングする必要がないようにするため、すでに規格が存在している［６］、［４］、［７］。［８］から、多言語音声認識のために特別な音素とこの音素の隠れマルコフモデルを適用することが公知である。音素モデルを多言語適用するための技術はまだ公知でない。本発明の課題は、隠れマルコフ音声モデルを１つの音声認識装置で多言語適用するための方法を提供することであり、この方法により音声認識装置の他の言語への移植コストを最小にすることであり、このことは多言語音声認識装置でのパラメータを低減することに本発明で引用された刊行物は以下のとおりである。請求の範囲１．音声認識装置において、隠れマルコフ音声モデルを多言語で適用するための方法において、ａ）第１の言語（ＳＰ，ＥＮ，ＤＥ）における第１の音（Ｌ、Ｍ、Ｒ）に対する少なくとも１つの第１の特徴ベクトルと、少なくとも１つの第２の言語（ＤＥ，ＳＰ，ＥＮ）における比較可能に発声された第２の音に対する第２の特徴ベクトルと、それらに所属する第１および第２の隠れマルコフ音声モデルとに基づいて、２つの隠れマルコフ音声モデル（Ｌ、Ｍ、Ｒ）のどちらが両方の特徴ベクトルを所定の基準の点でより良好に記述するかを検出し、ｂ）当該隠れマルコフ音声モデル（Ｌ、Ｍ、Ｒ）を少なくとも２つの言語（ＳＰ，ＥＮ，ＤＥ）における音のモデル化に使用する、ことを特徴とする方法。

Claims

【特許請求の範囲】１．音声認識装置において、隠れマルコフ音声モデルを多言語で適用する方法において、ａ）第１の言語（ＳＰ，ＥＮ，ＤＥ）における第１の音（Ｌ、Ｍ、Ｒ）に対する少なくとも１つの第１の特徴ベクトルと、少なくとも１つの第２の言語（ＤＥ，ＳＰ，ＥＮ）における比較可能に発声された第２の音に対する第２の特徴ベクトルと、それらに所属する第１および第２の隠れマルコフ音声モデルとに基づいて、２つの隠れマルコフ音声モデル（Ｌ、Ｍ、Ｒ）のどちらが両方の特徴ベクトルをより良好に記述するかを検出し、ｂ）当該隠れマルコフ音声モデル（Ｌ、Ｍ、Ｒ）を少なくとも２つの言語（ＳＰ，ＥＮ，ＤＥ）における音のモデル化に使用する、ことを特徴とする方法。２．隠れマルコフ音声モデル（Ｌ、Ｍ、Ｒ）による特徴ベクトルの記述に対する尺度として、対数的確率間隔を、各隠れマルコフ音声モデルと少なくとも１つの特徴ベクトルとの間の対数見込み間隔として形成し、ここでは比較的に小さい間隔が良好な記述を意味する、請求項１記載の方法。３．隠れマルコフ音声モデルによる特徴ベクトルの記述に対する尺度として、対数的確率間隔の算術平均値、ないし各隠れマルコフ音声モデル（Ｌ、Ｍ、Ｒ）とそれぞれの特徴ベクトルとの間の対数見込み間隔の算術平均値を形成し、ここでは比較的に小さい間隔が良好な記述を意味する、請求項２記載の方法。４．１つの音素λ_iの第１の隠れマルコフ音声モデル（Ｌ、Ｍ、Ｒ）と、１つの音素λ_jの第２音隠れマルコフ音声モデルとを使用し、第１および第２の特徴ベクトルＸ_iとＸ_jとして使用し、ここで第１の特徴ベクトルに対する対数的確率間隔を、に従って検出し、第２の特徴ベクトルに対する対数的確率間隔を、に従って検出し、算術平均値の対称間隔尺度を得るためにを使用する、請求項３記載の方法。５．少なくとも２つの言語における音のモデル化に対して、ｄ（λ_j；λ_i）が所定のしきい条件を満たす場合だけ前記隠れマルコフ音声モデル（Ｌ、Ｍ、Ｒ）を使用する、請求項４記載の方法。６．音声認識装置において、隠れマルコフ音声モデルを多言語で適用する方法において、ａ）第１の言語（ＳＰ，ＥＮ，ＤＥ）における第１の音に対する少なくとも１つの第１の隠れマルコフ音声モデル（Ｌ、Ｍ、Ｒ）と、少なくとも１つの第２の言語８ＤＥ，ＳＰ，ＥＮ）における比較可能に発声された第２の音に対する少なくとも１つの第２の隠れマルコフ音声モデル（Ｌ、Ｍ、Ｒ）とに基づいて、ポリフォニームモデルを次にように形成する、すなわち、第１および第２の隠れマルコフ音声モデル（Ｌ、Ｍ、Ｒ）のモデル化に使用された標準確率分布（ＷＤ）を、所定の間隔閾値までそれぞれ１つの新たな標準確率分布（ＷＤＰ）に統合し、当該統合された標準確率分布だけがポリフォニームモデルを特徴付け、前記所定の間隔閾値は、２つの標準確率分布（ＷＤ）間でどの程度の最大間隔までこれらを統合すべきかを表すものであり、ｂ）当該ポリフォニームモデルを少なくとも２つの言語（ＤＥ，ＳＰ，ＥＮ）において音のモデル化（Ｌ、Ｍ、Ｒ）に適用する、ことを特徴とする方法。７．間隔位置として５が設定される、請求項６記載の方法。８．３つの状態を有する隠れマルコフ音声モデルを適用し、当該３つの状態は、語頭音、語中間音、語終音の音セグメントから形成される、請求項１から７までのいずれか１項記載の方法。