JP2002520664A

JP2002520664A - 言語に依存しない音声認識

Info

Publication number: JP2002520664A
Application number: JP2000559559A
Authority: JP
Inventors: ダフーア、バート; バン・コンパノール、ダーク
Original assignee: ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ
Priority date: 1998-07-10
Filing date: 1999-07-08
Publication date: 2002-07-09
Also published as: EP1095371A1; WO2000003386A1; US6085160A

Abstract

(57)【要約】音声認識システムは、単語に結び付けられるスピーチユニットを表現するための他言語からのスピーチデータから得られる、言語に依存しない音響モデルを用いる。それに加えて、言語に依存しない音響モデルと比較される入力スピーチ信号は、他言語からのスピーチデータから得られるコードブックに従って量子化されたベクトルであってもよい。

Description

【発明の詳細な説明】

【０００１】発明の技術分野本発明は、音声認識システムに関する。

【０００２】発明の背景技術現行の音声認識システムは、ただ個々の言語のみをサポートする。もし、もう
一つの言語が認識される必要があるならば、音響モデルは交換されなければなら
ない。大抵の音声認識システムのために、記録されたスピーチの大きい集まりか
ら統計上の情報を抽出することによって、これらのモデルが構築されるか、ある
いは、トレーニングされる。所定の言語において音声認識を提供するために、あ
る言語のすべての音を表す音素として知られるシンボルのセットを典型的に定義
する。いくらかのシステムは、所定の言語の基準音を表すために、「音素的ユニ
ット」としてより一般的に知られる他の部分語（サブワード）のユニットを用い
る。これらの音素的ユニットは、隠れマルコフモデル（ＨＭＭｓ）及び当該技術
において周知である他の音声モデルによって設計されるバイフォン（biphone）
とトライフォン（triphone）を含む。

【０００３】話されたサンプルの多くは、典型的に、各音素について音響モデルの抽出を可
能にするために記録される。通常、多くのネイティブスピーカー（母国語話者）
、すなわち、言語を母国語とする人は、多くの発話を記録することを必要とされ
る。一セットの録音は、スピーチデータベースとして言及される。サポートされ
るべきすべての言語のためのそのようなスピーチデータベースの録音は、非常に
高価であり、時間の浪費でもある。

【０００４】発明の概要（以下の記述と特許請求の範囲において、もし、文脈が他の意味で用いること
を要求するのでなければ、音声認識システムに関連する用語「言語に依存しない
（language independent）」は、音声認識システムにおいて設計される複数の言
語に独立して存在する認識能力を意味する。）本発明の好ましい実施の形態では、スピーチプリプロセッサ、音響モデルのデ
ータベース、言語モデル、及びスピーチレコグナイザー（認識器）を備える、言
語に依存しない音声認識システムが提供される。スピーチプリプロセッサは、入
力スピーチを受信し、入力スピーチを表すスピーチ関連信号を生成する。音響モ
デルのデータベースは、複数の言語のそれぞれで各サブワードユニットを表す。
言語モデルは、認識可能な単語の語彙及び一セットの文法規則の特性を表し、ス
ピーチ認識器は、スピーチ関連信号と音響モデル及び言語モデルとを比較し、入
力スピーチを少なくとも一単語の特定の単語シーケンスとして認識する。

【０００５】さらに関連した実施の形態では、スピーチプリプロセッサは、スピーチ関連信
号を生成するために、適切なスピーチパラメーターを抽出する特徴抽出器を備え
る。特徴抽出機は、スピーチデータを用いて複数の言語から作られたコードブッ
クを含み、スピーチ関連が一連の特徴ベクトルであるようなベクトル量子化を用
いてもよい。

【０００６】その代わりに、あるいはそれに加えて、一実施の形態は、スピーチデータを用
いて複数の言語から音響モデルを作ってもよい。サブワードユニットは、少なく
とも一つの音素、音素の一部、及び音素のシーケンスであってもよい。認識可能
な単語の語彙は、固有名詞、複数の言語に存在しない言語内の単語、又は、外来
の単語を含む複数の言語における単語を含んでもよい。それに加えて、認識可能
な単語の語彙における単語は、データベースから音響モデルのユーザーによって
調整されたシーケンスで構成された声紋によって記述されてもよい。そのような
一実施の形態は、スピーチ入力の話者の同一性を決定するために声紋を用いる話
者識別器（speaker identifier）をさらに含んでもよい。

【０００７】さらにもう一つの実施の形態では、スピーチ認識器は、適切なスピーチパラメ
ーターと、複数の言語中の第１の言語のサブワードユニットを表す音響モデルと
を比較し、それから、ネイティブスピーカーでない人からの入力スピーチが認識
され得るように、複数の言語中の第２の言語の少なくとも１つの単語の特定の単
語シーケンスとしてスピーチ入力を認識してもよい。

【０００８】本発明のもう一つの実施の形態は、コンピューターにロードされるとき、記述
された言語に依存しない音声認識システムの一実施の形態に関連して操作するユ
ーザーに外国語を教えるためのコンピュータープログラムでコード化されたコン
ピューターで読取り可能なデジタル記憶媒体を含む。

【０００９】本発明の実施の形態は、また、上述されたシステムの一つを用いる言語に依存
しない音声認識システムの方法を含む。

【００１０】好ましい実施の形態の詳細な記述先行技術における典型的な音声認識エンジンの操作は、図１に示される。スピ
ーチ信号１０は、プリプロセッサ１１に送られ、そこでは、適切なパラメーター
がスピーチ信号１０から抽出される。パターンマッチング認識器１２は、音響モ
デル１３と言語モデル１４に基づいて、最も良い単語シーケンス認識結果１５を
見付け出すよう試みる。言語モデル１４は、単語と、その単語が文を形成するた
めにどのように接続するかを記述する。それは、孤立された単語認識器の場合に
は単語のリストと同様にシンプルであり、また、大語彙の連続音声認識のための
統計的な言語モデルと同様に複雑であってもよい。音響モデル１３は、プリプロ
セッサ１１からのスピーチパラメーターと認識されるべき認識シンボルとの間の
リンクを確立する。中及び大語彙システムでは、認識シンボルは、音素、又は単
語を形成するために結び付けられる音素的ユニットである。音声認識システムの
設計におけるさらなる情報は、例えば、ラビナー（Rabiner）とジュアング（Jua
ng）による、１９９３年プリエンティスホール「音声認識の基礎」（以下、「ラ
ビナーとジュアング」という。）で提供される。

【００１１】先行技術のシステムでは、図２に示されるように、あらゆる所定の言語１のた
めに、言語１−特定記録スピーチデータ２０は、その言語において各音素２１を
表す音響モデル２２を生成するために用いられる。他の所定の言語２の場合には
、言語２−特定記録スピーチデータ２５は、その言語２における各音素２３を表
すその言語特有の他の音響モデル２４を生成するために用いられる。

【００１２】図３は、本発明の好ましい実施の形態において生成される音響モデルを示す。
スピーチデータを記録し、別々にすべての言語のための音響モデルを構築する代
わりに、上述のように、世界すべての言語、あるいは、ヨーロッパ又は東洋の言
語のような大グループの言語、あるいは任意の複数の言語をサポートするのに、
音響モデルの唯一の全体集合が用いられる。これを達成するために、統計的な情
報が音響モデルを創り出すために検索されるスピーチデータベースは、いくつか
の言語のスピーチ３３を含み、すべての可能な音素又はこれらの言語における音
素的ユニットをカバーする。したがって、特定の音素の音響モデルは、多言語か
らのスピーチに基づいて組み立てられる。それゆえ、すべての望ましい言語をカ
バーする全音素のリスト３１は、対応する音響モデル３２とともに、音声認識シ
ステムに含まれる。各音素３１が単音のユニークな表現であるので、いくつかの
言語に現れる音は、同じ音素によって表され、同じ対応する音響モデル３２を持
つ。音素の代わりに、別の実施の形態は、隠れマルコフモデル（HMMs）等に基づ
くバイフォンとトライフォンのような、音素的なサブワードユニットを用いても
よい。もう一つの実施の形態では、図１の言語モデル１４は省略され、認識器１
２によるパターンマッチングは、プリプロセッサ１１からのスピーチパラメータ
ーと音響モデル１３との比較のみに基づいてもよい。

【００１３】好ましい実施の一形態における音声認識システムは、離散密度ＨＭＭ音素ベー
スの連続認識エンジンに基づいており、図４に示される。これらの認識エンジン
は、電話スピーチ、マイクロフォンスピーチ、又は他の有利な応用のために有用
である。入力スピーチ信号は、最初にある形態の前処理を受ける。図４に示され
るように、好ましい実施の一形態は、入力スピーチ信号を処理し、１０ミリ秒毎
に一度３０ミリ秒のスピーチセグメントのために、エネルギーとスペクトルのプ
ロパティ（ケプストラム）を計算する、ベクトル量子化特性抽出モジュール４１
を用いる。電話音声認識エンジンの好ましい実施の形態は、第１及び第２オーダ
ーの派生語とともに、１２ケプストラム係数とログエネルギーを導出するために
、一般に周知のＬＰＣ解析法を用いる。マイクロフォン音声認識エンジンの好ま
しい実施の形態は、同一の目的を達成するために、一般に周知のＭＥＬ−ＦＦＴ
法を用いる。各スピーチフレームのための両エンジンの結果は、１２ケプストラ
、１２デルタケプストラ、１２デルタデルタケプストラ、デルタログエネルギー
、及びデルタデルタログエネルギーのベクトルである。これらのスピーチ前処理
技術は、当該技術では周知である。この主題の追加の議論のために、例えば、ラ
ビナーとジュアングの「スープラ（supra）」１１２〜１１７、１８８〜１９０
頁を見よ。その処理の残りの部分は、両エンジンとも同じである。

【００１４】離散密度ＨＭＭを使用する好ましい実施の形態では、このシステムは、特性ベ
クトルに最もよくマッチするコードブック４３からの原型（又はコード語）がそ
れぞれの観察された特性ベクトルに取って替わるベクトル量子化特性抽出モジュ
ール４１を使用する。コードブック４３は、コードブック４３の全ひずみを最小
にする一般に用いられるｋ手段密集方法のような、いくらかの費用関数を最小に
するアルゴリズム４６とともに、複数の言語のそれぞれから記録されたスピーチ
データ４５を含む大きいスピーチデータベース４４を用いて設計され、作り出さ
れる。先行技術における単言語システムコードブックは、目的言語のみからのス
ピーチデータを用いて設計され、作り出される。他方、本発明の好ましい実施の
形態は、すべての言語からのデータが同等量あるように、大多数の言語からのス
ピーチを用い、スピーチデータを選択する多言語モデルに基づいている。そのよ
うな実施の形態では、ケプストラのための一つ、デルタケプストラのための一つ
、デルタデルタケプストラのための一つ、及びデルタログエネルギーとデルタデ
ルタログエネルギーのための一つから、４つのコードブック４３が組み立てられ
てもよい。各コードブック４３は、設計アルゴリズムを用いる：

【００１５】以上、好ましい実施の形態が、スピーチ入力信号を初めに処理するためのベク
トル量子化技術に基礎を置くコードブックを用いるように記述されたが、本発明
の他の実施の形態では、例えば、連続密度に基づく音声認識システムで用いられ
るように、最初のスピーチ処理の他の方法を使用してもよい。

【００１６】上述のように、入力スピーチ信号がベクトル量子化によって前処理されると、
図４において４８のスピーチ認識器は、スピーチ信号と、言語モデル４９及び音
素データベース４７における音響モデルとを比較する。どれか一つの特定の言語
の音素（または他のサブワードユニット）のための音響モデルを作る代わりに、
好ましい実施の形態は、多数の言語に現れるすべての音素のための音響モデルを
用いる。そのようなすべての言語に依存しない音素のリストは、様々な望ましい
言語のそれぞれから特定の音素リストを併合することによって組み立てられる。
好ましい実施の形態は、Ｌ＆Ｈ＋、即ち、単一のシンボルによって各音を表すす
べての言語をカバーするために設計された音声アルファベットを用いる。そこで
は、各シンボルは、単一の音を表す。テーブル１は、イギリス英語、オランダ語
、アメリカ英語、フランス語、ドイツ語、イタリア語、スペイン語、及び日本語
にマイクロフォンモデルを向けるために用いられる多言語音素リストを示す。各
音素のために、そのテーブルは、それがどの言語に現れるかを示す。例えば、音
素Ａは、イギリス英語、オランダ語、アメリカ英語、フランス語、及び日本語の
スピーチに向けられる。

【００１７】単一言語と多言語の音響モデルのためのトレーニング手続は、ともに標準トレ
ーニング技術を用いる。それらは、渡されるデータのタイプとトレーニングされ
るスピーチユニットにおいて異なる。トレーニングは、特定の音素セットをカバ
ーする音響モデル４７のデータベースの構築として見られ得る。トレーニング処
理は、離散密度ＨＭＭのＶｉｔｅｒｂｉトレーニングを用いる文脈に依存しない
モデルをトレーニングすることによって始まる。それから、音素モデルは、１４
クラスに自動的に分類される。クラス情報に基づいて、文脈依存の音素モデルが
組み立てられる。次に、文脈依存のモデルは、離散密度ＨＭＭのＶｉｔｅｒｂｉ
トレーニングを用いてトレーニングされる。文脈依存及び文脈に依存しない音素
モデルは併合され、最後に、劣悪にトレーニングされた文脈依存のモデルは、文
脈に依存しないモデルより円滑にされる。そのような音響モデルトレーニング方
法は、音声認識の技術においては周知である。これに類似のトレーニング技術は
、連続密度に基づく音声認識システムベースのような、他の実施の形態で使用さ
れてもよい。

【００１８】先行技術の単一言語音響モデルは、目標言語からのスピーチに向けてトレーニ
ングされる。したがって、所定の音素の音響モデルは、単一言語からのスピーチ
サンプルのみに基づいてトレーニングされる。音声認識器エンジンは、その言語
の単語のみを認識し得る。いくつかの言語のための別々の音響モデルライブラリ
ーが構成されてもよいが、それらは、容易に結合され得ない。離散密度音声認識
システムベースにおいて、言語がちがうとコードブックが相容れないので、それ
らを一つのデータベースにまとめることさえ可能ではない。他方、好ましい実施
の形態における多言語音響モデルは、多言語から記録されたスピーチデータ４５
を含むスピーチデータベース４４に向けられる。トレーニングの結果、言語に依
存しない音素の全リストに対応する離散密度ＨＭＭ音響モデル４７のデータベー
スが与えられる。音素モデルには、それが一つの言語でのみ観察されるので、特
定の言語にのみ用いられるものもある。他の音素モデルは、一つより多い言語か
らのスピーチに向けられる。

【００１９】そのシステムは、音響モデルデータベース４７に入っているスピーチユニット
で、認識し得る単語の発音を表すことによって、その語彙の単語を表現する。単
一言語音響モデルデータベースの場合には、これは、一言語の単語だけが記述さ
れ得ることを意味する。また、外国の単語の場合は、その特定の言語のスピーチ
ユニットでそれらを記述することによって単語をシミュレートすることを意味す
る。好ましい実施の形態では、多言語音響モデルデータベース４７は、目標とさ
れる複数の言語のいずれかの単語を記述し得る音素モデルを含む。単一言語か又
は多言語のいずれの実施においても、単語は、自動的にあるいはユーザーとの対
話によって音声認識システムの語彙に加えられてもよい。しかしながら、自動的
かあるいは対話式かに関わらず、多言語認識器の好ましい実施の形態は、認識器
が知っているいくつかの言語の単語を含み得る語彙、即ち、単語のリストを用い
る。従って、異なる言語の単語を認識することは可能である。単語追加のための
詳細な手順は、単一言語と多言語音声認識システムで結果的に異なる。

【００２０】単一言語システムでは、対話式単語追加モードは、ユーザーが単語（例えば、
「Ｌ＆Ｈ」）をタイプすることによってそれを入力して始まる。新しい単語は、
自動的なテキストから音声への変換モジュールに導く、規則に基づくシステムに
よって、あるいは、辞書検索によって、音素表現に自動的に変換される。ユーザ
ーは、ちょうど生成された音訳を読み上げるテキスト音声変換システム（例えば
、そのシステムは「ルーノウトアンドオスピープロダクツ（Lernout and Hauspi
e Speech Products）」という）の出力を聞くことによって、音訳をチェックし
得る。もし、ユーザーがその発音に満足しないならば、彼は、２つの方法（例え
ば、ユーザーが「エルとエイチ（el and eitch）」を好むだろう）で音訳を変更
し得る。直接音訳を編集することによって、ユーザーは、テキストから音声への
システムで変えられた音声ストリングを再生させることによって、なされた変更
を聞き得る。また、ユーザーは、彼が実際に別のつづりの分野で欲するもののよ
うに響く単語（例えば、「L. and H.」）を入力してもよく、システムは、音の
ようなアイテムを音素に変換し、「リアルな」音のための音訳としてこれを用い
る。ユーザーが新しい単語の発音に満足すると、彼は、それを受け入れ得、音訳
ユニットがモデルデータベースから検索され、その単語が認識器に加えられ、認
識され得るに至る。

【００２１】しかしながら、好ましい実施の形態の多言語システムは、対話式で単語を加え
るための手順が幾らか異なる。第一に、前と同様に、ユーザーは、それをタイプ
することによって新しい単語を入力する。システムは、辞書検索及び／又は規則
に基づくシステムを介して、単語の言語を自動的に決定し、ユーザーに１以上の
選択対象の種類を示す。選ばれた言語のそれぞれについて、その単語は、その特
定の言語の自動的なテキストから音声への変換モジュールから得られた規則に基
づくシステムによって音声表現に自動的に変換される。ユーザーは、ちょうど生
成される音訳を読み出すテキスト−音声システムの出力を聞くことによって、音
訳をチェックし得る。もし、システムがなした言語選択にユーザーが満足しない
ならば、彼は、システムを無効にして、１以上の言語を直接指摘し得る。もし、
ユーザーが発音に満足しないならば、彼は、選択された言語のそれぞれについて
、２つの方法で音訳を変更し得る。ユーザーは、直接音訳を編集してもよい。彼
は、テキスト−音声システムで、変えられた音声ストリングを再生することによ
って、なされた変更を聞き得る。このようにして、ユーザーは、もう一つの言語
から来る音素記号を使用し得るが、変更を聞くことが必ずしも可能ではない。そ
の代わりに、ユーザーは、別のつづりの分野で彼が実際に欲するもののように響
く単語を入力してもよい。システムは、音のようなアイテムを音素に変換し、こ
れを「リアルな」単語のための音訳として用いる。ユーザーが単語の音訳に満足
すると、彼はそれを受け入れ得る。音訳ユニットは、モデルデータベースから検
索され、単語は認識器に追加され、認識され得るに至る。

【００２２】認識器に単語を入力するための自動モードもまた、単一言語と多言語とシステ
ム間で異なる。単一言語システムでは、アプリケーションプログラムは、音声認
識システムに認識させたい単語を与え、その単語は、自動的なテキストから音声
への変換モジュールから与えられる規則に基づくシステムによって、あるいは、
辞書検索によって、音声表現に自動的に変換される。音訳ユニットは、モジュー
ルデータベースから検索され、その単語は、認識器に追加され、認識され得るに
至る。しかしながら、好ましい実施の形態の多言語システムでは、アプリケーシ
ョンプログラムは、音声認識システムに認識させたい単語を与え、その単語につ
いて１以上の言語を随意に示す。もし、言語が示されないならば、システムは、
辞書検索によって、あるいは、規則に基づくシステムを介して、自動的に言語を
決定し、１以上の言語選択を与える。各言語のために、単語は、自動的なテキス
トから音声への変換モジュールで得られる規則に基づくシステムによって、音声
表現に自動的に変換される。音訳ユニットは、モデルデータベースから検索され
、単語は、認識器に加えられ、認識され得るに至る。

【００２３】好ましい実施の形態の多言語システムもまた、翻訳モードをサポートする。そ
のようなシステムでは、１以上の単語は、上記で説明された手順に従って単一言
語のための認識器に加えられる。自動翻訳システムは、認識器によってサポート
される１以上の他の言語に単語を翻訳する。各単語について、システムは、１以
上の候補を提案し得る。自動的に翻訳された単語は、認識器に加えられ、あるい
は、対話式に編集されてもよい。

【００２４】好ましい実施の形態は、また、新しい言語の単語の認識を可能にする。特定の
言語のために生成する音響モデルが大量のスピーチデータの記録を必要とするの
で、新しい言語のための音声認識器の開発は、コストがかかり、時間も消費する
。多言語認識器のモデルデータベースは、単一言語モデルよりも多くの音素をサ
ポートする。このデータベースにサポートされていない音素を見出す可能性は低
いので、トレーニングデータに存在しなかった言語の単語を記述することが可能
になる。この記述は、単一の異なる言語の音素における単語の記述よりもずっと
正確である。新しい言語の単語を認識するために、好ましい実施の形態は、新し
い単語とそれらの音声表現の入力だけを必要とする。トレーニングの必要はない
。

【００２５】先行技術の音声認識システムは、一般的に、ネイティブでない話者からのスピ
ーチを認識するのにてこずる。それには２つの主な理由がある。１）ネイティブ
でない話者は、時々単語を正確に発音しない、２）ネイティブでない話者は、時
々、いくつかの音を正確に発音しない、である。好ましい実施の形態におけるよ
うな多言語モデルは、ネイティブでない話者のスピーチをより効果的に認識する
。なぜならば、各音素のためのモデルは、いくつかの言語でトレーニングされ、
アクセントによる変化により強い。それに加えて、単語の語彙を作るとき、ユー
ザーは、音訳を容易に編集でき、外国語の影響を記述するために、異なる言語の
音素を用いることが可能である。

【００２６】話者に依存する単語のトレーニングのような、あるアルゴリズムは、ユーザー
による特定の単語のわずかな発話に基づいて、その単語の最大限可能な音訳を見
出そうと試みる。ほとんどの場合、ユーザーのネイティブ言語は、知られない。
単一言語モデルが用いられるとき、音声認識システムは、たとえ、スピーチが完
全に異なる言語からであっても、スピーチを言語の特定のシンボルにマッピング
するのに制限される。ネイティブでない話者は、単一言語モデルのモデルデータ
ベースによってうまく表され得ない音を作り出すかもしれない。本発明の好まし
い実施の形態は、音素モデルデータベースがずっと広い音の範囲をカバーするの
で、このタイプの問題を避ける。単語は、ユーザーに数回単語を発音させること
によって、認識器に加えられ得る。システムは、音素モデルデータベースと口に
出されるスピーチに基づいて、単語を記述するために、最大限可能な音素若しく
はモデルユニットシーケンスを自動的に構築するだろう。このシーケンスは、声
紋として言及される。これらの声紋は、話者によるトレーニングされた単語の発
話を認識するために用いられ得る。声紋が他の話者のスピーチより目標とされる
話者のスピーチによりよくマッチするので、それは、また、話者の識別を確認又
は検出するために、用いられ得る。これは、話者照合あるいは話者識別として言
及される。

【００２７】好ましい実施の形態は、また、言語に依存する音訳で言語に依存しない単語の
認識のために、有利に用いられる。いくつかの単語の発音は、話者の母国語に強
く依存する。これは、ユーザーの母国語が異なるか不明である場合のシステムで
は問題である。典型的な例は、固有名詞の認識である。オランダの名前は、オラ
ンダ人の話者とフランス人の話者によって異なって発音される。言語に依存する
システムは、通常、母国語の音素にマッピングすることによって外国人の発音変
形を記述する。上述のように、好ましい実施の形態の音声認識システムに単語を
加え、それが複数の言語で話されることを示すのは可能である。システムは、い
くつかの言語から規則セットで単語を翻訳して、いくつかの音訳を生成する。認
識器は、並列してすべての音訳を用いるので、すべての発音変形をカバーする。
これは、言語が知られない様々な話者によって用いられるアプリケーションにお
いて、固有名詞を認識するために特に有用である。

【００２８】言語学習プログラムは、ユーザーが生きた家庭教師の介入なしに、ある言語を
話すために学ぶことを助けるコンピュータープログラムである。自動音声認識シ
ステムは、しばしば、ユーザーの進歩を自らテストするのを助け、ユーザーが学
ばれるべき言語の発音を向上するのを助けるために、そのようなプログラムにお
いて用いられる。認識器の信頼レベル、即ち、モデルが発せられたスピーチにど
れくらいうまくマッチするかの示度は、ユーザーがそのモデルによって表される
単語又は分節をどれくらいうまく発音したかの示度である。モデルが発せられた
スピーチ、文節中の単語、あるいは発話中の音素の小さい部分にどれくらいうま
くマッチするかの測定である、局所の信頼は、ユーザーがどのようなタイプの間
違いをしたかの示度を与え得、ユーザーが取り組むべき特定の問題領域を示すた
めに用いられ得る。多言語モデルは、単一言語モデルより言語学習応用のために
より適する。母国語として言語１を持ち、言語２を学びたいユーザーは、言語対
（言語１、言語２）の典型的な間違いを犯すであろう。言語２にあるいくつかの
音素は、言語１には存在せず、そのため、母国語として言語１を持つ人々にとっ
て知られていない。彼らは、典型的に、言語１にある音素で知らない音素を置き
換え、それにより単語を間違って発音する。典型的な例は、フランス人がフラン
ス語の方法で英語のテキストの英単語を発音することである。なぜならば、同じ
単語が、フランス語にも存在するからである。このタイプの間違いは、各言語対
（言語１、言語２）における典型である。言語１あるいは言語２で特定される、
単一言語認識システムは、このような代用を検出できない。なぜならば、特定の
音素結合を記述するモデルが、利用可能でないからである。多言語モデルは、言
語１と言語２のすべての音素がカバーされるので、このタイプの間違いを検出す
るために用いられ得る。したがって、言語対に典型的な間違いを記述し、自動音
声認識システムの助けで特定の間違いを自動的に検出する規則で拡張される言語
対のための言語学習システムを作り出すことが可能になる。

【図面の簡単な説明】

本発明は、添付図面とともに得られる次の詳細な記述を参照することによって
、より容易に理解されるだろう。

【図１】図１は、典型的な音声認識システムに結び付けられる論理フローを図示する。

【図２】図２は、先行技術による多言語のための音素の音響モデルを図示する。

【図３】図３は、好ましい実施の形態による音素の全体集合を用いる多言語音響モデル
を図示する。

【図４】図４は、好ましい実施の形態による音声認識システムを図示する。

Claims

【特許請求の範囲】

【請求項１】言語に依存しない音声認識システムであって、ａ．入力スピーチを受信し、該入力スピーチに関連するスピーチ関連信号を
生成するスピーチプリプロセッサと、ｂ．複数の言語のそれぞれの各サブワードを表す音響モデルのデータベース
と、ｃ．認識可能な単語の語彙と一セットの文法規則の特徴を表す言語モデルと
、ｄ．前記スピーチ関連信号を前記音響モデル及び前記言語モデルと比較し、
少なくとも一つの単語の特定の単語シーケンスとして前記入力スピーチを認識す
る音声認識器と、を備えることを特徴とするシステム。
【請求項２】前記スピーチプリプロセッサは、前記スピーチ関連信号を生
成するために、適切なスピーチパラメーターを抽出する特徴抽出器を備えること
を特徴とする請求項１記載のシステム。
【請求項３】前記特徴抽出器は、前記複数の言語からスピーチデータを用
いて作り出されるコードブックを含み、前記スピーチ関連信号が一連の特徴ベク
トルであるように、該特徴抽出器がベクトル量子化を用いることを特徴とする請
求項２記載のシステム。
【請求項４】前記音響モデルは、前記複数の言語からスピーチデータを用
いて作り出されることを特徴とする請求項１記載のシステム。
【請求項５】前記サブワードユニットは、音素、音素の一部、及び音素の
シーケンスの少なくとも一つであることを特徴とする請求項１記載のシステム。
【請求項６】前記認識可能な単語の語彙は、前記複数の言語の単語を含む
ことを特徴とする請求項１記載のシステム。
【請求項７】前記認識可能な単語の語彙は、外来の単語を含むことを特徴
とする請求項１記載のシステム。
【請求項８】前記認識可能な単語の語彙は、前記複数の言語の固有名詞を
含むことを特徴とする請求項１記載のシステム。
【請求項９】前記認識可能な語彙内の単語は、前記データベースから音響
モデルのユーザーによって調整されたシーケンスで構成された声紋によって記述
されることを特徴とする請求項１記載のシステム。
【請求項１０】ｅ．スピーチ入力の話者の同一性を決定するために前記
声紋を用いる話者識別器、をさらに備えることを特徴とする請求項９記載のシステム。
【請求項１１】前記認識可能な単語の語彙は、前記複数の言語に存在しな
い一の言語の単語を含むことを特徴とする請求項１記載のシステム。
【請求項１２】前記音声認識器は、前記複数の言語内の第１の言語のサブ
ワードユニットを表す音響モデルと前記適切なスピーチパラメーターを比較し、
ネイティブスピーカーでない人からの入力スピーチが認識されるように、前記複
数の言語内の第２の言語の少なくとも一つの単語の特定の単語シーケンスとして
スピーチ入力を認識することを特徴とする請求項１記載のシステム。
【請求項１３】ユーザーに外国語を教えるためのコンピュータープログラ
ムで符号化されたコンピューターが読取り可能なデジタル記憶媒体であって、コンピューターにロードされるとき、請求項１記載の言語に依存しない音声認
識システムに関連して作動することを特徴とする記憶媒体。
【請求項１４】言語に依存しない音声認識方法であって、ａ．スピーチプリプロセッサで入力スピーチを受信し、該入力スピーチを表
すスピーチ関連信号を生成するステップと、ｂ．音響モデルのデータベースにおいて、複数の言語のそれぞれの各サブワ
ードユニットを表すステップと、ｃ．言語モデルにおいて、認識可能な単語の語彙と一セットの文法規則を特
徴付けるステップと、ｄ．音声認識器において、前記スピーチ関連信号を前記音響モデル及び前記
言語モデルと比較し、少なくとも一つの単語の特定の単語シーケンスとして前記
入力スピーチを認識するステップと、を有することを特徴とする方法。
【請求項１５】前記受信するステップは、適切なスピーチパラメーターを
抽出し、前記スピーチ関連信号を生成するための特徴抽出器をさらに備えるスピ
ーチプリプロセッサを用いることを特徴とする請求項１４記載の方法。
【請求項１６】前記特徴抽出器は、前記複数の言語からスピーチデータを
用いて作り出されるコードブックを含み、前記スピーチ関連信号が一連の特徴ベ
クトルであるように、該特徴抽出器がベクトル量子化を用いることを特徴とする
請求項１５記載の方法。
【請求項１７】前記音響モデルは、前記複数の言語からスピーチデータを
用いて作り出されることを特徴とする請求項１４記載の方法。
【請求項１８】前記サブワードユニットは、音素、音素の一部、及び音素
のシーケンスの少なくとも一つであることを特徴とする請求項１４記載の方法。
【請求項１９】前記認識可能な単語の語彙は、前記複数の言語の単語を含
むことを特徴とする請求項１４記載の方法。
【請求項２０】前記認識可能な単語の語彙は、外来の単語を含むことを特
徴とする請求項１４記載の方法。
【請求項２１】前記認識可能な単語の語彙は、前記複数の言語の固有名詞
を含むことを特徴とする請求項１４記載の方法。
【請求項２２】前記認識可能な語彙内の単語は、前記データベースから音
響モデルのユーザーによって調整されたシーケンスで構成された声紋によって記
述されることを特徴とする請求項１４記載の方法。
【請求項２３】ｅ．前記声紋を用いる話者識別器で、スピーチ入力の話
者の同一性を決定するステップ、をさらに有することを特徴とする請求項２２記載の方法。
【請求項２４】前記認識可能な単語の語彙は、前記複数の言語に存在しな
い一の言語の単語を含むことを特徴とする請求項１４記載の方法。
【請求項２５】前記音声認識器は、前記複数の言語内の第１の言語のサブ
ワードユニットを表す音響モデルと前記適切なスピーチパラメーターを比較し、
ネイティブスピーカーでない人からの入力スピーチが認識されるように、前記複
数の言語内の第２の言語の少なくとも一つの単語の特定の単語シーケンスとして
スピーチ入力を認識することを特徴とする請求項１４記載の方法。
【請求項２６】ユーザーに外国語を教えるためのコンピュータープログラ
ムで符号化されたコンピューターが読取り可能なデジタル記憶媒体であって、コンピューターにロードされるとき、請求項１４記載の言語に依存しない音声
認識方法に関連して作動することを特徴とする記憶媒体。