JP2004511823A

JP2004511823A - 動的再構成可能音声認識システムとその方法

Info

Publication number: JP2004511823A
Application number: JP2002535116A
Authority: JP
Inventors: ローズ　リチャード　シー; ガジック　ボハナ
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 2000-10-13
Filing date: 2001-10-12
Publication date: 2004-04-15
Also published as: US20080221887A1; US8719017B2; EP1342233A4; US20140244251A1; CA2422768A1; US7457750B2; US9536524B2; EP1342233A1; WO2002031816A1; US20020046022A1; EP1342233B1

Abstract

音声認識モデルは、ユーザ情報、背景ノイズ等の背景情報および変換器の応答特性等の変換器情報に基づいて動的に再構成可能であり、ユーザに、キーボードテキスト入力に代わる入力モードが提供される（図５）。携帯電話および携帯情報端末等の小型装置において、またオフィス、家庭または自動車等の環境で音声認識を実現し、音声認識の精度を保つ、動的再構成可能音声認識技術が提供される。

Description

【０００１】
本願は、２０００年１０月１３日出願の米国仮出願６０／２４０，３２４号、「携帯機器による自動音声認識のための隠れマルコフモデル環境補償」（代理人整理番号２０００−０４９９，１０９０３９）の出願日の効果を主張する。仮出願の出願人は、ＲｉｃｈａｒｄＣ．ＲｏｓｅとＢｏｊａｎａＧＡＪＩＣである。上記仮出願は、その中で引用されている参考文献のすべてを含め、この引用をもって本願に援用する。
【０００２】
（技術分野）
本発明は、自動音声認識方法と装置に関する。
【０００３】
（背景技術）
携帯機器による情報記憶容量の増大と、ネットワーク上でアクセス可能な情報の増加に伴い、形態機器の利用が高まってきている。しかしながら、ウェブベースの電話、携通信信システム、携帯情報端末その他の携帯機器のための従来の入力方法には限界がある。たとえば、形態機器のキーボードのサイズは、携帯機器をできるだけ小型化する必要があることから、限定されている。
【０００４】
従来のようなサイズの限られたキーボードは通常、小型化、省スペース化のために、多機能キーを採用している。多機能キーは、前のキー列の選択に依存するキーであり、多くの異なる機能を実行するのに使用することができる。しかしながら、追加される機能数が増えると、多機能キーボードが使いにくくなり、エラーが発生しやすい入力方法となる。また、多機能キーを備えるキーボードのサイズを小さくすると、キー自体が小さくなるため、打ち間違いの可能性が一層高まる。このように、小型化された多機能キーもエラーが多く、使いにくい。一部のメーカーは推定テキストエントリ入力方法を使って、これらの問題への対応を試みている。たとえば、多くのウェブベースの電話で採用されているＴ−９（登録商標）推定テキストエントリシステムは、各単語に関する打鍵が入力されると、完全な単語を推定するものである。しかし、Ｔ−９（登録商標）推定テキストエントリシステムは間違った単語を特定してしまい、異なる言語の単語に容易に適応させることができず、キーボードの使用が必要で、使いにくい。
【０００５】
携帯機器の一部メーカーは、携帯機器のキーボードを大きくして、キーボードの入力の問題に対応しようとしている。たとえば、エリクソンモデルＲ３８０およびＲ３８０ｓのウェブベースの電話は、入力のための、より大きなタッチスクリーンが現れるフリップアップキーパッドを備えている。しかしながら、これらのタッチスクリーンは高価で、機器が損傷を受ける可能性が高く、消費電力が増加するために、電池サイズが大型化し、ユーザに使いやすい入力方法を提供できない。
【０００６】
パームやハンドスプリング等の携帯情報端末機器メーカーの中には、携帯情報端末等の自社の携帯機器に、手書き認識ソフトウェアを追加することによって、上記のような従来の入力方法の限界に対処しようとしている。しかしながら、この手書き認識ソフトウェアもエラーが多く、ユーザは手書き認識ソフトウェアが認識しやすい方法で書く訓練をしなければならず、使いやすい入力方法とはいえない。
【０００７】
自動音声認識は、携帯機器用の使いやすい入力方法である。しかしながら、携帯機器向けの従来の音声認識システムは、特定の機器の上でしか音声認識機能が実現されず、使い方の訓練等、ユーザによる介入が必要である。機器を紛失した、またはこれが壊れてしまい、これを新しいものと交換しなければならない場合、新しい機器について再度、訓練しなおさなければ、機器の精度が低下する。また、ユーザの使用環境が訓練環境と異なると、音声認識の精度にも影響が出る。
【０００８】
その他の従来の音声認識システムは、機器またはネットワークのいずれかにおいて不特定話者モデルを使用している。しかしながら、これらの従来の不特定話者音声認識機器は、環境の変化および／または変換器の応答特性の違いを自動的に補償できない。
【０００９】
たとえば、電話やウェブベースの電話はそれぞれ、応答特性の異なる変換器を用いている可能性が高い。インターネット電話で使用されるヘッドに装着された変換器やマイクロフォンの応答特性は、ハンズフリー携帯電話のユーザによって使用されるジャブラハンズフリーＥａｒＳｅｔ（登録商標）とは異なるであろう。従来の音声認識システムは、携帯機器の応答特性が同じであることを前提としているため、音声認識の精度が低下する。
【００１０】
同様に、背景ノイズについては、インターネット電話のユーザの背景ノイズ環境は静かで推定可能であるが、携帯電話のユーザの背景ノイズ環境は常に変化する。従来の音声認識システムは、移動機器がすべて同じ背景ノイズであることを前提としているため、音声認識システムの精度が低下する。
【００１１】
（発明の開示）
したがって、携帯機器のための使いやすく、ユーザの訓練がほとんど不要な別の入力モードが有益である。本発明の各種の実施形態において、個々の変換器の特性と特定の背景環境ノイズ特性を判断し、これを使って音声認識モデルを調整する。本発明のその他の実施形態では、変換器の特性と特定の背景環境ノイズ特性を不特定話者対応の隠れマルコフモデル等の音声認識モデルに適用する手段と方法を提供する。
【００１２】
（発明を実施するための最良の形態）
図１は、本発明による動的再構成可能音声認識システムの第一の実施形態の概略図である。携帯電話３０、音声認識携帯情報端末５０、音声認識コンピュータ６０、ウェブサーバ８０、ダイアログサーバ１００、自動音声認識サーバ１１０、動的再構成可能音声認識システム１２０がそれぞれ通信リンク１１０に接続されている。
【００１３】
本発明の第一の実施形態では、携帯電話３０のユーザは、情報レポジトリ、デジタルライブラリまたはウェブサーバ８０に情報を求める音声要求を開始する。音声要求は動的再構成可能音声認識システム１２０に送られる。動的再構成可能音声認識システム１２０は、情報レポジトリ、デジタルライブラリまたはウェブサーバ８０に含まれる情報へのアクセスを仲介するゲートウェイまたはプロキシとして機能する。たとえば、情報レポジトリ、デジタルライブラリまたはウェブサーバ８０は情報をＨＴＭＬ，ＰＤＦ，ＸＭＬおよび／またはＶＸＭＬページその他、既知の、または今後開発される情報暗号化またはフォーマッティングで符号化することができる。
【００１４】
携帯電話３０から音声による情報要求を受け取ると、動的再構成可能音声認識システム１２０はユーザの識別を行う。多くの携帯機器は永久的に一人のユーザに割り当てられる個人的な通信機器であるため、携帯機器識別子を使ってユーザを識別できる。しかしながら、複数の人によって使用される共有電話等の共有携帯機器の場合、使用時に毎回、まず固有のユーザコードが入力され、ユーザ識別のために、各音声要求とともに動的再構成可能音声認識システム１２０に送信される。あるいは、動的再構成可能音声認識システム１２０は、音声対応電話３０のユーザが新たに追加されると、携帯電話３０を各ユーザに動的に適応させる。本発明の精神または範囲から逸脱することなく、ユーザ識別子を、時刻、曜日またはその他の情報等、電話に関連する規則またはユーザ識別方法に基づくものとすることができる。
【００１５】
動的再構成可能音声認識システム１２０は、ユーザ識別子に基づく不特定話者音声認識モデルを利用する。たとえば、動的再構成可能音声認識システム１２０は、音声の隠れマルコフモデル、ニューラルネットワークパラメータ、参照テンプレートまたはその他パラメータ化された音声認識モデルを利用することができる。ユーザの電話番号または端末識別子等のユーザ識別子に基づき、各ユーザに関する変形、背景モデルおよび／または変換器モデルを適用して、各ユーザの音声認識モデルを生成することができる。隠れマルコフモデルの使用は一例にすぎず、本発明の精神と範囲から逸脱することなく、その他の既知の、または今後開発される音声認識モデルも利用できることは明らかである。
【００１６】
動的再構成可能音声認識システム１２０は、背景ノイズパラメータの推定値を確定する。背景モデルのパラメータは、携帯電話３０のユーザのために、記憶装置に保存される。携帯電話３０の電流変換器によって発生するノイズも推定され、携帯電話３０のユーザのために保存される。携帯電話３０のユーザに関する背景モデルおよび変換器モデルの背景推定と変換器推定のパラメータを使い、不特定話者音声認識モデルを、携帯電話３０のユーザの現在の背景環境と変換器の特性に適応させる。
【００１７】
携帯電話３０のユーザに関する背景と変換器について適応された不特定話者音声認識モデルと音声要求が、自動音声認識サーバ１１０に送られる。
【００１８】
自動音声認識サーバ１１０は、携帯電話３０のユーザに関する背景と変換器について適応された不特定話者音声認識モデルに基づいて、音声要求を分析する。ダイアログサーバ１００は、ユーザとの必要な相互作用を調整し、使用すべきクエリを作る。たとえば、ダイアログサーバ１００はユーザに対し、電話ディレクトリの中のミドルネームのイニシャルや街路名を明確にし、クエリの結果の中で、「ジョン・Ｇ・スミス」が「ジョン・Ｃ・スミス」と正しく区別されるようにするよう求めることができる。
【００１９】
音声要求は、ＨＴＴＰプロトコル要求等の情報要求に翻訳される。情報要求は、情報レポジトリ、デジタルライブラリおよび／またはウェブサーバ８０に送られる。ウェブサーバ８０は、要求された情報を検索する。ウェブページやクエリの結果等、要求された情報はダイアログサーバ１００に送られる。ダイアログサーバ１００は、要求された情報を音声による応答に翻訳する。音声は暗号化されて、通信リンク１１０上に送られ、携帯電話３０に送信される。自動音声認識サーバ１１０、ダイアログサーバ１００、動的再構成可能音声認識システム１２０と情報レポジトリ、デジタルライブラリおよび／またはウェブサーバ８０は、説明のために個別の装置として図示されている。しかしながら、本発明によるその他の各種装置例において、自動音声認識サーバ１１０、ダイアログサーバ１００、動的再構成可能音声認識システム１２０および情報レポジトリ、デジタルライブラリおよび／またはウェブサーバ８０のひとつまたは複数を単独の機器の中に格納できることは明白である。さらに、自動音声認識サーバ１１０は、音声認識モデルまたはパラメータを受信できる音声認識システムや方法を使用できる。
【００２０】
音声対応携帯情報端末５０のユーザからの音声による情報要求も同様に、動的再構成可能音声認識システム１２０に送られる。音声対応携帯情報端末５０のユーザは識別され、ユーザ識別情報および音声要求中の情報に基づいて、背景モデルと変換器モデルのパラメータが推定される。各ユーザの背景モデルと変換器モデルは、所定の間隔で不特定話者音声認識モデルを動的に調整するのに使用される。音声認識モデルは自動的かつ動的に、背景ノイズと変換器によるノイズに関して補償される。
【００２１】
図２は、本発明によって携帯機器を使用する環境の一例を示す概略図である。本発明のその他の各種実施形態において、ユーザからの音声要求が音声対応オフィス環境１０、音声対応家庭環境２０および／または音声対応自動車環境７０から受信さる。たとえば、音声対応オフィス環境１０において開催される会議またはセミナーでは、オフィスユーザは音声対応オフィス環境内にあるマイクロフォンと関連付けられる。動的再構成可能音声認識システム１２０（図示せず）を使い、背景ノイズ環境の変化に伴い、各マイクロフォンに適当な調整が自動的に加えられる。本発明によるその他の各種実施形態において、音声対応オフィス環境１０内の動的再構成可能音声認識システム１２０（図示せず）のユーザとして識別された人物は、通信リンク１１０上でアクセスできる情報源からの情報の表示を求める音声要求を開始する。あるいは、自動的に認識された音声は、後の印刷、検討および／または協議に備え、自動的に転記される。
【００２２】
同様に、本発明の精神と範囲から逸脱することなく、音声対応自動車環境７０では、音声対応自動車環境７０のユーザとして識別された人物は、ヘッドアップディスプレイのためのマップディレクション等の情報を要求し、エンターテイメントシステム、温度制御またはその他、入力を必要とするシステムおよび／または装置を調整することができる。
【００２３】
図３は、本発明による動的再構成機能音声認識システムの第二の実施形態の概略図である。音声対応携帯情報端末５１は、ダイアログサーバ１００’（図示せず）、自動音声認識サーバ１１０’（図示せず）および動的再構成可能音声認識システム１２０’（図示せず）を直接組み込み、通信リンク１１０上の情報を求める音声要求をウェブサーバ８０に対して開始する。これに対し、音声対応コンピュータ６０と、通信リンク１１０に接続されたウェブサーバ８０は、ダイアログサーバ１００、自動音声認識サーバ１１０および動的再構成可能音声認識システム１２０を通じて、音声要求を開始する。
【００２４】
たとえば、音声対応携帯情報端末５１は、ハンドスプリングのＶｉｓｏｒ（登録商標）携帯情報端末５１に装着されたＶｉｓｏｒＰｈｏｎｅ（登録商標）周辺機器を備えてもよい。ＶｉｓｏｒＰｈｏｎｅ（登録商標）周辺機器のマイクロフォンのマイクロフォン特性は、ジャブラＥａｒＳｅｔ（登録商標）に設置されたマイクロフォンやエリクソンＲ３８０またはＲ３８０ｓスマートフォンとは異なる。別のマイクロフォンが選択されている可能性があるため、同じユーザでも、体験する自動音声認識システムの精度への背景ノイズの影響は異なることがある。しかしながら、本発明による各種の実施形態において、携帯情報端末５１に備えられた動的再構成可能音声認識システム１２０’（図示せず）は、ユーザの現在の変換器と背景ノイズの環境に基づいて、音声認識モデルを動的に調整する。
【００２５】
図４は、動的再構成可能音声認識システム１２０の実施形態例を示す。動的再構成可能音声認識システム１２０は、コントローラ１２１、変換器モデル推定回路１２２、メモリ１２３、変換器モデル推定記憶装置１２４、変換器モデル適応回路１２５、背景モデル推定回路１２６、背景モデル推定記憶装置１２７、背景モデル適応回路１２８、オプションの音声認識モデル記憶装置１３４、サンプルディレイ記憶装置１３５を備え、これらはそれぞれ入力／出力回路１３６を通じて通信リンク１１０に接続されている。
【００２６】
本発明による第一の実施形態におい、情報を求める音声要求は通信リンク１１０上で受信される。コントローラ１２１は、サンプルディレイ記憶装置１３５の内容を読み取り、指定されたディレイに基づき、背景モデル推定回路１２６を起動して音声要求の背景ノイズ環境を確定する。
【００２７】
背景モデル推定回路１２６は常に背景モデルを確定する。たとえば、背景モデル推定回路１２６は、無音声期間をサンプリングし、ユーザの現在の所在地における背景ノイズ環境のパラメータを確定する。その他、各種の実施形態において、サンプルディレイを高いサンプリング周期に設定し、ユーザが環境内を移動する、あるいはユーザ変換器を変えた時の変化を捉えるようにすることができる。他の各種実施形態において、サンプリング周期はサンプル数を減らすように設定することもできる。
【００２８】
不特定話者隠れマルコフモデル等の音声認識モデルが記憶装置から検索される。音声認識モデルを別のサーバ、あるいは、動的調整可能音声認識システム１２０のオプションの音声認識モデル記憶装置１３４または通信リンク１１０を通じてアクセス可能ないずれの場所にも保存できることは明白である。
【００２９】
背景モデル適応回路１２８が起動され、ユーザに関する背景モデル推定回路１２６の結果に基づいて、検索された音声認識モデルが適応される。このようにして、ユーザの背景ノイズ環境の補償が行われる。背景モデルは背景モデル記憶装置１２７に記憶される。別の各種実施形態において、背景モデルは構成サーバ（図示せず）に記憶することができ、これについては「自動音声認識システムおよび方法」と題する同時係属中の出願、代理人整理番号１０９０４１および１０９０４０において述べられており、同出願は引用をもってその全体を本願に援用する。構成サーバは、通信リンク１１０を通じてアクセス可能であれば、別の場所に設置することもできる。
【００３０】
コントローラ１２１は変換器モデル推定回路１２２を起動し、変換器特性のモデルを確定し、ユーザの現在の変換器の特性が音声認識モデル開発に使用された変換器の応答特性にどのように関連しているかを判断する。たとえば、ユーザの実際の変換器と訓練用変換器またはマイクロフォンとの関係は、受信した音声要求の中の、容易に認識可能なあいまい度の低い単語を判断することによって確定される。容易に認識できるあいまい度の低い単語に関して推定された信号が、その容易に認識できるあいまい度の低い単語に関する背景調整信号と比較される。推定された信号と背景調整された信号との関係は、ユーザの実際の変換器と初期入力中に使用された変換器との関係を反映している。他の各種の実施形態において、応答特性は、変換器情報用に携帯機器をポーリングし、携帯機器に対し、変換器情報が変化した時に新規情報を送信させることによって、あるいは他の既知の、あるいは今後開発される、監視下の、または監視下に置かれない校正プロセスを使用することによって確定することができる。
【００３１】
コントローラ１２１は変換器具モデル適応回路１２５を起動し、変換器モデルのパラメータを使って、検索された背景適応音声認識モデルを適応させる。変換器と背景適応音声認識モデルは、各機器で使用される変換器のノイズを補償する。変換器モデルの推定パラメータは、変換器モデル記憶装置１２４に保存される。
【００３２】
本発明による各種実施形態において、背景推定と変換器推定の周期は、指定されたサンプルディレイ記憶装置１３５に基づく。しかしながら、本発明による他の各種実施形態において、本発明の精神と範囲から逸脱することなく、サンプルディレイを特定の数値に設定し、継続的にサンプリングされる情報における所定の変化の周波数または大きさに基づいて動的に決定してもよく、また、他の既知の、あるいは今後開発される背景および変換器ノイズ情報のサンプリング方法を使用することもできる。
【００３３】
記憶されたサンプルディレイが、サンプル値によって示された期間内にサンプルが発生したことを示す場合、コントローラ１２１は背景モデル記憶装置１２７から背景推定を検索し、変換器モデル記憶装置１２４から変換器推定を検索する。
【００３４】
本発明によるひとつの実施形態において、音声認識モデルは、オプションの音声認識モデル記憶用メモリ１３４から検索され、メモリ１２３に保存される。検索された音声認識モデルは、背景モデル推定回路１２６により、ユーザの現在の環境における背景ノイズを補償するよう適応される。変換器適応回路１２５は、変換器またはマイクロフォンのノイズについて背景適応音声認識モデルを調整する。通信リンク１１０上の入力／出力回路１３６によって、背景および変換器適応音声認識モデルと音声要求が自動音声認識サーバ１１０に出力される。自動音声認識サーバ１１０は、背景および変換器適応音声認識モデルに基づいて、受信した音声要求の中のユーザの音声情報を動的に確定する。
【００３５】
図５は、本発明による動的音声認識方法の一例のフローチャートである。プロセスはステップ２００から始まり、すぐにステップ２１０に移る。
【００３６】
ステップ２１０において、サンプルディレイ期間が決定される。サンプルディレイ期間は、背景情報と変換器情報の各サンプルの間に発生する時間またはディレイの長さを示す。本発明の各種実施形態において、具体的なサンプルディレイをメモリの位置に設定し、連続するサンプル同士の間で測定される変化の程度に基づいて、動的に確定することができる。
【００３７】
たとえば、背景推定と変換器推定を連続して比較した結果がしきい値を超えない場合、サンプルディレイ期間を延ばすことができる。背景推定と変換器推定を連続して比較した結果、その結果において変化が検出された場合、サンプルディレイ期間を短くし、今後の変化に対し、より迅速に応答できるようにすることもできる。あるいは、本発明の実施において、サンプルディレイを測定するための、既知のまたは今後開発される方法を使用してもよい。サンプルディレイ期間が確定したら、ステップ２２０に進む。
【００３８】
ステップ２２０において、ユーザの環境における背景ノイズのパラメータが確定される。背景モデルのパラメータは、サンプリングされた無音声期間を予め決定された無音声期間と比較することによって測定される。その差を使って現在の背景ノイズを推定する。しかしながら、本発明の実施において、背景ノイズを確定するための、既知の、あるいは今後開発される方法も使用できることは明らかである。次に、ステップ２３０に進む。
【００３９】
ステップ２３０において、背景モデルの推定されたパラメータが保存される。推定されたパラメータは、ランダムアクセスメモリ、フラッシュメモリ、磁気記憶装置、磁気光学記憶装置またはその他、既知の、あるいは今後開発される他の記憶媒体に保存してもよい。次にステップ２４０に進む。
【００４０】
変換器モデルのパラメータがステップ２４０で決定される。変換器モデルの推定されたパラメータは、ユーザが使用するマイクロフォンのタイプ、そのマイクロフォンの応答特性、ヘッドマウントの特性、耳内（インイヤー：ｉｎ‐ｅａｒ）特性、別のマイクロフォンとの等価性あるいはその他、マイクロフォンまたは変換器の応答に関する情報を示す。本発明の他の各種実施形態において、変換器のパラメータは動的に確定される。たとえば、背景環境との補償を行った後に、あいまいでない単語の音声認識モデルが前にサンプリングされたあいまいでない単語と動的に比較され、変換器モデルのパラメータが動的に推定される。
【００４１】
変換器モデルを使い、各種の装置に見られる変換器の異なる応答特性に合わせた調整が行われる。たとえば、ジャブラＥａｒＳｅｔ（登録商標）マイクロフォンとイヤフォンの組み合わせに関する変換器応答特性は、ゼンハイザーＨＭＤ４１０ヘッドセットとエリクソンＲ３８０ｓスマートフォンにおける変換器の応答特性とは異なる。変換器モデルは、各ユーザの実際の変換器またはマイクロフォンと、当初の不特定話者音声認識モデルの開発中に使用された変換器またはマイクロフォンとの間の関係に基づいている。変換器モデルのパラメータが推定されると、ステップ２５０に進む。
【００４２】
ステップ２５０では、決定された変換器モデルが保存される。たとえば、変換器モデルはランダムアクセスメモリ、フラッシュメモリ、磁気メモリ、磁気光学記憶装置またはその他、既知の、あるいは今後開発される記憶媒体に保存することができる。次にステップ２６０に進む。
【００４３】
ステップ２６０では、音声認識モデルが検索される。検索された音声認識モデルは、隠れマルコフモデル、ニューラルネットワークあるいはその他、既知の、または今後開発される音声認識モデルとすることができる。各種実施形態において、音声認識モデルはランダムアクセスメモリ、フラッシュメモリ、磁気記憶装置、磁気光学記憶装置またはその他、既知の、あるいは今後開発される記憶媒体から検索することができる。次にステップ２７０に進む。
【００４４】
ステップ２７０において、音声認識モデルは、ユーザに基づいて記憶装置から検索された、確定背景モデルを使って適応される。本発明の別の実施形態において、ユーザに関する背景適応された音声認識モデルがメモリに保存される。次にステップ２８０に進む。
【００４５】
ステップ２８０では、背景適応された音声認識モデルが、ユーザに基づいて記憶装置から検索された、確定変換器モデルを使って適応される。次にステップ２９０に進む。
【００４６】
ステップ２９０において、ユーザの音声要求セッションが終了したかが判断される。携帯機器のユーザがＴＥＬＬＭＥ社等の音声応答情報プロバイダでセッションを開始した場合、ユーザのコールの終了は、ユーザのセッションの終了と一致する。しかしながら、他の各種の実施形態においては、ユーザのセッションはユーザが情報プロバイダにコールする前に開始してもよい。たとえば、ネットワーク事業者はコールの開始を音声でイネーブルし、ユーザがネットワーク内のダイヤル番号を音声で言うことができる。この場合、ユーザセッションの開始はネットワークコール起動の開始と一致する。本発明の別の実施形態において、動的音声認識システムは、第二および第三世代のモバイルネットワーク内でも使用できる。たとえば、ＧＰＲＳオールウェイズオン（ａｌｗａｙｓ‐ｏｎ）パケットに基づくネットワークを使って音声要求情報を伝達することができる。この場合、ユーザセッションの判断は、ＧＰＲＳネットワーク上でコールを開始させる、または接続を確立させるユーザの音声命令によって行うことができる。しかしながら、本発明の精神と範囲から逸脱することなく、ユーザセッションの判断には、既知の、あるいは今後開発される方法を使用することもできる。
【００４７】
セッションの終了がステップ２９０で判断されないと、ステップ３００に進み、プロセスはサンプルディレイ期間だけ遅延される。ディレイ期間は予め設定された数値に設定しても、動的に調整してもよい。たとえば、ディレイ期間は、背景環境および／または変換器環境において検出された変化に基づくとすることができる。次に、ステップ２２０に進み、プロセスは、ステップ２９０においてユーザセッションが終了したと判断されるまで継続される。
【００４８】
ユーザセッションは、ユーザが音声対応電話の「ＥＮＤ」キーを押す、または機器のスイッチを切ることによって、あるいは、音声オフ等の音声命令あるいはその他既知の、または今後開発されるユーザセッション終了表示方法によって終了できる。ステップ２９０で、ユーザセッションが終了したと判断されると、ステップ３１０に進み、プロセスは終了する。
【００４９】
上記の各種実施形態において、動的再構成可能音声認識システム１２０は、プログラムされた汎用コンピュータを使って実現できる。しかし、音声再構成可能音声認識システム１２０は、専用目的コンピュータ、プログラムされたマイクロプロセッサまたはマイクロコントローラおよび周辺集積回路素子、ＡＳＩＣまたはその他集積回路、デジタル信号プロセッサ、離散型素子回路等のハードワイヤード電子または論理回路、ＰＬＤ，ＰＬＡ，ＦＰＧＡ，ＰＡＬ等のプログラマブル論理機器その他を使っても実現できる。一般に、図５に示すフローチャートを実現できる有限状態マシンを実現できるのであれば、いかなる装置も、動的再構成可能音声認識システム１２０の実現に使用できる。
【００５０】
前述の動的再構成可能音声認識システム１２０の回路１２１−１３６の各々は、適当にプログラムされた汎用コンピュータの一部としても実現できる。あるいは、前述の動的再構成可能音声認識システム１２０の回路１２１−１３６は、ＡＳＩＣ内の、またはＦＰＧＡ，ＰＤＬ，ＰＬＡまたはＰＡＬを使った、または離散型論理素子または離散型回路素子を使って、物理的に異なるハードウェア回路としても実現できる。上述の動的再構成可能音声認識システム１２０の回路１２１−１３６の各々の具体的な形態は、設計上の選択であり、当業者にとって自明で推定可能である。
【００５１】
さらに、動的再構成可能音声認識システム１２０および／または上記各種回路の各々は、ソフトウェアルーチン、プログラムされた汎用コンピュータ上で実行するマネージャまたはオブジェクト、特定用途コンピュータ、マイクロプロセッサその他として実現できる。この場合、動的再構成可能音声認識システム１２０および／または上記各種回路の各々は、通信ネットワークに埋め込まれたひとつまたは複数のルーチンとして、サーバ上のリソースとして、あるいはその他としても実現できる。動的再構成可能音声認識システム１２０と上記の各種回路は、動的再構成可能音声認識システム１２０を、音声対応装置のハードウェアおよびソフトウェアシステム等、ソフトウェアおよび／またはハードウェアシステムの中に物理的に取り入れることによって実現することもできる。
【００５２】
図４に示すように、メモリ１２３、変換器モデル記憶メモリ１２４、背景モデル記憶メモリ１２７、および／またはサンプルディレイ記憶メモリ１３５はそれぞれ、可変容量、揮発性または不揮発性メモリまたは不変容量または固定メモリを適当に組み合わせたものを使っても実現できる。可変容量メモリは、揮発性か不揮発性かを問わず、スタティックまたはダイナミックＲＡＭ、フレキシブルディスクおよびディスクドライブ、ライタブルまたはリライタブル光学ディスクおよびディスクドライブ、ハードドライブ、フラッシュメモリその他のひとつまたは複数を使って実現できる。同様に、不変容量または一定メモリは、ＲＯＭ，ＰＲＯＭ，ＥＰＲＯＭ，ＥＥＰＲＯＭ，ＣＤ−ＲＯＭまたはＤＶＤ−ＲＯＭ等の光学ＲＯＭディスク、ディスクドライブその他のひとつまたは複数を使って実現できる。
【００５３】
図１−４に示す通信リンク１１０はそれぞれ、直接ケーブル接続、広域ネットワークまたはローカルエリアネットワーク上の接続、イントラネット上の接続、インターネット上の接続、その他分散された処理ネットワークまたはシステムでの接続をはじめとする、通信機器を動的再構成可能音声認識システム１２０に接続するための、既知の、あるいは今後開発される装置またはシステムとすることができる。一般に、通信リンク１１０はそれぞれ、装置を接続し、通信を促進することのできる、既知の、あるいは今後開発される接続システムまたは構造とすることができる。
【００５４】
さらに、通信リンク１１０はネットワークと有線リンクでも無線リンクでも可能である点を評価すべきである。ネットワークは、ローカルエリアネットワーク、ワイドエリアネットワーク、イントラネット、インターネットあるいは分散された処理および記憶ネットワークとすることができる。
【００５５】
本発明は上記の実施形態例に関連して説明したが、当業者にとっては、さまざまな変更、改造、修正が自明である。したがって、上述の本発明の実施形態は例として示したものであり、限定するものではない。本発明の精神と範囲から逸脱することなく、さまざまな変更を加えることができる。
【図面の簡単な説明】
【図１】図１は、本発明による動的再構成可能音声認識システムの第一の実施形態の概略図である。
【図２】本発明によって移動機器を使用できる環境の一例の概略図である。
【図３】本発明による動的再構成可能音声認識システムの第二の実施形態の概略図である。
【図４】本発明による動的再構成可能音声認識システムの一例を示す図である。
【図５】本発明による動的再構成可能音声認識方法の一例のフローチャートである。

Claims

動的再構成可能音声認識方法であって、
受信した音声要求の背景モデルのパラメータを確定するステップと、
変換器モデルのパラメータを確定するステップと、
前記背景モデルと前記変換器モデルの少なくとも一方に基づいて、音声認識モデルのための適応音声認識モデルを確定するステップと、
前記適応音声認識モデルに基づいて、音声要求内の情報を確定するステップと、
を含むことを特徴とする方法。
請求項１に記載の方法であって、
少なくともひとつのサンプル期間を確定するステップと、
前記少なくともひとつのサンプル期間に基づいて、新しい背景モデルと新しい変換器モデルの少なくとも一方を確定するステップと、
を含むことを特徴とする方法。
請求項２に記載の方法であって、
前記背景モデルのパラメータは、第一のサンプル期間に基づいて確定され、
前記変換器モデルのパラメータは第二のサンプル期間に基づいて確定されることを特徴とする方法。
請求項２に記載の方法であって、
前記背景モデルのパラメータと前記変換器モデルのパラメータの少なくともひとつを保存するステップと、
前記少なくともひとつのサンプル期間と、前記背景モデルと前記変換器モデルの少なくとも一方に基づいて、前記適応音声認識モデルを確定するステップと、
を含むことを特徴とする方法。
動的再構成可能音声認識システムであって、
コントローラと、
推定される背景パラメータとユーザ情報に基づいて、音声要求の背景モデルを確定する背景モデル推定回路と、
推定される変換器パラメータとユーザ情報に基づいて、音声要求の変換器モデルを確定する変換器モデル推定回路と、
前記音声認識モデルと、前記背景モデルと前記変換器モデルの少なくとも一方に基づいて適応音声認識モデルを確定する背景モデル適応回路および変換器モデル適応回路と、
を備えることを特徴とするシステム。
請求項５に記載のシステムであって、
前記コントローラは、少なくともひとつのサンプル期間を確定し、この少なくともひとつのサンプル期間に基づいて、前記背景モデル推定回路と前記変換器モデル推定回路の少なくとも一方を起動させる
ことを特徴とするシステム。
請求項６に記載のシステムであって、
前記背景モデルは第一のサンプル期間に基づいて確定され、
前記変換器モデルは第二のサンプル期間に基づいて確定される
ことを特徴とするシステム。
請求項６に記載のシステムであって、
前記コントローラは、前記背景モデルと前記変換器モデルの少なくとも一方を記憶装置に保存し、
前記適応音声認識モデルは、少なくともひとつのサンプル期間と、前記背景モデルと前記変換器モデルの少なくとも一方に基づくことを特徴とするシステム。
動的再構成可能音声認識に利用できる制御プログラムを制御プログラム実行のための装置に送信するよう符号化された搬送波であって、前記制御プログラムは、
受信した音声要求の背景モデルのパラメータを確定するための命令と、
変換器モデルのパラメータを確定する命令と、
前記背景モデルと前記変換器モデルの少なくとも一方に基づいて、音声認識モデルのための適応音声認識モデルを確定する命令と、
前記適応音声認識モデルに基づいて、音声要求内の情報を確定する命令と、
を含むことを特徴とする搬送波。
請求項９に記載の搬送波であって、
少なくともひとつのサンプル期間を確定する命令と、
前記少なくともひとつのサンプル期間に基づいて、新しい背景モデルと新しい変換器モデルの少なくとも一方を確定する命令と、
を含むことを特徴とする搬送波。
請求項１０に記載の搬送波であって、
前記背景モデルは第一のサンプル期間に基づいて確定され、
前記変換器モデルは第二のサンプル期間に基づいて確定されることを特徴とする搬送波。
請求項１０に記載の搬送波であって、
前記背景モデルと前記変換器モデルの少なくとも一方を保存する命令と、
前記少なくともひとつのサンプル期間と、前記背景モデルと前記変換器モデルのうち少なくとも一方に基づいて、前記適応音声認識モデルを確定する命令と、
を含むことを特徴とする搬送波。
コンピュータ判読可能記憶媒体であって、
コンピュータ判読可能記憶媒体上に具体化されたコンピュータ判読可能プログラムコードを含み、動的再構成可能音声認識方法を実行するようコンピュータをプログラムするのに使用される前記コンピュータ判読可能プログラムコードは、
受信した音声要求のための背景モデルのパラメータを確定するステップと、
変換器モデルのパラメータを確定するステップと、
前記背景モデルと前記変換器モデルのうち少なくとも一方に基づいて、音声認識モデルのための適応音声認識モデルを確定するステップと、
前記適応音声認識モデルに基づいて音声要求内の情報を確定するステップと、
を含むことを特徴とするコンピュータ判読可能記憶媒体。
動的再構成可能音声認識方法であって、
受信した音声要求のための背景モデルのユーザ別のパラメータを確定するステップと、
変換器モデルのユーザ別のパラメータを確定するステップと、
前記背景モデルと前記変換器モデルの少なくとも一方に基づいて、音声認識モデルのための適応音声認識モデルを確定するステップと、
前記適応音声認識モデルに基づいて、音声要求内の情報を確定するステップと、
少なくともひとつのサンプル期間を確定するステップと、
前記少なくともひとつのサンプル期間に基づいて、新しい背景モデルと新しい変換器モデルの少なくとも一方を確定するステップと、
を含み、
前記背景モデルは、第一のサンプル期間に基づいて確定され、変換器モデルは第二のサンプル期間に基づいて確定されることを特徴とする動的再構成可能音声認識方法。