JP2005520194A

JP2005520194A - テキストメッセージの生成

Info

Publication number: JP2005520194A
Application number: JP2003575370A
Authority: JP
Inventors: パンケール，マティアス; シュマルト，ライムント; フリーデマンマルシュナー，イェンス
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-03-14
Filing date: 2003-03-10
Publication date: 2005-07-07
Also published as: US20050256710A1; WO2003077234A1; AU2003207917A1; EP1488412A1; DE10211777A1

Abstract

本発明は、テキストメッセージを生成する方法に関するものである。テキストメッセージ生成をユーザにとってできる限り便利且つ効率的にするために、以下のステップが提案されている：-文法ベース音声認識手順によりメッセージ要素を有する音声入力を処理するステップと、-文法ベース音声認識による処理と並行して、又は所定の品質でない文法ベース音声認識手順により認識結果が取得された時に、音声モデルベース音声認識手順による音声入力を処理するステップと、-文法ベース及び／又は音声モデルベース音声認識手順により作成される認識結果を使用して、テキストメッセージを生成するステップとを有する。

Description

本発明はテキストメッセージを生成する方法に関するものである。

テキストメッセージの送信(特にいわゆる電気通信システムを介するSMS(ショートメッセージサービス)メッセージの送信)は、通信ネットワーク(特に移動無線システム及び／又はインターネット)を介するメッセージの送信を含む。キーボード入力によりテキストメッセージを生成することは、ユーザにとっては(特に小さいキーパッドと一般的にマルチキー割り当てを備えた移動無線端末のユーザにとっては)しばしば面倒である。この状況は音声入力機能及び自動音声認識を備えたシステムの使用により改善される。１つの可能なシナリオでは、ＳＭＳメッセージを生成したい移動無線端末のユーザが自動電話サービスに電話をかけ、その自動電話サービスが音声認識を備えた自動対話システムを含む。自動対話システムは複数のアプリケーションで既知である。対話が進み、その対話でユーザがテキストメッセージを入力し、テキストメッセージの受信者を特定し、それによりテキストメッセージがその後に受信者へ送信されることがある。

自動対話システムの基本の詳細は、例えばA.KellnerとB.RuberとF.SeideとB.H.Tranによる1997年のSpeech Communication、Vol.23の95-111ページの“PADIS-AN AUTOMATIC TELEPHONE SWITCHBOARD AND DIRECTORY INFORMATION SYSTEM”にある。ユーザにより生成される音声発声は、電話ネットワークへのインタフェースを介してここで受信される。システム応答(音声出力)は、音声入力に応じて対話システムにより生成され、そのシステム応答はインタフェースを介して送信され、電話ネットワークを介してユーザに送信される。音声入力は、隠れマルコフモデル(HMM)に基づく音声認識ユニットによりワードラティス(word lattice)に変換され、そのワードラティス(word lattice)は、受信された音声発声の可能な認識結果を構成する様々な単語列を圧縮形式で示す。

ユーザにとってできるだけ便利であり、効率的でもあるテキストメッセージを生成する方法を提供することが本発明の目的である。

前記目的は、
-文法ベース音声認識手順によりメッセージ要素を有する音声入力を処理するステップと、
-文法ベース音声認識による処理と並行に、又は所定の品質でない文法ベース音声認識手順により認識結果が取得された時に、音声モデルベース音声認識手順により音声入力を処理するステップと、
-文法ベース及び／又は音声モデルベース音声認識手順により作成される認識結果を使用してテキストメッセージを生成するステップと
により達成される。

このような方法により、ユーザは音声入力によりテキストメッセージを便利に生成することがある。音声入力をテキストメッセージへ変換することは、一方で適切な文法の選択により、他方でそれぞれのアプリケーション又はユーザの対象グループに適合された音声モデルの選択により、その場合に非常に信頼性があり、前記音声モデルはn-gramに従来は基づいている。電話番号、時間、及び日付の詳細は、文法ベース音声認識手順により確実に認識される。自由形式の音声入力の場合、音声モデルベース音声認識手順は、最高の可能な信頼性の認識結果が利用できることを確保する。文法ベース音声認識手順により提供される認識結果が所定の品質でない時(すなわち、特に所定の信頼度の閾値に到達しない場合)にのみ、音声入力に音声モデルベース認識手順を適用することにより、演算能力が減少する。文法ベース及び音声モデルベース音声認識による音声入力の並列処理は、代替のアプローチであり、同様に音声入力認識における特に高レベルの信頼性を生じる。

音声モデルベース音声認識手順について、様々なアプリケーション及び対象グループ用に生成された複数の異なる音声モデルが特に使用されることがある。これは音声入力によるテキストメッセージの生成において信頼性を改善するために使用されることがある。

一実施例では、それぞれの場合に最も適切な音声モデルの選択は、事前に実行された文法ベース音声認識手順の結果に依存される。このことは、文法ベース音声認識手順により決定された不正確な認識結果ですら、適切な音声モデル(例えば、主部又は用途を指す個々の単語)を選択するために使用することがある情報を有するという事実を利用する。

様々な音声モデルが同様に使用されるその他の実施例は、それぞれの場合に最も適切な音声モデルの選択用の文法ベース音声認識の結果の評価を省略し、異なる音声モデルを使用して、音声モデルベース音声認識手順を音声入力に繰り返し適用する。関連する信頼度の値を比較することにより、最も信頼のある結果の選択肢が、作成された認識結果の選択肢から認識結果として選択される。

前記目的はまた、テキストメッセージを生成する方法によって達成され、前記方法は、
-単語列の選択肢を表すワードラティス(word lattice)を生成するために、音声モデルベース音声認識手順によりメッセージ要素を有する音声入力を処理するステップと、
-パーサによりワードラティス(word lattice)を処理するステップと、
-パーサにより作成された認識結果、又はワードラティス(word lattice)から単語列の選択肢の選択を使用して、テキストメッセージを生成するステップと
を有する。

更に、前記目的は、
-音声モデルベース音声認識手順により音声入力を処理するステップであって、様々な音声モデルが対応する複数の音声結果を生成するために使用されるステップと、
-認識結果の信頼度の値を決定するステップと、
-最善の信頼度の値を備えた認識結果を使用してテキストメッセージを生成するステップと
を有するテキストメッセージを生成する方法により、達成される。

テキストメッセージを生成するための本発明による方法は、生成されたテキストメッセージ、例えばSMS(ショートメッセージサービス)を、電気通信ネットワークを介して以前に選択された受信者に送信する自動対話システムで特に使用される。音声入力は、例えば移動無線により発効されることがある。音声入力は、電話ネットワーク上で自動対話システム(電話サービス)に送信され、その自動音声システムが音声入力をテキストメッセージに変換し、次にそのテキストメッセージが例えばその他の移動無線加入者に送信される。メッセージを表す音声入力の生成器と、それぞれのメッセージの受信者の双方もまた、当然のことながら、音声入力を処理するために、又はテキストメッセージを受信するために、例えばインターネットに接続されたコンピュータを使用することがある。

本発明はまた、本発明による方法を実行するためのコンピュータシステム及びコンピュータプログラムに関するものであり、そのようなコンピュータプログラムを備えたコンピュータ読取可能データストレージ媒体に関するものである。

図１に示される電気通信システム100の場合、電気通信ネットワーク101が提供され、その電気通信ネットワーク101は、１つ以上の移動無線ネットワーク、公衆陸上通信ネットワーク(PSTN、公衆交換電話ネットワーク)及び／又はインターネットを有する。図１は、移動無線システム構成要素(すなわち、電気通信ネットワーク101に接続された移動無線基地局102と、基地局102の受信範囲内にある移動無線端末103)を示したものである。図面は一例として、電気通信ネットワーク101に結合された２つのパーソナルコンピュータ104と、電気通信ネットワーク101に結合された電話端末106とを更に示している。更に、図１は、電気通信ネットワーク101に接続され、コンピュータシステムに実装された対話システム105を示している。

図２は、対話システム105のシステム機能を説明するブロック図を示したものである。電気通信ネットワーク101との信号交換はインタフェース201で生じる。例えば移動無線103、パーソナルコンピュータ104又は電話端末106のマイクロフォンにより受信され、電気通信ネットワーク101を介してコンピュータシステム105に送信された受信音声信号は、インタフェース201を介した受信後に、前処理ユニット202により特徴抽出を受け、その間に音声認識手順203により音声認識結果に変換される特徴ベクトルが形成される。文法ベース音声認識手順204と音声モデルベース音声認識手順205の双方が提供され、文法ベース音声認識手順は、例えば前述の文献のA.KellnerとB.RuberとF.SeideとB.H.Tranによる1997年のSpeech Communication、Vol.23の95-111ページの“PADIS-AN AUTOMATIC TELEPHONE SWITCHBOARD AND DIRECTORY INFORMATION SYSTEM”から原理的に既知であり、音声モデルベース音声認識手順は、例えばV.Steinbiss他によるPhilips J.Res.49(1995)の317-352ページから既知である。好ましい実施例において、前処理ユニット202はまた、音声認識手順203の一体部であることがある。ブロック206は音声信号処理の制御機能を調整する。対話システムの動作に必要なアプリケーション特有のデータは、ブロック207により表されたデータメモリに格納される。特に、ユーザとの対話を行うためのデータと、１つ以上の文法又はサブ文法と、文法ベース音声認識手順204及び音声モデルベース音声認識手順205をそれぞれ実行するための１つ以上の音声モデルが存在する。制御ユニット206は、それぞれの音声認識結果の関数として、及び任意選択で以前の対話シーケンスの関数として、システム出力を生成し、そのシステム出力がインタフェース201と電気通信ネットワーク101を介してそれぞれの音声入力を生成したユーザに送信され、又はテキストメッセージを表す信号として１人以上のユーザ(すなわち、例えば移動無線端末又はパーソナルコンピュータのような、ユーザの電気通信端末)に送信される。システム出力(すなわち、音声信号又はテキストメッセージ)の生成は、ブロック208により調整される。

図３は、本発明によるテキストメッセージの生成を説明するための第１のフローチャートを示したものである。ブロック301は、対話システムにより挨拶文の出力を調整し、それは音声入力によりテキストメッセージを送信するために、ユーザにより呼び出される。挨拶文は、例えばユーザがテキストメッセージ(特にショートメッセージ、SMS)を生成するための電話サービスを呼び出したことをユーザに通知する。ステップ302では、テキストメッセージが入力されると送信されるアドレス(例えば電話番号又は電子メールアドレス)を入力するように促される。ステップ303では、ユーザはテキストメッセージを入力するように促され、ステップ304では、ユーザによるテキストメッセージの音声入力に続く。ステップ305では、この音声入力は、前処理手段202と音声認識手順203を使用してテキストメッセージに変換される。ステップ306では、メッセージが生成され、任意選択でステップ305の終わりに続く確認ダイアログの後に、そのように生成されたテキストメッセージと入力アドレスに基づいて、そのメッセージが電気通信ネットワーク101へのインタフェース201を介して出力ユニット208により処理される。ステップ307では、テキストメッセージは、選択された受信機(例えば移動無線103又はパーソナルコンピュータ104)への入力アドレスに従って送信される。

図４による実施例において、前処理ステップ305が更に詳細に説明される。まず、ステップ402では、全体の音声入力について文法ベース音声認識手順204により、処理が実行される。前記処理では、特に頻繁に発生する単語又は単語列(例えば、電話番号、時間の詳細又は日付の詳細)が高レベルの信頼性で特定及び認識される。ステップ402では、信頼度の値が、文法ベース音声認識手順によって提供される認識結果について更に決定され、その信頼度の値がステップ403で信頼度の閾値と比較される。ステップ402で決定された信頼度の値が所定の信頼度の閾値に到達した場合に、すなわち、文法ベース音声認識手順により提供された認識結果が十分に信頼できる場合に、ステップ402で生成された認識結果又はそれに含まれる情報は、テキストメッセージを生成するために使用され、そこで可変のテキスト構成要素を含む所定のテキストメッセージが使用され、次にステップ402で生成された認識結果により決定される。ステップ402の結果は、関連する信頼値で、文法に関して有効な句(文の構成要素)又は文で構成される。ステップ404では、事前に形成された文とその句との最善の可能な対応が検索される。その事前に形成された文は、認識された句で満たされる変数(例えば、日付、電話番号)を任意選択で含むことがある。

所定の信頼度の閾値に到達していないこと(文法ベース音声認識手順の認識結果の不十分な信頼度)を、ステップ403で実行される比較が示した場合に、音声モデルベース手順205が、音声入力又は前処理ユニット202により生成された特徴ベクトルに適用される(ステップ405)。

ステップ404又は405に続いて任意選択のステップ406があり、ユーザは、ステップ404又は405で生成されたテキストメッセージを確認するように促される。このステップでは、テキストメッセージが受信者に送信される前に、生成されたテキストメッセージが確認のためにユーザに例えば音声合成により提示され(読み出され)、又は生成されたテキストメッセージが確認のためにユーザにテキスト形式で提示される(表示装置に表示される)。

ステップ406でユーザが確認を拒否すると、代替のテキストメッセージがユーザに出力され、その代替のテキストメッセージは、文法ベース音声認識手順又は音声モデルベース音声認識手順の選択肢の認識結果を使用して生成される。ユーザに出力されたテキストメッセージがステップ406でユーザにより確認されると、図３によるステップ306と307が実行される。ステップ406による確認ダイアログが提供されない場合は、ステップ306と307が、ステップ404又はステップ405の直後に続く。

図５による実施例において、ステップ501では、文法ベース音声認識手順が、全体の音声入力(図４のステップ402)ではなく、音声入力の１つ以上の部分にのみ別々に適用される。ステップ501で決定された確立済みの音声認識結果が、ステップ502で所定のテキストメッセージパターンと比較される。ステップ503は、対応するテキストメッセージパターンがステップ502で検出され得るか否かについての問い合わせを表す。そのような対応するパターンが検出されると、図４による実施例のように、ステップ403と404と406が続く。対応するテキストメッセージパターンが検出されなかった場合には、音声モデルベース音声認識手順が音声入力に適用され(ステップ405)、それに続いてステップ406で、再び図４による実施例のように任意選択の確認ダイアログがあることがある。

図６による実施例は、図４による実施例の変形を示したものであり、ステップ402の文法ベース音声認識手順の結果が、音声モデルベース音声認識手順のための音声モデルを選択するために使用される。例えば、特定の主部領域を示す特定のキーワードが、ステップ601で音声モデルの選択のためにここで分析される。

固定の音声モデルを備えた音声モデルベース音声認識手順(ステップ405)の代わりに、ここではステップ405で、ステップ601で選択された音声モデルを使用して、音声モデルベース音声認識手順が音声入力に適用される。従って、ステップ403で信頼度の閾値に到達していないことが明らかになると、前記音声モデルは可変である。

図７による実施例において、ステップ401で前処理により提供された音声入力特徴は、ステップ701で文法ベース音声認識手順204及び音声モデルベース音声認識手順205により平行して処理される。文法ベース音声認識の結果について第１の信頼値が決定され、音声モデルベース音声認識の結果について第２の信頼値が決定され、その信頼値はステップ702で相互に比較される。第１の信頼度の値が第２の信頼度の値より大きい場合、前の実施例のようにステップ404と406が続く。第１の信頼度の値が第２の信頼度の値より小さい場合(すなわち、文法ベース音声認識手順の結果が音声モデルベース音声認識手順の結果より信頼できない場合)、音声モデルベース音声認識手順の認識結果がテキストメッセージを生成するために使用される。ステップ406の任意選択の確認ダイアログが、再び任意選択で続くことがある。

図８は、図２による対話システムの更なる実装の変形を示したものである。インタフェース201と、制御ユニット206と、データベース207と、出力ユニット208がまた、この実施例で示されている。制御ユニット206とデータベース207は、音声認識手順802による処理に影響を与え、その音声認識手順802は、n-gram音声認識装置803と、パーサ804と、後処理ユニット805とを有する。ワードラティス(word lattice)が、インタフェース201を介して受信された音声信号から、特徴抽出及び音声モデルベース音声認識手順を実行するように設計されたn-gram音声認識装置803により生成される。次に、これが文法によりパーサ804で構文解析される(すなわち、文法ベース音声認識手順が実行される)。生成された認識結果が十分である場合に、このように生成された認識結果は出力ユニット208に転送される。ブロック804の文法ベース処理が十分な結果を作成しない場合には、n-gram音声認識装置803により生成されたワードラティス(word lattice)からその他に導き出せる最善の単語列が、前記ワードラティス(word lattice)に基づいて、ブロック805により表された後処理ユニットで、認識結果(すなわちテキストメッセージ)として定められ、出力ユニット208により転送される。その出力ユニットは生成されたテキストメッセージをそれぞれの受信者に出力する。

テキストメッセージを生成及び送信するためのシステム構成要素を備えた通信システムを示したものである。テキストメッセージを生成する際に使用される対話システムを示したものである。本発明によるテキストメッセージの生成を説明するフローチャートである。本発明によるテキストメッセージの生成を説明するフローチャートである。本発明によるテキストメッセージの生成を説明するフローチャートである。本発明によるテキストメッセージの生成を説明するフローチャートである。本発明によるテキストメッセージの生成を説明するフローチャートである。対話システムの変形のブロック図である。

Claims

テキストメッセージを生成する方法であって、
-文法ベース音声認識手順によりメッセージ要素を有する音声入力を処理するステップと、
-文法ベース音声認識による処理と並行に、又は所定の品質でない文法ベース音声認識手順により認識結果が取得された時に、音声モデルベース音声認識手順により音声入力を処理するステップと、
-文法ベース及び／又は音声モデルベース音声認識手順により作成される認識結果を使用してテキストメッセージを生成するステップと
を有する方法。
請求項１に記載の方法であって、
前記文法ベース音声認識手順により作成された認識結果が、事前に定められ得る信頼度の閾値に到達しない場合に、音声モデルベース音声認識手順による前記音声入力の処理が起こることを特徴とする方法。
請求項１に記載の方法であって、
複数の音声モデルからの音声モデルの選択が、前記文法ベース音声認識の結果に応じて提供され、
前記選択された音声モデルが、前記音声モデルベース音声認識手順による処理に使用されることを特徴とする方法。
請求項１に記載の方法であって、
生成された前記テキストメッセージが、受信者に送信される前に、音声合成により、又は確認目的のために視覚的に、送信者に提示されることを特徴とする方法。
テキストメッセージを生成する方法であって、
-単語列の選択肢を表すワードラティス(word lattice)を生成するために、音声モデルベース音声認識手順によりメッセージ要素を有する音声入力を処理するステップと、
-パーサにより前記ワードラティス(word lattice)を処理するステップと、
-前記パーサにより作成された認識結果、又は前記ワードラティス(word lattice)から単語列の選択肢の選択を使用して、テキストメッセージを生成するステップと
を有する方法。
テキストメッセージを生成する方法であって、
-音声モデルベース音声認識手順により音声入力を処理するステップであって、様々な音声モデルが対応する複数の音声結果を生成するために使用されるステップと、
-前記認識結果の信頼度の値を決定するステップと、
-最善の信頼度の値を備えた認識結果を使用してテキストメッセージを生成するステップと
を有する方法。
自動対話システムで動作する請求項１ないし６のうちのいずれか１項に記載の方法の使用であって、
電気通信ネットワークを介して、前記生成されたテキストメッセージを送信する方法の使用。
-文法ベース音声認識手順によりメッセージ要素を有する音声入力を処理するための手段と、
-文法ベース音声認識による処理と並行に、又は所定の品質でない文法ベース音声認識手順により認識結果が取得された時に、音声モデルベース音声認識手順により音声入力を処理するための手段と、
-文法ベース及び／又は音声モデルベース音声認識手順により作成される認識結果を使用してテキストメッセージを生成するための手段と
を有するコンピュータシステム。
請求項１ないし６のうちのいずれか１項に記載の方法を実行するためのコンピュータプログラム。
請求項９に記載のコンピュータプログラムが格納されたコンピュータ読取可能データストレージ媒体。