JP2003091298A

JP2003091298A - 音声認識及び自然言語を用いる家庭活動の自動制御

Info

Publication number: JP2003091298A
Application number: JP2002160637A
Authority: JP
Inventors: John Howard; ジョン・ハワード; Jean-Claude Junqua; ジャン−クロード・ジャンクア
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2001-06-06
Filing date: 2002-05-31
Publication date: 2003-03-28
Anticipated expiration: 2022-05-31
Also published as: US20010041980A1; DE60217579T2; CN1389852A; EP1265227B1; JP3711089B2; DE60217579D1; CN1213400C; EP1265227A1; US6513006B2

Abstract

(57)【要約】【課題】最適な量で正しい内容の情報がユーザに提示
される家庭活動制御システムを提供する。【解決手段】音声認識及び自然言語構文解析コンポー
ネントが、ユーザの音声入力の意味を抽出するために用
いられる。システム30は、電子作業ガイド42の意味表現
を記憶していて、ガイドの内容は、自然言語パーサーに
よって用いられる文法の中にマッピングされている。従
って、ユーザは、電子作業ガイドの複雑なメニュー構造
内を移動したいとき、自然言語の文で話すだけでよい。
システムは、ガイドの内容を自動的にフィルタリング
し、画面表示あるいは合成音声による、ユーザの要求に
対する応答を提示する。システムによって、ユーザは、
ホームネットワーク10あるいはホームゲートウェイ12と
通信する様々な装置と、自然な方法で通信することがで
きる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この出願は、1999年8月26日
に出願され、「音声認識及び自然言語を用いるテレビ内
容の自動フィルタリング」と題された米国特許出願番号
09/383,758の一部と関連する。

【０００２】本発明は、一般的には、対話型情報検索に
関する。より詳細には、本発明は、電子的に格納された
情報のメニュー構造内を移動することによって、最適な
量で正しい内容の情報がユーザに提示される音声を発す
ることが可能なシステムに関する。

【０００３】

【従来の技術及び発明が解決しようとする課題】家庭の
隅々までコンピュータネットワークの到達範囲を拡張す
ることに対する関心が高まっている。ホームゲートウェ
イが開発され、家庭の隅々まで、ネットワークサービス
や、ホームオートメーションや、情報へのアクセスが行
き渡りつつある。このようなアクセスを行き渡らせるこ
とに関する問題の１つは、情報検索である。コンピュー
タの大型ディスプレイは、当然に、使用に便利なよう
に、整然としたフォーマットで、情報を適切に表示する
ことができるが、家庭内の多くの器具やシステムは、こ
のサイズあるいは品質のディスプレイを備えてはいな
い。このように、大部分の消費者向け電化製品や器具
は、これまで、簡単なメッセージや少量の情報しか表示
できなかった。

【０００４】将来は、ホームネットワークの発達に伴っ
て、ユーザが、様々な消費者向け電化製品や家庭の器具
をホームネットワークに接続して、このような製品や器
具がデータを共有し、相互に連動することを望むことが
予想される。この点に関して、ホームネットワークは、
様々なチャネルを介した通信をサポートすることができ
る。様々なチャネルとは、例えば、現存する電話の配線
や、コンピュータネットワークの配線や、交流の電力線
に重畳されたデータ信号や、スペクトラム拡散無線周波
数やブルートゥース(bluetooth)技術を含む様々な技術
を用いた無線通信のことである。

【０００５】いったん、ホームネットワークが構築さ
れ、様々な電化製品や器具が接続されれば、ユーザは、
疑いなく、それらの接続された製品や器具を、ホームネ
ットワークへのポータル（入り口）として使うことを望
むであろう。このことに関する問題は、現在の技術が、
非常に扱いにくいユーザインターフェースしか提供でき
ない点であり、特に、ディスプレイのサイズが小さい
か、あるいは品質が低い場合に顕著である。現在の技術
では、メニュー上の情報を表示してユーザに伝えるの
に、時折、長い時間がかかることがある。更に、画面上
のメニュー表示との対話は煩わしいものであり、特に、
暗い部屋でマウスによる作業あるいはキーボード操作を
行わなければならない場合に顕著である。最後に、ユー
ザインターフェース画面を家族全員にとって理想的な場
所に配置することは不可能であるし、このようなインタ
ーフェースの個数も限られている。

【０００６】

【課題を解決するための手段】本発明は、１以上の電子
作業ガイドの支援によって、情報を選別し、かつ複雑な
メニュー構造内を移動するための音声を発することが可
能なシステムを提供する。このシステムは、ユーザに対
して、次の作業を選択するのに最適な量の情報を提供す
るように構成されている。

【０００７】本発明は、従来の画面ベースのインターフ
ェースの限界に対処するために、音声認識及び自然言語
の構文解析を用いて、電子作業ガイドの内容を自動的に
選別するので、ユーザの次の選択のために、最適な数に
微調整された選択肢が、音声によって、もしくは従来の
押しボタン制御を介して、もしくはその他の方法によっ
て提示される。

【０００８】本発明は、ユーザが特定の作業を選択する
際に、迅速で、より煩わしくないインターフェースを提
供する。しばしば、これは、１つの文で要求を完成させ
ることが可能である。このような場合には、表示装置は
必要ないし、もし、それが用意されていたとしても、そ
れを見る必要はない。

【０００９】本発明は、ネットワークに接続された任意
の装置に、その装置あるいはネットワークに接続された
他の装置を操作するためのポータル（入り口）としての
役割を果たさせることが可能である。そのネットワーク
が、ゲートウェイまたは他の適当な接続部を介してイン
ターネットに接続されていれば、このポータル（入り
口）から、インターネットにアクセスすることも可能で
ある。

【００１０】本発明は、ユーザの入力音声から意味情報
を抽出するためのパーサーを有する音声認識システムを
用いる。データ記憶装置は、１以上の電子作業ガイドの
表現を記憶している。これらのガイドは、自然言語によ
る対話の分野を、特定の装置、システム、または対話に
限定する能力を持っている。これにより、システムは、
はるかに正確に、ユーザの入力音声に対応する意味を解
釈することができる。自然言語対話モジュールは、電子
作業ガイドにアクセスし、ユーザの入力音声の意味を解
釈し、そして、ネットワークに適切な情報を提供して、
ネットワークに接続されている、いずれかの装置から、
あるいは、インターネットに接続されているのであれ
ば、インターネットから、特定の情報を検索する。ま
た、自然言語対話モジュールは、ネットワークを介して
通信している装置に、制御命令及びメニュー移動命令を
与えることができる。このように、本発明は、情報を入
手し、かつ家庭の至る所の装置、器具、コンピュータ、
及びその他のシステムを制御する、自然発音モードをユ
ーザに提供する。

【００１１】例として、ほぼ買い物旅行をする準備が整
ったユーザは、冷蔵庫に付随しているマイクロフォンに
向かって話しかけ、「ディナーに何を作ることができる
か？」と尋ねる。自然言語対話モジュールは、適切な電
子作業ガイド（冷蔵庫に対応しているもの）にアクセス
し、冷蔵庫内の品目で可能なディナーのメニューに関す
る情報を検索する。システムは、可能なメニューについ
て提案すると共に、摂取する必要がある成分についてユ
ーザの注意を喚起する。これに対して、ユーザは、「今
夜はチキンシチューを作ろうと思う。買い物リストをプ
リントして下さい。」などと言うことができる。する
と、システムは、現在、どの品目が冷蔵庫内で見あたら
ないかを確かめた上で、プリントのために、ユーザのコ
ンピュータにプリントジョブを送る。

【００１２】１つの好ましい実施において、ネットワー
クを介して通信する各器具もしくは他の装置は、その個
々の分野に対する対話文法を確認する、対応する電子作
業ガイドを有している。自然言語対話モジュールは、ネ
ットワークの全域で共有される。ユーザが、ネットワー
クを介して通信する器具あるいは装置に取り付けられる
か、あるいは近くにあるマイクロフォンに向かって話し
かけると、自然言語対話モジュールは、入力音声の意味
を、電子作業ガイド、すなわち入力音声に最も適合する
特定の文法を用いて解釈する。システムは、最高の意味
認識得点が得られる文法を割り出すことによって、最適
な作業ガイドを選択する。このように、ユーザは、冷蔵
庫ポータル（入り口）の前に立って、システムに、イン
ターネット上のストックプロセス(stock process)を調
べるように要求し、システムのテキスト−音声合成器を
用いて、冷蔵庫のスピーカから合成音声を再生させるこ
とができる。例えば、冷蔵庫に取り付けられるか、ある
いは近くにあるマイクロフォンを介して、ユーザが、入
力音声を入力したとしても、自然言語対話モジュール
は、インターネットに接続されたホームゲートウェイに
対応する電子作業ガイドを用いて、ストックプライス(s
tock prices)のための要求を解釈する。

【００１３】残りの明細書、及び添付した図を参照する
ことによって、本発明及びその多くの可能性、目的、及
び利点が、更に完全に理解される。

【００１４】

【発明の実施の形態】図１は、インターネットに接続さ
れたコンピュータネットワーク及びホームゲートウェイ
と共に示された、本発明の現時点での好ましい実施形態
のブロック図である。

【００１５】図２は、いかにして、音声認識装置及び自
然言語パーサーが、対話マネージャ及び対応する電子作
業ガイドと連係して動作するかを示す、より詳細なブロ
ック図である。

【００１６】図３は、現時点での好ましい実施形態にお
ける自然言語パーサーの構成要素を示すブロック図であ
る。

【００１７】図４は、現時点での好ましい実施形態にお
けるローカルパーサーの構成要素を示すブロック図であ
る。

【００１８】図１を参照すると、家庭活動制御システム
が、コンピュータネットワーク 10に不可欠な構成要素
として示されている。それは、適当な接続部を介してイ
ンターネット 14 に接続されているゲートウェイ 12 を
含んでいてもよい。既に述べたように、ネットワーク 1
0 は、有線及び無線技術、並びに光技術を含む様々な通
信技術によって実現される。

【００１９】本発明のいくつかの可能性を示すために、
様々な装置が、ネットワーク 10 に接続されたものとし
て示されている。これらは、オーディオ／ビデオ装置 1
6 、器具 18 、コンピュータ 20 、及び他のシステム 2
2 を含んでいる。この点に関して、現時点では、大部分
の家庭には、ネットワークに接続可能なオーディオ／ビ
デオ装置や器具は備えられていない。しかし、将来のオ
ーディオ／ビデオ装置や家庭器具は、ネットワーキング
能力を持ち、これらの装置が、ホームゲートウェイ及び
ネットワークシステムの制御下にある構成要素として、
あるいは更に、自然言語での対話のための入り口（ポー
タル）としての役割を果たすようになることが予想され
る。

【００２０】ゲートウェイ 12 は、簡単なネットワーク
ハブ装置から、インターネットへの広帯域接続が可能
な、より複雑なハブ及びスイッチングシステムまで、様
々な形をとることができる。要望があれば、ゲートウェ
イには、照明制御機能や、火災及び盗難警報機能や、冷
暖房システム制御機能や、電話応答及び切換機能等を含
む、様々なホームオートメーション機能を実現するため
の構成要素を備えることもできる。あるいは、これらの
ホームオートメーション機能を、ネットワークに接続さ
れた、符号24に図示された補助装置によって実現するこ
ともできる。

【００２１】できれば、ネットワーク 10 に接続される
各装置は、図１における符号16〜24で示された装置のよ
うに、独立した処理能力と、少なくとも、いくらかの限
られたデータ記憶能力とを持っているとよい。また、こ
れらの装置は、内蔵ディスプレイ画面及びユーザ入力制
御装置を含んでいてもよい。ユーザ入力制御装置とは、
例えば、押しボタン制御装置や、ポインティングデバイ
ス制御装置や、キーボード等のことである。現時点での
好ましい実施形態では、各装置は、そのネットワークへ
の接続とは独立に動作するように形成されている。従っ
て、何らかの理由で、ネットワークのサービスが停止し
たとしても、これらの装置は、それまで通り、それぞれ
の機能を遂行するであろう。その後、ネットワークが、
元のサービスが稼働している状態に戻ると、それらの装
置は、できれば、通信が停止した時に記録された状態に
基づいて、お互いを更新するために、お互いに通信する
ことができるとよい。

【００２２】本発明によれば、音声認識及び自然言語対
話システムが提供され、ユーザが、自然言語の音声を用
いて、ネットワークに接続された様々な装置及びシステ
ムと通信することが可能になっている。実例として、音
声認識及び自然言語対話システムが、符号30に図示され
ている。このシステム 30 は、図１においては、ネット
ワーク 10 に接続されたものとして示されている。これ
は、単に、システム 30 の音声認識及び自然言語対話処
理サービスが、ネットワーク 10 を介して通信する装
置、器具、及び他のシステムで利用可能とされているこ
とを、実例を用いて説明するためのものである。従っ
て、システム 30 は、物理的には、ホームゲートウェイ
12 の中に組み込まれていてもよいし、ネットワークを
介して通信する他の装置、器具、コンピュータ、オート
メーションシステム、及び、他のシステムのうちのいず
れかの中に組み込まれていてもよい。それに加えて、あ
るいは、その代りに、システム 30 によって提供される
機能が、インターネット 14 から得られるコンポーネン
ト(components)によって実現されるものであってもよ
い。例えば、これらのコンポーネントが、オンデマンド
で（要求に応じて）、インターネット 14 からホームゲ
ートウェイ 12 内にダウンロードされるものであっても
よい。

【００２３】好ましい実施形態における、音声認識及び
自然言語処理システム 30 は、入力音声が供給される１
つ以上のマイクロフォン 32 を備えている。これらは、
防騒音型マイクロフォンであってもよく、かつ、物理的
には、様々な位置、例えば、ネットワーク 10 を介して
通信する構成要素のいずれかの内部に配置されていても
よい。マイクロフォンへの入力は、音声入力処理モジュ
ール 34 に供給され、ここで、入力音声はデジタル化さ
れ、音声認識装置 36 が必要とする形式に変換される。
一般に、家庭環境には、多くのにせのバックグラウンド
ノイズがあるので、音声入力処理モジュール 34 は、音
声の開始及び終了を検出するための処理部を有してい
て、これにより、人間の音声の特性に合わないバックグ
ラウンドノイズ成分を遮断する。

【００２４】音声認識装置 36 は、予め調整され、もし
くは適合された複数の音声モデル 38 のセットを有して
いて、これらの音声モデルは、話された発声をテキスト
の形式または記号の形式に変換するために、前記認識装
置によって用いられる。一実施形態においては、前記音
声モデル 38 は、話者に依存しない、連続的な音声モデ
ルであり、単語及び熟語の豊富な語いを、テキストまた
は記号の形式に変換することが可能なものである。要望
があれば、このシステムは、このシステムを使う予定の
話者の発声に基づく調整または適合化によって、音声モ
デル 38 を更新可能なものとしてもよい。そのような場
合には、この音声モデルは、話者に依存し、かつ適合し
たモデルに修正される。

【００２５】音声認識装置 36 の出力は、自然言語対話
モジュール 40 に供給される。このモジュールの構成及
び動作を、以下で更に十分に説明する。自然言語対話モ
ジュールは、符号42に集合的に示され、かつ符号44、4
6、48及び50に個別的に示された複数の電子作業ガイド
のセットと共に機能する。更に十分に説明するが、これ
らの電子作業ガイドは、自然言語対話モジュールの分野
を特定するのに役立ち、音声認識装置 36 から前記対話
モジュールに伝送されたテキストまたは記号表現から、
意味内容(semantic content)すなわち意味(meaning)を
抽出することを可能にする。多種多様な構成要素、装
置、器具、システム等との対話を扱うことが可能な、グ
ローバルな電子作業ガイドを設けることも可能ではある
が、現時点での好ましい実施形態においては、それぞれ
の装置のために、別々の電子作業ガイドを用いている。
各装置のために電子作業ガイドを分割すると、システム
を設計する際の、このガイドのプログラミング及びトラ
ブルシューティングがより容易になる。

【００２６】自然言語対話モジュールは、テキストから
音声を合成するテキスト−音声合成器 52 に接続されて
いて、このテキスト−音声合成器 52 は、さらに、符号
54に図示したスピーカを有する適当なオーディオシステ
ムにも接続されている。テキスト−スピーチ合成器は、
自然言語による対話の一部として、ユーザに、音声によ
る助言を与える。テキスト−スピーチ合成器 52 は、テ
キストの内容を、耳で聞くことができる合成音声の形式
で再生するので、ユーザは、情報を入手するために、デ
ィスプレイの画面を見る必要はない。自然言語対話モジ
ュールは、ユーザの入力音声の意味内容(semantic cont
ent)すなわち意味(meaning)を確かめ、ネットワーク 10
を介して通信している、対応する装置に適切な命令を
与える。

【００２７】現時点での好ましい実施形態における認識
及び自然言語システムを図２に示す。ユーザからの入力
音声は、適当なオーディオインターフェース及びデジタ
イザを介して音声認識モジュール 110 に供給される。
音声認識モジュール 110 の出力は、自然言語パーサー
112 に供給される。このパーサーは、このパーサーが解
釈可能なものの意味規則を定義した文法 114 のセット
と共に機能する。パーサーの詳細を、以下で、更に十分
に説明する。しかしながら、本質的に、このパーサー
は、目的指向型の原理に基づいて動作し、認識されたス
ピーチから、キーワード及びフレーズを割り出す。そし
て、これらの認識されたワード（単語）及びフレーズ
（熟語）を用いて、予め定義されたテンプレートまたは
フレーム内のスロットを埋めるが、これは、別の目的指
向型のタスクを表している。

【００２８】このパーサーは、また、電子作業ガイド
( EAG ) の意味表現と共に機能する。図２においては、
意味表現は、符号116に格納される。EAG は、文法 114
内にマッピングされる。そして、自然言語パーサーは、
符号116に格納された意味表現を調べ、システムが、ど
のような選択肢または応答をユーザに対して提示するか
を決定する。システムが、ユーザを、絶えず変化する電
子作業ガイドのデータと連係させることを可能にするた
めに、電子作業ガイドの内容をローカルパーサーの文法
の中にダウンロードもしくは更新するためのメカニズム
が備えられている。この機能は、ガイド−マッピングモ
ジュール 118 によって実現される。このマッピングモ
ジュールは、符号120に木構造として図示されたEAGをダ
ウンロードし、ガイドの内容を、ローカルパーサーの文
法の中にマッピングする。ガイド−マッピングモジュー
ルは、電子作業ガイドの全体構造の演繹的な知識を有し
ている。従って、マッピングモジュールは、例えば、テ
レビもしくはビデオレコーダに対応する電子作業ガイド
が、映画、スポーツ、ニュース、天気予報等のために別
々の分野を有していることを認識している。そして、マ
ッピングモジュールは、この演繹的な知識を用いて、電
子作業ガイドの中間及びリーフ(leaf)ノードで見つけた
情報を文法の中にマッピングする。例えば、映画に対応
する意味表現は、コメディ、ドラマ、ＳＦのような異な
るタイプの映画に対応するスロットや、監督の名前のた
めのスロットや、俳優の名前のためのスロット等を有し
ている。例えば、冷蔵庫の中身の意味表現は、様々なタ
イプの食品の品目に対応するスロットを有している。

【００２９】時々、電子作業ガイドの全体構造は変化す
る。これは、例えば、新しい構成要素がネットワークに
追加されるときに起こる。システムは、このような変化
に適応するように構成されており、マッピングモジュー
ル更新装置 122 を有している。このモジュール更新装
置には、ネットワークや、インターネットや、もしくは
他の遠隔通信のリンクを介して、最新情報が供給され
る。もし電子作業ガイドの全体構造が変化したら、プロ
グラムガイド−マッピングモジュールは、もはや全ての
ガイドの内容を正しくマッピングしないので、このマッ
ピングモジュールは、更新装置 122 によって更新され
る。この更新は、追加のプラグインモジュールの形であ
ってもよいし、あるいは完全に新しいバージョンのマッ
ピングモジュールの形であってもよい。

【００３０】このシステムの１つの目的は、ネットワー
クを介して通信する装置間の連係を簡単にすることであ
る。このシステムは、ユーザが話した要求の意味規則に
基づいて、電子作業ガイド内で見つかった情報をフィル
タリングすることによって、上記を実現する。ユーザと
の対話から、直ちに、ユーザが感心を持っている情報に
関する１つの作業あるいは項目を割り出すことができる
場合もあるが、多くの場合には、ユーザが何を行おうと
しているのかを割り出すために、一連の対話が必要にな
る。

【００３１】これを容易にするために、好ましい実施形
態においては、対話マネージャ 124が用いられている。
この対話マネージャ 124 は、自然言語パーサー 112 を
用いて、ユーザの要求をかみくだき、画面上に表示され
るか、あるいは合成音声によって提示される、意味をな
すものにする。対話マネージャは、予め、システムの表
示能力に関する情報を記憶しているので、画面上でユー
ザに提示する適切な量の情報を決めることができる。例
えば、１つの要求に応じて５０本の映画の選択肢をユー
ザに提示するのは、画面の解像度やフォントの高さの制
限があるので、画面上に容易に表示するには多すぎる。
一方、与えられた要求に応じて２本のプログラムのみを
割り出せば、対話マネージャは、ユーザから追加の問い
合わせを引き出して、ユーザが更に多くの情報を見たい
かどうかを突き止めることができるかもしれない。

【００３２】電子作業ガイドの意味表現を用いることに
よって、システムは、電子プログラムガイド 120 に含
まれている情報のフィルタリングを遂行する。この機能
は、図２においては、フィルタモジュール 126 として
図示されている。

【００３３】対話マネージャは、特性データ記憶装置 1
28 と共に機能する。このデータ記憶装置は、例えば、
そのユーザが以前に何を要求したかといったデータのよ
うな、ユーザ特性情報を記憶している。この情報は、例
えば、対話マネージャ及び対応するフィルタリング機能
が、そのユーザが興味を持っている可能性がある情報、
あるいは持っていない可能性がある情報をつきとめる際
の規準として用いられる。例えば、そのユーザが、前の
夜に、特定のプログラムを見たならば、この事実は、デ
ータ記憶装置 128 内に記憶され、対話マネージャは、
次の夜に、このプログラムを表示することを控えること
ができる。同様に、そのユーザが、ディナーにホウレン
ソウのシチューを選択することを、いつも拒否するよう
であれば、対話マネージャは、今後、この選択肢の提示
を控えるであろう。また、前記特性データ記憶装置を、
そのユーザが、どの程度の量の情報が、画面に表示され
るか、あるいは合成音声によって提示されることを望む
かについての、そのユーザの好みを記憶するために用い
ることもできる。特定のユーザのための特性データは、
話者の検証あるいは鑑定を用いて選択されてもよい。こ
の点に関して、認識システムは、各ユーザにおける、特
有の、もしくは識別している音声特性を記憶する。それ
以降、そのユーザが入力音声を供給すると、システム
は、音声特性に基づく話者鑑定を行うことによって、話
者を識別するか、あるいは、スピーチ特性に基づく話者
検証を行うことによって、話者から提供された身元を証
明することができる。

【００３４】自然言語パーサー 112 は、電子作業ガイ
ドの意味表現と共に、音声認識システムの中心部を形成
している。好ましい自然言語パーサーの詳細を説明す
る。

【００３５】図３に、自然言語パーサー 112 の構成要
素を、より詳細に示す。特に、音声認識モジュール 228
は、所定の該当するタスクに関連する断片を割り出す
ためのローカルパーサー 260 を有している。音声認識
モジュール 228 は、また、話者の要求の全体の意味規
則を抽出するためのグローバルパーサー 262 も有して
いる。

【００３６】好ましい実施形態におけるローカルパーサ
ー 260 は、パース(parse)の仮説を提供するための、そ
れぞれのパス(passes)と、独特の得点メカニズムとに沿
った、小さな複数の文法を使用する。例えば、新たなロ
ーカルパーサー 260 は、このアプローチフレーズ、例
えば、日付、人名、映画のカテゴリー、食品のカテゴリ
ー等によって認識を行う。もし、話者が、ホームエンタ
ーテイメントシステムに向かって、「メルブルックス
主演で、１月２３日以前に放映されるコメディを録画し
て下さい。」と発言したら、ローカルパーサーは、「コ
メディ」を映画のカテゴリーとして認識し、「１月２３
日」を日付として認識し、かつ「メルブルックス」を俳
優として認識する。グローバルパーサーは、これらの項
目（映画のカテゴリー、日付等）を組み合わせ、話者
が、所定の制約がある映画の録画を望んでいることを認
識する。

【００３７】音声認識モジュール 228 は、ある分野の
意味規則（すなわち、到達すべき目標）を符号化する知
識データベース 263 を有している。この意味で、知識
データベース 263 は、好ましくは、符号265に図示され
たような、分野特有のデータベースであり、対話マネー
ジャ 230 によって、所定の目標への到達に対応する特
定の動作が可能であるかどうかを決定するために用いら
れる。

【００３８】好ましい実施形態においては、フレームデ
ータ構造 264 を介して意味規則が符号化される。フレ
ームデータ構造 264 は、空のスロット 266 を有してい
て、この空のスロット 266 は、グローバルパーサー 26
2 の意味解釈がフレームに合致したとき、埋められる。
例えば、（分野がチューナーのコマンドである）フレー
ムデータ構造は、ある時間帯において視聴者が要求する
チャンネルを指定するための空のスロットを有してい
る。もし、視聴者がチャンネルを提示したならば、空の
スロットは、その情報で埋められる。しかしながら、特
定のフレームが、視聴者が初めに要求を提示した後に、
埋められる必要がある場合には、対話マネージャ 230
は、応答モジュール 234 に指示して、視聴者に所望の
チャンネルを提示するように要求させる。応答モジュー
ル 234 は、テキスト−音声合成器を有していてもよ
い。

【００３９】フレームデータ構造 264 は、好ましく
は、複数のフレームを有していて、その各々は、さら
に、複数のスロットを有している。テレビのチューニン
グの例においては、１つのフレームは、映画の属性、監
督、及び映画のタイプ向けのスロットを有していてもよ
い。別のフレームは、その映画が上演されている場所
や、チャンネル等に関する属性向けのスロットを有して
いるかもしれない。

【００４０】以下の参照は、グローバルパーサー及びフ
レームについて論じている。: R. Kuhn and R. D. Mon,
Spoken Dialogues with Computers (Chapter 14: Sent
enceInterpretation), Academic Press, Boston (1998)

【００４１】対話マネージャ 230 は、話者に情報を要
請する前に空のスロットを埋める際の支援を行う対話履
歴データファイル 267 を用いる。対話履歴データファ
イル267 は、本発明の装置を介して行われた会話のログ
を収録する。例えば、話者が、今夜のディナーが４人分
であることを話したとする。すると、対話マネージャ23
0 は、対話履歴データファイル 267 内に、人数の記録
を格納する。それ以降、もし、その話者が、「今夜はバ
ーベキューを作りたい。」と発言したら、対話マネージ
ャ 230 は、冷蔵庫に対応するデータベースを調べ、ど
の品目が利用可能であるかを明らかにする。そして、対
話マネージャ 230 は、対話履歴データファイル 267 を
用いて、４人分の利用可能なポークチョップがあるとい
う理由により、「ポークチョップ」を勧めるかもしれな
い。もし、利用可能なチキンが１人分のみであれば、対
話マネージャは、対話履歴に基づいて、チキンを勧めな
いであろう。十分な数のスロットが埋められると、本発
明は、話者に、メニューの選択を検証(verify)して確認
(confirm)するように要請するであろう。従って、も
し、対話履歴データファイル 267 を用いて対話マネー
ジャ 230 が定めた、いずれかの仮定が、誤っているこ
とが分かったら、話者は、ここで、この仮定を訂正する
ことができる。

【００４２】自然言語パーサー 112 は、対話あるいは
音声認識システムに用いられる自動音声認識システム
( ASR ) の出力として生成される、緩い構造の自然言語
のテキストから、意味的に重要で有意義な話題を分析し
て抽出する。自然言語パーサー 112 は、自然言語のテ
キストを、話題情報及びデータを含む厳格に構造化され
たタグを生成し、各々のタグをタグが付けられる情報を
含む入力テキストのセグメントと結び付けることによっ
て、新しい表現に変換する。更に、タグは、別途のリス
トあるいは意味フレームのような他の形式で生成されて
もよい。

【００４３】自然言語パーサー 112 の特徴は、入力が
文法的に誤った英語の文を含んでいてもよいように、耐
性が強いことである。その理由は、以下の通りである。
認識装置への入力が、カジュアルな対話スタイルなの
で、音声入力が正しいと考えられる時でさえも、自然な
音声は、文法に反した文、不完全な熟語、及び、挿入、
省略、または、音声認識装置によるエラーの誤認識を含
んでいる可能性がある。自然言語パーサー 112 は、全
てのタイプの入力に、強い耐性で対処し、可能な限り多
くの情報を抽出する。ここでは例として英語が挙げられ
ているが、本発明は、いかなる言語にも適用することが
できる。

【００４４】図４に、自然言語パーサー 112 の新しい
ローカルパーサー 260 の様々な構成要素を示す。自然
言語パーサー 112 は、好ましくは、定点評価として、
マルチパスアプローチ(multi-pass approach)におい
て、一般化されたパース（構文解析）技法を利用する。
各々の話題(topic)は、曖昧さを許容する、文脈に敏感
なＬＲ（左−右、及び、最も右の派生）文法として記述
される。下記のものは、文脈に敏感なＬＲ文法に関す
る参照である。: A. Aho and J. D. Ullman, Principle
s of Compiler Design, Addison Wesley Publishing C
o., Reading, Massachusetts (1977); 及び N. Tomita,
Generalized Parsing, Kluwer Academic Publishers,
Boston, Massachusetts (1991)

【００４５】評価の各々のパスにおいて、それぞれのタ
ーゲットの話題とは関係なく、一般化されたパース（構
文解析）アルゴリズムが、全ての可能性がある（完全
な、または不完全な、 ) パースツリー(parse trees)を
生成するために用いられる。各々のパスは、もしかする
と、いくつかの代替のパースツリーを生成するかもしれ
ない。各々のパースツリーは、ことによると、ある特定
の話題に対して異なる解釈を表現するかもしれない。好
ましくは並列で独立した道を通る複数のパスは、実質的
に、曖昧さ、及び、異なる話題との間の重複を除去す
る。一般的なパースアルゴリズム(parsing algorithm)
は、可能性がある全てのパースツリーを評価する体系化
された方法であるので、システム内に存在する文脈上の
情報を利用して、Ｎ個の最良の候補を選択する。

【００４６】ローカルパースシステム 260 は、語彙
分析 320 と、それぞれの話題のための並列なパースフ
ォレストの生成（例えば、生成器 330 及び 332 ）と、
概略、符号 334 によって示されたような、構文解析さ
れた要素の分析及び合成との３段階を実行する。

【００４７】語彙分析：話者が発したフレーズは、自動
音声認識装置 317 によって認識され、この自動音声認
識装置 317 は、入力文 318 を生成する。語彙分析段階
320 は、語彙フィルタ 326 及び 328 を用いて、入力
文 318 中の話題（これは広範囲な文法を必要としな
い）のためのタグを確認して生成する。これらは、例え
ば、ホームエンターテイメントへの適用においては、映
画の題名、映画のカテゴリ、監督、男優及び女優の名前
を含んでいる。前記の典型的なタグに関連したキーワー
ドを用いる、入力文 318 の通常表現の走査は、一般
に、このレベルで十分である。また、特別な文法の語彙
の一部ではない、入力文中の単語へのタグ付けは、この
段階で行われる。これらの単語は、Ｘタグを用いて示さ
れるので、そのようなノイズ単語は、文字「Ｘ」に置き
換えられる。

【００４８】並列なパースフォレストの生成：パーサー
112 は、各話題を別々に記述及び構文解析するための
高水準の通常パース（構文解析）方針を用いて、タグを
生成し、入力の流れに対して、それらをマッピングする
（割り当てる）。構造化されていない入力テキスト 318
の性質のため、個々の話題のパーサーは、好ましく
は、重要な単語以外の全てを無視し、挿入及び削除エラ
ーに対処して、できる限り広範な言語を受け入れる。そ
れぞれの話題のパース（構造解析）は、LRパースの中で
用いられるものに、かなり似た、メタ(meta)レベルの仕
様言語を用いる、文脈に敏感な文法規則を含んでいる。
文法の例は、文法 A 340 、及び、文法 B 342 を含んで
いる。本発明のアプローチを用いて、話題の文法 340
及び 342 は、それらがLR型の文法であるかのように、
重複を含んで、ずれを除去せずに、矛盾を減少させて、
記述される。入力文の構造解析の結果は、文法仕様に基
づく、可能性がある構造解析の全てである。

【００４９】生成器 330 及び 332 は、それらの話題の
ために、パースフォレスト 350 及び 352 を生成する。
タグの生成は、パース（構造解析）の間に得られるパー
スツリーの中で発見される、実際の情報を合成すること
によって行われる。タグの生成は、タグ及び得点生成器
360 及び 362 によって達成され、それぞれ、タグ364
及び 366 を生成する。それぞれの識別されたタグは、
また、入力文中のどの単語の組（セット）がタグによっ
てカバーされたかについての情報も有している。続い
て、タグは、そのカバー−セットと入れ替わる。好まし
い実施形態においては、文脈情報 367 が、生成器 360
及び 362 によるもののような、タグ及び得点生成のた
めに利用される。文脈情報 367 は、以下で説明する発
見的得点要因技法(heuristic scoring factor techniqu
e)と関連する重みを調節するために、発見的方法の評価
(scoring heuristics)において利用される。文脈情報 3
67は、好ましくは、単語信用ベクトル 368 、及び、対
話文脈重み 369 を含んでいる。しかしながら、パーサ
ー 112 が、単語信用ベクトル 368 、及び、対話文脈重
み369 の両方を用いるものに限定されず、一方を用いて
他方を用いないものや、文脈情報 367 を利用しないも
のも含まれることは、理解されるべきである。

【００５０】自動音声認識処理ブロック 317 は、単語
信用ベクトル 368 を生成し、それは、どれほど良く、
入力文 318 中の単語が認識されたかを示す。対話マネ
ージャ230 は、対話の状態を見極めることによって、対
話文脈重み 369 を生成する。例えば、対話マネージャ
230 は、ユーザに、例えば、どの視聴時間が望ましい
か、といった、特定の話題について尋ねる。この要求に
よって、対話マネージャ230 は、対話の状態が時間指向
であるものと見極める。対話マネージャ 230 は、検出
された時間指向の単語を、更に大きく重み付ける、適切
な処理を通知するために、対話文脈重み 369 を供給す
る。

【００５１】タグ要素の合成：前の段階の、話題を見分
けるパーサーは、ローカルパーサーの最終的な出力を形
成するために、分析され、かつ共に結合される必要があ
る情報を、かなりの量、生成する。パーサー 112 は、
好ましくは、複数のタグの候補の生成をもたらす、各々
の話題を見分ける際に、できる限り「攻撃的」であった
方がよい。その上、数字または所定のキーワード、例え
ば「間」、「前」、「そして」、「あるいは」、「あた
り」等があり、特に、これらの単語が、認識エラーのた
めに、差し込まれるか、あるいは落とされたならば、多
くの代替タグ候補を形成することが可能である。例え
ば、入力文は、挿入または削除エラーを有している可能
性がある。結合段階では、どのタグが、より意味がある
入力の解釈を形成するかを見極める。パーサー 112
は、発見的方法(heuristics)を定義し、これに基づい
て、Ｎ個の最良候補選択手順を用いて、選択を行う。そ
れぞれの生成されたタグは、入力された単語の列の中
の、タグのカバー−セットと呼ばれる単語の組に対応す
る。

【００５２】タグのカバー−セットを考慮に入れる発見
的方法は、得点を生成するために用いられる。得点は、
おおよそ、カバー−セットのサイズ、カバーされた項目
の中の、いくつかの単語の隔たりの大きさ、及び、所定
のキーワードの存在に対して割り当てられた重みによ
る。好ましい実施形態においては、ＡＳＲから得られた
信用ベクトル及び対話文脈情報が、優先順位をタグに割
り当てるために利用される。例えば、チャンネル−タグ
のパース（構文解析）の適用は、初めに、チャンネルに
関する数字を取り除くかもしれない。それは、入力の流
れから、一意に識別することが容易であり、他のタグに
よって曖昧さを引き起こす原因となる数字を、ほとんど
残さない。好ましくは、対話文脈情報が、優先順位を調
整するために用いられる。

【００５３】Ｎ個の最良の候補の選択：各パスの終り
に、Ｎ個の最良プロセッサ 370 は、タグに関する得点
に基づいて、Ｎ個の最良の候補を選択し、そして、対応
するパースツリー内で発見された情報を各々が表す話題
タグを生成する。いったん、話題が、この方法で発見さ
れたならば、入力における対応する単語は、タグ情報に
よって置き換えられる。この置換変換は、現在の入力テ
キストから、対応する単語を削除する。各パスの出力 3
80 は、新たな入力として、次のパスにフィードバック
される。なぜなら、この置換は、競合する文法間の一定
の曖昧さを除去するのに役立つ。もしくは、オーバーラ
ップしているシンボルをフィルタにかけて取り除くこと
によって、より良いパースツリーを生成する助けにな
る。

【００５４】最後のパスにおいて追加のタグが生成され
ないとき、評価は終了する。最後のパスの出力は、グロ
ーバルパーサー 262 に対する、ローカルパーサーの出
力になる。各段階は、その入力中の単語数を減少させる
ことのみを行い、入力テキストの長さは有限であるの
で、定点評価におけるパスの数は、その入力のサイズに
よって、直線的に制限される。

【００５５】後述する新たな得点要因は、以下のパース
ツリーの属性に基づいて、代替パースツリーのランク付
けを行うのに用いられる。・終端のシンボルの数・終端ではないシンボルの数・パースツリーの深さ・終端のシンボルにおける隔たりの大きさ・各々の終端のシンボルに対応するＡＳＲ信用度・各々の終端のシンボル及び終端ではないシンボルに対
応する文脈−調節可能重み

【００５６】各経路は、独自に展開することが可能な、
別々の話題に対応していて、評価的に安い方法で、少量
のデータで動作することが好ましい。パーサー 112 の
構造は、柔軟な、モジュール方式であるので、新たな話
題のために、あるいは、特定の話題が率直であるために
発見的方法(heuristics)を変更するために、追加の経路
及び文法を組み込むことを可能にする。これは、また、
異なるシステム間で容易に共有可能な、再利用可能な要
素を展開することも可能にする。

【００５７】

【発明の効果】以上より、本発明が、別の見方をすれば
複雑な電子プログラムガイドと連係する、ユーザーフレ
ンドリーで高速な方法を提供することが明らかになっ
た。自然言語による会話を通して、ユーザは、このシス
テムに、プログラムガイド内の情報を見つけるように要
求することができ、また、返される情報は、理解しやす
い部分の中に提示される。その結果は、情報提示の混合
であって、画面上への表示による率直な提示と共に、自
然言語による気軽な対話を提供する。本発明を、現時点
での好ましい形態に沿って説明してきたが、本発明が、
添付した請求項の中で明らかにされた、発明の意図から
はずれることがない変形が可能であることは、理解され
るであろう。

【図面の簡単な説明】

【図１】インターネットに接続されたコンピュータ
ネットワーク及びホームゲートウェイと共に示された、
本発明の現時点での好ましい実施形態のブロック図であ
る。

【図２】いかにして、音声認識装置及び自然言語パ
ーサーが、対話マネージャ及び対応する電子作業ガイド
と連係して動作するかを示す、より詳細なブロック図で
ある。

【図３】現時点での好ましい実施形態における自然
言語パーサーの構成要素を示すブロック図である。

【図４】現時点での好ましい実施形態におけるロー
カルパーサーの構成要素を示すブロック図である。

【符号の説明】

10 コンピュータネットワーク 12 ゲートウェイ 14 インターネット 16 オーディオ／ビデオ装置 18 器具 20 コンピュータ 22 他のシステム 24 補助装置 30 音声認識及び自然言語処理システム 32 マイクロフォン 34 音声入力処理モジュール 36 音声認識装置 38 音声モデル 40 自然言語対話モジュール 42 電子作業ガイド 44 他のシステム 46 冷蔵庫 48 テレビ 50 ホームオートメーション 52 テキスト−音声合成器

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ０６Ｆ 17/60 １７６Ｇ１０Ｌ 3/00 ５７１ＵＧ１０Ｌ 13/00 ５５１Ｇ 15/00 ５５１Ａ 15/18 ５５１Ｓ 15/28 ５３７Ａ 17/00 ５４５Ａ５１１Ｒ５５１Ｎ (72)発明者ジャン−クロード・ジャンクアアメリカ合衆国・カリフォルニア・ 93110・サンタ・バーバラ・ニューシーズ・ドライヴ・4543 Ｆターム(参考） 5B075 QP01 5B091 BA19 CB12 CB32 5D015 AA03 AA05 DD02 HH00 KK01 KK04 LL06 LL11 5D045 AB01 AB30

Claims

【特許請求の範囲】

【請求項１】ホームネットワークと通信する少なく
とも１つの家庭用品を有する、前記ホームネットワーク
のための情報フィルタリングシステムにおいて、ユーザの入力音声から意味情報を抽出するためのパーサ
ーを有する音声認識装置と、少なくとも１つの電子作業ガイドを記憶しているデータ
記憶装置と、前記意味情報に基づいて、記憶された電子作業ガイドを
フィルタリングし、かつ、前記家庭用品に対応する、フ
ィルタリングされた情報を提供するための対話マネージ
ャとを具備することを特徴とする情報フィルタリングシ
ステム。
【請求項２】前記家庭用品は、オーディオ／ビデオ
装置、器具、コンピュータ、ホームオートメーションシ
ステム、火災報知システム、盗難警報システム、電話シ
ステム、インターホンシステム、ゲートウェイシステム
及びインターネットアクセスシステムから成るグループ
の中から選択されることを特徴とする請求項１に記載の
システム。
【請求項３】前記対話マネージャは、聴覚的あるい
は視覚的な形式で、ユーザに、前記フィルタリングされ
た情報を提供することを特徴とする請求項１に記載のシ
ステム。
【請求項４】電子作業ガイドの情報ソースから、前
記データ記憶装置の内容を更新するために、前記データ
記憶装置と接続されたマッピングモジュールを更に具備
することを特徴とする請求項１に記載のシステム。
【請求項５】前記ネットワークをインターネットに
接続するホームゲートウェイモジュールを更に具備し、
前記フィルタリングシステムは、前記意味情報に基づい
て、インターネットを介して獲得した情報をフィルタリ
ングすることを特徴とする請求項１に記載のシステム。
【請求項６】複数の家庭用品が前記ネットワークと
通信していて、前記フィルタリングシステムは、前記複
数の家庭用品に対応する複数の電子作業ガイドを有して
いることを特徴とする請求項１に記載のシステム。
【請求項７】前記家庭用品は、ユーザが入力音声を
供給する、対応するマイクロフォンを有していることを
特徴とする請求項１に記載のシステム。
【請求項８】前記家庭用品は、前記対話マネージャ
が前記フィルタリングされた情報を提示する、対応する
ディスプレイを有していることを特徴とする請求項１に
記載のシステム。
【請求項９】前記対話マネージャは、ユーザに合成
音声による情報を提供するための音声合成器を有してい
ることを特徴とする請求項１に記載のシステム。
【請求項１０】前記対話マネージャは、ユーザに合
成音声による前記フィルタリングされた情報を提供する
ための音声合成器を有していることを特徴とする請求項
１に記載のシステム。
【請求項１１】前記パーサーは、前記電子作業ガイ
ド内で表現された情報に対応するスロットを有する複数
の目的指向型フレームを定義する、目的指向型パーサー
であることを特徴とする請求項１に記載のシステム。
【請求項１２】前記パーサーは、前記電子作業ガイ
ド内で表現された情報に対応する所定の文法の組を有す
る自然言語パーサーであることを特徴とする請求項１に
記載のシステム。
【請求項１３】前記マッピングモジュールは、遠隔
サイトから獲得した情報に基づいて、前記マッピングモ
ジュールの機能を更新するためのマッピングモジュール
更新システムを有していることを特徴とする請求項４に
記載のシステム。
【請求項１４】前記対話マネージャは、前記フィル
タリングシステムのユーザが過去に使用した表現を記憶
するためのユーザ特性データ記憶装置を有していて、前
記対話マネージャは、記憶された電子作業ガイドの表現
を更にフィルタリングするために、前記特性データ記憶
装置を用いることを特徴とする請求項１に記載のシステ
ム。
【請求項１５】ユーザ特性データ記憶装置と、前記
ユーザ特性データ記憶装置にアクセスするための話者検
証システムとを更に具備することを特徴とする請求項１
に記載のシステム。
【請求項１６】ユーザ特性データ記憶装置と、前記
ユーザ特性データ記憶装置にアクセスするための話者識
別システムとを更に具備することを特徴とする請求項１
に記載のシステム。