JP2010026686A

JP2010026686A - 統合的インタフェースを有する対話型コミュニケーション端末及びそれを用いたコミュニケーションシステム

Info

Publication number: JP2010026686A
Application number: JP2008185756A
Authority: JP
Inventors: Mototaka Nagai; 基孝永井; Shojiro Shiraishi; 白石昌二朗; Akira Shinada; 晃品田; Yasuko Mori; やす子森; Yoshimi Yoshida; 義美吉田
Original assignee: LIFE INTERFACE KK; RES INST OF INFORMATION ENVIRO; RESEARCH INSTITUTE OF INFORMATION-ENVIRONMENT DESIGN
Current assignee: LIFE INTERFACE KK; RES INST OF INFORMATION ENVIRO; RESEARCH INSTITUTE OF INFORMATION-ENVIRONMENT DESIGN
Priority date: 2008-07-17
Filing date: 2008-07-17
Publication date: 2010-02-04

Abstract

【課題】音声入力とタッチパネル入力を併用した統合的インタフェースを有する対話型コミュニケーション端末によるデジタルデバイドの解消。
【解決手段】タッチパネル付き表示部と、音声入力／出力部と、ユーザの声の音声認識により命令を識別する音声認識部と、擬人化ナビゲーション用キャラクタを表示させるキャラクタ制御部と、タッチパネル若しくは音声によるユーザの入力命令に対して、予め決められた応答シナリオに基きキャラクタとユーザとの音声による対話制御を行う対話シナリオ制御部と、外部ネットワークや電話回線などの通信回線と接続するためのマルチメディア通信インタフェース制御部と、Ｗｅｂ上の音声認識用の単語を抽出し、音声認識辞書に登録するＷｅｂブラウザ制御部と、前記入出力と前記各部の遷移状態との組み合わせに応じて前記各部を動的に制御する統合インタフェース制御部とを備え、音声入力部及び音声出力部を電話器として構成する。
【選択図】図２

Description

本発明は、統合的なインタフェースを有するコミュニケーション端末及びそれを用いたシステムに関し、特に、操作者の発する音声を認識・解析し、ナビゲーション用キャラクタによる対話型のコミュニケーションを可能とするとともに、タッチパネル入力を併用することにより、音声認識による対話型コミュニケーションを補完したコミュニケーション端末及びそれを用いたコミュニケーションシステムに関する。

近年、情報技術の発展に伴い、若者や高学歴者、高所得者などが情報技術を活用してますます高収入や雇用を手にする一方、コンピュータ（情報機器）を使いこなせない高齢者や、貧困のため情報機器を入手できない人々は、より一層困難な状況に追い込まれるようになってきた。いわば、情報技術が社会的な格差を拡大、固定化する現象であり、これはデジタルデバイド（情報格差とも言う）と呼ばれている。

従来から高齢者等のデジタルデバイド解消のための方法は様々に考えられてきた。現実的な方法では主に以下のものがある。すなわち、以下の(1)〜(3)のいずれかが用いられてきた。
(1)操作者が発する音声を認識し、認識された命令によって操作を行う。
(2)タッチパネルに表示されたメニュー又は命令をタッチして直接入力することによって操作を行う。
(3)擬人化されたキャラクタのガイドに従って、対話を行いながら音声で入力する（特許文献１参照）。

上記(1)〜(3)の入力はカスタマイズユースのシステムを構築すれば入力に対応したシステムになるので、これまでカスタマイズシステムに見合った入力法がとられていた。
しかしながら、デジタルデバイド解消のための本格的な実用システムを構築しようとすると次のような問題があった。
一般的にＰＣを操作する場合、カスタマイズシステムの他、Ｗｅｂ検索機能やＩＰ電話機能、手書き入力機能、携帯電話との連動機能等、実用で使用する前記システムを(1)〜(3)の入力でシームレスで統一されたインタフェースにすることができない。インタフェース画面も統合的でないため、ユーザの立場からは試作レベルのものに留まっていた。特に、特許文献１の場合、擬人化されたキャラクタのガイドに従って音声で入力できる点においては、操作に慣れていない高齢者等には使い勝手がよくなるが、音声認識が完全ではないため、音声の誤認識（又は認識不能）が発生した場合の対処が却って面倒になり、実現化は困難となる。
特開２００２−４１２７６号公報

本発明は上述のような事情に鑑み為されたものであり、操作者の発する音声を認識・解析し、ナビゲーション用キャラクタによる対話型のコミュニケーションを可能とするとともに、タッチパネル入力を併用することにより、音声認識による対話型コミュニケーションを補完した統合的インタフェースを有する対話型コミュニケーション端末を提供し、デジタルデバイドの解消に寄与することを目的とする。

本発明は、音声認識による入力とタッチパネル入力を併用した、統合的インタフェースを有する対話型コミュニケーション端末に関し、本発明の上記目的は、前記タッチパネル入力が可能な表示部と、音声入力部と、音声出力部と、前記音声入力部を介して入力されたユーザの声を音声認識するとともに、入力された命令を識別する音声認識部と、擬人化したナビゲーション用キャラクタを生成して前記表示部に出現させるキャラクタ制御部と、前記タッチパネル入力若しくは前記音声認識されたユーザの入力命令に対して、予め決められた応答シナリオに基づいて前記キャラクタとユーザとの音声による対話制御を行う対話シナリオ制御部と、外部ネットワークや一般電話回線などの通信回線と接続するためのマルチメディア通信インタフェース制御部と、Ｗｅｂ上の前記音声認識用の単語を抽出し、音声認識辞書に登録するＷｅｂブラウザ制御部と、前記入出力と前記各部の遷移状態との組み合わせに応じて前記各部を動的に制御する統合インタフェース制御部とを備え、前記音声入力部及び音声出力部が電話器として構成されていることを特徴とする統合的インタフェースを有する対話型コミュニケーション端末によって達成される。

また、本発明の上記目的は、さらに音声認証部を備え、前記ユーザの音声入力による声の特徴を解析して本人認証を行うことを特徴とする前記統合的インタフェースを有する対話型コミュニケーション端末によって効果的に達成される。

さらに、本発明の上記目的は、さらに手書き入力制御部を備え、前記端末と接続された外部の手書き入力装置から入力された手書き入力情報をイメージデータとして取り込んで、前記表示部に表示することを特徴とする前記統合的インタフェースを有する対話型コミュニケーション端末によって効果的に達成される。

またさらに、本発明の上記目的は、前記統合インタフェース制御部は、前記音声認識部における音声認識が失敗したときに、前記表示部に候補となる内容を表示して、前記タッチパネルによる入力もしくは音声による再入力の選択を促すことにより、或いは、前記通信回線を介して電子メール、文字伝言又は音声伝言等のメッセージを送受信するためのメッセージ送受信制御部をさらに備えることにより、或いは、前記音声認識部は、前記ユーザの音声の音声認識率を向上させるための前記キャラクタを利用した認識学習手段を備えることにより、或いは、前記マルチメディア通信インタフェース制御部は、前記タッチパネル入力、音声入力及び手書き入力が所定の時間連続して無応答の場合に前記端末をスリープモードに遷移させ、電話着信、受話器フックアップ、メッセージ受信、起動・リセットボタン押下、又は前記タッチパネルのタッチのいずれかをトリガとして前記スリープモードを解除して通常処理モードに遷移させるように制御することによって、さらに効果的に達成される。

本発明は、前記の統合的インタフェースを有する対話型コミュニケーション端末と、該端末と前記通信回線を介して相互に通信可能に接続されたサーバとを含むコミュニケーションシステムに関し、本発明の上記目的は、前記サーバは、前記端末から送られたユーザ情報に基づいて本人認証を行うユーザ認証手段と、前記端末から送られたユーザ情報、端末情報を格納するデータベースと、前記ユーザ情報に基づいて前記ユーザ個人のホームページを生成し、前記端末の表示部に表示するユーザ管理手段と、前記端末情報に基づいて前記端末の管理用ホームページを生成し、前記端末の表示部に表示する端末管理手段とを、少なくとも備えていることを特徴とするコミュニケーションシステムによって達成される。

本発明に係る統合的インタフェースを有する対話型コミュニケーション端末によれば、エージェントキャラクタの音声によるナビゲーションとともに、タッチパネルの併用により、音声認識の不完全性を補完することができるため、デジタルデバイドの解消に大いに効果を発揮する。

本発明は、操作者の発する音声を認識・解析し、ナビゲーション用キャラクタによる対話型のコミュニケーションを可能とするとともに、タッチパネル入力を併用することにより、音声認識による対話型コミュニケーションを補完した統合的インタフェースを有する対話型コミュニケーション端末に関するものである。
タッチパネルを併用したのは、デジタルデバイド解消に必要な音声の認識率が完璧ではないからである。
基本的な操作は、音声入力によるキャラクタとの対話によって行うが、音声誤認識あるいは音声認識辞書に該当する言葉がなかったような場合は、キャラクタは再度聞き返すか、画面での選択（タッチパネルによる入力）が可能なように選択画面を表示する。ユーザは再度音声入力にトライするか、タッチパネルでの入力を行うかの選択を行うことができる。
このような処理を可能とする本発明によるコミュニケーション端末について、図面を参照しつつ詳細に説明する。

図１は本発明に係る統合的インタフェースを有する対話型コミュニケーション端末（以下、端末という。）１００、及びインターネット３００等の通信回線を介して接続されたサーバ２００を示している。インターネット３００には、一般Ｗｅｂサイト、ＩＰ電話網及び公衆電話網が接続されている。
端末１００には音声入力に使用するマイク１０１、タッチパネル１０２、手書きの文字イラスト等をイメージデータとして入力するための手書き入力装置１０３、操作画面や出力を表示するためのモニタ（表示部）１０４、音声出力のためのスピーカ１０５が接続されている。後述のように、この端末は電話機能を有しているため、マイク１０１とスピーカ１０５は電話器の受話器の送話部と受話部として構成してもよい。さらに、マイク１０１を介して入力されたユーザの声を音声認識辞書１０６に基づいて音声認識するとともに、入力された命令を識別する音声認識エンジン１０７、擬人化したナビゲーション用キャラクタを生成してモニタ１０４に出現させるキャラクタ制御部１０８、タッチパネル入力若しくは音声認識されたユーザの入力命令に対して、予め決められた応答シナリオに基づいてキャラクタとユーザとの音声による対話制御を行う対話シナリオ制御部１０９、インターネット３００と接続するためのマルチメディア通信インタフェース制御部１１０、ユーザが入力した入力命令に基づいて各制御部を動的に制御する統合インタフェース制御部１１１を備えている。
音声認識エンジン１０７には、音声認識率を向上させる訓練をユーザが自然な形で継続して進んで行えるような認識学習手段を備えている。たとえば、ユーザのしゃべり方、活舌をよくするためのゲームとして、キャラクタが誘導して文章や言葉を提示させ、その正答率をゲーム感覚で楽しめるようなツールである。
また、ユーザの音声入力による声の特徴を音声認証辞書１１２に基づいて解析して本人認証を行う音声認証エンジン１１３、手書き入力装置１０３から入力された手書き入力情報をイメージデータとして取り込んで、モニタ１０４に表示する手書き入力制御部１１４、インターネット３００を介して電子メール、文字伝言又は音声伝言等のメッセージを送受信するためのメッセージ送受信制御部１１５も備えている。
そのほかにも、Ｗｅｂブラウザ制御部１１６、ＩＰ電話制御部１１７、外部情報収集エージェント制御部１１８、各種デバイス制御部１１９、認証ユーザ対話学習辞書１２０等を備えている。サーバ２００の内容については後述する。

図２は端末の内部の各部の相互関係を示す図である。音声入力部（マイク）１０１で入力されたユーザの音声は音声認識辞書１０６により音声認識エンジン１０７で認識される。
音声認識には、例えばワードスポッティング法が用いられる。ワードスポッティング法とは、話し言葉（入力音声）から必要な言葉（単語や音節）を拾いだしていく方式である。ワードスポッティング法は，発話を一字一句文字に置き換える方法ではなく，意味理解に必要なキーワードだけを抜き出して認識する手法である。
音声認識エンジン１０７によって認識された入力命令は統合インタフェース制御部１１１送られ、統合インタフェース制御部１１１が関連する各制御部（１０８〜１１０、１１４〜１１９）に命令を送り、命令が実行される。また、タッチパネル入力部１０２又は手書き入力部１０３から入力された命令も統合インタフェース制御部１１１送られ、同様の処理がなされる。
音声・画面表示出力は図１のモニタ１０４、スピーカ１０５に対応するものであり、入力された命令に応じて対話シナリオ制御部１０９で応答文が決定され、キャラクタ制御部１０８でキャラクタに発話させて音声とともに画面に表示する。
このようにユーザ側では音声入力を主として、それをタッチパネルと手書き入力で補完する形の統一された入力インタフェースでありながら、Ｗｅｂブラウザ制御、ＩＰ電話制御、電子メール等のメッセージ送受信をシームレスに制御することが可能となる。

図３はマルチメディア通信インタフェース制御部１１０の機能の一つであるスリープモードへの遷移／解除について説明するための図である。音声入力、タッチパネル入力、手書き入力のいずれもが連続して１０分以上無応答の場合はスリープモードに遷移させ、それまでの間は通常処理モードを維持する。
また、所定のトリガが与えられた場合にスタートモード（あるいはスリープモード解除）に遷移するように制御する。所定のトリガとは、例えば、電話着信時、受話器取上げ時、メール受信時、文字伝言・音声伝言受信時、ユーザが予め設定した起動時間になった時、タッチパネルにタッチした時、起動・リセットボタンＯＮ時である。

図４は統合インタフェース動的処理の概念及び統合インタフェース制御の処理フローを説明するための図である。
入力された命令に応じてどのインタフェースが必要なのかを識別する「統合的インタフェース識別」段階と、選択されたインタフェースに基づいて処理を行う「インタフェース動的処理」段階と、結果を出力する「出力」段階に大きく分けられる。
まず、ユーザの入力した音声に基づいて音声認識が行われ、認識が成功すると、命令が識別される。何らかの理由で音声認識が不成功の場合は、キャラクタが再度の音声入力を求めるべく同じ質問を繰り返すとともに、タッチパネルに質問に対する回答が選択可能なように表示し、いずれかの手段をユーザが選択できるようにする。
図５は音声による動的処理操作の実施例を示す図である。すなわち、ユーザが音声入力してＷｅｂブラウザを操作する処理の流れを説明するための図である。
マイクから入力された音声（アナログ信号）はＡ／Ｄ変換部でデジタル信号に変換され、音響解析部において単語や音節として抽出され、照合処理部から認識辞書生成部に問い合わせがなされる。認識辞書生成部は問い合わせがあった単語等が基本命令辞書あるいは可変辞書にあるか否かを調べ、結果を照合処理部に返す。

可変辞書は、実際には単なる文字列から成る一時的な辞書である。認識させたい単語（場合によっては短文）をコンマで区切りながら連結し、一つの文字列にする。これが可変辞書である。そして、これを引数として音声認識エンジンの特定の関数を呼び出すことで、認識語彙を音声認識エンジンの照合処理部に登録する。
認識辞書生成部は、コンテクストによって認識語彙を動的に生成・差し替える。コンテクストによって認識語彙を動的に生成・差し替えるとは、例えば、Ｗｅｂページの遷移が発生した場合を考えると、ここで実行される処理は以下のものとなる。図６のフローチャートを参照しつつ説明する。
(1)ページ遷移と同時に、現在登録してある語彙を音声認識エンジンから削除する（ステップＳ１）。
(2)新しいページのＨＴＭＬコードをオブジェクトとして解析し、リンクタグを抽出する。
(3)リンクタグ内の文字列（ユーザにリンク文字として表示されるもの）を抽出する（ステップＳ２）。これは半角英数漢字かな混じり文であることが多いので、これを全角カタカナに変換する（ステップＳ３）。
(4)全角カタカナに変換した文字列を、コンマを挟みながら連結する。こうして「可変辞書」を生成し（ステップＳ４）、音声認識エンジンに登録する（ステップＳ５）。（音声認識エンジンには、平仮名もしくは片仮名の文字列しか登録できない。）
(5)他方、リンク索引作成部は、それぞれのリンクタグオブジェクトへのポインタと、そのカナ変換した認識語彙とをペアとして記憶しておく。具体的には、タグへのポインタを値、対応するカナ文字列をキーとする連想配列を作る。この連想配列を「リンク索引」と呼ぶこととする。
(6)表示されたページ内のリンク文字列をユーザが選び、読み上げる。すなわち、音声入力を行う。音声認識エンジンはこれを解析し、登録されている語彙のいずれかを返す（全く認識できない場合は、エラー値を返すことになる。）。この認識結果をキーとして、先の「リンク索引」から該当するリンクタグを特定し、このリンクタグにおいてクリックイベントを発生させる。イベント発生後、このイベントを処理するのはＷｅｂブラウザである。Ｗｅｂブラウザは、そのリンクがクリックされたものとしてページを遷移させる。これ以降は、(1)から(6)までの繰り返しになる。
ちなみに、「ＨＴＭＬコードをオブジェクトとして解析」とは、ＨＴＭＬソースコードを文字列として解析するのではなく、ＤＯＭオブジェクトとして解析することである。また、「基本辞書」と「可変辞書」との違いであるが、前者は、コンテクストに関わらず変化しない辞書であり、このソフトのごく基本的な操作を音声で行うためのものである。

音声操作機能における「命令実行部」の具体的な動作は、音声認識エンジンからの認識結果に基づく。これを図７のフローチャートに基づいて説明する。まず、音声認識が正常にできたことが前提となるが、音声認識ができなかった場合は、音声出力や画面表示を通じて、ユーザにその旨を知らせ、マイク音量の再設定を促す等の処理が行われる。その結果、音声認識が正常に行われた場合は、音声認識の結果を出力する（ステップＳ１１）。具体的には、音声出力や画面表示を通じて、ユーザの操作命令を通知（反復）する。
認識された語彙を基本命令辞書から探しだす（ステップＳ１２）。基本命令辞書に含まれている場合は、該当する処理を担当するモジュールを、適切なパラメータを設定しながら呼び出す（ステップＳ１３）。例えば、手書き入力によってディスプレイに描画される線の色や太さを変更する、ディスプレイの輝度を変更する、等である。認識された語彙が基本命令辞書に含まれていない場合は、可変辞書から探す（ステップＳ１４）。
認識された語彙が可変辞書に含まれていない場合は、操作失敗をユーザに伝える（ステップＳ１５）。認識された語彙が可変辞書に含まれている場合であって、リンク文字が一つだけの場合は、「リンク索引」を使用して、Ｗｅｂページの遷移をおこす（ステップＳ１６）。
含まれているリンクが複数ある場合は、該当するリンク文字のすべてを目立たせ、ユーザに音声による特定を促す（ステップＳ１７）。

図８は図４における出力段階のうちの、文字・画像出力制御の実施例を示す図である。
手書き入力装置から手書き入力によって文字や図形が入力されたときは、モニタの汎用表示領域（図９参照）のフォアグランド（前景）に描画する。また、Ｗｅｂブラウザが操作されたときは、汎用表示領域のバックグランド（背景）に描画する。従って、Ｗｅｂページの上に手書き入力装置によって文字、イラスト等を描くことも可能になる。
ＩＰ電話を利用する場合、Ｗｅｂカメラによる動画を使用しない場合は音声通話を行い、動画を使用する場合、汎用表示領域に描画データ（手書き文字、図形等）が既にある場合は、その描画データを保存して、動画表示パネルに自動的にきりかえ、動画を表示する。汎用表示領域に描画データが存在しない場合はすぐに表示パネルを切り換えて動画を表示する。表示パネルの切り換えは、汎用表示領域の上に動画用表示領域を重ねることによって行う。

図９は本発明に係るコミュニケーション端末のモニタに表示される初期画面の一例である。画面上部がコントロールパネルになっており、Ｗｅｂページ表示ボタン、ＩＰ電話機能起動ボタン、手書き入力機能のパラメータ設定（ペンの太さ、色等）ボタン等を含む。
また、その下の余白部分は汎用表示領域であり、Ｗｅｂページや手書き入力されたデータを表示する。
たとえば、手書きでメモを取る場合、音声入力で「メモ」と入力すると音声認識され（あるいはメニューの「メモを取る」をタッチペンでタッチしてもよい。）、統合インタフェース制御部が手書き入力制御部を起動し、ユーザが手書き入力装置から入力した文字、イラスト等をイメージとしてモニタの汎用表示領域に表示する。ここで、画面上部の「保存する」ボタンを押すと、サーバにあるユーザごとに確保された後述の「ユーザドキュメント格納手段」にあるメモ帳に保存される。なお、表示する手書き文字等の線の太さや色などを変える場合は、画面上部のコントロールパネルを操作して変更する。

この後、図９の画面の左側の「メモの一覧」をタッチすると、図１０のような「メモ一覧」が表示され、今までに作成したメモが一覧表示される。これは「ユーザドキュメント格納手段」に格納されている。ここで、メモのどれかを友達に送ったり、ブログに貼り付けたりする場合は、「誰かに送る」あるいは「ブログに貼り付ける」をペンでタッチすればよい。
また、音声入力で「メール」と入力すると、キャラクタが反応して「誰に送るの？」と聞いてくるように設定されているので、ここで送りたい相手の名前を音声入力すると、入力された相手の名前がすでにシステムに登録されていれば、その人のアドレスを呼び出し、画面に表示する。ユーザは表示された画面を確認して間違いがなければ、「送る」と音声入力することによって送信が実行される。これは電話をかける場合も同様である。

図１１は「メールボックス」を選択した場合に表示される画面の一例を示すものであり、受信メールの一覧が表示されている。図１２は「アドレス一覧」を選択した場合の表示画面の一例を示すものであり、各個人ごとのメールアドレス、電話番号、ブログのＵＲＬ等が後述の「ユーザ別相手先管理２０６」に格納されている。

図１３は端末１００とインターネット３００を介して接続されたサーバ２００の構成を示す図である。端末１００は常にサーバ２００とインターネット３００を介して接続された状態で使用される。各ユーザの相手先の氏名、電話番号、メールアドレス等の情報や、メールボックス、作成したメモなどの情報は端末内部ではなく、それぞれサーバ２００内にユーザごとに設けられた「ユーザ別相手先管理２０６」、「ユーザドキュメント格納手段」に格納されているので、端末１００自体には大きな記憶容量は必要としない。
サーバ２００には、ユーザの端末１００から送られた要求を解析する要求解析部２０１、アクセスした端末の認証をユーザ情報２０２に基づいて行う認証・セッション管理部２０３、ユーザ情報に基づいてユーザ個人のホームページを生成し保存したり、ユーザの個人情報を管理するユーザ管理手段２０４と、端末情報に基づいて端末１００の管理用ホームページを生成し保存する端末管理手段２０５と、各ユーザの相手先の氏名、電話番号、メールアドレス等の情報を格納するユーザ別相手先管理２０６を備えている。その他、図示したような各種サービスの提供のためのデータが格納されている。

本発明に係る統合的インタフェースを有する対話型コミュニケーション端末、及び通信回線を介して接続されたサーバを示している。端末の内部の各部の相互関係を示す図である。マルチメディア通信インタフェース制御部の機能の一つであるスリープモードへの遷移／解除について説明するための図である。統合インタフェース動的処理の概念及び統合インタフェース制御の処理フローを説明するための図である。音声による動的処理操作の実施例を示す図である。Ｗｅｂページの遷移が発生した場合の処理の流れを示すフローチャートの一例である。Ｗｅｂページの遷移が発生した場合の処理の流れを示すフローチャートの他の例である。図４における出力段階のうちの、文字・画像出力制御の実施例を示す図である。コミュニケーション端末のモニタに表示される初期画面の一例である。「メモの一覧」を選択した場合に表示される画面の一例を示す図である。「メールボックス」を選択した場合に表示される画面の一例を示す図である。「アドレス一覧」を選択した場合の表示画面の一例を示すものである。サーバの構成を示す図である。

符号の説明

１００対話型コミュニケーション端末
１０１音声入力部
１０２タッチパネル
１０３手書き入力装置
１０４表示部
１０５音声出力部
１０７音声認識部
１０８キャラクタ制御部
１０９対話シナリオ制御部
１１０マルチメディア通信インタフェース制御部
１１１統合インタフェース制御部
１１３音声認証部
１１４手書き入力制御部
１１５メッセージ送受信制御部
２００サーバ
３００インターネット

Claims

音声認識による入力とタッチパネル入力を併用した、統合的インタフェースを有する対話型コミュニケーション端末であって、
前記タッチパネル入力が可能な表示部と、
音声入力部と、
音声出力部と、
前記音声入力部を介して入力されたユーザの声を音声認識するとともに、入力された命令を識別する音声認識部と、
擬人化したナビゲーション用キャラクタを生成して前記表示部に出現させるキャラクタ制御部と、
前記タッチパネル入力若しくは前記音声認識されたユーザの入力命令に対して、予め決められた応答シナリオに基づいて前記キャラクタとユーザとの音声による対話制御を行う対話シナリオ制御部と、
外部ネットワークや一般電話回線などの通信回線と接続するためのマルチメディア通信インタフェース制御部と、
Ｗｅｂ上の前記音声認識用の単語を抽出し、音声認識辞書に登録するＷｅｂブラウザ制御部と、
前記入出力と前記各部の遷移状態との組み合わせに応じて前記各部を動的に制御する統合インタフェース制御部とを備え、
前記音声入力部及び音声出力部が電話器として構成されていることを特徴とする統合的インタフェースを有する対話型コミュニケーション端末。
さらに音声認証部を備え、前記ユーザの音声入力による声の特徴を解析して本人認証を行うことを特徴とする請求項１に記載の統合的インタフェースを有する対話型コミュニケーション端末。
さらに、手書き入力制御部を備え、前記端末と接続された外部の手書き入力装置から入力された手書き入力情報をイメージデータとして取り込んで、前記表示部に表示することを特徴とする請求項１又は２に記載の統合的インタフェースを有する対話型コミュニケーション端末。
前記統合インタフェース制御部は、前記音声認識部における音声認識が失敗したときに、前記表示部に候補となる内容を表示して、前記タッチパネルによる入力もしくは音声による再入力の選択を促すことを特徴とする請求項１乃至３のいずれかに記載の統合的インタフェースを有する対話型コミュニケーション端末。
前記通信回線を介して電子メール、文字伝言又は音声伝言等のメッセージを送受信するためのメッセージ送受信制御部をさらに備えたことを特徴とする請求項１乃至４のいずれかに記載の統合的インタフェースを有する対話型コミュニケーション端末。
前記音声認識部は、前記ユーザの音声の音声認識率を向上させるための、前記キャラクタを利用した音声認識学習手段を備えていることを特徴とする請求項１乃至５のいずれかに記載の統合的インタフェースを有する対話型コミュニケーション端末。
前記マルチメディア通信インタフェース制御部は、前記タッチパネル入力、音声入力及び手書き入力のいずれもが所定の時間連続して無応答の場合に前記端末をスリープモードに遷移させ、電話着信、受話器フックアップ、メッセージ受信、起動・リセットボタン押下、又は前記タッチパネルのタッチのいずれかのイベント発生をトリガとして前記スリープモードを解除して通常処理モードに遷移させるように制御することを特徴とする請求項１乃至６のいずれかに記載の統合的インタフェースを有する対話型コミュニケーション端末。
請求項１乃至７のいずれかに記載の統合的インタフェースを有する対話型コミュニケーション端末と、該端末と前記通信回線を介して相互に通信可能に接続されたサーバとを含むコミュニケーションシステムであって、
前記サーバは、
前記端末から送られたユーザ情報に基づいて本人認証を行うユーザ認証手段と、
前記端末から送られたユーザ情報、端末情報を格納するデータベースと、
前記ユーザ情報に基づいて前記ユーザ個人のホームページを生成し、前記端末の表示部に表示するユーザ管理手段と、
前記端末情報に基づいて前記端末の管理用ホームページを生成し、前記端末の表示部に表示する端末管理手段とを、少なくとも備えていることを特徴とするコミュニケーションシステム。