JP2010026686A - 統合的インタフェースを有する対話型コミュニケーション端末及びそれを用いたコミュニケーションシステム - Google Patents

統合的インタフェースを有する対話型コミュニケーション端末及びそれを用いたコミュニケーションシステム Download PDF

Info

Publication number
JP2010026686A
JP2010026686A JP2008185756A JP2008185756A JP2010026686A JP 2010026686 A JP2010026686 A JP 2010026686A JP 2008185756 A JP2008185756 A JP 2008185756A JP 2008185756 A JP2008185756 A JP 2008185756A JP 2010026686 A JP2010026686 A JP 2010026686A
Authority
JP
Japan
Prior art keywords
voice
input
unit
user
terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008185756A
Other languages
English (en)
Inventor
Mototaka Nagai
基孝 永井
Shojiro Shiraishi
白石昌二朗
Akira Shinada
晃 品田
Yasuko Mori
やす子 森
Yoshimi Yoshida
義美 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LIFE INTERFACE KK
RES INST OF INFORMATION ENVIRO
RESEARCH INSTITUTE OF INFORMATION-ENVIRONMENT DESIGN
Original Assignee
LIFE INTERFACE KK
RES INST OF INFORMATION ENVIRO
RESEARCH INSTITUTE OF INFORMATION-ENVIRONMENT DESIGN
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LIFE INTERFACE KK, RES INST OF INFORMATION ENVIRO, RESEARCH INSTITUTE OF INFORMATION-ENVIRONMENT DESIGN filed Critical LIFE INTERFACE KK
Priority to JP2008185756A priority Critical patent/JP2010026686A/ja
Publication of JP2010026686A publication Critical patent/JP2010026686A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

【課題】音声入力とタッチパネル入力を併用した統合的インタフェースを有する対話型コミュニケーション端末によるデジタルデバイドの解消。
【解決手段】タッチパネル付き表示部と、音声入力/出力部と、ユーザの声の音声認識により命令を識別する音声認識部と、擬人化ナビゲーション用キャラクタを表示させるキャラクタ制御部と、タッチパネル若しくは音声によるユーザの入力命令に対して、予め決められた応答シナリオに基きキャラクタとユーザとの音声による対話制御を行う対話シナリオ制御部と、外部ネットワークや電話回線などの通信回線と接続するためのマルチメディア通信インタフェース制御部と、Web上の音声認識用の単語を抽出し、音声認識辞書に登録するWebブラウザ制御部と、前記入出力と前記各部の遷移状態との組み合わせに応じて前記各部を動的に制御する統合インタフェース制御部とを備え、音声入力部及び音声出力部を電話器として構成する。
【選択図】図2

Description

本発明は、統合的なインタフェースを有するコミュニケーション端末及びそれを用いたシステムに関し、特に、操作者の発する音声を認識・解析し、ナビゲーション用キャラクタによる対話型のコミュニケーションを可能とするとともに、タッチパネル入力を併用することにより、音声認識による対話型コミュニケーションを補完したコミュニケーション端末及びそれを用いたコミュニケーションシステムに関する。
近年、情報技術の発展に伴い、若者や高学歴者、高所得者などが情報技術を活用してますます高収入や雇用を手にする一方、コンピュータ(情報機器)を使いこなせない高齢者や、貧困のため情報機器を入手できない人々は、より一層困難な状況に追い込まれるようになってきた。いわば、情報技術が社会的な格差を拡大、固定化する現象であり、これはデジタルデバイド(情報格差とも言う)と呼ばれている。
従来から高齢者等のデジタルデバイド解消のための方法は様々に考えられてきた。現実的な方法では主に以下のものがある。すなわち、以下の(1)〜(3)のいずれかが用いられてきた。
(1)操作者が発する音声を認識し、認識された命令によって操作を行う。
(2)タッチパネルに表示されたメニュー又は命令をタッチして直接入力することによって操作を行う。
(3)擬人化されたキャラクタのガイドに従って、対話を行いながら音声で入力する(特許文献1参照)。
上記(1)〜(3)の入力はカスタマイズユースのシステムを構築すれば入力に対応したシステムになるので、これまでカスタマイズシステムに見合った入力法がとられていた。
しかしながら、デジタルデバイド解消のための本格的な実用システムを構築しようとすると次のような問題があった。
一般的にPCを操作する場合、カスタマイズシステムの他、Web検索機能やIP電話機能、手書き入力機能、携帯電話との連動機能等、実用で使用する前記システムを(1)〜(3)の入力でシームレスで統一されたインタフェースにすることができない。インタフェース画面も統合的でないため、ユーザの立場からは試作レベルのものに留まっていた。特に、特許文献1の場合、擬人化されたキャラクタのガイドに従って音声で入力できる点においては、操作に慣れていない高齢者等には使い勝手がよくなるが、音声認識が完全ではないため、音声の誤認識(又は認識不能)が発生した場合の対処が却って面倒になり、実現化は困難となる。
特開2002−41276号公報
本発明は上述のような事情に鑑み為されたものであり、操作者の発する音声を認識・解析し、ナビゲーション用キャラクタによる対話型のコミュニケーションを可能とするとともに、タッチパネル入力を併用することにより、音声認識による対話型コミュニケーションを補完した統合的インタフェースを有する対話型コミュニケーション端末を提供し、デジタルデバイドの解消に寄与することを目的とする。
本発明は、音声認識による入力とタッチパネル入力を併用した、統合的インタフェースを有する対話型コミュニケーション端末に関し、本発明の上記目的は、前記タッチパネル入力が可能な表示部と、音声入力部と、音声出力部と、前記音声入力部を介して入力されたユーザの声を音声認識するとともに、入力された命令を識別する音声認識部と、擬人化したナビゲーション用キャラクタを生成して前記表示部に出現させるキャラクタ制御部と、前記タッチパネル入力若しくは前記音声認識されたユーザの入力命令に対して、予め決められた応答シナリオに基づいて前記キャラクタとユーザとの音声による対話制御を行う対話シナリオ制御部と、外部ネットワークや一般電話回線などの通信回線と接続するためのマルチメディア通信インタフェース制御部と、Web上の前記音声認識用の単語を抽出し、音声認識辞書に登録するWebブラウザ制御部と、前記入出力と前記各部の遷移状態との組み合わせに応じて前記各部を動的に制御する統合インタフェース制御部とを備え、前記音声入力部及び音声出力部が電話器として構成されていることを特徴とする統合的インタフェースを有する対話型コミュニケーション端末によって達成される。
また、本発明の上記目的は、さらに音声認証部を備え、前記ユーザの音声入力による声の特徴を解析して本人認証を行うことを特徴とする前記統合的インタフェースを有する対話型コミュニケーション端末によって効果的に達成される。
さらに、本発明の上記目的は、さらに手書き入力制御部を備え、前記端末と接続された外部の手書き入力装置から入力された手書き入力情報をイメージデータとして取り込んで、前記表示部に表示することを特徴とする前記統合的インタフェースを有する対話型コミュニケーション端末によって効果的に達成される。
またさらに、本発明の上記目的は、前記統合インタフェース制御部は、前記音声認識部における音声認識が失敗したときに、前記表示部に候補となる内容を表示して、前記タッチパネルによる入力もしくは音声による再入力の選択を促すことにより、或いは、前記通信回線を介して電子メール、文字伝言又は音声伝言等のメッセージを送受信するためのメッセージ送受信制御部をさらに備えることにより、或いは、前記音声認識部は、前記ユーザの音声の音声認識率を向上させるための前記キャラクタを利用した認識学習手段を備えることにより、或いは、前記マルチメディア通信インタフェース制御部は、前記タッチパネル入力、音声入力及び手書き入力が所定の時間連続して無応答の場合に前記端末をスリープモードに遷移させ、電話着信、受話器フックアップ、メッセージ受信、起動・リセットボタン押下、又は前記タッチパネルのタッチのいずれかをトリガとして前記スリープモードを解除して通常処理モードに遷移させるように制御することによって、さらに効果的に達成される。
本発明は、前記の統合的インタフェースを有する対話型コミュニケーション端末と、該端末と前記通信回線を介して相互に通信可能に接続されたサーバとを含むコミュニケーションシステムに関し、本発明の上記目的は、前記サーバは、前記端末から送られたユーザ情報に基づいて本人認証を行うユーザ認証手段と、前記端末から送られたユーザ情報、端末情報を格納するデータベースと、前記ユーザ情報に基づいて前記ユーザ個人のホームページを生成し、前記端末の表示部に表示するユーザ管理手段と、前記端末情報に基づいて前記端末の管理用ホームページを生成し、前記端末の表示部に表示する端末管理手段とを、少なくとも備えていることを特徴とするコミュニケーションシステムによって達成される。
本発明に係る統合的インタフェースを有する対話型コミュニケーション端末によれば、エージェントキャラクタの音声によるナビゲーションとともに、タッチパネルの併用により、音声認識の不完全性を補完することができるため、デジタルデバイドの解消に大いに効果を発揮する。
本発明は、操作者の発する音声を認識・解析し、ナビゲーション用キャラクタによる対話型のコミュニケーションを可能とするとともに、タッチパネル入力を併用することにより、音声認識による対話型コミュニケーションを補完した統合的インタフェースを有する対話型コミュニケーション端末に関するものである。
タッチパネルを併用したのは、デジタルデバイド解消に必要な音声の認識率が完璧ではないからである。
基本的な操作は、音声入力によるキャラクタとの対話によって行うが、音声誤認識あるいは音声認識辞書に該当する言葉がなかったような場合は、キャラクタは再度聞き返すか、画面での選択(タッチパネルによる入力)が可能なように選択画面を表示する。ユーザは再度音声入力にトライするか、タッチパネルでの入力を行うかの選択を行うことができる。
このような処理を可能とする本発明によるコミュニケーション端末について、図面を参照しつつ詳細に説明する。
図1は本発明に係る統合的インタフェースを有する対話型コミュニケーション端末(以下、端末という。)100、及びインターネット300等の通信回線を介して接続されたサーバ200を示している。インターネット300には、一般Webサイト、IP電話網及び公衆電話網が接続されている。
端末100には音声入力に使用するマイク101、タッチパネル102、手書きの文字イラスト等をイメージデータとして入力するための手書き入力装置103、操作画面や出力を表示するためのモニタ(表示部)104、音声出力のためのスピーカ105が接続されている。後述のように、この端末は電話機能を有しているため、マイク101とスピーカ105は電話器の受話器の送話部と受話部として構成してもよい。さらに、マイク101を介して入力されたユーザの声を音声認識辞書106に基づいて音声認識するとともに、入力された命令を識別する音声認識エンジン107、擬人化したナビゲーション用キャラクタを生成してモニタ104に出現させるキャラクタ制御部108、タッチパネル入力若しくは音声認識されたユーザの入力命令に対して、予め決められた応答シナリオに基づいてキャラクタとユーザとの音声による対話制御を行う対話シナリオ制御部109、インターネット300と接続するためのマルチメディア通信インタフェース制御部110、ユーザが入力した入力命令に基づいて各制御部を動的に制御する統合インタフェース制御部111を備えている。
音声認識エンジン107には、音声認識率を向上させる訓練をユーザが自然な形で継続して進んで行えるような認識学習手段を備えている。たとえば、ユーザのしゃべり方、活舌をよくするためのゲームとして、キャラクタが誘導して文章や言葉を提示させ、その正答率をゲーム感覚で楽しめるようなツールである。
また、ユーザの音声入力による声の特徴を音声認証辞書112に基づいて解析して本人認証を行う音声認証エンジン113、手書き入力装置103から入力された手書き入力情報をイメージデータとして取り込んで、モニタ104に表示する手書き入力制御部114、インターネット300を介して電子メール、文字伝言又は音声伝言等のメッセージを送受信するためのメッセージ送受信制御部115も備えている。
そのほかにも、Webブラウザ制御部116、IP電話制御部117、外部情報収集エージェント制御部118、各種デバイス制御部119、認証ユーザ対話学習辞書120等を備えている。サーバ200の内容については後述する。
図2は端末の内部の各部の相互関係を示す図である。音声入力部(マイク)101で入力されたユーザの音声は音声認識辞書106により音声認識エンジン107で認識される。
音声認識には、例えばワードスポッティング法が用いられる。ワードスポッティング法とは、話し言葉(入力音声)から必要な言葉(単語や音節)を拾いだしていく方式である。ワードスポッティング法は,発話を一字一句文字に置き換える方法ではなく,意味理解に必要なキーワードだけを抜き出して認識する手法である。
音声認識エンジン107によって認識された入力命令は統合インタフェース制御部111送られ、統合インタフェース制御部111が関連する各制御部(108〜110、114〜119)に命令を送り、命令が実行される。また、タッチパネル入力部102又は手書き入力部103から入力された命令も統合インタフェース制御部111送られ、同様の処理がなされる。
音声・画面表示出力は図1のモニタ104、スピーカ105に対応するものであり、入力された命令に応じて対話シナリオ制御部109で応答文が決定され、キャラクタ制御部108でキャラクタに発話させて音声とともに画面に表示する。
このようにユーザ側では音声入力を主として、それをタッチパネルと手書き入力で補完する形の統一された入力インタフェースでありながら、Webブラウザ制御、IP電話制御、電子メール等のメッセージ送受信をシームレスに制御することが可能となる。
図3はマルチメディア通信インタフェース制御部110の機能の一つであるスリープモードへの遷移/解除について説明するための図である。音声入力、タッチパネル入力、手書き入力のいずれもが連続して10分以上無応答の場合はスリープモードに遷移させ、それまでの間は通常処理モードを維持する。
また、所定のトリガが与えられた場合にスタートモード(あるいはスリープモード解除)に遷移するように制御する。所定のトリガとは、例えば、電話着信時、受話器取上げ時、メール受信時、文字伝言・音声伝言受信時、ユーザが予め設定した起動時間になった時、タッチパネルにタッチした時、起動・リセットボタンON時である。
図4は統合インタフェース動的処理の概念及び統合インタフェース制御の処理フローを説明するための図である。
入力された命令に応じてどのインタフェースが必要なのかを識別する「統合的インタフェース識別」段階と、選択されたインタフェースに基づいて処理を行う「インタフェース動的処理」段階と、結果を出力する「出力」段階に大きく分けられる。
まず、ユーザの入力した音声に基づいて音声認識が行われ、認識が成功すると、命令が識別される。何らかの理由で音声認識が不成功の場合は、キャラクタが再度の音声入力を求めるべく同じ質問を繰り返すとともに、タッチパネルに質問に対する回答が選択可能なように表示し、いずれかの手段をユーザが選択できるようにする。
図5は音声による動的処理操作の実施例を示す図である。すなわち、ユーザが音声入力してWebブラウザを操作する処理の流れを説明するための図である。
マイクから入力された音声(アナログ信号)はA/D変換部でデジタル信号に変換され、音響解析部において単語や音節として抽出され、照合処理部から認識辞書生成部に問い合わせがなされる。認識辞書生成部は問い合わせがあった単語等が基本命令辞書あるいは可変辞書にあるか否かを調べ、結果を照合処理部に返す。
可変辞書は、実際には単なる文字列から成る一時的な辞書である。認識させたい単語(場合によっては短文)をコンマで区切りながら連結し、一つの文字列にする。これが可変辞書である。そして、これを引数として音声認識エンジンの特定の関数を呼び出すことで、認識語彙を音声認識エンジンの照合処理部に登録する。
認識辞書生成部は、コンテクストによって認識語彙を動的に生成・差し替える。コンテクストによって認識語彙を動的に生成・差し替えるとは、例えば、Webページの遷移が発生した場合を考えると、ここで実行される処理は以下のものとなる。図6のフローチャートを参照しつつ説明する。
(1)ページ遷移と同時に、現在登録してある語彙を音声認識エンジンから削除する(ステップS1)。
(2)新しいページのHTMLコードをオブジェクトとして解析し、リンクタグを抽出する。
(3)リンクタグ内の文字列(ユーザにリンク文字として表示されるもの)を抽出する(ステップS2)。これは半角英数漢字かな混じり文であることが多いので、これを全角カタカナに変換する(ステップS3)。
(4)全角カタカナに変換した文字列を、コンマを挟みながら連結する。こうして「可変辞書」を生成し(ステップS4)、音声認識エンジンに登録する(ステップS5)。(音声認識エンジンには、平仮名もしくは片仮名の文字列しか登録できない。)
(5)他方、リンク索引作成部は、それぞれのリンクタグオブジェクトへのポインタと、そのカナ変換した認識語彙とをペアとして記憶しておく。具体的には、タグへのポインタを値、対応するカナ文字列をキーとする連想配列を作る。この連想配列を「リンク索引」と呼ぶこととする。
(6)表示されたページ内のリンク文字列をユーザが選び、読み上げる。すなわち、音声入力を行う。音声認識エンジンはこれを解析し、登録されている語彙のいずれかを返す(全く認識できない場合は、エラー値を返すことになる。)。この認識結果をキーとして、先の「リンク索引」から該当するリンクタグを特定し、このリンクタグにおいてクリックイベントを発生させる。イベント発生後、このイベントを処理するのはWebブラウザである。Webブラウザは、そのリンクがクリックされたものとしてページを遷移させる。これ以降は、(1)から(6)までの繰り返しになる。
ちなみに、「HTMLコードをオブジェクトとして解析」とは、HTMLソースコードを文字列として解析するのではなく、DOMオブジェクトとして解析することである。また、「基本辞書」と「可変辞書」との違いであるが、前者は、コンテクストに関わらず変化しない辞書であり、このソフトのごく基本的な操作を音声で行うためのものである。
音声操作機能における「命令実行部」の具体的な動作は、音声認識エンジンからの認識結果に基づく。これを図7のフローチャートに基づいて説明する。まず、音声認識が正常にできたことが前提となるが、音声認識ができなかった場合は、音声出力や画面表示を通じて、ユーザにその旨を知らせ、マイク音量の再設定を促す等の処理が行われる。その結果、音声認識が正常に行われた場合は、音声認識の結果を出力する(ステップS11)。具体的には、音声出力や画面表示を通じて、ユーザの操作命令を通知(反復)する。
認識された語彙を基本命令辞書から探しだす(ステップS12)。基本命令辞書に含まれている場合は、該当する処理を担当するモジュールを、適切なパラメータを設定しながら呼び出す(ステップS13)。例えば、手書き入力によってディスプレイに描画される線の色や太さを変更する、ディスプレイの輝度を変更する、等である。認識された語彙が基本命令辞書に含まれていない場合は、可変辞書から探す(ステップS14)。
認識された語彙が可変辞書に含まれていない場合は、操作失敗をユーザに伝える(ステップS15)。認識された語彙が可変辞書に含まれている場合であって、リンク文字が一つだけの場合は、「リンク索引」を使用して、Webページの遷移をおこす(ステップS16)。
含まれているリンクが複数ある場合は、該当するリンク文字のすべてを目立たせ、ユーザに音声による特定を促す(ステップS17)。
図8は図4における出力段階のうちの、文字・画像出力制御の実施例を示す図である。
手書き入力装置から手書き入力によって文字や図形が入力されたときは、モニタの汎用表示領域(図9参照)のフォアグランド(前景)に描画する。また、Webブラウザが操作されたときは、汎用表示領域のバックグランド(背景)に描画する。従って、Webページの上に手書き入力装置によって文字、イラスト等を描くことも可能になる。
IP電話を利用する場合、Webカメラによる動画を使用しない場合は音声通話を行い、動画を使用する場合、汎用表示領域に描画データ(手書き文字、図形等)が既にある場合は、その描画データを保存して、動画表示パネルに自動的にきりかえ、動画を表示する。汎用表示領域に描画データが存在しない場合はすぐに表示パネルを切り換えて動画を表示する。表示パネルの切り換えは、汎用表示領域の上に動画用表示領域を重ねることによって行う。
図9は本発明に係るコミュニケーション端末のモニタに表示される初期画面の一例である。画面上部がコントロールパネルになっており、Webページ表示ボタン、IP電話機能起動ボタン、手書き入力機能のパラメータ設定(ペンの太さ、色等)ボタン等を含む。
また、その下の余白部分は汎用表示領域であり、Webページや手書き入力されたデータを表示する。
たとえば、手書きでメモを取る場合、音声入力で「メモ」と入力すると音声認識され(あるいはメニューの「メモを取る」をタッチペンでタッチしてもよい。)、統合インタフェース制御部が手書き入力制御部を起動し、ユーザが手書き入力装置から入力した文字、イラスト等をイメージとしてモニタの汎用表示領域に表示する。ここで、画面上部の「保存する」ボタンを押すと、サーバにあるユーザごとに確保された後述の「ユーザドキュメント格納手段」にあるメモ帳に保存される。なお、表示する手書き文字等の線の太さや色などを変える場合は、画面上部のコントロールパネルを操作して変更する。
この後、図9の画面の左側の「メモの一覧」をタッチすると、図10のような「メモ一覧」が表示され、今までに作成したメモが一覧表示される。これは「ユーザドキュメント格納手段」に格納されている。ここで、メモのどれかを友達に送ったり、ブログに貼り付けたりする場合は、「誰かに送る」あるいは「ブログに貼り付ける」をペンでタッチすればよい。
また、音声入力で「メール」と入力すると、キャラクタが反応して「誰に送るの?」と聞いてくるように設定されているので、ここで送りたい相手の名前を音声入力すると、入力された相手の名前がすでにシステムに登録されていれば、その人のアドレスを呼び出し、画面に表示する。ユーザは表示された画面を確認して間違いがなければ、「送る」と音声入力することによって送信が実行される。これは電話をかける場合も同様である。
図11は「メールボックス」を選択した場合に表示される画面の一例を示すものであり、受信メールの一覧が表示されている。図12は「アドレス一覧」を選択した場合の表示画面の一例を示すものであり、各個人ごとのメールアドレス、電話番号、ブログのURL等が後述の「ユーザ別相手先管理206」に格納されている。
図13は端末100とインターネット300を介して接続されたサーバ200の構成を示す図である。端末100は常にサーバ200とインターネット300を介して接続された状態で使用される。各ユーザの相手先の氏名、電話番号、メールアドレス等の情報や、メールボックス、作成したメモなどの情報は端末内部ではなく、それぞれサーバ200内にユーザごとに設けられた「ユーザ別相手先管理206」、「ユーザドキュメント格納手段」に格納されているので、端末100自体には大きな記憶容量は必要としない。
サーバ200には、ユーザの端末100から送られた要求を解析する要求解析部201、アクセスした端末の認証をユーザ情報202に基づいて行う認証・セッション管理部203、ユーザ情報に基づいてユーザ個人のホームページを生成し保存したり、ユーザの個人情報を管理するユーザ管理手段204と、端末情報に基づいて端末100の管理用ホームページを生成し保存する端末管理手段205と、各ユーザの相手先の氏名、電話番号、メールアドレス等の情報を格納するユーザ別相手先管理206を備えている。その他、図示したような各種サービスの提供のためのデータが格納されている。
本発明に係る統合的インタフェースを有する対話型コミュニケーション端末、及び通信回線を介して接続されたサーバを示している。 端末の内部の各部の相互関係を示す図である。 マルチメディア通信インタフェース制御部の機能の一つであるスリープモードへの遷移/解除について説明するための図である。 統合インタフェース動的処理の概念及び統合インタフェース制御の処理フローを説明するための図である。 音声による動的処理操作の実施例を示す図である。 Webページの遷移が発生した場合の処理の流れを示すフローチャートの一例である。 Webページの遷移が発生した場合の処理の流れを示すフローチャートの他の例である。 図4における出力段階のうちの、文字・画像出力制御の実施例を示す図である。 コミュニケーション端末のモニタに表示される初期画面の一例である。 「メモの一覧」を選択した場合に表示される画面の一例を示す図である。 「メールボックス」を選択した場合に表示される画面の一例を示す図である。 「アドレス一覧」を選択した場合の表示画面の一例を示すものである。 サーバの構成を示す図である。
符号の説明
100 対話型コミュニケーション端末
101 音声入力部
102 タッチパネル
103 手書き入力装置
104 表示部
105 音声出力部
107 音声認識部
108 キャラクタ制御部
109 対話シナリオ制御部
110 マルチメディア通信インタフェース制御部
111 統合インタフェース制御部
113 音声認証部
114 手書き入力制御部
115メッセージ送受信制御部
200 サーバ
300 インターネット

Claims (8)

  1. 音声認識による入力とタッチパネル入力を併用した、統合的インタフェースを有する対話型コミュニケーション端末であって、
    前記タッチパネル入力が可能な表示部と、
    音声入力部と、
    音声出力部と、
    前記音声入力部を介して入力されたユーザの声を音声認識するとともに、入力された命令を識別する音声認識部と、
    擬人化したナビゲーション用キャラクタを生成して前記表示部に出現させるキャラクタ制御部と、
    前記タッチパネル入力若しくは前記音声認識されたユーザの入力命令に対して、予め決められた応答シナリオに基づいて前記キャラクタとユーザとの音声による対話制御を行う対話シナリオ制御部と、
    外部ネットワークや一般電話回線などの通信回線と接続するためのマルチメディア通信インタフェース制御部と、
    Web上の前記音声認識用の単語を抽出し、音声認識辞書に登録するWebブラウザ制御部と、
    前記入出力と前記各部の遷移状態との組み合わせに応じて前記各部を動的に制御する統合インタフェース制御部とを備え、
    前記音声入力部及び音声出力部が電話器として構成されていることを特徴とする統合的インタフェースを有する対話型コミュニケーション端末。
  2. さらに音声認証部を備え、前記ユーザの音声入力による声の特徴を解析して本人認証を行うことを特徴とする請求項1に記載の統合的インタフェースを有する対話型コミュニケーション端末。
  3. さらに、手書き入力制御部を備え、前記端末と接続された外部の手書き入力装置から入力された手書き入力情報をイメージデータとして取り込んで、前記表示部に表示することを特徴とする請求項1又は2に記載の統合的インタフェースを有する対話型コミュニケーション端末。
  4. 前記統合インタフェース制御部は、前記音声認識部における音声認識が失敗したときに、前記表示部に候補となる内容を表示して、前記タッチパネルによる入力もしくは音声による再入力の選択を促すことを特徴とする請求項1乃至3のいずれかに記載の統合的インタフェースを有する対話型コミュニケーション端末。
  5. 前記通信回線を介して電子メール、文字伝言又は音声伝言等のメッセージを送受信するためのメッセージ送受信制御部をさらに備えたことを特徴とする請求項1乃至4のいずれかに記載の統合的インタフェースを有する対話型コミュニケーション端末。
  6. 前記音声認識部は、前記ユーザの音声の音声認識率を向上させるための、前記キャラクタを利用した音声認識学習手段を備えていることを特徴とする請求項1乃至5のいずれかに記載の統合的インタフェースを有する対話型コミュニケーション端末。
  7. 前記マルチメディア通信インタフェース制御部は、前記タッチパネル入力、音声入力及び手書き入力のいずれもが所定の時間連続して無応答の場合に前記端末をスリープモードに遷移させ、電話着信、受話器フックアップ、メッセージ受信、起動・リセットボタン押下、又は前記タッチパネルのタッチのいずれかのイベント発生をトリガとして前記スリープモードを解除して通常処理モードに遷移させるように制御することを特徴とする請求項1乃至6のいずれかに記載の統合的インタフェースを有する対話型コミュニケーション端末。
  8. 請求項1乃至7のいずれかに記載の統合的インタフェースを有する対話型コミュニケーション端末と、該端末と前記通信回線を介して相互に通信可能に接続されたサーバとを含むコミュニケーションシステムであって、
    前記サーバは、
    前記端末から送られたユーザ情報に基づいて本人認証を行うユーザ認証手段と、
    前記端末から送られたユーザ情報、端末情報を格納するデータベースと、
    前記ユーザ情報に基づいて前記ユーザ個人のホームページを生成し、前記端末の表示部に表示するユーザ管理手段と、
    前記端末情報に基づいて前記端末の管理用ホームページを生成し、前記端末の表示部に表示する端末管理手段とを、少なくとも備えていることを特徴とするコミュニケーションシステム。
JP2008185756A 2008-07-17 2008-07-17 統合的インタフェースを有する対話型コミュニケーション端末及びそれを用いたコミュニケーションシステム Withdrawn JP2010026686A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008185756A JP2010026686A (ja) 2008-07-17 2008-07-17 統合的インタフェースを有する対話型コミュニケーション端末及びそれを用いたコミュニケーションシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008185756A JP2010026686A (ja) 2008-07-17 2008-07-17 統合的インタフェースを有する対話型コミュニケーション端末及びそれを用いたコミュニケーションシステム

Publications (1)

Publication Number Publication Date
JP2010026686A true JP2010026686A (ja) 2010-02-04

Family

ID=41732480

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008185756A Withdrawn JP2010026686A (ja) 2008-07-17 2008-07-17 統合的インタフェースを有する対話型コミュニケーション端末及びそれを用いたコミュニケーションシステム

Country Status (1)

Country Link
JP (1) JP2010026686A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101151328B1 (ko) 2010-05-26 2012-06-08 김주원 회전편광진열시스템
JP2013137584A (ja) * 2011-12-27 2013-07-11 Toshiba Corp 電子機器、表示方法、およびプログラム
JP2013257700A (ja) * 2012-06-12 2013-12-26 Ntt Comware Corp 要求コントロールサーバ、エージェント装置、要求コントロールサーバの動作方法およびコンピュータプログラム
JP2014044725A (ja) * 2012-08-27 2014-03-13 Samsung Electronics Co Ltd ユーザインターフェース提供方法、機械可読保存媒体及び携帯端末
KR101623856B1 (ko) 2014-10-17 2016-05-24 현대자동차주식회사 에이브이엔 장치, 차량, 및 에이브이엔 장치의 제어방법
JPWO2016063622A1 (ja) * 2014-10-24 2017-04-27 株式会社ソニー・インタラクティブエンタテインメント キャプチャ装置、キャプチャ方法、プログラム及び情報記憶媒体
EP3588493A1 (en) 2018-06-26 2020-01-01 Hitachi, Ltd. Method of controlling dialogue system, dialogue system, and storage medium

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101151328B1 (ko) 2010-05-26 2012-06-08 김주원 회전편광진열시스템
JP2013137584A (ja) * 2011-12-27 2013-07-11 Toshiba Corp 電子機器、表示方法、およびプログラム
JP2013257700A (ja) * 2012-06-12 2013-12-26 Ntt Comware Corp 要求コントロールサーバ、エージェント装置、要求コントロールサーバの動作方法およびコンピュータプログラム
JP2014044725A (ja) * 2012-08-27 2014-03-13 Samsung Electronics Co Ltd ユーザインターフェース提供方法、機械可読保存媒体及び携帯端末
KR101623856B1 (ko) 2014-10-17 2016-05-24 현대자동차주식회사 에이브이엔 장치, 차량, 및 에이브이엔 장치의 제어방법
US10083003B2 (en) 2014-10-17 2018-09-25 Hyundai Motor Company Audio video navigation (AVN) apparatus, vehicle, and control method of AVN apparatus
JPWO2016063622A1 (ja) * 2014-10-24 2017-04-27 株式会社ソニー・インタラクティブエンタテインメント キャプチャ装置、キャプチャ方法、プログラム及び情報記憶媒体
EP3588493A1 (en) 2018-06-26 2020-01-01 Hitachi, Ltd. Method of controlling dialogue system, dialogue system, and storage medium
US11068288B2 (en) 2018-06-26 2021-07-20 Hitachi, Ltd. Method of controlling communication system including mode switching between modes for receiving a touch input or an audio input, communication system, and storage medium

Similar Documents

Publication Publication Date Title
CN100578614C (zh) 用语音应用语言标记执行的语义对象同步理解
CN100424632C (zh) 用于高级交互接口的语义对象同步理解
KR102108500B1 (ko) 번역 기반 통신 서비스 지원 방법 및 시스템과, 이를 지원하는 단말기
US9111545B2 (en) Hand-held communication aid for individuals with auditory, speech and visual impairments
US7680816B2 (en) Method, system, and computer program product providing for multimodal content management
MXPA04010107A (es) Entrada multimodal secuencial.
CN101542419A (zh) 消息传送语言的动态修改
CN110827826B (zh) 语音转换文字方法、电子设备
WO2019088384A1 (ko) 답변을 변형하여 풍부한 표현의 자연어 대화를 제공하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체
JP2010026686A (ja) 統合的インタフェースを有する対話型コミュニケーション端末及びそれを用いたコミュニケーションシステム
KR20090090613A (ko) 멀티모달 대화형 이미지 관리 시스템 및 방법
CN103219005A (zh) 一种语音识别方法及装置
WO2018186416A1 (ja) 翻訳処理方法、翻訳処理プログラム、及び、記録媒体
WO2003062941A2 (en) Multi-mode interactive dialogue apparatus and method
WO2010124512A1 (zh) 人机交互系统及其相关系统、设备和方法
CN109144458A (zh) 用于执行与语音输入相对应的操作的电子设备
CN115840841A (zh) 多模态对话方法、装置、设备及存储介质
WO2019168235A1 (ko) 복수 개의 같은 유형의 엔티티 정보의 분석에 기초한 인텐트 결정을 제공하는 방법 및 대화형 ai 에이전트 시스템, 및 컴퓨터 판독가능 기록 매체
JP2002190879A (ja) 無線携帯端末通信システム
CN103003874A (zh) 基于语言属性到联系人条目的分配而提供文本服务
JP3714159B2 (ja) ブラウザ搭載装置
CN111145734A (zh) 一种语音识别方法及电子设备
CN110837734A (zh) 文本信息处理方法、移动终端
CN117882365A (zh) 确定和视觉显示呼叫的口头菜单
KR100380829B1 (ko) 에이전트를 이용한 대화 방식 인터페이스 운영 시스템 및방법과 그 프로그램 소스를 기록한 기록 매체

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20111004