JP2001154781A

JP2001154781A - デスクトップ情報装置

Info

Publication number: JP2001154781A
Application number: JP33869499A
Authority: JP
Inventors: Atsushi Chazono; 篤茶園; Nobutatsu Nakamura; 暢達中村
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1999-11-29
Filing date: 1999-11-29
Publication date: 2001-06-08

Abstract

(57)【要約】【課題】デスクトップ環境において実空間と仮想空間
をシームレスに結合し、マルチモーダルな操作を可能に
するデスクトップ情報装置を提供する。【解決手段】画像入力装置１１および音声入力装置１
２から入力した画像および音声情報は操作環境解析部３
に入力される。操作環境解析部３は、環境情報蓄積部４
に蓄積されている解析知識を参照して入力情報を解析
し、マルチモーダルなユーザ操作とユーザ操作などに応
じて変化するデスクトップ環境の状況を認識する。そし
て、実空間と仮想空間の間の整合を取りつつ、解析信号
を出力する。アプリケーションインタフェース部５は、
入力した解析信号に基づき画像と音声からなる提示情報
を生成する。提示情報制御部６は、画像投影装置１３と
音声出力装置１４，１５を制御してこの提示情報をユー
ザに提示する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、コンピュータや
携帯情報機器のユーザインタフェースにおいて、ユーザ
が実際のオブジェクトとプロジェクタなどで投影される
仮想オブジェクトとの違いを意識することなく、身振り
などのジェスチャ、音声、手書き入力などの複数の手段
を用いて操作でき、実世界と仮想世界での環境変化や情
報更新の整合を取り、情報提示を行うデスクトップ情報
装置に関する。

【０００２】

【従来の技術】デスクトップ情報装置は、ユーザの身振
りなどの自然な操作をコンピュータへの入力とする技術
を用いて実世界と仮想世界を融合し、実際のオブジェク
トと仮想のオブジェクトの違いを意識することなく利用
できるようにしてユーザのデスクワークを支援する装置
である。この種のデスクトップ情報装置として、特開平
９−２５８９４５号公報、特開平６−２８２３７１号公
報などに記載されたものが知られている。特開平９−２
５８９４５号公報の場合は、コンピュータの情報提示は
その端末のディスプレイ上に行う。一方、特開平６−２
８２３７１の場合は、ヘッドマウントディスプレイを用
い、ユーザの視野の全域において情報提示が可能であ
る。

【０００３】

【発明が解決しようとする課題】しかしながら、上述し
た従来のデスクトップ情報装置において、コンピュータ
の情報提示は、その端末のディスプレイ上に限定され、
実世界のオブジェクトへの情報提示はできない。また、
ディスプレイ上とそれ以外の実物体の操作がシームレス
に結合されているわけではなく、実物体そのものの状態
が更新されないために実空間と仮想空間との間で不一致
が生じ、実空間と仮想空間の整合を取りながら操作を進
める必要があり、インタフェースとしては利用範囲が限
定されるという問題がある。さらに、ヘッドマウントデ
ィスプレイを用いる方法は、ユーザの視野の全域におい
て情報提示が可能であるが、ヘッドマウントディスプレ
イや入力用グローブを身につける必要があり、ユーザの
動作に多くの制約を与えてしまう。また、多くの制約が
あるだけでなく、あくまでも仮想世界の中で閉じたイン
タフェースとなっており、実世界でのデスクワークを支
援するには不十分であるという問題点がある。

【０００４】この発明は、上記の点に鑑みてなされたも
ので、その目的は、ユーザのデスクワークを支援するに
あたり、ユーザの操作状況やデスクトップの環境変化に
応じて、プロジェクタなどの画像投影装置による位置、
幾何補正を施した適応的な画像投影やスピーカなどの音
声出力装置による情報更新を知らせるための効果音出力
などを実現することにより、実世界と仮想世界を融合し
た操作環境の構築や情報提示を可能とし、ユーザが実世
界と仮想世界のオブジェクトの違いを意識することな
く、なおかつ実世界と仮想世界との整合が取れた状態に
おいて自然な操作を可能とする。

【０００５】さらに、カメラなどの画像入力装置やマイ
クなどの音声入力装置を利用することで、ユーザを拘束
することなく身振りなどのジェスチャ、音声、手書き入
力などの自然な操作から操作状態の解析を実現すること
により、ユーザに何ら負荷や制約を与えることなく実世
界のデスクワークと同様の感覚で、実世界と仮想世界を
シームレスに結合した操作環境での自然な操作を可能と
するデスクトップ情報装置を提供することにある。

【０００６】

【課題を解決するための手段】上記の課題を解決するた
めに、請求項１に記載の発明は、画像および音声を入力
する入力装置と、画像投影装置と、音声出力装置を有
し、ユーザのデスクワークを支援するデスクトップ情報
装置において、前記画像および音声の入力装置を介して
入力した画像情報および音声情報を解析し、ユーザのマ
ルチモーダルな操作の検出およびデスクトップ環境に関
するデータの生成を行う操作環境解析部と、ユーザ、デ
スクトップの操作環境を構成する実際のオブジェクトお
よび仮想オブジェクトの位置関係および各オブジェクト
の情報からなるオブジェクトデータを蓄積し、前記操作
環境解析部から入力された信号に基づき、オブジェクト
データの追加および編集を行う環境情報蓄積部と、前記
操作環境解析部から入力した信号に基づき、ユーザ操作
の実行に必要なアプリケーションおよび機器を制御し、
前記環境情報蓄積部に蓄積されたオブジェクトデータを
参照してユーザへの提示情報を生成するアプリケーショ
ンインタフェース部と、該アプリケーションインタフェ
ース部が生成した提示情報により、デスクトップ上へ画
像および音声を提示する前記画像投影装置および音声出
力装置を制御する提示情報制御部とを具備することを特
徴とする。

【０００７】また、請求項２に記載の発明は、請求項１
に記載のデスクトップ情報装置において、前記操作環境
解析部は、画像入力装置を介して入力された画像情報を
解析し、ユーザ操作候補とデスクトップの操作環境の変
更内容を検出する画像解析部と、画像情報からユーザ操
作を解析するために必要な画像解析の知識を蓄積し、管
理する画像解析知識部と、音声入力装置を介して入力さ
れた音声情報を解析し、音声情報からユーザ操作候補を
検出する音声解析部と、音声情報からユーザ操作を解析
するために必要な音声解析の知識を蓄積し、管理する音
声解析知識部とを備えいてることを特徴とする。

【０００８】また、請求項３に記載の発明は、請求項１
または２に記載のデスクトップ情報装置において、前記
操作環境解析部は、前記画像解析部および前記音声解析
部の解析結果からデスクトップの操作環境により統合的
にユーザ操作を解析する統合解析部と、解析を行うため
に必要な構文と制約知識を蓄積し、管理する統合解析知
識部とを備えていることを特徴とする。

【０００９】また、請求項４に記載の発明は、請求項
１、２または３に記載のデスクトップ情報装置におい
て、前記提示情報制御部は、ユーザの操作およびデスク
トップの操作環境に応じて、幾何補正を施した投影画像
を生成する投影画像制御部と、ユーザの操作およびデス
クトップの操作環境の変化を知らせる音声信号を生成す
る出力音声制御部とを備えていることを特徴とする。

【００１０】

【発明の実施の形態】以下、図面を参照してこの発明の
実施の形態について説明する。図１は、この発明の一実
施形態によるデスクトップ情報装置１０の構成を示すブ
ロック図である。この図において、デスクトップ情報装
置１０は、画像入力装置１１と、音声入力装置１２と、
処理用ＰＣ（パーソナルコンピュータ）２と、画像投影
装置１３と、音声出力装置１４、１５とから構成され
る。処理用ＰＣ２は、画像入力装置１１を介して入力し
た画像信号と音声入力装置１２を介して入力した音声信
号からユーザの操作候補の検出を行い、ユーザ操作を特
定する操作環境解析部３と、環境情報蓄積部４と、アプ
リケーションインタフェース部５と、提示情報制御部６
とから構成される。画像入力装置１１は、ＣＣＤ（電荷
結合素子）カメラなどの撮像装置を用いることができ、
画像投影装置１３は、プロジェクタなどの投影装置によ
り構成することができる。

【００１１】図２は、操作環境解析部３の構成を示すブ
ロック図である。以下、同図を参照して、操作環境解析
部３について詳細に説明する。操作環境解析部３は、画
像解析部３１と、画像解析知識部３２と、音声解析部３
３と、音声解析知識部３４と、統合解析部３５と、統合
解析知識部３６とから構成される。画像解析知識部３２
は、画像入力装置１１を介して入力した画像情報からユ
ーザの操作を解析するために必要な各対象オブジェクト
種別に応じた機能と各機能に対応するユーザ操作に関す
る知識の蓄積、逐次読み出し、追加、編集および管理を
行う。

【００１２】ここで、例えば、デスクトップに位置する
オブジェクトの種別がノートである場合には、ユーザが
手でノートをめくることによりページが更新される。ま
た、ペンを利用することでノートに書き込みができる。
画像解析知識部３２に蓄積されている画像解析知識は、
このような各オブジェクト種別に応じた機能と各機能に
対応するユーザ動作を定義したものである。図３は、こ
の画像解析知識の一例を示す図である。同図において、
例えば、アドレス帳のページをめくる機能は、ユーザ動
作１として定義されている“手でページをめくる”とい
う動作をすることによって利用することができる。

【００１３】画像解析知識部３２に記述されている、前
記入力画像情報からユーザ操作を解析するために必要な
知識は、予め作成して格納しておいた知識だけに限定さ
れるものではない。例えば、新たな動作を定義する必要
が生じた場合には、カメラなどの画像入力装置を利用し
て定義したい新たな操作を入力することで新規に画像解
析知識を追加することも可能である。また、画像解析知
識は図３の形に限定されるものではなく、特定のオブジ
ェクトに対しての操作を設定するために、オブジェクト
識別子などの他の情報を含む構成にしてもよい。

【００１４】画像解析部３１は、画像入力装置１１から
入力した画像信号１０１の濃淡、色彩の差や変化などの
情報、環境情報蓄積部４に蓄積されているユーザの操作
対象となるオブジェクトのデータおよび画像解析知識部
３２に蓄積されている画像解析知識を利用することによ
り、身振りなどのジェスチャや手書き入力などの画像情
報からユーザ操作を解析する。また、オブジェクトの新
規追加や位置変化などのデスクトップ操作環境の変化を
解析する機能を有する。

【００１５】画像解析部３１は、ユーザがデスクトップ
上のオブジェクトに対して操作をしている場合、画像を
解析、例えば、画像認識、パターン認識などの手法を用
いてユーザの操作対象オブジェクトおよび操作内容を特
定する。ユーザ操作の解析は、以下のように行われる。
まず、画像認識の手法である差分法、閾値選択による２
値化法などにより、予め撮影したおいたデスクトップの
画像と現在撮影している画像の差分からユーザの位置を
特定する。そして、その位置に応じてカメラの撮影位
置、撮影角度などを調整し、パターン認識で一般的に利
用されるテンプレートマッチング手法などを利用して、
予めテンプレートとして用意しておいた人体形状モデル
からユーザの胴体部分と腕部分とを識別する。

【００１６】次に、検出された腕部分の領域付近でユー
ザの操作対象となっているオブジェクトの種別や位置な
どを特定する。オブジェクトの種別や位置などを特定す
る手法には、例えば、画像認識、パターン認識などの手
法を用いることができる。画像解析部３１のみでユーザ
操作が一意に定まる場合もあるが、例えば、アドレス帳
の特定箇所を指示している理由が、新規アドレスの登録
であるのか、指示アドレスの削除であるのか、指示アド
レス先への送信要求であるのかなど一意に特定できない
場合もある。この場合は、ユーザ操作の候補を画像解析
結果として出力する。

【００１７】画像解析部３１は、操作対象であるオブジ
ェクトのオブジェクト識別子と、操作対象であるオブジ
ェクトの種別情報と、例えば、アドレス帳の特定箇所を
指さしている場合に、指さしているページ番号やページ
内での指示位置などの操作属性情報と検出された操作内
容を示す操作情報を記述した画像解析信号３０２を統合
解析部３５へ出力する。

【００１８】図４は、画像解析信号３０２の記述フォー
マットの一例を示す。画像解析信号３０２は、ユーザの
操作対象を示すオブジェクト識別子、オブジェクトの種
別を示す種別情報、ページ数や指示箇所などの操作対象
の属性を示す操作属性情報、特定箇所へアドレスデータ
を新規に追加登録するなどの操作内容を示す操作情報か
ら構成される。同図に示す例は、ＩＤ１のアドレス帳に
おいてページ３の（ｘ，ｙ）という箇所を指示して、デ
ータを新規登録するという操作候補が解析されているこ
とを示している。なお、画像解析信号３０２は、固定長
または可変長の信号である。また、画像解析信号３０２
を構成する情報は、図４に示すオブジェクト識別子、種
別情報、操作属性情報、操作情報に限定されるものでは
なく、どのユーザの操作であるかを示すユーザ識別子な
ど他の情報を含む構成にしてもよい。

【００１９】さらに、画像解析部３１は、ユーザや個々
のオブジェクトを識別するためのオブジェクト識別子
と、各オブジェクトの位置を示す位置情報などを記述し
た操作環境解析信号３０１を環境情報蓄積部４へ出力す
る。図５は、操作環境解析信号３０１の記述フォーマッ
トの一例を示している。同図に示すように、操作環境解
析信号３０１は、デスクトップの操作環境において各オ
ブジェクトを識別するためのオブジェクト識別子、各オ
ブジェクトのデスクトップ上での位置を示す位置情報、
アドレス帳やノートなど各オブジェクトの種別を示す種
別情報および各オブジェクトの種別に応じた情報内容か
ら構成される。

【００２０】図５の場合、オブジェクト識別子ＩＤ１の
アドレス帳に関して、位置の更新を要求していること、
および、種別がノートの未登録オブジェクトについて新
規に追加登録を要求していることを示している。なお、
操作環境解析信号３０１は、固定長または可変長の信号
である。また、操作環境解析信号３０１の構成は、図５
のフォーマットに限定されるものでなく、どのユーザの
所有物であるかを示すユーザ識別子など他の情報を含む
構成にしてもよい。

【００２１】音声解析部３３は、音声入力部１２から入
力した音声信号１０２の振幅、周波数などの状態や変化
などから音声認識や言語解析を用いることにより、ユー
ザの発話音声をテキスト情報に変換し、このテキスト情
報の中に含まれる個々の単語を切り出す。そして、音声
解析知識部３４に蓄積されている音声解析知識を参照し
て、前記テキスト情報に基づき、音声信号によるユーザ
操作の解析を行う。ユーザの発話音声をテキスト情報に
変換する機能としては、連続音声認識手法を用いること
ができる。例えば、予め用意しておいた認識用の辞書の
中に含まれる単語の発音モデルと発話音声による入力モ
デルとをマッチングさせたり、ある単語が連続して出現
する確率を定めたモデルを利用することにより、ユーザ
の発話音声をテキスト情報として出力する。

【００２２】また、テキスト情報から個々の単語を切り
出す機能としては、形態素解析手法を用いることができ
る。例えば、予め用意しておいた形態素解析用の辞書の
中に含まれる単語の固有部とマッチングすることでテキ
スト情報に含まれる個々の単語の切り出しを行う。そし
て、例えば、入力音声から「登録する」という語が解析
結果として検出された場合に、音声解析知識部３４に格
納されている知識を用いて、アドレス帳のあるページに
アドレスデータを新たに追加するなどのユーザ操作候補
を特定する。音声解析部３３のみでユーザ操作が一意に
定まる場合もあるが、前記の例のように「登録する」と
いう内容からだけでは、データを新たに追加する対象が
アドレス帳であるのか、顧客録であるのかなどを一意に
特定できない場合もある。この場合は、ユーザ操作の候
補を音声解析結果として出力する。

【００２３】音声解析部３３は、操作対象であるオブジ
ェクトのオブジェクト識別子と、操作対象であるオブジ
ェクトの種別情報、操作属性情報、例えば、アドレス帳
に新規にデータを登録する場合に、どのページに登録す
るかなどの情報および検出された操作内容を示す操作情
報を記述した音声解析信号３０３を統合解析部３５へ出
力する。図６は、音声解析信号３０３の記述フォーマッ
トの一例を示している。同図の例は、ＩＤ５のブック
マークに関してＵＲＬを新たに追加するという操作候補
が解析されていることを示している。なお、音声解析信
号３０３は、固定長または可変長の信号である。音声解
析信号３０３のフォーマットは、図６の形に限定される
ものではなく、どのユーザの操作であるかを示すユーザ
識別子などの他の情報を含む構成にしてもよい。

【００２４】音声解析知識部３４は、音声信号からユー
ザの操作を解析するために必要な各対象オブジェクト種
別に応じた機能と各機能に対応するユーザの音声から検
出可能なテキストや音声コマンドに関する知識の蓄積、
逐次読み出し、追加、編集、管理などを行う。図７は、
音声解析知識部３４に蓄積されている音声解析知識の一
例を示す。同図において、例えば，アドレス帳への新規
アドレスの登録は、ユーザが定義音声の「登録する」と
いう語が含まれる音声、「これを登録して」などを入力
することによって行われることを示している。

【００２５】音声解析知識部３４に記述されているユー
ザ操作の解析に必要な知識は、予め作成しておいたもの
を利用することに限定されるものではない。例えば、既
に他の言葉で登録されている操作に対してユーザが他の
言葉を新たに対応づけたい場合には、マイクなどの音声
装置を利用し、定義したい新たな音声コマンドを入力す
ることで音声解析知識部３４へ新規に音声解析知識を追
加することも可能である。なお、音声解析知識は図７の
形に限定されるものではなく、特定のオブジェクトに対
しての操作を設定するために、オブジェクト識別子など
他の情報が含まれる構成にしてもよい。

【００２６】次に、統合解析部３５は、画像解析部３１
から入力された画像解析信号３０２と音声解析部３３か
ら入力された音声解析信号３０３を統合解析知識部３６
に蓄積されている統合解析知識を参照し、統合的に解析
する。例えば、ユーザがデスクトップ上のアドレス帳の
ページをめくり、ページ上のある位置を指し示して、ア
ドレスの新規追加を要求しているなどのユーザの操作を
解析する。

【００２７】ユーザの操作の解析は、統合解析知識部３
６に蓄積されている解析結果照合時の構文記述形式や時
間制約、意味制約などの統合解析知識を利用して、画像
解析信号３０２に含まれるユーザの操作候補と音声解析
信号３０３に含まれるユーザの操作候補とを照らし合わ
せて行う。そして、両解析信号に含まれるユーザの操作
候補から同一の操作候補を絞り込むことによりユーザ操
作の特定を行う。例えば、画像解析信号３０２にユーザ
がアドレス帳の３ページの（ｘ，ｙ）という位置を指示
しデータ新規追加を実行するという操作候補が含まれて
おり、音声解析信号３０３のユーザ音声に「登録する」
という語があり、アドレス帳の任意箇所にデータの新規
追加を実行するという操作候補が含まれている場合に
は、両解析信号からアドレス帳の３ページの（ｘ，ｙ）
という位置に対応する場所に新規にアドレスデータを登
録するというユーザ操作を特定する。

【００２８】また、状況や操作の種類によっては、画像
解析信号３０２に含まれる操作候補のみでユーザ操作を
決定可能な場合、あるいは音声解析信号３０３に含まれ
る操作候補のみでユーザ操作を決定可能な場合も考えら
れる。その場合、いずれか一方の解析信号からユーザ操
作を検出することによりユーザ操作の特定を行う。例え
ば、画像解析信号３０２がアドレス帳のページをめくる
という操作を示している場合、画像解析信号３０２のみ
からページをめくるというユーザ操作を一意に特定し実
現することになる。このような処理により、通常のデス
クワークと同様に、マルチモーダルな入力手段を利用し
た自然な操作を実現することができる。

【００２９】統合解析部３５は、画像解析信号３０２と
音声解析信号３０３から統合的にユーザ操作を特定した
後に、統合解析信号３０４、３０５を出力する。図８
は、統合解析信号３０４、３０５の記述フォーマットの
一例を示している。統合解析信号３０４、３０５は、ユ
ーザの操作対象を示すオブジェクト識別子、オブジェク
トの種別を示す種別情報、ページ数や指示箇所、新規登
録するアドレスなどの操作対象の属性を示す操作属性情
報、指示した特定箇所にアドレスを新規登録するなどの
操作内容を示す操作情報から構成される。同図は、ＩＤ
１のアドレス帳において、ページ３の（ｘ，ｙ）に該当
する位置へアドレスデータを新規に登録するという操作
が解析されていることを示している。統合解析信号３０
４、３０５は、固定長または可変長の信号である。な
お、統合解析信号３０４、３０５の記述フォーマット
は、図８の形に限定されるものではなく、どのユーザの
動作であるかを示すユーザ識別子などの他の情報が含ま
れる構成でもよい。

【００３０】統合解析知識部３６は、複数の入力による
解析結果を統合的に解析するために、各解析結果の構文
記述、各解析結果間における時間制約、意味制約などを
蓄積し管理する。例えば、構文記述として、オブジェク
ト識別子，種別情報，操作属性情報，操作情報などの記
述文法を定義することで各解析部による解析内容の判断
を可能にし、時間制約は各入力の時間的な順序や入力時
間の間隔を定義する。意味制約は、操作属性情報に含ま
れる位置情報に関して、任意箇所と直接指示による位置
の記述が混在している場合、直接指示を優先して参照す
るなどを定義する。

【００３１】次に、環境情報蓄積部４は、デスクトップ
の操作環境に存在するユーザ、実オブジェクトおよび仮
想オブジェクトの位置関係や種別などの各オブジェクト
に関するデータの蓄積、逐次読み出し、追加、編集、管
理などを行う。図９は、環境情報蓄積部４に蓄積されて
いるオブジェクトデータの一例を示す。同図において、
オブジェクト識別子ＩＤ１のオブジェクトはアドレス帳
という種別であり、デスクトップ上の（Ｘ，Ｙ）という
位置に存在していることを示している。そして、このオ
ブジェクトは、アドレス帳というオブジェクト種別に付
随するアドレスデータとして名前、住所、電話番号、電
子メールなどの情報内容を保持している。また、ＩＤ２
のノートはオブジェクトとして登録されてはいるが現在
操作環境には存在しないこと、およびＩＤ３のユーザが
（−Ｘ２，−Ｙ２）という位置に存在していることを示
している。

【００３２】環境情報蓄積部４に蓄積されているオブジ
ェクトデータは、予め作成したものだけでなく、例え
ば、オブジェクト種別の判断用としてタグなどが添付さ
れている場合には、画像入力装置により添付されたタグ
を識別し、識別されたタグ情報を基にネットワーク経由
でオブジェクトデータを追加することも可能である。ま
た、各オブジェクトが使用され、例えば、アドレス帳で
あればデータの追加登録、削除などの操作によりデータ
内容に変更が生じたときなど、適宜データを更新をする
ことができる。

【００３３】アプリケーションインタフェース部５は、
操作環境解析部３の統合解析部３５から出力される統合
解析信号３０５を受けて、操作に必要なアプリケーショ
ンや機器を制御し、ユーザ操作を実行する。さらに、操
作環境蓄積部４のオブジェクトデータを参照してユーザ
に操作状況を提示するための情報を生成する。例えば、
統合解析信号３０５に新たに追加されたアドレスデータ
宛てにメールを送信する操作が含まれている場合、メー
ル送信が可能なアプリケーションを起動し、ネットワー
ク接続を確立してメールを送信するなどのユーザ操作を
実現する。そして、ユーザに操作状況を提示するための
画像と音声による提示情報を生成する。

【００３４】次に、提示情報制御部６について説明す
る。図１０は、提示情報制御部６の詳細な構成を示す図
である。同図において、提示情報制御部６は、投影画像
制御部６１と出力音声制御部６２からなる。投影画像制
御部６１は、アプリケーションインタフェース部５で生
成された画像の提示情報を画像投影装置１３によりデス
クトップ環境へ適応的に投影するため、環境情報蓄積部
４に蓄積されている各オブジェクトのデータを参照し、
ユーザ操作やデスクトップの操作環境の変化に応じて投
影画像の位置合わせ、幾何補正、画像投影装置１３の制
御を行う。出力音声制御部６２は、アプリケーションイ
ンタフェース部５で生成された音声の提示情報を、音声
出力装置によりデスクトップ環境へ適応的に出力するた
め、環境情報蓄積部４に蓄積されている各オブジェクト
のデータを参照し、ユーザ操作やデスクトップの操作環
境の変化に応じて音場調整、音量調整、音声出力装置１
４、１５の制御を行う。

【００３５】以上の構成において、以下、その動作につ
いて説明する。なお、以下の説明においては、デスクト
ップに位置するオブジェクトの種別はアドレス帳であ
り、このアドレス帳に新規にアドレスを登録する場合を
例にとり説明する。先ず、ユーザの操作とデスクトップ
の操作環境を示す画像情報が画像入力装置１１を介して
画像解析部３１へ入力される。画像解析部３１は、画像
認識により、入力した画像情報からユーザ領域以外の変
化領域を検出する。そして、ＯＣＲなどの文字認識やパ
ターンマッチングにより、オブジェクトの表面の文字や
種別を表すために添付されたタグ、オブジェクト自体の
特殊な形状などを利用することで、個々のオブジェクト
の種別、位置、形状、色、オブジェクトに対する手書き
入力文字などを検出する。

【００３６】次に、操作情報蓄積部４に格納されている
データを参照して、既に環境情報蓄積部４に登録されて
いるデータであるのか、登録されているデータであって
も既にデスクトップに存在していたのか、あるいは新た
にデスクトップ上に置かれたオブジェクトであるのかを
特定する。ここでは、オブジェクトの種別がアドレス帳
であり、環境情報蓄積部４に未登録で新たにデスクトッ
プ上に置かれたオブジェクトであることから、検出され
たオブジェクトデータを操作環境解析信号３０１として
環境情報蓄積部４へ出力し、新規にデータを追加する。

【００３７】さらに、画像解析部３１はユーザの腕部分
がアドレス帳の特定の個所を指し示していることを検出
し、画像知識部３２に蓄積されているアドレス帳に関す
る画像解析知識を参照してアドレス帳の特定の個所を指
し示しているというユーザ操作候補を特定する。そし
て、ここで、アドレス帳の特定の個所を指し示している
理由が、新規アドレスの登録であるのか、指示アドレス
の削除であるのかなど画像解析部３１のみでユーザ操作
が一意に定まらないため、ユーザ操作の候補を画像解析
結果として画像解析信号３０２を出力する。

【００３８】統合解析部３５は、画像解析部３１から入
力した、画像解析信号３０２を解析し、ユーザがアドレ
ス帳の３ページの（ｘ，ｙ）という位置を指示しデータ
新規追加を実行するという操作候補が含まれていること
を検出する。一方、音声入力装置１２から入力した音声
信号は、音声解析部３３において解析され、音声解析信
号３０３が出力される。統合解析部３５は、この音声解
析信号３０３からユーザ音声に含まれる「登録する」と
いう語を検出し、アドレス帳の任意箇所にデータ新規追
加を実行するという操作候補を検出する。そして、統合
解析部３５は、２つの解析信号からアドレス帳の３ペー
ジの（ｘ，ｙ）という位置に対応する場所に新規にアド
レスデータを登録するというユーザ操作を特定し、統合
解析信号３０４、３０５を出力する。

【００３９】上記の操作により、アドレス帳に新たにア
ドレスデータが追加登録されたとき、アプリケーション
インタフェース部５は、統合解析信号３０５を入力し、
新規追加されたアドレスを含んだアドレスデータを画像
の提示情報として生成する。また、追加登録されたアド
レス部分の表示色を変更する。さらに、アドレス部分を
矩形で取り囲むなどして強調表示することにより、ユー
ザへ的確に更新状態を提示する。画像の提示情報に加
え、新規登録したアドレスデータの確認を容易にするた
め更新内容を音声出力により読み上げる音声の提示情報
を生成する。

【００４０】アドレスデータが追加登録された場合、ア
ドレス帳のデータを投影している先、例えば、何も書か
れていない実際の白紙の部分への提示内容が更新され
る。投影画像制御部６１は、アプリケーションインタフ
ェース部５から出力された提示情報を受けて、環境情報
蓄積部４に蓄積されている投影対象となっている実際の
アドレス帳の位置、大きさなどのオブジェクトデータを
参照してデスクトップ操作環境での投影位置や投影画像
の歪みを考慮した幾何補正を行う。画像投影装置１３
は、投影画像制御部６１の制御により、この追加登録さ
れたアドレスを含めた新たなデータを実空間へ投影す
る。この画像投影により、実空間と仮想空間を融合した
画像出力情報の提示を実現する。

【００４１】一方、アプリケーションインタフェース部
５が生成した音声の提示情報は、出力音声制御部６２へ
供給される。音声出力装置１４、１５は、出力音声制御
部６２により調整された音声信号を受けて、出力する。
更新内容を音声出力により読み上げることで新規登録し
たアドレスデータの確認を容易に実現する。これによ
り、ユーザの操作状況やデスクトップの操作環境に応じ
た適応的な音声フィードバックが可能となる。前記投影
画像制御部６１と出力音声制御部６２による適応的な画
像と音声のマルチモーダルな情報提示の制御により、ユ
ーザは現在の操作状況やデスクトップ操作環境を的確に
把握することができる。

【００４２】ところで、上述した実施の形態において、
ユーザ操作を解析するための入力は、身振りなどのジェ
スチャ、音声、手書きなどをカメラなどの画像入力装置
が撮像した画像信号とマイクなどの音声入力装置からの
音声信号を用いているが、ユーザ操作の解析に用いる情
報は画像や音声だけに限られるものではない。キーボー
ド、マウス、タブレットなど他の入力手段を用いて、ユ
ーザ操作を解析するための情報を生成してもよい。提示
情報も画像と音声に限るものではなく触覚情報など他の
情報を含める構成にしてもよい。また、ユーザへの情報
提示手段をプロジェクタなどの投影画像装置とスピーカ
などの音声出力装置により構成しているが、これに限る
ものではなく触覚デバイスなどを含めて構成することが
可能である。

【００４３】

【発明の効果】以上説明したように、本発明によれば、
ユーザは身振りなどのジェスチャ、音声、手書き入力な
どユーザにとって負担が少ない自然な入力操作により、
実空間とコンピュータによる仮想空間との作業の違いを
気にすることなく、一貫した操作を行うことが可能にな
る。また、ユーザの操作状況やデスクトップの操作環境
に応じて、画像と音声を利用したマルチモーダルな情報
を適応的に提示することにより、実空間での作業内容と
仮想空間での作業内容が整合の取れた、実空間と仮想空
間とが融合した同一空間でのデスクワークを可能にす
る。さらに、デスクトップの操作環境の変化に対応して
最新のデータを管理することができるため、ユーザは常
に最新の情報を利用した操作や最新の情報を反映した状
況提示を受けることができる。このような作業環境を構
築することにより、デスクワークにおけるユーザと情報
機器の一層自然なインタフェースを可能にし、作業効率
を高めるという効果が得られる。

【図面の簡単な説明】

【図１】この発明の一実施の形態におけるデスクトッ
プ情報装置の構成を示す図である。

【図２】操作環境解析部の構成を示すブロック図であ
る。

【図３】画像解析知識部に蓄積される画像解析知識の
例を示す図である。

【図４】画像解析信号の記述フォーマットの例を示す
図である。

【図５】操作環境解析信号の記述フォーマットの例を
示す図である。

【図６】音声解析信号の記述フォーマットの例を示す
図である。

【図７】音声解析知識部に蓄積される音声解析知識の
例を示す図である。

【図８】統合解析信号の記述フォーマットの例を示す
図である。

【図９】環境情報蓄積部に蓄積されるオブジェクトデ
ータの記述の例を示す図である。

【図１０】提示情報制御部の構成を示すブロック図で
ある。

【符号の説明】

２処理用ＰＣ３操作環境解析部４環境情報蓄積部５アプリケーションインタフェース部６提示情報制御部１０デスクトップ情報装置１１画像入力装置１２音声入力装置１３画像投影装置１４，１５音声出力装置３１画像解析部３２画像解析知識部３３音声解析部３４音声解析知識部３５統合解析部３６統合解析知識部６１投影画像制御部６２出力音声制御部１０１画像信号１０２音声信号３０１操作環境解析信号３０２画像解析信号３０３音声解析信号３０４、３０５統合解析信号

Claims

【特許請求の範囲】

【請求項１】画像および音声を入力する入力装置と、
画像投影装置と、音声出力装置を有し、ユーザのデスク
ワークを支援するデスクトップ情報装置において、前記画像および音声の入力装置を介して入力した画像情
報および音声情報を解析し、ユーザのマルチモーダルな
操作の検出およびデスクトップ環境に関するデータの生
成を行う操作環境解析部と、ユーザ、デスクトップの操作環境を構成する実際のオブ
ジェクトおよび仮想オブジェクトの位置関係および各オ
ブジェクトの情報からなるオブジェクトデータを蓄積
し、前記操作環境解析部から入力された信号に基づき、
オブジェクトデータの追加および編集を行う環境情報蓄
積部と、前記操作環境解析部から入力した信号に基づき、ユーザ
操作の実行に必要なアプリケーションおよび機器を制御
し、前記環境情報蓄積部に蓄積されたオブジェクトデー
タを参照してユーザへの提示情報を生成するアプリケー
ションインタフェース部と、該アプリケーションインタフェース部が生成した提示情
報により、デスクトップ上へ画像および音声を提示する
前記画像投影装置および音声出力装置を制御する提示情
報制御部と、を具備することを特徴とするデスクトップ情報装置。
【請求項２】前記操作環境解析部は、画像入力装置を
介して入力された画像情報を解析し、ユーザ操作候補と
デスクトップの操作環境の変更内容を検出する画像解析
部と、画像情報からユーザ操作を解析するために必要な
画像解析の知識を蓄積し、管理する画像解析知識部と、
音声入力装置を介して入力された音声情報を解析し、音
声情報からユーザ操作候補を検出する音声解析部と、音
声情報からユーザ操作を解析するために必要な音声解析
の知識を蓄積し、管理する音声解析知識部とを備えいて
ることを特徴とする請求項１に記載のデスクトップ情報
装置。
【請求項３】前記操作環境解析部は、前記画像解析部
および前記音声解析部の解析結果からデスクトップの操
作環境により統合的にユーザ操作を解析する統合解析部
と、解析を行うために必要な構文と制約知識を蓄積し、
管理する統合解析知識部とを備えていることを特徴とす
る請求項１または２に記載のデスクトップ情報装置。
【請求項４】前記提示情報制御部は、ユーザの操作お
よびデスクトップの操作環境に応じて、幾何補正を施し
た投影画像を生成する投影画像制御部と、ユーザの操作
およびデスクトップの操作環境の変化を知らせる音声信
号を生成する出力音声制御部とを備えていることを特徴
とする請求項１、２または３に記載のデスクトップ情報
装置。