JP2001154781A - デスクトップ情報装置 - Google Patents

デスクトップ情報装置

Info

Publication number
JP2001154781A
JP2001154781A JP33869499A JP33869499A JP2001154781A JP 2001154781 A JP2001154781 A JP 2001154781A JP 33869499 A JP33869499 A JP 33869499A JP 33869499 A JP33869499 A JP 33869499A JP 2001154781 A JP2001154781 A JP 2001154781A
Authority
JP
Japan
Prior art keywords
information
image
user
analysis
desktop
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP33869499A
Other languages
English (en)
Inventor
Atsushi Chazono
篤 茶園
Nobutatsu Nakamura
暢達 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP33869499A priority Critical patent/JP2001154781A/ja
Publication of JP2001154781A publication Critical patent/JP2001154781A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Closed-Circuit Television Systems (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

(57)【要約】 【課題】 デスクトップ環境において実空間と仮想空間
をシームレスに結合し、マルチモーダルな操作を可能に
するデスクトップ情報装置を提供する。 【解決手段】 画像入力装置11および音声入力装置1
2から入力した画像および音声情報は操作環境解析部3
に入力される。操作環境解析部3は、環境情報蓄積部4
に蓄積されている解析知識を参照して入力情報を解析
し、マルチモーダルなユーザ操作とユーザ操作などに応
じて変化するデスクトップ環境の状況を認識する。そし
て、実空間と仮想空間の間の整合を取りつつ、解析信号
を出力する。アプリケーションインタフェース部5は、
入力した解析信号に基づき画像と音声からなる提示情報
を生成する。提示情報制御部6は、画像投影装置13と
音声出力装置14,15を制御してこの提示情報をユー
ザに提示する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、コンピュータや
携帯情報機器のユーザインタフェースにおいて、ユーザ
が実際のオブジェクトとプロジェクタなどで投影される
仮想オブジェクトとの違いを意識することなく、身振り
などのジェスチャ、音声、手書き入力などの複数の手段
を用いて操作でき、実世界と仮想世界での環境変化や情
報更新の整合を取り、情報提示を行うデスクトップ情報
装置に関する。
【0002】
【従来の技術】デスクトップ情報装置は、ユーザの身振
りなどの自然な操作をコンピュータへの入力とする技術
を用いて実世界と仮想世界を融合し、実際のオブジェク
トと仮想のオブジェクトの違いを意識することなく利用
できるようにしてユーザのデスクワークを支援する装置
である。この種のデスクトップ情報装置として、特開平
9−258945号公報、特開平6−282371号公
報などに記載されたものが知られている。特開平9−2
58945号公報の場合は、コンピュータの情報提示は
その端末のディスプレイ上に行う。一方、特開平6−2
82371の場合は、ヘッドマウントディスプレイを用
い、ユーザの視野の全域において情報提示が可能であ
る。
【0003】
【発明が解決しようとする課題】しかしながら、上述し
た従来のデスクトップ情報装置において、コンピュータ
の情報提示は、その端末のディスプレイ上に限定され、
実世界のオブジェクトへの情報提示はできない。また、
ディスプレイ上とそれ以外の実物体の操作がシームレス
に結合されているわけではなく、実物体そのものの状態
が更新されないために実空間と仮想空間との間で不一致
が生じ、実空間と仮想空間の整合を取りながら操作を進
める必要があり、インタフェースとしては利用範囲が限
定されるという問題がある。さらに、ヘッドマウントデ
ィスプレイを用いる方法は、ユーザの視野の全域におい
て情報提示が可能であるが、ヘッドマウントディスプレ
イや入力用グローブを身につける必要があり、ユーザの
動作に多くの制約を与えてしまう。また、多くの制約が
あるだけでなく、あくまでも仮想世界の中で閉じたイン
タフェースとなっており、実世界でのデスクワークを支
援するには不十分であるという問題点がある。
【0004】この発明は、上記の点に鑑みてなされたも
ので、その目的は、ユーザのデスクワークを支援するに
あたり、ユーザの操作状況やデスクトップの環境変化に
応じて、プロジェクタなどの画像投影装置による位置、
幾何補正を施した適応的な画像投影やスピーカなどの音
声出力装置による情報更新を知らせるための効果音出力
などを実現することにより、実世界と仮想世界を融合し
た操作環境の構築や情報提示を可能とし、ユーザが実世
界と仮想世界のオブジェクトの違いを意識することな
く、なおかつ実世界と仮想世界との整合が取れた状態に
おいて自然な操作を可能とする。
【0005】さらに、カメラなどの画像入力装置やマイ
クなどの音声入力装置を利用することで、ユーザを拘束
することなく身振りなどのジェスチャ、音声、手書き入
力などの自然な操作から操作状態の解析を実現すること
により、ユーザに何ら負荷や制約を与えることなく実世
界のデスクワークと同様の感覚で、実世界と仮想世界を
シームレスに結合した操作環境での自然な操作を可能と
するデスクトップ情報装置を提供することにある。
【0006】
【課題を解決するための手段】上記の課題を解決するた
めに、請求項1に記載の発明は、画像および音声を入力
する入力装置と、画像投影装置と、音声出力装置を有
し、ユーザのデスクワークを支援するデスクトップ情報
装置において、前記画像および音声の入力装置を介して
入力した画像情報および音声情報を解析し、ユーザのマ
ルチモーダルな操作の検出およびデスクトップ環境に関
するデータの生成を行う操作環境解析部と、ユーザ、デ
スクトップの操作環境を構成する実際のオブジェクトお
よび仮想オブジェクトの位置関係および各オブジェクト
の情報からなるオブジェクトデータを蓄積し、前記操作
環境解析部から入力された信号に基づき、オブジェクト
データの追加および編集を行う環境情報蓄積部と、前記
操作環境解析部から入力した信号に基づき、ユーザ操作
の実行に必要なアプリケーションおよび機器を制御し、
前記環境情報蓄積部に蓄積されたオブジェクトデータを
参照してユーザへの提示情報を生成するアプリケーショ
ンインタフェース部と、該アプリケーションインタフェ
ース部が生成した提示情報により、デスクトップ上へ画
像および音声を提示する前記画像投影装置および音声出
力装置を制御する提示情報制御部とを具備することを特
徴とする。
【0007】また、請求項2に記載の発明は、請求項1
に記載のデスクトップ情報装置において、前記操作環境
解析部は、画像入力装置を介して入力された画像情報を
解析し、ユーザ操作候補とデスクトップの操作環境の変
更内容を検出する画像解析部と、画像情報からユーザ操
作を解析するために必要な画像解析の知識を蓄積し、管
理する画像解析知識部と、音声入力装置を介して入力さ
れた音声情報を解析し、音声情報からユーザ操作候補を
検出する音声解析部と、音声情報からユーザ操作を解析
するために必要な音声解析の知識を蓄積し、管理する音
声解析知識部とを備えいてることを特徴とする。
【0008】また、請求項3に記載の発明は、請求項1
または2に記載のデスクトップ情報装置において、前記
操作環境解析部は、前記画像解析部および前記音声解析
部の解析結果からデスクトップの操作環境により統合的
にユーザ操作を解析する統合解析部と、解析を行うため
に必要な構文と制約知識を蓄積し、管理する統合解析知
識部とを備えていることを特徴とする。
【0009】また、請求項4に記載の発明は、請求項
1、2または3に記載のデスクトップ情報装置におい
て、前記提示情報制御部は、ユーザの操作およびデスク
トップの操作環境に応じて、幾何補正を施した投影画像
を生成する投影画像制御部と、ユーザの操作およびデス
クトップの操作環境の変化を知らせる音声信号を生成す
る出力音声制御部とを備えていることを特徴とする。
【0010】
【発明の実施の形態】以下、図面を参照してこの発明の
実施の形態について説明する。図1は、この発明の一実
施形態によるデスクトップ情報装置10の構成を示すブ
ロック図である。この図において、デスクトップ情報装
置10は、画像入力装置11と、音声入力装置12と、
処理用PC(パーソナルコンピュータ)2と、画像投影
装置13と、音声出力装置14、15とから構成され
る。処理用PC2は、画像入力装置11を介して入力し
た画像信号と音声入力装置12を介して入力した音声信
号からユーザの操作候補の検出を行い、ユーザ操作を特
定する操作環境解析部3と、環境情報蓄積部4と、アプ
リケーションインタフェース部5と、提示情報制御部6
とから構成される。画像入力装置11は、CCD(電荷
結合素子)カメラなどの撮像装置を用いることができ、
画像投影装置13は、プロジェクタなどの投影装置によ
り構成することができる。
【0011】図2は、操作環境解析部3の構成を示すブ
ロック図である。以下、同図を参照して、操作環境解析
部3について詳細に説明する。操作環境解析部3は、画
像解析部31と、画像解析知識部32と、音声解析部3
3と、音声解析知識部34と、統合解析部35と、統合
解析知識部36とから構成される。画像解析知識部32
は、画像入力装置11を介して入力した画像情報からユ
ーザの操作を解析するために必要な各対象オブジェクト
種別に応じた機能と各機能に対応するユーザ操作に関す
る知識の蓄積、逐次読み出し、追加、編集および管理を
行う。
【0012】ここで、例えば、デスクトップに位置する
オブジェクトの種別がノートである場合には、ユーザが
手でノートをめくることによりページが更新される。ま
た、ペンを利用することでノートに書き込みができる。
画像解析知識部32に蓄積されている画像解析知識は、
このような各オブジェクト種別に応じた機能と各機能に
対応するユーザ動作を定義したものである。図3は、こ
の画像解析知識の一例を示す図である。同図において、
例えば、アドレス帳のページをめくる機能は、ユーザ動
作1として定義されている“手でページをめくる”とい
う動作をすることによって利用することができる。
【0013】画像解析知識部32に記述されている、前
記入力画像情報からユーザ操作を解析するために必要な
知識は、予め作成して格納しておいた知識だけに限定さ
れるものではない。例えば、新たな動作を定義する必要
が生じた場合には、カメラなどの画像入力装置を利用し
て定義したい新たな操作を入力することで新規に画像解
析知識を追加することも可能である。また、画像解析知
識は図3の形に限定されるものではなく、特定のオブジ
ェクトに対しての操作を設定するために、オブジェクト
識別子などの他の情報を含む構成にしてもよい。
【0014】画像解析部31は、画像入力装置11から
入力した画像信号101の濃淡、色彩の差や変化などの
情報、環境情報蓄積部4に蓄積されているユーザの操作
対象となるオブジェクトのデータおよび画像解析知識部
32に蓄積されている画像解析知識を利用することによ
り、身振りなどのジェスチャや手書き入力などの画像情
報からユーザ操作を解析する。また、オブジェクトの新
規追加や位置変化などのデスクトップ操作環境の変化を
解析する機能を有する。
【0015】画像解析部31は、ユーザがデスクトップ
上のオブジェクトに対して操作をしている場合、画像を
解析、例えば、画像認識、パターン認識などの手法を用
いてユーザの操作対象オブジェクトおよび操作内容を特
定する。ユーザ操作の解析は、以下のように行われる。
まず、画像認識の手法である差分法、閾値選択による2
値化法などにより、予め撮影したおいたデスクトップの
画像と現在撮影している画像の差分からユーザの位置を
特定する。そして、その位置に応じてカメラの撮影位
置、撮影角度などを調整し、パターン認識で一般的に利
用されるテンプレートマッチング手法などを利用して、
予めテンプレートとして用意しておいた人体形状モデル
からユーザの胴体部分と腕部分とを識別する。
【0016】次に、検出された腕部分の領域付近でユー
ザの操作対象となっているオブジェクトの種別や位置な
どを特定する。オブジェクトの種別や位置などを特定す
る手法には、例えば、画像認識、パターン認識などの手
法を用いることができる。画像解析部31のみでユーザ
操作が一意に定まる場合もあるが、例えば、アドレス帳
の特定箇所を指示している理由が、新規アドレスの登録
であるのか、指示アドレスの削除であるのか、指示アド
レス先への送信要求であるのかなど一意に特定できない
場合もある。この場合は、ユーザ操作の候補を画像解析
結果として出力する。
【0017】画像解析部31は、操作対象であるオブジ
ェクトのオブジェクト識別子と、操作対象であるオブジ
ェクトの種別情報と、例えば、アドレス帳の特定箇所を
指さしている場合に、指さしているページ番号やページ
内での指示位置などの操作属性情報と検出された操作内
容を示す操作情報を記述した画像解析信号302を統合
解析部35へ出力する。
【0018】図4は、画像解析信号302の記述フォー
マットの一例を示す。画像解析信号302は、ユーザの
操作対象を示すオブジェクト識別子、オブジェクトの種
別を示す種別情報、ページ数や指示箇所などの操作対象
の属性を示す操作属性情報、特定箇所へアドレスデータ
を新規に追加登録するなどの操作内容を示す操作情報か
ら構成される。同図に示す例は、ID1のアドレス帳に
おいてページ3の(x,y)という箇所を指示して、デ
ータを新規登録するという操作候補が解析されているこ
とを示している。なお、画像解析信号302は、固定長
または可変長の信号である。また、画像解析信号302
を構成する情報は、図4に示すオブジェクト識別子、種
別情報、操作属性情報、操作情報に限定されるものでは
なく、どのユーザの操作であるかを示すユーザ識別子な
ど他の情報を含む構成にしてもよい。
【0019】さらに、画像解析部31は、ユーザや個々
のオブジェクトを識別するためのオブジェクト識別子
と、各オブジェクトの位置を示す位置情報などを記述し
た操作環境解析信号301を環境情報蓄積部4へ出力す
る。図5は、操作環境解析信号301の記述フォーマッ
トの一例を示している。同図に示すように、操作環境解
析信号301は、デスクトップの操作環境において各オ
ブジェクトを識別するためのオブジェクト識別子、各オ
ブジェクトのデスクトップ上での位置を示す位置情報、
アドレス帳やノートなど各オブジェクトの種別を示す種
別情報および各オブジェクトの種別に応じた情報内容か
ら構成される。
【0020】図5の場合、オブジェクト識別子ID1の
アドレス帳に関して、位置の更新を要求していること、
および、種別がノートの未登録オブジェクトについて新
規に追加登録を要求していることを示している。なお、
操作環境解析信号301は、固定長または可変長の信号
である。また、操作環境解析信号301の構成は、図5
のフォーマットに限定されるものでなく、どのユーザの
所有物であるかを示すユーザ識別子など他の情報を含む
構成にしてもよい。
【0021】音声解析部33は、音声入力部12から入
力した音声信号102の振幅、周波数などの状態や変化
などから音声認識や言語解析を用いることにより、ユー
ザの発話音声をテキスト情報に変換し、このテキスト情
報の中に含まれる個々の単語を切り出す。そして、音声
解析知識部34に蓄積されている音声解析知識を参照し
て、前記テキスト情報に基づき、音声信号によるユーザ
操作の解析を行う。ユーザの発話音声をテキスト情報に
変換する機能としては、連続音声認識手法を用いること
ができる。例えば、予め用意しておいた認識用の辞書の
中に含まれる単語の発音モデルと発話音声による入力モ
デルとをマッチングさせたり、ある単語が連続して出現
する確率を定めたモデルを利用することにより、ユーザ
の発話音声をテキスト情報として出力する。
【0022】また、テキスト情報から個々の単語を切り
出す機能としては、形態素解析手法を用いることができ
る。例えば、予め用意しておいた形態素解析用の辞書の
中に含まれる単語の固有部とマッチングすることでテキ
スト情報に含まれる個々の単語の切り出しを行う。そし
て、例えば、入力音声から「登録する」という語が解析
結果として検出された場合に、音声解析知識部34に格
納されている知識を用いて、アドレス帳のあるページに
アドレスデータを新たに追加するなどのユーザ操作候補
を特定する。音声解析部33のみでユーザ操作が一意に
定まる場合もあるが、前記の例のように「登録する」と
いう内容からだけでは、データを新たに追加する対象が
アドレス帳であるのか、顧客録であるのかなどを一意に
特定できない場合もある。この場合は、ユーザ操作の候
補を音声解析結果として出力する。
【0023】音声解析部33は、操作対象であるオブジ
ェクトのオブジェクト識別子と、操作対象であるオブジ
ェクトの種別情報、操作属性情報、例えば、アドレス帳
に新規にデータを登録する場合に、どのページに登録す
るかなどの情報および検出された操作内容を示す操作情
報を記述した音声解析信号303を統合解析部35へ出
力する。図6は、音声解析信号303の記述フォーマッ
トの一例を示している。 同図の例は、ID5のブック
マークに関してURLを新たに追加するという操作候補
が解析されていることを示している。なお、音声解析信
号303は、固定長または可変長の信号である。音声解
析信号303のフォーマットは、図6の形に限定される
ものではなく、どのユーザの操作であるかを示すユーザ
識別子などの他の情報を含む構成にしてもよい。
【0024】音声解析知識部34は、音声信号からユー
ザの操作を解析するために必要な各対象オブジェクト種
別に応じた機能と各機能に対応するユーザの音声から検
出可能なテキストや音声コマンドに関する知識の蓄積、
逐次読み出し、追加、編集、管理などを行う。図7は、
音声解析知識部34に蓄積されている音声解析知識の一
例を示す。同図において、例えば,アドレス帳への新規
アドレスの登録は、ユーザが定義音声の「登録する」と
いう語が含まれる音声、「これを登録して」などを入力
することによって行われることを示している。
【0025】音声解析知識部34に記述されているユー
ザ操作の解析に必要な知識は、予め作成しておいたもの
を利用することに限定されるものではない。例えば、既
に他の言葉で登録されている操作に対してユーザが他の
言葉を新たに対応づけたい場合には、マイクなどの音声
装置を利用し、定義したい新たな音声コマンドを入力す
ることで音声解析知識部34へ新規に音声解析知識を追
加することも可能である。なお、音声解析知識は図7の
形に限定されるものではなく、特定のオブジェクトに対
しての操作を設定するために、オブジェクト識別子など
他の情報が含まれる構成にしてもよい。
【0026】次に、統合解析部35は、画像解析部31
から入力された画像解析信号302と音声解析部33か
ら入力された音声解析信号303を統合解析知識部36
に蓄積されている統合解析知識を参照し、統合的に解析
する。例えば、ユーザがデスクトップ上のアドレス帳の
ページをめくり、ページ上のある位置を指し示して、ア
ドレスの新規追加を要求しているなどのユーザの操作を
解析する。
【0027】ユーザの操作の解析は、統合解析知識部3
6に蓄積されている解析結果照合時の構文記述形式や時
間制約、意味制約などの統合解析知識を利用して、画像
解析信号302に含まれるユーザの操作候補と音声解析
信号303に含まれるユーザの操作候補とを照らし合わ
せて行う。そして、両解析信号に含まれるユーザの操作
候補から同一の操作候補を絞り込むことによりユーザ操
作の特定を行う。例えば、画像解析信号302にユーザ
がアドレス帳の3ページの(x,y)という位置を指示
しデータ新規追加を実行するという操作候補が含まれて
おり、音声解析信号303のユーザ音声に「登録する」
という語があり、アドレス帳の任意箇所にデータの新規
追加を実行するという操作候補が含まれている場合に
は、両解析信号からアドレス帳の3ページの(x,y)
という位置に対応する場所に新規にアドレスデータを登
録するというユーザ操作を特定する。
【0028】また、状況や操作の種類によっては、画像
解析信号302に含まれる操作候補のみでユーザ操作を
決定可能な場合、あるいは音声解析信号303に含まれ
る操作候補のみでユーザ操作を決定可能な場合も考えら
れる。その場合、いずれか一方の解析信号からユーザ操
作を検出することによりユーザ操作の特定を行う。例え
ば、画像解析信号302がアドレス帳のページをめくる
という操作を示している場合、画像解析信号302のみ
からページをめくるというユーザ操作を一意に特定し実
現することになる。このような処理により、通常のデス
クワークと同様に、マルチモーダルな入力手段を利用し
た自然な操作を実現することができる。
【0029】統合解析部35は、画像解析信号302と
音声解析信号303から統合的にユーザ操作を特定した
後に、統合解析信号304、305を出力する。図8
は、統合解析信号304、305の記述フォーマットの
一例を示している。統合解析信号304、305は、ユ
ーザの操作対象を示すオブジェクト識別子、オブジェク
トの種別を示す種別情報、ページ数や指示箇所、新規登
録するアドレスなどの操作対象の属性を示す操作属性情
報、指示した特定箇所にアドレスを新規登録するなどの
操作内容を示す操作情報から構成される。同図は、ID
1のアドレス帳において、ページ3の(x,y)に該当
する位置へアドレスデータを新規に登録するという操作
が解析されていることを示している。統合解析信号30
4、305は、固定長または可変長の信号である。な
お、統合解析信号304、305の記述フォーマット
は、図8の形に限定されるものではなく、どのユーザの
動作であるかを示すユーザ識別子などの他の情報が含ま
れる構成でもよい。
【0030】統合解析知識部36は、複数の入力による
解析結果を統合的に解析するために、各解析結果の構文
記述、各解析結果間における時間制約、意味制約などを
蓄積し管理する。例えば、構文記述として、オブジェク
ト識別子,種別情報,操作属性情報,操作情報などの記
述文法を定義することで各解析部による解析内容の判断
を可能にし、時間制約は各入力の時間的な順序や入力時
間の間隔を定義する。意味制約は、操作属性情報に含ま
れる位置情報に関して、任意箇所と直接指示による位置
の記述が混在している場合、直接指示を優先して参照す
るなどを定義する。
【0031】次に、環境情報蓄積部4は、デスクトップ
の操作環境に存在するユーザ、実オブジェクトおよび仮
想オブジェクトの位置関係や種別などの各オブジェクト
に関するデータの蓄積、逐次読み出し、追加、編集、管
理などを行う。図9は、環境情報蓄積部4に蓄積されて
いるオブジェクトデータの一例を示す。同図において、
オブジェクト識別子ID1のオブジェクトはアドレス帳
という種別であり、デスクトップ上の(X,Y)という
位置に存在していることを示している。そして、このオ
ブジェクトは、アドレス帳というオブジェクト種別に付
随するアドレスデータとして名前、住所、電話番号、電
子メールなどの情報内容を保持している。また、ID2
のノートはオブジェクトとして登録されてはいるが現在
操作環境には存在しないこと、およびID3のユーザが
(−X2,−Y2)という位置に存在していることを示
している。
【0032】環境情報蓄積部4に蓄積されているオブジ
ェクトデータは、予め作成したものだけでなく、例え
ば、オブジェクト種別の判断用としてタグなどが添付さ
れている場合には、画像入力装置により添付されたタグ
を識別し、識別されたタグ情報を基にネットワーク経由
でオブジェクトデータを追加することも可能である。ま
た、各オブジェクトが使用され、例えば、アドレス帳で
あればデータの追加登録、削除などの操作によりデータ
内容に変更が生じたときなど、適宜データを更新をする
ことができる。
【0033】アプリケーションインタフェース部5は、
操作環境解析部3の統合解析部35から出力される統合
解析信号305を受けて、操作に必要なアプリケーショ
ンや機器を制御し、ユーザ操作を実行する。さらに、操
作環境蓄積部4のオブジェクトデータを参照してユーザ
に操作状況を提示するための情報を生成する。例えば、
統合解析信号305に新たに追加されたアドレスデータ
宛てにメールを送信する操作が含まれている場合、メー
ル送信が可能なアプリケーションを起動し、ネットワー
ク接続を確立してメールを送信するなどのユーザ操作を
実現する。そして、ユーザに操作状況を提示するための
画像と音声による提示情報を生成する。
【0034】次に、提示情報制御部6について説明す
る。図10は、提示情報制御部6の詳細な構成を示す図
である。同図において、提示情報制御部6は、投影画像
制御部61と出力音声制御部62からなる。投影画像制
御部61は、アプリケーションインタフェース部5で生
成された画像の提示情報を画像投影装置13によりデス
クトップ環境へ適応的に投影するため、環境情報蓄積部
4に蓄積されている各オブジェクトのデータを参照し、
ユーザ操作やデスクトップの操作環境の変化に応じて投
影画像の位置合わせ、幾何補正、画像投影装置13の制
御を行う。出力音声制御部62は、アプリケーションイ
ンタフェース部5で生成された音声の提示情報を、音声
出力装置によりデスクトップ環境へ適応的に出力するた
め、環境情報蓄積部4に蓄積されている各オブジェクト
のデータを参照し、ユーザ操作やデスクトップの操作環
境の変化に応じて音場調整、音量調整、音声出力装置1
4、15の制御を行う。
【0035】以上の構成において、以下、その動作につ
いて説明する。なお、以下の説明においては、デスクト
ップに位置するオブジェクトの種別はアドレス帳であ
り、このアドレス帳に新規にアドレスを登録する場合を
例にとり説明する。先ず、ユーザの操作とデスクトップ
の操作環境を示す画像情報が画像入力装置11を介して
画像解析部31へ入力される。画像解析部31は、画像
認識により、入力した画像情報からユーザ領域以外の変
化領域を検出する。そして、OCRなどの文字認識やパ
ターンマッチングにより、オブジェクトの表面の文字や
種別を表すために添付されたタグ、オブジェクト自体の
特殊な形状などを利用することで、個々のオブジェクト
の種別、位置、形状、色、オブジェクトに対する手書き
入力文字などを検出する。
【0036】次に、操作情報蓄積部4に格納されている
データを参照して、既に環境情報蓄積部4に登録されて
いるデータであるのか、登録されているデータであって
も既にデスクトップに存在していたのか、あるいは新た
にデスクトップ上に置かれたオブジェクトであるのかを
特定する。ここでは、オブジェクトの種別がアドレス帳
であり、環境情報蓄積部4に未登録で新たにデスクトッ
プ上に置かれたオブジェクトであることから、検出され
たオブジェクトデータを操作環境解析信号301として
環境情報蓄積部4へ出力し、新規にデータを追加する。
【0037】さらに、画像解析部31はユーザの腕部分
がアドレス帳の特定の個所を指し示していることを検出
し、画像知識部32に蓄積されているアドレス帳に関す
る画像解析知識を参照してアドレス帳の特定の個所を指
し示しているというユーザ操作候補を特定する。そし
て、ここで、アドレス帳の特定の個所を指し示している
理由が、新規アドレスの登録であるのか、指示アドレス
の削除であるのかなど画像解析部31のみでユーザ操作
が一意に定まらないため、ユーザ操作の候補を画像解析
結果として画像解析信号302を出力する。
【0038】統合解析部35は、画像解析部31から入
力した、画像解析信号302を解析し、ユーザがアドレ
ス帳の3ページの(x,y)という位置を指示しデータ
新規追加を実行するという操作候補が含まれていること
を検出する。一方、音声入力装置12から入力した音声
信号は、音声解析部33において解析され、音声解析信
号303が出力される。統合解析部35は、この音声解
析信号303からユーザ音声に含まれる「登録する」と
いう語を検出し、アドレス帳の任意箇所にデータ新規追
加を実行するという操作候補を検出する。そして、統合
解析部35は、2つの解析信号からアドレス帳の3ペー
ジの(x,y)という位置に対応する場所に新規にアド
レスデータを登録するというユーザ操作を特定し、統合
解析信号304、305を出力する。
【0039】上記の操作により、アドレス帳に新たにア
ドレスデータが追加登録されたとき、アプリケーション
インタフェース部5は、統合解析信号305を入力し、
新規追加されたアドレスを含んだアドレスデータを画像
の提示情報として生成する。また、追加登録されたアド
レス部分の表示色を変更する。さらに、アドレス部分を
矩形で取り囲むなどして強調表示することにより、ユー
ザへ的確に更新状態を提示する。画像の提示情報に加
え、新規登録したアドレスデータの確認を容易にするた
め更新内容を音声出力により読み上げる音声の提示情報
を生成する。
【0040】アドレスデータが追加登録された場合、ア
ドレス帳のデータを投影している先、例えば、何も書か
れていない実際の白紙の部分への提示内容が更新され
る。投影画像制御部61は、アプリケーションインタフ
ェース部5から出力された提示情報を受けて、環境情報
蓄積部4に蓄積されている投影対象となっている実際の
アドレス帳の位置、大きさなどのオブジェクトデータを
参照してデスクトップ操作環境での投影位置や投影画像
の歪みを考慮した幾何補正を行う。画像投影装置13
は、投影画像制御部61の制御により、この追加登録さ
れたアドレスを含めた新たなデータを実空間へ投影す
る。この画像投影により、実空間と仮想空間を融合した
画像出力情報の提示を実現する。
【0041】一方、アプリケーションインタフェース部
5が生成した音声の提示情報は、出力音声制御部62へ
供給される。音声出力装置14、15は、出力音声制御
部62により調整された音声信号を受けて、出力する。
更新内容を音声出力により読み上げることで新規登録し
たアドレスデータの確認を容易に実現する。これによ
り、ユーザの操作状況やデスクトップの操作環境に応じ
た適応的な音声フィードバックが可能となる。前記投影
画像制御部61と出力音声制御部62による適応的な画
像と音声のマルチモーダルな情報提示の制御により、ユ
ーザは現在の操作状況やデスクトップ操作環境を的確に
把握することができる。
【0042】ところで、上述した実施の形態において、
ユーザ操作を解析するための入力は、身振りなどのジェ
スチャ、音声、手書きなどをカメラなどの画像入力装置
が撮像した画像信号とマイクなどの音声入力装置からの
音声信号を用いているが、ユーザ操作の解析に用いる情
報は画像や音声だけに限られるものではない。キーボー
ド、マウス、タブレットなど他の入力手段を用いて、ユ
ーザ操作を解析するための情報を生成してもよい。提示
情報も画像と音声に限るものではなく触覚情報など他の
情報を含める構成にしてもよい。また、ユーザへの情報
提示手段をプロジェクタなどの投影画像装置とスピーカ
などの音声出力装置により構成しているが、これに限る
ものではなく触覚デバイスなどを含めて構成することが
可能である。
【0043】
【発明の効果】以上説明したように、本発明によれば、
ユーザは身振りなどのジェスチャ、音声、手書き入力な
どユーザにとって負担が少ない自然な入力操作により、
実空間とコンピュータによる仮想空間との作業の違いを
気にすることなく、一貫した操作を行うことが可能にな
る。また、ユーザの操作状況やデスクトップの操作環境
に応じて、画像と音声を利用したマルチモーダルな情報
を適応的に提示することにより、実空間での作業内容と
仮想空間での作業内容が整合の取れた、実空間と仮想空
間とが融合した同一空間でのデスクワークを可能にす
る。さらに、デスクトップの操作環境の変化に対応して
最新のデータを管理することができるため、ユーザは常
に最新の情報を利用した操作や最新の情報を反映した状
況提示を受けることができる。このような作業環境を構
築することにより、デスクワークにおけるユーザと情報
機器の一層自然なインタフェースを可能にし、作業効率
を高めるという効果が得られる。
【図面の簡単な説明】
【図1】 この発明の一実施の形態におけるデスクトッ
プ情報装置の構成を示す図である。
【図2】 操作環境解析部の構成を示すブロック図であ
る。
【図3】 画像解析知識部に蓄積される画像解析知識の
例を示す図である。
【図4】 画像解析信号の記述フォーマットの例を示す
図である。
【図5】 操作環境解析信号の記述フォーマットの例を
示す図である。
【図6】 音声解析信号の記述フォーマットの例を示す
図である。
【図7】 音声解析知識部に蓄積される音声解析知識の
例を示す図である。
【図8】 統合解析信号の記述フォーマットの例を示す
図である。
【図9】 環境情報蓄積部に蓄積されるオブジェクトデ
ータの記述の例を示す図である。
【図10】 提示情報制御部の構成を示すブロック図で
ある。
【符号の説明】
2 処理用PC 3 操作環境解析部 4 環境情報蓄積部 5 アプリケーションインタフェース部 6 提示情報制御部 10 デスクトップ情報装置 11 画像入力装置 12 音声入力装置 13 画像投影装置 14,15 音声出力装置 31 画像解析部 32 画像解析知識部 33 音声解析部 34 音声解析知識部 35 統合解析部 36 統合解析知識部 61 投影画像制御部 62 出力音声制御部 101 画像信号 102 音声信号 301 操作環境解析信号 302 画像解析信号 303 音声解析信号 304、305 統合解析信号

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 画像および音声を入力する入力装置と、
    画像投影装置と、音声出力装置を有し、ユーザのデスク
    ワークを支援するデスクトップ情報装置において、 前記画像および音声の入力装置を介して入力した画像情
    報および音声情報を解析し、ユーザのマルチモーダルな
    操作の検出およびデスクトップ環境に関するデータの生
    成を行う操作環境解析部と、 ユーザ、デスクトップの操作環境を構成する実際のオブ
    ジェクトおよび仮想オブジェクトの位置関係および各オ
    ブジェクトの情報からなるオブジェクトデータを蓄積
    し、前記操作環境解析部から入力された信号に基づき、
    オブジェクトデータの追加および編集を行う環境情報蓄
    積部と、 前記操作環境解析部から入力した信号に基づき、ユーザ
    操作の実行に必要なアプリケーションおよび機器を制御
    し、前記環境情報蓄積部に蓄積されたオブジェクトデー
    タを参照してユーザへの提示情報を生成するアプリケー
    ションインタフェース部と、 該アプリケーションインタフェース部が生成した提示情
    報により、デスクトップ上へ画像および音声を提示する
    前記画像投影装置および音声出力装置を制御する提示情
    報制御部と、 を具備することを特徴とするデスクトップ情報装置。
  2. 【請求項2】 前記操作環境解析部は、画像入力装置を
    介して入力された画像情報を解析し、ユーザ操作候補と
    デスクトップの操作環境の変更内容を検出する画像解析
    部と、画像情報からユーザ操作を解析するために必要な
    画像解析の知識を蓄積し、管理する画像解析知識部と、
    音声入力装置を介して入力された音声情報を解析し、音
    声情報からユーザ操作候補を検出する音声解析部と、音
    声情報からユーザ操作を解析するために必要な音声解析
    の知識を蓄積し、管理する音声解析知識部とを備えいて
    ることを特徴とする請求項1に記載のデスクトップ情報
    装置。
  3. 【請求項3】 前記操作環境解析部は、前記画像解析部
    および前記音声解析部の解析結果からデスクトップの操
    作環境により統合的にユーザ操作を解析する統合解析部
    と、解析を行うために必要な構文と制約知識を蓄積し、
    管理する統合解析知識部とを備えていることを特徴とす
    る請求項1または2に記載のデスクトップ情報装置。
  4. 【請求項4】 前記提示情報制御部は、ユーザの操作お
    よびデスクトップの操作環境に応じて、幾何補正を施し
    た投影画像を生成する投影画像制御部と、ユーザの操作
    およびデスクトップの操作環境の変化を知らせる音声信
    号を生成する出力音声制御部とを備えていることを特徴
    とする請求項1、2または3に記載のデスクトップ情報
    装置。
JP33869499A 1999-11-29 1999-11-29 デスクトップ情報装置 Pending JP2001154781A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP33869499A JP2001154781A (ja) 1999-11-29 1999-11-29 デスクトップ情報装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP33869499A JP2001154781A (ja) 1999-11-29 1999-11-29 デスクトップ情報装置

Publications (1)

Publication Number Publication Date
JP2001154781A true JP2001154781A (ja) 2001-06-08

Family

ID=18320591

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33869499A Pending JP2001154781A (ja) 1999-11-29 1999-11-29 デスクトップ情報装置

Country Status (1)

Country Link
JP (1) JP2001154781A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008046738A (ja) * 2006-08-11 2008-02-28 Softbank Mobile Corp 生活記録作成システムおよびその制御方法
WO2012105175A1 (ja) * 2011-02-01 2012-08-09 パナソニック株式会社 機能拡張装置、機能拡張方法、機能拡張プログラム、及び集積回路
WO2014073346A1 (ja) * 2012-11-09 2014-05-15 ソニー株式会社 情報処理装置、情報処理方法およびコンピュータ読み取り可能な記録媒体
WO2015159550A1 (ja) * 2014-04-18 2015-10-22 日本電気株式会社 情報処理システム、制御方法、及びプログラム記録媒体
WO2016121052A1 (ja) * 2015-01-29 2016-08-04 三菱電機株式会社 マルチモーダル意図理解装置およびマルチモーダル意図理解方法
JP2017163560A (ja) * 2017-04-06 2017-09-14 京セラ株式会社 表示装置、システムおよび表示方法
US10341642B2 (en) 2012-09-27 2019-07-02 Kyocera Corporation Display device, control method, and control program for stereoscopically displaying objects
CN115438212A (zh) * 2022-08-22 2022-12-06 蒋耘晨 一种影像投射系统、方法及设备

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008046738A (ja) * 2006-08-11 2008-02-28 Softbank Mobile Corp 生活記録作成システムおよびその制御方法
JP5844288B2 (ja) * 2011-02-01 2016-01-13 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 機能拡張装置、機能拡張方法、機能拡張プログラム、及び集積回路
WO2012105175A1 (ja) * 2011-02-01 2012-08-09 パナソニック株式会社 機能拡張装置、機能拡張方法、機能拡張プログラム、及び集積回路
CN103003783A (zh) * 2011-02-01 2013-03-27 松下电器产业株式会社 功能扩展装置、功能扩展方法、功能扩展程序以及集成电路
US8965049B2 (en) 2011-02-01 2015-02-24 Panasonic Intellectual Property Corporation Of America Function extension device, function extension method, computer-readable recording medium, and integrated circuit
US10341642B2 (en) 2012-09-27 2019-07-02 Kyocera Corporation Display device, control method, and control program for stereoscopically displaying objects
EP2919104A4 (en) * 2012-11-09 2016-07-13 Sony Corp INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD, AND COMPUTER-READABLE RECORDING MEDIUM
JPWO2014073346A1 (ja) * 2012-11-09 2016-09-08 ソニー株式会社 情報処理装置、情報処理方法およびコンピュータ読み取り可能な記録媒体
US9632593B2 (en) 2012-11-09 2017-04-25 Sony Corporation Information processing apparatus, information processing method, and computer-readable recording medium
WO2014073346A1 (ja) * 2012-11-09 2014-05-15 ソニー株式会社 情報処理装置、情報処理方法およびコンピュータ読み取り可能な記録媒体
US11132063B2 (en) 2012-11-09 2021-09-28 Sony Corporation Information processing apparatus for interactively performing work based on input content in extended work space
WO2015159550A1 (ja) * 2014-04-18 2015-10-22 日本電気株式会社 情報処理システム、制御方法、及びプログラム記録媒体
WO2016121052A1 (ja) * 2015-01-29 2016-08-04 三菱電機株式会社 マルチモーダル意図理解装置およびマルチモーダル意図理解方法
JP2017163560A (ja) * 2017-04-06 2017-09-14 京セラ株式会社 表示装置、システムおよび表示方法
CN115438212A (zh) * 2022-08-22 2022-12-06 蒋耘晨 一种影像投射系统、方法及设备
CN115438212B (zh) * 2022-08-22 2023-03-31 蒋耘晨 一种影像投射系统、方法及设备

Similar Documents

Publication Publication Date Title
US10741167B2 (en) Document mode processing for portable reading machine enabling document navigation
US8676562B2 (en) Communication support apparatus and method
US8036895B2 (en) Cooperative processing for portable reading machine
US8711188B2 (en) Portable reading device with mode processing
US8531494B2 (en) Reducing processing latency in optical character recognition for portable reading machine
JP3725566B2 (ja) 音声認識インターフェース
US7840033B2 (en) Text stitching from multiple images
US7325735B2 (en) Directed reading mode for portable reading machine
US8186581B2 (en) Device and method to assist user in conducting a transaction with a machine
US20150019227A1 (en) System, device and method for processing interlaced multimodal user input
US20100074471A1 (en) Gesture Processing with Low Resolution Images with High Resolution Processing for Optical Character Recognition for a Reading Machine
CN104428770A (zh) 使用自然动作输入的上下文查询调节
JPH11134327A (ja) 電子メモ処理装置、電子メモ処理方法、および電子メモ処理プログラムを記録したコンピュータ読取り可能な記録媒体
US20040044523A1 (en) Information processing apparatus and method, and program
KR20090090613A (ko) 멀티모달 대화형 이미지 관리 시스템 및 방법
US11461681B2 (en) System and method for multi-modality soft-agent for query population and information mining
JP2006065754A (ja) 情報処理装置、情報処理方法及びプログラム
JP2004212895A (ja) 教育支援システム及び方法並びに教育支援用プログラム
JP2001154781A (ja) デスクトップ情報装置
US11978252B2 (en) Communication system, display apparatus, and display control method
JP2000231427A (ja) マルチモーダル情報解析装置
JP2007018290A (ja) 手書き文字入力表示支援装置及び方法並びにプログラム
JP2024001050A (ja) ポインティングに基づく情報提供方法およびシステム
TW201310331A (zh) 多功能事務機及其警示方法
JP2000112610A (ja) コンテンツ表示選択システム及びコンテンツ記録媒体