JPH1011248A

JPH1011248A - 対話制御機能を具備した情報処理装置

Info

Publication number: JPH1011248A
Application number: JP8159964A
Authority: JP
Inventors: Haru Andou; ハル安藤; Nobuo Hataoka; 信夫畑岡
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1996-06-20
Filing date: 1996-06-20
Publication date: 1998-01-16

Abstract

(57)【要約】【課題】システム主導による入力方式とユーザ主導によ
る入力方式のそれぞれの長所を取り入れたユーザインタ
ーフェースを有する情報処理装置を提供する。【解決手段】編集対象となるデータを表示するディスプ
レイ４と、表示画面上の目的の位置を指し示すポインテ
ィング操作を受付けるタッチパネル５と、音声を受付け
るマイク８と、タッチパネル５で得られた位置情報、及
び、マイク８で得られた音声情報に基づいて表示画面上
の表示データを編集する情報処理装置１と、ユーザが行
うべきポインティング操作、及び、ユーザが行うべき発
声動作の何れか一方または両方を促すガイダンス情報を
複数種類記憶するディスク１００と、ポインティング操
作の直前におけるユーザの様子を撮影するビデオカメラ
１０とを備え、情報処理装置１は、更に、撮影情報と音
声情報を用いてユーザがガイダンス情報を望んでいるか
否かを判断し、その上で該ガイダンス情報をユーザに提
示する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、対話制御機能を具
備した情報処理装置に関する。

【０００２】

【従来の技術】近年、情報処理分野におけるユーザイン
ターフェース技術の進展には目覚ましいものがあり、特
に、音声による対話を可能とする対話制御機能に関する
研究・開発が盛んである。このような状況の中、ＯＡ機
器市場には、システムと会話をしながら作業を進めるこ
とができるパソコン、ワークステーション、ワープロ等
が多数回っている。

【０００３】従来の対話制御方式は、例えば次の２種類
に分けることができる。

【０００４】一つは、システム主導方式と呼ばれるもの
で、システムがユーザに対して先に情報を提示し、ユー
ザが、提示された情報に従って情報入力を行なう方式で
ある。図１４の（１）には、システム主導方式での会話
の一例が示されている。このような会話は、ＣＲＴ画面
等に表示された図形をユーザが好みに合わせて編集する
ような場合によく見られ、ここでは、まず、システム側
から「操作したい物を教えて下さい」と音声出力され
る。その後、ユーザは、「これ」と発声しながら、画面
に表示されている対象物等を指し示す。ＣＲＴにタッチ
パネルが装備されているようであれば、タッチパネルを
用いて対象物をポインティングすることとなる。その
後、システムからは、「これをどのように操作します
か」と音声出力される。選んだ対象物の位置を変えたい
場合、ユーザは、「移動」と発声する。この発声内容に
対応して、システムからは、「移動先はどこでしょう
か」と音声出力される。ユーザは、タッチパネル上で対
象物の移動先を指しながら、「ここ」と発声する。

【０００５】以上の指示を受け付けたシステムは、画面
上において、先程の対象物を指定された位置まで移動す
る。

【０００６】二つ目は、ユーザ主導方式と呼ばれるもの
で、ユーザが情報の入力方法を予め習得し、ユーザから
先に情報を入力する方式である。図１４の（２）には、
前述した編集操作をユーザ主導方式で行う場合の会話例
が示されている。ここでは、ユーザは、「これをここに
移動して」と一息で発声しつつ、これと同期して、タッ
チパネル上での対象物の移動指示を行う。これにより、
画面上の対象物が目的の箇所に移動する。

【０００７】

【発明が解決しようとする課題】さて、前述したシステ
ム主導方式では、ユーザが次に行うべき操作を促すダイ
ダンスをシステムが逐一提示してくれるため、システム
を扱い始めて間もない初心者にとっては大変便利な機能
であるが、その一方で、操作方法を習熟したベテランユ
ーザにとっては、煩わしく感じる機能でもある。

【０００８】また、前述したユーザ主導方式では、ベテ
ランユーザの操作性は向上するものの、ユーザがシステ
ムの操作方法を予め学習する必要があるため、初心者に
とっては使いづらい。

【０００９】このようにシステム主導方式とユーザ主導
方式は、その機能に一長一短を有するが、従来の対話制
御機能は、このような点に着目されて発案されてはいな
かった。

【００１０】そこで、本発明では、システム主導方式と
ユーザ主導方式のそれぞれの長所を取り入れた対話制御
機能を具備した情報処理装置を提供することを目的とし
ている。

【００１１】

【課題を解決するための手段】上記目的を達成するため
の本発明の一態様によれば、編集対象となるデータを表
示画面に表示する表示手段と、前記表示画面上の目的の
位置を指し示すポインティング操作を受付ける位置入力
手段と、音声を受付ける音声入力手段と、前記位置入力
手段で得られた位置情報、及び、前記音声入力手段で得
られた音声情報に基づいて前記表示画面上の表示データ
を編集する編集手段と、を備えた情報処理装置におい
て、ユーザが行うべきポインティング操作、及び、ユー
ザが行うべき発声動作の何れか一方または両方を促すガ
イダンス情報を複数種類記憶する記憶手段と、ポインテ
ィング操作の直前におけるユーザの様子を撮影する撮影
手段と、前記撮影手段で得られた撮影情報と、前記音声
入力手段で得られた音声情報を用いて、ユーザがガイダ
ンス情報を望んでいるか否かを判断し、ユーザが該ガイ
ダンス情報を望んでいると判断した場合には、該ガイダ
ンス情報をユーザに提示する情報提示手段と、を備えた
ことを特徴とする情報処理装置が提供される。

【００１２】また、上記目的を達成するための本発明の
その他の態様によれば、表示画面上のユーザの入力位置
を示す位置情報と、ユーザの音声を示す音声情報を用い
て表示画面上の表示データを編集する情報処理装置にお
いて、ユーザの操作が行われたのち、次の操作を促すガ
イダンス情報をユーザに逐一提示する第１の入力モード
と、ユーザの操作が行われたのち、該操作を受付けたこ
とを表す確認情報をユーザに提示するか、若しくは、な
にも応答しない第２の入力モードとを、与えられた指令
に従って選択的に設定する入力モード設定手段と、前記
入力位置を特定しようとするユーザの様子を撮影し、そ
の結果を撮影情報として出力する撮影手段と、前記撮影
情報と前記音声情報を用いて、ユーザが第１の入力モー
ドと第２の入力モードのどちらを望んでいるのかを判断
し、ユーザが望んでいると判断した入力モードを設定す
るよう前記入力モード設定手段に指令を与える制御手段
と、を備えた情報処理装置が提供される。

【００１３】また、上記目的を達成するための本発明の
さらに別の態様によれば、表示画面に表示された複数の
対象物のうちの少なくとも一つについては、ユーザの複
数の入力動作が繰り返されることで編集が完了し、前記
複数の入力動作のうちの少なくとも一つは、表示画面上
の目的の位置を指し示すポインティング操作と、音声に
よる指示動作とが含まれている合成動作である情報処理
装置において、前記ポインティング操作の直前における
ユーザの様子を撮影する撮影手段と、前記音声を受付け
る音声入力手段と、ユーザが行うべき入力動作を促すガ
イダンス情報を複数種類記憶する記憶手段と、前記撮影
手段で得られた撮影情報と、前記音声入力手段で得られ
た音声情報を用いて、前記合成動作の次に行うべき入力
動作のガイダンス情報をユーザに提示すべきか否かを判
断し、提示すべきと判断した場合は、このガイダンス情
報をユーザに提示する情報提示手段と、を備えたことを
特徴とする情報処理装置が提供される。

【００１４】

【発明の実施の形態】以下、本発明を図形編集システム
に適用した場合の一実施形態について図面を参照しなが
ら説明する。

【００１５】図形編集システムは、画像や図形を取り扱
うシステムであり、その種別は、ＣＡＤシステム、画像
処理システム等、多岐にわたるが、ここでは、インテリ
アデザインの効率化を図るインテリアデザイン支援シス
テムを例にとって話しを進める。本実施形態のインテリ
アデザイン支援システムは、図１に示すように、後述す
る各種プログラムを記憶する記憶ディスク１００と、前
記各種プログラムを読み出して実行するための情報処理
装置１及び主記憶装置２と、編集の対象となる図形等を
表示するためのディスプレイ４及び表示制御装置６と、
ディスプレイ４に表示された図形等に対しての、ユーザ
からの手動による各種操作指示を受け付けるタッチパネ
ル５及びパネル制御装置３と、ユーザの体の一部（ここ
では、ユーザの指先）とディスプレイ４の表示画面を同
時に撮影するビデオカメラ１０と、ビデオカメラ１０で
撮影された画像の内容を認識する画像認識装置１２と、
ユーザが発した各種音声による操作指示を受け付けるマ
イク８及びＡ／Ｄ変換装置７と、システムの操作に必要
なガイダンスをユーザに対して音声で伝える音声出力制
御装置１１及びスピーカ９とを有する。タッチパネル５
は、表示画面上の目的の位置を指し示すポインティング
操作をユーザから受付ける装置で、ユーザの指先等が触
れた箇所を入力位置として随時取り込んでいく。

【００１６】ディスク１００には、システムプログラム
１０１、インテリアデザイン支援プログラム１０２、対
話制御プログラム１０３、音声認識プログラム１０４、
ポインティング領域認識プログラム１０５、情報統合プ
ログラム１０６、画像表示プログラム１０７、画像認識
プログラム１０８、音声出力プログラム１０９、音声標
準パタンデータ１１０、単語辞書１１１、及び、文法辞
書１１２が格納されている。これらのプログラムやデー
タは、システム立ち上げ時に、あるいは、必要に応じて
主記憶装置２等にロードされ、以下の機能を実現すべく
情報処理装置１等のＣＰＵで実行される。なお、画像認
識プログラム１０８については、画像認識装置１２のＣ
ＰＵで実行される。

【００１７】システムプログラム１０１は、システムを
構成するハードウエアと、この上で稼働する前述した各
種プログラムとの間に介在して動作する、いわゆるオペ
レーティングシステムとして機能する。インテリアデザ
イン支援プログラム１０２は、部屋の中のインテリアを
設計するにあたって画面上でそのシミュレーションが行
えるよう、仮想的な部屋と、そのインテリアを画面に同
時表示すると共に、表示されたインテリアの色や配置を
ユーザの指示にしたがって変更する。対話制御プログラ
ム１０３は、システムとユーザとの間で行われる対話を
システム主導で進行させていくのか、あるいはユーザ主
導で進行させていくのかを決定する。音声認識プログラ
ム１０４は、ユーザが発した音声を認識するもので、図
２に示すように、マイク８及びＡ／Ｄ変換装置７を通し
て得られた音声情報をデジタル信号へ変換する音声入力
プログラム１０４１と、デジタル化された音声情報を特
徴ベクトルとしてのＬＰＣケプストラム係数の時系列情
報へ変換する特徴抽出プログラム１０４２と、前記特徴
ベクトルで表わされた音声情報を文字列に変換する標準
パタンマッチング処理、及び、前記文字列から編集操作
の具体的な内容を示すコマンド等を決定する辞書マッチ
ング処理を行うパタン照合プログラム１０４３が含まれ
ている。変換する文字列の標準パタンは、音声標準パタ
ンデータ１１０に、編集操作の内容の特定に必要な単語
や文法は、単語辞書１１１及び文法辞書１１２に格納さ
れている。ポインティング領域認識プログラム１０５
は、タッチパネル５及びパネル制御装置３を通して得ら
れたポインティング情報を座標値に変換する。画像認識
プログラム１０８は、ビデオカメラ１０で撮影された画
像を画像認識装置１２にて認識する。情報統合プログラ
ム１０６は、音声認識プログラム１０４、及び、ポイン
ティング領域認識プログラム１０５から出力される各デ
ータを統合する。音声出力プログラム１０９は、ディス
ク１００に格納されている出力音声データベース（図示
省略）から目的の音声出力ファイルを選択し、これを音
声出力制御装置１１に送信する。出力音声データベース
の各音声出力ファイルには、ユーザの操作を促すガイダ
ンス情報が音声波形の形で格納されている。画像表示プ
ログラム１０７は、主にディスプレイ４の描画処理を担
当するプログラムであるが、そのほか、図３に示すよう
に、他のプログラムからコマンドの形で与えられる画像
選択情報をもとに、必要な画像ファイルを記憶ディスク
１００に格納されている画像データベース（図示省略）
の中から選択する画像選択プログラム１０７１と、選択
された画像ファイルの中身をディスプレイ４に表示する
選択画像表示プログラム１０７２を含んでいる。また、
画像表示プログラム１０７は、表示画面の片隅に、ユー
ザが行うべき操作を身振り手振りや表情の変化を交えて
適宜指示する案内人（図４の２６）を登場させる。この
ようなプログラムは、一般に、疑人化エージェントと呼
ばれている。疑人化エージェントは、言うなれば、
「顔」や「感情」が与えられたソフトウエア・モジュー
ルであり、表情、身振り等、複数の情報伝達手段を併用
し、人間との対話を可能とする。また、主記憶装置２に
は、特に図示しないが、後述する各処理で用いられるデ
ータを一時的に格納するワーク領域が設けられている。
このワーク領域には、例えば、タッチパネル５及びパネ
ル制御装置３を介して入力された位置情報や、マイク８
及びＡ／Ｄ変換装置７を介して入力された音声情報をは
じめとする入力情報のほか、該入力情報を用いて決定さ
れた編集の対象図形、対象図形の位置及び大きさ、編集
操作の種類、該編集操作での操作量等、外部に出力する
出力情報も記憶される。

【００１８】以上の構成を有するインテリアデザイン支
援システムでは、ユーザの操作が行われたのち、次の操
作を促すガイダンス情報をユーザに逐一提示するシステ
ム主導型と、ユーザの操作が行われたのち、この操作を
受付けたことを表す確認情報をユーザに提示するユーザ
主導型の２種類の入力モードが必要に応じて選択的に設
定される。設定された各モードでは、画面に表示されて
いる対象物や該対象物の移動先等をタッチパネル５を介
して指示することが可能であり、ユーザは、この指示操
作を行いつつ、対象物や該対象物の移動先を指示する言
葉をマイク８に向かって発声する。タッチパネル５を介
して入力された位置情報や、マイク８を介して入力され
た音声情報は、システムの中で一旦統合され、その後、
この統合された情報をもとに、対象物の選択、選択した
対象物の移動等、編集操作の内容が認識される。そし
て、本実施形態では、システム主導型モードとユーザ主
導型モードの両者の切り替えタイミングについて、ビデ
オカメラ１０で撮影された画像情報を考慮して判断して
いる。

【００１９】以下、このインテリアデザイン支援システ
ムの動作を具体的に説明する。

【００２０】ここでは、前もってユーザが、主記憶装置
２にロードされたインテリアデザイン支援プログラム１
０２を通じて仮想的な部屋を設定すると共に、該部屋内
に配置すべき個々のインテリアに対応する図形を入力し
ており、ディスプレイ４には、それらの図形が図４に示
すような形で表示されている。図４の表示画面では、絵
２１が１個、電灯２２が１個、植木２３が１個、椅子２
４が１個、机２５が２個、主記憶装置２に置かれた図形
描画テーブル（図示省略）に基づいてグラフィックモー
ドで描かれている。図形描画テーブルには、各図形を定
義付けるための図形名や図形番号のほか、各図形の表示
位置及び表示サイズを決定するための変数が格納されて
いる。

【００２１】はじめに、ユーザがシステムと最初の対話
を行ったのちシステム主導型モードが自動的に設定され
る様子について説明する。

【００２２】情報処理装置１は、図４に示した部屋とイ
ンテリアをディスプレイ４に表示すると、先ず、対話制
御プログラム１０３を実行し、この対話制御プログラム
１０３が音声出力プログラム１０９及び音声認識プログ
ラム１０４を起動する。起動された音声出力プログラム
１０９は、ディスク１００に格納されている出力音声デ
ータベース（図示省略）から目的の音声出力ファイルを
選択し、これを音声出力制御装置１１に送信する。この
音声出力ファイル（以下、音声出力ファイルＦ１とす
る）には、例えば、「操作したい物を教えて下さい」を
表す音声波形がデータとして格納されており、スピーカ
９を通して「操作したい物を教えて下さい」が発声され
る。また、これと同時に、表示画面上の案内人２６の動
きも、この発声内容に合わせて変化する。この動作によ
り、ユーザは、あたかも案内人と会話しているかのよう
な感じを受ける。そして、ユーザは、この案内人の指示
にしたがい、画面に表示されている対象物の中から目的
のものを選んでタッチパネル５の上から指で差し、「こ
れ」と発声する。「これ」等の単語を発声したのち、そ
の後、ユーザから何も発声されない場合には、情報処理
装置１は、基本的には、その後の処理をシステム主導型
で進めるという決定を行う。この判断処理の詳細は、後
述することとする。

【００２３】タッチパネル５は、ユーザの指先の位置を
感知し、その位置情報がパネル制御装置３から情報処理
装置１に送られる。なお、ユーザのポインティング操作
の様子や、その直前の指先の動き等は全てビデオカメラ
１０で撮影しており、その画像が画像認識装置１２に随
時送られている。

【００２４】情報処理装置１では、ポインティング領域
認識プログラム１０５が、パネル制御装置３から送られ
た位置情報を座標値に変換すると共に、主記憶装置２上
に確保された特定の領域（以下、変数Ｐとする）をゼロ
リセットする。その後、ポインティング領域認識プログ
ラム１０５は、ユーザの指先がタッチパネル５に触れて
いる間、一定時間間隔でその接触座標を取り込み、座標
を取り込む毎に変数Ｐをインクリメントし、さらに、主
記憶装置２上に確保された、変数Ｐとは異なる領域（配
列Ｘ［Ｐ］、Ｙ［Ｐ］、Ｔ［Ｐ］）に、取り込んだ座標
値と座標入力時刻を格納する。配列Ｘ［Ｐ］、Ｙ
［Ｐ］、Ｔ［Ｐ］は、順に、取り込んだＸ座標、Ｙ座
標、座標入力時刻が格納される。各配列のＰの値は、変
数Ｐと同値である。これらの様子は図５に示されてい
る。このポインティング領域テーブルでは、４００が座
標番号、４０１が座標入力時刻、４０２がＸ座標、４０
３がＹ座標となっており、入力された順序で座標番号１
から格納されていく。この格納は、例えば、１００ｍｓ
毎に行うようにしてもよい。格納の終了タイミングは、
例えば、ユーザの指先がタッチパネル５から離れて一定
時間経過した時点にすればよい。

【００２５】一方、対話制御プログラム１０３に起動さ
れた音声認識プログラム１０４では、先ず、音声入力プ
ログラム１０４１が処理を開始する。音声入力プログラ
ム１０４１は、マイク８及びＡ／Ｄ変換装置７を通して
得られた音声情報をデジタル信号へ変換する。続いて、
特徴抽出プログラム１０４２が起動され、前記ディジタ
ル信号を、例えば１０ｍｓのフレーム周期で、特徴ベク
トルとして、例えば、斉藤、中田「音声情報処理の基
礎」（オーム社、昭５６）記載の変換方法を用いて、Ｌ
ＰＣケプストラム係数の時系列に変換する。ここで、フ
レーム周期は、１０ｍｓに限定されることなく、２０ｍ
ｓ、３０ｍｓ等、必要に応じて任意に設定することが可
能である。その後、パタン照合プログラム１０４３は、
特徴抽出プログラム１０４２で求めた特徴ベクトルと、
それに対応する音声標準パタンとのマッチングを、音声
標準パタンデータ１１０を用いて行い、入力された音声
情報を文字列に変換する。音声標準パタンとのマッチン
グは、例えば、北原他「音声入力による情報検索システ
ムにおける口語文受理方法の検討」（日本音響学会、３
−５−７、平３）に記載されているように、１５次元の
ケプストラムの係数やパワー等を抽出し、ベクトル量子
化した後、正規文法で記述したＨＭＭネットワークで照
合する方法で行う。上記音声標準パタンとのマッチング
の結果、本実施形態の場合、入力された音声情報は、
“これ”という文字列に変換される。さらに、この文字
列は、単語辞書１１１及び文法辞書１１２と照合され、
物称代名詞としての「これ」が認識される。

【００２６】続いて、情報統合プログラム１０６は、ポ
インティング領域認識プログラム１０５が算出した座標
値をもとに、「これ」という発声と共に指し示めされた
対象物が画面上のどの対象物であるのかを判断する。通
常は、算出した座標値と重なる図形がユーザの選んだ図
形であると判断する。選択された対象物については、そ
の表示位置と対象物名を図６に示すような操作内容格納
テーブルに格納する。このテーブルは、主記憶装置２上
に設けられている。ここでは、図４の２つの机２５のう
ち、右側に位置するものが選択されており、その表示位
置は、（８００、２５０）である。

【００２７】次ぎに、音声出力プログラム１０９は、デ
ィスク１００に格納されている出力音声データベースか
ら、先程とは異なる音声出力ファイル（以下、音声出力
ファイルＦ２とする）を選択し、これを音声出力制御装
置１１に送信する。この音声出力ファイルには、例え
ば、「これをどのように操作しますか」を表す音声波形
がデータとして格納されており、スピーカ９を通して
「これをどのように操作しますか」が発声される。ユー
ザは、この声にしたがって、例えば、「移動したい」と
発声する。この音声情報は、対象物（右側の机２５）が
選択されたときと同様に、音声認識プログラム１０４に
て、動詞「移動」が抽出される。抽出された「移動」
は、図７に示すように、操作内容格納テーブルの「操
作」の欄に格納される。その後、音声出力プログラム１
０９は、別の音声出力ファイル（以下、音声出力ファイ
ルＦ３とする）を選択し、スピーカ９を通して「移動先
はどこでしょうか」が発声される。ユーザは、この声に
したがい、「ここ」と発声しながら、タッチパネル５上
で移動先の位置を指示する。このポインティング操作で
指示された位置は、先程と同様にポインティング領域認
識プログラム１０５で座標値として算出される。情報統
合プログラム１０６は、この座標値を操作内容格納テー
ブルの「操作詳細」の欄に格納する（図８参照）。図８
において、移動先のＸ座標は８００で、Ｙ座標は４００
である。操作内容格納テーブルにおいて格納すべき情報
が揃ったら（ここでは、操作番号２の行の各項目の情報
が揃ったら）、情報統合プログラム１０６は、画像表示
プログラム１０７を介して図９に示すような画像をディ
スプレイ４に表示する。

【００２８】つぎに、ユーザがシステムと最初の対話を
行ったのち、ユーザ主導型モードが自動的に設定される
様子について説明する。ここでは、ユーザが、自分が行
うべきポインティング操作と、これに伴う発声内容を予
め知っているものとする。

【００２９】情報処理装置１は、図４に示した部屋とイ
ンテリアをディスプレイ４に表示すると、先ず、対話制
御プログラム１０３を実行し、この対話制御プログラム
１０３が音声出力プログラム１０９及び音声認識プログ
ラム１０４を起動する。起動された音声出力プログラム
１０９は、ディスク１００に格納されている出力音声デ
ータベース（図示省略）から、「操作したい物を教えて
下さい」を表す音声波形がデータとして格納されている
音声出力ファイルＦ１を選択し、これを音声出力制御装
置１１に送信する。これにより、スピーカ９を通して
「操作したい物を教えて下さい」が発声される。この発
声と同時に、表示画面上の案内人２６の動きも、この発
声内容に合わせて変化する。これらの処理については、
先程と同様である。

【００３０】その後、ユーザは、例えば、「これをここ
に移動して」と一気に発声しつつ、これを意図するポイ
ンティング操作を行う。ここで、「これを」と言いなが
ら、図４の右側の机２５を指さし、「ここに」と言いな
がら、移動先の箇所として机２５のやや下方側を指し示
し、最後に、「移動して」と発声すれば、システム主導
型の説明の際に述べたときと同じように、図４の右側の
机２５が図９の位置まで移動する。その後、音声出力プ
ログラム１０９は、ディスク１００に格納されている出
力音声データベースから、「かしこまりました」を表す
音声波形がデータとして格納されている音声出力ファイ
ルＦ４を選択し、これを音声出力制御装置１１に送信す
る。これにより、スピーカ９を通して「かしこまりまし
た」という返事（確認情報）が発せられる。なお、以上
の処理で行われる音声認識動作やポインティング領域認
識動作については、システム主導型の場合と同様である
ため説明を繰り返さない。また、作業時間の短縮を最優
先させる場合等は、ユーザ側に多少不安は残るものの、
先程の確認情報を発しないような仕様にしても構わな
い。

【００３１】このように本実施形態では、ユーザがシス
テムと最初の対話を行ったのち、その会話内容に応じて
ユーザ主導型モードとシステム主導型モードの何れかが
設定されるが、その処理は、図１０のフローチャーにし
たがって行われる。なお、図１０では、既に説明した動
作についても、再確認の意味でＳ１０１〜Ｓ１０５とし
て記載している。

【００３２】ユーザがシステムと対話する際、ビデオカ
メラ１０は、前述したようにディスプレイ４の表示画面
及びその前方を常に撮影しており、ここでのユーザの指
の動きは、ディスプレイ４の表示画面と共に、撮影画像
として画像認識装置１２に逐次取り込まれる。ステップ
１０１（Ｓ１０１）では、画像認識装置１２の画像認識
プログラム１０８が、この撮影画像の内容を認識する。
画像認識プログラム１０８は、取り込んだ撮影画像毎に
色を識別としての認識処理を行い、これをもとにユーザ
の指の動きを把握する。Ｓ１０２では、把握した指の移
動状況（本実施形態では、指の移動距離、及び、指と表
示画面との距離）を画像認識結果テーブルに格納する。
画像認識結果テーブルについては特に図示しないが、主
記憶装置２上に置かれている。また、タッチパネル上で
指示された位置や、この指示と共に発せられた音声は、
Ｓ１０３で入力される。入力された音声は、Ｓ１０４に
おいて音声認識プログラム１０４が認識し、タッチパネ
ル上のポインティング位置は、Ｓ１０５においてポイン
ティング領域認識プログラム１０５が認識する。

【００３３】Ｓ１０６では、音声認識プログラム１０４
が、マイク８及びＡ／Ｄ変換装置７を通して音声情報を
取得し、さらに、取得後の経過時間を測定する。この経
過時間は、すなわち、ユーザの音声が途切れた時間であ
り、音声認識プログラム１０は、この無音区間の長さを
測定する。ここでは、無音区間が２秒以上であるか否か
を判定する。無音区間が２秒より短い場合はＳ１０３の
処理に戻る。

【００３４】一般に、システムを取り扱うユーザは、同
じ操作を何度も繰返していくうちに、その操作方法を習
熟し、本例で言うならば、自分が行うべきポインティン
グ操作と、これに伴う発声内容を覚えていく。したがっ
て、そのようなユーザは、マイク８から「操作したい物
を教えて下さい」と発せられたら、直ちに、「これをこ
こに移動して」といった発声と、そのポインティング操
作を行うことができる。

【００３５】ここで、「これをここに移動して」という
発声の中には、無音区間がほとんど存在していないた
め、この場合は、先程のＳ１０８ののち、Ｓ１０３に戻
ることとなる。この際、システムでは、ユーザがユーザ
主導型を望んでいるものと判断して、ユーザ主導型モー
ドを設定して、その後の処理を進める。例えば、スピー
カ９からは、「かしこまりました」という返事が発せら
れる。

【００３６】一方、Ｓ１０３で無音区間長が２秒以上で
あった場合は、Ｓ１０８の判定処理が行われ、所定の事
項に該当する場合は、Ｓ１０９の判定処理が行われる。
無音区間長が２秒以上である場合、およそ次ぎの２つの
ことが考えられる。

【００３７】一つは、「これを」と発して目的の対象物
を指したのち、これをどのように操作すべきか（たとえ
ば、選んだ対象物をどこへ移動すべきか）について思案
するような場合である。このとき、ユーザは、対象物の
移動先等を探すために、タッチパネルに触れながら、あ
るいはタッチパネルから僅かに離れて、指先をあちらこ
ちらに動かすことが多い。

【００３８】二つめは、「これを」と発して目的の対象
物を指したのち、次の操作を忘れてしまうような場合で
ある。この場合、ユーザは、指先をタッチパネルから離
したまま、その状態で考え込んでしまうことが多い。

【００３９】このようなユーザの挙動に着目し、本実施
形態では、Ｓ１０８、Ｓ１０９にて、ユーザの指先の移
動の程度を判断し、指先が動き回っているようであれ
ば、ユーザがユーザ主導型を望んでいるものとして、シ
ステムを引き続き入力待ち状態にしておき、また、指先
が画面から離れた位置で動かないようであれば、ユーザ
がシステムに対して次の操作のガイダンスを期待してい
るものとして、システム主導の動作（Ｓ１１０、及び、
Ｓ１１１（Ｓ１１２））を実行する。Ｓ１１０では、操
作内容格納テーブルが参照される。操作内容格納テーブ
ルにおいて、図６の様に「操作」の項目が空欄であれ
ば、Ｓ１１１にて、スピーカ９から「これをどのように
操作しますか」が流れる。一方、図７の様に「操作」の
項目にデータ（ここでは「移動」）が入っていれば、Ｓ
１１２にて、スピーカ９から「移動先はどこでしょう
か」が流れる。

【００４０】なお、Ｓ１０８では、具体的には、指の移
動距離が１秒当たり２ｃｍ以下であるかどうかが判断さ
れ、そうであるならば、Ｓ１０９で、画面と指との距離
が５ｃｍ以上であるかどうかが判断される。これらの基
準値は、もちろん一例であり、システムの仕様に合わせ
て変更すればよい。また、本実施形態では、ユーザの指
の動きで、操作時におけるユーザの心理状態を把握して
いるが、これ以外の方法を用いても構わない。

【００４１】また、ユーザは、「これを」と発声したの
ち、例えば、「えーと」や「あのー」等の未知語や不要
語を発する場合もある。そこで、音声認識プログラム１
０４がこれらの未知語や不要語を判断した場合は、先程
と同様、一旦入力待ち状態にし、その後、無音区間長が
２秒以上であるならば、Ｓ１０８に進むようにしても構
わない。

【００４２】以上が本実施形態のインテリアデザイン支
援システムの主な動作であるが、ここで、前述した、画
面に表示されている案内人（図４の２６）には、様々な
役割を持たせることが可能である。

【００４３】例えば、ユーザがシステム主導型で入力作
業を行っている際に、それに対応した、ユーザ主導型で
の入力方法を、案内人２６に提示させるようにしても構
わない。この提示は、ある操作（例えば、対象物の移動
操作）が終了した時点でもよいし、一画面での全ての編
集操作（対象物の移動操作や、対象物への着色操作）が
終了した時点であってもよい。

【００４４】図１１は、ユーザがシステム主導型にて
「これを」、「ここに」、「移動して」と入力した後の
状態であり、画面の案内人２６は、ユーザ主導型におい
てユーザが発声すべき内容である「これをここに移動し
て」をスピーカ９を通して発声しつつ、所定のジェスチ
ャを行っている。このジェスチャは、例えば、「これ
を」と言いながら、その手指を或る対象物（ここでは、
右側の机２５）に向ける等の発声内容に同期した一連の
動作である。これにより、ユーザは、ユーザ主導型にお
ける右側の机２５の移動方法を知ることができる。

【００４５】これらの一連の動作については、図１４の
（３）に示されている。

【００４６】すなわち、図１４の（３）の（移動１）で
は、ユーザがシステム主導型での入力を行っており、同
図の（３）の（移動２−練習）では、ユーザが、この入
力操作に対応したユーザ主導型での入力操作についての
ガイダンスを受けており、同図の（３）の（移動２）で
は、ユーザが実際にこれを実行している。

【００４７】また、案内人２６の声を聞きたくない場
合、あるいは、周囲が騒がしくて案内人２６の声が聞き
取れないような場合は、音声出力に代えて、表示画面へ
の文字列表示を行うようにしても構わない。図１２で
は、「これを」というセリフが画面に表示されつつ、案
内人２６の手指が右側の机２５を指している。その後
は、「ここに」という文字列表示と共に、案内人２６の
手指が移動先の箇所を向き、最後に、「移動して」とい
う文字列表示が為されることとなる。表示文字列は、コ
マンドファイルとして予めディスク１００に複数種格納
されている。対話制御プログラム１０３は、目的に合わ
せてコマンドファイルを選択し、画面表示プログラム１
０７がこれを画面に表示する。

【００４８】また、この文字列表示の際には、ユーザが
ポインティング操作の入力タイミングを簡単に認識でき
るよう、その入力タイミングに合わせて図１３に示すよ
うな矢印を表示してもよい。

【００４９】なお、操作終了時点で毎回、以上説明した
ようなガイダンスが行われた場合、ユーザは、その操作
方法を会得する一方で、次第に煩しさを覚えるようにな
る。そこで、一定回数以上、同じガイダンスが繰り返さ
れた場合には、案内人２６の大きさを縮小していくよう
な仕様にしても構わない。操作回数については、移動、
着色等、操作内容毎にカウントして、所定のテーブルに
格納するようにすればよい。また、一度縮小した案内人
２６をユーザがポインティングした際には、案内人２６
の大きさがもとの大きさに戻るといった拡大／縮小制御
を行ってもかまわない。

【００５０】また、表示画面には、案内人等の人物のほ
か、動物やロボットを登場させても構わない。

【００５１】以上、本発明を図形編集システムに適用し
た場合の一実施形態について説明したが、本発明は、文
書作成システム、表作成システム、情報検索システム、
スケジュール管理システム、伝票管理システム等の様々
な情報処理装置に応用可能である。また、本実施形態で
使用するタッチパネルには、表示画面に表示されている
対象物を指し示すためのポインティングデバイス（例え
ば専用ペン）が付属品として用意されているものを用い
ても構わない。この場合、ユーザの指先の動きに代えて
専用ペンの動きが画像認識装置１２で認識されることと
なる。

【００５２】

【発明の効果】このように本発明によれば、システム主
導で入力が行える入力モードと、ユーザ主導で入力が行
える入力モードとを、ユーザを煩わせることなく自動的
に切り替えることができるようになる。

【図面の簡単な説明】

【図１】本発明が適用された図形編集システムの一実施
形態のシステム構成図。

【図２】図１に示した図形編集システムで稼働する音声
認識プログラムのブロック図。

【図３】図１に示した図形編集システムで稼働する画像
表示プログラムのブロック図。

【図４】図１に示した図形編集システムの図形編集画面
の一例を示した説明図（その１）。

【図５】図１に示した図形編集システムで使用するポイ
ンティング領域テーブルの一例を示した説明図。

【図６】図１に示した図形編集システムで使用する操作
内容格納テーブルの一例を示した説明図（その１）。

【図７】図１に示した図形編集システムで使用する操作
内容格納テーブルの一例を示した説明図（その２）。

【図８】図１に示した図形編集システムで使用する操作
内容格納テーブルの一例を示した説明図（その３）。

【図９】図１に示した図形編集システムの図形編集画面
の一例を示した説明図（その２）。

【図１０】図１に示した図形編集システムの動作の一部
を示したフローチャート。

【図１１】図１に示した図形編集システムで使用するエ
ージェントの動作を含めた図形編集画面の一例を示した
説明図（その１）。

【図１２】図１に示した図形編集システムで使用するエ
ージェントの動作を含めた図形編集画面の一例を示した
説明図（その２）。

【図１３】図１に示した図形編集システムで使用する図
形編集画面において、文字列と共に表示される矢印の一
例を示した説明図。

【図１４】図１に示した図形編集システムで用いる対話
制御機能と、従来の対話制御機能とを比較した説明図。

【符号の説明】１：情報処理装置、２：主記憶装置、３：パネル制
御装置、４：ディスプレイ、５：タッチパネル、
６：表示制御装置、７：A/D変換装置、８：マイ
ク、９：スピーカ、１０：ビデオカメラ、１１：
音声出力制御装置、１２：画像認識装置、２１：
絵、２２：電灯、２３：植木、２４：椅子、２
５：机、２６：代理人、１００：ディスク、１０
１：システムプログラム、１０２：インテリアデザイ
ン支援プログラム、１０３：対話制御プログラム、
１０４：音声認識プログラム、１０５：ポインティン
グ領域認識プログラム、１０６：情報統合プログラ
ム、１０７：画像表示プログラム、１０８：画像認
識プログラム、１０９：音声出力プログラム、１１
０：音声標準パタンデータ、１１１：単語辞書、１
１２：文法辞書、１０４１：音声入力プログラム、
１０４２：特徴抽出プログラム、１０４３：パタン照
合プログラム、１０７１：画像選択プログラム、１
０７２：選択画像表示プログラム

Claims

【特許請求の範囲】

【請求項１】編集対象となるデータを表示画面に表示す
る表示手段と、前記表示画面上の目的の位置を指し示すポインティング
操作を受付ける位置入力手段と、音声を受付ける音声入力手段と、前記位置入力手段で得られた位置情報、及び、前記音声
入力手段で得られた音声情報に基づいて前記表示画面上
の表示データを編集する編集手段と、を備えた情報処理
装置において、ユーザが行うべきポインティング操作、及び、ユーザが
行うべき発声動作の何れか一方または両方を促すガイダ
ンス情報を複数種類記憶する記憶手段と、ポインティング操作の直前におけるユーザの様子を撮影
する撮影手段と、前記撮影手段で得られた撮影情報と、前記音声入力手段
で得られた音声情報を用いて、ユーザがガイダンス情報
を望んでいるか否かを判断し、ユーザが該ガイダンス情
報を望んでいると判断した場合には、該ガイダンス情報
をユーザに提示する情報提示手段と、を備えたことを特
徴とする情報処理装置。
【請求項２】表示画面上のユーザの入力位置を示す位置
情報と、ユーザの音声を示す音声情報を用いて表示画面
上の表示データを編集する情報処理装置において、ユーザの操作が行われたのち、次の操作を促すガイダン
ス情報をユーザに逐一提示する第１の入力モードと、ユ
ーザの操作が行われたのち、該操作を受付けたことを表
す確認情報をユーザに提示するか、若しくは、なにも応
答しない第２の入力モードとを、与えられた指令に従っ
て選択的に設定する入力モード設定手段と、前記入力位置を特定しようとするユーザの様子を撮影
し、その結果を撮影情報として出力する撮影手段と、前記撮影情報と前記音声情報を用いて、ユーザが第１の
入力モードと第２の入力モードのどちらを望んでいるの
かを判断し、ユーザが望んでいると判断した入力モード
を設定するよう前記入力モード設定手段に指令を与える
制御手段と、を備えた情報処理装置。
【請求項３】表示画面に表示された複数の対象物のうち
の少なくとも一つについては、ユーザの複数の入力動作
が繰り返されることで編集が完了し、前記複数の入力動
作のうちの少なくとも一つは、表示画面上の目的の位置
を指し示すポインティング操作と、音声による指示動作
とが含まれている合成動作である情報処理装置におい
て、前記ポインティング操作の直前におけるユーザの様子を
撮影する撮影手段と、前記音声を受付ける音声入力手段と、ユーザが行うべき入力動作を促すガイダンス情報を複数
種類記憶する記憶手段と、前記撮影手段で得られた撮影情報と、前記音声入力手段
で得られた音声情報を用いて、前記合成動作の次に行う
べき入力動作のガイダンス情報をユーザに提示すべきか
否かを判断し、提示すべきと判断した場合は、このガイ
ダンス情報をユーザに提示する情報提示手段と、を備え
たことを特徴とする情報処理装置。
【請求項４】請求項１、２または３において、前記音声情報の入力の有無をもとに、ユーザの発声の合
間である無音区間を検出する無音区間検出手段と、前記撮影情報を用いて、ユーザの体の予め定めた部分ま
たはユーザの持つポインティンデバイスが前記無音区間
中に予め定めた以上動いたか否かを判断する判断手段
と、前記予め定めた部分または前記ポインティンデバイスが
予めた以上動いたと判断された場合には、ユーザがガイ
ダンス情報の提示を望んでいないと判定する判定手段
と、をさらに備えたことを特徴とする情報処理装置。
【請求項５】請求項１、２、３または４において、画面表示及び音声出力の少なくとも一方を用いて前記ガ
イダンス情報を提示する手段をさらに備えたことを特徴
とする情報処理装置。
【請求項６】請求項５において、前記画面表示を、文字列、動画、静止画、または、これ
らの２以上の組合せで行う手段をさらに備えたことを備
えたことを特徴とする情報処理装置。
【請求項７】請求項１、２、３または４おいて、前記ガイダンス情報の音声出力を行うと共に、これに同
期して、ガイダンス情報の内容を表すジェスチャを行う
人物、動物、または、ロボットを画面に表示する手段を
さらに備えたことを特徴とする情報処理装置。
【請求項８】請求項７において、前記ガイダンス情報の利用回数に応じて、前記画面に表
示する前記人物、動物、または、ロボットの大きさ変化
させる手段をさらに備えたことを特徴とする情報処理装
置。