JPH1011248A - 対話制御機能を具備した情報処理装置 - Google Patents

対話制御機能を具備した情報処理装置

Info

Publication number
JPH1011248A
JPH1011248A JP8159964A JP15996496A JPH1011248A JP H1011248 A JPH1011248 A JP H1011248A JP 8159964 A JP8159964 A JP 8159964A JP 15996496 A JP15996496 A JP 15996496A JP H1011248 A JPH1011248 A JP H1011248A
Authority
JP
Japan
Prior art keywords
user
information
voice
input
guidance information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8159964A
Other languages
English (en)
Inventor
Haru Andou
ハル 安藤
Nobuo Hataoka
信夫 畑岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP8159964A priority Critical patent/JPH1011248A/ja
Publication of JPH1011248A publication Critical patent/JPH1011248A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Digital Computer Display Output (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

(57)【要約】 【課題】システム主導による入力方式とユーザ主導によ
る入力方式のそれぞれの長所を取り入れたユーザインタ
ーフェースを有する情報処理装置を提供する。 【解決手段】編集対象となるデータを表示するディスプ
レイ4と、表示画面上の目的の位置を指し示すポインテ
ィング操作を受付けるタッチパネル5と、音声を受付け
るマイク8と、タッチパネル5で得られた位置情報、及
び、マイク8で得られた音声情報に基づいて表示画面上
の表示データを編集する情報処理装置1と、ユーザが行
うべきポインティング操作、及び、ユーザが行うべき発
声動作の何れか一方または両方を促すガイダンス情報を
複数種類記憶するディスク100と、ポインティング操
作の直前におけるユーザの様子を撮影するビデオカメラ
10とを備え、情報処理装置1は、更に、撮影情報と音
声情報を用いてユーザがガイダンス情報を望んでいるか
否かを判断し、その上で該ガイダンス情報をユーザに提
示する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、対話制御機能を具
備した情報処理装置に関する。
【0002】
【従来の技術】近年、情報処理分野におけるユーザイン
ターフェース技術の進展には目覚ましいものがあり、特
に、音声による対話を可能とする対話制御機能に関する
研究・開発が盛んである。このような状況の中、OA機
器市場には、システムと会話をしながら作業を進めるこ
とができるパソコン、ワークステーション、ワープロ等
が多数回っている。
【0003】従来の対話制御方式は、例えば次の2種類
に分けることができる。
【0004】一つは、システム主導方式と呼ばれるもの
で、システムがユーザに対して先に情報を提示し、ユー
ザが、提示された情報に従って情報入力を行なう方式で
ある。図14の(1)には、システム主導方式での会話
の一例が示されている。このような会話は、CRT画面
等に表示された図形をユーザが好みに合わせて編集する
ような場合によく見られ、ここでは、まず、システム側
から「操作したい物を教えて下さい」と音声出力され
る。その後、ユーザは、「これ」と発声しながら、画面
に表示されている対象物等を指し示す。CRTにタッチ
パネルが装備されているようであれば、タッチパネルを
用いて対象物をポインティングすることとなる。その
後、システムからは、「これをどのように操作します
か」と音声出力される。選んだ対象物の位置を変えたい
場合、ユーザは、「移動」と発声する。この発声内容に
対応して、システムからは、「移動先はどこでしょう
か」と音声出力される。ユーザは、タッチパネル上で対
象物の移動先を指しながら、「ここ」と発声する。
【0005】以上の指示を受け付けたシステムは、画面
上において、先程の対象物を指定された位置まで移動す
る。
【0006】二つ目は、ユーザ主導方式と呼ばれるもの
で、ユーザが情報の入力方法を予め習得し、ユーザから
先に情報を入力する方式である。図14の(2)には、
前述した編集操作をユーザ主導方式で行う場合の会話例
が示されている。ここでは、ユーザは、「これをここに
移動して」と一息で発声しつつ、これと同期して、タッ
チパネル上での対象物の移動指示を行う。これにより、
画面上の対象物が目的の箇所に移動する。
【0007】
【発明が解決しようとする課題】さて、前述したシステ
ム主導方式では、ユーザが次に行うべき操作を促すダイ
ダンスをシステムが逐一提示してくれるため、システム
を扱い始めて間もない初心者にとっては大変便利な機能
であるが、その一方で、操作方法を習熟したベテランユ
ーザにとっては、煩わしく感じる機能でもある。
【0008】また、前述したユーザ主導方式では、ベテ
ランユーザの操作性は向上するものの、ユーザがシステ
ムの操作方法を予め学習する必要があるため、初心者に
とっては使いづらい。
【0009】このようにシステム主導方式とユーザ主導
方式は、その機能に一長一短を有するが、従来の対話制
御機能は、このような点に着目されて発案されてはいな
かった。
【0010】そこで、本発明では、システム主導方式と
ユーザ主導方式のそれぞれの長所を取り入れた対話制御
機能を具備した情報処理装置を提供することを目的とし
ている。
【0011】
【課題を解決するための手段】上記目的を達成するため
の本発明の一態様によれば、編集対象となるデータを表
示画面に表示する表示手段と、前記表示画面上の目的の
位置を指し示すポインティング操作を受付ける位置入力
手段と、音声を受付ける音声入力手段と、前記位置入力
手段で得られた位置情報、及び、前記音声入力手段で得
られた音声情報に基づいて前記表示画面上の表示データ
を編集する編集手段と、を備えた情報処理装置におい
て、ユーザが行うべきポインティング操作、及び、ユー
ザが行うべき発声動作の何れか一方または両方を促すガ
イダンス情報を複数種類記憶する記憶手段と、ポインテ
ィング操作の直前におけるユーザの様子を撮影する撮影
手段と、前記撮影手段で得られた撮影情報と、前記音声
入力手段で得られた音声情報を用いて、ユーザがガイダ
ンス情報を望んでいるか否かを判断し、ユーザが該ガイ
ダンス情報を望んでいると判断した場合には、該ガイダ
ンス情報をユーザに提示する情報提示手段と、を備えた
ことを特徴とする情報処理装置が提供される。
【0012】また、上記目的を達成するための本発明の
その他の態様によれば、表示画面上のユーザの入力位置
を示す位置情報と、ユーザの音声を示す音声情報を用い
て表示画面上の表示データを編集する情報処理装置にお
いて、ユーザの操作が行われたのち、次の操作を促すガ
イダンス情報をユーザに逐一提示する第1の入力モード
と、ユーザの操作が行われたのち、該操作を受付けたこ
とを表す確認情報をユーザに提示するか、若しくは、な
にも応答しない第2の入力モードとを、与えられた指令
に従って選択的に設定する入力モード設定手段と、前記
入力位置を特定しようとするユーザの様子を撮影し、そ
の結果を撮影情報として出力する撮影手段と、前記撮影
情報と前記音声情報を用いて、ユーザが第1の入力モー
ドと第2の入力モードのどちらを望んでいるのかを判断
し、ユーザが望んでいると判断した入力モードを設定す
るよう前記入力モード設定手段に指令を与える制御手段
と、を備えた情報処理装置が提供される。
【0013】また、上記目的を達成するための本発明の
さらに別の態様によれば、表示画面に表示された複数の
対象物のうちの少なくとも一つについては、ユーザの複
数の入力動作が繰り返されることで編集が完了し、前記
複数の入力動作のうちの少なくとも一つは、表示画面上
の目的の位置を指し示すポインティング操作と、音声に
よる指示動作とが含まれている合成動作である情報処理
装置において、前記ポインティング操作の直前における
ユーザの様子を撮影する撮影手段と、前記音声を受付け
る音声入力手段と、ユーザが行うべき入力動作を促すガ
イダンス情報を複数種類記憶する記憶手段と、前記撮影
手段で得られた撮影情報と、前記音声入力手段で得られ
た音声情報を用いて、前記合成動作の次に行うべき入力
動作のガイダンス情報をユーザに提示すべきか否かを判
断し、提示すべきと判断した場合は、このガイダンス情
報をユーザに提示する情報提示手段と、を備えたことを
特徴とする情報処理装置が提供される。
【0014】
【発明の実施の形態】以下、本発明を図形編集システム
に適用した場合の一実施形態について図面を参照しなが
ら説明する。
【0015】図形編集システムは、画像や図形を取り扱
うシステムであり、その種別は、CADシステム、画像
処理システム等、多岐にわたるが、ここでは、インテリ
アデザインの効率化を図るインテリアデザイン支援シス
テムを例にとって話しを進める。本実施形態のインテリ
アデザイン支援システムは、図1に示すように、後述す
る各種プログラムを記憶する記憶ディスク100と、前
記各種プログラムを読み出して実行するための情報処理
装置1及び主記憶装置2と、編集の対象となる図形等を
表示するためのディスプレイ4及び表示制御装置6と、
ディスプレイ4に表示された図形等に対しての、ユーザ
からの手動による各種操作指示を受け付けるタッチパネ
ル5及びパネル制御装置3と、ユーザの体の一部(ここ
では、ユーザの指先)とディスプレイ4の表示画面を同
時に撮影するビデオカメラ10と、ビデオカメラ10で
撮影された画像の内容を認識する画像認識装置12と、
ユーザが発した各種音声による操作指示を受け付けるマ
イク8及びA/D変換装置7と、システムの操作に必要
なガイダンスをユーザに対して音声で伝える音声出力制
御装置11及びスピーカ9とを有する。タッチパネル5
は、表示画面上の目的の位置を指し示すポインティング
操作をユーザから受付ける装置で、ユーザの指先等が触
れた箇所を入力位置として随時取り込んでいく。
【0016】ディスク100には、システムプログラム
101、インテリアデザイン支援プログラム102、対
話制御プログラム103、音声認識プログラム104、
ポインティング領域認識プログラム105、情報統合プ
ログラム106、画像表示プログラム107、画像認識
プログラム108、音声出力プログラム109、音声標
準パタンデータ110、単語辞書111、及び、文法辞
書112が格納されている。これらのプログラムやデー
タは、システム立ち上げ時に、あるいは、必要に応じて
主記憶装置2等にロードされ、以下の機能を実現すべく
情報処理装置1等のCPUで実行される。なお、画像認
識プログラム108については、画像認識装置12のC
PUで実行される。
【0017】システムプログラム101は、システムを
構成するハードウエアと、この上で稼働する前述した各
種プログラムとの間に介在して動作する、いわゆるオペ
レーティングシステムとして機能する。インテリアデザ
イン支援プログラム102は、部屋の中のインテリアを
設計するにあたって画面上でそのシミュレーションが行
えるよう、仮想的な部屋と、そのインテリアを画面に同
時表示すると共に、表示されたインテリアの色や配置を
ユーザの指示にしたがって変更する。対話制御プログラ
ム103は、システムとユーザとの間で行われる対話を
システム主導で進行させていくのか、あるいはユーザ主
導で進行させていくのかを決定する。音声認識プログラ
ム104は、ユーザが発した音声を認識するもので、図
2に示すように、マイク8及びA/D変換装置7を通し
て得られた音声情報をデジタル信号へ変換する音声入力
プログラム1041と、デジタル化された音声情報を特
徴ベクトルとしてのLPCケプストラム係数の時系列情
報へ変換する特徴抽出プログラム1042と、前記特徴
ベクトルで表わされた音声情報を文字列に変換する標準
パタンマッチング処理、及び、前記文字列から編集操作
の具体的な内容を示すコマンド等を決定する辞書マッチ
ング処理を行うパタン照合プログラム1043が含まれ
ている。変換する文字列の標準パタンは、音声標準パタ
ンデータ110に、編集操作の内容の特定に必要な単語
や文法は、単語辞書111及び文法辞書112に格納さ
れている。ポインティング領域認識プログラム105
は、タッチパネル5及びパネル制御装置3を通して得ら
れたポインティング情報を座標値に変換する。画像認識
プログラム108は、ビデオカメラ10で撮影された画
像を画像認識装置12にて認識する。情報統合プログラ
ム106は、音声認識プログラム104、及び、ポイン
ティング領域認識プログラム105から出力される各デ
ータを統合する。音声出力プログラム109は、ディス
ク100に格納されている出力音声データベース(図示
省略)から目的の音声出力ファイルを選択し、これを音
声出力制御装置11に送信する。出力音声データベース
の各音声出力ファイルには、ユーザの操作を促すガイダ
ンス情報が音声波形の形で格納されている。画像表示プ
ログラム107は、主にディスプレイ4の描画処理を担
当するプログラムであるが、そのほか、図3に示すよう
に、他のプログラムからコマンドの形で与えられる画像
選択情報をもとに、必要な画像ファイルを記憶ディスク
100に格納されている画像データベース(図示省略)
の中から選択する画像選択プログラム1071と、選択
された画像ファイルの中身をディスプレイ4に表示する
選択画像表示プログラム1072を含んでいる。また、
画像表示プログラム107は、表示画面の片隅に、ユー
ザが行うべき操作を身振り手振りや表情の変化を交えて
適宜指示する案内人(図4の26)を登場させる。この
ようなプログラムは、一般に、疑人化エージェントと呼
ばれている。疑人化エージェントは、言うなれば、
「顔」や「感情」が与えられたソフトウエア・モジュー
ルであり、表情、身振り等、複数の情報伝達手段を併用
し、人間との対話を可能とする。また、主記憶装置2に
は、特に図示しないが、後述する各処理で用いられるデ
ータを一時的に格納するワーク領域が設けられている。
このワーク領域には、例えば、タッチパネル5及びパネ
ル制御装置3を介して入力された位置情報や、マイク8
及びA/D変換装置7を介して入力された音声情報をは
じめとする入力情報のほか、該入力情報を用いて決定さ
れた編集の対象図形、対象図形の位置及び大きさ、編集
操作の種類、該編集操作での操作量等、外部に出力する
出力情報も記憶される。
【0018】以上の構成を有するインテリアデザイン支
援システムでは、ユーザの操作が行われたのち、次の操
作を促すガイダンス情報をユーザに逐一提示するシステ
ム主導型と、ユーザの操作が行われたのち、この操作を
受付けたことを表す確認情報をユーザに提示するユーザ
主導型の2種類の入力モードが必要に応じて選択的に設
定される。設定された各モードでは、画面に表示されて
いる対象物や該対象物の移動先等をタッチパネル5を介
して指示することが可能であり、ユーザは、この指示操
作を行いつつ、対象物や該対象物の移動先を指示する言
葉をマイク8に向かって発声する。タッチパネル5を介
して入力された位置情報や、マイク8を介して入力され
た音声情報は、システムの中で一旦統合され、その後、
この統合された情報をもとに、対象物の選択、選択した
対象物の移動等、編集操作の内容が認識される。そし
て、本実施形態では、システム主導型モードとユーザ主
導型モードの両者の切り替えタイミングについて、ビデ
オカメラ10で撮影された画像情報を考慮して判断して
いる。
【0019】以下、このインテリアデザイン支援システ
ムの動作を具体的に説明する。
【0020】ここでは、前もってユーザが、主記憶装置
2にロードされたインテリアデザイン支援プログラム1
02を通じて仮想的な部屋を設定すると共に、該部屋内
に配置すべき個々のインテリアに対応する図形を入力し
ており、ディスプレイ4には、それらの図形が図4に示
すような形で表示されている。図4の表示画面では、絵
21が1個、電灯22が1個、植木23が1個、椅子2
4が1個、机25が2個、主記憶装置2に置かれた図形
描画テーブル(図示省略)に基づいてグラフィックモー
ドで描かれている。図形描画テーブルには、各図形を定
義付けるための図形名や図形番号のほか、各図形の表示
位置及び表示サイズを決定するための変数が格納されて
いる。
【0021】はじめに、ユーザがシステムと最初の対話
を行ったのちシステム主導型モードが自動的に設定され
る様子について説明する。
【0022】情報処理装置1は、図4に示した部屋とイ
ンテリアをディスプレイ4に表示すると、先ず、対話制
御プログラム103を実行し、この対話制御プログラム
103が音声出力プログラム109及び音声認識プログ
ラム104を起動する。起動された音声出力プログラム
109は、ディスク100に格納されている出力音声デ
ータベース(図示省略)から目的の音声出力ファイルを
選択し、これを音声出力制御装置11に送信する。この
音声出力ファイル(以下、音声出力ファイルF1とす
る)には、例えば、「操作したい物を教えて下さい」を
表す音声波形がデータとして格納されており、スピーカ
9を通して「操作したい物を教えて下さい」が発声され
る。また、これと同時に、表示画面上の案内人26の動
きも、この発声内容に合わせて変化する。この動作によ
り、ユーザは、あたかも案内人と会話しているかのよう
な感じを受ける。そして、ユーザは、この案内人の指示
にしたがい、画面に表示されている対象物の中から目的
のものを選んでタッチパネル5の上から指で差し、「こ
れ」と発声する。「これ」等の単語を発声したのち、そ
の後、ユーザから何も発声されない場合には、情報処理
装置1は、基本的には、その後の処理をシステム主導型
で進めるという決定を行う。この判断処理の詳細は、後
述することとする。
【0023】タッチパネル5は、ユーザの指先の位置を
感知し、その位置情報がパネル制御装置3から情報処理
装置1に送られる。なお、ユーザのポインティング操作
の様子や、その直前の指先の動き等は全てビデオカメラ
10で撮影しており、その画像が画像認識装置12に随
時送られている。
【0024】情報処理装置1では、ポインティング領域
認識プログラム105が、パネル制御装置3から送られ
た位置情報を座標値に変換すると共に、主記憶装置2上
に確保された特定の領域(以下、変数Pとする)をゼロ
リセットする。その後、ポインティング領域認識プログ
ラム105は、ユーザの指先がタッチパネル5に触れて
いる間、一定時間間隔でその接触座標を取り込み、座標
を取り込む毎に変数Pをインクリメントし、さらに、主
記憶装置2上に確保された、変数Pとは異なる領域(配
列X[P]、Y[P]、T[P])に、取り込んだ座標
値と座標入力時刻を格納する。配列X[P]、Y
[P]、T[P]は、順に、取り込んだX座標、Y座
標、座標入力時刻が格納される。各配列のPの値は、変
数Pと同値である。これらの様子は図5に示されてい
る。このポインティング領域テーブルでは、400が座
標番号、401が座標入力時刻、402がX座標、40
3がY座標となっており、入力された順序で座標番号1
から格納されていく。この格納は、例えば、100ms
毎に行うようにしてもよい。格納の終了タイミングは、
例えば、ユーザの指先がタッチパネル5から離れて一定
時間経過した時点にすればよい。
【0025】一方、対話制御プログラム103に起動さ
れた音声認識プログラム104では、先ず、音声入力プ
ログラム1041が処理を開始する。音声入力プログラ
ム1041は、マイク8及びA/D変換装置7を通して
得られた音声情報をデジタル信号へ変換する。続いて、
特徴抽出プログラム1042が起動され、前記ディジタ
ル信号を、例えば10msのフレーム周期で、特徴ベク
トルとして、例えば、斉藤、中田「音声情報処理の基
礎」(オーム社、昭56)記載の変換方法を用いて、L
PCケプストラム係数の時系列に変換する。ここで、フ
レーム周期は、10msに限定されることなく、20m
s、30ms等、必要に応じて任意に設定することが可
能である。その後、パタン照合プログラム1043は、
特徴抽出プログラム1042で求めた特徴ベクトルと、
それに対応する音声標準パタンとのマッチングを、音声
標準パタンデータ110を用いて行い、入力された音声
情報を文字列に変換する。音声標準パタンとのマッチン
グは、例えば、北原他「音声入力による情報検索システ
ムにおける口語文受理方法の検討」(日本音響学会、3
−5−7、平3)に記載されているように、15次元の
ケプストラムの係数やパワー等を抽出し、ベクトル量子
化した後、正規文法で記述したHMMネットワークで照
合する方法で行う。上記音声標準パタンとのマッチング
の結果、本実施形態の場合、入力された音声情報は、
“これ”という文字列に変換される。さらに、この文字
列は、単語辞書111及び文法辞書112と照合され、
物称代名詞としての「これ」が認識される。
【0026】続いて、情報統合プログラム106は、ポ
インティング領域認識プログラム105が算出した座標
値をもとに、「これ」という発声と共に指し示めされた
対象物が画面上のどの対象物であるのかを判断する。通
常は、算出した座標値と重なる図形がユーザの選んだ図
形であると判断する。選択された対象物については、そ
の表示位置と対象物名を図6に示すような操作内容格納
テーブルに格納する。このテーブルは、主記憶装置2上
に設けられている。ここでは、図4の2つの机25のう
ち、右側に位置するものが選択されており、その表示位
置は、(800、250)である。
【0027】次ぎに、音声出力プログラム109は、デ
ィスク100に格納されている出力音声データベースか
ら、先程とは異なる音声出力ファイル(以下、音声出力
ファイルF2とする)を選択し、これを音声出力制御装
置11に送信する。この音声出力ファイルには、例え
ば、「これをどのように操作しますか」を表す音声波形
がデータとして格納されており、スピーカ9を通して
「これをどのように操作しますか」が発声される。ユー
ザは、この声にしたがって、例えば、「移動したい」と
発声する。この音声情報は、対象物(右側の机25)が
選択されたときと同様に、音声認識プログラム104に
て、動詞「移動」が抽出される。抽出された「移動」
は、図7に示すように、操作内容格納テーブルの「操
作」の欄に格納される。その後、音声出力プログラム1
09は、別の音声出力ファイル(以下、音声出力ファイ
ルF3とする)を選択し、スピーカ9を通して「移動先
はどこでしょうか」が発声される。ユーザは、この声に
したがい、「ここ」と発声しながら、タッチパネル5上
で移動先の位置を指示する。このポインティング操作で
指示された位置は、先程と同様にポインティング領域認
識プログラム105で座標値として算出される。情報統
合プログラム106は、この座標値を操作内容格納テー
ブルの「操作詳細」の欄に格納する(図8参照)。図8
において、移動先のX座標は800で、Y座標は400
である。操作内容格納テーブルにおいて格納すべき情報
が揃ったら(ここでは、操作番号2の行の各項目の情報
が揃ったら)、情報統合プログラム106は、画像表示
プログラム107を介して図9に示すような画像をディ
スプレイ4に表示する。
【0028】つぎに、ユーザがシステムと最初の対話を
行ったのち、ユーザ主導型モードが自動的に設定される
様子について説明する。ここでは、ユーザが、自分が行
うべきポインティング操作と、これに伴う発声内容を予
め知っているものとする。
【0029】情報処理装置1は、図4に示した部屋とイ
ンテリアをディスプレイ4に表示すると、先ず、対話制
御プログラム103を実行し、この対話制御プログラム
103が音声出力プログラム109及び音声認識プログ
ラム104を起動する。起動された音声出力プログラム
109は、ディスク100に格納されている出力音声デ
ータベース(図示省略)から、「操作したい物を教えて
下さい」を表す音声波形がデータとして格納されている
音声出力ファイルF1を選択し、これを音声出力制御装
置11に送信する。これにより、スピーカ9を通して
「操作したい物を教えて下さい」が発声される。この発
声と同時に、表示画面上の案内人26の動きも、この発
声内容に合わせて変化する。これらの処理については、
先程と同様である。
【0030】その後、ユーザは、例えば、「これをここ
に移動して」と一気に発声しつつ、これを意図するポイ
ンティング操作を行う。ここで、「これを」と言いなが
ら、図4の右側の机25を指さし、「ここに」と言いな
がら、移動先の箇所として机25のやや下方側を指し示
し、最後に、「移動して」と発声すれば、システム主導
型の説明の際に述べたときと同じように、図4の右側の
机25が図9の位置まで移動する。その後、音声出力プ
ログラム109は、ディスク100に格納されている出
力音声データベースから、「かしこまりました」を表す
音声波形がデータとして格納されている音声出力ファイ
ルF4を選択し、これを音声出力制御装置11に送信す
る。これにより、スピーカ9を通して「かしこまりまし
た」という返事(確認情報)が発せられる。なお、以上
の処理で行われる音声認識動作やポインティング領域認
識動作については、システム主導型の場合と同様である
ため説明を繰り返さない。また、作業時間の短縮を最優
先させる場合等は、ユーザ側に多少不安は残るものの、
先程の確認情報を発しないような仕様にしても構わな
い。
【0031】このように本実施形態では、ユーザがシス
テムと最初の対話を行ったのち、その会話内容に応じて
ユーザ主導型モードとシステム主導型モードの何れかが
設定されるが、その処理は、図10のフローチャーにし
たがって行われる。なお、図10では、既に説明した動
作についても、再確認の意味でS101〜S105とし
て記載している。
【0032】ユーザがシステムと対話する際、ビデオカ
メラ10は、前述したようにディスプレイ4の表示画面
及びその前方を常に撮影しており、ここでのユーザの指
の動きは、ディスプレイ4の表示画面と共に、撮影画像
として画像認識装置12に逐次取り込まれる。ステップ
101(S101)では、画像認識装置12の画像認識
プログラム108が、この撮影画像の内容を認識する。
画像認識プログラム108は、取り込んだ撮影画像毎に
色を識別としての認識処理を行い、これをもとにユーザ
の指の動きを把握する。S102では、把握した指の移
動状況(本実施形態では、指の移動距離、及び、指と表
示画面との距離)を画像認識結果テーブルに格納する。
画像認識結果テーブルについては特に図示しないが、主
記憶装置2上に置かれている。また、タッチパネル上で
指示された位置や、この指示と共に発せられた音声は、
S103で入力される。入力された音声は、S104に
おいて音声認識プログラム104が認識し、タッチパネ
ル上のポインティング位置は、S105においてポイン
ティング領域認識プログラム105が認識する。
【0033】S106では、音声認識プログラム104
が、マイク8及びA/D変換装置7を通して音声情報を
取得し、さらに、取得後の経過時間を測定する。この経
過時間は、すなわち、ユーザの音声が途切れた時間であ
り、音声認識プログラム10は、この無音区間の長さを
測定する。ここでは、無音区間が2秒以上であるか否か
を判定する。無音区間が2秒より短い場合はS103の
処理に戻る。
【0034】一般に、システムを取り扱うユーザは、同
じ操作を何度も繰返していくうちに、その操作方法を習
熟し、本例で言うならば、自分が行うべきポインティン
グ操作と、これに伴う発声内容を覚えていく。したがっ
て、そのようなユーザは、マイク8から「操作したい物
を教えて下さい」と発せられたら、直ちに、「これをこ
こに移動して」といった発声と、そのポインティング操
作を行うことができる。
【0035】ここで、「これをここに移動して」という
発声の中には、無音区間がほとんど存在していないた
め、この場合は、先程のS108ののち、S103に戻
ることとなる。この際、システムでは、ユーザがユーザ
主導型を望んでいるものと判断して、ユーザ主導型モー
ドを設定して、その後の処理を進める。例えば、スピー
カ9からは、「かしこまりました」という返事が発せら
れる。
【0036】一方、S103で無音区間長が2秒以上で
あった場合は、S108の判定処理が行われ、所定の事
項に該当する場合は、S109の判定処理が行われる。
無音区間長が2秒以上である場合、およそ次ぎの2つの
ことが考えられる。
【0037】一つは、「これを」と発して目的の対象物
を指したのち、これをどのように操作すべきか(たとえ
ば、選んだ対象物をどこへ移動すべきか)について思案
するような場合である。このとき、ユーザは、対象物の
移動先等を探すために、タッチパネルに触れながら、あ
るいはタッチパネルから僅かに離れて、指先をあちらこ
ちらに動かすことが多い。
【0038】二つめは、「これを」と発して目的の対象
物を指したのち、次の操作を忘れてしまうような場合で
ある。この場合、ユーザは、指先をタッチパネルから離
したまま、その状態で考え込んでしまうことが多い。
【0039】このようなユーザの挙動に着目し、本実施
形態では、S108、S109にて、ユーザの指先の移
動の程度を判断し、指先が動き回っているようであれ
ば、ユーザがユーザ主導型を望んでいるものとして、シ
ステムを引き続き入力待ち状態にしておき、また、指先
が画面から離れた位置で動かないようであれば、ユーザ
がシステムに対して次の操作のガイダンスを期待してい
るものとして、システム主導の動作(S110、及び、
S111(S112))を実行する。S110では、操
作内容格納テーブルが参照される。操作内容格納テーブ
ルにおいて、図6の様に「操作」の項目が空欄であれ
ば、S111にて、スピーカ9から「これをどのように
操作しますか」が流れる。一方、図7の様に「操作」の
項目にデータ(ここでは「移動」)が入っていれば、S
112にて、スピーカ9から「移動先はどこでしょう
か」が流れる。
【0040】なお、S108では、具体的には、指の移
動距離が1秒当たり2cm以下であるかどうかが判断さ
れ、そうであるならば、S109で、画面と指との距離
が5cm以上であるかどうかが判断される。これらの基
準値は、もちろん一例であり、システムの仕様に合わせ
て変更すればよい。また、本実施形態では、ユーザの指
の動きで、操作時におけるユーザの心理状態を把握して
いるが、これ以外の方法を用いても構わない。
【0041】また、ユーザは、「これを」と発声したの
ち、例えば、「えーと」や「あのー」等の未知語や不要
語を発する場合もある。そこで、音声認識プログラム1
04がこれらの未知語や不要語を判断した場合は、先程
と同様、一旦入力待ち状態にし、その後、無音区間長が
2秒以上であるならば、S108に進むようにしても構
わない。
【0042】以上が本実施形態のインテリアデザイン支
援システムの主な動作であるが、ここで、前述した、画
面に表示されている案内人(図4の26)には、様々な
役割を持たせることが可能である。
【0043】例えば、ユーザがシステム主導型で入力作
業を行っている際に、それに対応した、ユーザ主導型で
の入力方法を、案内人26に提示させるようにしても構
わない。この提示は、ある操作(例えば、対象物の移動
操作)が終了した時点でもよいし、一画面での全ての編
集操作(対象物の移動操作や、対象物への着色操作)が
終了した時点であってもよい。
【0044】図11は、ユーザがシステム主導型にて
「これを」、「ここに」、「移動して」と入力した後の
状態であり、画面の案内人26は、ユーザ主導型におい
てユーザが発声すべき内容である「これをここに移動し
て」をスピーカ9を通して発声しつつ、所定のジェスチ
ャを行っている。このジェスチャは、例えば、「これ
を」と言いながら、その手指を或る対象物(ここでは、
右側の机25)に向ける等の発声内容に同期した一連の
動作である。これにより、ユーザは、ユーザ主導型にお
ける右側の机25の移動方法を知ることができる。
【0045】これらの一連の動作については、図14の
(3)に示されている。
【0046】すなわち、図14の(3)の(移動1)で
は、ユーザがシステム主導型での入力を行っており、同
図の(3)の(移動2−練習)では、ユーザが、この入
力操作に対応したユーザ主導型での入力操作についての
ガイダンスを受けており、同図の(3)の(移動2)で
は、ユーザが実際にこれを実行している。
【0047】また、案内人26の声を聞きたくない場
合、あるいは、周囲が騒がしくて案内人26の声が聞き
取れないような場合は、音声出力に代えて、表示画面へ
の文字列表示を行うようにしても構わない。図12で
は、「これを」というセリフが画面に表示されつつ、案
内人26の手指が右側の机25を指している。その後
は、「ここに」という文字列表示と共に、案内人26の
手指が移動先の箇所を向き、最後に、「移動して」とい
う文字列表示が為されることとなる。表示文字列は、コ
マンドファイルとして予めディスク100に複数種格納
されている。対話制御プログラム103は、目的に合わ
せてコマンドファイルを選択し、画面表示プログラム1
07がこれを画面に表示する。
【0048】また、この文字列表示の際には、ユーザが
ポインティング操作の入力タイミングを簡単に認識でき
るよう、その入力タイミングに合わせて図13に示すよ
うな矢印を表示してもよい。
【0049】なお、操作終了時点で毎回、以上説明した
ようなガイダンスが行われた場合、ユーザは、その操作
方法を会得する一方で、次第に煩しさを覚えるようにな
る。そこで、一定回数以上、同じガイダンスが繰り返さ
れた場合には、案内人26の大きさを縮小していくよう
な仕様にしても構わない。操作回数については、移動、
着色等、操作内容毎にカウントして、所定のテーブルに
格納するようにすればよい。また、一度縮小した案内人
26をユーザがポインティングした際には、案内人26
の大きさがもとの大きさに戻るといった拡大/縮小制御
を行ってもかまわない。
【0050】また、表示画面には、案内人等の人物のほ
か、動物やロボットを登場させても構わない。
【0051】以上、本発明を図形編集システムに適用し
た場合の一実施形態について説明したが、本発明は、文
書作成システム、表作成システム、情報検索システム、
スケジュール管理システム、伝票管理システム等の様々
な情報処理装置に応用可能である。また、本実施形態で
使用するタッチパネルには、表示画面に表示されている
対象物を指し示すためのポインティングデバイス(例え
ば専用ペン)が付属品として用意されているものを用い
ても構わない。この場合、ユーザの指先の動きに代えて
専用ペンの動きが画像認識装置12で認識されることと
なる。
【0052】
【発明の効果】このように本発明によれば、システム主
導で入力が行える入力モードと、ユーザ主導で入力が行
える入力モードとを、ユーザを煩わせることなく自動的
に切り替えることができるようになる。
【図面の簡単な説明】
【図1】本発明が適用された図形編集システムの一実施
形態のシステム構成図。
【図2】図1に示した図形編集システムで稼働する音声
認識プログラムのブロック図。
【図3】図1に示した図形編集システムで稼働する画像
表示プログラムのブロック図。
【図4】図1に示した図形編集システムの図形編集画面
の一例を示した説明図(その1)。
【図5】図1に示した図形編集システムで使用するポイ
ンティング領域テーブルの一例を示した説明図。
【図6】図1に示した図形編集システムで使用する操作
内容格納テーブルの一例を示した説明図(その1)。
【図7】図1に示した図形編集システムで使用する操作
内容格納テーブルの一例を示した説明図(その2)。
【図8】図1に示した図形編集システムで使用する操作
内容格納テーブルの一例を示した説明図(その3)。
【図9】図1に示した図形編集システムの図形編集画面
の一例を示した説明図(その2)。
【図10】図1に示した図形編集システムの動作の一部
を示したフローチャート。
【図11】図1に示した図形編集システムで使用するエ
ージェントの動作を含めた図形編集画面の一例を示した
説明図(その1)。
【図12】図1に示した図形編集システムで使用するエ
ージェントの動作を含めた図形編集画面の一例を示した
説明図(その2)。
【図13】図1に示した図形編集システムで使用する図
形編集画面において、文字列と共に表示される矢印の一
例を示した説明図。
【図14】図1に示した図形編集システムで用いる対話
制御機能と、従来の対話制御機能とを比較した説明図。
【符号の説明】 1:情報処理装置、 2:主記憶装置、 3:パネル制
御装置、 4:ディスプレイ、 5:タッチパネル、
6:表示制御装置、 7:A/D変換装置、 8:マイ
ク、 9:スピーカ、 10:ビデオカメラ、 11:
音声出力制御装置、 12:画像認識装置、 21:
絵、 22:電灯、 23:植木、 24:椅子、 2
5:机、 26:代理人、 100:ディスク、 10
1:システムプログラム、 102:インテリアデザイ
ン支援プログラム、 103:対話制御プログラム、
104:音声認識プログラム、 105:ポインティン
グ領域認識プログラム、 106:情報統合プログラ
ム、 107:画像表示プログラム、 108:画像認
識プログラム、 109:音声出力プログラム、 11
0:音声標準パタンデータ、 111:単語辞書、 1
12:文法辞書、 1041:音声入力プログラム、
1042:特徴抽出プログラム、 1043:パタン照
合プログラム、 1071:画像選択プログラム、 1
072:選択画像表示プログラム

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】編集対象となるデータを表示画面に表示す
    る表示手段と、 前記表示画面上の目的の位置を指し示すポインティング
    操作を受付ける位置入力手段と、 音声を受付ける音声入力手段と、 前記位置入力手段で得られた位置情報、及び、前記音声
    入力手段で得られた音声情報に基づいて前記表示画面上
    の表示データを編集する編集手段と、を備えた情報処理
    装置において、 ユーザが行うべきポインティング操作、及び、ユーザが
    行うべき発声動作の何れか一方または両方を促すガイダ
    ンス情報を複数種類記憶する記憶手段と、 ポインティング操作の直前におけるユーザの様子を撮影
    する撮影手段と、 前記撮影手段で得られた撮影情報と、前記音声入力手段
    で得られた音声情報を用いて、ユーザがガイダンス情報
    を望んでいるか否かを判断し、ユーザが該ガイダンス情
    報を望んでいると判断した場合には、該ガイダンス情報
    をユーザに提示する情報提示手段と、を備えたことを特
    徴とする情報処理装置。
  2. 【請求項2】表示画面上のユーザの入力位置を示す位置
    情報と、ユーザの音声を示す音声情報を用いて表示画面
    上の表示データを編集する情報処理装置において、 ユーザの操作が行われたのち、次の操作を促すガイダン
    ス情報をユーザに逐一提示する第1の入力モードと、ユ
    ーザの操作が行われたのち、該操作を受付けたことを表
    す確認情報をユーザに提示するか、若しくは、なにも応
    答しない第2の入力モードとを、与えられた指令に従っ
    て選択的に設定する入力モード設定手段と、 前記入力位置を特定しようとするユーザの様子を撮影
    し、その結果を撮影情報として出力する撮影手段と、 前記撮影情報と前記音声情報を用いて、ユーザが第1の
    入力モードと第2の入力モードのどちらを望んでいるの
    かを判断し、ユーザが望んでいると判断した入力モード
    を設定するよう前記入力モード設定手段に指令を与える
    制御手段と、を備えた情報処理装置。
  3. 【請求項3】表示画面に表示された複数の対象物のうち
    の少なくとも一つについては、ユーザの複数の入力動作
    が繰り返されることで編集が完了し、前記複数の入力動
    作のうちの少なくとも一つは、表示画面上の目的の位置
    を指し示すポインティング操作と、音声による指示動作
    とが含まれている合成動作である情報処理装置におい
    て、 前記ポインティング操作の直前におけるユーザの様子を
    撮影する撮影手段と、 前記音声を受付ける音声入力手段と、 ユーザが行うべき入力動作を促すガイダンス情報を複数
    種類記憶する記憶手段と、 前記撮影手段で得られた撮影情報と、前記音声入力手段
    で得られた音声情報を用いて、前記合成動作の次に行う
    べき入力動作のガイダンス情報をユーザに提示すべきか
    否かを判断し、提示すべきと判断した場合は、このガイ
    ダンス情報をユーザに提示する情報提示手段と、を備え
    たことを特徴とする情報処理装置。
  4. 【請求項4】請求項1、2または3において、 前記音声情報の入力の有無をもとに、ユーザの発声の合
    間である無音区間を検出する無音区間検出手段と、 前記撮影情報を用いて、ユーザの体の予め定めた部分ま
    たはユーザの持つポインティンデバイスが前記無音区間
    中に予め定めた以上動いたか否かを判断する判断手段
    と、 前記予め定めた部分または前記ポインティンデバイスが
    予めた以上動いたと判断された場合には、ユーザがガイ
    ダンス情報の提示を望んでいないと判定する判定手段
    と、をさらに備えたことを特徴とする情報処理装置。
  5. 【請求項5】請求項1、2、3または4において、 画面表示及び音声出力の少なくとも一方を用いて前記ガ
    イダンス情報を提示する手段をさらに備えたことを特徴
    とする情報処理装置。
  6. 【請求項6】請求項5において、 前記画面表示を、文字列、動画、静止画、または、これ
    らの2以上の組合せで行う手段をさらに備えたことを備
    えたことを特徴とする情報処理装置。
  7. 【請求項7】請求項1、2、3または4おいて、 前記ガイダンス情報の音声出力を行うと共に、これに同
    期して、ガイダンス情報の内容を表すジェスチャを行う
    人物、動物、または、ロボットを画面に表示する手段を
    さらに備えたことを特徴とする情報処理装置。
  8. 【請求項8】請求項7において、 前記ガイダンス情報の利用回数に応じて、前記画面に表
    示する前記人物、動物、または、ロボットの大きさ変化
    させる手段をさらに備えたことを特徴とする情報処理装
    置。
JP8159964A 1996-06-20 1996-06-20 対話制御機能を具備した情報処理装置 Pending JPH1011248A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8159964A JPH1011248A (ja) 1996-06-20 1996-06-20 対話制御機能を具備した情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8159964A JPH1011248A (ja) 1996-06-20 1996-06-20 対話制御機能を具備した情報処理装置

Publications (1)

Publication Number Publication Date
JPH1011248A true JPH1011248A (ja) 1998-01-16

Family

ID=15705024

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8159964A Pending JPH1011248A (ja) 1996-06-20 1996-06-20 対話制御機能を具備した情報処理装置

Country Status (1)

Country Link
JP (1) JPH1011248A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1312558C (zh) * 2004-07-01 2007-04-25 雅马哈株式会社 控制装置
US7861178B2 (en) 1999-05-07 2010-12-28 Knoa Software, Inc. System and method for dynamic assistance in software applications using behavior and host application models
WO2016117854A1 (ko) * 2015-01-22 2016-07-28 삼성전자 주식회사 음성 신호를 기초로 한 텍스트 편집 장치 및 텍스트 편집 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7861178B2 (en) 1999-05-07 2010-12-28 Knoa Software, Inc. System and method for dynamic assistance in software applications using behavior and host application models
CN1312558C (zh) * 2004-07-01 2007-04-25 雅马哈株式会社 控制装置
WO2016117854A1 (ko) * 2015-01-22 2016-07-28 삼성전자 주식회사 음성 신호를 기초로 한 텍스트 편집 장치 및 텍스트 편집 방법

Similar Documents

Publication Publication Date Title
US10453455B2 (en) Multiple turn conversational task assistance
US6570588B1 (en) Editing support system including an interactive interface
US7260529B1 (en) Command insertion system and method for voice recognition applications
JP4710331B2 (ja) プレゼンテーション用アプリケーションをリモートコントロールするための装置,方法,プログラム及び記録媒体
EP1693827B1 (en) Extensible speech recognition system that provides a user with audio feedback
US5600765A (en) Display system capable of accepting user commands by use of voice and gesture inputs
US20020123894A1 (en) Processing speech recognition errors in an embedded speech recognition system
KR101213835B1 (ko) 음성 인식에 있어서 동사 에러 복원
EP1739656B1 (en) Speech recognition method and speech recognition apparatus
US8478600B2 (en) Input/output apparatus based on voice recognition, and method thereof
JP2003076389A (ja) タッチスクリーン又は音声認識を通じて動作制御される情報端末及びその命令実行方法
US20070081529A1 (en) Information processing system, method of processing information, and program for processing information
JPH096390A (ja) 音声認識対話処理方法および音声認識対話装置
CN107403011B (zh) 虚拟现实环境语言学习实现方法和自动录音控制方法
KR20080104099A (ko) 입력 장치 및 그 입력 방법
JP4729902B2 (ja) 音声対話システム
WO2005104093A2 (en) System and method for utilizing speech recognition to efficiently perform data indexing procedures
JPH08234789A (ja) 統合認識対話装置
JP2007232829A (ja) 音声対話装置とその方法及びプログラム
JP3399674B2 (ja) 画面制御装置とその方法
JPH08166866A (ja) 対話型インターフェースを具備した編集支援システム
JP2993872B2 (ja) マルチモーダル情報統合解析装置
JPH1011248A (ja) 対話制御機能を具備した情報処理装置
KR20210037857A (ko) 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템
JP6746886B2 (ja) 学習支援装置及びその学習支援装置用のプログラム