JP2993872B2 - マルチモーダル情報統合解析装置 - Google Patents

マルチモーダル情報統合解析装置

Info

Publication number
JP2993872B2
JP2993872B2 JP7267000A JP26700095A JP2993872B2 JP 2993872 B2 JP2993872 B2 JP 2993872B2 JP 7267000 A JP7267000 A JP 7267000A JP 26700095 A JP26700095 A JP 26700095A JP 2993872 B2 JP2993872 B2 JP 2993872B2
Authority
JP
Japan
Prior art keywords
gesture
information
analysis
speech recognition
time information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP7267000A
Other languages
English (en)
Other versions
JPH09114634A (ja
Inventor
豪 水梨
キュンホ・ローケン・キム
睦子 友清
逞 森元
Original Assignee
株式会社エイ・ティ・アール音声翻訳通信研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社エイ・ティ・アール音声翻訳通信研究所 filed Critical 株式会社エイ・ティ・アール音声翻訳通信研究所
Priority to JP7267000A priority Critical patent/JP2993872B2/ja
Publication of JPH09114634A publication Critical patent/JPH09114634A/ja
Application granted granted Critical
Publication of JP2993872B2 publication Critical patent/JP2993872B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Input From Keyboards Or The Like (AREA)
  • Processing Or Creating Images (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力される人間の
発話する音声と、入力される人間のジェスチャとを統合
的に解析を行って解析結果を出力するマルチモーダル情
報統合解析装置に関する。
【0002】
【従来の技術】図16に、従来技術の文献「新田恒雄ほ
か,“自由発話音声入力と直指(直接指示)を利用した
マルチモーダル対話システムの検討”,社団法人電子情
報通信学会技術報告,SP92−120,1993年1
月」において開示された従来例のマルチモーダル対話シ
ステムを示す。この文献では、入力手段(自由発話音声
+直指(タッチ))と出力手段(応答文音声合成+グラ
フィックス)の双方を複数チャンネル化するとともに、
ユーザの状況を複数のセンサでモニタしながら、「見込
み」に対する「プラン」に沿って指示・案内・画面展開
を行う実時間対話システムを試作し、情報案内システム
への応用を検討した結果について述べられている。
【0003】この従来例のマルチモーダル対話システム
は、図16に示すように、ユーザ状況検知部101と、
単語スポッタ102と、入力管理部103と、ユーザの
行為に対する「見込み」作成部104と、プラン作成部
105と、応答戦略生成部106と、文−音声変換部1
07と、メモリに格納されたタスクモデル110とを備
え、ユーザ状況検知部101には3つのセンサS1,S
2,S3が接続され、入力管理部103にはタッチパネ
ルT1が接続され、単語スポッタ102に接続される。
また、応答戦略生成部106には、CRTディスプレイ
C1が接続され、文−音声変換部107には外部スピー
カH1及びハンドセットH2が接続される。
【0004】次いで、以上のように構成された従来例の
マルチモーダル対話システムの動作について以下に説明
する。 (1)ユーザがシステムの前に来ると、センサS1がそ
れを検知する。次にシステムは、CRTディスプレイC
1に「受話器を耳に当てて下さい。」というメッセージ
と、ハンドセットH2述べられて持ち方を示す画面を表
示する。同時に、「受話器を耳に当てて下さい。」とい
う指示を合成音で外部スピーカH1から出力する。 (2)次いで、ハンドセットH2を手に取ると、センサ
S2がこれを検知して、「発声案内画面」を表示する。 (3)続いて、ハンドセットH2を耳に当てると、これ
をセンサS3が検知して「希望の場所を発声して下さ
い。」という指示を表示する。同時に、音声出力を外部
スピーカH1からハンドセットH2内蔵のスピーカに切
り換え、同一の内容を音声でガイドする。 (4)案内対象の単語、例えば「デパートへ行きたいの
ですが?」と発声すると、東京駅周辺のデパートが複
数、地図上に表示される。 (5)個々のデパート名の表示を指でタッチすると、そ
のデパートの情報(「本日は定休日です」など)が合成
音で得られる。
【0005】
【発明が解決しようとする課題】上述の従来例のマルチ
モーダル対話システムにおいては、音声入力部において
合成音のみを認識するワードスポッテイング音声認識装
置が用いられ、言語解析装置も用いられていないので、
ユーザの発話の全体の意味の詳細な解釈ができない。一
方、ジェスチャに関しては、画面上のグラフィックスに
触れて選択する動作しか受け付けない。すなわち、項目
情報を選択的に認識することができるが、例えば、「丸
で囲む」というような人間が行う複雑なジェスチャの意
味については解釈することができない。さらに、従来例
では、特に、現実の街中で使用されているような多様な
発話と複雑なジェスチャの組み合わせの統合的な意味に
ついて解析することはできないという問題点があった。
【0006】本発明の目的は以上の問題点を解決し、人
間の発話する音声と人間のジェスチャとを統合的に解析
を行って解析結果を出力することができるマルチモーダ
ル情報統合解析装置を提供することにある。
【0007】
【課題を解決するための手段】本発明に係る請求項1記
載のマルチモーダル情報統合解析装置は、所定の基準時
刻からの経過した時刻情報を出力する計時手段と、上記
計時手段から出力される時刻情報に基づいて、入力され
た発話音声を音声認識して、音声認識結果を、上記音声
認識結果に対応する時刻情報とともに出力する音声認識
手段と、上記音声認識手段から出力される音声認識結果
とそれに対応する時刻情報とに基づいて、所定の言語に
関する知識を用いて言語解析して、上記音声認識結果の
意味構造を、それに対応する時刻情報とともに出力する
言語解析手段と、複数の指示物候補を含む図を画面上に
表示し、上記表示した画面上で人間のジェスチャを入力
するための入力手段と、上記計時手段から出力される時
刻情報に基づいて、上記入力手段を介して入力されたジ
ェスチャの軌跡の画面上の位置と、それに対応する時刻
情報とともに出力するインターフェース制御手段と、上
記インターフェース制御手段から出力されるジェスチャ
の軌跡の画面上の位置に対して、上記複数の指示物候補
を含む図に関する知識を用いて解析することにより、上
記ジェスチャの種類と、それに対応する時刻情報と、上
記複数の指示物候補のうち上記ジェスチャによって指示
される指示物候補である指示物の情報とを出力するジェ
スチャ解析手段と、上記言語解析手段から出力される上
記音声認識結果の意味構造とそれに対応する時刻情報
と、上記ジェスチャ解析手段から出力される上記ジェス
チャの種類とそれに対応する時刻情報と上記指示物の情
報とに基づいて、上記音声認識結果の意味構造から上記
ジェスチャに対応する語又は句を検索し、検索された上
記ジェスチャに対応する語又は句と、上記指示物の情報
との時間的関係を検出し、検出された時間的関係に基づ
いて、上記音声認識結果の意味構造と上記ジェスチャの
種類の意味構造とが統合された意味構造を生成して出力
する統合解析手段とを備え、上記ジェスチャ解析手段に
よって解析される上記ジェスチャの種類は、「丸で囲
む」ジェスチャと、「線を引く」ジェスチャと、「点を
打つ」ジェスチャと、「マーキング」ジェスチャと、ラ
ンダムな動きがある描写である「スクランブリング」ジ
ェスチャとを含むことを特徴とする。
【0008】また、請求項2記載のマルチモーダル情報
統合解析装置は、請求項1記載のマルチモーダル情報統
合解析装置において、上記ジェスチャに対応する語は指
示詞であることを特徴とする。
【0009】さらに、請求項3記載のマルチモーダル情
報統合解析装置は、請求項1又は2記載のマルチモーダ
ル情報統合解析装置において、上記ジェスチャ解析手段
は、上記ジェスチャの軌跡を囲む長方形の中心を通過す
る複数の線によって上記長方形を複数の領域に分割し、
分割された領域と上記ジェスチャの軌跡との関係に基づ
いて、上記ジェスチャの種類を判断することを特徴とす
る。
【0010】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。図1は、本発明に係る一
実施形態であるマルチモーダル情報統合解析装置のブロ
ック図である。この実施形態のマルチモーダル情報統合
解析装置は、例えば、地図を用いた道案内システムであ
って、CRTディスプレイ33上に京都駅付近の地図が
表示され、ユーザがマイクロホン31を通じて「京都駅
はここですか」としゃべると同時に、ユーザの指を使っ
て京都駅を例えば丸で囲むポインティング・ジェスチャ
を行う場面を仮定して説明する。ここで、当該マルチモ
ーダル情報統合解析装置は、CRTディスプレイ33の
画面上にある図や絵の上に線などを引くことによってな
されるジェスチャの情報と、それと同時になされる発話
音声の情報を入力として受信し、地図データベース24
に予め記憶されたCRTディスプレイ33の画面上の表
示物に関する知識データと、それぞれ各メモリに予め記
憶された隠れマルコフ網(以下、HM網という。)2
1、文脈自由文法22、及び単語辞書23などの言語に
関する知識を用いて入力された発話音声の意味構造とジ
ェスチャの意味構造をそれぞれ解析した後、発話音声の
意味構造とジェスチャの意味構造とを時間経過に従って
統合的に解析して解析結果を出力するものである。
【0011】この実施形態のマルチモーダル情報統合解
析装置は、図1に示すように、各種制御処理実行する処
理部として、監視制御部10と音声認識部11と言語解
析部12とグラフィックユーザインターフェース制御部
(以下、GUI制御部という。)13とジェスチャ解析
部14と統合解析部15(以下、総称して、処理部10
−15という。)とを備える。ここで、各処理部11−
15を総合的に監視制御する監視制御部10に、音声認
識部11と言語解析部12とGUI制御部13とジェス
チャ解析部14と統合解析部15が接続される。また、
各処理部11−14には、監視制御部10によってセッ
ト・リセットが制御されるクロック信号発生器30によ
って発生されるクロック信号が入力され、各処理部11
−14は、当該クロック信号に基づいて、スタートボタ
ン32aがオンされたときの時刻、すなわち、オンセッ
ト時刻からのクロック時刻(本実施形態では、ミリ秒の
単位で表わす。)が計算されて、当該装置のマルチモー
ダル情報の基準時刻となる。
【0012】ユーザからの入力情報機器として、マイク
ロホン31と、スタートボタン32aとストップボタン
32bとクウイットボタン32cとを有するキーボード
32と、画面上がタッチパネルとなっているCRTディ
スプレイ33と、マウス34とを備え、ここで、マイク
ロホン31は音声認識部11に接続され、キーボード3
2は監視制御部10に接続され、CRTディスプレイ3
3及びマウス34がGUI制御部13に接続される。一
方、出力情報機器として、CRTディスプレイ35が設
けられ統合解析部15に接続される。
【0013】音声認識部11には、HM網21と文脈自
由文法22とが接続され、言語解析部12には文脈自由
文法22と単語辞書とが接続される。また、ジェスチャ
解析部14には、地図データベース24とジェスチャ辞
書25とが接続され、統合解析部15にはジェスチャ辞
書25が接続される。
【0014】ここで、監視制御部10と音声認識部11
と言語解析部12とGUI制御部13とジェスチャ解析
部14と統合解析部15はそれぞれ、例えばデジタル電
子計算機で構成され、各処理部10−15はそれぞれ、
CPUと、動作プログラムとそれを実行するためのデー
タを記憶するROMと、ワーキングメモリとして用いら
れるRAMとを備える。なお、6個の処理部10−15
を1つのデジタル電子計算機で構成してもよい。さら
に、HM網21、文脈自由文法22、単語辞書23、地
図データベース24、及びジェスチャ辞書25は、例え
ばハードディスクメモリなどのメモリに記憶される。
【0015】まず、各処理部11−15に接続される各
データベースについて以下に説明する。HM網21と文
脈自由文法22と単語辞書23とは、音声認識及び言語
解析のための言語に関する知識のデータベースであり、
地図データベース24はCRTディスプレイ33の画面
上に表示される表示物又は指し示す指示物に関する知識
のデータベースであり、ジェスチャ辞書25はユーザが
CRTディスプレイ33の画面(当該画面はいわゆるタ
ッチパネルとして動作する。)上で行うジェスチャの種
類を識別するための知識のデータベースである。
【0016】単語辞書23においては、単語辞書23に
おける道案内タスクに関係する43個の単語が存在し、
複数の単語とその属性は素性構造で表され、音響情報を
捕捉するための時間の情報とジェスチャの空間的な情報
とを伴って増大される。単語辞書23の一例を表1に示
す。
【0017】
【表1】 単語辞書23における直示表現の素性構造 ─────────────────────────────────── (deflex-named このあたり-1 このあたり n-deictic !(lex-phon-orth "konoatari" " このあたり") (<!m sem> == [[RELN DEITIC-PLACE] [AGEN *SPEAKER*] [RECP *HEARER*] [OBJE [[RELN このあたり]]]]) (<!m time-stamp> == [[SPEECH [[tS ?X1] [tE ?X2]]]]) (<!m gesture> == [[RELN CIRCLING-3] [LOCATION [[lS [[X ?X][Y ?Y]]] [lE [[X ?X][Y ?Y]]]]] [TIME-STAMP [[mouse [[tS ?X1] [tE ?X2]]]]]]) (<!m prag> == [[iterr agen]])) ───────────────────────────────────
【0018】ここで、表1の内容について説明すると、
第1行目は、言語解析用の辞書中の、指示語「このあた
り」の定義であり、第1行目の「(deflex-named この
あたり-1 このあたり n-deictic」は、「このあたり」
というインデックスを持ち、n-deicticという品詞であ
る、「このあたり-1」という語を定義する。第2行目の
「!(lex-phon-orth "konoatari" "このあたり")」は、
音と表記はそれぞれ、"konoatari"、"このあたり"であ
るということを意味する。第3乃至第6行目の「
【数1】 」は、意味(sem)の属性としては、DEITIC-PLACEという
関係名、*SPEAKER*という主体、*HEARER*という受容
体、「このあたり」という関係をもつ対象を定義する。
第7行目の「(<!m time-stamp> == [[SPEECH [[tS ?X1]
[tE ?X2]]]])」は、時間情報(time-stamp)という属性
としては、発話の開始時刻、終了時刻を定義する。第8
行目から第12行目までの「
【数2】 (<!m gesture> == [[RELN CIRCLING-3] [LOCATION [[lS [[X ?X][Y ?Y]]] [lE [[X ?X][Y ?Y]]]]] [TIME-STAMP [[mouse [[tS ?X1] [tE ?X2]]]]]]) 」は、ジェスチャ情報(gesture)という属性としては、C
IRCLING-3という関係名、ジェスチャの行なわれたディ
スプレイ上の場所、ジェスチャが行なわれた手段とその
開始・終了時刻を定義する。第13行目の「(<!m prag>
== [[iterr agen]]))」は、語用論的(prag)な属性とし
て、情報の保持者を定義する。
【0019】本実施形態のジェスチャ辞書25において
は、ただ8個のエントリー(見出し語)のみが存在して
いる。当該ジェスチャの素性構造における素性はジェス
チャの時間的及び空間的情報を捕捉するように構成され
ている。ジェスチャ辞書25の一例を表2に示す。
【0020】
【表2】 ジェスチャ辞書25におけるジェスチャの素性構造 ─────────────────────────────────── (deflex-named CIRCLING-3 CIRCLING gesture (<!m sem> == [[RELN CIRCLING-3] [LOCATION [[lS [[X ?X][Y ?Y]]] [lE [[X ?X][Y ?Y]]]]] [TIME-STAMP [[mouse [[tS ?X1] [tE ?X2]]]]]]) ───────────────────────────────────
【0021】表2の説明をすると、第1行目の「(defle
x-named CIRCLING-3 CIRCLING gesture」は、CIRCLIN
Gというインデックスを持ち、gestureという品詞であ
る、CIRCLING-3(「丸で囲む」−3)というジェスチャ
を定義する。第2行目から第6行目までの「
【数3】 」は、表1と同様であり、ジェスチャ情報(gesture)と
いう属性としては、CIRCLING-3という関係名、ジェスチ
ャの行なわれたディスプレイ上の場所、ジェスチャが行
なわれた手段とその開始・終了時刻を定義する。
【0022】次いで、地図データベース24は、地図上
の物体又は指示物候補が属性のリストを有して表されて
いる。地図データベース24の一例を表3に示す。
【0023】
【表3】 地図データベース24における地図の表現 ─────────────────────────────────── [Object number][min X][min Y][max X][max Y][kind of object] [name of object] example: [1][56][145][70][178][hotel][kyoto-hotel] ───────────────────────────────────
【0024】表3の説明を行うと、指示物候補番号は1
であって、その指示物候補のCRTディスプレイ33の
画面上のx座標値の最小値(min x)は56であ
り、その指示物候補のy座標値の最小値(min y)
は145であり、その指示物候補のx座標値の最大値
(max x)は70であり、その指示物候補のy座標
値の最大値(max y)は178である。また、指示
物候補の種類は「ホテル」であって、指示物候補の名前
は「京都ホテル」である。
【0025】音声認識部11に接続されるHM網21
は、音素環境依存型の効率のよい隠れマルコフモデルの
表現形式を用いて、各状態をノードとする複数のネット
ワークとして表され、各状態はそれぞれ以下の情報を有
する。 (a)状態番号 (b)受理可能なコンテキストクラス (c)先行状態、及び後続状態のリスト (d)出力確率密度分布のパラメータ (e)自己遷移確率及び後続状態への遷移確率 また、文脈自由文法22は、音声認識と言語解析の両方
のために用いられる114個の文法規則を含む。用語数
の大きさは43単語であり、1.74の音素パープレキ
シティを有する。
【0026】監視制御部10は、すべての処理部11−
15を制御し、データフローを統制する複数機能のモジ
ュールである。図2は、監視制御部10によって実行さ
れる監視制御処理であり、これについて以下図2を参照
して説明する。
【0027】まず、ステップS1でスタートボタン32
aがオンされたか否かが判断され、オンされたときステ
ップS2に進み、オンされていないときはステップS1
の処理を繰り返す。ステップS2では、すべての処理部
11−15を初期化する。この時点において、音声認識
部11はマイクロホン31からの音声入力の検出を開始
し、音声認識処理を実行し、音声認識結果を監視制御部
10に出力する。一方、GUI制御部13は、画面がタ
ッチパネルであるCRTディスプレイ33の画面でユー
ザによって入力されるジェスチャに関するデータ、及び
ユーザがマウス34を操作することによって入力される
ジェスチャに関するデータの検出を開始し、検出したジ
ェスチャに関するデータ(具体的には、画面上のジェス
チャの軌跡の各点の座標値)を監視制御部10に出力す
る。同時に、ステップS3では、クロック信号発生器3
0をリセットし、クロック信号発生器30が発生するシ
ステムクロック時刻(以下、クロック時刻という。)を
0にリセットした後、その計時を開始させる。システム
クロック時刻はクロック信号発生器30から各処理部1
1−14に出力される。これにより、1つの処理期間で
あるターン(turn)が開始される。
【0028】ステップS4では、データ転送処理が実行
され、監視制御部10は、音声認識部11から出力され
るクロック時刻情報付きの音声認識結果のデータを言語
解析部12に転送するとともに、GUI制御部13から
出力されるクロック時刻情報付きのジェスチャに関する
データをジェスチャ解析部14に転送する。このとき、
言語解析部12はクロック時刻情報付きの音声認識結果
のデータに基づいて後述するように言語解析処理を実行
して、処理結果であるクロック時刻情報付きの音声の意
味構造を含むデータを監視制御部10に出力する。一
方、ジェスチャ解析部14はクロック時刻情報付きのジ
ェスチャに関するデータに基づいて後述するようにジェ
スチャの種類の解析を行って、処理結果であるクロック
時刻情報付きのジェスチャの意味構造を含むデータを監
視制御部10に出力する。
【0029】次いで、ステップS5ではストップボタン
32bがオンされたか否かが判断され、オンされていな
いときはいまだ当該ターンの期間であるので、ステップ
S5の処理を繰り返し、オンされたときは、ステップS
6に進み、各処理部11−14に対してターンの終了を
通知する。そして、ステップS7では、クロック信号発
生器30の計時を停止させる。ステップS8では、デー
タ転送処理が実行され、監視制御部10は、言語解析部
12からのクロック時刻情報付きの音声の意味構造を含
むデータと、ジェスチャ解析部14からのクロック時刻
情報付きのジェスチャの意味構造を含むデータとを統合
解析部15に出力する。そして、ステップS9において
統合解析部15に対して後述の統合解析処理を実行させ
て、その解析結果をCRTディスプレイ35に出力させ
て表示させる。次いで、ステップS10では、クウイッ
トボタン32cがオンされたか否かが判断され、オンさ
れたときは、当該監視制御処理を終了し、オンされてい
ないときはステップS1に戻って上述の処理を繰り返
す。
【0030】監視制御部10の最も重要な処理の1つ
は、ステップS8での“イベント収集”であり、すなわ
ち、図4に示すように、1つのターン(“オンセット時
刻”と“オフセット時刻”との間)において生じるすべ
ての周辺のイベント(音声、ジェスチャなど)を収集
し、それらを統合解析部15に受け渡す。音声の意味構
造のデータについては、単語毎に開始時刻と終了時刻が
付与され、ジェスチャの意味構造のデータについては、
1つのジェスチャ毎に開始時刻と終了時刻が付与され
る。ここで、オンセット時刻は、1つのターンの開始時
刻でありユーザがスタートボタン32aをオンしたとき
の時刻である。オフセット時刻は、当該ターンの終了時
刻でありユーザがストップボタン32bをオンしたとき
の時刻である。
【0031】音声認識部11は、エイ・ティ・アール音
声翻訳通信研究所で研究発展されてきた音素同期型SS
S−LR技術(例えば、従来技術の文献「Harald
Singer et al.,“A Modular
Speech Recognition Syste
m Architecture”,Proceedin
gs of Acoustic Society,Ja
pan,Fall,1994年」参照。)に基づく従来
技術の連続音声認識装置を採用しており、新しいモジュ
ールが容易に加えられるようにモジュール方式に重きを
おいて発展されたものである。
【0032】ユーザの発話音声はマイクロホン31に入
力されて音声信号に変換された後、特徴抽出処理が実行
される。この処理では、音声信号をA/D変換した後、
例えばLPC分析を実行し、対数パワー、16次ケプス
トラム係数、Δ対数パワー及び16次Δケプストラム係
数を含む34次元の特徴パラメータを抽出する。次い
で、抽出された特徴パラメータについて音素照合処理及
びLRパーザ処理が実行される。ここでは、不特定話者
モデルであるHM網21を用いて音素照合区間内のデー
タに対する尤度が計算され、この尤度の値が音素照合ス
コアとしてLRパーザに返され、LRパーザは文脈自由
文法22を参照して入力された音素予測データについて
左から右方向に、後戻りなしに処理する。構文的にあい
まいさがある場合は、スタックを分割してすべての候補
の解析が平行して処理される。LRパーザは文脈自由文
法22に基づいて次にくる音素予測して音素予測データ
を出力し、音素照合処理では、その音素に対応するHM
網21の情報を参照して照合し、その尤度を音声認識ス
コアとしてLRパーザに戻し、順次音素を連接していく
ことにより、連続音声認識を行い、その音声認識結果の
データを、クロック時刻情報付きで監視制御部10に出
力する。上記連続音声認識の処理において、複数の音素
が予測された場合には、これらすべての存在をチェック
し、ビームサーチの方法により、部分的な音声認識の尤
度の高い部分木を残すという枝刈りを行って高速処理を
実現する。
【0033】本実施形態の音声認識部11において認識
された複数の文章はほとんど短くてかつ簡単なものであ
り、それらは、例えば、「京都ホテルはこのあたり
す」という直示的な表現の例を含んでいる。複数の文章
は連続モード又は連結されたモードのいずれかで発話さ
れることができる。ユーザは1呼吸で1つの文章を自由
に発話することができ、もしくは、2つの文節のフレー
ズの間で1つのポーズを自由におくことができる。音声
認識部11からの出力は、各単語に対して、認識された
単語、開始時刻及び終了時刻の3つの要素である。音声
認識部11から出力される音声認識結果の一例を表4に
示す。
【0034】
【表4】 音声認識結果 ─────────────────────────────────── sentence: 京都ホテルはこのあたりですか recognition results: 1135 : time elapsed since the turn "onset time" 京都ホテル 0 830 : speech onset & offset time は 830 920 3842 : time elapsed since the turn "onset time" このあたり 0 780 : speech onset time reset due to the pause で 780 860 す 860 1050 か 1050 1200 京都ホテルはこのあたりですか -32.115994 ───────────────────────────────────
【0035】表4について説明すると、表4の内容の意
味は以下の通りである。音声認識結果の文は、「京都ホ
テルはこのあたりですか」であり、この文のうちの「京
都ホテル」の開始時刻(以下、第1の開始時刻とい
う。)は、オンセット時刻から1135ミリ秒の経過時
間が経過したときである。ここで、音声認識結果の文の
うちの「京都ホテル」は第1の開始時刻を基準として0
ミリ秒から830ミリ秒までの時間にあり、「は」は8
30ミリ秒から920ミリ秒までの時間にある。上記文
のうちの「このあたり」の開始時刻(以下、第2の開始
時刻という。)は、オンセット時刻から3842ミリ秒
の経過時間が経過したときである。ここで、「このあた
り」は第2の開始時刻を基準として0ミリ秒から780
ミリ秒までの時間にあり、「で」は780ミリ秒から8
60ミリ秒までの時間にあり、「す」は860ミリ秒か
ら1050ミリ秒までの時間にあり、「か」は1050
ミリ秒から1200ミリ秒までの時間にある。そして、
音声認識結果の文「京都ホテルはこのあたりですか」の
スコアは「−32.115994」である。
【0036】言語解析部12は、パージング(文解析)
ツールキット(従来技術の文献「Toshihisa
Tashiro et al.,“A Parsing
Toolkit for Spoken Langu
age Processing”,WGNL Meet
ing of IPSJ, 95−NLP−106,1
995年」参照。)を用いて発展されたものであり、こ
のパージングツールキットは、瞬時の音声における多く
の言葉の音素を取り扱うために、効率的なユニフィケー
ションやモジュール方式に重きをおいて発展されてい
る。この言語解析部12への入力データは、音声認識の
結果である。音声認識の結果を受信したときに、言語解
析部12はまず、文脈自由文法22内の文法規則を用い
て解析木を発生し、次いで、当該木を依存構造に変換
し、最後に、発話の意味上の素性構造(表5)、すなわ
ち音声の意味構造とクロック時刻情報とを含むデータを
生成する。次いで、当該データは、監視制御部10を介
して統合解析部15に手渡される。ここで、言語解析部
12の出力結果の一例を表5に示す。
【0037】
【表5】 言語解析部12の出力結果 ─────────────────────────────────── sentence: 京都ホテルはこのあたりですか [SEM [[RELN *YN-QUESTION*] [AGEN *SPEAKER*] [RECP*HEARER*] [OBJE [[RELN *BE-LOCATED*] [IDEN [[RELN *京都ホテル*]]] [PLACE [[RELN *DEICTIC-PLACE*] [AGEN *SPEAKER*] [RECP *SPEAKER*] [OBJE [[RELN *このあたり*] [PRAG [[ITERR *SPEAKER*]]] [TIME-STAMP [[SPEECH [[tS ?X1] [tE ?X2]]]]] [GESTURE [[RELN CIRCLING-3] [LOCATION [[lS [[X ?X][Y ?Y]]] [lE [[X ?X][Y ?Y]]]]] [TIME-STAMP [[mouse [[tS ?X1] [tE ?X2]]]]] ]]]]]]]]]] ───────────────────────────────────
【0038】表5について説明すると、第1行目は、入
力された文字列の文は、「京都ホテルはこのあたりです
か」であり、第2行目の「[SEM [[RELN *YN-QUESTION
*]」は、この文の発話意図は*YN-QUESTION*(はい、い
いえで答える質問)であることを意味する。第3行目及
び第4行目の「
【数4】 [AGEN *SPEAKER*] [RECP *HEARER*] 」は、表1と同様に、*SPEAKER*という主体、*HEARER*
という受容体を定義する。そして、第5行目の「[OBJE
[[RELN *BE-LOCATED*]」は、質問内容が、「もの(IDEN)
が場所(PLACE)にある」という内容であることを意味す
る。第6行目の「[IDEN [[RELN *京都ホテル*]]]」は、
「ものは「京都ホテル」である。」ということを意味す
る。さらに、第7行目から第17行目までの「
【数5】 [PLACE [[RELN *DEICTIC-PLACE*] [AGEN *SPEAKER*] [RECP *SPEAKER*] [OBJE [[RELN *このあたり*] [PRAG [[ITERR *SPEAKER*]]] [TIME-STAMP [[SPEECH [[tS ?X1] [tE ?X2]]]]] [GESTURE [[RELN CIRCLING-3] [LOCATION [[lS [[X ?X][Y ?Y]]] [lE [[X ?X][Y ?Y]]]]] [TIME-STAMP [[mouse [[tS ?X1] [tE ?X2]]]]]]]]]]]]]]] 」は、場所が、「このあたり」で示されるものであるこ
とを示す。
【0039】GUI制御部13は、例えば図6に示すグ
ラフィックス画面を表示することによってユーザインタ
ーフェースを管理し、CRTディスプレイ33の画面上
の複数のスクリーンイベント(例えば、タッチパネル上
の複数のジェスチャ)をモニタする。特に、GUI制御
部13は、以下の処理を実行する。 (a)図6の下部に示すように、複数の指示物候補(建
物、駅など)を含む地図及び他のグラフィックスを表示
する。 (b)ユーザによる地図上のジェスチャの軌跡に対応す
る座標値を読み出す。 (c)キーボード32のプッシュボタン32a,32
b,32cの複数のイベントを検出する。 (d)図6の上部に示すように、統合解析部15によっ
て実行された統合解析結果(これは、統合解析部15か
ら監視制御部10介してGUI制御部13に入力され
る。)音声認識結果とジェスチャ解析結果との間の時間
的なマッチングの結果を表示する。また、発話とジェス
チャの単一化された意味上の表現を表示する。
【0040】ジェスチャ解析部14の主たる処理は、次
の通りである。 1)直示的なジェスチャの種類(「丸で囲む」、「線を
引く」など)を認識すること、 2)指示物候補(目的物)を選択すること、並びに、 3)ジェスチャの時間的及び空間的情報(例えば、表6
に示す。)を生成すること。 当該ジェスチャ解析部14によって実行されるジェスチ
ャ解析処理は図3に示すように、ステップS11のジェ
スチャ認識処理と、ステップS12の指示物の選択処理
とかなる。
【0041】ステップS11のジェスチャ認識処理にお
いては、以下の処理が実行される。まず、GUI制御部
13から監視制御部10介して入力される、1つのジェ
スチャの全体の軌跡の点(CRTディスプレイ33の画
面上のx,y座標値)をメモリ内に記憶する。次いで、
図5に示すように、上記記憶された軌跡の点のx,y座
標値の最小値(min x)及び(min y)と最大
値(max x)及び(max y)を計算し、その中
心Oの点を見つける。そして、図5に示すように例えば
「丸で囲む」のジェスチャ600の場合、上記軌跡の点
のx,y座標値の最小値(min x)及び(min
y)と最大値(max x)及び(max y)の長方
形内に位置する「丸で囲む」のジェスチャ600の領域
を8個の領域A1乃至A8に分割し、各領域A1乃至A
8に属する座標値を計算する。
【0042】そして、もし、当該ジェスチャ600の軌
跡の点の座標値がすべての領域A1乃至A8において存
在し、当該ジェスチャ600の開始点601と終了点6
02との間のユークリッド距離が50(現在の割り当て
設計値)よりも小さいならば、そのジェスチャ600は
「丸で囲む」であると判断する。また、もしただ1つの
領域において複数の軌跡の点が存在しているならば、そ
のときそのジェスチャは「ポインティング(さし示す、
もしくは点を打つ)」であると判断する。もし領域A6
及びA7において軌跡の点が存在しておらず、当該ジェ
スチャ600の開始点601と終了点602の間のユー
クリッド距離が3(現在の割り当て設計値)よりも小さ
いときは、そのジェスチャは、「マーキング」であると
判断する。残りの条件のときは、「線を引く」ジェスチ
ャであると判断する。
【0043】次いで、ステップS12の指示物の選択処
理においては、以下の通り処理が実行される。ここで、
指示物候補とは、CRTディスプレイ33の地図上での
建物や駅のことであり、例えば、京都ホテル、京都駅な
どである。 (a)「丸で囲む」ジェスチャと判断されたときは、丸
の周囲内又は周囲上のいずれかにあるすべての指示物候
補の中で、中心に近接する指示物が選択される。 (b)「ポインティング」ジェスチャと判断されたとき
は、指示対象に位置する指示物が選択される。 (c)「線を引く」ジェスチャと判断されたときは、軌
跡上に位置する指示物が選択される。 (d)「マーキング」ジェスチャと判断されたときは、
中心に最も近接する指示物が選択される。 表6に、ジェスチャ解析部14から出力される解析結果
であるジェスチャの時間的及び空間的情報(もしくは、
ジェスチャの意味構造という。)の一例を示す。
【0044】
【表6】 ジェスチャの時間的及び空間的情報 ─────────────────────────────────── 3 : turn I.D circle : gesture analysis result 3119 : gesture onset time 4864 : gesture offset time (897,921) (128,164) : object coordinates ───────────────────────────────────
【0045】表6について説明すると、第1行目はター
ンのID番号であり、第2行目は「丸で囲む」というジ
ェスチャが判断されたことを示す。第3行目は、当該ジ
ェスチャの開始点の時刻は、オンセット時刻から計時し
て3119ミリ秒であることを意味し、第4行目は、当
該ジェスチャの終了点の時刻は、オンセット時刻から計
時して4864ミリ秒であることを意味する。そして、
第5行目は、当該ジェスチャによって指示された指示物
の座標値、具体的には、(max x,maxy)と
(min x,min y)の組を意味する。
【0046】すなわち、ジェスチャ解析部14は、座標
情報からジェスチャの種類を認識し、その結果とCRT
ディスプレイ33の画面上の図や絵に関する知識からそ
のジェスチャが指示している指示物を推定して判断す
る。図5及び図6のジェスチャの場合は、ジェスチャの
「丸」と画面上の地図との位置関係から、「京都ホテ
ル」が指示されているというこを判断することができ
る。最終的に、ジェスチャの種類、時刻、指示物に関す
る情報を有する意味構造を生成する。
【0047】統合解析部15は、以下の処理を実行す
る。 (a)言語解析部12から監視制御部10を介して入力
される、発話音声の意味上の素性構造と、ジェスチャ解
析部14から監視制御部10を介して入力される、ジェ
スチャの時間的及び空間的情報を受信する。 (b)上記発話音声の意味上の素性構造における直示的
な素性(例えば、指示詞「ここ」)を検索する。 (c)上記直示的な素性とジェスチャとの間の時間的な
配置関係をチェックする。例えば、図6に示すように、
「ここ」という発話と、「丸で囲む」ジェスチャとの時
間的な配置関係はどうか、具体的には、例えば、「こ
こ」という発話時間内に「丸で囲む」ジェスチャの時間
が含まれているか?、含まれているならば、直接的な指
示関係があると判断される。また、「まるで囲む」ジェ
スチャの直後に、「ここ」という発話がなされても、直
接的な指示関係があると判断される。 (d)統合解析結果である、複数のジェスチャの時間的
及び空間的な値を有する直示的な素性構造をCRTディ
スプレイ35や33に表示する。その一例を表7に示
す。なお、直示とジェスチャの配置調整が発話とジェス
チャの始まりからなされ、1つのジェスチャが1つの直
示に割り当てられ、残りのジェスチャは無視される。
【0048】
【表7】 統合解析部15によって生成された発話の意味表現 ─────────────────────────────────── [SEM [[RELN *YN-QUESTION*] [AGEN *SPEAKER*] [RECP*HEARER*] [OBJE [[RELN *BE-LOCATED*] [IDEN [[RELN *京都ホテル*]]] [PLACE [[RELN *DEICTIC-PLACE*] [AGEN *SPEAKER*] [RECP *SPEAKER*] [OBJE [[RELN *このあたり*] [PRAG [[ITERR *SPEAKER*]]] [TIME-STAMP [[SPEECH [[tS 3842] [tE 4622]]]]] [GESTURE [[RELN CIRCLING-3] [LOCATION [[lS [[X 897][Y 921]]] [lE [[X 128][Y 164]]]]] [TIME-STAMP [[mouse [[tS 3119] [tE 4864]]]] ]]]]]]]]]]] ───────────────────────────────────
【0049】表7を説明すると、この内容は、表5の?
の部分に具体的な数値が入ったものである。すなわち、
統合解析部15は、音声の意味構造とジェスチャの意味
構造を受信し、音声とジェスチャの時間情報と、ジェス
チャが指示するものとに基づいて、音声の意味構造の中
からジェスチャに対応する部分(指示詞「ここ」)を探
し、そこにジェスチャの意味構造を付加し、最終的に音
声とジェスチャの意味が統合された意味構造を生成して
出力する。要約すれば、統合解析部15は、上記音声認
識結果の意味構造から指示詞を検索し、検索された指示
詞と、上記指示物の情報との時間的関係を検出し、検出
された時間的関係に基づいて、上記音声認識結果の意味
構造と上記ジェスチャの種類の意味構造とが統合された
意味構造を生成して出力する。
【0050】さらに、本発明に係る実施形態の変形例に
ついて以下に説明する。
【0051】<第1の変形例>図7は、図1のジェスチ
ャ解析部14によって実行される変形例のジェスチャ解
析処理を示すフローチャートである。この変形例のジェ
スチャ解析処理は、大きく分けて、ステップS21から
ステップS27までのジェスチャを認識するための処理
と、ステップS28の指示物の選択処理とに分けられ
る。ここで、ジェスチャの種類を判断するステップS2
2−S23及びS26−S28において最初にジェスチ
ャの種類を判断できたときは、図7において図示してい
ないが、制御フローは判断した時点でステップS29に
進む。
【0052】図7において、ステップS21で、まず、
前置処理が実行される。ここでは、GUI制御部13か
ら監視制御部10を介して入力された1つのジェスチャ
のすべての軌跡のx,y座標値(以下、ジェスチャ点と
いう。)をジェスチャ解析部14のメモリ内に記憶す
る。もし、同一のx,y座標値に複数のジェスチャ点が
ある場合は、1つのジェスチャ点のみを記憶し、残りを
廃棄する。
【0053】次いで、ステップS22において、ポイン
ティングの判断処理が実行される。すなわち、この処理
では、まず、図8に示すように、上記メモリ内に記憶し
た軌跡のx,y座標値に基づいて、x,y座標値の各最
小値(min x,miny)と各最大値(max
x,max y)を計算し、すべてのジェスチャ点を囲
む1つの長方形(以下、最小の長方形という。)500
を仮想的に描く。次いで、次式で定義される密度率DR
を計算する。
【0054】
【数6】DR={(ジェスチャ点の数)/(最小の長方
形500の面積)}×100
【0055】ここで、面積は、予め決められたx,y座
標の値を単位として計算される。このとき、もし、密度
率DRが90%以上であるときは、入力されたジェスチ
ャは、指示物候補を指し示すジェスチャ、すなわち、
「ポインティング・ジェスチャ」であると判断する。ま
た、もし、ジェスチャ点の数が5未満であって、密度率
が10%以上であるときは、入力されたジェスチャは
「ポインティング・ジェスチャ」と判断する。
【0056】次いで、ステップS23において、マーキ
ングの判断処理が実行される。ここでは、図9に示すよ
うに、すべてのジェスチャ点を連結し、ジェスチャ点を
連結した隣接する2つの連結線間の角度θの余弦値co
sθを計算する。ここで、図9に示すように、各2つの
連結線間の角度θは始点から順番に昇順で番号付けされ
る。そして、以下の4つの条件(第1乃至第4の条件)
がすべて成立するときは、入力されたジェスチャは「マ
ーキング」と判断する。
【0057】(a)図10(a)及び(b)に示すよう
に、角度θ<90°又は角度θ>270°であるとき、
ピークと定義し、余弦値cosθが0を超えるときの角
度θ(図10(a)及び(b)において、θpとして示
す。)が存在するとき、すなわち、ピークが存在するこ
とを第1の条件とする。 (b)図11に示すように、x軸方向の最大値(max
x)の点301から連結されて最小の長方形500の
x軸方向の辺に交わる点302のx座標値からx座標の
最小値(min x)を引いた長さをx1と定義し、x
座標の最大値(max x)からx座標の最小値(mi
n x)を引いた長さをx2と定義する。このとき、次
式で定義された長さの比の値LRを計算する。
【0058】
【数7】LR=(x1/x2)×100[%]
【0059】そして、計算された長さの比の値LRが7
0%以上であることを、第2の条件とする。 (c)図12(a)又は(b)に示すように、ピークの
位置が、最小の長方形500の最下部(底部)又は最上
部に対応すること(これを、201,202で示す。)
を、第3の条件とする。 (d)図13に示すように、ジェスチャの始点及び終点
が、ピークの反対側の最上部25%の面積の領域に位置
していることを、第4の条件とする。
【0060】次いで、ステップS24では、「線を引
く」の判断処理が実行される。ここでは、もし、「ポイ
ンティング」ジェスチャでも、「マーキング」ジェスチ
ャでもない1つのジェスチャが存在し、ジェスチャ点の
数が3未満であるとき、入力されたジェスチャは、「線
を引く」ジェスチャであると判断する。
【0061】次いで、ステップS25では、中間処理が
実行される。ここで、すべてのジェスチャ点(図14
(a))が図14(b)に示すように連結され、図14
(c)に示すように、各2つのジェスチャ点の間を複数
の点で補間する。ここで、補間された点の数は、各2つ
のジェスチャ点の間の距離に依存している。
【0062】次いで、ステップS26では、「丸で囲
む」、「線を引く」、「スクランブリング」の判断処理
が実行される。ここで、「スクランブリング」とは、丸
や線のように所定の形状でなくランダムな動きがある描
写入力をいう。このステップS26の処理においては、
まず、図14(d)に示すように、最小の長方形500
の中心Oと各ジェスチャ点とを線で連結し、それらの連
結線を最小の長方形500の各辺にあたるまで延在させ
る。ここで、延在された線を以下、延在線という。次い
で、延在線が複数のジェスチャ線と交差する回数を計数
し、その交差を以下、ジェスチャ線交差という。
【0063】そして、もし各ジェスチャ点に対するジェ
スチャ線交差の数が3以上であるときは、入力されたジ
ェスチャは「スクランブリング」であると判断する。ま
た、85.5%以上の延在線が2つのジェスチャ線交差
を有するときは、「丸で囲む」ジェスチャであると判断
する。もし15%未満の延在線が1個又はそれ以下のジ
ェスチャ線交差を有し、かつ75%以上の延在線が2個
のジェスチャ線交差を有するときは、入力されたジェス
チャは「丸で囲む」と判断する。さらに、もしジェスチ
ャ線交差を有しない延在線が存在せず、かつ40%以上
の延在線が2個のジェスチャ線交差を有するならば、入
力されたジェスチャは「丸で囲む」ジェスチャである。
またさらに、もし70%以上の延在線がジェスチャ線交
差を有しないならば、入力されたジェスチャは「線を引
く」ジェスチャである判断する。
【0064】次いで、ステップS27では、「線を引
く」、「丸で囲む」の判断処理が実行される。この処理
では、図15に示すように、各ジェスチャ点で交差する
ように水平方向の線(x軸方向に平行な線)と垂直方向
の線(y軸方向に平行な線)(以下、平行線という。)
とを仮想的に描く。もし1ケ所のみで交差する延在線が
70%以上ならば、入力されたジェスチャは「線を引
く」ジェスチャであると判断される。もし3ケ所以上で
交差する延在線がない場合、あるいは1ケ所のみで交差
する延在線が30%未満である場合、入力されたジェス
チャは「丸で囲む」ジェスチャであると判断される。
【0065】さらに、ステップS28では、「線を引
く」の判断処理が実行される。この処理では、入力され
たジェスチャが上記の条件に合致しないときは、「線を
引く」ジェスチャである判断される。
【0066】次いで、ステップS29において、指示物
の選択処理が実行される。上述のジェスチャの種類の判
断処理で以下のように判断されたときに、その種類に応
じて指示物の選択処理が以下のように異なる。そして、
指示物が選択されたときに、ジェスチャ解析部14は、
ジェスチャの意味構造を示すデータを監視制御部10を
介して統合解析部15に出力する。
【0067】(a)「丸で囲む」ジェスチャと判断され
たとき、当該丸の周囲内又は周囲上のいずれかにあるす
べての指示物候補の中で、最小の長方形500の中心O
に最も近接する1つの指示物候補が、ユーザによって指
示された指示物として選択される。 (b)「ポインティング」ジェスチャと判断されたと
き、ポインティングの指示物候補に位置する指示物候補
が、ユーザによって指示された指示物として選択され
る。 (c)「線を引く」ジェスチャと判断されたとき、軌跡
上に位置する指示物候補が、ユーザによって指示された
指示物として選択される。 (d)「マーキング」ジェスチャとして判断されたと
き、最小の長方形500の中心Oに最も近接する指示物
候補が、ユーザによって指示された指示物として選択さ
れる。
【0068】<第2の変形例>例えば、申し込み書など
のフォーム(書式)を埋める場合を想定する。ユーザが
「名前はここに書くんですか」と発声すると同時に、指
でフォーム中の1つの欄に丸印をつける場合を考える。
マルチモーダル情報統合解析装置は、上記実施形態と同
様に、ジェスチャの種類を解析して「丸で囲む」ジェス
チャであると判断するが、その後は、指示されるものを
解析する際に、この場合は画面上には地図ではなく、フ
ォームがあることを考え合わせて、最終的にそのジェス
チャはフォーム中の特定の欄を指示していると判断す
る。すなわち、図1の地図データベース24は、フォー
ムの様式を含むフォームのデータベースにとって代わる
が、その他の構成は図1と同様である。そして、統合解
析部15は、上記実施形態と同様に、「ここ」に対応し
て指示されるものはフォームの中の1つの欄であると解
析して同定し、その解析結果をCRTディスプレイ35
の画面上に表示する。
【0069】<第3の変形例>CRTディスプレイ33
の画面上には、3次元の物体Aが表示されているものと
する。そのとき、ユーザが「これをこっちに回転させて
下さい。」と発声するとともに、回転させたい方向(例
えば、右回り)に指で画面をなぞる(例えば、右方向に
円弧を描く。)とする。このとき、ジェスチャ解析部1
4は、まず、そのジェスチャが「線を引く」ジェスチャ
である判断する。次いで、地図データベース24に代わ
る物体の形状と位置に関するデータベースに基づいて、
CRTディスプレイ33の画面上の物体Aとジェスチャ
との位置関係から、ジェスチャに指示されるものは、物
体Aであると判断し、最終的には、そのジェスチャの種
類、時刻、指示するもののデータを統合解析部15に手
渡す。統合解析部15は、言語解析部12から監視制御
部10を介して入力される音声の意味構造から、「もの
を回転させる」という発話がなされているということが
わかるので、その「線を引く」ジェスチャは「回転させ
る」方法を示す「こっち」に対応しており、「右方向
に」という回転の方向を意味するということが判断され
て同定される。そして、最終的に、「物体Aを右方向に
回転させて下さい。」という統合的な意味を解析して同
定し、その解析結果をCRTディスプレイ35の画面上
に表示する。
【0070】<第4の変形例>CRTディスプレイ33
の画面上には、地図が表示されており、ユーザは「この
ように行くんですね」という発話と同時に、上記地図上
の道路に沿って線を引くジェスチャをしたとする。この
場合は、「線を引く」ジェスチャが指示するものとし
て、線の始点と、終点、及び通過点付近の座標値を抽出
する。そして、統合解析部15は、「このように」とい
う語と、上記抽出された線の始点と、終点、及び通過点
付近の座標値とを対応付けし、地図上の「始点から通過
点を通って終点まで行く」という統合的な意味を解析し
て同定し、その解析結果をCRTディスプレイ35の画
面上に表示する。
【0071】以上説明したように、本実施形態のマルチ
モーダル情報統合解析装置によれば、人間の発話する音
声と人間のジェスチャとを統合的に解析を行って解析結
果を出力することができるマルチモーダル情報統合解析
装置を提供することができる。これにより、人間の発話
する音声と人間のジェスチャとに基づいて人間のより複
雑で具体的な入力情報を解析し判断することが可能とな
る。また、本実施形態のマルチモーダル情報統合解析装
置を、例えば音声対話システムに適用することによっ
て、音声と同時にポインティング・ジェスチャを入力と
して解析することができるので、人間とシステムとの間
のより柔軟な対話を実現することができる。さらに、本
実施形態のマルチモーダル情報統合解析装置を、例えば
マルチモーダル翻訳対話システムにおける入力解析に適
用することによって、発話情報とジェスチャ情報が有機
的に統合された意味構造に基づいて翻訳することがで
き、他の言語へのより正確な翻訳を行うことができる。
【0072】以上の実施形態及び変形例において、解析
結果である統合的な意味構造を出力する出力機器とし
て、CRTディスプレイ35を用いているが、本発明は
これに限らず、他の画像表示装置、プリンタなどの他の
情報出力装置を設けてもよい。
【0073】以上の実施形態及び変形例において、ジェ
スチャの種類の判断において、種々のパラメータの値を
用いているが、これらの値は設計値であり必要に応じて
変更してもよい。
【0074】以上の実施形態及び変形例において、統合
解析部15は、上記音声認識結果の意味構造から上記ジ
ェスチャに対応する指示詞を検索し、検索された上記ジ
ェスチャに対応する指示詞と、上記指示物の情報との時
間的関係を検出している。本発明はこれに限らず、上記
指示詞に代えて、上記音声認識結果の意味構造から上記
ジェスチャに対応する語又は句を検索し、検索された上
記ジェスチャに対応する語又は句と、上記指示物の情報
との時間的関係を検出してもよい。ここで、上記ジェス
チャに対応する語又は句とは、例えば、以下のものであ
る。例えば、「京都ホテルには空き部屋があります。」
を発話しながら、地図上の「京都ホテル」をマーキング
する場合においては、「京都ホテル」が上記ジェスチャ
に対応する語である。
【0075】以上の実施形態において、キーボード32
は監視制御部10に接続されているが、本発明はこれに
限らず、キーボード32をGUI制御部13に接続し
て、キーボード32を用いて入力される入力情報をGU
I制御部13を介して監視制御部10に転送してもよ
い。また、キーボード32は、CRTディスプレイ33
上のタッチパネルのキーボードであってもよい。
【0076】
【発明の効果】以上詳述したように本発明によれば、言
語解析手段から出力される上記音声認識結果の意味構造
とそれに対応する時刻情報と、上記ジェスチャ解析手段
から出力される上記ジェスチャの種類とそれに対応する
時刻情報と上記指示物の情報とに基づいて、上記音声認
識結果の意味構造から上記ジェスチャに対応する語又は
句を検索し、検索された上記ジェスチャに対応する語又
は句と、上記指示物の情報との時間的関係を検出し、検
出された時間的関係に基づいて、上記音声認識結果の意
味構造と上記ジェスチャの種類の意味構造とが統合され
た意味構造を生成して出力する。ここで、解析される上
記ジェスチャの種類は、「丸で囲む」ジェスチャと、
「線を引く」ジェスチャと、「点を打つ」ジェスチャ
と、「マーキング」ジェスチャと、ランダムな動きがあ
る描写である「スクランブリング」ジェスチャとを含
む。従って、人間の発話する音声と人間のジェスチャと
を統合的に解析を行って解析結果を出力することができ
るマルチモーダル情報統合解析装置を提供することがで
きる。これにより、人間の発話する音声と人間のジェス
チャとに基づいて人間のより複雑で具体的な入力情報を
解析し判断することが可能となる。
【図面の簡単な説明】
【図1】 本発明に係る一実施形態であるマルチモーダ
ル情報統合解析装置のブロック図である。
【図2】 図1の監視制御部によって実行される監視制
御処理を示すフローチャートである。
【図3】 図1のジェスチャ解析部によって実行される
ジェスチャ解析処理を示すフローチャートである。
【図4】 図1のマルチモーダル情報統合解析装置にお
いて実行される音声とジェスチャの情報の収集を示すタ
イミングチャートである。
【図5】 図1のマルチモーダル情報統合解析装置にお
いて実行されるジェスチャの認識と指示物の選択の処理
を示す正面図である。
【図6】 図1のCRTディスプレイの画面の一例を示
す正面図である。
【図7】 図1のジェスチャ解析部によって実行される
変形例のジェスチャ解析処理を示すフローチャートであ
る。
【図8】 図7のジェスチャ解析処理の1つの処理にお
ける最小の長方形を示す図である。
【図9】 図7のジェスチャ解析処理の1つの処理にお
ける2本のジェスチャライン間の複数の角度を示す図で
ある。
【図10】 図7のジェスチャ解析処理のジェスチャを
マーキングする処理を示す図である。
【図11】 図7のジェスチャ解析処理の1つの処理に
おける長さの比を示す図である。
【図12】 図7のジェスチャ解析処理の1つの処理に
おけるジェスチャのピーク点の位置を示す図である。
【図13】 図7のジェスチャ解析処理の1つの処理に
おける上部25%の領域を示す図である。
【図14】 (a),(b),(c)及び(d)は図7
のジェスチャ解析処理の「丸で囲む」、「線を引く」及
び「スクランブリング」を決定する処理のプロセスを示
す図である。
【図15】 図7のジェスチャ解析処理の「線を引く」
及び「丸で囲む」を決定する処理のプロセスを示す図で
ある。
【図16】 従来例のマルチモーダル対話地理案内シス
テムのブロック図である。
【符号の説明】
10…監視制御部、 11…音声認識部、 12…言語解析部、 13…グラフィックユーザインターフェース制御部(G
UI制御部)、 14…ジェスチャ解析部、 15…統合解析部、 21…HM網、 22…文脈自由文法、 23…単語辞書、 24…地図データベース、 25…ジェスチャ辞書、 30…クロック信号発生器、 31…マイクロホン、 32…キーボード、 32a…スタートボタン、 32b…ストップボタン、 32c…クウイットボタン、 33,35…CRTディスプレイ、 34…マウス。
フロントページの続き (51)Int.Cl.6 識別記号 FI G10L 3/00 571 G06F 15/38 Z 15/62 322M (72)発明者 友清 睦子 京都府相楽郡精華町大字乾谷小字三平谷 5番地 株式会社エイ・ティ・アール音 声翻訳通信研究所内 (72)発明者 森元 逞 京都府相楽郡精華町大字乾谷小字三平谷 5番地 株式会社エイ・ティ・アール音 声翻訳通信研究所内 (56)参考文献 特開 平8−63319(JP,A) 特開 平6−131437(JP,A) 特開 平5−307432(JP,A) (58)調査した分野(Int.Cl.6,DB名) G06F 3/16 320 G06F 3/00 601 G06F 17/28 G06T 11/80 G10L 3/00 501 - 571

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】 所定の基準時刻からの経過した時刻情報
    を出力する計時手段と、 上記計時手段から出力される時刻情報に基づいて、入力
    された発話音声を音声認識して、音声認識結果を、上記
    音声認識結果に対応する時刻情報とともに出力する音声
    認識手段と、 上記音声認識手段から出力される音声認識結果とそれに
    対応する時刻情報とに基づいて、所定の言語に関する知
    識を用いて言語解析して、上記音声認識結果の意味構造
    を、それに対応する時刻情報とともに出力する言語解析
    手段と、 複数の指示物候補を含む図を画面上に表示し、上記表示
    した画面上で人間のジェスチャを入力するための入力手
    段と、 上記計時手段から出力される時刻情報に基づいて、上記
    入力手段を介して入力されたジェスチャの軌跡の画面上
    の位置と、それに対応する時刻情報とともに出力するイ
    ンターフェース制御手段と、 上記インターフェース制御手段から出力されるジェスチ
    ャの軌跡の画面上の位置に対して、上記複数の指示物候
    補を含む図に関する知識を用いて解析することにより、
    上記ジェスチャの種類と、それに対応する時刻情報と、
    上記複数の指示物候補のうち上記ジェスチャによって指
    示される指示物候補である指示物の情報とを出力するジ
    ェスチャ解析手段と、 上記言語解析手段から出力される上記音声認識結果の意
    味構造とそれに対応する時刻情報と、上記ジェスチャ解
    析手段から出力される上記ジェスチャの種類とそれに対
    応する時刻情報と上記指示物の情報とに基づいて、上記
    音声認識結果の意味構造から上記ジェスチャに対応する
    語又は句を検索し、検索された上記ジェスチャに対応す
    る語又は句と、上記指示物の情報との時間的関係を検出
    し、検出された時間的関係に基づいて、上記音声認識結
    果の意味構造と上記ジェスチャの種類の意味構造とが統
    合された意味構造を生成して出力する統合解析手段とを
    備え、 上記ジェスチャ解析手段によって解析される上記ジェス
    チャの種類は、「丸で囲む」ジェスチャと、「線を引
    く」ジェスチャと、「点を打つ」ジェスチャと、「マー
    キング」ジェスチャと、ランダムな動きがある描写であ
    る「スクランブリング」ジェスチャとを含むことを特徴
    とするマルチモーダル情報統合解析装置。
  2. 【請求項2】 上記ジェスチャに対応する語は指示詞で
    あることを特徴とする請求項1記載のマルチモーダル情
    報統合解析装置。
  3. 【請求項3】 上記ジェスチャ解析手段は、上記ジェス
    チャの軌跡を囲む長方形の中心を通過する複数の線によ
    って上記長方形を複数の領域に分割し、分割された領域
    と上記ジェスチャの軌跡との関係に基づいて、上記ジェ
    スチャの種類を判断することを特徴とする請求項1又は
    2記載のマルチモーダル情報統合解析装置。
JP7267000A 1995-10-16 1995-10-16 マルチモーダル情報統合解析装置 Expired - Lifetime JP2993872B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7267000A JP2993872B2 (ja) 1995-10-16 1995-10-16 マルチモーダル情報統合解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7267000A JP2993872B2 (ja) 1995-10-16 1995-10-16 マルチモーダル情報統合解析装置

Publications (2)

Publication Number Publication Date
JPH09114634A JPH09114634A (ja) 1997-05-02
JP2993872B2 true JP2993872B2 (ja) 1999-12-27

Family

ID=17438673

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7267000A Expired - Lifetime JP2993872B2 (ja) 1995-10-16 1995-10-16 マルチモーダル情報統合解析装置

Country Status (1)

Country Link
JP (1) JP2993872B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7844458B2 (en) 2005-11-02 2010-11-30 Canon Kabushiki Kaisha Speech recognition for detecting setting instructions

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4027269B2 (ja) * 2003-06-02 2007-12-26 キヤノン株式会社 情報処理方法及び装置
JP4416643B2 (ja) 2004-06-29 2010-02-17 キヤノン株式会社 マルチモーダル入力方法
JP5121252B2 (ja) 2007-02-26 2013-01-16 株式会社東芝 原言語による音声を目的言語に翻訳する装置、方法およびプログラム
JP2016218852A (ja) 2015-05-22 2016-12-22 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
JP6663444B2 (ja) * 2015-10-29 2020-03-11 株式会社日立製作所 視覚情報と聴覚情報の同期方法および情報処理装置
CN105810195B (zh) * 2016-05-13 2023-03-10 漳州万利达科技有限公司 一种智能机器人的多角度定位系统
KR20190034494A (ko) * 2016-07-28 2019-04-02 파나소닉 아이피 매니지먼트 가부시키가이샤 번역 장치 및 번역 시스템
CN110770693A (zh) * 2017-06-21 2020-02-07 三菱电机株式会社 手势操作装置及手势操作方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7844458B2 (en) 2005-11-02 2010-11-30 Canon Kabushiki Kaisha Speech recognition for detecting setting instructions

Also Published As

Publication number Publication date
JPH09114634A (ja) 1997-05-02

Similar Documents

Publication Publication Date Title
US7257575B1 (en) Systems and methods for generating markup-language based expressions from multi-modal and unimodal inputs
EP1291753B1 (en) Systems and methods for classifying and representing gestural inputs
US6570588B1 (en) Editing support system including an interactive interface
JP3363283B2 (ja) 入力装置、入力方法、情報処理システムおよび入力情報の管理方法
JPH0981364A (ja) マルチモーダル情報入力方法及び装置
US20020123894A1 (en) Processing speech recognition errors in an embedded speech recognition system
Nagao et al. Ubiquitous talker: Spoken language interaction with real world objects
JP3278222B2 (ja) 情報処理方法及び装置
JP2002116796A (ja) 音声処理装置、音声処理方法及び記憶媒体
JP3476007B2 (ja) 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体
JP2993872B2 (ja) マルチモーダル情報統合解析装置
JPH06259090A (ja) 音声対話システム
JP3399674B2 (ja) 画面制御装置とその方法
JPH08166866A (ja) 対話型インターフェースを具備した編集支援システム
JP2000322088A (ja) 音声認識マイクおよび音声認識システムならびに音声認識方法
JP3762191B2 (ja) 情報入力方法、情報入力装置及び記憶媒体
JP3345070B2 (ja) 手話通訳装置および方法
JP2000250587A (ja) 音声認識装置及び音声認識翻訳装置
KR20020087297A (ko) 음성처리 기능을 갖는 키오스크
JPH1011248A (ja) 対話制御機能を具備した情報処理装置
Mizunashi et al. Analysis and Integration of Multimodal Inputs in Interpreting Telecommunications
JPH09274555A (ja) 情報入力・表示装置およびこれを利用した列車運転管理表作成システム
JPH09237098A (ja) 音声入力を用いた情報処理装置
JPH10228548A (ja) アニメーション作成システム
JPH0981352A (ja) 人物像表示によるユーザインタフェース方法とその装置