JP2993872B2

JP2993872B2 - マルチモーダル情報統合解析装置

Info

Publication number: JP2993872B2
Application number: JP7267000A
Authority: JP
Inventors: 豪水梨; キュンホ・ローケン・キム; 睦子友清; 逞森元
Original assignee: 株式会社エイ・ティ・アール音声翻訳通信研究所
Priority date: 1995-10-16
Filing date: 1995-10-16
Publication date: 1999-12-27
Anticipated expiration: 2015-10-16
Also published as: JPH09114634A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、入力される人間の
発話する音声と、入力される人間のジェスチャとを統合
的に解析を行って解析結果を出力するマルチモーダル情
報統合解析装置に関する。

【０００２】

【従来の技術】図１６に、従来技術の文献「新田恒雄ほ
か，“自由発話音声入力と直指（直接指示）を利用した
マルチモーダル対話システムの検討”，社団法人電子情
報通信学会技術報告，ＳＰ９２−１２０，１９９３年１
月」において開示された従来例のマルチモーダル対話シ
ステムを示す。この文献では、入力手段（自由発話音声
＋直指（タッチ））と出力手段（応答文音声合成＋グラ
フィックス）の双方を複数チャンネル化するとともに、
ユーザの状況を複数のセンサでモニタしながら、「見込
み」に対する「プラン」に沿って指示・案内・画面展開
を行う実時間対話システムを試作し、情報案内システム
への応用を検討した結果について述べられている。

【０００３】この従来例のマルチモーダル対話システム
は、図１６に示すように、ユーザ状況検知部１０１と、
単語スポッタ１０２と、入力管理部１０３と、ユーザの
行為に対する「見込み」作成部１０４と、プラン作成部
１０５と、応答戦略生成部１０６と、文−音声変換部１
０７と、メモリに格納されたタスクモデル１１０とを備
え、ユーザ状況検知部１０１には３つのセンサＳ１，Ｓ
２，Ｓ３が接続され、入力管理部１０３にはタッチパネ
ルＴ１が接続され、単語スポッタ１０２に接続される。
また、応答戦略生成部１０６には、ＣＲＴディスプレイ
Ｃ１が接続され、文−音声変換部１０７には外部スピー
カＨ１及びハンドセットＨ２が接続される。

【０００４】次いで、以上のように構成された従来例の
マルチモーダル対話システムの動作について以下に説明
する。（１）ユーザがシステムの前に来ると、センサＳ１がそ
れを検知する。次にシステムは、ＣＲＴディスプレイＣ
１に「受話器を耳に当てて下さい。」というメッセージ
と、ハンドセットＨ２述べられて持ち方を示す画面を表
示する。同時に、「受話器を耳に当てて下さい。」とい
う指示を合成音で外部スピーカＨ１から出力する。（２）次いで、ハンドセットＨ２を手に取ると、センサ
Ｓ２がこれを検知して、「発声案内画面」を表示する。（３）続いて、ハンドセットＨ２を耳に当てると、これ
をセンサＳ３が検知して「希望の場所を発声して下さ
い。」という指示を表示する。同時に、音声出力を外部
スピーカＨ１からハンドセットＨ２内蔵のスピーカに切
り換え、同一の内容を音声でガイドする。（４）案内対象の単語、例えば「デパートへ行きたいの
ですが？」と発声すると、東京駅周辺のデパートが複
数、地図上に表示される。（５）個々のデパート名の表示を指でタッチすると、そ
のデパートの情報（「本日は定休日です」など）が合成
音で得られる。

【０００５】

【発明が解決しようとする課題】上述の従来例のマルチ
モーダル対話システムにおいては、音声入力部において
合成音のみを認識するワードスポッテイング音声認識装
置が用いられ、言語解析装置も用いられていないので、
ユーザの発話の全体の意味の詳細な解釈ができない。一
方、ジェスチャに関しては、画面上のグラフィックスに
触れて選択する動作しか受け付けない。すなわち、項目
情報を選択的に認識することができるが、例えば、「丸
で囲む」というような人間が行う複雑なジェスチャの意
味については解釈することができない。さらに、従来例
では、特に、現実の街中で使用されているような多様な
発話と複雑なジェスチャの組み合わせの統合的な意味に
ついて解析することはできないという問題点があった。

【０００６】本発明の目的は以上の問題点を解決し、人
間の発話する音声と人間のジェスチャとを統合的に解析
を行って解析結果を出力することができるマルチモーダ
ル情報統合解析装置を提供することにある。

【０００７】

【課題を解決するための手段】本発明に係る請求項１記
載のマルチモーダル情報統合解析装置は、所定の基準時
刻からの経過した時刻情報を出力する計時手段と、上記
計時手段から出力される時刻情報に基づいて、入力され
た発話音声を音声認識して、音声認識結果を、上記音声
認識結果に対応する時刻情報とともに出力する音声認識
手段と、上記音声認識手段から出力される音声認識結果
とそれに対応する時刻情報とに基づいて、所定の言語に
関する知識を用いて言語解析して、上記音声認識結果の
意味構造を、それに対応する時刻情報とともに出力する
言語解析手段と、複数の指示物候補を含む図を画面上に
表示し、上記表示した画面上で人間のジェスチャを入力
するための入力手段と、上記計時手段から出力される時
刻情報に基づいて、上記入力手段を介して入力されたジ
ェスチャの軌跡の画面上の位置と、それに対応する時刻
情報とともに出力するインターフェース制御手段と、上
記インターフェース制御手段から出力されるジェスチャ
の軌跡の画面上の位置に対して、上記複数の指示物候補
を含む図に関する知識を用いて解析することにより、上
記ジェスチャの種類と、それに対応する時刻情報と、上
記複数の指示物候補のうち上記ジェスチャによって指示
される指示物候補である指示物の情報とを出力するジェ
スチャ解析手段と、上記言語解析手段から出力される上
記音声認識結果の意味構造とそれに対応する時刻情報
と、上記ジェスチャ解析手段から出力される上記ジェス
チャの種類とそれに対応する時刻情報と上記指示物の情
報とに基づいて、上記音声認識結果の意味構造から上記
ジェスチャに対応する語又は句を検索し、検索された上
記ジェスチャに対応する語又は句と、上記指示物の情報
との時間的関係を検出し、検出された時間的関係に基づ
いて、上記音声認識結果の意味構造と上記ジェスチャの
種類の意味構造とが統合された意味構造を生成して出力
する統合解析手段とを備え、上記ジェスチャ解析手段に
よって解析される上記ジェスチャの種類は、「丸で囲
む」ジェスチャと、「線を引く」ジェスチャと、「点を
打つ」ジェスチャと、「マーキング」ジェスチャと、ラ
ンダムな動きがある描写である「スクランブリング」ジ
ェスチャとを含むことを特徴とする。

【０００８】また、請求項２記載のマルチモーダル情報
統合解析装置は、請求項１記載のマルチモーダル情報統
合解析装置において、上記ジェスチャに対応する語は指
示詞であることを特徴とする。

【０００９】さらに、請求項３記載のマルチモーダル情
報統合解析装置は、請求項１又は２記載のマルチモーダ
ル情報統合解析装置において、上記ジェスチャ解析手段
は、上記ジェスチャの軌跡を囲む長方形の中心を通過す
る複数の線によって上記長方形を複数の領域に分割し、
分割された領域と上記ジェスチャの軌跡との関係に基づ
いて、上記ジェスチャの種類を判断することを特徴とす
る。

【００１０】

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。図１は、本発明に係る一
実施形態であるマルチモーダル情報統合解析装置のブロ
ック図である。この実施形態のマルチモーダル情報統合
解析装置は、例えば、地図を用いた道案内システムであ
って、ＣＲＴディスプレイ３３上に京都駅付近の地図が
表示され、ユーザがマイクロホン３１を通じて「京都駅
はここですか」としゃべると同時に、ユーザの指を使っ
て京都駅を例えば丸で囲むポインティング・ジェスチャ
を行う場面を仮定して説明する。ここで、当該マルチモ
ーダル情報統合解析装置は、ＣＲＴディスプレイ３３の
画面上にある図や絵の上に線などを引くことによってな
されるジェスチャの情報と、それと同時になされる発話
音声の情報を入力として受信し、地図データベース２４
に予め記憶されたＣＲＴディスプレイ３３の画面上の表
示物に関する知識データと、それぞれ各メモリに予め記
憶された隠れマルコフ網（以下、ＨＭ網という。）２
１、文脈自由文法２２、及び単語辞書２３などの言語に
関する知識を用いて入力された発話音声の意味構造とジ
ェスチャの意味構造をそれぞれ解析した後、発話音声の
意味構造とジェスチャの意味構造とを時間経過に従って
統合的に解析して解析結果を出力するものである。

【００１１】この実施形態のマルチモーダル情報統合解
析装置は、図１に示すように、各種制御処理実行する処
理部として、監視制御部１０と音声認識部１１と言語解
析部１２とグラフィックユーザインターフェース制御部
（以下、ＧＵＩ制御部という。）１３とジェスチャ解析
部１４と統合解析部１５（以下、総称して、処理部１０
−１５という。）とを備える。ここで、各処理部１１−
１５を総合的に監視制御する監視制御部１０に、音声認
識部１１と言語解析部１２とＧＵＩ制御部１３とジェス
チャ解析部１４と統合解析部１５が接続される。また、
各処理部１１−１４には、監視制御部１０によってセッ
ト・リセットが制御されるクロック信号発生器３０によ
って発生されるクロック信号が入力され、各処理部１１
−１４は、当該クロック信号に基づいて、スタートボタ
ン３２ａがオンされたときの時刻、すなわち、オンセッ
ト時刻からのクロック時刻（本実施形態では、ミリ秒の
単位で表わす。）が計算されて、当該装置のマルチモー
ダル情報の基準時刻となる。

【００１２】ユーザからの入力情報機器として、マイク
ロホン３１と、スタートボタン３２ａとストップボタン
３２ｂとクウイットボタン３２ｃとを有するキーボード
３２と、画面上がタッチパネルとなっているＣＲＴディ
スプレイ３３と、マウス３４とを備え、ここで、マイク
ロホン３１は音声認識部１１に接続され、キーボード３
２は監視制御部１０に接続され、ＣＲＴディスプレイ３
３及びマウス３４がＧＵＩ制御部１３に接続される。一
方、出力情報機器として、ＣＲＴディスプレイ３５が設
けられ統合解析部１５に接続される。

【００１３】音声認識部１１には、ＨＭ網２１と文脈自
由文法２２とが接続され、言語解析部１２には文脈自由
文法２２と単語辞書とが接続される。また、ジェスチャ
解析部１４には、地図データベース２４とジェスチャ辞
書２５とが接続され、統合解析部１５にはジェスチャ辞
書２５が接続される。

【００１４】ここで、監視制御部１０と音声認識部１１
と言語解析部１２とＧＵＩ制御部１３とジェスチャ解析
部１４と統合解析部１５はそれぞれ、例えばデジタル電
子計算機で構成され、各処理部１０−１５はそれぞれ、
ＣＰＵと、動作プログラムとそれを実行するためのデー
タを記憶するＲＯＭと、ワーキングメモリとして用いら
れるＲＡＭとを備える。なお、６個の処理部１０−１５
を１つのデジタル電子計算機で構成してもよい。さら
に、ＨＭ網２１、文脈自由文法２２、単語辞書２３、地
図データベース２４、及びジェスチャ辞書２５は、例え
ばハードディスクメモリなどのメモリに記憶される。

【００１５】まず、各処理部１１−１５に接続される各
データベースについて以下に説明する。ＨＭ網２１と文
脈自由文法２２と単語辞書２３とは、音声認識及び言語
解析のための言語に関する知識のデータベースであり、
地図データベース２４はＣＲＴディスプレイ３３の画面
上に表示される表示物又は指し示す指示物に関する知識
のデータベースであり、ジェスチャ辞書２５はユーザが
ＣＲＴディスプレイ３３の画面（当該画面はいわゆるタ
ッチパネルとして動作する。）上で行うジェスチャの種
類を識別するための知識のデータベースである。

【００１６】単語辞書２３においては、単語辞書２３に
おける道案内タスクに関係する４３個の単語が存在し、
複数の単語とその属性は素性構造で表され、音響情報を
捕捉するための時間の情報とジェスチャの空間的な情報
とを伴って増大される。単語辞書２３の一例を表１に示
す。

【００１７】

【表１】単語辞書２３における直示表現の素性構造 ─────────────────────────────────── (deflex-named このあたり-1 このあたり n-deictic !(lex-phon-orth "konoatari" " このあたり") (<!m sem> == [[RELN DEITIC-PLACE] [AGEN *SPEAKER*] [RECP *HEARER*] [OBJE [[RELN このあたり]]]]) (<!m time-stamp> == [[SPEECH [[tS ?X1] [tE ?X2]]]]) (<!m gesture> == [[RELN CIRCLING-3] [LOCATION [[lS [[X ?X][Y ?Y]]] [lE [[X ?X][Y ?Y]]]]] [TIME-STAMP [[mouse [[tS ?X1] [tE ?X2]]]]]]) (<!m prag> == [[iterr agen]])) ───────────────────────────────────

【００１８】ここで、表１の内容について説明すると、
第１行目は、言語解析用の辞書中の、指示語「このあた
り」の定義であり、第１行目の「(deflex-named この
あたり-1 このあたり n-deictic」は、「このあたり」
というインデックスを持ち、n-deicticという品詞であ
る、「このあたり-1」という語を定義する。第２行目の
「!(lex-phon-orth "konoatari" "このあたり")」は、
音と表記はそれぞれ、"konoatari"、"このあたり"であ
るということを意味する。第３乃至第６行目の「

【数１】」は、意味(sem)の属性としては、DEITIC-PLACEという
関係名、*SPEAKER*という主体、*HEARER*という受容
体、「このあたり」という関係をもつ対象を定義する。
第７行目の「(<!m time-stamp> == [[SPEECH [[tS ?X1]
[tE ?X2]]]])」は、時間情報(time-stamp)という属性
としては、発話の開始時刻、終了時刻を定義する。第８
行目から第１２行目までの「

【数２】 (<!m gesture> == [[RELN CIRCLING-3] [LOCATION [[lS [[X ?X][Y ?Y]]] [lE [[X ?X][Y ?Y]]]]] [TIME-STAMP [[mouse [[tS ?X1] [tE ?X2]]]]]]) 」は、ジェスチャ情報(gesture)という属性としては、C
IRCLING-3という関係名、ジェスチャの行なわれたディ
スプレイ上の場所、ジェスチャが行なわれた手段とその
開始・終了時刻を定義する。第１３行目の「(<!m prag>
== [[iterr agen]]))」は、語用論的(prag)な属性とし
て、情報の保持者を定義する。

【００１９】本実施形態のジェスチャ辞書２５において
は、ただ８個のエントリー（見出し語）のみが存在して
いる。当該ジェスチャの素性構造における素性はジェス
チャの時間的及び空間的情報を捕捉するように構成され
ている。ジェスチャ辞書２５の一例を表２に示す。

【００２０】

【表２】ジェスチャ辞書２５におけるジェスチャの素性構造 ─────────────────────────────────── (deflex-named CIRCLING-3 CIRCLING gesture (<!m sem> == [[RELN CIRCLING-3] [LOCATION [[lS [[X ?X][Y ?Y]]] [lE [[X ?X][Y ?Y]]]]] [TIME-STAMP [[mouse [[tS ?X1] [tE ?X2]]]]]]) ───────────────────────────────────

【００２１】表２の説明をすると、第１行目の「(defle
x-named CIRCLING-3 CIRCLING gesture」は、CIRCLIN
Gというインデックスを持ち、gestureという品詞であ
る、CIRCLING-3（「丸で囲む」−３）というジェスチャ
を定義する。第２行目から第６行目までの「

【数３】」は、表１と同様であり、ジェスチャ情報(gesture)と
いう属性としては、CIRCLING-3という関係名、ジェスチ
ャの行なわれたディスプレイ上の場所、ジェスチャが行
なわれた手段とその開始・終了時刻を定義する。

【００２２】次いで、地図データベース２４は、地図上
の物体又は指示物候補が属性のリストを有して表されて
いる。地図データベース２４の一例を表３に示す。

【００２３】

【表３】地図データベース２４における地図の表現 ─────────────────────────────────── [Object number][min X][min Y][max X][max Y][kind of object] [name of object] example: [1][56][145][70][178][hotel][kyoto-hotel] ───────────────────────────────────

【００２４】表３の説明を行うと、指示物候補番号は１
であって、その指示物候補のＣＲＴディスプレイ３３の
画面上のｘ座標値の最小値（ｍｉｎｘ）は５６であ
り、その指示物候補のｙ座標値の最小値（ｍｉｎｙ）
は１４５であり、その指示物候補のｘ座標値の最大値
（ｍａｘｘ）は７０であり、その指示物候補のｙ座標
値の最大値（ｍａｘｙ）は１７８である。また、指示
物候補の種類は「ホテル」であって、指示物候補の名前
は「京都ホテル」である。

【００２５】音声認識部１１に接続されるＨＭ網２１
は、音素環境依存型の効率のよい隠れマルコフモデルの
表現形式を用いて、各状態をノードとする複数のネット
ワークとして表され、各状態はそれぞれ以下の情報を有
する。（ａ）状態番号（ｂ）受理可能なコンテキストクラス（ｃ）先行状態、及び後続状態のリスト（ｄ）出力確率密度分布のパラメータ（ｅ）自己遷移確率及び後続状態への遷移確率また、文脈自由文法２２は、音声認識と言語解析の両方
のために用いられる１１４個の文法規則を含む。用語数
の大きさは４３単語であり、１．７４の音素パープレキ
シティを有する。

【００２６】監視制御部１０は、すべての処理部１１−
１５を制御し、データフローを統制する複数機能のモジ
ュールである。図２は、監視制御部１０によって実行さ
れる監視制御処理であり、これについて以下図２を参照
して説明する。

【００２７】まず、ステップＳ１でスタートボタン３２
ａがオンされたか否かが判断され、オンされたときステ
ップＳ２に進み、オンされていないときはステップＳ１
の処理を繰り返す。ステップＳ２では、すべての処理部
１１−１５を初期化する。この時点において、音声認識
部１１はマイクロホン３１からの音声入力の検出を開始
し、音声認識処理を実行し、音声認識結果を監視制御部
１０に出力する。一方、ＧＵＩ制御部１３は、画面がタ
ッチパネルであるＣＲＴディスプレイ３３の画面でユー
ザによって入力されるジェスチャに関するデータ、及び
ユーザがマウス３４を操作することによって入力される
ジェスチャに関するデータの検出を開始し、検出したジ
ェスチャに関するデータ（具体的には、画面上のジェス
チャの軌跡の各点の座標値）を監視制御部１０に出力す
る。同時に、ステップＳ３では、クロック信号発生器３
０をリセットし、クロック信号発生器３０が発生するシ
ステムクロック時刻（以下、クロック時刻という。）を
０にリセットした後、その計時を開始させる。システム
クロック時刻はクロック信号発生器３０から各処理部１
１−１４に出力される。これにより、１つの処理期間で
あるターン（turn）が開始される。

【００２８】ステップＳ４では、データ転送処理が実行
され、監視制御部１０は、音声認識部１１から出力され
るクロック時刻情報付きの音声認識結果のデータを言語
解析部１２に転送するとともに、ＧＵＩ制御部１３から
出力されるクロック時刻情報付きのジェスチャに関する
データをジェスチャ解析部１４に転送する。このとき、
言語解析部１２はクロック時刻情報付きの音声認識結果
のデータに基づいて後述するように言語解析処理を実行
して、処理結果であるクロック時刻情報付きの音声の意
味構造を含むデータを監視制御部１０に出力する。一
方、ジェスチャ解析部１４はクロック時刻情報付きのジ
ェスチャに関するデータに基づいて後述するようにジェ
スチャの種類の解析を行って、処理結果であるクロック
時刻情報付きのジェスチャの意味構造を含むデータを監
視制御部１０に出力する。

【００２９】次いで、ステップＳ５ではストップボタン
３２ｂがオンされたか否かが判断され、オンされていな
いときはいまだ当該ターンの期間であるので、ステップ
Ｓ５の処理を繰り返し、オンされたときは、ステップＳ
６に進み、各処理部１１−１４に対してターンの終了を
通知する。そして、ステップＳ７では、クロック信号発
生器３０の計時を停止させる。ステップＳ８では、デー
タ転送処理が実行され、監視制御部１０は、言語解析部
１２からのクロック時刻情報付きの音声の意味構造を含
むデータと、ジェスチャ解析部１４からのクロック時刻
情報付きのジェスチャの意味構造を含むデータとを統合
解析部１５に出力する。そして、ステップＳ９において
統合解析部１５に対して後述の統合解析処理を実行させ
て、その解析結果をＣＲＴディスプレイ３５に出力させ
て表示させる。次いで、ステップＳ１０では、クウイッ
トボタン３２ｃがオンされたか否かが判断され、オンさ
れたときは、当該監視制御処理を終了し、オンされてい
ないときはステップＳ１に戻って上述の処理を繰り返
す。

【００３０】監視制御部１０の最も重要な処理の１つ
は、ステップＳ８での“イベント収集”であり、すなわ
ち、図４に示すように、１つのターン（“オンセット時
刻”と“オフセット時刻”との間）において生じるすべ
ての周辺のイベント（音声、ジェスチャなど）を収集
し、それらを統合解析部１５に受け渡す。音声の意味構
造のデータについては、単語毎に開始時刻と終了時刻が
付与され、ジェスチャの意味構造のデータについては、
１つのジェスチャ毎に開始時刻と終了時刻が付与され
る。ここで、オンセット時刻は、１つのターンの開始時
刻でありユーザがスタートボタン３２ａをオンしたとき
の時刻である。オフセット時刻は、当該ターンの終了時
刻でありユーザがストップボタン３２ｂをオンしたとき
の時刻である。

【００３１】音声認識部１１は、エイ・ティ・アール音
声翻訳通信研究所で研究発展されてきた音素同期型ＳＳ
Ｓ−ＬＲ技術（例えば、従来技術の文献「Ｈａｒａｌｄ
Ｓｉｎｇｅｒｅｔａｌ．，“ＡＭｏｄｕｌａｒ
ＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎＳｙｓｔｅ
ｍＡｒｃｈｉｔｅｃｔｕｒｅ”，Ｐｒｏｃｅｅｄｉｎ
ｇｓｏｆＡｃｏｕｓｔｉｃＳｏｃｉｅｔｙ，Ｊａ
ｐａｎ，Ｆａｌｌ，１９９４年」参照。）に基づく従来
技術の連続音声認識装置を採用しており、新しいモジュ
ールが容易に加えられるようにモジュール方式に重きを
おいて発展されたものである。

【００３２】ユーザの発話音声はマイクロホン３１に入
力されて音声信号に変換された後、特徴抽出処理が実行
される。この処理では、音声信号をＡ／Ｄ変換した後、
例えばＬＰＣ分析を実行し、対数パワー、１６次ケプス
トラム係数、Δ対数パワー及び１６次Δケプストラム係
数を含む３４次元の特徴パラメータを抽出する。次い
で、抽出された特徴パラメータについて音素照合処理及
びＬＲパーザ処理が実行される。ここでは、不特定話者
モデルであるＨＭ網２１を用いて音素照合区間内のデー
タに対する尤度が計算され、この尤度の値が音素照合ス
コアとしてＬＲパーザに返され、ＬＲパーザは文脈自由
文法２２を参照して入力された音素予測データについて
左から右方向に、後戻りなしに処理する。構文的にあい
まいさがある場合は、スタックを分割してすべての候補
の解析が平行して処理される。ＬＲパーザは文脈自由文
法２２に基づいて次にくる音素予測して音素予測データ
を出力し、音素照合処理では、その音素に対応するＨＭ
網２１の情報を参照して照合し、その尤度を音声認識ス
コアとしてＬＲパーザに戻し、順次音素を連接していく
ことにより、連続音声認識を行い、その音声認識結果の
データを、クロック時刻情報付きで監視制御部１０に出
力する。上記連続音声認識の処理において、複数の音素
が予測された場合には、これらすべての存在をチェック
し、ビームサーチの方法により、部分的な音声認識の尤
度の高い部分木を残すという枝刈りを行って高速処理を
実現する。

【００３３】本実施形態の音声認識部１１において認識
された複数の文章はほとんど短くてかつ簡単なものであ
り、それらは、例えば、「京都ホテルはこのあたりで
す」という直示的な表現の例を含んでいる。複数の文章
は連続モード又は連結されたモードのいずれかで発話さ
れることができる。ユーザは１呼吸で１つの文章を自由
に発話することができ、もしくは、２つの文節のフレー
ズの間で１つのポーズを自由におくことができる。音声
認識部１１からの出力は、各単語に対して、認識された
単語、開始時刻及び終了時刻の３つの要素である。音声
認識部１１から出力される音声認識結果の一例を表４に
示す。

【００３４】

【表４】音声認識結果 ─────────────────────────────────── sentence: 京都ホテルはこのあたりですか recognition results: 1135 : time elapsed since the turn "onset time" 京都ホテル 0 830 : speech onset & offset time は 830 920 3842 : time elapsed since the turn "onset time" このあたり 0 780 : speech onset time reset due to the pause で 780 860 す 860 1050 か 1050 1200 京都ホテルはこのあたりですか -32.115994 ───────────────────────────────────

【００３５】表４について説明すると、表４の内容の意
味は以下の通りである。音声認識結果の文は、「京都ホ
テルはこのあたりですか」であり、この文のうちの「京
都ホテル」の開始時刻（以下、第１の開始時刻とい
う。）は、オンセット時刻から１１３５ミリ秒の経過時
間が経過したときである。ここで、音声認識結果の文の
うちの「京都ホテル」は第１の開始時刻を基準として０
ミリ秒から８３０ミリ秒までの時間にあり、「は」は８
３０ミリ秒から９２０ミリ秒までの時間にある。上記文
のうちの「このあたり」の開始時刻（以下、第２の開始
時刻という。）は、オンセット時刻から３８４２ミリ秒
の経過時間が経過したときである。ここで、「このあた
り」は第２の開始時刻を基準として０ミリ秒から７８０
ミリ秒までの時間にあり、「で」は７８０ミリ秒から８
６０ミリ秒までの時間にあり、「す」は８６０ミリ秒か
ら１０５０ミリ秒までの時間にあり、「か」は１０５０
ミリ秒から１２００ミリ秒までの時間にある。そして、
音声認識結果の文「京都ホテルはこのあたりですか」の
スコアは「−３２．１１５９９４」である。

【００３６】言語解析部１２は、パージング（文解析）
ツールキット（従来技術の文献「Ｔｏｓｈｉｈｉｓａ
Ｔａｓｈｉｒｏｅｔａｌ．，“ＡＰａｒｓｉｎｇ
ＴｏｏｌｋｉｔｆｏｒＳｐｏｋｅｎＬａｎｇｕ
ａｇｅＰｒｏｃｅｓｓｉｎｇ”，ＷＧＮＬＭｅｅｔ
ｉｎｇｏｆＩＰＳＪ，９５−ＮＬＰ−１０６，１
９９５年」参照。）を用いて発展されたものであり、こ
のパージングツールキットは、瞬時の音声における多く
の言葉の音素を取り扱うために、効率的なユニフィケー
ションやモジュール方式に重きをおいて発展されてい
る。この言語解析部１２への入力データは、音声認識の
結果である。音声認識の結果を受信したときに、言語解
析部１２はまず、文脈自由文法２２内の文法規則を用い
て解析木を発生し、次いで、当該木を依存構造に変換
し、最後に、発話の意味上の素性構造（表５）、すなわ
ち音声の意味構造とクロック時刻情報とを含むデータを
生成する。次いで、当該データは、監視制御部１０を介
して統合解析部１５に手渡される。ここで、言語解析部
１２の出力結果の一例を表５に示す。

【００３７】

【表５】言語解析部１２の出力結果 ─────────────────────────────────── sentence: 京都ホテルはこのあたりですか [SEM [[RELN *YN-QUESTION*] [AGEN *SPEAKER*] [RECP*HEARER*] [OBJE [[RELN *BE-LOCATED*] [IDEN [[RELN *京都ホテル*]]] [PLACE [[RELN *DEICTIC-PLACE*] [AGEN *SPEAKER*] [RECP *SPEAKER*] [OBJE [[RELN *このあたり*] [PRAG [[ITERR *SPEAKER*]]] [TIME-STAMP [[SPEECH [[tS ?X1] [tE ?X2]]]]] [GESTURE [[RELN CIRCLING-3] [LOCATION [[lS [[X ?X][Y ?Y]]] [lE [[X ?X][Y ?Y]]]]] [TIME-STAMP [[mouse [[tS ?X1] [tE ?X2]]]]] ]]]]]]]]]] ───────────────────────────────────

【００３８】表５について説明すると、第１行目は、入
力された文字列の文は、「京都ホテルはこのあたりです
か」であり、第２行目の「[SEM [[RELN *YN-QUESTION
*]」は、この文の発話意図は*YN-QUESTION*（はい、い
いえで答える質問）であることを意味する。第３行目及
び第４行目の「

【数４】 [AGEN *SPEAKER*] [RECP *HEARER*] 」は、表１と同様に、*SPEAKER*という主体、*HEARER*
という受容体を定義する。そして、第５行目の「[OBJE
[[RELN *BE-LOCATED*]」は、質問内容が、「もの(IDEN)
が場所(PLACE)にある」という内容であることを意味す
る。第６行目の「[IDEN [[RELN *京都ホテル*]]]」は、
「ものは「京都ホテル」である。」ということを意味す
る。さらに、第７行目から第１７行目までの「

【数５】 [PLACE [[RELN *DEICTIC-PLACE*] [AGEN *SPEAKER*] [RECP *SPEAKER*] [OBJE [[RELN *このあたり*] [PRAG [[ITERR *SPEAKER*]]] [TIME-STAMP [[SPEECH [[tS ?X1] [tE ?X2]]]]] [GESTURE [[RELN CIRCLING-3] [LOCATION [[lS [[X ?X][Y ?Y]]] [lE [[X ?X][Y ?Y]]]]] [TIME-STAMP [[mouse [[tS ?X1] [tE ?X2]]]]]]]]]]]]]]] 」は、場所が、「このあたり」で示されるものであるこ
とを示す。

【００３９】ＧＵＩ制御部１３は、例えば図６に示すグ
ラフィックス画面を表示することによってユーザインタ
ーフェースを管理し、ＣＲＴディスプレイ３３の画面上
の複数のスクリーンイベント（例えば、タッチパネル上
の複数のジェスチャ）をモニタする。特に、ＧＵＩ制御
部１３は、以下の処理を実行する。（ａ）図６の下部に示すように、複数の指示物候補（建
物、駅など）を含む地図及び他のグラフィックスを表示
する。（ｂ）ユーザによる地図上のジェスチャの軌跡に対応す
る座標値を読み出す。（ｃ）キーボード３２のプッシュボタン３２ａ，３２
ｂ，３２ｃの複数のイベントを検出する。（ｄ）図６の上部に示すように、統合解析部１５によっ
て実行された統合解析結果（これは、統合解析部１５か
ら監視制御部１０介してＧＵＩ制御部１３に入力され
る。）音声認識結果とジェスチャ解析結果との間の時間
的なマッチングの結果を表示する。また、発話とジェス
チャの単一化された意味上の表現を表示する。

【００４０】ジェスチャ解析部１４の主たる処理は、次
の通りである。１）直示的なジェスチャの種類（「丸で囲む」、「線を
引く」など）を認識すること、２）指示物候補（目的物）を選択すること、並びに、３）ジェスチャの時間的及び空間的情報（例えば、表６
に示す。）を生成すること。当該ジェスチャ解析部１４によって実行されるジェスチ
ャ解析処理は図３に示すように、ステップＳ１１のジェ
スチャ認識処理と、ステップＳ１２の指示物の選択処理
とかなる。

【００４１】ステップＳ１１のジェスチャ認識処理にお
いては、以下の処理が実行される。まず、ＧＵＩ制御部
１３から監視制御部１０介して入力される、１つのジェ
スチャの全体の軌跡の点（ＣＲＴディスプレイ３３の画
面上のｘ，ｙ座標値）をメモリ内に記憶する。次いで、
図５に示すように、上記記憶された軌跡の点のｘ，ｙ座
標値の最小値（ｍｉｎｘ）及び（ｍｉｎｙ）と最大
値（ｍａｘｘ）及び（ｍａｘｙ）を計算し、その中
心Ｏの点を見つける。そして、図５に示すように例えば
「丸で囲む」のジェスチャ６００の場合、上記軌跡の点
のｘ，ｙ座標値の最小値（ｍｉｎｘ）及び（ｍｉｎ
ｙ）と最大値（ｍａｘｘ）及び（ｍａｘｙ）の長方
形内に位置する「丸で囲む」のジェスチャ６００の領域
を８個の領域Ａ１乃至Ａ８に分割し、各領域Ａ１乃至Ａ
８に属する座標値を計算する。

【００４２】そして、もし、当該ジェスチャ６００の軌
跡の点の座標値がすべての領域Ａ１乃至Ａ８において存
在し、当該ジェスチャ６００の開始点６０１と終了点６
０２との間のユークリッド距離が５０（現在の割り当て
設計値）よりも小さいならば、そのジェスチャ６００は
「丸で囲む」であると判断する。また、もしただ１つの
領域において複数の軌跡の点が存在しているならば、そ
のときそのジェスチャは「ポインティング（さし示す、
もしくは点を打つ）」であると判断する。もし領域Ａ６
及びＡ７において軌跡の点が存在しておらず、当該ジェ
スチャ６００の開始点６０１と終了点６０２の間のユー
クリッド距離が３（現在の割り当て設計値）よりも小さ
いときは、そのジェスチャは、「マーキング」であると
判断する。残りの条件のときは、「線を引く」ジェスチ
ャであると判断する。

【００４３】次いで、ステップＳ１２の指示物の選択処
理においては、以下の通り処理が実行される。ここで、
指示物候補とは、ＣＲＴディスプレイ３３の地図上での
建物や駅のことであり、例えば、京都ホテル、京都駅な
どである。（ａ）「丸で囲む」ジェスチャと判断されたときは、丸
の周囲内又は周囲上のいずれかにあるすべての指示物候
補の中で、中心に近接する指示物が選択される。（ｂ）「ポインティング」ジェスチャと判断されたとき
は、指示対象に位置する指示物が選択される。（ｃ）「線を引く」ジェスチャと判断されたときは、軌
跡上に位置する指示物が選択される。（ｄ）「マーキング」ジェスチャと判断されたときは、
中心に最も近接する指示物が選択される。表６に、ジェスチャ解析部１４から出力される解析結果
であるジェスチャの時間的及び空間的情報（もしくは、
ジェスチャの意味構造という。）の一例を示す。

【００４４】

【表６】ジェスチャの時間的及び空間的情報 ─────────────────────────────────── 3 : turn I.D circle : gesture analysis result 3119 : gesture onset time 4864 : gesture offset time (897,921) (128,164) : object coordinates ───────────────────────────────────

【００４５】表６について説明すると、第１行目はター
ンのＩＤ番号であり、第２行目は「丸で囲む」というジ
ェスチャが判断されたことを示す。第３行目は、当該ジ
ェスチャの開始点の時刻は、オンセット時刻から計時し
て３１１９ミリ秒であることを意味し、第４行目は、当
該ジェスチャの終了点の時刻は、オンセット時刻から計
時して４８６４ミリ秒であることを意味する。そして、
第５行目は、当該ジェスチャによって指示された指示物
の座標値、具体的には、（ｍａｘｘ，ｍａｘｙ）と
（ｍｉｎｘ，ｍｉｎｙ）の組を意味する。

【００４６】すなわち、ジェスチャ解析部１４は、座標
情報からジェスチャの種類を認識し、その結果とＣＲＴ
ディスプレイ３３の画面上の図や絵に関する知識からそ
のジェスチャが指示している指示物を推定して判断す
る。図５及び図６のジェスチャの場合は、ジェスチャの
「丸」と画面上の地図との位置関係から、「京都ホテ
ル」が指示されているというこを判断することができ
る。最終的に、ジェスチャの種類、時刻、指示物に関す
る情報を有する意味構造を生成する。

【００４７】統合解析部１５は、以下の処理を実行す
る。（ａ）言語解析部１２から監視制御部１０を介して入力
される、発話音声の意味上の素性構造と、ジェスチャ解
析部１４から監視制御部１０を介して入力される、ジェ
スチャの時間的及び空間的情報を受信する。（ｂ）上記発話音声の意味上の素性構造における直示的
な素性（例えば、指示詞「ここ」）を検索する。（ｃ）上記直示的な素性とジェスチャとの間の時間的な
配置関係をチェックする。例えば、図６に示すように、
「ここ」という発話と、「丸で囲む」ジェスチャとの時
間的な配置関係はどうか、具体的には、例えば、「こ
こ」という発話時間内に「丸で囲む」ジェスチャの時間
が含まれているか？、含まれているならば、直接的な指
示関係があると判断される。また、「まるで囲む」ジェ
スチャの直後に、「ここ」という発話がなされても、直
接的な指示関係があると判断される。（ｄ）統合解析結果である、複数のジェスチャの時間的
及び空間的な値を有する直示的な素性構造をＣＲＴディ
スプレイ３５や３３に表示する。その一例を表７に示
す。なお、直示とジェスチャの配置調整が発話とジェス
チャの始まりからなされ、１つのジェスチャが１つの直
示に割り当てられ、残りのジェスチャは無視される。

【００４８】

【表７】統合解析部１５によって生成された発話の意味表現 ─────────────────────────────────── [SEM [[RELN *YN-QUESTION*] [AGEN *SPEAKER*] [RECP*HEARER*] [OBJE [[RELN *BE-LOCATED*] [IDEN [[RELN *京都ホテル*]]] [PLACE [[RELN *DEICTIC-PLACE*] [AGEN *SPEAKER*] [RECP *SPEAKER*] [OBJE [[RELN *このあたり*] [PRAG [[ITERR *SPEAKER*]]] [TIME-STAMP [[SPEECH [[tS 3842] [tE 4622]]]]] [GESTURE [[RELN CIRCLING-3] [LOCATION [[lS [[X 897][Y 921]]] [lE [[X 128][Y 164]]]]] [TIME-STAMP [[mouse [[tS 3119] [tE 4864]]]] ]]]]]]]]]]] ───────────────────────────────────

【００４９】表７を説明すると、この内容は、表５の？
の部分に具体的な数値が入ったものである。すなわち、
統合解析部１５は、音声の意味構造とジェスチャの意味
構造を受信し、音声とジェスチャの時間情報と、ジェス
チャが指示するものとに基づいて、音声の意味構造の中
からジェスチャに対応する部分（指示詞「ここ」）を探
し、そこにジェスチャの意味構造を付加し、最終的に音
声とジェスチャの意味が統合された意味構造を生成して
出力する。要約すれば、統合解析部１５は、上記音声認
識結果の意味構造から指示詞を検索し、検索された指示
詞と、上記指示物の情報との時間的関係を検出し、検出
された時間的関係に基づいて、上記音声認識結果の意味
構造と上記ジェスチャの種類の意味構造とが統合された
意味構造を生成して出力する。

【００５０】さらに、本発明に係る実施形態の変形例に
ついて以下に説明する。

【００５１】＜第１の変形例＞図７は、図１のジェスチ
ャ解析部１４によって実行される変形例のジェスチャ解
析処理を示すフローチャートである。この変形例のジェ
スチャ解析処理は、大きく分けて、ステップＳ２１から
ステップＳ２７までのジェスチャを認識するための処理
と、ステップＳ２８の指示物の選択処理とに分けられ
る。ここで、ジェスチャの種類を判断するステップＳ２
２−Ｓ２３及びＳ２６−Ｓ２８において最初にジェスチ
ャの種類を判断できたときは、図７において図示してい
ないが、制御フローは判断した時点でステップＳ２９に
進む。

【００５２】図７において、ステップＳ２１で、まず、
前置処理が実行される。ここでは、ＧＵＩ制御部１３か
ら監視制御部１０を介して入力された１つのジェスチャ
のすべての軌跡のｘ，ｙ座標値（以下、ジェスチャ点と
いう。）をジェスチャ解析部１４のメモリ内に記憶す
る。もし、同一のｘ，ｙ座標値に複数のジェスチャ点が
ある場合は、１つのジェスチャ点のみを記憶し、残りを
廃棄する。

【００５３】次いで、ステップＳ２２において、ポイン
ティングの判断処理が実行される。すなわち、この処理
では、まず、図８に示すように、上記メモリ内に記憶し
た軌跡のｘ，ｙ座標値に基づいて、ｘ，ｙ座標値の各最
小値（ｍｉｎｘ，ｍｉｎｙ）と各最大値（ｍａｘ
ｘ，ｍａｘｙ）を計算し、すべてのジェスチャ点を囲
む１つの長方形（以下、最小の長方形という。）５００
を仮想的に描く。次いで、次式で定義される密度率ＤＲ
を計算する。

【００５４】

【数６】ＤＲ＝｛（ジェスチャ点の数）／（最小の長方
形５００の面積）｝×１００

【００５５】ここで、面積は、予め決められたｘ，ｙ座
標の値を単位として計算される。このとき、もし、密度
率ＤＲが９０％以上であるときは、入力されたジェスチ
ャは、指示物候補を指し示すジェスチャ、すなわち、
「ポインティング・ジェスチャ」であると判断する。ま
た、もし、ジェスチャ点の数が５未満であって、密度率
が１０％以上であるときは、入力されたジェスチャは
「ポインティング・ジェスチャ」と判断する。

【００５６】次いで、ステップＳ２３において、マーキ
ングの判断処理が実行される。ここでは、図９に示すよ
うに、すべてのジェスチャ点を連結し、ジェスチャ点を
連結した隣接する２つの連結線間の角度θの余弦値ｃｏ
ｓθを計算する。ここで、図９に示すように、各２つの
連結線間の角度θは始点から順番に昇順で番号付けされ
る。そして、以下の４つの条件（第１乃至第４の条件）
がすべて成立するときは、入力されたジェスチャは「マ
ーキング」と判断する。

【００５７】（ａ）図１０（ａ）及び（ｂ）に示すよう
に、角度θ＜９０°又は角度θ＞２７０°であるとき、
ピークと定義し、余弦値ｃｏｓθが０を超えるときの角
度θ（図１０（ａ）及び（ｂ）において、θｐとして示
す。）が存在するとき、すなわち、ピークが存在するこ
とを第１の条件とする。（ｂ）図１１に示すように、ｘ軸方向の最大値（ｍａｘ
ｘ）の点３０１から連結されて最小の長方形５００の
ｘ軸方向の辺に交わる点３０２のｘ座標値からｘ座標の
最小値（ｍｉｎｘ）を引いた長さをｘ１と定義し、ｘ
座標の最大値（ｍａｘｘ）からｘ座標の最小値（ｍｉ
ｎｘ）を引いた長さをｘ２と定義する。このとき、次
式で定義された長さの比の値ＬＲを計算する。

【００５８】

【数７】ＬＲ＝（ｘ１／ｘ２）×１００［％］

【００５９】そして、計算された長さの比の値ＬＲが７
０％以上であることを、第２の条件とする。（ｃ）図１２（ａ）又は（ｂ）に示すように、ピークの
位置が、最小の長方形５００の最下部（底部）又は最上
部に対応すること（これを、２０１，２０２で示す。）
を、第３の条件とする。（ｄ）図１３に示すように、ジェスチャの始点及び終点
が、ピークの反対側の最上部２５％の面積の領域に位置
していることを、第４の条件とする。

【００６０】次いで、ステップＳ２４では、「線を引
く」の判断処理が実行される。ここでは、もし、「ポイ
ンティング」ジェスチャでも、「マーキング」ジェスチ
ャでもない１つのジェスチャが存在し、ジェスチャ点の
数が３未満であるとき、入力されたジェスチャは、「線
を引く」ジェスチャであると判断する。

【００６１】次いで、ステップＳ２５では、中間処理が
実行される。ここで、すべてのジェスチャ点（図１４
（ａ））が図１４（ｂ）に示すように連結され、図１４
（ｃ）に示すように、各２つのジェスチャ点の間を複数
の点で補間する。ここで、補間された点の数は、各２つ
のジェスチャ点の間の距離に依存している。

【００６２】次いで、ステップＳ２６では、「丸で囲
む」、「線を引く」、「スクランブリング」の判断処理
が実行される。ここで、「スクランブリング」とは、丸
や線のように所定の形状でなくランダムな動きがある描
写入力をいう。このステップＳ２６の処理においては、
まず、図１４（ｄ）に示すように、最小の長方形５００
の中心Ｏと各ジェスチャ点とを線で連結し、それらの連
結線を最小の長方形５００の各辺にあたるまで延在させ
る。ここで、延在された線を以下、延在線という。次い
で、延在線が複数のジェスチャ線と交差する回数を計数
し、その交差を以下、ジェスチャ線交差という。

【００６３】そして、もし各ジェスチャ点に対するジェ
スチャ線交差の数が３以上であるときは、入力されたジ
ェスチャは「スクランブリング」であると判断する。ま
た、８５．５％以上の延在線が２つのジェスチャ線交差
を有するときは、「丸で囲む」ジェスチャであると判断
する。もし１５％未満の延在線が１個又はそれ以下のジ
ェスチャ線交差を有し、かつ７５％以上の延在線が２個
のジェスチャ線交差を有するときは、入力されたジェス
チャは「丸で囲む」と判断する。さらに、もしジェスチ
ャ線交差を有しない延在線が存在せず、かつ４０％以上
の延在線が２個のジェスチャ線交差を有するならば、入
力されたジェスチャは「丸で囲む」ジェスチャである。
またさらに、もし７０％以上の延在線がジェスチャ線交
差を有しないならば、入力されたジェスチャは「線を引
く」ジェスチャである判断する。

【００６４】次いで、ステップＳ２７では、「線を引
く」、「丸で囲む」の判断処理が実行される。この処理
では、図１５に示すように、各ジェスチャ点で交差する
ように水平方向の線（ｘ軸方向に平行な線）と垂直方向
の線（ｙ軸方向に平行な線）（以下、平行線という。）
とを仮想的に描く。もし１ケ所のみで交差する延在線が
７０％以上ならば、入力されたジェスチャは「線を引
く」ジェスチャであると判断される。もし３ケ所以上で
交差する延在線がない場合、あるいは１ケ所のみで交差
する延在線が３０％未満である場合、入力されたジェス
チャは「丸で囲む」ジェスチャであると判断される。

【００６５】さらに、ステップＳ２８では、「線を引
く」の判断処理が実行される。この処理では、入力され
たジェスチャが上記の条件に合致しないときは、「線を
引く」ジェスチャである判断される。

【００６６】次いで、ステップＳ２９において、指示物
の選択処理が実行される。上述のジェスチャの種類の判
断処理で以下のように判断されたときに、その種類に応
じて指示物の選択処理が以下のように異なる。そして、
指示物が選択されたときに、ジェスチャ解析部１４は、
ジェスチャの意味構造を示すデータを監視制御部１０を
介して統合解析部１５に出力する。

【００６７】（ａ）「丸で囲む」ジェスチャと判断され
たとき、当該丸の周囲内又は周囲上のいずれかにあるす
べての指示物候補の中で、最小の長方形５００の中心Ｏ
に最も近接する１つの指示物候補が、ユーザによって指
示された指示物として選択される。（ｂ）「ポインティング」ジェスチャと判断されたと
き、ポインティングの指示物候補に位置する指示物候補
が、ユーザによって指示された指示物として選択され
る。（ｃ）「線を引く」ジェスチャと判断されたとき、軌跡
上に位置する指示物候補が、ユーザによって指示された
指示物として選択される。（ｄ）「マーキング」ジェスチャとして判断されたと
き、最小の長方形５００の中心Ｏに最も近接する指示物
候補が、ユーザによって指示された指示物として選択さ
れる。

【００６８】＜第２の変形例＞例えば、申し込み書など
のフォーム（書式）を埋める場合を想定する。ユーザが
「名前はここに書くんですか」と発声すると同時に、指
でフォーム中の１つの欄に丸印をつける場合を考える。
マルチモーダル情報統合解析装置は、上記実施形態と同
様に、ジェスチャの種類を解析して「丸で囲む」ジェス
チャであると判断するが、その後は、指示されるものを
解析する際に、この場合は画面上には地図ではなく、フ
ォームがあることを考え合わせて、最終的にそのジェス
チャはフォーム中の特定の欄を指示していると判断す
る。すなわち、図１の地図データベース２４は、フォー
ムの様式を含むフォームのデータベースにとって代わる
が、その他の構成は図１と同様である。そして、統合解
析部１５は、上記実施形態と同様に、「ここ」に対応し
て指示されるものはフォームの中の１つの欄であると解
析して同定し、その解析結果をＣＲＴディスプレイ３５
の画面上に表示する。

【００６９】＜第３の変形例＞ＣＲＴディスプレイ３３
の画面上には、３次元の物体Ａが表示されているものと
する。そのとき、ユーザが「これをこっちに回転させて
下さい。」と発声するとともに、回転させたい方向（例
えば、右回り）に指で画面をなぞる（例えば、右方向に
円弧を描く。）とする。このとき、ジェスチャ解析部１
４は、まず、そのジェスチャが「線を引く」ジェスチャ
である判断する。次いで、地図データベース２４に代わ
る物体の形状と位置に関するデータベースに基づいて、
ＣＲＴディスプレイ３３の画面上の物体Ａとジェスチャ
との位置関係から、ジェスチャに指示されるものは、物
体Ａであると判断し、最終的には、そのジェスチャの種
類、時刻、指示するもののデータを統合解析部１５に手
渡す。統合解析部１５は、言語解析部１２から監視制御
部１０を介して入力される音声の意味構造から、「もの
を回転させる」という発話がなされているということが
わかるので、その「線を引く」ジェスチャは「回転させ
る」方法を示す「こっち」に対応しており、「右方向
に」という回転の方向を意味するということが判断され
て同定される。そして、最終的に、「物体Ａを右方向に
回転させて下さい。」という統合的な意味を解析して同
定し、その解析結果をＣＲＴディスプレイ３５の画面上
に表示する。

【００７０】＜第４の変形例＞ＣＲＴディスプレイ３３
の画面上には、地図が表示されており、ユーザは「この
ように行くんですね」という発話と同時に、上記地図上
の道路に沿って線を引くジェスチャをしたとする。この
場合は、「線を引く」ジェスチャが指示するものとし
て、線の始点と、終点、及び通過点付近の座標値を抽出
する。そして、統合解析部１５は、「このように」とい
う語と、上記抽出された線の始点と、終点、及び通過点
付近の座標値とを対応付けし、地図上の「始点から通過
点を通って終点まで行く」という統合的な意味を解析し
て同定し、その解析結果をＣＲＴディスプレイ３５の画
面上に表示する。

【００７１】以上説明したように、本実施形態のマルチ
モーダル情報統合解析装置によれば、人間の発話する音
声と人間のジェスチャとを統合的に解析を行って解析結
果を出力することができるマルチモーダル情報統合解析
装置を提供することができる。これにより、人間の発話
する音声と人間のジェスチャとに基づいて人間のより複
雑で具体的な入力情報を解析し判断することが可能とな
る。また、本実施形態のマルチモーダル情報統合解析装
置を、例えば音声対話システムに適用することによっ
て、音声と同時にポインティング・ジェスチャを入力と
して解析することができるので、人間とシステムとの間
のより柔軟な対話を実現することができる。さらに、本
実施形態のマルチモーダル情報統合解析装置を、例えば
マルチモーダル翻訳対話システムにおける入力解析に適
用することによって、発話情報とジェスチャ情報が有機
的に統合された意味構造に基づいて翻訳することがで
き、他の言語へのより正確な翻訳を行うことができる。

【００７２】以上の実施形態及び変形例において、解析
結果である統合的な意味構造を出力する出力機器とし
て、ＣＲＴディスプレイ３５を用いているが、本発明は
これに限らず、他の画像表示装置、プリンタなどの他の
情報出力装置を設けてもよい。

【００７３】以上の実施形態及び変形例において、ジェ
スチャの種類の判断において、種々のパラメータの値を
用いているが、これらの値は設計値であり必要に応じて
変更してもよい。

【００７４】以上の実施形態及び変形例において、統合
解析部１５は、上記音声認識結果の意味構造から上記ジ
ェスチャに対応する指示詞を検索し、検索された上記ジ
ェスチャに対応する指示詞と、上記指示物の情報との時
間的関係を検出している。本発明はこれに限らず、上記
指示詞に代えて、上記音声認識結果の意味構造から上記
ジェスチャに対応する語又は句を検索し、検索された上
記ジェスチャに対応する語又は句と、上記指示物の情報
との時間的関係を検出してもよい。ここで、上記ジェス
チャに対応する語又は句とは、例えば、以下のものであ
る。例えば、「京都ホテルには空き部屋があります。」
を発話しながら、地図上の「京都ホテル」をマーキング
する場合においては、「京都ホテル」が上記ジェスチャ
に対応する語である。

【００７５】以上の実施形態において、キーボード３２
は監視制御部１０に接続されているが、本発明はこれに
限らず、キーボード３２をＧＵＩ制御部１３に接続し
て、キーボード３２を用いて入力される入力情報をＧＵ
Ｉ制御部１３を介して監視制御部１０に転送してもよ
い。また、キーボード３２は、ＣＲＴディスプレイ３３
上のタッチパネルのキーボードであってもよい。

【００７６】

【発明の効果】以上詳述したように本発明によれば、言
語解析手段から出力される上記音声認識結果の意味構造
とそれに対応する時刻情報と、上記ジェスチャ解析手段
から出力される上記ジェスチャの種類とそれに対応する
時刻情報と上記指示物の情報とに基づいて、上記音声認
識結果の意味構造から上記ジェスチャに対応する語又は
句を検索し、検索された上記ジェスチャに対応する語又
は句と、上記指示物の情報との時間的関係を検出し、検
出された時間的関係に基づいて、上記音声認識結果の意
味構造と上記ジェスチャの種類の意味構造とが統合され
た意味構造を生成して出力する。ここで、解析される上
記ジェスチャの種類は、「丸で囲む」ジェスチャと、
「線を引く」ジェスチャと、「点を打つ」ジェスチャ
と、「マーキング」ジェスチャと、ランダムな動きがあ
る描写である「スクランブリング」ジェスチャとを含
む。従って、人間の発話する音声と人間のジェスチャと
を統合的に解析を行って解析結果を出力することができ
るマルチモーダル情報統合解析装置を提供することがで
きる。これにより、人間の発話する音声と人間のジェス
チャとに基づいて人間のより複雑で具体的な入力情報を
解析し判断することが可能となる。

【図面の簡単な説明】

【図１】本発明に係る一実施形態であるマルチモーダ
ル情報統合解析装置のブロック図である。

【図２】図１の監視制御部によって実行される監視制
御処理を示すフローチャートである。

【図３】図１のジェスチャ解析部によって実行される
ジェスチャ解析処理を示すフローチャートである。

【図４】図１のマルチモーダル情報統合解析装置にお
いて実行される音声とジェスチャの情報の収集を示すタ
イミングチャートである。

【図５】図１のマルチモーダル情報統合解析装置にお
いて実行されるジェスチャの認識と指示物の選択の処理
を示す正面図である。

【図６】図１のＣＲＴディスプレイの画面の一例を示
す正面図である。

【図７】図１のジェスチャ解析部によって実行される
変形例のジェスチャ解析処理を示すフローチャートであ
る。

【図８】図７のジェスチャ解析処理の１つの処理にお
ける最小の長方形を示す図である。

【図９】図７のジェスチャ解析処理の１つの処理にお
ける２本のジェスチャライン間の複数の角度を示す図で
ある。

【図１０】図７のジェスチャ解析処理のジェスチャを
マーキングする処理を示す図である。

【図１１】図７のジェスチャ解析処理の１つの処理に
おける長さの比を示す図である。

【図１２】図７のジェスチャ解析処理の１つの処理に
おけるジェスチャのピーク点の位置を示す図である。

【図１３】図７のジェスチャ解析処理の１つの処理に
おける上部２５％の領域を示す図である。

【図１４】（ａ），（ｂ），（ｃ）及び（ｄ）は図７
のジェスチャ解析処理の「丸で囲む」、「線を引く」及
び「スクランブリング」を決定する処理のプロセスを示
す図である。

【図１５】図７のジェスチャ解析処理の「線を引く」
及び「丸で囲む」を決定する処理のプロセスを示す図で
ある。

【図１６】従来例のマルチモーダル対話地理案内シス
テムのブロック図である。

【符号の説明】

１０…監視制御部、１１…音声認識部、１２…言語解析部、１３…グラフィックユーザインターフェース制御部（Ｇ
ＵＩ制御部）、１４…ジェスチャ解析部、１５…統合解析部、２１…ＨＭ網、２２…文脈自由文法、２３…単語辞書、２４…地図データベース、２５…ジェスチャ辞書、３０…クロック信号発生器、３１…マイクロホン、３２…キーボード、３２ａ…スタートボタン、３２ｂ…ストップボタン、３２ｃ…クウイットボタン、３３，３５…ＣＲＴディスプレイ、３４…マウス。

フロントページの続き (51)Int.Cl.⁶ 識別記号ＦＩＧ１０Ｌ 3/00 ５７１Ｇ０６Ｆ 15/38 Ｚ 15/62 ３２２Ｍ (72)発明者友清睦子京都府相楽郡精華町大字乾谷小字三平谷５番地株式会社エイ・ティ・アール音声翻訳通信研究所内 (72)発明者森元逞京都府相楽郡精華町大字乾谷小字三平谷５番地株式会社エイ・ティ・アール音声翻訳通信研究所内 (56)参考文献特開平８−63319（ＪＰ，Ａ) 特開平６−131437（ＪＰ，Ａ) 特開平５−307432（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G06F 3/16 320 G06F 3/00 601 G06F 17/28 G06T 11/80 G10L 3/00 501 - 571

Claims

(57)【特許請求の範囲】

【請求項１】所定の基準時刻からの経過した時刻情報
を出力する計時手段と、上記計時手段から出力される時刻情報に基づいて、入力
された発話音声を音声認識して、音声認識結果を、上記
音声認識結果に対応する時刻情報とともに出力する音声
認識手段と、上記音声認識手段から出力される音声認識結果とそれに
対応する時刻情報とに基づいて、所定の言語に関する知
識を用いて言語解析して、上記音声認識結果の意味構造
を、それに対応する時刻情報とともに出力する言語解析
手段と、複数の指示物候補を含む図を画面上に表示し、上記表示
した画面上で人間のジェスチャを入力するための入力手
段と、上記計時手段から出力される時刻情報に基づいて、上記
入力手段を介して入力されたジェスチャの軌跡の画面上
の位置と、それに対応する時刻情報とともに出力するイ
ンターフェース制御手段と、上記インターフェース制御手段から出力されるジェスチ
ャの軌跡の画面上の位置に対して、上記複数の指示物候
補を含む図に関する知識を用いて解析することにより、
上記ジェスチャの種類と、それに対応する時刻情報と、
上記複数の指示物候補のうち上記ジェスチャによって指
示される指示物候補である指示物の情報とを出力するジ
ェスチャ解析手段と、上記言語解析手段から出力される上記音声認識結果の意
味構造とそれに対応する時刻情報と、上記ジェスチャ解
析手段から出力される上記ジェスチャの種類とそれに対
応する時刻情報と上記指示物の情報とに基づいて、上記
音声認識結果の意味構造から上記ジェスチャに対応する
語又は句を検索し、検索された上記ジェスチャに対応す
る語又は句と、上記指示物の情報との時間的関係を検出
し、検出された時間的関係に基づいて、上記音声認識結
果の意味構造と上記ジェスチャの種類の意味構造とが統
合された意味構造を生成して出力する統合解析手段とを
備え、上記ジェスチャ解析手段によって解析される上記ジェス
チャの種類は、「丸で囲む」ジェスチャと、「線を引
く」ジェスチャと、「点を打つ」ジェスチャと、「マー
キング」ジェスチャと、ランダムな動きがある描写であ
る「スクランブリング」ジェスチャとを含むことを特徴
とするマルチモーダル情報統合解析装置。
【請求項２】上記ジェスチャに対応する語は指示詞で
あることを特徴とする請求項１記載のマルチモーダル情
報統合解析装置。
【請求項３】上記ジェスチャ解析手段は、上記ジェス
チャの軌跡を囲む長方形の中心を通過する複数の線によ
って上記長方形を複数の領域に分割し、分割された領域
と上記ジェスチャの軌跡との関係に基づいて、上記ジェ
スチャの種類を判断することを特徴とする請求項１又は
２記載のマルチモーダル情報統合解析装置。