JP2002108388A

JP2002108388A - 対話装置及び対話処理プログラムを記録した記録媒体

Info

Publication number: JP2002108388A
Application number: JP2000295661A
Authority: JP
Inventors: Keiko Watanuki; 啓子綿貫
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2000-09-28
Filing date: 2000-09-28
Publication date: 2002-04-10

Abstract

(57)【要約】（修正有）【課題】人間とコンピュータの対話装置において、ユ
ーザとシステムとの間に自然な対話を実現することがで
きる対話装置及び対話処理プログラムを記録した記録媒
体を提供する。【解決手段】対話装置１０は、ユーザの発話権の所在
を判定するユーザ発話特徴判定部２００、システムの発
話権の所在を提示するシステム発話特徴付加部３００、
動作を出力する動作出力部１０９を備え、動きの大小又
は傾向が減少するときは発話権委譲と判定し、変わらな
いときは発話権継続と判定し、システム発話特徴付加部
３００は、自己（システム）の音声出力が終了したとき
に、自己が発話を継続する場合は映像又は動作の動きの
大きさを変化させることなく維持させ、発話権をユーザ
に委譲する場合は、動きの大きさを減少させる制御を行
う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ユーザと機械との
間で自然な対話を実現する対話装置及び対話処理プログ
ラムを記録した記録媒体に関し、詳細には、ユーザから
の音声入力手段と、ユーザの動き検出手段を備えたユー
ザとの対話装置及び対話処理プログラムを記録した記録
媒体に関する。

【０００２】

【従来の技術】近年、音声認識技術が発展し、テレビジ
ョン受像機、ラジオ受信機、車載ナビゲーション、携帯
電話、パーソナルコンピュータ（以下、パソコンとい
う）等の機器に搭載されつつある。音声認識装置は通常
それぞれの機器の一部として内蔵されている。この音声
認識装置、手書き文字認識装置、マウス、ライトペン、
タブレット等のポインティングデバイスなど、複数の入
力装置をコンピュータに接続して、ユーザがその局面局
面において自分にとって最も都合の良い入力装置を使っ
て入力できれば非常に使いやすいインタフェースとな
る。このように複数の異なる入力モードから、ユーザが
任意の入力モードを選択し、組み合わせて自分の意図を
システムに伝えることができるインタフェースのことを
マルチモーダルインタフェースという。

【０００３】また、高性能のワークステーションやパソ
コンの普及に伴って、記憶容量の大きな光磁気ディスク
等の記憶媒体も低廉化し、高解像度の表示装置やマルチ
メディアに適応した周辺機器の価格も大幅に低下してい
る。文書処理、画像データ処理その他の分野では、処理
対象となるデータの情報量の増大に適応可能なデータ処
理機能の向上が要求され、従来、主として文字や数値に
施されていた処理に併せて音声や動画にも多様な処理を
施すことが可能な種々の処理装置が開発されつつある。

【０００４】従来、人間とコンピュータの間のインタフ
ェースとしては、音声入力に対して応答する対話装置が
考えられてきた。これは、人間が発する音声を認識し、
それに応じてシステムの内部状態を変化させ、予め決め
られた出力をし、人間との対話を実現しようとしたもの
である。また、コンピュータとの対話をより円滑にする
ために、入力音声に対してアニメーション等が応答する
出力合成システムが提案されている。

【０００５】

【発明が解決しようとする課題】しかしながら、人間と
コンピュータの間のインタフェースとしては、コンピュ
ータが主導権をもって問いを発し、ユーザはそれにした
がって受動的に答えながら作業を進める形態が主であっ
た。そのため、ユーザの発話の順番が固定的で、ユーザ
の発声のしやすさや対話の自然性等には配慮がなされて
いない。

【０００６】コンピュータと対話するとき、コンピュー
タとユーザの発話のタイミングがよくないと対話の自然
性が失われる。特開平６−１１０８３５号公報には、ユ
ーザの発話を検出して、コンピュータからの音声出力を
さえぎってユーザが発話できるようにした装置が記載さ
れている。また、特開昭６２−４０５７７号公報には、
「え、なんですか」等の発話を検出して、コンピュータ
の発話の途中で聞き返しができるようにした装置が記載
されている。しかし、人間が話し始めたり、話し終わる
という雰囲気は、音声のみに現れるものではなく、身体
の動作や表情などと同時に、あるいは相補的に現れるも
のであるから、上記各公報に記載された手段は必ずしも
満足できるものではない。特に、ユーザが話し始めた
り、話し終わってからコンピュータからの応答をスター
トさせることもあるため、応答のタイミングが遅れスム
ーズな対話がコンピュータとの間で実現できないでい
る。

【０００７】本発明は、このような課題に鑑みてなされ
たものであって、人間とコンピュータの対話装置におい
て、ユーザとシステムとの間に自然な対話を実現するこ
とができる対話装置及び対話処理プログラムを記録した
記録媒体を提供することを目的としている。

【０００８】

【課題を解決するための手段】本発明の対話装置は、音
声入力に対して対応する対話装置において、ユーザから
の音声を入力する音声入力手段と、ユーザの身体の各部
分の動きを複数のフレームにまたがって検出する動き検
出手段と、前記音声入力が有から無に変わったことを判
定する音声特徴判定手段と、前記音声入力が有から無に
変わった時の、前記動き検出手段により検出された身体
の各部分の動きの大きさ、又は該動きの変化の傾向に基
づいてユーザからの発話権委譲及び発話権継続を判定す
る発話権判定手段と、を備えることを特徴としている。

【０００９】本発明の対話装置は、音声を出力する音声
出力手段と、自己の動作を出力する動作出力手段とを備
え、前記音声出力手段及び前記動作出力手段によりユー
ザに対し自己の動作を提示する対話装置において、自己
の音声出力が有から無に変わったとき、自己の発話権委
譲及び発話権継続を判定する機械発話権判定手段と、前
記判定結果に基づいて前記音声出力及び前記動作出力を
変化させる制御手段と、を備えることを特徴としてい
る。また、より好ましくは、前記動き検出手段は、胴体
又は手の動きを検出するものであってもよい。また、前
記動き検出手段により検出される動きは、動きの移動量
の大きさ、動きの速度又は加速度の関数でもよい。

【００１０】また、好ましい具体的な態様としては、前
記発話権判定手段は、前記音声入力が有から無に変わっ
たとき、前記検出された身体の各部分の動きの大きさが
所定値より小さい場合、又は動きの変化が減少傾向にあ
る場合はユーザからの発話権委譲であると判定するもの
であってもよい。また、前記所定値は、前記音声入力が
有から無に変わった時の、前又は後の所定数フレームに
おける動きの大きさの平均値に基づき設定されるもので
あってもよい。

【００１１】また、好ましい具体的な態様としては、前
記動作出力手段は、自己の動作を映像により表示する、
又は機構的構造を有するロボットの動作により表現する
ものであってもよい。また、好ましい具体的な態様とし
ては、前記制御手段は、前記機械発話権判定手段が、発
話権継続であると判定した場合は、前記動作の動きの大
きさを変化させないように制御し、発話権委譲であると
判定した場合は、前記動作の動きの大きさを減少させる
ように制御するものであってもよい。また、前記動作出
力手段は、胴体又は手の少なくとも一つの動作を出力す
るものであってもよい。

【００１２】さらに、本発明は、コンピュータを、音声
入力に対して対応する対話装置において、ユーザからの
音声を入力する音声入力手段と、ユーザの身体の各部分
の動きを複数のフレームにまたがって検出する動き検出
手段と、前記音声入力が有から無に変わったことを判定
する音声特徴判定手段と、前記音声入力が有から無に変
わった時の、前記動き検出手段により検出された身体の
各部分の動きの大きさ、又は該動きの変化の傾向に基づ
いてユーザからの発話権委譲及び発話権継続を判定する
発話権判定手段と、を備える対話装置として機能させる
ためのプログラムを記録したことを特徴とするコンピュ
ータ読み取り可能な記録媒体である。

【００１３】また、本発明は、コンピュータを、音声を
出力する音声出力手段と、自己の動作を出力する動作出
力手段とを備え、前記音声出力手段及び前記動作出力手
段によりユーザに対し自己の動作を提示する対話装置に
おいて、自己の音声出力が有から無に変わったとき、自
己の発話権委譲及び発話権継続を判定する機械発話権判
定手段と、前記判定結果に基づいて前記音声出力及び前
記動作出力を変化させる制御手段と、を備える対話装置
として機能させるためのプログラムを記録したことを特
徴とするコンピュータ読み取り可能な記録媒体である。

【００１４】

【発明の実施の形態】以下、添付図面を参照しながら本
発明の好適な対話装置の実施の形態について詳細に説明
する。まず、本発明の基本的な考え方について説明す
る。本発明者は、実際の人間同士の対話を収録し、分析
した。収録にあたっては、光学式のモーションキャプチ
ャシステムを導入し、音声・画像データと共に、赤外線
カメラで被験者の身体につけたマーカーを光学的にとら
えて、その位置の３次元数値データを収集している。こ
れにより、対話者ふたりの画像・音声データと、マーカ
ー位置の情報とを同じ時間軸上で分析可能なマルチモー
ダル対話データを収集できるようになった。この対話デ
ータにおいて、一定の長さ以上の無音区間（ここでは１
／５ｓｅｃ＝２００ｍｓ）以上で区切られた連続する区
間を発話区間とし、二人の対話におけるすべての発話区
間を、発話の交代が起こる場合と同じ話者が発話を継続
する場合に分類し、それぞれの場合での話者の頭部・胴
体・手の動きの大きさを分析した結果、以下のことがわ
かった。

【００１５】ここで、胴体とは、首から下で腰から上の
身体部分を一塊としてとらえたものであり、具体的には
左右の鎖骨部分２点と胸部分１点にマーカーをつけて動
きを収集した。また、手とは、肩から下の腕部分を含め
た手全体であり、具体的には手首と親指及び小指にマー
カーをつけて動きを収集した。

【００１６】発話交代と発話権継続の場合で、動きの大
きさを各被験者ごとに差を求めて分析した結果、胴体：発話区間の始まり（beginning）の前９フレー
ムにおける動きの大きさの平均が、発話交代＜発話権継
続である。また、発話区間の終わり（end）の後９フレ
ームにおける動きの大きさの平均が、発話交代＜発話権
継続である。すなわち、発話区間終了後から次の発話区
間開始前の間のポーズ区間（非発話区間）の胴体の動き
が、発話交代の場合は減少するのに対し、発話権継続の
場合は減少することなく動きつづける傾向がある。

【００１７】手：発話区間の始まり（beginning）の
前９フレームにおける動きの大きさの平均が、発話交代
＜発話権継続である。また、発話区間の終わり（end）
の後９フレームにおける動きの大きさの平均が、発話交
代＜発話権継続である。すなわち、発話区間終了後から
次の発話区間開始前の間のポーズ区間（非発話区間）の
手の動きが、発話交代の場合は減少するのに対し、発話
権継続の場合は減少することなく動きつづける傾向があ
る。また、発話区間の始まり（beginning）の後９フレ
ームにおける動きの大きさの平均が、発話交代＜発話権
継続である。また、発話区間中の手の動きは、発話交代
の場合より、発話権継続の場合の方が大きい傾向があ
る。頭部：発話交代の場合と発話権継続の場合とで、あま
り有意な差がない。

【００１８】以上のことをまとめると、（１）発話区間終了後から次の発話区間開始前の間のポ
ーズ区間（非発話区間）の胴体及び手の動きが、発話交
代の場合は減少するのに対し、発話権継続の場合は変化
量が少ない。（２）頭部の動きは、発話交代の場合と発話権継続の場
合とで、あまり有意な差がない。

【００１９】本発明は、上記知見に基づき、以下の機能
を備えたことを特徴とする対話装置である。（１）画像処理を用いて求めたユーザの身体各部位の動
きから、発話区間の終了点直後数フレーム（例えば、９
フレーム＝３００ｍｓｅｃ）の動きの大きさを測定し、
そのときの動きの大小又は傾向が減少するときは発話権
委譲と判定し、変わらないときは発話権継続と判定す
る。動きを検出する身体各部位は胴体又は手の動きと
し、動き情報としては、移動量の大きさ、速さ、又は加
速度でもよい。

【００２０】（２）自己（システム）の音声出力が終了
したときに、自己が発話を継続する場合は映像又は動作
の動きの大きさを変化させることなく維持させ、発話権
をユーザに委譲する場合は、動きの大きさを減少させ
る。提示する動きの身体各部位は胴体又は手の動きと
し、動き情報としては、移動量の大きさ、速さ、又は加
速度でもよい。

【００２１】これにより、ユーザとシステムとの対話に
おいて、ユーザの発話権委譲・継続を推定することがで
きるようになるとともに、システム（例えば、ＣＧ（Co
mputer Graphics）やロボット）の動きを制御して、ユ
ーザにシステムの発話権委譲・継続を提示することがで
きるようになり、ユーザとシステムとの間に円滑な対話
を実現できる。

【００２２】図１は、上記基本的な考え方に基づく本発
明の実施の形態の対話装置の基本構成を示すブロック図
である。対話装置として、マルチモーダルインタフェー
スを用いた情報処理装置に適用した例である。図１にお
いて、対話装置１０は、ユーザからの音声信号を入力す
る音声入力部１０１（音声入力手段）、ユーザの身体各
部位の動きを入力する動作入力部１０２（動き検出手
段）、入力された音声信号を認識処理する音声処理部１
０３、入力された動きを認識処理する動作処理部１０
４、ユーザ発話特徴判定部２００（発話権判定手段）、
システム発話特徴付加部３００（機械発話権判定手
段）、ユーザ発話特徴判定部２００の判定結果を管理す
る対話管理部１０５、音声を制御する音声制御部１０
６、動作を制御する動作制御部１０７、音声を出力する
音声出力部１０８（音声出力手段）、及び動作を出力す
る動作出力部１０９（動作出力手段）から構成される。

【００２３】ユーザ発話特徴判定部２００は、ユーザの
発話権の所在を判定する手段であり、入力された音声の
振幅情報から音声の有無を判定する音声特徴判定部２０
１（音声特徴判定手段）と、入力された動作の動きの大
きさを測定する動作特徴判定部２０２と、この両者に基
づいて、ユーザが発話権をシステムに委譲しようとして
いるか、あるいは発話権を維持しようとしているかを判
定するユーザ発話権判定部２０３（発話権判定手段の一
部）とから構成され、判定結果を対話管理部１０５に出
力する。

【００２４】対話管理部１０５は、ユーザ発話特徴判定
部２００の判定結果を管理するもので、ユーザが発話を
継続する場合はシステム発話特徴付加部３００の機能は
スタートさせず、ユーザが発話権を委譲し、システムが
発話権を獲得したとき、システム発話特徴付加部３００
の機能をスタートさせる。

【００２５】システム発話特徴付加部３００は、システ
ムの発話権の所在を提示する手段であり、対話管理部１
０５に基づいて、システムが発話権をユーザに委譲しよ
うとしているか、あるいは発話権を維持しようとしてい
るかを判定するシステム発話権判定部３０１（機械発話
権判定手段の一部）と、その結果に基づいて、発話権の
委譲・継続を音声で提示するための特徴を付加する音声
特徴付加部３０２と、発話権の委譲・継続を動作で提示
するための特徴を付加する動作特徴付加部３０３とから
構成され、付加された音声・動作の特徴をそれぞれ音声
制御部１０６、動作制御部１０７に出力する。上記音声
制御部１０６、動作制御部１０７、音声特徴付加部３０
２及び動作特徴付加部３０３は、全体として、システム
発話権判定部３０１の判定結果に基づいて音声出力及び
動作出力を変化させる制御手段を構成する。

【００２６】図２は、対話装置１０の具体的なシステム
構成を示す図である。図２において、対話装置１０は、
ＣＰＵ１、ＲＡＭからなるワークメモリ２、音声信号及
び動画像信号を入力する入力部３、入力された信号及び
ＣＰＵ１の演算処理結果を格納するデータベース４、ド
ットマトリックス構成の液晶表示装置（ＬＣＤ）等から
なる表示部５、動作形状を出力するロボット６、電源バ
ックアップにより書き込まれた情報を保持するＳＲＡＭ
（Static RAM）カード、ＦＤ、ＣＤ−ＲＯＭ等の外部記
憶装置８、外部記憶装置８の読み取り装置である外部記
憶ドライバ７から構成される。ＣＰＵ１は、音声・動画
像処理の実行を含む装置全体の制御を行う制御部であ
り、内蔵のシステムプログラムに従い、演算に使用する
データを記憶したワークメモリ２を使用して発話権管理
プログラムを実行してワークメモリ２上に処理結果を作
成する。

【００２７】ワーキングメモリ２は、文字表示に関する
データや演算に使用するデータ及び演算結果等を一時的
に記憶するいわゆるワーキングメモリであり、ＣＰＵ１
により実行されるプログラム処理において利用されるプ
ログラム、音声・動画像処理データ等を格納する。な
お、このプログラムは、システムプログラムとして図示
していないＲＯＭに格納されるものでもよい。また、ワ
ーキングメモリとして用いられるＲＡＭの一部の記憶領
域は、電源バックアップするか、あるいはＥＥＰＲＯＭ
（electrically erasable programmable ROM）やフラッ
シュメモリ等の不揮発性メモリにより構成され、電源Ｏ
ＦＦ後も設定条件を保持する。この記憶領域には、各種
設定データや処理データ等が格納される。

【００２８】表示部５は、ドットマトリックス構成の液
晶表示装置（ＬＣＤ）等であり、データベース４に格納
される音声情報やＣＰＵ１の演算処理結果を表示する。
ロボット６は、データベース４に格納される動作情報や
ＣＰＵ１の演算処理結果を動作により提示する。また、
このロボット６は、機構的な構造をもつハード構成のも
のでもよいし、表示部５の表示画面上に例えばＣＧで合
成表示されるものでもよい。

【００２９】外部記憶ドライバ７は、発話権管理プログ
ラムを記憶した外部記憶装置８の読み取り装置である。
メモリカード、ＦＤ、ＣＤ−ＲＯＭ等の外部記憶装置８
は、本発話権管理機能を実現するためのプログラム、後
述する音声・動画像処理プログラム等を記録した記憶媒
体である。

【００３０】以下、上述のように構成された対話装置の
動作を説明する。まず、対話装置１０の基本動作につい
て述べる。図１において、ユーザの音声信号は、マイク
等の音声入力部１０１により入力され、ユーザの胴体及
び手の動きを含む身体各部位の動きは、ビデオカメラ等
の動作入力部１０２により撮像され入力される。動作入
力部１０２は、ユーザの胴体（例えば、右の鎖骨）及び
手（手首）の動きをフレーム毎に撮像し取り込む。この
場合、マーカーを身体に取り付けなくてもキャプチャは
可能である。

【００３１】入力された音声信号は、音声処理部１０３
により認識処理されて対話管理部１０５に出力され、入
力されたユーザの身体各部位の動きは、動作処理部１０
４により認識処理されて対話管理部１０５に出力され
る。ユーザからの音声信号及び動きはまた、ユーザ発話
特徴判定部２００に入力されており、ユーザ発話特徴判
定部２００の音声特徴判定部２０１では、入力された音
声の振幅情報から音声の有無を判定し、動作特徴判定部
２０２では、入力された動作の動きの大きさを測定す
る。そして、ユーザ発話権判定部２０３は、両者の判定
結果に基づいて、ユーザが発話権をシステムに委譲しよ
うとしているか、あるいは発話権を維持しようとしてい
るかを判定し、判定結果を対話管理部１０５に出力す
る。

【００３２】対話管理部１０５は、音声処理部１０３及
び動作処理部１０４により認識処理された音声・動作情
報を管理し、適当なタイミングで音声制御部１０６及び
動作制御部１０７に渡すとともに、ユーザ発話特徴判定
部２００からの判定結果に基づく情報をシステム発話特
徴付加部３００に出力する。

【００３３】システム発話特徴付加部３００のシステム
発話権判定部３０１は、対話管理部１０５からの情報に
基づいて、システムが発話権をユーザに委譲しようとし
ているか、あるいは発話権を維持しようとしているかを
判定し、その判定結果に基づいて、音声特徴付加部３０
２では発話権の委譲・継続を音声で提示するための特徴
を付加し、動作特徴付加部３０３では発話権の委譲・継
続を動作で提示するための特徴を付加する。音声特徴付
加部３０２及び動作特徴付加部３０３により付加された
音声及び動作特徴は、それぞれ音声制御部１０６及び動
作制御部１０７に出力され、音声制御部１０６及び動作
制御部１０７ではこれらの特徴を元の音声及び動作に反
映するように制御して音声出力部１０８及び動作出力部
１０９で提示される。

【００３４】次に、上記ユーザ発話特徴判定部２００に
おける動作について具体的に説明する。音声特徴判定部
２０１では、マイク等の音声入力部１０１から入力され
るユーザの音声データがＡ／Ｄ変換され、所定の処理単
位（例えば、フレーム＝１／３０秒）毎に音声の振幅
（パワー）を抽出し、音声の有無（発話区間）を判定す
る。

【００３５】動作特徴判定部２０２では、ビデオカメラ
等の動作入力部１０２から入力されるユーザの動画像デ
ータがＡ／Ｄ変換され、フレーム（１／３０ｓｅｃ）毎
に動きの大きさを測定する。ここで、動作入力部１０２
は、モーションキャプチャシステムなど、人間等の身体
の一以上の部分の位置情報を抽出するシステムでもよ
く、その場合は、身体各部位の３次元位置情報が動作処
理部１０４に入力される。以下、図３を参照して音声特
徴判定部２０１及び動作特徴判定部２０２の詳細な動作
について説明する。

【００３６】図３は、対話データの分析結果の一例を示
す図であり、我々が実際の人間同士の対話を収録したデ
ータを分析した結果の一部である。ある被験者につい
て、すべての発話区間の終了点前後各９フレーム（＝３
００ｍｓｅｃ）、計１８フレームの各フレームについ
て、頭部、胴体、手の動きの大きさを求め、それぞれ平
均化したものをプロットしたものである。この場合の胴
体は、首から下で腰から上の身体部分を一体としてとら
えたもの、また、手は肩から下の腕部分を含めた手全体
である。

【００３７】図３（ａ）は、頭部の角速度の大きさ（ra
dian/sec）、図３（ｂ）は胴体の角速度の大きさ（radi
an/sec）、図３（ｃ）は利き手の速さ（mm/sec）をそれ
ぞれ示す。横軸は時間（フレーム）であり、０が発話区
間終了点、すなわちユーザからの音声入力が有から無に
変わった時点であり、０から−９の間がユーザの発話区
間終了直前９フレームにおける動きの大きさ、１から９
の間がユーザの発話区間終了直後９フレームにおける動
きの大きさをそれぞれ示す。

【００３８】図３の分析結果から、以下のことがわか
る。（１）発話区間終了直前から直後における胴体及び手の
動きが、発話権委譲の場合は減少するのに対し、発話権
継続の場合は変化量が少ない。（２）頭部の動きは、発話権委譲の場合と発話権継続の
場合とで、あまり有意な差がない。

【００３９】そこで、ユーザ発話権判定部２０３は、音
声特徴判定部２０１と動作特徴判定部２０２の両者に基
づき、音声入力が有から無に変わったこと（すなわち、
発話区間終了）を判定し、そのときの胴体又は手の動き
の大小、又は傾向が減少するときはユーザがシステムに
発話権を委譲すると判定し、変わらないときはユーザが
発話権を継続すると判定して、この判定結果を対話管理
部１０５に入力する。動き情報としては、速度のほか
に、胴体又は手の移動量の大きさ、又は加速度でもよ
い。なお、速度又は加速度から動き動作を抽出するに
は、例えば胴体又は手の各セグメントの速度又は加速度
がそれぞれ一定の閾値を超えている区間を見つければよ
い。このため、各セグメントのフレーム毎の速度情報や
加速度情報を基に、各セグメント毎に予め設定した閾値
を超えるフレーム区間を動作区間として抽出する。ま
た、動きの強度は連続的なものであるから、例えば、頭
の速度又は加速度Ｖ（ｘ，ｙ，ｚ）を抽出する関数ｆ
（ｖｈ）を設定し、動きの強度に応じて動作の区間を抽
出するようにしてもよい。

【００４０】次に、システム発話特徴付加部３００にお
ける動作について具体的に説明する。対話管理部１０５
においてシステム側に発話権があると判定されると、判
定結果はシステム発話特徴付加部３００に入力される。
システム発話権判定部３０１では、自己（システム）の
発話終了時に、引き続きシステムが発話権を継続すると
判定された場合には、音声特徴付加部３０２で音声のパ
ワーを減少させることなく終了させ、同時に、動作特徴
付加部３０３で胴体又は手の動きの大きさを変化させる
ことなく維持させる。一方、システム発話権判定部３０
１でユーザに対して発話権を委譲すると判定された場合
には、音声特徴付加部３０２で音声のパワーを減少させ
ながら終了させ、同時に、動作特徴付加部３０３で胴体
又は手の動きの大きさを減少させることとし、それぞれ
音声制御部１０６、動作制御部１０７に入力する。ここ
で、音声特徴付加部３０２では、パワー（声の大きさ）
のほかに、ピッチ（声の高さ）を変化させてもよい。

【００４１】図４は、ユーザ発話特徴判定部２００の動
作を示すフローチャートであり、本フローは図２のＣＰ
Ｕ１において実行される。図中、Ｓはフローの各ステッ
プを示す。ユーザ発話特徴判定処理がスタートすると、
音声特徴判定部２０１では、Ａ／Ｄ変換された音声信号
の音声パワーから、所定の閾値を超える区間を発話区間
Ｖとして抽出しその始点フレーム番号Ｓｖ（ｎ）及び終
点フレーム番号Ｅｖ（ｎ）を求め、ユーザ発話権判定部
２０３に出力する（ステップＳ１０１）。

【００４２】一方、動作特徴判定部２０２では、Ａ／Ｄ
変換された映像信号から各フレーム毎に胴体又は手の動
きの大きさＭ（ｎ）を求め、それぞれのフレーム番号と
ともにユーザ発話権判定部２０３に出力する（ステップ
Ｓ１０２）。なお、動きセンサー類を用いて身体各部位
の位置情報を測定し、胴体又は手の動きの大きさを求め
てもよい。

【００４３】ユーザ発話権判定部２０３では、音声特徴
判定部２０１で抽出された発話区間Ｖの終点フレーム番
号Ｅｖ（ｎ）前後数フレーム（例えば、前後各９フレー
ム）の動きの大きさの平均Ｍｐｒｅ（ｎ），Ｍｓｕｃ
（ｎ）を動作特徴判定部２０２から抽出された動きの大
きさＭ（ｎ）から求め、その比Ｐ（ｎ）を次式（１）に
より求める。

【００４４】Ｐ（ｎ）＝Ｍｐｒｅ（ｎ）／Ｍｓｕｃ（ｎ） …（１）

【００４５】ここで、ｎは各発話区間終了点のフレーム
番号である。さらに、発話区間終了前後で、ユーザの動
きの大小又は傾向が減少するか、あるいは変化しないか
を判定するために、この比Ｐ（ｎ）がある閾値Ｄ１（こ
こでは１）を超えている（Ｐ（ｎ）＞Ｄ１）かどうかを
調べ（ステップＳ１０３）、閾値を超えていなければ、
ユーザは発話権を維持すると判定して判定結果を対話管
理部１０５に出力して本フローの処理を終了する（ステ
ップＳ１０４）。閾値を超えている場合は、ユーザはシ
ステムに発話権を委譲すると判定して判定結果を対話管
理部１０５に出力して処理を終了する（ステップＳ１０
５）。

【００４６】図５は、システム発話特徴付加部３００の
動作を示すフローチャートであり、本フローは図２のＣ
ＰＵ１において実行される。本処理では、対話管理部１
０５でシステムが発話権を獲得すると、特徴付加処理が
スタートする。システム発話権判定部３０１では、シス
テムの発話区間終了フレームを求め（ステップＳ２０
１）、システムがその時点で発話権を委譲するかあるい
は継続するかを判定する（ステップＳ２０２）。システ
ムが発話権を委譲する場合は、音声特徴付加部３０２で
音声のパワーを減少させ、同時に、動作特徴付加部２０
５で胴体又は手の動きの大きさを減少（Ｍｐｒｅ（ｎ）
／Ｍｓｕｃ（ｎ）＜Ｄ１）させる（ステップＳ２０
３）。すなわち、システムの発話が有から無、換言すれ
ば、システムの発話の終了時に、システム発話権判定部
３０１が、システムが発話を委譲するか継続するかをユ
ーザの動きとは関係なく判定している（ステップＳ２０
２）。

【００４７】システムが発話権を継続する場合は、音声
特徴付加部３０２で音声のパワーを変えることなく、同
時に、動作特徴付加部２０５で胴体又は手の動きの大き
さを変化させることなく維持（Ｍｐｒｅ（ｎ）／Ｍｓｕ
ｃ（ｎ）≧Ｄ１）させ（ステップＳ２０４）、それぞれ
音声制御部１０６、動作制御部１０７に出力して処理を
終了する。

【００４８】以上のように、本実施の形態の対話装置１
０は、ユーザからの音声信号を入力する音声入力部１０
１、ユーザの身体各部位の動きを入力する動作入力部１
０２、入力された音声信号を認識処理する音声処理部１
０３、入力された動きを認識処理する動作処理部１０
４、ユーザの発話権の所在を判定するユーザ発話特徴判
定部２００、システムの発話権の所在を提示するシステ
ム発話特徴付加部３００、ユーザ発話特徴判定部２００
の判定結果を管理する対話管理部１０５、音声を制御す
る音声制御部１０６、動作を制御する動作制御部１０
７、音声を出力する音声出力部１０８、及び動作を出力
する動作出力部１０９を備え、ユーザ発話特徴判定部２
００は、ユーザの身体各部位の動きから、発話区間の終
了点直後数フレームの動きの大きさを測定し、そのとき
の動きの大小又は傾向が減少するときは発話権委譲と判
定し、変わらないときは発話権継続と判定し、システム
発話特徴付加部３００は、自己（システム）の音声出力
が終了したときに、自己が発話を継続する場合は映像又
は動作の動きの大きさを変化させることなく維持させ、
発話権をユーザに委譲する場合は、動きの大きさを減少
させるように制御するので、人間とコンピュータの対話
装置において、ユーザの行動に対応して発生する音声信
号及び動作からユーザが発話権をシステムに委譲しよう
としているか、あるいは発話権を維持しようとしている
かを判定する一方、システムが発話権をユーザに委譲し
ようとしているか、あるいは発話権を維持しようとして
いるかを、システム側から出力される音声情報や動作情
報を制御して提示することができ、ユーザとシステムと
の間に自然な対話を実現することができる。

【００４９】これにより、ユーザとシステムとの対話に
おいて、ユーザの発話権委譲・継続を推定することがで
きるようになるとともに、システム（例えば、ＣＧやロ
ボット）の動きを制御して、ユーザにシステムの発話権
委譲・継続を提示することができるようになり、ユーザ
とシステムとの間に円滑な対話を実現できる。

【００５０】なお、本発明の対話装置は、上述の実施の
形態に限定されるものではなく、本発明の要旨を逸脱し
ない範囲内において種々変更を加え得ることは勿論であ
る。例えば、上述したようなマルチモーダルインタフェ
ースを用いた情報処理装置に適用することもできるが、
これには限定されず、全ての装置に適用可能である。

【００５１】また、本実施の形態に係る対話装置が、Ｐ
ＤＡ（Personal Digital Assistant）等の携帯情報端末
やパーソナルコンピュータの音声・動画像処理機能とし
て組み込まれたものでもよい。また、上記実施の形態で
は、対話装置の名称を用いているが、これは説明の便宜
上であり、例えば音声・動画像処理装置、マルチモーダ
ルインターフェース装置でもよい。

【００５２】また、本実施の形態では、ユーザの身体の
各部分として胴体又は手の動きを測定し、システムは胴
体又は手の動作を出力するようにしているが、ユーザの
身体の各部分であればどのような身体部分の動き測定・
出力でもよい。例えば、手の動きのみを検出する、手と
首の動きを検出する、胴体及び手の動き動作に加えて頭
部の動き動作を出力する、頭部の動き動作のみを出力す
る等種々の組合せが可能である。

【００５３】また、胴体は、首から下で腰から上の身体
部分を一体としてとらえ、手は、肩から下の腕部分を含
めた手全体としているが、これは一例であり、頭、首、
胸、右肩、左肩、右上腕、左上腕、右下腕、左下腕、右
手、左手、手首、指のうちの少なくとも一つ以上であれ
ばよい。また、本実施の形態にいう「手」には、手首や
手の甲、指等を含んでおり、上記手としては手首のみ、
あるいは指のみであってもよい。同様に、「胴体」とし
ては肩や胸のみであってもよい。この場合、例えば胴体
としては肩と胸を、手としては右上腕、右手の動きを収
集し、実施の形態と同様の判定処理を行うようにすれ
ば、判定精度をより一層高めることが可能になる。

【００５４】また、本実施の形態では、発話区間の開始
点・終了点の各時点での前後数フレーム（例えば、９fr
ames＝３００ｍｅｃ）の動きの大きさ（又は、胴体の各
速度の大きさと手の速さ）を測定するようにしている
が、身体の各部分の動きの大きさ、又は動きの変化が測
定できるものであればどのような方法でもよい。例え
ば、上述したように数フレームにおける動きの大きさの
平均値をとり、この平均値を発話区間の開始点・終了点
の動きの大きさと比較してもよいし、予め実験等により
得られた値と比較する態様でもよい。また、本実施の形
態では、発話区間Ｖの終点フレーム番号Ｅｖ（ｎ）前後
数フレームの動きの大きさの平均Ｍｐｒｅ（ｎ）、Ｍｓ
ｕｃ（ｎ）の比Ｐ（ｎ）を求めて判定しているが、これ
は一例であり、例えば各動きの差分の絶対値をとって判
定する態様でもよく、同様の効果を得ることができる。

【００５５】また、本実施の形態では、発話区間（例え
ば１／５ｓｅｃ＝２００ｍｓ）の開始点・終了点おける
前後数フレームの動きの大きさを測定しているが、音声
入力が有から無に変わったことを適切に検出できるもの
であればよく、音声の区切をどのように認識するかは任
意である。さらに、上記対話装置を構成する各回路部等
の種類、データベースなどは前述した実施形態に限られ
ない。

【００５６】以上説明した対話装置は、この処理装置を
機能させるためのプログラムでも実現される。このプロ
グラムはコンピュータで読み取り可能な記録媒体に格納
されている。本発明では、この記録媒体として、メイン
メモリそのものがプログラムメディアであってもよい
し、また外部記憶装置としてプログラム読み取り装置が
設けられ、そこに記録媒体を挿入することで読み取り可
能なプログラムメディアであってもよい。いずれの場合
においても、格納されているプログラムはＣＰＵがアク
セスして実行させる構成であってもよいし、あるいはい
ずれの場合もプログラムを読み出し、読み出されたプロ
グラムは、図示されていないプログラム記憶エリアにダ
ウンロードされて、そのプログラムが実行される方式で
あってもよい。このダウンロード用のプログラムは予め
本体装置に格納されているものとする。

【００５７】ここで、上記プログラムメディアは、本体
と分離可能に構成される記録媒体であり、例えばＰＣカ
ード（ＳＲＡＭカード）のほか、磁気テープやカセット
テープ等のテープ系、フロッピー（登録商標）ディスク
やハードディスク等の磁気ディスクやＣＤ−ＲＯＭ／Ｍ
Ｏ／ＭＤ／ＤＶＤ等の光ディスクのディスク系、ＩＣカ
ード／光カード等のカード系、あるいはマスクＲＯＭ、
ＥＰＲＯＭ、ＥＥＰＲＯＭ、フラッシュＲＯＭ等による
半導体メモリを含めた固定的にプログラムを担持する媒
体であってもよい。

【００５８】さらに、外部の通信ネットワークとの接続
が可能な通信装置を備えている場合には、その通信装置
を介して通信ネットワークからプログラムをダウンロー
ドするように、流動的にプログラムを担持する媒体であ
ってもよい。なお、このように通信ネットワークからプ
ログラムをダウンロードする場合には、そのダウンロー
ド用プログラムは予め本体装置に格納しておくか、ある
いは別な記録媒体からインストールされるものであって
もよい。なお、記録媒体に格納されている内容としては
プログラムに限定されず、データであってもよい。

【００５９】

【発明の効果】以上、詳述したように、本発明によれ
ば、ユーザとシステムとの対話において、ユーザの発話
権委譲・継続を推定することができるようになるととも
に、ＣＧやロボット等のシステムの動きを制御して、ユ
ーザにシステムの発話権委譲・継続を提示することがで
き、ユーザとシステムとの間に自然な対話を実現するこ
とができる。

【図面の簡単な説明】

【図１】本発明の実施の形態の対話装置の基本構成を示
すブロック図である。

【図２】本実施の形態の対話装置の具体的なシステム構
成を示す図である。

【図３】本実施の形態の対話装置の対話データの分析結
果の一例を示す図である。

【図４】本実施の形態の対話装置のユーザ発話特徴判定
部の動作を示すフローチャートである。

【図５】本実施の形態の対話装置のシステム発話特徴付
加部の動作を示すフローチャートである。

【符号の説明】

１ＣＰＵ２ワークメモリ３入力部４データベース５表示部６ロボット７外部記憶ドライバ８外部記憶装置（記録媒体）１０対話装置１０１音声入力部（音声入力手段）１０２動作入力部（動き検出手段）１０３音声処理部１０４動作処理部１０５対話管理部１０６音声制御部１０７動作制御部１０８音声出力部（音声出力手段）１０９動作出力部（動作出力手段）２００ユーザ発話特徴判定部（発話権判定手段）２０１音声特徴判定部（音声特徴判定手段）２０２動作特徴判定部２０３ユーザ発話権判定部（発話権判定手段の一部）３００システム発話特徴付加部（機械発話権判定手
段）３０１システム発話権判定部（機械発話権判定手段の
一部）３０２音声特徴付加部３０３動作特徴付加部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｈ０４Ｎ 7/18 Ｇ１０Ｌ 3/00 ５７１ＴＨ０４Ｒ 3/00 ３２０ＲＦターム(参考） 5C054 AA01 CA04 CC02 CD03 CH05 EF06 FC13 GB16 HA01 5D015 LL10 LL11 5D020 BB03 BB04 5D045 AB30 5E501 AA02 AA04 AA23 AB03 AB06 AB07 BA05 BA12 CA04 CB14 CB15 CC12 CC14 EA21

Claims

【特許請求の範囲】

【請求項１】音声入力に対して対応する対話装置にお
いて、ユーザからの音声を入力する音声入力手段と、ユーザの身体の各部分の動きを複数のフレームにまたが
って検出する動き検出手段と、前記音声入力が有から無に変わったことを判定する音声
特徴判定手段と、前記音声入力が有から無に変わった時の、前記動き検出
手段により検出された身体の各部分の動きの大きさ、又
は該動きの変化の傾向に基づいてユーザからの発話権委
譲及び発話権継続を判定する発話権判定手段と、を備えることを特徴とする対話装置。
【請求項２】音声を出力する音声出力手段と、自己の
動作を出力する動作出力手段とを備え、前記音声出力手
段及び前記動作出力手段によりユーザに対し自己の動作
を提示する対話装置において、自己の音声出力が有から無に変わったとき、自己の発話
権委譲及び発話権継続を判定する機械発話権判定手段
と、前記判定結果に基づいて前記音声出力及び前記動作出力
を変化させる制御手段と、を備えることを特徴とする対話装置。
【請求項３】前記動き検出手段は、胴体又は手の動き
を検出することを特徴とする請求項１又は２のいずれか
一項に記載の対話装置。
【請求項４】前記動き検出手段により検出される動き
は、動きの移動量の大きさ、動きの速度又は加速度の関
数であることを特徴とする請求項１又は２のいずれか一
項に記載の対話装置。
【請求項５】前記発話権判定手段は、前記音声入力が
有から無に変わったとき、前記検出された身体の各部分
の動きの大きさが所定値より小さい場合、又は動きの変
化が減少傾向にある場合はユーザからの発話権委譲であ
ると判定することを特徴とする請求項１記載の対話装
置。
【請求項６】前記所定値は、前記音声入力が有から無
に変わった時の、前又は後の所定数フレームにおける動
きの大きさの平均値に基づき設定されることを特徴とす
る請求項５記載の対話装置。
【請求項７】前記動作出力手段は、自己の動作を映像
により表示する、又は機構的構造を有するロボットの動
作により表現することを特徴とする請求項２記載の対話
装置。
【請求項８】前記制御手段は、前記機械発話権判定手段が、発話権継続であると判定し
た場合は、前記動作の動きの大きさを変化させないよう
に制御し、発話権委譲であると判定した場合は、前記動
作の動きの大きさを減少させるように制御することを特
徴とする請求項２記載の対話装置。
【請求項９】前記動作出力手段は、胴体又は手の少な
くとも一つの動作を出力することを特徴とする請求項２
記載の対話装置。
【請求項１０】コンピュータを、音声入力に対して機
械が対応する対話装置において、ユーザからの音声を入
力する音声入力手段と、ユーザの身体の各部分の動きを
複数のフレームにまたがって検出する動き検出手段と、
前記音声入力が有から無に変わったことを判定する音声
特徴判定手段と、前記音声入力が有から無に変わった時
の、前記動き検出手段により検出された身体の各部分の
動きの大きさ、又は該動きの変化の傾向に基づいてユー
ザからの発話権委譲及び発話権継続を判定する発話権判
定手段とを備える対話装置として機能させるためのプロ
グラムを記録したことを特徴とするコンピュータ読み取
り可能な記録媒体。
【請求項１１】コンピュータを、音声を出力する音声
出力手段と、自己の動作を出力する動作出力手段とを備
え、前記音声出力手段及び前記動作出力手段によりユー
ザに対し自己の動作を提示する対話装置において、自己
の音声出力が有から無に変わったとき、自己の発話権委
譲及び発話権継続を判定する機械発話権判定手段と、前
記判定結果に基づいて前記音声出力及び前記動作出力を
変化させる制御手段と、を備える対話装置として機能さ
せるためのプログラムを記録したことを特徴とするコン
ピュータ読み取り可能な記録媒体。