JP2002108388A - 対話装置及び対話処理プログラムを記録した記録媒体 - Google Patents

対話装置及び対話処理プログラムを記録した記録媒体

Info

Publication number
JP2002108388A
JP2002108388A JP2000295661A JP2000295661A JP2002108388A JP 2002108388 A JP2002108388 A JP 2002108388A JP 2000295661 A JP2000295661 A JP 2000295661A JP 2000295661 A JP2000295661 A JP 2000295661A JP 2002108388 A JP2002108388 A JP 2002108388A
Authority
JP
Japan
Prior art keywords
voice
user
motion
movement
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000295661A
Other languages
English (en)
Inventor
Keiko Watanuki
啓子 綿貫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2000295661A priority Critical patent/JP2002108388A/ja
Publication of JP2002108388A publication Critical patent/JP2002108388A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 (修正有) 【課題】 人間とコンピュータの対話装置において、ユ
ーザとシステムとの間に自然な対話を実現することがで
きる対話装置及び対話処理プログラムを記録した記録媒
体を提供する。 【解決手段】 対話装置10は、ユーザの発話権の所在
を判定するユーザ発話特徴判定部200、システムの発
話権の所在を提示するシステム発話特徴付加部300、
動作を出力する動作出力部109を備え、動きの大小又
は傾向が減少するときは発話権委譲と判定し、変わらな
いときは発話権継続と判定し、システム発話特徴付加部
300は、自己(システム)の音声出力が終了したとき
に、自己が発話を継続する場合は映像又は動作の動きの
大きさを変化させることなく維持させ、発話権をユーザ
に委譲する場合は、動きの大きさを減少させる制御を行
う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ユーザと機械との
間で自然な対話を実現する対話装置及び対話処理プログ
ラムを記録した記録媒体に関し、詳細には、ユーザから
の音声入力手段と、ユーザの動き検出手段を備えたユー
ザとの対話装置及び対話処理プログラムを記録した記録
媒体に関する。
【0002】
【従来の技術】近年、音声認識技術が発展し、テレビジ
ョン受像機、ラジオ受信機、車載ナビゲーション、携帯
電話、パーソナルコンピュータ(以下、パソコンとい
う)等の機器に搭載されつつある。音声認識装置は通常
それぞれの機器の一部として内蔵されている。この音声
認識装置、手書き文字認識装置、マウス、ライトペン、
タブレット等のポインティングデバイスなど、複数の入
力装置をコンピュータに接続して、ユーザがその局面局
面において自分にとって最も都合の良い入力装置を使っ
て入力できれば非常に使いやすいインタフェースとな
る。このように複数の異なる入力モードから、ユーザが
任意の入力モードを選択し、組み合わせて自分の意図を
システムに伝えることができるインタフェースのことを
マルチモーダルインタフェースという。
【0003】また、高性能のワークステーションやパソ
コンの普及に伴って、記憶容量の大きな光磁気ディスク
等の記憶媒体も低廉化し、高解像度の表示装置やマルチ
メディアに適応した周辺機器の価格も大幅に低下してい
る。文書処理、画像データ処理その他の分野では、処理
対象となるデータの情報量の増大に適応可能なデータ処
理機能の向上が要求され、従来、主として文字や数値に
施されていた処理に併せて音声や動画にも多様な処理を
施すことが可能な種々の処理装置が開発されつつある。
【0004】従来、人間とコンピュータの間のインタフ
ェースとしては、音声入力に対して応答する対話装置が
考えられてきた。これは、人間が発する音声を認識し、
それに応じてシステムの内部状態を変化させ、予め決め
られた出力をし、人間との対話を実現しようとしたもの
である。また、コンピュータとの対話をより円滑にする
ために、入力音声に対してアニメーション等が応答する
出力合成システムが提案されている。
【0005】
【発明が解決しようとする課題】しかしながら、人間と
コンピュータの間のインタフェースとしては、コンピュ
ータが主導権をもって問いを発し、ユーザはそれにした
がって受動的に答えながら作業を進める形態が主であっ
た。そのため、ユーザの発話の順番が固定的で、ユーザ
の発声のしやすさや対話の自然性等には配慮がなされて
いない。
【0006】コンピュータと対話するとき、コンピュー
タとユーザの発話のタイミングがよくないと対話の自然
性が失われる。特開平6−110835号公報には、ユ
ーザの発話を検出して、コンピュータからの音声出力を
さえぎってユーザが発話できるようにした装置が記載さ
れている。また、特開昭62−40577号公報には、
「え、なんですか」等の発話を検出して、コンピュータ
の発話の途中で聞き返しができるようにした装置が記載
されている。しかし、人間が話し始めたり、話し終わる
という雰囲気は、音声のみに現れるものではなく、身体
の動作や表情などと同時に、あるいは相補的に現れるも
のであるから、上記各公報に記載された手段は必ずしも
満足できるものではない。特に、ユーザが話し始めた
り、話し終わってからコンピュータからの応答をスター
トさせることもあるため、応答のタイミングが遅れスム
ーズな対話がコンピュータとの間で実現できないでい
る。
【0007】本発明は、このような課題に鑑みてなされ
たものであって、人間とコンピュータの対話装置におい
て、ユーザとシステムとの間に自然な対話を実現するこ
とができる対話装置及び対話処理プログラムを記録した
記録媒体を提供することを目的としている。
【0008】
【課題を解決するための手段】本発明の対話装置は、音
声入力に対して対応する対話装置において、ユーザから
の音声を入力する音声入力手段と、ユーザの身体の各部
分の動きを複数のフレームにまたがって検出する動き検
出手段と、前記音声入力が有から無に変わったことを判
定する音声特徴判定手段と、前記音声入力が有から無に
変わった時の、前記動き検出手段により検出された身体
の各部分の動きの大きさ、又は該動きの変化の傾向に基
づいてユーザからの発話権委譲及び発話権継続を判定す
る発話権判定手段と、を備えることを特徴としている。
【0009】本発明の対話装置は、音声を出力する音声
出力手段と、自己の動作を出力する動作出力手段とを備
え、前記音声出力手段及び前記動作出力手段によりユー
ザに対し自己の動作を提示する対話装置において、自己
の音声出力が有から無に変わったとき、自己の発話権委
譲及び発話権継続を判定する機械発話権判定手段と、前
記判定結果に基づいて前記音声出力及び前記動作出力を
変化させる制御手段と、を備えることを特徴としてい
る。また、より好ましくは、前記動き検出手段は、胴体
又は手の動きを検出するものであってもよい。また、前
記動き検出手段により検出される動きは、動きの移動量
の大きさ、動きの速度又は加速度の関数でもよい。
【0010】また、好ましい具体的な態様としては、前
記発話権判定手段は、前記音声入力が有から無に変わっ
たとき、前記検出された身体の各部分の動きの大きさが
所定値より小さい場合、又は動きの変化が減少傾向にあ
る場合はユーザからの発話権委譲であると判定するもの
であってもよい。また、前記所定値は、前記音声入力が
有から無に変わった時の、前又は後の所定数フレームに
おける動きの大きさの平均値に基づき設定されるもので
あってもよい。
【0011】また、好ましい具体的な態様としては、前
記動作出力手段は、自己の動作を映像により表示する、
又は機構的構造を有するロボットの動作により表現する
ものであってもよい。また、好ましい具体的な態様とし
ては、前記制御手段は、前記機械発話権判定手段が、発
話権継続であると判定した場合は、前記動作の動きの大
きさを変化させないように制御し、発話権委譲であると
判定した場合は、前記動作の動きの大きさを減少させる
ように制御するものであってもよい。また、前記動作出
力手段は、胴体又は手の少なくとも一つの動作を出力す
るものであってもよい。
【0012】さらに、本発明は、コンピュータを、音声
入力に対して対応する対話装置において、ユーザからの
音声を入力する音声入力手段と、ユーザの身体の各部分
の動きを複数のフレームにまたがって検出する動き検出
手段と、前記音声入力が有から無に変わったことを判定
する音声特徴判定手段と、前記音声入力が有から無に変
わった時の、前記動き検出手段により検出された身体の
各部分の動きの大きさ、又は該動きの変化の傾向に基づ
いてユーザからの発話権委譲及び発話権継続を判定する
発話権判定手段と、を備える対話装置として機能させる
ためのプログラムを記録したことを特徴とするコンピュ
ータ読み取り可能な記録媒体である。
【0013】また、本発明は、コンピュータを、音声を
出力する音声出力手段と、自己の動作を出力する動作出
力手段とを備え、前記音声出力手段及び前記動作出力手
段によりユーザに対し自己の動作を提示する対話装置に
おいて、自己の音声出力が有から無に変わったとき、自
己の発話権委譲及び発話権継続を判定する機械発話権判
定手段と、前記判定結果に基づいて前記音声出力及び前
記動作出力を変化させる制御手段と、を備える対話装置
として機能させるためのプログラムを記録したことを特
徴とするコンピュータ読み取り可能な記録媒体である。
【0014】
【発明の実施の形態】以下、添付図面を参照しながら本
発明の好適な対話装置の実施の形態について詳細に説明
する。まず、本発明の基本的な考え方について説明す
る。本発明者は、実際の人間同士の対話を収録し、分析
した。収録にあたっては、光学式のモーションキャプチ
ャシステムを導入し、音声・画像データと共に、赤外線
カメラで被験者の身体につけたマーカーを光学的にとら
えて、その位置の3次元数値データを収集している。こ
れにより、対話者ふたりの画像・音声データと、マーカ
ー位置の情報とを同じ時間軸上で分析可能なマルチモー
ダル対話データを収集できるようになった。この対話デ
ータにおいて、一定の長さ以上の無音区間(ここでは1
/5sec=200ms)以上で区切られた連続する区
間を発話区間とし、二人の対話におけるすべての発話区
間を、発話の交代が起こる場合と同じ話者が発話を継続
する場合に分類し、それぞれの場合での話者の頭部・胴
体・手の動きの大きさを分析した結果、以下のことがわ
かった。
【0015】ここで、胴体とは、首から下で腰から上の
身体部分を一塊としてとらえたものであり、具体的には
左右の鎖骨部分2点と胸部分1点にマーカーをつけて動
きを収集した。また、手とは、肩から下の腕部分を含め
た手全体であり、具体的には手首と親指及び小指にマー
カーをつけて動きを収集した。
【0016】発話交代と発話権継続の場合で、動きの大
きさを各被験者ごとに差を求めて分析した結果、 胴体:発話区間の始まり(beginning)の前9フレー
ムにおける動きの大きさの平均が、発話交代<発話権継
続である。また、発話区間の終わり(end)の後9フレ
ームにおける動きの大きさの平均が、発話交代<発話権
継続である。すなわち、発話区間終了後から次の発話区
間開始前の間のポーズ区間(非発話区間)の胴体の動き
が、発話交代の場合は減少するのに対し、発話権継続の
場合は減少することなく動きつづける傾向がある。
【0017】手:発話区間の始まり(beginning)の
前9フレームにおける動きの大きさの平均が、発話交代
<発話権継続である。また、発話区間の終わり(end)
の後9フレームにおける動きの大きさの平均が、発話交
代<発話権継続である。すなわち、発話区間終了後から
次の発話区間開始前の間のポーズ区間(非発話区間)の
手の動きが、発話交代の場合は減少するのに対し、発話
権継続の場合は減少することなく動きつづける傾向があ
る。また、発話区間の始まり(beginning)の後9フレ
ームにおける動きの大きさの平均が、発話交代<発話権
継続である。また、発話区間中の手の動きは、発話交代
の場合より、発話権継続の場合の方が大きい傾向があ
る。 頭部:発話交代の場合と発話権継続の場合とで、あま
り有意な差がない。
【0018】以上のことをまとめると、 (1)発話区間終了後から次の発話区間開始前の間のポ
ーズ区間(非発話区間)の胴体及び手の動きが、発話交
代の場合は減少するのに対し、発話権継続の場合は変化
量が少ない。 (2)頭部の動きは、発話交代の場合と発話権継続の場
合とで、あまり有意な差がない。
【0019】本発明は、上記知見に基づき、以下の機能
を備えたことを特徴とする対話装置である。 (1)画像処理を用いて求めたユーザの身体各部位の動
きから、発話区間の終了点直後数フレーム(例えば、9
フレーム=300msec)の動きの大きさを測定し、
そのときの動きの大小又は傾向が減少するときは発話権
委譲と判定し、変わらないときは発話権継続と判定す
る。動きを検出する身体各部位は胴体又は手の動きと
し、動き情報としては、移動量の大きさ、速さ、又は加
速度でもよい。
【0020】(2)自己(システム)の音声出力が終了
したときに、自己が発話を継続する場合は映像又は動作
の動きの大きさを変化させることなく維持させ、発話権
をユーザに委譲する場合は、動きの大きさを減少させ
る。提示する動きの身体各部位は胴体又は手の動きと
し、動き情報としては、移動量の大きさ、速さ、又は加
速度でもよい。
【0021】これにより、ユーザとシステムとの対話に
おいて、ユーザの発話権委譲・継続を推定することがで
きるようになるとともに、システム(例えば、CG(Co
mputer Graphics)やロボット)の動きを制御して、ユ
ーザにシステムの発話権委譲・継続を提示することがで
きるようになり、ユーザとシステムとの間に円滑な対話
を実現できる。
【0022】図1は、上記基本的な考え方に基づく本発
明の実施の形態の対話装置の基本構成を示すブロック図
である。対話装置として、マルチモーダルインタフェー
スを用いた情報処理装置に適用した例である。図1にお
いて、対話装置10は、ユーザからの音声信号を入力す
る音声入力部101(音声入力手段)、ユーザの身体各
部位の動きを入力する動作入力部102(動き検出手
段)、入力された音声信号を認識処理する音声処理部1
03、入力された動きを認識処理する動作処理部10
4、ユーザ発話特徴判定部200(発話権判定手段)、
システム発話特徴付加部300(機械発話権判定手
段)、ユーザ発話特徴判定部200の判定結果を管理す
る対話管理部105、音声を制御する音声制御部10
6、動作を制御する動作制御部107、音声を出力する
音声出力部108(音声出力手段)、及び動作を出力す
る動作出力部109(動作出力手段)から構成される。
【0023】ユーザ発話特徴判定部200は、ユーザの
発話権の所在を判定する手段であり、入力された音声の
振幅情報から音声の有無を判定する音声特徴判定部20
1(音声特徴判定手段)と、入力された動作の動きの大
きさを測定する動作特徴判定部202と、この両者に基
づいて、ユーザが発話権をシステムに委譲しようとして
いるか、あるいは発話権を維持しようとしているかを判
定するユーザ発話権判定部203(発話権判定手段の一
部)とから構成され、判定結果を対話管理部105に出
力する。
【0024】対話管理部105は、ユーザ発話特徴判定
部200の判定結果を管理するもので、ユーザが発話を
継続する場合はシステム発話特徴付加部300の機能は
スタートさせず、ユーザが発話権を委譲し、システムが
発話権を獲得したとき、システム発話特徴付加部300
の機能をスタートさせる。
【0025】システム発話特徴付加部300は、システ
ムの発話権の所在を提示する手段であり、対話管理部1
05に基づいて、システムが発話権をユーザに委譲しよ
うとしているか、あるいは発話権を維持しようとしてい
るかを判定するシステム発話権判定部301(機械発話
権判定手段の一部)と、その結果に基づいて、発話権の
委譲・継続を音声で提示するための特徴を付加する音声
特徴付加部302と、発話権の委譲・継続を動作で提示
するための特徴を付加する動作特徴付加部303とから
構成され、付加された音声・動作の特徴をそれぞれ音声
制御部106、動作制御部107に出力する。上記音声
制御部106、動作制御部107、音声特徴付加部30
2及び動作特徴付加部303は、全体として、システム
発話権判定部301の判定結果に基づいて音声出力及び
動作出力を変化させる制御手段を構成する。
【0026】図2は、対話装置10の具体的なシステム
構成を示す図である。図2において、対話装置10は、
CPU1、RAMからなるワークメモリ2、音声信号及
び動画像信号を入力する入力部3、入力された信号及び
CPU1の演算処理結果を格納するデータベース4、ド
ットマトリックス構成の液晶表示装置(LCD)等から
なる表示部5、動作形状を出力するロボット6、電源バ
ックアップにより書き込まれた情報を保持するSRAM
(Static RAM)カード、FD、CD−ROM等の外部記
憶装置8、外部記憶装置8の読み取り装置である外部記
憶ドライバ7から構成される。CPU1は、音声・動画
像処理の実行を含む装置全体の制御を行う制御部であ
り、内蔵のシステムプログラムに従い、演算に使用する
データを記憶したワークメモリ2を使用して発話権管理
プログラムを実行してワークメモリ2上に処理結果を作
成する。
【0027】ワーキングメモリ2は、文字表示に関する
データや演算に使用するデータ及び演算結果等を一時的
に記憶するいわゆるワーキングメモリであり、CPU1
により実行されるプログラム処理において利用されるプ
ログラム、音声・動画像処理データ等を格納する。な
お、このプログラムは、システムプログラムとして図示
していないROMに格納されるものでもよい。また、ワ
ーキングメモリとして用いられるRAMの一部の記憶領
域は、電源バックアップするか、あるいはEEPROM
(electrically erasable programmable ROM)やフラッ
シュメモリ等の不揮発性メモリにより構成され、電源O
FF後も設定条件を保持する。この記憶領域には、各種
設定データや処理データ等が格納される。
【0028】表示部5は、ドットマトリックス構成の液
晶表示装置(LCD)等であり、データベース4に格納
される音声情報やCPU1の演算処理結果を表示する。
ロボット6は、データベース4に格納される動作情報や
CPU1の演算処理結果を動作により提示する。また、
このロボット6は、機構的な構造をもつハード構成のも
のでもよいし、表示部5の表示画面上に例えばCGで合
成表示されるものでもよい。
【0029】外部記憶ドライバ7は、発話権管理プログ
ラムを記憶した外部記憶装置8の読み取り装置である。
メモリカード、FD、CD−ROM等の外部記憶装置8
は、本発話権管理機能を実現するためのプログラム、後
述する音声・動画像処理プログラム等を記録した記憶媒
体である。
【0030】以下、上述のように構成された対話装置の
動作を説明する。まず、対話装置10の基本動作につい
て述べる。図1において、ユーザの音声信号は、マイク
等の音声入力部101により入力され、ユーザの胴体及
び手の動きを含む身体各部位の動きは、ビデオカメラ等
の動作入力部102により撮像され入力される。動作入
力部102は、ユーザの胴体(例えば、右の鎖骨)及び
手(手首)の動きをフレーム毎に撮像し取り込む。この
場合、マーカーを身体に取り付けなくてもキャプチャは
可能である。
【0031】入力された音声信号は、音声処理部103
により認識処理されて対話管理部105に出力され、入
力されたユーザの身体各部位の動きは、動作処理部10
4により認識処理されて対話管理部105に出力され
る。ユーザからの音声信号及び動きはまた、ユーザ発話
特徴判定部200に入力されており、ユーザ発話特徴判
定部200の音声特徴判定部201では、入力された音
声の振幅情報から音声の有無を判定し、動作特徴判定部
202では、入力された動作の動きの大きさを測定す
る。そして、ユーザ発話権判定部203は、両者の判定
結果に基づいて、ユーザが発話権をシステムに委譲しよ
うとしているか、あるいは発話権を維持しようとしてい
るかを判定し、判定結果を対話管理部105に出力す
る。
【0032】対話管理部105は、音声処理部103及
び動作処理部104により認識処理された音声・動作情
報を管理し、適当なタイミングで音声制御部106及び
動作制御部107に渡すとともに、ユーザ発話特徴判定
部200からの判定結果に基づく情報をシステム発話特
徴付加部300に出力する。
【0033】システム発話特徴付加部300のシステム
発話権判定部301は、対話管理部105からの情報に
基づいて、システムが発話権をユーザに委譲しようとし
ているか、あるいは発話権を維持しようとしているかを
判定し、その判定結果に基づいて、音声特徴付加部30
2では発話権の委譲・継続を音声で提示するための特徴
を付加し、動作特徴付加部303では発話権の委譲・継
続を動作で提示するための特徴を付加する。音声特徴付
加部302及び動作特徴付加部303により付加された
音声及び動作特徴は、それぞれ音声制御部106及び動
作制御部107に出力され、音声制御部106及び動作
制御部107ではこれらの特徴を元の音声及び動作に反
映するように制御して音声出力部108及び動作出力部
109で提示される。
【0034】次に、上記ユーザ発話特徴判定部200に
おける動作について具体的に説明する。音声特徴判定部
201では、マイク等の音声入力部101から入力され
るユーザの音声データがA/D変換され、所定の処理単
位(例えば、フレーム=1/30秒)毎に音声の振幅
(パワー)を抽出し、音声の有無(発話区間)を判定す
る。
【0035】動作特徴判定部202では、ビデオカメラ
等の動作入力部102から入力されるユーザの動画像デ
ータがA/D変換され、フレーム(1/30sec)毎
に動きの大きさを測定する。ここで、動作入力部102
は、モーションキャプチャシステムなど、人間等の身体
の一以上の部分の位置情報を抽出するシステムでもよ
く、その場合は、身体各部位の3次元位置情報が動作処
理部104に入力される。以下、図3を参照して音声特
徴判定部201及び動作特徴判定部202の詳細な動作
について説明する。
【0036】図3は、対話データの分析結果の一例を示
す図であり、我々が実際の人間同士の対話を収録したデ
ータを分析した結果の一部である。ある被験者につい
て、すべての発話区間の終了点前後各9フレーム(=3
00msec)、計18フレームの各フレームについ
て、頭部、胴体、手の動きの大きさを求め、それぞれ平
均化したものをプロットしたものである。この場合の胴
体は、首から下で腰から上の身体部分を一体としてとら
えたもの、また、手は肩から下の腕部分を含めた手全体
である。
【0037】図3(a)は、頭部の角速度の大きさ(ra
dian/sec)、図3(b)は胴体の角速度の大きさ(radi
an/sec)、図3(c)は利き手の速さ(mm/sec)をそれ
ぞれ示す。横軸は時間(フレーム)であり、0が発話区
間終了点、すなわちユーザからの音声入力が有から無に
変わった時点であり、0から−9の間がユーザの発話区
間終了直前9フレームにおける動きの大きさ、1から9
の間がユーザの発話区間終了直後9フレームにおける動
きの大きさをそれぞれ示す。
【0038】図3の分析結果から、以下のことがわか
る。 (1)発話区間終了直前から直後における胴体及び手の
動きが、発話権委譲の場合は減少するのに対し、発話権
継続の場合は変化量が少ない。 (2)頭部の動きは、発話権委譲の場合と発話権継続の
場合とで、あまり有意な差がない。
【0039】そこで、ユーザ発話権判定部203は、音
声特徴判定部201と動作特徴判定部202の両者に基
づき、音声入力が有から無に変わったこと(すなわち、
発話区間終了)を判定し、そのときの胴体又は手の動き
の大小、又は傾向が減少するときはユーザがシステムに
発話権を委譲すると判定し、変わらないときはユーザが
発話権を継続すると判定して、この判定結果を対話管理
部105に入力する。動き情報としては、速度のほか
に、胴体又は手の移動量の大きさ、又は加速度でもよ
い。なお、速度又は加速度から動き動作を抽出するに
は、例えば胴体又は手の各セグメントの速度又は加速度
がそれぞれ一定の閾値を超えている区間を見つければよ
い。このため、各セグメントのフレーム毎の速度情報や
加速度情報を基に、各セグメント毎に予め設定した閾値
を超えるフレーム区間を動作区間として抽出する。ま
た、動きの強度は連続的なものであるから、例えば、頭
の速度又は加速度V(x,y,z)を抽出する関数f
(vh)を設定し、動きの強度に応じて動作の区間を抽
出するようにしてもよい。
【0040】次に、システム発話特徴付加部300にお
ける動作について具体的に説明する。対話管理部105
においてシステム側に発話権があると判定されると、判
定結果はシステム発話特徴付加部300に入力される。
システム発話権判定部301では、自己(システム)の
発話終了時に、引き続きシステムが発話権を継続すると
判定された場合には、音声特徴付加部302で音声のパ
ワーを減少させることなく終了させ、同時に、動作特徴
付加部303で胴体又は手の動きの大きさを変化させる
ことなく維持させる。一方、システム発話権判定部30
1でユーザに対して発話権を委譲すると判定された場合
には、音声特徴付加部302で音声のパワーを減少させ
ながら終了させ、同時に、動作特徴付加部303で胴体
又は手の動きの大きさを減少させることとし、それぞれ
音声制御部106、動作制御部107に入力する。ここ
で、音声特徴付加部302では、パワー(声の大きさ)
のほかに、ピッチ(声の高さ)を変化させてもよい。
【0041】図4は、ユーザ発話特徴判定部200の動
作を示すフローチャートであり、本フローは図2のCP
U1において実行される。図中、Sはフローの各ステッ
プを示す。ユーザ発話特徴判定処理がスタートすると、
音声特徴判定部201では、A/D変換された音声信号
の音声パワーから、所定の閾値を超える区間を発話区間
Vとして抽出しその始点フレーム番号Sv(n)及び終
点フレーム番号Ev(n)を求め、ユーザ発話権判定部
203に出力する(ステップS101)。
【0042】一方、動作特徴判定部202では、A/D
変換された映像信号から各フレーム毎に胴体又は手の動
きの大きさM(n)を求め、それぞれのフレーム番号と
ともにユーザ発話権判定部203に出力する(ステップ
S102)。なお、動きセンサー類を用いて身体各部位
の位置情報を測定し、胴体又は手の動きの大きさを求め
てもよい。
【0043】ユーザ発話権判定部203では、音声特徴
判定部201で抽出された発話区間Vの終点フレーム番
号Ev(n)前後数フレーム(例えば、前後各9フレー
ム)の動きの大きさの平均Mpre(n),Msuc
(n)を動作特徴判定部202から抽出された動きの大
きさM(n)から求め、その比P(n)を次式(1)に
より求める。
【0044】 P(n)=Mpre(n)/Msuc(n) …(1)
【0045】ここで、nは各発話区間終了点のフレーム
番号である。さらに、発話区間終了前後で、ユーザの動
きの大小又は傾向が減少するか、あるいは変化しないか
を判定するために、この比P(n)がある閾値D1(こ
こでは1)を超えている(P(n)>D1)かどうかを
調べ(ステップS103)、閾値を超えていなければ、
ユーザは発話権を維持すると判定して判定結果を対話管
理部105に出力して本フローの処理を終了する(ステ
ップS104)。閾値を超えている場合は、ユーザはシ
ステムに発話権を委譲すると判定して判定結果を対話管
理部105に出力して処理を終了する(ステップS10
5)。
【0046】図5は、システム発話特徴付加部300の
動作を示すフローチャートであり、本フローは図2のC
PU1において実行される。本処理では、対話管理部1
05でシステムが発話権を獲得すると、特徴付加処理が
スタートする。システム発話権判定部301では、シス
テムの発話区間終了フレームを求め(ステップS20
1)、システムがその時点で発話権を委譲するかあるい
は継続するかを判定する(ステップS202)。システ
ムが発話権を委譲する場合は、音声特徴付加部302で
音声のパワーを減少させ、同時に、動作特徴付加部20
5で胴体又は手の動きの大きさを減少(Mpre(n)
/Msuc(n)<D1)させる(ステップS20
3)。すなわち、システムの発話が有から無、換言すれ
ば、システムの発話の終了時に、システム発話権判定部
301が、システムが発話を委譲するか継続するかをユ
ーザの動きとは関係なく判定している(ステップS20
2)。
【0047】システムが発話権を継続する場合は、音声
特徴付加部302で音声のパワーを変えることなく、同
時に、動作特徴付加部205で胴体又は手の動きの大き
さを変化させることなく維持(Mpre(n)/Msu
c(n)≧D1)させ(ステップS204)、それぞれ
音声制御部106、動作制御部107に出力して処理を
終了する。
【0048】以上のように、本実施の形態の対話装置1
0は、ユーザからの音声信号を入力する音声入力部10
1、ユーザの身体各部位の動きを入力する動作入力部1
02、入力された音声信号を認識処理する音声処理部1
03、入力された動きを認識処理する動作処理部10
4、ユーザの発話権の所在を判定するユーザ発話特徴判
定部200、システムの発話権の所在を提示するシステ
ム発話特徴付加部300、ユーザ発話特徴判定部200
の判定結果を管理する対話管理部105、音声を制御す
る音声制御部106、動作を制御する動作制御部10
7、音声を出力する音声出力部108、及び動作を出力
する動作出力部109を備え、ユーザ発話特徴判定部2
00は、ユーザの身体各部位の動きから、発話区間の終
了点直後数フレームの動きの大きさを測定し、そのとき
の動きの大小又は傾向が減少するときは発話権委譲と判
定し、変わらないときは発話権継続と判定し、システム
発話特徴付加部300は、自己(システム)の音声出力
が終了したときに、自己が発話を継続する場合は映像又
は動作の動きの大きさを変化させることなく維持させ、
発話権をユーザに委譲する場合は、動きの大きさを減少
させるように制御するので、人間とコンピュータの対話
装置において、ユーザの行動に対応して発生する音声信
号及び動作からユーザが発話権をシステムに委譲しよう
としているか、あるいは発話権を維持しようとしている
かを判定する一方、システムが発話権をユーザに委譲し
ようとしているか、あるいは発話権を維持しようとして
いるかを、システム側から出力される音声情報や動作情
報を制御して提示することができ、ユーザとシステムと
の間に自然な対話を実現することができる。
【0049】これにより、ユーザとシステムとの対話に
おいて、ユーザの発話権委譲・継続を推定することがで
きるようになるとともに、システム(例えば、CGやロ
ボット)の動きを制御して、ユーザにシステムの発話権
委譲・継続を提示することができるようになり、ユーザ
とシステムとの間に円滑な対話を実現できる。
【0050】なお、本発明の対話装置は、上述の実施の
形態に限定されるものではなく、本発明の要旨を逸脱し
ない範囲内において種々変更を加え得ることは勿論であ
る。例えば、上述したようなマルチモーダルインタフェ
ースを用いた情報処理装置に適用することもできるが、
これには限定されず、全ての装置に適用可能である。
【0051】また、本実施の形態に係る対話装置が、P
DA(Personal Digital Assistant)等の携帯情報端末
やパーソナルコンピュータの音声・動画像処理機能とし
て組み込まれたものでもよい。また、上記実施の形態で
は、対話装置の名称を用いているが、これは説明の便宜
上であり、例えば音声・動画像処理装置、マルチモーダ
ルインターフェース装置でもよい。
【0052】また、本実施の形態では、ユーザの身体の
各部分として胴体又は手の動きを測定し、システムは胴
体又は手の動作を出力するようにしているが、ユーザの
身体の各部分であればどのような身体部分の動き測定・
出力でもよい。例えば、手の動きのみを検出する、手と
首の動きを検出する、胴体及び手の動き動作に加えて頭
部の動き動作を出力する、頭部の動き動作のみを出力す
る等種々の組合せが可能である。
【0053】また、胴体は、首から下で腰から上の身体
部分を一体としてとらえ、手は、肩から下の腕部分を含
めた手全体としているが、これは一例であり、頭、首、
胸、右肩、左肩、右上腕、左上腕、右下腕、左下腕、右
手、左手、手首、指のうちの少なくとも一つ以上であれ
ばよい。また、本実施の形態にいう「手」には、手首や
手の甲、指等を含んでおり、上記手としては手首のみ、
あるいは指のみであってもよい。同様に、「胴体」とし
ては肩や胸のみであってもよい。この場合、例えば胴体
としては肩と胸を、手としては右上腕、右手の動きを収
集し、実施の形態と同様の判定処理を行うようにすれ
ば、判定精度をより一層高めることが可能になる。
【0054】また、本実施の形態では、発話区間の開始
点・終了点の各時点での前後数フレーム(例えば、9fr
ames=300mec)の動きの大きさ(又は、胴体の各
速度の大きさと手の速さ)を測定するようにしている
が、身体の各部分の動きの大きさ、又は動きの変化が測
定できるものであればどのような方法でもよい。例え
ば、上述したように数フレームにおける動きの大きさの
平均値をとり、この平均値を発話区間の開始点・終了点
の動きの大きさと比較してもよいし、予め実験等により
得られた値と比較する態様でもよい。また、本実施の形
態では、発話区間Vの終点フレーム番号Ev(n)前後
数フレームの動きの大きさの平均Mpre(n)、Ms
uc(n)の比P(n)を求めて判定しているが、これ
は一例であり、例えば各動きの差分の絶対値をとって判
定する態様でもよく、同様の効果を得ることができる。
【0055】また、本実施の形態では、発話区間(例え
ば1/5sec=200ms)の開始点・終了点おける
前後数フレームの動きの大きさを測定しているが、音声
入力が有から無に変わったことを適切に検出できるもの
であればよく、音声の区切をどのように認識するかは任
意である。さらに、上記対話装置を構成する各回路部等
の種類、データベースなどは前述した実施形態に限られ
ない。
【0056】以上説明した対話装置は、この処理装置を
機能させるためのプログラムでも実現される。このプロ
グラムはコンピュータで読み取り可能な記録媒体に格納
されている。本発明では、この記録媒体として、メイン
メモリそのものがプログラムメディアであってもよい
し、また外部記憶装置としてプログラム読み取り装置が
設けられ、そこに記録媒体を挿入することで読み取り可
能なプログラムメディアであってもよい。いずれの場合
においても、格納されているプログラムはCPUがアク
セスして実行させる構成であってもよいし、あるいはい
ずれの場合もプログラムを読み出し、読み出されたプロ
グラムは、図示されていないプログラム記憶エリアにダ
ウンロードされて、そのプログラムが実行される方式で
あってもよい。このダウンロード用のプログラムは予め
本体装置に格納されているものとする。
【0057】ここで、上記プログラムメディアは、本体
と分離可能に構成される記録媒体であり、例えばPCカ
ード(SRAMカード)のほか、磁気テープやカセット
テープ等のテープ系、フロッピー(登録商標)ディスク
やハードディスク等の磁気ディスクやCD−ROM/M
O/MD/DVD等の光ディスクのディスク系、ICカ
ード/光カード等のカード系、あるいはマスクROM、
EPROM、EEPROM、フラッシュROM等による
半導体メモリを含めた固定的にプログラムを担持する媒
体であってもよい。
【0058】さらに、外部の通信ネットワークとの接続
が可能な通信装置を備えている場合には、その通信装置
を介して通信ネットワークからプログラムをダウンロー
ドするように、流動的にプログラムを担持する媒体であ
ってもよい。なお、このように通信ネットワークからプ
ログラムをダウンロードする場合には、そのダウンロー
ド用プログラムは予め本体装置に格納しておくか、ある
いは別な記録媒体からインストールされるものであって
もよい。なお、記録媒体に格納されている内容としては
プログラムに限定されず、データであってもよい。
【0059】
【発明の効果】以上、詳述したように、本発明によれ
ば、ユーザとシステムとの対話において、ユーザの発話
権委譲・継続を推定することができるようになるととも
に、CGやロボット等のシステムの動きを制御して、ユ
ーザにシステムの発話権委譲・継続を提示することがで
き、ユーザとシステムとの間に自然な対話を実現するこ
とができる。
【図面の簡単な説明】
【図1】本発明の実施の形態の対話装置の基本構成を示
すブロック図である。
【図2】本実施の形態の対話装置の具体的なシステム構
成を示す図である。
【図3】本実施の形態の対話装置の対話データの分析結
果の一例を示す図である。
【図4】本実施の形態の対話装置のユーザ発話特徴判定
部の動作を示すフローチャートである。
【図5】本実施の形態の対話装置のシステム発話特徴付
加部の動作を示すフローチャートである。
【符号の説明】
1 CPU 2 ワークメモリ 3 入力部 4 データベース 5 表示部 6 ロボット 7 外部記憶ドライバ 8 外部記憶装置(記録媒体) 10 対話装置 101 音声入力部(音声入力手段) 102 動作入力部(動き検出手段) 103 音声処理部 104 動作処理部 105 対話管理部 106 音声制御部 107 動作制御部 108 音声出力部(音声出力手段) 109 動作出力部(動作出力手段) 200 ユーザ発話特徴判定部(発話権判定手段) 201 音声特徴判定部(音声特徴判定手段) 202 動作特徴判定部 203 ユーザ発話権判定部(発話権判定手段の一部) 300 システム発話特徴付加部(機械発話権判定手
段) 301 システム発話権判定部(機械発話権判定手段の
一部) 302 音声特徴付加部 303 動作特徴付加部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04N 7/18 G10L 3/00 571T H04R 3/00 320 R Fターム(参考) 5C054 AA01 CA04 CC02 CD03 CH05 EF06 FC13 GB16 HA01 5D015 LL10 LL11 5D020 BB03 BB04 5D045 AB30 5E501 AA02 AA04 AA23 AB03 AB06 AB07 BA05 BA12 CA04 CB14 CB15 CC12 CC14 EA21

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 音声入力に対して対応する対話装置にお
    いて、 ユーザからの音声を入力する音声入力手段と、 ユーザの身体の各部分の動きを複数のフレームにまたが
    って検出する動き検出手段と、 前記音声入力が有から無に変わったことを判定する音声
    特徴判定手段と、 前記音声入力が有から無に変わった時の、前記動き検出
    手段により検出された身体の各部分の動きの大きさ、又
    は該動きの変化の傾向に基づいてユーザからの発話権委
    譲及び発話権継続を判定する発話権判定手段と、 を備えることを特徴とする対話装置。
  2. 【請求項2】 音声を出力する音声出力手段と、自己の
    動作を出力する動作出力手段とを備え、前記音声出力手
    段及び前記動作出力手段によりユーザに対し自己の動作
    を提示する対話装置において、 自己の音声出力が有から無に変わったとき、自己の発話
    権委譲及び発話権継続を判定する機械発話権判定手段
    と、 前記判定結果に基づいて前記音声出力及び前記動作出力
    を変化させる制御手段と、 を備えることを特徴とする対話装置。
  3. 【請求項3】 前記動き検出手段は、胴体又は手の動き
    を検出することを特徴とする請求項1又は2のいずれか
    一項に記載の対話装置。
  4. 【請求項4】 前記動き検出手段により検出される動き
    は、動きの移動量の大きさ、動きの速度又は加速度の関
    数であることを特徴とする請求項1又は2のいずれか一
    項に記載の対話装置。
  5. 【請求項5】 前記発話権判定手段は、前記音声入力が
    有から無に変わったとき、前記検出された身体の各部分
    の動きの大きさが所定値より小さい場合、又は動きの変
    化が減少傾向にある場合はユーザからの発話権委譲であ
    ると判定することを特徴とする請求項1記載の対話装
    置。
  6. 【請求項6】 前記所定値は、前記音声入力が有から無
    に変わった時の、前又は後の所定数フレームにおける動
    きの大きさの平均値に基づき設定されることを特徴とす
    る請求項5記載の対話装置。
  7. 【請求項7】 前記動作出力手段は、自己の動作を映像
    により表示する、又は機構的構造を有するロボットの動
    作により表現することを特徴とする請求項2記載の対話
    装置。
  8. 【請求項8】 前記制御手段は、 前記機械発話権判定手段が、発話権継続であると判定し
    た場合は、前記動作の動きの大きさを変化させないよう
    に制御し、発話権委譲であると判定した場合は、前記動
    作の動きの大きさを減少させるように制御することを特
    徴とする請求項2記載の対話装置。
  9. 【請求項9】 前記動作出力手段は、胴体又は手の少な
    くとも一つの動作を出力することを特徴とする請求項2
    記載の対話装置。
  10. 【請求項10】 コンピュータを、音声入力に対して機
    械が対応する対話装置において、ユーザからの音声を入
    力する音声入力手段と、ユーザの身体の各部分の動きを
    複数のフレームにまたがって検出する動き検出手段と、
    前記音声入力が有から無に変わったことを判定する音声
    特徴判定手段と、前記音声入力が有から無に変わった時
    の、前記動き検出手段により検出された身体の各部分の
    動きの大きさ、又は該動きの変化の傾向に基づいてユー
    ザからの発話権委譲及び発話権継続を判定する発話権判
    定手段とを備える対話装置として機能させるためのプロ
    グラムを記録したことを特徴とするコンピュータ読み取
    り可能な記録媒体。
  11. 【請求項11】 コンピュータを、音声を出力する音声
    出力手段と、自己の動作を出力する動作出力手段とを備
    え、前記音声出力手段及び前記動作出力手段によりユー
    ザに対し自己の動作を提示する対話装置において、自己
    の音声出力が有から無に変わったとき、自己の発話権委
    譲及び発話権継続を判定する機械発話権判定手段と、前
    記判定結果に基づいて前記音声出力及び前記動作出力を
    変化させる制御手段と、を備える対話装置として機能さ
    せるためのプログラムを記録したことを特徴とするコン
    ピュータ読み取り可能な記録媒体。
JP2000295661A 2000-09-28 2000-09-28 対話装置及び対話処理プログラムを記録した記録媒体 Pending JP2002108388A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000295661A JP2002108388A (ja) 2000-09-28 2000-09-28 対話装置及び対話処理プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000295661A JP2002108388A (ja) 2000-09-28 2000-09-28 対話装置及び対話処理プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2002108388A true JP2002108388A (ja) 2002-04-10

Family

ID=18778057

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000295661A Pending JP2002108388A (ja) 2000-09-28 2000-09-28 対話装置及び対話処理プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2002108388A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019049733A (ja) * 2018-10-15 2019-03-28 日本電信電話株式会社 会話支援システム、会話支援装置及び会話支援プログラム
US11014246B2 (en) 2017-10-13 2021-05-25 Sharp Kabushiki Kaisha Control device, robot, control method, control program, and storage medium
US11114098B2 (en) 2018-12-05 2021-09-07 Fujitsu Limited Control of interaction between an apparatus and a user based on user's state of reaction

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11014246B2 (en) 2017-10-13 2021-05-25 Sharp Kabushiki Kaisha Control device, robot, control method, control program, and storage medium
JP2019049733A (ja) * 2018-10-15 2019-03-28 日本電信電話株式会社 会話支援システム、会話支援装置及び会話支援プログラム
US11114098B2 (en) 2018-12-05 2021-09-07 Fujitsu Limited Control of interaction between an apparatus and a user based on user's state of reaction

Similar Documents

Publication Publication Date Title
JP5323770B2 (ja) ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機
JP6594879B2 (ja) 電子デバイス上の音声をバッファリングする方法及びコンピューティングデバイス
JP5911796B2 (ja) マルチモーダル情報を用いるユーザ意図推論装置及び方法
Morency et al. Contextual recognition of head gestures
US6167376A (en) Computer system with integrated telephony, handwriting and speech recognition functions
KR101604593B1 (ko) 이용자 명령에 기초하여 리프리젠테이션을 수정하기 위한 방법
CN110689889B (zh) 人机交互方法、装置、电子设备及存储介质
US8478600B2 (en) Input/output apparatus based on voice recognition, and method thereof
US7702506B2 (en) Conversation assisting device and conversation assisting method
WO2007041223A2 (en) Automated dialogue interface
JPH10301675A (ja) マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
JPH08339446A (ja) 対話装置
JP3844874B2 (ja) マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
Benoit et al. Audio-visual and multimodal speech systems
JP3652961B2 (ja) 音声処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体
JP2000250677A (ja) マルチモーダルインターフェース装置及びマルチモーダルインターフェース方法
Karpov et al. An assistive bi-modal user interface integrating multi-channel speech recognition and computer vision
JP2004192653A (ja) マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
JP3775446B2 (ja) 会議情報記録方法および会議情報記録装置並びに会議情報再生装置
JP2002108388A (ja) 対話装置及び対話処理プログラムを記録した記録媒体
JP7435641B2 (ja) 制御装置、ロボット、制御方法およびプログラム
JP2003228449A (ja) 対話装置及び対話処理プログラムを記録した記録媒体
JP4394532B2 (ja) 音声処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体
JP6950708B2 (ja) 情報処理装置、情報処理方法、および情報処理システム
JP2000315259A (ja) データベース作成装置及びデータベース作成プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040323

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040524

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040713