JP2002032370A

JP2002032370A - 情報処理装置

Info

Publication number: JP2002032370A
Application number: JP2000216871A
Authority: JP
Inventors: Sachiko Onodera; 佐知子小野寺; Ei Ito; 映伊藤; Toshiyuki Fukuoka; 俊之福岡; Shigeru Yamada; 茂山田; Kenji Yamamoto; 健司山本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2000-07-18
Filing date: 2000-07-18
Publication date: 2002-01-31

Abstract

(57)【要約】【課題】本発明は複数の話題が存在する対話システムの
ための情報処理装置に関し，一発話から話題を推定し，
話題の転換と中断されていた話題の再開を識別し，装置
が認識している話題を通知することを目的とする。【解決手段】発話の入力から言語情報を認識する発話入
力部と，各話題別に対応した複数種の言語情報のデータ
ベースから成る特定話題に関する発話データベースと，
話題に関係なく対話を進行するための言語情報のデータ
ベースからなる特定話題非依存発話データベースと，対
話の開始や変更の識別する言語情報のデータベースから
成る対話開始時発話データベースとを備え，発話入力部
からの言語情報に対し，各データベースを用いて発話さ
れた話題を発話認識部で推定し，発話認識部で推定した
話題を受け取って結果出力部から出力を行うよう構成す
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は複数の話題が存在す
る対話を処理する情報処理装置に関する。

【０００２】近年，音声の入力に対し音声により自動的
に応対して，会話を通じて注文を受け付けする等の対話
システムが利用されるようになった。同様に図形を入力
したり，ゼスチャー等により入力を行うシステムも考え
られている。

【０００３】そのような対話システムにおいて，話題の
転換を認識するには，「ところで」や「次に」などの語
句の出現で認識したり，数回の発話を経て特定したりし
ている。しかし，これでは，人間が自然に行っているよ
うに，話題がふと変わった時にすばやく認識して対応で
きるよううなことが，実際のリアルタイムの対話システ
ムで実現することが難しいため，その改善が望まれてい
る。

【０００４】

【従来の技術】図１４は従来例の説明図であり，図中，
８０は音声，文字等が入力される入力部，８１は対話処
理を行う処理装置，８２はデータベース，８３は音声に
よる出力部である。この従来例は，例えば，音声による
注文の受付けを行うものとし，ユーザによる音声等が入
力部８０から入力されると，これがディジタル化されて
処理装置８１へ入力する。処理装置８１は入力された発
話情報について，データベース８２を参照して，解析を
行って認識し，認識結果に応じてユーザに対して指示ま
たは応答するための出力情報を出力部８３に与えて，音
声出力が出力部８３から発生する。処理装置８１は，注
文の内容について図示省略された記録装置に記録を行
う。

【０００５】このように従来は，商品の注文や，チケッ
トの予約等のそれぞれの目的に対応したシステムが設け
られており，ユーザから入力される話題は限定されてお
り，話題が変化することを想定していなかった。

【０００６】しかし，日常の人と人との対話では，その
時の必要性，状況に応じて話題を転換したり，転換後に
また新たな対話が行われており，近年，このような対話
を実現するシステムを構築することが望まれている。

【０００７】

【発明が解決しようとする課題】各種の話題の転換に対
応するには，ユーザからの最初の一言からどのような話
題であるかを推定する必要がある。また，話題の転換
と，その後の中断話題の再開をスムーズに行わなければ
ならない。さらに，人と人との対話ではなく機械との対
話であるため，機械がどのように話題を認識しているか
を伝える必要があるが，それが，対話の妨げとなるよう
な「○○という話題ですね」という機械的な対話の繰り
返しであっては，その対話システムを利用する上で不快
なものとなる。

【０００８】本発明は，一発話（最初の一言を意味す
る）から話題を推定し，話題の転換と中断されていた話
題の再開を識別し，装置が認識している話題を通知する
ことができる情報処理装置を提供することを目的とす
る。

【０００９】

【課題を解決するための手段】図１は本発明の第１の原
理構成を示す図である。図中，１は情報処理装置，１０
はユーザの発話（音声，テキスト，画像等の何れかの形
態）が入力されてディジタル化を行う発話入力部，１１
は発話入力部１０から入力された発話情報から後述する
複数のデータベースを用いてユーザ発話の話題を推定し
て認識する発話認識部，１２は発話認識部１１で認識し
た推定話題をユーザに出力する結果出力部，１３ａは複
数の特定話題にそれぞれに対応して各特定話題の発話を
認識するための特定話題に関する発話データベース，１
３ｂは話のつなぎや聞き返し等の対話を進行する上で使
う言葉等を認識するための特定話題非依存発話データベ
ース，１３ｃは話題が変わる場合に最初に使う言葉等を
認識するための対話開始時発話データベースである。

【００１０】ユーザが発話入力を行うと発話入力部１０
でユーザの発話内容が検出され，その発話内容が発話認
識部１１へ入力される。発話認識部１１による話題推定
方法は，現在進行している話題が存在するか調べ，存在
すれば複数の話題が存在するか調べ，複数であればそれ
ら全ての話題に関する，特定話題に関する発話データベ
ース１３ａを適用して発話認識を行い，一つであればそ
の話題に関する特定話題に関する発話データベース１３
ａを適用して認識して，認識できた場合は認識結果とな
る発話の属する話題であると推定する。認識できない場
合は，対話開始時発話データベース１３ｃを適用して認
識を行い，認識できた時は各話題の対話開始時に話され
るであろう発話として認識して，その認識した話題を出
力する。この後の発話は，認識した特定話題についての
発話として特定話題に関するデータベース１３ａを用い
て認識を行い，対話が進行する上で使う言葉については
特定話題非依存発話データベース１３ｂを用いて認識す
る。発話認識部１１で認識して推定した話題は結果出力
部１２に供給され，音声や図形等の形式で推定話題が出
力される。

【００１１】この第１の原理構成により，現在の話題に
対応した発話認識と，話題の変化を確実に認識して，ユ
ーザの発話内容に対応した応対が可能となる。

【００１２】図２は本発明の第２の原理構成である。図
中，１，１０〜１２，１３ａ〜１３ｃは上記図１の同一
の各符号の各部と同じであり，図１と異なる部分は，符
号１４で表す話題確定部である。

【００１３】この第２の原理構成では，発話認識部１１
がユーザ発話が入力されると各データベース１３ａ〜１
３ｃを用いて話題を推定し，得られた推定話題とその確
信度（正しい確率）とを発生する。すなわち，ユーザ発
話が音声入力のように不確実性が伴う場合には，その認
識時に得られる確信度が変化する。話題確定部１４はそ
の確信度が予め設定された一定の値に達しているか識別
し，達していない（不確かである）場合は話題確認のた
めに音声等の形式で推定した結果の確認通知を出力し，
ユーザから推定話題で良いという入力があると推定話題
が正しい話題であるとして結果出力部１２に推定話題を
供給し，否定の入力があると話題推定が失敗となり結果
出力部１２への推定話題の供給を行わない。また，確信
度が予め設定された一定の値以上の場合は，話題確認の
出力を行うことなく結果出力部に推定話題を出力する。

【００１４】この第２の原理構成により，推定話題の確
信度が高い場合には，いちいち話題確認を行う冗長さを
避けることができ，低い場合には確認を行うことにより
確実に対話処理を行うことができる。

【００１５】図３は本発明の第３の原理構成である。図
中，１，１０〜１２，１３ａ〜１３ｃ，１４は上記図２
の各符号の各部と同じであり，図２と異なる部分は，符
号１５で表す非言語情報入力部である。この非言語情報
入力部１５は，カメラ等からのユーザによる身ぶり（ジ
ェスチャー）や手ぶり等の画像情報やマウス操作情報等
の非言語情報が入力されて，対応する情報を発生する。

【００１６】この第３の原理構成では，話題確定部１４
において上記図２と同様に発話入力部１０からの発話情
報に基づいて発話認識部１１で話題を推定して，得られ
た推定話題と確信度を受け取って話題確定部１４におい
て話題を確定するが，確信度が予め設定された一定の値
に達しない場合，非言語情報入力部１５からの非言語情
報を識別し，この中に話題推定のための情報があればそ
の情報により話題を推定し，その後は上記第２の原理
（図２）と同様に話題確認のための出力と，ユーザから
の入力による確認を行う。

【００１７】この第３の原理により推定話題の確信度が
低い場合には，簡単な動きや操作等の非言語情報の入力
を利用して直接的にユーザに確認することなく話題を確
定することができる。

【００１８】図４は本発明の第４の原理構成である。図
中，１，１０〜１２，１３ａ〜１３ｃ，１４は上記図３
の各符号の各部と同じであり，図３と異なる部分は，符
号１６で表す対話管理部，符号１７で表すシステム発話
出力部である。対話管理部１６は内部メモリで推定結果
の話題を管理し，各話題の変化を記録し，話題の変化に
対応することを可能とする手段であり，システム発話出
力部１７はシステムの認識している話題を音声，映像等
により出力する手段である。

【００１９】この第４の原理構成では，発話認識部１１
で推定した推定話題と確信度を受けて話題確定部１４に
おいて推定話題を発生し結果出力部１２を介して推定話
題が対話管理部１６へ供給される。また，確信度が低い
場合には確認のために話題が出力されて，これに対する
対話管理部１６（及びシステム発話出力部１７）を介す
るＹｅｓ／Ｎｏの応答を受けて話題を確定する。対話管
理部１６は複数の話題に対応して話題の進行を管理する
機能や，複数の話題に対応した知識（ルール）を用いて
話題の進行を認識して状態を保持し，対話の途中で話題
が変更しても話題転換時点から元の話題に関する対話を
再開して遂行することができる。システム発話出力部１
７は対話管理部１６から得られたユーザ発話に応じたシ
ステム発話を出力する。

【００２０】この第４の原理により，複数の話題のそれ
ぞれについて開始，進行，及び終了を管理し，一つの話
題から別の話題への転換や，新たな話題の開始や，中
断，再開が発生しても柔軟に対応することができる。

【００２１】

【発明の実施の形態】図５は本発明の実施例の構成図で
ある。図中の１，１０〜１２，１４〜１７は上記図１乃
至図４の同じ符号の各部に対応し，１は情報処理装置，
１０は発話入力部，１１は発話認識部，１２は結果出力
部，１４は話題確定部，１５は非言語情報入力部，１６
は対話管理部，１７はシステム発話出力部を表す。シス
テム発話出力部１７内の１７０は表現生成機能部，１７
ａは話題表現知識データベース（ＤＢ）である。また，
１３ａは図１乃至図４に示す特定話題に関する発話デー
タベースを構成する複数のデータベースであり，１３ａ
１はユーザの設定した時刻を通知することに関する対話
のためのアラーム通知データベース（ＤＢ），１３ａ２
はユーザに対しメール着信を通知することに関する対話
のためのメール着信通知データベース（ＤＢ），１３ａ
３はユーザの設定した時刻に自動起動した後そのことを
ユーザに通知することに関する対話のための自動起動デ
ータベースであり，１３ｂは図１乃至図４の話題非依存
発話データベースに対応する汎用データベース（汎用Ｄ
Ｂで表示），１３ｃは図１乃至図４の対話開始時発話デ
ータベースに対応する対話開始時データベース（対話開
始時ＤＢで表示）である。また，２０はユーザによる発
話（音声入力）を音声信号に変換するマイク，２１はユ
ーザの身振り，手振り，顔の表情，図形等を画像信号に
変換するカメラ，２２はシステム発話出力部１７から音
声の表現形態で出力されたを信号を音声出力に変換する
スピーカ，２３はシステム発話出力部１７から画像の表
現形態で出力された信号を画面上に表示するディスプレ
イである。

【００２２】図５に示す実施例の構成を用いて上記図１
乃至図４の各原理構成による話題推定（または話題確
定）の処理を実現することができ，以下に説明する。

【００２３】図６は第１の原理構成（図１）に対応する
話題推定の処理フローを示し，この処理は図５の発話認
識部１１において実行される。

【００２４】話題推定を開始すると，現在進行中の話題
があるか発話認識部１１内のメモリ内の話題を保持する
領域（図示省略）を参照する等の方法により判別し（図
６のＳ１），進行中の話題がない場合は，対話開始時に
話されるであろう発言を対話開始時データベース３ｃで
認識をして（同Ｓ２），認識が成功したか判別する（同
Ｓ３）。成功しないと，話題の推定不能として終了し
（図６のＳ４），認識が成功すると，認識結果が得られ
た特定話題のデータベース（図５の１３ａ１〜１３ａ３
の中の何れか一つ）が対象とする話題を推定話題として
処理を終了する（図６のＳ５）。

【００２５】Ｓ１において，進行中の話題があると判別
されると，現在進行中の話題が１つであるか判別し（図
６のＳ６），１つでない場合（複数ある場合）は進行中
の全ての話題に関する発話データベースと話題非依存デ
ータベースを用いて現在の話題を認識し（同Ｓ７），認
識が成功したか判別する（同Ｓ８）。この認識が成功す
ると，認識結果が得られたデータベース（１３ａ１〜１
３ａ３，１３ｂの中の一つ）の話題を推定話題として終
了し，認識が成功しない場合は，上記したＳ２に移行し
て，対話開始時の発話データベースによる認識を行う。

【００２６】上記Ｓ６で，現在進行中の話題が１つであ
ると判別されると，現在話題データベースと話題非依存
データベースで認識を行い（図６のＳ１０），認識が成
功したか判別し（同Ｓ１１），成功すると現在の話題を
推定話題として処理を終了するが，成功しない場合は上
記のＳ２に移行する。

【００２７】図６による話題推定時に認識に利用できる
データベースを入れ替える必要が生じ，その間に入力さ
れる発話を認識できない状態が存在し得る。このような
状態によって，システム発話出力部（図５の１７）に装
備されているデバイスを利用して出力する音声や，画像
表現を決めることにより間接的にユーザに通知すること
ができる。

【００２８】図７は第２の原理構成（図２）に対応する
話題確定の処理フローを示し，この処理は図５の話題確
定部１４において実行される。なお，この場合，発話認
識部１１は，話題推定を行った時に結果として推定話題
と共にその確信度の値も出力される。

【００２９】発話認識部における話題推定の処理が行わ
れて（図７のＳ１），その結果として推定話題が得られ
たかを判別する（同Ｓ２），得られなかった場合は話題
推定不能として処理を終了し（同Ｓ３），得られた場合
は，推定話題と共に与えられた確信度が低い（予め設定
された閾値より低い）か判別する（同Ｓ４）。確信度が
高い場合（ノーの場合）はその時の推定話題で話題を確
定し（図７のＳ５），低い場合（イエスの場合）は，推
定話題を確認するために通知（図５の対話管理部１６，
システム発話出力部１７を経由してスピーカ２２または
ディスプレイ２３へ出力）して，応答を待つ（同Ｓ
６）。ユーザからの応答（図５のマイク２０からの音声
入力か，カメラ２１からの操作者の動き等の画像入力，
または図５では省略されたキーボードやマウスからの操
作入力）がＹＥＳかＮＯかを判別し（図７のＳ６），Ｎ
Ｏの場合は話題推定が不能とし，ＹＥＳの場合は確認の
ために出力した推定話題を話題として確定する（同Ｓ
７）。

【００３０】図８は第３の原理構成（図３）に対応する
話題確定の処理フローを示し，この処理も図５の話題確
定部１４において実行される。なお，この場合も発話認
識部１１は，話題推定を行った時に結果として推定話題
と共にその確信度の値も出力する。

【００３１】図８のＳ１乃至Ｓ４までは上記図７のＳ１
〜Ｓ４と同様であり，説明を省略する。Ｓ４において，
推定話題の確信度が低いと判断された場合，推定話題と
関連する非言語情報があるか判別する（同Ｓ５）。図５
の実施例の場合，非言語情報入力部１５にはカメラ２１
からユーザ画像が入力される。このユーザ画像として
は，ユーザの身振り，手振り，または手書きの絵等の各
種の画像の中の一つが入力されると，その画像が表す意
味（情報内容）を識別する。非言語情報がある場合は話
題を確定して処理を終了するが，ない場合は話題を確認
するために，上記図７のＳ５と同様に話題を確認するた
めに推定話題の通知を行い（図８のＳ６），応答がＹｅ
ｓかＮｏかを判別し（同Ｓ７），Ｎｏの場合は話題推定
が不能とし，Ｙｅｓの場合は確認のために出力した推定
話題を話題として確定する（同Ｓ８）。

【００３２】図９は対話管理部（図４の１６）の実施例
１の構成を示す。

【００３３】対話管理部は１６０〜１６２の各部で構成
され，１６０は対話遂行部，１６１はワーキングメモ
リ，１６２は複数の話題（図の例では話題Ａ，…話題Ｘ
を示す）に関する知識ルールを格納した知識ルール格納
部である。対話管理部は話題の情報を含む内外情報（入
出力情報）を管理するワーキングメモリ１６１とそのワ
ーキングメモリ１６１の値の変化に応じて予め記述して
おいた知識ルール格納部１６２の対話進行に基づいてエ
ンジンである対話遂行部１６０により対話進行状態を保
持しながら対話を遂行する。

【００３４】対話遂行部１６０は各対話毎の対話進行状
況を保持するメモリ１６０ａを備え，この例では話題Ａ
と話題Ｘの２つについて状態遷移図の形式で対話遂行状
況を表し，それぞれの対話が実際に進められた段階は実
線に対して付された矢印が示す○印で表し，点線に対し
て付された矢印が示す部分は対話が進められていないこ
とを表す。ワーキングメモリ１６１は対話の遂行状況に
応じて現在の推定話題，実行中の話題，終了フラグが付
された終了した話題等を記録し，対話遂行部１６０はワ
ーキングメモリ１６１の状態に応じて，メモリ１６０ａ
の対話遂行状況を更新し，これまでの話題と異なる話題
がワーキングメモリ１６１に書き込まれると，これまで
の話題に関する対話遂行を中断し，新たな話題に関する
対話遂行を実行する。各話題に対応する対話進行の段階
は，知識ルール格納部１６２から話題に対応する知識ル
ールを取り出すことにより認識できる。

【００３５】新たな話題に関する対話へ移行しても，そ
れまでの話題に関する対話遂行状況はメモリ１６０ａに
保持されているので，新たな話題が中断または終了して
も，話題転換時点から元の話題に関する対話を遂行する
ことができる。なお，ワーキングメモリ１６１にリスト
として記録された実行中話題を実行中話題リストと呼ば
れる。

【００３６】この対話管理部において，各タスクを話題
に対応させ，各タスクに関わる情報のやりとりを対話遂
行ルールで記述することによって，複数のタスクを管理
し支援する対話モジュールが実現できる。

【００３７】道案内や店案内のような状況に応じて通知
する優先度が変化する情報を伝えるモジュールが存在す
る時，図９に示す対話管理部において，授受すべき情報
が異なってくる特徴的な状況を話題に対応させ，状況に
応じた情報のやりとりを対話遂行ルールで記述し，シス
テムが認識している状況を出力情報に付加し，さらに話
題の転換時には状況の推移を表現することによって，状
況の変化と情報授受内容との対応を明確にすることがで
きる。

【００３８】図１０は対話管理部（図４の１６）の実施
例２の構成を示す。この実施例２の対話管理部は，上記
図９に示す対話管理部を，プロダクションシステムを利
用して構成したものであり，図中，１６１，１６２は上
記図９の同一符号の各部に対応し，１６１はワーキング
メモリ，１６２は各話題Ａ〜話題Ｘに対応するｉｆ（条
件），ｔｈｅｎ形式の多数の対話遂行ルールから成る知
識ルールを格納した知識ルール格納部，１６３は上記図
９の対話遂行部１６０と同様の機能を備えたリアクティ
ブプランナーである。

【００３９】リアクティブプランナー１６３は，ワーキ
ングメモリ１６１を参照して実行すべきルールをインス
タンス化し，その状態をメモリ１６３ａ上に保持しなが
らルールの再評価を行う。これまでの，話題と異なる話
題がワーキングメモリ１６１に書き込まれると，これま
での話題に関するルールとは異なる話題がワーキングメ
モリ１６１に書き込まれると，これまでの話題と異なる
話題に関するルールが実行されることにより新たな話題
の対象へ移行する。ここで，新たな話題に転換しても，
それまでのルール状態は消えることなくメモリ上に保持
されたままであり，新たな話題に関する対話遂行ルール
の実行が中断または終了すると，話題転換時点のルール
が保持されているので，これを実行することによって，
転換時点の状態から対話を再開することができる。

【００４０】ワーキングメモリ１６１で実行中話題を管
理するリスト（実行中話題リスト）を用意する。初期状
態は空とする。ある話題の開始時には，ワーキングメモ
リ１６１のリストに開始する話題を追加する。終了時に
はリストから終了する話題を消す。話題開始時に，既に
リスト中に他の実行中話題が存在していれば，話題が途
中で転換したことが分かる。この時，必要に応じて「話
をかえるけど」というようなつなぎ言葉を挿入する。転
換した話題が中断または終了し，再び中断されていた話
題を遂行する時には，ワーキングメモリ１６１のリスト
にすでに自身の話題が書き込まれている。これにより，
その話題が中断されていたことがわかる。この時，必要
に応じて「話を元に戻すけど」というようなつなぎ言葉
を挿入したり，先の発話を繰り返すなどの操作を行った
りする。

【００４１】このように，対話遂行ルールを話題の転換
を意識することなく記述しても，実行時に話題の転換を
考慮した対話を実現することができる。

【００４２】各話題の対話遂行ルールを，必要となる情
報がユーザ発話の言語情報以外から取得される場合には
ふれず，取得されない場合にはその情報を取得するよう
に記述しておく。このような記述方法をとることによっ
て，非言語情報入力部（図３の１５）に装備されている
デバイスが有効である場合には，そこからの入力情報を
利用したルールが実行され，そうでない場合にはその情
報を取得するためのルールが実行される。このことによ
り，入力デバイスの有効，無効に関わらず，同じ対話管
理部を利用することができる。

【００４３】図５に示す情報処理装置の実施例の構成に
おいて，システム発話出力部１７の出力はスピーカ２２
またはディスプレイ２３から出力される。スピーカ２２
は表現生成機能部１７０に音声合成装置を設けることに
より音声出力を行うことができ，ディスプレイ２３を用
いる場合はシステム発話を文字列で表示することができ
る。また，表現生成機能部１７０に映像出力装置と映像
データを設けることにより映像出力を付加して出力する
ことができる。この時，話題に応じて音声合成する声質
や，スピーカ出力する音量，または表示する文字列の
色，または映像データ（特定のキャラクタを含む）のそ
れぞれを変えることで，システムの認識している話題を
出力することができる。

【００４４】図１１はシステム発話出力部に備えられた
表現生成機能部（図５の１７０）の処理フローである。
図５の発話認識部１１，話題確定部１４，結果出力部１
２と対話管理部１６の動作により話題推定の処理が行わ
れ（図１１のＳ１），推定話題が得られたか判別する
（同Ｓ２）。この判別により推定話題が得られないと処
理を終了するが，推定話題が得られると，話題表現知識
ＤＢ（図５の１７ａ）を参照して，推定話題に対応する
表現を決定する（図１１のＳ３）。

【００４５】図１２は本発明による具体的な構成例であ
る。図中，１，１０〜１２，１３ａ〜１３ｃ，１４〜１
７，１７ａ，１７０及び２０〜２３は上記図５の同一符
号の各部と同じである。

【００４６】この具体例では，ユーザ発話の音声をマイ
ク２０から入力すると共にユーザの顔画像をカメラ２１
から入力し，話題に対応するタスクを支援するインタフ
ェースエージェント（コンピュータとユーザへ出力を行
う形態）として擬人化エージェントを用い，システム応
答（出力）は特定のＣＧ（コンピュータグラフィック）
アニメーションのキャラクタ画像をディスプレイ２３で
表示すると共に音声合成による音声出力をスピーカ２２
から行う。この具体例では，タスクは特定話題に対応し
て自動起動通知，メール着信通知，アラーム通知があ
る。

【００４７】図１２のシステム発話出力部１７の表現生
成機能部１７０が参照する話題表現知識データベース１
７ａには，各話題に対応してＣＧアニメーションのキャ
ラクタ（人物等）の服の色が決められており，例えば
「自動起動」の話題に対して「赤い服」，「メール着信
通知」の話題に対して「青い服」が設定されており，キ
ャラクタ（擬人化エージェント）は画像でディスプレイ
に表示されると共に，そのキャラクタの発話は音声合成
により出力される。

【００４８】図１３は各データベースの具体例であり，
図１２の構成における各タスクに関する対話はそれぞれ
異なる話題の対話として実装され，図１３のＡ．は各タ
スクに依存する発話を収録したデータベース（図１２の
１３ａ）であり，アラーム通知ＤＢ１３ａ１，メール着
信通知ＤＢ１３ａ２，及び自動起動ＤＢ１３ａ３の３つ
の具体例である。図１３のＢ．は，特定話題に依存しな
い発話をモデル化したＤＢであり，汎用データベース１
３ｂの具体例を示し，１３のＣ．は各話題の対話開始時
に話されるであろう発話をモデル化したデータベース１
３ｃの具体例である。

【００４９】図１２の構成による動作の例を処理順に以
下に説明する。

【００５０】(1) 発話入力部１０でユーザが発話した
「メールきてる？」が入力される一方，非言語情報入力
部１５でカメラ２１からユーザの顔画像を入力されるこ
とによりユーザ名が「Ａ」であることを認識する。

【００５１】(2) 発話認識部１１は，話題を推定し，今
現在進行中の話題がないものとすると，上記図４に示す
話題推定の処理フローにおいて現在進行中の話題がない
ので，上記図１３のＣ．に示す各話題の対話開始時に話
されるであろう発話をモデル化したデータベースを利用
して，上記(1) の発話入力部１０で認識した「メールき
てる？」と合致する発話を検索し，「メールきてる＜質
問文末＞」と合致するので，話題を“メール着信通知”
と推定する。

【００５２】(3) この場合の，“メール着信通知”とい
う推定話題の確信度が高く，入力された非言語情報（上
記(1) の場合はユーザの顔画像) が推定話題と特に関連
しないとすると，上記図８に示す話題確定の処理フロー
により，話題を“メール着信通知”と確定する。

【００５３】(4) 対話管理部１６は，入力発話に対する
システム応答を決定する。

【００５４】(5) システム発話出力部１７は，上記(4)
で決定されたシステム応答の音声合成音を作成する。ま
た，確定した話題“メール着信通知”から，話題表現知
識データベース１７ａ（図１２）を参照して，キャラク
タを“青い服のキャラクタ”に決定し，出力すべきキャ
ラクタＣＧのアニメーションを青い服のキャラクタに決
定する。

【００５５】(6) 音声合成音をスピーカ２２から出力
し，ＣＧキャラクタをディスプレイ２３に描画する。

【００５６】ユーザの発話入力と情報処理装置のシステ
ム発話出力部からの発話出力の具体例を以下に説明す
る。以下の説明ではユーザの発話入力を単に「ユーザ」
といい，情報処理装置のシステム発話出力部からの応答
出力を端末に「システム」という。

【００５７】“アラーム通知”の話題の対話として，
ユーザが「アラーム時刻を設定して」と入力すると，シ
ステムが「何時ですか？」と応答し，ユーザが「３時
に」と入力するのに対し，システムが「３時でいいです
ね？」，ユーザが「イエス」というような対話が行われ
て，話題が確定する。この場合，対話管理部１６は，話
題が確定することで，内部の実行中話題リスト（上記図
９，図１０のワーキングメモリ１６１内）に“アラーム
通知”を書き込んで保持する。

【００５８】ここで，ユーザが設定時刻の確認のた
め，連絡があるはずのメールを確認したい場合，ユーザ
が「メールきてないかな？」と入力すると，話題認識部
（図１２の１１）は，現在の話題に対応する“アラーム
通知ＤＢ”（図１２の１３ａ１）と“汎用データベー
ス”（図１２の１３ｂ）を用いて認識を行う。しかし，
「メールきてないかな」という発話は，いずれにも属さ
ないため，認識失敗となる。そこで，続いてデータベー
スを“話題開始発話ＤＢ”（図１２の１３ｃ，図１３の
Ｃ．）に変更して再度認識を行うと，「メール着信通
知」の話題の発話として認識されるので，話題を“メー
ル着信通知”と推定する。対話管理部１６では，アラー
ム通知に関する対話遂行ルールをそれまでの状態で保持
し，推定した話題によってメール着信通知に関する対話
遂行ルールを実行する。この時，実行中話題リストに
“メール着信通知”を書き込む。この場合，すでに“ア
ラーム通知”が上記実行中話題リストに存在するので，
話題が転換されたことが分かる。しかし，この場合は，
ユーザからの話題転換なので，つなぎことばを挿入しな
い。

【００５９】メールの着信をチェックするにあたり，
利用ユーザが誰であるかを特定しなければならない。こ
の時，発話入力以外に別の形態としてカメラ２１があ
り，ユーザの顔画像の入力により，ユーザが特定できる
場合には，その情報からユーザを特定してメールをチェ
ックできる。カメラがついていない場合または，カメラ
によってユーザが特定できない場合には，ユーザがわか
らないので，システムから「君の名前はなに？」という
出力を行うことによりユーザからの発話入力を受け取っ
て特定する。

【００６０】“メール着信通知”に関する話題を終了
した時点で，メール着信通知に関する対話遂行ルールは
消え，保持されていたアラーム通知に関する対話遂行ル
ールを実行する。このとき，再開しようとしている話題
“アラーム通知”がすでに実行中話題リストに存在する
ので，この話題が中断されていたことがわかる。そこ
で，「話を戻すけど」というつなぎことばを挿入し，保
持していたルールの状態から実行し「３時でいいですね
？」という発話から再開する。ここで，図１２の話題表
現知識ＤＢ１７ａによりキャラクタの服の色をアラーム
通知に対応して黄色にした画像を表示する。

【００６１】システムから話題の変換をユーザに対して
表示により通知する他の出力形態として次のａ．〜ｅ．
のような方法がある。

【００６２】ａ．タスク毎の担当者がいるように見せる
ため，キャラクタを話題毎に入れ変える。

【００６３】ｂ．話題の変換時に，１回転するなどのア
クションを入れる。

【００６４】ｃ．話題に応じたアクションや，衣装（色
ではなくデザイン）または大きさを変える。

【００６５】ｄ．話題に応じて背景を変える。

【００６６】ｅ．キャラクタが３Ｄ（３次元）表現され
ていれば，話題が変わる毎に視点を変える。

【００６７】これによって，話題の変換をユーザに通知
できるが，ＣＧによるキャラクタ表現を行う機能がな
く，音声出力だけ備えている場合には，次のｆ．〜ｈ．
のような形態で通知することができる。

【００６８】ｆ．システム発話の音声の種類（男の声，
女の声，子供の声等）を話題毎に変える。

【００６９】ｇ．対話中に話題に応じたＢＧＭ（Back G
round Music)を流す。

【００７０】ｈ．話題に応じてＢＧＭ（Back Ground Mu
sic)の音量を変化させる。

【００７１】本発明の情報処理装置はロボットに組み込
むことにより，ユーザとの対話を通じて制御動作をさせ
ることができる。その場合は次のように通知を行うこと
ができる。ロボットの動作を話題毎に変えることで，ユ
ーザに通知でき，発話が音声ではなくコンソール（ディ
スプレイ）への文字出力のみであれば，文字の色を変え
るか，フォントを変えることにより話題変換を通知でき
る。

【００７２】上記のａ．の例のように，話題変換の通知
をキャラクタの入れ替わりで表現するのであれば，ユー
ザの想定していない話題になっている場合には「話題が
ちがう」という直接的な対話ではなく，ユーザからの
「君じゃないよ」というような発話によって，話題が間
違っていることをシステムに知らせることもできる。

【００７３】本発明は，特徴的な状況を話題に対応させ
てどのような状況における情報を通知しているのかを明
確にできる情報処理装置に適用して移動しながら道案内
を行う装置に実施することができ，その場合の動作を説
明する。

【００７４】ある目的地に行くために，移動開始地点か
らユーザが移動することによって「位置」と「交通手
段」という状況によって，道案内すべき情報が変化す
る。どの「位置」に居て，どの「交通手段」を利用する
ことを前提としているかがユーザに対して明確に伝わら
なければ，通知される道案内情報は曖昧なものとなる。
そこで，あるポイントとなる「位置」と「交通手段」の
定まる状況における道案内の仕方に関わる対話をある話
題に関わる対話として対話遂行ルールを記述する。この
道案内を行う装置がディスプレイを内蔵している場合，
システムの認識した「位置」と「交通手段」を画像の描
画などで表現し，状況の推移する時にどういう推移をし
ているかを表現することによって，状況の推移と道案内
の内容を明確にユーザに伝えることができる。

【００７５】本発明は複数存在するシステムの知識をそ
れぞれ話題に対応させ，話題を明確に伝えることによっ
て，ユーザの持っている知識の訂正を行うことができる
情報処理装置に適用することができ，具体的にはデパー
トの商品問い合わせを行う対話を行う装置があり，その
場合の動作を説明する。

【００７６】デパートの各売り場毎に行う対話を話題に
対応させ，客から問い合わせのある商品に適した売り場
に応じて話題を転換し，かつ話題が変わる時には，売り
場ごとのキャラクタ画像を表示するようなことによっ
て，客に担当売り場を伝える。これにより，客が問い合
わせた商品を扱う売り場を間違っていた時に，その間違
いを話題の転換，すなわち売り場毎のキャラクタ画像変
更によって伝えることができる。

【００７７】（付記１）発話の入力から言語情報を認識
する発話入力部と，各話題別に対応した複数種の言語情
報のデータベースから成る特定話題に関する発話データ
ベースと，話題に関係なく対話を進行するための言語情
報のデータベースからなる特定話題非依存発話データベ
ースと，対話の開始や変更の識別する言語情報のデータ
ベースから成る対話開始時発話データベースとを備え，
前記発話入力部からの言語情報に対し，各データベース
を用いて発話された話題を推定する発話認識部と，前記
発話認識部で推定した話題を受け取って出力を行う結果
出力部とを備えたことを特徴とする情報処理装置。

【００７８】（付記２）前記発話認識部は推定した推定
話題と，該推定話題の認識時の確信度とを出力し，前記
推定話題と確信度の入力に応じて確認のための出力を行
うと共に，該出力に対する肯定または否定の入力を受け
取って話題を確定する話題確定部を設け，前記話題確定
部により確定した話題を前記結果出力部へ供給して出力
することを特徴とする付記１に記載の情報処理装置。

【００７９】（付記３）付記２において，言語情報以外
の他の形態の情報が入力される非言語情報入力部を設
け，前記発話認識部からの推定話題の確信度が低い場合
に，前記話題確定部は前記非言語情報入力部からの情報
を用いて推定話題を確定することを特徴とする情報処理
装置。

【００８０】（付記４）付記２において，実行中等の話
題の状態を含む内外情報を管理するワーキングメモリと
そのワーキングメモリの値の変化に応じて予め記述して
いた対話進行に基づいて対話進行状態を保持しながら対
話を遂行するエンジンとで構成される対話管理部と，ユ
ーザ発話に対するシステム発話を出力するシステム発話
出力部とを設け，前記対話管理部は前記話題確定部から
の推定話題が変化すると，前記ワーキングメモリに書き
込まれた進行中の話題を中断して別話題の話題に転換し
て，転換した話題が中断または終了すると，前記保持さ
れていた対話進行状態に基づいて中断された話題を中断
時点から再開することを特徴とする情報処理装置。

【００８１】（付記５）付記４において，前記対話管理
部を，対話遂行ルールを格納したルールデータベースと
話題を含む内外情報を管理するワーキングメモリと，実
行ルール状態を保持してルールの評価及び実行を行うエ
ンジンとで構成するプロダクションシステムとで構成す
ることを特徴とする情報処理装置。

【００８２】（付記６）付記４または５において，各話
題の対話進行を話題の転換を考慮することなく独立して
記述し，実行時に対話全体の遂行状況から自動的につな
ぎ言葉を挿入して話題の転換を実現することを特徴とす
る情報処理装置。

【００８３】（付記７）付記４において，前記システム
発話出力部は，認識した推定話題に応じて音声合成のた
めの音声情報及び予め決められた画像情報の何れか一方
または両方を生成して出力する表現生成機能部を備える
ことを特徴とする情報処理装置。

【００８４】（付記８）付記７において，前記システム
発話出力部は，各話題に対応した音声情報及び画像情報
を格納した話題表現データベースを備え，推定話題に応
じて前記合成される音声の声質または音量を決めるか，
表示される文字列の色または画像表現を変えることを特
徴とする情報処理装置。

【００８５】（付記９）付記４において，各話題をタス
クに対応させ，各タスクに関係する情報のやりとりを前
記対話遂行ルールに記述して，複数の独立したタスクを
管理して支援する対話モジュールを実現することを特徴
とする情報処理装置。

【００８６】

【発明の効果】本発明の第１の原理によれば現在の話題
に対応した発話認識と，話題の変化を確実に認識して，
ユーザの発話内容に対応した応対が可能となる。また，
本発明の第２の原理によれば推定話題の確信度が低い場
合にも，話題確認を行うことにより正確な対話処理を行
うことができる。更に，本発明の第３の原理によれば推
定話題の確信度が低い場合にも，簡単な動きや操作等の
非言語情報の入力を利用して確信度を向上させることが
できる。また，本発明の第４の原理によれば複数の話題
のそれぞれについて開始，進行，及び終了を管理し，一
つの話題から別の話題への転換や，新たな話題の開始
や，中断，再開が発生しても柔軟に対応することができ
る。

【００８７】また，システム発話出力として音声合成に
よる音声出力または文字や，特定のキャラクタの表示出
力により利用者にシステムの認識している話題を確実に
通知することができる。

【００８８】本発明による情報処理装置を用いて，実時
間でやりとりする対話システムにおいて，ユーザの話題
推定を行い，それに応じた対話の遂行を実現できる。ま
た，システムが話題として推定している状態をユーザに
間接的且つ明確に知らせることができ，これにより機械
との対話でしか起こり得ないような機械的な対話を極力
排除することができる。

【図面の簡単な説明】

【図１】本発明の第１の原理構成を示す図である。

【図２】本発明の第２の原理構成を示す図である。

【図３】本発明の第３の原理構成を示す図である。

【図４】本発明の第４の原理構成を示す図である。

【図５】本発明の実施例の構成図である。

【図６】第１の原理構成に対応する話題推定の処理フロ
ーを示す図である。

【図７】第２の原理構成に対応する話題確定の処理フロ
ーを示す図である。

【図８】第３の原理構成に対応する話題確定の処理フロ
ーを示す図である。

【図９】対話管理部の実施例１の構成を示す図である。

【図１０】対話管理部の実施例２の構成を示す図であ
る。

【図１１】システム発話出力部に備えられた表現生成機
能部の処理フローを示す図である。

【図１２】本発明による具体的な構成例を示す図であ
る。

【図１３】各データベースの具体例を示す図である。

【図１４】従来例の説明図である。

【符号の説明】

１情報処理装置１０発話入力部１１発話認識部１２結果出力部１３ａ特定話題に関する発話データベース１３ｂ特定話題非依存発話データベース１３ｃ対話開始時発話データベース

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 3/00 ５７１Ｑ (72)発明者福岡俊之神奈川県川崎市中原区上小田中４丁目１番１号富士通株式会社内 (72)発明者山田茂神奈川県川崎市中原区上小田中４丁目１番１号富士通株式会社内 (72)発明者山本健司神奈川県川崎市中原区上小田中４丁目１番１号富士通株式会社内Ｆターム(参考） 5B091 CB12 CB32 DA02 5D015 AA01 AA05 LL06 LL12

Claims

【特許請求の範囲】

【請求項１】発話の入力から言語情報を認識する発話
入力部と，各話題別に対応した複数種の言語情報のデー
タベースから成る特定話題に関する発話データベース
と，話題に関係なく対話を進行するための言語情報のデ
ータベースからなる特定話題非依存発話データベース
と，対話の開始や変更の識別する言語情報のデータベー
スから成る対話開始時発話データベースとを備え，前記
発話入力部からの言語情報に対し，各データベースを用
いて発話された話題を推定する発話認識部と，前記発話
認識部で推定した話題を受け取って出力を行う結果出力
部とを備えたことを特徴とする情報処理装置。
【請求項２】請求項１において，前記発話認識部は推
定した推定話題と認識時の確信度とを出力し，前記推定
話題と確信度の入力に応じて確認のための出力を行うと
共に，該出力に対する応答の入力を受け取って話題を確
定する話題確定部を設け，前記話題確定部により確定し
た話題を前記結果出力部へ供給して出力することを特徴
とする情報処理装置。
【請求項３】請求項２において，言語情報以外の他の
形態の情報が入力される非言語情報入力部を設け，前記
話題確定部は，前記発話認識部からの推定話題の確信度
が低い場合に前記非言語情報入力部からの情報を用いて
推定話題を確定することを特徴とする情報処理装置。