JP2002032370A - 情報処理装置 - Google Patents

情報処理装置

Info

Publication number
JP2002032370A
JP2002032370A JP2000216871A JP2000216871A JP2002032370A JP 2002032370 A JP2002032370 A JP 2002032370A JP 2000216871 A JP2000216871 A JP 2000216871A JP 2000216871 A JP2000216871 A JP 2000216871A JP 2002032370 A JP2002032370 A JP 2002032370A
Authority
JP
Japan
Prior art keywords
topic
utterance
unit
database
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000216871A
Other languages
English (en)
Inventor
Sachiko Onodera
佐知子 小野寺
Ei Ito
映 伊藤
Toshiyuki Fukuoka
俊之 福岡
Shigeru Yamada
茂 山田
Kenji Yamamoto
健司 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2000216871A priority Critical patent/JP2002032370A/ja
Publication of JP2002032370A publication Critical patent/JP2002032370A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】本発明は複数の話題が存在する対話システムの
ための情報処理装置に関し,一発話から話題を推定し,
話題の転換と中断されていた話題の再開を識別し,装置
が認識している話題を通知することを目的とする。 【解決手段】発話の入力から言語情報を認識する発話入
力部と,各話題別に対応した複数種の言語情報のデータ
ベースから成る特定話題に関する発話データベースと,
話題に関係なく対話を進行するための言語情報のデータ
ベースからなる特定話題非依存発話データベースと,対
話の開始や変更の識別する言語情報のデータベースから
成る対話開始時発話データベースとを備え,発話入力部
からの言語情報に対し,各データベースを用いて発話さ
れた話題を発話認識部で推定し,発話認識部で推定した
話題を受け取って結果出力部から出力を行うよう構成す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は複数の話題が存在す
る対話を処理する情報処理装置に関する。
【0002】近年,音声の入力に対し音声により自動的
に応対して,会話を通じて注文を受け付けする等の対話
システムが利用されるようになった。同様に図形を入力
したり,ゼスチャー等により入力を行うシステムも考え
られている。
【0003】そのような対話システムにおいて,話題の
転換を認識するには,「ところで」や「次に」などの語
句の出現で認識したり,数回の発話を経て特定したりし
ている。しかし,これでは,人間が自然に行っているよ
うに,話題がふと変わった時にすばやく認識して対応で
きるよううなことが,実際のリアルタイムの対話システ
ムで実現することが難しいため,その改善が望まれてい
る。
【0004】
【従来の技術】図14は従来例の説明図であり,図中,
80は音声,文字等が入力される入力部,81は対話処
理を行う処理装置,82はデータベース,83は音声に
よる出力部である。この従来例は,例えば,音声による
注文の受付けを行うものとし,ユーザによる音声等が入
力部80から入力されると,これがディジタル化されて
処理装置81へ入力する。処理装置81は入力された発
話情報について,データベース82を参照して,解析を
行って認識し,認識結果に応じてユーザに対して指示ま
たは応答するための出力情報を出力部83に与えて,音
声出力が出力部83から発生する。処理装置81は,注
文の内容について図示省略された記録装置に記録を行
う。
【0005】このように従来は,商品の注文や,チケッ
トの予約等のそれぞれの目的に対応したシステムが設け
られており,ユーザから入力される話題は限定されてお
り,話題が変化することを想定していなかった。
【0006】しかし,日常の人と人との対話では,その
時の必要性,状況に応じて話題を転換したり,転換後に
また新たな対話が行われており,近年,このような対話
を実現するシステムを構築することが望まれている。
【0007】
【発明が解決しようとする課題】各種の話題の転換に対
応するには,ユーザからの最初の一言からどのような話
題であるかを推定する必要がある。また,話題の転換
と,その後の中断話題の再開をスムーズに行わなければ
ならない。さらに,人と人との対話ではなく機械との対
話であるため,機械がどのように話題を認識しているか
を伝える必要があるが,それが,対話の妨げとなるよう
な「○○という話題ですね」という機械的な対話の繰り
返しであっては,その対話システムを利用する上で不快
なものとなる。
【0008】本発明は,一発話(最初の一言を意味す
る)から話題を推定し,話題の転換と中断されていた話
題の再開を識別し,装置が認識している話題を通知する
ことができる情報処理装置を提供することを目的とす
る。
【0009】
【課題を解決するための手段】図1は本発明の第1の原
理構成を示す図である。図中,1は情報処理装置,10
はユーザの発話(音声,テキスト,画像等の何れかの形
態)が入力されてディジタル化を行う発話入力部,11
は発話入力部10から入力された発話情報から後述する
複数のデータベースを用いてユーザ発話の話題を推定し
て認識する発話認識部,12は発話認識部11で認識し
た推定話題をユーザに出力する結果出力部,13aは複
数の特定話題にそれぞれに対応して各特定話題の発話を
認識するための特定話題に関する発話データベース,1
3bは話のつなぎや聞き返し等の対話を進行する上で使
う言葉等を認識するための特定話題非依存発話データベ
ース,13cは話題が変わる場合に最初に使う言葉等を
認識するための対話開始時発話データベースである。
【0010】ユーザが発話入力を行うと発話入力部10
でユーザの発話内容が検出され,その発話内容が発話認
識部11へ入力される。発話認識部11による話題推定
方法は,現在進行している話題が存在するか調べ,存在
すれば複数の話題が存在するか調べ,複数であればそれ
ら全ての話題に関する,特定話題に関する発話データベ
ース13aを適用して発話認識を行い,一つであればそ
の話題に関する特定話題に関する発話データベース13
aを適用して認識して,認識できた場合は認識結果とな
る発話の属する話題であると推定する。認識できない場
合は,対話開始時発話データベース13cを適用して認
識を行い,認識できた時は各話題の対話開始時に話され
るであろう発話として認識して,その認識した話題を出
力する。この後の発話は,認識した特定話題についての
発話として特定話題に関するデータベース13aを用い
て認識を行い,対話が進行する上で使う言葉については
特定話題非依存発話データベース13bを用いて認識す
る。発話認識部11で認識して推定した話題は結果出力
部12に供給され,音声や図形等の形式で推定話題が出
力される。
【0011】この第1の原理構成により,現在の話題に
対応した発話認識と,話題の変化を確実に認識して,ユ
ーザの発話内容に対応した応対が可能となる。
【0012】図2は本発明の第2の原理構成である。図
中,1,10〜12,13a〜13cは上記図1の同一
の各符号の各部と同じであり,図1と異なる部分は,符
号14で表す話題確定部である。
【0013】この第2の原理構成では,発話認識部11
がユーザ発話が入力されると各データベース13a〜1
3cを用いて話題を推定し,得られた推定話題とその確
信度(正しい確率)とを発生する。すなわち,ユーザ発
話が音声入力のように不確実性が伴う場合には,その認
識時に得られる確信度が変化する。話題確定部14はそ
の確信度が予め設定された一定の値に達しているか識別
し,達していない(不確かである)場合は話題確認のた
めに音声等の形式で推定した結果の確認通知を出力し,
ユーザから推定話題で良いという入力があると推定話題
が正しい話題であるとして結果出力部12に推定話題を
供給し,否定の入力があると話題推定が失敗となり結果
出力部12への推定話題の供給を行わない。また,確信
度が予め設定された一定の値以上の場合は,話題確認の
出力を行うことなく結果出力部に推定話題を出力する。
【0014】この第2の原理構成により,推定話題の確
信度が高い場合には,いちいち話題確認を行う冗長さを
避けることができ,低い場合には確認を行うことにより
確実に対話処理を行うことができる。
【0015】図3は本発明の第3の原理構成である。図
中,1,10〜12,13a〜13c,14は上記図2
の各符号の各部と同じであり,図2と異なる部分は,符
号15で表す非言語情報入力部である。この非言語情報
入力部15は,カメラ等からのユーザによる身ぶり(ジ
ェスチャー)や手ぶり等の画像情報やマウス操作情報等
の非言語情報が入力されて,対応する情報を発生する。
【0016】この第3の原理構成では,話題確定部14
において上記図2と同様に発話入力部10からの発話情
報に基づいて発話認識部11で話題を推定して,得られ
た推定話題と確信度を受け取って話題確定部14におい
て話題を確定するが,確信度が予め設定された一定の値
に達しない場合,非言語情報入力部15からの非言語情
報を識別し,この中に話題推定のための情報があればそ
の情報により話題を推定し,その後は上記第2の原理
(図2)と同様に話題確認のための出力と,ユーザから
の入力による確認を行う。
【0017】この第3の原理により推定話題の確信度が
低い場合には,簡単な動きや操作等の非言語情報の入力
を利用して直接的にユーザに確認することなく話題を確
定することができる。
【0018】図4は本発明の第4の原理構成である。図
中,1,10〜12,13a〜13c,14は上記図3
の各符号の各部と同じであり,図3と異なる部分は,符
号16で表す対話管理部,符号17で表すシステム発話
出力部である。対話管理部16は内部メモリで推定結果
の話題を管理し,各話題の変化を記録し,話題の変化に
対応することを可能とする手段であり,システム発話出
力部17はシステムの認識している話題を音声,映像等
により出力する手段である。
【0019】この第4の原理構成では,発話認識部11
で推定した推定話題と確信度を受けて話題確定部14に
おいて推定話題を発生し結果出力部12を介して推定話
題が対話管理部16へ供給される。また,確信度が低い
場合には確認のために話題が出力されて,これに対する
対話管理部16(及びシステム発話出力部17)を介す
るYes/Noの応答を受けて話題を確定する。対話管
理部16は複数の話題に対応して話題の進行を管理する
機能や,複数の話題に対応した知識(ルール)を用いて
話題の進行を認識して状態を保持し,対話の途中で話題
が変更しても話題転換時点から元の話題に関する対話を
再開して遂行することができる。システム発話出力部1
7は対話管理部16から得られたユーザ発話に応じたシ
ステム発話を出力する。
【0020】この第4の原理により,複数の話題のそれ
ぞれについて開始,進行,及び終了を管理し,一つの話
題から別の話題への転換や,新たな話題の開始や,中
断,再開が発生しても柔軟に対応することができる。
【0021】
【発明の実施の形態】図5は本発明の実施例の構成図で
ある。図中の1,10〜12,14〜17は上記図1乃
至図4の同じ符号の各部に対応し,1は情報処理装置,
10は発話入力部,11は発話認識部,12は結果出力
部,14は話題確定部,15は非言語情報入力部,16
は対話管理部,17はシステム発話出力部を表す。シス
テム発話出力部17内の170は表現生成機能部,17
aは話題表現知識データベース(DB)である。また,
13aは図1乃至図4に示す特定話題に関する発話デー
タベースを構成する複数のデータベースであり,13a
1はユーザの設定した時刻を通知することに関する対話
のためのアラーム通知データベース(DB),13a2
はユーザに対しメール着信を通知することに関する対話
のためのメール着信通知データベース(DB),13a
3はユーザの設定した時刻に自動起動した後そのことを
ユーザに通知することに関する対話のための自動起動デ
ータベースであり,13bは図1乃至図4の話題非依存
発話データベースに対応する汎用データベース(汎用D
Bで表示),13cは図1乃至図4の対話開始時発話デ
ータベースに対応する対話開始時データベース(対話開
始時DBで表示)である。また,20はユーザによる発
話(音声入力)を音声信号に変換するマイク,21はユ
ーザの身振り,手振り,顔の表情,図形等を画像信号に
変換するカメラ,22はシステム発話出力部17から音
声の表現形態で出力されたを信号を音声出力に変換する
スピーカ,23はシステム発話出力部17から画像の表
現形態で出力された信号を画面上に表示するディスプレ
イである。
【0022】図5に示す実施例の構成を用いて上記図1
乃至図4の各原理構成による話題推定(または話題確
定)の処理を実現することができ,以下に説明する。
【0023】図6は第1の原理構成(図1)に対応する
話題推定の処理フローを示し,この処理は図5の発話認
識部11において実行される。
【0024】話題推定を開始すると,現在進行中の話題
があるか発話認識部11内のメモリ内の話題を保持する
領域(図示省略)を参照する等の方法により判別し(図
6のS1),進行中の話題がない場合は,対話開始時に
話されるであろう発言を対話開始時データベース3cで
認識をして(同S2),認識が成功したか判別する(同
S3)。成功しないと,話題の推定不能として終了し
(図6のS4),認識が成功すると,認識結果が得られ
た特定話題のデータベース(図5の13a1〜13a3
の中の何れか一つ)が対象とする話題を推定話題として
処理を終了する(図6のS5)。
【0025】S1において,進行中の話題があると判別
されると,現在進行中の話題が1つであるか判別し(図
6のS6),1つでない場合(複数ある場合)は進行中
の全ての話題に関する発話データベースと話題非依存デ
ータベースを用いて現在の話題を認識し(同S7),認
識が成功したか判別する(同S8)。この認識が成功す
ると,認識結果が得られたデータベース(13a1〜1
3a3,13bの中の一つ)の話題を推定話題として終
了し,認識が成功しない場合は,上記したS2に移行し
て,対話開始時の発話データベースによる認識を行う。
【0026】上記S6で,現在進行中の話題が1つであ
ると判別されると,現在話題データベースと話題非依存
データベースで認識を行い(図6のS10),認識が成
功したか判別し(同S11),成功すると現在の話題を
推定話題として処理を終了するが,成功しない場合は上
記のS2に移行する。
【0027】図6による話題推定時に認識に利用できる
データベースを入れ替える必要が生じ,その間に入力さ
れる発話を認識できない状態が存在し得る。このような
状態によって,システム発話出力部(図5の17)に装
備されているデバイスを利用して出力する音声や,画像
表現を決めることにより間接的にユーザに通知すること
ができる。
【0028】図7は第2の原理構成(図2)に対応する
話題確定の処理フローを示し,この処理は図5の話題確
定部14において実行される。なお,この場合,発話認
識部11は,話題推定を行った時に結果として推定話題
と共にその確信度の値も出力される。
【0029】発話認識部における話題推定の処理が行わ
れて(図7のS1),その結果として推定話題が得られ
たかを判別する(同S2),得られなかった場合は話題
推定不能として処理を終了し(同S3),得られた場合
は,推定話題と共に与えられた確信度が低い(予め設定
された閾値より低い)か判別する(同S4)。確信度が
高い場合(ノーの場合)はその時の推定話題で話題を確
定し(図7のS5),低い場合(イエスの場合)は,推
定話題を確認するために通知(図5の対話管理部16,
システム発話出力部17を経由してスピーカ22または
ディスプレイ23へ出力)して,応答を待つ(同S
6)。ユーザからの応答(図5のマイク20からの音声
入力か,カメラ21からの操作者の動き等の画像入力,
または図5では省略されたキーボードやマウスからの操
作入力)がYESかNOかを判別し(図7のS6),N
Oの場合は話題推定が不能とし,YESの場合は確認の
ために出力した推定話題を話題として確定する(同S
7)。
【0030】図8は第3の原理構成(図3)に対応する
話題確定の処理フローを示し,この処理も図5の話題確
定部14において実行される。なお,この場合も発話認
識部11は,話題推定を行った時に結果として推定話題
と共にその確信度の値も出力する。
【0031】図8のS1乃至S4までは上記図7のS1
〜S4と同様であり,説明を省略する。S4において,
推定話題の確信度が低いと判断された場合,推定話題と
関連する非言語情報があるか判別する(同S5)。図5
の実施例の場合,非言語情報入力部15にはカメラ21
からユーザ画像が入力される。このユーザ画像として
は,ユーザの身振り,手振り,または手書きの絵等の各
種の画像の中の一つが入力されると,その画像が表す意
味(情報内容)を識別する。非言語情報がある場合は話
題を確定して処理を終了するが,ない場合は話題を確認
するために,上記図7のS5と同様に話題を確認するた
めに推定話題の通知を行い(図8のS6),応答がYe
sかNoかを判別し(同S7),Noの場合は話題推定
が不能とし,Yesの場合は確認のために出力した推定
話題を話題として確定する(同S8)。
【0032】図9は対話管理部(図4の16)の実施例
1の構成を示す。
【0033】対話管理部は160〜162の各部で構成
され,160は対話遂行部,161はワーキングメモ
リ,162は複数の話題(図の例では話題A,…話題X
を示す)に関する知識ルールを格納した知識ルール格納
部である。対話管理部は話題の情報を含む内外情報(入
出力情報)を管理するワーキングメモリ161とそのワ
ーキングメモリ161の値の変化に応じて予め記述して
おいた知識ルール格納部162の対話進行に基づいてエ
ンジンである対話遂行部160により対話進行状態を保
持しながら対話を遂行する。
【0034】対話遂行部160は各対話毎の対話進行状
況を保持するメモリ160aを備え,この例では話題A
と話題Xの2つについて状態遷移図の形式で対話遂行状
況を表し,それぞれの対話が実際に進められた段階は実
線に対して付された矢印が示す○印で表し,点線に対し
て付された矢印が示す部分は対話が進められていないこ
とを表す。ワーキングメモリ161は対話の遂行状況に
応じて現在の推定話題,実行中の話題,終了フラグが付
された終了した話題等を記録し,対話遂行部160はワ
ーキングメモリ161の状態に応じて,メモリ160a
の対話遂行状況を更新し,これまでの話題と異なる話題
がワーキングメモリ161に書き込まれると,これまで
の話題に関する対話遂行を中断し,新たな話題に関する
対話遂行を実行する。各話題に対応する対話進行の段階
は,知識ルール格納部162から話題に対応する知識ル
ールを取り出すことにより認識できる。
【0035】新たな話題に関する対話へ移行しても,そ
れまでの話題に関する対話遂行状況はメモリ160aに
保持されているので,新たな話題が中断または終了して
も,話題転換時点から元の話題に関する対話を遂行する
ことができる。なお,ワーキングメモリ161にリスト
として記録された実行中話題を実行中話題リストと呼ば
れる。
【0036】この対話管理部において,各タスクを話題
に対応させ,各タスクに関わる情報のやりとりを対話遂
行ルールで記述することによって,複数のタスクを管理
し支援する対話モジュールが実現できる。
【0037】道案内や店案内のような状況に応じて通知
する優先度が変化する情報を伝えるモジュールが存在す
る時,図9に示す対話管理部において,授受すべき情報
が異なってくる特徴的な状況を話題に対応させ,状況に
応じた情報のやりとりを対話遂行ルールで記述し,シス
テムが認識している状況を出力情報に付加し,さらに話
題の転換時には状況の推移を表現することによって,状
況の変化と情報授受内容との対応を明確にすることがで
きる。
【0038】図10は対話管理部(図4の16)の実施
例2の構成を示す。この実施例2の対話管理部は,上記
図9に示す対話管理部を,プロダクションシステムを利
用して構成したものであり,図中,161,162は上
記図9の同一符号の各部に対応し,161はワーキング
メモリ,162は各話題A〜話題Xに対応するif(条
件),then形式の多数の対話遂行ルールから成る知
識ルールを格納した知識ルール格納部,163は上記図
9の対話遂行部160と同様の機能を備えたリアクティ
ブプランナーである。
【0039】リアクティブプランナー163は,ワーキ
ングメモリ161を参照して実行すべきルールをインス
タンス化し,その状態をメモリ163a上に保持しなが
らルールの再評価を行う。これまでの,話題と異なる話
題がワーキングメモリ161に書き込まれると,これま
での話題に関するルールとは異なる話題がワーキングメ
モリ161に書き込まれると,これまでの話題と異なる
話題に関するルールが実行されることにより新たな話題
の対象へ移行する。ここで,新たな話題に転換しても,
それまでのルール状態は消えることなくメモリ上に保持
されたままであり,新たな話題に関する対話遂行ルール
の実行が中断または終了すると,話題転換時点のルール
が保持されているので,これを実行することによって,
転換時点の状態から対話を再開することができる。
【0040】ワーキングメモリ161で実行中話題を管
理するリスト(実行中話題リスト)を用意する。初期状
態は空とする。ある話題の開始時には,ワーキングメモ
リ161のリストに開始する話題を追加する。終了時に
はリストから終了する話題を消す。話題開始時に,既に
リスト中に他の実行中話題が存在していれば,話題が途
中で転換したことが分かる。この時,必要に応じて「話
をかえるけど」というようなつなぎ言葉を挿入する。転
換した話題が中断または終了し,再び中断されていた話
題を遂行する時には,ワーキングメモリ161のリスト
にすでに自身の話題が書き込まれている。これにより,
その話題が中断されていたことがわかる。この時,必要
に応じて「話を元に戻すけど」というようなつなぎ言葉
を挿入したり,先の発話を繰り返すなどの操作を行った
りする。
【0041】このように,対話遂行ルールを話題の転換
を意識することなく記述しても,実行時に話題の転換を
考慮した対話を実現することができる。
【0042】各話題の対話遂行ルールを,必要となる情
報がユーザ発話の言語情報以外から取得される場合には
ふれず,取得されない場合にはその情報を取得するよう
に記述しておく。このような記述方法をとることによっ
て,非言語情報入力部(図3の15)に装備されている
デバイスが有効である場合には,そこからの入力情報を
利用したルールが実行され,そうでない場合にはその情
報を取得するためのルールが実行される。このことによ
り,入力デバイスの有効,無効に関わらず,同じ対話管
理部を利用することができる。
【0043】図5に示す情報処理装置の実施例の構成に
おいて,システム発話出力部17の出力はスピーカ22
またはディスプレイ23から出力される。スピーカ22
は表現生成機能部170に音声合成装置を設けることに
より音声出力を行うことができ,ディスプレイ23を用
いる場合はシステム発話を文字列で表示することができ
る。また,表現生成機能部170に映像出力装置と映像
データを設けることにより映像出力を付加して出力する
ことができる。この時,話題に応じて音声合成する声質
や,スピーカ出力する音量,または表示する文字列の
色,または映像データ(特定のキャラクタを含む)のそ
れぞれを変えることで,システムの認識している話題を
出力することができる。
【0044】図11はシステム発話出力部に備えられた
表現生成機能部(図5の170)の処理フローである。
図5の発話認識部11,話題確定部14,結果出力部1
2と対話管理部16の動作により話題推定の処理が行わ
れ(図11のS1),推定話題が得られたか判別する
(同S2)。この判別により推定話題が得られないと処
理を終了するが,推定話題が得られると,話題表現知識
DB(図5の17a)を参照して,推定話題に対応する
表現を決定する(図11のS3)。
【0045】図12は本発明による具体的な構成例であ
る。図中,1,10〜12,13a〜13c,14〜1
7,17a,170及び20〜23は上記図5の同一符
号の各部と同じである。
【0046】この具体例では,ユーザ発話の音声をマイ
ク20から入力すると共にユーザの顔画像をカメラ21
から入力し,話題に対応するタスクを支援するインタフ
ェースエージェント(コンピュータとユーザへ出力を行
う形態)として擬人化エージェントを用い,システム応
答(出力)は特定のCG(コンピュータグラフィック)
アニメーションのキャラクタ画像をディスプレイ23で
表示すると共に音声合成による音声出力をスピーカ22
から行う。この具体例では,タスクは特定話題に対応し
て自動起動通知,メール着信通知,アラーム通知があ
る。
【0047】図12のシステム発話出力部17の表現生
成機能部170が参照する話題表現知識データベース1
7aには,各話題に対応してCGアニメーションのキャ
ラクタ(人物等)の服の色が決められており,例えば
「自動起動」の話題に対して「赤い服」,「メール着信
通知」の話題に対して「青い服」が設定されており,キ
ャラクタ(擬人化エージェント)は画像でディスプレイ
に表示されると共に,そのキャラクタの発話は音声合成
により出力される。
【0048】図13は各データベースの具体例であり,
図12の構成における各タスクに関する対話はそれぞれ
異なる話題の対話として実装され,図13のA.は各タ
スクに依存する発話を収録したデータベース(図12の
13a)であり,アラーム通知DB13a1,メール着
信通知DB13a2,及び自動起動DB13a3の3つ
の具体例である。図13のB.は,特定話題に依存しな
い発話をモデル化したDBであり,汎用データベース1
3bの具体例を示し,13のC.は各話題の対話開始時
に話されるであろう発話をモデル化したデータベース1
3cの具体例である。
【0049】図12の構成による動作の例を処理順に以
下に説明する。
【0050】(1) 発話入力部10でユーザが発話した
「メールきてる?」が入力される一方,非言語情報入力
部15でカメラ21からユーザの顔画像を入力されるこ
とによりユーザ名が「A」であることを認識する。
【0051】(2) 発話認識部11は,話題を推定し,今
現在進行中の話題がないものとすると,上記図4に示す
話題推定の処理フローにおいて現在進行中の話題がない
ので,上記図13のC.に示す各話題の対話開始時に話
されるであろう発話をモデル化したデータベースを利用
して,上記(1) の発話入力部10で認識した「メールき
てる?」と合致する発話を検索し,「メールきてる<質
問文末>」と合致するので,話題を“メール着信通知”
と推定する。
【0052】(3) この場合の,“メール着信通知”とい
う推定話題の確信度が高く,入力された非言語情報(上
記(1) の場合はユーザの顔画像) が推定話題と特に関連
しないとすると,上記図8に示す話題確定の処理フロー
により,話題を“メール着信通知”と確定する。
【0053】(4) 対話管理部16は,入力発話に対する
システム応答を決定する。
【0054】(5) システム発話出力部17は,上記(4)
で決定されたシステム応答の音声合成音を作成する。ま
た,確定した話題“メール着信通知”から,話題表現知
識データベース17a(図12)を参照して,キャラク
タを“青い服のキャラクタ”に決定し,出力すべきキャ
ラクタCGのアニメーションを青い服のキャラクタに決
定する。
【0055】(6) 音声合成音をスピーカ22から出力
し,CGキャラクタをディスプレイ23に描画する。
【0056】ユーザの発話入力と情報処理装置のシステ
ム発話出力部からの発話出力の具体例を以下に説明す
る。以下の説明ではユーザの発話入力を単に「ユーザ」
といい,情報処理装置のシステム発話出力部からの応答
出力を端末に「システム」という。
【0057】“アラーム通知”の話題の対話として,
ユーザが「アラーム時刻を設定して」と入力すると,シ
ステムが「何時ですか?」と応答し,ユーザが「3時
に」と入力するのに対し,システムが「3時でいいです
ね?」,ユーザが「イエス」というような対話が行われ
て,話題が確定する。この場合,対話管理部16は,話
題が確定することで,内部の実行中話題リスト(上記図
9,図10のワーキングメモリ161内)に“アラーム
通知”を書き込んで保持する。
【0058】ここで,ユーザが設定時刻の確認のた
め,連絡があるはずのメールを確認したい場合,ユーザ
が「メールきてないかな?」と入力すると,話題認識部
(図12の11)は,現在の話題に対応する“アラーム
通知DB”(図12の13a1)と“汎用データベー
ス”(図12の13b)を用いて認識を行う。しかし,
「メールきてないかな」という発話は,いずれにも属さ
ないため,認識失敗となる。そこで,続いてデータベー
スを“話題開始発話DB”(図12の13c,図13の
C.)に変更して再度認識を行うと,「メール着信通
知」の話題の発話として認識されるので,話題を“メー
ル着信通知”と推定する。対話管理部16では,アラー
ム通知に関する対話遂行ルールをそれまでの状態で保持
し,推定した話題によってメール着信通知に関する対話
遂行ルールを実行する。この時,実行中話題リストに
“メール着信通知”を書き込む。この場合,すでに“ア
ラーム通知”が上記実行中話題リストに存在するので,
話題が転換されたことが分かる。しかし,この場合は,
ユーザからの話題転換なので,つなぎことばを挿入しな
い。
【0059】メールの着信をチェックするにあたり,
利用ユーザが誰であるかを特定しなければならない。こ
の時,発話入力以外に別の形態としてカメラ21があ
り,ユーザの顔画像の入力により,ユーザが特定できる
場合には,その情報からユーザを特定してメールをチェ
ックできる。カメラがついていない場合または,カメラ
によってユーザが特定できない場合には,ユーザがわか
らないので,システムから「君の名前はなに?」という
出力を行うことによりユーザからの発話入力を受け取っ
て特定する。
【0060】“メール着信通知”に関する話題を終了
した時点で,メール着信通知に関する対話遂行ルールは
消え,保持されていたアラーム通知に関する対話遂行ル
ールを実行する。このとき,再開しようとしている話題
“アラーム通知”がすでに実行中話題リストに存在する
ので,この話題が中断されていたことがわかる。そこ
で,「話を戻すけど」というつなぎことばを挿入し,保
持していたルールの状態から実行し「3時でいいですね
?」という発話から再開する。ここで,図12の話題表
現知識DB17aによりキャラクタの服の色をアラーム
通知に対応して黄色にした画像を表示する。
【0061】システムから話題の変換をユーザに対して
表示により通知する他の出力形態として次のa.〜e.
のような方法がある。
【0062】a.タスク毎の担当者がいるように見せる
ため,キャラクタを話題毎に入れ変える。
【0063】b.話題の変換時に,1回転するなどのア
クションを入れる。
【0064】c.話題に応じたアクションや,衣装(色
ではなくデザイン)または大きさを変える。
【0065】d.話題に応じて背景を変える。
【0066】e.キャラクタが3D(3次元)表現され
ていれば,話題が変わる毎に視点を変える。
【0067】これによって,話題の変換をユーザに通知
できるが,CGによるキャラクタ表現を行う機能がな
く,音声出力だけ備えている場合には,次のf.〜h.
のような形態で通知することができる。
【0068】f.システム発話の音声の種類(男の声,
女の声,子供の声等)を話題毎に変える。
【0069】g.対話中に話題に応じたBGM(Back G
round Music)を流す。
【0070】h.話題に応じてBGM(Back Ground Mu
sic)の音量を変化させる。
【0071】本発明の情報処理装置はロボットに組み込
むことにより,ユーザとの対話を通じて制御動作をさせ
ることができる。その場合は次のように通知を行うこと
ができる。ロボットの動作を話題毎に変えることで,ユ
ーザに通知でき,発話が音声ではなくコンソール(ディ
スプレイ)への文字出力のみであれば,文字の色を変え
るか,フォントを変えることにより話題変換を通知でき
る。
【0072】上記のa.の例のように,話題変換の通知
をキャラクタの入れ替わりで表現するのであれば,ユー
ザの想定していない話題になっている場合には「話題が
ちがう」という直接的な対話ではなく,ユーザからの
「君じゃないよ」というような発話によって,話題が間
違っていることをシステムに知らせることもできる。
【0073】本発明は,特徴的な状況を話題に対応させ
てどのような状況における情報を通知しているのかを明
確にできる情報処理装置に適用して移動しながら道案内
を行う装置に実施することができ,その場合の動作を説
明する。
【0074】ある目的地に行くために,移動開始地点か
らユーザが移動することによって「位置」と「交通手
段」という状況によって,道案内すべき情報が変化す
る。どの「位置」に居て,どの「交通手段」を利用する
ことを前提としているかがユーザに対して明確に伝わら
なければ,通知される道案内情報は曖昧なものとなる。
そこで,あるポイントとなる「位置」と「交通手段」の
定まる状況における道案内の仕方に関わる対話をある話
題に関わる対話として対話遂行ルールを記述する。この
道案内を行う装置がディスプレイを内蔵している場合,
システムの認識した「位置」と「交通手段」を画像の描
画などで表現し,状況の推移する時にどういう推移をし
ているかを表現することによって,状況の推移と道案内
の内容を明確にユーザに伝えることができる。
【0075】本発明は複数存在するシステムの知識をそ
れぞれ話題に対応させ,話題を明確に伝えることによっ
て,ユーザの持っている知識の訂正を行うことができる
情報処理装置に適用することができ,具体的にはデパー
トの商品問い合わせを行う対話を行う装置があり,その
場合の動作を説明する。
【0076】デパートの各売り場毎に行う対話を話題に
対応させ,客から問い合わせのある商品に適した売り場
に応じて話題を転換し,かつ話題が変わる時には,売り
場ごとのキャラクタ画像を表示するようなことによっ
て,客に担当売り場を伝える。これにより,客が問い合
わせた商品を扱う売り場を間違っていた時に,その間違
いを話題の転換,すなわち売り場毎のキャラクタ画像変
更によって伝えることができる。
【0077】(付記1)発話の入力から言語情報を認識
する発話入力部と,各話題別に対応した複数種の言語情
報のデータベースから成る特定話題に関する発話データ
ベースと,話題に関係なく対話を進行するための言語情
報のデータベースからなる特定話題非依存発話データベ
ースと,対話の開始や変更の識別する言語情報のデータ
ベースから成る対話開始時発話データベースとを備え,
前記発話入力部からの言語情報に対し,各データベース
を用いて発話された話題を推定する発話認識部と,前記
発話認識部で推定した話題を受け取って出力を行う結果
出力部とを備えたことを特徴とする情報処理装置。
【0078】(付記2)前記発話認識部は推定した推定
話題と,該推定話題の認識時の確信度とを出力し,前記
推定話題と確信度の入力に応じて確認のための出力を行
うと共に,該出力に対する肯定または否定の入力を受け
取って話題を確定する話題確定部を設け,前記話題確定
部により確定した話題を前記結果出力部へ供給して出力
することを特徴とする付記1に記載の情報処理装置。
【0079】(付記3)付記2において,言語情報以外
の他の形態の情報が入力される非言語情報入力部を設
け,前記発話認識部からの推定話題の確信度が低い場合
に,前記話題確定部は前記非言語情報入力部からの情報
を用いて推定話題を確定することを特徴とする情報処理
装置。
【0080】(付記4)付記2において,実行中等の話
題の状態を含む内外情報を管理するワーキングメモリと
そのワーキングメモリの値の変化に応じて予め記述して
いた対話進行に基づいて対話進行状態を保持しながら対
話を遂行するエンジンとで構成される対話管理部と,ユ
ーザ発話に対するシステム発話を出力するシステム発話
出力部とを設け,前記対話管理部は前記話題確定部から
の推定話題が変化すると,前記ワーキングメモリに書き
込まれた進行中の話題を中断して別話題の話題に転換し
て,転換した話題が中断または終了すると,前記保持さ
れていた対話進行状態に基づいて中断された話題を中断
時点から再開することを特徴とする情報処理装置。
【0081】(付記5)付記4において,前記対話管理
部を,対話遂行ルールを格納したルールデータベースと
話題を含む内外情報を管理するワーキングメモリと,実
行ルール状態を保持してルールの評価及び実行を行うエ
ンジンとで構成するプロダクションシステムとで構成す
ることを特徴とする情報処理装置。
【0082】(付記6)付記4または5において,各話
題の対話進行を話題の転換を考慮することなく独立して
記述し,実行時に対話全体の遂行状況から自動的につな
ぎ言葉を挿入して話題の転換を実現することを特徴とす
る情報処理装置。
【0083】(付記7)付記4において,前記システム
発話出力部は,認識した推定話題に応じて音声合成のた
めの音声情報及び予め決められた画像情報の何れか一方
または両方を生成して出力する表現生成機能部を備える
ことを特徴とする情報処理装置。
【0084】(付記8)付記7において,前記システム
発話出力部は,各話題に対応した音声情報及び画像情報
を格納した話題表現データベースを備え,推定話題に応
じて前記合成される音声の声質または音量を決めるか,
表示される文字列の色または画像表現を変えることを特
徴とする情報処理装置。
【0085】(付記9)付記4において,各話題をタス
クに対応させ,各タスクに関係する情報のやりとりを前
記対話遂行ルールに記述して,複数の独立したタスクを
管理して支援する対話モジュールを実現することを特徴
とする情報処理装置。
【0086】
【発明の効果】本発明の第1の原理によれば現在の話題
に対応した発話認識と,話題の変化を確実に認識して,
ユーザの発話内容に対応した応対が可能となる。また,
本発明の第2の原理によれば推定話題の確信度が低い場
合にも,話題確認を行うことにより正確な対話処理を行
うことができる。更に,本発明の第3の原理によれば推
定話題の確信度が低い場合にも,簡単な動きや操作等の
非言語情報の入力を利用して確信度を向上させることが
できる。また,本発明の第4の原理によれば複数の話題
のそれぞれについて開始,進行,及び終了を管理し,一
つの話題から別の話題への転換や,新たな話題の開始
や,中断,再開が発生しても柔軟に対応することができ
る。
【0087】また,システム発話出力として音声合成に
よる音声出力または文字や,特定のキャラクタの表示出
力により利用者にシステムの認識している話題を確実に
通知することができる。
【0088】本発明による情報処理装置を用いて,実時
間でやりとりする対話システムにおいて,ユーザの話題
推定を行い,それに応じた対話の遂行を実現できる。ま
た,システムが話題として推定している状態をユーザに
間接的且つ明確に知らせることができ,これにより機械
との対話でしか起こり得ないような機械的な対話を極力
排除することができる。
【図面の簡単な説明】
【図1】本発明の第1の原理構成を示す図である。
【図2】本発明の第2の原理構成を示す図である。
【図3】本発明の第3の原理構成を示す図である。
【図4】本発明の第4の原理構成を示す図である。
【図5】本発明の実施例の構成図である。
【図6】第1の原理構成に対応する話題推定の処理フロ
ーを示す図である。
【図7】第2の原理構成に対応する話題確定の処理フロ
ーを示す図である。
【図8】第3の原理構成に対応する話題確定の処理フロ
ーを示す図である。
【図9】対話管理部の実施例1の構成を示す図である。
【図10】対話管理部の実施例2の構成を示す図であ
る。
【図11】システム発話出力部に備えられた表現生成機
能部の処理フローを示す図である。
【図12】本発明による具体的な構成例を示す図であ
る。
【図13】各データベースの具体例を示す図である。
【図14】従来例の説明図である。
【符号の説明】
1 情報処理装置 10 発話入力部 11 発話認識部 12 結果出力部 13a 特定話題に関する発話データベース 13b 特定話題非依存発話データベース 13c 対話開始時発話データベース
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 3/00 571Q (72)発明者 福岡 俊之 神奈川県川崎市中原区上小田中4丁目1番 1号 富士通株式会社内 (72)発明者 山田 茂 神奈川県川崎市中原区上小田中4丁目1番 1号 富士通株式会社内 (72)発明者 山本 健司 神奈川県川崎市中原区上小田中4丁目1番 1号 富士通株式会社内 Fターム(参考) 5B091 CB12 CB32 DA02 5D015 AA01 AA05 LL06 LL12

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 発話の入力から言語情報を認識する発話
    入力部と,各話題別に対応した複数種の言語情報のデー
    タベースから成る特定話題に関する発話データベース
    と,話題に関係なく対話を進行するための言語情報のデ
    ータベースからなる特定話題非依存発話データベース
    と,対話の開始や変更の識別する言語情報のデータベー
    スから成る対話開始時発話データベースとを備え,前記
    発話入力部からの言語情報に対し,各データベースを用
    いて発話された話題を推定する発話認識部と,前記発話
    認識部で推定した話題を受け取って出力を行う結果出力
    部とを備えたことを特徴とする情報処理装置。
  2. 【請求項2】 請求項1において,前記発話認識部は推
    定した推定話題と認識時の確信度とを出力し,前記推定
    話題と確信度の入力に応じて確認のための出力を行うと
    共に,該出力に対する応答の入力を受け取って話題を確
    定する話題確定部を設け,前記話題確定部により確定し
    た話題を前記結果出力部へ供給して出力することを特徴
    とする情報処理装置。
  3. 【請求項3】 請求項2において,言語情報以外の他の
    形態の情報が入力される非言語情報入力部を設け,前記
    話題確定部は,前記発話認識部からの推定話題の確信度
    が低い場合に前記非言語情報入力部からの情報を用いて
    推定話題を確定することを特徴とする情報処理装置。
JP2000216871A 2000-07-18 2000-07-18 情報処理装置 Pending JP2002032370A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000216871A JP2002032370A (ja) 2000-07-18 2000-07-18 情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000216871A JP2002032370A (ja) 2000-07-18 2000-07-18 情報処理装置

Publications (1)

Publication Number Publication Date
JP2002032370A true JP2002032370A (ja) 2002-01-31

Family

ID=18712062

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000216871A Pending JP2002032370A (ja) 2000-07-18 2000-07-18 情報処理装置

Country Status (1)

Country Link
JP (1) JP2002032370A (ja)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005283972A (ja) * 2004-03-30 2005-10-13 Advanced Media Inc 音声認識方法及びこの音声認識方法を利用した情報提示方法と情報提示装置
JP2007047488A (ja) * 2005-08-10 2007-02-22 Nippon Telegr & Teleph Corp <Ntt> 対話方法、対話装置、対話プログラムおよび記録媒体
JP2007079397A (ja) * 2005-09-16 2007-03-29 Nippon Telegr & Teleph Corp <Ntt> 対話方法、対話装置、対話プログラムおよび記録媒体
JP2007115142A (ja) * 2005-10-21 2007-05-10 Aruze Corp 会話制御装置
JP2007115145A (ja) * 2005-10-21 2007-05-10 Aruze Corp 会話制御装置
JP2007115143A (ja) * 2005-10-21 2007-05-10 Aruze Corp 会話制御装置
JP2007115144A (ja) * 2005-10-21 2007-05-10 Aruze Corp 会話制御装置
JP2008547061A (ja) * 2005-06-27 2008-12-25 マイクロソフト コーポレーション 異言語話者間の対話および理解を強化するための、コンテキストに影響されるコミュニケーション方法および翻訳方法
WO2009087860A1 (ja) * 2008-01-10 2009-07-16 Brother Kogyo Kabushiki Kaisha 音声対話装置及び音声対話プログラムを記憶したコンピュータ読み取り可能な媒体
JP2012216007A (ja) * 2011-03-31 2012-11-08 Kddi Corp 入出力デバイス情報を考慮したマルチモーダル対話プログラム、システム及び方法
JP2016126452A (ja) * 2014-12-26 2016-07-11 株式会社小学館ミュージックアンドデジタルエンタテイメント 会話処理ステム、会話処理方法、及び会話処理プログラム
JP2018021987A (ja) * 2016-08-02 2018-02-08 ユニロボット株式会社 会話処理装置、及びプログラム
WO2018163647A1 (ja) * 2017-03-10 2018-09-13 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム
JP2019109424A (ja) * 2017-12-20 2019-07-04 株式会社日立製作所 計算機、言語解析方法、及びプログラム
WO2019235190A1 (ja) * 2018-06-06 2019-12-12 ソニー株式会社 情報処理装置、情報処理方法、プログラム及び対話システム
WO2021095564A1 (ja) * 2019-11-13 2021-05-20 ソニーグループ株式会社 情報処理装置
WO2021153102A1 (ja) * 2020-01-27 2021-08-05 ソニーグループ株式会社 情報処理装置、情報処理システム、情報処理方法および情報処理プログラム

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005283972A (ja) * 2004-03-30 2005-10-13 Advanced Media Inc 音声認識方法及びこの音声認識方法を利用した情報提示方法と情報提示装置
JP2008547061A (ja) * 2005-06-27 2008-12-25 マイクロソフト コーポレーション 異言語話者間の対話および理解を強化するための、コンテキストに影響されるコミュニケーション方法および翻訳方法
JP4589843B2 (ja) * 2005-08-10 2010-12-01 日本電信電話株式会社 対話方法、対話装置、対話プログラムおよび記録媒体
JP2007047488A (ja) * 2005-08-10 2007-02-22 Nippon Telegr & Teleph Corp <Ntt> 対話方法、対話装置、対話プログラムおよび記録媒体
JP2007079397A (ja) * 2005-09-16 2007-03-29 Nippon Telegr & Teleph Corp <Ntt> 対話方法、対話装置、対話プログラムおよび記録媒体
JP2007115142A (ja) * 2005-10-21 2007-05-10 Aruze Corp 会話制御装置
JP2007115145A (ja) * 2005-10-21 2007-05-10 Aruze Corp 会話制御装置
JP2007115143A (ja) * 2005-10-21 2007-05-10 Aruze Corp 会話制御装置
JP2007115144A (ja) * 2005-10-21 2007-05-10 Aruze Corp 会話制御装置
WO2009087860A1 (ja) * 2008-01-10 2009-07-16 Brother Kogyo Kabushiki Kaisha 音声対話装置及び音声対話プログラムを記憶したコンピュータ読み取り可能な媒体
JP2012216007A (ja) * 2011-03-31 2012-11-08 Kddi Corp 入出力デバイス情報を考慮したマルチモーダル対話プログラム、システム及び方法
JP2016126452A (ja) * 2014-12-26 2016-07-11 株式会社小学館ミュージックアンドデジタルエンタテイメント 会話処理ステム、会話処理方法、及び会話処理プログラム
JP2018021987A (ja) * 2016-08-02 2018-02-08 ユニロボット株式会社 会話処理装置、及びプログラム
WO2018025668A1 (ja) * 2016-08-02 2018-02-08 ユニロボット株式会社 会話処理装置、及びプログラム
WO2018163647A1 (ja) * 2017-03-10 2018-09-13 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム
JP2019109424A (ja) * 2017-12-20 2019-07-04 株式会社日立製作所 計算機、言語解析方法、及びプログラム
WO2019235190A1 (ja) * 2018-06-06 2019-12-12 ソニー株式会社 情報処理装置、情報処理方法、プログラム及び対話システム
WO2021095564A1 (ja) * 2019-11-13 2021-05-20 ソニーグループ株式会社 情報処理装置
WO2021153102A1 (ja) * 2020-01-27 2021-08-05 ソニーグループ株式会社 情報処理装置、情報処理システム、情報処理方法および情報処理プログラム

Similar Documents

Publication Publication Date Title
JP2002032370A (ja) 情報処理装置
JP6789320B2 (ja) 選択的に辿ることが可能な状態機械のパーソナルアシスタントモジュールへの提供
JP3729918B2 (ja) マルチモーダル対話装置及び対話方法
US11194448B2 (en) Apparatus for vision and language-assisted smartphone task automation and method thereof
JP4689670B2 (ja) 車両及び他の複雑な装置用の双方向マニュアル、システム及び方法
US8352273B2 (en) Device, method, and program for performing interaction between user and machine
US20070094008A1 (en) Conversation control apparatus
US5893063A (en) Data processing system and method for dynamically accessing an application using a voice command
GB2378776A (en) Apparatus and method for managing a multi-modal interface in which the inputs feedback on each other
JP5706384B2 (ja) 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
US20070094005A1 (en) Conversation control apparatus
JP2003308087A (ja) 文法更新システム及び方法
JP2004206704A (ja) ユーザとエージェント間の対話管理方法及び装置
US20060155546A1 (en) Method and system for controlling input modalities in a multimodal dialog system
EP3662467B1 (en) Speech generation using crosslingual phoneme mapping
KR102429407B1 (ko) 사용자 구성의 맞춤형 인터렉티브 대화 애플리케이션
US5897618A (en) Data processing system and method for switching between programs having a same title using a voice command
CN113261056A (zh) 使用说话者相关语音模型的说话者感知
JP2007272534A (ja) 省略語補完装置、省略語補完方法、及びプログラム
JPH0863478A (ja) 言語処理方法及び言語処理装置
JPH08166866A (ja) 対話型インターフェースを具備した編集支援システム
KR20200080389A (ko) 전자 장치 및 그 제어 방법
CN110543290B (zh) 多模态响应
JP2007018290A (ja) 手書き文字入力表示支援装置及び方法並びにプログラム
JP2001125591A (ja) 音声対話システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071002

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071126

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071218