JP2003330490A

JP2003330490A - 音声対話装置

Info

Publication number: JP2003330490A
Application number: JP2002139816A
Authority: JP
Inventors: Takatsugu Sakunaga; 隆次作永; Hideo Ueno; 英雄上野; Yayoi Nakamura; やよい中村; Toshihiro Ide; 敏博井手; Shingo Suzumori; 信吾鈴森; Nobuyoshi Nikata; 宣嘉貮方; Taku Yoshida; 卓吉田; Hiroshi Sugitani; 浩杉谷
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2002-05-15
Filing date: 2002-05-15
Publication date: 2003-11-19
Also published as: US20030216917A1

Abstract

(57)【要約】【課題】音声を利用した音声応答サービスを行う音声対
話装置に関し、利用者の応答状態に対応した応答サービ
スを行う。【解決手段】音声認識部10が、音声対話時の音声入力者
の心理状態を示す対話応答内容（キーワード、不要語、
未知語、及び無音）を検出し、入力状態解析部18が対話
応答内容を解析して音声入力者の心理状態を所定の入力
状態情報54に分類し、シナリオ解析部21が入力状態情報
54に基づき音声入力者に対するシナリオを選択する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声対話装置に関
し、特に音声を利用した音声応答サービスを行う音声対
話装置に関するものである。近年、音声認識、言語解
析、及び音声合成等の技術を利用した製品化が進んでい
る。例えば、インターネットのウエブサイトで公開され
ている情報を音声を用いて提供する音声対話装置（ボイ
スポータル：Voice Portal）の開発が盛んであり、今後
の市場の急速な伸びが予測されている。

【０００２】音声対話装置は、ＩＴ化の問題の一つであ
るデジタルデバイドの是正、すなわち、年齢又は身体的
な条件に基づく情報通信技術の利用機会及び活用能力の
格差の克服に寄与するものである。さらに、音声対話装
置は、機械操作に対する心理的な抵抗感もデジタルデバ
イドの一種と捉え、機械操作に不慣れな人に受け入れら
れるナビゲーションサービスを提供することがデジタル
デバイドの解消のために重要である。

【０００３】

【従来の技術】図26は、従来の音声対話装置100zを示し
ており、この音声対話装置100zは、音声入力部200から
音声信号40zを入力する音声認識部10z、この音声認識部
10zから音声データ42z，43z、及びキーワード情報45zを
それぞれ受信する音声認証部13z、無音解析部14z、及び
キーワード解析部16zを備えている。

【０００４】さらに、音声対話装置100zは、音声認証部
13z、無音解析部14z、キーワード解析部16z、及び音声
認識部10zから、個人特定情報47z、無音解析結果情報48
z、キーワード解析結果情報50z、及び解析結果情報58z
をそれぞれ受信するシナリオ解析部21z、並びにこのシ
ナリオ解析部21からシナリオメッセージ55zを受信して
メッセージ合成音声データを出力するメッセージ合成部
22zを備えている。

【０００５】音声認証部13z及びシナリオ解析部21zは、
それぞれ、個人認証データ記憶部35z（以後、記憶部35z
に記憶されているデータバンク自体を個人認証データ35
zと称する。）及びシナリオデータ記憶部37z（以後、記
憶部37zに記憶されているデータバンク自体をシナリオ
データ37zと称する。）に接続されている。

【０００６】音声認識部10zは、音声信号40zを入力して
音声データ41z〜43z（データ41z〜43zは同一データであ
る。）を出力する音響解析部11z、音声データ41zを受信
してキーワード情報45z及び解析結果情報58zを出力する
照合処理部12zを含んでいる。

【０００７】音響解析部11zは、音響データ記憶部31z
（以後、記憶部31zに記憶されているデータバンク自体
を音響データ31zと称する。）に接続され、照合処理部1
2zは、辞書データ記憶部32z、不要語データ記憶部33z、
及びキーワードデータ記憶部34zに接続されている。

【０００８】なお、以後、記憶部32z〜34zにそれぞれ記
憶されているデータバンク自体を辞書データ32z、不要
語データ33z、及びキーワードデータ34zと称する。動作
において、音響解析部11zは、音声信号40zについて、音
響データ31zを参照してエコーキャンセルを含む音響解
析を行って音声データに変換し、この音声データを音声
データ41z〜43zとして出力する。

【０００９】照合処理部12zは、辞書データ32zを参照し
て音声データ41zを音声テキスト59（後述の図７参照）
に変換した後、不要語データ33z及びキーワードデータ3
4zを参照して音声テキスト59からキーワード及び不要語
を抽出する。無音解析部14zは、音声データ43zに無音が
含まれているか否かを解析し、キーワード解析部16は、
照合処理部12zから受信したキーワード情報45zの内容を
解析する。音声認証部13zは、個人認証データ35zを参照
して音声データ42zから利用者を特定した個人特定情報4
7zをシナリオ解析部21zに与える。

【００１０】シナリオ解析部21zは、照合処理部12z、無
音解析部14z、及びキーワード解析部16zの解析結果情報
58z，48z，50zに基づいてシナリオデータ37zからシナリ
オメッセージ（以後、単にシナリオと称することがあ
る。）を選択しシナリオメッセージ55zをメッセージ合
成部22に与える。

【００１１】このとき、シナリオ解析部21zは、個人特
定情報47zに基づき、特定の利用者に対応したシナリオ
を選択することもできる。メッセージ合成部22zは、シ
ナリオメッセージ55zに基づきメッセージ合成音声デー
タ56zを音声合成し、メッセージ出力部300は、データ56
zを音声として利用者に対して出力する。

【００１２】このような音声対話装置100zにおいて、特
開平5-27790号で開示された音声入出力装置は、音声認
識部10zにおいて、単語間の時間間隔から言葉の速度、
応答に要する時間、及び単語間の時間間隔の均一さを測
定すると共に、単語の種類を判別する。

【００１３】また、音声入力装置は、入力した利用者の
音声の周波数を測定し、その平均値を算出して判断の基
準となる周波数と比較する手段をさらに備えている。ま
た、音声入力装置は、利用者のタイプを判断する基準と
なる、音声から分析した過去の利用者の傾向を示すデー
タが予め記憶されている手段をさらに備えている。

【００１４】そして、音声入力装置は、前記各判定結果
のデータと基準となるデータを比較して利用者のタイプ
を判断する手段と、前記判断される利用者のタイプにそ
れぞれ対応する、１つの操作に対して複数の応答メッセ
ージを有し、その中から特定された利用者タイプに対応
する応答メッセージを出力させる手段を備えている。

【００１５】動作においては、利用者の音声応答から、
利用者の性別（音声の周波数により判別）、早口、普
通、又はゆっくり等のパラメータを抽出して、このパラ
メータから利用者のタイプ（流暢、普通、どもりども
り）を判定する。そして、この判定したタイプに対応し
た応答（簡潔、通常、より詳細）を行う。

【００１６】すなわち、音声対話装置100zは、利用者の
タイプに合ったナビゲーションを送出する。このナビゲ
ーションは、一つの操作を利用者に促す時に、固定的な
ナビゲーションを利用者のタイプに応じて“言い方”を
変えたメッセージを送出するものである。

【００１７】また、特開2001-331196で開示された音声
応答装置（音声対話装置）は、利用者の本音声応答装置
の操作に対する習熟度を前記利用者の発声内容より推測
し推測した前記習熟度に応じて本音声応答装置の操作を
誘導するようにしている。また、音声応答装置は、推測
した前記習熟度に応じて本音声応答装置の操作手順を示
すガイダンスを提供して本音声応答装置の操作を誘導す
るようにしている。

【００１８】また、音声応答装置は、推測した前記習熟
度に応じて前記利用者の発声を受け付けるタイミングを
制御するようにしている。すなわち、例えば、利用者の
発した不要語として（“あ”、“エート”、“〜をお願
いします”等）を抽出し、抽出された語から、習熟度
（不慣れ/やや不慣れ/習熟）を判断する。

【００１９】そして、判断した結果により、利用者の習
熟度に対応したガイダンス、すなわち、不慣れ、やや不
慣れ、又は習熟にそれぞれ対応したガイダンスを利用者
に送出している。

【００２０】

【発明が解決しようとする課題】このような従来の音声
入出力装置（特開平5-27790）においては、一つの操作
を利用者に促す時に、利用者のタイプに応じてメッセー
ジを送出するというものであり、シナリオのナビゲーシ
ョンメッセージを変えるものである。

【００２１】一方、音声応答装置（特開2001-331196）
においては、利用者の音声応答装置に対する習熟度に応
じて操作の誘導、操作手順を示すガイダンスの提供、又
は利用者の発声を受け付けるタイミングの制御を行うも
のである。このような音声対話装置では、説明不足以外
に起因する利用者の無音や迷いを生じた原因は、解析さ
れないので、その無音や迷いの要因（情報が不足してる
ので別の操作を行わざるを得なかった、選択肢がないの
で別の操作を行わざるを得なかった等）を取り除いた形
のメッセージを送出できず、利用者に扱いにくいサービ
スとなってしまっていた。

【００２２】すなわち、まとめると次のような課題(1)
〜(4)があった。 (1)入力方法に不明な点がある場合、音声入力装置側の
サポート（利用方法解説など）が不十分であり、利用者
は容易に理解できない。 (2)不完全な対話応答内容では音声入力装置に受付けら
れない。 (3)誤った入力に対して、迅速に容易に訂正できない。 (4)意志の決定に躊躇していても意志決定の手助けを行
う情報を提示してくれない。

【００２３】従って本発明は、音声を利用した音声応答
サービスを行う音声対話装置において、利用者の応答状
態に対応した応答サービスを行うことを課題とする。具
体的には、利用者が理解できない状態、不完全な対話応
答内容で音声対話装置に受付けられていない状態、誤っ
た入力に対して、迅速に容易に訂正できない状態、意志
の決定に躊躇している状態に対応する対話を行う。

【００２４】

【課題を解決するための手段】上記の課題を解決するた
め、本発明の音声対話装置は、音声対話時の音声入力者
の心理状態を示す対話応答内容を検出する音声認識部
と、該対話応答内容を解析して該心理状態を所定の入力
状態情報に分類する入力状態解析部と、を備えたことを
特徴とする（請求項１、付記１）。

【００２５】図１は、本発明の音声対話装置100の原理
を示している。この音声対話装置100は、音声認識部10
及び入力状態解析部18を備えており、音声認識部10は、
音声入力者（利用者）の心理状態を示す対話応答内容を
入力音声から検出し、入力状態解析部18は対話応答内容
を解析して該心理状態を入力状態情報に分類する。

【００２６】これにより、従来の音声入力者タイプ又は
音声入力者の音声対話装置に対する習熟度とは異なり、
音声入力者の心理状態（入力状態情報）、すなわち、応
答状態に対応したサービスを行うことが可能になる。ま
た、本発明は、上記の本発明において、該対話応答内容
を、少なくともキーワード、不要語、未知語、及び無音
の内のいずれか１つにすることが可能である（請求項
２、付記２）。

【００２７】すなわち、対話応答内容として、対話音声
入力時に音声入力者から応答されることを期待している
キーワード、応答されることを期待されていない不要
語、キーワード及び不要語のいずれでもない未知語、無
音状態に基づき音声入力者の心理状態を解析することが
可能になる。

【００２８】このような対話応答内容によれば、利用者
が理解できない状態、不完全な対話応答内容で音声対話
装置に受付けられていない状態、誤った入力に対して、
迅速に容易に訂正できない状態、又は意志の決定に躊躇
している状態に対応する対話を行うことが可能になる。

【００２９】なお、キーワードとして、例えば、ホテル
案内又は観光案内の選択における「ホテル」「観光」等
があり、このキーワードは、例えば音声入力者の確信
（心理状態）を示しているとも見倣せる。心理状態を示
す不要語例には、「あれっ」、「かな」、及び「（こ
れ）だ」等の他に利用者自身の心理状態をそのまま示す
「自信が無い」、「困った」等も含まれる。

【００３０】また、本発明は、上記の本発明において、
該対話応答内容を、少なくともキーワード、不要語、未
知語、及び無音の開始位置の内のいずれか１つにするこ
とが可能である（付記３）。これにより、対話応答内容
の内の少なくともキーワード、不要語、未知語、及び無
音の開始位置の内の１つが心理状態を示すものであれ
ば、音声入力者の心理状態を入力状態情報に分類するこ
とが可能になる。

【００３１】また、本発明は、上記の本発明において、
該入力状態情報を、少なくとも迷い、戸惑い、及び不安
の内のいずれか１つとすることができる（請求項３、付
記４）。これにより、音声入力者の“迷い”、“戸惑
い”、又は“不安”等の例えばデジタルデバイド心理状
態（入力状態情報）に基づき、シナリオを選択すること
が可能になる。

【００３２】ここで、音声入力者の対話応答内容に基づ
き音声入力者の心理状態を所定の入力状態情報に分類す
る例を説明する。(1)利用者の心理状態解析のためのパラメータの選択例音声対話装置100からの音声ナビゲーションの問いかけ
に対する利用者の反応は、以下の場合(11)、(12)、(21)
〜(24)に分類する。

【００３３】利用者がキーワードを回答した場合： (11)回答内容に確信を持っている。すなわち“自信を持
って答えた” (12)回答内容に確信を持っていない。すなわち、“自信
がないけれど、とりあえず答えた。”利用者がキーワードを回答しない場合： (21)ナビゲーションの内容が不明確。すなわち、“問い
かけの内容がよく分からない。” (22)ナビゲーションの内容が明確だが、自分が欲しい内
容と違う問いかけの内容が、自分が聞きたい（やりた
い）内容と関連がない。例えば、“（意外）と感じてい
る。” (23)ナビゲーションの内容が明確で、自分が欲しい内容
だが、回答内容に迷いがある。例えば、“複数の選択肢
から一つを選択して回答するのに迷いを生じている” (24)ナビゲーションの内容が明確で、自分が欲しい内容
だが、回答内容に不安がある。すなわち、“回答しよう
としている内容が正しいのかどうか不安”ここで、心理
状態（入力状態情報）として、パラメータ“戸惑い度P
1”、“迷い度P2”、“不安度P3”を用いる。各パラメ
ータP1〜P3の定義を以下に説明する。

【００３４】・戸惑い度P1：ナビゲーションが理解でき
ない、求めるものと異なるなどで、利用者が戸惑ってい
る状態を示す・迷い度P2：ナビゲーションの内容は理解できたが、利
用者が問いかけへの回答内容に迷っている状態を指す。

【００３５】・不安度P3：ナビゲーションの内容は理解
でき、問いかけへの回答内容が決まったが、自分が選択
した内容が正しかったか、不安がある状態を指す。上記の３つのパラメータを使用した、利用者の心理状態
解析の方法を以下に説明する。

【００３６】利用者がキーワードを回答した場合の解析
方法：この解析方法を以下の通りである。 (11)回答内容に確信を持っている：これは、利用者が、
ナビケーションの内容が理解でき、・ナビゲーションの内容が求めるものであり：“戸惑い
度”は低・回答内容に迷いがなく、： “迷い
度”は低・回答内容に不安もない： “不安
度”は低の場合を示す。

【００３７】(12)回答内容に確信を持っていない：これ
は、利用者が、・ナビケーションの内容が理解できない・ナビゲーションの内容が求めるものと異なる：“戸惑
い度”は高・回答内容に迷いがある： “迷い
度”は高・回答内容に不安がある： “不安
度”は高の何れかの場合を示す。

【００３８】図２は、上記に心理状態(11)及び(12)に対
応する“戸惑い度”、“迷い度”、及び“不安度”を判
断する判断例(1)を示している。この判断例(1)に基づき
心理状態を解析して入力状態情報に分類することができ
る。なお、各パラメータ“戸惑い度”、“迷い度”、
“不安度”の判断基準は、各ナビゲーションの内容によ
り、最も適切なものを選択する。具体的な値に関して
は、実施例において後述する。

【００３９】また、実施例に記載されている“迷い
度”、“戸惑い度”、及び“不安度”を表すキーワー
ド、各基準値は、一例であり、これらの値は適用するシ
ステムにおいて適切なキーワード、基準値を設定する。利用者がキーワードを回答しない場合の解析方法：利用
者がキーワードを回答しない場合の解析方法を以下に説
明する。

【００４０】(21)ナビゲーションの内容が不明確：これ
は、利用者が、・ナビケーションの内容が理解できない、場合を示す。 (22)ナビゲーションの内容が明確で、自分が欲しい内容
と違う。これは、利用者が、・ナビケーションの内容が理解でき・ナビゲーションの内容が求めるものと異なる：“戸惑
い度”は高の場合を示す。

【００４１】(23)ナビゲーションの内容が明確で、自分
が欲しい内容だが、回答内容に迷いがある。これは、利
用者が、・ナビケーションの内容が理解でき、・ナビゲーションの内容が求めるものであるが：“戸惑
い度”は低・回答内容に迷いがある：“迷い
度”は高の場合を示す。

【００４２】(24)ナビゲーションの内容が明確で、自分
が欲しい内容だが、回答内容に不安がある。これは、利
用者が、・ナビケーションの内容が理解でき・ナビゲーションの内容が求めるものであり：“戸惑
い度”は低・回答内容を選択したが：“迷い
度”は低・選択した回答内容に不安がある：“不安
度”は高の場合を示す。

【００４３】図３は、心理状態(21)〜(24)に対応する
“戸惑い度”、“迷い度”、及び“不安度”を判断する
判断例(2)を示している。なお、このとき各パラメータ
“戸惑い度”、“迷い度”、“不安度”の判断基準は、
各ナビゲーションの内容により、最も適切なものを選択
する。

【００４４】［2］利用者の心理状態解析の結果の利用
例上記の［1］の解析結果に基づきそれぞれの結果に対応
した処理を行う。 (1)利用者がキーワードを回答した場合 (11)回答内容に確信を持っている：次のシナリオを利用
者に送出する。

【００４５】(12) 回答内容に確信を持っていない：回
答内容の確認を行う。 (2)利用者がキーワードを回答しない場合 (21)ナビゲーションの内容が不明確：詳細な情報を付加
して問い直しを行う。 (22)ナビゲーションの内容が明確で、自分が欲しい内容
と違う：別のシナリオへの遷移を促す。

【００４６】(23)ナビゲーションの内容が明確で、自分
が欲しい内容だが、回答内容に迷いがある：詳細な情報
を付加して問い直しを行う。 (24)ナビゲーションの内容が明確で、自分が欲しい内容
だが、回答内容に不安がある：詳細な情報を付加して問
い直しを行う。

【００４７】また、本発明は、上記の本発明において、
該入力状態情報に対応したシナリオを記憶するシナリオ
データベースと、該入力状態情報に基づき音声入力者に
対するシナリオを選択するシナリオ解析部をさらに備え
ることができる（付記５）。すなわち、図１において、
音声対話装置10は、シナリオデータ（ベース）37とシナ
リオ解析部21を備えている。シナリオデータ37は入力状
態情報（音声入力者の心理状態）に対応したシナリオを
記憶している。シナリオ解析部21は、入力状態解析部18
から受け取った入力状態情報54に基づきシナリオを選択
する。

【００４８】これにより、音声入力者の心理状態に対応
したシナリオを選択することが可能になる。なお、この
シナリオの選択は、１つの対話毎に音声入力者の心理状
態を解析して行うことが可能である。また、本発明は、
上記の本発明において、該音声認識部は、該心理状態を
示す不要語と該心理状態を数値化した不要語解析結果情
報とを対応付けた不要語データベースと、該不要語デー
タベースに基づき、該不要語を不要語解析結果情報に変
換する不要語解析部と、を備えることができる（請求項
４、付記６）。

【００４９】同図において、音声認識部10は、不要語デ
ータ（ベース）33及び不要語解析部15（同図では、便宜
上、音声認識部10の外に図示されている。）を備えてい
る。不要語データ33は、該心理状態を示す不要語と該心
理状態を数値化した不要語解析結果情報とを対応付けて
いる。不要語解析部15は、不要語データ33に基づき、不
要語を不要語解析結果情報に変換する。

【００５０】これにより、音声入力者の心理状態を数値
化して処理することが可能になる。また、本発明は、上
記の本発明において、該入力状態解析部が、１つ以上の
該不要語解析結果情報に基づき音声入力者の心理状態を
該入力状態情報に分類することができる（請求項５、付
記７）。

【００５１】すなわち、同図において、音声入力者の応
答音声には音声入力者の心理状態を示す１つ以上の不要
語を含む。従って、不要語解析結果情報の数は、１つ又
は複数である。そこで、入力状態解析部18は、１つ以上
の該不要語解析結果情報49に基づき音声入力者の心理状
態に分類した入力状態情報54を出力する。

【００５２】また、本発明は、上記の本発明において、
該音声認識部が、該対話応答内容に含まれる無音時間を
検出する無音解析部をさらに備え、該入力状態解析部
は、該無音時間に基づき該入力状態情報を補正してもよ
い（付記８）。すなわち、音声認識部10は、無音解析部
14（同図では便宜上音声認識部10外に図示されてい
る。）を備え、この無音解析部14は音声に含まれる無音
（例えば、無音継続時間、無音開始位置）を検出する。
入力状態解析部18は、例えば、キーワードの前の無音時
間又は無音開始位置に基づき該入力状態情報を補正する
ことが可能である。

【００５３】また、本発明は、上記の本発明において、
該音声認識部10は、該対話応答内容に含まれるキーワー
ドの強度を解析するキーワード解析部をさらに有し、該
入力状態解析部は、該強度に基づき該入力状態情報を補
正してもよい（付記９）。すなわち、同図に示したよう
に音声認識部10は、キーワード解析部16（同図では便宜
上音声認識部10の外に図示されている。）を備えてい
る。このキーワード解析部16は、対話応答内容に含まれ
るキーワードの強度を解析する。入力状態解析部18は、
キーワードの強度に基づき該入力状態情報を補正するこ
とが可能である。

【００５４】また、本発明は、上記の本発明において、
該音声認識部は、該対話応答内容に含まれる未知語の該
対話応答内容に対する割合を検出する未知語解析部をさ
らに有し、該入力状態解析部は、該割合に基づき該入力
状態情報を補正してもよい（付記１０）。

【００５５】すなわち、同図に示したように音声認識部
10は、未知語解析部17（同図では便宜上音声認識部10の
外に図示されている。）を備え、この未知語解析部17は
該対話応答内容（音声）に含まれる未知語の音声に対す
る割合を検出する。入力状態解析部18は、割合で該入力
状態情報を補正することが可能である。

【００５６】また、本発明は、上記の本発明において、
該入力状態情報を入力状態履歴データベースに蓄積する
全利用者入力状態履歴処理部をさらに有し、該入力状態
解析部は、該入力状態履歴データベースで該入力状態情
報を補正してもよい（付記１１）。

【００５７】すなわち、同図に示したように音声対話装
置100は全利用者入力状態履歴処理部19と入力状態履歴
データ（ベース）36を備え、この処理部19は、入力状態
解析部18から受信した該入力状態情報54を入力状態履歴
データ36に蓄積する。入力状態解析部18は、例えば、入
力状態履歴データ36の平均値と入力状態情報を比較して
入力状態情報を補正する。

【００５８】これにより、過去の入力状態情報の統計値
に基づき現在の入力状態情報の補正をすることが可能に
なる。また、本発明は、上記の本発明において、該音声
入力者の音声に基づき音声入力者を特定する音声認証部
と、該入力状態情報を入力状態履歴データベースに該音
声入力者別に蓄積する個人別入力状態履歴処理部とをさ
らに有し、該入力状態解析部は、該入力状態履歴データ
ベースで該入力状態情報を補正してもよい（付記１
２）。

【００５９】すなわち、同図に示したように音声対話装
置100は、音声認証部13、個人別入力状態履歴処理部2
0、及び入力状態履歴データ（ベース）36を備えてい
る。音声認証部13は、音声入力者の音声に基づき音声入
力者を特定する。個人別入力状態履歴処理部20は、入力
状態情報を入力状態履歴データ36に音声入力者別に蓄積
する。該入力状態解析部18は、音声入力者別の入力状態
履歴データ36で入力状態情報を補正する。

【００６０】これにより、過去の個人別の入力状態情報
の統計値に基づき現在の入力状態情報の補正をすること
が可能になる。また、本発明は、上記の本発明におい
て、該シナリオ解析部は、さらに、該対話応答内容に含
まれるキーワードに基づき該シナリオを選択するしても
よい（付記１３）。

【００６１】すなわち、同図において、シナリオ解析部
21は、入力状態情報及びキーワードに基づきシナリオを
選択することが可能である。さらに、本発明は、上記の
本発明において、該シナリオが、少なくとも、現在のシ
ナリオの次のシチュエーションに進むシナリオ、現在の
シナリオでよいか否かを確認するシナリオ、現在のシナ
リオとは別のシナリオに遷移するシナリオ、現在のシナ
リオの詳細説明のシナリオ、及びオペレータに接続する
シナリオの内のいずれか１つを含むことできる（付記１
４）。

【００６２】すなわち、シナリオ解析部21は、次のシナ
リオとして、入力状態情報に基づき、少なくとも、現在
のシナリオの次のシチュエーションに進むシナリオ、現
在のシナリオでよいか否かを確認するシナリオ、現在の
シナリオとは別のシナリオに遷移するシナリオ、現在の
シナリオの詳細を説明するシナリオ、又はオペレータに
接続するシナリオのいずれかを選択することが可能であ
る。

【００６３】

【発明の実施の形態】実施例(1) 図４は、図１に示した本発明に係る音声対話装置100の
動作実施例(1)を示している。この実施例(1)における音
声対話装置100の構成は、同図に示した音声対話装置100
において音声認証部13及び個人認証データ35、及び個人
別入力状態履歴処理部20を含まない構成である。

【００６４】なお、同図に示した音響データ31、辞書デ
ータ32、不要語データ33、キーワードデータ34、個人認
証データ35、及び入力状態履歴データ36は、当該データ
のデータバンクを示すと共に当該データを記憶する記憶
部も示すものとする。また、図４の実施例(1)には、音
響解析部11が音響データ31にアクセスするフロー、照合
処理部12が辞書データ32、不要語データ33、及びキーワ
ードデータ34にアクセスするフロー、及び全利用者入力
状態履歴処理部19が入力状態履歴データ36にアクセスす
るフローは図を簡略化するために省略されている。

【００６５】これに伴い、音響データ31、辞書データ3
2、不要語データ33、キーワードデータ34、及び入力状
態履歴データ36も図を簡略化するために省略されてい
る。まず、音声対話装置100の実施例(1)における動作の
概要を以下に説明する。音響解析部11は、音声入力部20
0から入力された音声信号40を音響解析して音声データ4
1，43を作成する。なお、音声データ41，43は同一の音
声データである。

【００６６】無音解析部14は、音声データ43における無
音の発生位置及び無音時間を解析する。照合処理部12
は、辞書データ32を参照して音声データ41を音声テキス
トに変換した後、キーワードデータ34及び不要語データ
33を参照して音声テキストからそれぞれキーワード、不
要語、及び未知語を抽出する。

【００６７】不要語解析部15は、不要語に基づき、利用
者の“迷い”、“戸惑い”、“不安”の度合いを数値化
し、キーワード解析部16は、“キーワードの強さ”を数
値化し、未知語解析部17は、“未知語の量”を解析す
る。入力状態解析部18は、無音解析部14、不要語解析部
15、キーワード解析部16、及び未知語解析部17からそれ
ぞれ得られた解析結果情報48，49，50，51と、全利用者
入力状態履歴処理部19を経由して入力状態履歴データ36
から得られた全利用者入力状態履歴情報52と、に基づき
総合的な解析を行い利用者の入力状態情報（心理状態）
54の決定を行う。

【００６８】また、全利用者入力状態履歴処理部19は、
決定された入力状態情報54を入力状態履歴データ36に蓄
積する。シナリオ解析部21は、決定された入力状態情報
54に基づき利用者に最適なシナリオをシナリオデータ37
から選択し、メッセージ合成部22は、選択されたシナリ
オのメッセージを音声合成し、メッセージ出力部300
は、音声合成されたメッセージを音声として利用者に出
力する。

【００６９】次に、音声対話装置100の実施例(1)におけ
るより詳細な動作を各機能部毎に図５〜図19を参照して
以下に説明する。なお、この説明においては、音声対話
装置100に入力された音声信号40の例として、「□□え
ーっと、□□予約かな＊△○○＊△」を用いるものとす
る。なお、“□”は無音、“えーっと”及び“かな”は
不要語、“＊△○○＊△”は未知語、“予約”はキーワ
ードとする。

【００７０】音声入力部200（図５参照）ステップS100 ：音声入力部200は、利用者の音声「□□
えーっと、□□予約かな＊△○○＊△」を受け付け、こ
の音声を音声信号40として音響解析部11に引き渡す。

【００７１】音響解析部11（図６参照）ステップS101，S102 ：音響解析部11は、受け取った音声
信号40に対して音響データ31を参照してエコーキャンセ
ル等の処理を行い、音声信号40に対応する音声データを
作成し、この音声データを、それぞれ音声データ41，43
として照合処理部12及び無音解析部14に引き渡す。

【００７２】照合処理部12（図７参照）ステップS103 ：照合処理部12は、辞書データ32を参照し
て音声データ41をテキスト化した音声テキスト59に変換
する。ステップS104〜S107 ：照合処理部12は、キーワードデー
タ34及び不要語データ33を参照して音声テキスト59から
“キーワード”、“不要語（ワード）”、“未知語（不
要語でもなく、キーワードでもないワード）”を抽出す
ると共に、各ワードの音声データ41における時間軸上の
開始位置を検出する。

【００７３】そして、照合処理部12は、“不要語”とそ
の“開始位置”、キーワード”とその“開始位置”、及
び“未知語”とその“開始位置”をそれぞれ対応付けた
不要語情報44、キーワード情報45、及び未知語情報46を
作成し、それぞれ、不要語情報44、キーワード情報45、
及び未知語情報46を音声データ41と共にそれぞれ不要語
解析部15、キーワード解析部16、及び未知語解析部17に
引き渡す。

【００７４】無音解析部14（図８参照）ステップS108 ：無音解析部14は、音声データ43の“無音
時間”及び無音の“開始位置”を検出し、これらを組み
合わせた無音解析結果情報48を作成し、この情報48を音
声データ43と共に入力状態解析部18に引き渡す。

【００７５】不要語解析部15（図９参照）ステップS109 ：不要語解析部15は、不要語データ33を参
照して、不要語「えーっと」及び「かな」の“迷い”、
“戸惑い”、及び“不安”の程度を解析し、利用者の
“迷い度”、“戸惑い度”、及び“不安度”に数値化し
た不要語解析結果情報49を音声データ41と共に入力状態
解析部18に引き渡す。

【００７６】キーワード解析部16（図10参照）ステップS110 ：キーワード解析部16は、キーワード情報
45と音声データ41に基づきキーワードの強度（語調）を
抽出し、“キーワード”、“開始位置”、及び“強度”
を組み合わせたキーワード解析結果情報50を音声データ
41と共に入力状態解析部18に引き渡す。

【００７７】ここで、“強度”とは、音声データ上の相
対的なキーワード部分の音声の強さ振幅）を示す。未知語解析部17 （図11参照）ステップS111 ：未知語解析部17は、音声データ41及び未
知語情報46に基づき、“未知語量”、すなわち、音声デ
ータ全体における未知語の割合を検出した後、“未知
語”、その“開始位置”、及び“未知語量”を組み合わ
せた未知語解析結果情報51を音声データ41と共に入力状
態解析部18に引き渡す。

【００７８】入力状態解析部18（図12参照）ステップS112 ：入力状態解析部18は、解析部14〜17から
受け取った音声データ41または43、無音解析結果情報4
8、不要語解析結果情報49、キーワード解析結果情報5
0、及び未知語解析結果情報51に基づき、数値化された
利用者の“迷い、“戸惑い”、及び“不安”を総合的に
解析する。

【００７９】この解析時に、入力状態解析部18は、入力
状態履歴データ36を利用した補正を行う。図13は、上記
のステップS112における入力状態解析部18のより詳細な
解析手順（ステップS113〜S117）を示している。この解
析手順を以下に説明する。

【００８０】ステップS113：入力状態解析部18は、不要
語解析結果情報49の各要素“迷い度”、“戸惑い度”、
及び“不安度”を累計した“迷い度”、“戸惑い度”、
及び“不安定度”を構成要素とする入力状態情報54を作
成する。すなわち、入力状態解析部18は、不要語“えー
っと”の解析結果情報49の要素（“迷い度”＝２，“戸
惑い度”＝０，“不安度”＝０）と不要語“かな”の要
素（“迷い度”＝１，“戸惑い度”＝０，“不安度”＝
２）を要素毎に累計した入力状態情報54a＝（“迷い
度”＝３，“戸惑い度”＝０，“不安度”＝２）を作成
する。

【００８１】ステップS114：入力状態解析部18は、キー
ワード解析結果情報50及びキーワード補正規定値62に基
づき入力状態情報54aの補正を行う。キーワード補正規
定値62は、キーワード部分が強く発音された（“強度”
＝“３”）場合“不安度”が小さいと判断して“不安
度”を“−１”だけ補正し、弱く発音された（“強度”
＝“１”）場合“不安度”が大きいと判断して“不安
度”を“＋１”だけ補正し、普通に発音された（“強
度”＝“２”）場合“不安度”は補正しないように規定
している。

【００８２】入力状態解析部18は、キーワード解析結果
情報50に基づき入力状態情報54a＝（“迷い度”＝３，
“戸惑い度”＝０，“不安定度”＝２）を入力状態情報
54b＝（“迷い度”＝３，“戸惑い度”＝０，“不安
度”＝３）に補正する。ステップS115 ：入力状態解析部18は、未知語解析結果情
報51及び未知語補正規定値63に基づき入力状態情報54b
の補正を行う。

【００８３】未知語補正規定値63は、例えば、“未知語
量”＝40％以上の場合“戸惑い度”が大きいと判断して
“戸惑い度”を“＋１”だけ補正し、“未知語量”＝10
％未満の場合“戸惑い度”は少ないと判断し“戸惑い
度”を“−１”だけ補正し、“未知語量”＝10％以上40
％未満の場合“戸惑い度”は普通であると判断して“戸
惑い度”を補正しないように規定している。

【００８４】入力状態解析部18は、未知語解析結果情報
51の“未知語量”＝40％であるので、入力状態情報54b
＝（“迷い度”＝３，“戸惑い度”＝０，“不安度”＝
３）を入力状態情報54c＝（“迷い度”＝３，“戸惑い
度”＝１，“不安度”＝３）に補正する。

【００８５】ステップS116：入力状態解析部18は、キー
ワード解析結果情報50、無音解析結果情報48、及び無音
補正規定値64に基づき入力状態情報54cの補正を行う。
これは、キーワード前の無音時間は、迷いの心理状態を
表すものとし、“迷い度”の補正を行うものである。

【００８６】無音補正規定値64は、例えば、キーワード
の前の“無音時間”＝4秒以上の場合“迷い度”が大き
いと判断して“迷い度”を“＋１”だけ補正し、“無音
時間”＝１秒未満の場合“迷い度”が少ないと判断し
“迷い度”を“−１”だけ補正し、“無音時間”＝1秒
以上４秒未満の場合“迷い度”は普通であると判断して
“迷い度”を補正しないように規定している。

【００８７】入力状態解析部18は、キーワード解析結果
情報50及び無音解析結果情報48を参照するとキーワード
＝“予約”（開始位置＝10秒）の前の無音時間＝４秒
（＝２秒＋２秒）であるので、入力状態情報54c＝
（“迷い度”＝３，“戸惑い度”＝１，“不安度”＝
３）を入力状態情報54d＝（“迷い度”＝４，“戸惑い
度”＝１，“不安度”＝３）に補正する。

【００８８】ステップS117：入力状態解析部18は、入力
状態履歴データ36及び入力状態履歴補正規定値65に基づ
き入力状態情報54dの補正を行う。この補正は、全利用
者の入力状態履歴データ36に蓄積された“迷い度”、
“戸惑い度”、及び“不安度”の平均値と規定値65とを
比較して補正を行うものであり、一般的な利用者の特性
を反映させるためのものである。

【００８９】規定値64は、それぞれ“迷い度”、“戸惑
い度”、及び“不安度”について、現在の値と全利用者
の入力状態履歴データ36の平均値との差が、「２以
上」、「−２以下」、及び「その他」である場合、それ
ぞれ、“＋１”、“−１”、及び“０”の補正を行うよ
うに規定されている。

【００９０】入力状態解析部18は、入力状態履歴データ
36に基づき“迷い度”、“戸惑い度”、及び“不安度”
の各平均値（例えば、“迷い度”＝２、“戸惑い度”＝
１、“不安度”＝２）を計算し、入力状態情報54d＝
（“迷い度”＝４、“戸惑い度”＝１、及び“不安度”
＝３）から平均値を引いた差（“迷い度”＝２、“戸惑
い度”＝０、及び“不安度”＝１）を求め、入力状態情
報54d＝（“迷い度”＝４、“戸惑い度”＝１、及び
“不安度”＝３）を入力状態情報54＝（“迷い度”＝
５、“戸惑い度”＝１、及び“不安度”＝３）に補正す
る。

【００９１】以上のステップS113〜S117で、入力状態解
析部18は、受取ったデータ48〜51，36を解析して入力状
態情報54を作成する動作は完了した。なお、上記の解析
手順では、まず、音声入力者の心理状態を示す不要語を
基づき入力状態情報を作成し、この入力状態情報をキー
ワード、未知語、無音状態等の解析結果情報で補正した
が、少なくともキーワード、不要語、未知語、及び無音
状態の内のいずれか１つに基づき音声入力者の心理状態
を解析して入力状態情報54を求めてもよい。

【００９２】ステップS118：図12において、入力状態解
析部18は、入力状態情報54を全利用者入力状態履歴処理
部19を経由して入力状態履歴データ36に蓄積する。さら
に、入力状態解析部18は、入力状態情報54及びキーワー
ド解析結果情報50をシナリオ解析部21に引き渡す。

【００９３】全利用者入力状態履歴処理部19（図14参
照）上記のステップS112で入力状態履歴処理部19が、入力状
態履歴データ36を入力状態解析部18に与える動作と、ス
テップS118で入力状態履歴処理部19が、入力状態解析部
18から受信した入力状態情報54を入力状態履歴データ36
に蓄積する動作を示している。

【００９４】ステップS119：処理部19は、入力状態履歴
データ36から全利用者の入力状態履歴情報52を取り出し
入力状態解析部18に引渡す。ステップS120 ：処理部19は、入力状態解析部18から受信
した入力状態情報54を入力状態履歴データ36に蓄積す
る。

【００９５】シナリオ解析部21（図15参照）シナリオ解析部21の概略動作は、入力状態解析部18から
受取った入力状態情報54及びキーワード解析結果情報50
に基づき、利用者と対話するシナリオメッセージ（利用
者に対して送出するメッセージ）55を選択することであ
る。

【００９６】シナリオ解析部21のより詳細な動作は、同
図を参照して後述する。図16は、シナリオ解析部21が予
め保持している規定値例を示している。この規定値と入
力状態情報54とを比較してシナリオ解析部21は、シナリ
オを選択する。同図(1)は個別規定値60を示しており、
この個別規定値60は、入力状態情報54に含まれる“迷い
度”、“戸惑い度”、及び“不安度”毎に個別に設定さ
れた規定値であり、同図(1)では“迷い度”＝２、“戸
惑い度”＝２、及び“不安度”＝２が設定されている。

【００９７】同図(2)は、合計規定値61を示しており、
この合計規定値61は、“迷い度”、“戸惑い度”、及び
“不安度”の合計値に対して規定された規定値であり、
同図(2)では、“合計規定値61”＝10が設定されてい
る。例えば、入力状態情報54（図12参照）の“迷い度”
＝５、“戸惑い度”＝３、“不安度”＝４である場合、
これらの合計値＝12は、“合計規定値61”を越えたこと
になる。

【００９８】図17は、シナリオ解析部21が選択するシチ
ュエーションとその遷移状態を示している。シチュエー
ションとは、利用者と音声対話装置100との間で交わし
た対話の位置（すなわち、対話が何処まで進んでいる
か）を示し、各シチュエーションには、シナリオメッセ
ージが設定されている。

【００９９】図15に示したシナリオデータ37は、各シチ
ュエーションに設定されているシナリオメッセージ例を
示している。シナリオメッセージは、確認シナリオ、別
のシナリオ遷移シナリオ、詳細説明シナリオ、オペレー
タ接続シナリオで構成されている。

【０１００】確認シナリオメッセージとして、“〜よろ
しいですか”が定義され、別のシナリオ遷移を問い合わ
せるシナリオメッセージとして、“他の内容に移ります
か”が定義され、詳細説明シナリオメッセージとして、
“ここでは、〜，〜が選択できます”が定義され、オペ
レータ接続シナリオとして、“オペレータにおつなぎし
ますか”が定義されている。

【０１０１】これらのシナリオメッセージに応答した利
用者の音声（より詳細には、利用者の音声に基づき決定
された入力状態情報54）に従って、シチュエーションは
遷移する。シナリオ解析部21 の詳細動作図15〜図17を参照して、シナリオ解析部21の詳細な動作
を以下に説明する。

【０１０２】ステップS121：図15において、シナリオ解
析部21は、入力状態情報54に含まれる“迷い度”、“戸
惑い度”、及び“不安度”の合計値（同図では、＝9）
が、合計規定値61（図16参照、同図では“合計規定値6
1”＝10）を越えているか否かを判別する。

【０１０３】越えている場合、ステップS122に進み、越
えていない場合、ステップS123に進む。ステップS122 ：シナリオ解析部21は、オペレータ接続確
認のシナリオを選択する。

【０１０４】この選択動作を、図17に示したシチュエー
ションの遷移図で説明する。シナリオ解析部21は、例え
ば、対話が同図のシチュエーションS12まで進んでいる
場合、利用者の音声の入力状態情報54が“合計規定値6
1”＝10を越えている場合、オペレータ接続確認のシチ
ュエーションS19に遷移し、このシチュエーションS19に
設定されたシナリオメッセージ（“オペレータにおつな
ぎしますか”）を選択する。

【０１０５】この後、利用者の応答が“はい”である場
合、オペレータ転送のシチュエーション（図示せず）に
遷移し、“いいえ”である場合、シチュエーションS12
に遷移し、ホテル案内の問い合わせを再度行う。ステップS123 ：シナリオ解析部21は、キーワード解析結
果情報50を参照して、キーワードが有るか否かを判定
し、有る場合、ステップS124に進み、無い場合、ステッ
プS127に進む。

【０１０６】ステップS124：シナリオ解析部21は、それ
ぞれ、入力状態情報54に含まれる“迷い度”、“戸惑い
度”、及び“不安度”が、個別規定値60に規定された
“迷い度”、“戸惑い度”、及び“不安度”を越えてい
る否かを判定し、“迷い度”、“戸惑い度”、及び“不
安度”のいずれも越えていない場合、利用者が“迷
い”、“戸惑い”、及び“不安”無しに応答したと判定
してステップS125に進み、少なくともいずれか一つが越
えている場合、ステップS126に進む。

【０１０７】ステップS125：シナリオ解析部21は、次の
シチュエーションのシナリオを選択する。すなわち、シ
ナリオ解析部21は、例えば、対話が図15のシチュエーシ
ョンS12まで進んでいる場合、通常のキーワード解析結
果情報50に含まれるキーワード“予約”で選択する次の
シチュエーションS14に進み、このシチュエーションS12
に設定されたシナリオ（予約案内）を選択する。

【０１０８】ステップS126：シナリオ解析部21は、利用
者に対して入力内容を確認するシチュエーションのシナ
リオを選択する。すなわち、シナリオ解析部21は、例え
ば、対話が図17のシチュエーションS12まで進んでいる
場合、確認のシチュエーションS16のシナリオ（“ホテ
ル予約でよろしいですか”）を選択して利用者にホテル
予約であることを確認する。

【０１０９】この後、利用者の応答が“はい”である場
合、シチュエーションS14に遷移し、“いいえ”である
場合、シチュエーションS12に遷移する。ステップS12
7：シナリオ解析部21は、“戸惑い度”が個別規定値を
越えているか否かを判定し、越えている場合、別のシナ
リオを選択するためのステップS128に進み、越えていな
い場合、詳細説明のシナリオを選択するためのステップ
S129に進む。

【０１１０】ステップS128：シナリオ解析部21は、別の
シナリオを選択する否かを問い合わせるシナリオメッセ
ージを選択する。すなわち、シナリオ解析部21は、例え
ば、対話がシチュエーションS12まで進んでいる場合、
シチュエーションS17のシナリオ（“他の内容に移りま
すか”）を選択して利用者に別のシナリオに選択するか
否かを確認する。

【０１１１】この後、利用者の応答が“はい”である場
合、シチュエーションS11に遷移し、“いいえ”である
場合、シチュエーションS12に遷移する。ステップS12
9：シナリオ解析部21は、詳細説明のシナリオを選択す
る。すなわち、シナリオ解析部21は、例えば、対話がシ
チュエーションS12まで進んでいる場合、詳細説明のシ
ナリオに対応するシチュエーションS18に遷移し、シナ
リオメッセージ（“ここでは、「ホテル予約」又は「地
図案内」が選択できます。”）でシチュエーションS12
の詳細説明を行う。

【０１１２】この後、シナリオ解析部21は、シチュエー
ションS12に遷移してサービス選択の問合せを再度行
う。以後、シナリオ解析部21は、ステップS125，S126，
S128，S129で選択したシナリオメッセージ55をメッセー
ジ合成部22に渡す。

【０１１３】メッセージ合成部22（図18参照）メッセージ合成部22の動作例を以下に説明する。ステップS130 ：メッセージ合成部22は、シナリオメッセ
ージ55を合成音声データ56に変換して、このデータ56を
メッセージ出力部300に引渡す。

【０１１４】メッセージ出力部300（図19参照）メッセージ出力部300の動作例を以下に説明する。ステ
ップS131：メッセージ出力部300は、メッセージ合成音
声データ56を利用者に送出する。

【０１１５】実施例(2) 図20は、図１に示した本発明に係る音声対話装置100の
動作実施例(2)を示している。この実施例(2)における音
声対話装置100の構成は、図１に示した音声対話装置100
において、全利用者入力状態履歴処理部19を含まない。

【０１１６】この実施例(2)には、音響解析部11が音響
データ31にアクセスするフロー、照合処理部12が辞書デ
ータ32、キーワードデータ34、及び不要語データ33にア
クセスするフロー、及び個人別入力状態履歴処理部20が
入力状態履歴データ36にアクセスするフローは図を簡略
化するために省略されている。

【０１１７】これに伴い、音響データ31、辞書データ3
2、キーワードデータ34、不要語データ33、及び入力状
態履歴データ36も図を簡略化するために省略されてい
る。まず、音声対話装置100の実施例(2)における動作の
概要を以下に説明する。音響解析部11は、音声入力部20
0から入力された音声信号40を音響解析して音声データ4
1〜43を作成する。なお、音声データ41〜43は同一の音
声データである。

【０１１８】照合処理部12、無音解析部14、キーワード
解析部16、不要語解析部15、及び未知語解析部17の動作
は実施例(1)と同様である。入力状態解析部18は、無音
解析部14、不要語解析部15、キーワード解析部16、未知
語解析部17からそれぞれ得られた解析結果情報48〜51
と、個人別入力状態履歴処理部20から取り出された入力
状態履歴データ36と、を用いた総合的な解析を行い各利
用者の入力状態の決定を行う。

【０１１９】なお、実施例(2)における入力状態履歴デ
ータ36は、個人別のデータであり、実施例(1)で示した
全利用者に共通な入力状態履歴データ36とは異なるが同
一符号36を用いるものとする。音声認証部13は、音声デ
ータ42から声紋パターンを抽出し、声紋パターンをキー
として個人認証データ35を参照して個人を特定して入力
状態解析部18に通知する。

【０１２０】個人別入力状態履歴処理部20は、入力状態
解析部18から特定した個人の入力状態履歴データ36の問
い合わせに応答する。入力状態解析部18は、不要語解析
部15、キーワード解析部16、未知語解析部17、無音解析
部14よりそれぞれ得られた解析結果と、個人別入力状態
履歴処理部20が応答した特定個人の入力状態履歴データ
36と、を用いた総合的な解析を行い利用者の入力状態を
決定し、この入力状態情報54を処理部20及びシナリオ解
析部21に引き渡す。

【０１２１】また、個人別入力状態履歴処理部20は、決
定された個人別の入力状態情報54を入力状態履歴データ
36に蓄積する。照合処理部12、無音解析部14、キーワー
ド解析部16、不要語解析部15、未知語解析部17、シナリ
オ解析部21、メッセージ合成部22、及びメッセージ出力
部300の動作は実施例(1)と同様である。

【０１２２】次に、音声対話装置100の実施例(2)のより
詳細な動作、特に実施例(1)の動作と異なる音響解析部1
1及び音声認証部13、並びに実施例(1)には含まれていな
い入力状態解析部18及び個人別入力状態履歴処理部20の
動作を図21〜図25を参照して以下に説明する。

【０１２３】この説明においても実施例(1)と同様に、
音声対話装置100に入力された音声信号40の例として、
「□□えーっと、□□予約かな＊△○○＊△」を用いる
ものとする。音響解析部11 （図21参照）ステップS200，S201 ：音響解析部11は、音声信号40に対
して音響データ31を参照してエコーキャンセル等の補正
処理を行い、音声データ41〜43を作成する。なお、音声
データ41〜43は同一の音声データである。

【０１２４】そして、音響解析部11は、音声データ41〜
43をそれぞれ照合処理部12、音声認証部13、及び無音解
析部14に引き渡す。音声認証部13 （図22参照）ステップS202 ：音声認証部13は、利用者の音声データ43
より声紋パターンを抽出する。

【０１２５】ステップS203，S204，S205：音声認証部13
は、この声紋パターンが個人認証データ35に登録されて
いるか否かを検索し、登録されていないとき、個人認証
データ35に１レコードを追加し声紋パターンを登録する
と共に、追加レコードのインデックス（個人特定情報4
7）を個人別入力状態履歴処理部20に通知する。

【０１２６】声紋パターンが登録されているとき、音声
認証部13は、登録されている声紋パターンのインデック
ス（個人特定情報47）を個人別入力状態履歴処理部20に
通知する。入力状態解析部18 （図23参照）ステップS206 ：入力状態解析部18は、受け取った音声デ
ータ43、無音解析結果情報48、不要語解析結果情報49、
キーワード解析結果情報50、及び未知語解析結果情報5
1、並びに個人別入力状態履歴処理部20を経由して受信
した特定個人の入力状態履歴データ36を総合的に解析し
た解析データ（入力状態情報54）を作成する。

【０１２７】図24に示した解析手順ステップS207〜S211
は、上記の解析手順をより詳細に示している。この解析
手順を以下に説明する。ステップS207〜S210 ：図13の実施例(1)に示した解析手
順のステップS113〜S116と同様であり、不要語解析結果
情報49から求めた入力状態情報54aをキーワード解析結
果情報50、未知語解析結果情報51、及び無音解析結果情
報48で補正する。

【０１２８】その解析結果は、実施例(1)のステップS11
6の解析結果と同じ入力状態情報54d＝（“迷い度”＝
４，“戸惑い度”＝１，及び“不安度”＝３）とする。ステップS211 ：入力状態解析部18は、個人別の入力状態
履歴データ36及び入力状態履歴補正規定値65に基づき入
力状態情報54dの補正を行う。

【０１２９】この補正は、入力状態履歴データ36に個人
別に蓄積された“迷い度”、“戸惑い度”、及び“不安
度”の平均値と規定値65とを比較して補正を行うもので
あり、利用者個人の特性を反映させるためのものであ
る。個人別の入力状態履歴データ36を“迷い度”、“戸
惑い度”、及び“不安度”毎に平均値を計算する。この
平均値が“迷い度”＝２、“戸惑い度”＝１、及び“不
安度”＝２であるものとする。

【０１３０】入力状態履歴補正規定値65は、例えば、図
13に示した規定値65と同様である。入力状態解析部18
は、上記の補正基準に基づき“迷い度”のみに対して
“＋１”の補正を行い、入力状態情報（“迷い度”＝
５、“戸惑い度”＝１、及び“不安度”＝３）を出力す
る。

【０１３１】ステップS212：図23において、入力状態解
析部18は、入力状態情報54を個人別入力状態履歴処理部
20を通して入力状態履歴データ36に個人別に蓄積する。
さらに、入力状態解析部18は、入力状態情報54をキーワ
ード解析結果情報50と共にシナリオ解析部21に引き渡
す。

【０１３２】個人別入力状態履歴処理部20（図25参照）上記のステップS211、S212における処理部20のより詳細
な動作を以下に説明する。ステップS213 ：処理部20は、個人特定情報47に基づき特
定の個人の入力状態履歴情報53を入力状態履歴データ36
から抽出して、入力状態解析部18に受け渡す。

【０１３３】ステップS214：処理部20は、入力状態情報
54と音声認証部13から受け取った“個人特定情報47”＝
“インデックス値”に基づき、特定された個人の入力状
態情報54を個人別に入力状態履歴データ36に蓄積する。（付記１）音声対話時の音声入力者の心理状態を示す対
話応答内容を検出する音声認識部と、該対話応答内容を
解析して該心理状態を所定の入力状態情報に分類する入
力状態解析部と、を備えたことを特徴とする音声対話装
置。

【０１３４】（付記２）上記の付記１において、該対話
応答内容が、少なくともキーワード、不要語、未知語、
及び無音の内のいずれか１つであることを特徴とした音
声対話装置。（付記３）上記の付記２において、該対話応答内容が、
少なくともキーワード、不要語、未知語、及び無音の開
始位置の内のいずれか１つであることを特徴とした音声
対話装置。

【０１３５】（付記４）上記の付記１において、該入力
状態情報が、少なくとも迷い、戸惑い、及び不安の内の
いずれか１つであることを特徴とした音声対話装置。（付記５）上記の付記１において、該入力状態情報に対
応したシナリオを記憶するシナリオデータベースと、該
入力状態情報に基づき音声入力者に対するシナリオを選
択するシナリオ解析部をさらに備えたことを特徴とする
音声対話装置。

【０１３６】（付記６）上記の付記１において、該音声
認識部は、該心理状態を示す不要語と該心理状態を数値
化した不要語解析結果情報とを対応付けた不要語データ
ベースと、該不要語データベースに基づき、該不要語を
不要語解析結果情報に変換する不要語解析部と、を備え
たことを特徴とする音声対話装置。

【０１３７】（付記７）上記の付記６において、該入力
状態解析部が、１つ以上の該不要語解析結果情報に基づ
き音声入力者の心理状態を該入力状態情報に分類するこ
とを特徴とした音声対話装置。（付記８）上記の付記６において、該音声認識部が、該
対話応答内容に含まれる無音時間を検出する無音解析部
をさらに備え、該入力状態解析部は、該無音時間に基づ
き該入力状態情報を補正することを特徴とした音声対話
装置。

【０１３８】（付記９）上記の付記６において、該音声
認識部10は、該対話応答内容に含まれるキーワードの強
度を解析するキーワード解析部をさらに有し、該入力状
態解析部は、該強度に基づき該入力状態情報を補正する
ことを特徴とした音声対話装置。

【０１３９】（付記１０）上記の付記６において、該音
声認識部は、該対話応答内容に含まれる未知語の該対話
応答内容に対する割合を検出する未知語解析部をさらに
有し、該入力状態解析部は、該割合に基づき該入力状態
情報を補正することを特徴とした音声対話装置。

【０１４０】（付記１１）上記の付記１において、該入
力状態情報を入力状態履歴データベースに蓄積する全利
用者入力状態履歴処理部をさらに有し、該入力状態解析
部は、該入力状態履歴データベースで該入力状態情報を
補正することを特徴とした音声対話装置。

【０１４１】（付記１２）上記の付記１において、該音
声入力者の音声に基づき音声入力者を特定する音声認証
部と、該入力状態情報を入力状態履歴データベースに該
音声入力者別に蓄積する個人別入力状態履歴処理部とを
さらに有し、該入力状態解析部は、該入力状態履歴デー
タベースで該入力状態情報を補正することを特徴とした
音声対話装置。

【０１４２】（付記１３）上記の付記５において、該シ
ナリオ解析部は、さらに、該対話応答内容に含まれるキ
ーワードに基づき該シナリオを選択することを特徴とし
た音声対話装置。（付記１４）上記の付記１３において、該シナリオが、
少なくとも、現在のシナリオの次のシチュエーションに
進むシナリオ、現在のシナリオでよいか否かを確認する
シナリオ、現在のシナリオとは別のシナリオに遷移する
シナリオ、現在のシナリオの詳細説明のシナリオ、及び
オペレータに接続するシナリオの内のいずれか１つを含
むことを特徴とした音声対話装置。

【０１４３】

【発明の効果】以上説明したように、本発明に係る音声
応答装置によれば、音声認識部が、音声対話時の音声入
力者の心理状態を示す対話応答内容（キーワード、不要
語、未知語、及び無音）を検出し、入力状態解析部が対
話応答内容を解析して音声入力者の心理状態を所定の入
力状態情報に分類し、シナリオ解析部が入力状態情報に
基づき音声入力者に対するシナリオを選択するに構成し
たので、利用者の応答状態に対応した応答サービスを行
うことが可能になる。

【０１４４】具体的には、利用者が理解できない状態、
不完全な対話応答内容で音声対話装置に受付けられてい
ない状態、誤った入力に対して迅速に容易に訂正できな
い状態、又は意志の決定に躊躇している状態に対応する
対話を利用者との間で行うことが可能になる。

【図面の簡単な説明】

【図１】本発明に係る音声対話装置の原理を示したブロ
ック図である。

【図２】本発明に係る音声対話装置における心理状態の
判断例(1)を示した図である。

【図３】本発明に係る音声対話装置における心理状態の
判断例(2)を示して図である。

【図４】本発明に係る音声対話装置の実施例(1)におけ
るフロー図である。

【図５】本発明に係る音声対話装置の実施例(1)におけ
る音声入力部の動作例を示した図である。

【図６】本発明に係る音声対話装置の実施例(1)におけ
る音響解析部の動作例を示した図である。

【図７】本発明に係る音声対話装置の実施例(1)におけ
る照合処理部の動作例を示した図である。

【図８】本発明に係る音声対話装置の実施例(1)におけ
る無音解析部の動作例を示した図である。

【図９】本発明に係る音声対話装置の実施例(1)におけ
る不要語解析部の動作例を示した図である。

【図１０】本発明に係る音声対話装置の実施例(1)にお
けるキーワード解析部の動作例を示した図である。

【図１１】本発明に係る音声対話装置の実施例(1)にお
ける未知語解析部の動作例を示した図である。

【図１２】本発明に係る音声対話装置の実施例(1)にお
ける入力状態解析部の動作例を示した図である。

【図１３】本発明に係る音声対話装置の実施例(1)にお
ける入力状態解析部における解析手順例を示した図であ
る。

【図１４】本発明に係る音声対話装置の実施例(1)にお
ける全利用者入力状態履歴処理部の動作例を示した図で
ある。

【図１５】本発明に係る音声対話装置の実施例(1)にお
けるシナリオ解析部の動作例を示した図である。

【図１６】本発明に係る音声対話装置の実施例(1)にお
けるシナリオ解析部に設定された規定値例を示した図で
ある。

【図１７】本発明に係る音声対話装置の実施例(1)にお
けるシナリオ解析部に設定されたシチュエーション遷移
例を示した遷移図である。

【図１８】本発明に係る音声対話装置の実施例(1)にお
けるメッセージ合成部の動作例を示した図である。

【図１９】本発明に係る音声対話装置の実施例(1)にお
けるメッセージ出力部の動作例を示した図である。

【図２０】本発明に係る音声対話装置の実施例(2)にお
けるフロー図である。

【図２１】本発明に係る音声対話装置の実施例(2)にお
ける音響解析部の動作例を示した図である。

【図２２】本発明に係る音声対話装置の実施例(2)にお
ける音声認証部の動作例を示した図である。

【図２３】本発明に係る音声対話装置の実施例(2)にお
ける入力状態解析部の動作例を示した図である。

【図２４】本発明に係る音声対話装置の実施例(2)にお
ける入力状態解析部の解析手順例を示した図である。

【図２５】本発明に係る音声対話装置の実施例(2)にお
ける個人別入力状態履歴処理部の動作例を示した図であ
る。

【図２６】従来の音声対話装置の構成を示したブロック
図である。

【符号の説明】

100，100z 音声対話装置 200 音声入力部 300 メッセージ出力部 10，10z 音声認識部 11，11z 音響解
析部 12，12z 照合処理部 13，13z 音声認
証部 14，14z 無音解析部 15 不要語解析部 16，16z キーワード解析部 17 未知語解析部 18 入力状態解析部 19 全利用者入力
状態履歴処理部 20 個人別入力状態履歴処理部 21，21z シナリ
オ解析部 22，22z メッセージ合成部 31，31z 音響データ 32，32z 辞書デ
ータ 33，33z 不要語データ 34，34z キーワ
ードデータ 35，35z 個人認証データ 36 入力状態履歴
データ 37，37z シナリオデータ 40，40z 音声信
号 41〜43，41z〜43z 音声データ 44 不要語情報 45，45z キーワード情報 46 未知語情報 47，47z 個人特定情報 48，48z 無音解
析結果情報 49 不要語解析結果情報 50，50z キーワ
ード解析結果情報 51 未知語解析結果情報 52 全利用者入力
状態履歴情報 53 個人別入力状態履歴情報 54，54a〜54d 入
力状態情報 55，55z シナリオメッセージ 56，56z メッセ
ージ合成音声データ 57 音声信号 58z 解析結果情
報 59 音声テキスト 60 個別規定値 61 合計規定値 62 キーワード補正規定値 63 未知語補正規
定値 64 無音補正規定値 65 入力状態履歴
補正規定値図中、同一符号は同一又は相当部分を示す。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/28 Ｇ１０Ｌ 3/00 ５３１Ｑ 17/00 ５４５Ａ (72)発明者上野英雄福岡県福岡市早良区百道浜２丁目２番１号富士通西日本コミュニケーション・システムズ株式会社内 (72)発明者中村やよい福岡県福岡市早良区百道浜２丁目２番１号富士通西日本コミュニケーション・システムズ株式会社内 (72)発明者井手敏博福岡県福岡市早良区百道浜２丁目２番１号富士通西日本コミュニケーション・システムズ株式会社内 (72)発明者鈴森信吾福岡県福岡市早良区百道浜２丁目２番１号富士通西日本コミュニケーション・システムズ株式会社内 (72)発明者貮方宣嘉福岡県福岡市早良区百道浜２丁目２番１号富士通西日本コミュニケーション・システムズ株式会社内 (72)発明者吉田卓福岡県福岡市早良区百道浜２丁目２番１号富士通西日本コミュニケーション・システムズ株式会社内 (72)発明者杉谷浩福岡県福岡市早良区百道浜２丁目２番１号富士通西日本コミュニケーション・システムズ株式会社内Ｆターム(参考） 5D015 AA06 LL00 LL02

Claims

【特許請求の範囲】

【請求項１】音声対話時の音声入力者の心理状態を示す
対話応答内容を検出する音声認識部と、該対話応答内容を解析して該心理状態を所定の入力状態
情報に分類する入力状態解析部と、を備えたことを特徴とする音声対話装置。
【請求項２】請求項１において、該対話応答内容が、少なくともキーワード、不要語、未
知語、及び無音の内のいずれか１つであることを特徴と
した音声対話装置。
【請求項３】請求項１において、該入力状態情報が、少なくとも迷い、戸惑い、及び不安
の内のいずれか１つであることを特徴とした音声対話装
置。
【請求項４】請求項１において、該音声認識部は、該心理状態を示す不要語と該心理状態
を数値化した不要語解析結果情報とを対応付けた不要語
データベースと、該不要語データベースに基づき、該不
要語を不要語解析結果情報に変換する不要語解析部と、を備えたことを特徴とする音声対話装置。
【請求項５】請求項４において、該入力状態解析部が、１つ以上の該不要語解析結果情報
に基づき音声入力者の心理状態を該入力状態情報に分類
することを特徴とした音声対話装置。