JP2020086943A

JP2020086943A - 情報処理装置、情報処理方法、および、プログラム

Info

Publication number: JP2020086943A
Application number: JP2018220547A
Authority: JP
Inventors: 慧渡部; Akira Watanabe
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2018-11-26
Filing date: 2018-11-26
Publication date: 2020-06-04
Also published as: US20200168225A1; CN111312229A

Abstract

【課題】ユーザの緊急度に応じた発話を実現する。【解決手段】通信部（３１）と、制御部（３２）とを備えているサーバ（３）において、制御部は、端末（２）が発話内容を発話中に、通信部を介してユーザの音声を取得した場合、当該ユーザの音声の開始タイミングに応じて、当該ユーザの緊急度を推定し、推定した緊急度に応じて当該ユーザへの応答内容を切り替える。【選択図】図３

Description

本発明は、情報処理装置、情報処理方法、および、プログラムに関する。

音声対話システムにおいては、当該システムと、ユーザとが交互に発話を行うことにより、対話が進行する。音声対話システムの用途は、案内システム、受付システム、雑談システム等、多岐に亘る。

特開２０１４−０３８１５０号公報特開２０１８−０５４７９１号公報

このような対話システムでは、ユーザにとっての聴き取り聴き取りやすさを優先するために、システムの発話がゆっくりしていたり、正確な動作のために対話中にユーザの発話内容を確認する発話を挟んだりするので、スローテンポであることが多い。しかし、例えば、道案内を利用するユーザは急いでいることもあり、対話のテンポがユーザの気持ちとそぐわないことがある。

本発明の一態様は、ユーザの緊急度に応じた発話を実現することを目的とする。

上記の課題を解決するために、本発明の一態様に係る情報処理装置は、音声情報取得部と、制御部とを備えている情報処理装置であって、上記制御部が、当該情報処理装置又は他の装置が発話内容を発話中に、上記音声情報取得部を介してユーザの音声を取得した場合、当該ユーザの音声の開始タイミングに応じて、当該ユーザの緊急度を推定し、推定した緊急度に応じて当該ユーザへの応答内容を切り替える。

上記の課題を解決するために、本発明の一態様に係る情報処理方法は、情報処理装置による情報処理方法であって、当該情報処理装置又は他の装置が発話内容を発話中に、ユーザの音声を取得した場合、当該ユーザの音声の開始タイミングに応じて、当該ユーザの緊急度を推定し、推定した緊急度に応じて当該ユーザへの応答内容を切り替えるステップを含む。

上記の課題を解決するために、本発明の一態様に係るプログラムは、情報処理装置としてコンピュータを機能させるためのプログラムであって、当該情報処理装置又は他の装置が発話内容を発話中に、ユーザの音声を取得した場合、当該ユーザの音声の開始タイミングに応じて、当該ユーザの緊急度を推定し、推定した緊急度に応じて当該ユーザへの応答内容を切り替えるステップを上記コンピュータに実行させるためのプログラムである。

本発明の一態様によれば、ユーザの緊急度に応じた発話を実現することができる。

本発明の実施形態１に係る対話システムの構成を示す図である。本発明の実施形態１に係る端末の構成を示すブロック図である。本発明の実施形態１に係るサーバの構成を示すブロック図である。本発明の実施形態１に係る割り込み情報を説明するための図である。本発明の実施形態１に係る応答決定ＤＢの構成例を示す図である。本発明の実施形態１に係る応答内容ＤＢの構成例を示す図である。本発明の実施形態１に係る応答決定ＤＢの構成例を示す図である。本発明の実施形態１に係る応答内容ＤＢの構成例を示す図である。本発明の実施形態１に係る対話システムの処理を示すフローチャートである。本発明の実施形態３に係る端末またはサーバとして利用可能なコンピュータの構成を例示したブロック図である。

〔実施形態１〕
以下、本発明の実施形態１について、詳細に説明する。本実施形態に係る対話システム１では、バージイン（システムが発話中にユーザが割り込んで発話すること）を許す仕組みを採用する。そして、対話システム１は、バージインが発生したか否か、また、発生したタイミングによりシステムの応答（セリフの内容、長さ、発話のスピード等）を変化させる。

例えば、バージインが発生しなかった場合、対話システム１は、ユーザの発話内容を丁寧に確認する。一方、バージインが発生した場合、対話システム１は、ユーザの発話内容の確認を行わなかったり、確認のセリフを短くしたりする。

従って、ユーザの性格、気持ち等に応じて会話のスピードを変えることができ、ユーザの使いやすさの向上を図ることができる。

（対話システム１）
図１は、本実施形態に係る対話システム１の構成を示す図である。対話システム１は、ユーザとの間で音声対話を行うシステムである。図１に示すように、対話システム１は、複数の端末２と、サーバ３とを備えている。端末２と、サーバ３とは、ネットワーク４を介して通信可能に構成される。端末２は、ユーザが携帯して対話の相手となる端末であり、例えば、ＰＣ（Personal Computer）、スマートフォン、タブレット端末等で構成される。サーバ３は、端末２と通信しながら、対話システム１を実現するサーバであり、サーバ用コンピュータ等で構成される。ネットワーク４は、ＬＡＮ（Local Area Network）、インターネット等の通信網である。

（端末２）
図２は、本実施形態に係る端末２の構成を示すブロック図である。図２に示すように、端末２は、ハードウェアとして、通信部２１、制御部２２、音声再生部２３、および、音声取得部２４を備えている。

通信部２１は、ネットワーク４に接続され、ネットワーク４を介してサーバ３との間で通信を行う。

制御部２２は、端末２全体を制御するものであり、図２に示すように、音声検出部２２１、および、割込位置計算部２２２として機能し、例えば、ＣＰＵ等により構成される。音声検出部２２１は、ユーザが端末２に対して音声入力を行っているか否かを判定する。割込位置計算部２２２は、ユーザ音声が端末２の発話（以下、「システム発話」ともいう）に割り込んだ状況を示す割り込み情報を決定する。

音声再生部２３、および、音声取得部２４は、音声の入出力を制御する。音声再生部２３は、ユーザに発話するものであり、例えば、スピーカ等により構成される。音声取得部２４は、ユーザの音声を取得するものであり、例えば、マイク等により構成される。

（サーバ３）
図３は、本実施形態に係るサーバ３の構成を示すブロック図である。図３に示すように、サーバ（情報処理装置）３は、ハードウェアとして、通信部（音声情報取得部）３１、制御部３２、および、記憶部３３を備えている。

通信部３１は、ネットワーク４に接続され、ネットワーク４を介して端末２との間で通信を行う。

制御部３２は、サーバ３全体を制御するものであり、特に、端末（他の装置）２が発話内容を発話中に、通信部３１を介してユーザの音声を取得した場合、当該ユーザの音声の開始タイミングに応じて、当該ユーザの緊急度を推定し、推定した緊急度に応じて当該ユーザへの応答内容を切り替える。

そのため、端末２の発話中における、ユーザの音声の開始タイミングに応じて、当該ユーザの緊急度を推定し、当該緊急度に応じて応答内容を切り替えるので、ユーザの緊急度に応じた発話を実現することができる。

図３に示すように、制御部３２は、音声認識部３２１、応答決定部３２２、および、音声合成部３２３として機能し、例えば、ＣＰＵ等により構成される。

音声認識部３２１は、端末２から受信した、ユーザの音声データをテキストデータに変換する。応答決定部３２２は、音声認識部３２１が変換したユーザ音声のテキストデータと、端末２から受信した割り込み情報とから、端末２に発話させるテキストデータを決定する。音声合成部３２３は、応答決定部３２２が決定したテキストデータを音声データに変換する。

記憶部３３は、制御部３２からの指示によりデータを記憶し、また、データを読み出すものであり、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）等の、不揮発性記憶媒体により構成される。記憶部３３には、データベースとして、応答決定ＤＢ３３１、および、応答内容ＤＢ３３２が構築され、記憶されている。応答決定ＤＢ３３１は、ユーザの音声から次の応答を決定するためのＤＢである。応答内容ＤＢ３３２は、ユーザの音声に対する応答内容を記憶するＤＢである。

なお、端末２がサーバ３の上記処理を行ってもよい。その場合、本実施形態に係る端末（情報処理装置）２では、音声取得部（音声情報取得部）２４と、制御部２２とを備えており、制御部２２が、当該端末（当該情報処理装置）２が発話内容を発話中に、音声取得部２４を介してユーザの音声を取得した場合、当該ユーザの音声の開始タイミングに応じて、当該ユーザの緊急度を推定し、推定した緊急度に応じて当該ユーザへの応答内容を切り替える。

すなわち、サーバ３として情報処理装置を実現する場合、請求項に係る音声情報取得部は、マイクの意味ではなく、音声信号を取得するインターフェースのことを意図している。一方、端末２として情報処理装置を実現する場合、請求項に係る音声情報取得部は、マイクであると言ってもよい。

（割り込み情報）
図４は、本実施形態に係る割り込み情報を説明するための図である。割り込み情報には、割り込みパーセント、および、割り込み位置がある。なお、図４の横軸は、時間軸である。

本実施形態に係るサーバ３では、制御部３２は、割り込みパーセントに応じて、ユーザの緊急度を推定してもよい。そのため、装置の発話にユーザの音声が割り込んだときの、割り込みパーセントを応答の切り替え条件にするので、直観的な条件設定を行うことができる。

割り込みパーセントは、ユーザ音声の割り込みが発生したのが、システム発話が何％完了した時点だったか（すなわち、ユーザの音声が始まったタイミングにおける、発話内容における発話済みの内容の量の、発話内容の全体の量に対する割合）を示す。

上記内容の量は、発話済み内容に含まれる時間的長さまたは文字数であってもよいし、上記発話内容の全体の量は、発話内容の全体の時間的長さまたは文字数であってもよい。

割り込みパーセントは、以下の式１で算出される。

割り込みパーセント＝（割り込み位置／音声長）×１００［％］・・・式１
音声長は、システム発話全体の量を示し、図４では「Ａ」で示される。割り込み位置は、ユーザ音声が開始したときにおける、システム発話の発話済の量を示し、図４では「Ｂ」で示される。図４のケース１、すなわち、Ａ＜Ｂの場合、バージインが発生しておらず、割り込みパーセントは１００［％］になる。

また、本実施形態に係るサーバ３では、制御部３２が、割り込み位置に応じて、ユーザの緊急度を推定してもよい。そのため、装置の発話にユーザの音声が割り込んだときの、割り込み位置を応答の切り替え条件にするので、発話内容のどこを境目にするかを正確に指定した直観的な条件設定を行うことができる。

割り込み位置は、システム発話の開始から何秒の時点でユーザ音声が開始したか（すなわち、ユーザの音声が始まったタイミングにおける、発話内容における発話済み内容の量）を示す。図４では「Ｂ」で示される。なお、端末２は、システム発話の開始前に、ユーザ音声の入力を受け付けない。

上記内容の量は、発話済み内容に含まれる時間的長さ又は文字数であってもよい。

（応答決定ＤＢ３３１）
図５は、本実施形態に係る応答決定ＤＢ３３１の構成例を示す図である。図５に示すように、応答決定ＤＢ３３１は、現在の対話状態ＩＤ、ユーザ音声、割り込みパーセント、割り込み位置、緊急フラグ、および、次の対話状態ＩＤを含む、複数のレコードから構成される。現在の対話状態ＩＤは、前回応答した発話内容に対応する対話状態ＩＤである（図６参照）。ユーザ音声は、ユーザから取得した音声を音声認識によりテキスト化したものである。割り込みパーセント、および、割り込み位置は、図４で説明した通りである。緊急フラグに関しては、後述する。次の対話状態ＩＤは、応答内容ＤＢ３３２の対話状態ＩＤを指示するものである。

サーバ３の応答決定部３２２は、ユーザ音声と、割り込みパーセントまたは割り込み位置とをキーとして、応答決定ＤＢ３３１に対して条件検索を行うことにより、次の対話状態ＩＤを特定する。条件検索のルールについて、以下に説明する。
（ルールＲ１）応答決定部３２２は、応答決定ＤＢ３３１の上の行（レコード）から順に判定する。応答決定部３２２は、上記のキーが行の条件に該当したら、条件検索を終了する。
（ルールＲ２）現在の対話状態ＩＤ、および、ユーザ音声に関しては、完全一致の場合に「真」とする。
（ルールＲ３）現在の対話状態ＩＤ、および、ユーザ音声のＤＢ値が空白の場合には、ワイルドカードして扱う。
（ルールＲ４）割り込みパーセント、および、割り込み位置に関しては、「取得値＜＝ＤＢ値」の場合に「真」とする。
（ルールＲ５）応答決定ＤＢ３３１の行に、割り込みパーセント、および、割り込み位置の何れか一方が設定されている。従って、応答決定部３２２は、設定されている方の条件評価を行い、ユーザの緊急度を推定する。割り込みパーセント、および、割り込み位置の両方が設定されていない場合には、ワイルドカードとして扱う。

例えば、現在の対話状態ＩＤがＡ０２であり、ユーザ音声が「東京駅」であり、割り込みパーセントが６０［％］である場合には、上記のキーが図５の３行目に該当するので、応答決定部３２２は、次の対話状態ＩＤとしてＢ０２を特定する。

なお、緊急フラグの扱いについては、図７の説明を参照のこと。図５に示すように、緊急フラグの欄が空白の場合には、ワイルドカードの扱いとする。

（応答内容ＤＢ３３２）
図６は、本実施形態に係る応答内容ＤＢ３３２の構成例を示す図である。図６に示すように、応答内容ＤＢ３３２は、対話状態ＩＤ、発話内容、および、再生速度を含む、複数のレコードから構成される。

対話状態ＩＤは、応答決定ＤＢ３３１の「次の対話状態ＩＤ」に対応するＩＤである。すなわち、応答内容ＤＢ３３２の各レコードは、対話状態ＩＤにより応答決定ＤＢ３３１から対応付けられる。発話内容は、ユーザ音声に対して端末２が応答する発話内容である。再生速度は、通常の速度を１．０として、通常より速い速度は１．０より大きい値が設定され、通常より遅い速度は１．０より小さい値が設定される。

各対話状態ＩＤに対応する応答について、以下に説明する。Ｂ０１の応答は、急いで道を聞かれた場合に簡潔に早口で案内するものである。Ｂ０２の応答は、少し急いで道を聞かれた場合に簡潔に案内するものである。Ｂ０３の応答は、落ち着いて道を聞かれた場合に丁寧に案内をするものである。Ｃ０１の応答は、急いで会話を打ち切られた場合にすねたような返事をするものである。Ｃ０２の応答は、少し急いで会話を打ち切られた場合に普通に返事をするものである。Ｃ０３の応答は、落ち着いて会話を打ち切られた場合に丁寧に返事をするものである。

サーバ３の応答決定部３２２は、応答内容ＤＢ３３２を参照して、先に特定した「次の対話状態ＩＤ」に従って、応答内容を特定する。音声合成部３２３は、応答決定部３２２が特定した応答内容から、端末２に送信する音声データを合成する。ここで、発話内容の変化とは、セリフの変化、発話速度の変化、または、シナリオの変化である。シナリオの変化では、例えば、確認ステップを挟んだり、全く異なる対話に進んだりすることもある。

例えば、応答決定部３２２は、応答決定部ＤＢ３３１の「次の対話状態ＩＤ」として「Ｂ０１」を特定した場合、応答内容ＤＢ３３２を参照して、発話内容として「東京駅へは〜」を決定し、再生速度として「１．２」を決定する。そして、音声合成部３２３は、「東京駅へは〜」という発話内容と、「１．２」という再生速度とから、音声データを合成する。

（緊急フラグ）
また、本実施形態に係るサーバ３では、制御部３２が、緊急度に応じて、ユーザへの応答内容における、応答文の長さ、発話速度、または、応答文の数を切り替えてもよい。そのため、ユーザへの応答文の長さ、発話速度、または、応答文の数を切り替えるので、ユーザの緊急度に応じて応答内容の時間長を調整することができる。

図７は、本実施形態に係る応答決定ＤＢ３３１の構成例を示す図である。図８は、本実施形態に係る応答内容ＤＢ３３２の構成例を示す図である。

図７に示すように、応答決定ＤＢ３３１は、緊急フラグを含む、レコードから構成されている。

緊急フラグは、数回の往復で構成される対話の全体を通してユーザが急いでいるか否かを判断して、その判断結果に応じて「真」または「偽」を設定することにより、対話システム１の発話を変化させる仕組みである。

緊急フラグの扱い方を、以下に説明する。まず、緊急フラグは、システム開始時（対話開始時）に「偽」に初期設定される。サーバ３の制御部３２は、ユーザが発話する度に、「割り込みパーセント」を参照して、緊急フラグの更新を行う。制御部３２は、割り込みパーセントが予め設定された閾値（例えば、９０［％］）以下になった場合、緊急フラグを「真」に設定する。すなわち、制御部３２は、ユーザの音声の開始タイミングに応じて、ユーザの緊急度を推定する。制御部３２は、緊急フラグを一度「真」に設定すると、その後「偽」に設定することはない。なお、上記の閾値は、対話システム１毎に任意の値を設定可能とする。

緊急フラグのＤＢ値が空白の場合には、ワイルドカードとして扱われる。例えば、図５の応答決定ＤＢ３３１では、緊急フラグは、全て空白になっているので、考慮されていないことになる。

そして、本実施形態に係るサーバ３では、図７に示すように、応答決定ＤＢ３３１を設定することにより、会話を通してユーザが急いでいるか否かを判断する。そして、ユーザが急いでいない（緊急度が低い）場合に、ユーザへの応答内容における、応答文の数を増加させてもよい。そのため、ユーザの緊急度が低い場合に、当該ユーザへの応答文の数を増加させるので、会話終了後に、雑談、宣伝等の発話を行うことができる。

図８を参照して、各対話状態ＩＤに対応する応答について、以下に説明する。Ｄ０２の応答は、ユーザが急いでいないと判断して宣伝を始めるものである。Ｄ０３の応答は、ユーザが急いでいる可能性があるので、簡潔に発話を終了するものである。

（対話システム１の処理）
図９は、本実施形態に係る対話システム１の処理を示すフローチャートである。以下に、図９を参照しながら、端末２の処理（ステップＳ２０１〜Ｓ２０９）、および、サーバ３の処理（ステップＳ３０１〜Ｓ３０９）と、それらの間でやりとりするデータとについて、説明する。

（ステップＳ２０１）
端末２において、制御部２２は、音声待ち受けを開始する。例えば、ユーザの操作に応じて、端末２が所定のサービスアプリ（例えば、道案内アプリ等）を起動した場合に、制御部２２は、音声待ち受けを開始する。

（ステップＳ２０２）
音声取得部２４は、ユーザの音声を取得する。この場合、割込位置計算部２２２は、音声の取得を開始したときに、ステップＳ２０８の音声再生がどのくらい進んでいたかを示すデータを音声再生部２３から取得する。

（ステップＳ２０３）
制御部２２の音声検出部２２１は、ユーザが端末２に対して音声入力を行っているか否かを判定する。ユーザが端末２に対して音声入力を行っている場合、制御部２２は、音声取得部２４に音声取得を継続させる。ユーザが端末２に対して音声入力を行っていない場合、制御部２２は、音声待ち受けを終了する。

（ステップＳ２０４）
割込位置計算部２２２は、ステップＳ２０２で取得したデータから、ユーザ音声が端末２の発話に割り込んだ状況を示す割り込み情報を生成する。そして、制御部２２は、通信部２１を介してサーバ３に、ユーザの音声データ、および、割り込み情報を送信する。

（ステップＳ３０１）
サーバ３において、制御部３２は、端末２から通信部３１を介して、ユーザの音声データ、および、割り込み情報を受信する。

（ステップＳ３０２）
制御部３２は、割り込み情報の割り込みパーセントまたは割り込み位置が、予め設定された閾値以下である場合に、緊急フラグを「真」に更新する。

（ステップＳ３０３）
音声認識部３２１は、端末２から受信した、ユーザの音声データをテキストデータに変換する。すなわち、音声認識を行う。

（ステップＳ３０４）
応答決定部３２２は、音声認識部３２１が取得したユーザのテキストと、端末２から受信した割り込み情報をキーとして、応答決定ＤＢ３３１に対して条件検索を行う。

（ステップＳ３０５）
応答決定部３２２は、応答決定ＤＢ３３１において、上記のキーに該当するレコードがあったか否かを判定する。キーに該当するレコードがあった場合（ステップＳ３０５のＹＥＳ）、応答決定部３２２は、ステップＳ３０６の処理を実行する。キーに該当するレコードがなかった場合（ステップＳ３０５のＮＯ）、制御部３２は、ステップＳ３０９の処理を実行する。

（ステップＳ３０６：ユーザへの応答内容を切り替えるステップ）
応答決定部３２２は、上記のキーに該当したレコードの「次の対話状態ＩＤ」をキーとして、応答内容ＤＢ３３２を検索して、発話内容および再生速度を特定する。すなわち、端末２に発話させる応答内容を決定する。

（ステップＳ３０７）
音声合成部３２３は、応答決定部３２２が特定した、発話内容および再生速度から、端末２が発話する音声データを合成する。すなわち、応答決定部３２２が決定したテキストデータを音声データに変換する。

（ステップＳ３０８）
制御部３２は、音声合成部３２３が合成した音声データを、通信部３１を介して端末２に送信する。

（ステップＳ３０９）
制御部３２は、音声データがない旨を示すデータを、通信部３１を介して端末２に送信する。

（ステップＳ２０５）
端末２において、制御部２２は、サーバ３から通信部２１を介して、データを受信する。

（ステップＳ２０６）
制御部２２は、受信したデータに音声データがあるか否かを判定する。受信したデータに音声データがある場合（ステップＳ２０６のＹＥＳ）、制御部２２は、ステップＳ２０１およびＳ２０７の処理を実行する。受信したデータに音声データがある場合（ステップＳ２０６のＹＥＳ）、制御部２２は、ステップＳ２０１の処理を実行する。

（ステップＳ２０７）
制御部２２は、音声再生部２３に、受信した音声データの再生を開始させる。

（ステップＳ２０８）
音声再生部２３は、音声データを再生する。

（ステップＳ２０９）
音声再生部２３は、音声データの再生を終了する。

〔実施形態２〕
上記各実施形態では、１つのサーバ３を用いる例を説明したが、サーバ３の有する各機能が、個別のサーバにて実現されていてもよい。そして、複数のサーバを適用する場合においては、各サーバは、同じ事業者によって管理されていてもよいし、異なる事業者によって管理されていてもよい。

〔実施形態３〕
端末２およびサーバ３の各ブロックは、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ソフトウェアによって実現してもよい。後者の場合、端末２およびサーバ３のそれぞれを、図１０に示すようなコンピュータ（電子計算機）を用いて構成することができる。

図１０は、端末２またはサーバ３として利用可能なコンピュータ９１０の構成を例示したブロック図である。コンピュータ９１０は、バス９１１を介して互いに接続された演算装置９１２と、主記憶装置９１３と、補助記憶装置９１４と、入出力インターフェース９１５と、通信インターフェース９１６とを備えている。演算装置９１２、主記憶装置９１３、および補助記憶装置９１４は、それぞれ、例えばプロセッサ（例えばＣＰＵ：Central Processing Unit等）、ＲＡＭ（random access memory）、ハードディスクドライブであってもよい。入出力インターフェース９１５には、ユーザがコンピュータ９１０に各種情報を入力するための入力装置９２０、および、コンピュータ９１０がユーザに各種情報を出力するための出力装置９３０が接続される。入力装置９２０および出力装置９３０は、コンピュータ９１０に内蔵されたものであってもよいし、コンピュータ９１０に接続された（外付けされた）ものであってもよい。例えば、入力装置９２０は、キーボード、マウス、タッチセンサなどであってもよく、出力装置９３０は、ディスプレイ、プリンタ、スピーカなどであってもよい。また、タッチセンサとディスプレイとが一体化されたタッチパネルのような、入力装置９２０および出力装置９３０の双方の機能を有する装置を適用してもよい。そして、通信インターフェース９１６は、コンピュータ９１０が外部の装置と通信するためのインターフェースである。

補助記憶装置９１４には、コンピュータ９１０を端末２またはサーバ３として動作させるための各種のプログラムが格納されている。そして、演算装置９１２は、補助記憶装置９１４に格納された上記プログラムを主記憶装置９１３上に展開して該プログラムに含まれる命令を実行することによって、コンピュータ９１０を、端末２またはサーバ３が備える各部として機能させる。なお、補助記憶装置９１４が備える、プログラム等の情報を記録する記録媒体は、コンピュータ読み取り可能な「一時的でない有形の媒体」であればよく、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブル論理回路などであってもよい。また、記録媒体に記録されているプログラムを、主記憶装置９１３上に展開することなく実行可能なコンピュータであれば、主記憶装置９１３を省略してもよい。なお、上記各装置（演算装置９１２、主記憶装置９１３、補助記憶装置９１４、入出力インターフェース９１５、通信インターフェース９１６、入力装置９２０、および出力装置９３０）は、それぞれ１つであってもよいし、複数であってもよい。

また、上記プログラムは、コンピュータ９１０の外部から取得してもよく、この場合、任意の伝送媒体（通信ネットワークや放送波等）を介して取得してもよい。そして、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

１対話システム
２端末（他の装置、情報処理装置）
３サーバ（情報処理装置）
２２制御部
２４音声取得部（音声情報取得部）
３１通信部（音声情報取得部）
３２制御部

Claims

音声情報取得部と、制御部とを備えている情報処理装置であって、
上記制御部は、
当該情報処理装置又は他の装置が発話内容を発話中に、上記音声情報取得部を介してユーザの音声を取得した場合、当該ユーザの音声の開始タイミングに応じて、当該ユーザの緊急度を推定し、推定した緊急度に応じて当該ユーザへの応答内容を切り替える
ことを特徴とする情報処理装置。
上記制御部は、
上記ユーザの音声が始まったタイミングにおける、上記発話内容における発話済みの内容の量の、上記発話内容の全体の量に対する割合に応じて、上記ユーザの緊急度を推定する
ことを特徴とする請求項１に記載の情報処理装置。
上記内容の量は、発話済み内容に含まれる時間的長さまたは文字数であり、
上記発話内容の全体の量は、発話内容の全体の時間的長さまたは文字数である
ことを特徴とする請求項２に記載の情報処理装置。
上記制御部は、
上記ユーザの音声が始まったタイミングにおける、上記発話内容における発話済み内容の量に応じて、上記ユーザの緊急度を推定する
ことを特徴とする請求項１に記載の情報処理装置。
上記内容の量は、発話済み内容に含まれる時間的長さ又は文字数である
ことを特徴とする請求項４に記載の情報処理装置。
上記制御部は、
上記緊急度に応じて、上記ユーザへの応答内容における、
応答文の長さ、
発話速度、または、
応答文の数
を切り替える
ことを特徴とする請求項１から５の何れか１項に記載の情報処理装置。
上記制御部は、
上記緊急度が低い場合に、上記ユーザへの応答内容における、応答文の数を増加させる
ことを特徴とする請求項６に記載の情報処理装置。
情報処理装置による情報処理方法であって、
当該情報処理装置又は他の装置が発話内容を発話中に、ユーザの音声を取得した場合、当該ユーザの音声の開始タイミングに応じて、当該ユーザの緊急度を推定し、推定した緊急度に応じて当該ユーザへの応答内容を切り替えるステップ
を含むことを特徴とする情報処理方法。
情報処理装置としてコンピュータを機能させるためのプログラムであって、
当該情報処理装置又は他の装置が発話内容を発話中に、ユーザの音声を取得した場合、当該ユーザの音声の開始タイミングに応じて、当該ユーザの緊急度を推定し、推定した緊急度に応じて当該ユーザへの応答内容を切り替えるステップ
を上記コンピュータに実行させるためのプログラム。