JP2018109663A - 音声処理装置、対話システム、端末装置、プログラム及び音声処理方法 - Google Patents

音声処理装置、対話システム、端末装置、プログラム及び音声処理方法 Download PDF

Info

Publication number
JP2018109663A
JP2018109663A JP2016256286A JP2016256286A JP2018109663A JP 2018109663 A JP2018109663 A JP 2018109663A JP 2016256286 A JP2016256286 A JP 2016256286A JP 2016256286 A JP2016256286 A JP 2016256286A JP 2018109663 A JP2018109663 A JP 2018109663A
Authority
JP
Japan
Prior art keywords
response
user
speech
unit
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016256286A
Other languages
English (en)
Inventor
木付 英士
Eiji Kitsuke
英士 木付
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2016256286A priority Critical patent/JP2018109663A/ja
Publication of JP2018109663A publication Critical patent/JP2018109663A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

【課題】過去の対話状況に応じて適切な応答をする対話システムに用いられる音声処理装置等を提供する。【解決手段】サーバ(20)は、制御部(202)を備え、制御部(202)は、コンテキスト情報を取得し、ユーザによる発話が含まれる音声から認識対象音声区間の切り出しを行う切り出し処理において参照される閾値を、コンテキスト情報を参照して変更する。【選択図】図1

Description

本発明は、擬似的なコミュニケーションを提供する音声処理装置、対話システム、端末装置、プログラム及び音声処理方法に関する。
ユーザにより入力された言葉に対応する応答を出力することにより、ユーザとの模擬対話を実行する模擬対話システムが知られている。特許文献1には、音声認識結果以外の情報を含む種々の情報を使用して対話システムに向けられた発話を識別する対話システムが記載されている。特許文献2には、対話が円滑に行われていない場合には、第三者又はオペレータ等の参加を許可する音声対話システムが記載されている。
特開2014−077969号公報(2014年5月1日公開) 特開2002−202882号公報(2002年7月19日公開)
ところで、疑似対話システムにおいては、対話の状況に応じて応答を変えないという問題がある。このため、過去の対話状況に応じて適切な応答をする対話システムに用いられる音声処理装置等が求められている。
しかしながら、上述の先行技術は、過去の対話状況に応じて、適切な応答をするには十分ではない。特許文献1に記載の発明は、対象とする発話の長さ、及び、対象とする発話と直前の発話との時間関係等に基づいて、対象とする発話が対話システムに向けられたものであるかどうかを判別するものである。すなわち、特許文献1に記載の発明は、過去の対話状況に基づき、適切な応答をするものではない。また、特許文献2に記載の発明は、対話が円滑に行われていないかどうかを判断する手段について具体的に記載しているものの、円滑に行われていない場合には、単に、その対話内容に詳しい第三者又はオペレータ等が対話に参加することしか記載されていない。すなわち、特許文献2には、対話が円滑に行われていない場合に、どのように適切な応答内容を決定するかについては、具体的に記載されていない。
本発明は、上記課題を踏まえたものであり、その目的は、過去の対話状況に応じて適切な応答をする対話システムに用いられる音声処理装置等を提供することにある。
上記の課題を解決するために、本発明の一態様に係る音声処理装置は、ユーザとの対話を行う対話システムに用いられる音声処理装置であって、1又は複数の制御部を備え、上記1又は複数の制御部は、過去の対話のコンテキストを示すコンテキスト情報を取得し、上記ユーザによる発話が含まれる音声から認識対象音声区間の切り出しを行う切り出し処理において参照される閾値を、上記コンテキスト情報を参照して変更する。
上記の課題を解決するために、本発明の一態様に係る音声処理装置は、ユーザとの対話を行う対話システムに用いられる音声処理装置であって、1又は複数の制御部を備え、上記1又は複数の制御部は、過去の対話のコンテキストを示すコンテキスト情報を取得し、上記ユーザに対する応答フレーズの長さを、上記コンテキスト情報を参照して変更する。
上記の課題を解決するために、本発明の一態様に係る音声処理装置は、ユーザとの対話を行う対話システムに用いられる音声処理装置であって、1又は複数の制御部を備え、上記1又は複数の制御部は、過去の対話のコンテキストを示すコンテキスト情報を取得し、上記ユーザに対する応答の頻度を、上記コンテキスト情報を参照して変更する。
上記の課題を解決するために、本発明の一態様に係る対話システムは、ユーザとの対話を行う対話システムであって、音声を取得する音声取得部と、1又は複数の制御部と、上記ユーザに対する応答内容を出力する出力部とを備えており、上記1又は複数の制御部は、過去の対話のコンテキストを示すコンテキスト情報を取得し、上記音声取得部が取得する音声から認識対象音声区間の切り出しを行い、上記切り出しにおいて参照される閾値を、上記コンテキスト情報を参照して変更し、上記切り出しによって切り出された認識対象音声区間の音声認識を行い、上記音声認識によって認識された認識内容を参照し、上記ユーザに対する応答内容を決定する。
上記の課題を解決するために、本発明の一態様に係る対話システムは、ユーザとの対話を行う対話システムであって、音声を取得する音声取得部と、1又は複数の制御部と、上記ユーザに対する応答内容を出力する出力部とを備えており、上記1又は複数の制御部は、過去の対話のコンテキストを示すコンテキスト情報を取得し、上記ユーザに対する応答フレーズの長さを、上記コンテキスト情報を参照して変更し、上記音声取得部が取得する音声から認識対象音声区間の切り出しを行い、上記切り出しによって切り出された認識対象音声区間の音声認識を行い、上記音声認識によって認識された認識内容と上記応答フレーズの長さとを参照し、上記ユーザに対する応答内容を決定する。
上記の課題を解決するために、本発明の一態様に係る対話システムは、ユーザとの対話を行う対話システムであって、音声を取得する音声取得部と、1又は複数の制御部と、上記ユーザに対する応答内容を出力する出力部とを備えており、上記1又は複数の制御部は、過去の対話のコンテキストを示すコンテキスト情報を取得し、上記ユーザに対する応答の頻度を、上記コンテキスト情報を参照して変更し、上記音声取得部が取得する音声から認識対象音声区間の切り出しを行い、上記切り出しによって切り出された認識対象音声区間の音声認識を行い、上記音声認識によって認識された認識内容と上記応答の頻度とを参照し、上記ユーザに対する応答内容を決定する。
上記の課題を解決するために、本発明の一態様に係る端末装置は、ユーザとの対話を行う端末装置であって、音声を取得する音声取得部と、上記ユーザに対する応答内容を出力する出力部と、制御部とを備え、上記制御部は、上記音声取得部が取得する音声から、上記ユーザとの過去の対話のコンテキストに応じて変更された閾値を用いて切り出された認識対象音声区間に含まれる上記ユーザの発話内容に対する応答内容を、上記出力部を介して出力する。
上記の課題を解決するために、本発明の一態様に係る端末装置は、ユーザとの対話を行う端末装置であって、音声を取得する音声取得部と、上記ユーザに対する応答内容を出力する出力部と、制御部とを備え、上記制御部は、上記音声取得部が取得する音声に含まれる上記ユーザの発話内容に対して、上記ユーザとの過去の対話のコンテキストに応じて応答フレーズの長さを変更された応答内容を、上記出力部を介して出力する。
上記の課題を解決するために、本発明の一態様に係る端末装置は、ユーザとの対話を行う端末装置であって、音声を取得する音声取得部と、上記ユーザに対する応答内容を出力する出力部と、制御部とを備え、上記制御部は、上記音声取得部が取得する音声に含まれる上記ユーザの発話内容に対して、上記ユーザとの過去の対話のコンテキストに応じて変更された上記ユーザに対する応答の頻度にて、上記出力部を介して応答内容を出力する。
上記の課題を解決するために、本発明の一態様に係る音声処理方法は、ユーザとの対話を行う対話システムに用いられる音声処理方法であって、過去の対話のコンテキストを示すコンテキスト情報を取得するコンテキスト情報取得工程と、上記ユーザによる発話が含まれる音声から認識対象音声区間の切り出しを行う切り出し処理において参照される閾値を、上記コンテキスト情報を参照して変更する閾値変更工程とを備えている。
上記の課題を解決するために、本発明の一態様に係る音声処理方法は、ユーザとの対話を行う対話システムに用いられる音声処理方法であって、過去の対話のコンテキストを示すコンテキスト情報を取得するコンテキスト情報取得工程と、上記ユーザに対する応答フレーズの長さを、上記コンテキスト情報を参照して変更する応答長さ変更工程とを備えている。
上記の課題を解決するために、本発明の一態様に係る音声処理方法は、ユーザとの対話を行う対話システムに用いられる音声処理方法であって、過去の対話のコンテキストを示すコンテキスト情報を取得するコンテキスト情報取得工程と、上記ユーザに対する応答の頻度を、上記コンテキスト情報を参照して変更する応答頻度変更工程とを備えている。
本発明の一態様によれば、過去の対話状況に応じて適切な応答をする対話システムに用いられる音声処理装置等を提供することができるという効果を奏する。
本発明の実施形態1に係る対話システムの要部構成を示すブロック図である。 本発明の実施形態1に係る対話システムの概要を示す外観図である。 本発明の実施形態1に係る対話システムのロボット家電における制御部の切り出し部に格納されている盛り上がり度と閾値との関係についてのテーブルを示す図である。 本発明の実施形態1に係る対話システムにおける応答音声出力処理の流れを示すシーケンス図である。 本発明の実施形態1に係るサーバの記憶部に格納されている通常応答データベースの一例を示す図である。 本発明の実施形態1に係るサーバの記憶部に格納されている曖昧応答データベースの一例を示す図である。 本発明の実施形態2に係る対話システムの要部構成を示すブロック図である。 本発明の実施形態2に係るサーバの記憶部に格納されている通常応答データベースの一例を示す図である。 本発明の実施形態2に係る対話システムにおける応答音声出力処理の流れを示すシーケンス図である。 本発明の実施形態3に係る対話システムの要部構成を示すブロック図である。 本発明の実施形態3に係る対話システムの制御部の応答頻度変更部に格納されている盛り上がり度と曖昧応答確率との関係についてのテーブルを示す図である。 本発明の実施形態3に係る対話システムにおける応答音声出力処理の流れを示すシーケンス図である。 本発明の実施形態4に係る対話システムの要部構成を示すブロック図である。 本発明の実施形態5に係る対話システムの要部構成を示すブロック図である。 本発明の実施形態6に係る対話システムの要部構成を示すブロック図である。 本発明の実施形態7に係る対話システムの要部構成を示すブロック図である。
<実施形態1>
本実施形態に係る対話システム1について、図1から図6を参照して以下に説明する。ただし、この実施形態に記載されている構成は、特に特定的な記載がない限り、この発明の範囲をそれのみに限定する趣旨ではなく、単なる説明例に過ぎない。
〔対話システムの概要〕
まず、本実施形態に対話システム1の概要について、図2を参照して説明する。図2は、本実施形態に係る対話システム1の概要を示す外観図である。
図2に示すように、本実施形態に係る対話システム1は、ロボット家電(端末装置)10、及び、サーバ(音声処理装置)20により構成されている。
対話システム1においては、ロボット家電10に人間(ユーザ)が発した音声が入力されると、サーバ20が、入力された音声に対する応答内容を表す音声(応答音声)を決定する。当該応答音声は、ロボット家電10から出力される。これによって、本実施形態に係る対話システム1は、ユーザと、ロボット家電10との疑似的な会話を実現する。
なお、上述の例では、サーバ20が1つのサーバによって実現される構成を例に挙げて説明するが、本実施形態はこれに限定されない。本実施形態では、サーバ20の備える各部(各機能)の少なくとも一部を、他のサーバにより実現する構成を採用してもよい。
次に、本実施形態に係る対話システム1の要部構成について、図1を参照して説明する。図1は、本実施形態に係る対話システム1の要部構成を示すブロック図である。
〔ロボット家電〕
本実施形態に係るロボット家電10の構成について、図1を参照して説明する。図1に示すように、本実施形態に係るロボット家電10は、通信部101、制御部102、マイク(音声取得部)103、スピーカ(出力部)104、及び、駆動部105を備えている。
なお、ロボット家電10としては、対話機能を有する端末装置であれば、特に限定されない。例えば、ロボット家電10は、掃除ロボット等のロボット、音声出力機能を有する人形、冷蔵庫、電子レンジ、シーリングライト、エアコン、時計、テレビ、パーソナルコンピュータ及びスマートフォン等の任意の形態を取ることができる。
また、ロボット家電10を利用する環境は家に限定されず、例えば、企業のサービス用の対話ロボットとして利用することもできる。すなわち、ロボット家電10は、家電機能を有していない端末装置であってもよい。
(通信部)
通信部101は、外部との通信を行う手段である。具体的には、通信部101は、例えばインターネット等のネットワークを介してサーバ20と無線通信を行ってもよく、サーバ20と有線接続され、有線通信を行ってもよい。ロボット家電10の通信部101と、サーバ20の通信部201とが有線接続される場合としては、例えば、ロボット家電10とサーバ20とが両方とも家庭内にある場合が挙げられる。
(マイク)
マイク103は、外部から音の入力を受け付ける。なお、本実施形態では、マイク103が入力を受け付ける音を示す「音声」には、主に人間の発する音声及びその他の音のデータが含まれる。
マイク103は、入力された音を示す音声を、制御部102に逐次供給する。
(スピーカ)
スピーカ104は、制御部102から供給される応答内容データの示す応答音声を出力する。以降では、ロボット家電10がスピーカ104を介して行う応答音声の出力を、「発話」とも記載する。なお、応答内容の詳細については、後述する。
このように、上述の例では、スピーカ104から応答音声を出力しているが、本実施形態では、スピーカ104は、このような形態に限定されない。例えば、スピーカ104の代わりに、音声を出力せず、単に画面に音声テキスト等の応答内容を表示するディスプレイのようなものであってもよい。
(駆動部)
駆動部105は、制御部102からの指示に基づいて、ロボット家電10を駆動させる。
このように、駆動部105は、ロボット家電10を駆動させることができる。このため、スピーカ104による応答音声の出力とともに、駆動部105によりロボット家電10自体又はロボット家電10の各部を動かすことができる。例えば、駆動部105は、スピーカ104が「うん」と曖昧応答するときに、頷くようにロボット家電10を動かしてもよい。これにより、ロボット家電10は、過去の対話状況に応じて、より適切な応答をすることができる。このように、駆動部105は、ユーザに応答内容を出力する構成であるともいえるので、駆動部105を出力部と呼ぶこともある。
(制御部)
制御部102は、ロボット家電10の各部を統括的に制御する。例えば、制御部102は、スピーカ104を制御することにより、応答音声の出力を制御したり、駆動部105を制御することにより、ロボット家電10の動作を制御したりする。
また、制御部102は、切り出し部121として機能する。切り出し部121は、マイク103によって外部から取得された音声を切り出す切り出し処理を行う。より具体的には、切り出し部121は、対話の盛り上がり度によって決定される閾値を参照しながら、音声から、認識対象音声区間の切り出しを行う。ここで、閾値が高い場合は、音声を拾いにくいようになっており、閾値が低い場合には音声を拾い易いようになっている。制御部102は、切り出し部121による切り出し後の音声を、通信部101を介してサーバ20に逐次送信する。
このように、切り出し部121が閾値を参照しながら切り出し処理を行うことにより、サーバ20の通信部201に送信する切り出し後の音声の内容が限定される。これにより、例えば、ユーザがロボット家電10と集中して対話したい場合、閾値を高くして、音声を拾いにくくさせることで、ロボット家電10をノイズに反応させにくくすることができる。
そして、制御部102は、サーバ20から通信部101を介して応答内容データを取得し、取得した応答内容データを示す音声が出力されるよう、スピーカ104を制御する。
ここで、制御部102は、切り出し部121によって切り出した認識対象音声区間の切り出し後の音声を、ストリーミングによってサーバ20に送信してもよいし、ローカルで音声認識してテキスト形式でサーバ20に送信してもよい。
なお、対話の盛り上がり度によってどのように閾値を決定するかについては、後述する。
制御部102の機能は、例えば、RAM(Random Access Memory)及びフラッシュメモリ等の記憶装置に記憶されたプログラムを、CPU(Central Processing Unit)が実行することによって実現される(何れも不図示)。
〔サーバ〕
次に、本実施形態に係るサーバ20の構成について、図1を参照して説明する。図1に示すように、本実施形態に係るサーバ20は、通信部201、制御部202、及び、記憶部203を備えている。
(通信部)
通信部201は、外部との通信を行う手段である。具体的には、通信部201は、例えばインターネット等のネットワークを介してロボット家電10と無線通信を行ってもよく、家庭内のロボット家電10と有線接続され、有線通信を行ってもよい。
(制御部)
制御部202は、サーバ20の各部を統括的に制御する。制御部202の機能は、例えば、RAM(Random Access Memory)及びフラッシュメモリ等の記憶装置に記憶されたプログラムを、CPU(Central Processing Unit)が実行することによって実現される(何れも不図示)。
なお、制御部202の構成の詳細については、後述する。
(記憶部)
記憶部203は、後述する制御部202において参照される各種のデータを格納している。各種のデータとしては、例えば、通常応答データベース231、曖昧応答データベース232、対話ログ233、及び、個々のロボット家電10を識別するID等を挙げることができる。
なお、通常応答データベース231及び曖昧応答データベース232の詳細については、図面を変えて後述する。
〔制御部の構成〕
次に、サーバ20の備える制御部202の構成について、図1を参照して説明する。図1に示すように、制御部202は、音声認識部221、コンテキスト情報生成部222、コンテキスト情報取得部223、閾値変更部224、及び、応答内容決定部225として機能する。このように、上述の例では、1つの制御部202が、音声認識部221、コンテキスト情報生成部222、コンテキスト情報取得部223、閾値変更部224、及び、応答内容決定部225として機能するが、本実施形態では、これに限定されない。本実施形態では、複数の制御部が、これらの部材のうちの一部として機能してもよい。
(音声認識部221)
音声認識部221は、ロボット家電10の通信部101から送信される、切り出し後の音声の内容(音声内容)を音声認識する。音声内容としては、例えば、ユーザの発話内容を挙げることができる。そして、音声認識部221は、切り出し後の音声から認識した音声内容の認識結果を、応答内容決定部225に供給する。
(コンテキスト情報生成部)
コンテキスト情報生成部222は、過去の対話のコンテキストとして、
・最後の対話が終了してからの経過時間、
・最後の対話における連続対話回数、
・所定の期間における対話回数、
・所定の期間における、対話システムによる発話からユーザによる発話までの平均時間、及び、
・所定の期間において特定の音声が含まれている回数
の少なくとも何れかを参照してコンテキスト情報を生成する。本実施形態では、これらのコンテキストは、記憶部203における、過去から現在までの対話情報を記憶している対話ログ233の情報を元に算出される。例えば、コンテキストは、対話ログ233における所定の期間の対話情報を元に算出される。
本実施形態では、コンテキスト情報生成部222は、「盛り上がり度」を、例えば、記憶部203に格納されているロボット家電10のIDを参照しながら、個々のロボット家電10毎に算出する。ここで、盛り上がり度とは、コンテキスト情報の1つであり、どの程度対話が盛り上がっているかの指標である。
上述の例では、コンテキスト情報生成部222は、盛り上がり度を、個々のロボット家電10毎に算出しているが、本実施形態では、これに限定されない。本実施形態では、コンテキスト情報生成部222は、同一室内の複数のロボット家電10毎に盛り上がり度を、室内の盛り上がり度として算出してもよい。この場合、例えば、制御部202は、同一室内に存在する複数のロボット家電10を識別する機能をさらに備えていることが好ましい。これにより、コンテキスト情報生成部222は、制御部202によって同一室内の複数のロボット家電10を識別した情報を元に、同一室内の複数のロボット家電10の盛り上がり度を算出することができる。
本実施形態では、盛り上がり度を0〜10の11段階に設定している。この11段階の設定の仕方は、上述のコンテキスト毎に任意に設定してよい。また、盛り上がり度は、11段階に限定されず、任意の数の段階に設定してよい。
例えば、コンテキストとして、最後の対話が終了してからの経過時間を参照する場合、当該経過時間が長ければ長いほど、盛り上がり度が0に近づくように設定してもよい。また、最後の対話における連続対話回数、所定の期間における対話回数及び所定の期間において特定の音声が含まれている回数が多ければ多いほど、盛り上がり度が10に近づくように設定してもよい。また、所定の期間における、対話システムによる発話からユーザによる発話までの平均時間が短ければ短いほど、盛り上がり度が10に近づくように設定してもよい。
なお、コンテキスト情報生成部222は、これらのコンテキストを1つのみ用いて盛り上がり度を算出してもよいし、2つ以上組み合わせて盛り上がり度を算出してもよい。
盛り上がり度を算出後、コンテキスト情報生成部222は、盛り上がり度の情報を、コンテキスト情報取得部223に供給する。
コンテキスト情報生成部222が盛り上がり度を算出するタイミングとしては、例えば、制御部202が、通信部201を介して切り出し後の音声を取得したときが挙げられる。すなわち、コンテキスト情報生成部222が盛り上がり度を算出するタイミングは、ユーザがロボット家電10と話しかけたときと実質的に同時であってもよい。
また、コンテキスト情報生成部222が盛り上がり度を算出するタイミングとしては上述の例に限定されず、基本的には、任意のタイミングであってもよい。ただし、コンテキスト情報生成部222により算出した盛り上がり度を元に、閾値変更部224が、次回の切り出し部121による切り出し処理までに、変更された閾値のデータを切り出し部121に送信することができるようにする必要がある。
(コンテキスト情報取得部)
コンテキスト情報取得部223は、コンテキスト情報生成部222からコンテキスト情報の1つである盛り上がり度の情報を取得する。
そして、コンテキスト情報取得部223は、取得した盛り上がり度の情報を、閾値変更部224に供給する。
(閾値変更部)
閾値変更部224は、音声から認識対象音声区間の切り出しを行う切り出し処理に参照される閾値を、盛り上がり度を参照して変更する。閾値変更部224は、変更された閾値のデータを、通信部201を介してロボット家電10に送信する。ロボット家電10は、通信部101を介して制御部102の切り出し部121に変更された閾値のデータを送信する。閾値変更部224が変更された閾値のデータを送信するタイミングは、例えば、応答内容決定部225から応答内容データを送信するのと同時が好ましい。ただし、変更された閾値のデータは、次回の切り出し部121による切り出し処理までに、切り出し部121に送信されていればよい。
(閾値の変更例1)
閾値変更部224は、例えば、家庭内でロボット家電10を使用する場合には、図3の(a)に示す盛り上がり度と閾値との関係を示すテーブルを参照し、各盛り上がり度に対応する閾値に変更してもよい。
すなわち、閾値変更部224は、図3の(a)に示すように、盛り上がり度が高ければ高いほど、閾値を小さな値に設定する。例えば、盛り上がり度が4〜6の場合、閾値変更部224は、盛り上がり度が0〜3の場合に比べて、小さな閾値に設定する。また、盛り上がり度が7〜10の場合、閾値変更部224は、盛り上がり度が4〜6の場合に比べて、小さな閾値に設定する。
すなわち、盛り上がり度が高ければ高いほど、ロボット家電10は、音声を拾い易くなる。結果的に、ロボット家電10は、盛り上がり度が高ければ高いほど音に反応し易くなる。
これにより、ある程度対話を継続している間は、閾値を低くして、ロボット家電10がユーザに応答し易い状態にし、対話をスムーズに進めることができる。一方、しばらくロボット家電10とユーザとが対話しないときは、閾値を高くして、ユーザが目の前で大きな音量で話さない限り、ロボット家電10が反応しないようにすることができる。その結果、ロボット家電10は、ノイズに反応しにくくなる。例えば、ユーザの家族が会話をしたり、テレビの音が鳴ったりしてもロボット家電10に反応させないようにすることができる。
(閾値の変更例2)
また、閾値変更部224は、例えば、植物館等で子供たちに案内をする等、お客様サービス用にロボット家電10を使用する場合には、図3の(b)に示す盛り上がり度と閾値との関係を示すテーブルを参照してもよい。
すなわち、閾値変更部224は、図3の(b)に示すように、盛り上がり度が高ければ高いほど、図3の(a)とは逆に、閾値を大きな値に設定する。例えば、盛り上がり度が4〜6の場合、閾値変更部224は、盛り上がり度が0〜3の場合に比べて、大きな閾値に設定する。また、盛り上がり度が7〜10の場合、閾値変更部224は、盛り上がり度が4〜6の場合に比べて、大きな閾値に設定する。
すなわち、盛り上がり度が高ければ高いほど、ロボット家電10は、音声を拾いにくくなる。結果的に、ロボット家電10は、盛り上がり度が高ければ高いほど音に反応しにくくなる。
これにより、例えば、ロボット家電10が、対話がない間は様々な音に反応し、対話が継続し始めるとユーザの音に集中するために、ノイズに応答しないように設定することができる。
(閾値の変更例3)
なお、盛り上がり度が、上述のコンテキストのうち、最後の対話が終了してからの経過時間を参照するときには、閾値変更部224は、音声を拾いにくい状態から、音声を拾い易い状態に、閾値を大きく変更することが好ましい。
例えば、最後の対話が終了してから所定の時間だけ経過したときに、ユーザが話し始めた場合、閾値変更部224が、図3の(a)に示すテーブルを参照し、閾値を大きな値から小さな値に変更することが好ましい。そのために、最後の対話が終了してから所定の時間だけ経過したときに、ユーザが話し始めた場合、例えば、コンテキスト情報生成部222が盛り上がり度を4以上上昇させるように設定することが好ましい。
これにより、無言の状態が続いた後に、小さな音でユーザが発話した場合、無言の状態のときに、盛り上がり度が3の場合であっても、コンテキスト情報生成部222は、盛り上がり度を7以上に上昇させる。これにより、閾値変更部224は、閾値を大きい値から小さい値に変更し、ロボット家電10は、音声を拾い易い状態になる。その結果、ロボット家電10は、無言の状態が続いた後に、小さな音でユーザが発話した場合でも、その音を逃さずに適切に応答することができる。
上述の例では、図3の(a)に示す盛り上がり度と閾値との関係を示すテーブルを用いる場合について説明したが、本実施形態では、これに限定されない。本実施形態では、盛り上がり度が、上述のコンテキストのうち、最後の対話が終了してからの経過時間を参照するときに、図3の(b)に示すような、盛り上がり度が高くなった場合に、音声を拾いにくいように設定する閾値との関係を示すテーブルを参照してもよい。
(応答内容決定部225)
応答内容決定部225は、音声認識部221から供給される音声内容の認識結果に基づいて、応答内容を決定する。
具体的には、応答内容決定部225は、まず、音声内容に対する応答の方針(応答方針)を決定する。そして、応答内容決定部225は、記憶部203に格納されている通常応答データベース231及び曖昧応答データベース232を参照し、応答内容を決定する。記憶部203に格納されている各データベースの詳細については、図面を変えて後述する。
なお、詳細については後述するが、本実施形態では、応答内容決定部225において決定される応答方針には、認識内容に対して正常に応答する「通常応答」、認識内容に対して曖昧に応答する「曖昧応答」、及び、応答をしない「応答なし」がある。
次に、応答内容決定部225は、決定した応答内容を示す応答内容データを音声合成した合成音声データを、通信部201を介してロボット家電10に送信する。
なお、上述の例では、応答内容決定部225は、応答内容を決定し、さらにその応答内容データを音声合成しているが、本実施形態はこれに限定されない。本実施形態では、ロボット家電10が応答内容データを受信し、音声合成を行ってもよい。また、ロボット家電10が、スピーカ104から音声を出力する代わりに、単にディスプレイに応答内容データを表示する場合には、サーバ20の応答内容決定部225も、ロボット家電10のスピーカ104も音声合成を行わなくてもよい。
また、上述の例では、応答内容決定部225は、合成音声データをロボット家電10に送信しているが、本実施形態ではこれに限定されない。本実施形態では、合成音声データの送信ではなく、URLのみロボット家電10に送信し、当該URLによって示される合成音声データをロボット家電10においてストリーミング再生する構成としてもよい。
〔応答音声出力処理〕
次に、本実施形態に係る対話システム1における応答音声出力処理(音声処理方法)について、図4を参照して説明する。図4は、本実施形態に係る対話システム1における応答音声出力処理の流れを示すシーケンス図である。
ステップS101:図4に示すように、まず、対話システム1のロボット家電10の備えるマイク103は、外部からの音の入力を受け付ける。
ステップS102:マイク103において音の入力を受け付けると、制御部102は、入力された音声から、切り出し部121によって認識対象音声区間を切り出す。制御部102は、切り出し後の音声を、通信部101を介してサーバ20に送信する。切り出し部121が音声を切り出した後、切り出し後の音声をサーバ20に送信する前に、マイク103の電源をオフしてもよい。これにより、マイク103から必要以上の音声を受け取らないようにすることができる。
ステップS103:ロボット家電10から通信部201を介して切り出し後の音声を取得すると、音声認識部221は、認識対象音声区間の音声内容を認識する。そして、音声認識部221は、認識した音声内容の認識結果を、応答内容決定部225に供給する。
ステップS104:次に、コンテキスト情報生成部222は、上述のコンテキストの少なくとも何れかを参照し、コンテキスト情報の1つである盛り上がり度を算出する。盛り上がり度を算出後、コンテキスト情報生成部222は、盛り上がり度の情報を、コンテキスト情報取得部223に供給する。
ステップS105(コンテキスト情報取得工程):コンテキスト情報取得部223は、コンテキスト情報生成部222から盛り上がり度の情報を取得する。コンテキスト情報取得部223は、当該盛り上がり度の情報を、閾値変更部224に供給する。
ステップS106:応答内容決定部225は、音声認識部221から供給される音声内容の認識結果に基づいて、応答方針及び応答内容を決定する。応答内容決定部225は、決定した応答内容を示す応答内容データを音声合成する。
ステップS107(閾値変更工程):閾値変更部224は、盛り上がり度を参照して閾値を変更する。
ステップS108:応答内容決定部225は、通信部201を介して応答内容データをロボット家電10に送信する。また、このとき、閾値変更部224も、通信部201を介して変更した閾値のデータをロボット家電10に送信する。
ステップS109:ロボット家電10の制御部102は、通信部101を介して応答内容データを受信すると、受信した応答内容データの示す応答音声を、スピーカ104を介して出力する。また、制御部102は、通信部101を介して受信した、変更された閾値のデータを元に、次回、マイク103から受け付けた音声から、切り出し部121による切り出し処理のときに参照する閾値を再設定する。
なお、上述の例では、音声認識部221が音声内容を認識した後に、盛り上がり度を算出しているが、本実施形態では、これに限定されない。コンテキスト情報生成部222は、通信部201を介して制御部202が切り出し後の音声を取得したときに盛り上がり度を算出してもよい。また、コンテキスト情報生成部222は、制御部102が、次回の切り出し処理のときに参照する閾値を再設定する前であれば、任意のタイミングで盛り上がり度を算出してもよい。
また、上述の例では、ユーザの発話に対して、ロボット家電10が応答する形態のみについて説明しているが、本実施形態ではこのような形態に限定されない。例えば、サーバ20又はロボット家電10の制御部等に、音声を切り出す音声切り出しトリガーとなるデータベース等(不図示)を格納し、当該音声切り出しトリガーによって、ロボット家電10からユーザに対して話しかけてもよい。
〔応答データベース〕
ここで、応答内容決定部225における応答内容の決定について、図5及び6を参照して説明する。
図5は、本実施形態に係るサーバ20の記憶部203に格納されている通常応答データベース231の一例を示す図である。図6は、本実施形態に係るサーバ20の記憶部203に格納されている曖昧応答データベース232の一例を示す図である。
ここで、「通常応答」とは、認識内容に対して正常に応答する応答方針である。より具体的には、「通常応答」とは、認識内容に対応した(換言すれば、認識内容に関連した)フレーズ(通常応答フレーズ)を応答内容として応答する応答方針である。図5に示すように、通常応答データベース231には、認識内容(認識フレーズ)と応答内容(回答フレーズ)とが関連付けられて格納されている。
「曖昧応答」とは、認識内容に対して曖昧に応答する応答処理のことを指す。「曖昧応答」の一例として、認識内容との関連性の低いフレーズ(曖昧フレーズ)を応答内容として応答する応答処理が挙げられる。「曖昧応答」は、ユーザの意図を特定しなくても対話が継続するように相槌等の曖昧な回答フレーズを応答する応答処理であると表現することもできる。応答内容決定部225は、通常応答データベース231に認識フレーズが見つからない場合に曖昧応答データベース232を参照して、曖昧応答を選択する。
応答内容決定部225は、まず、音声認識部221によって認識された認識内容が、図5に示される通常応答データベース231における「ユーザ入力の意図」の何れかに該当するかを調べる。何れかに該当した場合には、応答内容決定部225は、応答方針を通常応答に決定する。例えば、ユーザ入力の意図が図5の「天気が悪いね」に該当した場合、応答内容決定部225は、「天気が悪いですね。こんなときは家の中で掃除をするのがいいですよ。」とロボット家電10が応答することを決定する。
また、ユーザが、図5に示すユーザの意図のいずれにも該当しない発話を行った場合、又は、音声認識部221が、音声を認識できなかった場合、応答内容決定部225は、応答方針を曖昧応答に決定する。
応答内容決定部225は、応答方針を曖昧応答に決定した場合には、例えば、図6に示すように、認識内容に関わらず、「うん」、「え?」、「なるほどー」及び「はくしょん」のうち、何れかのフレーズを応答内容として決定すればよい。つまり、応答内容決定部225は、応答方針を曖昧応答に決定した場合には、曖昧応答データベース232から応答内容をランダムに選択してもよい。なお、曖昧応答は、音声だけでなく、例えば、頷く動作等であってもよい。その場合には、ロボット家電の駆動部105により、ロボットに頷き動作させることを応答内容として決定してもよい。
なお、図6に、本実施形態に係るサーバ20の備える記憶部203に格納されている曖昧応答データベース232の一例を示している。図6に示すように、応答内容のみが格納されている。
上述の例では、応答内容決定部225は、上述のように、通常応答及び曖昧応答のみを応答方針として決定している。ただし、本実施形態では、例えば、「ねえねえ、今日はどうだった?」及び「雑学聞きたくない?」等、ユーザに対話を促すフレーズを応答する「会話促し」、及び、ユーザに応答しない「応答なし」を応答方針としてさらに備えていてもよい。この場合、記憶部203に、さらに促し応答データベース等を備えていてもよい。
なお、上述の例では、サーバ20からロボット家電10に対して応答内容を示す応答内容データを送信する構成を例に挙げて説明したが、本実施形態はこれに限定されない。例えば、ロボット家電10が記憶部(不図示)に上述した各データベースを格納しており、サーバ20からロボット家電10に対して、何れのデータベースの何れのフレーズを応答内容とするかを指定するためのデータを送信する構成を採用してもよい。上述の構成により、サーバ20は、ロボット家電10に入力された音に対する応答内容データを、不適切なタイミングでロボット家電10に送信することを防止することができる。
このように、本実施形態に係るサーバ20は、ユーザとの対話を行う対話システム1に用いられるサーバ20であって、1又は複数の制御部202を備え、1又は複数の制御部202は、過去の対話のコンテキストを示すコンテキスト情報を取得し、ユーザによる発話が含まれる音声から認識対象音声区間の切り出しを行う切り出し処理において参照される閾値を、コンテキスト情報を参照して変更する。
そのため、切り出し処理を行う際に参照される閾値を変更することで、切り出し後の音声の内容が限定される。これにより、例えば、ユーザが対話システム1と集中して対話したい場合、閾値を高くして、音声を拾いにくくさせることで、対話システム1をノイズに反応させにくくすることができる。
また、本実施形態に係るサーバ20では、1又は複数の制御部202は、過去の対話のコンテキストとして、
・最後の対話が終了してからの経過時間、
・最後の対話における連続対話回数、
・所定の期間における対話回数、
・所定の期間における、対話システムによる発話からユーザによる発話までの平均時間、及び、
・所定の期間において特定の音声が含まれている回数
の少なくとも何れかを参照してコンテキスト情報を生成する。
そのため、例えば、コンテキストとして、最後の対話が終了してからの経過時間を参照する場合、当該経過時間が長ければ長いほど、コンテキスト情報が低くなるように設定することができる。また、最後の対話における連続対話回数、所定の期間における対話回数及び所定の期間において特定の音声が含まれている回数が多ければ多いほど、コンテキスト情報が高くなるように設定することができる。また、所定の期間における、対話システム1による発話からユーザによる発話までの平均時間が短ければ短いほど、コンテキスト情報が高くなるように設定することができる。
また、本実施形態に係る対話システム1は、ユーザとの対話を行う対話システム1であって、ユーザの音声を取得するマイク103と、1又は複数の制御部202と、ユーザに対する応答内容を出力するスピーカ104とを備えており、1又は複数の制御部202は、過去の対話のコンテキストを示すコンテキスト情報を取得し、マイク103が取得する音声から認識対象音声区間の切り出しを行い、切り出し部において参照される閾値を、コンテキスト情報を参照して変更し、切り出し部によって切り出された認識対象音声区間の音声認識を行い、音声認識によって認識された認識内容を参照し、ユーザに対する応答内容を決定する。
そのため、切り出し処理を行う際に参照される閾値を変更することで、切り出し後の音声の内容が限定される。これにより、例えば、ユーザが対話システム1と集中して対話したい場合、閾値を高くすることで、対話システム1をノイズに反応させにくくすることができる。
また、本実施形態に係る音声処理方法は、ユーザとの対話を行う対話システム1に用いられる音声処理方法であって、過去の対話のコンテキストを示すコンテキスト情報を取得するコンテキスト情報取得工程と、ユーザによる発話が含まれる音声から認識対象音声区間の切り出しを行う切り出し処理において参照される閾値を、コンテキスト情報を参照して変更する閾値変更工程とを備えている。
そのため、閾値変更工程によって、切り出し処理を行う際に参照される閾値を変更することで、切り出し後の音声の内容が限定される。これにより、例えば、ユーザが対話システム1と集中して対話したい場合、閾値を高くすることで、対話システム1をノイズに反応させにくくすることができる。
<実施形態2>
実施形態1では、サーバ20の制御部202は閾値変更部224として機能するが、実施形態2のように、制御部202は、閾値変更部224の代わりに、応答の長さを変更する応答長さ変更部227として機能してもよい。
実施形態2について、図7〜9を参照して説明する。なお、説明の便宜上、実施形態1にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
〔対話システムの構成〕
図7は、本実施形態に係る対話システム2の要部構成を示すブロック図である。図7に示すように、本実施形態に係る対話システム2は、ロボット家電10、及び、サーバ21を備えている。
図7に示すように、サーバ21は、制御部204が、閾値変更部224の代わりに、応答長さ変更部227を含む応答内容決定部226として機能し、記憶部205が、通常応答データベース231の代わりに通常応答データベース234を備えている点以外は、実施形態1に係るサーバ20と同様の構成である。
(サーバの構成)
サーバ21の制御部204の応答内容決定部226内における応答長さ変更部227は、コンテキスト情報取得部223が取得した盛り上がり度を参照して、ユーザに対する応答フレーズの長さを変更する。例えば、応答長さ変更部227は、盛り上がり度が所定の範囲の値のときは、ユーザの発話に対して候補となる応答フレーズのうち、所定の範囲の長さの応答フレーズを抽出する。
ここで、応答長さ変更部227を含む応答内容決定部226の応答内容の仕方について、図6及び図8を参照して説明する。
図8は、実施形態2に係るサーバ21の記憶部205に格納されている通常応答データベース234の一例を示す図である。
(応答長さの変更例1)
最初に、通常応答データベース234が図8の(a)の場合について具体的に説明する。
応答内容決定部226は、まず、音声認識部221によって認識された認識内容が、図8の(a)に示される通常応答データベース234における「ユーザ入力の意図」の何れかに該当するかを調べる。何れかに該当した場合には、応答内容決定部226は、応答方針を通常応答に決定する。
次に、応答内容決定部226は、応答長さ変更部227を用いて応答内容を決定する。例えば、ユーザ入力の意図が図8の(a)の「天気が悪いね」に該当し、盛り上がり度が6〜10と高い場合、応答長さ変更部227は、「天気が悪いね」に対して候補となる応答フレーズのうち、10字以上15字以下の応答フレーズを抽出する。応答長さ変更部227は、抽出した応答フレーズを、応答内容決定部226に供給する。応答内容決定部226は、「天気が悪いね」に対する応答フレーズのうち、10字以上15字以下の応答フレーズである「ホントだね、何しようか?」を応答内容に決定する。これにより、実施形態1と異なり、対話の盛り上がり度が高い場合には、「天気が悪いですね。こんなときは家の中で掃除をするのがいいですよ。」に比べて、ロボット家電10に短い応答をさせる。
このように、盛り上がり度が高い場合には、ユーザの応答の機会を逃さないように、ロボット家電10に、短めに応答させることができる。逆に、盛り上がり度が低い場合には、シンプルな応答をして機械的に対話が終わってしまわないように、ロボット家電10に長めに応答させることができる。
(応答長さの変更例2)
また、応答内容決定部226は、盛り上がり度によって、上述の形態とは逆に応答の長さを変更する応答長さ変更部227として機能してもよい。
例えば、図8の(b)に示すように、応答長さ変更部227は、盛り上がり度が0〜5と低い場合には、応答長さが短い応答フレーズを抽出し、盛り上がり度が6〜10と高い場合には、応答長さが長い応答フレーズを抽出してもよい。
これにより、盛り上がり度が低い場合には、ロボット家電10に短めに応答させ、簡単な質問を聞きたいだけのユーザに適切に応答させることができる。逆に、盛り上がり度が高い場合には、ロボット家電10に長めに応答させ、熱を込めて話しているように見せることができる。
図8に示すユーザの意図のいずれにも該当しない発話をユーザが行った場合、又は、音声認識部221が音声を認識できなかった場合、応答内容決定部226は、実施形態1と同様に、図6に示すような曖昧応答データベース232を参照して曖昧応答を行う。
なお、上述の例では、応答長さ変更部227は、1つのユーザの意図に対し、2択の応答案から、所定の範囲の文字数の応答フレーズを抽出しているが、本実施形態ではこれに限定されない。すなわち、ユーザの意図毎に応答案の選択肢の数が異なっていたり、応答長さ変更部227に、盛り上がり度に応じて、予め応答フレーズの長さの異なる応答案を用意する選出アルゴリズム等が含まれていたりしてもよい。また、本実施形態では、応答長さ変更部227は、所定の範囲の文字数の応答フレーズを抽出する代わりに、ユーザの発話に対して候補となる応答フレーズのうち、合成音声が所定の長さとなる応答フレーズを抽出してもよい。
〔応答音声出力処理〕
次に、本実施形態に係る対話システム2における応答音声出力処理(音声処理方法)について、図9を参照して説明する。図9は、本実施形態に係る対話システム2における応答音声出力処理の流れを示すシーケンス図である。
図9に示すステップS201〜〜S204の処理は、図4に示すステップS101〜S104と同様であるため、ここではその説明は省略する。
ステップS205(コンテキスト情報取得工程):コンテキスト情報取得部223は、コンテキスト情報生成部222から盛り上がり度の情報を取得し、当該盛り上がり度の情報を、応答内容決定部226内の応答長さ変更部227に供給する。
ステップS206(応答長さ変更工程):応答内容決定部226は、音声認識部221から供給される音声内容の認識結果、及び、応答長さ変更部227に基づき、応答方針及び応答内容を決定する。応答内容決定部226は、決定した応答内容を示す応答内容データを音声合成する。
ステップS207:応答内容決定部226は、応答内容データを、通信部201を介してロボット家電10に送信する。
ステップS208:ロボット家電10の制御部102は、通信部101を介して応答内容データを受信すると、受信した応答内容データの示す応答音声を、スピーカ104を介して出力する。
なお、本実施形態では、サーバ21の制御部204は、閾値変更部224を有していないため、切り出し部121から音声を切り出すときに参照する閾値は一定である。ただし、実施形態2は、上述の実施形態1及び以下の実施形態3と適宜組み合わせることができるため、サーバ21の制御部204は、閾値変更部224を備えていてもよい。この場合、閾値変更部224による閾値の変更は、例えば、ステップS206と、ステップS207との間に行ってよい。
このように、本実施形態に係るサーバ21は、ユーザとの対話を行う対話システム2に用いられるサーバ21であって、1又は複数の制御部204を備え、1又は複数の制御部204は、過去の対話のコンテキストを示すコンテキスト情報を取得し、ユーザに対する応答フレーズの長さを、コンテキスト情報を参照して変更する。
そのため、応答フレーズの長さを変更することができる。これにより、例えば、盛り上がり度が高い場合には、ユーザの応答の機会を逃さないように、対話システム2に短めに応答させ、低い場合には、機械的に対話が終わってしまわないように、対話システム2に長めに応答させることができる。逆に、盛り上がり度が低い場合には、簡単な質問を聞きたいだけのユーザに対して、対話システム2に短めに応答させ、高い場合には、対話システム2に長めに話させて、熱を込めて話しているように見せることができる。
また、本実施形態に係る対話システム2は、ユーザとの対話を行う対話システム2であって、ユーザの音声を取得するマイク103と、1又は複数の制御部204と、ユーザに対する応答内容を出力するスピーカ104とを備えており、1又は複数の制御部204は、過去の対話のコンテキストを示すコンテキスト情報を取得し、ユーザに対する応答フレーズの長さを、コンテキスト情報を参照して変更し、マイク103が取得する音声から認識対象音声区間の切り出しを行い、切り出しによって切り出された認識対象音声区間の音声認識を行い、音声認識によって認識された認識内容と応答フレーズの長さとを参照し、ユーザに対する応答内容を決定する。
そのため、応答フレーズの長さを変更することができる。これにより、例えば、盛り上がり度が高い場合には、ユーザの応答の機会を逃さないように、対話システム2に短めに応答させ、低い場合には、機械的に対話が終わってしまわないように、対話システム2に長めに応答させることができる。逆に、盛り上がり度が低い場合には、簡単な質問を聞きたいだけのユーザに対して、対話システム2に短めに応答させ、高い場合には、対話システム2に長めに話させて、熱を込めて話しているように見せることができる。
また、本実施形態に係る音声処理方法は、ユーザとの対話を行う対話システム2に用いられる音声処理方法であって、過去の対話のコンテキストを示すコンテキスト情報を取得するコンテキスト情報取得工程と、ユーザに対する応答フレーズの長さを、コンテキスト情報を参照して変更する応答長さ変更工程とを備えている。
そのため、応答長さ変更工程によって応答フレーズの長さを変更することができる。これにより、例えば、盛り上がり度が高い場合には、ユーザの応答の機会を逃さないように、対話システム2に短めに応答させ、低い場合には、機械的に対話が終わってしまわないように、対話システム2に長めに応答させることができる。逆に、盛り上がり度が低い場合には、簡単な質問を聞きたいだけのユーザに対して、対話システム2に短めに応答させ、高い場合には、対話システム2に長めに話させて、熱を込めて話しているように見せることができる。
<実施形態3>
実施形態1では、サーバ20の制御部202は閾値変更部224として機能するが、実施形態3のように、制御部202は、閾値変更部224の代わりに応答頻度変更部228として機能してもよい。
実施形態3について、図10〜12を参照して説明する。なお、説明の便宜上、実施形態1にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
〔対話システムの構成〕
図10は、本実施形態に係る対話システム3の要部構成を示すブロック図である。図10に示すように、本実施形態に係る対話システム3は、ロボット家電10、及び、サーバ22を備えている。
図10に示すように、本実施形態に係るサーバ22は、サーバ22の制御部206が、閾値変更部224の代わりに、応答頻度変更部228として機能する以外は、実施形態1に係るサーバ20と同様の構成である。
(サーバの構成)
サーバ22の制御部206の応答頻度変更部228は、ユーザに対する応答の頻度を、盛り上がり度を参照して変更する。本実施形態では、応答頻度変更部228は、曖昧応答の頻度を、盛り上がり度の情報を参照して変更する。変更された曖昧応答の頻度のデータは、応答内容決定部225に供給される。
以下に、応答頻度変更部228について、図11を参照して説明する。
図11は、応答頻度変更部228に格納されている盛り上がり度と曖昧応答確率との関係についてのテーブルの一例を示す図である。このテーブルは、応答内容決定部225により、応答方針が曖昧応答となった場合に、応答頻度変更部228によって参照される。
ここで、図11に示すように、応答頻度変更部228は、盛り上がり度が低いほど、曖昧発話確率を低く設定する。例えば、盛り上がり度が0と低い場合、応答頻度変更部228は、曖昧発話確率を0%に設定する。この場合、応答頻度変更部228は、マイク103から音声を受け取っても、ロボット家電10が反応しないように応答内容決定部225に指示を送る。一方、盛り上がり度が10と高い場合、応答頻度変更部228は、曖昧発話確率を100%に設定する。この場合、応答頻度変更部228は、ロボット家電10が図6に示す曖昧応答の何れかを必ず行うように、応答内容決定部225に指示を送る。盛り上がり度が1〜9の場合、応答頻度変更部228は、各曖昧発話確率にて、曖昧応答をするように、応答内容決定部225に指示を送る。応答内容決定部225は、曖昧応答をすべきか、ユーザに反応しないかを決定し、曖昧応答する場合は、その内容を決定する。
なお、上述の例では、応答頻度変更部228は、盛り上がり度が低いほど、曖昧発話確率を低く設定し、盛り上がり度が高いほど、曖昧発話確率が高くなるように設定しているが、本実施形態では、これに限定されない。本実施形態では、応答頻度変更部228は、盛り上がり度が低いほど、曖昧発話確率を高く設定し、盛り上がり度が高いほど、曖昧発話確率が低くなるように設定してもよい。
ロボット家電10が、家族との会話又はテレビの音等のロボット家電10に対する呼びかけではない音声を拾った場合、上述の実施形態では、ロボット家電10に曖昧応答をさせるように設定するのが一般的である。これにより、ロボット家電10は、適切な応答内容が見つからなくてもユーザに応答することができる。その結果、ユーザに対して、ロボット家電10に無視されていると感じさせないようにすることができる。
一方で、ユーザが家族のみと集中して話したいとき等、明らかにロボット家電10がユーザに対して応答すらする必要のない場合もある。このような場合、曖昧応答するよりも、応答しないほうがユーザにとって好ましい。そこで、本実施形態の上述の構成によれば、対話が盛り上がっていない場合には、曖昧応答の頻度を変えることで、ロボット家電10に曖昧応答させないようにすることもできる。これにより、曖昧応答することによる好ましい効果と、応答しないことによる好ましい効果との両方を得ることができる。
上述の例では、応答頻度変更部228が曖昧発話確率を決定するタイミングは、応答内容決定部225が応答方針を曖昧応答に決定した後であり、応答内容を決定する前であるが、本実施形態ではこれに限定されない。本実施形態では、ロボット家電10が、スピーカ104を介して応答音声を出力する前であれば任意のタイミングであってもよい。例えば、応答内容決定部225が、応答内容を決定した後であっても、応答方針を通常応答か曖昧応答かに決定する前であってもよい。
なお、応答内容決定部225が、応答方針を通常応答及び曖昧応答の何れかに決定する前に応答頻度変更部228が曖昧発話確率を決定した場合、本実施形態は、応答内容決定部225は、曖昧発話確率を参照しながら応答方針を決定してもよい。すなわち、応答内容決定部225は、ユーザに対し通常応答することが可能な場合でも、応答方針を曖昧応答に決定してもよい。
このように、本実施形態では、上述の例のように、曖昧応答するか応答しないかの何れかを決定するために、応答頻度変更部228が曖昧応答発話確率を算出する形態に限定されない。本実施形態では、通常応答するか曖昧応答するかの何れかを決定するために、応答頻度変更部228は、曖昧応答発話確率を算出してもよい。なお、通常応答可能な場合に曖昧応答をする構成にする場合には、応答内容決定部225が、通常の代わりに曖昧応答した場合であっても影響が少ない曖昧応答、例えば、図6の「うん」又は「なるほどー」等を選択するように設定することが好ましい。
〔応答音声出力処理〕
次に、本実施形態に係る対話システム3における応答音声出力処理(音声処理方法)について、図12を参照して説明する。図12は、本実施形態に係る対話システム3における応答音声出力処理の流れを示すシーケンス図である。
図12に示すステップS301〜〜S304の処理は、図4に示すステップS101〜S104と同様であるため、ここではその説明は省略する。
ステップS305(コンテキスト情報取得工程):コンテキスト情報取得部223は、コンテキスト情報生成部222から盛り上がり度の情報を取得し、当該盛り上がり度の情報を、応答頻度変更部228に供給する。
ステップS306:応答内容決定部225は、音声認識部221から供給される音声内容の認識結果に基づき、応答方針を通常応答にするか曖昧応答にするかを決定する。応答方針が通常応答となった場合、応答内容決定部225は、応答頻度変更部228に指示を送ることなく応答内容を決定する。応答方針が曖昧応答となった場合、応答内容決定部225は、応答頻度変更部228に曖昧発話確率を算出するように指示を送る。
ステップS307(応答頻度変更工程):応答方針が曖昧応答となった場合、応答頻度変更部228は、コンテキスト情報取得部223から受け取った盛り上がり度の情報、及び、応答内容決定部225からの指示に基づき、曖昧発話確率を算出する。応答頻度変更部228は、応答内容決定部225に曖昧発話確率のデータを供給する。
ステップS308:応答頻度変更部228から曖昧発話確率のデータを供給された場合、応答内容決定部225は、当該データに基づき、曖昧応答をするか、応答しないかを決定する。応答内容決定部225は、通常応答又は曖昧応答する場合は、決定した応答内容を示す応答内容データを音声合成する。応答しない場合は、応答内容データを作成せず、作業を中断する。
ステップS309:応答内容決定部225は、通常応答又は曖昧応答する場合は、応答内容データを、通信部201を介してロボット家電10に送信する。応答しない場合は、応答内容データを送信しない。
ステップS310:ロボット家電10の制御部102は、通信部101を介して応答内容データを受信すると、受信した応答内容データの示す応答音声を、スピーカ104を介して出力する。
なお、上述の例では、応答内容決定部225が、応答方針を曖昧応答に決定した後に、応答頻度変更部228が曖昧発話確率を算出しているが、本実施形態では、これに限定されない。応答頻度変更部228が曖昧発話確率を決定するタイミングは、ロボット家電10が、スピーカ104を介して応答音声を出力する前であれば任意のタイミングであってよい。
なお、実施形態1〜3では、制御部202、204及び206のそれぞれが、閾値変更部224、応答長さ変更部227、及び、応答頻度変更部228の1つのみとして機能する形態について説明してきたが、実施形態1〜3を適宜組み合わせてもよい。すなわち、1つの制御部が、閾値変更部224、応答長さ変更部227、及び、応答頻度変更部228のうちの2つ以上として機能する対話システムであってもよい。これにより、1つの制御部が、閾値変更部224、応答長さ変更部227、及び、応答頻度変更部228のうちの1つのみとして機能する場合に比べて、より過去の対話に適切に応じた応答をロボット家電10が行うことができる。
また、1つの制御部が、閾値変更部224、応答長さ変更部227、及び、応答頻度変更部228のうちの2つ以上として機能する対話システムである場合に、応答音声出力処理のステップの順番は、応答音声出力処理が実施できる範囲で任意に設定することができる。すなわち、実施形態1〜3の応答音声出力処理のステップを適宜組み合わせることができる。
また、1つの制御部が、閾値変更部224、応答長さ変更部227、及び、応答頻度変更部228のうちの2つ以上の部材として機能する対話システムである場合、対話環境に応じて、対話の途中で、使用する部材を切り換えてもよい。これにより、対話環境に応じて、ロボット家電10に、ユーザに対してより適切な応答をさせることができる。
このように、本実施形態に係るサーバ22は、ユーザとの対話を行う対話システム3に用いられるサーバ22であって、1又は複数の制御部206を備え、1又は複数の制御部206は、過去の対話のコンテキストを示すコンテキスト情報を取得し、ユーザに対する応答の頻度を、コンテキスト情報を参照して変更する。
そのため、対話システム3は、例えば、ユーザに曖昧応答することと、応答しないようにすることの両方をすることができる。その結果、ユーザに対して、曖昧応答することによる好ましい効果と、応答しないことによる好ましい効果との両方を得ることができる。
また、本実施形態に係るサーバ22では、1又は複数の制御部206は、ユーザによる発話が含まれる音声から認識対象音声区間を切り出し、切り出された音声認識によって認識した認識内容と関連性の低いフレーズを応答内容として応答する曖昧応答の頻度を、コンテキスト情報を参照して変更する。
そのため、特に、対話システム3に曖昧応答させたくない場合に、好適に利用することができる。
また、本実施形態に係る対話システム3は、ユーザとの対話を行う対話システム3であって、ユーザの音声を取得するマイク103と、1又は複数の制御部206と、ユーザに対する応答内容を出力するスピーカ104とを備えており、1又は複数の制御部206は、過去の対話のコンテキストを示すコンテキスト情報を取得し、ユーザに対する応答の頻度を、コンテキスト情報を参照して変更し、マイク103が取得する音声から認識対象音声区間の切り出しを行い、切り出しによって切り出された認識対象音声区間の音声認識を行い、音声認識によって認識された認識内容と応答の頻度とを参照し、ユーザに対する応答内容を決定する。
そのため、対話システム3は、例えば、ユーザに曖昧応答することと、応答しないようにすることの両方をすることができる。その結果、ユーザに対して、曖昧応答することによる好ましい効果と、応答しないことによる好ましい効果との両方を得ることができる。
また、本実施形態に係る音声処理方法は、ユーザとの対話を行う対話システム3に用いられる音声処理方法であって、過去の対話のコンテキストを示すコンテキスト情報を取得するコンテキスト情報取得工程と、ユーザに対する応答の頻度を、コンテキスト情報を参照して変更する応答頻度変更工程とを備えている。
そのため、対話システム3は、例えば、ユーザに曖昧応答することと、応答しないようにすることの両方をすることができる。その結果、ユーザに対して、曖昧応答することによる好ましい効果と、応答しないことによる好ましい効果との両方を得ることができる。
<実施形態4>
上述した例では、ロボット家電10、及び、サーバ20、21又は22を備える対話システム1〜3について説明したが、ロボット家電10、及び、サーバ20、21又は22の何れかを含まなくてもよい。
すなわち、全ての部材をロボット家電10が含んでいてもよく、全ての部材をサーバ20、21又は22が含んでいてもよい。
以下に、サーバ20、21又は22を含まない対話システム4について説明する。
〔対話システムの構成〕
本実施形態に係る対話システム4は、ロボット家電11を備えている。
図13は、本実施形態に係る対話システム4の要部構成を示すブロック図である。図13に示すように、本実施形態に係るロボット家電11は、上述したロボット家電10の構成に加えて、実施形態1においてサーバ20が備えている記憶部203を、記憶部107として備えている。また、ロボット家電11は、切り出し部121に加え、実施形態1におけるサーバ20の制御部202の各部材も含む制御部106を備えている。
実施形態4に係る対話システム4においても、実施形態1に係る対話システム1と同様の効果を奏することができる。
上述の実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
〔応答音声出力処理〕
本実施形態に係る対話システム4における応答音声出力処理(音声処理方法)は、通信部101と通信部201とのデータのやり取りがない点、及び、サーバ20の制御部202の代わりに、ロボット家電11の制御部106で制御する点以外は、実施形態1に係る対話システム1の応答音声出力処理と同様に行う。
このように、本実施形態に係るロボット家電11は、ユーザとの対話を行うロボット家電11であって、ユーザの音声を取得するマイク103と、ユーザに対する応答内容を出力するスピーカ104と、制御部106とを備え、制御部106は、マイク103が取得する音声から、ユーザとの過去の対話のコンテキストに応じて変更された閾値を用いて切り出された認識対象音声区間に含まれるユーザの発話内容に対する応答内容を、スピーカ104を介して出力する。
そのため、ユーザとの過去の対話のコンテキストに応じて変更された閾値を用いることで、切り出し後の音声の内容が限定される。これにより、例えば、ユーザがロボット家電11と集中して対話したい場合、閾値を高くすることで、ロボット家電11をノイズに反応しにくくすることができる。
<実施形態5>
実施形態4では、ロボット家電11の制御部106は閾値変更部224として機能するが、実施形態5に係る対話システム5のように、閾値変更部224の代わりに応答の長さを変更する応答長さ変更部227として機能してもよい。
本実施形態に係る対話システム5は、ロボット家電12を備えている。
図14は、本実施形態に係る対話システム5の要部構成を示すブロック図である。図14に示すように、本実施形態に係るロボット家電12は、上述したロボット家電10の構成に加えて、実施形態2においてサーバ21が備えている記憶部205を、記憶部109として備えている。また、ロボット家電12は、切り出し部121に加え、実施形態2におけるサーバ21の制御部204の各部材も含む制御部108を備えている。
実施形態5に係る対話システム5においても、実施形態2に係る対話システム2と同様の効果を奏することができる。
上述の実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
〔応答音声出力処理〕
本実施形態に係る対話システム5における応答音声出力処理(音声処理方法)は、通信部101と通信部201とのデータのやり取りがない点、及び、サーバ21の制御部204の代わりに、ロボット家電12の制御部108で制御する点以外は、実施形態2に係る対話システム2の応答音声出力処理と同様に行う。
このように、本実施形態に係るロボット家電12は、ユーザとの対話を行うロボット家電12であって、ユーザの音声を取得するマイク103と、ユーザに対する応答内容を出力するスピーカ104と、制御部108とを備え、制御部108は、マイク103が取得する音声に含まれるユーザの発話内容に対して、ユーザとの過去の対話のコンテキストに応じて応答フレーズの長さを変更された応答内容を、スピーカ104を介して出力する。
そのため、過去の対話のコンテキストに応じて応答フレーズの長さを変更された応答内容を出力することができる。これにより、例えば、盛り上がり度が高い場合には、ユーザの応答の機会を逃さないように、ロボット家電12に短めに応答させ、低い場合には、機械的に対話が終わってしまわないように、ロボット家電12に長めに応答させることができる。逆に、盛り上がり度が低い場合には、簡単な質問を聞きたいだけのユーザに対して、ロボット家電12に短めに応答させ、高い場合には、ロボット家電12に長めに話させて、熱を込めて話しているように見せることができる。
<実施形態6>
実施形態4では、ロボット家電11の制御部106は閾値変更部224として機能するが、実施形態5に係る対話システム6のように、閾値変更部224の代わりに応答頻度変更部228として機能してもよい。
本実施形態に係る対話システム6は、ロボット家電13を備えている。
図15は、本実施形態に係る対話システム6の要部構成を示すブロック図である。図15に示すように、本実施形態に係るロボット家電13は、上述したロボット家電10の構成に加えて、実施形態3においてサーバ22が備えている記憶部203を、記憶部107として備えている。また、ロボット家電13は、切り出し部121に加え、実施形態3におけるサーバ22の制御部206の各部材も含む制御部110を備えている。
実施形態6に係る対話システム6においても、実施形態3に係る対話システム3と同様の効果を奏することができる。
上述の実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
〔応答音声出力処理〕
本実施形態に係る対話システム6における応答音声出力処理(音声処理方法)は、通信部101と通信部201とのデータのやり取りがない点、及び、サーバ22の制御部206の代わりに、ロボット家電の制御部110で制御する点以外は、実施形態3に係る対話システム3の応答音声出力処理と同様に行う。
このように、本実施形態に係るロボット家電13は、ユーザとの対話を行うロボット家電13であって、ユーザの音声を取得するマイク103と、ユーザに対する応答内容を出力するスピーカ104と、制御部110とを備え、制御部110は、マイク103が取得する音声に含まれるユーザの発話内容に対して、ユーザとの過去の対話のコンテキストに応じて変更されたユーザに対する応答の頻度にて、スピーカ104を介して応答内容を出力する。
ロボット家電13は、例えば、ユーザに曖昧応答することと、応答しないようにすることの両方をすることができる。その結果、ユーザに対して、曖昧応答することによる好ましい効果と、応答しないことによる好ましい効果との両方を得ることができる。
<実施形態7>
ロボット家電10〜13及びサーバ20〜22の各ブロックは、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。後者の場合、ロボット家電10〜13及びサーバ20〜22のそれぞれを、図16に示すようなコンピュータ(電子計算機)を用いて構成することができる。
図16は、ロボット家電10〜13又はサーバ20〜22して利用可能なコンピュータ910の構成を例示したブロック図である。コンピュータ910は、バス911を介して互いに接続された演算装置912と、主記憶装置913と、補助記憶装置914と、入出力インターフェース915と、通信インターフェース916とを備えている。演算装置912、主記憶装置913、および補助記憶装置914は、それぞれ、例えばCPU、RAM(random access memory)、ハードディスクドライブ及びフラッシュメモリ等のストレージであってもよい。入出力インターフェース915には、ユーザがコンピュータ910に各種情報を入力するための入力装置920、および、コンピュータ910がユーザに各種情報を出力するための出力装置930が接続される。入力装置920および出力装置930は、コンピュータ910に内蔵されたものであってもよいし、コンピュータ910に接続された(外付けされた)ものであってもよい。例えば、入力装置920は、キーボード、マウス、タッチセンサ等であってもよく、出力装置930は、ディスプレイ、プリンタ、スピーカ等であってもよい。また、タッチセンサとディスプレイとが一体化されたタッチパネルのような、入力装置920および出力装置930の双方の機能を有する装置を適用してもよい。そして、通信インターフェース916は、コンピュータ910が外部の装置と通信するためのインターフェースである。
補助記憶装置914には、コンピュータ910をロボット家電10〜13又はサーバ20〜22として動作させるための各種のプログラムが格納されている。そして、演算装置912は、補助記憶装置914に格納された上述のプログラムを主記憶装置913上に展開して該プログラムに含まれる命令を実行する。これによって、コンピュータ910を、ロボット家電10〜13又はサーバ20〜22が備える各部として機能させる。なお、補助記憶装置914が備える、プログラム等の情報を記録する記録媒体は、コンピュータ読み取り可能な「一時的でない有形の媒体」であればよく、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブル論理回路等であってもよい。
また、上述のプログラムは、コンピュータ910の外部から取得してもよく、この場合、任意の伝送媒体(通信ネットワークや放送波等)を介して取得してもよい。そして、本実施形態は、上述のプログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
このように、本実施形態に係る、コンピュータ910を制御部202として機能させるためのプログラムは、実施形態1に係るサーバ20としてコンピュータ910を機能させるためのプログラムである。
コンピュータ910を制御部202として機能させるためのプログラムは、サーバ20としてコンピュータ910を機能させるためのプログラムに好適に利用することができる。
また、本実施形態に係る、コンピュータ910を制御部204として機能させるためのプログラムは、実施形態2に係るサーバ21としてコンピュータ910を機能させるためのプログラムである。
コンピュータ910を制御部204として機能させるためのプログラムは、サーバ21としてコンピュータ910を機能させるためのプログラムに好適に利用することができる。
また、本実施形態に係る、コンピュータ910を制御部206として機能させるためのプログラムは、実施形態3に係るサーバ22としてコンピュータ910を機能させるためのプログラムであってもよい。
コンピュータ910を制御部206として機能させるためのプログラムは、サーバ22としてコンピュータ910を機能させるためのプログラムに好適に利用することができる。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
本発明は、掃除ロボット、冷蔵庫、電子レンジ、パーソナルコンピュータ、テレビ等の音声の入出力機能を備えた家電、及び、企業のサービス用対話ロボット等の家電以外の対話ロボット、並びに、これらを制御するサーバに好適に利用することができる。
1〜6 対話システム
10〜13 ロボット家電(端末装置)
20〜22 サーバ(音声処理装置)
101、201 通信部
103 マイク(音声取得部)
104 スピーカ(出力部)
105 駆動部(出力部)
107、109、203、205 記憶部
121 切り出し部
102、106、108、110、202、203、204、206 制御部
221 音声認識部
222 コンテキスト情報生成部
223 コンテキスト情報取得部
224 閾値変更部
225、226 応答内容決定部
227 応答長さ変更部
228 応答頻度変更部
231、234 通常応答データベース
232 曖昧応答データベース
233 対話ログ
910 コンピュータ
911 バス
912 演算装置
913 主記憶装置
914 補助記憶装置
915 入出力インターフェース
916 通信インターフェース
920 入力装置
930 出力装置

Claims (17)

  1. ユーザとの対話を行う対話システムに用いられる音声処理装置であって、
    1又は複数の制御部を備え、
    上記1又は複数の制御部は、
    過去の対話のコンテキストを示すコンテキスト情報を取得し、
    上記ユーザによる発話が含まれる音声から認識対象音声区間の切り出しを行う切り出し処理において参照される閾値を、上記コンテキスト情報を参照して変更する
    ことを特徴とする音声処理装置。
  2. ユーザとの対話を行う対話システムに用いられる音声処理装置であって、
    1又は複数の制御部を備え、
    上記1又は複数の制御部は、
    過去の対話のコンテキストを示すコンテキスト情報を取得し、
    上記ユーザに対する応答フレーズの長さを、上記コンテキスト情報を参照して変更する
    ことを特徴とする音声処理装置。
  3. ユーザとの対話を行う対話システムに用いられる音声処理装置であって、
    1又は複数の制御部を備え、
    上記1又は複数の制御部は、
    過去の対話のコンテキストを示すコンテキスト情報を取得し、
    上記ユーザに対する応答の頻度を、上記コンテキスト情報を参照して変更する
    ことを特徴とする音声処理装置。
  4. 上記1又は複数の制御部は、
    上記ユーザによる発話が含まれる音声から認識対象音声区間を切り出し、
    切り出された上記認識対象音声区間に対する音声認識を行い、
    上記音声認識によって認識した認識内容と関連性の低いフレーズを応答内容として応答する曖昧応答の頻度を、上記コンテキスト情報を参照して変更することを特徴とする請求項3に記載の音声処理装置。
  5. 上記1又は複数の制御部は、
    過去の対話のコンテキストとして、
    最後の対話が終了してからの経過時間、
    最後の対話における連続対話回数、
    所定の期間における対話回数、
    所定の期間における、上記対話システムによる発話から上記ユーザによる発話までの平均時間、及び、
    所定の期間において特定の音声が含まれている回数
    の少なくとも何れかを参照して上記コンテキスト情報を生成する
    ことを特徴とする請求項1〜4の何れか1項に記載の音声処理装置。
  6. ユーザとの対話を行う対話システムであって、
    音声を取得する音声取得部と、
    1又は複数の制御部と、
    上記ユーザに対する応答内容を出力する出力部と
    を備えており、
    上記1又は複数の制御部は、
    過去の対話のコンテキストを示すコンテキスト情報を取得し、
    上記音声取得部が取得する音声から認識対象音声区間の切り出しを行い、
    上記切り出しにおいて参照される閾値を、上記コンテキスト情報を参照して変更し、
    上記切り出しによって切り出された認識対象音声区間の音声認識を行い、
    上記音声認識によって認識された認識内容を参照し、上記ユーザに対する応答内容を決定する
    ことを特徴とする対話システム。
  7. ユーザとの対話を行う対話システムであって、
    音声を取得する音声取得部と、
    1又は複数の制御部と、
    上記ユーザに対する応答内容を出力する出力部と
    を備えており、
    上記1又は複数の制御部は、
    過去の対話のコンテキストを示すコンテキスト情報を取得し、
    上記ユーザに対する応答フレーズの長さを、上記コンテキスト情報を参照して変更し、
    上記音声取得部が取得する音声から認識対象音声区間の切り出しを行い、
    上記切り出しによって切り出された認識対象音声区間の音声認識を行い、
    上記音声認識によって認識された認識内容と上記応答フレーズの長さとを参照し、上記ユーザに対する応答内容を決定する
    ことを特徴とする対話システム。
  8. ユーザとの対話を行う対話システムであって、
    音声を取得する音声取得部と、
    1又は複数の制御部と、
    上記ユーザに対する応答内容を出力する出力部と
    を備えており、
    上記1又は複数の制御部は、
    過去の対話のコンテキストを示すコンテキスト情報を取得し、
    上記ユーザに対する応答の頻度を、上記コンテキスト情報を参照して変更し、
    上記音声取得部が取得する音声から認識対象音声区間の切り出しを行い、
    上記切り出しによって切り出された認識対象音声区間の音声認識を行い、
    上記音声認識によって認識された認識内容と上記応答の頻度とを参照し、上記ユーザに対する応答内容を決定する
    ことを特徴とする対話システム。
  9. ユーザとの対話を行う端末装置であって、
    音声を取得する音声取得部と、
    上記ユーザに対する応答内容を出力する出力部と、
    制御部と
    を備え、
    上記制御部は、
    上記音声取得部が取得する音声から、上記ユーザとの過去の対話のコンテキストに応じて変更された閾値を用いて切り出された認識対象音声区間に含まれる上記ユーザの発話内容に対する応答内容を、上記出力部を介して出力する
    ことを特徴とする端末装置。
  10. ユーザとの対話を行う端末装置であって、
    音声を取得する音声取得部と、
    上記ユーザに対する応答内容を出力する出力部と、
    制御部と
    を備え、
    上記制御部は、
    上記音声取得部が取得する音声に含まれる上記ユーザの発話内容に対して、上記ユーザとの過去の対話のコンテキストに応じて応答フレーズの長さを変更された応答内容を、上記出力部を介して出力する
    ことを特徴とする端末装置。
  11. ユーザとの対話を行う端末装置であって、
    音声を取得する音声取得部と、
    上記ユーザに対する応答内容を出力する出力部と、
    制御部と
    を備え、
    上記制御部は、
    上記音声取得部が取得する音声に含まれる上記ユーザの発話内容に対して、上記ユーザとの過去の対話のコンテキストに応じて変更された上記ユーザに対する応答の頻度にて、上記出力部を介して応答内容を出力する
    ことを特徴とする端末装置。
  12. 請求項1に記載の音声処理装置としてコンピュータを機能させるためのプログラムであって、当該コンピュータを上記制御部として機能させるためのプログラム。
  13. 請求項2に記載の音声処理装置としてコンピュータを機能させるためのプログラムであって、当該コンピュータを上記制御部として機能させるためのプログラム。
  14. 請求項3に記載の音声処理装置としてコンピュータを機能させるためのプログラムであって、当該コンピュータを上記制御部として機能させるためのプログラム。
  15. ユーザとの対話を行う対話システムに用いられる音声処理方法であって、
    過去の対話のコンテキストを示すコンテキスト情報を取得するコンテキスト情報取得工程と、
    上記ユーザによる発話が含まれる音声から認識対象音声区間の切り出しを行う切り出し処理において参照される閾値を、上記コンテキスト情報を参照して変更する閾値変更工程と
    を備えていることを特徴とする音声処理方法。
  16. ユーザとの対話を行う対話システムに用いられる音声処理方法であって、
    過去の対話のコンテキストを示すコンテキスト情報を取得するコンテキスト情報取得工程と、
    上記ユーザに対する応答フレーズの長さを、上記コンテキスト情報を参照して変更する応答長さ変更工程と
    を備えていることを特徴とする音声処理方法。
  17. ユーザとの対話を行う対話システムに用いられる音声処理方法であって、
    過去の対話のコンテキストを示すコンテキスト情報を取得するコンテキスト情報取得工程と、
    上記ユーザに対する応答の頻度を、上記コンテキスト情報を参照して変更する応答頻度変更工程と
    を備えていることを特徴とする音声処理方法。
JP2016256286A 2016-12-28 2016-12-28 音声処理装置、対話システム、端末装置、プログラム及び音声処理方法 Pending JP2018109663A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016256286A JP2018109663A (ja) 2016-12-28 2016-12-28 音声処理装置、対話システム、端末装置、プログラム及び音声処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016256286A JP2018109663A (ja) 2016-12-28 2016-12-28 音声処理装置、対話システム、端末装置、プログラム及び音声処理方法

Publications (1)

Publication Number Publication Date
JP2018109663A true JP2018109663A (ja) 2018-07-12

Family

ID=62844464

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016256286A Pending JP2018109663A (ja) 2016-12-28 2016-12-28 音声処理装置、対話システム、端末装置、プログラム及び音声処理方法

Country Status (1)

Country Link
JP (1) JP2018109663A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245222A (zh) * 2019-06-17 2019-09-17 北京百度网讯科技有限公司 对话模型训练方法及装置、对话生成方法及装置
JP2020024522A (ja) * 2018-08-06 2020-02-13 株式会社エルブズ 情報提供装置、情報提供方法およびプログラム
CN111354358A (zh) * 2018-12-20 2020-06-30 丰田自动车株式会社 控制方法、语音交互装置、语音识别服务器、存储介质和控制系统
JP2020134545A (ja) * 2019-02-13 2020-08-31 ヤフー株式会社 音声処理装置、音声処理方法および音声処理プログラム
JPWO2022215284A1 (ja) * 2021-04-09 2022-10-13
US11587554B2 (en) 2018-12-20 2023-02-21 Toyota Jidosha Kabushiki Kaisha Control apparatus, voice interaction apparatus, voice recognition server, and program
US11587547B2 (en) 2019-02-28 2023-02-21 Samsung Electronics Co., Ltd. Electronic apparatus and method for controlling thereof

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001215993A (ja) * 2000-01-31 2001-08-10 Sony Corp 対話処理装置および対話処理方法、並びに記録媒体
JP2002215183A (ja) * 2001-01-16 2002-07-31 Agi:Kk 感性発生方法及び感性発生装置並びにソフトウェア

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001215993A (ja) * 2000-01-31 2001-08-10 Sony Corp 対話処理装置および対話処理方法、並びに記録媒体
JP2002215183A (ja) * 2001-01-16 2002-07-31 Agi:Kk 感性発生方法及び感性発生装置並びにソフトウェア

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020024522A (ja) * 2018-08-06 2020-02-13 株式会社エルブズ 情報提供装置、情報提供方法およびプログラム
US11587554B2 (en) 2018-12-20 2023-02-21 Toyota Jidosha Kabushiki Kaisha Control apparatus, voice interaction apparatus, voice recognition server, and program
CN111354358A (zh) * 2018-12-20 2020-06-30 丰田自动车株式会社 控制方法、语音交互装置、语音识别服务器、存储介质和控制系统
JP2020101603A (ja) * 2018-12-20 2020-07-02 トヨタ自動車株式会社 制御装置、音声対話装置、音声認識サーバ及びプログラム
US11081114B2 (en) 2018-12-20 2021-08-03 Toyota Jidosha Kabushiki Kaisha Control method, voice interaction apparatus, voice recognition server, non-transitory storage medium, and control system
CN111354358B (zh) * 2018-12-20 2023-04-25 丰田自动车株式会社 控制方法、语音交互装置、语音识别服务器、存储介质和控制系统
JP7131362B2 (ja) 2018-12-20 2022-09-06 トヨタ自動車株式会社 制御装置、音声対話装置及びプログラム
JP2020134545A (ja) * 2019-02-13 2020-08-31 ヤフー株式会社 音声処理装置、音声処理方法および音声処理プログラム
JP7085500B2 (ja) 2019-02-13 2022-06-16 ヤフー株式会社 音声処理装置、音声処理方法および音声処理プログラム
US11587547B2 (en) 2019-02-28 2023-02-21 Samsung Electronics Co., Ltd. Electronic apparatus and method for controlling thereof
CN110245222B (zh) * 2019-06-17 2021-08-10 北京百度网讯科技有限公司 对话模型训练方法及装置、对话生成方法及装置
CN110245222A (zh) * 2019-06-17 2019-09-17 北京百度网讯科技有限公司 对话模型训练方法及装置、对话生成方法及装置
JPWO2022215284A1 (ja) * 2021-04-09 2022-10-13
JP7398683B2 (ja) 2021-04-09 2023-12-15 パナソニックIpマネジメント株式会社 発話機器を制御する方法、サーバ、発話機器、およびプログラム

Similar Documents

Publication Publication Date Title
JP2018109663A (ja) 音声処理装置、対話システム、端末装置、プログラム及び音声処理方法
US9653097B2 (en) Sound output device, network system, and sound output method
US9583102B2 (en) Method of controlling interactive system, method of controlling server, server, and interactive device
US10891952B2 (en) Speech recognition
JP5996603B2 (ja) サーバ、発話制御方法、発話装置、発話システムおよびプログラム
JP4837917B2 (ja) 音声に基づく装置制御
WO2016052018A1 (ja) 家電管理システム、家電、リモコン装置、ロボット
CN112201246B (zh) 基于语音的智能控制方法、装置、电子设备及存储介质
US10192550B2 (en) Conversational software agent
US10140988B2 (en) Speech recognition
JP6636303B2 (ja) 対話装置、対話機器、対話装置の制御方法、制御プログラム、および記録媒体
JP2011176879A (ja) 注目期間を有する音声入力装置
US20170256259A1 (en) Speech Recognition
CN109360558B (zh) 一种语音应答的方法和设备
CN110493123B (zh) 即时通讯方法、装置、设备及存储介质
JP2014191029A (ja) 音声認識システムおよび音声認識システムの制御方法
KR20200025226A (ko) 전자 장치 및 그 제어 방법
US10002611B1 (en) Asynchronous audio messaging
JP2003177790A (ja) 端末装置、サーバ装置および音声認識方法
JP2019090945A (ja) 情報処理装置
CN110473524B (zh) 语音识别系统的构建方法和装置
JP6945734B2 (ja) 音声出力装置、機器制御システム、音声出力方法、及び、プログラム
CN111292749A (zh) 智能语音平台的会话控制方法及装置
JP2018081147A (ja) コミュニケーション装置、サーバ、制御方法、および情報処理プログラム
JP2008249893A (ja) 音声応答装置及びその方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190920

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200608

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200623

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20201215