JP2017122930A

JP2017122930A - 発話制御装置、方法、発話システム、及びプログラム

Info

Publication number: JP2017122930A
Application number: JP2017047738A
Authority: JP
Inventors: 靖典山下; Yasunori Yamashita
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2017-03-13
Filing date: 2017-03-13
Publication date: 2017-07-13
Anticipated expiration: 2033-10-31
Also published as: JP6522679B2

Abstract

【課題】ユーザと円滑なコミュニケーションを図ることが可能な発話装置を制御するサーバを提供する。【解決手段】発話装置（１１）に発話させる発話内容を決定するサーバ（２０）であって、発話装置から入力音声情報を取得し、入力音声情報を認識し、設定されたモードと、認識された認識情報と、に応じて１又は複数のデータベースを参照することにより、発話内容を決定し、決定した発話内容を発話装置に出力するサーバ。【選択図】図１

Description

本発明は、発話装置に発話させる発話内容を決定する発話制御装置、方法、発話システム、及びプログラムに関する。

近年、ユーザが所望する情報を、装置が音声を発することによって提供する方法が知られている。この場合に用いられる音声として、装置に予め記憶されている音声を信号処理によって合成する合成音声が知られている。

例えば、特許文献１には、複数の話者の音声を別々に収録した音声合成用データベースを備え、ユーザからの指示により、ユーザが希望する音声合成用データベースに切り替えて、音声を再生する再生装置が開示されている。

特開２００５−３２１７０６号公報（２００５年１１月１７日公開）

一般に、人間同士の会話において、発する人の気分や性格によって、同じ意味でも違うフレーズが使われる。例えば、「おはよう」とあいさつをされ、それに対して「おはよう」と返す場合もあれば、「おはよう」以外のフレーズを返す場合もあるし、「おはよう」のイントネーションを変えて、そのときの気分を表現するような場合もある。

一方で、特許文献１に記載の技術では、再生する人間の音声の声色を、ユーザが希望する声色に変更することはできるものの、発するフレーズやイントネーションを変更することができないため、ユーザと装置との間の円滑なコミュニケーションを図ることが困難であった。

本発明は上記問題に鑑みてなされたものであり、その目的は、従来に比べてユーザと円滑なコミュニケーションを図ることが可能な発話制御装置を提供することにある。

上記の課題を解決するために、本発明の一態様に係る発話制御装置は、発話装置に発話させる発話内容を決定する発話制御装置であって、上記発話装置から入力音声情報を取得する音声情報取得部と、上記入力音声情報を認識する音声情報認識部と、上記発話制御装置に設定されたモードと、上記音声情報認識部によって認識された認識情報と、に応じて１又は複数のデータベースを参照することにより、発話内容を決定する発話内容決定部と、上記発話内容決定部が決定した発話内容を上記発話装置に出力する音声出力部と、を備える。

上記の課題を解決するために、本発明の一態様に係る方法は、発話装置に発話させる発話内容を決定する方法であって、上記発話装置から入力音声情報を取得する音声情報取得工程と、上記入力音声情報を認識する音声情報認識工程と、設定されたモードと、上記音声情報認識工程において認識された認識情報と、に応じて１又は複数のデータベースを参照することにより、発話内容を決定する発話内容決定工程と、上記発話内容決定工程において決定された発話内容を上記発話装置に出力する音声出力工程と、を含む。

上記の課題を解決するために、本発明の一態様に係る発話システムは、発話装置と、発話制御装置と、を備えた発話システムであって、上記発話制御装置が、上記発話装置から入力音声情報を取得する音声情報取得部と、上記入力音声情報を認識する音声情報認識部と、上記発話制御装置に設定されたモードと、上記音声情報認識部によって認識された認識情報と、に応じて１又は複数のデータベースを参照することにより、発話内容を決定する発話内容決定部と、上記発話内容決定部が決定した発話内容を上記発話装置に出力する音声出力部と、を備え、上記発話装置が、上記発話制御装置から出力された発話内容を取得する発話内容取得部と、取得した発話内容を発話する発話部と、を備える。

本発明の一態様によれば、発話制御装置は、従来に比べてユーザと円滑なコミュニケーションを図ることができる。

本発明の実施形態１に係る発話システムの構成を示すブロック図である。本発明の実施形態１に係る発話システムにおいて、発話内容決定部が発話内容を決定するために参照するデータベースの例である。本発明の実施形態１に係る発話システムにおける認識フレーズと回答フレーズとの例である。本発明の実施形態５に係る発話システムにおいて、発話内容決定部が発話内容を決定するために参照するあいまいデータベースの例である。本発明の実施形態５に係る発話システムにおける、あいまいフレーズの例である。本発明の実施形態６に係る発話システムにおいて、発話内容決定部が発話内容を決定するために参照するデータベースの例である。本発明の実施形態７に係る発話システムにおいて、サーバに設定されているモードを変更する処理の流れを示すフローチャートである。

〔実施形態１〕
以下、本発明の実施形態１について、詳細に説明する。

（発話システム１の構成）
図１は、本発明の実施形態１に係る発話システム１の構成を示すブロック図である。発話システム１は、図１に示すように、発話装置１０及びサーバ（発話制御装置）２０によって構成されている。

発話システム１では、サーバ２０は、複数のモードを有している。サーバ２０は、複数のモードの中から選択されて設定されたモード（以下、設定されたモードを「発話モード」とも称する）に応じて発話内容を決定し、当該発話内容を発話装置１０から発話させる。

ここで、発話内容とは、発話装置１０が発話すべきフレーズ及びイントネーションを含む情報である。また、発話内容には、発話装置１０が当該フレーズを当該イントネーションで発話する声色、音量、話速、音の高さも含まれる。

また、フレーズとは、１以上の単語によって構成されていればよく、単語の数や文の構成に限定されず、１つの単語であっても、複数の単語によって構成された文であっても、複数の文であってもよい。

また、イントネーションとは、文の切れ目（各発音の間の無音期間の長さ）や文の高低の調子に限定されず、単語のアクセントも含まれる。例えば、東京弁のように「おはよう」を、アクセントなしにフラットに発話することと、関西弁のように「よ」にアクセントをつけて発話することとは、イントネーションが異なっていることになる。なお、フレーズには必ずイントネーションがついているが、本実施形態及び他の実施形態においても、どのようなイントネーションであっても構わない場合については、イントネーションについての言及は省略する。

また、モードとは、フレーズ、またはフレーズ及びイントネーションに関連付けられており、より具体的には、例えば、フレーズが「おはよう」でありイントネーションがフラットであるモード１、フレーズが「おはよう」でありイントネーションが「よ」にアクセントのついたモード２、フレーズが「おはようございます」でありイントネーションがフラットであるモード３、などが挙げられる。したがって、選択されるモードが異なれば、対応する発話内容のフレーズ及びイントネーションの少なくとも何れかが異なることになる。

また、モードは、単にサーバ２０が発話内容を決定するためのパラメータであってもよいが、発話装置１０のキャラクタと一致させてもよい。例えば、サーバ２０が元気モードを有し、元気モードが選択されている場合、サーバ２０は、発話装置１０が元気なキャラクタであるかのような発話内容を決定する、としてもよい。また、例えば、サーバ２０が関西弁モードを有し、関西弁モードが選択されている場合、サーバ２０は、発話装置１０が関西出身のキャラクタであるかのような発話内容を決定する、としてもよい。

サーバ２０において設定可能なモードは例えば以下の通りである。

・東京弁モード
・関西弁モード
・標準モード
・元気モード
・丁寧モード
なお、上記設定可能なモードから複数のモードを選択し、重畳的にサーバ２０に設定することもできる。例えば、関西弁モードと元気モードとを重畳させた元気な関西弁モードといったモードを、サーバ２０に設定することもできる。また、モードを、ユーザの操作によって変更可能な構成であってもよい。

また、各モードについて、サーバ２０は、キャラクタの名称を対応させて管理してもよい。例えば、東京弁モードに対して「江戸っ子コロちゃん」、元気モードに対して「元気なアイちゃん」、丁寧モードに対して「のんびりナオちゃん」等というようなキャラクタ名称をサーバ２０が対応させ、これをモードの名称としてもよい。

さらに、各モードにキャラクタイメージ（グラフィクス、色等）を対応させ、サーバ２０にモードを設定した際に、発話装置１０は、設定されたモードに対応するキャラクタイメージを、後述する表示部に表示させてもよい。

（発話装置１０の構成）
発話装置１０は、図１に示すように、通信部（発話内容取得部）１１、音声情報取得部１２、発話部１３、操作受付部１４、及び表示部１５を備えている。

通信部１１は、サーバ２０に接続されており、サーバ２０との間でデータを送受信することができる。

音声情報取得部１２は、発話装置１０の周辺の音声を取得し、取得した音声を入力音声情報として出力する。

発話部１３は、発話内容を取得し、取得した発話内容に含まれるフレーズを、発話内容に含まれるイントネーションで発話する。

操作受付部１４は、ユーザがハードキー、スイッチ、タッチセンサなどを操作して入力した情報を受け付ける。また、操作受付部１４は、ユーザが発した音声も、ユーザが操作した情報として受け付けることができる。操作受付部１４は、受け付けた情報を操作情報として出力する。

表示部１５は、各種の情報をユーザに報知する機能を有している。表示部１５は、液晶表示パネルに代表される表示パネル、及び発光可能に構成されている発光部のうち、少なくとも何れかを備え、表示パネル又は発光部を介して、各種の情報をユーザに報知することが好ましい。表示部１５は、発光部を備える場合、発光部を発光することによって、ユーザに情報を報知可能である。

また、表示部１５は、設定されているモードをユーザに示す構成を有してもよい。例えば、表示部１５が表示パネルを備える場合、表示部１５は、設定されているモードに対応したキャラクタ（「江戸っ子コロちゃん」、「元気なアイちゃん」、「のんびりナオちゃん」等）のイメージ（グラフィクス）を表示部１５に表示させる。このイメージは動画であってもよく、発話に合わせて動作することがより好ましい。このイメージは、後述するモード設定の際に、設定されたモードに応じて、サーバ２０よりダウンロードして表示部１５に表示させてもよいし、ダウンロード後に発話装置１０に内蔵する記憶部（不図示）に一旦記憶させ、記憶部（不図示）からこれを読み出すことで表示部１５に表示させてもよい。また、予め記憶部（不図示）に記憶させているものを、設定されたモードに応じたイメージを読み出すことで表示部１５に表示させてもよい。

また、表示部１５が発光部を備える場合、表示部１５は、設定されたモードに応じた色を発光部に発光させてもよい。例えば、東京弁モードのときは青、元気モードのときは赤、丁寧モードのときは緑、等である。また、表示部１５は、発話に合わせて発光部を点滅させてもよい。

（サーバ２０の構成）
サーバ２０は、図１に示すように、サーバ通信部（音声出力部）２１、制御部２２、記憶部２３、及び外部情報取得部（音声情報取得部）２４を備えている。

サーバ通信部２１は、発話装置１０に接続されており、発話装置１０との間でデータを送受信することができる。

制御部２２は、サーバ２０の各構成を統括的に制御するものである。制御部２２の機能は、例えばＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）やフラッシュメモリなどの記憶装置に記憶されたプログラムをＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇ
Ｕｎｉｔ）が実行することによって実現される。また、図１に示すように、制御部２２は、音声情報認識部（認識手段）２５及び発話内容決定部（発話内容決定手段、判定手段）２６としても機能する。

記憶部２３は、認識フレーズと認識フレーズに対応した回答フレーズとを含むデータベースや、あいまいな回答フレーズを含むあいまいデータベースなど、各種データベースを記憶している。なお、それぞれのデータベースの詳細については、後述する。

外部情報取得部２４は、ネットワーク２に接続されており、制御部２２からの指示により、ネットワーク２から外部情報を取得することができる。

（制御部２２の構成）
上述したように、制御部２２は、音声情報認識部２５及び発話内容決定部２６としても機能する。

音声情報認識部２５は、取得した入力音声情報を認識し、認識情報として出力する。ここで、音声情報認識部２５が入力音声情報を認識するとは、音声情報認識部２５が、入力音声情報に含まれるフレーズ及びイントネーションを判別することである。例えば、入力音声情報が、アクセントのないフラットな「おはよう」を含む場合、音声情報認識部２５は、取得した入力音声情報が含むフレーズが「おはよう」であり、イントネーションはアクセントがないフラットである、と判別する。そして、認識フレーズが「おはよう」であり、認識イントネーションは「アクセントがないフラット」であることを示す認識情報を、音声情報認識部２５は出力する。

発話内容決定部２６は、設定されたモード及び音声情報認識部２５が出力する認識情報に応じて、発話装置１０に発話させる発話内容を決定する。発話内容決定部２６が発話内容を決定する処理の詳細については、後述する。

（制御部２２の処理）
制御部２２の処理について、図２を用いて以下に説明する。

図２は、本発明の実施形態１に係る発話システム１において、発話内容決定部２６が発話内容を決定するために参照するデータベースの例である。

図２に示すように、各データベースには、認識フレーズと、それに対応する回答フレーズ及びイントネーションとが含まれている。また、各データベースは、同一カテゴリに含まれる認識フレーズ及び回答フレーズをそれぞれ含んでいる。例えば、「朝のあいさつ」というカテゴリに含まれるフレーズとして、データベース１及びデータベース２の認識フレーズには「おはよう」、データベース３の認識フレーズには「おはようございます」が含まれている。また、図２に示すように、データベース１〜３には、「帰宅時のあいさつ」というカテゴリに含まれるフレーズとして、「ただいま」「ただいま」及び「ただいま戻りました」をそれぞれ含んでおり、「就寝時のあいさつ」というカテゴリに含まれるフレーズとして、「おやすみ」「おやすみなさい」をそれぞれ含んでいる。また、各データベースは、サーバ２０が有するモードにそれぞれ対応している。例えば、データベース１は標準モード、データベース２は元気モード、データベース３は丁寧モードにそれぞれ対応しているとする。なお、本実施形態においては、データベース１〜３に含まれるイントネーションはすべてアクセントのないフラットなイントネーションとする。

図２に示すデータベースが記憶部２４に記憶されており、ユーザが発話装置１０に対して、アクセントがなくフラットなイントネーションで「おはよう」と発した場合に、制御部２２が行う処理について、説明する。

まず、音声情報取得部１２は、アクセントがなくフラットなイントネーションの「おはよう」を含む入力音声情報を、通信部１１を介してサーバ２０に出力する。サーバ２０の制御部２２は、サーバ通信部２１を介して入力音声情報を取得する。そして、音声情報認識部２５は、取得した入力音声情報を認識する。この場合、音声情報認識部２５は、認識フレーズ「おはよう」と、認識イントネーション「アクセントがないフラット」とを示す認識情報を、発話内容決定部２６に出力する。

発話内容決定部２６は、取得した認識情報から、発話装置１０が発話すべき発話内容を決定する。

例えば、サーバ２０に標準モードが設定されている場合、発話内容決定部２６は、標準モードに対応するデータベース１を参照し、認識フレーズ「おはよう」に対応する回答フレーズ「おはよう」を選択する。そして、発話内容決定部２６は、選択した「おはよう」というフレーズと、アクセントがないフラットなイントネーションとを、発話内容として決定する。

また、例えば、サーバ２０に元気モードが設定されている場合、発話内容決定部２６は、参照するデータベースを、元気モードに対応するデータベース２に切り替え、認識フレーズ「おはよう」に対応する回答フレーズ「今日も気合入れていこう！」を選択する。そして、発話内容決定部２６は、選択した「今日も気合入れていこう！」というフレーズと、アクセントがないフラットなイントネーションとを、発話内容として決定する。

そして、発話内容決定部２６は、決定した発話内容を、サーバ通信部２１を介して発話装置１０に出力する。発話装置１０の発話部１３は、通信部１１を介して発話内容を取得し、取得した発話内容に含まれるフレーズを、発話内容に含まれるイントネーションで発話する。

また、例えば、サーバ２０に丁寧モードが設定されている場合、発話内容決定部２６は、参照するデータベースを、丁寧モードに対応するデータベース３に切り替える。ここで、データベース３において、「朝のあいさつ」というカテゴリに含まれる認識フレーズは「おはようございます」であり、発話内容決定部２６が音声情報認識部２５から取得した認識フレーズ「おはよう」とは異なるので、発話内容決定部２６は、回答フレーズを選択しない。したがって、発話内容を決定しないため、サーバ２０は、発話装置１０から何も発話させない。

なお、サーバ２０は、認識フレーズを含まないフレーズデータベースを参照する構成であってもよい。この場合、発話内容決定部２６は、フレーズデータベースを参照し、フレーズデータベースを切り替えることによって発話内容を決定することができる。

また、この場合、サーバ２０は、フレーズデータベースに対応付けられた認識データベースであって、認識フレーズを含み回答フレーズを含まない認識データベースを参照する構成としてもよい。当該構成において、音声情報認識部２５は、当該認識データベースを参照し、入力音声情報に含まれるフレーズに応じて、認識データベースを切り替え、入力音声情報を認識することができる。

続いて、サーバに設定されたモードによって、発話すべきフレーズのイントネーションを設定する処理について、説明する。

まず、図２のデータベース１と同じ認識フレーズ及び回答フレーズを有し、回答フレーズの各フレーズに、データベース１の回答フレーズとは異なるイントネーションが含まれるデータベース１０を、記憶部２４に記憶させる。本実施形態では、認識フレーズ「おはよう」に対して、「おはよう」の「よ」にアクセントをつけたイントネーションの回答フレーズを、データベース１０は含むとする。そして、データベース１０を、関西弁モードに対応させる。特定の音にアクセントをつける方法として、例えば、回答フレーズを一文字ずつに分け、特定の文字にアクセントをつけてもよい。また、特定の文字にアクセントがついた回答フレーズを実際に人が発した声を予め録音し、録音した音声を用いてもよい。

ユーザが発話装置１０に対して、アクセントがなくフラットなイントネーションで「おはよう」と発した場合に、発話内容決定部２６が行う処理について、説明する。

まず、発話内容決定部２６は、音声情報認識部２５から、認識フレーズ「おはよう」と、認識イントネーション「アクセントがないフラット」とを示す認識情報を取得する。そして、発話内容決定部２６は、取得した認識情報から、発話装置１０が発話すべき発話内容を決定する。

例えば、サーバ２０に関西弁モードが設定されている場合、発話内容決定部２６は、関西弁モードに対応するデータベース１０を参照し、認識フレーズ「おはよう」に対応する回答フレーズ「おはよう」を選択する。また、発話内容決定部２６は、「おはよう」のイントネーションを、データベース１０の回答フレーズのイントネーションである「よ」にアクセントをつけるイントネーションに設定する。そして、発話内容決定部２６は、選択した「おはよう」というフレーズと、「よ」にアクセントをつけるイントネーションとを、発話内容として決定する。

なお、サーバ２０は、１又は複数の回答フレーズに対してそれぞれ異なるイントネーションが設定されている複数のフレーズデータベースを参照する構成としてもよい。このような構成において、発話内容決定部２６は、参照する上記フレーズデータベースを切り替えることにより、発話内容を決定する。

また、この場合、サーバ２０は、フレーズデータベースに対応付けられた認識データベースであって、イントネーションが設定された認識フレーズを含み回答フレーズを含まない認識データベースを参照する構成としてもよい。当該構成において、音声情報認識部２５は、当該認識データベースを参照し、入力音声情報に含まれるフレーズに応じて、当該認識データベースを切り替え、入力音声情報を認識することができる。

このように、実施形態１に係る発話システム１では、ユーザからの「おはよう」に対して、「おはよう」または「今日も気合入れていこう！」を、発話装置１０から発話させることができる。また、ユーザからの「おはよう」に対して、アクセントのないフラットなイントネーションの「おはよう」や、「よ」にアクセントのついたイントネーションの「おはよう」を、発話装置１０から発話させることができる。したがって、発話システム１は、同一カテゴリ（「朝のあいさつ」とういカテゴリ）に含まれる複数のフレーズ（「おはよう」及び「今日も気合入れていこう！」）から発話すべきフレーズを選択する選択処理と、発話すべきフレーズのイントネーションを設定する設定処理と、の少なくとも何れかの処理を行うことにより、ユーザに合わせた発話内容を発話装置１０から発話させることができるので、従来に比べてユーザと円滑なコミュニケーションを図ることができる。なお、認識フレーズと回答フレーズとの例を、図３に示す。図３は、本発明の実施形態１に係る発話システムにおける認識フレーズと回答フレーズとの例である。

なお、サーバ２０が備える制御部２２及び記憶部２３は、発話装置１０が備える構成であってもよい。この場合、発話装置１０の発話内容決定部２６において、同一カテゴリから発話すべきフレーズを選択する選択処理と、発話すべきフレーズのイントネーションを設定する設定処理と、の少なくとも何れかの処理を行うことにより発話内容を決定する。そして、発話部１３は、当該発話内容を取得し、当該発話内容に含まれるフレーズを、当該発話内容に含まれるイントネーションで発話する。したがって、ユーザに合わせた発話内容を発話装置１０は発話することができるので、ユーザと円滑なコミュニケーションを図ることができる。

〔実施形態２〕
実施形態１では、発話システム１は、入力音声情報に含まれるフレーズによって、発話装置１０に発話させるフレーズを選択または発話装置１０に発話させるフレーズのイントネーションを設定したが、入力音声情報に含まれるイントネーションによって、発話装置１０に発話させるフレーズを選択する、または発話装置１０に発話させるフレーズのイントネーションを設定する構成としてもよい。

まず、図２に示すデータベース１、データベース２、及びデータベース３の認識フレーズと共にフラットなイントネーションを含め、データベース１の各認識フレーズの特定の音にアクセントのあるイントネーションを含めたデータベース４を、記憶部２３が記憶している場合について、説明する。本実施形態では、データベース４のイントネーションとして、「おはよう」の「よ」にアクセントをつけたイントネーションとし、各データベースに対応するモードは、実施形態１と同じとする。そして、入力音声情報が、「おはよう」の「よ」にアクセントをつけたイントネーションを含む場合について、説明する。

まず、音声情報認識部２５は、入力音声情報を認識し、認識フレーズが「およよう」、認識イントネーションが「おはよう」の「よ」にアクセントをつけたイントネーションであることを示す認識情報を発話内容決定部２６に出力する。

例えば、サーバ２０に関西弁モードが設定されている場合、発話内容決定部２６は、関西弁モードに対応するデータベース４を参照し、データベース４の認識フレーズと、認識フレーズのイントネーションとが、取得した認識情報と一致するか否かを判定する。本実施形態では、データベース４の認識フレーズと、認識フレーズのイントネーションとが、取得した認識情報と一致するので、発話内容決定部２６は、認識情報に対応した「おはよう」というフレーズと、「よ」にアクセントをつけるイントネーションとを、発話内容として決定する。

また、例えば、サーバ２０に標準モードが設定されている場合、発話内容決定部２６は、標準モードに対応するデータベース１を参照し、データベース１の認識フレーズと、認識フレーズのイントネーションとが、取得した認識情報と一致するか否かを判定する。本実施形態では、データベース４の認識フレーズのイントネーションと、認識情報のイントネーションとは一致しないので、発話内容決定部２６は、発話内容を決定しない。

このように実施形態２に係る発話システム１では、入力音声に含まれるイントネーションに応じて、発話内容を決定することができる。したがって、発話システム１は、ユーザのイントネーションに応じた発話内容を発話装置１０から発話させることができるので、従来に比べてユーザとより円滑なコミュニケーションを図ることができる。

〔実施形態３〕
上述した実施形態では、発話システム１は、認識した入力音声情報に対応した発話内容を、発話装置１０から発話させたが、入力音声情報を取得しない構成であってもよく、発話内容決定部２６は、予め定められた条件が満たされた場合に、予め定められた処理を実行してもよい。

例えば、予め定められた条件が「朝の７時」であり、予め定められた処理が「朝のあいさつをする」であった場合、発話内容決定部２６は、朝の７時になると、朝のあいさつに含まれるフレーズを選択し、発話内容を決定する。例えば、サーバ２０に標準モードが設定されている場合、朝の７時になると、発話内容決定部２６は、標準モードに対応するデータベース１を参照し、朝のあいさつである「おはよう」というフレーズと、アクセントのないフラットなイントネーションとを、発話内容として決定する。また、例えば、サーバ２０に丁寧モードが設定されている場合、朝の７時になると、発話内容決定部２６は、参照するデータベースを、丁寧モードに対応するデータベース３に切り替える。そして、発話内容決定部２６は、朝のあいさつである「おはようございます」というフレーズと、アクセントのないフラットなイントネーションとを、発話内容として決定する。

このように、実施形態３に係る発話システム１は、予め設定された条件が満たされた場合に、予め定められた処理を実行することができる。したがって、発話システム１は、ユーザから入力音声情報を取得しなくても、発話装置１０が自ら発話するので、従来に比べてユーザとより円滑なコミュニケーションを図ることができる。

また、実施形態３では、認識フレーズと回答フレーズとが対応する必要はなく、認識フレーズと回答フレーズとが別々になったデータベースを参照する構成であってもよい。このような構成において、認識フレーズを含まないフレーズデータベースが記憶部２３に複数記憶されており、発話内容決定部２６は、これらのフレーズデータベース切り替えることにより、発話内容を決定することができる。

〔実施形態４〕
実施形態３において説明したように、記憶部２３に記憶されるデータベースは、認識フレーズと回答フレーズとが別々になったデータベースであってもよい。したがって、回答フレーズを含まない認識データベースを切り替えることにより、音声情報認識部２５は、入力音声情報を認識するという構成であってもよい。

例えば、図２に示すデータベース１、データベース２、及びデータベース３の回答フレーズを含まない認識データベース１、認識データベース２、及び認識データベース３を記憶部２３が記憶している場合について、説明する。この場合、入力音声情報がフラットなイントネーションの「おはようございます」を含む場合、音声情報認識部２５は、認識データベースを切り替えることにより、入力音声情報に含まれるフレーズが認識データベース１及び認識データベース２の認識フレーズとは異なり、認識データベース３の認識フレーズと一致することを認識することができる。

また、実施形態２において説明したように、認識データベースに認識フレーズと共にイントネーションを含めておくことにより、イントネーションによって認識データベースを切り替える構成であってもよい。

例えば、上述した認識データベース１、認識データベース２、及び認識データベース３の認識フレーズと共にフラットなイントネーションを含め、データベース１の各認識フレーズの特定の音にアクセントがついたイントネーションを含めた認識データベース４を、記憶部２３が記憶している場合について、説明する。本実施形態では、データベース４のイントネーションとして、「おはよう」の「よ」にアクセントをつけたイントネーションとする。

この場合、入力音声情報が「おはよう」の「よ」にアクセントをつけたイントネーションを含んでいる場合、音声情報認識部２５は、認識データベースを切り替えることにより、認識データベース１、認識データベース２、及び認識データベース３の認識フレーズのイントネーションとは異なり、認識データベース４の認識フレーズのイントネーションと一致することを認識することができる。

〔実施形態５〕
上述した実施形態において、取得した認識フレーズと一致する認識フレーズが参照するデータベースに含まれている場合、または取得した認識イントネーションが参照するデータベースに含まれている場合、発話内容決定部２６は、認識フレーズが含まれるカテゴリと一致するカテゴリに含まれるフレーズを、発話内容として決定している。一方、取得した認識フレーズと一致する認識フレーズが参照するデータベースに含まれていない場合、及び取得した認識イントネーションと一致するイントネーションが参照するデータベースに含まれていない場合、の少なくとも何れかの場合に、発話内容決定部２６は発話内容を決定しないとした。しかしながら、ユーザが発したフレーズに対して発話装置１０が何も反応しないと、ユーザは、自らが発したフレーズを発話装置が音声情報として取得していないのか、それとも、自らが発したフレーズに対応する回答がないのか、それとも故障しているのか、を判断することができない。そこで、本実施形態では、ユーザが発したフレーズに対応する回答が、参照するデータベースに存在しない場合でも、発話内容決定部２６が発話内容を決定する処理について、図４を用いて説明する。

図４は、本発明の実施形態５に係る発話システム１において、発話内容決定部２６が発話内容を決定するために参照するあいまいデータベースの例である。あいまいデータベースとは、あいまいなフレーズ（以下、あいまいフレーズとも呼ぶ）を含んでいるデータベースである。ここで、あいまいフレーズとは、入力音声情報が含むフレーズのカテゴリとは異なるカテゴリに含まれるフレーズであると表現することもできる。換言すると、あいまいフレーズとは、入力音声情報に含まれるフレーズ及びイントネーションが、所定のフレーズ及びイントネーションと一致する場合に選択されるフレーズのカテゴリとは異なるカテゴリに含まれるフレーズであると表現することもできる。また、あいまいフレーズとは、入力音声情報が認識できない、または認識できたが対応する回答フレーズがないということを暗示するフレーズであると表現することもできる。

本実施形態において、データベース４は標準モードに対応し、データベース５は元気モードに対応する。なお、あいまいフレーズの例を、図５に示す。図５は、本発明の実施形態５に係る発話システム１における、あいまいフレーズの例である。

続いて、発話内容決定部２６が、取得した認識フレーズと一致する認識フレーズが参照するデータベースに含まれていない場合にあいまいデータベースを参照する例について、説明する。

まず、音声情報認識部２５は、入力音声情報を認識し、認識情報を発話内容決定部２６に出力する。発話内容決定部２６は、認識情報に基づく発話内容を、サーバ２０に設定されているモードに応じて決定する。ここで、認識情報に含まれる認識フレーズが、参照するデータベースの認識フレーズと一致しない場合、発話内容決定部２６は、あいまいデータベースを参照し、あいまいフレーズを選択する。

例えば、サーバ２０に標準モードが設定されており、入力音声情報が「おはようございます」というフレーズを含んでいる場合、発話内容決定部２６は、まずデータベース１を参照し、「おはようございます」に対応する回答フレーズを選択する。ここで、データベース１には、「おはようございます」に対応する回答フレーズはないため、続いて、データベース４を参照し、「うんうん」を回答フレーズとして選択する。なお、発話内容決定部２６は、データベース４から回答フレーズを選択する場合に、所定の条件（例えば、データベース４に含まれる回答フレーズを、上から順番に選択する、など）に基づいて選択してもよいし、ランダムに回答フレーズを選択してもよい。ランダムに回答フレーズを選択する構成とすれば、ユーザに対して、より自然なコミュニケーションの印象を与えることができる。

また、例えば、サーバ２０に元気モードが設定されており、入力音声情報が「おはようございます」というフレーズを含んでいる場合、発話内容決定部２６は、まずデータベース２を参照し、「おはようございます」に対応する回答フレーズを選択する。ここで、データベース２には、「おはようございます」に対応する回答フレーズはないため、続いて、データベース５を参照し、「いいことありそう！」を回答フレーズとして選択する。

このように、実施形態５に係る発話システム１では、ユーザからの入力音声情報に含まれるフレーズが、所定のフレーズと一致しない場合（音声情報に含まれるフレーズ対応する回答フレーズがない場合）、発話装置１０は、あいまいフレーズを発話する。したがって、ユーザは、あたかも人と会話しているかのように発話装置と会話することができるので、発話システム１では、ユーザとより円滑なコミュニケーションを図ることができる。

次に、発話内容決定部２６が、取得した認識フレーズと一致する認識フレーズが参照するデータベースに含まれている場合であっても、取得した認識イントネーションが参照するデータベースと一致しない場合にあいまいデータベースを参照する例について、説明する。

まず、音声情報認識部２５は、入力音声情報を認識し、認識情報を発話内容決定部２６に出力する。発話内容決定部２６は、認識情報に基づく発話内容を、サーバ２０に設定されているモードに応じて決定する。ここで、認識情報に含まれる認識フレーズが、参照するデータベースの認識フレーズと一致しているが、認識イントネーションが、参照するデータベースの認識フレーズに設定されたイントネーションと一致しない場合、発話内容決定部２６は、あいまいデータベースを参照し、あいまいフレーズを選択する。

例えば、サーバ２０に標準モードが設定されており、入力音声情報が、フレーズ「おはよう」の「よ」にアクセントをつけたイントネーションを含む場合、発話内容決定部２６は、認識フレーズ「おはよう」及び「よ」にアクセントをつけた認識イントネーションに対応する回答フレーズを、データベース１から選択する。ここで、データベース１には、認識フレーズ「おはよう」に対応する回答フレーズ「おはよう」はあるが、「おはよう」及び「よ」にアクセントをつけた認識イントネーションに対応する回答フレーズはないため、発話内容決定部２６は、データベース４を参照し、「もう１回言って」を回答フレーズとして選択する。なお、発話内容決定部２６は、データベース４から回答フレーズを選択する場合に、上述したように、所定の条件（例えば、データベース４に含まれる回答フレーズを、上から順番に選択する、など）に基づいて選択してもよいし、ランダムに回答フレーズを選択してもよい。ランダムに回答フレーズを選択する構成とすれば、ユーザに対して、より自然なコミュニケーションの印象を与えることができる。

また、例えば、サーバ２０に元気モードが設定されており、入力音声情報がフレーズ「おはよう」の「よ」にアクセントをつけたイントネーションを含む場合、発話内容決定部２６は、認識フレーズ「おはよう」及び「よ」にアクセントをつけた認識イントネーションに対応する回答フレーズを、データベース２から選択する。ここで、データベース２には、認識フレーズ「おはよう」に対応する回答フレーズ「今日も気合入れていこう！」はあるが、「おはよう」及び「よ」にアクセントをつけた認識イントネーションに対応する回答フレーズはないため、発話内容決定部２６は、データベース５を参照し、「声が小さい！」を回答フレーズとして選択する。

このように、実施形態５に係る発話システム１では、ユーザからの入力音声情報に含まれるフレーズが、所定のフレーズと一致する場合（音声情報に含まれるフレーズ対応するフレーズがある場合）であっても、所定のイントネーションと一致しない場合、発話装置１０は、あいまいフレーズを発話する。したがって、ユーザは、あたかも人と会話しているかのように発話装置と会話することができるので、発話システム１では、ユーザとより円滑なコミュニケーションを図ることができる。

〔実施形態６〕
上述した実施形態では、サーバ２０は、入力音声情報に対応した回答フレーズを発話装置１０から発話させたが、入力音声情報に基づいて外部情報を取得し、外部情報に対応した回答フレーズを発話装置１０に発話させる構成としてもよい。外部情報を取得する構成である実施形態６について、図６を用いて説明する。

図６は、本発明の実施形態６に係る発話システム１において、発話内容決定部２６が発話内容を決定するために参照するデータベースの例である。図６のデータベース６は、認識フレーズに対応する指示が含まれている。指示とは、発話内容決定部２６が実行する処理のことである。例えば、図６のデータベース６には、「ネットワークから天気情報を取得する」という指示が含まれている。続いて、データベース７及びデータベース８は、外部情報に対応した回答フレーズが含まれている。外部情報とは、発話内容決定部２６が外部情報取得部２４を介して取得した情報である。例えば、図６のデータベース７及び８には、「晴れ」「雨」という天気に関する天気情報が外部情報として含まれている。本実施形態では、データベース７は標準モード、データベース８は元気モードにそれぞれ対応しており、入力音声情報が「今日の天気は？」というフレーズであった場合を例に挙げ、説明する。

まず、音声情報認識部２５は、入力音声情報を認識し、認識フレーズが「今日の天気は？」であることを示す認識情報を、発話内容決定部２６に出力する。発話内容決定部２６は、参照するデータベースを切り替え、取得した認識情報に対応する「ネットワークから天気情報を取得する」という指示を実行する。そして、発話内容決定部２６は、外部情報取得部２４を介して、天気情報を取得する。

続いて、発話内容決定部２６は、取得した天気情報に対応する回答フレーズを選択する。

例えば、取得した天気情報が「晴れ」であり、サーバ２０に標準モードが設定されている場合、発話内容決定部２６は、標準モードに対応するデータベース７を参照し、「晴れだよ」というフレーズを発話内容として決定する。

また、例えば、取得した天気情報が「雨」であり、サーバ２０に元気モードが設定されている場合、発話内容決定部２６は、元気モードに対応するデータベース８を参照し、「雨だー！」というフレーズを発話内容として決定する。

このように、実施形態６に係る発話システム１では、入力音声情報に対応した指示、及び外部情報に対応した回答フレーズを含むデータベースを備えることにより、外部情報及びサーバ２０に設定されているモードに応じた発話内容を、発話装置１０に発話させることができる。したがって、発話システム１は、リアルタイムに取得した外部情報に応じた発話内容を、発話装置１０から発話させることができる。

〔実施形態７〕
本実施形態では、サーバ２０に設定されている発話モードを、ユーザが発する音声によってサーバ２０が変更する処理について、図７を用いて説明する。なお、本実施形態において、サーバ２０から送信された発話内容を、発話装置１０の通信部（確認案内フレーズ受信手段）１１を介して発話部（確認案内フレーズ発話手段）１３が取得し、該発話内容を発話部１３が発話する処理、及び、音声情報取得部（回答受付手段）１２が音声情報を取得し、通信部（回答送信手段）１１を介してサーバ２０に送信する処理については、上述の実施形態において既に説明したためここでは説明を省略する。

図７は、本発明の実施形態７に係る発話システム１において、サーバ２０に設定されているモードを変更する処理の流れを示すフローチャートである。サーバ２０は、発話装置１０から、モードを変更することを示す操作情報を取得すると、発話内容決定部２６は、モードを変更するか否かをユーザに確認する確認案内フレーズ（例えば、「元気モードに変更します。よろしいですか？」など）を選択する。そして、発話内容決定部２６は、選択した確認案内フレーズを含む発話内容を、サーバ通信部２１（確認案内フレーズ送信手段）を介して発話装置１０に出力する（ステップＳ１）。

なお、サーバ２０に対して発話装置１０が複数ある場合、モード変更の対象となる発話装置を特定するための情報を、モードを変更することを示す操作情報に含めておく構成としてもよい。また、サーバ２０は、モードを変更することを示す操作情報を、サーバ２０に接続されている入力装置を介して取得してもよい。また、発話装置１０が備える操作受付部１４が受け付けた操作情報を、発話装置１０がサーバ２０に送信することにより、サーバ２０は、モードを変更することを示す操作情報を取得してよい。

また、ユーザが発話装置１０に発する音声によってモードを変更する構成としてもよい。より具体的には、各モードに対応するキャラクタ名称の特徴的な一部（例えば、「アイちゃん」や「ナオちゃん」等）、またはキャラクタ名称の全部（例えば、「元気なアイちゃん」、「のんびりナオちゃん」等）を含む音声情報を、発話装置１０の音声情報取得部１２が取得し、取得した音声情報をサーバ２０が受信することによって、サーバ２０は、設定されているモードを変更してもよい。この場合、音声情報取得部１２が取得した音声情報を、発話装置１０がそのままサーバ２０に送信し、サーバ２０において対応するモードを特定してもよいし、発話装置１０が、各モードとキャラクタ名称とを対応させ、発話装置１０が、音声情報取得部１２が取得した音声情報に対応するモードを特定し、特定したモードを示すモード情報をサーバ２０に送信してもよい。

また、ステップＳ１において、発話内容決定部２５は、確認案内フレーズとして、モードに対応したキャラクタ名称を使用した確認案内フレーズを選択してもよい。キャラクタ名称を使用した確認案内フレーズの一例として、「元気なアイちゃんになります。いいかな？」が挙げられる。さらに、発話装置１０は、キャラクタ名称を使用した確認案内フレーズを発話する場合、「元気なアイちゃん」のキャラクタイメージを、表示部１５が備える表示パネルに表示させてもよい。そして、発話内容決定部２６は、発話内容の出力とともに、タイマーをスタートさせる（ステップＳ２）。

次に、発話内容決定部２６は、スタートさせたタイマーが、所定の時間を経過し、タイムアウトが発生したか否かを判定する（ステップＳ３）。ここで、所定の時間とは、出力した確認案内フレーズに対するユーザの回答を受け付ける時間である。

ステップＳ３において、「タイムアウトが発生した」と判定された場合（ステップＳ３：ＹＥＳ）、発話内容決定部２６は、タイムアウトが発声したため、モードを変更する処理を中止することを示すタイムアウト案内フレーズ（例えば、「時間切れのため、モード変更を中止しました」など）を選択する。そして、発話内容決定部２６は、選択したタイムアウト案内フレーズを含む発話内容を、サーバ通信部２１を介して発話装置１０に出力する（ステップＳ４）。

一方、ステップＳ３において、「タイムアウトは発生していない」と判定された場合（ステップＳ３：ＮＯ）、音声情報認識部（取得手段）２５は、サーバ通信部（回答受付手段）２１を介して、上記確認案内フレーズに対する回答である音声情報を取得したか否かを判定する（ステップＳ５）。

ステップＳ５において、「入力音声情報を取得していない」と判定された場合（ステップＳ５：ＮＯ）、発話内容決定部２６の処理は、タイムアウトが発生したか否かを判定するステップＳ３に戻る。

一方、ステップＳ５において、「入力音声情報を取得した」と判定された場合（ステップＳ５：ＹＥＳ）、音声情報認識部２５は、ユーザからの回答である入力音声情報を認識する（ステップＳ６）。そして、発話内容決定部（モード変更決定手段）２６は、音声情報認識部２５によって認識されたフレーズに応じて、モードを変更するか否かを決定する。

ステップＳ６において、「取得した音声情報は、ユーザが変更を承認することを示す確認フレーズ（例えば、「いいよ」など）である」と判定された場合（ステップＳ６：確認フレーズ）、発話内容決定部２６は、モードを変更することを決定する。そして、発話内容決定部２６は、設定されているモードを変更し、モード変更が完了したことを示す確認完了フレーズ（例えば、「モードを変更しました」）を選択する。そして、発話内容決定部２６は、選択した確認完了フレーズを含む発話内容を、サーバ通信部２１を介して発話装置１０に出力する（ステップＳ７）。

また、ステップＳ６において、「取得した音声情報は、確認フレーズとは異なる誤フレーズ（例えば、「おはよう」など）である」と判定された場合（ステップＳ６：誤フレーズ）、発話内容決定部２６は、モードを変更しないことを決定し、誤フレーズを取得した回数が３回目か否かを判定する（ステップＳ８）。

ステップＳ８において、「誤フレーズを取得した回数は、３回目ではない」と判定された場合（ステップＳ８：ＮＯ）、発話内容決定部２６は、ユーザに再度確認フレーズを発してもらうように促すことを示す再確認案内フレーズ（例えば、「もう１回言って下さい」など）を選択する。そして、発話内容決定部２６は、選択した再確認案内フレーズを含む発話内容を、サーバ通信部２１を介して発話装置１０に出力する（ステップＳ９）。そして、発話内容決定部２６は、再びタイマーを初めからスタートさせるため、ステップＳ２に戻る。

一方、ステップＳ８において、「誤フレーズを取得した回数は、３回目である」と判定された場合（ステップＳ８：ＹＥＳ）、発話内容決定部２６の処理は、モード変更を終了するステップＳ１０に進む。

また、ステップＳ６において、「取得した音声情報は、ユーザがモードの変更を中止することを示す終了フレーズ（例えば、「やめる」など）である」と判定された場合（ステップＳ６：終了フレーズ）、発話内容決定部２６は、モードを変更しないことを決定し、モードを変更する処理を終了することを示す終了案内フレーズ（例えば、「モード変更を中止しました」など）を選択する。そして、発話内容決定部２６は、選択した終了案内フレーズを含む発話内容を、サーバ通信部２１を介して発話装置１０に出力する（ステップＳ１０）。

また、ステップＳ６において、「取得した音声情報は、ノイズである」と判定された場合（ステップＳ５：ノイズ）、発話内容決定部２６の処理は、モードを変更しないことを決定し、タイムアウトが発生したか否かを判定するステップＳ３に戻る。なお、音声情報がノイズであるか否かを判定する方法として、例えば、入力音声情報に含まれる音の大きさが、所定の範囲に含まれているか否かによって判定する方法が挙げられる。ここで、所定の範囲の例として、ユーザが会話において発する音の大きさに含まれない範囲を挙げると、音声情報に含まれる音の大きさが、ユーザが会話において発する音の大きさより小さい、またはユーザが会話において発する音の大きさより大きい、の何れかに含まれる場合、発話内容決定部２６は、入力音声情報はノイズであると判定する。

このように、実施形態７に係る発話システム１では、サーバ２０に設定されているモードをユーザが変更する場合、ユーザからモード変更の操作を受け付けた後、さらにモード変更するか否かを確認することができる。したがって、サーバ２０に設定されているモードが誤って変更されるのを防ぐことができる。また、発話システム１において、発話装置１０が確認案内フレーズを発話し、それに対してユーザが発話することにより、サーバ２０の設定を変更することができる。換言すると、ユーザと発話装置１０とが会話することによって、サーバ２０の設定が変更できるので、発話システム１は、ユーザと円滑なコミュニケーションを図ることができる。

なお、図７のステップＳ５において、音声情報認識部２５が認識した認識フレーズに基づいて発話内容決定部２６は次の処理を実行したが、認識フレーズ及び認識イントネーションに基づいて、発話内容決定部２６は次の処理を実行してもよい。

例えば、ステップＳ１において、発話内容決定部２６は、モードを変更することを示す操作情報を取得すると、発話内容を決定するために参照するデータベースを、変更した後のモードに対応するデータベースとする構成であってもよい。より具体的には、発話内容決定部２６は、元気モードに変更することを示す操作情報を取得した場合、発話内容決定部２６は、発話内容を決定するために参照するデータベースを、確認フレーズとして「ＯＫ！」「よろしく！」を含んだ元気モードに対応するデータベースに切り替える（ステップＳ１）。なお、モード変更の対象となる発話装置を特定するための情報が操作情報に含まれている場合、モード変更の対象となる発話装置の発話についてデータベースを切り替える。

次に、発話内容決定部２６が実行するステップＳ２〜Ｓ４、及び音声情報認識部２５が実行するステップＳ５については、既に説明しているため、省略する。

続いて、ステップＳ６において、音声情報認識部２５が、ユーザから「いいよ」というフレーズを含む音声情報を取得した場合、元気モードに対応した確認フレーズではないため、誤フレーズとして、発話内容決定部２６は、ステップＳ８に進む。

このように、実施形態７に係る発話システム１では、変更後のモードにおいて、ユーザは変更後のモードに対応する認識フレーズを入力音声情報として発話できるか否かを、モードを変更する前に確認することができる。

なお、実施形態７に係る発話システム１では、入力音声情報を所定の条件でサーバ２０が取得した場合に、サーバ２０に設定されたモードを変更できる構成としてもよい。所定の条件として、例えば、音量が所定の値よりも大きい入力音声情報を、サーバが複数回（例えば３回）続けて取得した場合、サーバ２０は元気モードに変更するとしてもよい。所定の音量よりも大きい入力音声情報をユーザが発している場合、ユーザが元気だと判断できるので、サーバ２０が元気モードに変更することにより、ユーザにより楽しく発話装置１０と会話させることができる。

また、実施形態７に係る発話システム１において、発話装置１０が制御部２２及び記憶部２３を備えることにより、発話装置１０が図７の処理を実行してもよい。この場合、発話装置の発話内容決定部（決定手段）２６において決定した確認案内フレーズを、発話部（確認案内フレーズ発話手段）１３が発話する。そして、音声情報取得部（回答受付手段）１２が、確認案内フレーズに対する回答である入力音声情報を取得し、取得した入力音声情報を音声情報認識部２５に出力する。そして、音声情報認識部２５が認識したフレーズに応じて、発話内容決定部２６が、モードを変更するか否かを決定する。したがって、発話装置１０は、ユーザと円滑なコミュニケーションを図ることができる。

〔実施形態８〕
発話内容決定部２６は、フレーズやイントネーションに加え、決定した発話内容の声色、音量、話速、音の高さを、サーバ２０に設定されたモードに応じて変更できる変更部（変更手段）を備える構成としてもよい。

例えば、サーバ２０に元気モードが設定された場合、発話内容決定部２６は、変更部において、声色を元気な声色に変更し、音量を標準モードの１．２倍、話速を標準モードの１．３倍に変更する、としてもよい。

また、例えば、サーバ２０に丁寧モードが設定された場合、発話内容決定部２６は、変更部において、声色を丁寧な声色に変更し、音量を標準モードの０．９倍、話速を標準モードの０．８倍、音の高さを標準モードの１．２倍に変更する、としてもよい。

このように、実施形態８に係る発話システム１では、決定した発話内容の声色、音量、話速、音の高さを、サーバ２０に設定されたモードに応じて変更することができる。したがって、より人間味に溢れる発話装置１０を実現することができる。

〔実施形態９〕
サーバ２０の制御部２２は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。

後者の場合、サーバ２０は、各機能を実現するソフトウェアであるプログラムの命令を実行するＣＰＵ、上記プログラム及び各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、上記プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

〔まとめ〕
本発明の態様１に係る発話制御装置（２０）は、発話装置（１０）に発話させる発話内容を決定する発話制御装置であって、同一カテゴリに含まれる複数のフレーズから発話すべきフレーズを選択する選択処理と、発話すべきフレーズのイントネーションを設定する設定処理と、の少なくとも何れかの処理を行うことによって、上記発話内容を決定する発話内容決定手段（発話内容決定部２６）、を備える。

上記の構成によれば、発話制御装置は、同一カテゴリに含まれる複数のフレーズから発話すべきフレーズを選択する、または発話すべきフレーズのイントネーションを設定する、の少なくとも何れかの処理を行うことによって、発話装置に発話させる発話内容を決定する。したがって、発話制御装置は、ユーザに合わせた発話内容を発話装置から発話させることができるので、従来に比べてユーザと円滑なコミュニケーションを図ることが可能である。

本発明の態様２に係る発話制御装置は、上記態様１において、１又は複数のフレーズを含む複数のフレーズデータベースを参照するよう構成されており、上記発話内容決定手段は、参照する上記フレーズデータベースを切り替えることにより、上記発話内容を決定してもよい。

上記の構成によれば、発話制御装置は、複数のフレーズデータベースを参照し、フレーズデータベースを切り替えることにより発話内容を決定するので、従来に比べてユーザと円滑なコミュニケーションを図ることが可能な発話制御装置を容易に実現することができる。

本発明の態様３に係る発話制御装置は、上記態様１または２において、１又は複数のフレーズに対してそれぞれ異なるイントネーションが設定されている複数のフレーズデータベースを参照するよう構成されており、上記発話内容決定手段は、参照する上記フレーズデータベースを切り替えることにより、上記発話内容を決定してもよい。

上記の構成によれば、発話制御装置は、１又は複数のフレーズに対してそれぞれ異なるイントネーションが設定されている複数のフレーズデータベースを参照し、イントネーションが設定されたフレーズを発話内容として決定する。したがって、ユーザと円滑なコミュニケーションを図ることが可能な発話制御装置を容易に実現することができる。

本発明の態様４に係る発話制御装置は、上記態様２または３において、上記フレーズデータベースに対応する認識データベースであって、入力音声情報を認識するための認識データベースを参照してもよい。

上記の構成によれば、発話制御装置は、フレーズデータベースに対応した認識データベースを参照することにより、入力音声情報を認識することができる。

本発明の態様５に係る発話制御装置は、上記態様４において、上記認識データベースを、入力音声情報に含まれるフレーズ及びイントネーションの少なくとも何れかに応じて切り替える認識手段（音声情報認識部２５）、をさらに備え、上記発話内容決定手段は、上記認識手段によって認識されたフレーズ及びイントネーションの少なくとも何れかに応じて、上記発話内容を決定してもよい。

上記の構成によれば、発話制御装置は、認識手段によって認識された入力音声情報に含まれるフレーズ及びイントネーションの少なくとも何れかに応じて決定された発話内容を、発話装置に発話させる。したがって、ユーザはあたかも人と会話しているかのように発話装置と会話することができるので、発話制御装置は、従来に比べてユーザと円滑なコミュニケーションを図ることが可能である。

本発明の態様６に係る発話制御装置は、上記態様２〜５において、入力音声情報に含まれるフレーズが、所定のフレーズと一致するか否かを判定する判定手段（発話内容決定部２６）をさらに備え、上記判定手段によって、上記入力音声情報に含まれるフレーズが、所定のフレーズと一致しないと判定された場合、上記発話内容決定手段は、上記入力音声情報に含まれるフレーズが所定のフレーズと一致する場合に選択されるフレーズのカテゴリとは異なるカテゴリに含まれるフレーズを、発話すべきフレーズとして選択してもよい。

上記の構成によれば、入力音声情報に含まれるフレーズが、所定のフレーズと一致しないと判定された場合、発話制御装置は、上記入力音声情報に含まれるフレーズが、所定のフレーズと一致する場合に選択されるフレーズのカテゴリとは異なるカテゴリに含まれるフレーズを、発話装置から発話させることができる。したがって、ユーザは、あたかも人と会話しているかのように発話装置と会話することができるので、発話制御装置は、従来に比べてユーザと円滑なコミュニケーションを図ることが可能である。

本発明の態様７に係る発話制御装置は、上記態様３〜５において、入力音声情報に含まれるフレーズ及びイントネーションが、所定のフレーズ及びイントネーションと一致するか否かを判定する判定手段（発話内容決定部２６）をさらに備え、上記判定手段によって、上記入力音声情報に含まれるフレーズが所定のフレーズと一致する場合であっても、上記入力音声情報に含まれるイントネーションが、所定のイントネーションと一致しないと判定された場合、上記発話内容決定手段は、上記入力音声情報に含まれるイントネーションが所定のイントネーションと一致する場合に選択されるフレーズのカテゴリとは異なるカテゴリに含まれるフレーズを、発話すべきフレーズとして選択してもよい。

上記の構成によれば、入力音声情報に含まれるフレーズが所定のフレーズと一致する場合であっても、入力音声情報に含まれるイントネーションが所定のイントネーションと一致しない場合には、所定のフレーズ及びイントネーションが一致した場合に選択されるフレーズのカテゴリとは異なるカテゴリを、発話制御装置は、発話装置から発話させることができる。したがって、ユーザは、あたかも人と会話しているかのように発話装置と会話することができるので、発話制御装置は、従来に比べてユーザと円滑なコミュニケーションを図ることが可能である。

本発明の態様８に係る発話制御装置は、上記態様６または７において、上記発話内容決定手段は、上記選択処理において、上記異なるカテゴリに含まれる複数のフレーズを含むデータベースから発話すべきフレーズをランダムに選択してもよい。

上記の構成によれば、発話制御装置は、異なるカテゴリに含まれる複数のフレーズをランダムに選択し、発話装置から発話させることができる。したがって、発話装置は、同じフレーズばかり回答することはなく、ユーザは、あたかも人と会話しているかのように発話装置と会話することができるので、発話制御装置は、従来に比べてユーザと円滑なコミュニケーションを図ることが可能である。

本発明の態様９に係る発話制御装置は、上記態様１〜８において、上記発話内容決定手段は、発話装置に発話させる発話内容の声色、音量、話速、音の高さの少なくとも１つを変更する変更手段をさらに備えてもよい。

上記の構成によれば、発話制御装置は、発話させる発話内容の声色、音量、話速、音の高さの少なくとも１つを変更して、発話内容を発話装置に発話させることができる。したがって、発話内容に応じた声色、音量、話速、音の高さで、発話内容を発話装置に発話させることができる。

本発明の態様１０に係る方法は、発話装置に発話させる発話内容を決定する方法であって、同一カテゴリに含まれる複数のフレーズから、発話すべきフレーズを選択する選択処理と、発話すべきフレーズのイントネーションを設定する設定処理と、の少なくとも何れかの処理を行うことによって、上記発話内容を決定する発話内容決定工程を含み、上記発話内容決定工程は、複数のフレーズを含む複数のフレーズデータベースを切り替えることにより、上記発話内容を決定する。

上記の構成によれば、方法は、ユーザと円滑なコミュニケーションを図る発話装置を実現することができる。

本発明の態様１１に係る発話システムは、上記態様５における発話制御装置と、発話装置とを備えた発話システムであって、上記発話装置は、入力音声情報を発話制御装置に送信し、発話制御装置から受信した発話内容を発話する。

上記の構成によれば、発話システムは、上記態様５に記載の発話制御装置と同様の効果を奏する発話システムを実現することができる。

本発明の各態様に係る発話制御装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記発話制御装置が備える各手段として動作させることにより上記発話制御装置をコンピュータにて実現させる発話制御装置の制御プログラム、及びそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

本発明の態様１２に係る発話装置は、同一カテゴリに含まれる複数のフレーズから発話すべきフレーズを選択する選択処理と、発話すべきフレーズのイントネーションを設定する設定処理と、の少なくとも何れかの処理を行うことによって発話内容を決定する発話内容決定手段（発話内容決定部２６）と、上記発話内容決定手段によって決定された発話内容を発話する発話手段（発話部１３）と、を備える。

上記の構成によると、態様１に係る発話制御装置と同様の効果を奏する発話装置が実現できる。

本発明の態様１３に係る発話制御装置は、フレーズ、またはフレーズ及びイントネーションに関連付けられた発話モードを変更するか否かをユーザに確認するための確認案内フレーズを発話装置に送信する確認案内フレーズ送信手段（サーバ通信部２１）と、上記確認案内フレーズに対するユーザからの回答を受け付ける回答受付手段（サーバ通信部２１）と、上記回答受付手段が受け付けた回答に応じて、モードを変更するか否かを決定するモード変更決定手段（発話内容決定部２６）と、を備えている。

上記の構成によれば、発話制御装置は、ユーザにモードを変更するか否かを確認する確認案内フレーズを、発話装置から発話させることができる。したがって、発話制御装置は、モードをユーザと会話することによって変更できるので、ユーザと円滑なコミュニケーションを図ることが可能である。

本発明の態様１４に係る発話装置は、フレーズ、またはフレーズ及びイントネーションに関連付けられた発話モードを変更するか否かをユーザに確認するための確認案内フレーズを発話する確認案内フレーズ発話手段（発話部１３）と、上記確認案内フレーズに対するユーザからの回答を受け付ける回答受付手段（音声情報取得部１２）と、上記回答受付手段が受け付けた回答に応じて、発話モードを変更するか否かを決定するモード変更決定手段（発話内容決定部２６）と、を備えている。

上記の構成によれば、上記態様１１に係る発話制御装置と同様の効果を奏する発話装置を実現することができる。

本発明の態様１５に係る発話システムは、上記態様１４に記載の発話制御装置と、発話装置とを備えた発話システムであって、上記発話装置は、上記発話制御装置から上記確認案内フレーズを受信する確認案内フレーズ受信手段（通信部１１）と、上記確認案内フレーズを発話する確認案内フレーズ発話手段（発話部１３）と、上記確認案内フレーズに対するユーザからの回答を受け付ける回答受付手段（音声情報取得部１２）と、上記回答受付手段が受け付けた回答を上記発話制御装置に送信する回答送信手段（通信部１１）と、を備えている。

上記の構成によれば、上記態様１１に係る発話制御装置と同様の効果を奏する発話システムを実現することができる。

本発明の態様１６に係る方法は、発話装置の発話を制御する方法であって、フレーズ、またはフレーズ及びイントネーションに関連付けられた発話モードを変更するか否かをユーザに確認するための確認案内フレーズを発話装置に送信する確認案内フレーズ送信工程と、上記確認案内フレーズに対するユーザからの回答を受け付ける回答受付工程と、上記回答受付工程において受け付けた回答に応じて、発話モードを変更するか否かを決定する決定工程と、を含んでいる。

（付記事項）
上記の課題を解決するために、本発明の一態様に係る発話制御装置は、発話装置に発話させる発話内容を決定する発話制御装置であって、同一カテゴリに含まれる複数のフレーズから発話すべきフレーズを選択する選択処理と、発話すべきフレーズのイントネーションを設定する設定処理と、の少なくとも何れかの処理を行うことによって、上記発話内容を決定する発話内容決定手段、を備える。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

本発明は、ユーザに情報を提供する発話装置を備えたシステムに利用することができる。

１発話システム
２ネットワーク
１０発話装置
１１通信部（発話内容取得部）
１３発話部
２０サーバ（発話制御装置）
２１サーバ通信部（音声出力部）
２２制御部
２３記憶部
２４外部情報取得部（音声情報取得部）
２５音声情報認識部
２６発話内容決定部

Claims

発話装置に発話させる発話内容を決定する発話制御装置であって、
上記発話装置から入力音声情報を取得する音声情報取得部と、
上記入力音声情報を認識する音声情報認識部と、
上記発話制御装置に設定されたモードと、上記音声情報認識部によって認識された認識情報と、に応じて１又は複数のデータベースを参照することにより、発話内容を決定する発話内容決定部と、
上記発話内容決定部が決定した発話内容を上記発話装置に出力する音声出力部と、
を備えることを特徴とする発話制御装置。
上記データベースでは、上記モードごとに、上記認識情報が示す認識フレーズと、当該認識フレーズに対応する回答フレーズとが関連付けられており、
上記発話内容決定部は、上記設定されたモードに応じて上記１または複数のデータベースを参照することによって、上記回答フレーズを選択する、
ことを特徴とする請求項１に記載の発話制御装置。
上記データベースでは、上記モードごとに、上記認識情報が示す認識フレーズに関連付けられている回答フレーズが異なる、
ことを特徴とする請求項２に記載の発話制御装置。
上記モードは、上記発話装置の設定に応じて設定される、
ことを特徴とする請求項２又は３に記載の発話制御装置。
上記発話内容決定部は、上記モードに応じて、上記発話装置の設定に関わらず、上記発話内容を決定する、
ことを特徴とする請求項２又は３に記載の発話制御装置。
発話装置に発話させる発話内容を決定する方法であって、
上記発話装置から入力音声情報を取得する音声情報取得工程と、
上記入力音声情報を認識する音声情報認識工程と、
設定されたモードと、上記音声情報認識工程において認識された認識情報と、に応じて１又は複数のデータベースを参照することにより、発話内容を決定する発話内容決定工程と、
上記発話内容決定工程において決定された発話内容を上記発話装置に出力する音声出力工程と、
を含むことを特徴とする方法。
発話装置と、
発話制御装置と、
を備えた発話システムであって、
上記発話制御装置は、
上記発話装置から入力音声情報を取得する音声情報取得部と、
上記入力音声情報を認識する音声情報認識部と、
上記発話制御装置に設定されたモードと、上記音声情報認識部によって認識された認識情報と、に応じて１又は複数のデータベースを参照することにより、発話内容を決定する発話内容決定部と、
上記発話内容決定部が決定した発話内容を上記発話装置に出力する音声出力部と、
を備え、
上記発話装置は、
上記発話制御装置から出力された発話内容を取得する発話内容取得部と、
取得した発話内容を発話する発話部と、
を備えることを特徴とする発話システム。
請求項１から５のいずれか１項に記載の発話制御装置としてコンピュータを機能させるためのプログラムであって、コンピュータを上記各部として機能させるためのプログラム。