JP2017122930A - 発話制御装置、方法、発話システム、及びプログラム - Google Patents

発話制御装置、方法、発話システム、及びプログラム Download PDF

Info

Publication number
JP2017122930A
JP2017122930A JP2017047738A JP2017047738A JP2017122930A JP 2017122930 A JP2017122930 A JP 2017122930A JP 2017047738 A JP2017047738 A JP 2017047738A JP 2017047738 A JP2017047738 A JP 2017047738A JP 2017122930 A JP2017122930 A JP 2017122930A
Authority
JP
Japan
Prior art keywords
utterance
phrase
recognition
unit
voice information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017047738A
Other languages
English (en)
Other versions
JP6522679B2 (ja
Inventor
靖典 山下
Yasunori Yamashita
靖典 山下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2017047738A priority Critical patent/JP6522679B2/ja
Publication of JP2017122930A publication Critical patent/JP2017122930A/ja
Application granted granted Critical
Publication of JP6522679B2 publication Critical patent/JP6522679B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ユーザと円滑なコミュニケーションを図ることが可能な発話装置を制御するサーバを提供する。【解決手段】発話装置(11)に発話させる発話内容を決定するサーバ(20)であって、発話装置から入力音声情報を取得し、入力音声情報を認識し、設定されたモードと、認識された認識情報と、に応じて1又は複数のデータベースを参照することにより、発話内容を決定し、決定した発話内容を発話装置に出力するサーバ。【選択図】図1

Description

本発明は、発話装置に発話させる発話内容を決定する発話制御装置、方法、発話システム、及びプログラムに関する。
近年、ユーザが所望する情報を、装置が音声を発することによって提供する方法が知られている。この場合に用いられる音声として、装置に予め記憶されている音声を信号処理によって合成する合成音声が知られている。
例えば、特許文献1には、複数の話者の音声を別々に収録した音声合成用データベースを備え、ユーザからの指示により、ユーザが希望する音声合成用データベースに切り替えて、音声を再生する再生装置が開示されている。
特開2005−321706号公報(2005年11月17日公開)
一般に、人間同士の会話において、発する人の気分や性格によって、同じ意味でも違うフレーズが使われる。例えば、「おはよう」とあいさつをされ、それに対して「おはよう」と返す場合もあれば、「おはよう」以外のフレーズを返す場合もあるし、「おはよう」のイントネーションを変えて、そのときの気分を表現するような場合もある。
一方で、特許文献1に記載の技術では、再生する人間の音声の声色を、ユーザが希望する声色に変更することはできるものの、発するフレーズやイントネーションを変更することができないため、ユーザと装置との間の円滑なコミュニケーションを図ることが困難であった。
本発明は上記問題に鑑みてなされたものであり、その目的は、従来に比べてユーザと円滑なコミュニケーションを図ることが可能な発話制御装置を提供することにある。
上記の課題を解決するために、本発明の一態様に係る発話制御装置は、発話装置に発話させる発話内容を決定する発話制御装置であって、上記発話装置から入力音声情報を取得する音声情報取得部と、上記入力音声情報を認識する音声情報認識部と、上記発話制御装置に設定されたモードと、上記音声情報認識部によって認識された認識情報と、に応じて1又は複数のデータベースを参照することにより、発話内容を決定する発話内容決定部と、上記発話内容決定部が決定した発話内容を上記発話装置に出力する音声出力部と、を備える。
上記の課題を解決するために、本発明の一態様に係る方法は、発話装置に発話させる発話内容を決定する方法であって、上記発話装置から入力音声情報を取得する音声情報取得工程と、上記入力音声情報を認識する音声情報認識工程と、設定されたモードと、上記音声情報認識工程において認識された認識情報と、に応じて1又は複数のデータベースを参照することにより、発話内容を決定する発話内容決定工程と、上記発話内容決定工程において決定された発話内容を上記発話装置に出力する音声出力工程と、を含む。
上記の課題を解決するために、本発明の一態様に係る発話システムは、発話装置と、発話制御装置と、を備えた発話システムであって、上記発話制御装置が、上記発話装置から入力音声情報を取得する音声情報取得部と、上記入力音声情報を認識する音声情報認識部と、上記発話制御装置に設定されたモードと、上記音声情報認識部によって認識された認識情報と、に応じて1又は複数のデータベースを参照することにより、発話内容を決定する発話内容決定部と、上記発話内容決定部が決定した発話内容を上記発話装置に出力する音声出力部と、を備え、上記発話装置が、上記発話制御装置から出力された発話内容を取得する発話内容取得部と、取得した発話内容を発話する発話部と、を備える。
本発明の一態様によれば、発話制御装置は、従来に比べてユーザと円滑なコミュニケーションを図ることができる。
本発明の実施形態1に係る発話システムの構成を示すブロック図である。 本発明の実施形態1に係る発話システムにおいて、発話内容決定部が発話内容を決定するために参照するデータベースの例である。 本発明の実施形態1に係る発話システムにおける認識フレーズと回答フレーズとの例である。 本発明の実施形態5に係る発話システムにおいて、発話内容決定部が発話内容を決定するために参照するあいまいデータベースの例である。 本発明の実施形態5に係る発話システムにおける、あいまいフレーズの例である。 本発明の実施形態6に係る発話システムにおいて、発話内容決定部が発話内容を決定するために参照するデータベースの例である。 本発明の実施形態7に係る発話システムにおいて、サーバに設定されているモードを変更する処理の流れを示すフローチャートである。
〔実施形態1〕
以下、本発明の実施形態1について、詳細に説明する。
(発話システム1の構成)
図1は、本発明の実施形態1に係る発話システム1の構成を示すブロック図である。発話システム1は、図1に示すように、発話装置10及びサーバ(発話制御装置)20によって構成されている。
発話システム1では、サーバ20は、複数のモードを有している。サーバ20は、複数のモードの中から選択されて設定されたモード(以下、設定されたモードを「発話モード」とも称する)に応じて発話内容を決定し、当該発話内容を発話装置10から発話させる。
ここで、発話内容とは、発話装置10が発話すべきフレーズ及びイントネーションを含む情報である。また、発話内容には、発話装置10が当該フレーズを当該イントネーションで発話する声色、音量、話速、音の高さも含まれる。
また、フレーズとは、1以上の単語によって構成されていればよく、単語の数や文の構成に限定されず、1つの単語であっても、複数の単語によって構成された文であっても、複数の文であってもよい。
また、イントネーションとは、文の切れ目(各発音の間の無音期間の長さ)や文の高低の調子に限定されず、単語のアクセントも含まれる。例えば、東京弁のように「おはよう」を、アクセントなしにフラットに発話することと、関西弁のように「よ」にアクセントをつけて発話することとは、イントネーションが異なっていることになる。なお、フレーズには必ずイントネーションがついているが、本実施形態及び他の実施形態においても、どのようなイントネーションであっても構わない場合については、イントネーションについての言及は省略する。
また、モードとは、フレーズ、またはフレーズ及びイントネーションに関連付けられており、より具体的には、例えば、フレーズが「おはよう」でありイントネーションがフラットであるモード1、フレーズが「おはよう」でありイントネーションが「よ」にアクセントのついたモード2、フレーズが「おはようございます」でありイントネーションがフラットであるモード3、などが挙げられる。したがって、選択されるモードが異なれば、対応する発話内容のフレーズ及びイントネーションの少なくとも何れかが異なることになる。
また、モードは、単にサーバ20が発話内容を決定するためのパラメータであってもよいが、発話装置10のキャラクタと一致させてもよい。例えば、サーバ20が元気モードを有し、元気モードが選択されている場合、サーバ20は、発話装置10が元気なキャラクタであるかのような発話内容を決定する、としてもよい。また、例えば、サーバ20が関西弁モードを有し、関西弁モードが選択されている場合、サーバ20は、発話装置10が関西出身のキャラクタであるかのような発話内容を決定する、としてもよい。
サーバ20において設定可能なモードは例えば以下の通りである。
・東京弁モード
・関西弁モード
・標準モード
・元気モード
・丁寧モード
なお、上記設定可能なモードから複数のモードを選択し、重畳的にサーバ20に設定することもできる。例えば、関西弁モードと元気モードとを重畳させた元気な関西弁モードといったモードを、サーバ20に設定することもできる。また、モードを、ユーザの操作によって変更可能な構成であってもよい。
また、各モードについて、サーバ20は、キャラクタの名称を対応させて管理してもよい。例えば、東京弁モードに対して「江戸っ子コロちゃん」、元気モードに対して「元気なアイちゃん」、丁寧モードに対して「のんびりナオちゃん」等というようなキャラクタ名称をサーバ20が対応させ、これをモードの名称としてもよい。
さらに、各モードにキャラクタイメージ(グラフィクス、色等)を対応させ、サーバ20にモードを設定した際に、発話装置10は、設定されたモードに対応するキャラクタイメージを、後述する表示部に表示させてもよい。
(発話装置10の構成)
発話装置10は、図1に示すように、通信部(発話内容取得部)11、音声情報取得部12、発話部13、操作受付部14、及び表示部15を備えている。
通信部11は、サーバ20に接続されており、サーバ20との間でデータを送受信することができる。
音声情報取得部12は、発話装置10の周辺の音声を取得し、取得した音声を入力音声情報として出力する。
発話部13は、発話内容を取得し、取得した発話内容に含まれるフレーズを、発話内容に含まれるイントネーションで発話する。
操作受付部14は、ユーザがハードキー、スイッチ、タッチセンサなどを操作して入力した情報を受け付ける。また、操作受付部14は、ユーザが発した音声も、ユーザが操作した情報として受け付けることができる。操作受付部14は、受け付けた情報を操作情報として出力する。
表示部15は、各種の情報をユーザに報知する機能を有している。表示部15は、液晶表示パネルに代表される表示パネル、及び発光可能に構成されている発光部のうち、少なくとも何れかを備え、表示パネル又は発光部を介して、各種の情報をユーザに報知することが好ましい。表示部15は、発光部を備える場合、発光部を発光することによって、ユーザに情報を報知可能である。
また、表示部15は、設定されているモードをユーザに示す構成を有してもよい。例えば、表示部15が表示パネルを備える場合、表示部15は、設定されているモードに対応したキャラクタ(「江戸っ子コロちゃん」、「元気なアイちゃん」、「のんびりナオちゃん」等)のイメージ(グラフィクス)を表示部15に表示させる。このイメージは動画であってもよく、発話に合わせて動作することがより好ましい。このイメージは、後述するモード設定の際に、設定されたモードに応じて、サーバ20よりダウンロードして表示部15に表示させてもよいし、ダウンロード後に発話装置10に内蔵する記憶部(不図示)に一旦記憶させ、記憶部(不図示)からこれを読み出すことで表示部15に表示させてもよい。また、予め記憶部(不図示)に記憶させているものを、設定されたモードに応じたイメージを読み出すことで表示部15に表示させてもよい。
また、表示部15が発光部を備える場合、表示部15は、設定されたモードに応じた色を発光部に発光させてもよい。例えば、東京弁モードのときは青、元気モードのときは赤、丁寧モードのときは緑、等である。また、表示部15は、発話に合わせて発光部を点滅させてもよい。
(サーバ20の構成)
サーバ20は、図1に示すように、サーバ通信部(音声出力部)21、制御部22、記憶部23、及び外部情報取得部(音声情報取得部)24を備えている。
サーバ通信部21は、発話装置10に接続されており、発話装置10との間でデータを送受信することができる。
制御部22は、サーバ20の各構成を統括的に制御するものである。制御部22の機能は、例えばRAM(Random Access Memory)やフラッシュメモリなどの記憶装置に記憶されたプログラムをCPU(Central Processing
Unit)が実行することによって実現される。また、図1に示すように、制御部22は、音声情報認識部(認識手段)25及び発話内容決定部(発話内容決定手段、判定手段)26としても機能する。
記憶部23は、認識フレーズと認識フレーズに対応した回答フレーズとを含むデータベースや、あいまいな回答フレーズを含むあいまいデータベースなど、各種データベースを記憶している。なお、それぞれのデータベースの詳細については、後述する。
外部情報取得部24は、ネットワーク2に接続されており、制御部22からの指示により、ネットワーク2から外部情報を取得することができる。
(制御部22の構成)
上述したように、制御部22は、音声情報認識部25及び発話内容決定部26としても機能する。
音声情報認識部25は、取得した入力音声情報を認識し、認識情報として出力する。ここで、音声情報認識部25が入力音声情報を認識するとは、音声情報認識部25が、入力音声情報に含まれるフレーズ及びイントネーションを判別することである。例えば、入力音声情報が、アクセントのないフラットな「おはよう」を含む場合、音声情報認識部25は、取得した入力音声情報が含むフレーズが「おはよう」であり、イントネーションはアクセントがないフラットである、と判別する。そして、認識フレーズが「おはよう」であり、認識イントネーションは「アクセントがないフラット」であることを示す認識情報を、音声情報認識部25は出力する。
発話内容決定部26は、設定されたモード及び音声情報認識部25が出力する認識情報に応じて、発話装置10に発話させる発話内容を決定する。発話内容決定部26が発話内容を決定する処理の詳細については、後述する。
(制御部22の処理)
制御部22の処理について、図2を用いて以下に説明する。
図2は、本発明の実施形態1に係る発話システム1において、発話内容決定部26が発話内容を決定するために参照するデータベースの例である。
図2に示すように、各データベースには、認識フレーズと、それに対応する回答フレーズ及びイントネーションとが含まれている。また、各データベースは、同一カテゴリに含まれる認識フレーズ及び回答フレーズをそれぞれ含んでいる。例えば、「朝のあいさつ」というカテゴリに含まれるフレーズとして、データベース1及びデータベース2の認識フレーズには「おはよう」、データベース3の認識フレーズには「おはようございます」が含まれている。また、図2に示すように、データベース1〜3には、「帰宅時のあいさつ」というカテゴリに含まれるフレーズとして、「ただいま」「ただいま」及び「ただいま戻りました」をそれぞれ含んでおり、「就寝時のあいさつ」というカテゴリに含まれるフレーズとして、「おやすみ」「おやすみなさい」をそれぞれ含んでいる。また、各データベースは、サーバ20が有するモードにそれぞれ対応している。例えば、データベース1は標準モード、データベース2は元気モード、データベース3は丁寧モードにそれぞれ対応しているとする。なお、本実施形態においては、データベース1〜3に含まれるイントネーションはすべてアクセントのないフラットなイントネーションとする。
図2に示すデータベースが記憶部24に記憶されており、ユーザが発話装置10に対して、アクセントがなくフラットなイントネーションで「おはよう」と発した場合に、制御部22が行う処理について、説明する。
まず、音声情報取得部12は、アクセントがなくフラットなイントネーションの「おはよう」を含む入力音声情報を、通信部11を介してサーバ20に出力する。サーバ20の制御部22は、サーバ通信部21を介して入力音声情報を取得する。そして、音声情報認識部25は、取得した入力音声情報を認識する。この場合、音声情報認識部25は、認識フレーズ「おはよう」と、認識イントネーション「アクセントがないフラット」とを示す認識情報を、発話内容決定部26に出力する。
発話内容決定部26は、取得した認識情報から、発話装置10が発話すべき発話内容を決定する。
例えば、サーバ20に標準モードが設定されている場合、発話内容決定部26は、標準モードに対応するデータベース1を参照し、認識フレーズ「おはよう」に対応する回答フレーズ「おはよう」を選択する。そして、発話内容決定部26は、選択した「おはよう」というフレーズと、アクセントがないフラットなイントネーションとを、発話内容として決定する。
また、例えば、サーバ20に元気モードが設定されている場合、発話内容決定部26は、参照するデータベースを、元気モードに対応するデータベース2に切り替え、認識フレーズ「おはよう」に対応する回答フレーズ「今日も気合入れていこう!」を選択する。そして、発話内容決定部26は、選択した「今日も気合入れていこう!」というフレーズと、アクセントがないフラットなイントネーションとを、発話内容として決定する。
そして、発話内容決定部26は、決定した発話内容を、サーバ通信部21を介して発話装置10に出力する。発話装置10の発話部13は、通信部11を介して発話内容を取得し、取得した発話内容に含まれるフレーズを、発話内容に含まれるイントネーションで発話する。
また、例えば、サーバ20に丁寧モードが設定されている場合、発話内容決定部26は、参照するデータベースを、丁寧モードに対応するデータベース3に切り替える。ここで、データベース3において、「朝のあいさつ」というカテゴリに含まれる認識フレーズは「おはようございます」であり、発話内容決定部26が音声情報認識部25から取得した認識フレーズ「おはよう」とは異なるので、発話内容決定部26は、回答フレーズを選択しない。したがって、発話内容を決定しないため、サーバ20は、発話装置10から何も発話させない。
なお、サーバ20は、認識フレーズを含まないフレーズデータベースを参照する構成であってもよい。この場合、発話内容決定部26は、フレーズデータベースを参照し、フレーズデータベースを切り替えることによって発話内容を決定することができる。
また、この場合、サーバ20は、フレーズデータベースに対応付けられた認識データベースであって、認識フレーズを含み回答フレーズを含まない認識データベースを参照する構成としてもよい。当該構成において、音声情報認識部25は、当該認識データベースを参照し、入力音声情報に含まれるフレーズに応じて、認識データベースを切り替え、入力音声情報を認識することができる。
続いて、サーバに設定されたモードによって、発話すべきフレーズのイントネーションを設定する処理について、説明する。
まず、図2のデータベース1と同じ認識フレーズ及び回答フレーズを有し、回答フレーズの各フレーズに、データベース1の回答フレーズとは異なるイントネーションが含まれるデータベース10を、記憶部24に記憶させる。本実施形態では、認識フレーズ「おはよう」に対して、「おはよう」の「よ」にアクセントをつけたイントネーションの回答フレーズを、データベース10は含むとする。そして、データベース10を、関西弁モードに対応させる。特定の音にアクセントをつける方法として、例えば、回答フレーズを一文字ずつに分け、特定の文字にアクセントをつけてもよい。また、特定の文字にアクセントがついた回答フレーズを実際に人が発した声を予め録音し、録音した音声を用いてもよい。
ユーザが発話装置10に対して、アクセントがなくフラットなイントネーションで「おはよう」と発した場合に、発話内容決定部26が行う処理について、説明する。
まず、発話内容決定部26は、音声情報認識部25から、認識フレーズ「おはよう」と、認識イントネーション「アクセントがないフラット」とを示す認識情報を取得する。そして、発話内容決定部26は、取得した認識情報から、発話装置10が発話すべき発話内容を決定する。
例えば、サーバ20に関西弁モードが設定されている場合、発話内容決定部26は、関西弁モードに対応するデータベース10を参照し、認識フレーズ「おはよう」に対応する回答フレーズ「おはよう」を選択する。また、発話内容決定部26は、「おはよう」のイントネーションを、データベース10の回答フレーズのイントネーションである「よ」にアクセントをつけるイントネーションに設定する。そして、発話内容決定部26は、選択した「おはよう」というフレーズと、「よ」にアクセントをつけるイントネーションとを、発話内容として決定する。
なお、サーバ20は、1又は複数の回答フレーズに対してそれぞれ異なるイントネーションが設定されている複数のフレーズデータベースを参照する構成としてもよい。このような構成において、発話内容決定部26は、参照する上記フレーズデータベースを切り替えることにより、発話内容を決定する。
また、この場合、サーバ20は、フレーズデータベースに対応付けられた認識データベースであって、イントネーションが設定された認識フレーズを含み回答フレーズを含まない認識データベースを参照する構成としてもよい。当該構成において、音声情報認識部25は、当該認識データベースを参照し、入力音声情報に含まれるフレーズに応じて、当該認識データベースを切り替え、入力音声情報を認識することができる。
このように、実施形態1に係る発話システム1では、ユーザからの「おはよう」に対して、「おはよう」または「今日も気合入れていこう!」を、発話装置10から発話させることができる。また、ユーザからの「おはよう」に対して、アクセントのないフラットなイントネーションの「おはよう」や、「よ」にアクセントのついたイントネーションの「おはよう」を、発話装置10から発話させることができる。したがって、発話システム1は、同一カテゴリ(「朝のあいさつ」とういカテゴリ)に含まれる複数のフレーズ(「おはよう」及び「今日も気合入れていこう!」)から発話すべきフレーズを選択する選択処理と、発話すべきフレーズのイントネーションを設定する設定処理と、の少なくとも何れかの処理を行うことにより、ユーザに合わせた発話内容を発話装置10から発話させることができるので、従来に比べてユーザと円滑なコミュニケーションを図ることができる。なお、認識フレーズと回答フレーズとの例を、図3に示す。図3は、本発明の実施形態1に係る発話システムにおける認識フレーズと回答フレーズとの例である。
なお、サーバ20が備える制御部22及び記憶部23は、発話装置10が備える構成であってもよい。この場合、発話装置10の発話内容決定部26において、同一カテゴリから発話すべきフレーズを選択する選択処理と、発話すべきフレーズのイントネーションを設定する設定処理と、の少なくとも何れかの処理を行うことにより発話内容を決定する。そして、発話部13は、当該発話内容を取得し、当該発話内容に含まれるフレーズを、当該発話内容に含まれるイントネーションで発話する。したがって、ユーザに合わせた発話内容を発話装置10は発話することができるので、ユーザと円滑なコミュニケーションを図ることができる。
〔実施形態2〕
実施形態1では、発話システム1は、入力音声情報に含まれるフレーズによって、発話装置10に発話させるフレーズを選択または発話装置10に発話させるフレーズのイントネーションを設定したが、入力音声情報に含まれるイントネーションによって、発話装置10に発話させるフレーズを選択する、または発話装置10に発話させるフレーズのイントネーションを設定する構成としてもよい。
まず、図2に示すデータベース1、データベース2、及びデータベース3の認識フレーズと共にフラットなイントネーションを含め、データベース1の各認識フレーズの特定の音にアクセントのあるイントネーションを含めたデータベース4を、記憶部23が記憶している場合について、説明する。本実施形態では、データベース4のイントネーションとして、「おはよう」の「よ」にアクセントをつけたイントネーションとし、各データベースに対応するモードは、実施形態1と同じとする。そして、入力音声情報が、「おはよう」の「よ」にアクセントをつけたイントネーションを含む場合について、説明する。
まず、音声情報認識部25は、入力音声情報を認識し、認識フレーズが「およよう」、認識イントネーションが「おはよう」の「よ」にアクセントをつけたイントネーションであることを示す認識情報を発話内容決定部26に出力する。
発話内容決定部26は、取得した認識情報から、発話装置10が発話すべき発話内容を決定する。
例えば、サーバ20に関西弁モードが設定されている場合、発話内容決定部26は、関西弁モードに対応するデータベース4を参照し、データベース4の認識フレーズと、認識フレーズのイントネーションとが、取得した認識情報と一致するか否かを判定する。本実施形態では、データベース4の認識フレーズと、認識フレーズのイントネーションとが、取得した認識情報と一致するので、発話内容決定部26は、認識情報に対応した「おはよう」というフレーズと、「よ」にアクセントをつけるイントネーションとを、発話内容として決定する。
また、例えば、サーバ20に標準モードが設定されている場合、発話内容決定部26は、標準モードに対応するデータベース1を参照し、データベース1の認識フレーズと、認識フレーズのイントネーションとが、取得した認識情報と一致するか否かを判定する。本実施形態では、データベース4の認識フレーズのイントネーションと、認識情報のイントネーションとは一致しないので、発話内容決定部26は、発話内容を決定しない。
このように実施形態2に係る発話システム1では、入力音声に含まれるイントネーションに応じて、発話内容を決定することができる。したがって、発話システム1は、ユーザのイントネーションに応じた発話内容を発話装置10から発話させることができるので、従来に比べてユーザとより円滑なコミュニケーションを図ることができる。
〔実施形態3〕
上述した実施形態では、発話システム1は、認識した入力音声情報に対応した発話内容を、発話装置10から発話させたが、入力音声情報を取得しない構成であってもよく、発話内容決定部26は、予め定められた条件が満たされた場合に、予め定められた処理を実行してもよい。
例えば、予め定められた条件が「朝の7時」であり、予め定められた処理が「朝のあいさつをする」であった場合、発話内容決定部26は、朝の7時になると、朝のあいさつに含まれるフレーズを選択し、発話内容を決定する。例えば、サーバ20に標準モードが設定されている場合、朝の7時になると、発話内容決定部26は、標準モードに対応するデータベース1を参照し、朝のあいさつである「おはよう」というフレーズと、アクセントのないフラットなイントネーションとを、発話内容として決定する。また、例えば、サーバ20に丁寧モードが設定されている場合、朝の7時になると、発話内容決定部26は、参照するデータベースを、丁寧モードに対応するデータベース3に切り替える。そして、発話内容決定部26は、朝のあいさつである「おはようございます」というフレーズと、アクセントのないフラットなイントネーションとを、発話内容として決定する。
このように、実施形態3に係る発話システム1は、予め設定された条件が満たされた場合に、予め定められた処理を実行することができる。したがって、発話システム1は、ユーザから入力音声情報を取得しなくても、発話装置10が自ら発話するので、従来に比べてユーザとより円滑なコミュニケーションを図ることができる。
また、実施形態3では、認識フレーズと回答フレーズとが対応する必要はなく、認識フレーズと回答フレーズとが別々になったデータベースを参照する構成であってもよい。このような構成において、認識フレーズを含まないフレーズデータベースが記憶部23に複数記憶されており、発話内容決定部26は、これらのフレーズデータベース切り替えることにより、発話内容を決定することができる。
〔実施形態4〕
実施形態3において説明したように、記憶部23に記憶されるデータベースは、認識フレーズと回答フレーズとが別々になったデータベースであってもよい。したがって、回答フレーズを含まない認識データベースを切り替えることにより、音声情報認識部25は、入力音声情報を認識するという構成であってもよい。
例えば、図2に示すデータベース1、データベース2、及びデータベース3の回答フレーズを含まない認識データベース1、認識データベース2、及び認識データベース3を記憶部23が記憶している場合について、説明する。この場合、入力音声情報がフラットなイントネーションの「おはようございます」を含む場合、音声情報認識部25は、認識データベースを切り替えることにより、入力音声情報に含まれるフレーズが認識データベース1及び認識データベース2の認識フレーズとは異なり、認識データベース3の認識フレーズと一致することを認識することができる。
また、実施形態2において説明したように、認識データベースに認識フレーズと共にイントネーションを含めておくことにより、イントネーションによって認識データベースを切り替える構成であってもよい。
例えば、上述した認識データベース1、認識データベース2、及び認識データベース3の認識フレーズと共にフラットなイントネーションを含め、データベース1の各認識フレーズの特定の音にアクセントがついたイントネーションを含めた認識データベース4を、記憶部23が記憶している場合について、説明する。本実施形態では、データベース4のイントネーションとして、「おはよう」の「よ」にアクセントをつけたイントネーションとする。
この場合、入力音声情報が「おはよう」の「よ」にアクセントをつけたイントネーションを含んでいる場合、音声情報認識部25は、認識データベースを切り替えることにより、認識データベース1、認識データベース2、及び認識データベース3の認識フレーズのイントネーションとは異なり、認識データベース4の認識フレーズのイントネーションと一致することを認識することができる。
〔実施形態5〕
上述した実施形態において、取得した認識フレーズと一致する認識フレーズが参照するデータベースに含まれている場合、または取得した認識イントネーションが参照するデータベースに含まれている場合、発話内容決定部26は、認識フレーズが含まれるカテゴリと一致するカテゴリに含まれるフレーズを、発話内容として決定している。一方、取得した認識フレーズと一致する認識フレーズが参照するデータベースに含まれていない場合、及び取得した認識イントネーションと一致するイントネーションが参照するデータベースに含まれていない場合、の少なくとも何れかの場合に、発話内容決定部26は発話内容を決定しないとした。しかしながら、ユーザが発したフレーズに対して発話装置10が何も反応しないと、ユーザは、自らが発したフレーズを発話装置が音声情報として取得していないのか、それとも、自らが発したフレーズに対応する回答がないのか、それとも故障しているのか、を判断することができない。そこで、本実施形態では、ユーザが発したフレーズに対応する回答が、参照するデータベースに存在しない場合でも、発話内容決定部26が発話内容を決定する処理について、図4を用いて説明する。
図4は、本発明の実施形態5に係る発話システム1において、発話内容決定部26が発話内容を決定するために参照するあいまいデータベースの例である。あいまいデータベースとは、あいまいなフレーズ(以下、あいまいフレーズとも呼ぶ)を含んでいるデータベースである。ここで、あいまいフレーズとは、入力音声情報が含むフレーズのカテゴリとは異なるカテゴリに含まれるフレーズであると表現することもできる。換言すると、あいまいフレーズとは、入力音声情報に含まれるフレーズ及びイントネーションが、所定のフレーズ及びイントネーションと一致する場合に選択されるフレーズのカテゴリとは異なるカテゴリに含まれるフレーズであると表現することもできる。また、あいまいフレーズとは、入力音声情報が認識できない、または認識できたが対応する回答フレーズがないということを暗示するフレーズであると表現することもできる。
本実施形態において、データベース4は標準モードに対応し、データベース5は元気モードに対応する。なお、あいまいフレーズの例を、図5に示す。図5は、本発明の実施形態5に係る発話システム1における、あいまいフレーズの例である。
続いて、発話内容決定部26が、取得した認識フレーズと一致する認識フレーズが参照するデータベースに含まれていない場合にあいまいデータベースを参照する例について、説明する。
まず、音声情報認識部25は、入力音声情報を認識し、認識情報を発話内容決定部26に出力する。発話内容決定部26は、認識情報に基づく発話内容を、サーバ20に設定されているモードに応じて決定する。ここで、認識情報に含まれる認識フレーズが、参照するデータベースの認識フレーズと一致しない場合、発話内容決定部26は、あいまいデータベースを参照し、あいまいフレーズを選択する。
例えば、サーバ20に標準モードが設定されており、入力音声情報が「おはようございます」というフレーズを含んでいる場合、発話内容決定部26は、まずデータベース1を参照し、「おはようございます」に対応する回答フレーズを選択する。ここで、データベース1には、「おはようございます」に対応する回答フレーズはないため、続いて、データベース4を参照し、「うんうん」を回答フレーズとして選択する。なお、発話内容決定部26は、データベース4から回答フレーズを選択する場合に、所定の条件(例えば、データベース4に含まれる回答フレーズを、上から順番に選択する、など)に基づいて選択してもよいし、ランダムに回答フレーズを選択してもよい。ランダムに回答フレーズを選択する構成とすれば、ユーザに対して、より自然なコミュニケーションの印象を与えることができる。
また、例えば、サーバ20に元気モードが設定されており、入力音声情報が「おはようございます」というフレーズを含んでいる場合、発話内容決定部26は、まずデータベース2を参照し、「おはようございます」に対応する回答フレーズを選択する。ここで、データベース2には、「おはようございます」に対応する回答フレーズはないため、続いて、データベース5を参照し、「いいことありそう!」を回答フレーズとして選択する。
このように、実施形態5に係る発話システム1では、ユーザからの入力音声情報に含まれるフレーズが、所定のフレーズと一致しない場合(音声情報に含まれるフレーズ対応する回答フレーズがない場合)、発話装置10は、あいまいフレーズを発話する。したがって、ユーザは、あたかも人と会話しているかのように発話装置と会話することができるので、発話システム1では、ユーザとより円滑なコミュニケーションを図ることができる。
次に、発話内容決定部26が、取得した認識フレーズと一致する認識フレーズが参照するデータベースに含まれている場合であっても、取得した認識イントネーションが参照するデータベースと一致しない場合にあいまいデータベースを参照する例について、説明する。
まず、音声情報認識部25は、入力音声情報を認識し、認識情報を発話内容決定部26に出力する。発話内容決定部26は、認識情報に基づく発話内容を、サーバ20に設定されているモードに応じて決定する。ここで、認識情報に含まれる認識フレーズが、参照するデータベースの認識フレーズと一致しているが、認識イントネーションが、参照するデータベースの認識フレーズに設定されたイントネーションと一致しない場合、発話内容決定部26は、あいまいデータベースを参照し、あいまいフレーズを選択する。
例えば、サーバ20に標準モードが設定されており、入力音声情報が、フレーズ「おはよう」の「よ」にアクセントをつけたイントネーションを含む場合、発話内容決定部26は、認識フレーズ「おはよう」及び「よ」にアクセントをつけた認識イントネーションに対応する回答フレーズを、データベース1から選択する。ここで、データベース1には、認識フレーズ「おはよう」に対応する回答フレーズ「おはよう」はあるが、「おはよう」及び「よ」にアクセントをつけた認識イントネーションに対応する回答フレーズはないため、発話内容決定部26は、データベース4を参照し、「もう1回言って」を回答フレーズとして選択する。なお、発話内容決定部26は、データベース4から回答フレーズを選択する場合に、上述したように、所定の条件(例えば、データベース4に含まれる回答フレーズを、上から順番に選択する、など)に基づいて選択してもよいし、ランダムに回答フレーズを選択してもよい。ランダムに回答フレーズを選択する構成とすれば、ユーザに対して、より自然なコミュニケーションの印象を与えることができる。
また、例えば、サーバ20に元気モードが設定されており、入力音声情報がフレーズ「おはよう」の「よ」にアクセントをつけたイントネーションを含む場合、発話内容決定部26は、認識フレーズ「おはよう」及び「よ」にアクセントをつけた認識イントネーションに対応する回答フレーズを、データベース2から選択する。ここで、データベース2には、認識フレーズ「おはよう」に対応する回答フレーズ「今日も気合入れていこう!」はあるが、「おはよう」及び「よ」にアクセントをつけた認識イントネーションに対応する回答フレーズはないため、発話内容決定部26は、データベース5を参照し、「声が小さい!」を回答フレーズとして選択する。
このように、実施形態5に係る発話システム1では、ユーザからの入力音声情報に含まれるフレーズが、所定のフレーズと一致する場合(音声情報に含まれるフレーズ対応するフレーズがある場合)であっても、所定のイントネーションと一致しない場合、発話装置10は、あいまいフレーズを発話する。したがって、ユーザは、あたかも人と会話しているかのように発話装置と会話することができるので、発話システム1では、ユーザとより円滑なコミュニケーションを図ることができる。
〔実施形態6〕
上述した実施形態では、サーバ20は、入力音声情報に対応した回答フレーズを発話装置10から発話させたが、入力音声情報に基づいて外部情報を取得し、外部情報に対応した回答フレーズを発話装置10に発話させる構成としてもよい。外部情報を取得する構成である実施形態6について、図6を用いて説明する。
図6は、本発明の実施形態6に係る発話システム1において、発話内容決定部26が発話内容を決定するために参照するデータベースの例である。図6のデータベース6は、認識フレーズに対応する指示が含まれている。指示とは、発話内容決定部26が実行する処理のことである。例えば、図6のデータベース6には、「ネットワークから天気情報を取得する」という指示が含まれている。続いて、データベース7及びデータベース8は、外部情報に対応した回答フレーズが含まれている。外部情報とは、発話内容決定部26が外部情報取得部24を介して取得した情報である。例えば、図6のデータベース7及び8には、「晴れ」「雨」という天気に関する天気情報が外部情報として含まれている。本実施形態では、データベース7は標準モード、データベース8は元気モードにそれぞれ対応しており、入力音声情報が「今日の天気は?」というフレーズであった場合を例に挙げ、説明する。
まず、音声情報認識部25は、入力音声情報を認識し、認識フレーズが「今日の天気は?」であることを示す認識情報を、発話内容決定部26に出力する。発話内容決定部26は、参照するデータベースを切り替え、取得した認識情報に対応する「ネットワークから天気情報を取得する」という指示を実行する。そして、発話内容決定部26は、外部情報取得部24を介して、天気情報を取得する。
続いて、発話内容決定部26は、取得した天気情報に対応する回答フレーズを選択する。
例えば、取得した天気情報が「晴れ」であり、サーバ20に標準モードが設定されている場合、発話内容決定部26は、標準モードに対応するデータベース7を参照し、「晴れだよ」というフレーズを発話内容として決定する。
また、例えば、取得した天気情報が「雨」であり、サーバ20に元気モードが設定されている場合、発話内容決定部26は、元気モードに対応するデータベース8を参照し、「雨だー!」というフレーズを発話内容として決定する。
このように、実施形態6に係る発話システム1では、入力音声情報に対応した指示、及び外部情報に対応した回答フレーズを含むデータベースを備えることにより、外部情報及びサーバ20に設定されているモードに応じた発話内容を、発話装置10に発話させることができる。したがって、発話システム1は、リアルタイムに取得した外部情報に応じた発話内容を、発話装置10から発話させることができる。
〔実施形態7〕
本実施形態では、サーバ20に設定されている発話モードを、ユーザが発する音声によってサーバ20が変更する処理について、図7を用いて説明する。なお、本実施形態において、サーバ20から送信された発話内容を、発話装置10の通信部(確認案内フレーズ受信手段)11を介して発話部(確認案内フレーズ発話手段)13が取得し、該発話内容を発話部13が発話する処理、及び、音声情報取得部(回答受付手段)12が音声情報を取得し、通信部(回答送信手段)11を介してサーバ20に送信する処理については、上述の実施形態において既に説明したためここでは説明を省略する。
図7は、本発明の実施形態7に係る発話システム1において、サーバ20に設定されているモードを変更する処理の流れを示すフローチャートである。サーバ20は、発話装置10から、モードを変更することを示す操作情報を取得すると、発話内容決定部26は、モードを変更するか否かをユーザに確認する確認案内フレーズ(例えば、「元気モードに変更します。よろしいですか?」など)を選択する。そして、発話内容決定部26は、選択した確認案内フレーズを含む発話内容を、サーバ通信部21(確認案内フレーズ送信手段)を介して発話装置10に出力する(ステップS1)。
なお、サーバ20に対して発話装置10が複数ある場合、モード変更の対象となる発話装置を特定するための情報を、モードを変更することを示す操作情報に含めておく構成としてもよい。また、サーバ20は、モードを変更することを示す操作情報を、サーバ20に接続されている入力装置を介して取得してもよい。また、発話装置10が備える操作受付部14が受け付けた操作情報を、発話装置10がサーバ20に送信することにより、サーバ20は、モードを変更することを示す操作情報を取得してよい。
また、ユーザが発話装置10に発する音声によってモードを変更する構成としてもよい。より具体的には、各モードに対応するキャラクタ名称の特徴的な一部(例えば、「アイちゃん」や「ナオちゃん」等)、またはキャラクタ名称の全部(例えば、「元気なアイちゃん」、「のんびりナオちゃん」等)を含む音声情報を、発話装置10の音声情報取得部12が取得し、取得した音声情報をサーバ20が受信することによって、サーバ20は、設定されているモードを変更してもよい。この場合、音声情報取得部12が取得した音声情報を、発話装置10がそのままサーバ20に送信し、サーバ20において対応するモードを特定してもよいし、発話装置10が、各モードとキャラクタ名称とを対応させ、発話装置10が、音声情報取得部12が取得した音声情報に対応するモードを特定し、特定したモードを示すモード情報をサーバ20に送信してもよい。
また、ステップS1において、発話内容決定部25は、確認案内フレーズとして、モードに対応したキャラクタ名称を使用した確認案内フレーズを選択してもよい。キャラクタ名称を使用した確認案内フレーズの一例として、「元気なアイちゃんになります。いいかな?」が挙げられる。さらに、発話装置10は、キャラクタ名称を使用した確認案内フレーズを発話する場合、「元気なアイちゃん」のキャラクタイメージを、表示部15が備える表示パネルに表示させてもよい。そして、発話内容決定部26は、発話内容の出力とともに、タイマーをスタートさせる(ステップS2)。
次に、発話内容決定部26は、スタートさせたタイマーが、所定の時間を経過し、タイムアウトが発生したか否かを判定する(ステップS3)。ここで、所定の時間とは、出力した確認案内フレーズに対するユーザの回答を受け付ける時間である。
ステップS3において、「タイムアウトが発生した」と判定された場合(ステップS3:YES)、発話内容決定部26は、タイムアウトが発声したため、モードを変更する処理を中止することを示すタイムアウト案内フレーズ(例えば、「時間切れのため、モード変更を中止しました」など)を選択する。そして、発話内容決定部26は、選択したタイムアウト案内フレーズを含む発話内容を、サーバ通信部21を介して発話装置10に出力する(ステップS4)。
一方、ステップS3において、「タイムアウトは発生していない」と判定された場合(ステップS3:NO)、音声情報認識部(取得手段)25は、サーバ通信部(回答受付手段)21を介して、上記確認案内フレーズに対する回答である音声情報を取得したか否かを判定する(ステップS5)。
ステップS5において、「入力音声情報を取得していない」と判定された場合(ステップS5:NO)、発話内容決定部26の処理は、タイムアウトが発生したか否かを判定するステップS3に戻る。
一方、ステップS5において、「入力音声情報を取得した」と判定された場合(ステップS5:YES)、音声情報認識部25は、ユーザからの回答である入力音声情報を認識する(ステップS6)。そして、発話内容決定部(モード変更決定手段)26は、音声情報認識部25によって認識されたフレーズに応じて、モードを変更するか否かを決定する。
ステップS6において、「取得した音声情報は、ユーザが変更を承認することを示す確認フレーズ(例えば、「いいよ」など)である」と判定された場合(ステップS6:確認フレーズ)、発話内容決定部26は、モードを変更することを決定する。そして、発話内容決定部26は、設定されているモードを変更し、モード変更が完了したことを示す確認完了フレーズ(例えば、「モードを変更しました」)を選択する。そして、発話内容決定部26は、選択した確認完了フレーズを含む発話内容を、サーバ通信部21を介して発話装置10に出力する(ステップS7)。
また、ステップS6において、「取得した音声情報は、確認フレーズとは異なる誤フレーズ(例えば、「おはよう」など)である」と判定された場合(ステップS6:誤フレーズ)、発話内容決定部26は、モードを変更しないことを決定し、誤フレーズを取得した回数が3回目か否かを判定する(ステップS8)。
ステップS8において、「誤フレーズを取得した回数は、3回目ではない」と判定された場合(ステップS8:NO)、発話内容決定部26は、ユーザに再度確認フレーズを発してもらうように促すことを示す再確認案内フレーズ(例えば、「もう1回言って下さい」など)を選択する。そして、発話内容決定部26は、選択した再確認案内フレーズを含む発話内容を、サーバ通信部21を介して発話装置10に出力する(ステップS9)。そして、発話内容決定部26は、再びタイマーを初めからスタートさせるため、ステップS2に戻る。
一方、ステップS8において、「誤フレーズを取得した回数は、3回目である」と判定された場合(ステップS8:YES)、発話内容決定部26の処理は、モード変更を終了するステップS10に進む。
また、ステップS6において、「取得した音声情報は、ユーザがモードの変更を中止することを示す終了フレーズ(例えば、「やめる」など)である」と判定された場合(ステップS6:終了フレーズ)、発話内容決定部26は、モードを変更しないことを決定し、モードを変更する処理を終了することを示す終了案内フレーズ(例えば、「モード変更を中止しました」など)を選択する。そして、発話内容決定部26は、選択した終了案内フレーズを含む発話内容を、サーバ通信部21を介して発話装置10に出力する(ステップS10)。
また、ステップS6において、「取得した音声情報は、ノイズである」と判定された場合(ステップS5:ノイズ)、発話内容決定部26の処理は、モードを変更しないことを決定し、タイムアウトが発生したか否かを判定するステップS3に戻る。なお、音声情報がノイズであるか否かを判定する方法として、例えば、入力音声情報に含まれる音の大きさが、所定の範囲に含まれているか否かによって判定する方法が挙げられる。ここで、所定の範囲の例として、ユーザが会話において発する音の大きさに含まれない範囲を挙げると、音声情報に含まれる音の大きさが、ユーザが会話において発する音の大きさより小さい、またはユーザが会話において発する音の大きさより大きい、の何れかに含まれる場合、発話内容決定部26は、入力音声情報はノイズであると判定する。
このように、実施形態7に係る発話システム1では、サーバ20に設定されているモードをユーザが変更する場合、ユーザからモード変更の操作を受け付けた後、さらにモード変更するか否かを確認することができる。したがって、サーバ20に設定されているモードが誤って変更されるのを防ぐことができる。また、発話システム1において、発話装置10が確認案内フレーズを発話し、それに対してユーザが発話することにより、サーバ20の設定を変更することができる。換言すると、ユーザと発話装置10とが会話することによって、サーバ20の設定が変更できるので、発話システム1は、ユーザと円滑なコミュニケーションを図ることができる。
なお、図7のステップS5において、音声情報認識部25が認識した認識フレーズに基づいて発話内容決定部26は次の処理を実行したが、認識フレーズ及び認識イントネーションに基づいて、発話内容決定部26は次の処理を実行してもよい。
例えば、ステップS1において、発話内容決定部26は、モードを変更することを示す操作情報を取得すると、発話内容を決定するために参照するデータベースを、変更した後のモードに対応するデータベースとする構成であってもよい。より具体的には、発話内容決定部26は、元気モードに変更することを示す操作情報を取得した場合、発話内容決定部26は、発話内容を決定するために参照するデータベースを、確認フレーズとして「OK!」「よろしく!」を含んだ元気モードに対応するデータベースに切り替える(ステップS1)。なお、モード変更の対象となる発話装置を特定するための情報が操作情報に含まれている場合、モード変更の対象となる発話装置の発話についてデータベースを切り替える。
次に、発話内容決定部26が実行するステップS2〜S4、及び音声情報認識部25が実行するステップS5については、既に説明しているため、省略する。
続いて、ステップS6において、音声情報認識部25が、ユーザから「いいよ」というフレーズを含む音声情報を取得した場合、元気モードに対応した確認フレーズではないため、誤フレーズとして、発話内容決定部26は、ステップS8に進む。
このように、実施形態7に係る発話システム1では、変更後のモードにおいて、ユーザは変更後のモードに対応する認識フレーズを入力音声情報として発話できるか否かを、モードを変更する前に確認することができる。
なお、実施形態7に係る発話システム1では、入力音声情報を所定の条件でサーバ20が取得した場合に、サーバ20に設定されたモードを変更できる構成としてもよい。所定の条件として、例えば、音量が所定の値よりも大きい入力音声情報を、サーバが複数回(例えば3回)続けて取得した場合、サーバ20は元気モードに変更するとしてもよい。所定の音量よりも大きい入力音声情報をユーザが発している場合、ユーザが元気だと判断できるので、サーバ20が元気モードに変更することにより、ユーザにより楽しく発話装置10と会話させることができる。
また、実施形態7に係る発話システム1において、発話装置10が制御部22及び記憶部23を備えることにより、発話装置10が図7の処理を実行してもよい。この場合、発話装置の発話内容決定部(決定手段)26において決定した確認案内フレーズを、発話部(確認案内フレーズ発話手段)13が発話する。そして、音声情報取得部(回答受付手段)12が、確認案内フレーズに対する回答である入力音声情報を取得し、取得した入力音声情報を音声情報認識部25に出力する。そして、音声情報認識部25が認識したフレーズに応じて、発話内容決定部26が、モードを変更するか否かを決定する。したがって、発話装置10は、ユーザと円滑なコミュニケーションを図ることができる。
〔実施形態8〕
発話内容決定部26は、フレーズやイントネーションに加え、決定した発話内容の声色、音量、話速、音の高さを、サーバ20に設定されたモードに応じて変更できる変更部(変更手段)を備える構成としてもよい。
例えば、サーバ20に元気モードが設定された場合、発話内容決定部26は、変更部において、声色を元気な声色に変更し、音量を標準モードの1.2倍、話速を標準モードの1.3倍に変更する、としてもよい。
また、例えば、サーバ20に丁寧モードが設定された場合、発話内容決定部26は、変更部において、声色を丁寧な声色に変更し、音量を標準モードの0.9倍、話速を標準モードの0.8倍、音の高さを標準モードの1.2倍に変更する、としてもよい。
このように、実施形態8に係る発話システム1では、決定した発話内容の声色、音量、話速、音の高さを、サーバ20に設定されたモードに応じて変更することができる。したがって、より人間味に溢れる発話装置10を実現することができる。
〔実施形態9〕
サーバ20の制御部22は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
後者の場合、サーバ20は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラム及び各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
〔まとめ〕
本発明の態様1に係る発話制御装置(20)は、発話装置(10)に発話させる発話内容を決定する発話制御装置であって、同一カテゴリに含まれる複数のフレーズから発話すべきフレーズを選択する選択処理と、発話すべきフレーズのイントネーションを設定する設定処理と、の少なくとも何れかの処理を行うことによって、上記発話内容を決定する発話内容決定手段(発話内容決定部26)、を備える。
上記の構成によれば、発話制御装置は、同一カテゴリに含まれる複数のフレーズから発話すべきフレーズを選択する、または発話すべきフレーズのイントネーションを設定する、の少なくとも何れかの処理を行うことによって、発話装置に発話させる発話内容を決定する。したがって、発話制御装置は、ユーザに合わせた発話内容を発話装置から発話させることができるので、従来に比べてユーザと円滑なコミュニケーションを図ることが可能である。
本発明の態様2に係る発話制御装置は、上記態様1において、1又は複数のフレーズを含む複数のフレーズデータベースを参照するよう構成されており、上記発話内容決定手段は、参照する上記フレーズデータベースを切り替えることにより、上記発話内容を決定してもよい。
上記の構成によれば、発話制御装置は、複数のフレーズデータベースを参照し、フレーズデータベースを切り替えることにより発話内容を決定するので、従来に比べてユーザと円滑なコミュニケーションを図ることが可能な発話制御装置を容易に実現することができる。
本発明の態様3に係る発話制御装置は、上記態様1または2において、1又は複数のフレーズに対してそれぞれ異なるイントネーションが設定されている複数のフレーズデータベースを参照するよう構成されており、上記発話内容決定手段は、参照する上記フレーズデータベースを切り替えることにより、上記発話内容を決定してもよい。
上記の構成によれば、発話制御装置は、1又は複数のフレーズに対してそれぞれ異なるイントネーションが設定されている複数のフレーズデータベースを参照し、イントネーションが設定されたフレーズを発話内容として決定する。したがって、ユーザと円滑なコミュニケーションを図ることが可能な発話制御装置を容易に実現することができる。
本発明の態様4に係る発話制御装置は、上記態様2または3において、上記フレーズデータベースに対応する認識データベースであって、入力音声情報を認識するための認識データベースを参照してもよい。
上記の構成によれば、発話制御装置は、フレーズデータベースに対応した認識データベースを参照することにより、入力音声情報を認識することができる。
本発明の態様5に係る発話制御装置は、上記態様4において、上記認識データベースを、入力音声情報に含まれるフレーズ及びイントネーションの少なくとも何れかに応じて切り替える認識手段(音声情報認識部25)、をさらに備え、上記発話内容決定手段は、上記認識手段によって認識されたフレーズ及びイントネーションの少なくとも何れかに応じて、上記発話内容を決定してもよい。
上記の構成によれば、発話制御装置は、認識手段によって認識された入力音声情報に含まれるフレーズ及びイントネーションの少なくとも何れかに応じて決定された発話内容を、発話装置に発話させる。したがって、ユーザはあたかも人と会話しているかのように発話装置と会話することができるので、発話制御装置は、従来に比べてユーザと円滑なコミュニケーションを図ることが可能である。
本発明の態様6に係る発話制御装置は、上記態様2〜5において、入力音声情報に含まれるフレーズが、所定のフレーズと一致するか否かを判定する判定手段(発話内容決定部26)をさらに備え、上記判定手段によって、上記入力音声情報に含まれるフレーズが、所定のフレーズと一致しないと判定された場合、上記発話内容決定手段は、上記入力音声情報に含まれるフレーズが所定のフレーズと一致する場合に選択されるフレーズのカテゴリとは異なるカテゴリに含まれるフレーズを、発話すべきフレーズとして選択してもよい。
上記の構成によれば、入力音声情報に含まれるフレーズが、所定のフレーズと一致しないと判定された場合、発話制御装置は、上記入力音声情報に含まれるフレーズが、所定のフレーズと一致する場合に選択されるフレーズのカテゴリとは異なるカテゴリに含まれるフレーズを、発話装置から発話させることができる。したがって、ユーザは、あたかも人と会話しているかのように発話装置と会話することができるので、発話制御装置は、従来に比べてユーザと円滑なコミュニケーションを図ることが可能である。
本発明の態様7に係る発話制御装置は、上記態様3〜5において、入力音声情報に含まれるフレーズ及びイントネーションが、所定のフレーズ及びイントネーションと一致するか否かを判定する判定手段(発話内容決定部26)をさらに備え、上記判定手段によって、上記入力音声情報に含まれるフレーズが所定のフレーズと一致する場合であっても、上記入力音声情報に含まれるイントネーションが、所定のイントネーションと一致しないと判定された場合、上記発話内容決定手段は、上記入力音声情報に含まれるイントネーションが所定のイントネーションと一致する場合に選択されるフレーズのカテゴリとは異なるカテゴリに含まれるフレーズを、発話すべきフレーズとして選択してもよい。
上記の構成によれば、入力音声情報に含まれるフレーズが所定のフレーズと一致する場合であっても、入力音声情報に含まれるイントネーションが所定のイントネーションと一致しない場合には、所定のフレーズ及びイントネーションが一致した場合に選択されるフレーズのカテゴリとは異なるカテゴリを、発話制御装置は、発話装置から発話させることができる。したがって、ユーザは、あたかも人と会話しているかのように発話装置と会話することができるので、発話制御装置は、従来に比べてユーザと円滑なコミュニケーションを図ることが可能である。
本発明の態様8に係る発話制御装置は、上記態様6または7において、上記発話内容決定手段は、上記選択処理において、上記異なるカテゴリに含まれる複数のフレーズを含むデータベースから発話すべきフレーズをランダムに選択してもよい。
上記の構成によれば、発話制御装置は、異なるカテゴリに含まれる複数のフレーズをランダムに選択し、発話装置から発話させることができる。したがって、発話装置は、同じフレーズばかり回答することはなく、ユーザは、あたかも人と会話しているかのように発話装置と会話することができるので、発話制御装置は、従来に比べてユーザと円滑なコミュニケーションを図ることが可能である。
本発明の態様9に係る発話制御装置は、上記態様1〜8において、上記発話内容決定手段は、発話装置に発話させる発話内容の声色、音量、話速、音の高さの少なくとも1つを変更する変更手段をさらに備えてもよい。
上記の構成によれば、発話制御装置は、発話させる発話内容の声色、音量、話速、音の高さの少なくとも1つを変更して、発話内容を発話装置に発話させることができる。したがって、発話内容に応じた声色、音量、話速、音の高さで、発話内容を発話装置に発話させることができる。
本発明の態様10に係る方法は、発話装置に発話させる発話内容を決定する方法であって、同一カテゴリに含まれる複数のフレーズから、発話すべきフレーズを選択する選択処理と、発話すべきフレーズのイントネーションを設定する設定処理と、の少なくとも何れかの処理を行うことによって、上記発話内容を決定する発話内容決定工程を含み、上記発話内容決定工程は、複数のフレーズを含む複数のフレーズデータベースを切り替えることにより、上記発話内容を決定する。
上記の構成によれば、方法は、ユーザと円滑なコミュニケーションを図る発話装置を実現することができる。
本発明の態様11に係る発話システムは、上記態様5における発話制御装置と、発話装置とを備えた発話システムであって、上記発話装置は、入力音声情報を発話制御装置に送信し、発話制御装置から受信した発話内容を発話する。
上記の構成によれば、発話システムは、上記態様5に記載の発話制御装置と同様の効果を奏する発話システムを実現することができる。
本発明の各態様に係る発話制御装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記発話制御装置が備える各手段として動作させることにより上記発話制御装置をコンピュータにて実現させる発話制御装置の制御プログラム、及びそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
本発明の態様12に係る発話装置は、同一カテゴリに含まれる複数のフレーズから発話すべきフレーズを選択する選択処理と、発話すべきフレーズのイントネーションを設定する設定処理と、の少なくとも何れかの処理を行うことによって発話内容を決定する発話内容決定手段(発話内容決定部26)と、上記発話内容決定手段によって決定された発話内容を発話する発話手段(発話部13)と、を備える。
上記の構成によると、態様1に係る発話制御装置と同様の効果を奏する発話装置が実現できる。
本発明の態様13に係る発話制御装置は、フレーズ、またはフレーズ及びイントネーションに関連付けられた発話モードを変更するか否かをユーザに確認するための確認案内フレーズを発話装置に送信する確認案内フレーズ送信手段(サーバ通信部21)と、上記確認案内フレーズに対するユーザからの回答を受け付ける回答受付手段(サーバ通信部21)と、上記回答受付手段が受け付けた回答に応じて、モードを変更するか否かを決定するモード変更決定手段(発話内容決定部26)と、を備えている。
上記の構成によれば、発話制御装置は、ユーザにモードを変更するか否かを確認する確認案内フレーズを、発話装置から発話させることができる。したがって、発話制御装置は、モードをユーザと会話することによって変更できるので、ユーザと円滑なコミュニケーションを図ることが可能である。
本発明の態様14に係る発話装置は、フレーズ、またはフレーズ及びイントネーションに関連付けられた発話モードを変更するか否かをユーザに確認するための確認案内フレーズを発話する確認案内フレーズ発話手段(発話部13)と、上記確認案内フレーズに対するユーザからの回答を受け付ける回答受付手段(音声情報取得部12)と、上記回答受付手段が受け付けた回答に応じて、発話モードを変更するか否かを決定するモード変更決定手段(発話内容決定部26)と、を備えている。
上記の構成によれば、上記態様11に係る発話制御装置と同様の効果を奏する発話装置を実現することができる。
本発明の態様15に係る発話システムは、上記態様14に記載の発話制御装置と、発話装置とを備えた発話システムであって、上記発話装置は、上記発話制御装置から上記確認案内フレーズを受信する確認案内フレーズ受信手段(通信部11)と、上記確認案内フレーズを発話する確認案内フレーズ発話手段(発話部13)と、上記確認案内フレーズに対するユーザからの回答を受け付ける回答受付手段(音声情報取得部12)と、上記回答受付手段が受け付けた回答を上記発話制御装置に送信する回答送信手段(通信部11)と、を備えている。
上記の構成によれば、上記態様11に係る発話制御装置と同様の効果を奏する発話システムを実現することができる。
本発明の態様16に係る方法は、発話装置の発話を制御する方法であって、フレーズ、またはフレーズ及びイントネーションに関連付けられた発話モードを変更するか否かをユーザに確認するための確認案内フレーズを発話装置に送信する確認案内フレーズ送信工程と、上記確認案内フレーズに対するユーザからの回答を受け付ける回答受付工程と、上記回答受付工程において受け付けた回答に応じて、発話モードを変更するか否かを決定する決定工程と、を含んでいる。
上記の構成によれば、方法は、ユーザと円滑なコミュニケーションを図る発話装置を実現することができる。
(付記事項)
上記の課題を解決するために、本発明の一態様に係る発話制御装置は、発話装置に発話させる発話内容を決定する発話制御装置であって、同一カテゴリに含まれる複数のフレーズから発話すべきフレーズを選択する選択処理と、発話すべきフレーズのイントネーションを設定する設定処理と、の少なくとも何れかの処理を行うことによって、上記発話内容を決定する発話内容決定手段、を備える。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
本発明は、ユーザに情報を提供する発話装置を備えたシステムに利用することができる。
1 発話システム
2 ネットワーク
10 発話装置
11 通信部(発話内容取得部)
13 発話部
20 サーバ(発話制御装置)
21 サーバ通信部(音声出力部)
22 制御部
23 記憶部
24 外部情報取得部(音声情報取得部)
25 音声情報認識部
26 発話内容決定部

Claims (8)

  1. 発話装置に発話させる発話内容を決定する発話制御装置であって、
    上記発話装置から入力音声情報を取得する音声情報取得部と、
    上記入力音声情報を認識する音声情報認識部と、
    上記発話制御装置に設定されたモードと、上記音声情報認識部によって認識された認識情報と、に応じて1又は複数のデータベースを参照することにより、発話内容を決定する発話内容決定部と、
    上記発話内容決定部が決定した発話内容を上記発話装置に出力する音声出力部と、
    を備えることを特徴とする発話制御装置。
  2. 上記データベースでは、上記モードごとに、上記認識情報が示す認識フレーズと、当該認識フレーズに対応する回答フレーズとが関連付けられており、
    上記発話内容決定部は、上記設定されたモードに応じて上記1または複数のデータベースを参照することによって、上記回答フレーズを選択する、
    ことを特徴とする請求項1に記載の発話制御装置。
  3. 上記データベースでは、上記モードごとに、上記認識情報が示す認識フレーズに関連付けられている回答フレーズが異なる、
    ことを特徴とする請求項2に記載の発話制御装置。
  4. 上記モードは、上記発話装置の設定に応じて設定される、
    ことを特徴とする請求項2又は3に記載の発話制御装置。
  5. 上記発話内容決定部は、上記モードに応じて、上記発話装置の設定に関わらず、上記発話内容を決定する、
    ことを特徴とする請求項2又は3に記載の発話制御装置。
  6. 発話装置に発話させる発話内容を決定する方法であって、
    上記発話装置から入力音声情報を取得する音声情報取得工程と、
    上記入力音声情報を認識する音声情報認識工程と、
    設定されたモードと、上記音声情報認識工程において認識された認識情報と、に応じて1又は複数のデータベースを参照することにより、発話内容を決定する発話内容決定工程と、
    上記発話内容決定工程において決定された発話内容を上記発話装置に出力する音声出力工程と、
    を含むことを特徴とする方法。
  7. 発話装置と、
    発話制御装置と、
    を備えた発話システムであって、
    上記発話制御装置は、
    上記発話装置から入力音声情報を取得する音声情報取得部と、
    上記入力音声情報を認識する音声情報認識部と、
    上記発話制御装置に設定されたモードと、上記音声情報認識部によって認識された認識情報と、に応じて1又は複数のデータベースを参照することにより、発話内容を決定する発話内容決定部と、
    上記発話内容決定部が決定した発話内容を上記発話装置に出力する音声出力部と、
    を備え、
    上記発話装置は、
    上記発話制御装置から出力された発話内容を取得する発話内容取得部と、
    取得した発話内容を発話する発話部と、
    を備えることを特徴とする発話システム。
  8. 請求項1から5のいずれか1項に記載の発話制御装置としてコンピュータを機能させるためのプログラムであって、コンピュータを上記各部として機能させるためのプログラム。
JP2017047738A 2017-03-13 2017-03-13 発話制御装置、方法、発話システム、及びプログラム Active JP6522679B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017047738A JP6522679B2 (ja) 2017-03-13 2017-03-13 発話制御装置、方法、発話システム、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017047738A JP6522679B2 (ja) 2017-03-13 2017-03-13 発話制御装置、方法、発話システム、及びプログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2013227568A Division JP2015087649A (ja) 2013-10-31 2013-10-31 発話制御装置、方法、発話システム、プログラム、及び発話装置

Publications (2)

Publication Number Publication Date
JP2017122930A true JP2017122930A (ja) 2017-07-13
JP6522679B2 JP6522679B2 (ja) 2019-05-29

Family

ID=59305588

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017047738A Active JP6522679B2 (ja) 2017-03-13 2017-03-13 発話制御装置、方法、発話システム、及びプログラム

Country Status (1)

Country Link
JP (1) JP6522679B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111433736A (zh) * 2017-12-01 2020-07-17 雅马哈株式会社 机器控制系统、机器控制方法、以及程序

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08193837A (ja) * 1995-01-20 1996-07-30 Sony Corp ナビゲーションシステム
JP2001083991A (ja) * 1999-09-16 2001-03-30 Denso Corp ユーザインタフェース装置、ナビゲーションシステム、情報処理装置及び記録媒体
JP2003108362A (ja) * 2001-07-23 2003-04-11 Matsushita Electric Works Ltd コミュニケーション支援装置およびコミュニケーション支援システム
JP2003303187A (ja) * 2002-04-11 2003-10-24 P To Pa:Kk 会話制御システム、会話制御装置、会話制御方法、プログラム及びプログラムを記録した記録媒体
JP2015087649A (ja) * 2013-10-31 2015-05-07 シャープ株式会社 発話制御装置、方法、発話システム、プログラム、及び発話装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08193837A (ja) * 1995-01-20 1996-07-30 Sony Corp ナビゲーションシステム
JP2001083991A (ja) * 1999-09-16 2001-03-30 Denso Corp ユーザインタフェース装置、ナビゲーションシステム、情報処理装置及び記録媒体
JP2003108362A (ja) * 2001-07-23 2003-04-11 Matsushita Electric Works Ltd コミュニケーション支援装置およびコミュニケーション支援システム
JP2003303187A (ja) * 2002-04-11 2003-10-24 P To Pa:Kk 会話制御システム、会話制御装置、会話制御方法、プログラム及びプログラムを記録した記録媒体
JP2015087649A (ja) * 2013-10-31 2015-05-07 シャープ株式会社 発話制御装置、方法、発話システム、プログラム、及び発話装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111433736A (zh) * 2017-12-01 2020-07-17 雅马哈株式会社 机器控制系统、机器控制方法、以及程序
CN111433736B (zh) * 2017-12-01 2024-05-07 雅马哈株式会社 机器控制系统以及机器控制方法

Also Published As

Publication number Publication date
JP6522679B2 (ja) 2019-05-29

Similar Documents

Publication Publication Date Title
US7706510B2 (en) System and method for personalized text-to-voice synthesis
US8566098B2 (en) System and method for improving synthesized speech interactions of a spoken dialog system
TWI281146B (en) Apparatus and method for synthesized audible response to an utterance in speaker-independent voice recognition
JP2007525897A (ja) マルチモーダル埋め込み型インタフェースの交換可能なカスタマイズ用の方法及び装置
US7966186B2 (en) System and method for blending synthetic voices
US7689417B2 (en) Method, system and apparatus for improved voice recognition
US20090198497A1 (en) Method and apparatus for speech synthesis of text message
US20230206897A1 (en) Electronic apparatus and method for controlling thereof
US20180130462A1 (en) Voice interaction method and voice interaction device
CN110493123B (zh) 即时通讯方法、装置、设备及存储介质
CN107871503A (zh) 语音对话系统以及发声意图理解方法
CA2539649C (en) System and method for personalized text-to-voice synthesis
US20070106514A1 (en) Method of generating a prosodic model for adjusting speech style and apparatus and method of synthesizing conversational speech using the same
JP2006517037A (ja) 韻律的模擬語合成方法および装置
JP2015087649A (ja) 発話制御装置、方法、発話システム、プログラム、及び発話装置
US8423366B1 (en) Automatically training speech synthesizers
US10143027B1 (en) Device selection for routing of communications
JP2017122930A (ja) 発話制御装置、方法、発話システム、及びプログラム
US11848011B1 (en) Systems and methods for language translation during live oral presentation
US11485022B2 (en) Dialogue apparatus and control program for dialogue apparatus
US11172527B2 (en) Routing of communications to a device
JP6289950B2 (ja) 読み上げ装置、読み上げ方法及びプログラム
US10854196B1 (en) Functional prerequisites and acknowledgments
US20080146197A1 (en) Method and device for emitting an audible alert
JP6124844B2 (ja) サーバ、データベースを利用する方法、プログラム、システム、端末、端末プログラムおよび音声データ出力装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180515

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180621

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181016

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190326

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190424

R150 Certificate of patent or registration of utility model

Ref document number: 6522679

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150