JP5881579B2

JP5881579B2 - 対話システム

Info

Publication number: JP5881579B2
Application number: JP2012237290A
Authority: JP
Inventors: 林太郎中根
Original assignee: Toshiba Corp; Toshiba TEC Corp
Current assignee: Toshiba Corp; Toshiba TEC Corp
Priority date: 2012-10-26
Filing date: 2012-10-26
Publication date: 2016-03-09
Anticipated expiration: 2032-10-26
Also published as: JP2014085652A

Description

この明細書に記載の実施形態は、発話者の音構成データまたは既定音構成データと、発話者のテキストデータまたは既定テキストデータとを選択して組み合せて生成する音声を用いて、聴取者と対話を行う技術に関する。

近年、音声情報を用いて人間と様々な装置とで対話を行う対話システムが研究されている。この種の対話システムでは、人間同士の対話と同じ感覚を聴取者に感じさせることが要求されている。例えば、発話者の音声をマイクから取得し、この取得した音声のうち意味内容に関するテキストデータを抽出して、予め装置に登録された音および音節に関する音構成データと抽出されたテキストデータを組み合わせて応答音声を生成し、応答音声をスピーカ等から出力して聴取者と対話する対話システムがある。また、スピーカ等から出力される応答音声を発話者の音声と誤認識することを防ぐために、応答音声と発話者の音声を判別し、発話者の音声と判別した場合にのみ取得した音声に音声認識処理を適用して、応答音声をスピーカ等から出力し、聴取者と対話する対話システムもある（特許文献１）。

特開２００５−３３８４５４号公報

しかし、上記対話システムは、発話者が予め装置に登録された音および音節に関する音構成データと発話者の音声から抽出されたテキストデータを組み合わせて聴取者と対話するため、聴取者は装置と対話している感覚にしかならず、人間同士の対話と同じ感覚を得ることができなかった。

実施形態の対話システムは、発話者用端末と、サーバと、聴取者用端末と、がネットワークを介して相互に接続される対話システムである。
発話者用端末は、発話者の音声を取得し、該取得された音声の音声信号を前記サーバに送信する第１の音声取得部と、サーバから受信された音声データに基づいて、発話者に対して音声を出力する第１の音声出力部とを備える。
サーバは、第１の音構成データ登録部と、第２の音構成データ登録部と、選択音声出力部と、音声データ合成部とを備える。第１の音構成データ登録部は、発話者用端末から受信された音声の音声信号から音および音節に関する第１の音構成データを抽出し、登録する。第２の音構成データ登録部は、第１の音構成データとは異なる音および音節に関する第２の音構成データを予め登録している。選択音声出力部は、第１の音構成データ登録部が登録した第１の音構成データまたは第２の音構成データ登録部が登録した第２の音構成データを、発話者の選択に基づいて出力する。音声データ合成部は、選択音声出力部から出力された第１の音構成データまたは第２の音構成データを用いて、音声データを合成し、合成された音声データを聴取者用端末および発話者端末に送信する。
聴取者用端末は、第２の音声出力部と、第３の音構成データ登録部と、第１の音構成データ比較部と、第３のテキストデータ登録部と、出力タイミング判定部とを備える。第２の音声出力部は、サーバから受信された音声データに基づいて、聴取者に対して音声を出力する。第３の音構成データ登録部は、聴取者の音声を取得する第２の音声取得部と、聴取者の音声のうち音および音節に関する第３の音構成データを予め登録する。第１の音構成データ比較部は、第２の音声取得部で取得した音声のうち音および音節に関する第４の音構成データを抽出し、抽出した第４の音構成データと第３の音構成データ登録部で予め登録された第３の音構成データとを比較する。第３のテキストデータ登録部は、第１の音構成データ比較部が、第４の音構成データと第３の音構成データとが一致すると判断した場合に、第２の音声取得部で取得した音声のうち意味内容に関する第３のテキストデータを抽出する。出力タイミング判定部は、発話者が予め設定した所定のテキストデータが、第３のテキストデータ登録部で抽出した第３のテキストデータに含まれるかを判断し、所定のテキストデータが第３のテキストデータに含まれると判断した場合に、音声データ合成部に対して、音声データ合成部で合成された音声データを第２の音声出力部に出力する。

実施形態の対話システムの全体を示す概略構成図。実施形態の対話システムの機能を示す機能ブロック図。図２における各機能部の関係を示す機能ブロック図。図３における聴取者用端末における各機能を示す機能ブロック図。実施形態の対話システムにおける発話者、聴取者、聴取者用端末およびコンテンツ提供業者間におけるデジタル音声信号等を転送する場合の概略を示す図。実施形態の対話システムにおけるデジタル音声信号の取得および出力を示す制御フローチャート。実施形態の対話システムにおける聴取者のアナログ音声信号から合成音声データの出力タイミングを示す制御フローチャート。実施形態の対話システムを適用した概略構成図である。

以下、実施形態の対話システム１を図面に基づいて説明する。図１は本実施形態の対話システム１の全体構成を示す概略構成図であり、図２は本実施形態の対話システム１の機能を示す機能ブロック図であり、図３は図２における各機能部の関係を示す機能ブロック図であり、図４は図３における聴取者用端末３における各機能を示す機能ブロック図である。

図１および２に示すように、本実施形態の対話システム１は、発話者用端末２と、聴取者用端末３（収容部）と、クラウドサーバ４とをインターネットなどのネットワーク６を介して接続した構成である。

発話者用端末２は、図１および２に示すように表示受付部２１、画像撮像部２２、発話音声入力部２３（第１の音声取得部）および発話音声出力部２４を有する。発話者用端末２としては、例えば、ノートパソコン、タブレット型パソコン、携帯電話、ＰＨＳ、スマートフォン、スマートブック、ストレート型端末等である。

表示受付部２１は、タッチパネル式のディスプレイパネルであり、発話者から各種操作を受付ける。表示受付部２１は、後述のクラウドサーバ４からの各種制御信号に基づいて、所定の画面を表示する。また、発話者の操作により、表示受付部２１にキーボードを表示し、発話者から所定のテキスト情報の入力を受付ける。さらに、表示受付部２１は、後述の発話音構成データまたは既定音構成データの選択と、後述の発話テキストデータまたは既定テキストデータの選択との両方に関する選択情報を発話者から受付ける。表示受付部２１は、発話者から受付けた選択情報を後述の選択音声出力部５６へ出力する。

画像撮像部２２は、例えば小型カメラ、ウェブカメラなどであり、発話者の身体画像、顔画像を含む画像を撮影する。

発話音声入力部２３は、発話者の音声をアナログ音声信号として取得する発話側マイク、取得したアナログ音声信号を増幅する増幅器（不図示）および増幅されたアナログ音声信号をデジタル音声信号に変換するＡ／Ｄ変換器（不図示）とを備える。発話音声入力部２３は、発話者の音声を増幅してアナログ音声信号からデジタル音声信号に変換し、クラウドサーバ４へ送信する。

発話音声出力部２４は、クラウドサーバ４から送信されるデジタル音声信号をアナログ音声信号に変換するＤ／Ａ変換器（不図示）、この変換されたアナログ音声信号を増幅する増幅器（不図示）および増幅されたアナログ信号を出力音として出力するスピーカとを備える。発話音声出力部２４は、デジタル音声信号をアナログ音声信号に変換して増幅し、出力音として発話者に対して出力（発話）する。

聴取者用端末３は、図１および２に示すように、例えばロボット、動物、人形などの玩具の形態を有しており、聴取音声入力部３１（第２の音声取得部）、聴取音声出力部３２（音声出力部）、聴取音構成データ登録部３３（第３の音構成データ登録部）、聴取音構成データ比較部３４（第１の音構成データ比較部）、聴取テキストデータ登録部３５（第３のテキストデータ登録部）、出力タイミング判定部３６および操作入力部３７を有する。

聴取音声入力部３１は、聴取者の音声をアナログ音声信号として取得する聴取マイク、取得したアナログ音声信号を増幅する増幅器（不図示）および増幅されたアナログ音声信号をデジタル音声信号に変換するＡ／Ｄ変換器（不図示）とを備える。聴取音声入力部３１は、図４に示すように聴取者の音声を増幅してアナログ音声信号からデジタル音声信号に変換し、聴取音構成データ比較部３４へ送信する。

聴取音構成データ登録部３３は、メモリまたはＨＤＤ（Hard Disk Drive）等であり、対象となる聴取者のデジタル音声信号のうち音および音節に関する対象聴取音構成データ（第３の音構成データ）を予め登録している。聴取音構成データ登録部３３は、対話システム１が動作する前に対象聴取音構成データを予め登録する。この聴取音構成データ登録部３３による対象聴取音構成データの事前登録は、聴取音声入力部３１および聴取音構成データ比較部３４を用いて登録しても良い。

聴取音構成データ比較部３４は、図４に示すように、聴取音声入力部３１で入力されたデジタル音声信号のうち音および音節に関する聴取音構成データ（第４の音構成データ）を抽出し、この抽出した聴取音構成データを聴取音構成データ登録部３３で予め登録している対象聴取音構成データと比較する。聴取音構成データ比較部３４が、聴取音構成データと対象聴取音構成データとが一致すると判断すると、聴取音構成データ比較部３４は、この聴取音構成データに対応するデジタル音声信号を聴取テキストデータ登録部３５へ送信する。また、聴取音構成データ比較部３４は、後述の操作入力部３７の操作に応じて、発話者の音声のうちテキストデータ（発話者が予め設定した所定のテキストデータ）を抽出して、後述の出力タイミングとし、後述の出力タイミング判定部３６へ送信する。

聴取テキストデータ登録部３５は、聴取音構成データ比較部３４から送信されたデジタル音声信号のうち意味内容に関する聴取テキストデータ（第３のテキストデータ）を抽出して、出力タイミング判定部３６へ送信する。

出力タイミング判定部３６は、クラウドサーバ４から合成音声データを受信し保持するとともに、この合成音声データを聴取音声出力部３２へ出力するタイミングを判定する。具体的には、出力タイミング判定部３６は、発話者が予め設定した所定のテキスト情報が聴取テキストデータに含まれると判断した場合に、クラウドサーバ４から送信された合成音声データを聴取音声出力部３２へ出力する。この他に、出力タイミング判定部３６の合成デジタル信号の出力タイミングとして、出力タイミング判定部３６は、発話者が予め設定した時間を経過した後に、合成デジタル信号を聴取音声出力部３２へ出力する構成としても良い。なお、出力タイミング判定部３６は、聴取テキストデータ登録部３５および後述の操作入力部３７で入力された聴取テキストデータおよび発話者が設定した所定の時間を内部に保存する。

操作入力部３７は、出力タイミング判定部３６が聴取音声出力部３２へ出力するタイミングとして、発話者が予め設定した所定のテキスト情報が聴取者の発話内容に含まれた場合とするか、発話者が予め設定した時間を経過した場合とするかに関する操作入力を聴取者から受付ける。また、操作入力部３７は、発話者が直接テキストデータを入力した聴取テキストデータ（発話者が予め設定した所定のテキストデータ）を後述の出力タイミング判定に用いる出力タイミングとして、出力タイミング判定部３６に送信する。

聴取音声出力部３２は、後述のクラウドサーバ４から送信される合成音声データである合成デジタル信号を合成アナログ音声信号に変換するＤ／Ａ変換器（不図示）、この変換された合成アナログ音声信号を増幅する増幅器（不図示）および増幅された合成アナログ信号を出力音として出力する聴取スピーカとを備える。聴取音声出力部３２は、合成デジタル音声信号を合成アナログ音声信号に変換して増幅し、出力音として聴取者に対して出力する。

クラウドサーバ４は、図２に示すように、後述のサーバコンピュータ５をネットワーク６を介して複数接続したものであり、ネットワーク６に接続する発話者用端末２および聴取者用端末３のそれぞれに対してサービスを提供する。

サーバコンピュータ５は、図２および３に示すように、発話音構成データ登録部５１（第１の音構成データ登録部）、発話テキストデータ登録部５２（第１のテキストデータ登録部）、既定音構成データ登録部５４（第２の音構成データ登録部）、既定テキストデータ登録部５５（第２のテキストデータ登録部）、選択音声出力部５６および音声データ合成部５３を有する。

発話音構成データ登録部５１は、発話音声入力部２３から送信されたデジタル音信号のうち音および音節に関する発話音構成データ（第１の音構成データ）を抽出する発話音構成データ抽出部５１１と、発話音構成データ抽出部５１１で抽出された発話音構成データを保存する発話音構成データ保存部５１２とを備える。発話音構成データ保存部５１２は、内部に設けられたメモリまたはＨＤＤ（Hard Disk Drive）等である。

発話テキストデータ登録部５２は、発話音声入力部２３から送信されたデジタル音信号のうち意味内容に関する発話テキストデータ（第１のテキストデータ）を抽出する発話テキストデータ抽出部５２１と、発話テキストデータ抽出部５２１で抽出された発話テキストデータを保存する発話テキストデータ保存部５２２とを備える。発話テキストデータ保存部５２２は、内部に設けられたメモリまたはＨＤＤ（Hard Disk Drive）等である。

既定音構成データ登録部５４は、対話システム１が動作する前から所定の既定音構成データ（第２の音構成データ）を内部に登録する。既定音構成データ登録部５４は、例えばメモリまたはＨＤＤ（Hard Disk Drive）等であり、発話者の発話音構成データとは異なる既定音構成データを予め内部に登録している。

既定テキストデータ登録部５５は、対話システム１が動作する前から所定の既定テキストデータを内部に登録している。既定テキストデータ登録部５５は、例えばメモリまたはＨＤＤ（Hard Disk Drive）等であり、対話システム１が動作する前に、例えば表示受付部２１を介して入力したテキストデータを既定テキストデータとして登録する。

選択音声出力部５６は、表示受付部２１で受付けた発話者が選択した選択結果に基づいて、発話音構成データ保存部５１２、発話テキストデータ保存部５２２、既定音構成データ登録部５４および既定テキストデータ登録部５５から、音構成データおよびテキストデータをそれぞれ選択して音声データ合成部５３へ送信する。

音声データ合成部５３は、選択音声出力部５６から出力された、発話音構成データ保存部５１２で保存された発話音構成データまたは既定音構成データ登録部５４内で登録された既定音構成データと、発話テキストデータ保存部５２２で保存された発話テキストデータまたは既定テキストデータ登録部５５で保存された既定テキストデータとを組み合わせて、合成音声データ（合成された音声データ）を生成する。音声データ合成部５３は、生成された合成音声データを聴取者用端末３内の出力タイミング判定部３６および発話者用端末２内の発話音声出力部２４のそれぞれに出力する。

ここで、発話者用端末２、聴取者用端末３およびサーバコンピュータ５は、それぞれＣＰＵ（Central Processing Unit）、メモリ(Memory)、ＨＤＤ(Hard Disk Drive)を内蔵している。ＣＰＵは、例えば、メモリを作業領域として利用し、メモリ、ＨＤＤなどに記憶されているプログラムを実行する。また、上記、発話者用端末２、聴取者用端末３およびサーバコンピュータ５内に搭載された各種機能部は、各発話者用端末２、聴取者用端末３およびサーバコンピュータ５のそれぞれに搭載されている各ＣＰＵが動作することで、上記動作を行う。

また、ネットワーク６は、例えば通信プロトコルにＴＣＰ／ＩＰ（Transmission Control Protocol／Internet Protocol）を利用し、インターネット、公衆回線網、移動体通信回線網、ＣＡＴＶ(Community Antenna Television)などの専用回線である。

次に、本実施形態の対話システム１における動作方法について説明する。図５は、実施形態の対話システム１における発話者、聴取者、聴取者用端末３およびコンテンツ提供業者間におけるデジタル音声信号等を転送する場合の概略を示す図であり、図６は、実施形態の対話システム１におけるデジタル音声信号の取得および出力を示す制御フローチャートであり、図７は実施形態の対話システム１における聴取者のデジタル音声信号からデジタル音声信号の出力タイミングを判定する制御フローチャートである。

まず、図５に示すように、発話者が発話者用端末２および聴取者用端末３を介して聴取者と対話する対話方法について説明する。初期条件としては、クラウドサーバ４を構成する各サーバコンピュータ５における既定音構成データ登録部５４および既定テキストデータ登録部５５には、予め所定の既定音構成データおよび既定テキストデータが登録されているものとする。

図６を参照して、発話者は、発話者用端末２の表示受付部２１へ聴取者用端末３における出力タイミングを入力する（ＡＣＴ１００、１０１、１０２ＹＥＳ）。ここでの出力タイミングとしては、発話者が予め設定した所定の時間とし、聴取者の発話に基づく出力タイミングについては後述する。発話者は、表示受付部２１に出力タイミングを入力すると、表示受付部２１は、入力した出力タイミングに関する情報を聴取者用端末３内の出力タイミング判定部３６へ送る。

発話者は、表示受付部２１に対して、自身の音構成データまたは既定音構成データを用いるかの選択入力を行い、かつ発話音声入力部２３に入力したテキストデータまたは既定テキストデータを用いるかの選択入力も行う（ＡＣＴ１０３ＹＥＳ）。表示受付部２１は、この選択入力情報をサーバコンピュータ５内の選択音声出力部５６へ送信する。

発話者は、発話者用端末２に対して発話すると、発話音声入力部２３が発話者のアナログ音声信号をデジタル音声信号に変換して取得する（ＡＣＴ１０４ＹＥＳ）。発話音声入力部２３は、取得した発話者のデジタル音声信号をクラウドサーバ４内の発話音構成データ抽出部５１１および発話テキストデータ抽出部５２１へそれぞれ送信する。発話音構成データ抽出部５１１は、取得した発話者のデジタル音声信号のうち音および音節に関する発話音構成データを抽出する。この抽出された発話音構成データは、発話音構成データ保存部５１２により内部に保存される（ＡＣＴ１０５）。この発話音構成データの抽出動作および保存動作と並行して、発話テキストデータ抽出部５２１は、発話者のデジタル音声信号のうち意味内容に関する発話テキストデータを抽出する。この抽出された発話テキストデータは、発話テキストデータ保存部５２２により内部に保存される（ＡＣＴ１０６）。

選択音声出力部５６は、表示受付部２１から送信された選択入力情報内に、発話音構成データを選択する情報があるか否かを判定する（ＡＣＴ１０７）。選択音声出力部５６が、選択入力情報内に発話音構成データを選択する情報が含まれないと判断すると（ＡＣＴ１０７ＮＯ）、次に選択音声出力部５６は、選択入力情報内に発話テキストデータを選択する情報が含まれるか否かを判定する（ＡＣＴ１０８）。選択音声出力部５６が、選択入力情報内に発話テキストデータを選択する情報を含むと判定した場合には（ＡＣＴ１０８ＹＥＳ）、選択音声出力部５６は、既定音構成データ登録部５４内の既定音構成データおよび発話テキストデータ保存部５２２内の発話テキストデータを取得して、音声データ合成部５３へ送信する（ＡＣＴ１１０）。音声データ合成部５３は、音声データ合成部５３へ送信された既定音構成データおよび発話テキストデータを組み合わせて、合成音声データ（合成された音声データ）を生成する（ＡＣＴ１１１）。音声データ合成部５３は、この生成された合成音声データを出力タイミング判定部３６へ送信する（ＡＣＴ１１８）。

また、選択音声出力部５６が、選択入力情報内に発話音構成データを選択する情報が含まれないと判断し、かつ発話テキストデータを選択する情報が含まれないと判断すると（ＡＣＴ１０７ＮＯ、１０８ＮＯ）、選択音声出力部５６は、既定音構成データ登録部５４内の既定音構成データおよび既定テキストデータ登録部５５内の既定テキストデータを取得して、音声データ合成部５３へ送信する（ＡＣＴ１１２）。音声データ合成部５３は、既定音構成データと既定テキストデータとを組み合わせて、合成音声データを生成して、出力タイミング判定部３６へ送信する（ＡＣＴ１１３、ＡＣＴ１１８）。

同様にして、選択音声出力部５６が、選択入力情報内に発話音構成データを選択する情報を含み、かつ発話テキストデータを選択する情報を含まれないと判断すると（ＡＣＴ１０７ＹＥＳ、１０９ＮＯ）、選択音声出力部５６は、発話音構成データ保存部５１２内の発話音構成データおよび既定テキストデータ登録部５５内の既定テキストデータを取得して、音声データ合成部５３へ送信する（ＡＣＴ１１４）。音声データ合成部５３は、既定音構成データと既定テキストデータとを組み合わせて、合成音声データを生成して、出力タイミング判定部３６へ送信する（ＡＣＴ１１５、ＡＣＴ１１８）。

また、選択音声出力部５６が、選択入力情報内に発話音構成データを選択する情報を含み、かつ発話テキストデータを選択する情報を含むと判断すると（ＡＣＴ１０７ＹＥＳ、１０９ＹＥＳ）、選択音声出力部５６は、発話音構成データ保存部５１２内の発話音構成データおよび発話テキストデータ保存部５２２内の発話テキストデータを取得して、音声データ合成部５３へ送信する（ＡＣＴ１１６）。音声データ合成部５３は、発話音構成データと発話テキストデータとを組み合わせて、合成音声データを生成して、出力タイミング判定部３６へ送信する（ＡＣＴ１１７、ＡＣＴ１１８）。

出力タイミング判定部３６は、発話者が表示受付部２１で入力した出力タイミングであるか否かを判定する（ＡＣＴ１２０）。出力タイミング判定部３６が、出力タイミングであると判定すると（ＡＣＴ１２０ＹＥＳ）、出力タイミング判定部３６は、音声データ合成部５３から受信した合成音声データを聴取音声出力部３２へ送信する。そして、聴取音声出力部３２はデジタル音声信号からなる合成音声データをアナログ音声信号に変換して、聴取者用端末３の近くにいる聴取者に対して出力（発話）する（ＡＣＴ１２１、ＡＣＴ１２２）。

本実施形態の対話システム１は、上記構成により、発話音構成データ（発話者自身の声）と既定音構成データ（予め定められた聴取者用端末３としての既定音）とを聴取者が選択的に用いることで、聴取者が発話者の音声を聞く状況を考慮して、聴取者用端末３に発話させることができる。そして、この聴取者用端末３は、玩具の形態（特にロボットの形態）をしているため、発話者自身の声と聴取者用端末３としての既定音とを使い分けることで、聴取者用端末３としての既定音を聴取者用端末３自身の声（ロボットの声）として、聴取者に認識させることができる。すなわち、聴取者用端末３が発話者自身の声で発話するときは、単に発話者のメッセージを伝達している印象を聴取者に与えるのに対して、聴取者用端末３が既定の音声で発話するときには、聴取者に対して聴取者用端末３自身の声で話している印象を聴取者に与え、聴取者に対して、聴取者用端末３との対話を人との対話として感じさせることができる。

また、本実施形態の対話システム１は、音構成データの選択の他に、テキストデータ（発話内容）の選択も行うことができるため、発話者が発話音声入力部２３に入力した内容以外の内容を聴取者用端末３に発話させることができる。すなわち、発話者が聴取者用端末３に発話させる内容を全て発話音声入力部２３に入力しなくても、聴取者用端末３から発話させることができるため、発話者が発話設定するための手間を省くことができる。

また、上記実施形態において、音声データ合成部５３で生成された合成音声データは、出力タイミング判定部３６へ送信される他に、発話者用端末２内の発話音声出力部２４へ送信する構成としても良い。この構成により、発話者は、聴取者に対して合成音声データに対応するアナログ音声信号を発話する前に、自身の設定した内容および音声を確認することができる。

次に、図７を用いて、聴取者用端末３が出力する出力タイミングが、聴取者の発話に基づく出力タイミングである場合について説明する。図７は実施形態の対話システム１における聴取者のアナログ音声信号から合成音声データの出力タイミングを判定する制御フローチャートである。なお、出力タイミングの設定および出力タイミングの判定（ＡＣＴ１０２、１１９、１２０）以外は、上記対話システム１の対話方法と同じであるため、ここでの説明を省略する。

発話者は、聴取者用端末３の操作入力部３７で出力タイミングとして聴取者の音声を用いることを選択し、出力タイミングとする音声を聴取音声入力部３１に入力する（ＡＣＴ１０２’）。聴取音声入力部３１で取得された発話者のデジタル音声信号のうちテキストデータを聴取音構成データ比較部３４で抽出し、出力タイミング判定部３６で保存する。この出力タイミングとするテキストデータに関しては、発話者は聴取者用端末３の操作入力部３７に直接テキストデータを入力する構成としても良い。また、発話者は、操作入力部３７を操作し、聴取音声入力部３１および聴取音構成データ比較部３４を動作させて、聴取音構成データ登録部３３に出力タイミングの対象となる対象聴取音構成データを登録する。

音声データ合成部５３が合成音声データを出力タイミング判定部３６へ送信すると、図７におけるステップＡへと移行する。図７を参照して、聴取者が聴取者用端末３に発話すると、聴取音声入力部３１は、聴取者のデジタル音声信号を取得する（ＡＣＴ２００、ＡＣＴ２０１ＹＥＳ）。聴取音声入力部３１は、取得した聴取者のデジタル音声信号を聴取音構成データ比較部３４および発話者用端末２の発話音声出力部２４へ送信する。なお、発話音声出力部２４へ出力された音声は、発話者に対して発話される。

聴取音構成データ比較部３４へ送信された聴取者のデジタル音声信号のうち音および音節に関する聴取音構成データを抽出する（ＡＣＴ２０２）。また、聴取音構成データ登録部３３は、この聴取音構成データ比較部３４で抽出された聴取音構成データに対応する対象聴取音構成データを聴取音構成データ比較部３４へ送信する（ＡＣＴ２０３）。

聴取音構成データ比較部３４は、聴取音構成データ登録部３３から送信された対象聴取音構成データと聴取音構成データを比較する（ＡＣＴ２０４）。聴取音構成データ比較部３４が、対象聴取音構成データと聴取音構成データが一致すると判定すると（ＡＣＴ２０４ＹＥＳ）、聴取音構成データ比較部３４は聴取音構成データを抽出したデジタル音声信号を聴取テキストデータ登録部３５へ送信する。そして、聴取テキストデータ登録部３５は、聴取テキストデータ登録部３５から送信された音声信号のうち意味内容に関する聴取テキストデータを抽出し、出力タイミング判定部３６へ送信する（ＡＣＴ２０５）。

出力タイミング判定部３６は、この送信された聴取テキストデータと発話者が予め設定したテキスト情報とを対比し、出力タイミングとなる言葉が、聴取者から発話されたかを判定する（ＡＣＴ２０６）。出力タイミング判定部３６が聴取テキストデータと発話者が予め設定したテキストデータとが一致すると判定すると（ＡＣＴ２０６ＹＥＳ）、出力タイミング判定部３６は、音声データ合成部５３から送信された合成音声データを聴取音声出力部３２へ出力し（ＡＣＴ２０７、ステップＢ）、聴取者用端末３の近くにいる聴取者に対して発話する（ＡＣＴ１２１、１２２）。

上記構成により、本実施形態の対話システム１は、聴取者のある言葉に応じて、聴取者用端末３が発話させることができるため、より聴取者用端末３を擬人化させて、聴取者に聴取者用端末３との対話を人との対話と同じ感覚にすることができる。

また、上記実施形態において、発話者が、出力タイミングとなるテキストデータは複数設定しても良い。また、この際、各設定したテキストデータに対応して、聴取者用端末３が話す合成音声データを設定しても良い。この構成により、聴取者用端末３は、聴取者の発話内容に応じて、様々な合成音声データを聴取音声出力部３２から発話させることができる。また、この聴取音声出力部３２から出力される様々な合成音声データは、発話音構成データまたは既定音構成データと、発話テキストデータまたは既定テキストデータとを組み合わせて、生成することができる。これにより、本実施形態の対話システム１を利用して、発話者と聴取者の対話を行うことで、より聴取者に対して聴取者用端末３との対話を人との対話と同じ感覚にすることができる

次に、上記実施形態の対話システム１を留守番システムに適用した場合に関して説明する。図８は、本実施形態の対話システム１を適用した留守番システムの概略図である。詳細な制御仕様に関しては、上記実施形態の制御仕様であるため、ここでの説明は省略する。

発話者（以下、保護者と言う）は、発話者用端末２を操作して、聴取者（以下、子供と言う）が帰宅する際に発話する内容（会話、挨拶、歌）やお知らせ（おやつ、夕飯および塾の時間）設定を行う。この設定において、保護者は、自分の肉声で子供に会話するか、予め設定された既定音で会話するかを選択する。また、この設定にいて、保護者は、新たな内容（新たなテキスト情報）を聴取者用端末３に発話させるのか、既定の内容（既定テキスト情報）を聴取者用端末３に発話させるかについても設定する。これらの設定に基づいて、発話音声入力部２３、発話構成データ登録部、発話テキストデータ登録部５２、既定音構成データ登録部５４、既定テキストデータ登録部５５、選択音声出力部５６および音声データ合成部５３が動作し、合成音声データを生成する（ＡＣＴ１００乃至ＡＣＴ１１８）

上記設定の他に保護者は、聴取者用端末３が発話する出力タイミングについても設定する。保護者は、操作入力部３７を操作して、子供の帰宅する時間等の所定の時間を基準に聴取者用端末３に発話させるか、子供の発話内容を基準にして聴取者用端末３に発話させるかを設定する。聴取者用端末３に発話させるタイミングを、時間を基準とする場合、出力タイミングとなる時間を操作入力部３７に入力する。また、聴取者用端末３に発話させるタイミングを、発話内容を基準とした場合には、出力タイミングとなる発話内容（発話テキストデータ）を聴取音声入力部３１に入力して、聴取テキストデータ登録部３５から発話テキストデータを抽出し、出力タイミング判定部３６に登録する。

これらの合成音声データの生成および出力タイミングの設定は、複数種類を設定しても良い。具体的には、子供が帰宅した場合（所定の時間が経過した場合）には、聴取者用端末３が保護者の声で「おかえり」や「宿題やりなさい」などを発話させ、子供が「寂しい」と発話した場合には、既定音を用いて、予め設定した内容を聴取者用端末３が発話させることができる。より具体的に説明すると、子供が寂しさ、不満、不安、フラストレーション等に関連する言葉を発話した場合には、保護者が予め設定したこれらの各関連する言葉に対応する内容（テキスト）を既定音により発話させる。これにより、子供は、聴取者用端末３により装置としてではなく人として自身を慰めている感覚となり、聴取者用端末３が、子供が感じていた不満、不安、フラストレーションへの癒しを、留守番中の子供に対して提供することができる。

また、保護者は自由に聴取者用端末３が発話する内容（テキストデータ）および音声（音構成データ）を選択して、聴取者用端末３（例えば、ロボット形状の聴取者用端末３、以下ロボット３と言う）に発話させることで、子供は、保護者と対話している感覚とロボット３と対話している感覚の２つの印象を与えることができる。すなわち、保護者と対話している感覚の場合には、子供をしつける内容またはしかる内容をロボット３から発話させ、ロボット３と対話している感覚の場合には、子供を慰める内容または擁護する内容を発話させることで、子供に対して、ロボット３を擬人化し、ロボット３は子供側の視点でフォローアップ（擁護）してくれる存在であることを認識させ、留守番中の子供が感じる精神的な負担を軽減させることができる。

このロボット３が発話する内容としては、予め保護者が設定した内容以外に、リアルタイムで保護者自身が発話者用端末２に発話した内容としても良い。この構成により、ロボット３は、予め定められた発話内容に加えて、突然、即時性、あるいは個人の詳細などの内容を発話して、子供に対して驚きや感激などの刺激を与えることができる。

上記実施形態を適用した例として、留守番をする子供（聴取者）と保護者（発話者）とで発話者用端末２および聴取者用端末３の両方を用いて対話するものとして説明したが、対話を行う者がお互いに離れた位置にいる場合であれば良い。具体的には、高齢者（聴取者）と高齢者の子供（発話者）との関係、および患者（高齢者）と医師（発話者）との関係において本実施形態の対話システム１を用いても良い。

上記実施形態では、聴取者用端末３は、単に会話内容などを発話するものとして説明したが、クラウドサーバ４内の既定テキストデータ登録部５５に登録された内容であれば、図８に示すように、時事コンテンツ情報やカスタマイズコンテンツ情報などを聴取者用端末３に発話させても良い。また、クラウドサーバ４を管理するコンテンツ提供業者が既定テキストデータ登録部５５に緊急ナビ情報（地震通報情報、退避ガイダンス情報）を登録した場合には、聴取者用端末３がこの緊急ナビ情報を発話する。聴取者用端末３が、緊急ナビ情報を発話する場合には、出力タイミング判定部３６は、音声データ合成部５３で合成音声データを生成し次第、聴取音声出力部３２から出力する構成とする。さらには、発話者が、コンテンツ提供業者に帰宅情報、在宅履歴情報および嗜好情報等を通知するようにコンテンツ要求受付を行った場合には、コンテンツ提供業者は、聴取者用端末３が取得するこれらに関する情報を既定テキストデータ登録部５５に登録し、一定間隔で発話者用端末２に登録したこれらの情報を送信する構成としても良い。

また、上記実施形態で、聴取者用端末３が発話するタイミングである出力タイミングを聴取者の発話内容および時間として説明したが、特にこれに限られるものではなく、聴取者用端末３に人検知センサを設け、人検知センサが聴取者用端末３の近くに人がいると検出した場合を出力タイミングとして設定しても良い。

また、聴取者用端末３には聴取者撮像部（不図示）を設けた構成としても良く、この聴取者撮像部により聴取者用端末３の付近の状態を撮影し、発話者用端末２の表示受付部２１に表示出力させる構成としても良い。この構成により、発話者が聴取者用端末３から離れた場所にいた状態においても、聴取者用端末３の付近の状況を発話者は認識することができる。

さらに、上記実施形態の対話システム１において、聴取者用端末３においてのみ対象聴取音構成データである所定のアナログ音声信号を取得して用いることとして説明したが、特にこれに限られるものではなく、発話者用端末２においても対象となる対象発話音構成データ（第４の音構成データ）を設定する構成としても良い。具体的には、発話者の音声データを取得したか否かの判断時（図６におけるＡＣＴ１０４）において、発話音声入力部２３で取得されたデジタル音声信号のうち音および音節に関する発話音構成データが、予め発話者が設定した対象発話音構成データ（第４の音構成データ）と一致するかで判断を行う。この判断を行う上において、既定音構成データ登録部５４に対象発話音構成データを予め登録した構成とし、発話者用端末２には発話音構成データ比較部（第２の音構成データ比較部）（不図示）を設けた構成とする。発話音構成データ比較部が、発話音構成データ抽出部５１１で抽出された発話音構成データと既定音構成データで登録された対象発話音構成データが一致すると判断した場合には、発話音構成データ抽出部５１１は、抽出した発話音構成データを発話音構成データ保存部５１２へ保存する。そして、発話テキストデータ抽出部５２１は、抽出した発話音構成データに対応する発話音声入力部２３で取得されたデジタル音声信号のうち意味内容に関するテキストデータ（第４のテキストデータ）を発話テキストデータ保存部５２２に保存する。これらの発話音構成データ保存部５１２および発話テキストデータ保存部５２２で登録された音構成データおよびテキストデータを用いて、その後の処理を行う。その他の処理に関しては、上記実施形態の制御仕様と同じであるため、ここでの説明を省略する。

本実施の形態では装置内部に発明を実施する機能が予め記録されている場合で説明をしたが、これに限らず同様の機能をネットワークから装置にダウンロードしても良いし、同様の機能を記録媒体に記憶させたものを装置にインストールしてもよい。記録媒体としては、ＣＤ−ＲＯＭ等プログラムを記憶でき、かつ装置が読み取り可能な記録媒体であれば、その形態は何れの形態であっても良い。またこのように予めインストールやダウンロードにより得る機能は装置内部のＯＳ（オペレーティング・システム）等と協働してその機能を実現させるものであってもよい。

上記した実施形態は一例を示すもので、その精神または主要な特徴から逸脱することなく、他の様々な形で実施することができる。そのため、前述の実施形態はあらゆる点で単なる例示に過ぎず、限定的に解釈してはならない。特許請求の範囲によって示す技術的事項の解釈は明細書本文になんら拘束されない。さらに、特許請求の範囲の均等範囲に属する全ての変形、様々な改良、代替および改質は、すべて本発明の範囲内のものである。

１対話システム
２発話者用端末
２１表示受付部２２画像撮像部２３発話音声入力部（第１の音声取得部）２４発話音声出力部
３聴取者用端末、ロボット（収容部）
３１聴取音声入力部（第２の音声取得部）３２聴取音声出力部（音声出力部）３３聴取音構成データ登録部（第３の音構成データ登録部）３４聴取音構成データ比較部（第１の音構成データ）３５聴取テキストデータ登録部（第３のテキストデータ登録部）３６出力タイミング判定部３７操作入力部
４クラウドサーバ
５サーバコンピュータ
５１発話音構成データ登録部（第１の音構成データ登録部）５１１発話音構成データ抽出部５１２発話音構成データ保存部５２発話テキストデータ登録部（第１のテキストデータ登録部）５２１発話テキストデータ抽出部５２２発話テキストデータ保存部５３音声データ合成部５４既定音構成データ登録部（第２の音構成データ登録部）５５既定テキストデータ登録部（第２のテキストデータ登録部）５６選択音声出力部
６ネットワーク

Claims

発話者用端末と、サーバと、聴取者用端末と、がネットワークを介して相互に接続される対話システムであって、
前記発話者用端末は、
発話者の音声を取得し、該取得された音声の音声信号を前記サーバに送信する第１の音声取得部と、
前記サーバから受信した音声データに基づいて、発話者に対して音声を出力する第１の音声出力部と、
を備え、
前記サーバは、
前記発話者用端末から受信された音声の音声信号から音および音節に関する第１の音構成データを抽出し、登録する第１の音構成データ登録部と、
前記第１の音構成データとは異なる音および音節に関する第２の音構成データを予め登録している第２の音構成データ登録部と、
前記第１の音構成データ登録部が登録した前記第１の音構成データまたは前記第２の音構成データ登録部が登録した前記第２の音構成データを、前記発話者の選択に基づいて出力する選択音声出力部と、
前記選択音声出力部から出力された前記第１の音構成データまたは前記第２の音構成データを用いて、音声データを合成し、該合成された音声データを前記聴取者用端末および前記発話者端末に送信する音声データ合成部と、を備え、
前記聴取者用端末は、
前記サーバから受信された音声データに基づいて、聴取者に対して音声を出力する第２の音声出力部と、
前記聴取者の音声を取得する第２の音声取得部と、
前記聴取者の音声のうち音および音節に関する第３の音構成データを予め登録する第３の音構成データ登録部と、
前記第２の音声取得部で取得した音声のうち音および音節に関する第４の音構成データを抽出し、前記抽出した第４の音構成データと前記第３の音構成データ登録部で予め登録された前記第３の音構成データとを比較する第１の音構成データ比較部と、
前記第１の音構成データ比較部が、前記第４の音構成データと第３の音構成データとが一致すると判断した場合に、前記第２の音声取得部で取得した音声のうち意味内容に関する第３のテキストデータを抽出する第３のテキストデータ登録部と、
前記発話者が予め設定した所定のテキストデータが、前記第３のテキストデータ登録部で抽出した第３のテキストデータに含まれるかを判断し、所定のテキストデータが前記第３のテキストデータに含まれると判断した場合に、前記音声データ合成部で合成された音声データを前記第２の音声出力部に出力する出力タイミング判定部と、を備える
ことを特徴とする対話システム。
請求項１に記載された対話システムであって、
前記サーバは、前記発話者用端末から受信された音声の音信号から意味内容に関する第１のテキストデータを抽出し、登録する第１のテキストデータ登録部をさらに有し、
前記音声データ合成部は、前記第１のテキストデータ登録部で登録した前記第１のテキストデータと、前記選択音声出力部から出力された前記第１の音構成データまたは前記第２の音構成データを用いて、音声データを合成することを特徴とする対話システム。
請求項２に記載された対話システムであって、
前記サーバは、文章を記述した第２のテキストデータを予め登録している第２のテキストデータ登録部をさらに有し、
前記選択音声出力部は、前記第１の音構成データまたは前記第２の音構成データ、および前記第１のテキストデータまたは前記第２のテキストデータ、のそれぞれを前記発話者の選択に基づいて出力するものであり、
前記音声データ合成部は、前記選択音声出力部から出力された前記第１のテキストデータまたは前記第２のテキストデータと、前記選択音声出力部から出力された前記第１の音構成データまたは前記第２の音構成データとを組み合わせて、音声データを合成することを特徴とする対話システム。