JP5881579B2 - 対話システム - Google Patents

対話システム Download PDF

Info

Publication number
JP5881579B2
JP5881579B2 JP2012237290A JP2012237290A JP5881579B2 JP 5881579 B2 JP5881579 B2 JP 5881579B2 JP 2012237290 A JP2012237290 A JP 2012237290A JP 2012237290 A JP2012237290 A JP 2012237290A JP 5881579 B2 JP5881579 B2 JP 5881579B2
Authority
JP
Japan
Prior art keywords
sound
data
voice
unit
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012237290A
Other languages
English (en)
Other versions
JP2014085652A (ja
Inventor
林太郎 中根
林太郎 中根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba TEC Corp
Original Assignee
Toshiba Corp
Toshiba TEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba TEC Corp filed Critical Toshiba Corp
Priority to JP2012237290A priority Critical patent/JP5881579B2/ja
Publication of JP2014085652A publication Critical patent/JP2014085652A/ja
Application granted granted Critical
Publication of JP5881579B2 publication Critical patent/JP5881579B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この明細書に記載の実施形態は、発話者の音構成データまたは既定音構成データと、発話者のテキストデータまたは既定テキストデータとを選択して組み合せて生成する音声を用いて、聴取者と対話を行う技術に関する。
近年、音声情報を用いて人間と様々な装置とで対話を行う対話システムが研究されている。この種の対話システムでは、人間同士の対話と同じ感覚を聴取者に感じさせることが要求されている。例えば、発話者の音声をマイクから取得し、この取得した音声のうち意味内容に関するテキストデータを抽出して、予め装置に登録された音および音節に関する音構成データと抽出されたテキストデータを組み合わせて応答音声を生成し、応答音声をスピーカ等から出力して聴取者と対話する対話システムがある。また、スピーカ等から出力される応答音声を発話者の音声と誤認識することを防ぐために、応答音声と発話者の音声を判別し、発話者の音声と判別した場合にのみ取得した音声に音声認識処理を適用して、応答音声をスピーカ等から出力し、聴取者と対話する対話システムもある(特許文献1)。
特開2005−338454号公報
しかし、上記対話システムは、発話者が予め装置に登録された音および音節に関する音構成データと発話者の音声から抽出されたテキストデータを組み合わせて聴取者と対話するため、聴取者は装置と対話している感覚にしかならず、人間同士の対話と同じ感覚を得ることができなかった。
実施形態の対話システムは、発話者用端末と、サーバと、聴取者用端末と、がネットワークを介して相互に接続される対話システムである。
発話者用端末は、発話者の音声を取得し、該取得された音声の音声信号を前記サーバに送信する第1の音声取得部と、サーバから受信された音声データに基づいて、発話者に対して音声を出力する第1の音声出力部とを備える。
サーバは、第1の音構成データ登録部と、第2の音構成データ登録部と、選択音声出力部と、音声データ合成部とを備える。第1の音構成データ登録部は、発話者用端末から受信された音声の音声信号から音および音節に関する第1の音構成データを抽出し、登録する。第2の音構成データ登録部は、第1の音構成データとは異なる音および音節に関する第2の音構成データを予め登録している。選択音声出力部は、第1の音構成データ登録部が登録した第1の音構成データまたは第2の音構成データ登録部が登録した第2の音構成データを、発話者の選択に基づいて出力する。音声データ合成部は、選択音声出力部から出力された第1の音構成データまたは第2の音構成データを用いて、音声データを合成し、合成された音声データを聴取者用端末および発話者端末に送信する。
聴取者用端末は、第2の音声出力部と、第3の音構成データ登録部と、第1の音構成データ比較部と、第3のテキストデータ登録部と、出力タイミング判定部とを備える。第2の音声出力部は、サーバから受信された音声データに基づいて、聴取者に対して音声を出力する。第3の音構成データ登録部は、聴取者の音声を取得する第2の音声取得部と、聴取者の音声のうち音および音節に関する第3の音構成データを予め登録する。第1の音構成データ比較部は、第2の音声取得部で取得した音声のうち音および音節に関する第4の音構成データを抽出し、抽出した第4の音構成データと第3の音構成データ登録部で予め登録された第3の音構成データとを比較する。第3のテキストデータ登録部は、第1の音構成データ比較部が、第4の音構成データと第3の音構成データとが一致すると判断した場合に、第2の音声取得部で取得した音声のうち意味内容に関する第3のテキストデータを抽出する。出力タイミング判定部は、発話者が予め設定した所定のテキストデータが、第3のテキストデータ登録部で抽出した第3のテキストデータに含まれるかを判断し、所定のテキストデータが第3のテキストデータに含まれると判断した場合に、音声データ合成部に対して、音声データ合成部で合成された音声データを第2の音声出力部に出力する。
実施形態の対話システムの全体を示す概略構成図。 実施形態の対話システムの機能を示す機能ブロック図。 図2における各機能部の関係を示す機能ブロック図。 図3における聴取者用端末における各機能を示す機能ブロック図。 実施形態の対話システムにおける発話者、聴取者、聴取者用端末およびコンテンツ提供業者間におけるデジタル音声信号等を転送する場合の概略を示す図。 実施形態の対話システムにおけるデジタル音声信号の取得および出力を示す制御フローチャート。 実施形態の対話システムにおける聴取者のアナログ音声信号から合成音声データの出力タイミングを示す制御フローチャート。 実施形態の対話システムを適用した概略構成図である。
以下、実施形態の対話システム1を図面に基づいて説明する。図1は本実施形態の対話システム1の全体構成を示す概略構成図であり、図2は本実施形態の対話システム1の機能を示す機能ブロック図であり、図3は図2における各機能部の関係を示す機能ブロック図であり、図4は図3における聴取者用端末3における各機能を示す機能ブロック図である。
図1および2に示すように、本実施形態の対話システム1は、発話者用端末2と、聴取者用端末3(収容部)と、クラウドサーバ4とをインターネットなどのネットワーク6を介して接続した構成である。
発話者用端末2は、図1および2に示すように表示受付部21、画像撮像部22、発話音声入力部23(第1の音声取得部)および発話音声出力部24を有する。発話者用端末2としては、例えば、ノートパソコン、タブレット型パソコン、携帯電話、PHS、スマートフォン、スマートブック、ストレート型端末等である。
表示受付部21は、タッチパネル式のディスプレイパネルであり、発話者から各種操作を受付ける。表示受付部21は、後述のクラウドサーバ4からの各種制御信号に基づいて、所定の画面を表示する。また、発話者の操作により、表示受付部21にキーボードを表示し、発話者から所定のテキスト情報の入力を受付ける。さらに、表示受付部21は、後述の発話音構成データまたは既定音構成データの選択と、後述の発話テキストデータまたは既定テキストデータの選択との両方に関する選択情報を発話者から受付ける。表示受付部21は、発話者から受付けた選択情報を後述の選択音声出力部56へ出力する。
画像撮像部22は、例えば小型カメラ、ウェブカメラなどであり、発話者の身体画像、顔画像を含む画像を撮影する。
発話音声入力部23は、発話者の音声をアナログ音声信号として取得する発話側マイク、取得したアナログ音声信号を増幅する増幅器(不図示)および増幅されたアナログ音声信号をデジタル音声信号に変換するA/D変換器(不図示)とを備える。発話音声入力部23は、発話者の音声を増幅してアナログ音声信号からデジタル音声信号に変換し、クラウドサーバ4へ送信する。
発話音声出力部24は、クラウドサーバ4から送信されるデジタル音声信号をアナログ音声信号に変換するD/A変換器(不図示)、この変換されたアナログ音声信号を増幅する増幅器(不図示)および増幅されたアナログ信号を出力音として出力するスピーカとを備える。発話音声出力部24は、デジタル音声信号をアナログ音声信号に変換して増幅し、出力音として発話者に対して出力(発話)する。
聴取者用端末3は、図1および2に示すように、例えばロボット、動物、人形などの玩具の形態を有しており、聴取音声入力部31(第2の音声取得部)、聴取音声出力部32(音声出力部)、聴取音構成データ登録部33(第3の音構成データ登録部)、聴取音構成データ比較部34(第1の音構成データ比較部)、聴取テキストデータ登録部35(第3のテキストデータ登録部)、出力タイミング判定部36および操作入力部37を有する。
聴取音声入力部31は、聴取者の音声をアナログ音声信号として取得する聴取マイク、取得したアナログ音声信号を増幅する増幅器(不図示)および増幅されたアナログ音声信号をデジタル音声信号に変換するA/D変換器(不図示)とを備える。聴取音声入力部31は、図4に示すように聴取者の音声を増幅してアナログ音声信号からデジタル音声信号に変換し、聴取音構成データ比較部34へ送信する。
聴取音構成データ登録部33は、メモリまたはHDD(Hard Disk Drive)等であり、対象となる聴取者のデジタル音声信号のうち音および音節に関する対象聴取音構成データ(第3の音構成データ)を予め登録している。聴取音構成データ登録部33は、対話システム1が動作する前に対象聴取音構成データを予め登録する。この聴取音構成データ登録部33による対象聴取音構成データの事前登録は、聴取音声入力部31および聴取音構成データ比較部34を用いて登録しても良い。
聴取音構成データ比較部34は、図4に示すように、聴取音声入力部31で入力されたデジタル音声信号のうち音および音節に関する聴取音構成データ(第4の音構成データ)を抽出し、この抽出した聴取音構成データを聴取音構成データ登録部33で予め登録している対象聴取音構成データと比較する。聴取音構成データ比較部34が、聴取音構成データと対象聴取音構成データとが一致すると判断すると、聴取音構成データ比較部34は、この聴取音構成データに対応するデジタル音声信号を聴取テキストデータ登録部35へ送信する。また、聴取音構成データ比較部34は、後述の操作入力部37の操作に応じて、発話者の音声のうちテキストデータ(発話者が予め設定した所定のテキストデータ)を抽出して、後述の出力タイミングとし、後述の出力タイミング判定部36へ送信する。
聴取テキストデータ登録部35は、聴取音構成データ比較部34から送信されたデジタル音声信号のうち意味内容に関する聴取テキストデータ(第3のテキストデータ)を抽出して、出力タイミング判定部36へ送信する。
出力タイミング判定部36は、クラウドサーバ4から合成音声データを受信し保持するとともに、この合成音声データを聴取音声出力部32へ出力するタイミングを判定する。具体的には、出力タイミング判定部36は、発話者が予め設定した所定のテキスト情報が聴取テキストデータに含まれると判断した場合に、クラウドサーバ4から送信された合成音声データを聴取音声出力部32へ出力する。この他に、出力タイミング判定部36の合成デジタル信号の出力タイミングとして、出力タイミング判定部36は、発話者が予め設定した時間を経過した後に、合成デジタル信号を聴取音声出力部32へ出力する構成としても良い。なお、出力タイミング判定部36は、聴取テキストデータ登録部35および後述の操作入力部37で入力された聴取テキストデータおよび発話者が設定した所定の時間を内部に保存する。
操作入力部37は、出力タイミング判定部36が聴取音声出力部32へ出力するタイミングとして、発話者が予め設定した所定のテキスト情報が聴取者の発話内容に含まれた場合とするか、発話者が予め設定した時間を経過した場合とするかに関する操作入力を聴取者から受付ける。また、操作入力部37は、発話者が直接テキストデータを入力した聴取テキストデータ(発話者が予め設定した所定のテキストデータ)を後述の出力タイミング判定に用いる出力タイミングとして、出力タイミング判定部36に送信する。
聴取音声出力部32は、後述のクラウドサーバ4から送信される合成音声データである合成デジタル信号を合成アナログ音声信号に変換するD/A変換器(不図示)、この変換された合成アナログ音声信号を増幅する増幅器(不図示)および増幅された合成アナログ信号を出力音として出力する聴取スピーカとを備える。聴取音声出力部32は、合成デジタル音声信号を合成アナログ音声信号に変換して増幅し、出力音として聴取者に対して出力する。
クラウドサーバ4は、図2に示すように、後述のサーバコンピュータ5をネットワーク6を介して複数接続したものであり、ネットワーク6に接続する発話者用端末2および聴取者用端末3のそれぞれに対してサービスを提供する。
サーバコンピュータ5は、図2および3に示すように、発話音構成データ登録部51(第1の音構成データ登録部)、発話テキストデータ登録部52(第1のテキストデータ登録部)、既定音構成データ登録部54(第2の音構成データ登録部)、既定テキストデータ登録部55(第2のテキストデータ登録部)、選択音声出力部56および音声データ合成部53を有する。
発話音構成データ登録部51は、発話音声入力部23から送信されたデジタル音信号のうち音および音節に関する発話音構成データ(第1の音構成データ)を抽出する発話音構成データ抽出部511と、発話音構成データ抽出部511で抽出された発話音構成データを保存する発話音構成データ保存部512とを備える。発話音構成データ保存部512は、内部に設けられたメモリまたはHDD(Hard Disk Drive)等である。
発話テキストデータ登録部52は、発話音声入力部23から送信されたデジタル音信号のうち意味内容に関する発話テキストデータ(第1のテキストデータ)を抽出する発話テキストデータ抽出部521と、発話テキストデータ抽出部521で抽出された発話テキストデータを保存する発話テキストデータ保存部522とを備える。発話テキストデータ保存部522は、内部に設けられたメモリまたはHDD(Hard Disk Drive)等である。
既定音構成データ登録部54は、対話システム1が動作する前から所定の既定音構成データ(第2の音構成データ)を内部に登録する。既定音構成データ登録部54は、例えばメモリまたはHDD(Hard Disk Drive)等であり、発話者の発話音構成データとは異なる既定音構成データを予め内部に登録している。
既定テキストデータ登録部55は、対話システム1が動作する前から所定の既定テキストデータを内部に登録している。既定テキストデータ登録部55は、例えばメモリまたはHDD(Hard Disk Drive)等であり、対話システム1が動作する前に、例えば表示受付部21を介して入力したテキストデータを既定テキストデータとして登録する。
選択音声出力部56は、表示受付部21で受付けた発話者が選択した選択結果に基づいて、発話音構成データ保存部512、発話テキストデータ保存部522、既定音構成データ登録部54および既定テキストデータ登録部55から、音構成データおよびテキストデータをそれぞれ選択して音声データ合成部53へ送信する。
音声データ合成部53は、選択音声出力部56から出力された、発話音構成データ保存部512で保存された発話音構成データまたは既定音構成データ登録部54内で登録された既定音構成データと、発話テキストデータ保存部522で保存された発話テキストデータまたは既定テキストデータ登録部55で保存された既定テキストデータとを組み合わせて、合成音声データ(合成された音声データ)を生成する。音声データ合成部53は、生成された合成音声データを聴取者用端末3内の出力タイミング判定部36および発話者用端末2内の発話音声出力部24のそれぞれに出力する。
ここで、発話者用端末2、聴取者用端末3およびサーバコンピュータ5は、それぞれCPU(Central Processing Unit)、メモリ(Memory)、HDD(Hard Disk Drive)を内蔵している。CPUは、例えば、メモリを作業領域として利用し、メモリ、HDDなどに記憶されているプログラムを実行する。また、上記、発話者用端末2、聴取者用端末3およびサーバコンピュータ5内に搭載された各種機能部は、各発話者用端末2、聴取者用端末3およびサーバコンピュータ5のそれぞれに搭載されている各CPUが動作することで、上記動作を行う。
また、ネットワーク6は、例えば通信プロトコルにTCP/IP(Transmission Control Protocol/Internet Protocol)を利用し、インターネット、公衆回線網、移動体通信回線網、CATV(Community Antenna Television)などの専用回線である。
次に、本実施形態の対話システム1における動作方法について説明する。図5は、実施形態の対話システム1における発話者、聴取者、聴取者用端末3およびコンテンツ提供業者間におけるデジタル音声信号等を転送する場合の概略を示す図であり、図6は、実施形態の対話システム1におけるデジタル音声信号の取得および出力を示す制御フローチャートであり、図7は実施形態の対話システム1における聴取者のデジタル音声信号からデジタル音声信号の出力タイミングを判定する制御フローチャートである。
まず、図5に示すように、発話者が発話者用端末2および聴取者用端末3を介して聴取者と対話する対話方法について説明する。初期条件としては、クラウドサーバ4を構成する各サーバコンピュータ5における既定音構成データ登録部54および既定テキストデータ登録部55には、予め所定の既定音構成データおよび既定テキストデータが登録されているものとする。
図6を参照して、発話者は、発話者用端末2の表示受付部21へ聴取者用端末3における出力タイミングを入力する(ACT100、101、102YES)。ここでの出力タイミングとしては、発話者が予め設定した所定の時間とし、聴取者の発話に基づく出力タイミングについては後述する。発話者は、表示受付部21に出力タイミングを入力すると、表示受付部21は、入力した出力タイミングに関する情報を聴取者用端末3内の出力タイミング判定部36へ送る。
発話者は、表示受付部21に対して、自身の音構成データまたは既定音構成データを用いるかの選択入力を行い、かつ発話音声入力部23に入力したテキストデータまたは既定テキストデータを用いるかの選択入力も行う(ACT103YES)。表示受付部21は、この選択入力情報をサーバコンピュータ5内の選択音声出力部56へ送信する。
発話者は、発話者用端末2に対して発話すると、発話音声入力部23が発話者のアナログ音声信号をデジタル音声信号に変換して取得する(ACT104YES)。発話音声入力部23は、取得した発話者のデジタル音声信号をクラウドサーバ4内の発話音構成データ抽出部511および発話テキストデータ抽出部521へそれぞれ送信する。発話音構成データ抽出部511は、取得した発話者のデジタル音声信号のうち音および音節に関する発話音構成データを抽出する。この抽出された発話音構成データは、発話音構成データ保存部512により内部に保存される(ACT105)。この発話音構成データの抽出動作および保存動作と並行して、発話テキストデータ抽出部521は、発話者のデジタル音声信号のうち意味内容に関する発話テキストデータを抽出する。この抽出された発話テキストデータは、発話テキストデータ保存部522により内部に保存される(ACT106)。
選択音声出力部56は、表示受付部21から送信された選択入力情報内に、発話音構成データを選択する情報があるか否かを判定する(ACT107)。選択音声出力部56が、選択入力情報内に発話音構成データを選択する情報が含まれないと判断すると(ACT107NO)、次に選択音声出力部56は、選択入力情報内に発話テキストデータを選択する情報が含まれるか否かを判定する(ACT108)。選択音声出力部56が、選択入力情報内に発話テキストデータを選択する情報を含むと判定した場合には(ACT108YES)、選択音声出力部56は、既定音構成データ登録部54内の既定音構成データおよび発話テキストデータ保存部522内の発話テキストデータを取得して、音声データ合成部53へ送信する(ACT110)。音声データ合成部53は、音声データ合成部53へ送信された既定音構成データおよび発話テキストデータを組み合わせて、合成音声データ(合成された音声データ)を生成する(ACT111)。音声データ合成部53は、この生成された合成音声データを出力タイミング判定部36へ送信する(ACT118)。
また、選択音声出力部56が、選択入力情報内に発話音構成データを選択する情報が含まれないと判断し、かつ発話テキストデータを選択する情報が含まれないと判断すると(ACT107NO、108NO)、選択音声出力部56は、既定音構成データ登録部54内の既定音構成データおよび既定テキストデータ登録部55内の既定テキストデータを取得して、音声データ合成部53へ送信する(ACT112)。音声データ合成部53は、既定音構成データと既定テキストデータとを組み合わせて、合成音声データを生成して、出力タイミング判定部36へ送信する(ACT113、ACT118)。
同様にして、選択音声出力部56が、選択入力情報内に発話音構成データを選択する情報を含み、かつ発話テキストデータを選択する情報を含まれないと判断すると(ACT107YES、109NO)、選択音声出力部56は、発話音構成データ保存部512内の発話音構成データおよび既定テキストデータ登録部55内の既定テキストデータを取得して、音声データ合成部53へ送信する(ACT114)。音声データ合成部53は、既定音構成データと既定テキストデータとを組み合わせて、合成音声データを生成して、出力タイミング判定部36へ送信する(ACT115、ACT118)。
また、選択音声出力部56が、選択入力情報内に発話音構成データを選択する情報を含み、かつ発話テキストデータを選択する情報を含むと判断すると(ACT107YES、109YES)、選択音声出力部56は、発話音構成データ保存部512内の発話音構成データおよび発話テキストデータ保存部522内の発話テキストデータを取得して、音声データ合成部53へ送信する(ACT116)。音声データ合成部53は、発話音構成データと発話テキストデータとを組み合わせて、合成音声データを生成して、出力タイミング判定部36へ送信する(ACT117、ACT118)。
出力タイミング判定部36は、発話者が表示受付部21で入力した出力タイミングであるか否かを判定する(ACT120)。出力タイミング判定部36が、出力タイミングであると判定すると(ACT120YES)、出力タイミング判定部36は、音声データ合成部53から受信した合成音声データを聴取音声出力部32へ送信する。そして、聴取音声出力部32はデジタル音声信号からなる合成音声データをアナログ音声信号に変換して、聴取者用端末3の近くにいる聴取者に対して出力(発話)する(ACT121、ACT122)。
本実施形態の対話システム1は、上記構成により、発話音構成データ(発話者自身の声)と既定音構成データ(予め定められた聴取者用端末3としての既定音)とを聴取者が選択的に用いることで、聴取者が発話者の音声を聞く状況を考慮して、聴取者用端末3に発話させることができる。そして、この聴取者用端末3は、玩具の形態(特にロボットの形態)をしているため、発話者自身の声と聴取者用端末3としての既定音とを使い分けることで、聴取者用端末3としての既定音を聴取者用端末3自身の声(ロボットの声)として、聴取者に認識させることができる。すなわち、聴取者用端末3が発話者自身の声で発話するときは、単に発話者のメッセージを伝達している印象を聴取者に与えるのに対して、聴取者用端末3が既定の音声で発話するときには、聴取者に対して聴取者用端末3自身の声で話している印象を聴取者に与え、聴取者に対して、聴取者用端末3との対話を人との対話として感じさせることができる。
また、本実施形態の対話システム1は、音構成データの選択の他に、テキストデータ(発話内容)の選択も行うことができるため、発話者が発話音声入力部23に入力した内容以外の内容を聴取者用端末3に発話させることができる。すなわち、発話者が聴取者用端末3に発話させる内容を全て発話音声入力部23に入力しなくても、聴取者用端末3から発話させることができるため、発話者が発話設定するための手間を省くことができる。
また、上記実施形態において、音声データ合成部53で生成された合成音声データは、出力タイミング判定部36へ送信される他に、発話者用端末2内の発話音声出力部24へ送信する構成としても良い。この構成により、発話者は、聴取者に対して合成音声データに対応するアナログ音声信号を発話する前に、自身の設定した内容および音声を確認することができる。
次に、図7を用いて、聴取者用端末3が出力する出力タイミングが、聴取者の発話に基づく出力タイミングである場合について説明する。図7は実施形態の対話システム1における聴取者のアナログ音声信号から合成音声データの出力タイミングを判定する制御フローチャートである。なお、出力タイミングの設定および出力タイミングの判定(ACT102、119、120)以外は、上記対話システム1の対話方法と同じであるため、ここでの説明を省略する。
発話者は、聴取者用端末3の操作入力部37で出力タイミングとして聴取者の音声を用いることを選択し、出力タイミングとする音声を聴取音声入力部31に入力する(ACT102’)。聴取音声入力部31で取得された発話者のデジタル音声信号のうちテキストデータを聴取音構成データ比較部34で抽出し、出力タイミング判定部36で保存する。この出力タイミングとするテキストデータに関しては、発話者は聴取者用端末3の操作入力部37に直接テキストデータを入力する構成としても良い。また、発話者は、操作入力部37を操作し、聴取音声入力部31および聴取音構成データ比較部34を動作させて、聴取音構成データ登録部33に出力タイミングの対象となる対象聴取音構成データを登録する。
音声データ合成部53が合成音声データを出力タイミング判定部36へ送信すると、図7におけるステップAへと移行する。図7を参照して、聴取者が聴取者用端末3に発話すると、聴取音声入力部31は、聴取者のデジタル音声信号を取得する(ACT200、ACT201YES)。聴取音声入力部31は、取得した聴取者のデジタル音声信号を聴取音構成データ比較部34および発話者用端末2の発話音声出力部24へ送信する。なお、発話音声出力部24へ出力された音声は、発話者に対して発話される。
聴取音構成データ比較部34へ送信された聴取者のデジタル音声信号のうち音および音節に関する聴取音構成データを抽出する(ACT202)。また、聴取音構成データ登録部33は、この聴取音構成データ比較部34で抽出された聴取音構成データに対応する対象聴取音構成データを聴取音構成データ比較部34へ送信する(ACT203)。
聴取音構成データ比較部34は、聴取音構成データ登録部33から送信された対象聴取音構成データと聴取音構成データを比較する(ACT204)。聴取音構成データ比較部34が、対象聴取音構成データと聴取音構成データが一致すると判定すると(ACT204YES)、聴取音構成データ比較部34は聴取音構成データを抽出したデジタル音声信号を聴取テキストデータ登録部35へ送信する。そして、聴取テキストデータ登録部35は、聴取テキストデータ登録部35から送信された音声信号のうち意味内容に関する聴取テキストデータを抽出し、出力タイミング判定部36へ送信する(ACT205)。
出力タイミング判定部36は、この送信された聴取テキストデータと発話者が予め設定したテキスト情報とを対比し、出力タイミングとなる言葉が、聴取者から発話されたかを判定する(ACT206)。出力タイミング判定部36が聴取テキストデータと発話者が予め設定したテキストデータとが一致すると判定すると(ACT206YES)、出力タイミング判定部36は、音声データ合成部53から送信された合成音声データを聴取音声出力部32へ出力し(ACT207、ステップB)、聴取者用端末3の近くにいる聴取者に対して発話する(ACT121、122)。
上記構成により、本実施形態の対話システム1は、聴取者のある言葉に応じて、聴取者用端末3が発話させることができるため、より聴取者用端末3を擬人化させて、聴取者に聴取者用端末3との対話を人との対話と同じ感覚にすることができる。
また、上記実施形態において、発話者が、出力タイミングとなるテキストデータは複数設定しても良い。また、この際、各設定したテキストデータに対応して、聴取者用端末3が話す合成音声データを設定しても良い。この構成により、聴取者用端末3は、聴取者の発話内容に応じて、様々な合成音声データを聴取音声出力部32から発話させることができる。また、この聴取音声出力部32から出力される様々な合成音声データは、発話音構成データまたは既定音構成データと、発話テキストデータまたは既定テキストデータとを組み合わせて、生成することができる。これにより、本実施形態の対話システム1を利用して、発話者と聴取者の対話を行うことで、より聴取者に対して聴取者用端末3との対話を人との対話と同じ感覚にすることができる
次に、上記実施形態の対話システム1を留守番システムに適用した場合に関して説明する。図8は、本実施形態の対話システム1を適用した留守番システムの概略図である。詳細な制御仕様に関しては、上記実施形態の制御仕様であるため、ここでの説明は省略する。
発話者(以下、保護者と言う)は、発話者用端末2を操作して、聴取者(以下、子供と言う)が帰宅する際に発話する内容(会話、挨拶、歌)やお知らせ(おやつ、夕飯および塾の時間)設定を行う。この設定において、保護者は、自分の肉声で子供に会話するか、予め設定された既定音で会話するかを選択する。また、この設定にいて、保護者は、新たな内容(新たなテキスト情報)を聴取者用端末3に発話させるのか、既定の内容(既定テキスト情報)を聴取者用端末3に発話させるかについても設定する。これらの設定に基づいて、発話音声入力部23、発話構成データ登録部、発話テキストデータ登録部52、既定音構成データ登録部54、既定テキストデータ登録部55、選択音声出力部56および音声データ合成部53が動作し、合成音声データを生成する(ACT100乃至ACT118)
上記設定の他に保護者は、聴取者用端末3が発話する出力タイミングについても設定する。保護者は、操作入力部37を操作して、子供の帰宅する時間等の所定の時間を基準に聴取者用端末3に発話させるか、子供の発話内容を基準にして聴取者用端末3に発話させるかを設定する。聴取者用端末3に発話させるタイミングを、時間を基準とする場合、出力タイミングとなる時間を操作入力部37に入力する。また、聴取者用端末3に発話させるタイミングを、発話内容を基準とした場合には、出力タイミングとなる発話内容(発話テキストデータ)を聴取音声入力部31に入力して、聴取テキストデータ登録部35から発話テキストデータを抽出し、出力タイミング判定部36に登録する。
これらの合成音声データの生成および出力タイミングの設定は、複数種類を設定しても良い。具体的には、子供が帰宅した場合(所定の時間が経過した場合)には、聴取者用端末3が保護者の声で「おかえり」や「宿題やりなさい」などを発話させ、子供が「寂しい」と発話した場合には、既定音を用いて、予め設定した内容を聴取者用端末3が発話させることができる。より具体的に説明すると、子供が寂しさ、不満、不安、フラストレーション等に関連する言葉を発話した場合には、保護者が予め設定したこれらの各関連する言葉に対応する内容(テキスト)を既定音により発話させる。これにより、子供は、聴取者用端末3により装置としてではなく人として自身を慰めている感覚となり、聴取者用端末3が、子供が感じていた不満、不安、フラストレーションへの癒しを、留守番中の子供に対して提供することができる。
また、保護者は自由に聴取者用端末3が発話する内容(テキストデータ)および音声(音構成データ)を選択して、聴取者用端末3(例えば、ロボット形状の聴取者用端末3、以下ロボット3と言う)に発話させることで、子供は、保護者と対話している感覚とロボット3と対話している感覚の2つの印象を与えることができる。すなわち、保護者と対話している感覚の場合には、子供をしつける内容またはしかる内容をロボット3から発話させ、ロボット3と対話している感覚の場合には、子供を慰める内容または擁護する内容を発話させることで、子供に対して、ロボット3を擬人化し、ロボット3は子供側の視点でフォローアップ(擁護)してくれる存在であることを認識させ、留守番中の子供が感じる精神的な負担を軽減させることができる。
このロボット3が発話する内容としては、予め保護者が設定した内容以外に、リアルタイムで保護者自身が発話者用端末2に発話した内容としても良い。この構成により、ロボット3は、予め定められた発話内容に加えて、突然、即時性、あるいは個人の詳細などの内容を発話して、子供に対して驚きや感激などの刺激を与えることができる。
上記実施形態を適用した例として、留守番をする子供(聴取者)と保護者(発話者)とで発話者用端末2および聴取者用端末3の両方を用いて対話するものとして説明したが、対話を行う者がお互いに離れた位置にいる場合であれば良い。具体的には、高齢者(聴取者)と高齢者の子供(発話者)との関係、および患者(高齢者)と医師(発話者)との関係において本実施形態の対話システム1を用いても良い。
上記実施形態では、聴取者用端末3は、単に会話内容などを発話するものとして説明したが、クラウドサーバ4内の既定テキストデータ登録部55に登録された内容であれば、図8に示すように、時事コンテンツ情報やカスタマイズコンテンツ情報などを聴取者用端末3に発話させても良い。また、クラウドサーバ4を管理するコンテンツ提供業者が既定テキストデータ登録部55に緊急ナビ情報(地震通報情報、退避ガイダンス情報)を登録した場合には、聴取者用端末3がこの緊急ナビ情報を発話する。聴取者用端末3が、緊急ナビ情報を発話する場合には、出力タイミング判定部36は、音声データ合成部53で合成音声データを生成し次第、聴取音声出力部32から出力する構成とする。さらには、発話者が、コンテンツ提供業者に帰宅情報、在宅履歴情報および嗜好情報等を通知するようにコンテンツ要求受付を行った場合には、コンテンツ提供業者は、聴取者用端末3が取得するこれらに関する情報を既定テキストデータ登録部55に登録し、一定間隔で発話者用端末2に登録したこれらの情報を送信する構成としても良い。
また、上記実施形態で、聴取者用端末3が発話するタイミングである出力タイミングを聴取者の発話内容および時間として説明したが、特にこれに限られるものではなく、聴取者用端末3に人検知センサを設け、人検知センサが聴取者用端末3の近くに人がいると検出した場合を出力タイミングとして設定しても良い。
また、聴取者用端末3には聴取者撮像部(不図示)を設けた構成としても良く、この聴取者撮像部により聴取者用端末3の付近の状態を撮影し、発話者用端末2の表示受付部21に表示出力させる構成としても良い。この構成により、発話者が聴取者用端末3から離れた場所にいた状態においても、聴取者用端末3の付近の状況を発話者は認識することができる。
さらに、上記実施形態の対話システム1において、聴取者用端末3においてのみ対象聴取音構成データである所定のアナログ音声信号を取得して用いることとして説明したが、特にこれに限られるものではなく、発話者用端末2においても対象となる対象発話音構成データ(第4の音構成データ)を設定する構成としても良い。具体的には、発話者の音声データを取得したか否かの判断時(図6におけるACT104)において、発話音声入力部23で取得されたデジタル音声信号のうち音および音節に関する発話音構成データが、予め発話者が設定した対象発話音構成データ(第4の音構成データ)と一致するかで判断を行う。この判断を行う上において、既定音構成データ登録部54に対象発話音構成データを予め登録した構成とし、発話者用端末2には発話音構成データ比較部(第2の音構成データ比較部)(不図示)を設けた構成とする。発話音構成データ比較部が、発話音構成データ抽出部511で抽出された発話音構成データと既定音構成データで登録された対象発話音構成データが一致すると判断した場合には、発話音構成データ抽出部511は、抽出した発話音構成データを発話音構成データ保存部512へ保存する。そして、発話テキストデータ抽出部521は、抽出した発話音構成データに対応する発話音声入力部23で取得されたデジタル音声信号のうち意味内容に関するテキストデータ(第4のテキストデータ)を発話テキストデータ保存部522に保存する。これらの発話音構成データ保存部512および発話テキストデータ保存部522で登録された音構成データおよびテキストデータを用いて、その後の処理を行う。その他の処理に関しては、上記実施形態の制御仕様と同じであるため、ここでの説明を省略する。
本実施の形態では装置内部に発明を実施する機能が予め記録されている場合で説明をしたが、これに限らず同様の機能をネットワークから装置にダウンロードしても良いし、同様の機能を記録媒体に記憶させたものを装置にインストールしてもよい。記録媒体としては、CD−ROM等プログラムを記憶でき、かつ装置が読み取り可能な記録媒体であれば、その形態は何れの形態であっても良い。またこのように予めインストールやダウンロードにより得る機能は装置内部のOS(オペレーティング・システム)等と協働してその機能を実現させるものであってもよい。
上記した実施形態は一例を示すもので、その精神または主要な特徴から逸脱することなく、他の様々な形で実施することができる。そのため、前述の実施形態はあらゆる点で単なる例示に過ぎず、限定的に解釈してはならない。特許請求の範囲によって示す技術的事項の解釈は明細書本文になんら拘束されない。さらに、特許請求の範囲の均等範囲に属する全ての変形、様々な改良、代替および改質は、すべて本発明の範囲内のものである。
1 対話システム
2 発話者用端末
21 表示受付部 22 画像撮像部 23 発話音声入力部(第1の音声取得部) 24 発話音声出力部
3 聴取者用端末、ロボット(収容部)
31 聴取音声入力部(第2の音声取得部) 32 聴取音声出力部(音声出力部) 33 聴取音構成データ登録部(第3の音構成データ登録部) 34 聴取音構成データ比較部(第1の音構成データ) 35 聴取テキストデータ登録部(第3のテキストデータ登録部) 36 出力タイミング判定部 37 操作入力部
4 クラウドサーバ
5サーバコンピュータ
51発話音構成データ登録部(第1の音構成データ登録部) 511 発話音構成データ抽出部 512 発話音構成データ保存部 52 発話テキストデータ登録部(第1のテキストデータ登録部) 521 発話テキストデータ抽出部 522 発話テキストデータ保存部 53音声データ合成部 54 既定音構成データ登録部(第2の音構成データ登録部) 55 既定テキストデータ登録部(第2のテキストデータ登録部) 56 選択音声出力部
6 ネットワーク

Claims (3)

  1. 発話者用端末と、サーバと、聴取者用端末と、がネットワークを介して相互に接続される対話システムであって、
    前記発話者用端末は、
    発話者の音声を取得し、該取得された音声の音声信号を前記サーバに送信する第1の音声取得部と、
    前記サーバから受信した音声データに基づいて、発話者に対して音声を出力する第1の音声出力部と、
    を備え、
    前記サーバは、
    前記発話者用端末から受信された音声の音声信号から音および音節に関する第1の音構成データを抽出し、登録する第1の音構成データ登録部と、
    前記第1の音構成データとは異なる音および音節に関する第2の音構成データを予め登録している第2の音構成データ登録部と、
    前記第1の音構成データ登録部が登録した前記第1の音構成データまたは前記第2の音構成データ登録部が登録した前記第2の音構成データを、前記発話者の選択に基づいて出力する選択音声出力部と、
    前記選択音声出力部から出力された前記第1の音構成データまたは前記第2の音構成データを用いて、音声データを合成し、該合成された音声データを前記聴取者用端末および前記発話者端末に送信する音声データ合成部と、を備え、
    前記聴取者用端末は、
    前記サーバから受信された音声データに基づいて、聴取者に対して音声を出力する第2の音声出力部と、
    前記聴取者の音声を取得する第2の音声取得部と、
    前記聴取者の音声のうち音および音節に関する第3の音構成データを予め登録する第3の音構成データ登録部と、
    前記第2の音声取得部で取得した音声のうち音および音節に関する第4の音構成データを抽出し、前記抽出した第4の音構成データと前記第3の音構成データ登録部で予め登録された前記第3の音構成データとを比較する第1の音構成データ比較部と、
    前記第1の音構成データ比較部が、前記第4の音構成データと第3の音構成データとが一致すると判断した場合に、前記第2の音声取得部で取得した音声のうち意味内容に関する第3のテキストデータを抽出する第3のテキストデータ登録部と、
    前記発話者が予め設定した所定のテキストデータが、前記第3のテキストデータ登録部で抽出した第3のテキストデータに含まれるかを判断し、所定のテキストデータが前記第3のテキストデータに含まれると判断した場合に、前記音声データ合成部で合成された音声データを前記第2の音声出力部に出力する出力タイミング判定部と、を備える
    ことを特徴とする対話システム。
  2. 請求項1に記載された対話システムであって、
    前記サーバは、前記発話者用端末から受信された音声の音信号から意味内容に関する第1のテキストデータを抽出し、登録する第1のテキストデータ登録部をさらに有し、
    前記音声データ合成部は、前記第1のテキストデータ登録部で登録した前記第1のテキストデータと、前記選択音声出力部から出力された前記第1の音構成データまたは前記第2の音構成データを用いて、音声データを合成することを特徴とする対話システム。
  3. 請求項2に記載された対話システムであって、
    前記サーバは、文章を記述した第2のテキストデータを予め登録している第2のテキストデータ登録部をさらに有し、
    前記選択音声出力部は、前記第1の音構成データまたは前記第2の音構成データ、および前記第1のテキストデータまたは前記第2のテキストデータ、のそれぞれを前記発話者の選択に基づいて出力するものであり、
    前記音声データ合成部は、前記選択音声出力部から出力された前記第1のテキストデータまたは前記第2のテキストデータと、前記選択音声出力部から出力された前記第1の音構成データまたは前記第2の音構成データとを組み合わせて、音声データを合成することを特徴とする対話システム。
JP2012237290A 2012-10-26 2012-10-26 対話システム Expired - Fee Related JP5881579B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012237290A JP5881579B2 (ja) 2012-10-26 2012-10-26 対話システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012237290A JP5881579B2 (ja) 2012-10-26 2012-10-26 対話システム

Publications (2)

Publication Number Publication Date
JP2014085652A JP2014085652A (ja) 2014-05-12
JP5881579B2 true JP5881579B2 (ja) 2016-03-09

Family

ID=50788714

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012237290A Expired - Fee Related JP5881579B2 (ja) 2012-10-26 2012-10-26 対話システム

Country Status (1)

Country Link
JP (1) JP5881579B2 (ja)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0472193A3 (en) * 1990-08-23 1993-10-20 Oki Electric Ind Co Ltd Translation device based on voice recognition and voice synthesis
JPH08328575A (ja) * 1995-05-29 1996-12-13 Sanyo Electric Co Ltd 音声合成装置
JPH10224488A (ja) * 1997-02-05 1998-08-21 Sharp Corp テレビドアホン
JP3589216B2 (ja) * 2001-11-02 2004-11-17 日本電気株式会社 音声合成システム及び音声合成方法
JP3864918B2 (ja) * 2003-03-20 2007-01-10 ソニー株式会社 歌声合成方法及び装置
JP2006196949A (ja) * 2005-01-11 2006-07-27 Fujitsu Ltd 通話内容警告付き電話機
JP2007086404A (ja) * 2005-09-22 2007-04-05 Nec Personal Products Co Ltd 音声合成装置

Also Published As

Publication number Publication date
JP2014085652A (ja) 2014-05-12

Similar Documents

Publication Publication Date Title
US9864745B2 (en) Universal language translator
KR102377350B1 (ko) 통화 중 번역
TWI249729B (en) Voice browser dialog enabler for a communication system
JP5750380B2 (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
TW201608395A (zh) 呼叫中的翻譯
US20080243476A1 (en) Voice Prompts for Use in Speech-to-Speech Translation System
US20190138603A1 (en) Coordinating Translation Request Metadata between Devices
JP6548045B2 (ja) 会議システム、会議システム制御方法、およびプログラム
WO2010019634A2 (en) Wearable headset with self-contained vocal feedback and vocal command
JP6945130B2 (ja) 音声提示方法、音声提示プログラム、音声提示システム及び端末装置
US20180286388A1 (en) Conference support system, conference support method, program for conference support device, and program for terminal
US20180288109A1 (en) Conference support system, conference support method, program for conference support apparatus, and program for terminal
JP2009178783A (ja) コミュニケーションロボット及びその制御方法
JP2018174442A (ja) 会議支援システム、会議支援方法、会議支援装置のプログラム、および端末のプログラム
JP2000207170A (ja) 情報処理装置および情報処理方法
TWI695281B (zh) 翻譯系統、翻譯方法、以及翻譯裝置
JP7026004B2 (ja) 会話補助装置、会話補助方法及びプログラム
KR101959439B1 (ko) 통역방법
JP6832503B2 (ja) 情報提示方法、情報提示プログラム及び情報提示システム
JP7218143B2 (ja) 再生システムおよびプログラム
JP2021117371A (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP2010197858A (ja) 音声対話システム
JP2020113150A (ja) 音声翻訳対話システム
JP5881579B2 (ja) 対話システム
CN105378829B (zh) 记笔记辅助系统、信息递送设备、终端、记笔记辅助方法和计算机可读记录介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141010

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141202

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150630

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150826

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160202

R150 Certificate of patent or registration of utility model

Ref document number: 5881579

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees