JP2019045831A - 音声処理装置、方法およびプログラム - Google Patents

音声処理装置、方法およびプログラム Download PDF

Info

Publication number
JP2019045831A
JP2019045831A JP2017172162A JP2017172162A JP2019045831A JP 2019045831 A JP2019045831 A JP 2019045831A JP 2017172162 A JP2017172162 A JP 2017172162A JP 2017172162 A JP2017172162 A JP 2017172162A JP 2019045831 A JP2019045831 A JP 2019045831A
Authority
JP
Japan
Prior art keywords
response
voice
speech
time
content data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017172162A
Other languages
English (en)
Other versions
JP6664359B2 (ja
Inventor
成宗 松村
Narimune Matsumura
成宗 松村
純史 布引
Ayafumi Nunobiki
純史 布引
細淵 貴司
Takashi Hosobuchi
貴司 細淵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017172162A priority Critical patent/JP6664359B2/ja
Publication of JP2019045831A publication Critical patent/JP2019045831A/ja
Application granted granted Critical
Publication of JP6664359B2 publication Critical patent/JP6664359B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

【課題】ユーザからの発話音声に対する応答音声の出力が開始されるまでに、ユーザにフィラー情報を出力できるようにする。【解決手段】音声データ取得部111および発話音声データ抽出部112の制御の下、ユーザからの発話音声に係る発話音声データが取得される。応答準備時間予測部113の制御の下、当該発話音声データに基づくユーザ発話時間と、過去の発話音声に係る応答内容データに関する情報とに基づいて、上記発話音声データに関する発話音声の認識に要する第1の時間、応答内容データの生成に要する第2の時間、および応答音声の合成に要する第3の時間が予測され、予測された第1、第2および第3の時間に基づいて、ユーザからの発話音声の終了時点から応答音声の出力を開始するまでに要する遅延時間が予測される。フィラー情報出力部114の制御の下、予測された遅延時間に応じたフィラー音声データが上記遅延時間内にスピーカ15に出力される。【選択図】図2

Description

この発明は、ユーザとの音声対話を支援する音声処理装置、方法およびプログラムに関する。
従来、スマートフォンやロボット等のように、音声による対話機能を備えた装置が様々開発されている。
このような音声対話では、ユーザからの発話音声の認識、当該認識の結果に基づく応答内容データの生成、および、当該応答内容データに対応する応答音声の合成を実施することにより、応答音声がユーザに返される(例えば、特許文献1を参照)。
特開2016−218566号公報
ところが、発話音声の認識、応答内容データの生成、および応答音声の合成には、ある程度の処理時間が必要とされる。したがって、発話音声を発したユーザは、装置が応答音声を発するまでの間、装置からレスポンスが返らないことによって不安にさせられるという問題がある。
この発明は上記事情に着目してなされたもので、その目的とするところは、ユーザからの発話音声に対する応答音声の出力が開始されるまでに、ユーザにフィラー情報を出力する音声処理装置、方法およびプログラムを提供することにある。
上記課題を解決するために、この発明の第1の態様は、ユーザからの発話音声の認識、当該認識の結果に基づく応答内容データの生成、および当該応答内容データに対応する応答音声の合成の実施とともに使用される、音声処理装置であって、前記発話音声の長さと、過去の応答内容データに関する情報とに基づいて、前記発話音声の終了時点から前記応答音声の出力を開始するまでに要する遅延時間を予測する予測部と、前記予測された遅延時間内において、当該遅延時間に応じたフィラー情報を出力するフィラー情報出力部とを備えるようにしたものである。
この発明の第2の態様は、前記予測部が、前記発話音声の長さを検出し、当該検出された発話音声の長さに基づいて前記発話音声の認識に要する第1の時間を予測する手段と、前記過去の応答内容データに関する情報に基づいて、前記発話音声の認識の結果に基づく応答内容データの生成に要する第2の時間を予測する手段と、前記過去の応答内容データに関する情報に基づいて、前記生成される応答内容データに対応する応答音声の合成に要する第3の時間を予測する手段と、前記予測された第1、第2および第3の時間に基づいて、前記発話音声の終了時点から前記応答音声の出力を開始するまでに要する遅延時間を予測する手段とを備えるようにしたものである。
この発明の第3の態様は、前記第1の時間を予測する手段が、ユーザからの過去の発話音声の長さと、当該長さの発話音声の認識に要した時間とに基づいて、発話音声の長さと発話音声の認識に要する時間との係数を算出する手段と、前記検出された発話音声の長さと、前記算出された、発話音声の長さと発話音声の認識に要する時間との係数とに基づいて、前記第1の時間を予測する手段とを備えるようにしたものである。
この発明の第4の態様は、前記過去の応答内容データに関する情報が、過去の応答内容データに対応する応答音声の合成に要した時間を含み、前記第3の時間を予測する手段が、前記第3の時間を、所定の回数の前記過去の応答音声の合成に要した時間の平均値に基づいて予測するようにしたものである。
この発明の第5の態様は、前記音声処理装置が、前記出力されたフィラー情報の再生が終了した際に、前記ユーザからの発話音声に対する応答音声の合成が完了しているか否かを判定する判定部をさらに備え、前記フィラー情報出力部が、前記応答音声の合成が完了していないと判定された場合に、追加のフィラー情報を出力するようにしたものである。
この発明の第6の態様は、前記音声処理装置が、前記出力されたフィラー情報の再生が終了した際に、前記ユーザからの発話音声に対する応答音声の合成が完了しているか否かを判定し、さらに、前記応答音声の合成が完了していないと判定された場合に、前記ユーザからの発話音声の認識と、当該認識の結果に基づく応答内容データの生成が完了しているか否かを判定する判定部をさらに備え、前記過去の応答内容データに関する情報が、ユーザからの過去の発話音声に対する応答内容データの長さと、当該長さの応答内容データに対応する応答音声の合成に要した時間とを含み、前記第3の時間を予測する手段が、前記ユーザからの過去の発話音声に対する応答内容データの長さと、当該長さの応答内容データに対応する応答音声の合成に要した時間とに基づいて、応答内容データの長さと応答音声の合成に要する時間との係数を算出する手段と、前記応答音声の合成が完了していないと判定され、かつ、前記ユーザからの発話音声の認識と、当該認識の結果に基づく応答内容データの生成が完了していると判定された場合に、前記ユーザからの発話音声に対する応答内容データの長さと、前記算出された、応答内容データの長さと応答音声の合成に要する時間との係数とに基づいて、前記第3の時間を再予測する手段とを備え、前記遅延時間を予測する手段が、前記再予測された第3の時間に基づいて、前記ユーザからの発話音声の終了時点から前記応答音声の出力を開始するまでに要する遅延時間を再予測し、前記フィラー情報出力部が、前記再予測された遅延時間内において、前記ユーザからの発話音声の終了時点からの経過時間を前記再予測された遅延時間から減算した時間に応じた、追加のフィラー情報を出力するようにしたものである。
この発明の第1の態様によれば、ユーザからの発話音声の長さと、過去の応答内容データに関する情報とに基づいて、ユーザからの発話音声の終了時点から、当該発話音声に対する応答音声の出力を開始するまでに要する遅延時間が予測される。その後、予測された遅延時間内において、当該遅延時間に応じた、応答音声の準備処理中の通知であるフィラー情報が出力される。このため、発話音声を発したユーザが、レスポンスが返らないことにより不安にさせられることがなくなる。また、例えば、遅延時間に対応する時間的な長さで意味を有する言葉を発するフィラー音声を出力するようにすると、ユーザは、出力されるフィラー音声の種類によって、応答音声が返ってくるまでに待つ必要がある時間を予測でき、これにより、ユーザをさらに安心させることができる。
この発明の第2の態様によれば、上記発話音声の長さが検出され、検出された発話音声の長さに基づいて上記発話音声の認識に要する第1の時間が予測される。また、過去の応答内容データに関する情報に基づいて、上記発話音声の認識の結果に基づく応答内容データの生成に要する第2の時間と、生成される応答内容データに対応する応答音声の合成に要する第3の時間とが予測される。予測された第1、第2および第3の時間に基づいて、上記遅延時間が予測される。このように、発話音声の認識に要する第1の時間については、検出された発話音声の長さを利用することにより精度が高い予測をすることができる。また、応答内容データの生成に要する第2の時間については、多くの場合、発話音声の認識の相違による応答内容データ生成処理時間の変動は少ないので、過去の応答内容データに関する情報を用いることにより信頼度が高い予測をすることができる。また、応答音声の合成に要する第3の時間についても、過去の応答内容データに関する情報を用いることにより信頼性のある予測をすることができる。
この発明の第3の態様によれば、ユーザからの過去の発話音声の長さと、当該長さの発話音声の認識に要した時間とに基づいて、発話音声の長さと発話音声の認識に要する時間との係数が算出される。上記検出された発話音声の長さと、当該算出された係数とに基づいて、第1の時間が予測される。例えば応答音声の準備処理を別の装置で行う場合等のように、実装によっては通信処理等の遅延時間も生じ得るが、このように過去の発話音声に係る実際の情報を用いることにより、着目する発話音声についても当該過去の情報を取得したのと同条件で処理すれば、このような通信処理等の時間も含めて発話音声の認識に要する第1の時間を予測することができる。
この発明の第4の態様によれば、第3の時間が、所定の回数の過去の応答音声の合成に要した時間の平均値に基づいて予測される。このように過去の応答音声の合成に要した実際の時間を用いることにより、応答音声の合成に要する第3の時間について、信頼度が高い予測をすることができる。
この発明の第5の態様によれば、上記出力されたフィラー情報の再生が終了した際に、応答音声の合成が完了しているか否かが判定される。応答音声の合成が完了していないと判定された場合に、追加のフィラー情報が出力される。このため、出力されたフィラー情報の再生が終了した後に、発話音声を発したユーザが、応答音声が出力されるのをさらに待つ必要がある場合にも、レスポンスが返らないことにより不安にさせられることがなくなる。
この発明の第6の態様によれば、上記出力されたフィラー情報の再生が終了した際に、応答音声の合成が完了しているか否かが判定される。さらに、応答音声の合成が完了していないと判定された場合には、ユーザからの発話音声の認識と、当該認識の結果に基づく応答内容データの生成が完了しているか否かが判定される。ユーザからの発話音声の認識と、当該認識の結果に基づく応答内容データの生成が完了していると判定された場合には、ユーザからの発話音声に対する応答内容データの長さと、過去の応答内容データに関する情報に基づいて算出された応答内容データの長さと応答音声の合成に要する時間との係数とに基づいて、第3の時間が再予測される。再予測された第3の時間に基づいて、ユーザからの発話音声の終了時点から応答音声の出力を開始するまでに要する遅延時間が再予測される。ユーザからの発話音声の終了時点からの経過時間を再予測された遅延時間から減算した時間に応じた、追加のフィラー情報が、再予測された遅延時間内に出力される。このように、第3の時間について、応答内容データの長さを用いることにより精度が高い再予測をすることができ、遅延時間について精度の高い再予測がされることになる。これにより、追加のフィラー情報も、ユーザがさらに待つ必要がある時間に応じたものとすることができ、ユーザをさらに安心させることができる。
すなわち、この発明によれば、ユーザからの発話音声に対する応答音声の出力が開始されるまでに、ユーザにフィラー情報を出力する音声処理装置、方法およびプログラムを提供することができる。
この発明の第1の実施形態に係る、ユーザとの音声対話を実現するシステムの概略構成図。 図1に示したシステム中の音声対話装置の機能構成を示すブロック図。 図1に示したシステム中のサーバの機能構成を示すブロック図。 図2に示した音声対話装置の制御ユニットによって実行されるフィラー情報出力処理の一例を示すフロー図。 図2に示した音声対話装置の制御ユニットによって実行されるフィラー情報出力処理の一例を示すフロー図。
以下、図面を参照してこの発明に係わる実施形態を説明する。
[第1の実施形態]
(構成)
図1は、この発明の第1の実施形態に係る、ユーザとの音声対話を実現するシステムの概略構成図である。本実施形態では、音声処理装置の非限定的な例として音声対話装置について説明する。
本実施形態のシステムは、音声対話装置1と、当該音声対話装置1に通信ネットワークにより接続されたサーバ2とからなる。
音声対話装置1は、マイク14を介して入力されたユーザからの発話音声に対して、スピーカ15を介して応答音声を返すものであり、また、当該応答音声を返すまでに、ユーザが待たされる遅延時間に応じたフィラー(例えば音声による応答音声準備処理中の通知)を出力することができる。サーバ2は、音声対話装置1から上記発話音声のデータを受け取り、音声対話装置1から出力されることになる上記応答音声の合成をする装置である。なお、本明細書では、発話音声から応答音声を準備する処理は、音声対話装置1とは別の装置であるサーバ2において実現するようなシステムについて説明しているが、当該準備処理を音声対話装置1において実現するようにしてもよい。
図2は、図1に示したシステム中の音声対話装置1の機能構成を示すブロック図である。
音声対話装置1は、制御ユニット11と、記憶ユニット12と、通信インタフェースユニット13と、マイク14と、スピーカ15とを備えている。
マイク14は、ユーザからの発話音声を制御ユニット11に入力する。
通信インタフェースユニット13は、例えば1つ以上の有線または無線の通信インタフェースユニットを含んでいる。通信インタフェースユニット13は、制御ユニット11から出力される発話音声データを取得し、取得された発話音声データを通信ネットワークを介してサーバ2に送信する。さらに、通信インタフェースユニット13は、通信ネットワークを介してサーバ2から応答音声データ等の情報を取得し、取得された情報を制御ユニット11に入力する。
スピーカ15は、制御ユニット11から出力されるフィラー情報および応答音声データを再生する。
記憶ユニット12は、記憶媒体としてHDD(Hard Disc Drive)またはSSD(Solid State Drive)等の随時書き込みおよび読み出しが可能な不揮発メモリを使用したものであり、本実施形態を実現するために使用される記憶領域として、音声データ記憶部121と、発話時間記憶部122と、応答準備時間記憶部123と、応答文字数記憶部124と、フィラー情報記憶部125とを備えている。なお、発話時間記憶部122、応答準備時間記憶部123、および応答文字数記憶部124は、図面中では別個の記憶部として図示しているが、これらの記憶部に記憶された内容を、例えば1つのテーブルにまとめて記憶するようにしてもよい。
音声データ記憶部121は、マイク14を介して取得された音声のデータを記憶させるために使用される。
発話時間記憶部122は、ユーザからの過去の発話音声の時間的な長さであるユーザ発話時間、および、ユーザからの着目する発話音声の時間的な長さであるユーザ発話時間を記憶させるために使用される。
応答準備時間記憶部123は、ユーザからの過去の発話音声の認識に要した時間と、当該認識の結果に基づく応答内容データの生成に要した時間と、当該応答内容データに対応する応答音声の合成に要した時間とを記憶させるために使用される。
応答文字数記憶部124は、ユーザからの過去の発話音声に対する応答内容データの長さである応答文字数を記憶させるために使用される。
フィラー情報記憶部125は、さまざまな長さの時間に応じたフィラー情報を記憶させるために使用される。
制御ユニット11は、CPU(Central Processing Unit)を含み、本実施形態における処理機能を実行するために、音声データ取得部111と、発話音声データ抽出部112と、応答準備時間予測部113と、フィラー情報出力部114と、処理完了通知取得部115と、応答準備完了判定部116と、応答音声データ出力部117とを備えている。これらの各部における処理機能はいずれも、図示しないプログラムメモリに格納されたプログラムを上記CPUに実行させることによって実現される。
音声データ取得部111は、マイク14を介して入力されたユーザからの発話音声を含む音声をデジタルデータに変換し、変換後の音声データを記憶ユニット12の音声データ記憶部121に記憶させる処理を実行する。
発話音声データ抽出部112は、記憶ユニット12の音声データ記憶部121に記憶される音声データを読み出し、読み出された音声データにおいてユーザが実際に発話している区間を抽出し、抽出された発話音声データを、通信インタフェースユニット13に入力する処理を実行する。当該発話音声データは、通信インタフェースユニット13を介してサーバ2に送信され、サーバ2において、応答音声の準備処理が行われる。また、発話音声データ抽出部112は、抽出された発話音声データに基づいて、ユーザからの発話音声に係るユーザ発話時間を検出し、検出されたユーザ発話時間を、記憶ユニット12の発話時間記憶部122に記憶させる処理を実行する。
応答準備時間予測部113は、取得された発話音声データに基づく発話音声の認識に要する第1の時間と、当該認識の結果に基づく応答内容データの生成に要する第2の時間と、当該応答内容データに対応する応答音声の合成に要する第3の時間をそれぞれ予測して、予測された第1、第2および第3の時間に基づいて、ユーザからの発話音声の終了時点から、当該発話音声に対する応答音声の出力を開始するまでに要する遅延時間を予測する処理を実行する。第1、第2および第3の時間の予測処理は、応答準備時間予測部113が備える、音声認識時間予測部1131、応答内容生成時間予測部1132、および音声合成時間予測部1133において実行される。
音声認識時間予測部1131は、記憶ユニット12の発話時間記憶部122に記憶される、取得された発話音声データに基づくユーザ発話時間を読み出す処理を実行する。また、音声認識時間予測部1131は、記憶ユニット12の発話時間記憶部122に記憶される、過去の発話音声に係るユーザ発話時間と、記憶ユニット12の応答準備時間記憶部123に記憶される、当該ユーザ発話時間に対応する過去の発話音声の認識に要した時間とを読み出す処理を実行する。音声認識時間予測部1131は、取得された発話音声データに基づくユーザ発話時間と、過去の発話音声に係るユーザ発話時間と、当該ユーザ発話時間に対応する過去の発話音声の認識に要した時間とに基づいて、上記発話音声の認識に要する第1の時間を予測する処理を実行する。
応答内容生成時間予測部1132は、記憶ユニット12の応答準備時間記憶部123に記憶される過去の応答内容データの生成に要した時間を読み出し、読み出された過去の応答内容データの生成に要した時間に基づいて、上記応答内容データの生成に要する第2の時間を予測する処理を実行する。
音声合成時間予測部1133は、記憶ユニット12の応答文字数記憶部124に記憶される、過去の発話音声に対する応答内容データに係る応答文字数と、記憶ユニット12の応答準備時間記憶部123に記憶される、過去の応答内容データに対応する応答音声の合成に要した時間とを読み出す処理を実行する。また、音声合成時間予測部1133は、通信インタフェースユニット13を介してサーバ2から、取得された発話音声データに対する応答内容データに係る応答文字数の通知を受信する処理を実行する。音声合成時間予測部1133は、過去の発話音声に対する応答内容データに係る応答文字数と、過去の応答内容データに対応する応答音声の合成に要した時間と、通知される応答文字数とのうちの少なくとも1つに基づいて、上記応答音声の合成に要する第3の時間を予測する処理を実行する。
フィラー情報出力部114は、記憶ユニット12のフィラー情報記憶部125に記憶されるさまざまな長さの時間に応じたフィラー情報の中から、予測された遅延時間に応じたフィラー情報を読み出し、読み出されたフィラー情報を上記遅延時間内にスピーカ15に出力する処理を実行する。なお、フィラー情報記憶部125に記憶されたフィラー情報を利用する代わりに、予測された遅延時間に応じたフィラー情報を、ネットワーク上のデータベースからその都度検索して取得するようにしてもよい。
処理完了通知取得部115は、音声対話装置1からサーバ2に送信された発話音声データに関する、上記発話音声の認識が完了したことの通知、上記応答内容データの生成が完了したことの通知、および、上記応答音声の合成が完了したことの通知を、通信インタフェースユニット13を介してサーバ2からそれぞれ取得する処理を実行する。
応答準備完了判定部116は、上記出力されたフィラー情報の再生が終了した際に、上記各通知をすべて取得しているか否かに基づいて、ユーザからの発話音声に対する応答音声の合成が完了しているか否かを判定する処理を実行する。
応答音声の合成が完了していないと判定された場合に、フィラー情報出力部114は、追加のフィラー情報をスピーカ15に出力する処理を実行する。
応答音声データ出力部117は、応答音声の合成が完了していると判定された場合に、通信インタフェースユニット13を介してサーバ2から応答音声データを取得し、取得された応答音声データをスピーカ15に出力する処理を実行する。その後、出力された応答音声データがスピーカ15から再生され、ユーザとの音声対話がなされる。
図3は、図1に示したシステム中のサーバ2の機能構成を示すブロック図である。
サーバ2は、制御ユニット21と、記憶ユニット22と、通信インタフェースユニット23とを備えている。
通信インタフェースユニット23は、例えば1つ以上の有線または無線の通信インタフェースユニットを含んでいる。通信インタフェースユニット23は、通信ネットワークを介して音声対話装置1から発話音声データを取得し、取得された発話音声データを制御ユニット21に出力する。さらに、通信インタフェースユニット23は、制御ユニット21から出力された、発話音声データに対する応答音声データを、通信ネットワークを介して音声対話装置1に出力する。
記憶ユニット22は、記憶媒体としてHDD(Hard Disc Drive)またはSSD(Solid State Drive)等の随時書き込みおよび読み出しが可能な不揮発メモリを使用したものであり、本実施形態を実現するために使用される記憶領域として、発話音声データ記憶部221と、発話テキストデータ記憶部222と、応答テキストデータ記憶部223と、応答音声データ記憶部224とを備えている。
発話音声データ記憶部221は、音声対話装置1から取得された発話音声データを記憶させるために使用される。
発話テキストデータ記憶部222は、発話音声データに基づく発話音声の認識の結果である発話テキストデータを記憶させるために使用される。
応答テキストデータ記憶部223は、上記認識の結果に基づく応答内容データである応答テキストデータを記憶させるために使用される。
応答音声データ記憶部224は、応答テキストデータに対応する応答音声データを記憶させるために使用される。
制御ユニット21は、CPU(Central Processing Unit)を含み、本実施形態における処理機能を実行するために、音声認識機能部211と、応答内容生成機能部212と、音声合成機能部213とを備えている。これらの各部における処理機能はいずれも、図示しないプログラムメモリに格納されたプログラムを上記CPUに実行させることによって実現される。
音声認識機能部211、応答内容生成機能部212、および音声合成機能部213はそれぞれ、発話音声データに関する上記発話音声の認識、上記応答内容データの生成、および上記応答音声の合成をする処理を実行する。なお、音声認識機能部211、応答内容生成機能部212、および音声合成機能部213はそれぞれ、各機能部における以下に説明する処理が完了した際に、上記発話音声の認識が完了したことの通知、上記応答内容データの生成が完了したことの通知、および、上記応答音声の合成が完了したことの通知を、通信インタフェースユニット23を介して音声対話装置1に送信する処理を実行する。
まず、音声認識機能部211は、発話音声データ取得部2111と、発話テキストデータ生成部2112とを備えている。
発話音声データ取得部2111は、通信インタフェースユニット23を介して音声対話装置1から発話音声データを取得し、取得された発話音声データを記憶ユニット22の発話音声データ記憶部221に記憶させる処理を実行する。
発話テキストデータ生成部2112は、記憶ユニット22の発話音声データ記憶部221に記憶される発話音声データを読み出す処理を実行する。その後、発話テキストデータ生成部2112は、読み出された発話音声データに対応する発話テキストデータを生成し、生成された発話テキストデータを記憶ユニット22の発話テキストデータ記憶部222に記憶させる処理を実行する。
応答内容生成機能部212は、応答テキストデータ生成部2121を備えている。
応答テキストデータ生成部2121は、記憶ユニット22の発話テキストデータ記憶部222に記憶される発話テキストデータを読み出す処理を実行する。その後、応答テキストデータ生成部2121は、読み出された発話テキストデータに基づいて、ユーザからの発話音声に対する応答文章である、応答内容データとしての応答テキストデータを生成し、生成された応答テキストデータを記憶ユニット22の応答テキストデータ記憶部223に記憶させる処理を実行する。
音声合成機能部213は、応答音声データ合成部2131と、応答音声データ出力部2132とを備えている。
応答音声データ合成部2131は、記憶ユニット22の応答テキストデータ記憶部223に記憶される応答テキストデータを読み出し、読み出された応答テキストデータに対応する応答音声データを合成し、合成された応答音声データを記憶ユニット22の応答音声データ記憶部224に記憶させる処理を実行する。
応答音声データ出力部2132は、記憶ユニット22の応答音声データ記憶部224に記憶される応答音声データを読み出し、読み出された応答音声データを通信インタフェースユニット23を介して音声対話装置1に出力する処理を実行する。
(動作)
次に、以上のように構成された音声対話装置1の動作を説明する。
図4A,4Bは、図2に示した音声対話装置1の制御ユニット11によって実行されるフィラー情報出力処理の一例を示すフロー図である。
最初に、ステップS101において、制御ユニット11は、予めフィラー情報として、例えばさまざまな長さの時間のフィラーの音声データを合成し、合成されたフィラー音声データをフィラー情報記憶部125に記憶させておく。例えば、フィラー音声データとして、1秒から10秒までの時間的な長さを有する、1秒毎に10個のフィラー音声データを記憶させておく。例えば、1秒の時間的な長さを有するフィラー音声データとしては「ええっと」と発話されるフィラー音声データを、3秒の時間的な長さを有するフィラー音声データとしては「考えているから、ちょっと待ってね」と発話されるフィラー音声データ等を用いる。なお、フィラー情報としてフィラー音声データを用いる例を説明するが、フィラー情報は音声データに限られず、例えば、ユーザからの発話音声に対する応答音声が出力されるまでの遅延時間を(図示していない)ディスプレイに表示してユーザに知らせ続けるテキストデータ等であってもよい。
ステップS102において、制御ユニット11は、音声データ取得部111の制御の下、マイク14を介して入力されたユーザからの発話音声を含む音声をデジタルデータに変換し、発話音声データ抽出部112の制御の下、当該デジタルデータにおいてユーザが実際に発話している区間を抽出して、ユーザからの発話音声データを取得する。なお、制御ユニット11は、発話音声データ抽出部112の制御の下、取得された発話音声データに基づく発話音声の時間的な長さであるユーザ発話時間を、発話時間記憶部122に記憶させる。
取得された発話音声データは、音声対話装置1からサーバ2に送信され、サーバ2において、当該発話音声データに基づく発話音声の認識、当該認識の結果に基づく応答内容データの生成、当該応答内容データに対応する応答音声の合成が実施される。
ステップS103において、制御ユニット11は、応答準備時間予測部113の制御の下、上記発話音声の認識に要する第1の時間、上記応答内容データの生成に要する第2の時間、および、上記応答音声の合成に要する第3の時間を予測し、例えば、予測された第1、第2および第3の時間の合計時間を算出することによって、ユーザからの発話音声の終了時点から、当該発話音声に対する応答音声の出力を開始するまでに要する遅延時間を予測する。
なお、第1の時間は、応答準備時間予測部113の音声認識時間予測部1131の制御の下で予測される。具体的には、制御ユニット11は、音声認識時間予測部1131の制御の下、発話時間記憶部122に記憶される、過去の発話音声に係るユーザ発話時間と、応答準備時間記憶部123に記憶される、当該ユーザ発話時間に対応する過去の発話音声の認識に要した時間とを読み出す。その後、制御ユニット11は、音声認識時間予測部1131の制御の下、読み出された、過去の発話音声に係るユーザ発話時間と、当該ユーザ発話時間に対応する過去の発話音声の認識に要した時間とに基づいて、ユーザ発話時間と発話音声の認識に要する時間との係数を算出する。当該係数は、例えば、ユーザ発話時間を発話音声の認識に要した時間で割った値の平均として算出する、あるいは、最小二乗法により一次関数を求めることによって算出する。その後、制御ユニット11は、音声認識時間予測部1131の制御の下、発話時間記憶部122に記憶される、取得された発話音声データに基づく、ユーザからの発話音声に係るユーザ発話時間を読み出し、読み出されたユーザ発話時間と、上記算出された、ユーザ発話時間と発話音声の認識に要する時間との係数とに基づいて、第1の時間を予測する。
第2の時間は、応答準備時間予測部113の応答内容生成時間予測部1132の制御の下で予測される。具体的には、制御ユニット11は、応答内容生成時間予測部1132の制御の下、応答準備時間記憶部123に記憶される過去の応答内容データの生成に要した時間を読み出す。その後、制御ユニット11は、応答内容生成時間予測部1132の制御の下、読み出された所定の回数の過去の応答内容データの生成に要した時間の平均値を算出し、第2の時間を、当該算出された平均値に基づいて予測する。
第3の時間は、応答準備時間予測部113の音声合成時間予測部1133の制御の下で予測される。具体的には、制御ユニット11は、音声合成時間予測部1133の制御の下、応答準備時間記憶部123に記憶される、過去の応答内容データに対応する応答音声の合成に要した時間を読み出す。その後、制御ユニット11は、音声合成時間予測部1133の制御の下、読み出された所定の回数の過去の応答音声の合成に要した時間の平均値を算出し、第3の時間を、当該算出された平均値に基づいて予測する。
ステップS104において、制御ユニット11は、フィラー情報出力部114の制御の下、フィラー情報記憶部125に記憶されたフィラー音声データの中から、例えば、第1、第2および第3の時間の合計時間に基づいて予測された遅延時間に最も近い時間的な長さを有するフィラー音声データを読み出し、読み出されたフィラー音声データをスピーカ15に出力する。これにより、スピーカ15において上記遅延時間内にフィラーが発話される。
ステップS105において、制御ユニット11は、応答準備完了判定部116の制御の下、出力されたフィラー音声データの再生が終了した際に、サーバ2から、上記発話音声の認識が完了したことの通知、上記応答内容データの生成が完了したことの通知、および、上記応答音声の合成が完了したことの通知が取得されているか否かに基づいて、ユーザからの発話音声に対する応答音声の合成が完了しているか否かを判定する。
ステップS105において応答音声の合成が完了していると判定された場合には、ステップS106において、制御ユニット11は、応答音声データ出力部117の制御の下、サーバ2から応答音声データを取得し、取得された応答音声データをスピーカ15に出力する。その後、出力された応答音声データがスピーカ15から再生され、ユーザとの音声対話がなされる。
ステップS105において応答音声の合成が完了していないと判定された場合には、応答音声が出力されるまでにユーザがさらに待つ必要があることをユーザに通知するために、追加のフィラーを発話するための処理が実行される。
まず、ステップS107において、制御ユニット11は、応答準備完了判定部116の制御の下、さらに、上記発話音声の認識が完了したことの通知と、上記応答内容データの生成が完了したことの通知とを取得しているか否かに基づいて、発話音声の認識および応答内容データの生成が完了しているか否かを判定する。
ステップS107において発話音声の認識および応答内容データの生成が完了していると判定された場合には、ステップS108において、制御ユニット11は、応答準備時間予測部113の制御の下、上記遅延時間を再予測する。
具体的には、制御ユニット11は、応答準備時間予測部113の音声合成時間予測部1133の制御の下、応答文字数記憶部124に記憶される、過去の発話音声に対する応答内容データの長さである応答文字数を読み出す。また、制御ユニット11は、応答準備時間予測部113の音声合成時間予測部1133の制御の下、応答準備時間記憶部123に記憶される、当該応答文字数に係る過去の応答内容データに対応する応答音声の合成に要した時間を読み出す。制御ユニット11は、音声合成時間予測部1133の制御の下、読み出された、過去の発話音声に対する応答内容データに係る応答文字数と、当該応答文字数に係る過去の応答内容データに対応する応答音声の合成に要した時間とに基づいて、応答文字数と応答音声の合成に要する時間との係数を算出する。当該係数は、例えば、応答文字数を応答音声の合成に要した時間で割った値の平均として算出する、あるいは、最小二乗法により一次関数を求めることによって算出する。制御ユニット11は、音声合成時間予測部1133の制御の下、サーバ2から、取得された発話音声データに対する応答内容データに係る応答文字数の通知を受信し、当該応答文字数と、上記算出された、応答文字数と応答音声の合成に要する時間との係数とに基づいて、第3の時間を再予測する。再予測された第3の時間に基づいて、上記遅延時間が再予測される。なお、遅延時間の再予測では、ステップS103において予測された第1の時間および第2の時間を利用してもよい、あるいは、ステップS103において予測された第1の時間および第2の時間を利用する代わりに、処理完了通知取得部115の制御の下に上記発話音声の認識が完了したことの通知および上記応答内容データの生成が完了したことの通知をそれぞれ取得したタイミングを計測して利用してもよい。
ステップS109において、制御ユニット11は、フィラー情報出力部114の制御の下、フィラー情報記憶部125に記憶されたフィラー音声データの中から、例えば、ユーザからの発話音声の終了時点からの経過時間を上記再予測された遅延時間から減算した時間に最も近い時間的な長さを有する、追加のフィラー音声データを読み出し、読み出されたフィラー音声データをスピーカ15に出力する。これにより、スピーカ15において上記再予測された遅延時間内に追加のフィラーが発話される。
ステップS107において発話音声の認識および応答内容データの生成が完了していないと判定された場合には、ステップS110において、制御ユニット11は、フィラー情報出力部114の制御の下、フィラー情報記憶部125に記憶されたフィラー音声データの中からランダムにフィラー音声データを読み出し、読み出されたフィラー音声データをスピーカ15に出力する。これにより、スピーカ15において、ランダムに読み出された追加のフィラーが発話される。
ステップS109において出力された追加のフィラー音声データの再生が終了した際には、ステップS111において、制御ユニット11は、応答準備完了判定部116の制御の下、ステップS105における動作において説明したのと同様に、ユーザからの発話音声に対する応答音声の合成が完了しているか否かを判定する。
ステップS111において応答音声の合成が完了していると判定された場合には、ステップS112において、制御ユニット11は、応答音声データ出力部117の制御の下、ステップS106における動作において説明したのと同様に、応答音声データをスピーカ15に出力する。その後、出力された応答音声データがスピーカ15から再生され、ユーザとの音声対話がなされる。
ステップS111において応答音声の合成が完了していないと判定された場合には、ステップS113において、制御ユニット11は、フィラー情報出力部114の制御の下、ステップS110における動作において説明したのと同様に、ランダムに読み出されたフィラー音声データをスピーカ15に出力する。これにより、スピーカ15において、ランダムに読み出された追加のフィラーが発話される。
なお、ステップS110においてランダムに読み出された追加のフィラーが発話された後には、ステップS105からの動作が繰り返され、ステップS113においてランダムに読み出された追加のフィラーが発話された後には、ステップS111からの動作が繰り返される。
(効果)
以上詳述したように、この発明の第1の実施形態では、以下のような効果が奏せられる。
(1)音声データ取得部111および発話音声データ抽出部112の制御の下、ユーザからの発話音声に係る発話音声データが取得される。ここで、取得された発話音声データは、サーバ2に送信され、サーバ2において、当該発話音声データに基づく発話音声の認識、当該認識の結果に基づく応答内容データの生成、当該応答内容データに対応する応答音声の合成が実施される。応答準備時間予測部113の制御の下、当該発話音声データに基づくユーザ発話時間と、過去の発話音声に係る応答内容データに関する情報とに基づいて、上記発話音声の認識に要する第1の時間、上記応答内容データの生成に要する第2の時間、および、上記応答音声の合成に要する第3の時間が予測され、予測された第1、第2および第3の時間の合計時間を算出することによって、ユーザからの発話音声の終了時点から、当該発話音声に対する応答音声の出力を開始するまでに要する遅延時間が予測される。
このように、発話音声の認識に要する第1の時間については、発話音声データに係るユーザ発話時間を利用することにより精度が高い予測をすることができる。また、応答内容データの生成に要する第2の時間については、多くの場合、発話音声の認識の相違による応答内容データ生成処理時間の変動は少ないので、過去の応答内容データに関する情報を用いることにより信頼度が高い予測をすることができる。また、応答音声の合成に要する第3の時間についても、過去の応答内容データに関する情報を用いることにより信頼性のある予測をすることができる。
また、例えば応答音声の準備処理を別の装置で行う場合等のように、実装によっては通信処理等の遅延時間も生じ得るが、このように過去の発話音声に係る実際の情報を用いることにより、着目する発話音声についても当該過去の情報を取得したのと同条件で処理すれば、このような通信処理等の時間も含めて処理時間を予測することができる。
(2)フィラー情報出力部114の制御の下、記憶されたフィラー音声データの中から、予測された遅延時間に最も近い時間的な長さを有するフィラー音声データが読み出され、読み出されたフィラー音声データがスピーカ15に出力され、スピーカ15において上記遅延時間内にフィラーが発話される。
このため、発話音声を発したユーザが、レスポンスが返らないことにより不安にさせられることがなくなる。また、例えば、遅延時間に対応する時間的な長さで意味を有する言葉を発するフィラー音声を出力するようにすると、ユーザは、出力されるフィラー音声の種類によって、応答音声が返ってくるまでに待つ必要がある時間を予測でき、これにより、ユーザをさらに安心させることができる。
(3)応答準備完了判定部116の制御の下、出力されたフィラー音声データの再生が終了した際に、ユーザからの発話音声に対する応答音声の合成が完了しているか否かが判定される。ユーザからの発話音声に対する応答音声の合成が完了していないと判定された場合に、フィラー情報出力部114の制御の下、追加のフィラー音声データがスピーカ15に出力される。
このため、出力されたフィラー音声データの再生が終了した後に、発話音声を発したユーザが、応答音声が出力されるのをさらに待つ必要がある場合にも、レスポンスが返らないことにより不安にさせられることがなくなる。
(4)応答準備完了判定部116の制御の下、ユーザからの発話音声に対する応答音声の合成が完了していないと判定された場合に、さらに、発話音声の認識および応答内容データの生成が完了しているか否かが判定される。発話音声の認識および応答内容データの生成が完了していると判定された場合に、音声合成時間予測部1133の制御の下、通知された応答内容データに係る応答文字数と、過去の発話音声に係る応答内容データに関する情報とに基づいて、第3の時間が再予測される。応答準備時間予測部113の制御の下、再予測された第3の時間に基づいて、上記遅延時間が再予測される。フィラー情報出力部114の制御の下、記憶されたフィラー音声データの中から、ユーザからの発話音声の終了時点からの経過時間を上記再予測された遅延時間から減算した時間に最も近い時間的な長さを有する、追加のフィラー音声データが読み出され、読み出されたフィラー音声データがスピーカ15に出力され、スピーカ15において上記再予測された遅延時間内にフィラーが発話される。
このように、第3の時間について、応答内容データに係る文字数を用いることにより精度が高い再予測をすることができ、遅延時間について精度の高い再予測がされることになる。これにより、追加のフィラー情報も、ユーザがさらに待つ必要がある時間に応じたものとすることができ、ユーザをさらに安心させることができる。
[他の実施形態]
なお、この発明は上記第1の実施形態に限定されるものではない。例えば、上記第1の実施形態では、音声対話装置とサーバとの組み合わせによってユーザとの対話を実現している。しかしながら、音声対話装置とサーバとを1つの装置として実現してもよい。また、上記第1の実施形態では、応答音声の出力とフィラー情報の出力との両方を実現する音声対話装置について説明したが、これらを別個の異なる装置によって実現してもよい。
その他、音声対話装置およびサーバの装置の種類とその構成、ならびに、発話音声に対する応答音声を準備するための処理等についても、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。
要するにこの発明は、上記第1の実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記第1の実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、上記第1の実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
1…音声対話装置、11…制御ユニット、111…音声データ取得部、112…発話音声データ抽出部、113…応答準備時間予測部、1131…音声認識時間予測部、1132…応答内容生成時間予測部、1133…音声合成時間予測部、114…フィラー情報出力部、115…処理完了通知取得部、116…応答準備完了判定部、117…応答音声データ出力部、12…記憶ユニット、121…音声データ記憶部、122…発話時間記憶部、123…応答準備時間記憶部、124…応答文字数記憶部、125…フィラー情報記憶部、13…通信インタフェースユニット、14…マイク、15…スピーカ、2…サーバ、21…制御ユニット、211…音声認識機能部、2111…発話音声データ取得部、2112…発話テキストデータ生成部、212…応答内容生成機能部、2121…応答テキストデータ生成部、213…音声合成機能部、2131…応答音声データ合成部、2132…応答音声データ出力部、22…記憶ユニット、221…発話音声データ記憶部、222…発話テキストデータ記憶部、223…応答テキストデータ記憶部、224…応答音声データ記憶部、23…通信インタフェースユニット

Claims (8)

  1. ユーザからの発話音声の認識、当該認識の結果に基づく応答内容データの生成、および当該応答内容データに対応する応答音声の合成の実施とともに使用される、音声処理装置であって、
    前記発話音声の長さと、過去の応答内容データに関する情報とに基づいて、前記発話音声の終了時点から前記応答音声の出力を開始するまでに要する遅延時間を予測する予測部と、
    前記予測された遅延時間内において、当該遅延時間に応じたフィラー情報を出力するフィラー情報出力部と
    を備える音声処理装置。
  2. 前記予測部は、
    前記発話音声の長さを検出し、当該検出された発話音声の長さに基づいて前記発話音声の認識に要する第1の時間を予測する手段と、
    前記過去の応答内容データに関する情報に基づいて、前記発話音声の認識の結果に基づく応答内容データの生成に要する第2の時間を予測する手段と、
    前記過去の応答内容データに関する情報に基づいて、前記生成される応答内容データに対応する応答音声の合成に要する第3の時間を予測する手段と、
    前記予測された第1、第2および第3の時間に基づいて、前記発話音声の終了時点から前記応答音声の出力を開始するまでに要する遅延時間を予測する手段と
    を備える、請求項1記載の音声処理装置。
  3. 前記第1の時間を予測する手段は、
    ユーザからの過去の発話音声の長さと、当該長さの発話音声の認識に要した時間とに基づいて、発話音声の長さと発話音声の認識に要する時間との係数を算出する手段と、
    前記検出された発話音声の長さと、前記算出された、発話音声の長さと発話音声の認識に要する時間との係数とに基づいて、前記第1の時間を予測する手段と
    を備える、請求項2に記載の音声処理装置。
  4. 前記過去の応答内容データに関する情報は、過去の応答内容データに対応する応答音声の合成に要した時間を含み、
    前記第3の時間を予測する手段は、前記第3の時間を、所定の回数の前記過去の応答音声の合成に要した時間の平均値に基づいて予測する、請求項2又は3に記載の音声処理装置。
  5. 前記出力されたフィラー情報の再生が終了した際に、前記ユーザからの発話音声に対する応答音声の合成が完了しているか否かを判定する判定部をさらに備え、
    前記フィラー情報出力部は、前記応答音声の合成が完了していないと判定された場合に、追加のフィラー情報を出力する、請求項1乃至4のいずれかに記載の音声処理装置。
  6. 前記出力されたフィラー情報の再生が終了した際に、前記ユーザからの発話音声に対する応答音声の合成が完了しているか否かを判定し、さらに、前記応答音声の合成が完了していないと判定された場合に、前記ユーザからの発話音声の認識と、当該認識の結果に基づく応答内容データの生成が完了しているか否かを判定する判定部をさらに備え、
    前記過去の応答内容データに関する情報は、ユーザからの過去の発話音声に対する応答内容データの長さと、当該長さの応答内容データに対応する応答音声の合成に要した時間とを含み、
    前記第3の時間を予測する手段は、
    前記ユーザからの過去の発話音声に対する応答内容データの長さと、当該長さの応答内容データに対応する応答音声の合成に要した時間とに基づいて、応答内容データの長さと応答音声の合成に要する時間との係数を算出する手段と、
    前記応答音声の合成が完了していないと判定され、かつ、前記ユーザからの発話音声の認識と、当該認識の結果に基づく応答内容データの生成が完了していると判定された場合に、前記ユーザからの発話音声に対する応答内容データの長さと、前記算出された、応答内容データの長さと応答音声の合成に要する時間との係数とに基づいて、前記第3の時間を再予測する手段とを備え、
    前記遅延時間を予測する手段は、前記再予測された第3の時間に基づいて、前記ユーザからの発話音声の終了時点から前記応答音声の出力を開始するまでに要する遅延時間を再予測し、
    前記フィラー情報出力部は、前記再予測された遅延時間内において、前記ユーザからの発話音声の終了時点からの経過時間を前記再予測された遅延時間から減算した時間に応じた、追加のフィラー情報を出力する、請求項2乃至4のいずれかに記載の音声処理装置。
  7. ユーザからの発話音声の認識、当該認識の結果に基づく応答内容データの生成、および当該応答内容データに対応する応答音声の合成の実施とともに使用される、コンピュータおよびメモリを備える装置が実行する音声処理方法であって、
    前記発話音声の長さと、過去の応答内容データに関する情報とに基づいて、前記発話音声の終了時点から前記応答音声の出力を開始するまでに要する遅延時間を予測する過程と、
    前記予測された遅延時間内において、当該遅延時間に応じたフィラー情報を出力する過程と
    を備える音声処理方法。
  8. 請求項1乃至6のいずれかに記載の音声処理装置が備える各部としてコンピュータを機能させるプログラム。
JP2017172162A 2017-09-07 2017-09-07 音声処理装置、方法およびプログラム Active JP6664359B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017172162A JP6664359B2 (ja) 2017-09-07 2017-09-07 音声処理装置、方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017172162A JP6664359B2 (ja) 2017-09-07 2017-09-07 音声処理装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2019045831A true JP2019045831A (ja) 2019-03-22
JP6664359B2 JP6664359B2 (ja) 2020-03-13

Family

ID=65816438

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017172162A Active JP6664359B2 (ja) 2017-09-07 2017-09-07 音声処理装置、方法およびプログラム

Country Status (1)

Country Link
JP (1) JP6664359B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113450096A (zh) * 2021-06-25 2021-09-28 未鲲(上海)科技服务有限公司 资源转移数据的处理方法、装置、电子设备及介质
CN113711307A (zh) * 2019-04-23 2021-11-26 三菱电机株式会社 设备控制装置及设备控制方法
CN115565535A (zh) * 2022-09-21 2023-01-03 深圳琪乐科技有限公司 一种智能语音客服系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015135420A (ja) * 2014-01-17 2015-07-27 株式会社デンソー 音声認識端末装置、音声認識システム、音声認識方法
JP2016126293A (ja) * 2015-01-08 2016-07-11 シャープ株式会社 音声対話制御装置、音声対話制御装置の制御方法、および音声対話装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015135420A (ja) * 2014-01-17 2015-07-27 株式会社デンソー 音声認識端末装置、音声認識システム、音声認識方法
JP2016126293A (ja) * 2015-01-08 2016-07-11 シャープ株式会社 音声対話制御装置、音声対話制御装置の制御方法、および音声対話装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113711307A (zh) * 2019-04-23 2021-11-26 三菱电机株式会社 设备控制装置及设备控制方法
CN113711307B (zh) * 2019-04-23 2023-06-27 三菱电机株式会社 设备控制装置及设备控制方法
CN113450096A (zh) * 2021-06-25 2021-09-28 未鲲(上海)科技服务有限公司 资源转移数据的处理方法、装置、电子设备及介质
CN115565535A (zh) * 2022-09-21 2023-01-03 深圳琪乐科技有限公司 一种智能语音客服系统
CN115565535B (zh) * 2022-09-21 2024-04-12 南京浮点智算数字科技有限公司 一种智能语音客服系统

Also Published As

Publication number Publication date
JP6664359B2 (ja) 2020-03-13

Similar Documents

Publication Publication Date Title
US20210249013A1 (en) Method and Apparatus to Provide Comprehensive Smart Assistant Services
US11227584B2 (en) System and method for determining the compliance of agent scripts
EP3061086B1 (en) Text-to-speech performance evaluation
JP6731326B2 (ja) 音声対話装置及び音声対話方法
JP2006098993A (ja) 音声処理装置およびそのためのコンピュータプログラム
JP7230806B2 (ja) 情報処理装置、及び情報処理方法
JP6111802B2 (ja) 音声対話装置及び対話制御方法
KR101836430B1 (ko) 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버
US9691389B2 (en) Spoken word generation method and system for speech recognition and computer readable medium thereof
JP2019045831A (ja) 音声処理装置、方法およびプログラム
EP3567586B1 (en) Voice interaction system, voice interaction method, and program
JP2004101901A (ja) 音声対話装置及び音声対話プログラム
JP6873805B2 (ja) 対話支援システム、対話支援方法、及び対話支援プログラム
JP6576968B2 (ja) 話し終わり判定装置、話し終わり判定方法およびプログラム
US20120078634A1 (en) Voice dialogue system, method, and program
KR20220070546A (ko) 텍스트 독립 화자 인식
JP6028556B2 (ja) 対話制御方法及び対話制御用コンピュータプログラム
JP2016126294A (ja) 音声対話制御装置、音声対話制御装置の制御方法、および音声対話装置
JP2012163692A (ja) 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム
JP6621593B2 (ja) 対話装置、対話システム、及び対話装置の制御方法
EP2541544A1 (en) Voice sample tagging
JP6772881B2 (ja) 音声対話装置
JP5223843B2 (ja) 情報処理装置およびプログラム
JP6233103B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
KR20210098250A (ko) 전자 장치 및 이의 제어 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200123

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200218

R150 Certificate of patent or registration of utility model

Ref document number: 6664359

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150