JP2018022086A - サーバ装置、制御システム、方法、情報処理端末、および制御プログラム - Google Patents
サーバ装置、制御システム、方法、情報処理端末、および制御プログラム Download PDFInfo
- Publication number
- JP2018022086A JP2018022086A JP2016154318A JP2016154318A JP2018022086A JP 2018022086 A JP2018022086 A JP 2018022086A JP 2016154318 A JP2016154318 A JP 2016154318A JP 2016154318 A JP2016154318 A JP 2016154318A JP 2018022086 A JP2018022086 A JP 2018022086A
- Authority
- JP
- Japan
- Prior art keywords
- information
- utterance
- voice
- processing terminal
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
【課題】ユーザが期待する対話をスムーズに実現するサーバ装置を提供する。【解決手段】サーバ装置180は、一以上の情報処理端末170から受信した音声情報に基づいて、情報処理端末170が出力するための発話情報を生成する制御部350と、音声情報の発話内容を特定するための複数の発話文字列を保持するための記憶装置360とを備える。制御部350は、音声情報から文字列を抽出し、記憶装置に保持される少なくとも一の発話文字列について抽出された文字列との類似度を算出し、類似度が所定値未満である場合、抽出した文字列を含む発話情報を生成する。【選択図】図3
Description
この開示は、音声対話装置に関し、より特定的には、音声対話装置が出力する発話情報を生成する技術に関する。
近年、対話機能を有するスマートフォンや電気製品などの情報処理端末が増えている。これら情報処理端末は、当該情報処理端末に対するユーザの音声情報を文字列として音声認識して、当該文字列に対して何らかの応答を行なう。
たとえば、国際公開第2005/076258号(特許文献1)は、ユーザと対話するユーザ適応型装置を開示する。このユーザ適応型装置は、ユーザと機器との円滑なインタラクションを実現するために、ユーザの発話速度が目標値よりも低いときは、発話速度を目標値よりも高く設定し、または、ユーザの発話速度が目標値よりも高いときは、発話速度を目標値よりも低く設定する(「発明を実施するための最良の形態」を参照)。
また、国際公開第2006/083020号(特許文献2)は、音声認識装置を開示する。この音声認識装置は、音声データを構成する単語の組み合わせを認識し、単語ごとの認識の信頼度を算出する音声認識部を備え、算出された信頼度が所定条件を満たす単語は、当該単語の合成音声を生成し、算出された信頼度が所定の条件を見たさない単語は、音声データから当該単語に対応する部分を抽出し、音声合成、および/または、抽出された音声データの組み合わせによって応答音声を生成する(「要約」参照)。
ところで、従来の対話可能な情報処理端末は、ユーザの発話内容が想定内である場合は、当該発話内容に応答する。一方、従来の情報処理端末は、ユーザの発話内容が想定外である場合、「もう一度言ってください」や「分かりません」などと応答する。
しかしながら、このような情報処理端末に接するユーザは、情報処理端末がこのような対応を取る理由を理解できないために、同じ発話内容を繰り返し得る。その結果、ユーザは、再び情報処理端末から「もう一度言ってください」などの回答を受け得る。
ユーザは、上記のように自身が期待する対話を行なうことができない状態が続くと、情報処理端末に対して落胆し、発話をしなくなる。
本開示は、上記のような問題を解決するためになされたものであって、ある局面における目的は、ユーザが期待する対話をスムーズに実現するサーバ装置、および当該サーバ装置の制御方法を提供することである。他の局面における目的は、ユーザが期待する対話をスムーズに実現する情報処理端末、および当該情報処理端末に使用される制御プログラムを提供することである。さらに他の局面における目的は、ユーザが期待する対話をスムーズに実現する制御システムを提供することである。
ある実施形態に従うサーバ装置は、一以上の情報処理端末の各々と通信するための通信インターフェイスと、通信インターフェイスを介して情報処理端末から受信した音声情報に基づいて、情報処理端末が出力するための発話情報を生成する制御部と、音声情報の発話内容を特定するための複数の発話文字列を保持するための記憶装置とを備える。制御部は、音声情報から文字列を抽出し、少なくとも一の発話文字列について抽出された文字列との類似度を算出し、類似度が所定値未満である場合、抽出した文字列を含む発話情報を生成して、当該発話情報を情報処理端末に送信する。
ある実施形態に従うサーバ装置は、ユーザとのスムーズな対話を実現する。そのため、ユーザは、発話対象と自然な対話を楽しみ、発話対象に対して愛着を持ちやすくなる。
この発明の上記および他の目的、特徴、局面および利点は、添付の図面と関連して理解されるこの発明に関する次の詳細な説明から明らかとなるであろう。
以下、この発明の実施形態について図面を参照しながら詳細に説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称および機能も同じである。したがって、それらについての詳細な説明は繰り返さない。
[技術思想]
図1は、ある実施形態に従うユーザと対話するための制御システムについて説明する図である。分図(A)において、ユーザ160は、発話対象である情報処理端末170に発話する。情報処理端末170は、ユーザ160の発話した音声を音声情報に変換して、サーバ180に送信する。サーバ180は、音声情報に基づいて情報処理端末170がユーザ160に対して発話するための発話情報を生成して情報処理端末170に送信する。ある局面において、発話情報は、音声合成された情報である。情報処理端末は、一例として、モバイルコンピュータ、タブレットコンピュータ、モバイル装置(例えば、スマートフォンやPDA)、その他の適切な処理能力、通信能力および音声入出力機能を有する装置であり得る。
図1は、ある実施形態に従うユーザと対話するための制御システムについて説明する図である。分図(A)において、ユーザ160は、発話対象である情報処理端末170に発話する。情報処理端末170は、ユーザ160の発話した音声を音声情報に変換して、サーバ180に送信する。サーバ180は、音声情報に基づいて情報処理端末170がユーザ160に対して発話するための発話情報を生成して情報処理端末170に送信する。ある局面において、発話情報は、音声合成された情報である。情報処理端末は、一例として、モバイルコンピュータ、タブレットコンピュータ、モバイル装置(例えば、スマートフォンやPDA)、その他の適切な処理能力、通信能力および音声入出力機能を有する装置であり得る。
より具体的には、サーバ180は、応答テーブル190を含む。応答テーブル190は、ユーザ160の情報処理端末170に対する複数の発話内容候補の文字列と、当該発話内容候補の各々に関連付けて、ユーザに対して情報処理端末170が発話する応答内容の文字列とを保持する。サーバ180は、情報処理端末170から受信した音声情報から、応答テーブル190に格納される発話内容候補を特定する。一例として、サーバ180は、情報処理端末170から受信した音声情報が発話内容候補「おはよう」に対応する音声情報であると特定する。この場合、サーバ180は、発話内容候補「おはよう」に関連付けられた応答内容「おはよう。今日も一日がんばろう」を音声合成した発話情報を生成して情報処理端末170に送信する。すなわち、サーバ180は、想定されるユーザの発話内容に対する発話情報を生成する。
しかしながら、ある局面において、ユーザの発話内容がサーバ180にとって想定外の場合もあり得る。以下、この場合についてのサーバ180の動作例について説明する。
分図(A)を参照して、ステップS110において、ユーザ160は、情報処理端末170に対して「おはよう」と発話する。ステップS115において、情報処理端末170は、ユーザの発話した音声を音声情報に変換してサーバ180に送信する。
ステップS120において、サーバ180は、受信した音声情報から文字列を抽出する音声認識処理を行い、「よう」の文字列を抽出する。ステップS125において、サーバ180は、抽出した「よう」の文字列と、応答テーブル190に格納される複数の発話内容候補の文字列とを比較し、抽出した文字列との類似度が所定値以上の発話内容候補がないと判断する。この場合、サーバ180は、音声情報に関連する発話内容候補が存在しないと判断する。換言すれば、サーバ180は、ユーザの発話内容を特定できなかったと判断する。なお、この場合、サーバ180は、発話内容候補を特定できなかったことに応じて、音声情報に関連する応答内容も存在しないと判断する。
ステップS130において、サーバ180は、音声情報に関連する発話内容候補、または音声情報に関連する応答内容が存在しないと判断したことに応じて、ユーザの発話内容を特定できなかった旨をユーザに示唆する発話情報を生成して情報処理端末170に送信する。ある局面において、サーバ180は、抽出した「よう」の文字列を含む文字列を音声合成した発話情報を生成する。さらに他の局面において、サーバ180は、ユーザ160の発話内容が抽出した「よう」の文字列であるかを問い合わせる発話情報を生成し得る。さらに他の局面において、サーバ180は、音声情報に関連する発話内容候補、または音声情報に関連する応答内容が存在しないと判断したことに応じて、受信した音声情報(すなわち、発話者の音声データ)を発話情報として生成し得る。
ステップS135において、情報処理端末170は、サーバ180から受信した発話情報に基づき、ユーザ160に対して発話(たとえば、『「よう」っていったかな?』)する。
上記によれば、ユーザ160は、情報処理端末170がユーザ160の発話内容を「おはよう」ではなく「よう」と認識したと理解できる(なお、実際に音声認識を行なうのは、サーバ180である)。そのため、ユーザ160は、どのように話せばユーザ160が意図する発話内容を情報処理端末170が理解できるかを学習できる。その結果、ユーザ160は、情報処理端末170と円滑な対話を楽しむことができるようになる。
分図(B)は、他の局面における、ユーザの発話内容がサーバ180にとって想定外である場合のサーバ180の動作について説明する図である。なお、分図(A)と同一符号を付している部分については同じであるため、その部分についての説明は繰り返さない。
ステップS140において、サーバ180は、受信した音声情報から文字列を抽出できなかったとする抽出結果(音声認識結果)を得る。ステップS145において、サーバ180は、情報処理端末170から受信した音声情報のゲイン(情報処理端末170に入力される音量)が、予め定められたゲイン以上であると判断する。これにより、サーバ180は、音声情報から文字列を抽出できなかった原因が、情報処理端末170の周囲がうるさいこと、すなわち、騒音があったことだと推定する。
ステップS150において、サーバ180は、音声情報から文字列を抽出できなかったこと、および、上記推定した原因を含む発話情報を生成して情報処理端末170に送信する。
ステップS155において、情報処理端末170は、サーバ180から受信した発話情報に基づき、ユーザ160に対して「上手く聞こえなかったよ。周りがうるさいかも」と発話する。「上手く聞こえなかったよ」が音声情報から文字列を抽出できなかったことを表し、「周りがうるさいかも」が上記推定した原因を表す。
上記によれば、ユーザ160は、情報処理端末170がユーザ160の発話内容を認識していないと理解できる(なお、実際に音声認識を行なうのは、サーバ180である)。さらに、ユーザ160は、情報処理端末170がユーザ160の発話内容を認識できない理由が、周りがうるさいことであると理解する。ユーザ160は、静かな場所で情報処理端末170に対して発話する、または情報処理端末170に対する発話の音量を大きくする、などの対策を講じる。その結果、サーバ180は、ユーザが情報処理端末170に対して発話する内容を正確に認識できるようになる。これにより、ユーザ160は、情報処理端末170と円滑な対話を楽しむことができるようになる。以下、これらの情報処理端末170およびサーバ180とから構成される制御システムの構成および制御について説明する。
[実施形態1]
(制御システム200の構成)
図2は、実施形態1に従う制御システム200の構成例について説明する図である。図2を参照して、制御システム200は、情報処理端末170と、ネットワーク210と、サーバ180とを備える。情報処理端末170とサーバ180とは、ネットワーク210を介して互いに通信可能に構成される。
(制御システム200の構成)
図2は、実施形態1に従う制御システム200の構成例について説明する図である。図2を参照して、制御システム200は、情報処理端末170と、ネットワーク210と、サーバ180とを備える。情報処理端末170とサーバ180とは、ネットワーク210を介して互いに通信可能に構成される。
ある局面において、ネットワーク210は、LAN(Local Area Network)であり得る。他の局面において、ネットワーク210は、WAN(Wide Area Network)であり得る。
(制御システム200の概略動作)
情報処理端末170は、情報処理端末170の周囲の音声を、後述するマイク330によって電気信号としての音声情報に変換する。ユーザ160が情報処理端末170に対して発話すると、情報処理端末170は、ユーザ160が発話する発話区間の音声情報を切り出して、サーバ180に送信する。情報処理端末170によるユーザ160の発話区間の検出方法については後述する。
情報処理端末170は、情報処理端末170の周囲の音声を、後述するマイク330によって電気信号としての音声情報に変換する。ユーザ160が情報処理端末170に対して発話すると、情報処理端末170は、ユーザ160が発話する発話区間の音声情報を切り出して、サーバ180に送信する。情報処理端末170によるユーザ160の発話区間の検出方法については後述する。
サーバ180は、情報処理端末170から入力された音声情報から文字列を抽出して、当該文字列に対する応答内容を音声合成した発話情報を生成する。サーバ180は、生成した発話情報を情報処理端末170に送信する。
情報処理端末170は、サーバ180から受信した発話情報を、内蔵する音声出力装置(たとえば、スピーカ)によって音声に変換して出力する。制御システム200は、これら一連の処理によって、ユーザと対話する。
(情報処理端末170およびサーバ180の構成例)
図3は、実施形態1に従う情報処理端末170およびサーバ180のハードウェア構成の一例について説明する図である。図3を参照して、情報処理端末170は、制御部310と、スピーカ320と、マイク330と、通信インターフェイス(I/F)340とを含む。
図3は、実施形態1に従う情報処理端末170およびサーバ180のハードウェア構成の一例について説明する図である。図3を参照して、情報処理端末170は、制御部310と、スピーカ320と、マイク330と、通信インターフェイス(I/F)340とを含む。
制御部310は、情報処理端末170の全体動作を制御する。制御部310は、CPU(Central Processor Unit)312と、RAM(Random Access Memory)314と、ROM(Read Only Memory)316とを含む。
CPU312は、ROM314に格納される制御プログラムを読み出して実行することで、情報処理端末170の各種処理を実現する。
RAM316は、典型的には、DRAM(Dynamic Random Access Memory)などであり、CPU312が制御プログラムを動作するために必要なデータを一時的に記憶するワーキングメモリとして機能する。
ROM314は、典型的には、フラッシュメモリなどであり、CPU312で実行される制御プログラムや、情報処理端末170の動作にかかる各種設定情報を記憶する。
スピーカ320は、サーバ180から入力された音声情報を音声に変換して出力する。他の局面において、情報処理端末170は、スピーカ320に替えて、またはスピーカ320に加えて、ヘッドフォン,イヤホンその他の音声出力装置を含む構成であってもよい。
マイク330は、情報処理端末170の周囲の音声を電気信号としての音声情報に変換する。情報処理端末170は、マイク330によって情報処理端末170の周囲の音声情報を取得する。音声情報は、情報処理端末170の周囲の音声の音量に応じた波形データを含む。ある局面において、情報処理端末170は、スイッチ(図示しない)を有し、当該スイッチを押下されてから所定時間(たとえば、1分間)、マイク330によって音声情報を取得する。
通信インターフェイス340は、後述するサーバ180の通信インターフェイス370と通信し、各種信号のやりとりを行なう。
サーバ180は、制御部350と、記憶装置360と、通信インターフェイス(I/F)370とを含む。制御部350は、サーバ180の動作を制御する。制御部350は、CPU352と、RAM354と、ROM356とを含む。CPU352は、ROM356に格納される制御プログラムを読み出して実行することで、サーバ180の各種処理を実現する。
RAM354は、CPU352が制御プログラムを動作するために必要なデータを一時的に記憶するワーキングメモリとして機能する。ROM356は、CPU352で実行される制御プログラムや、サーバ180の動作にかかる各種設定情報を記憶する。
記憶装置360は、典型的には、ハードディスクドライブなどであり、後述する応答テーブル362と、音響モデル364とを記憶する。
(応答テーブル)
図4は、実施形態1に従う応答テーブル362について説明する図である。図4を参照して、応答テーブル362は、複数の発話内容候補410と、複数の応答内容420を保持する。複数の発話内容候補410の各々は、応答内容420の各々と関連付けられる。発話内容候補410は、ユーザの情報処理端末170に対する発話内容を特定するための文字列である。応答内容420は、情報処理端末170がユーザに対して発話する内容の文字列である。
図4は、実施形態1に従う応答テーブル362について説明する図である。図4を参照して、応答テーブル362は、複数の発話内容候補410と、複数の応答内容420を保持する。複数の発話内容候補410の各々は、応答内容420の各々と関連付けられる。発話内容候補410は、ユーザの情報処理端末170に対する発話内容を特定するための文字列である。応答内容420は、情報処理端末170がユーザに対して発話する内容の文字列である。
一例として、サーバ180は、ユーザの情報処理端末170に対する発話内容が「こんにちは」であると認識した場合、発話内容候補「こんにちは」に関連付けられた応答内容「こんにちは。もうすぐお昼だね」を音声合成した発話情報を情報処理端末170に送信する。
なお、図4に示される例において、発話内容候補410と、応答内容420との関係が一対一対応の関係にあるが、上記関係はこれに限られない。他の局面において、複数の発話内容候補に対して、1つの応答内容が関連付けられ得る。たとえば、「おはよう」および「おはようございます」等の、朝の挨拶の発話内容候補を複数格納し、当該朝の挨拶のカテゴリに含まれる発話内容候補に対して、一の応答内容「おはようございます」が格納され得る。さらに他の局面において、1つの発話内容候補に対して、複数の応答内容が関連付けられ得る。この場合、サーバ180は、複数の応答内容から1の応答内容を選定する。サーバ180は、ランダムで1の応答内容を選定してもよいし、予め定められた優先順位に従って選定してもよい。
(音声区間検出および音声認識)
図5は、情報処理端末170による音声区間検出、およびサーバ180による音声認識について説明する図である。
図5は、情報処理端末170による音声区間検出、およびサーバ180による音声認識について説明する図である。
分図(A)は、情報処理端末170が、マイク330によって取得する情報処理端末170の周囲の音声情報を表す。縦軸は、マイク330が取得する音声の音量に応じた振幅である。振幅が「0」のとき、マイク330が取得する音声の音量が最も小さく、振幅が「1」または「−1」のとき、マイク330が取得する音声の音量が最も大きいことを表す。
情報処理端末170は、マイク330が取得する音声情報から、ユーザの発話区間を検出し、当該発話区間の音声情報を切り出してサーバ180に送信する。情報処理端末170は、マイク330が取得する音声情報のうち、当該音声情報の波形データが予め定められた条件を満たす区間の音声情報を切り出す。ある局面において、情報処理端末170は、音声情報の振幅の絶対値がしきい値以上であるt1〜t2の区間を、ユーザの発話区間として検出する。他の局面において、情報処理端末170は、音声情報の振幅の絶対値がしきい値以上である区間の前後に、予め定められた期間(マージン)を設けたt3〜t4の区間を、ユーザの発話区間として検出する。
サーバ180は、情報処理端末170が切り出した音声情報を受信して、当該音声情報から文字列を抽出する。一例として、サーバ180は、音声情報の先頭から所定時間単位(たとえば、10msec単位)で区切られる波形データと、記憶装置360に格納される音響モデル364とを照合して、音声情報から文字列を抽出する。音響モデル364は、母音や子音などの音素ごとに音声の特徴量を記憶する。一例として、サーバ180は、隠れマルコフモデルに基づき、音声情報と音響モデル364とを照合する。
分図(A)の例において、ユーザは情報処理端末170に対して「おはよう」と発話する。サーバ180は、上記の音声認識処理を行い、音声情報から「おはよう」の文字列を正しく抽出する。
この場合、サーバ180は、応答テーブル362に保持される複数の発話内容候補410の文字列の中から抽出した文字列「おはよう」に最も類似する、発話内容候補「おはよう」を特定する。
サーバ180は、発話内容候補「おはよう」に関連付けられる応答内容420として「おはよう。今日も一日がんばろう」を音声合成した発話情報を生成する。サーバ180は、生成した発話情報を情報処理端末170に送信する。
一方、分図(B)の例において、ユーザは情報処理端末170に対して「おはよう」と発話したものの、サーバ180は、音声情報から「ぱんよう」の文字列を誤って抽出する。これは、音声情報におけるt5〜t6の区間、すなわち、「おはよう」の「おは」に対応する区間における振幅が小さい、すなわちユーザの音声の音量が小さいことに起因する。
ある局面において、サーバ180は、抽出した文字列「ぱんよう」と、応答テーブル362に保持される複数の発話内容候補410の文字列とを比較して、「ぱんよう」に類似する発話内容候補410がないと判断する。
これに応じて、サーバ180は、ユーザの情報処理端末170に対する発話内容が抽出結果(音声認識結果)である「ぱんよう」であるかを問いかける発話情報(たとえば、『「ぱんよう」って言ったかな?』)を生成する。サーバ180は、生成した発話情報を情報処理端末170に送信する。
図6は、他の例に従うサーバ180による音声認識について説明する図である。図6の分図(A)および(B)において、ユーザは情報処理端末170に対して「こんにちは」と発話する。
分図(A)の例において、サーバ180は、音声認識処理を行い、音声情報から「こんにちは」の文字列を正しく抽出する。一方、分図(B)の例において、サーバ180は、音声情報から「いちは」の文字列を誤って抽出する。これは、音声情報におけるt7〜t8の区間、すなわち、「こんにちは」の「こんに」に対応する区間に、マイク330付近のノイズ(騒音)が含まれていることに起因する。
この場合も、サーバ180は、抽出した文字列「いちは」に類似する発話内容候補410がないと判断すると、ユーザの発話内容が抽出結果「いちは」であるかを問いかける発話情報を生成して情報処理端末170に送信する。次に、図7を用いてサーバ180において発話情報を生成する処理を説明する。
(応答制御)
図7は、実施形態1に従うサーバ180が発話情報を生成するためのフローチャートである。図7に示される処理は、CPU352がROM356に格納される制御プログラムを実行することにより実現される。他の局面において、処理の一部または全部が、回路素子その他のハードウェアによって実行されてもよい。これら一連の処理は、ユーザが情報処理端末に対して発話することにより実行される。なお、これらの条件は後述する図8のフローチャートにおいても同様とする。
図7は、実施形態1に従うサーバ180が発話情報を生成するためのフローチャートである。図7に示される処理は、CPU352がROM356に格納される制御プログラムを実行することにより実現される。他の局面において、処理の一部または全部が、回路素子その他のハードウェアによって実行されてもよい。これら一連の処理は、ユーザが情報処理端末に対して発話することにより実行される。なお、これらの条件は後述する図8のフローチャートにおいても同様とする。
ステップS710において、CPU352は、通信インターフェイス370を介して情報処理端末170から音声情報を取得する。
ステップS720において、CPU352は、取得した音声情報に対して音声認識処理を実行する。一例として、CPU352は、取得した音声情報と、音響モデル364とを隠れマルコフモデルにより照合して、音声情報から文字列を抽出する。
ステップS730において、CPU352は、音声情報から文字列を抽出できたか否かを判断する。CPU352は、音声情報から文字列を抽出できた場合(ステップS730においてYES)、処理をステップS735に進める。そうでない場合(ステップS730においてNO)、CPU352は、処理をステップS770に進める。
ステップS735において、CPU352は、応答テーブル362に保持される複数の発話内容候補410の各々について、抽出した文字列との類似度を算出して、抽出した文字列に最も類似する発話内容候補を特定する。一例として、CPU352は、複数の発話内容候補410の中から、抽出した文字列とのレーベンシュタイン距離が最も短い発話内容候補410を特定する。なお、他の局面において、CPU352は、Damerau−Levenshtein距離、ハミング距離、Jaro−Winkler距離、その他の2つの文字列間の類似度を表す指標を用い得る。
なお、他の局面において、CPU352は、音声情報から文字列を抽出せずに、音声情報の波形データから発話内容を特定してもよい。この場合、記憶装置360には、発話応答候補に対応する波形データを予め格納される。CPU352は、入力される音声情報の波形データと、記憶装置360に格納される複数の波形データとを比較して、所定の類似度以上である波形データ、すなわち、発話応答候補を特定し得る。
ステップS740において、CPU352は、抽出した文字列と、特定した発話内容候補410の文字列との類似度が、所定値以上であるか否かを判断する。ある局面において、CPU352は、抽出した文字列と、特定した発話内容候補410の文字列とのレーベンシュタイン距離が所定距離(たとえば、2)以下であるかを判断する。他の局面において、CPU352は、抽出した文字列と、特定した発話内容候補410の文字列とのレーベンシュタイン距離の、抽出した文字列の文字数に対する割合が所定値以上(たとえば、80%以上)であるか否かを判断する。
CPU352は、CPU352は、抽出した文字列と、特定した発話内容候補410の文字列との類似度が、所定値以上であると判断した場合(ステップS740においてYES)、処理をステップS750に進める。そうでない場合(ステップS740においてNO)、CPU352は、処理をステップS760に進める。
ステップS750において、CPU352は、特定した発話内容候補410に関連付けられる応答内容420を音声合成した発話情報を生成する。
ステップS760において、CPU352は、抽出した文字列を含む発話情報を生成する。他の局面において、CPU352は、ユーザが情報処理端末170に対して発話した内容が、抽出した文字列であるかを問い合わせる発話情報を生成する。
ステップS770において、CPU352は、音声情報から文字列を抽出できなかったことに応じて、当該文字列を抽出できなかったことを示す発話情報(たとえば、「上手く聞こえなかったよ」)を生成する。
ステップS780において、CPU352は、生成した発話情報を情報処理端末170に送信して、一連の処理を終了する。
上記によれば、実施形態1に従う制御システム200のユーザは、ユーザの意図する発話内容が制御システム200に伝わっていない場合に、ユーザの発話内容が制御システム200にどのように認識されているかを理解できる。そのため、ユーザは、どのように話せばユーザが意図する内容が制御システム200に認識されるかを学習できる。その結果、ユーザは、情報処理端末170との円滑な対話を楽しむことができるようになり、情報処理端末170に対して愛着を持ちやすくなる。
なお、上記の例において、サーバ180は、音声合成した発話情報を情報処理端末170に送信するが、他の局面において、音声合成前のテキストデータを発話情報として情報処理端末170に送信してもよい。この場合、情報処理端末170は、サーバ180から受信したテキストデータを音声合成する機能を有する。情報処理端末170は、音声合成した情報を、スピーカ320によって音声に変換して出力する。
また、他の局面において、サーバ180は、ステップS760およびステップS770において、ステップS710で取得した音声情報をさらに含む発話情報を生成してもよい。一例として、ステップS760において、サーバ180は、『「よう」って言ったかな?ぼくにはこんな風に聞こえたよ。<音声情報>』の発話情報を生成する。この<音声情報>の部分は、マイク330が取得する音声に対応する。これにより、ユーザは、自身の声が、どのようにマイク330に入力されているのかを、直感的に理解できる。その結果、ユーザは、どのように話せば自身の意図する内容が情報処理端末170(およびサーバ180)に認識されるかを理解できる。
[実施形態2]
実施形態1に従うサーバは、音声情報から文字列を抽出できなかった場合、および音声情報から抽出した文字列に類似する発話内容候補が無かった場合、に抽出結果(抽出できなかったことを含む)を含む発話情報を生成する。
実施形態1に従うサーバは、音声情報から文字列を抽出できなかった場合、および音声情報から抽出した文字列に類似する発話内容候補が無かった場合、に抽出結果(抽出できなかったことを含む)を含む発話情報を生成する。
これに対して、実施形態2に従うサーバは、これらの場合に、上記の場合に至った原因を推定し、抽出結果に加えて推定した原因を含む発話情報を生成する。これにより、実施形態2に従う制御システム200のユーザは、どのように話せばユーザが意図する内容が制御システム200に認識されるかを、より理解できる。以下、実施形態2に従うサーバ180による発話情報の生成制御について説明する。なお、実施形態2に従うサーバ180の基本構成は、実施形態1に従うサーバ180の基本構成と略同じであるため、相違する点について説明する。
図8は、実施形態2に従うサーバ180が発話情報を生成するためのフローチャートである。なお、図7と同一符号を付している部分については同じ処理であるため、その部分についての説明は繰り返さない。
ステップS810において、CPU352は、ステップS730において音声情報から文字列を抽出できなかったことに応じて、音声情報が示す波形データの振幅、換言すれば、マイク330に入力される音声の音量Vが、どの程度であるかを判断する。より具体的には、CPU352は、音量Vが、第1の音量(振幅)Vth1以下であるか、第1の音量Vth1よりも大きい第2の音量Vth2以上であるか、第1の音量Vth1より大きく第2の音量Vth2未満の範囲であるかを判断する。
ある局面において、CPU352は、音声情報の平均音量(振幅)がどの程度であるかを判断し得る。他の局面において、CPU352は、音声情報における最小音量が第1の音量Vth1以下であるか、音声情報における最大音量が第2の音量Vth2以上であるかを判断し得る。この場合、CPU352は、音声情報における最小音量が第1の音量Vth1より大きくて、最大音量が第2の音量Vth2未満である場合に、音量Vが第1の音量Vth1より大きく第2の音量Vth2未満の範囲にあると判断し得る。
CPU352は、音量Vが第1の音量Vth1以下であると判断した場合(ステップS810においてV≦Vth1)、処理をステップS815に進める。ステップS815において、CPU352は、音声情報から文字列を抽出できなかった原因を、マイク330に入力される音声の音量が小さいことであると推定する。
CPU352は、音量Vが第2の音量Vth2以上であると判断した場合(ステップS810においてV≧Vth2)、処理をステップS820に進める。ステップS820において、CPU352は、音声情報から文字列を抽出できなかった原因を、マイク330の周囲の騒音であると推定する。
ステップS830において、CPU352は、音声情報から文字列を抽出できなかったことを示す抽出結果(たとえば、「上手く聞こえなかったよ」)および、抽出できなかった原因(たとえば、「声が小さいかも」、「周りがうるさいかも」)を含む発話情報を生成する。
CPU352は、音量Vが第1の音量Vth1より大きく第2の音量Vth2未満であると判断した場合(ステップS810において、Vth1<V<Vth2)、処理をステップS825に進める。ステップS825において、CPU352は、音声情報から文字列を抽出できなかったことを示す抽出結果を含む発話情報を生成する。
ステップS835において、音声情報から抽出した文字列の文字数がしきい値(たとえば、2文字)以上であるか否かを判断する。CPU352は、抽出した文字列の文字数がしきい値以上であると判断した場合(ステップS835においてYES)、処理をステップS845に進める。そうでない場合(ステップS835においてNO)、CPU352は、処理をステップS865に進める。
ステップS845において、CPU352は、抽出した文字列の文字数の、ステップS735で特定した発話内容候補410の文字数に対する割合Pが、どの程度であるかを判断する。より具体的には、CPU352は、割合Pが第1の割合Pth1(たとえば、20%)以下であるか、第1の割合よりも大きい第2の割合Pth2(たとえば、200%)以上であるか、第1の割合Pth1より大きく第2の割合Pth2未満であるかを判断する。他の局面において、CPU352は、抽出した文字列の文字数に応じて、当該所定値を変動させてもよい。一例として、抽出した文字列の文字数が2文字である場合、第2の割合Pth2を300%と設定し、抽出した文字列の文字数が5文字以上の場合に、第2の割合Pth2を200%と設定し得る。
CPU352は、割合Pが第1の割合Pth1以下である場合(ステップS845において、P≦Pth1)、処理をステップS850に進める。ステップS850において、CPU352は、抽出した文字列に類似する発話内容候補410が無かった原因を、ユーザの情報処理端末170に対する発話速度が遅いためであると推定する。その理由は、情報処理端末170によって実行される音声区間検出の特性上、ユーザの情報処理端末170に対する発話速度が遅いと、情報処理端末170は、ユーザの発話内容を単語単位ではなく、単語を構成する文字または文字列で認識しやすくなるためである。一例として、ユーザが情報処理端末170に対して「おーはーよーう」とゆっくり発話した場合、情報処理端末170は「おは」「よう」に対応する音声情報を個別に検出して、サーバ180に送信し得る。ステップS830において、CPU352は、抽出した文字列を表す抽出結果(たとえば、『「よう」って言ったかな?』)、および抽出した文字列に類似する発話内容候補410が無かった原因(たとえば、「話す速度がゆっくりかも」)を含む発話情報を生成する。
CPU352は、割合Pが第2の割合Pth2以上である場合(ステップS845においてPth2≦P)、処理をステップS855に進める。ステップS855において、CPU352は、抽出した文字列に類似する発話内容候補410が無かった原因を、音声情報がマイク330に向かって意図的に発せられた音声ではないと判断する。一例として、マイク330がテレビのスピーカが出力する音声を取得する場合などが考えられる。ステップS860において、CPU352は、発話情報を生成することなく、一連の処理を終了する。
CPU352は、割合Pが第1の割合Pth1より大きく第2の割合Pth2未満であると判断した場合(ステップS845において、Pth1<P<Pth2)、処理をステップS825に進める。ステップS825において、CPU352は、抽出した文字列を表す抽出結果を含む発話情報を生成する。
ステップS865において、CPU352は、音量Vが、第1の音量(振幅)Vth1以下であるか、第2の音量Vth2以上であるか、第1の音量Vth1より大きく第2の音量Vth2未満の範囲であるかを判断する。
CPU352は、音量Vが第1の音量Vth1以下であると判断した場合(ステップS865においてV≦Vth1)、処理をステップS815に進める。CPU352は、音量Vが第2の音量以上であると判断した場合(ステップS865においてV≧Vth2)、処理をステップS820に進める。
CPU352は、音量Vが第1の音量Vth1より大きく第2の音量Vth2未満であると判断した場合(ステップS865において、Vth1<V<Vth2)、処理をステップS850に進める。
上記によれば、ユーザは、自身の意図する発話内容が制御システム200に伝わっていないことを理解するとともに、その原因を知ることができる。ユーザは、当該原因に応じて情報処理端末170に対して発話する。たとえば、声が小さいことが原因である場合、ユーザは、情報処理端末170に対してより大きな声で発話する。たとえば、騒音が原因である場合、ユーザは、より静かな環境で情報処理端末170に対して発話する。その結果、サーバ180は、ユーザが情報処理端末170に対して発話する内容を正確に認識できるようになる。これにより、ユーザは、情報処理端末170とのより円滑な対話を楽しむことができる。
なお、上記の例において、サーバ180は、音声情報から文字列を抽出できなかった原因、または音声情報から抽出した文字列に類似する発話内容候補が無かった原因をユーザにフィードバックする構成であるが、フィードバックする内容はこれに限られない。他の局面において、サーバ180は、推定した原因への対策をユーザにフィードバックするように発話情報を生成してもよい。たとえば、サーバ180は、上記原因が声が小さいことであると推定した場合、当該原因への対策として「もう少し大きな声で話してみて」などを含む発話情報を生成してもよい。さらに他の局面において、サーバ180は、推定した原因および当該推定した原因への対策のどちらも含む発話情報(たとえば、「上手く聞こえなかったよ。周りが少しうるさいかも。もう少し大きな声で話してみて」)を生成してもよい。
図9は、上記一連の制御を実現するための実施形態2に従うCPU312およびCPU352の機能構成を説明する機能ブロック図である。
情報処理端末170のCPU312は、主な機能構成として、音声受付モジュール910と、音声切り出しモジュール920と、音声出力モジュール930とを備える。
音声受付モジュール910は、マイク330によって音声を電気信号に変換された音声情報の入力を受け付ける。音声切り出しモジュール920は、音声受付モジュール910に入力される音声情報をモニタし、ユーザの発話区間を検出する。一例として、音声切り出しモジュール920は、音声受付モジュール910に入力される音声情報のうち、音声情報が示す波形データの振幅が予め定められたしきい値を上回る期間の音声情報を、ユーザの発話に対応する音声情報として切り出す。音声切り出しモジュール920は、切り出した音声情報を、通信インターフェイス340を介してサーバ180に送信する。
サーバ180のCPU352は、主な機能構成として、音声受付モジュール950と、文字抽出モジュール960と、類似文字列特定モジュール970と、原因推定モジュール980と、発話情報生成モジュール990とを備える。
音声受付モジュール950は、通信インターフェイス370を介して情報処理端末170から音声情報の入力を受け付ける。音声受付モジュール950は、音声情報を文字抽出モジュール960に出力する。
文字抽出モジュール960は、音声受付モジュール950から入力された音声情報と、音響モデル364とを照合して、当該音声情報から文字列を抽出する。文字抽出モジュール960は、音声情報から文字列を抽出できた場合、抽出した文字列を類似文字列特定モジュール970に出力する。一方、音声情報から文字列を抽出できなかった場合、文字抽出モジュール960は、その旨を知らせる信号を原因推定モジュール980に出力する。
類似文字列特定モジュール970は、文字抽出モジュール960が抽出した文字列と、応答テーブル362に保持される複数の発話内容候補410の各々との類似度を算出する。類似文字列特定モジュール970は、抽出した文字列との類似度が最も高い発話内容候補410を特定するとともに、当該類似度が記憶装置360に格納される所定値以上であるか否かを判断する。類似文字列特定モジュール970は、特定した発話内容候補410の類似度が所定値以上である場合、特定した発話内容候補410を発話情報生成モジュール990に出力する。類似文字列特定モジュール970は、特定した発話内容候補410の類似度が所定値未満である場合、抽出した文字列を原因推定モジュール980に出力する。
原因推定モジュール980は、文字抽出モジュール960が抽出した文字列、および音声情報が、各々に対する予め定められた条件を満たすか否か(たとえば、音声情報の振幅がしきい値以上か否か)を判断し、文字列を抽出できなかった原因、および抽出した文字列に類似する発話内容候補410が無かった原因を推定する。予め定められた条件は、記憶装置360に格納されている。原因推定モジュール980は、予め定められた条件の判断結果に応じた文字列、すなわち、上記原因を表す文字列(たとえば、「話す速度がゆっくりかも」など)を発話情報生成モジュール990に出力する。また、原因推定モジュール980は、文字抽出モジュール960から文字列を抽出できなかったことを示す信号を入力された場合、音声情報から文字列を抽出できなかったことを表す文字列(たとえば、「上手く聞こえなかったよ」)を記憶装置360から読み出して発話情報生成モジュール990に出力する。
ある局面において、記憶装置360に複数の予め定められた条件が格納される場合、原因推定モジュール980は、予め定められた順序で条件の判断を行い、何らかの原因を推定できた段階で、残りの条件の判断を中止し得る。他の局面において、記憶装置360に複数の予め定められた条件が格納される場合、原因推定モジュール980は、すべての条件の判断を行い得る。さらに他の局面において、原因推定モジュール980は、上記原因を推定できなかった場合、汎用的なアドバイス(たとえば、「言葉を切らずに話すといいかも」)の文字列を発話情報生成モジュール990に出力し得る。
発話情報生成モジュール990は、応答テーブル362にアクセスして、類似文字列特定モジュール970から入力される発話内容候補410に対応する応答内容420を取得する。
発話情報生成モジュール990は、応答内容420(の文字列)または原因推定モジュール980から入力される文字列を、音声合成した発話情報を生成して情報処理端末170に送信する。
図9に示される例において、各種機能は、情報処理端末170およびサーバ180それぞれ1つのCPUによって実現されるものとしてあるが、これに限られない。これらの各種機能は、少なくとも1つのプロセッサのような半導体集積回路、少なくとも1つの特定用途向け集積回路ASIC(Application Specific Integrated Circuit)、少なくとも1つのDSP(Digital Signal Processor)、少なくとも1つのFPGA(Field Programmable Gate Array)、および/またはその他の演算機能を有する回路を含む制御回路によって実装され得る。
これらの回路は、有形の読取可能な少なくとも1つの媒体から、1以上の命令を読み出すことにより図9に示される各種機能を実現しうる。
このような媒体は、磁気媒体(たとえば、ハードディスク)、光学媒体(たとえば、コンパクトディスク(CD)、DVD)、揮発性メモリ、不揮発性メモリの任意のタイプのメモリなどの形態をとるが、これらの形態に限定されるものではない。
揮発性メモリはDRAM(Dynamic Random Access Memory)およびSRAM(Static Random Access Memory)を含み得る。不揮発性メモリは、ROM、NVRAMを含み得る。半導体メモリは、少なくとも1つのプロセッサとともに半導体回路の1部分であり得る。
[実施形態3]
上記の実施形態では、情報処理端末170は、サーバ180に音声情報を送信して、サーバ180から受信した発話情報をスピーカ320に出力する構成であった。しかし、ネットワーク環境がない場合など、情報処理端末170はサーバ180と通信できない場合もあり得る。そこで、実施形態3に従う情報処理端末170は、サーバ180ではなく自身で発話情報を生成する。
上記の実施形態では、情報処理端末170は、サーバ180に音声情報を送信して、サーバ180から受信した発話情報をスピーカ320に出力する構成であった。しかし、ネットワーク環境がない場合など、情報処理端末170はサーバ180と通信できない場合もあり得る。そこで、実施形態3に従う情報処理端末170は、サーバ180ではなく自身で発話情報を生成する。
図10は、実施形態3に従う情報処理端末1000の構成例について説明する図である。図10を参照して、情報処理端末1000は、記憶装置345を有する点、および通信インターフェイス340を有さない点において、上記実施形態の情報処理端末170と相違する。記憶装置345には、上記説明した応答テーブル362と、音響モデル364が格納される。
また、ROM314には、上記説明したサーバ180によって実行される一連の制御を実現するための各種制御プログラムが格納され得る。ある局面において、ROM314には、図8および図9で説明したCPU352の機能を実現するための各種制御プログラムが格納され得る。
当該構成によれば、実施形態3に従う情報処理端末1000は、サーバ180によらず、オフライン環境下でもユーザと対話を行なうことができる。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
170,1000 情報処理端末、180 サーバ、190,362 応答テーブル、200 制御システム、310,350 制御部、314,356 ROM、316,354 RAM、320 スピーカ、330 マイク、340,370 通信インターフェイス、345,360 記憶装置、364 音響モデル、410 発話内容候補、420 応答内容、910,950 音声受付モジュール、920 音声切り出しモジュール、930 音声出力モジュール、960 文字抽出モジュール、970 類似文字列特定モジュール、980 原因推定モジュール、990 発話情報生成モジュール。
Claims (19)
- サーバ装置であって、
一以上の情報処理端末と通信するための通信インターフェイスと、
前記通信インターフェイスを介して前記情報処理端末から受信した音声情報に基づいて、前記情報処理端末が出力するための発話情報を生成する制御部と、
前記音声情報の発話内容を特定するための複数の発話文字列を保持するための記憶装置とを備え、
前記制御部は、
前記音声情報から文字列を抽出し、
少なくとも一の前記発話文字列について前記抽出された文字列との類似度を算出し、
前記類似度が所定値未満である場合、前記抽出した文字列を含む発話情報を生成して、当該発話情報を前記情報処理端末に送信する、サーバ装置。 - 前記記憶装置は、前記複数の発話文字列と、当該複数の発話文字列に関連付けられる応答文字列とを保持するように構成され、
前記制御部は、前記類似度が前記所定値以上である場合、前記一の発話文字列に関連付けられる応答文字列に基づく発話情報を生成して、当該発話情報を前記情報処理端末に送信するように構成される、請求項1に記載のサーバ装置。 - 前記制御部は、前記音声情報から文字列を抽出できなかった場合、抽出できなかったことを示す発話情報を生成して、当該発話情報を前記情報処理端末に送信する、請求項1または2に記載のサーバ装置。
- 前記制御部は、
前記一の発話文字列の類似度が前記所定値未満である場合、前記抽出された文字列および前記音声情報のうち少なくとも一方が予め定められた条件を満たすか否かに基づいて前記一の発話文字列の類似度が前記所定値未満である原因を推定し、
前記推定した原因、および当該原因への対策のうち少なくとも一方を含む発話情報を生成して、当該発話情報を前記情報処理端末に送信する、請求項1〜3のいずれか1項に記載のサーバ装置。 - 前記制御部は、前記一の発話文字列の類似度が所定値未満である場合、前記抽出された文字列の文字数の、前記一の発話文字列の文字数に対する割合が所定値以下であるときに、前記原因が、前記情報処理端末に発せられた発話速度が遅いことであると推定する、請求項4に記載のサーバ装置。
- 前記制御部は、前記抽出された文字列の文字数が予め定められた文字数以下である場合に、前記原因が、前記情報処理端末に発せられた発話速度が遅いことであると推定する、請求項4または5に記載のサーバ装置。
- 前記制御部は、
前記音声情報から文字列を抽出できなかった場合、前記音声情報が予め定められた条件を満たすか否かに基づいて前記文字列を抽出できなかった原因を推定し、
前記推定した原因、および当該原因への対策のうち少なくとも一方を含む発話情報を生成して、当該発話情報を前記情報処理端末に送信する、請求項3に記載のサーバ装置。 - 前記音声情報は、前記情報処理端末に発せられた音声の音量に応じた波形データを含み、
前記制御部は、
前記波形データの振幅が第1のしきい値以下である場合に、前記原因が、前記情報処理端末に発せられた音声の音量が小さいことであると推定し、
前記波形データの振幅が前記第1のしきい値より大きい第2のしきい値以上である場合に、前記原因が、騒音であると推定する、請求項4〜7のいずれか1項に記載のサーバ装置。 - 前記制御部は、前記情報処理端末から受信した音声情報を含む発話情報を生成して、当該発話情報を前記情報処理端末に送信する、請求項1〜8のいずれか1項に記載のサーバ装置。
- サーバ装置と、音声出力装置および音声入力装置を含む一以上の情報処理端末とを備える制御システムであって、
前記サーバ装置は、
前記情報処理端末と通信するための通信インターフェイスと、
前記通信インターフェイスを介して前記情報処理端末から受信した音声情報に基づいて、前記音声出力装置が出力する発話情報を生成する制御部と、
前記音声情報の発話内容を特定するための複数の発話文字列を保持するための記憶装置とを含み、
前記制御部は、
前記音声情報から文字列を抽出し、
少なくとも一の前記発話文字列について前記抽出された文字列との類似度を算出し、
前記類似度が所定値未満である場合、前記抽出した文字列を含む発話情報を生成して、当該発話情報を前記情報処理端末に送信する、制御システム。 - 前記音声情報は、前記音声入力装置に発せられた音声の音量に応じた波形データを含み、
前記情報処理端末は、
前記音声入力装置から入力される音声情報から、前記波形データが予め定められた条件を満たす区間の音声情報を切り出し、
前記切り出した音声情報を前記サーバ装置に送信する、請求項10に記載の制御システム。 - サーバ装置が、一以上の情報処理端末と通信して、前記情報処理端末が出力する発話情報を生成するため方法であって、
前記サーバ装置は、前記情報処理端末に入力される音声情報の発話内容を特定するための複数の発話文字列を保持するための記憶装置を含み、
前記方法は、
前記情報処理端末から前記音声情報を受信するステップと、
前記受信した音声情報から文字列を抽出するステップと、
少なくとも一の前記発話文字列について前記抽出された文字列との類似度を算出するステップと、
前記類似度が所定値以上であるか否かを判断するステップと、
前記類似度が前記所定値未満である場合、前記抽出した文字列を含む発話情報を生成して、当該発話情報を前記情報処理端末に送信するステップとを備える、方法。 - 音声入力装置と、
音声出力装置と、
前記音声入力装置から入力される音声情報に基づいて、前記音声出力装置が出力する発話情報を生成するための制御部と、
前記音声情報の発話内容を特定するための複数の発話文字列と、を保持するための記憶装置とを備え、
前記制御部は、
前記音声情報から文字列を抽出し、
少なくとも一の前記発話文字列について前記抽出された文字列との類似度を算出し、
前記類似度が所定値未満である場合、前記抽出した文字列を含む発話情報を生成して、当該発話情報を前記音声出力装置に出力するように構成される、情報処理端末。 - 前記記憶装置は、前記複数の発話文字列と、当該複数の発話文字列に関連付けられる応答文字列とを保持するように構成され、
前記制御部は、前記類似度が前記所定値以上である場合、前記一の発話文字列に関連付けられる応答文字列に基づく発話情報を生成して、当該発話情報を前記情報処理端末に送信するように構成される、請求項13に記載の情報処理端末。 - 音声入力装置および音声出力装置を含む情報処理端末のコンピュータによって実行される、前記音声出力装置が出力する発話情報を生成するためのプログラムであって、
前記情報処理端末は、前記音声入力装置から入力される音声情報の発話内容を特定するための複数の発話文字列を保持するための記憶装置とを含み、
前記プログラムは、前記コンピュータに、
前記音声入力装置から前記音声情報を取得するステップと、
前記取得した音声情報から文字列を抽出するステップと、
少なくとも一の前記発話文字列の各々について前記抽出された文字列との類似度を算出するステップと、
前記類似度が所定値以上であるか否かを判断するステップと、
前記類似度が前記所定値未満である場合、前記抽出した文字列を含む発話情報を生成して、当該発話情報を前記音声出力装置に出力するステップとを備える、制御プログラム。 - サーバ装置であって、
一以上の情報処理端末と通信するための通信インターフェイスと、
前記通信インターフェイスを介して前記情報処理端末から受信した音声情報に基づいて、前記情報処理端末が出力するための発話情報を生成する制御部と、
前記音声情報の発話内容を特定するための複数の発話内容候補を保持するための記憶装置とを備え、
前記制御部は、
前記音声情報に関連する発話内容候補が存在しない場合に、受信した前記音声情報を発話情報として生成し、前記情報処理端末に送信する、サーバ装置。 - サーバ装置であって、
一以上の情報処理端末と通信するための通信インターフェイスと、
前記通信インターフェイスを介して前記情報処理端末から受信した音声情報に基づいて、前記情報処理端末が出力するための発話情報を生成する制御部と、
前記音声情報に関連付けられる応答内容を保持するための記憶装置とを備え、
前記制御部は、
前記音声情報に関連する応答内容が存在しない場合に、受信した前記音声情報を発話情報として生成し、前記情報処理端末に送信する、サーバ装置。 - 音声入力装置と、
音声出力装置と、
前記音声入力装置から入力される音声情報に基づいて、前記音声出力装置が出力する発話情報を生成するための制御部と、
前記音声情報の発話内容を特定するための複数の発話内容候補を保持するための記憶装置とを備え、
前記制御部は、前記音声情報に関連する発話内容候補が存在しない場合に、前記音声情報を発話情報として生成して、当該発話情報を前記音声出力装置に出力するように構成される、情報処理端末。 - 音声入力装置と、
音声出力装置と、
前記音声入力装置から入力される音声情報に基づいて、前記音声出力装置が出力する発話情報を生成するための制御部と、
前記音声情報に関連付けられる応答内容を保持するための記憶装置とを備え、
前記制御部は、前記音声情報に関連する応答内容が存在しない場合に、前記音声情報を発話情報として生成して、当該発話情報を前記音声出力装置に出力するように構成される、情報処理端末。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016154318A JP2018022086A (ja) | 2016-08-05 | 2016-08-05 | サーバ装置、制御システム、方法、情報処理端末、および制御プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016154318A JP2018022086A (ja) | 2016-08-05 | 2016-08-05 | サーバ装置、制御システム、方法、情報処理端末、および制御プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018022086A true JP2018022086A (ja) | 2018-02-08 |
Family
ID=61165563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016154318A Pending JP2018022086A (ja) | 2016-08-05 | 2016-08-05 | サーバ装置、制御システム、方法、情報処理端末、および制御プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018022086A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019184679A (ja) * | 2018-04-03 | 2019-10-24 | シャープ株式会社 | ネットワークシステム、サーバ、および情報処理方法 |
CN113450790A (zh) * | 2020-03-24 | 2021-09-28 | 夏普株式会社 | 电子设备的控制装置、记录介质、控制方法、电子设备 |
-
2016
- 2016-08-05 JP JP2016154318A patent/JP2018022086A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019184679A (ja) * | 2018-04-03 | 2019-10-24 | シャープ株式会社 | ネットワークシステム、サーバ、および情報処理方法 |
CN113450790A (zh) * | 2020-03-24 | 2021-09-28 | 夏普株式会社 | 电子设备的控制装置、记录介质、控制方法、电子设备 |
JP2021152589A (ja) * | 2020-03-24 | 2021-09-30 | シャープ株式会社 | 電子機器の制御装置、制御プログラム、制御方法、電子機器 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11423904B2 (en) | Method and system of audio false keyphrase rejection using speaker recognition | |
US11062709B2 (en) | Providing pre-computed hotword models | |
US9293134B1 (en) | Source-specific speech interactions | |
JP4837917B2 (ja) | 音声に基づく装置制御 | |
US9940926B2 (en) | Rapid speech recognition adaptation using acoustic input | |
KR102628211B1 (ko) | 전자 장치 및 그 제어 방법 | |
US20150279365A1 (en) | Identification of communication-related voice commands | |
JP2019090942A (ja) | 情報処理装置、情報処理システム、情報処理方法、および情報処理プログラム | |
WO2010128560A1 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
JP2014191029A (ja) | 音声認識システムおよび音声認識システムの制御方法 | |
JP5431282B2 (ja) | 音声対話装置、方法、プログラム | |
US8793128B2 (en) | Speech signal processing system, speech signal processing method and speech signal processing method program using noise environment and volume of an input speech signal at a time point | |
CN116420188A (zh) | 从呼叫和音频消息中对其他说话者进行语音过滤 | |
JP6559417B2 (ja) | 情報処理装置、情報処理方法、対話システム、および制御プログラム | |
JP2018022086A (ja) | サーバ装置、制御システム、方法、情報処理端末、および制御プログラム | |
JP2018132624A (ja) | 音声対話装置 | |
JP2019015950A (ja) | 音声認識方法、プログラム、音声認識装置、及びロボット | |
KR20230118165A (ko) | 핫워드 속성에 기초한 자동화된 스피치 인식 파라미터적응시키기 | |
KR20210098250A (ko) | 전자 장치 및 이의 제어 방법 | |
JP3846500B2 (ja) | 音声認識対話装置および音声認識対話処理方法 | |
JPWO2019030810A1 (ja) | 音声認識装置および音声認識方法 | |
JP2018197779A (ja) | 説明支援プログラム、説明支援方法及び情報処理端末 | |
CN117795597A (zh) | 用于自动语音辨识的联合声学回声消除、语音增强和话音分离 | |
KR20220044530A (ko) | 음향 장치 및 그 동작 방법 | |
JP2014021425A (ja) | 音声認識システム及び集積回路装置 |