JP2018136500A - 音声応答システム - Google Patents
音声応答システム Download PDFInfo
- Publication number
- JP2018136500A JP2018136500A JP2017032304A JP2017032304A JP2018136500A JP 2018136500 A JP2018136500 A JP 2018136500A JP 2017032304 A JP2017032304 A JP 2017032304A JP 2017032304 A JP2017032304 A JP 2017032304A JP 2018136500 A JP2018136500 A JP 2018136500A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- unit
- user
- input
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Navigation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
これに対し本発明は、音声出力パラメータの値をユーザーに応じて変更する技術を提供する。
図1は、一実施形態に係る音声応答システム1の機能構成を例示する図である。音声応答システム1は、ユーザーの音声入力に対して音声応答を出力するシステム、すなわち会話をするシステムである。この例で、音声応答システム1は、自動車Vのナビゲーションシステムに適用される。音声応答システム1は、車載器10及びサーバ20を有する。音声応答システム1のうちユーザーとのインターフェース機能は車載器10により提供され、音声応答システム1の機能の一部はサーバ20に実装される。
図4は、音声応答システム1の動作の概要を示すフローチャートである。ステップS1において、音声応答システム1は、事前登録を行う。事前登録は、音声応答システム1がユーザーの特徴を掴むための情報を登録する処理である。ユーザーが発する音声の特徴を記録したデータベースを反応基準データベースという。ステップS2において、音声応答システム1は、ユーザーとの間で音声応答(音声会話)を行う。以下、これらの処理の詳細を説明する。以下において制御部14等の機能要素を処理の主体として説明するが、これらの説明は、クライアントプログラム等のソフトウェアを実行しているプロセッサー101等のハードウェア要素が、他のハードウェア要素と協働して処理を実行することを意味する。
図5は、事前登録の詳細を例示するシーケンスチャートである。図5のフローは、例えば、所定のイベントを契機として開始される。事前登録を開始する契機となるイベントは、例えば、車載器10の起動(自動車Vのエンジン始動)、又はユーザーから事前登録を開始する明示的な指示である。
2−2−1.シーケンス
図8は、音声応答の詳細を例示するシーケンスチャートである。図5のフローは、例えば、所定のイベントを契機として開始される。音声応答を開始する契機となるイベントは、例えば、あらかじめ設定された目的地に近づいた、又はあらかじめ設定されたスケジュールに近づいたというイベントである。
以下、音声応答システム1とユーザーとの会話例を説明する。ここでは、音声出力パラメータとして音量が変更(調整)される例を説明する。
(例1)
音声応答システム1:(音量:20)「今日の予定を案内しますか?」
ユーザー:(通常の声)「お願いします」
音声応答システム1:(音量:20)「今日の予定は・・・」
この例において、音声応答システム1からの「今日の予定を案内しますか?」という問いかけに対し、ユーザーは「お願いします」と次の処理を促す指示をしている。したがって音声応答システム1は、ユーザーに今日の予定を案内する。
音声応答システム1:(音量:20)「今日の予定を案内しますか?」
ユーザーA:(通常の声)「・・・もう一度言って」
音声応答システム1:(音量:25)「今日の予定を案内しますか?」
(例3)
音声応答システム1:(音量:20)「今日の予定を案内しますか?」
ユーザーA:(通常の声)「・・・もっと大きく」
音声応答システム1:(音量:25)「今日の予定を案内しますか?」
これらの例において、音声応答システム1からの「今日の予定を案内しますか?」という問いかけに対し、ユーザーAは質問を繰り返すよう指示をしている。このとき、話し方(音量、速さ、高さ、回答までの時間、及び抑揚)は通常状態と変わりなく、また、音声認識の結果得られた文字列も頻出コマンドとして登録されている。したがって、音声応答システム1は、最初の質問の際の音量(20)に対し、変化の基準値(5)を加算した音量(25)を用いて問いかけを繰り返す。
音声応答システム1:(音量:20)「今日の予定を案内しますか?」
ユーザーA:(大きな声)「き・こ・え・な・い・よ!!」
音声応答システム1:(音量:30)「今日の予定を案内しますか?」
この例において、音声応答システム1からの「今日の予定を案内しますか?」という問いかけに対し、ユーザーAは「き・こ・え・な・い・よ!!」と、質問を繰り返すよう指示をしている。このときの話し方は、通常よりも音量が大きく、速さがゆっくりであり、回答までの時間が短く、抑揚が強い。また、音声認識の結果得られた文字列は頻出コマンドとして登録されている情報とは異なる。したがって、音声応答システム1は、最初の質問の際の音量(20)に対し、変化の基準値に係数kを乗算した音量(30)を用いて問いかけを繰り返す。この例では質問の繰り返しが要求されているので係数kはk>1である。
音声応答システム1:(音量:20)「今日の予定を案内しますか?」
ユーザーB:(大きな声)「も・う・い・ち・ど!!」
音声応答システム1:(音量:25)「今日の予定を案内しますか?」
(例6)
音声応答システム1:(音量:20)「今日の予定を案内しますか?」
ユーザーB:(大きな声)「き・き・と・れ・な・い!!」
音声応答システム1:(音量:25)「今日の予定を案内しますか?」
これらの例において、音声応答システム1からの「今日の予定を案内しますか?」という問いかけに対し、ユーザーBは質問を繰り返すよう指示をしている。ユーザーBは普段から大きな声かつ強い抑揚を用いて話す癖があり、これらの回答における話し方はあくまで通常状態の範囲内である。また、音声認識の結果得られた文字列は頻出コマンドとして登録されている情報である。したがって、音声応答システム1は、最初の質問の際の音量(20)に対し、変化の基準値(5)を加算した音量(25)を用いて問いかけを繰り返す。
音声応答システム1:(音量:20)「今日の予定を案内しますか?」
ユーザーB:(大きな声)「も・っ・と・お・お・き・く!!」
音声応答システム1:(音量:25)「今日の予定を案内しますか?」
これらの例において、音声応答システム1からの「今日の予定を案内しますか?」という問いかけに対し、ユーザーBは質問を繰り返すよう指示をしている。ユーザーBは普段から大きな声かつ強い抑揚を用いて話す癖があり、これらの回答における話し方はあくまで通常状態の範囲内である。音声認識の結果得られた文字列は頻出コマンドとして登録されているものではないが、特徴量の差異の得点は、しきい値以下である。したがって、音声応答システム1は、最初の質問の際の音量(20)に対し、変化の基準値(5)を加算した音量(25)を用いて問いかけを繰り返す。
本発明は上述の実施形態に限定されず、種々の変形実施が可能である。以下、変形例をいくつか説明する。以下の変形例のうち2つ以上の例が組み合わせて用いられてもよい。
変更部24は、ユーザー毎の反応基準によらずに音声出力パラメータの値を変更してもよい。例えば、変更部24は、全ユーザーの特徴量の統計量との比較において音声出力パラメータの値を決める。具体的には、変更部24は、入力音声の音量が平均値より大きい場合、出力音声の音量を基準値よりも大きい値分、変化させる。この例によれば、反応基準をユーザー毎に保持する必要が無く、サーバ20の負荷を低減できる。
反応基準と回答音声との特徴量の差異を得点化する方法は実施形態で説明した例に限定されない。特徴量を得点化する際には、項目毎に重みを異ならせてもよい。例えば、分析制御部231は、「音量」、「速さ」、「反応までの時間」、「抑揚」、及び「頻出コマンド」のうち「音量」及び「抑揚」に対し他の項目より大きい重み係数を乗算し、得点を計算してもよい。あるいは、分析制御部231は、他の項目より大きい重みを与える項目を、ユーザー毎に決めてもよい。具体的には、分析制御部231は、ユーザーAに対しては「音量」に対し他の項目より大きい重み係数を乗算し、ユーザーBに対しては「速さ」及び「抑揚」に対し他の項目より大きい重み係数を乗算してもよい。この例によれば、通常状態の判断の際に重きを置く要素をユーザー毎に異ならせることができる。
図10は、変形例3に係る音声分析部23の構成を例示する図である。この例において音声分析部23は、受け付け部236及び更新部237を有する。受け付け部236は、音声出力パラメータの変更に対するユーザーからのフィードバックを受け付ける。ユーザーのフィードバックとは、音声出力パラメータの変化の有無に関し、そのユーザーの感覚(希望)との相違を示す情報をいう。例えば、上記の例4において、通常より大きな音量(30)を用いて問いかけを繰り返した後、音声応答システム1は、この音量の変更が必要であったか否かをユーザーに問いかける。この問いかけに対し、ユーザーは、「適切だった」又は「不要だった」等、自身の感覚との相違を示す回答を音声又は他の方法を用いて入力する。更新部237は、このフィードバックに応じて、反応基準を更新する。具体的には、更新部237は、「不要だった」というフィードバックがあった場合、通常状態の範囲が広がるよう、反応基準を更新する。例えば、反応基準においてそのユーザーの「音量」を「大」に更新する。
ユーザーの音声が質問の繰り返しを要求するコマンドを含む場合、変更部24は、反応基準との対比の結果を用いて、何回前の質問に戻るか判断してもよい。例えば、通常状態と判断された場合は前回と同じ質問を繰り返すところ、通常状態とは異なると判断された場合は、1つ前の質問に戻ってもよい。この場合において、変更部24は、質問を1つ前に戻すだけでなく、所定の音声出力パラメータの値を変更(例えば、速さを遅く)してもよい。この例によれば、反応基準との対比に応じて何回前の質問まで戻るか調整できる。
図11は、変形例5に係る音声分析部23の構成を例示する図である。この例において音声分析部23は、感情推定部238を有する。感情推定部238は、入力音声からユーザーの感情を推定する。変更部24は、感情推定部238が推定した感情に応じて、基準値に乗算する係数kの値を変更する。例えば、ユーザーが怒っていると判断された場合、変更部24は係数kの値を増加させる。この例によれば、ユーザーが特定の感情を有しているときにはその感情に応じて音声出力パラメータの値を変更できる。
音声出力部12は、質問の対象となるユーザーの位置に応じて決定された音像位置に音声を定位させてもよい。例えば、音声出力部12は、後部右座席に座っているユーザーからの質問に対する回答の音声を、後部右座席に定位させてもよい。この場合、音声出力部12は、定位を調整するための音声信号を処理する処理回路及び複数のスピーカーを含む。音像定位を制御する技術としては公知の技術が用いられる。あるいは、各座席に対応する複数のスピーカーを有する場合、音声出力部12は、質問の対象となるユーザーの位置に応じて決定されたスピーカーのみから音声を出力してもよい。例えば、音声出力部12は、後部右座席に座っているユーザーからの質問に対する回答の音声を、後部右座席のスピーカーのみから出力してもよい。この例によれば、質問の対象となるユーザーに対してより効果的に音声応答システム1からの音声を出力できる。
変更される音声出力パラメータは音量に限定されない。例えば、変更される音声出力パラメータは、音量、話す速さ、声の高さ、抑揚、及び男声又は女声の別のうち少なくとも1つであってもよい。この場合において、これら複数の音声出力パラメータのうち変更の対象となるパラメータは、ユーザー毎に設定されてもよい。例えば、ユーザーAに対しては音量が変更され、ユーザーBに対しては速さ及び抑揚が変更される、というように設定されてもよい。この例によれば、よりユーザーに適応した音声を出力できる。
図12は、変形例6に係る音声分析部23の構成を例示する図である。この例において音声分析部23は、位置推定部239を有する。位置推定部239は、回答を発したユーザーの位置(又は方向)を推定する。実施形態においては事前登録を用いて座席の位置を登録する例を説明したが、事前登録において座席の位置は登録されなくてもよい。この場合において、位置推定部239は入力音声からユーザーの位置を推定する。具体的には、この場合、音声入力部13は複数のマイクロフォンを有する。音声入力部13は、これら複数のマイクロフォンを介して入力された音声をそれぞれデータ化し、サーバ20に送信する。位置推定部239は、これら複数の音声データを解析し、音声を発したユーザーの位置を推定する。一例として、音声入力部13は、各座席に1個のマイクロフォンを有し、各座席に対応する音声データを出力する。位置推定部239は、複数の音声データのうち、信号レベルが最も高い音声データに対応する座席を、音声を発したユーザーの位置として推定する。この例によれば、ユーザーに位置に応じた音声を出力できる。
音声応答システム1のハードウェア構成は実施形態で説明した例に限定されない。実施形態において車載器10に実装されていた機能の一部がサーバ20に実装されてもよい。また、実施形態においてサーバ20に実装されていた機能の一部又は全部が車載器10に実装されてもよい。一例としては、車載器10に全ての機能が集約されてもよい。別の例において、音声応答システム1は、車載器10及びサーバ20に加え、さらに別の装置を有してもよい。この場合、実施形態において車載器10及びサーバ20に実装されていた機能の一部がこの装置に実装されてもよい。一例としては、音声出力部12及び音声入力部13がこの装置(例えばスマートフォン)に実装されてもよい。この場合、ユーザーが各自のスマートフォンを使用することで、ユーザー毎に音声出力部12及び音声入力部13を設けることができる。あるいは、話者の方向を自動的に判断し、その話者の方向に音声を出力するスピーカーが、音声出力部12に用いられてもよい。
Claims (10)
- 与えられた音声出力パラメータに従って生成された音声を出力する出力部から出力された当該音声に対する応答として入力部において受け付けられた入力音声の履歴を記憶する記憶部と、
前記入力音声の履歴から抽出された前記ユーザー毎の特徴量に関する情報に応じて、前記音声出力パラメータの値を変更する変更部と
を有する情報処理装置。 - 前記記憶部は、前記音声出力パラメータを変更する条件が前記ユーザー毎に記録された反応基準を記憶し、
前記変更部は、前記ユーザー毎の特徴量と前記反応基準との比較結果に応じて前記音声出力パラメータの値を変更する
ことを特徴とする請求項1に記載の情報処理装置。 - 前記反応基準は、前記入力音声における複数の特徴量に関する条件を含み、
前記変更部は、前記複数の特徴量についての前記反応基準と前記入力音声との比較結果に応じて、前記音声出力パラメータの値を変更する
ことを特徴とする請求項2に記載の情報処理装置。 - 前記複数の特徴量のうち前記ユーザー毎に設定された特徴量に対して重みが与えられる
ことを特徴とする請求項3に記載の情報処理装置。 - 前記音声出力パラメータの変更に対するフィードバックを受け付ける受け付け部と、
前記受け付け部により受け付けられたフィードバックに応じて前記反応基準を更新する更新部と
を有する請求項2〜4のいずれか一項に記載の情報処理装置。 - 前記出力部は、前記特徴量に応じて決められる数だけ前の質問音声を再度出力する
ことを特徴とする請求項1〜5のいずれか一項に記載の情報処理装置。 - 前記入力音声から前記ユーザーの感情を推定する感情推定部を有し、
前記変更部は、前記感情推定部により推定された感情に基づいて前記音声出力パラメータの値を変更する
ことを特徴とする請求項1〜6のいずれか一項に記載の情報処理装置。 - 前記ユーザーの位置を推定する位置推定部を有し、
前記変更部は、前記位置推定部により推定された位置に基づいて前記音声出力パラメータの値を変更する
ことを特徴とする請求項1〜7のいずれか一項に記載の情報処理装置。 - 前記音声出力パラメータは、複数種類のパラメータを含み、
前記変更部は、前記複数種類のパラメータのうち前記ユーザー毎に設定された種類のパラメータの値を変更する
ことを特徴とする請求項1〜8のいずれか一項に記載の情報処理装置。 - 与えられた音声出力パラメータに従って生成された音声を出力する出力部と、
前記音声に対する応答としてユーザーからの入力音声を受け付ける入力部と、
前記入力音声の履歴を記憶する記憶部と、
前記入力音声の履歴から抽出された前記ユーザー毎の特徴量に関する情報に応じて、前記音声出力パラメータの値を変更する変更部と
を有する音声応答システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017032304A JP6917728B2 (ja) | 2017-02-23 | 2017-02-23 | 情報処理装置及び音声応答システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017032304A JP6917728B2 (ja) | 2017-02-23 | 2017-02-23 | 情報処理装置及び音声応答システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018136500A true JP2018136500A (ja) | 2018-08-30 |
JP6917728B2 JP6917728B2 (ja) | 2021-08-11 |
Family
ID=63365478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017032304A Active JP6917728B2 (ja) | 2017-02-23 | 2017-02-23 | 情報処理装置及び音声応答システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6917728B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020060809A (ja) * | 2018-10-04 | 2020-04-16 | トヨタ自動車株式会社 | エージェント装置 |
CN113256920A (zh) * | 2021-05-17 | 2021-08-13 | 浙江工业大学 | 一种车载抢答系统及方法 |
WO2021192991A1 (ja) * | 2020-03-23 | 2021-09-30 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、およびプログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271194A (ja) * | 2002-03-14 | 2003-09-25 | Canon Inc | 音声対話装置及びその制御方法 |
JP2004090109A (ja) * | 2002-08-29 | 2004-03-25 | Sony Corp | ロボット装置およびロボット装置の対話方法 |
JP2008026463A (ja) * | 2006-07-19 | 2008-02-07 | Denso Corp | 音声対話装置 |
JP2008299135A (ja) * | 2007-05-31 | 2008-12-11 | Nec Corp | 音声合成装置、音声合成方法、および音声合成用プログラム |
-
2017
- 2017-02-23 JP JP2017032304A patent/JP6917728B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271194A (ja) * | 2002-03-14 | 2003-09-25 | Canon Inc | 音声対話装置及びその制御方法 |
JP2004090109A (ja) * | 2002-08-29 | 2004-03-25 | Sony Corp | ロボット装置およびロボット装置の対話方法 |
JP2008026463A (ja) * | 2006-07-19 | 2008-02-07 | Denso Corp | 音声対話装置 |
JP2008299135A (ja) * | 2007-05-31 | 2008-12-11 | Nec Corp | 音声合成装置、音声合成方法、および音声合成用プログラム |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020060809A (ja) * | 2018-10-04 | 2020-04-16 | トヨタ自動車株式会社 | エージェント装置 |
JP7028130B2 (ja) | 2018-10-04 | 2022-03-02 | トヨタ自動車株式会社 | エージェント装置 |
WO2021192991A1 (ja) * | 2020-03-23 | 2021-09-30 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、およびプログラム |
CN113256920A (zh) * | 2021-05-17 | 2021-08-13 | 浙江工业大学 | 一种车载抢答系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
JP6917728B2 (ja) | 2021-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107895578B (zh) | 语音交互方法和装置 | |
JP6317111B2 (ja) | ハイブリッド型クライアントサーバ音声認識 | |
JP6917728B2 (ja) | 情報処理装置及び音声応答システム | |
KR101664080B1 (ko) | 음성 다이얼링 시스템 및 방법 | |
KR20170030387A (ko) | 사용자 기반 언어 모델 생성 장치, 방법 및 음성 인식 장치 | |
US10535337B2 (en) | Method for correcting false recognition contained in recognition result of speech of user | |
KR20190051600A (ko) | 차량의 기능 추천 장치 및 방법 | |
EP3792918B1 (en) | Digital automatic gain control method and apparatus | |
CN111199730B (zh) | 语音识别方法、装置、终端及存储介质 | |
US20200320993A1 (en) | Dialogue processing apparatus, a vehicle having the same, and a dialogue processing method | |
KR102335048B1 (ko) | 음성 인식 서비스를 제공하는 사용자 단말, 방법 및 서버 | |
KR20180089242A (ko) | 챗봇에서의 출력 유형에 따라 대화 내용을 생성하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체 | |
JP5376072B1 (ja) | 車載情報システムおよび音声認識適応方法 | |
JP2018005122A (ja) | 検出装置、検出方法及び検出プログラム | |
KR20210066651A (ko) | 전자 장치 및 이의 제어 방법 | |
CN111627453A (zh) | 公安语音信息管理方法、装置、设备及计算机存储介质 | |
KR102485339B1 (ko) | 차량의 음성 명령 처리 장치 및 방법 | |
CN110570843A (zh) | 一种用户语音识别方法和装置 | |
KR102370437B1 (ko) | 버추얼 상담 시스템 및 이를 이용한 상담방법 | |
CN112863499B (zh) | 语音识别方法及装置、存储介质 | |
KR102141150B1 (ko) | 화자종속 언어모델을 이용한 화자인식 장치 및 화자인식 방법 | |
US20210044950A1 (en) | Open channel communication system | |
KR102219189B1 (ko) | 버추얼 상담 시스템 및 이를 이용한 상담방법 | |
WO2019235100A1 (ja) | 対話装置 | |
KR20210115645A (ko) | 복수의 언어에 대한 음성 인식을 수행하는 음성 처리 서버, 방법 및 컴퓨터 프로그램 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191002 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200623 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200630 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200831 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210105 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210629 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210720 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6917728 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |