JP2018136500A

JP2018136500A - 音声応答システム

Info

Publication number: JP2018136500A
Application number: JP2017032304A
Authority: JP
Inventors: 和正新田; Kazumasa Nitta; 治朗龍野; Jiro Tatsuno; 松井　淳一; Junichi Matsui; 淳一松井; 翔平佐藤; Shohei Sato; 久人杉山; Hisato Sugiyama; 英利江原; Hidetoshi Ebara; 由紀子中村; Yukiko Nakamura
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2017-02-23
Filing date: 2017-02-23
Publication date: 2018-08-30
Anticipated expiration: 2037-02-23
Also published as: JP6917728B2

Abstract

【課題】音声出力パラメータの値をユーザーに応じて変更する。【解決手段】音声応答システム１は、与えられた音声出力パラメータに従って生成された音声を出力する音声出力部１２と、音声に対する応答としてユーザーからの入力音声を受け付ける音声入力部１３と、入力音声の履歴を記憶する記憶部２２と、入力音声の履歴から抽出されたユーザー毎の特徴量に関する情報に応じて、音声出力パラメータの値を変更する変更部２４とを有する。【選択図】図１

Description

本発明は、音声の自動応答に関する。

カーナビゲーション等において、ユーザーに音声を用いて案内を行う技術が知られている。特許文献１には、案内音声の出力から所定時間内に案内音声の聞き返しがあった場合、案内音声の出力音量を大きく又は出力速度を遅くした案内音声を再出力することが記載されている。特許文献２には、マイクロホンアレイを介して搭乗者の会話音が検出された場合には、会話の支障にならない所定の第１基準出力レベルまで車載音響装置の音出力の出力レベルを下げることが記載されている。

特開２００６−３８７０５号公報特開２００２−１７１５８７号公報

音声案内に対する反応はユーザーによって異なるが、特許文献１及び２の技術では、ユーザー毎に異なる反応に対して適切な応答をすることができなかった。
これに対し本発明は、音声出力パラメータの値をユーザーに応じて変更する技術を提供する。

本発明は、与えられた音声出力パラメータに従って生成された音声を出力する出力部から出力された音声に対する応答として受け付けられたユーザーからの入力音声の履歴を記憶する記憶部と、前記入力音声の履歴から抽出されたユーザー毎の特徴量に関する情報に応じて、前記音声出力パラメータの値を変更する変更部とを有する情報処理装置を提供する。

前記記憶部は、前記音声出力パラメータを変更する条件が前記ユーザー毎に記録された反応基準を記憶し、前記変更部は、前記ユーザー毎の特徴量と前記反応基準との比較結果に応じて前記音声出力パラメータの値を変更してもよい。

前記反応基準は、前記入力音声における複数の特徴量に関する条件を含み、前記変更部は、前記複数の特徴量についての前記反応基準と前記入力音声との比較結果に応じて、前記音声出力パラメータの値を変更してもよい。

前記複数の特徴量のうちユーザー毎に設定された特徴量に対して重みが与えられてもよい。

この情報処理装置は、前記音声出力パラメータの変更に対するフィードバックを受け付ける受け付け部と、前記受け付け部が受け付けたフィードバックに応じて前記反応基準を更新する更新部とを有してもよい。

この情報処理装置は、前記出力部は、前記特徴量に応じて決められる数だけ前の質問音声を再度出力してもよい。

この情報処理装置は、前記入力音声から前記ユーザーの感情を推定する感情推定部を有し、前記変更部は、前記感情推定部が推定した感情に基づいて前記音声出力パラメータの値を変更してもよい。

この情報処理装置は、前記ユーザーの位置を推定する位置推定部を有し、前記変更部は、前記位置推定部が推定した位置に基づいて前記音声出力パラメータの値を変更してもよい。

前記音声出力パラメータは、複数種類のパラメータを含み、前記変更部は、前記複数種類のパラメータのうちユーザー毎に設定された種類のパラメータの値を変更してもよい。

また、本発明は、与えられた音声出力パラメータに従って生成された音声を出力する出力部と、前記音声に対する応答としてユーザーからの入力音声を受け付ける入力部と、前記入力音声の履歴を記憶する記憶部と、前記入力音声の履歴から抽出された前記ユーザー毎の特徴量に関する情報に応じて、前記音声出力パラメータの値を変更する変更部とを有する音声応答システムを提供する。

本発明によれば、音声出力パラメータの値をユーザーに応じて変更することができる。

一実施形態に係る音声応答システム１の機能構成を例示する図。車載器１０のハードウェア構成を例示する図。サーバ２０のハードウェア構成を例示する図。音声応答システム１の動作の概要を示すフローチャート。事前登録の詳細を例示するシーケンスチャート。事前登録用の会話データを例示する図。ユーザーの特徴量を例示する図。音声応答の詳細を例示するシーケンスチャート。ステップＳ２１１における対比結果を例示する図。変形例３に係る音声分析部２３の構成を例示する図。変形例５に係る音声分析部２３の構成を例示する図。変形例６に係る音声分析部２３の構成を例示する図。

１．構成
図１は、一実施形態に係る音声応答システム１の機能構成を例示する図である。音声応答システム１は、ユーザーの音声入力に対して音声応答を出力するシステム、すなわち会話をするシステムである。この例で、音声応答システム１は、自動車Ｖのナビゲーションシステムに適用される。音声応答システム１は、車載器１０及びサーバ２０を有する。音声応答システム１のうちユーザーとのインターフェース機能は車載器１０により提供され、音声応答システム１の機能の一部はサーバ２０に実装される。

車載器１０は、通信部１１、音声出力部１２、音声入力部１３、及び制御部１４を有する。車載器１０は、自動車Ｖに搭載される。通信部１１はサーバ２０と通信する。音声出力部１２は、与えられた音声出力パラメータに従って生成された音声を出力する。音声入力部１３は、前記音声に対する応答としてユーザーからの入力音声を受け付ける。通信部１１は、入力音声をデータ化し、サーバ２０に送信する。制御部１４は各種の制御を行う。

サーバ２０は、通信部２１、記憶部２２、音声分析部２３、変更部２４、及び会話制御部２５を有する。通信部２１は、車載器１０と通信する。この例において通信部２１は、車載器１０から入力音声のデータを受信する。記憶部２２は、入力音声の履歴を記憶する。記憶部２２は、さらに、ユーザー毎の反応基準を記憶する。反応基準とは、音声出力パラメータを変更する条件をユーザー毎に記録した情報である。音声分析部２３は、入力音声を分析する。この例で、音声分析部２３は、分析制御部２３１、特徴量抽出部２３２、話者推定部２３３、音声認識部２３４、及び反応度合判断部２３５を有する。分析制御部２３１は、音声分析に関する制御を行う。特徴量抽出部２３２は、入力音声の履歴から、入力音声における特徴量をユーザー毎に抽出する。話者推定部２３３は、入力音声を発した話者を推定する。音声認識部２３４は、入力音声に対し音声認識処理を行う。反応度合判断部２３５は、入力音声から、その音声を発したユーザーの反応度合を判断する。変更部２４は、参照情報に基づいて音声出力パラメータを変更する（音声出力パラメータの値を決定する）。参照情報とは、音声出力パラメータの変更に用いられる情報であり、例えば、入力音声における特徴量又はユーザーの反応度合である。会話制御部２５は、音声認識部２３４が行った音声認識処理の結果及び変更された音声出力パラメータを用いて、入力音声に対する応答音声のデータを生成する。通信部２１は、応答音声のデータを車載器１０に送信する。こうして、ユーザーと音声応答システム１との会話が行われる。

サーバ２０は、ネットワークを介して他のサーバと通信する。サーバ２０が通信する他のサーバには、例えば、ユーザーの行動履歴を蓄積し、行動履歴を解析するサーバ、入力された出発地から目的地までの経路を探索するサーバ、ユーザーのスケジュールを管理するサーバ、及び気象情報、交通情報、音楽配信、又は映画配信等を行うサーバ（いずれも図示略）が含まれる。

図２は、車載器１０のハードウェア構成を例示する図である。車載器１０は、プロセッサー１０１、メモリー１０２、ストレージ１０３、通信装置１０４、タッチスクリーン１０５、スピーカー１０６、及びマイクロフォン１０７を有するコンピュータ装置、より具体的には例えばカーナビゲーション装置である。プロセッサー１０１は、プログラム（プログラムコード）、ソフトウェアモジュールやデータを、ストレージ１０３及び／又は通信装置１０４からメモリー１０２に読み出し、これらに従って各種の処理を実行する。メモリー１０２は、コンピュータ読み取り可能な記録媒体であり、例えば、ＲＯＭ（Read Only Memory）、ＥＰＲＯＭ（Erasable Programmable ROM）、ＥＥＰＲＯＭ（Electrically Erasable Programmable ROM）、及びＲＡＭ（Random Access Memory）のうち少なくとも１つを含む。メモリー１０２は、レジスタ、キャッシュ、メインメモリー（主記憶装置）などと呼ばれてもよい。メモリー１０２は、一実施形態に係る音声応答システム１を実施するために実行可能なプログラム（プログラムコード）、ソフトウェアモジュールなどを保存することができる。ストレージ１０３は、コンピュータ読み取り可能な記録媒体であり、例えば、ＣＤ−ＲＯＭ（Compact Disc ROM）などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク（例えば、コンパクトディスク、デジタル多用途ディスク、Ｂｌｕ−ｒａｙ（登録商標）ディスク）、スマートカード、フラッシュメモリー（例えば、カード、スティック、キードライブ）、フロッピー（登録商標）ディスク、磁気ストリップなどの少なくとも１つで構成される。ストレージ１０３は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリー１０２及び／又はストレージ１０３を含むデータベース、サーバその他の媒体であってもよい。通信装置１０４は、有線及び／又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア（送受信デバイス）であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。タッチスクリーン１０５は、情報を視覚的に出力するためのディスプレイと情報を入力するためのタッチセンサーとを兼ね備えた入出力装置である。スピーカー１０６は、情報を音として出力するための出力装置である。マイクロフォン１０７は、音声を入力するための入力装置である。なお、車載器１０は、タッチスクリーン１０５、スピーカー１０６、及びマイクロフォン１０７以外の入力装置又は出力装置を有してもよい。例えば、入力装置は、キーボード、マウス、マイクロフォン、スイッチ、ボタン、及びセンサの少なくとも１つを含んでもよい。また、出力装置は。ＬＥＤ（Light Emitting Diode）ランプ等を含んでもよい。上記のハードウェア要素は、情報を通信するためのバスで接続される。このバスは、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。

この例において、ストレージ１０３は、コンピュータ装置を音声応答システム１における車載器１０として機能させるためのプログラム（以下「クライアントプログラム」という）を記憶する。通信装置１０４は、通信部１１の一例である。クライアントプログラムを実行しているプロセッサー１０１が制御するスピーカー１０６は、音声出力部１２の一例である。クライアントプログラムを実行しているプロセッサー１０１が制御するマイクロフォン１０７は、音声入力部１３の一例である。クライアントプログラムを実行しているプロセッサー１０１は、制御部１４の一例である。

図３は、サーバ２０のハードウェア構成を例示する図である。サーバ２０は、プロセッサー２０１、メモリー２０２、ストレージ２０３、及び通信装置２０４を有する情報処理装置（コンピュータ装置）である。プロセッサー２０１、メモリー２０２、ストレージ２０３、及び通信装置２０４は、それぞれ、プロセッサー１０１、メモリー２０２、ストレージ２０３、及び通信装置２０４と同様である。

この例で、ストレージ２０３は、コンピュータ装置を音声応答システム１におけるサーバ２０として機能させるためのプログラム（以下「サーバプログラム」という）を記憶する。サーバプログラムを実行しているプロセッサー２０１が制御する通信装置２０４は、通信部２１の一例である。メモリー２０２及びストレージ２０３の少なくとも一方は、記憶部２２の一例である。サーバプログラムを実行しているプロセッサー２０１は、音声分析部２３、変更部２４、及び会話制御部２５の一例である。

２．動作
図４は、音声応答システム１の動作の概要を示すフローチャートである。ステップＳ１において、音声応答システム１は、事前登録を行う。事前登録は、音声応答システム１がユーザーの特徴を掴むための情報を登録する処理である。ユーザーが発する音声の特徴を記録したデータベースを反応基準データベースという。ステップＳ２において、音声応答システム１は、ユーザーとの間で音声応答（音声会話）を行う。以下、これらの処理の詳細を説明する。以下において制御部１４等の機能要素を処理の主体として説明するが、これらの説明は、クライアントプログラム等のソフトウェアを実行しているプロセッサー１０１等のハードウェア要素が、他のハードウェア要素と協働して処理を実行することを意味する。

２−１．事前登録
図５は、事前登録の詳細を例示するシーケンスチャートである。図５のフローは、例えば、所定のイベントを契機として開始される。事前登録を開始する契機となるイベントは、例えば、車載器１０の起動（自動車Ｖのエンジン始動）、又はユーザーから事前登録を開始する明示的な指示である。

ステップＳ１０１において、車載器１０の制御部１４は、通信部１１に対し事前登録の開始を通知する。ステップＳ１０２において、サーバ２０の通信部２１は、車載器１０から事前登録の開始通知を受信する。事前登録の開始通知を受信すると、会話制御部２５は、記憶部２２から事前登録用の会話データを読み出す。事前登録用の会話データは、例えば、あらかじめユーザーの仮識別情報と対応付けられた１つ以上の質問を含む。

図６は、事前登録用の会話データを例示する図である。この例で、会話データは、複数組の仮識別情報及び質問文を含む。仮識別情報は、自動車Ｖの座席に対応する識別情報であり、例えば識別情報「１」は「運転席」に、識別情報「２」は「助手席」に、識別情報「３」は「後部右座席」に相当する。例えば仮識別情報「１」には質問文「運転席の方、識別情報を入力してください」及び質問文「質問を繰り返すときの音声を登録してください」が対応付けられている。

再び図５を参照する。ステップＳ１０３において、会話制御部２５は、対象となる仮識別情報を特定する。対象となる仮識別情報は、例えば番号の小さい順に１つずつ特定される。会話制御部２５は、対象となる仮識別情報に対応する会話データを、事前登録の通知元の車載器１０に通信部２１を介して送信する（ステップＳ１０４）。サーバ２０から会話データを受信すると、音声出力部１２は、会話データをデコードし、質問の音声を出力する（ステップＳ１０５）。自動車Ｖに乗っている複数のユーザーのうち質問において指名された一のユーザーは、質問に対する回答を発声する（例えば「識別情報を入力してください」に対し「山田太郎です」、「質問を繰り返すときの音声を登録してください」に対し「もう一度言って」）。音声入力部１３は、ユーザーの回答の音声を受け付け、音声データを生成する。制御部１４は、生成された音声データを、通信部１１を介してサーバ２０に送信する（ステップＳ１０６）。

ステップＳ１０７において、サーバ２０の通信部２１は、車載器１０から音声データを受信する。ステップＳ１０８において、記憶部２２は、受信した音声データを記憶する。このとき、記憶部２２は、車載器１０の識別情報、座席の仮識別情報、及び音声データを対応付けて記憶する。ステップＳ１０９において、特徴量抽出部２３２は、音声データを解析し、音声データから音声の特徴量を抽出する。この例において特徴量抽出部２３２が抽出する特徴量には、ユーザーが発する音声の音響的特徴量及びユーザーの話し方の特徴量が含まれる。音響的特徴量は、音声の個人性を示す特徴量であり、例えば音声のスペクトル包絡の所定の広域部分の形状を数値化した情報である。話し方の特徴量は、例えば、音量、話す速さ、声の高さ、質問から回答までの時間等に関する情報である。また、音声認識部２３４は、ユーザーの識別情報を入力させる質問に対する回答の音声データに対し音声認識処理を行い、ユーザーの識別情報を抽出する。識別情報は、ユーザーを一意に特定するための情報であり、例えば、ユーザーの氏名及び電話番号の組、又は音声応答システム１が独自に発行した識別コードである。

ステップＳ１１０において、分析制御部２３１は、特徴量抽出部２３２が抽出した特徴量を、記憶部２２に記憶されている反応基準データベースに追加する。反応基準データベースには、音声から抽出された特徴量の履歴が、ユーザーの識別情報と対応付けられて記憶される。

ステップＳ１１１において、会話制御部２５は、全ての仮識別情報について処理が完了したか判断する。まだ処理が完了していない仮識別情報がある場合、会話制御部２５は、処理をステップＳ１０３に移行する。こうして、全ての座席について処理が完了するまでステップＳ１０３〜Ｓ１１１の処理が繰り返し実行される。全ての仮識別情報について処理が完了したと判断された場合、会話制御部２５は図５のフローを終了する。図５のフローが完了すると、自動車Ｖに登場している全てのユーザーの特徴量が反応基準データベースに記録される。

図７は、反応基準データベースに記録されたユーザーの特徴量を例示する図である。反応基準データベースには、例えばユーザーが音声を発するたびにその特徴量が記録されるが、ここでは特徴量の履歴から得られる代表値が示される。代表値は、特徴量の履歴から得られる統計量であり、例えば、平均値、最頻値、又は中央値である。この例において、ユーザーの特徴量は、音量、話す速さ、声の高さ、質問から回答までの時間、抑揚、及び頻出コマンドを含む。音量は、そのユーザーの発声の大きさを示す。速さは、発声の速さを示す。声の高さは、発声の高さを示す。回答までの時間は、そのユーザーが回答に要する時間を示す。抑揚は、発声の抑揚を示す。頻出コマンドは、そのユーザーが音声応答システム１に対し頻繁に行う命令を示す。また、反応基準データベースにおいては、ユーザーの識別情報と対応付けて自動車Ｖの座席の仮識別情報が記録される。なお事前登録は省略されてもよい。

２−２．音声応答
２−２−１．シーケンス
図８は、音声応答の詳細を例示するシーケンスチャートである。図５のフローは、例えば、所定のイベントを契機として開始される。音声応答を開始する契機となるイベントは、例えば、あらかじめ設定された目的地に近づいた、又はあらかじめ設定されたスケジュールに近づいたというイベントである。

ステップＳ２０１において、会話制御部２５は、イベントに応じた質問を示す音声データ（以下「質問音声データ」という）を記憶部２２から読み出し、読み出した質問音声データを、通信部２１を介して車載器１０に送信する。車載器１０の通信部１１は、サーバ２０から質問音声データを受信する（ステップＳ２０２）。音声出力部１２は、質問音声データをデコードし、質問の音声を出力する（ステップＳ２０３）。ユーザーは、質問に対する回答の音声を発する。ステップＳ２０４において、音声入力部１３は、ユーザーがする回答の音声をデータ化する。ステップＳ２０５において、音声入力部１３は、回答の音声データ（以下「回答音声データ」という）に車載器１０の識別情報を付加してサーバ２０に送信する。

ステップＳ２０６において、通信部２１は、回答音声データを車載器１０から受信する。ステップＳ２０７において、特徴量抽出部２３２は、回答音声データを解析して特徴量を抽出する。ここにおいて抽出される特徴量は、ステップＳ１０９と同様に、音響的特徴量及び話し方の特徴量を含む。ステップＳ２０８において、音声認識部２３４は回答音声データに対し音声認識処理を行う。ここでいう音声認識処理は、回答音声を文字列に変換する処理である。ステップＳ２０９において、分析制御部２３１は、音声認識処理の結果が、対応する質問の回答となっているか判断する。質問の回答となっていない場合、分析制御部２３１は、処理をステップＳ２１０に移行する。質問の回答となっていない場合、分析制御部２３１は、処理をステップＳ２１３に移行する。

ステップＳ２１０において、話者推定部２３３は、回答音声データの話者を推定する。まず、特徴量抽出部２３２が、回答音声データから特徴量を抽出する。話者推定部２３３は、回答音声データから抽出された音響的特徴量を、記憶部２２において車載器１０の識別情報と対応付けられている音響特徴量と対比し、一致度が最も高い仮識別情報を特定する。仮識別情報はユーザーと対応しているので、仮識別情報を特定することは話者が特定されることに相当する。

ステップＳ２１１において、反応度合判断部２３５は、回答音声データが示す回答におけるユーザーの反応が、通常状態と同じであるか判断する。具体的には、まず、反応度合判断部２３５は、回答音声データから抽出された話し方の特徴量を、ステップＳ２１０において特定された仮識別情報と記憶部２２において対応付けられている特徴量と対比し両者の差異を計算する。

図９は、ステップＳ２１１における対比結果を例示する図である。この例において、各特徴量の差異の有無が差異「有り」及び「無し」の２値で計算される。「音量」、「速さ」、「反応までの時間」、「抑揚」、及び「頻出コマンド」については差異「有り」、「高さ」については差異「無し」である。分析制御部２３１は、これらの特徴量の差異を得点化する。得点が多いほど差異が大きく、得点が少ないほど差異が小さい。反応度合判断部２３５は、こうして計算された得点をあらかじめ決められたしきい値と比較する。得点がしきい値以下である場合、反応度合判断部２３５は、ユーザーの反応が通常状態であると判断する。得点がしきい値よりも高い場合、反応度合判断部２３５は、ユーザーの反応が通常状態とは異なると判断する。

再び図８を参照する。変更部２４は、ステップＳ２１１の判断結果に応じて音声出力パラメータの値を変更（調整）する（ステップＳ２１２）。音声出力パラメータとは、音声出力部１２における音声の出力態様を制御するためのパラメータをいい、例えば、音量、速さ、及び高さのうち少なくとも１つを含む。音声出力パラメータには、変化の基準値が設定される。ステップＳ２１１において通常状態であると判断された場合、変更部２４は、音声出力パラメータの値を基準値分変化させる。ステップＳ２１１において通常状態とは異なると判断された場合、変更部２４は、音声出力パラメータの値を基準値より大きな値分、変化させる。

ステップＳ２１３において、変更部２４は、回答音声の話し方の特徴量、及びステップＳ２１２において決定された音声出力パラメータを記憶部２２の反応履歴データベースに追加する。

ステップＳ２１４において、会話制御部２５は、音声認識部２３４が行う音声認識の結果に応じた質問又は回答の音声データを記憶部２２から読み出し、ステップＳ２１２において決定された音声出力パラメータを対応付けて、車載器１０に送信する。ステップＳ２１５において、車載器１０の通信部１１は、音声データ及び音声出力パラメータを受信する。ステップＳ２１６において、音声出力部１２は、音声データが示す音声を、受信した音声出力パラメータが指定する出力態様において出力する。

２−２−２．応答例
以下、音声応答システム１とユーザーとの会話例を説明する。ここでは、音声出力パラメータとして音量が変更（調整）される例を説明する。
（例１）
音声応答システム１：（音量：２０）「今日の予定を案内しますか？」
ユーザー：（通常の声）「お願いします」
音声応答システム１：（音量：２０）「今日の予定は・・・」
この例において、音声応答システム１からの「今日の予定を案内しますか？」という問いかけに対し、ユーザーは「お願いします」と次の処理を促す指示をしている。したがって音声応答システム１は、ユーザーに今日の予定を案内する。

（例２）
音声応答システム１：（音量：２０）「今日の予定を案内しますか？」
ユーザーＡ：（通常の声）「・・・もう一度言って」
音声応答システム１：（音量：２５）「今日の予定を案内しますか？」
（例３）
音声応答システム１：（音量：２０）「今日の予定を案内しますか？」
ユーザーＡ：（通常の声）「・・・もっと大きく」
音声応答システム１：（音量：２５）「今日の予定を案内しますか？」
これらの例において、音声応答システム１からの「今日の予定を案内しますか？」という問いかけに対し、ユーザーＡは質問を繰り返すよう指示をしている。このとき、話し方（音量、速さ、高さ、回答までの時間、及び抑揚）は通常状態と変わりなく、また、音声認識の結果得られた文字列も頻出コマンドとして登録されている。したがって、音声応答システム１は、最初の質問の際の音量（２０）に対し、変化の基準値（５）を加算した音量（２５）を用いて問いかけを繰り返す。

（例４）
音声応答システム１：（音量：２０）「今日の予定を案内しますか？」
ユーザーＡ：（大きな声）「き・こ・え・な・い・よ！！」
音声応答システム１：（音量：３０）「今日の予定を案内しますか？」
この例において、音声応答システム１からの「今日の予定を案内しますか？」という問いかけに対し、ユーザーＡは「き・こ・え・な・い・よ！！」と、質問を繰り返すよう指示をしている。このときの話し方は、通常よりも音量が大きく、速さがゆっくりであり、回答までの時間が短く、抑揚が強い。また、音声認識の結果得られた文字列は頻出コマンドとして登録されている情報とは異なる。したがって、音声応答システム１は、最初の質問の際の音量（２０）に対し、変化の基準値に係数ｋを乗算した音量（３０）を用いて問いかけを繰り返す。この例では質問の繰り返しが要求されているので係数ｋはｋ＞１である。

（例５）
音声応答システム１：（音量：２０）「今日の予定を案内しますか？」
ユーザーＢ：（大きな声）「も・う・い・ち・ど！！」
音声応答システム１：（音量：２５）「今日の予定を案内しますか？」
（例６）
音声応答システム１：（音量：２０）「今日の予定を案内しますか？」
ユーザーＢ：（大きな声）「き・き・と・れ・な・い！！」
音声応答システム１：（音量：２５）「今日の予定を案内しますか？」
これらの例において、音声応答システム１からの「今日の予定を案内しますか？」という問いかけに対し、ユーザーＢは質問を繰り返すよう指示をしている。ユーザーＢは普段から大きな声かつ強い抑揚を用いて話す癖があり、これらの回答における話し方はあくまで通常状態の範囲内である。また、音声認識の結果得られた文字列は頻出コマンドとして登録されている情報である。したがって、音声応答システム１は、最初の質問の際の音量（２０）に対し、変化の基準値（５）を加算した音量（２５）を用いて問いかけを繰り返す。

（例７）
音声応答システム１：（音量：２０）「今日の予定を案内しますか？」
ユーザーＢ：（大きな声）「も・っ・と・お・お・き・く！！」
音声応答システム１：（音量：２５）「今日の予定を案内しますか？」
これらの例において、音声応答システム１からの「今日の予定を案内しますか？」という問いかけに対し、ユーザーＢは質問を繰り返すよう指示をしている。ユーザーＢは普段から大きな声かつ強い抑揚を用いて話す癖があり、これらの回答における話し方はあくまで通常状態の範囲内である。音声認識の結果得られた文字列は頻出コマンドとして登録されているものではないが、特徴量の差異の得点は、しきい値以下である。したがって、音声応答システム１は、最初の質問の際の音量（２０）に対し、変化の基準値（５）を加算した音量（２５）を用いて問いかけを繰り返す。

以上において説明したように、本実施形態によれば、音声出力パラメータの値をユーザーに応じて変更できる。

３．変形例
本発明は上述の実施形態に限定されず、種々の変形実施が可能である。以下、変形例をいくつか説明する。以下の変形例のうち２つ以上の例が組み合わせて用いられてもよい。

３−１．変形例１
変更部２４は、ユーザー毎の反応基準によらずに音声出力パラメータの値を変更してもよい。例えば、変更部２４は、全ユーザーの特徴量の統計量との比較において音声出力パラメータの値を決める。具体的には、変更部２４は、入力音声の音量が平均値より大きい場合、出力音声の音量を基準値よりも大きい値分、変化させる。この例によれば、反応基準をユーザー毎に保持する必要が無く、サーバ２０の負荷を低減できる。

３−２．変形例２
反応基準と回答音声との特徴量の差異を得点化する方法は実施形態で説明した例に限定されない。特徴量を得点化する際には、項目毎に重みを異ならせてもよい。例えば、分析制御部２３１は、「音量」、「速さ」、「反応までの時間」、「抑揚」、及び「頻出コマンド」のうち「音量」及び「抑揚」に対し他の項目より大きい重み係数を乗算し、得点を計算してもよい。あるいは、分析制御部２３１は、他の項目より大きい重みを与える項目を、ユーザー毎に決めてもよい。具体的には、分析制御部２３１は、ユーザーＡに対しては「音量」に対し他の項目より大きい重み係数を乗算し、ユーザーＢに対しては「速さ」及び「抑揚」に対し他の項目より大きい重み係数を乗算してもよい。この例によれば、通常状態の判断の際に重きを置く要素をユーザー毎に異ならせることができる。

３−３．変形例３
図１０は、変形例３に係る音声分析部２３の構成を例示する図である。この例において音声分析部２３は、受け付け部２３６及び更新部２３７を有する。受け付け部２３６は、音声出力パラメータの変更に対するユーザーからのフィードバックを受け付ける。ユーザーのフィードバックとは、音声出力パラメータの変化の有無に関し、そのユーザーの感覚（希望）との相違を示す情報をいう。例えば、上記の例４において、通常より大きな音量（３０）を用いて問いかけを繰り返した後、音声応答システム１は、この音量の変更が必要であったか否かをユーザーに問いかける。この問いかけに対し、ユーザーは、「適切だった」又は「不要だった」等、自身の感覚との相違を示す回答を音声又は他の方法を用いて入力する。更新部２３７は、このフィードバックに応じて、反応基準を更新する。具体的には、更新部２３７は、「不要だった」というフィードバックがあった場合、通常状態の範囲が広がるよう、反応基準を更新する。例えば、反応基準においてそのユーザーの「音量」を「大」に更新する。

あるいは、更新部２３７は、得点のしきい値をユーザーのフィードバックに応じて変化させてもよい。例えば、「不要だった」というフィードバックがあった場合、更新部２３７は、通常状態の範囲が広がるよう、しきい値を増加させる。

さらに別の例において更新部２３７は、ユーザーのフィードバックに応じて音声出力パラメータの変化量を変化させてもよい。この場合、ユーザーのフィードバックとは、音声出力パラメータの変化量に関し、そのユーザーの感覚（希望）との相違を示す情報をいう。例えば、上記の例４において、通常より大きな音量（３０）を用いて問いかけを繰り返した後、音声応答システム１は、この音量の変化量が適切であったか否かをユーザーに問いかける。この問いかけに対し、ユーザーは、「適切だった」、「大きすぎた」、又は「小さすぎた」等、自身の感覚との相違を示す回答を音声又は他の方法を用いて入力する。更新部２３７は、このフィードバックに応じて、反応基準を更新する。具体的には、更新部２３７は、「大きすぎた」というフィードバックがあった場合、基準値に乗算する係数ｋの値を低減する。例えば、更新部２３７は、従前はｋ＝２であったところ、ｋ＝１．５に更新する。これらの例によれば、ユーザーのフィードバックを音声出力パラメータの変更に反映させることができる。

３−４．変形例４
ユーザーの音声が質問の繰り返しを要求するコマンドを含む場合、変更部２４は、反応基準との対比の結果を用いて、何回前の質問に戻るか判断してもよい。例えば、通常状態と判断された場合は前回と同じ質問を繰り返すところ、通常状態とは異なると判断された場合は、１つ前の質問に戻ってもよい。この場合において、変更部２４は、質問を１つ前に戻すだけでなく、所定の音声出力パラメータの値を変更（例えば、速さを遅く）してもよい。この例によれば、反応基準との対比に応じて何回前の質問まで戻るか調整できる。

３−５．変形例５
図１１は、変形例５に係る音声分析部２３の構成を例示する図である。この例において音声分析部２３は、感情推定部２３８を有する。感情推定部２３８は、入力音声からユーザーの感情を推定する。変更部２４は、感情推定部２３８が推定した感情に応じて、基準値に乗算する係数ｋの値を変更する。例えば、ユーザーが怒っていると判断された場合、変更部２４は係数ｋの値を増加させる。この例によれば、ユーザーが特定の感情を有しているときにはその感情に応じて音声出力パラメータの値を変更できる。

３−６．変形例６
音声出力部１２は、質問の対象となるユーザーの位置に応じて決定された音像位置に音声を定位させてもよい。例えば、音声出力部１２は、後部右座席に座っているユーザーからの質問に対する回答の音声を、後部右座席に定位させてもよい。この場合、音声出力部１２は、定位を調整するための音声信号を処理する処理回路及び複数のスピーカーを含む。音像定位を制御する技術としては公知の技術が用いられる。あるいは、各座席に対応する複数のスピーカーを有する場合、音声出力部１２は、質問の対象となるユーザーの位置に応じて決定されたスピーカーのみから音声を出力してもよい。例えば、音声出力部１２は、後部右座席に座っているユーザーからの質問に対する回答の音声を、後部右座席のスピーカーのみから出力してもよい。この例によれば、質問の対象となるユーザーに対してより効果的に音声応答システム１からの音声を出力できる。

３−７．変形例７
変更される音声出力パラメータは音量に限定されない。例えば、変更される音声出力パラメータは、音量、話す速さ、声の高さ、抑揚、及び男声又は女声の別のうち少なくとも１つであってもよい。この場合において、これら複数の音声出力パラメータのうち変更の対象となるパラメータは、ユーザー毎に設定されてもよい。例えば、ユーザーＡに対しては音量が変更され、ユーザーＢに対しては速さ及び抑揚が変更される、というように設定されてもよい。この例によれば、よりユーザーに適応した音声を出力できる。

３−８．変形例８
図１２は、変形例６に係る音声分析部２３の構成を例示する図である。この例において音声分析部２３は、位置推定部２３９を有する。位置推定部２３９は、回答を発したユーザーの位置（又は方向）を推定する。実施形態においては事前登録を用いて座席の位置を登録する例を説明したが、事前登録において座席の位置は登録されなくてもよい。この場合において、位置推定部２３９は入力音声からユーザーの位置を推定する。具体的には、この場合、音声入力部１３は複数のマイクロフォンを有する。音声入力部１３は、これら複数のマイクロフォンを介して入力された音声をそれぞれデータ化し、サーバ２０に送信する。位置推定部２３９は、これら複数の音声データを解析し、音声を発したユーザーの位置を推定する。一例として、音声入力部１３は、各座席に１個のマイクロフォンを有し、各座席に対応する音声データを出力する。位置推定部２３９は、複数の音声データのうち、信号レベルが最も高い音声データに対応する座席を、音声を発したユーザーの位置として推定する。この例によれば、ユーザーに位置に応じた音声を出力できる。

３−９．他の変形例
音声応答システム１のハードウェア構成は実施形態で説明した例に限定されない。実施形態において車載器１０に実装されていた機能の一部がサーバ２０に実装されてもよい。また、実施形態においてサーバ２０に実装されていた機能の一部又は全部が車載器１０に実装されてもよい。一例としては、車載器１０に全ての機能が集約されてもよい。別の例において、音声応答システム１は、車載器１０及びサーバ２０に加え、さらに別の装置を有してもよい。この場合、実施形態において車載器１０及びサーバ２０に実装されていた機能の一部がこの装置に実装されてもよい。一例としては、音声出力部１２及び音声入力部１３がこの装置（例えばスマートフォン）に実装されてもよい。この場合、ユーザーが各自のスマートフォンを使用することで、ユーザー毎に音声出力部１２及び音声入力部１３を設けることができる。あるいは、話者の方向を自動的に判断し、その話者の方向に音声を出力するスピーカーが、音声出力部１２に用いられてもよい。

なお、上記の実施形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック（構成部）は、ハードウェア及び／又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的及び／又は論理的に結合した１つの装置により実現されてもよいし、物理的及び／又は論理的に分離した２つ以上の装置を直接的及び／又は間接的に（例えば、有線及び／又は無線）で接続し、これら複数の装置により実現されてもよい。なお、本明細書では、「装置」という文言は、回路、デバイス、又はユニットなどに読み替えることができる。

車載器１０及びサーバ２０のハードウェア構成は、図に示した各装置を１つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。また、車載器１０及びサーバ２０は、マイクロプロセッサー、デジタル信号プロセッサー（ＤＳＰ：Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）、ＦＰＧＡ（Field Programmable Gate Array）などのハードウェアを含んでもよく、そのハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサー１０１は、これらのハードウェアの少なくとも１つで実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。

情報の通知は、実施形態において説明した例に限られず、他の方法を用いて行われてもよい。例えば、情報の通知は、物理レイヤシグナリング（例えば、ＤＣＩ（Downlink Control Information）、ＵＣＩ（Uplink Control Information））、上位レイヤシグナリング（例えば、ＲＲＣ（Radio Resource Control）シグナリング、ＭＡＣ（Medium Access Control）シグナリング、報知情報（ＭＩＢ（Master Information Block）、ＳＩＢ（System Information Block）））、その他の信号又はこれらの組み合わせによって実施されてもよい。また、ＲＲＣシグナリングは、ＲＲＣメッセージと呼ばれてもよく、例えば、ＲＲＣ接続セットアップ（RRC Connection Setup）メッセージ、ＲＲＣ接続再構成（RRC Connection Reconfiguration）メッセージなどであってもよい。

本明細書において説明した各態様／実施形態は、ＬＴＥ（Long Term Evolution）、ＬＴＥ−Ａ（LTE-Advanced）、ＳＵＰＥＲ３Ｇ、ＩＭＴ−Ａｄｖａｎｃｅｄ、４Ｇ、５Ｇ、ＦＲＡ（Future Radio Access）、Ｗ−ＣＤＭＡ（登録商標）、ＧＳＭ（登録商標）、ＣＤＭＡ２０００、ＵＭＢ（Ultra Mobile Broadband）、ＩＥＥＥ８０２．１１（Ｗｉ−Ｆｉ）、ＩＥＥＥ８０２．１６（ＷｉＭＡＸ）、ＩＥＥＥ８０２．２０、ＵＷＢ（Ultra-WideBand）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、その他の適切なシステムを利用するシステム及び／又はこれらに基づいて拡張された次世代システムに適用されてもよい。

本明細書において説明した各態様／実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書において説明した方法については、例示的な順序を用いて様々なステップの要素を提示しており、提示した特定の順序に限定されない。

情報等は、上位レイヤ(又は下位レイヤ)から下位レイヤ（又は上位レイヤ）へ出力され得る。複数のネットワークノードを介して入出力されてもよい。

入出力された情報等は特定の場所（例えば、メモリー）に保存されてもよいし、管理テーブルを用いて管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。

判定は、１ビットを用いて表される値（０か１か）によって行われてもよいし、真偽値（Boolean：true又はfalse）によって行われてもよいし、数値の比較（例えば、所定の値との比較）によって行われてもよい。

本明細書において説明した各態様／実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知（例えば、「Ｘであること」の通知）は、明示的に行う通知に限られず、暗黙的（例えば、当該所定の情報の通知を行わない）ことによって行われてもよい。

以上、本発明について詳細に説明したが、当業者にとっては、本発明が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本発明は、特許請求の範囲の記載において定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施できる。したがって、本明細書の記載は、例示説明を目的とするものであり、本発明に対して何ら制限的な意味を有するものではない。

ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。

また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線（ＤＳＬ）などの有線技術及び／又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び／又は無線技術は、伝送媒体の定義内に含まれる。

本明細書において説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。

なお、本明細書において説明した用語及び／又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。例えば、チャネル及び／又はシンボルは信号（シグナル）であってもよい。また、信号はメッセージであってもよい。また、コンポーネントキャリア（ＣＣ）は、キャリア周波数、セルなどと呼ばれてもよい。

本明細書において使用する「システム」及び「ネットワーク」という用語は、互換的に使用される。

また、本明細書において説明した情報、パラメータなどは、絶対値を用いて表されてもよいし、所定の値からの相対値を用いて表されてもよいし、対応する別の情報を用いて表されてもよい。例えば、無線リソースはインデックスを用いて指示されてもよい。

上述したパラメータに使用する名称はいかなる点においても限定的なものではない。さらに、これらのパラメータを使用する数式等は、本明細書において明示的に開示したものと異なる場合もある。様々なチャネル（例えば、ＰＵＣＣＨ、ＰＤＣＣＨなど）及び情報要素（例えば、ＴＰＣなど）は、あらゆる好適な名称によって識別できるので、これらの様々なチャネル及び情報要素に割り当てている様々な名称は、いかなる点においても限定的なものではない。

本明細書において使用する「判断（determining）」、「決定（determining）」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定（judging）、計算（calculating）、算出（computing）、処理（processing）、導出（deriving）、調査（investigating）、探索（looking up）（例えば、テーブル、データベース又は別のデータ構造での探索）、確認（ascertaining）した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信（receiving）（例えば、情報を受信すること）、送信（transmitting）（例えば、情報を送信すること）、入力（input）、出力（output）、アクセス（accessing）（例えば、メモリー中のデータにアクセスすること）した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決（resolving）、選択（selecting）、選定（choosing）、確立（establishing）、比較（comparing）などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。

本明細書において使用する「に基づいて」及び「に応じて」という記載は、別段に明記されていない限り、「のみに基づいて」及び「のみに応じて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」及び「に少なくとも基づいて」の両方を意味し、「に応じて」という記載は、「のみに応じて」及び「に少なくとも応じて」の両方を意味する。

本明細書において使用する「第１の」、「第２の」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定するものではない。これらの呼称は、２つ以上の要素間を区別する便利な方法として本明細書において使用され得る。したがって、第１及び第２の要素への参照は、２つの要素のみがそこで採用され得ること、又は何らかの形において第１の要素が第２の要素に先行しなければならないことを意味しない。

「含む（including）、「含んでいる（comprising）」、及びそれらの変形が、本明細書あるいは特許請求の範囲において使用されている限り、これら用語は、用語「備える」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「又は（or）」は、排他的論理和ではないことが意図される。

本開示の全体において、例えば、英語におけるa、an、及びtheのように、翻訳が原因で冠詞が追加された場合、これらの冠詞は、文脈から明らかにそうではないことが示されていなければ、複数のものを含むものとする。

１…音声応答システム、１０…車載器、１１…通信部、１２…音声出力部、１３…音声入力部、１４…制御部、２０…サーバ、２１…通信部、２２…記憶部、２３…音声分析部、２４…変更部、２５…会話制御部、２３１…分析制御部、２３２…特徴量抽出部、２３３…話者推定部、２３４…音声認識部、２３５…反応度合判断部

Claims

与えられた音声出力パラメータに従って生成された音声を出力する出力部から出力された当該音声に対する応答として入力部において受け付けられた入力音声の履歴を記憶する記憶部と、
前記入力音声の履歴から抽出された前記ユーザー毎の特徴量に関する情報に応じて、前記音声出力パラメータの値を変更する変更部と
を有する情報処理装置。
前記記憶部は、前記音声出力パラメータを変更する条件が前記ユーザー毎に記録された反応基準を記憶し、
前記変更部は、前記ユーザー毎の特徴量と前記反応基準との比較結果に応じて前記音声出力パラメータの値を変更する
ことを特徴とする請求項１に記載の情報処理装置。
前記反応基準は、前記入力音声における複数の特徴量に関する条件を含み、
前記変更部は、前記複数の特徴量についての前記反応基準と前記入力音声との比較結果に応じて、前記音声出力パラメータの値を変更する
ことを特徴とする請求項２に記載の情報処理装置。
前記複数の特徴量のうち前記ユーザー毎に設定された特徴量に対して重みが与えられる
ことを特徴とする請求項３に記載の情報処理装置。
前記音声出力パラメータの変更に対するフィードバックを受け付ける受け付け部と、
前記受け付け部により受け付けられたフィードバックに応じて前記反応基準を更新する更新部と
を有する請求項２〜４のいずれか一項に記載の情報処理装置。
前記出力部は、前記特徴量に応じて決められる数だけ前の質問音声を再度出力する
ことを特徴とする請求項１〜５のいずれか一項に記載の情報処理装置。
前記入力音声から前記ユーザーの感情を推定する感情推定部を有し、
前記変更部は、前記感情推定部により推定された感情に基づいて前記音声出力パラメータの値を変更する
ことを特徴とする請求項１〜６のいずれか一項に記載の情報処理装置。
前記ユーザーの位置を推定する位置推定部を有し、
前記変更部は、前記位置推定部により推定された位置に基づいて前記音声出力パラメータの値を変更する
ことを特徴とする請求項１〜７のいずれか一項に記載の情報処理装置。
前記音声出力パラメータは、複数種類のパラメータを含み、
前記変更部は、前記複数種類のパラメータのうち前記ユーザー毎に設定された種類のパラメータの値を変更する
ことを特徴とする請求項１〜８のいずれか一項に記載の情報処理装置。
与えられた音声出力パラメータに従って生成された音声を出力する出力部と、
前記音声に対する応答としてユーザーからの入力音声を受け付ける入力部と、
前記入力音声の履歴を記憶する記憶部と、
前記入力音声の履歴から抽出された前記ユーザー毎の特徴量に関する情報に応じて、前記音声出力パラメータの値を変更する変更部と
を有する音声応答システム。