JP2016191791A

JP2016191791A - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP2016191791A
Application number: JP2015071091A
Authority: JP
Inventors: 祐介工藤; Yusuke Kudo; 克也兵頭; Katsuya Hyodo; 大輔中田; Daisuke Nakada; 遼深澤; Ryo Fukazawa
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-03-31
Filing date: 2015-03-31
Publication date: 2016-11-10
Also published as: US10129442B2; WO2016157678A1; US20180063384A1

Abstract

【課題】ユーザフレンドリーな情報処理装置、情報処理方法及び音声出力装置を提供する。【解決手段】情報処理装置は、音声情報取得部と、音声合成部とを具備する。音声情報取得部は、ユーザが選択可能な複数の候補それぞれを表す音声に関する複数の音声情報を取得するように構成される。音声合成部は、前記複数の候補それぞれを表す音声の少なくとも一部が重なり合って出力されるように、前記複数の音声情報を合成するように構成される。【選択図】図３

Description

本技術は、ユーザが選択可能な複数の候補それぞれを表す音声を出力するように音声出力装置を制御するように構成された情報処理装置、情報処理方法及びプログラムに関する。

複数の候補フレーズから１つの候補フレーズを選択させるための音声ガイダンスをユーザに送出する技術が知られている（例えば、特許文献１の請求項１参照。）。

特開特開２００５−２７４６３９号公報

このような技術は、ユーザの聴覚に直接作用するという性格上、益々ユーザフレンドリーであることが望まれる。

以上のような事情に鑑み、本技術の目的は、ユーザフレンドリーな情報処理装置、情報処理方法及びプログラムを提供することにある。

本技術の一実施形態にかかる情報処理装置は、音声情報取得部と、音声合成部とを具備する。音声情報取得部は、ユーザが選択可能な複数の候補それぞれを表す音声に関する複数の音声情報を取得するように構成される。音声合成部は、前記複数の候補それぞれを表す音声の少なくとも一部が重なり合って出力されるように、前記複数の音声情報を合成するように構成される。

本実施形態によれば、複数の候補それぞれを表す音声の少なくとも一部が重なり合って出力される。これにより、全ての音声が出力される時間が、全体として短縮される。

情報処理装置は、前記複数の候補それぞれを表す音声の重なり量を決定するように構成された重なり量決定部をさらに具備する。

本実施形態によれば、各種の条件や設定情報に応じて重なり量を動的に変更することができる。

前記重なり量決定部は、ユーザに関して検出された情報であるユーザ情報をもとに、前記複数の候補それぞれを表す音声の重なり量を決定するように構成される。

前記ユーザ情報は、ユーザの生体情報と、ユーザの行動情報と、ユーザの周囲の環境情報との少なくとも何れか１つを含む。

本実施形態によれば、ユーザ情報を基にユーザに対する生体的負荷、行動的負荷又は環境的負荷を予測し、予測される負荷に応じて重なり量を動的に変更することができる。

前記重なり量決定部は、前記複数の候補それぞれの重要度をもとに、前記複数の候補それぞれを表す音声の重なり量を決定するように構成される。

本実施形態によれば、さらに重要度に応じて重なり量を動的に変更することができる。ユーザ情報だけでなく重要度にも基づいて重なり量を動的に変更することにより、重なり量をより最適に選定することができる。

情報処理装置は、ユーザが選択可能な複数の候補それぞれを表す画像に関する画像情報を取得し、特定の候補を表す音声と前記特定の候補を表す画像とが同期して出力されるように、前記画像情報を制御するように構成された画像情報制御部をさらに具備する。

本実施形態によれば、ユーザは、選択可能な候補を聴覚だけでなく視覚的にも認識することができるので、全ての候補を一層速く正確に識別できる。

情報処理装置は、前記複数の候補それぞれを表す音声の少なくとも一部の、音質及び／又は音像が異なるように、前記複数の候補それぞれを表す音声の音質及び／又は音像を変更するように構成された音質／音像割り当て部をさらに具備する。

本実施形態によれば、複数の候補それぞれを表す音声の少なくとも一部が重なり合って出力されても、音質及び／又は音像が異なるので、ユーザがそれぞれの音声を識別しやすくなる。

前記音質／音像割り当て部は、前記ユーザ情報をもとに、前記複数の候補それぞれを表す音声の音質及び／又は音像を決定するように構成される。

本実施形態によれば、ユーザ情報を基にユーザに対する生体的負荷、行動的負荷又は環境的負荷を予測し、予測される負荷に応じて音質／音像を動的に変更することができる。

前記音質／音像割り当て部は、前記複数の候補それぞれの重要度をもとに、前記複数の候補それぞれを表す音声の音質及び／又は音像を決定するように構成される。

本実施形態によれば、さらに重要度に応じて音質／音像を動的に変更することができる。ユーザ情報だけでなく重要度にも基づいて音質／音像を動的に変更することにより、音質／音像をより最適に選定することができる。

本技術の一実施形態にかかる情報処理方法は、ユーザが選択可能な複数の候補それぞれを表す音声に関する複数の音声情報を取得し、前記複数の候補それぞれを表す音声の少なくとも一部が重なり合って出力されるように、前記複数の音声情報を合成する。

本技術の一実施形態にかかるプログラムは、音声情報取得部と、音声合成部としてコンピュータを機能させる。音声情報取得部は、ユーザが選択可能な複数の候補それぞれを表す音声に関する複数の音声情報を取得するように構成される。音声合成部は、前記複数の候補それぞれを表す音声の少なくとも一部が重なり合って出力されるように、前記複数の音声情報を合成するように構成される。

以上のように、本技術によれば、ユーザフレンドリーな情報処理装置、情報処理方法及びプログラムが提供される。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

第１の実施形態に係る情報処理装置の少なくとも一部を示す斜視図である。情報処理装置のハードウェア構成を示すブロック図である。情報処理装置の機能的な構成を示すブロック図である。情報処理装置の動作を示すフローチャートである。候補リストの一例を示す図である。音質／音像の数を決定する方法を示すフローチャートである。重なり量を決定する方法を示すフローチャートである。第２の実施形態に係る情報処理装置の機能的な構成を示すブロック図である。第３の実施形態に係る情報処理装置の機能的な構成を示すブロック図である。情報処理装置の動作を示すフローチャートである。第４の実施形態に係る情報処理装置の機能的な構成を示すブロック図である。

以下、本技術に係る実施形態を、図面を参照しながら説明する。

（１．第１の実施形態）
（１−１．第１の実施形態の概要）
ユーザが選択可能な複数の候補それぞれを表す音声をユーザに送出する技術が知られている。このような技術においては、一般に、複数の候補が順番に１つずつ読み上げられる。その結果、選択可能なすべての候補をユーザが認識するまでに時間が掛かり、ユーザが不便を感じることがある。

以上のような事情に鑑み、本実施形態によれば、情報処理装置１は、ユーザが選択可能な複数の候補それぞれを表す音声に関する複数の音声情報を取得するように構成された音声情報取得部（テキスト／音声変換部１０７）と、前記複数の候補それぞれを表す音声の少なくとも一部が重なり合って出力されるように、前記複数の音声情報を合成するように構成された音声合成部１０８とを具備する。
情報処理装置１は、前記複数の候補それぞれを表す音声の重なり量を決定するように構成された重なり量決定部１０４をさらに具備する。
重なり量決定部１０４は、ユーザに関して検出された情報であるユーザ情報をもとに、前記複数の候補それぞれを表す音声の重なり量を決定するように構成される。
前記ユーザ情報は、ユーザの生体情報と、ユーザの行動情報と、ユーザの周囲の環境情報との少なくとも何れか１つを含む。
重なり量決定部１０４は、前記複数の候補それぞれの重要度をもとに、前記複数の候補それぞれを表す音声の重なり量を決定するように構成される。
情報処理装置１は、前記複数の候補それぞれを表す音声の少なくとも一部の、音質及び／又は音像が異なるように、前記複数の候補それぞれを表す音声の音質及び／又は音像を変更するように構成された音質／音像割り当て部１０６をさらに具備する。
音質／音像割り当て部１０６は、前記ユーザ情報をもとに、前記複数の候補それぞれを表す音声の音質及び／又は音像を決定するように構成される。
情報処理装置１は、前記複数の候補それぞれを表す音声の少なくとも一部が重なり合うように、前記音声を出力するよう構成された音声出力部１７をさらに具備する。

（１−２．情報処理装置のハードウェア構成）
図１は、第１の実施形態に係る情報処理装置の少なくとも一部を示す斜視図である。図２は、情報処理装置のハードウェア構成を示すブロック図である。

情報処理装置１において、演算部１２には、バス１３を介して、記憶部１４と、出力部１５と、入力部１６と、ネットワーク接続部１８とが接続される。

記憶部１４は、ＲＯＭ（Read Only Memory）と、ＲＡＭ（Random Access Memory）と、その他の半導体メモリを含む。ＲＯＭは、演算部１２が実行するプログラムやデータなどを固定的に格納する。ＲＡＭには、ＲＯＭに格納されたプログラムがロードされる。

演算部１２は、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等を含む。演算部１２は、ＲＡＭにロードされたプログラムを実行する。

出力部１５は、人間の左右の目に対応して設けられる左目用画像出力部１１Ｌ及び右目用画像出力部１１Ｒと、左耳用音声出力部１７Ｌ及び右耳用音声出力部１７Ｒとを含む。なお、以下、画像出力部１１Ｌ、１１Ｒをまとめて画像出力部１１と記載し、音声出力部１７Ｌ、１７Ｒをまとめて音声出力部１７と記載することがある。画像出力部１１は、演算部１２から受け取った情報に基づいて演算処理を行い、生成した画像信号を画面に表示する。音声出力部１７は、演算部１２から受け取った情報に基づいて演算処理を行い、生成した音声をスピーカから出力する。

入力部１６は、音声入力部１９と、ユーザの左右の眼球を撮影するための左目用カメラ１６Ｌ及び右目用カメラ１６Ｒと、検出部群１６Ｓとを含む。入力部１６は、音声入力部１９（マイクロフォン）から入力されたアナログな音声信号を、演算部１２が処理可能なデジタル信号に変換し、演算部１２に供給する。入力部１６は、カメラ１６Ｌ、１６Ｒ（視線情報取得部）が取得した視線情報や、検出部群１６Ｓが検出した情報を、ログとして記憶部１４に書き込む。典型的には、入力部１６は、ボタン等、ユーザが任意の情報を入力することが可能な情報入力部（図示せず）をさらに含む。

検出部群１６Ｓは、ユーザの生体情報と、ユーザの行動情報を判断するための情報と、ユーザの周囲の環境情報を判断するための情報とを検出する複数の検出部を含む。
ユーザの生体情報を検出する検出部の具体例としては、心拍センサ、発汗センサ、温度（体温）センサ、脳波センサ等が挙げられる。
ユーザの行動情報を取得するために用いられる情報を検出する検出部の具体例としては、ユーザの動きや姿勢（歩行、走行、停止等）を検出するための加速度センサ、ジャイロセンサ及び地磁気センサ（９軸センサ）等が挙げられる。
ユーザの周囲の環境情報を取得するために用いられる情報を検出する検出部の具体例としては、ＧＰＳ（Global Positioning System）、Ｗｉ‐ｆｉ（登録商標）、ＳＬＡＭ（Simultaneous Localization and Mapping）等の技術を利用した受信装置、ユーザの視界を撮影するための環境用カメラ、ユーザの周囲の音声（ノイズ）を検出するためのマイクロフォン、環境光の明暗を検出するための輝度センサ等が挙げられる。

ネットワーク接続部１８は、インターネット等のネットワークＮを介してサーバ装置Ｓにアクセスし、サーバ装置Ｓとの間で情報を授受する。

上記のハードウェア構成を一体として有する情報処理装置１の典型的な例として、透過型又は遮蔽型のヘッドマウントディスプレイ（Head Mount Display、以下単にＨＭＤと呼ぶ。）が挙げられる。なお、情報処理装置１のハードウェア構成の少なくとも一部は、ＨＭＤと有線又は無線で接続される電子機器（図示せず）に設けてもよい。

（１−３．情報処理装置の機能的な構成）
図３は、情報処理装置の機能的な構成を示すブロック図である。

情報処理装置１は、リスト生成部１０１と、音質／音像数決定部１０３と、ユーザ情報取得部１０２と、重なり量決定部１０４と、タイミング算出部１０５と、音質／音像割り当て部１０６と、テキスト／音声変換部１０７（音声情報取得部）と、音声合成部１０８とを有する。

リスト生成部１０１は、ネットワーク接続部１８を用いてネットワークＮを介して、データソースとしてのサーバ装置Ｓにアクセスし、サーバ装置Ｓから、ユーザが選択可能な複数の候補に関する情報を検索する。

ユーザ情報取得部１０２は、検出部群１６Ｓがセンサログ１４２に書き込んだ情報を読み出す。ユーザ情報取得部１０２は、読み出した情報をそのままユーザ情報として利用したり、読み出した情報をもとにユーザ情報を作成したりする。

音質／音像数決定部１０３は、所定数の候補それぞれを表す音声の音質／音像の数を決定する。

重なり量決定部１０４は、ユーザが選択可能な所定数の候補それぞれを表す音声同士の重なり量を決定する。

タイミング算出部１０５は、音声出力部１７がそれぞれの候補を表す音声を出力する回数を算出し、音声を出力するタイミングを算出する。

音質／音像割り当て部１０６は、複数の候補に音質及び音像を割り当てる。

テキスト／音声変換部１０７は、それぞれの候補を表すテキスト情報を、それぞれの候補を表す音声に関する音声情報に変換する。

音声合成部１０８は、それぞれの候補についての音声情報を再生する。音声出力部１７は、音声合成部１０８が再生した音声情報を、音声として左右一対のスピーカから出力する。

（１−４．情報処理装置の動作）
次に、上記機能的構成を有する情報処理装置１の動作を、複数のフローチャートを参照してより詳細に説明する。

図４は、情報処理装置の動作を示すフローチャートである。
リスト生成部１０１は、所定のアプリケーションが起動されると、ネットワーク接続部１８を用いてネットワークＮを介して、データソースとしてのサーバ装置Ｓにアクセスする。なお、本実施形態では、「所定のアプリケーション」として飲食店検索アプリケーションを例として以下説明する。リスト生成部１０１は、サーバ装置Ｓから、ユーザが選択可能な所定数の候補に関する情報を検索する。本実施形態において、「ユーザが選択可能な所定数の候補に関する情報」は、具体的には、情報処理装置１のユーザの現在地から所定距離範囲内に位置する所定数の飲食店に関する情報とする。この「飲食店に関する情報」は、例えば、飲食店の名称や重要度（本例では、ソーシャルな評価点数）など種々の情報を含む。リスト生成部１０１は、取得した情報をもとに、ユーザが選択可能な所定数の候補それぞれを表すテキスト情報を生成し、このテキスト情報を含むリストである候補リスト２００を生成する。リスト生成部１０１は、生成した候補リスト２００を、記憶部１４に格納する（ステップＳ１０１）。本例の「テキスト情報」とは、飲食店それぞれの名称である。

図５は、候補リストの一例を示す図である。
リスト生成部１０１は、例えば重要度２０３が高い順にユーザが選択可能な所定数（本例では、４個）の候補２０１それぞれを表すテキスト情報２０２（飲食店の名称）を並べ替え、記憶部１４に格納された候補リスト２００を書き換える（ステップＳ１０２、図５のＡ）。リスト生成部１０１は、候補リスト２００の生成及び並び替えが完了したことを、音質／音像数決定部１０３に通知する。なお、図５の候補リスト２００に記載した各種の値はあくまでも一例にすぎず、他の値でもよいことは言うまでもない。

通知を受けると、音質／音像数決定部１０３は、所定数の候補それぞれを表す音声の音質／音像の数を決定する（ステップＳ１０３）。ここで「音質」とは、音声出力部１７が出力する音声の音質（声質）であり、具体的には、高音／低音、男声／女声、大人の声／子どもの声などのいずれか１つであるか、あるいは、少なくとも一部の組み合わせである。「音像」とは、ユーザの感覚的な音源の方向及び距離の組み合わせである。「音質／音像の数」とは、音質と音像との組み合わせ（この組み合わせを「エージェント」と称することがある。）の数である。以下、ステップＳ１０３で音質／音像の数を決定する方法をより詳細に説明する。

図６は、音質／音像の数を決定する方法を示すフローチャートである。
音質／音像数決定部１０３は、記憶部１４に格納された設定情報１４１を参照し、情報処理装置１の性能に基づくエージェント数を決定する（ステップＳ１０３１）。「情報処理装置１の性能」とは、例えば、音声出力部１７が音声を出力可能なチャネルの数などである。「設定情報１４１」は、情報処理装置１に予め設定されている各種の情報や、ユーザが事後的に設定した各種の情報を含む。

一方、検出部群１６Ｓは、検出した情報を、記憶部１４のセンサログ１４２に書き込む。検出した情報との具体例としては、ユーザの生体情報（心拍、発汗、体温、脳波等）、加速度センサ、ジャイロセンサ及び地磁気センサ（９軸センサ）等のデータ、ＧＰＳ情報、Ｗｉ−ｆｉ情報、ＳＬＡＭ情報、環境用カメラの撮影情報、マイクロフォンの音声（ノイズ）情報が挙げられる。

ユーザ情報取得部１０２は、検出部群１６Ｓがセンサログ１４２に書き込んだ情報を読み出す。ユーザ情報取得部１０２は、読み出した情報をそのままユーザ情報として利用したり、読み出した情報をもとにユーザ情報を作成したりする。例えば、ユーザ情報取得部１０２は、読み出したユーザの生体情報（心拍、発汗、体温、脳波等）をそのまま利用する。あるいは、例えば、ユーザ情報取得部１０２は、読み出した加速度センサ、ジャイロセンサ及び地磁気センサ（９軸センサ）等のデータをもとに、ユーザの行動（動きや姿勢（走行、歩行、停止等））を判定することで、ユーザの行動情報を取得する。あるいは、例えば、ユーザ情報取得部１０２は、読み出したＧＰＳ情報、Ｗｉ−ｆｉ情報、ＳＬＡＭ情報、環境用カメラの撮影情報、マイクロフォンの音声（ノイズ）情報、環境光の輝度情報をもとに、ユーザの周囲の環境情報を判定することで、ユーザの周囲の環境情報を取得する。ユーザ情報取得部１０２は、取得したユーザ情報（ユーザの生体情報、ユーザの行動情報、ユーザの周囲の環境情報）を、音質／音像数決定部１０３及び重なり量決定部１０４に供給する。

本実施形態においては、具体的には、ユーザ情報取得部１０２は、少なくとも加速度センサの情報をもとに、ユーザの行動（活動量が所定値より大きい（運動時）、活動量が所定値以下（安静時））を判定することで、ユーザの行動情報を取得するものとする。

音質／音像数決定部１０３は、ユーザ情報取得部１０２からのユーザ情報を取得すると、ユーザ情報に基づくエージェント数を決定する（ステップＳ１０３２）。例えば、音質／音像数決定部１０３は、ユーザの活動量が所定値より大きい場合、エージェント数＝１を設定する。音質／音像数決定部１０３は、ユーザの活動量が所定値以下の場合、設定情報１４１を参照し、ユーザにより設定された（あるいは初期設定の）エージェント数を取得する。

音質／音像数決定部１０３は、情報処理装置１の性能に基づくエージェント数（ステップＳ１０３１で決定）と、ユーザ情報に基づくエージェント数（ステップＳ１０３２で決定）とのうち、最小値を最終的なエージェント数として決定する（ステップＳ１０３３）。音質／音像数決定部１０３は、決定したエージェント数を、音質／音像割り当て部１０６に通知する。

図４に戻り、一方、重なり量決定部１０４は、ユーザ情報取得部１０２からユーザ情報を取得すると、ユーザが選択可能な所定数の候補それぞれを表す音声同士の重なり量を決定する（ステップＳ１０４）。ここで「重なり量」とは、音声出力部１７より出力される、ある１つの候補を表す音声の語尾に対して、別の候補を表すその次の音声の語頭が重なる（オーバーラップする）時間（例えば、数秒以下）をいう。以下、ステップＳ１０４で重なり量を決定する方法をより詳細に説明する。

図７は、重なり量を決定する方法を示すフローチャートである。
重なり量決定部１０４は、ユーザ情報取得部１０２からユーザ情報を取得する（ステップＳ１０４１）。続いて、重なり量決定部１０４は、記憶部１４に格納された設定情報１４１を参照し、ユーザにより設定された（あるいは初期設定の）最大重なり量を取得する（ステップＳ１０４２）。

続いて、重なり量決定部１０４は、ユーザ情報（ステップＳ１０４１で取得）に基づく係数を決定する（ステップＳ１０４３）。例えば、重なり量決定部１０４は、ユーザの活動量が所定値より大きい場合（運動時）、係数＝０．０を設定する。重なり量決定部１０４は、ユーザの活動量が所定値以下の場合（安静時）、係数＝１．０を設定する。

続いて、重なり量決定部１０４は、記憶部１４に格納された候補リスト２００を参照し、それぞれの候補２０１について、重要度２０３に基づく係数を決定する（ステップＳ１０４４）。例えば、重なり量決定部１０４は、重要度が所定値より大きい候補について、係数＝０．０を設定する。重なり量決定部１０４は、重要度が所定値以下の候補について、係数＝１．０を設定する。

重なり量決定部１０４は、記憶部１４に格納された設定情報１４１を参照し、予め設定された最大重なり量を取得する。重なり量決定部１０４は、（取得した最大重なり量）×（ステップＳ１０４３で決定したユーザ情報に基づく係数）×（ステップＳ１０４４で決定したそれぞれの候補についての重要度２０３に基づく係数）を求める。重なり量決定部１０４は、それぞれの候補について、乗算により求めた値を最終的な重なり量として決定する（ステップＳ１０４５）。重なり量決定部１０４は、それぞれの候補２０１について決定した重なり量２０４を候補リスト２００に書き込み（図５のＢ）、タイミング算出部１０５に通知する。

図４に戻り、タイミング算出部１０５は、重なり量決定部１０４から通知を受けると、音声出力部１７がそれぞれの候補を表す音声を出力する回数を算出し、音声を出力するタイミングを算出する（ステップＳ１０５）。まず、タイミング算出部１０５は、記憶部１４に格納された候補リスト２００を参照し、それぞれの候補２０１について、重要度２０３に基づき、音声を出力する回数を決定する。例えば、タイミング算出部１０５は、重要度の高い候補は音声を出力する回数を多く設定し、重要度の低い候補は音声を出力する回数を少なく設定する。タイミング算出部１０５は、それぞれの候補２０１について決定した回数２０５を候補リスト２００に書き込む（図５のＣ）。続いて、タイミング算出部１０５は、重なり量２０４及び回数２０５に基づき、音声出力部１７がそれぞれの候補を表す音声を出力するタイミングを算出する。タイミング算出部１０５は、それぞれの候補２０１について算出したタイミング２０６を候補リスト２００に書き込み（図５のＤ）、テキスト／音声変換部１０７に通知する。

一方、音質／音像割り当て部１０６は、音質／音像数決定部１０３からエージェント数（ステップＳ１０３３）の通知を受けると、候補リスト２００を参照し、候補リスト２００に記録された所定数の候補２０１をエージェント数で分割する。音質／音像割り当て部１０６は、所定数の候補２０１を分割して得られた複数の（エージェント数＝１の場合は１つの）候補群それぞれに異なるエージェントを割り当てるように、候補リスト２００にエージェントとしての音質２０７及び音像２０８を書き込む（図５のＥ）。その結果、所定数の候補２０１全てに音質２０７及び音像２０８が割り当てられる（ステップＳ１０６）。例えば、音質／音像割り当て部１０６は、設定情報１４１を参照し、予め設定されている任意の音質と音像との組み合わせ（エージェント）を、エージェント数と同じ数のパターンだけ取得する。音質／音像割り当て部１０６は、取得した音質と音像との組み合わせ（エージェント）それぞれを、複数の候補群それぞれにランダムに割り当てる。ただし、エージェント数が複数の場合、音質／音像割り当て部１０６は、ある１つの候補を表す音声のエージェントと、その次に出力される別の候補を表す音声のエージェントとが異なるように、割り当てを行う。音質／音像割り当て部１０６は、候補リスト２００に音質２０７及び音像２０８の書き込みが完了したことを、テキスト／音声変換部１０７に通知する。

テキスト／音声変換部１０７は、タイミング算出部１０５及び音質／音像割り当て部１０６から通知を受けると、候補リスト２００を参照し、それぞれの候補２０１を表すテキスト情報２０２を、それぞれの候補２０１を表す音声に関する音声情報に変換する（ステップＳ１０７）。具体的には、テキスト／音声変換部１０７は、ある１つの候補２０１を表すテキスト情報２０２を、その候補２０１に割り当てられた音質２０７を反映した音声に関する音声情報に変換する。続いて、テキスト／音声変換部１０７は、生成した音声情報を加工する（ステップＳ１０８）。「音声情報を加工」する具体例としては、速度の変更や、音量の変更が挙げられる。例えば、テキスト／音声変換部１０７は、候補リスト２００に書き込まれた重要度２０３に基づき、重要度の高い候補は音声を出力する速度を低速に設定し、重要度の低い候補は音声を出力する速度を高速に設定する。あるいは、テキスト／音声変換部１０７は、重要度２０３に基づき、重要度の高い候補は音量を高く設定し、重要度の低い候補は音量を低く設定する。テキスト／音声変換部１０７は、それぞれの候補について生成した音声情報を、音声合成部１０８に供給する。なお、テキスト／音声変換部１０７は、記憶部１４に格納された設定情報１４１に基づき、音声情報を生成及び加工してもよい。

音声合成部１０８は、テキスト／音声変換部１０７から音声情報を取得すると、候補リスト２００を参照し、それぞれの候補２０１について生成した音声情報を、候補リスト２００に書き込まれた回数２０５、タイミング２０６及び音像２０８で再生する（ステップＳ１０９）。音声出力部１７は、音声合成部１０８が再生した音声情報を、音声として左右一対のスピーカから出力する（ステップＳ１１０）。

なお、本例では、「重要度」としてソーシャルな評価点数を用いたが、これに代えて、例えば、ユーザの現在地から飲食店までの距離としてもよい。飲食店が近いほど重要度を高く、遠いほど重要度を低くすればよい。

（１−５．まとめ）
ユーザが選択可能な複数の候補それぞれを表す音声をユーザに送出する技術が知られている。このような技術においては、一般に、複数の候補が順番に１つずつ読み上げられる。その結果、選択可能なすべての候補をユーザが認識するまでに時間が掛かり、ユーザが不便を感じることがある。
これに対して、本実施形態によれば、複数の候補それぞれを表す音声の少なくとも一部が重なり合って出力される。これにより、全ての音声が出力される時間が、全体として短縮されるので、ユーザが不便を感じる可能性が減る。なお、「少なくとも一部が重なり合」うとは、複数の候補それぞれを表す音声の全てが重なり合う場合も含む。

一般に、人間は、複数の人物がそれぞれ異なる発話をしているとき、話を聞くのに集中していなくても、自分が関心のある情報を選択的に聞き取ることができる（カクテルパーティー効果）。この聴覚機能が有効に達成される要因の１つとして、それぞれの人物の声の基本周波数（音質）が異なることや、それぞれの音源（声を発する人物）の方向及び距離（音像）が異なることが挙げられる。
そこで、本実施形態によれば、少なくとも、ある１つの候補を表す音声の音質／音像（エージェント）と、その次に出力される別の候補を表す音声の音質／音像（エージェント）とを異ならせる。これにより、複数の候補それぞれを表す音声の少なくとも一部が重なり合って出力されても、ユーザがそれぞれの音声を識別しやすくなる。

また、本実施形態によれば、ユーザ情報（生体情報、行動情報、環境情報）をもとに、重なり量や音質／音像（エージェント）の数を決定する。言い換えれば、ユーザ情報を基にユーザに対する生体的負荷、行動的負荷又は環境的負荷を予測し、予測される負荷に応じて重なり量や音質／音像（エージェント）の数を動的に変更する。
例えば、ユーザに対する生体的負荷、行動的負荷又は環境的負荷が低いと予測されるときには、重なり量を増やす。その結果、同時に出力される音声の数を増やしてもよい。これにより、ユーザに対する負荷が低いときには、全ての音声が出力される時間が、全体として一層短縮される。
これに対して、例えば、ユーザに対する生体的負荷、行動的負荷又は環境的負荷が高いときには、重なり量を減らす。その結果、同時に出力される音声の数を減らしてもよい。このとき、ユーザの負荷が所定の閾値を超えて高い場合には、重なり量をゼロにしてもよい。また、ユーザに対する負荷が高いときには、音質／音像（エージェント）の数を増やす。これにより、ユーザに対する負荷が高いと予測されるときには、ユーザがそれぞれの音声を一層識別しやすくなる。
さらに、本実施形態によれば、ユーザ情報だけでなく重要度にも基づいて、重なり量を動的に変更する。これにより、重なり量をより最適に選定することができる。

（２．第２の実施形態）
以下の説明において、既に説明した各実施形態に記載された構成、動作及び作用等と同様の構成、動作及び作用等は、説明を省略し、異なる点を主に説明する。また、既に説明した各実施形態に記載された構成及び動作の参照符号及びステップ番号は、同様の構成及び動作を示すものとして、以下の実施形態でも同様のものを使用する。

（２−１．第２の実施形態の構成）
第１の実施形態では、リスト生成部１０１は、ネットワークＮを介してサーバ装置Ｓから、ユーザが選択可能な複数の候補（飲食店）に関する情報を検索した。これに対して、第２の実施形態では、リスト生成部１０１は、記憶部１４から、インストール済みの複数のアプリケーションを、ユーザが選択可能な複数の候補として検索する。

図８は、第２の実施形態に係る情報処理装置の機能的な構成を示すブロック図である。
情報処理装置１Ａのリスト生成部１０１は、所定のアプリケーション（本例では、アプリケーションランチャー）が起動されると、記憶部１４から、ユーザが選択可能な所定数の候補に関する情報として、インストール済みの複数のアプリケーション１４３に関する情報を検索する。この「アプリケーション１４３に関する情報」は、例えば、アプリケーションの名称や重要度など種々の情報を含む。リスト生成部１０１は、取得した情報をもとに、ユーザが選択可能な所定数の候補それぞれを表すテキスト情報（アプリケーションの名称）を生成し、このテキスト情報のリストである候補リスト２００を生成する。

アプリケーションの「重要度」とは、例えば、アプリケーションの使用頻度、アプリケーションの最近の使用順、起動の優先度である。「重要度」が起動の優先度である場合、例えば、未読メールがある場合には、メールブラウザの起動の優先度が高いため、重要度が高く設定される。

第２の実施形態に係る情報処理装置１Ａのその他の機能は、第１の実施形態に係る情報処理装置１の機能と同様である。

（２−２．第２の実施形態の変形例）
第２の実施形態の変形例として、情報処理装置１Ａのリスト生成部１０１は、所定のアプリケーション（本変形例では、メッセージ交換アプリケーション、メールブラウザ）が起動されると、記憶部１４から、ユーザが選択可能な所定数の候補に関する情報として、メッセージ送信先に関する情報を検索する。この「メッセージ送信先に関する情報」は、例えば、メッセージ送信先である人物の名前や重要度など種々の情報を含む。リスト生成部１０１は、取得した情報をもとに、ユーザが選択可能な所定数の候補それぞれを表すテキスト情報（人物の名前）を生成し、このテキスト情報のリストである候補リスト２００を生成する。メッセージ送信先の「重要度」とは、例えば、メッセージ送受信頻度、最近のメッセージ送受信順、最終ログイン時刻が新しい（近い）順である。

（３．第３の実施形態）
（３−１．第３の実施形態の構成）
第１の実施形態では、情報処理装置１は、ユーザに対して一方的に複数の候補を提供した。これに対して、第３の実施形態では、情報処理装置は、ユーザに対してインタラクティブ（双方向的、対話的）に、選択可能な複数の候補をヒントとして提供する。

図９は、第３の実施形態に係る情報処理装置の機能的な構成を示すブロック図である。図１０は、情報処理装置の動作を示すフローチャートである。
情報処理装置１Ｂの入力部１６は、音声入力部１９（マイクロフォン）から入力されたアナログな音声信号を、演算部１２が処理可能なデジタル信号に変換し、対話部１０９に供給する。本例では、「アナログな音声信号」としてユーザの発話「レストランを検索」が入力されたとする。対話部１０９は、音声入力部１９からのデジタル信号を取得すると（ステップＳ２０１でＹｅｓ）、音声出力部１７からユーザの発話に対する応答「何が食べたいですか？」を出力する（ステップＳ２０２）。対話部１０９は、所定時間内にユーザからの応答を音声入力部１９を介して取得した場合（ステップＳ２０３でＹＥＳ）、ユーザからの発話が再び入力されるまで待機（スタンバイ）する。一方、対話部１０９は、所定時間内にユーザからの応答を音声入力部１９を介して取得しない（ユーザが所定時間沈黙した）場合（ステップＳ２０３でＮＯ）、そのことをリスト生成部１０１に通知する。リスト生成部１０１は、通知を受けると、ネットワークＮを介してサーバ装置Ｓから、ユーザが選択可能な複数の候補（飲食店、メニュー、ジャンル）に関する情報を検索する（ステップＳ１０１）。そして、ステップＳ１０１以下の動作が実行される。なお、「メニュー」の一例は「ラーメン」であり、「ジャンル」の一例は「フレンチ」である。

（３−２．第３の実施形態の変形例）
第３の実施形態の変形例として、リスト生成部１０１は、ユーザの現在地とは関係のない広義的な情報（メニュー、ジャンル）をユーザが選択可能な複数の候補として検索する場合、サーバ装置Ｓではなく、記憶部１７から情報を検索してもよい。

本実施形態では、所定時間内にユーザからの応答が音声入力部１９を介して入力されない（ユーザが所定時間沈黙した）場合、ユーザが選択可能な複数の候補を提供するための動作を開始した（ステップＳ２０３でＮＯ）。そして、対話部１０９は、所定時間内にユーザからの応答を音声入力部１９を介して取得した場合（ステップＳ２０３でＹＥＳ）、ユーザからの発話が再び入力されるまで待機（スタンバイ）した。これに代えて、以下の各変形例を採用してもよい。

一変形例として、ユーザ情報取得部１０２が、ユーザの所定の動作（ジェスチャ）を検出した場合、ユーザが選択可能な複数の候補を提供するための動作が開始されてもよい。ジェスチャの例としては、上を見上げる、うつむく、首を傾げる、顎、口元又は頭に手を当てる、目をつぶる等が挙げられる。そして、ユーザ情報取得部１０２が、ユーザが元の姿勢に戻ったことを検出した場合、ユーザからの発話が再び入力されるまで待機（スタンバイ）してもよい。

別の変形例として、入力部１６が所定のボタン操作を検出した場合、ユーザが選択可能な複数の候補を提供するための動作が開始されてもよい。そして、入力部１６が所定のボタン操作を再び検出した場合、ユーザからの発話が再び入力されるまで待機（スタンバイ）してもよい。
別の変形例として、音声入力部１９にユーザから所定の発話（「例えば？」など）が入力された場合、ユーザが選択可能な複数の候補を提供するための動作が開始されてもよい。

（４．第４の実施形態）
（４−１．第４の実施形態の構成）
第１の実施形態では、情報処理装置は、ユーザに対して、選択可能な複数の候補それぞれを表す音声を出力した。第４の実施形態では、情報処理装置は、ユーザに対して、選択可能な複数の候補それぞれを表す音声を出力するとともに、同時に、複数の候補それぞれを表す画像を出力する。

要するに、情報処理装置は、ユーザが選択可能な複数の候補それぞれを表す画像に関する画像情報を取得し、特定の候補を表す音声と前記特定の候補を表す画像とが同期して出力されるように、前記画像情報を制御するように構成された画像情報制御部１１１をさらに具備する。

図１１は、第４の実施形態に係る情報処理装置の機能的な構成を示すブロック図である。
情報処理装置１Ｃは、注視点算出部１１０と、画像情報制御部１１１とをさらに有する。

カメラ１６Ｌ、１６Ｒは、ユーザの視線情報を取得する。具体的には、カメラ１６Ｌ、１６Ｒは、ユーザの左右の眼球を撮影し、視線情報を記憶部１４の視線情報ログ１４４に書き込む。視線情報とは、ユーザの視線方向（ｘ，ｙ，ｚ）を表す情報）である。

注視点算出部１１０は、視線情報ログ１４４を参照し、視線情報（ユーザの視線方向（ｘ，ｙ，ｚ））に基づき、画像出力部１１の画面上の注視点（ｘ，ｙ）を算出する。注視点算出部１１０は、算出した注視点の位置情報である注視点情報を、画像情報制御部１１１に供給する。

リスト生成部１０１は、サーバ装置Ｓから、ユーザが選択可能な所定数の候補に関する情報を検索する。「ユーザが選択可能な所定数の候補に関する情報」（本例では、飲食店に関する情報）には、例えば、飲食店の名称や重要度に加えて、画像情報が含まれる。リスト生成部１０１が生成する候補リスト２００には、画像情報が含まれる。

タイミング算出部１０５は、それぞれの候補２０１について算出したタイミング２０６を候補リスト２００に書き込むと、テキスト／音声変換部１０７に加えて画像情報制御部１１１にも通知する。

画像情報制御部１１１は、記憶部１４に格納された候補リスト２００を参照し、それぞれの候補２０１について、画像情報を取得する。画像情報制御部１１１は、それぞれの候補２０１を表す画像情報をもとに、それぞれの候補２０１の画像のアニメーション情報を、記憶部１４の描画バッファ１４５に書き込む。ここで、画像情報制御部１１１は、それぞれの候補２０１を表す画像が、タイミング算出部１０５から通知されたタイミングで表示が開始され、且つ、画面の周辺領域から中心領域に向かって移動するようなアニメーション情報を生成する。画像情報制御部１１１は、中心領域内で複数の画像が互いに干渉しないように、表示開始位置、移動方向及び移動速度を制御する。なお「中心領域」は、注視点算出部１１０から取得した注視点を中心とし、ユーザの中心視野（視機能の精度が高い視野範囲）に相当する。「周辺領域」は、中心領域を取り囲み、ユーザの周辺視野（視機能の精度が低い視野範囲）に相当する。画像情報制御部１１１は、タイミング算出部１０５から通知されたタイミングで、それぞれの候補２０１を表す画像のアニメーション情報を、画像出力部１１に供給する。これにより、特定の候補を表す音声と、その候補を表す画像とが同期して出力される。

なお、リスト生成部１０１がサーバ装置Ｓから所定の候補について画像を取得できなかった場合は、画像情報制御部１１１は、その候補を示すテキスト情報を画像として出力すればよい。

本実施形態によれば、特定の候補を表す音声とその候補を表す画像とが同期して出力される。これにより、ユーザは、選択可能な候補を聴覚だけでなく視覚的にも認識することができるので、全ての候補を一層速く正確に識別できる。これにより、ユーザが不便を感じる可能性がさらに減る。

（４−２．第４の実施形態の変形例）
第４の実施形態の変形例として、表示される画像はアニメーションではなく静止画でもよい。あるいは、第２又は第３の実施形態と、第４の実施形態の画像出力機能とを組み合わせてもよい。

あるいは、ユーザ情報や重要度に応じて、画像の大きさ、位置、速度などを変更してもよい。例えば、ユーザ情報に基づきユーザに対する負荷が高いと予測される場合、画像を大きくしたり、注視点に近い位置に画像を表示したり、アニメーションの速度を遅くしてもよい。負荷が低いと予測される場合、画像を小さくしたり、注視点から離れた位置に画像を表示したり、アニメーションの速度を早くしてもよい。重要度が高い場合、画像を大きくしたり、注視点に近い位置に画像を表示してもよい。重要度が低い場合、画像を小さくしたり、注視点から離れた位置に画像を表示してもよい。

（５．重なり量及びエージェントの数を動的に変更するためのパラメータの具体例）
第１の実施形態において、情報処理装置は、ユーザの行動情報（運動時、安静時）に基づいて重なり量や音質／音像（エージェント）の数を動的に変更した。重なり量や音質／音像（エージェント）の数を動的に変更するためのパラメータの他の具体例としては、以下の例が挙げられる。

一例として、ユーザ情報取得部１０２は、ジャイロセンサ及び加速度センサのデータを基に、ユーザの頭部の動き情報を取得する（ヘッドトラッキング）。例えば、ユーザの頭部が激しく動いているとき（走行中等）は、ユーザは複数の候補を表す音声を正確に識別することが難しいと予測されるので、重なり量決定部１０４は重なり量を減らしたり、音質／音像数決定部１０３は音質／音像数を増やしたりする。

別の例として、ユーザ情報取得部１０２は、ＧＰＳの移動量、ＳＬＡＭの自己位置推定の相対位置、Ｗｉ−ｆｉの位置推定などに基づき、ユーザの移動速度（走行、歩行、停止）を検出する。第１の実施形態と同様に、ユーザが高速に動いているとき（走行時）は、ユーザは複数の候補を表す音声を正確に識別することが難しいと予測されるので、重なり量決定部１０４は重なり量を減らしたり、音質／音像数決定部１０３は音質／音像数を増やしたりする。

別の例として、ユーザ情報取得部１０２は、学習機能を有し、検出部群１６Ｓの検出情報を蓄積してユーザの行動（座位、階段昇降、車両運転、会話中等）を予測してもよい。例えば、ユーザの行動として車両運転や会話中が予測されるときには、重なり量決定部１０４は重なり量を減らしたり、音質／音像数決定部１０３は音質／音像数を増やしたりする。学習機能の別の例として、ユーザ情報取得部１０２は、ユーザが音声をリプレイした場合のノイズや心拍数などを蓄積しておく。そのノイズや心拍数などを検出した場合には、ユーザが音声を聞き取りにくい状態であることが予測されるので、重なり量決定部１０４は重なり量を減らしたり、音質／音像数決定部１０３は音質／音像数を増やしたりする。

別の例として、ユーザ情報取得部１０２は、心拍センサにより検出された心拍数が閾値以上のとき、又は、発汗センサにより検出された発汗値が閾値以上のとき、ユーザが緊張状態にあると判断する。ユーザが緊張状態にあるときは、ユーザは複数の候補を表す音声を正確に識別することが難しいと予測されるので、重なり量決定部１０４は重なり量を減らしたり、音質／音像数決定部１０３は音質／音像数を増やしたりする。

別の例として、ユーザ情報取得部１０２は、ユーザの周囲の音声（ノイズ）を検出するためのマイクロフォンにより検出されたノイズが閾値以上のとき、ユーザの周囲が騒音環境であると判断する。ユーザの周囲が騒音環境であるときは、ユーザは複数の候補を表す音声を正確に識別することが難しいと予測されるので、重なり量決定部１０４は重なり量を減らしたり、音質／音像数決定部１０３は音質／音像数を増やしたりする。

（６．その他の実施形態）
第１の実施形態では、重なり量決定部１０４は、ユーザ情報及び重要度に基づいて重なり量を決定した。重なり量決定部１０４は、さらにエージェント数にも基づいて重なり量を決定してもよい。例えば、重なり量決定部１０４は、エージェント数が多いとき、重なり量を大きく設定すればよい。異なる複数の種類のエージェント（音質及び音像の組み合わせ）を用いることで、重なり量を増やしても、ユーザがそれぞれの音声を識別しやすくなる。また、全ての音声が出力される時間が、全体として一層短縮される。

第１の実施形態では、音質／音像割り当て部１０６は、複数の候補それぞれに、音質及び音像をランダムに割り当てた。これに代えて、音質／音像割り当て部１０６は、重要度やユーザ情報に基づいて音質及び音像を選定してもよい。要するに、音質／音像割り当て部１０６は、前記複数の候補それぞれの重要度をもとに、前記複数の候補それぞれを表す音声の音質及び／又は音像を決定するように構成されてもよい。

一般に、周波数帯の観点から、男声より女声が聞き取りやすいとされる。例えば、音質／音像割り当て部１０６は、重要度が高い候補を女声とし、重要度が低い候補を男声としてもよい。あるいは、音質／音像割り当て部１０６は、ユーザ情報を基に予測されるユーザに対する負荷が高いと予測されるときには女声を用いる候補の数を増やし、負荷が低いと予測されるときには女声を用いる候補の数を減らしてもよい。

情報処理装置の典型的な例は、出力部１５、入力部１６及びネットワーク接続部１８等を一体として有する透過型又は遮蔽型のＨＭＤとした。これに代えて、情報処理装置は、入力部１６を有するモバイル機器（スマートフォン等）又はウェアラブル機器（リストバンド型、ペンダント型等）と、音声出力部１７を有するヘッドフォン（オープンタイプ、首掛けタイプ含む）と、画像出力部１１を有するウェアラブル機器（ＨＭＤ等）との組み合わせであってもよい。あるいは、情報処理装置は、入力部１６を有する据え置き型機器（パーソナルコンピュータ、セットトップボックス等）と、音声出力部１７を有するスピーカシステムと、画像出力部１１を有する据え置き型機器（テレビジョン受像機、プロジェクタ等）との組み合わせであってもよい。

あるいは、情報処理装置は、ユーザ情報を取得するように構成された電子機器と、ネットワークを介して接続可能なサーバ装置との組み合わせであってもよい。この場合、サーバ装置は、記憶部に格納される情報のうち少なくとも一部を電子機器から受信して記憶し、上記各実施形態において情報処理装置が実行した処理のうち少なくとも一部を実行し、処理済みのデータを電子機器へ送信する。例えば、サーバ装置は、上記各実施形態において情報処理装置が実行した処理のうち、音声出力以外の処理を実行してもよい。

上記各実施形態及び変形例の各機能部として情報処理装置を機能させるプログラムは、非一過性の記録媒体（non-transitory computer readable medium）に格納されうる。

なお、本技術は以下のような構成もとることができる。
（１）ユーザが選択可能な複数の候補それぞれを表す音声に関する複数の音声情報を取得するように構成された音声情報取得部と、
前記複数の候補それぞれを表す音声の少なくとも一部が重なり合って出力されるように、前記複数の音声情報を合成するように構成された音声合成部
とを具備する情報処理装置。
（２）上記（１）に記載の情報処理装置であって、
前記複数の候補それぞれを表す音声の重なり量を決定するように構成された重なり量決定部
をさらに具備する情報処理装置。
（３）上記（２）に記載の情報処理装置であって、
前記重なり量決定部は、ユーザに関して検出された情報であるユーザ情報をもとに、前記複数の候補それぞれを表す音声の重なり量を決定するように構成される
情報処理装置。
（４）上記（３）に記載の情報処理装置であって、
前記ユーザ情報は、ユーザの生体情報と、ユーザの行動情報と、ユーザの周囲の環境情報との少なくとも何れか１つを含む
情報処理装置。
（５）上記（２）から（４）のいずれか１つに記載の情報処理装置であって、
前記重なり量決定部は、前記複数の候補それぞれの重要度をもとに、前記複数の候補それぞれを表す音声の重なり量を決定するように構成される
情報処理装置。
（６）上記（１）から（５）のいずれか１つに記載の情報処理装置であって、
ユーザが選択可能な複数の候補それぞれを表す画像に関する画像情報を取得し、
特定の候補を表す音声と前記特定の候補を表す画像とが同期して出力されるように、前記画像情報を制御するように構成された画像情報制御部
をさらに具備する情報処理装置。
（７）上記（１）から（６）のいずれか１つに記載の情報処理装置であって、
前記複数の候補それぞれを表す音声の少なくとも一部の、音質及び／又は音像が異なるように、前記複数の候補それぞれを表す音声の音質及び／又は音像を変更するように構成された音質／音像割り当て部
をさらに具備する情報処理装置。
（８）上記（７）に記載の情報処理装置であって、
前記音質／音像割り当て部は、前記ユーザ情報をもとに、前記複数の候補それぞれを表す音声の音質及び／又は音像を決定するように構成される
情報処理装置。
（９）上記（７）又は（８）に記載の情報処理装置であって、
前記音質／音像割り当て部は、前記複数の候補それぞれの重要度をもとに、前記複数の候補それぞれを表す音声の音質及び／又は音像を決定するように構成される
情報処理装置。
（１０）ユーザが選択可能な複数の候補それぞれを表す音声に関する複数の音声情報を取得し、
前記複数の候補それぞれを表す音声の少なくとも一部が重なり合って出力されるように、前記複数の音声情報を合成する
情報処理方法。
（１１）ユーザが選択可能な複数の候補それぞれを表す音声に関する複数の音声情報を取得するように構成された音声情報取得部と、
前記複数の候補それぞれを表す音声の少なくとも一部が重なり合って出力されるように、前記複数の音声情報を合成するように構成された音声合成部
としてコンピュータを機能させるプログラム。
（１２）ユーザが選択可能な複数の候補それぞれを表す音声に関する複数の音声情報を取得するように構成された音声情報取得部と、
前記複数の候補それぞれを表す音声の少なくとも一部が重なり合って出力されるように、前記複数の音声情報を合成するように構成された音声合成部
としてコンピュータを機能させるプログラムを格納した非一過性の記録媒体。

１，１Ａ，１Ｂ，１Ｃ…情報処理装置
１０１…リスト生成部
１０２…ユーザ情報取得部
１０３…音質／音像数決定部
１０４…重なり量決定部
１０５…タイミング算出部
１０６…音質／音像割り当て部
１０７…テキスト／音声変換部
１０８…音声合成部
２００…候補リスト

Claims

ユーザが選択可能な複数の候補それぞれを表す音声に関する複数の音声情報を取得するように構成された音声情報取得部と、
前記複数の候補それぞれを表す音声の少なくとも一部が重なり合って出力されるように、前記複数の音声情報を合成するように構成された音声合成部
とを具備する情報処理装置。
請求項１に記載の情報処理装置であって、
前記複数の候補それぞれを表す音声の重なり量を決定するように構成された重なり量決定部
をさらに具備する情報処理装置。
請求項２に記載の情報処理装置であって、
前記重なり量決定部は、ユーザに関して検出された情報であるユーザ情報をもとに、前記複数の候補それぞれを表す音声の重なり量を決定するように構成される
情報処理装置。
請求項３に記載の情報処理装置であって、
前記ユーザ情報は、ユーザの生体情報と、ユーザの行動情報と、ユーザの周囲の環境情報との少なくとも何れか１つを含む
情報処理装置。
請求項４に記載の情報処理装置であって、
前記重なり量決定部は、前記複数の候補それぞれの重要度をもとに、前記複数の候補それぞれを表す音声の重なり量を決定するように構成される
情報処理装置。
請求項５に記載の情報処理装置であって、
ユーザが選択可能な複数の候補それぞれを表す画像に関する画像情報を取得し、
特定の候補を表す音声と前記特定の候補を表す画像とが同期して出力されるように、前記画像情報を制御するように構成された画像情報制御部
をさらに具備する情報処理装置。
請求項６に記載の情報処理装置であって、
前記複数の候補それぞれを表す音声の少なくとも一部の、音質及び／又は音像が異なるように、前記複数の候補それぞれを表す音声の音質及び／又は音像を変更するように構成された音質／音像割り当て部
をさらに具備する情報処理装置。
請求項６に記載の情報処理装置であって、
前記音質／音像割り当て部は、前記ユーザ情報をもとに、前記複数の候補それぞれを表す音声の音質及び／又は音像を決定するように構成される
情報処理装置。
請求項８に記載の情報処理装置であって、
前記音質／音像割り当て部は、前記複数の候補それぞれの重要度をもとに、前記複数の候補それぞれを表す音声の音質及び／又は音像を決定するように構成される
情報処理装置。
ユーザが選択可能な複数の候補それぞれを表す音声に関する複数の音声情報を取得し、
前記複数の候補それぞれを表す音声の少なくとも一部が重なり合って出力されるように、前記複数の音声情報を合成する
情報処理方法。
ユーザが選択可能な複数の候補それぞれを表す音声に関する複数の音声情報を取得するように構成された音声情報取得部と、
前記複数の候補それぞれを表す音声の少なくとも一部が重なり合って出力されるように、前記複数の音声情報を合成するように構成された音声合成部
としてコンピュータを機能させるプログラム。